本文的动机是JNLPBA语料中有许多错误、漏标,导致下游的关系抽取不好做,所以本文总结了JNLPBA数据集中的错误(这些点也都出现在其他生物医学语料中),并重新纠正标注了这些错误,总结了重新标注的规范。
原文
Revised JNLPBA Corpus: A Revised Version of Biomedical NER Corpus for Relation Extraction Task
JNLPBA标注问题
Problem of general terms
会把一些普通的词标注到生物医学实体中去,特定的实体必须是能在数据库里清晰的找到的,而不是一些大的生物医学概念。比如下面
_Substitution mutations in this consensus sequence eliminate binding of the inducible factor._
两个标黑的地方分别被误标为DNA和蛋白质了
Unnecessary preceding words
实体前面一些没必要的修饰词,比如
_Expression of dominant negative MAPKK-1 prevents NFAT induction._
dominant negative只是一种变异类型,不能和MAPKK-1一起标为蛋白质。不过也有些有必要的修饰词,文中提到human和murine作为物种可以对IL-2在数据库中对应基因ID起决定作用,所以这个中词要被划到实体里(不过这里我认为,物种应该划为物种的实体,然后物种和基因有从属关系,这样才是细粒度的,对后面关系抽取也有益)
Entity type confusion
其实就是一些标错的,例子如下:
_“… that the type II IL-1R does not mediate gene activation in Jurkat cells.”_
_“…galectin-3 was shown to activate interleukin-2 production in Jurkat T cells.”_
这俩应该都是cell line,但是第二个因为多了个T被标为了cell type
Neglected adjacent clues
也是标错的,根据实体周围的一些修饰词可以简单判断标错的
_“The 5’ sequences up to nucleotide -120 of the human and murine IL-16 genes …”_
IL-16这里被表为了蛋白质,但是后面有个genes,所以这里应该标为基因
Missing annotations
漏标,大的语料库很难避免
_“Three additional smaller regions show homology to the ELK-1 and SAP-1 genes…”_
通过查询GENIA ontology,发现ELK-1被漏标了
重新标注的Guideline
本文用了两位有生物+计算机背景的人分别做标注,然后综合结果
一般规则
- 删除普通命名实体,只要不能被关联到数据库中的任何ID的视为普通实体,比如_“upstream regulatory region”, “60-kDa protein” and “cytokines”_
- 增加漏标的实体,上文提到的
- 调整命名实体类型,上文提到的
特殊规则
有很多,最重要的一条是,当命名实体周围没有任何证据证明它的实体类型时,这个实体被标为蛋白质,比如_“An essential role for NF-kappaB in human CD34 ( + ) bone marrow cell survival.”_中,NF-kappaB不能根据上下文确定它的类型,则被标为蛋白质。因为执行生命过程的分子是蛋白质。
- 形容词规则,同_unnecessary_preceding_words_
- Verb rule Ving Event adjective verb rule,连接词前后有时候当作一个实体,有时候分别和最后一个词组成两个实体
- Preposition rule,介词含在NE里的
- Parenthesis rule,_“tumor necrosis factorprotein (TNFprotein)”_和_“interleukin (IL) -2protein”_
- Conjunction rule,_“IL-1, 2, and 15”_会被标记为“IL-1protein , 2right_partial_protein, and 15right_partial_protein”
- Semantic rule,将_“human gene PAX-5”_标注为_“human gene PAX-5DNA”_(存疑,见_unnecessary_preceding_words_)
- Protein rule,关于蛋白质前后缀的,比如_“motif”、“domain”_是描述蛋白质的部分,而不是全部,所以不包含在蛋白质命名实体内,其他的关键词,如_protein, receptor, antigen, antibody, enzyme, (transcription) factor and kinase_以这些词结尾的都将被标为蛋白质。此外还有一些分子相关的线索的也将被标为蛋白质(应该是符合最重要的那条规则)
- DNA rule,一些明显的描述DNA序列功能的后缀,比如_“enhancer”、“promoter”_是DNA的一部分;另外,比如_“AP-1 enhancer element”, “bcl-2 oncogene”, “gene UL49” and “FasL promoter”_也都是DNA;还有的包含染色体信息的DNA,比如_human chromosome 11p15, 1p36 and 14q11_;还有一些比较隐晦的,比如_“Pax-5 encodes the transcription factor BSAP which plays an essential role …”_,在这个句子中,Pax-5只有通过_encodes_推理得出只有DNA才具有编码能力(我估计这里没考虑RNA,或者把RNA和DNA视为一种);最后还有一种特殊的描述克隆的DNA质粒的方式,比如_“pCD41”, “pIL-5 cDNA”_在实体前都有一个_“p”_
- Cell rule,cell line的规则:1.有明显的cell line描述符号,_“Hela”, “Hep2” and “A549”_;2.常见的细胞名称,或者以关键词_“cell line” or “clone”_结尾的细胞形态、细胞功能描述,都视为cell line,比如_“T cell line”, “granulocytic clones” and “monocytic cell line”_。cell type的规则:提到特定的细胞类型,以_“cell”, “progenitor” or “precursors”_结尾的细胞形态和功能标注为cell type,比如_“thymocytes”, “hematopoietic cells” and “myeloid precursors”_
- Complex rule,_“
/ ”_这样的描述被标注为一个蛋白质,比如_“TCR/CD3”_被标注为_“TCR/CD3protein”_ - Amino or DNA sequence rule,氨基酸/DNA序列不被标注为命名实体,比如_“WGATAR consensus motifs” and “GGAAAGTCCC”_
- Group/family protein,虽然蛋白质家族不在Entrez/UniProt数据库中,但是因为他们在RE中很重要,所以本文还是标注出它们