研究方向调研

我所在的项目组主要是做代谢病的基因突变位点致病性预测的工作,对预测到的相关基因和突变位点做验证需要查阅大量文献,我负责后面这块文献中基因、突变、疾病等生物医学相关实体的关系提取。

问题定义

  1. sentence level : 输入一篇document按句子分割,然后对每个包含有两个目标实体(例如同时含有基因和疾病)的句子做关系分类
  2. document level : 输入一篇document统计整个document里两类目标实体的个数,然后对所有的关系可能(两类个数之积)做关系分类[1]
  3. 三元组(细粒度) : (Gene;Function change;disease)其中Function change有四种表示:Loss of Function(LOF),Gain of Function(GOF)表示功能激活和失活,Regulation(REG)表示未知或者功能无变化,Complex(COM)表示疾病和基因间的关系比较复杂[2]

sentence level

使用biobert的预训练模型在GAD数据集(基因-疾病)上微调完成sentence level的关系抽取[3]
GAD数据集示例

1
2
3
this study proposes that A/A genotype at position -607 in @GENE$ gene can be used as a new genetic maker in Thai population for predicting @DISEASE$ development.       1
@GENE$ methylation occurs frequently in human colonic @DISEASE$ and cancers and is closely associated with K-ras mutations. 0
In conclusion, @GENE$ 8092C > A polymorphism may modify the associations between cumulative cigarette smoking and @DISEASE$ risk. 1

后续可优化方向↓↓↓↓↓↓↓↓↓↓

数据集扩充

利用一些突变数据库比如 ClinVar 和COSMIC 含有的关系对扩充Mutation-gene relation sentence 数据集[1]利用PharmGKB 扩充Mutation-drug relation sentence 数据集。基本方法就是用已知关系对到文本中比对,至少同时含有的句子作为候选句,然后经过一系列筛选得到最终的正负句子集。

结构化模型[4]

指代消解

有时候两个关系的实体不是在一个句子中出现,有一种情况就是代词代指了上文中的某个实体。

document level

Deep learning of mutation-gene-drug relations from the literature这篇文章中提到的方法是在整个document的尺度上做一些特征工程,比如实体之间的距离和出现的频率。同时也给出了一个doc-level的关系语料库[5]
doc-level其实也比较符合生物文献知识提取的需求,只需要知道一篇文章里确定了哪些实体间的关系,在这个尺度上也能避免处理复杂关系的问题。但是难点在于如何做语义上的特征提取,上述文献中提到的方法是用的传统机器学习。

三元组(细粒度)

有一些根据已有数据库做张量分解的工作,没有细看GOF/LOF knowledge inference with tensor decomposition in support of high order link discovery for gene, mutation and disease

总结

以上已经做的和后面可能要做的都是基于工作考虑,至于学术方面,最近浏览了几篇今年的ACL有一些启发。
A Novel Cascade Binary Tagging Framework for Relational Triple Extraction这篇文章考虑一个句子中可能含有多种三元组关系,提出了一个新的命名实体标注结构,使后续关系抽取检测到多重关系的性能提高。
More Data, More Relations, More Context and More Openness: A Review and Outlook for Relation Extraction这篇综述里提到了关系抽取的四个发展方向:

  1. 利用更多数据现有的方法和上面数据扩充中讲的差不多
  2. 进行更有效的学习
  3. 处理更复杂的上下文
  4. 面向更多开放域

参考