1. Joint Biomedical Entity and Relation Extraction with Knowledge-Enhanced Collective Inference

    提出一个新的利用外部知识的联合抽取框架KECI (Knowledge-Enhanced Collective Inference)

    要点

    分三步:

    1. 将input text结构化为初始化图(initial span graph),作为对输入文本的初步理解。在一个span graph里每个node表示一个entity,每条edge表示两个entity的relation
    2. 然后在一个额外的知识库里使用entities linker形成一个包含所有潜在有关联的生物医学实体的背景知识图(background knowledge graph),对于每个entity从上面提到的知识库(KB)里提取它的semantic types,definition sentence以及relational information
    3. 最后KECI使用注意力机制融合上述两个graph成一个更refined的graph

  2. A Unified Generative Framework for Various NER Subtasks

    核心思想:不做序列标注了,把ner任务转换成文本生成任务,用一个seq2seq模型去生成一个entity span sequence,这样就不需要设计复制的tagging模式了

    seq2seq模型是用的BART

    原文

    A Unified Generative Framework for Various NER Subtasks


  3. Knowledge Enhanced Contextual Word Representations

    贡献

    创新点

    用的实体链接,在原生预训练模型的两层之间加入实体链接层,把实体在KG中相关的entity embedding加到下一层的预训练模型


  4. KEPLER

    KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation

    这篇论文提出一种模型能统一知识embedding和预训练语言表示(Knowledge Embeddingand Pre-trained LanguagE Representation (KEPLER))


  5. K-ADAPTER

    大多数之前的工作通过多任务学习来注入知识和更新模型参数以增强预训练语言模型。不管他们用了哪些方法做知识注入,遇到的共同问题就是对前面知识的灾难性遗忘。figure1a
    figure1b是我们提出的K-ADAPTER,不同类型的知识被注入到不同的袖珍神经网络模型(比如本文中的adapter),他们之间互相独立,而不是直接注入到预训练模型。这样既能固定预训练模型的原始表示,又支持继续知识注入。adapter是一个含有特定知识的模型,是独立于预训练模型之外的插件。


  6. CoLAKE

    提出了一个方法可以同时做语言和知识的表征,并且在需要知识的任务中有较好的表现,在一些NLU(不太需要知识)的任务也没有降很多。
    把输入的句子看成是一个全连接的graph,即word graph。然后根据句子中的实体到知识图谱中找一级三元组,只找对应实体的第一层邻居。然后将句子中的实体作为锚点(ancher node),以锚节点为中心抽出sub-knowledge-graph,然后根据锚点将sub-knowledge-graph和word graph合并。这是示意图是这样的,实际操作起来,在输入的时候这些node也是序列摆放,他们的graph结构是通过position embedding和mask矩阵来体现的。


  7. RoBERTa

    主要是训练方法上的创新,该paper认为bert的训练明显不够,他们对超参调优和训练集大小的影响的仔细评估。提出RoBERTa这个recipe来提高BERT的训练效果。


  8. A Novel Cascade Binary Tagging Framework for Relational Triple Extraction

    以一个新的角度去提取关系三元组,以前的工作都是把关系看作一个离散的标签,而本文的框架(CasRel)则将一个句子里的关系建模为subjects到objects的函数。这个方法还能自然解决关系重叠的问题。


  9. 研究方向调研

    我所在的项目组主要是做代谢病的基因突变位点致病性预测的工作,对预测到的相关基因和突变位点做验证需要查阅大量文献,我负责后面这块文献中基因、突变、疾病等生物医学相关实体的关系提取。


  10. 读BWA源码