1. “云上进化”2022全球AI生物智药大赛回顾总结

    “云上进化”2022全球AI生物智药大赛是由阿里云联合NVIDIA、角井科技共同主办。赛道一,赛题为“基于AI算法的SARS-CoV-2广谱中和抗体药物设计”该赛题旨在预测新冠病毒抗体与主要变异株之间的亲和力和活性。比赛提供了一个包含变异株信息、抗体序列以及丰富的亲和力和活性实验结果的表格数据。

    任务描述

    简化


  2. scGNN is a novel graph neural network framework for single-cell RNA-Seq analyses

    主要分为三个部分

    • LTMG预处理单细胞表达矩阵“转换”信号;
    • 一个以细胞聚类任务收敛为目的的迭代过程,包括三个部分。1.Feature autoencoder,两个输入:来自第一步的正则化矩阵;初始化迭代来自预处理过的表达矩阵,之后输入就来自迭代最后一部分重构的表达矩阵。2.使用上一步自编码器得到的细胞的embedding构建cell graph然后作为Graph autoencoder的输入,然后使用graph embedding做细胞聚类。3.Cluster autoencoder,重构基因表达值,每个细胞类型中的细胞都有一个单独的cluster自编码器。
    • Imputation autoencoder

  3. Unsupervised Spatially Embedded Deep Representation of Spatial Transcriptomics

    目的

    优化转录数据和空间信息的整合,和stlearn类似,stLearn用的形态学信息,stLearn虽然用了卷积提取了图片的语义信息,但是是用的一个通用的预训练模型然后在形态学图片上做的fine-tune
    空间转录组的数据可以分为三部分:基因表达、空间信息、形态学信息


  4. Revised JNLPBA Corpus

    本文的动机是JNLPBA语料中有许多错误、漏标,导致下游的关系抽取不好做,所以本文总结了JNLPBA数据集中的错误(这些点也都出现在其他生物医学语料中),并重新纠正标注了这些错误,总结了重新标注的规范。

    原文

    Revised JNLPBA Corpus: A Revised Version of Biomedical NER Corpus for Relation Extraction Task


  5. Automatic cell type identification methods for single-cell RNA sequencing

    任务描述

    Xie B et al(2021)描述了一个unlabel rate以及肿瘤相关的specificity和sensitivity,具体来说是评估一个模型能不能预测unlabel cell type以及,当用正常组织细胞训练,对预测肿瘤细胞做预测,将unlabel的预测结果看作是恶性细胞。


  6. BioNLP数据集整理

    20210830-151458.png
    图片来自于“Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing”


  7. A Unified MRC Framework for Named Entity Recognition

    把ner的序列标注问题做成是一个阅读理解的问题(MRC)。把训练数据变成(上下文,问题,答案),训练的时候BERT的输入是把问题和上下文连起来用[SEP]分开,前后各加一个[CLS]。这就是为了和BERT保持一致。然后BERT的输出把第一句问题的表示向量给删了,只要后面上下文的表示向量。然后后面接了一个match model


  8. Joint Biomedical Entity and Relation Extraction with Knowledge-Enhanced Collective Inference

    提出一个新的利用外部知识的联合抽取框架KECI (Knowledge-Enhanced Collective Inference)

    要点

    分三步:

    1. 将input text结构化为初始化图(initial span graph),作为对输入文本的初步理解。在一个span graph里每个node表示一个entity,每条edge表示两个entity的relation
    2. 然后在一个额外的知识库里使用entities linker形成一个包含所有潜在有关联的生物医学实体的背景知识图(background knowledge graph),对于每个entity从上面提到的知识库(KB)里提取它的semantic types,definition sentence以及relational information
    3. 最后KECI使用注意力机制融合上述两个graph成一个更refined的graph

  9. A Unified Generative Framework for Various NER Subtasks

    核心思想:不做序列标注了,把ner任务转换成文本生成任务,用一个seq2seq模型去生成一个entity span sequence,这样就不需要设计复制的tagging模式了

    seq2seq模型是用的BART

    原文

    A Unified Generative Framework for Various NER Subtasks


  10. Knowledge Enhanced Contextual Word Representations

    贡献

    创新点

    用的实体链接,在原生预训练模型的两层之间加入实体链接层,把实体在KG中相关的entity embedding加到下一层的预训练模型