二十一世纪是生命科学的

2024 Mammoth International Contest On Omics Sciences in Europe

2024-07-05
GraphST

2024-06-19
xTrimoGene

2024-06-15
“云上进化”2022全球AI生物智药大赛回顾总结

2023-02-24

“云上进化”2022全球AI生物智药大赛是由阿里云联合NVIDIA、角井科技共同主办。赛道一，赛题为“基于AI算法的SARS-CoV-2广谱中和抗体药物设计”该赛题旨在预测新冠病毒抗体与主要变异株之间的亲和力和活性。比赛提供了一个包含变异株信息、抗体序列以及丰富的亲和力和活性实验结果的表格数据。

任务描述
scGNN is a novel graph neural network framework for single-cell RNA-Seq analyses

2022-08-21
主要分为三个部分
- LTMG预处理单细胞表达矩阵“转换”信号；
- 一个以细胞聚类任务收敛为目的的迭代过程，包括三个部分。1.Feature autoencoder，两个输入：来自第一步的正则化矩阵；初始化迭代来自预处理过的表达矩阵，之后输入就来自迭代最后一部分重构的表达矩阵。2.使用上一步自编码器得到的细胞的embedding构建cell graph然后作为Graph autoencoder的输入，然后使用graph embedding做细胞聚类。3.Cluster autoencoder，重构基因表达值，每个细胞类型中的细胞都有一个单独的cluster自编码器。
- Imputation autoencoder
Unsupervised Spatially Embedded Deep Representation of Spatial Transcriptomics

2022-03-22

目的
优化转录数据和空间信息的整合，和stlearn类似，stLearn用的形态学信息，stLearn虽然用了卷积提取了图片的语义信息，但是是用的一个通用的预训练模型然后在形态学图片上做的fine-tune
空间转录组的数据可以分为三部分：基因表达、空间信息、形态学信息
Revised JNLPBA Corpus

2022-02-20

本文的动机是JNLPBA语料中有许多错误、漏标，导致下游的关系抽取不好做，所以本文总结了JNLPBA数据集中的错误（这些点也都出现在其他生物医学语料中），并重新纠正标注了这些错误，总结了重新标注的规范。

原文
Revised JNLPBA Corpus: A Revised Version of Biomedical NER Corpus for Relation Extraction Task
Automatic cell type identification methods for single-cell RNA sequencing

2021-12-22

任务描述
Xie B et al(2021)描述了一个unlabel rate以及肿瘤相关的specificity和sensitivity，具体来说是评估一个模型能不能预测unlabel cell type以及，当用正常组织细胞训练，对预测肿瘤细胞做预测，将unlabel的预测结果看作是恶性细胞。
BioNLP数据集整理

2021-09-23

图片来自于“Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing”
A Unified MRC Framework for Named Entity Recognition

2021-08-27

把ner的序列标注问题做成是一个阅读理解的问题(MRC)。把训练数据变成(上下文，问题，答案)，训练的时候BERT的输入是把问题和上下文连起来用[SEP]分开，前后各加一个[CLS]。这就是为了和BERT保持一致。然后BERT的输出把第一句问题的表示向量给删了，只要后面上下文的表示向量。然后后面接了一个match model

任务描述

主要分为三个部分

目的

原文

任务描述