“云上进化”2022全球AI生物智药大赛回顾总结

“云上进化”2022全球AI生物智药大赛是由阿里云联合NVIDIA、角井科技共同主办。赛道一,赛题为“基于AI算法的SARS-CoV-2广谱中和抗体药物设计”该赛题旨在预测新冠病毒抗体与主要变异株之间的亲和力和活性。比赛提供了一个包含变异株信息、抗体序列以及丰富的亲和力和活性实验结果的表格数据。

任务描述

简化

比赛提供的数据字段非常丰富,简单来讲,已知抗原和抗体的氨基酸序列和一些反映亲和力和活性的实验值,要求预测亲和力和活性。这个问题比较灵活,可以看作是有监督也可以看作是无监督的,可以是回归问题也可以是分类问题。

任务描述

数据预处理

数据补全

预处理
我们首先对实验数据进行了可视化分析,发现存在大量缺失,如上图所示。FCAS基本全部缺失,训练数据中的SPR也完全缺失。后面提供的补充数据ELISA和SPR可以做一个回归映射,然后补全训练数据里面的SPR。
回归
另外,抗体活性的数据集中,用活病毒中和值预测假病毒中和值。这样预测亲和力和活性就被转化为两个有监督的回归问题。

数据扩增

氨基酸增强
Shen H等人[1]总结了六种氨基酸序列扩增的方法,分别是:

  1. 氨基酸字典替换;
  2. 丙氨酸替换;
  3. 序列全局打乱;
  4. 序列局部打乱;
  5. 序列反转;
  6. 序列采样。

在线下比较了氨基酸字典替换、丙氨酸替换和序列采样三种方法,其中氨基酸字典替换的效果最好。出于稳定性的考虑在最终的线上提交方案中没有使用氨基酸的序列增强方法。

核酸序列增强

Minot M等人[2]提出了一种基于核酸密码子简并性的序列增强方法,原文里面有离线增强和在线增强两种方法。在本次比赛中,只在核酸层面的特征提取中使用了离线增强,线上线下都有明显提升,不过在最终方案中没有使用该增强方法,主要是考虑到要在多个层面抽取特征,如果不同层面的样本不一样,在特征融合方面不好操作。但是如果最后选择ensemble策略融合预测结果,可以从离线和在线的方式都尝试一下这个方法。

模型架构

模型架构
对于输入的抗原和抗体氨基酸序列进行分子生物学上三个层面的特征抽取:1、氨基酸序列层面,使用ESM-2预训练语言模型,ESM-2模型的预训练基于大规模的蛋白质序列数据,采用自监督学习方法,通过预测缺失的蛋白质序列片段来训练模型。ESM-2模型是在ESM-1模型的基础上进行改进的,主要通过增加模型大小和训练数据集来提高预测性能;2、核酸层面,将输入的氨基酸序列通过密码子反翻译回核酸序列,然后使用GenSLMs对核酸序列进行特征编码。GenSLMs是在大量原核生物基因序列上预训练得到的语言模型,GenSLMs中含有一些遗传进化的信息,所以在对蛋白质的编码中也能起到非常重要的作用;3、蛋白质结构层面,使用ESMFold预测抗原抗体复合物的结构,然后使用ProteinMPNN的编码层对结构文件进行解析,得到复合物结构的图特征。序列特征和结构特征的融合,采用的策略是将序列特征映射到图节点上,然后再通过图模型进行充分传递。在训练的时候,虚线框内的网络参数都进行更新,ProteinMPNN的编码层也进行微调。这样的策略在线上提交中取得了更好的成绩。

GenSLMs
GenSLMs[3]通过在1.1亿个原核生物基因序列上进行预训练,构建了一个能学习基因组进化的基因组尺度上的语言模型。然后在150万个SARS-CoV-2基因组上微调了一个特异的模型。通过实验表明GenSLMs是可以快速、精确的识别突变。原文的任务就是VOCs(variants of concern)的早期识别,VOCs是美国CDC对新冠病毒突变的四个分类的其中之一。这样有利于及时的制定卫生干预策略,以及更好地为疫苗设计提供关于新出现变异的信息。

一些探索

equidock
抗原和抗体序列通过ESMFold得到结构信息后,使用蛋白质-蛋白质对接模型equidock[4],对两个分子结构进行配受体复合物编码,可能会比MLP仅从ESMFold中提取的特征更好地捕获到复合体结构信息。

比赛总结

参加这个赛题让我深刻认识到了深度学习在生命科学领域中的应用和潜力。比赛提供的数据集非常丰富,包含了抗原和抗体的氨基酸序列以及反映亲和力和活性的实验值,但同时也存在很多挑战。比如,不同实验结果之间可能存在复杂的关系,而这种关系需要建立合适的模型来解释。此外,蛋白复合物对接预测以及蛋白质残基的生物学特性先验知识融合也是优化的方向之一。
虽然比赛时间有限,但通过参加比赛,我学到了很多关于深度学习和生命科学的知识,并且也实践了很多数据分析和建模的技能。我也感谢主办方提供这个机会让我在实战中锻炼自己,同时也让我了解了更多相关的领域和前沿技术。

参考

  1. Shen H, Price L C, Bahadori T, et al. Improving generalizability of protein sequence models with data augmentations[J]. bioRxiv, 2021: 2021.02. 18.431877.
  2. Minot M, Reddy S T. Nucleotide augmentation for machine learning-guided protein engineering[J]. BioRxiv, 2022.
  3. Zvyagin M, Brace A, Hippe K, et al. GenSLMs: Genome-scale language models reveal SARS-CoV-2 evolutionary dynamics[J]. bioRxiv, 2022: 2022.10. 10.511571.
  4. Ganea O E, Huang X, Bunne C, et al. Independent se (3)-equivariant models for end-to-end rigid protein docking[J]. arXiv preprint arXiv:2111.07786, 2021.