xTrimoGene: An Efficient and Scalable Representation Learner for Single-Cell RNA-Seq Data
摘要
随着高通量测序技术的进步,单细胞水平的基因表达测量取得了显著进展。公开可获取的单细胞RNA测序(scRNA-seq)数据已经超过了5000万条人类记录,每条记录测量了2万个基因。这突显了对无监督表示学习的需求,然而传统的Transformer架构在计算和内存方面对于这样的数据训练是具有挑战性的。为了解决这个问题,我们提出了一种新颖的不对称编码器-解码器Transformer模型,称为xTrimoGene,它利用了数据的稀疏特性来扩展预训练。xTrimoGene的可扩展设计相比传统Transformer模型将FLOPs减少了一到两个数量级,同时保持高准确性,使我们能够在目前最大的scRNA-seq数据集上训练最大的Transformer模型。我们的实验证明,xTrimoGene的性能随着模型规模的增加而提高,并且在细胞分类、扰动测序效果预测和药物组合预测等各种下游任务中也达到了最先进的性能。
1 Introduction
直接看看他的贡献
为了应对与scRNA-seq数据建模相关的挑战并考虑到这些数据的独特性(如第2节中讨论的),我们提出了一种新颖且高效的框架xTrimoGene,用于对大规模scRNA-seq数据进行预训练。我们的框架具有以下关键贡献:
- 我们设计了一个非对称的编码器-解码器架构来引导预训练过程,使我们能够为单细胞RNA-seq数据学习一个高容量的模型。与之前的仅解码器模型(如scBERT)相比,我们的模型在预训练速度上实现了3倍以上的提升。
- 我们展示了我们模型的效率和可扩展性,使我们能够训练迄今为止最大的单细胞预训练模型,xTrimoGene-100M模型拥有约1亿个参数,使用了我们从公共数据源中整理的约500亿个有效基因标记的scRNA-seq数据集。
- 经过预训练的xTrimoGene模型在多个下游任务中取得了显著的成果,包括细胞类型注释、扰动响应预测和协同药物组合预测。