测序错误率

为什么read1和read2前几个碱基的错误率较高?

测序仪先测完read1全长,才跳转测read2,测序仪自身在刚启动或关闭时不太稳定,图像识别质量比较差,尤其是第一个碱基与最后一个碱基,测序质量最差,紧挨着的几个碱基测序质量也偏高,一是测序仪从刚开始的不稳定到稳定,有一个过渡的过程。另外接头空载,也会导致错误率上升。(ILLUMILA工程师的说法)

这是因为随机引物扩增的偏好性导致的。随机引物扩增偏好使得前边一些碱基的碱基含量不平衡,因而在base-calling的时候算法不准确,导致了错误率高。 所谓的开机仪器不稳定其实解释不了read2开始碱基错误率也高的问题。 DNA文库没有这种随机引物反转的过程,因而起始的几个碱基的错误率就没有明显高。 也是同样的道理,WGBS文库因为碱基含量的不平衡,而导致错误率更高,在测序的时候就需要加入平衡文库。

随着测序的进行,flowcell可能会受到荧光的损害之类的,因而测read2的时候flowcell已经和read1的时候不同了,因此read2的错误率会更高一些。当然荧光损害的说法也不太能找到根据,而测过read1之后,可能flowcell变得更脏了却是很好理解的。

为什么随着read延长,测序错误率呈现升高趋势?read2错误率要普遍高于read1错误率?

测序过程中,每个cycle在荧光基团淬灭,去3’端保护基团时,没有完全去除,导致在延伸过程滞留,或者是加入了无3’端保护的碱基,导致延伸超前,滞留和超前引起延伸步调不一致,这是一个累积的过程,越是往后,超前或滞后的累积越多,测序错误率也就越高。另外,整个测序过程耗时较长,酶活性及试剂的有效性会随着时间的延长而降低,测序过程先测read1,后测read2,所以read2的错误率要稍高于read1。另外,若待测片段中存在反向互补序列,容易发生折叠,导致碱基在合成时错配(测序原理为边合成边测序)。对于特异性序列GGC,若后面的碱基是G,GGC这种结构引起聚合酶偏好性的改变,会使错误率增高。

参考文献

  1. Metzker M L. Sequencing technologies—the next generation[J]. Nature reviews genetics, 2010, 11(1): 31-46.

  2. Nakamura K, Oshima T, Morimoto T, et al. Sequence-specific error profile of Illumina sequencers[J]. Nucleic acids research, 2011: gkr344.

  3. Dohm J C, Lottaz C, Borodina T, et al. Substantial biases in ultra-short read data sets from high-throughput DNA sequencing[J]. Nucleic acids research, 2008, 36(16): e105-e105.