碱基含量分布

关于碱基含量分布 (Per Base Sequence Content)图在FastQC帮助文档中有比较详细的说明,这里结合个人的见解浅析。

原理

我们假设测序不存在任何偏好,那么被测双链DNA上的任何位置都可能是测序的起点,所有碱基都有同样的机会出现在reads的任意位置上。换句话说,把所有reads对齐了看,被测DNA上的各个碱基出现在reads某个位置的机会是均等。 这样,体现在碱基含量分布图上就是任何位置的各碱基的含量将等于被测DNA上各碱基的含量,也就是我们能看到四条平行甚至重叠的线。通常情况下G≡C、A=T互补,因此G和C的线理想情况下应该是重叠的,A和T的也应该是。

异常

当然,现实的情况并不是那么理想,因此四条线往往不是标准的直线,不平行或者不重叠。 对于任何位置A和T、或者G和C之间含量差超过10%,FastQC将标记为警告,超过20%将报告为失败。

G和C、A和T线分离

BS文库

对于BS文库,重亚硫酸盐处理将没有甲基化的C转化成为T,这样C的含量激烈下降而T的含量剧烈增加,结果就会出现A和T、G和C分离,这样就是正常的。但是四条线理想情况下应该是平的并且相互平行。有时候看到起始位置不平,这就说明转化的效率和别的位置不一样。

起始六个碱基

对于RNA测序,使用随机引物反转,这时候6个碱基就可能是有偏好的,这时候6个碱基的组成就不平衡,会看到严重的分离抖动的问题

末尾的一些碱基

有时候会看到末端的出现不平行,这可能是因为测穿了,测到了接头导致这部分的来源和其它部分的来源不一样,因而导致偏差。

链特异库

在链特异建库的情况下,G和C、A和T可能不再完全相等,因此可能会导致G和C、A和T的线不再重叠。一般情况下,即便是链特异建库,G和C的含量、A和T的含量也是相近的,当然不排除会有些物种的转录组中碱基含量本身就分离的问题。

外源污染

可能受到一些本身就不平衡的外源的污染,比如一些单链的病毒什么的。

G、C、A或T线不平

当测序结果中有大量的相同的读段的时候,也就是duplicate rate很高的时候,测序的偏好可能导致GC线不平,因为每个这些读段每个位点只能是一种碱基,相应的位置的碱基含量就会向这种reads的方向偏离。

导致duplicate rate高的原因可能是:

过多PCR循环

过多的PCR循环可能会导致偏好更明显,从而导致重复率高

空载

这样导致大量出现接头 (adapter) 的序列。通常我们会过滤掉含接头的序列,因此如果index用得没错,那么clean reads可能不存在这个问题。

样本原因

比如rRNA含量过高或者某种特殊的组织里某个RNA表达量过高,这时候也容易出现大量的duplicates。