碱基含量分布 | 二十一世纪是生命科学的

关于碱基含量分布 (Per Base Sequence Content)图在FastQC帮助文档中有比较详细的说明，这里结合个人的见解浅析。

原理

我们假设测序不存在任何偏好，那么被测双链DNA上的任何位置都可能是测序的起点，所有碱基都有同样的机会出现在reads的任意位置上。换句话说，把所有reads对齐了看，被测DNA上的各个碱基出现在reads某个位置的机会是均等。这样，体现在碱基含量分布图上就是任何位置的各碱基的含量将等于被测DNA上各碱基的含量，也就是我们能看到四条平行甚至重叠的线。通常情况下G≡C、A=T互补，因此G和C的线理想情况下应该是重叠的，A和T的也应该是。

异常

当然，现实的情况并不是那么理想，因此四条线往往不是标准的直线，不平行或者不重叠。对于任何位置A和T、或者G和C之间含量差超过10%，FastQC将标记为警告，超过20%将报告为失败。

G和C、A和T线分离

BS文库

对于BS文库，重亚硫酸盐处理将没有甲基化的C转化成为T，这样C的含量激烈下降而T的含量剧烈增加，结果就会出现A和T、G和C分离，这样就是正常的。但是四条线理想情况下应该是平的并且相互平行。有时候看到起始位置不平，这就说明转化的效率和别的位置不一样。

起始六个碱基

对于RNA测序，使用随机引物反转，这时候6个碱基就可能是有偏好的，这时候6个碱基的组成就不平衡，会看到严重的分离抖动的问题

末尾的一些碱基

有时候会看到末端的出现不平行，这可能是因为测穿了，测到了接头导致这部分的来源和其它部分的来源不一样，因而导致偏差。

链特异库

在链特异建库的情况下，G和C、A和T可能不再完全相等，因此可能会导致G和C、A和T的线不再重叠。一般情况下，即便是链特异建库，G和C的含量、A和T的含量也是相近的，当然不排除会有些物种的转录组中碱基含量本身就分离的问题。

外源污染

可能受到一些本身就不平衡的外源的污染，比如一些单链的病毒什么的。

G、C、A或T线不平

当测序结果中有大量的相同的读段的时候，也就是duplicate rate很高的时候，测序的偏好可能导致GC线不平，因为每个这些读段每个位点只能是一种碱基，相应的位置的碱基含量就会向这种reads的方向偏离。

导致duplicate rate高的原因可能是：

过多PCR循环

过多的PCR循环可能会导致偏好更明显，从而导致重复率高

空载

这样导致大量出现接头 (adapter) 的序列。通常我们会过滤掉含接头的序列，因此如果index用得没错，那么clean reads可能不存在这个问题。

样本原因

比如rRNA含量过高或者某种特殊的组织里某个RNA表达量过高，这时候也容易出现大量的duplicates。