标签: 生物信息学


  1. 测序错误率

    为什么read1和read2前几个碱基的错误率较高?

    测序仪先测完read1全长,才跳转测read2,测序仪自身在刚启动或关闭时不太稳定,图像识别质量比较差,尤其是第一个碱基与最后一个碱基,测序质量最差,紧挨着的几个碱基测序质量也偏高,一是测序仪从刚开始的不稳定到稳定,有一个过渡的过程。另外接头空载,也会导致错误率上升。(ILLUMILA工程师的说法)


  2. 融合基因

    tophat-fusion软件分析说明

    TopHat-Fusion可以从单端或双端的RNA-seq数据中识别融合基因。它将首次未比对到基因组上的reads进行打断,通过重新比对寻找候选的融合基因,后续采用多重规则进行过滤和筛选。该算法不依赖于已知的基因注释信息,这使其具有更高的敏感性,除了鉴定已知基因的融合,它还可以发现来自新基因或已知基因新剪切体的融合产物


  3. PCA

    主成份分析 (Principal Component Analysis, PCA) 是一种元分析技术 (其它常用的还有回归分析、聚类分析、因子分析等等), 由Karl Pearson于1901年发明。PCA的核心思想在于,在尽可能保留数据的差异的前题下,降低数据的维度,也就是抽象出更少的互不相关的变量来描述各数据。可以想象,数据集是一群在多维空间中的点,在保持这一群点的相对空间位置不变的情况下,旋转到一个新的坐标系(坐标轴就是各PC),使得各点在新的坐标轴上的坐标(投影)的方差最大,而投影方差最大的坐标轴即为PC1,其次为PC2,……,此可以通过此在线的演示增加理解。主成份分析可通过求取协方差矩阵的本征向量实现,本征值最大的本征向量即为PC1, 比如R的princomp函数采样的就是这种方法;也可通过奇异值分解(singular value decomposition,SVD)来实现,比如R的prcomp函数。


  4. lncRNA筛选

    lncRNA的筛选是lncRNA分析流程中的关键步骤
    梳理一下流程中的筛选步骤,还有4种编码潜能预测软件


  5. 碱基含量分布

    关于碱基含量分布 (Per Base Sequence Content)图在FastQC帮助文档中有比较详细的说明,这里结合个人的见解浅析。


  6. ggplot2 画图笔记