page 4 | 二十一世纪是生命科学的

标准化方法比较

2017-03-01

RNA-seq定量得到每个基因或转录本原始的readcount值，除了基因真实表达水平，readcount值还受到其它因素的影响，主要是基因长度和测序深度，所以不能对其进行直接比较。举个例子，比较样本A中基因a与基因b的表达水平，如果基因a的原始readcount值为2000，基因b的原始readcount值为1000，能说基因a的表达水平比基因b的表达水平高吗？（先不考虑是否显著差异）不能！由于是同一个样本，可以不考虑测序深度带来的影响，但还有基因长度因素，在基因a和基因b都表达一份的情况下，两个基因转录后的mRNA被随机打断成一定长度的片段，基因长度越长，那打断的片段就越多，最终落在长度长的基因上的reads就越多。
融合基因

2017-02-28

tophat-fusion软件分析说明
TopHat-Fusion可以从单端或双端的RNA-seq数据中识别融合基因。它将首次未比对到基因组上的reads进行打断，通过重新比对寻找候选的融合基因，后续采用多重规则进行过滤和筛选。该算法不依赖于已知的基因注释信息，这使其具有更高的敏感性，除了鉴定已知基因的融合，它还可以发现来自新基因或已知基因新剪切体的融合产物
分bin累计算法

2017-02-27

经常在一些文章中看到如下这样的图：

这个图里，显然是把每个基因相应的部分都分成了相同的份数，也就是分成了一个个bin，在统计每个bin里所有基因的甲基化位点数的总和，然后再计算成甲基化水平。
PCA

2016-12-08

主成份分析 (Principal Component Analysis, PCA) 是一种元分析技术 (其它常用的还有回归分析、聚类分析、因子分析等等), 由Karl Pearson于1901年发明。PCA的核心思想在于，在尽可能保留数据的差异的前题下，降低数据的维度，也就是抽象出更少的互不相关的变量来描述各数据。可以想象，数据集是一群在多维空间中的点，在保持这一群点的相对空间位置不变的情况下，旋转到一个新的坐标系（坐标轴就是各PC），使得各点在新的坐标轴上的坐标（投影）的方差最大，而投影方差最大的坐标轴即为PC1，其次为PC2，……，此可以通过此在线的演示增加理解。主成份分析可通过求取协方差矩阵的本征向量实现，本征值最大的本征向量即为PC1, 比如R的princomp函数采样的就是这种方法；也可通过奇异值分解（singular value decomposition，SVD）来实现，比如R的prcomp函数。
lncRNA筛选

2016-11-28

lncRNA的筛选是lncRNA分析流程中的关键步骤
梳理一下流程中的筛选步骤,还有4种编码潜能预测软件
碱基含量分布

2016-11-21

关于碱基含量分布 (Per Base Sequence Content)图在FastQC帮助文档中有比较详细的说明，这里结合个人的见解浅析。
切克闹——初识滑板

2016-11-02
ggplot2 画图笔记

2016-11-01
工作状态和惰性

2016-10-31
转正——以后要记得常更新

2016-10-23

tophat-fusion软件分析说明