1. lncScore:编码潜能预测

    这篇文献主要介绍了lncScore,用python写的一个脚本,主要是依赖一个机器学习第三方库scikit-learn。它能够通过开放阅读框,外显子和最大编码子序列等11个特征参数对lncRNA进行筛选。为了加快lncScore的运行速度,主要采用多线程>分析,只需花费2分钟的时间就能够对64,756个转录本进行分类。
    文章里用gencode数据库里的lncRNA数据做了验证
    此工具与CPAT, CNCI 和 PLEK类似,我们的lncRNA流程里的编码潜能预测软件用的是CPC CNCI Pfam,貌似CPC也是这个团队开发的。有时间把这几个软件都看一下。


  2. 微信提醒打卡小工具

    在公司辛辛苦苦工作一天,加班到晚上八点,急匆匆赶上最后一辆班车,回到公寓。洗一个热水澡,躺在床上刷微博、知乎,真想大声说一句,”这一刻是最舒服的!”。然而,有时你会触电般惊起,呆坐在床边,心中一万头草泥马飘过,没打卡就回来了呀!!!
    相信很多同学也遇到过这样的问题,辛苦工作一个月,发工资那天还要看工资条上会扣几百大洋,简直不能忍。


  3. Python建站——项目管理系统


  4. 测序错误率

    为什么read1和read2前几个碱基的错误率较高?

    测序仪先测完read1全长,才跳转测read2,测序仪自身在刚启动或关闭时不太稳定,图像识别质量比较差,尤其是第一个碱基与最后一个碱基,测序质量最差,紧挨着的几个碱基测序质量也偏高,一是测序仪从刚开始的不稳定到稳定,有一个过渡的过程。另外接头空载,也会导致错误率上升。(ILLUMILA工程师的说法)


  5. T-test and ANOVA

    针对目前转录组及lncRNA的分析,我们的信息搜集表大部分都是针对的是两个组别两个样品之间的差异分析,但是对于一些实验设计,两两比较往往不能满足老师的分析要求。比如有的老师会做一个持续时间变化的实验设计,两两比较可以比较两个时间点的差异基因,但是对于一个持续时间段的差异基因的变化。又比如医口项目,老师有几对样品。正常和病变的,两两比较可以看出两个样本之间的差异,但是对于正常和病变两类之间差异比较,也可以选择其他统计学比较检验方式。下面就根据我个人做过的项目售后和个性化的经验,讲解一下曾经用过的几种差异比较的方式;


  6. 中国字


  7. 机器学习——学习笔记


  8. 标准化方法比较

    RNA-seq定量得到每个基因或转录本原始的readcount值,除了基因真实表达水平,readcount值还受到其它因素的影响,主要是基因长度和测序深度,所以不能对其进行直接比较。举个例子,比较样本A中基因a与基因b的表达水平,如果基因a的原始readcount值为2000,基因b的原始readcount值为1000,能说基因a的表达水平比基因b的表达水平高吗?(先不考虑是否显著差异)不能!由于是同一个样本,可以不考虑测序深度带来的影响,但还有基因长度因素,在基因a和基因b都表达一份的情况下,两个基因转录后的mRNA被随机打断成一定长度的片段,基因长度越长,那打断的片段就越多,最终落在长度长的基因上的reads就越多。


  9. 融合基因

    tophat-fusion软件分析说明

    TopHat-Fusion可以从单端或双端的RNA-seq数据中识别融合基因。它将首次未比对到基因组上的reads进行打断,通过重新比对寻找候选的融合基因,后续采用多重规则进行过滤和筛选。该算法不依赖于已知的基因注释信息,这使其具有更高的敏感性,除了鉴定已知基因的融合,它还可以发现来自新基因或已知基因新剪切体的融合产物


  10. 分bin累计算法

    经常在一些文章中看到如下这样的图:

    这个图里,显然是把每个基因相应的部分都分成了相同的份数,也就是分成了一个个bin,在统计每个bin里所有基因的甲基化位点数的总和,然后再计算成甲基化水平。