这篇文献主要介绍了lncScore,用python写的一个脚本,主要是依赖一个机器学习第三方库scikit-learn。它能够通过开放阅读框,外显子和最大编码子序列等11个特征参数对lncRNA进行筛选。为了加快lncScore的运行速度,主要采用多线程>分析,只需花费2分钟的时间就能够对64,756个转录本进行分类。
文章里用gencode数据库里的lncRNA数据做了验证
此工具与CPAT, CNCI 和 PLEK类似,我们的lncRNA流程里的编码潜能预测软件用的是CPC CNCI Pfam,貌似CPC也是这个团队开发的。有时间把这几个软件都看一下。
安装环境
安装 scikit-learn
1 2 3
| pip install numpy pip install scipy pip install sklearn
|
下载 lncScore
1
| git clone https://github.com/WGLab/lncScore.git
|
测试数据集
使用方法
1 2 3 4 5 6 7
| python lncScore.py \ -f test/human_test.fa \ -g test/human_test.gtf \ -o result \ -p 1 \ -x dat/Human_Hexamer.tsv \ -t dat/Human_training.dat \
|