page 3 | 二十一世纪是生命科学的

天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测复盘

2018-05-01

初赛
赛题
大赛初赛数据共包含两个文件，训练文件d_train.csv和测试文件d_test.csv，每个文件第一行是字段名，之后每一行代表一个个体。文件共包含42个字段，包含数值型、字符型、日期型等众多数据类型，部分字段内容在部分人群中有缺失，其中第一列为个体ID号。训练文件的最后一列为标签列，既需要预测的目标血糖值。

数据
批量导入腾讯企业邮箱日历提醒

2018-05-01

最近公司的人力小姐姐问我有没有用过备忘录，可以批量导入的那种。我只在手机自带的那种便利贴之类的APP。我一般会把重要的事情或者要记录的事情放在我的dokuwiki上，可以随时记录。很显然小姐姐是有重复性的工作会议或者什么的需要提醒。我好奇的问了，告诉我是用的腾讯企业邮箱。是在日历功能里有个提醒。我想是可以实现批量导入备忘事件的。
原本以为就是几个简单的post就可以搞定，然鹅…..
集群无网下载--except应用

2017-07-28

集群大部分节点不联外网,自己本地电脑下载,再通过fz上传比较麻烦
此工具利用RNA小服务器上的虚拟机与集群交互,自动下载上传集群
这样不仅可以免去一些机械的人工操作,而且还能避免本地PC下载中断
交互用的就是shell里自带的except,简单粗暴
自动登录在集群上登录内网小服务器,此小服务器可联外网,小服务器上下载完毕,scp上传集群,然后删除小服务器上的文件
lncScore:编码潜能预测

2017-07-08

这篇文献主要介绍了lncScore，用python写的一个脚本,主要是依赖一个机器学习第三方库scikit-learn。它能够通过开放阅读框,外显子和最大编码子序列等11个特征参数对lncRNA进行筛选。为了加快lncScore的运行速度，主要采用多线程>分析，只需花费2分钟的时间就能够对64,756个转录本进行分类。
文章里用gencode数据库里的lncRNA数据做了验证
此工具与CPAT, CNCI 和 PLEK类似，我们的lncRNA流程里的编码潜能预测软件用的是CPC CNCI Pfam，貌似CPC也是这个团队开发的。有时间把这几个软件都看一下。
微信提醒打卡小工具

2017-06-05

在公司辛辛苦苦工作一天，加班到晚上八点，急匆匆赶上最后一辆班车，回到公寓。洗一个热水澡，躺在床上刷微博、知乎，真想大声说一句，”这一刻是最舒服的！”。然而，有时你会触电般惊起，呆坐在床边，心中一万头草泥马飘过，没打卡就回来了呀！！！
相信很多同学也遇到过这样的问题，辛苦工作一个月，发工资那天还要看工资条上会扣几百大洋，简直不能忍。
Python建站——项目管理系统

2017-03-17
测序错误率

2017-03-09

为什么read1和read2前几个碱基的错误率较高？
测序仪先测完read1全长，才跳转测read2，测序仪自身在刚启动或关闭时不太稳定，图像识别质量比较差，尤其是第一个碱基与最后一个碱基，测序质量最差，紧挨着的几个碱基测序质量也偏高，一是测序仪从刚开始的不稳定到稳定，有一个过渡的过程。另外接头空载，也会导致错误率上升。(ILLUMILA工程师的说法)
T-test and ANOVA

2017-03-05

针对目前转录组及lncRNA的分析，我们的信息搜集表大部分都是针对的是两个组别两个样品之间的差异分析，但是对于一些实验设计，两两比较往往不能满足老师的分析要求。比如有的老师会做一个持续时间变化的实验设计，两两比较可以比较两个时间点的差异基因，但是对于一个持续时间段的差异基因的变化。又比如医口项目，老师有几对样品。正常和病变的，两两比较可以看出两个样本之间的差异，但是对于正常和病变两类之间差异比较，也可以选择其他统计学比较检验方式。下面就根据我个人做过的项目售后和个性化的经验，讲解一下曾经用过的几种差异比较的方式;
中国字

2017-03-04
机器学习——学习笔记

2017-03-04

初赛

赛题

数据

为什么read1和read2前几个碱基的错误率较高？