1. KEPLER

    KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation

    这篇论文提出一种模型能统一知识embedding和预训练语言表示(Knowledge Embeddingand Pre-trained LanguagE Representation (KEPLER))


  2. K-ADAPTER

    大多数之前的工作通过多任务学习来注入知识和更新模型参数以增强预训练语言模型。不管他们用了哪些方法做知识注入,遇到的共同问题就是对前面知识的灾难性遗忘。figure1a
    figure1b是我们提出的K-ADAPTER,不同类型的知识被注入到不同的袖珍神经网络模型(比如本文中的adapter),他们之间互相独立,而不是直接注入到预训练模型。这样既能固定预训练模型的原始表示,又支持继续知识注入。adapter是一个含有特定知识的模型,是独立于预训练模型之外的插件。


  3. CoLAKE

    提出了一个方法可以同时做语言和知识的表征,并且在需要知识的任务中有较好的表现,在一些NLU(不太需要知识)的任务也没有降很多。
    把输入的句子看成是一个全连接的graph,即word graph。然后根据句子中的实体到知识图谱中找一级三元组,只找对应实体的第一层邻居。然后将句子中的实体作为锚点(ancher node),以锚节点为中心抽出sub-knowledge-graph,然后根据锚点将sub-knowledge-graph和word graph合并。这是示意图是这样的,实际操作起来,在输入的时候这些node也是序列摆放,他们的graph结构是通过position embedding和mask矩阵来体现的。


  4. RoBERTa

    主要是训练方法上的创新,该paper认为bert的训练明显不够,他们对超参调优和训练集大小的影响的仔细评估。提出RoBERTa这个recipe来提高BERT的训练效果。


  5. A Novel Cascade Binary Tagging Framework for Relational Triple Extraction

    以一个新的角度去提取关系三元组,以前的工作都是把关系看作一个离散的标签,而本文的框架(CasRel)则将一个句子里的关系建模为subjects到objects的函数。这个方法还能自然解决关系重叠的问题。


  6. 研究方向调研

    我所在的项目组主要是做代谢病的基因突变位点致病性预测的工作,对预测到的相关基因和突变位点做验证需要查阅大量文献,我负责后面这块文献中基因、突变、疾病等生物医学相关实体的关系提取。


  7. 读BWA源码


  8. 天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测复盘

    初赛

    赛题

    大赛初赛数据共包含两个文件,训练文件d_train.csv和测试文件d_test.csv,每个文件第一行是字段名,之后每一行代表一个个体。文件共包含42个字段,包含数值型、字符型、日期型等众多数据类型,部分字段内容在部分人群中有缺失,其中第一列为个体ID号。训练文件的最后一列为标签列,既需要预测的目标血糖值。

    数据



  9. 批量导入腾讯企业邮箱日历提醒

    最近公司的人力小姐姐问我有没有用过备忘录,可以批量导入的那种。我只在手机自带的那种便利贴之类的APP。我一般会把重要的事情或者要记录的事情放在我的dokuwiki上,可以随时记录。很显然小姐姐是有重复性的工作会议或者什么的需要提醒。我好奇的问了,告诉我是用的腾讯企业邮箱。是在日历功能里有个提醒。我想是可以实现批量导入备忘事件的。
    原本以为就是几个简单的post就可以搞定,然鹅…..


  10. 集群无网下载--except应用

    集群大部分节点不联外网,自己本地电脑下载,再通过fz上传比较麻烦
    此工具利用RNA小服务器上的虚拟机与集群交互,自动下载上传集群
    这样不仅可以免去一些机械的人工操作,而且还能避免本地PC下载中断
    交互用的就是shell里自带的except,简单粗暴
    自动登录在集群上登录内网小服务器,此小服务器可联外网,小服务器上下载完毕,scp上传集群,然后删除小服务器上的文件