-
- Basic info. 基本信息
- 个人信息: 杨光
- 出生日期: 1994年8月
- 教育背景: 吉林大学 生物技术 2012.9-2016.07 本科
- 华东师范大学 计算机技术 2019.9-2022.12 硕士
- 博 客: https://yangguang8112.github.io
-
- Experience. 项目与工作经验
华大基因&上海交大联合创新中心(2019.10 - 2023.06)
-
“云上进化”2022全球AI生物智药大赛 Contest Write-up
AI4Science 该比赛是由阿里云和NVIDIA联合发起的,赛道一“基于AI算法的SARS-CoV-2广谱中和抗体药物设计”,旨在预测新冠病毒抗体与主要变异株之间的亲和力和活性。 比赛提供了包含变异株信息、抗体序列以及丰富的亲和力和活性实验结果等数据。在模型中,我们使用了不同分子层面的预训练语言模型和不同的蛋白质结构预测模型抽取抗原抗体序列特征,并通过图神经网络进行特征融合,详情可查看这篇博客。 我们的模型在预测亲和力和活性方面表现优异,在赛道一的决赛答辩中获得了亚军。
-
生物医学文献结构化抽取系统 Demo
NLP Bert Neo4j LangChain chatGLM 通过使用BioBERT预训练模型,结合实体标注和关系抽取任务的微调,实现了高效的实体标注和关系抽取,以辅助“ACMG数据解读流程”中的人工阅读文献寻找解读证据的步骤。
基于Flask开发查询系统将结果高亮处理展示在网页上,方便查找关注的生物医学实体以及对应的文献来源。另外通过neo4j的查询将识别的命名实体关联到生物医学知识图谱PrimeKG上,可视化实体间的多种关系。 最后基于LangChain优化查询以及通过大语言模型生成query相关的实验证据。
-
NGS生产质控系统 Demo
机器学习 React Flask scikit-learn 这是一个基于Flask和React开发的NGS测序样本管理系统。系统主要包括两个功能模块:样本质控指标可视化和质控分类模型训练与管理。 在样本质控指标可视化模块中,用户可以通过Echarts图表查看测序样本各个质控指标的分布情况。此外,系统还具备自动模型训练功能,当上传不合格样本时,系统会自动触发一次新的模型训练,以提高系统的准确率和鲁棒性。 在质控分类模型训练与管理模块中,用户可以管理当前模型,或选择基础模型、特征、样本等参数重新训练分类模型,也可以比较多个模型间的差异。该模块可以帮助用户更好地管理和优化模型,提高系统的分类准确率和性能。
-
T2D表型异质性和病程可视化 Demo
Dash DDRTree 基于python的Dash库开发了一个数据可视化面板,以展示树状连续分布的样本,通过调节输入的临床样本相关表型数据,可以观察到样本在树状参考分布上的移动方向。 传统的二型糖尿病治疗管理都是根据临床表型或基因型将患者分类为离散的亚型,鉴于T2D中存在连续的表型和遗传异质性,我们采用reverse graph embedding方法对MMC诊断的T2D患者随访临床数据进行降维。 这样可以将T2D的复杂表型特征简化为一个非线性的二维树状结构,而无需将患者分配到亚型。
莲和医疗(2017.9 - 2019.3)
-
基因变异可视化接口 Demo
Flask 负责开发基于Flask框架的Web应用,用于对二代测序数据进行突变位点分析。针对150bp长度的reads,选取可疑基因突变位点附近的一些reads,标记出在该位点的碱基变化情况,并按突变类型排列,按在基因组上的位置从左至右打印出来。 后台使用samtools读取BWA比对产生的bam文件,参考基因组按染色体准备好,以提高Web端响应速度。前端使用get方式传参,传入样本编号、突变位点以及突变类型。
-
自动化报告平台
PHP laravel 根据不同的样本类型配置对应的计算流程启动后台计算程序,并监控计算过程。
计算流程产生的数据入库,对不同流程的结果配置对应的报告模板,调用数据接口,并根据显著变异位点推荐用药以及关联相关临床试验,自动生成肿瘤检测报告。基于PHP的laravel框架
诺禾致源(2016.7 - 2017.8)
-
lncRNA数据分析流程
Linux Shell Python R 熟悉Linux的开发环境,编写python脚本控制任务投递,处理数据流。用R的ggplot2将结果可视化。最后通过Django静态模板生成结题报告。
-
HPC集群管理
SGE crontab 负责监控小组内集群存储资源使用情况。编写自动化管理脚本,具有定期扫盘、给冗余数据用户发送邮件提醒处理、当数据盘存储低于最低限度时挂起所有job等功能。
其他项目
-
毕业论文 CNKI
NLP BERT KG NER 杨光. 基于生物医学领域知识增强的实体识别和关系抽取研究[D].华东师范大学,2022. DOI:10.27149/d.cnki.ghdsu.2022.004742.
-
谷歌学术文献全文爬虫 Site
selenium 基于谷歌学术关键词搜索的半自动文献爬虫。通过在谷歌学术中搜索感兴趣的生物医学领域关键词(比如一系列突变、某种疾病或者一系列基因),批量获取目标文献的链接, 然后通过sci-hub下载所有的文献。使用sqlite3记录爬取过程中关键词状态和文献下载状态,记录文献ID避免重复请求sci-hub
-
天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测Write-up
机器学习 天池精准医疗大赛是阿里云和青梧桐基因联合举办的比赛
初赛为根据体检基本信息预测血糖值,复赛为体检信息加基因测序结果分类是否有妊娠期糖尿病风险。
-
- Skill. 技能清单
-
Python
标准库特性 Flask PyTorch scikit-learn -
Linux
shell awk gcc make Docker Singularity -
深度学习
CNN RNN Transformer GNN -
C++ / CUDA
STL TensorRT -
前端开发
HTML CSS JavaScript React -
数据库
SQLite Neo4j