-
- Basic info. 基本信息
- 个人信息: 杨光
- 教育背景: 吉林大学 生物技术 2012.9-2016.07 本科
- 华东师范大学 计算机技术 2019.9-2022.12 硕士
- 博 客: https://yangguang8112.github.io
- 比 赛: https://yangguang8112.github.io/CompTrack
-
金赛药业(2023.09 - )
-
AI计算生物平台
AIDD 研发平台
负责构建GenMol计算生物平台,实现分布式协同计算和高并发任务管理。基于Docker容器化技术规范算法组件的动态接入流程,先后整合并上线了涵盖蛋白语言模型、结构预测、分子从头生成、可开发性评估与理化性质预测等多个核心方向的标准化计算模型,持续扩展算法与数据库资源,并负责平台的日常高可用运维与用户权限体系设计。此外,尝试性探索了AI Agent调用平台计算模块的自动化工作流,有效沉淀公司AIDD工具与研发经验,强力支撑创新药物的高效研发。
-
VHH文库设计与蛋白设计
蛋白语言模型 干湿迭代 多目标优化 AI药物研发 主导多目标驱动的VHH通用合成文库理性设计,基于蛋白语言模型捕捉位点协同进化信息,并利用玻尔兹曼分布融合疏水性、PTM风险等关键可开发性约束,规避传统统计文库的“独立性陷阱”。 经多个异质性靶点实验筛选验证,AI常规优化库在多个靶点展现出显著的广谱适配性,单靶点VHH结合数较天然库实现数十倍提升;验证了AI理性设计架构的有效性,成功跑通“干湿结合”的数据迭代闭环。
面向特定靶点的蛋白设计,结合靶点与表位分析确定关键结合位点,基于突变优化与De novo生成相结合的策略进行序列设计;并从理化性质、结构稳定性、能量及功能等多维度进行综合评估与排序,筛选高潜力候选分子,支持实验验证与迭代优化。
-
蛋白优化算法
LoRA 突变位点 Fitness Few-shot 面向真实场景下的蛋白突变效应预测(零样本/少样本),基于大规模DMS数据(如ProteinGym)进行模型训练与评估,围绕特征表达、模型结构及数据增强策略提升泛化能力;通过多模型融合与参数高效微调(Meta-learning、LoRA),结合进化与能量信息进行联合建模,有效提升fitness相关性与Top Hit识别能力;并构建支持干湿实验快速迭代的自动化计算流程。
-
抗体可开发性预测
抗体工程 风险筛选 Developability 聚焦抗体药物的成药性瓶颈,主导构建了多维度 in silico 可开发性评估与风险筛选体系,全面兼容单抗、双抗及 VHH 纳米抗体等多种分子形式。该体系深度融合理化性质特征(聚集倾向、溶解度、pI、PTM位点及 TAP 指标)与深层进化信息,实现对候选分子稳定性的联合建模与精准预测。通过高风险序列的早期淘汰与优势分子优选,显著提升抗体早期筛选的成功率与成药转化效率。
-
生物制药工艺优化与高维数据建模
机器学习 多维建模 工艺优化 成果转化 深度参与生物制药上下游工艺优化与大分子配基设计项目,负责核心多维实验数据的清洗、特征工程与机器学习建模。在上游培养基配方设计及下游工艺优化中,通过构建精准预测模型指导关键工艺参数调整,实现了目标产率、细胞生长表现的显著提升,并有效降低了副产物。相关创新成果已成功转化为3项发明专利申请,并发表1篇学术期刊论文,实现了数据建模对工艺开发与干湿实验闭环的深度赋能。

华大基因&上海交大联合创新中心(2019.10 - 2023.06)-
“云上进化”2022全球AI生物智药大赛 Contest Write-up
AI4Science
参与阿里云与NVIDIA联合举办的AI抗体设计竞赛(SARS-CoV-2广谱中和抗体方向),针对抗体与多变异株之间的亲和力与活性预测问题,构建融合序列与结构信息的建模方法;基于多种蛋白预训练模型提取多尺度特征,并结合图神经网络进行跨模态融合,有效提升预测性能,最终在赛道一决赛中获得亚军。
-
生物医学文献结构化抽取系统 Demo
NLP Bert Neo4j LangChain chatGLM 构建生物医学文献结构化抽取系统,基于BioBERT结合实体识别与关系抽取实现关键信息自动提取,辅助ACMG解读流程中的证据检索;结合Flask开发可视化查询系统,实现实体高亮与文献溯源展示,并通过Neo4j关联生物医学知识图谱(PrimeKG)构建多关系网络;同时引入LangChain与大语言模型优化查询流程,自动生成与问题相关的文献实验证据。
诺禾致源(2016.7 - 2019.8)-
基于表观组学的肿瘤早筛方法研究
机器学习 RNA-seq 基于RNA-seq数据构建肿瘤早筛建模流程,涵盖序列比对、表达定量、差异分析与特征筛选等关键步骤。 使用统计方法(DESeq2)筛选差异基因,并构建机器学习模型进行分类预测,实现从原始数据到预测结果的完整分析pipeline。
-
lncRNA分析流程
RNA-seq NGS Pipeline 负责lncRNA分析流程开发与维护,构建标准化分析pipeline(转录本组装、编码潜能分析、共表达网络等)。 编写Python脚本实现任务调度与数据流管理,并结合R进行结果可视化与报告生成。 熟练使用BWA、Hisat2、StringTie、GATK等工具,具备完整NGS数据分析经验。
-
-
- Publications & Patents.
-
Publications
Wang, R.Z., Liao, Y.X., …, Yang, G., …, Kang, Y. K. Hybrid AI/ML-mechanistic framework enables intelligent optimization of commercial biopharmaceutical downstream processing. mAbs, 2026.
-
Patents
Yang, G., et al. Machine Learning-Based Optimization Methods and Systems for Downstream Biopharmaceutical Processes. CN121115680A, 2025. (Pending)
Yang, G., et al. Machine learning-based methods, apparatus, equipment, and media for culture medium formulation design. CN121725924A, 2026. (Pending)
-
- Skill. 技能清单
-
Python
FastAPI Gradio NumPy / Pandas Multiprocessing Scikit-learn -
Linux
Shell AWK Docker Singularity Slurm -
Deep Learning
PyTorch Transformer DGL Geometric DL Diffusion -
Databases
SQLite Neo4j Faiss -
CUDA & Inference
TensorRT Quantization Prefix Caching -
Frontend Development
HTML / CSS JavaScript React