杨光的简历

Basic info. 基本信息

个人信息: 杨光

教育背景: 吉林大学　　　生物技术　　2012.9-2016.07　本科

　　　　　华东师范大学　计算机技术　2019.9-2022.12　硕士

博　　客: https://yangguang8112.github.io

比　　赛: https://yangguang8112.github.io/CompTrack
金赛药业（2023.09 - ）
- AI计算生物平台 AIDD 研发平台
  
  负责构建GenMol计算生物平台，实现分布式协同计算和高并发任务管理。基于Docker容器化技术规范算法组件的动态接入流程，先后整合并上线了涵盖蛋白语言模型、结构预测、分子从头生成、可开发性评估与理化性质预测等多个核心方向的标准化计算模型，持续扩展算法与数据库资源，并负责平台的日常高可用运维与用户权限体系设计。此外，尝试性探索了AI Agent调用平台计算模块的自动化工作流，有效沉淀公司AIDD工具与研发经验，强力支撑创新药物的高效研发。
- VHH文库设计与蛋白设计蛋白语言模型干湿迭代多目标优化 AI药物研发
  
  主导多目标驱动的VHH通用合成文库理性设计，基于蛋白语言模型捕捉位点协同进化信息，并利用玻尔兹曼分布融合疏水性、PTM风险等关键可开发性约束，规避传统统计文库的“独立性陷阱”。经多个异质性靶点实验筛选验证，AI常规优化库在多个靶点展现出显著的广谱适配性，单靶点VHH结合数较天然库实现数十倍提升；验证了AI理性设计架构的有效性，成功跑通“干湿结合”的数据迭代闭环。
  
  面向特定靶点的蛋白设计，结合靶点与表位分析确定关键结合位点，基于突变优化与De novo生成相结合的策略进行序列设计；并从理化性质、结构稳定性、能量及功能等多维度进行综合评估与排序，筛选高潜力候选分子，支持实验验证与迭代优化。
- 蛋白优化算法 LoRA 突变位点 Fitness Few-shot
  
  面向真实场景下的蛋白突变效应预测（零样本/少样本），基于大规模DMS数据（如ProteinGym）进行模型训练与评估，围绕特征表达、模型结构及数据增强策略提升泛化能力；通过多模型融合与参数高效微调（Meta-learning、LoRA），结合进化与能量信息进行联合建模，有效提升fitness相关性与Top Hit识别能力；并构建支持干湿实验快速迭代的自动化计算流程。
- 抗体可开发性预测抗体工程风险筛选 Developability
  
  聚焦抗体药物的成药性瓶颈，主导构建了多维度 in silico 可开发性评估与风险筛选体系，全面兼容单抗、双抗及 VHH 纳米抗体等多种分子形式。该体系深度融合理化性质特征（聚集倾向、溶解度、pI、PTM位点及 TAP 指标）与深层进化信息，实现对候选分子稳定性的联合建模与精准预测。通过高风险序列的早期淘汰与优势分子优选，显著提升抗体早期筛选的成功率与成药转化效率。
- 生物制药工艺优化与高维数据建模机器学习多维建模工艺优化成果转化
  
  深度参与生物制药上下游工艺优化与大分子配基设计项目，负责核心多维实验数据的清洗、特征工程与机器学习建模。在上游培养基配方设计及下游工艺优化中，通过构建精准预测模型指导关键工艺参数调整，实现了目标产率、细胞生长表现的显著提升，并有效降低了副产物。相关创新成果已成功转化为3项发明专利申请，并发表1篇学术期刊论文，实现了数据建模对工艺开发与干湿实验闭环的深度赋能。
华大基因&上海交大联合创新中心（2019.10 - 2023.06）
- “云上进化”2022全球AI生物智药大赛 Contest Write-up AI4Science
  
  参与阿里云与NVIDIA联合举办的AI抗体设计竞赛（SARS-CoV-2广谱中和抗体方向），针对抗体与多变异株之间的亲和力与活性预测问题，构建融合序列与结构信息的建模方法；基于多种蛋白预训练模型提取多尺度特征，并结合图神经网络进行跨模态融合，有效提升预测性能，最终在赛道一决赛中获得亚军。
- 生物医学文献结构化抽取系统 Demo NLP Bert Neo4j LangChain chatGLM
  
  构建生物医学文献结构化抽取系统，基于BioBERT结合实体识别与关系抽取实现关键信息自动提取，辅助ACMG解读流程中的证据检索；结合Flask开发可视化查询系统，实现实体高亮与文献溯源展示，并通过Neo4j关联生物医学知识图谱（PrimeKG）构建多关系网络；同时引入LangChain与大语言模型优化查询流程，自动生成与问题相关的文献实验证据。
诺禾致源（2016.7 - 2019.8）
- 基于表观组学的肿瘤早筛方法研究机器学习 RNA-seq
  
  基于RNA-seq数据构建肿瘤早筛建模流程，涵盖序列比对、表达定量、差异分析与特征筛选等关键步骤。使用统计方法（DESeq2）筛选差异基因，并构建机器学习模型进行分类预测，实现从原始数据到预测结果的完整分析pipeline。
- lncRNA分析流程 RNA-seq NGS Pipeline
  
  负责lncRNA分析流程开发与维护，构建标准化分析pipeline（转录本组装、编码潜能分析、共表达网络等）。编写Python脚本实现任务调度与数据流管理，并结合R进行结果可视化与报告生成。熟练使用BWA、Hisat2、StringTie、GATK等工具，具备完整NGS数据分析经验。
Publications & Patents.
- Publications
  
  Wang, R.Z., Liao, Y.X., …, Yang, G., …, Kang, Y. K. Hybrid AI/ML-mechanistic framework enables intelligent optimization of commercial biopharmaceutical downstream processing. mAbs, 2026.
- Patents
  
  Yang, G., et al. Machine Learning-Based Optimization Methods and Systems for Downstream Biopharmaceutical Processes. CN121115680A, 2025. (Pending)
  
  Yang, G., et al. Machine learning-based methods, apparatus, equipment, and media for culture medium formulation design. CN121725924A, 2026. (Pending)
Skill. 技能清单
- Python FastAPI Gradio NumPy / Pandas Multiprocessing Scikit-learn
- Linux Shell AWK Docker Singularity Slurm
- Deep Learning PyTorch Transformer DGL Geometric DL Diffusion
- Databases SQLite Neo4j Faiss
- CUDA & Inference TensorRT Quantization Prefix Caching
- Frontend Development HTML / CSS JavaScript React

杨光的简历

金赛药业（2023.09 - ）

AI计算生物平台 AIDD 研发平台

VHH文库设计与蛋白设计 蛋白语言模型 干湿迭代 多目标优化 AI药物研发

蛋白优化算法 LoRA 突变位点 Fitness Few-shot

抗体可开发性预测 抗体工程 风险筛选 Developability

生物制药工艺优化与高维数据建模 机器学习 多维建模 工艺优化 成果转化

华大基因&上海交大联合创新中心（2019.10 - 2023.06）

“云上进化”2022全球AI生物智药大赛 Contest Write-up AI4Science

生物医学文献结构化抽取系统 Demo NLP Bert Neo4j LangChain chatGLM

诺禾致源（2016.7 - 2019.8）

基于表观组学的肿瘤早筛方法研究 机器学习 RNA-seq

lncRNA分析流程 RNA-seq NGS Pipeline

Publications

Patents

Python FastAPI Gradio NumPy / Pandas Multiprocessing Scikit-learn

Linux Shell AWK Docker Singularity Slurm

Deep Learning PyTorch Transformer DGL Geometric DL Diffusion

Databases SQLite Neo4j Faiss

CUDA & Inference TensorRT Quantization Prefix Caching

Frontend Development HTML / CSS JavaScript React

VHH文库设计与蛋白设计蛋白语言模型干湿迭代多目标优化 AI药物研发

抗体可开发性预测抗体工程风险筛选 Developability

生物制药工艺优化与高维数据建模机器学习多维建模工艺优化成果转化

基于表观组学的肿瘤早筛方法研究机器学习 RNA-seq