杨光的简历

  • Contact
    电话: 18844199550
    邮箱: sunshine1994yg@163.com
    微信: yangguang8659
    QQ: 948398165
  • Keywords
    AI × Biology
    Protein Design
    Protein Language Model
    Antibody Developability
    Deep Learning
    PyTorch

具备计算生物与深度学习交叉背景,熟练使用Python/PyTorch进行蛋白质序列与结构建模,具备良好的工程实现能力;当前聚焦抗体工程与蛋白设计,围绕蛋白语言模型与结构建模方法,开展抗体优化、可开发性评估、binder设计及VHH文库设计等工作,并推动相关算法在实际生物药研发流程中的落地应用;硕士期间从事生物医学NLP(实体识别与关系抽取)研究,具备扎实的数据挖掘与知识建模基础。

  • Basic info. 基本信息
    个人信息: 杨光
    教育背景: 吉林大学   生物技术  2012.9-2016.07 本科
         华东师范大学 计算机技术 2019.9-2022.12 硕士
    博  客: https://yangguang8112.github.io
    比  赛: https://yangguang8112.github.io/CompTrack
  • 金赛药业(2023.09 - )

    • AI计算生物平台 AIDD 研发平台

      负责构建GenMol计算生物平台,实现分布式协同计算和高并发任务管理。基于Docker容器化技术规范算法组件的动态接入流程,先后整合并上线了涵盖蛋白语言模型、结构预测、分子从头生成、可开发性评估与理化性质预测等多个核心方向的标准化计算模型,持续扩展算法与数据库资源,并负责平台的日常高可用运维与用户权限体系设计。此外,尝试性探索了AI Agent调用平台计算模块的自动化工作流,有效沉淀公司AIDD工具与研发经验,强力支撑创新药物的高效研发。

    • VHH文库设计与蛋白设计 蛋白语言模型 干湿迭代 多目标优化 AI药物研发

      主导多目标驱动的VHH通用合成文库理性设计,基于蛋白语言模型捕捉位点协同进化信息,并利用玻尔兹曼分布融合疏水性、PTM风险等关键可开发性约束,规避传统统计文库的“独立性陷阱”。 经多个异质性靶点实验筛选验证,AI常规优化库在多个靶点展现出显著的广谱适配性,单靶点VHH结合数较天然库实现数十倍提升;验证了AI理性设计架构的有效性,成功跑通“干湿结合”的数据迭代闭环。

      面向特定靶点的蛋白设计,结合靶点与表位分析确定关键结合位点,基于突变优化与De novo生成相结合的策略进行序列设计;并从理化性质、结构稳定性、能量及功能等多维度进行综合评估与排序,筛选高潜力候选分子,支持实验验证与迭代优化。

    • 蛋白优化算法 LoRA 突变位点 Fitness Few-shot

      面向真实场景下的蛋白突变效应预测(零样本/少样本),基于大规模DMS数据(如ProteinGym)进行模型训练与评估,围绕特征表达、模型结构及数据增强策略提升泛化能力;通过多模型融合与参数高效微调(Meta-learning、LoRA),结合进化与能量信息进行联合建模,有效提升fitness相关性与Top Hit识别能力;并构建支持干湿实验快速迭代的自动化计算流程。

    • 抗体可开发性预测 抗体工程 风险筛选 Developability

      聚焦抗体药物的成药性瓶颈,主导构建了多维度 in silico 可开发性评估与风险筛选体系,全面兼容单抗、双抗及 VHH 纳米抗体等多种分子形式。该体系深度融合理化性质特征(聚集倾向、溶解度、pI、PTM位点及 TAP 指标)与深层进化信息,实现对候选分子稳定性的联合建模与精准预测。通过高风险序列的早期淘汰与优势分子优选,显著提升抗体早期筛选的成功率与成药转化效率。

    • 生物制药工艺优化与高维数据建模 机器学习 多维建模 工艺优化 成果转化

      深度参与生物制药上下游工艺优化与大分子配基设计项目,负责核心多维实验数据的清洗、特征工程与机器学习建模。在上游培养基配方设计及下游工艺优化中,通过构建精准预测模型指导关键工艺参数调整,实现了目标产率、细胞生长表现的显著提升,并有效降低了副产物。相关创新成果已成功转化为3项发明专利申请,并发表1篇学术期刊论文,实现了数据建模对工艺开发与干湿实验闭环的深度赋能。

    华大基因&上海交大联合创新中心(2019.10 - 2023.06)

    • “云上进化”2022全球AI生物智药大赛 Contest Write-up AI4Science

      参与阿里云与NVIDIA联合举办的AI抗体设计竞赛(SARS-CoV-2广谱中和抗体方向),针对抗体与多变异株之间的亲和力与活性预测问题,构建融合序列与结构信息的建模方法;基于多种蛋白预训练模型提取多尺度特征,并结合图神经网络进行跨模态融合,有效提升预测性能,最终在赛道一决赛中获得亚军。

    • 生物医学文献结构化抽取系统 Demo NLP Bert Neo4j LangChain chatGLM

      构建生物医学文献结构化抽取系统,基于BioBERT结合实体识别与关系抽取实现关键信息自动提取,辅助ACMG解读流程中的证据检索;结合Flask开发可视化查询系统,实现实体高亮与文献溯源展示,并通过Neo4j关联生物医学知识图谱(PrimeKG)构建多关系网络;同时引入LangChain与大语言模型优化查询流程,自动生成与问题相关的文献实验证据。

    诺禾致源(2016.7 - 2019.8)

    • 基于表观组学的肿瘤早筛方法研究 机器学习 RNA-seq

      基于RNA-seq数据构建肿瘤早筛建模流程,涵盖序列比对、表达定量、差异分析与特征筛选等关键步骤。 使用统计方法(DESeq2)筛选差异基因,并构建机器学习模型进行分类预测,实现从原始数据到预测结果的完整分析pipeline。

    • lncRNA分析流程 RNA-seq NGS Pipeline

      负责lncRNA分析流程开发与维护,构建标准化分析pipeline(转录本组装、编码潜能分析、共表达网络等)。 编写Python脚本实现任务调度与数据流管理,并结合R进行结果可视化与报告生成。 熟练使用BWA、Hisat2、StringTie、GATK等工具,具备完整NGS数据分析经验。

  • Publications & Patents.
    • Publications

      Wang, R.Z., Liao, Y.X., …, Yang, G., …, Kang, Y. K. Hybrid AI/ML-mechanistic framework enables intelligent optimization of commercial biopharmaceutical downstream processing. mAbs, 2026.

    • Patents

      Yang, G., et al. Machine Learning-Based Optimization Methods and Systems for Downstream Biopharmaceutical Processes. CN121115680A, 2025. (Pending)

      Yang, G., et al. Machine learning-based methods, apparatus, equipment, and media for culture medium formulation design. CN121725924A, 2026. (Pending)

  • Skill. 技能清单
    • Python FastAPI Gradio NumPy / Pandas Multiprocessing Scikit-learn

    • Linux Shell AWK Docker Singularity Slurm

    • Deep Learning PyTorch Transformer DGL Geometric DL Diffusion

    • Databases SQLite Neo4j Faiss

    • CUDA & Inference TensorRT Quantization Prefix Caching

    • Frontend Development HTML / CSS JavaScript React


Copyright © 2026 杨光. All rights reserved.