(原标题:加速生命科学大模型落地,腾讯构建了一个新的AI生态)
2025年的腾讯全球数字生态大会中,腾讯健康总裁吴文达对腾讯的生命科学解决方案进行了一次全方位的拆解。
整体架构方面,腾讯生命科学实验室通过多尺度、多模态技术串联,共同构建了从分子到细胞、组织再到系统的全栈研究体系,以“数据-算法-平台”为主轴,形成覆盖基础研究、技术工具、应用落地的完整生态。
基础能力方面,腾讯健康聚焦其存储、算力、AI开发与应用,为生命科学行业提供“数智化解决方案”,并通过组学平台 “AI模型仓库”,整合来自腾讯生命科学实验室的顶刊AI模型,以及开源和用户私有大模型,降低单细胞、基因组、蛋白质组等全链条研究的技术门槛。
成果输出方面。“云深智药”平台可加速药物发现和优化,利用AI预测蛋白质三维结构,生成新的小分子或抗体分子,全面加速药物的筛选和优化。
完整链路之下,这套体系现已链接起数千个制药人员,协作多家药企提速药物设计。当AI成为药企数字化变革中的必答题,腾讯或许面临一个新的千亿级机遇。
01在单细胞测序中率先引入大模型
早在2022年,腾讯生命科学实验室便率先在单细胞测序领域构建大语言模型scBeat。该模型基于BERT范式,可将细胞中基因的表达信息转化成可被计算机理解、学习的“语言”,并对细胞进行精准标注,分析出基因之间的复杂关系。
相关研究最终被国际顶级学术期刊《Nature Machine Intelligence》收录。据腾讯生命科学实验室首席科学家姚建华介绍:该模型在预训练阶段通过大规模无标注训练数据学习通用的基因和表达编码,可有效提升模型的鲁棒性与泛化能力。此外,基于少量数据微调,腾讯生命科学实验室有效提升模型的准确性。
进入空间蛋白组学时代后,腾讯生命科学实验室同样迅速在此领域推出AI工具。
细胞类型注释是“蛋白空间表达信息”与“生物学功能解读” 的核心桥梁。在进行空间蛋白组学研究前,研究者必须先全面注释空间转录组数据的细胞类型,保障蛋白质表达数据与具体细胞功能、组织微环境作用或疾病机制关联。但传统工具能力有限,研究人员需要能有效降维且对数据噪声具有稳健性的高性能注释方法,Spatial-ID 应运而生。
“为了解决上述问题, 我们首先采用迁移学习的方法,把单细胞的模型迁移到空间组学上,再利用AI中编码器的方法来编码它的基因和空间的信息。最后,我们构建了Spatial-ID这个模型分析新的空间组学数据。”姚建华在演讲中谈到。
据相关实验统计,Spatial-ID的细胞类型注释速度较传统方法高出百倍,准确度提升20%,还同期解决了数据缺失和批次效应的问题。
在四个不同的空间转录组公开数据集上开展的基准测试中,Spatial-ID 与现有8种先进方法(Seurat、SingleR 等)进行性能对比,最终在各数据集的分析上均取得了显著优于其他方法的准确性。
例如在小鼠初级运动皮层数据集上,Spatial-ID达到了92.75%的平均准确率;在小鼠下丘脑视前区的三维空间转录组数据集上,其细胞类型注释平均准确性比最佳的SOTA方法提升了约 6.5%。
为了进一步推动空间蛋白组学的发展,姚建华等研究员还收集和整理了业界规模最大的空间组学数据集SODB(Spatial Omics DataBase),现已收录了约5亿个细胞,总数据量超过1T,同时提供完整的数据分析和可视化的流程。
总的来说,腾讯在生命科学领域的持续突破,不仅推动基础科研效率与精度革新,也为解析生命机制、探索疾病奥秘提供关键工具,已在一定程度上带动相关行业向前跃进。
02平台化思维重构AI新药研发
相较于生命科学,腾讯在AI新药研发方向入局更早,相关落地成果也更为多元。
腾讯AI制药技术负责人刘伟在会上讲述了腾讯开发制药大模型的逻辑,他认为:“药物研发涉及小分子、抗体、ADC、核苷酸药物及疫苗等多模态需求,因而需要聚焦原子层级,构建底层统一大模型。通过深入研究原子作用力与原子凝聚体结构,腾讯健康让模型可适配上层各类药物研发场景,为不同模态药物研发提供基础支撑。”
在结构预测方面,腾讯的原子级大模型已初露锋芒。以抗体人源化改造为例,传统模型依赖序列及上层数据训练,难以捕捉微小变化带来的影响,而腾讯的大模型能感知原子变化引发的结构、作用力及分子间相互作用的改变等,提升合成抗体成功率,并保证其具备高结合亲和力。
进一步谈DNA和蛋白质结构预测。AlphaFold3等主流工具虽能预测 DNA 双螺旋结构,但在沟槽结构、卷曲角度等关键参数上与真实结果差异较大,无法满足高要求应用场景。面对这一缺陷,腾讯结合原子层面大模型与分子动力学模拟等计算方法,大幅提升了从序列或结构预测结构的效果,该成果已应用于核酸药物研发,并可扩展到 RNA 相关领域。
在大模型应用实践中,腾讯已经通过多个案例验证了其AI能力。
在AI 预测抗体药物筛选方向上,传统方法通过免疫动物、提取抗体后进行生物膜干涉实验筛选,成本高昂。相较之下,腾讯从抗体序列建模入手,利用AI预测抗体与抗原的结合能力及亲和力,第二轮筛选通过聚类相似序列进一步减少实验环节,最终正确率会比传统的ELISA提升3-5倍,研发成本降低超过40%。
此外,腾讯还自研了大语言模型驱动的抗生素耐药性数据库MdrDB。该数据库不仅收录的菌类分布、全球主要致死耐药性细菌致因数据与世界卫生组织公布结果高度一致,还具备耐药机制解析、突变模式揭示等能力,能够助力新靶点的发现与抗菌药物的研发,可为流感、新冠等疾病的未来演化预判及药物研发提前规划提供有力支持。
回顾生命科学与制药领域中的布局之外,腾讯似乎在这两个前沿领域找到了它熟悉的B端打法——聚焦于搭建平台化的覆盖临床前新药研发全流程的AI工具,进而构建其独有的创新药生态体系。
相较于躬身入局,这一逻辑显然能够更好地发挥体系之中个角色的比较优势,以低于行业的平均研发成本抢夺行业先机。
2024年,中国创新药企业凭借爆发式出海迅速完成投资变现,全年创新药交易总金额高达3630.98亿元,并在2025年延续着增长的趋势。
风口之下,腾讯的这套布局或将率先助其实现AI在生物制药的工业转化,甚至有望形成一个全新的收入增长极。
本文来源:财经报道网