(原标题:第一!医渡科技大模型登顶上海AI实验室权威评测榜)
5月9日,面向中文医疗大语言模型的开放评测平台MedBench更新评测榜单,医渡科技大模型(评测名:HH-YIDU-Med)以综合得分61.3分的出色成绩登顶榜首,成为榜单中首个综合评分超过60的医疗大模型。
MedBench评测榜单节选
MedBench是由上海AI实验室和上海市数字医学创新中心推出的权威评测平台,依托顶级医疗机构的专家经验和知识储备,设置了医学语言理解、医学语言生成、医学知识问答、复杂医学推理和医疗安全和伦理等5大维度,共包含15项任务、20个数据集及30万道题目,为中文医疗大模型提供客观科学的性能评测参考。
MedBench榜单评测维度
医疗行业因其独有的专业度和严谨性,对医疗大模型的能力提出了极高要求。尽管GPT-4已经在通用大模型领域取得了显著的突破,但由于医疗文本和知识的特殊性,即使是GPT-4在处理医疗场景的真实问题时,如果未经专门训练也无法取得很好的成绩。医渡科技大模型在医学知识问答、医学语言理解、医疗安全和伦理三大关键维度中都拔得头筹,充分展现了其在专业性、理解力、逻辑性和安全性等方面的医疗专业实力。
作为国内医疗智能行业的头部企业,医渡科技在医疗智能领域深耕近10年,其“医疗智能大脑”YiduCore经授权处理分析了超过40多亿份医疗记录,沉淀了大量多维度可量化的知识图谱。医渡科技大模型的构建不仅基于对大量临床实践指南、医学文献的筛选治理,还应用自研的数据生成技术,将多年实践积累的知识图谱用于大模型训练,从而显著提升了模型在医学领域的专业性能和准确性,增强了大模型生成内容的真实性和可解释性。
医渡科技大模型的优秀表现,得益于公司在医疗知识和知识图谱方面的积累,也离不开其在模型架构和算法方面的不断创新。医渡科技具备从硬件组网到训练微调、推理的完整技术能力,国内外主流芯片软硬件全栈适配。并且自研了针对医疗数据特点的专利技术,进一步提升了模型在医学语言理解、医疗安全等方面的专业能力。此外,医渡科技还采用了数据增强和对抗训练等技术,以提升模型的鲁棒性。
作为“医疗大脑”YiduCore的核心算法,医渡科技大模型为医疗健康产业各应用场景提供易使用、高质量、可定制的强大赋能。面向B端,医渡科技大模型能够利用强大的专业能力助力“医、教、研、管”等场景各个环节提质增效,公司原有的数据治理、医院管理、临床科研、临床诊疗等多个场景的解决方案都基于大模型技术进行了升级;面向C端用户,医渡科技大模型提供专业医学级别的个性化服务,包括报告解读、健康问答、导诊咨询等等。目前医渡科技大模型正由大语言模型向多模态大模型升级,从而满足更多场景的应用需求。
此次登顶MedBench评测榜,医渡科技大模型从理解生成“基础”能力,到复杂推理“进阶”能力,再到伦理把控“高级”能力的模型性能都得到了验证和肯定。医渡科技表示,目前取得的成绩只是一个开始,医疗大模型还有很长的路要走。公司将继续稳步前行,不断突破创新,以实现医疗人工智能的更大潜力,推动大模型技术向更高水平发展,实现大模型技术在多领域场景下的渗透和应用,加速推动医疗行业的智能化转型升级。