编者按:
AGI 时代正加速到来,智能系统从“工具”向“伙伴”的角色跃迁,也带来了一系列亟待破解的核心命题:如何确保智能系统在金融、医疗等严谨行业安全、可信、可控?如何持续提升模型 Token 效率,让模型又快又准,加速智能体规模化应用?又如何通过高质量数据持续提升大模型性能?面对这些关键挑战,蚂蚁数科将携手高校推出系列技术研究《In Tokens We Trust》,聚焦上述前沿议题,分享我们在探索中的思考与实践。
今天带来专题的第三篇:蚂蚁数科与浙江大学的联合研究成果:让医疗 AI 像专业医生一样思考,从“黑盒推理”走向“透明决策”。
当前,医疗 AI 讨论的焦点正在发生深刻转移:从“模式识别的准确率”转向“高度专业复杂决策的可信度”。真正的挑战不再是 AI 能否在影像上圈出病灶,而是当它面对一份包含文本、影像、化验单的复杂病历时,能否像一位高年资医生那样,进行审慎、全方位、可解释的推理。
自然而然的,这种转变受限于两大根本性的技术挑战:
一是推理黑盒:大模型的决策过程像一个“黑盒”,我们知道输入和输出,却难以审视其内部的推理逻辑是否符合医学规范。当面对一个关乎生命健康的决策时,“感觉上对”是远远不够的。
二是证据孤岛:临床证据天然是多模态、碎片化的。病历中的主诉、体征是文本, CT/MRI 是影像,生化检验是数值。这些分散的“证据孤岛”如何被统一、整合,并成为 AI 推理的坚实基础,而非松散的上下文,是业界尚未完全解决的难题。
老年医学正是这两大技术挑战最集中的“压力测试场”。它的难点不只是多病共存、个体差异巨大,更在于真实决策边界模糊:同样的症状和指标,放在不同年龄、功能状态和共病背景下,处理方式可能完全不同。因此老年病的诊疗极度依赖医生的综合判断能力和对完整证据的把握。
针对上述挑战,蚂蚁数科与浙大联合研发了两大核心技术:CRAFT(结构化评价体系)和多模态循证。这套组合拳的探索方向,为 AI 装上两样关键装备,将不可靠的“黑盒推理”转变为透明、严谨的“临床工作流”。
CRAFT:为 AI 打造一套解题思路评分标准,教会它如何像专家一样,进行精准、结构化的临床思维。
多模态循证:为 AI 配置严谨可靠的「医学证据档案」,将碎片化信息整合成规范统一、可追溯的证据链。
01
CRAFT:从“猜答案”到“学解题”
传统模型优化的方式,如同让学生只看最终答案对错,却不教解题步骤。而 CRAFT 的核心,是为AI提供一本详细的“解题思路评分标准”,让它学会像专家一样思考。
它并非凭空设计的规则,而是从真实临床实践中沉淀出的专家共识:
一、经验框架化:首先,蚂蚁数科团队与医学专家团队合作,基于 1100+ 份真实老年病住院病历,将高年资医生隐性的判断逻辑、权衡过程和风险意识,系统性地梳理为 13个一级、55个二级评价维度,构成了评价 AI 思维质量的顶层框架。
二、框架实例化:随后,针对具体病例,通过蚂蚁自研的 CRAFT 生产线,将这套通用框架细化为面向具体病例超过 8000+ 条评价细则。可以根据病历的复杂情况生成专门为每一个病例生成独特的、可量化的评价细则。
凭借对于专家经验的萃取与提炼,CRAFT 展示出一条完整、严谨且可被评估的诊断逻辑链:从提取归纳最可能的诊断证据,到定性问题,到排除共病冲突、禁忌,最后给出治疗计划。
例如,对于图片中这位因“头痛头晕 1 天”入院的 61 岁患者,传统的 AI 模型可能直接分析病历,然后给出一个结论:“急性脑梗死”。这个结论很可能是对的,但它就像一个孤立的答案,我们无从得知 AI 是如何排除其他可能性,又或仅仅是基于文本中“脑梗塞”一词做的模式匹配。
而 CRAFT 则会像一位严谨的医师,要求 AI 进行一场结构化的“病例讨论”,通过对构建支持证据链、核心问题定性、证据与推理的结合、综合判断等核心诊断的过程评估。
最终形成“在排除了脑出血后,结合脑 CT 明确提示脑梗死、急性神经缺损表现和脑血管病基础,急性缺血性脑卒中(腔隙性脑梗死)的支持证据强于其他病因”的判断逻辑。
得益于 CRAFT 的针对数据处理的细致与严谨,专家认知可以自然地被用于 AI 训练的全流程:监督微调(SFT)阶段:基于 CRAFT 合成高质量的“思维链”数据,让模型直接学习专家级的思考范式;强化学习(RL)阶段:将 CRAFT 作为奖励模型的核心部分,对 AI 输出的推理过程进行打分,持续引导模型向更严谨、更完整的方向优化。
从而,使得 AI 不再是“猜答案”的黑盒,而是学会了专业医生的精准临床逻辑。
02
多模态循证:
从“碎片信息”到“完整证据链”
如果说 CRAFT 是思维的框架,那么多模态循证就是思维的基石。它致力于打造一个统一、可追溯、自带权威知识库的智能证据体系,如同给 AI 配备一本严谨可靠的「医学证据档案」。
其架构通过“三步走”,实现了从原始数据到可信证据的转化:
1.医疗本体提取(MM2Structure):统一证据语言
多模态循证的第一步,是将不同来源的临床信息统一映射到医疗本体 Ontology 上。我们没有直接在原始文本和图像上做推理,而是先构建标准化证据空间,让病历、检查和影像都能以统一、受约束的结构表达进入后续流程。
其中, Ontology 的建立一方面以《病历书写基本规范》作为先验,对现病史、既往史、查体、检验检查、诊断计划等核心模块的逻辑和实体表达进行初始结构化定义成为 Basemodel ;另一方面结合真实病例数据,采用 data-driven 的方式渐进式披露的校验和修正字段、实体粒度与关系约束,使本体结构逐步收敛。
在此基础上,我们训练了多模态本体提取模型 MM2Structure ,将病历文本、影像报告和影像输入统一解析为符合 BaseModel 约束的结构化实例。最终,BaseModel 实例成为后续循证、检索和推理的基础证据单元。
2. 医学知识图谱增强:接入“权威外脑”
由于老年患者常常有多病共患、机能下降等问题风险,老年医疗相比其他医疗场景,更为需要理论支撑的广度与深度。为此,蚂蚁数科×浙大构建了一个覆盖超 20万+ 权威文献、20+ 专科,包含 500万+ 实体关系的大规模医学知识图谱。
同时引入时态建模技术捕捉医学知识的演进规律,确保知识库的动态更新能力。当 AI 分析病例时,它能通过 Graph RAG 等技术,将患者的证据子图“投射”到知识图谱中,实时检索匹配的指南路径、药物相互作用规则。
3. 动静结合的循证闭环:从“被动应答”到“主动求知”
为保证循证过程的严谨性,我们是通过“动静结合”的方式,使之具备自我反思的分析能力。为此蚂蚁数科×浙大进一步构建了多模态循证询证推理系统 MM-EIR(Multimodal Evidence-grounded Inquiry Reasoner),将患者当前证据与知识图谱中的诊断和治疗路径进行对齐,判断“已有证据支持什么、反对什么、还缺什么、下一步应补什么”。
在系统内部,所有 MM2Structure 输出的 BaseModel 实例会被进一步封装并持续写入动态更新的 Patient Evidence Ledger(患者证据账本),用于管理住院过程中不断进入的新增证据。
在此基础上,MM-EIR 支持两种工作模式:
一是静态检索式被动循证,围绕当前诊断或治疗问题,从证据账本中检索相关证据并输出包含支持证据、反对证据、缺失证据和治疗约束;
二是动态询证式主动循证,它会进一步基于静态检索阶段识别出的缺失证据和治疗约束,并结合新检验、新影像、新病程或新医嘱带来的证据变化,自动重评当前证据链条,一旦发现关键判别链存在缺失证据、当前诊断缺乏必要支持、治疗行为受到新的风险约束,或新增证据提示潜在急危重风险,就会生成问询提示或预警提示,触发补证、重评估或风险提醒。通过这一机制,多模态循证真正从“检索知识”走向了“围绕证据持续推理”。
这套机制让 AI 不再是被动的信息处理器,而是一个具备求知欲、能够进行自我修正的智能协作者。
03
持续验证,迈向可信
CRAFT 与多模态循证的结合,其价值不在于追求单一指标的 SOTA ,而在于它验证了一个核心判断:
严肃场景 AI 的落地,关键不在于更大的模型,而在于更可靠的评价体系和更完备的证据基础设施。
将专家的临床思维沉淀为可量化的解题思路评分标准,将分散的多源数据整合为可追溯的「病历夹」——这条路径,为 AI 在医疗等高风险场景中的可信落地,提供了一个可复制的实践范本。
它本质上是一次对“ AI 执行基础设施”的重写与探索,旨在回答一个根本性问题:当 AI 开始辅助高风险决策时线上配资十大平台,我们应该如何构建一个值得信赖的底层系统。
元鼎证券股票配资推荐:资金托管与风控透明化解析提示:本文来自互联网,不代表本网站观点。