人工智能在医疗领域的诊断能力,目前的研究结果还存在差异。一方面,有研究称人工智能模型的诊断准确率可以超过医生,准确率可达到95%以上。但另一方面,也有研究指出,即使是目前最先进的大语言模型,在实际应用中也无法为所有患者做出准确诊断,且表现明显差于人类医生——医生的诊断正确率为 89%,而大语言模型的诊断正确率仅为 73%。在极端情况(胆囊炎诊断)下,大语言模型的正确率仅为 13%。
为何同是人工智能相关的研究,却得出了完全相反的结论?中日友好医院原副院长姚树坤认为,问题的根本原因在于当前人工智能在医疗领域的应用缺乏统一、客观的评价标准。不同的研究可能采用了不同的数据集、评估方法和应用场景,导致结果难以横向比较。这种缺乏标准化的现象不仅影响了人工智能技术的可信度,也阻碍了其在临床中的广泛应用。
人工智能在医疗领域的应用亟待建立客观、统一的评价体系。这种体系应基于“金标准”,即通过科学验证和临床实践认可的诊断方法和指标,来衡量人工智能模型的准确性和可靠性。只有在统一的评价框架下,人工智能技术才能真正发挥其潜力,为医疗领域带来实质性的进步,同时确保其应用的安全性和有效性。
重视人工智能的真实性、可靠性评价
人工智能和人类医生的关系应该是相辅相成、优势互补的,人工智能可以作为一种医疗诊断辅助工具,帮助医生提供更快捷的医疗服务,两者携手可有效提升医疗效率。姚树坤表示,医学人工智能在投入临床应用前必须经历这样一个严格的临床验证,评估其诊断能力的真实性。人工智能准不准,不能由一个或几个专家说了算,再厉害的医学专家都可以存在主观误差,应该由临床诊断的‘金标准’说了算,例如肺结节患者的术后病理结果,冠心病患者的冠脉造影结果等。“没有金标准的支撑,人工智能的诊断结果就如同沙滩上的建筑,缺乏稳固的基础。”真实性的评价就是和金标准对比得出其准确度,包括敏感度(降低漏诊率)、特异度(降低误诊率)、预测值等核心指标。
“要像训练更适宜临床的人工智能工具,离不开高质量的临床数据,建立结构化、格式化、定量化的多模态数据库尤为重要。”姚树坤表示,高质量的人工智能模型需要整合多模态数据,包括病史资料(现病史、既往史等)、查体资料(视触叩听)、实验室资料(血常规、生化、免疫学、分子病理诊断等)、影像学资料(CT、核磁等)以及功能检查资料(心电图、脑电图等),甚至还应包括生命组学数据(基因组、蛋白质组等)与临床资料的整合,以便能够制定个体化方案,实现精准医学的目标。“只有基于这样的数据库,人工智能模型才能在灵敏度、特异度等关键指标上达到临床可用的标准,从而有效减少漏诊和误诊的风险。”
“开发一个人工智能诊断工具,不是为了一家医院、一个科室可以使用,而是要将其推广到更多地区,尤其是基层地区,切实提升基层医疗水平。”在姚树坤看来,人工智能系统诊断模型的可靠性即可重复性评价也十分重要,需要在不同场景下、不同医院、地区、种族、年龄和性别条件下,都能够做出同样准确的辅助诊断,输出稳定的结果,即结果的一致性。Kappa值就是用来评价对同一试验结果在不同地区、不同人群、不同医疗机构得出结果一致性的指标。“若缺乏可靠性验证,人工智能诊断工具会在实际临床应用中可能出现偏差,影响诊断和治疗效果。”姚树坤说,在现阶段以及未来的很长一段是时间内,人工智能仅能作为辅助诊断和治疗建议的工具,而非独立的医疗决策者,也期待国家应尽快出台管理规定,明确责任归属,避免因人工智能建议导致的医疗纠纷,并通过临床医生、IT技术专家、人工智能专家等多方面专家对模型进行严格评价,确保其准确性和可靠性。
团结协作而非各自为战
“人工智能在医疗领域的应用看似多点开花,十分繁荣,实则是各自为战。”姚树坤表示,许多医院和机构选择独立开发医疗软件或人工智能模型,结果是每个医院研发一套系统,重复投入大量资金和人力。这种模式不仅导致资源的极大浪费,还使得软件的质量和实用性难以保障,不同医院开发的系统可能功能相似,但缺乏统一的标准,最终难以实现跨机构的协作和数据共享。
这种开发模式不仅无法满足医疗的需求,还导致了信息孤岛的问题,患者的影像资料(如CT、核磁等)在不同医院之间无法共享,影响跨机构研究和模型训练的效率。姚树坤表示,人工智能系统需要依赖术后病理验证等金标准来评估准确性,但如果各医院的数据无法共享,可靠性验证就难以进行。“患者在某一医院做的影像检查,部分医院虽可以调取影像资料,但如果医院之间不开放数据接口,这些资料无法被其他机构有效利用,影响跨机构研究和模型训练,也会影响模型的稳定性和一致性。”
期待在医疗卫生管理部门的领导下,由学会协会牵头,不同医院可以分工协作,促使医疗用人工智能系统的研发从“各自为战”转向“协同攻坚”,从而打破资源浪费与信息孤岛的双重困境。此外,学协会作为行业枢纽,能够统筹各方力量,制定统一的技术规范与数据标准,为跨区域、跨机构协作提供制度保障。
团结协作还能推动数据结构化设计,通过前结构化设计,可以显著提升数据的价值密度(Value),减少非结构化数据带来的变异性和不确定性(Variability)。这不仅加快了数据处理的速度(Velocity),也增强了数据的真实性(Veracity)。团结协作能够确保这些设计在不同机构之间的一致性,从而提高模型的可靠性和适用性。姚树坤指出,通过整合资源、打破信息孤岛、推动数据结构化设计以及实现多模态数据融合,可以显著提升人工智能模型的质量和可靠性,进一步提高医疗效率,还能为患者提供更精准、更高效的医疗服务。“我们需要进一步加强跨区域、跨机构、跨学科的协作,共同推动医疗人工智能迈向新的高度。”