×

OpenAI开源基准测试HealthBench:评估LLM对医疗的作用

hqy hqy 发表于2025-05-15 18:40:03 浏览4 评论0百度已收录

抢沙发发表评论

编辑 | LbP

改善人类健康将是人工智能 (AI) 的重要目标之一。如果能够有效开发和部署,大型语言模型(LLM)将有望扩大健康信息的获取渠道,支持临床医生提供高质量的医疗服务,并帮助人们维护自身和社区的健康。

为了实现这一目标,科学家需要保证模型既实用又安全。评估测试对于了解模型在医疗环境中的表现至关重要。尽管学界和业界已经在这方面投入很大,但是现有大部分评估基准并未反映现实情况。它们往往缺乏针对专家医学意见的严格验证,使模型的优化空间大打折扣。

OpenAI 的 Health AI 团队推出了 HealthBench:一个开源基准测试,用于衡量医疗保健领域大型语言模型的性能和安全性。HealthBench 由 262 位在 60 个国家/地区执业的医生合作打造,包含 5,000 段真实的健康对话,每段对话都配有医生创建的自定义评分标准,用于对模型的响应进行评分。

图示:参与项目的医生所在的国家与地区。(来源:官网)

与之前的多项选择题或简答题基准测试不同,HealthBench 通过 48,562 个独特的评分标准进行现实的开放式评估,涵盖多个健康情境(例如,紧急情况、临床数据转换、全球健康)和行为维度(例如,准确性、指令遵循、沟通质量)。

图示:HealthBench 示例包含一段对话以及医生针对该对话编写的评分标准。基于模型的评分器会根据每项标准对答案进行评分。(来源:论文)

HealthBench 相关技术论文的预印版本已经可以在线查看了。

论文链接:https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf

研究人员评估了 OpenAI 发布过的不同模型,HealthBench 的结果显示:其初期阶段的模型性能增长相对稳定平缓(相比之下,GPT-3.5 Turbo 的得分为 16%,而 GPT-4o 的得分为 32%);而近期的模型,性能提升更迅速(o3 得分为 60%)。

小型模型的变化尤为显著:其中 GPT-4.1 nano 的性能优于 2024 年 8 月发布的 GPT-4o 模型,并且成本降低了 25 倍。

图示:各模型系列的得分与成本。(来源:论文)

他们比较了 o3、o4-mini 和 o1 模型在低、中、高推理能力下的测试时计算性能。可以发现,它们在测试时计算方面均有所提升。这表明推理模型可能会在未来几个月内进一步提升性能。

图示:k 个样本的最差 HealthBench 得分。(来源:官网)

该团队还展示了用 HealthBench 测试模型的可靠性。

「可靠性在医疗保健领域至关重要——一个糟糕的回应可能抵消许多好的回应。我们在 HealthBench 上测量了 k 个样本的最坏情况性能,发现 o3 在 16 个样本的最坏情况得分是 GPT-4o 的两倍多。」研究人员在博客里表示。

此外,该团队发布了两个 HealthBench 版本:

HealthBench Consensus 包含 3,671 个 HealthBench 样本,其中包含一个经过严格筛选的标准子集,这些标准已根据医生共识进行了多重验证——只有当大多数医生都认为该标准适用于某个样本时,才会被纳入。它的设计目标是将模型的错误率降至接近零。

HealthBench Hard 包含来自 HealthBench 的 1,000 个样本子集,而当下的前沿模型难以应对这些样本,其当前最高得分仅 32%。研究人员希望这个版本的 HealthBench 所带来的挑战与反馈,能够在后续的研究中提升模型的性能。

图示:HealthBench Hard 子集分数。(来源:官网)

为了了解基于模型的评分系统是否能够有效评估评分标准,该团队邀请医生查看 HealthBench Consensus 中的回复,从而评估回复是否符合评分标准。

研究人员使用这些回复进行「元评估」,即评估他们基于模型评分的评分标准与医生判断的对应程度。为了评估评分标准是否符合要求,研究人员确定了基于模型的评分系统与医生意见一致的频率,以及医生之间意见一致的频率。结果显示,模型与医生之间的成对一致性与医生个体之间的成对一致性相似。

图示:HealthBench Consensus 的模型-医生和医生-医生协议。(来源:论文)

「我们相信健康评估应该值得信赖。我们测量了基于模型的评分与 HealthBench Consensus 上医生评分的一致性,发现模型在 6/7 个领域中与医生的评分中位数一致,这表明 HealthBench 评分与医生的判断相符。」这项研究的主要负责人 Karan Singhal 在推文里表示。

该团队在博文里表示:「像 HealthBench 这样的测试基准是我们持续研究的重要组成部分,旨在了解模型在高影响环境下的行为,并确保研究进展能够惠及现实世界。我们的研究结果表明,大型语言模型随着时间的推移已显著改进,并且在我们基准测试中对示例的回复方面已经超越了专家。然而,即使是最先进的系统仍有很大的改进空间,尤其是在为未指定的查询寻找必要的上下文以及最坏情况的可靠性方面。我们期待分享未来模型的成果。」

目前,HealthBench 完整的评估套件和底层数据已经公开在了 GitHub 代码库。

开源链接:https://github.com/openai/simple-evals

相关内容:

https://openai.com/index/healthbench/

https://x.com/thekaransinghal/status/1921996747947311587