人类不必恐慌！「人类终极考试」基准测试：AI惨败仅10%正确率

在AI技术飞速发展的今天，模型在常规基准测试（如MMLU）上的准确率已突破90%，但这是否意味着AI真的接近人类智慧？

网上各种AI威胁论层出不穷，仿佛明天你的工作就要被AI取代，不会用AI的仿佛就是原始人一样的另类，但是事实真的如此吗？还是他们在贩卖焦虑？

如今，一场全新的 “人类终极考试” 横空出世，能为你揭晓答案。当前，市面上最前沿的 AI 在面对极其简单的题目时，准确率也仅有 10% 。

"人类终极考试" 是什么？

非营利组织CAIS（人工智能安全中心）与数据巨头Scale AI联合推出名为“Humanitys Last Exam”（人类终极考试，简称HLE）的全新基准测试，希望用复杂的题目“拷问”AI的极限。

这个测试的题目那可是大有来头，是从全球 50 个国家、500 多个机构找来的近 1000 名学科专家出的，这些专家有教授、研究人员，还有拿到研究生学位的人，涵盖数学、人文、自然科学等好多领域。

他们一共提交了超 7 万道问题，经过严格筛选，最后只留下 3000 道高难度题。为了鼓励这些专家出题，还准备了 50 万美元奖金。

而且为了让测试更有挑战性，题目形式多种多样，有些还结合了图表和图像这些复杂题型。这样做是为了全方位考察 AI 在跨学科知识运用和多模态信息处理方面的能力，看看它是不是真有那么厉害。

它有三大目标：打破基准测试饱和，设计超纲题，覆盖 100 + 学科；挑战跨学科推理，题目需整合多模态信息、多步逻辑推理，如 “蜂鸟骨骼支撑肌腱数量” 这类难题；设置防作弊机制，保留私有测试题防止模型刷题过拟合。

测评结果：AI集体不及格

用高中老师的话来形容，简直是 “答题纸踩一脚都比你分高”

2025年1月公布的测试结果显示，所有前沿大模型（如GPT-4o、Claude 3.5 Sonnet、Gemini系列等）准确率均未超过10%，且普遍存在**“过度自信”**现象（校准误差高）。

根据以上测评结果，测试组总结了一下。目前模型存在一些明显问题。

在性能瓶颈方面，复杂推理题很难突破，就算生成更多 token，像 Gemini 2.0 Flash Thinking 那样，准确率也没明显提高；

跨学科整合能力不足，难以同时处理文本、图像和专业术语，比如回答 “希腊神话中伊阿宋的曾祖父是谁” 这类问题就很吃力。

在校准误差上，模型对答案的自信程度远超过实际正确率，比如有题模型自信表示 “95% 正确”，实则是错的。

和历史情况对比，CAIS 创始人 Dan Hendrycks 提到，之前数学测试 MATH 的模型准确率 3 年就从 10% 提升到 90%，但 HLE 的难度可能会阻碍这一快速提升的进程。（我不赞同，我觉得AI发展是加速的）

人类不必恐慌丢失工作，AI仍在“蹒跚学步”

“人类终极考试” 的测试结果证明了AI目前还不具具备处理复杂问题的能力。也不具备独立工作的可能。

尽管网上很多夸张的宣传都是噱头，使用过AI的人都知道。目前AI是个很好的助手，能帮你解决问题，但它还不能独立工作。

最近总是有人为了制造噱头，说的几小时开发一个应用。其实懂得人都知道，那个应用简直就是“Hello World”一样的水平。（吐槽下，最近让AI优化下代码，结果它给我写了个BUG！）

换个角度想，如果AI真的这么厉害，老板还会雇佣那么多程序员么？AI可以7x24小时无间断的工作，人996都要猝死了。

人会说谎，但钱不会。资本永远是追逐最大利益！资本的流向往往是市场价值和潜力的风向标，永远追逐最大利益。如果 AI 已经具备完全替代人类劳动力的能力，资本必然会毫不犹豫地大规模涌入并推动其全面替代。

但目前的资本投入和市场发展态势表明，AI 距离真正完全取代人类工作还有很长的路要走，所以大众无需过度担忧 AI 短期内会带来颠覆性的就业冲击。

AI真的能力仅限于工具吗？不会的！它是颠覆性的！

技术局限≠潜力封顶，快速迭代是AI的基因

HLE仅测试结构化学术问题，未涉及开放式研究与创造力（如撰写论文或设计实验）；历史经验表明，AI攻克基准测试的速度远超预期。例如，MATH测试从10%到90%仅3年；所以在如今如此大规模资本的投入下，AI迭代速度会远超预期！

CAIS预测，到2025年底，模型可能在HLE上突破50%准确率。

HLE的惨淡成绩提醒我们，AI仍处于发展初期。与其担忧“AI取代人类”，不如将其视为协作伙伴。每一次技术瓶颈的暴露，都是突破的前奏。

测试官网与样题：

https://lastexam.ai/

完整论文：

https://static.scale.com/uploads/654197dc94d34f66c0f5184e/Publication%20Ready%20Humanitys%20Last%20Exam.pdf

（本文数据来源：CAIS、Scale AI及公开测评报告）

HQY