×

人类不必恐慌!「人类终极考试」基准测试:AI惨败仅10%正确率

hqy hqy 发表于2025-04-07 00:33:10 浏览17 评论0百度已收录

抢沙发发表评论

在AI技术飞速发展的今天,模型在常规基准测试(如MMLU)上的准确率已突破90%,但这是否意味着AI真的接近人类智慧?

网上各种AI威胁论层出不穷,仿佛明天你的工作就要被AI取代,不会用AI的仿佛就是原始人一样的另类,但是事实真的如此吗?还是他们在贩卖焦虑?

如今,一场全新的 “人类终极考试” 横空出世,能为你揭晓答案。当前,市面上最前沿的 AI 在面对极其简单的题目时,准确率也仅有 10%

"人类终极考试" 是什么?

非营利组织CAIS(人工智能安全中心)与数据巨头Scale AI联合推出名为“Humanitys Last Exam”(人类终极考试,简称HLE)的全新基准测试,希望用复杂的题目“拷问”AI的极限。

这个测试的题目那可是大有来头,是从全球 50 个国家、500 多个机构找来的近 1000 名学科专家出的,这些专家有教授、研究人员,还有拿到研究生学位的人,涵盖数学、人文、自然科学等好多领域

他们一共提交了超 7 万道问题,经过严格筛选,最后只留下 3000 道高难度题。为了鼓励这些专家出题,还准备了 50 万美元奖金。

而且为了让测试更有挑战性,题目形式多种多样,有些还结合了图表和图像这些复杂题型。这样做是为了全方位考察 AI 在跨学科知识运用和多模态信息处理方面的能力,看看它是不是真有那么厉害 。

它有三大目标:打破基准测试饱和,设计超纲题,覆盖 100 + 学科;挑战跨学科推理,题目需整合多模态信息、多步逻辑推理,如 “蜂鸟骨骼支撑肌腱数量” 这类难题;设置防作弊机制,保留私有测试题防止模型刷题过拟合。

测评结果:AI集体不及格

用高中老师的话来形容,简直是 “答题纸踩一脚都比你分高”

2025年1月公布的测试结果显示,所有前沿大模型(如GPT-4o、Claude 3.5 Sonnet、Gemini系列等)准确率均未超过10%,且普遍存在**“过度自信”**现象(校准误差高)。

根据以上测评结果,测试组总结了一下。目前模型存在一些明显问题。

在性能瓶颈方面,复杂推理题很难突破,就算生成更多 token,像 Gemini 2.0 Flash Thinking 那样,准确率也没明显提高;

跨学科整合能力不足,难以同时处理文本、图像和专业术语,比如回答 “希腊神话中伊阿宋的曾祖父是谁” 这类问题就很吃力。

在校准误差上,模型对答案的自信程度远超过实际正确率,比如有题模型自信表示 “95% 正确”,实则是错的。

和历史情况对比,CAIS 创始人 Dan Hendrycks 提到,之前数学测试 MATH 的模型准确率 3 年就从 10% 提升到 90%,但 HLE 的难度可能会阻碍这一快速提升的进程。(我不赞同,我觉得AI发展是加速的

人类不必恐慌丢失工作,AI仍在“蹒跚学步”

“人类终极考试” 的测试结果证明了AI目前还不具具备处理复杂问题的能力。也不具备独立工作的可能。

尽管网上很多夸张的宣传都是噱头,使用过AI的人都知道。目前AI是个很好的助手,能帮你解决问题,但它还不能独立工作。

最近总是有人为了制造噱头,说的几小时开发一个应用。其实懂得人都知道,那个应用简直就是“Hello World”一样的水平。(吐槽下,最近让AI优化下代码,结果它给我写了个BUG!

换个角度想,如果AI真的这么厉害,老板还会雇佣那么多程序员么?AI可以7x24小时无间断的工作,人996都要猝死了。

人会说谎,但钱不会。资本永远是追逐最大利益!资本的流向往往是市场价值和潜力的风向标,永远追逐最大利益。如果 AI 已经具备完全替代人类劳动力的能力,资本必然会毫不犹豫地大规模涌入并推动其全面替代。

但目前的资本投入和市场发展态势表明,AI 距离真正完全取代人类工作还有很长的路要走 ,所以大众无需过度担忧 AI 短期内会带来颠覆性的就业冲击。

AI真的能力仅限于工具吗?不会的!它是颠覆性的!

技术局限≠潜力封顶, 快速迭代是AI的基因

HLE仅测试结构化学术问题,未涉及开放式研究与创造力(如撰写论文或设计实验);历史经验表明,AI攻克基准测试的速度远超预期。例如,MATH测试从10%到90%仅3年;所以在如今如此大规模资本的投入下,AI迭代速度会远超预期!

CAIS预测,到2025年底,模型可能在HLE上突破50%准确率。

HLE的惨淡成绩提醒我们,AI仍处于发展初期。与其担忧“AI取代人类”,不如将其视为协作伙伴。每一次技术瓶颈的暴露,都是突破的前奏。

测试官网与样题

https://lastexam.ai/

完整论文

https://static.scale.com/uploads/654197dc94d34f66c0f5184e/Publication%20Ready%20Humanitys%20Last%20Exam.pdf

(本文数据来源:CAIS、Scale AI及公开测评报告)

#Ai人工智能能取代人类吗##头条深一度#