2025年6月12日消息,人工智能看似风光无限,大语言模型对答如流,宛如人类思维。但苹果公司《思考的幻觉》研究,却如一颗重磅炸弹,在人工智能学界激起千层浪。研究团队创建解谜环境,测试大型推理模型在不同难度任务中的表现。 结果令人大跌眼镜,标准模型在低复杂度任务中表现出色,高复杂度任务下模型则集体“瘫痪”,还出现反直觉的“规模效应”,暴露了模型在精确计算和推理逻辑上的局限。专家看法不一。IBM阿什·米尼亚斯指出大语言模型只是模式匹配,当前处于弱人工智能阶段。但也有人质疑苹果动机,如科技撰稿人克里斯·史密斯认为苹果是“吃不到葡萄说葡萄酸”,毕竟苹果在人工智能领域落后。此外,苹果论文强调行业需更可靠的基准测试,其研究方法虽有创新,但也存在局限性。更有趣的是,人工智能的局限竟与人类认知偏见相似,我们常把雄辩当智慧。那么,在评估人工智能和人类时,如何才能真正区分“表现”与“能力”呢?