多年来,人工智能取得了令人难以置信的里程碑。它在模拟人类对话、撰写文本和创作惊艳艺术作品方面表现出色。然而,一项名为“人类的最后考试”的新基准测试证明,即使是最智能的AI系统仍然有很长的路要走。
这一基准测试由非营利组织人工智能安全中心(CAIS)和Scale AI开发,挑战了AI模型以全新的方式进行测试。令人惊讶的是,今天公开可用的最先进的AI系统中,没有一个得分超过10%。

那么,这一基准测试为何如此艰难,对AI的未来又意味着什么呢?
什么是人类的最后考试?
可以把“人类的最后考试”视为AI的终极快测。这不同于传统的测试,后者通常侧重于狭窄的技能。这个基准测试通过数千个众包问题将AI系统推向极限。
这些问题涵盖了广泛的主题,包括:
数学:需要逻辑推理的复杂问题。人文学科:关于历史、文学和哲学的发人深省的问题。自然科学:测试生物学、物理学和化学理解力的询问。更令人印象深刻的是使用的格式多样性。这些问题不仅仅是文本形式的。一些问题包含图表、图像和多媒体组件,迫使AI系统在处理文本的同时还要处理和解读视觉信息。
这种多样性使得基准测试更像是现实世界的挑战,问题很少以整齐、可预测的格式呈现。
为何AI系统表现如此糟糕?
在一项初步研究中,没有任何旗舰AI模型得分超过10%。对于旨在模仿或超越人类智能的系统来说,这一成绩令人震惊。但它们为何如此挣扎呢?
多格式复杂性大多数AI系统在基于文本的任务中表现出色,但在面对混合媒体时却表现不佳。解读图像或图表需要高级的视觉推理能力,而许多AI模型并未针对这一点进行优化。众包问题这些问题是由普通人设计的,变得不可预测。这些问题反映了现实世界的奇特性和复杂性,而不是AI系统训练时使用的经过筛选的数据集。缺乏通识知识尽管AI在狭窄领域中表现突出,但面对跨学科的问题时却显得力不从心。例如,一个问题可能将历史背景与科学原理结合起来。这是AI系统目前尚未很好处理的内容。为研究人员提供了一个新平台
“人类的最后考试”的创建者不仅仅是在提出挑战。他们邀请研究界参与其中。CAIS和Scale AI计划向全球研究人员开放这一基准测试。他们的目标是鼓励创新,帮助AI开发者识别其模型的弱点。
研究人员可以探索以下问题:
为什么某些类型的问题会使AI陷入困境?如何提高模型处理图表和图像的能力?哪些新的训练方法可能帮助AI在现实世界任务中表现更好?这种协作的方法可能会导致AI系统训练和评估方面的突破。
这对普通用户有何影响?
你可能会想:我为什么要关心AI的测试?可以这样想,AI已经成为你日常生活的一部分,无论是驱动你的语音助手、在网上推荐产品,还是帮助你的汽车避免事故。
如果这些系统无法处理复杂的现实挑战,可能会在以下领域造成错误:
医疗(误解医疗数据)教育(给学生错误的答案)金融(误管理投资或贷款)通过对AI设定更高的标准,“人类的最后考试”确保了一个更安全、更智能的未来。
关注公众号【真智AI】
TOP AI模型智能问答|绘图|识图|文件分析
每天分享AI教程、赚钱技巧和前沿资讯!