×

基准测试表明人工智能编码潜力提升

hqy hqy 发表于2025-04-20 21:31:13 浏览4 评论0百度已收录

抢沙发发表评论

不久前,人工智能生成的代码还不适合部署。SQL代码太冗长,或者Python代码有缺陷或不安全。然而,近几个月来,这种情况发生了很大变化,今天的人工智能模型每天都在为客户生成更多的代码。

基准测试提供了一种很好的方法来衡量代理人工智能在软件工程领域的发展程度。普林斯顿大学的研究人员创建了一个更受欢迎的基准,称为SWE bench,用于衡量Meta的Llama和Anthropic的Claude等LLM在解决常见软件工程挑战方面的能力。该基准测试利用GitHub作为跨16个存储库的Python软件错误的丰富资源,并提供了一种衡量基于LLM的AI代理解决这些错误的能力的机制。

当作者在2023年10月向国际学习表征会议(ICLR)提交他们的论文《SWE Bench:语言模型能否解决现实世界的GitHub问题?》时,LLM的表现并不好。作者在摘要中写道:“我们的评估表明,最先进的专有模型和我们微调的模型SWE Llama只能解决最简单的问题。”“表现最好的模型Claude 2只能解决1.96%的问题。”

情况变化很快。今天,SWE bench排行榜显示,得分最高的模型解决了SWE bench-Lite上55%的编码问题,这是旨在降低评估成本和提高可访问性的基准的一个子集。

Hugging Face为通用人工智能助理制定了一个基准,称为GAIA,用于衡量模型在多个领域的能力,包括推理、多模态处理、网页浏览和一般工具使用熟练程度。GAIA测试没有歧义,并且具有挑战性,例如在五分钟的视频中计算鸟类的数量。

H2O.ai的首席执行官兼联合创始人Sri Ambati表示,一年前,GAIA测试第三级的最高得分约为14分。如今,基于Claude 3.7 Sonnet的H2O.ai模型获得了最高的总分,约为53分。

Ambati说:“准确性确实增长得非常快。”“我们还没有完全达到目标,但我们正在这条路上。”

H2O.ai的软件参与了另一个衡量SQL生成的基准测试。BIRD代表用于LaRge规模数据库基础文本到SQL评估的BIg Bench,用于衡量AI模型将自然语言解析为SQL的能力。

当BIRD于2023年5月首次亮相时,得分最高的模型CoT+ChatGPT的准确率约为40%。一年前,得分最高的AI模型ExSL+granite-20b-code(基于IBM的granite AI模型)准确率约为68%。这远低于人类表现的能力,BIRD测量的人类表现约为92%。目前的BIRD排行榜显示,AT&T的基于H2O.ai的模型是领导者,准确率为77%。

在生成计算机代码方面的快速进展促使一些有影响力的人工智能领导者,如英伟达首席执行官兼联合创始人黄仁勋和Anthropic联合创始人兼首席执行官Dario Amodei做出了大胆的预测。

Amodei本月早些时候表示:“我们离人工智能编写90%代码的世界不远了——我认为我们将在三到六个月内到达那里。”“然后在12个月内,我们可能会进入一个人工智能基本上编写所有代码的世界。”

在上周的GTC25主题演讲中,黄仁勋分享了他对代理计算未来的看法。在他看来,我们正在迅速接近一个AI工厂基于人类输入生成和运行软件的世界,而不是人类编写软件来检索和操纵数据。

他说:“过去我们编写软件并在计算机上运行,而将来,计算机将为软件生成令牌。”“因此,计算机已经成为令牌的生成器,而不是文件的检索。[我们已经]从基于检索的计算转向基于生成的计算。”

其他人则持更务实的观点。Snowflake首席研究科学家、Snowflake AI研究团队负责人Anupam Datta对SQL生成的改进表示赞赏。例如,Snowflake表示其Cortex Agent的文本到SQL生成准确率为92%。然而,Datta不同意Amodei的观点,即计算机将在年底前滚动自己的代码。

Datta上周在GTC25上表示:“我的观点是,在某些领域,如文本到SQL的编码代理,我认为正在变得非常好。”“在某些其他领域,它们更像是帮助程序员加快速度的助手。人类还没有脱离循环。”

他说,由于编写数字助手和代理人工智能系统,程序员的生产力将成为最大的赢家。他说,我们离代理人工智能生成初稿的世界不远了,然后人类会进来改进和完善它。“生产力将有巨大的提高,”Datta说。“因此,仅就数字助理而言,影响将非常显著。”

H2O.ai的Ambati还认为,软件工程师将与人工智能密切合作。他说,即使是当今最好的编码代理也会引入“微妙的错误”,所以人们仍然需要查看代码。“这仍然是一项非常必要的技能。”

Ambati说:“其中一部分是理解客户模式的语义层,即元数据。”“那部分仍在构建中。本体论仍然是一个领域知识。”

幻觉仍然是一个问题,就像人工智能模型脱轨、说或做坏事的可能性一样。这些都是Anthropic、Nvidia、H2O.ai和Snowflake等公司正在努力缓解的问题。但随着GenAI的核心能力越来越好, AI代理也将越来越多投入生产。