×

美英人工智能安全研究所联合对OpenAI o1模型进行部署前测试

hqy hqy 发表于2025-03-05 09:33:33 浏览17 评论0百度已收录

抢沙发发表评论

2024年12月18日,英国人工智能安全研究所(UKAISI)与美国人工智能安全研究所(USAISI)对Open AI于2024年12月5日发布的最新模型o1进行了联合部署前测试。启元洞见在此分享报告主要内容,旨在为读者提供参考。

一、联合安全研究与测试活动概述

美国AISI和英国AISI在o1模型部署前的有限时间内开展了测试工作。此次测试由两家研究所的专业工程师、科学家以及主题专家执行,在模型公开发布前,测试结果已与Open AI共享。

美国AISI和英国AISI分别展开互补性测试,以评估模型在以下三个领域的能力:(1)网络能力;(2)生物能力;(3)软件与人工智能开发能力。

为评估模型的相对能力以及o1在这些领域的潜在实际影响,美国AISI和英国AISI将其性能与一系列类似的参考模型进行对比,这些参考模型包括:OpenAI的o1-preview、OpenAI的GPT-4o,以及Anthropic的Claude3.5 Sonnet的升级版和早期版本。进行这些对比仅是为评估o1的相对能力提升情况,以便更科学地阐释评估结果。

测试的o1版本在工具调用和输出格式化方面存在一些性能问题。美国AISI和英国AISI采取措施解决这些问题,对智能体设计进行了调整,包括优化提示内容以及引入简单机制,帮助智能体从错误中恢复。以下呈现的结果反映的是o1在采用这种辅助措施后的性能表现。经过更优工具使用优化的o1版本,可能在诸多评估中展现出更出色的性能。本报告不对其他版本o1的性能发表任何评价。

在对o1版本测试中发现其在工具调用和输出格式化方面存在一些性能问题。为了应对这些问题,美国AISI和英国AISI采取了一系列措施,对智能体设计进行了相应调整。具体来说,他们优化了提示内容,并引入了一种简单机制,以帮助智能体更好地从错误中恢复。以下所呈现的结果,反映的是o1版本在采用这些辅助措施后的性能表现。我们有理由相信,经过更优工具使用优化的o1版本,在诸多评估中可能会展现出更出色的性能。不过,本报告仅针对采用辅助措施后的o1版本性能进行分析,不对其他版本的o1性能发表任何评价。

二、方法论

美国AISI和英国AISI运用一系列技术对模型进行测试,这些技术涵盖:

问题解答:要求该模型正确回答一系列问题,这些问题用于测试特定主题的知识或问题解决能力。答案通常先由另一个模型自动评分,随后由知晓正确答案的人员进行人工核查。

智能体任务:模型在虚拟环境中以智能体的形式运行,在虚拟环境里,它被赋予一项任务,并可使用一系列软件工具,按照提示逐步执行,直至成功完成任务,或达到最大步骤数仍未成功。

定性探测:科学专家在模型运行过程中对其进行审查,以便更细致地了解其能力和局限性。

在网络能力评估方面,美国国家安全局和网络安全与基础设施安全局的专题专家为美国国际信息系统协会提供了协助;在生物能力评估方面,美国国家卫生研究院和国土安全部的专题专家为美国国际信息系统协会提供了协助。

三、评估和结论

以下是美国AISI和英国AISI对OpenAI的o1模型进行测试的部分结果。在测试的三个领域中,o1的性能总体上与所测试的参考模型相当——但在与密码学相关的网络安全挑战方面具备额外能力。需注意的是,以下模型性能间的细微差异可能处于这些测试的误差范围之内。

(一)网络能力

人工智能系统的发展使得日益复杂的网络任务得以自动化。这些能力具有双重用途,既能够用于强化网络防御,也可能被恶意用于攻击计算机系统。

为更深入了解o1的相对能力,美国AISI和英国AISI对该模型在一系列网络技能方面的表现展开评估,这些技能有可能被用于实施恶意任务,例如入侵计算机系统。

主要发现:

美国AISI针对一套40项公开网络安全挑战对o1进行评估。该模型能够解决所有任务中45%的问题,而性能最佳的参考模型的解决率仅为35%。o1模型成功解决了其他任何参考模型所解决的所有挑战,并且还解决了其他模型无法解决的另外三个与密码学相关的挑战。

英国AISI针对一套47项网络安全挑战对o1进行评估,其中15项为公开挑战,32项为自主研发的私人挑战。该模型能够解决36%处于“网络安全学徒”能力水平的任务,而接受评估的最佳参考模型能够解决46%处于同一水平的任务。

(二)生物能力

人工智能的迅猛发展为生物研究的众多领域赋予了强大的创新能力,为未来的科学、医学、制造等领域带来了广阔的发展前景。尽管如此,许多生物领域的发现和能力具有双重用途,这意味着生物学领域的新发现既能够用于推动有益成果,也可能被用于产生潜在危害。

为更好地了解OpenAI的o1模型的相对生物学能力,包括其可能被滥用的方式,美国AISI和英国AISI重点评估了该模型在一系列实际研究任务中的表现。以下是与生物能力相关研究结果的概要。请注意,这些结果仅基于美国AISI的测试,因为英国AISI目前尚未公布该领域的测试结果。

主要发现:

总体而言,美国国际信息系统协会发现,在一组多选生物研究任务问题上,o1模型的表现与在一系列问题集测试中表现最佳的参考模型基本相当。

与此前的测试相同,美国国际信息系统协会采用了一种评估方法,通过让人工智能模型借助生物信息学工具辅助解决这些研究任务问题,从而提升人工智能模型的能力。当o1使用这些额外工具时,其在研究问题上的表现优于单独使用该模型的情况,尤其是在DNA和蛋白质测序相关任务上。

(三)软件和人工智能开发评估

对于开发这些技术的工程师而言,人工智能系统正逐渐成为极为有用的工具。即便人工智能系统无法独立完成某项任务,它也能够用于辅助开发或强化其他软件,使其功能更强大。简而言之,先进的人工智能系统能够提升现有技术的效能。

为探究OpenAI的o1模型对软件和人工智能开发任务的相对影响,美国AISI和英国AISI将该模型设定为可访问各类基础软件开发工具的自动智能体,然后对其执行常见工程任务的技能和能力进行测试。

主要结果:

美国AISI依据一系列公开挑战对o1进行评估,在这些挑战中,智能体需要提升机器学习模型的质量或速度。在0%(模型未改进)至100%(人类对模型改进的最大程度)的区间内,该模型的平均改进率为48%,而性能最佳的参考模型的平均改进率为49%。

英国AISI在一组自主研发的评估中对o1进行评估,这些评估涵盖软件工程、一般推理和智能体任务,难度跨度较大。升级后的模型在软件工程任务上的成功率为50%,而最佳参考模型的成功率为67%;在一般推理任务上的成功率为57%,而最佳参考模型的成功率为58%。

四、结论

尽管这些测试是依据当前最佳实践开展的,但测试结果应被视作初步成果。这些测试是在有限时间内利用有限资源进行的,倘若能够加以拓展,便能扩大测试结果的涵盖范围,得出更多结论。

人工智能安全科学是一个快速发展的新兴领域。开展这些独立的安全评估,有助于提升未来评估的精准性和可靠性,进而使政府能够在风险和能力显现时抢占先机。

美国人工智能学会(USAISI)和英国人工智能学会(UKAISI)计划在后续工作中,对评估范围、方法论和测试工具进行迭代完善与拓展。研究人员期待科学界提供反馈意见,以助力强化这项重要工作,推动人工智能安全科学的发展。

免责声明:本文转自启元洞见。文章内容系原作者个人观点,本公众号编译/转载仅为分享、传达不同观点,如有任何异议,欢迎联系我们!

推荐阅读

技经观察丨美国国防制造的前沿——融合制造

技经观察丨从成立政府效率部事件看:美政府外部咨询体系发展及影响

技经观察丨特朗普政府核政策回顾及美核政策走向

技经观察丨上九天揽月,竞逐月球新战略高地

技经观察丨从AlphaFold到mRNA疫苗:AI如何驱动蛋白质领域的科技变革

转自丨启元洞见

研究所简介

国际技术经济研究所(IITE)成立于1985年11月,是隶属于国务院发展研究中心的非营利性研究机构,主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题,跟踪和分析世界科技、经济发展态势,为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号,致力于向公众传递前沿技术资讯和科技创新洞见。

地址:北京市海淀区小南庄20号楼A座

电话:010-82635522

微信:iite_er