×

CSIS:关键外交政策决策中的人工智能偏见

hqy hqy 发表于2025-03-04 05:18:35 浏览7 评论0百度已收录

抢沙发发表评论

外交政策一直是一场智力的较量——既有人类的,也有人工智能的。人工智能融入战略决策并非遥不可及的未来,而是当下的现实,它将重塑各国评估风险、建立联盟和应对危机的方式。随着各国政府试验人工智能代理,挑战显而易见:确保这些模型不仅是能干的助手,而且要与任务保持一致,能够为战略和治国方略的核心问题提供答案。

为此,CSIS 未来实验室研究探讨了大型语言模型 (LLM) 如何处理国际关系和外交政策决策。基准测试是一种评估形式,它为了解 ChatGPT、Gemini 和 Llama 等基础模型的优势和局限性提供了关键见解。在战略和治国方略方面,它探讨了这些模型如何处理与大国竞争、管理联盟和建立联盟以应对移民和气候变化等复杂的跨国挑战有关的决策。研究结果以交互式仪表板和较长的技术论文的形式提供。以下是初步见解及其政策含义的摘要。

我们的发现:所有模型都是错误的,但有些模型是有用的

AI 模型越来越多地被整合到国家安全应用程序中,例如美国国务院的StateChat以及国防部的NIPRGPT和CamoGPT。最近,OpenAI 宣布ChatGPT Gov将广泛应用于各政府机构。虽然这些模型可以作为能够汇总数据和生成文本的强大数字助理,但我们的基准研究表明,它们在关键的外交政策决策领域表现出偏见,需要进一步改进。正如那句名言所说,没有一个模型能够完全捕捉现实——即使是最先进的人工智能也仍然是一种近似值,其效用取决于实际应用。在外交政策领域,这意味着识别和减轻可能扭曲战略分析并误导与人工智能代理一起工作的国家安全领导人的偏见和错误。通过仔细的指导和微调方法,这些偏见可以得到缓解,因为归根结底,法学硕士就是我们创造的。

升级:危机情景中人工智能偏见的风险

我们的研究针对国际关系学者设计的 400 个场景和 60,000 多个问答对测试了人工智能模型。结果揭示了一个令人担忧的趋势:与其他模型相比,一些广泛使用的人工智能模型在危机情景中表现出明显的升级倾向。

这一发现具有重大的战略意义。如果人工智能模型系统性地支持升级,它们可能会使政策分析偏向于在易发生冲突的情况下做出更积极的反应,从而增加在高风险地缘政治环境中出现误判的风险。如果不进行持续的评估和改进,人工智能代理可能会在克制和战略模糊性往往是首选方案的情况下强化升级倾向。

此外,围绕升级的偏见似乎与国家有关。与俄罗斯或中国相比,所有语言模型都更有可能建议美国、英国和法国在危机期间升级其行动。虽然这反映了底层训练数据,但它也为理解这些模型的推理动态开辟了一个学术研究领域。

为了应对这一挑战,决策者和分析师必须不断完善模型,同时确保人类用户在查询人工智能代理时设置明确的上下文参数。对基准测试、评估和监督微调的投资至关重要,培训国家安全专业人员提出精确、逻辑结构化的问题以解决人工智能的局限性也至关重要。

合作:人工智能模型中的外交偏见

在所有测试的基础模型中,人工智能代理都表现出对国际关系中合作方式的强烈偏好,尤其是在美国和英国的外交政策方面。这表明人工智能代理对外交和联盟建设存在潜在偏见,这可能源于西方主导的国际机构在历史训练数据中被讨论的频率。

虽然这种偏见符合过去的国际规范,但它并不一定反映 21 世纪地缘政治的战略现实。随着大国竞争加剧,各国往往会采取对冲策略、选择性接触甚至强制外交——而这些因素可能会被当前的人工智能模型忽略。

这一发现强调了情境意识在人工智能辅助战略中的重要性。领导层变动、重大地缘政治事件和国家利益的转变可能会迅速改变全球政治的性质——而人工智能模型在设计上很难预测这一点。这进一步表明,有必要对国家安全领导人、军事规划人员和情报分析人员进行人工智能素养培训,确保他们了解人工智能生成的见解的优势和局限性。

对从业者的建议

CSIS 未来实验室是利用数据科学、人工智能和另类分析来革新战略和治国方略的主要支持者。我们的研究人员认为,未来在于学习如何与人工智能代理一起工作。根据我们的基准研究结果,我们提出了以下建议。

首先,为了最大限度地发挥人工智能在国家安全和外交政策方面的潜力,政府必须扩大人工智能基准测试和模型评估。对人工智能模型的例行测试和审计应成为检测偏见和改进性能的标准做法。公私合作伙伴关系应致力于建立标准化评估框架——如 CSIS 未来实验室的关键外交政策决策 (CFPD) 基准——以比较不同 LLM 在战略背景下的表现。国防机构、政策制定者、外交官和人工智能开发人员可以使用 CFPD 基准在部署之前评估人工智能模型,确保它们符合战略目标并最大限度地降低意外风险。CSIS 未来实验室将发布一系列关于基准测试方法的文章。

其次,美国必须投资提高国家安全专业人员的人工智能素养。政策制定者、外交官和军事规划人员必须接受专门培训,以了解人工智能模型的运作方式,识别其偏见并有效地提出问题。人工智能应该成为一种增强人类判断的工具,而不是替代人类判断,确保决策者仍然是人工智能产生的见解的批判性解读者。

第三,透明度和定制化也必须成为开发用于国家安全的人工智能代理的优先事项。人工智能开发人员应该更清楚地解释模型的训练方式和决策方式,让决策者能够更有效地使用它们。国家安全机构应努力定制人工智能模型,以符合特定的战略需求和地缘政治现实,而不是依赖可能无法反映细微政策目标的通用基础模型。

最后,跨学科研究对于负责任地将人工智能融入战略和治国方略至关重要。除了投资扩大人工智能应用所需的计算能力外,美国政府还应优先资助弥合人工智能发展、国际关系和战略研究之间差距的研究计划。通过促进技术专家和安全专家之间的合作,学者和政策制定者可以确保人工智能工具的设计和改进考虑到国家安全优先事项。