Nature速递：微软团队用AI模型重新定义游戏创意生成

摘要

生成性人工智能（AI）有潜力通过支持人类创意构思，即新想法的生成，来改变创意产业。然而，模型能力的局限性带来了将这些技术更全面融入创意实践中的关键挑战。迭代调整和发散性思维仍然是通过技术支持创意的关键，但这些实践在现有的生成性 AI 模型中得不到充分支持。以游戏开发为视角，我们展示了如何利用对用户需求的理解，推动生成性 AI 模型的开发和评估，以与这些创意实践保持一致。具体而言，我们介绍了一种先进的生成性模型——世界与人类行为模型（WHAM），并展示了它能够生成一致且多样化的游戏序列，并保留用户的修改，这三项能力被我们认为是确保这种一致性的关键。与以往那些需要手动定义或提取结构的创意支持工具不同，生成性 AI 模型可以从现有数据中学习相关结构，开启了更广泛应用的潜力。

研究领域：生成式人工智能，游戏开发，WHAM 模型，一致性，多样性，持久性

论文题目：World and Human Action Models towards gameplay ideation

发表时间：2025 年 2 月 19 日

论文地址：https://www.nature.com/articles/s41586-025-08600-3

期刊名称：Nature

生成式人工智能正逐步渗透创意产业，但在支持人类发散性思维和迭代式创作上仍面临瓶颈。传统模型常因缺乏上下文一致性、生成多样性不足或无法保留用户修改而受限。微软团队以游戏开发为切入点，提出世界与人类行为模型（World and Human Action Models, WHAM），通过捕捉玩家行为数据，突破生成式 AI 的三大关键能力：一致性、多样性和持久性，为创意实践提供新工具。

用户需求：游戏开发者需要怎样的 AI 搭档？

团队访谈了 27 位游戏开发者，发现两大核心需求：

1. 发散性思维需要边界约束：创意并非天马行空，需符合游戏世界观、物理规则和叙事逻辑。例如，玩家角色不能穿墙，场景风格需与游戏 IP 一致。

2. 迭代控制权必须握在人类手中：开发者需通过 " 微调 " 让细节 " 感觉对味 "，例如调整角色跳跃弧度或武器特效。一位参与者表示：" 真正让游戏体验惊艳的，往往是数千个微小决策的堆积。"

这为 AI 模型设定了明确目标：生成内容需在一致性框架内提供多样性选项，并支持用户修改的内容能够持久地融入游戏中。

WHAM 模型：从玩家行为中学习 " 游戏规则 "

WHAM 基于 Transformer 架构，以离散化 token 序列处理游戏画面（Frame）和手柄操作（Controller Action），其设计亮点包括：

数据驱动：使用真实玩家在 3D 对战游戏《Bleeding Edge》中的 7 年游戏数据（超 500 万局对战）进行训练。

多模态建模：通过 VQGAN 图像编码器将画面转换为 token，并将手柄摇杆操作离散化为 11 档位，实现画面与行为的联合预测。

长上下文支持：1.6B 参数的大模型可处理 1 秒（10 帧）的上下文，生成长达 2 分钟连贯的游戏画面。

图 1. WHAM 架构。将人类游戏玩法定义为一系列离散的 tokens，在图像观察和控制器动作之间交替进行。

三项核心能力实测：

WHAM 如何通过 " 考试 "？

1. 一致性：虚拟世界的物理法则

用 Fr é chet 视频距离（FVD）评估生成画面与真实游戏的动态一致性。结果显示，WHAM 生成的 10 秒视频与人类操作的 FVD 值接近基准线，且模型越大、训练计算量越高，一致性越强。案例中，WHAM 成功模拟角色攀爬楼梯、避开障碍等符合物理规则的行为。

图 2. 一致性结果。（a）在训练计算预算（FLOPS）上的一系列 WHAM 大小的 FVD。FVD 适用于更大的模型和计算预算。（b）来自 1.6B WHAM 的两个示例代（每行一个）的关键帧。每代 2 分钟，表明 1.6B WHAM 能够产生长期一致的游戏玩法。

2. 多样性：一场游戏的多元可能

通过 Wasserstein 距离衡量生成操作与人类玩家行为的分布匹配度。在相同初始画面下，WHAM 能生成多条分支：角色可选择突袭、绕行或与队友协作。实验表明，模型生成的多样性接近人类玩家基线，且通过调整损失权重可进一步优化。

图 3. 多样性的结果。（a）通过与人类行为的 Wasserstein 距离来衡量的三种 WHAM 变体的多样性。在 102,400 个总动作（1,024 个轨迹，每个轨迹有 100 个动作）中，我们对 10,000 个人类和模型动作进行子采样，并计算它们之间的距离。我们重复 10 次，并绘制平均值 ± 1 标准差。更接近于人与人之间的基线会更好。均匀随机动作的距离为 5.3。所有的模型都可以通过训练来改进，并且可以通过增加动作损失的权重来进一步改进。（b）在相同的起始背景下产生的来自 1.6B WHAM 的三代的例子。我们看到了行为多样性的例子（玩家角色绕着刷出位置转，而不是直奔跳跃点）和视觉多样性的例子（玩家角色所乘坐的悬浮板有不同的皮肤）。

3. 持久性：用户修改的持久保留

当开发者向画面中添加新角色或道具（如能量核心 Powercell），WHAM 能在后续生成中稳定保留这些元素。实验显示，若用 5 帧修改画面作为提示，85% 的添加内容可持久存在。例如，插入的 " 垂直跳板 " 虽在原游戏中不存在，但 WHAM 仍能将其融入场景并维持互动逻辑。

图 4. 编辑过程和定性持久性结果。成功持久性的示例包括 Powercell、角色和垂直跳跃平台（Vertical Jumppad）。在我们的持久性评估中，WHAM 的生成都是基于无操作（no-op）动作进行的，因此玩家角色和相机应该保持静止。示例中，插入的 Powercell 在 1 秒的生成过程中稳定持久，而插入的对手开始攻击玩家角色并造成伤害。垂直跳跃平台被插入到一个地图区域中，该区域在真实游戏和我们的数据中并未出现。然而，它在 WHAM 的生成过程中始终得以持久。

创意工具箱：WHAM 演示器的实战应用

团队发布 WHAM Demonstrator 原型，展示模型如何支持创意流程：

视觉化提示：用户可选取任意画面作为起点，生成多条剧情分支。

动态迭代：直接涂改画面元素（如新增敌人），观察生成内容如何响应。

混合创作：将不同分支的片段拼接，探索融合可能性（如 " 吸血鬼角色 + 科幻场景 "）。

WHAM 模型、评测数据集及演示器均已发布于 Hugging Face。

启示：

生成式 AI 的下一站是 " 人类创造力倍增器 "

WHAM 的突破不仅在于技术层面，更在于以用户需求驱动模型设计的范式转变。游戏开发仅是起点，同类方法可拓展至音乐、影视等创意领域。未来，AI 或将像 Photoshop 一样，成为创作者 " 直觉的延伸 " ——而微软团队已开源模型权重与评测数据集，邀请全球开发者共同探索人机协作的边界。

彭晨 | 编译

- 集智活动预告 -

大模型 2.0 读书会启动

o1 模型代表大语言模型融合学习与推理的新范式。集智俱乐部联合北京师范大学系统科学学院教授张江、Google DeepMind 研究科学家冯熙栋、阿里巴巴强化学习研究员王维埙和中科院信工所张杰共同发起「大模型 II：融合学习与推理的大模型新范式」读书会，本次读书会将关注大模型推理范式的演进、基于搜索与蒙特卡洛树的推理优化、基于强化学习的大模型优化、思维链方法与内化机制、自我改进与推理验证。希望通过读书会探索 o1 具体实现的技术路径，帮助我们更好的理解机器推理和人工智能的本质。

从 2024 年 11 月 30 日开始，预计每周六进行一次，持续时间预计 6-8 周左右。欢迎感兴趣的朋友报名参加，激发更多的思维火花！

详情请见：大模型 2.0 读书会：融合学习与推理的大模型新范式！

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

HQY

要和谐，要有爱~

Nature速递：微软团队用AI模型重新定义游戏创意生成

hqy 发表于2025-03-03 10:57:49 浏览13 评论0百度已收录

少长咸集