AI 通过观看视频学习如何玩 Minecraft

Open AI 使用视频前训练 (VPT) 对人类玩 Minecraft 的大量未标记视频数据训练 AI 神经网络来玩 Minecraft，同时仅使用少量标记的承包商数据。

通过一些调整，这家 AI 研发公司相信其模型可以学习创建钻石工具，对于有经验的人来说，这项任务通常需要 20 多分钟（24 次动作）。该模型使用击键和鼠标移动的本地人机界面，使其足够通用，可以成为创建使用计算机的代理的一个步骤。

这家由微软支持的公司的发言人说：“互联网上有大量我们可以从中学习的公共视频。您可以看到一个人进行出色的演示，一位数字艺术家绘制美丽的日落，一位 Minecraft 玩家建造一座复杂的房子。然而，这些视频只记录了发生的事情，并没有准确描述它是如何实现的，这意味着您无法识别鼠标移动和击键的确切顺序。

“如果我们想在这些领域建立大规模的基础模型，就像我们在 GPT 语言中所做的那样，那么缺少动作标签会产生一个新的问题，而语言领域不存在，其中“动作标签”只是句子中的下一个词。”

为了利用网络上可用的大量未标记视频数据，Open AI 引入了一种新的但简单的半监督模拟训练方法：视频前训练 (VPT)。该团队首先从承包商那里收集一个小型数据集，其中不仅记录了他们的视频，还记录了他们的动作，在本例中是击键和鼠标移动。有了这些数据，公司可以训练一个逆向动力学模型 (IDM)，预测在视频的每个阶段采取的行动。重要的是要注意 IDM 可以使用过去和未来的信息来猜测每一步的动作。

该代表补充说：“这项任务比行为克隆任务简单得多，需要的数据也少得多，行为克隆任务是仅根据过去的视频帧预测动作，这需要推断人想做什么以及如何做。然后我们可以使用训练有素的 IDM 来标记更大的在线视频数据集，并学习如何使用行为克隆。”

根据 Open AI 的说法，VPT 正在为代理人通过在线观看大量视频来学习如何行动铺平道路。

该公司发言人表示：“与仅产生代表性判断的生成视频建模或对比方法相比，VPT 提供了一个令人兴奋的机会，可以在更多领域直接教授大规模行为判断，而不仅仅是语言。虽然我们只在 Minecraft 中做过 AI 实验，但游戏非常开放，原生人机界面（鼠标和键盘）非常通用，因此我们认为我们的结果非常适合其他类似领域，例如计算机使用。”

流行

AI 通过观看视频学习如何玩 Minecraft

发布日期 Steam Deck 2、价格、规格及传闻

释放潜力：AMD Radeon RX 8900 XTX 泄露

推荐

Nvidia 的新 AI 助手应用程序：ChatRTX

发布日期 Steam Deck 2、价格、规格及传闻

释放潜力：AMD Radeon RX 8900 XTX 泄露

Netflix 的小鹿与真实故事之间的 7 个最大差异

流行

其他新闻

发布日期 Steam Deck 2、价格、规格及传闻

释放潜力：AMD Radeon RX 8900 XTX 泄露

推荐

Nvidia 的新 AI 助手应用程序：ChatRTX

发布日期 Steam Deck 2、价格、规格及传闻

释放潜力：AMD Radeon RX 8900 XTX 泄露

Netflix 的小鹿与真实故事之间的 7 个最大差异