Open AI 使用视频前训练 (VPT) 对人类玩 Minecraft 的大量未标记视频数据训练 AI 神经网络来玩 Minecraft,同时仅使用少量标记的承包商数据。

通过一些调整,这家 AI 研发公司相信其模型可以学习创建钻石工具,对于有经验的人来说,这项任务通常需要 20 多分钟(24 次动作)。 该模型使用击键和鼠标移动的本地人机界面,使其足够通用,可以成为创建使用计算机的代理的一个步骤。

这家由微软支持的公司的发言人说:“互联网上有大量我们可以从中学习的公共视频。 您可以看到一个人进行出色的演示,一位数字艺术家绘制美丽的日落,一位 Minecraft 玩家建造一座复杂的房子。 然而,这些视频只记录了发生的事情,并没有准确描述它是如何实现的,这意味着您无法识别鼠标移动和击键的确切顺序。

“如果我们想在这些领域建立大规模的基础模型,就像我们在 GPT 语言中所做的那样,那么缺少动作标签会产生一个新的问题,而语言领域不存在,其中“动作标签”只是句子中的下一个词。”

为了利用网络上可用的大量未标记视频数据,Open AI 引入了一种新的但简单的半监督模拟训练方法:视频前训练 (VPT)。 该团队首先从承包商那里收集一个小型数据集,其中不仅记录了他们的视频,还记录了他们的动作,在本例中是击键和鼠标移动。 有了这些数据,公司可以训练一个逆向动力学模型 (IDM),预测在视频的每个阶段采取的行动。 重要的是要注意 IDM 可以使用过去和未来的信息来猜测每一步的动作。

该代表补充说:“这项任务比行为克隆任务简单得多,需要的数据也少得多,行为克隆任务是仅根据过去的视频帧预测动作,这需要推断人想做什么以及如何做。 然后我们可以使用训练有素的 IDM 来标记更大的在线视频数据集,并学习如何使用行为克隆。”

根据 Open AI 的说法,VPT 正在为代理人通过在线观看大量视频来学习如何行动铺平道路。

该公司发言人表示:“与仅产生代表性判断的生成视频建模或对比方法相比,VPT 提供了一个令人兴奋的机会,可以在更多领域直接教授大规模行为判断,而不仅仅是语言。 虽然我们只在 Minecraft 中做过 AI 实验,但游戏非常开放,原生人机界面(鼠标和键盘)非常通用,因此我们认为我们的结果非常适合其他类似领域,例如计算机使用。”


推荐: Gran Turismo 7 的新 AI 已准备好与游戏中的最佳玩家较量

分享到:

其他新闻