オープン AI は AI ニューラル ネットワークをトレーニングして、Minecraft をプレイしている人間の膨大な数のラベルなしビデオ データに対して事前ビデオ トレーニング (VPT) を使用し、ラベル付きの請負業者データを少量だけ使用しました。

AI 研究および実装会社は、少し調整するだけで、そのモデルがダイヤモンド ツールの作成を学習できると確信しています。これは、経験豊富な人間であれば通常 20 分以上 (24 ステップ) かかる作業です。 このモデルは、キーストロークとマウスの動きのネイティブ ヒューマン インターフェイスを使用しているため、非常に汎用的であり、コンピューターを使用するエージェントの作成に向けた一歩となります。

マイクロソフトが支援する同社の広報担当者は次のように述べた。「インターネットには、私たちが学ぶことができる公開ビデオが豊富にあります。 人が素晴らしいプレゼンテーションをする様子、デジタル アーティストが美しい夕日を描く様子、Minecraft プレイヤーが複雑な家を建てる様子を眺めることができます。 ただし、これらのビデオは何が起こったのかを記録しているだけで、それがどのように達成されたのかについては正確に説明していないため、マウスの動きやキーストロークの正確な順序はわかりません。

「GPT を使用して言語で行ったように、これらのドメインで大規模な基礎モデルを構築したい場合、アクション ラベルの欠如により、言語ドメインには存在しない新たな問題が発生します。「アクション ラベル」は単に「アクション ラベル」であるだけです。文内の次の単語。」

Open AI では、ウェブ上で利用可能なラベルのない豊富なビデオ データを活用するために、新しくてシンプルな、半教師ありのシミュレーション トレーニング方法である Pre-Video Training (VPT) を導入しています。 チームは、請負業者から小さなデータセットを収集することから始めます。このデータセットには、請負業者のビデオだけでなく、アクション (この場合はキーストロークとマウスの動き) も記録されます。 このデータを使用して、企業はビデオの各段階で実行されるアクションを予測する逆ダイナミクス モデル (IDM) をトレーニングできます。 IDM は過去と未来の情報を使用して、各ステップでアクションを推測できることに注意してください。

広報担当者はさらに、「このタスクは、ビデオの過去のフレームからのみ行動を予測し、人が何をしたいのか、そしてそれをどのように行うのかを推測する必要がある行動複製タスクよりもはるかに単純で、必要なデータもはるかに少ないです。」 その後、トレーニング済みの IDM を使用して、はるかに大規模なオンライン ビデオ データセットにラベルを付け、動作クローン作成を通じてそれに基づいた動作を学習できるようになります。」

Open AI によると、VPT はエージェントがオンラインで膨大な量のビデオを見て行動する方法を学ぶ道を開いています。

同社の広報担当者は「表現的な判断のみを生み出す生成ビデオモデリングや対照的手法と比較して、VPTは言語だけでなくより多くの領域で大規模な行動判断を直接教える刺激的な機会を提供する」と述べた。 私たちは Minecraft で AI 実験を行っただけですが、ゲームは非常にオープンで、ネイティブのヒューマン インターフェイス (マウスとキーボード) は非常に汎用的であるため、私たちの結果はコンピューターの使用など、他の同様の分野にもうまく応用できると考えています。」


推奨される: グランツーリスモ 7 の新しい AI は、ゲームの最高のプレイヤーと対戦する準備ができています

シェア:

その他のニュース