Open AI a formé un réseau de neurones IA pour jouer à Minecraft en utilisant une formation pré-vidéo (VPT) sur une vaste gamme de données vidéo non étiquetées d'un humain jouant à Minecraft, tout en n'utilisant qu'une petite quantité de données d'entrepreneur étiquetées.

Avec quelques ajustements, la société de R&D en IA est convaincue que son modèle peut apprendre à créer des outils en diamant, une tâche qui prend généralement plus de 20 minutes (24 000 actions) pour les personnes expérimentées. Le modèle utilise une interface humaine native de frappes et de mouvements de souris, ce qui le rend suffisamment générique pour constituer une étape vers la création d'agents utilisant des ordinateurs.

Un porte-parole de la société soutenue par Microsoft a déclaré : « Internet contient une énorme quantité de vidéos publiques dont nous pouvons tirer des enseignements. Vous pouvez regarder une personne faire une excellente présentation, un artiste numérique peindre un magnifique coucher de soleil, un joueur Minecraft construire une maison complexe. Cependant, ces vidéos ne fournissent qu'un enregistrement de ce qui s'est passé, pas une description exacte de la façon dont cela a été réalisé, ce qui signifie que vous ne reconnaîtrez pas la séquence exacte des mouvements de la souris et des frappes.

"Si nous voulons construire des modèles de base à grande échelle dans ces domaines, comme nous l'avons fait dans le langage avec GPT, alors le manque d'étiquettes d'action crée un nouveau problème qui n'existe pas dans le domaine du langage, où les "étiquettes d'action" ne sont que les mots suivants dans une phrase.

Afin de tirer parti de la richesse des données vidéo non étiquetées disponibles sur le Web, Open AI introduit une nouvelle méthode de formation par simulation semi-supervisée, mais simple : Pre-Video Training (VPT). L'équipe commence par collecter un petit ensemble de données auprès des sous-traitants, où elle enregistre non seulement leurs vidéos, mais également leurs actions, qui dans ce cas sont des frappes au clavier et des mouvements de souris. Avec ces données, une entreprise peut former un modèle de dynamique inverse (IDM) qui prédit l'action entreprise à chaque étape de la vidéo. Il est important de noter qu'IDM peut utiliser des informations passées et futures pour deviner l'action à chaque étape.

Le représentant a ajouté: «Cette tâche est beaucoup plus simple et nécessite beaucoup moins de données que la tâche de clonage de comportement, qui consiste à prédire les actions uniquement à partir des images passées d'une vidéo, ce qui nécessite une inférence sur ce que la personne veut faire et comment le faire. Nous pouvons ensuite utiliser l'IDM formé pour étiqueter un ensemble de données vidéo en ligne beaucoup plus volumineux et apprendre à agir avec le clonage comportemental. »

Selon Open AI, le VPT ouvre la voie aux agents pour apprendre à agir en regardant de grandes quantités de vidéos en ligne.

Un porte-parole de la société a déclaré : « Par rapport à la modélisation vidéo générative ou aux méthodes de contraste qui ne produisent que des jugements représentatifs, VPT offre une opportunité passionnante d'enseigner directement des jugements comportementaux à grande échelle dans plus de domaines que le simple langage. Bien que nous n'ayons fait que des expériences d'IA dans Minecraft, le jeu est très ouvert et l'interface humaine native (souris et clavier) est très générique, nous pensons donc que nos résultats sont bien adaptés à d'autres domaines similaires, tels que l'utilisation de l'ordinateur."


recommandé: La nouvelle IA de Gran Turismo 7 est prête à affronter les meilleurs joueurs du jeu

Partager:

Autres nouvelles