O Open AI treinou uma rede neural de IA para jogar Minecraft usando treinamento pré-vídeo (VPT) em uma enorme variedade de dados de vídeo não rotulados de um humano jogando Minecraft, enquanto usava apenas uma pequena quantidade de dados rotulados do contratante.

Com alguns ajustes, a empresa de pesquisa e implementação de IA está confiante de que seu modelo pode aprender a criar ferramentas diamantadas, uma tarefa que normalmente leva mais de 20 minutos (24 passos) para humanos experientes. O modelo utiliza uma interface humana nativa de pressionamentos de teclas e movimentos do mouse, tornando-o bastante geral e um passo para a criação de agentes que utilizam computadores.

Um porta-voz da empresa apoiada pela Microsoft disse: “A Internet contém uma grande variedade de vídeos disponíveis publicamente com os quais podemos aprender. Você pode assistir uma pessoa fazer uma ótima apresentação, um artista digital pintar um lindo pôr do sol ou um jogador de Minecraft construir uma casa complexa. No entanto, esses vídeos fornecem apenas uma gravação do que aconteceu, mas não uma descrição exata de como isso foi conseguido, o que significa que você não saberá a sequência exata dos movimentos do mouse e das teclas digitadas.

“Se quisermos construir modelos básicos em larga escala nestes domínios, como fizemos na linguagem com GPT, então a falta de rótulos de ação cria um novo problema que não existe no domínio da linguagem, onde “rótulos de ação” são simplesmente as próximas palavras em uma frase.

Para aproveitar a riqueza de dados de vídeo não rotulados disponíveis na Web, o Open AI apresenta um novo método de treinamento de simulação semi-supervisionado, porém simples: Pre-Video Training (VPT). A equipe começa coletando um pequeno conjunto de dados dos contratados, onde registra não apenas seus vídeos, mas também suas ações, que neste caso são teclas digitadas e movimentos do mouse. Com esses dados, uma empresa pode treinar um Modelo de Dinâmica Inversa (IDM) que prevê a ação realizada em cada etapa do vídeo. É importante observar que o IDM pode usar informações passadas e futuras para adivinhar a ação em cada etapa.

O porta-voz acrescentou: “Esta tarefa é muito mais simples e requer muito menos dados do que a tarefa de clonagem de comportamento, que envolve prever ações apenas a partir de quadros de vídeo anteriores, o que requer inferir o que uma pessoa deseja fazer e como fazê-lo. Podemos então usar o IDM treinado para rotular um conjunto de dados de vídeo on-line muito maior e aprender a agir sobre ele por meio da clonagem comportamental.”

De acordo com a Open AI, o VPT está abrindo caminho para que os agentes aprendam como agir assistindo a uma grande quantidade de vídeos online.

Um porta-voz da empresa disse: “Em comparação com a modelagem de vídeo generativa ou métodos contrastivos que apenas produzem julgamentos representacionais, o VPT oferece uma excelente oportunidade para ensinar diretamente julgamentos comportamentais em larga escala em mais domínios do que apenas a linguagem. Embora tenhamos conduzido apenas experimentos de IA no Minecraft, o jogo é muito aberto e a interface humana nativa (mouse e teclado) é muito genérica, por isso acreditamos que nossos resultados se traduzem bem em outros domínios semelhantes, como o uso do computador.”


recomendado: A nova IA do Gran Turismo 7 está pronta para enfrentar os melhores jogadores do jogo

Поделиться:

Outras notícias