Open AI entrenó una red neuronal de IA para jugar a Minecraft usando entrenamiento previo al video (VPT) en una gran variedad de datos de video sin etiquetar de un humano jugando Minecraft, mientras usaba solo una pequeña cantidad de datos de contratistas etiquetados.

Con un poco de ajuste, la empresa de I+D de IA confía en que su modelo puede aprender a crear herramientas de diamante, una tarea que normalmente lleva más de 20 minutos (24 000 acciones) para personas con experiencia. El modelo utiliza una interfaz humana nativa de pulsaciones de teclas y movimientos del mouse, lo que lo hace lo suficientemente genérico como para ser un paso hacia la creación de agentes que usan computadoras.

Un portavoz de la firma respaldada por Microsoft dijo: “Internet tiene una gran cantidad de videos públicos de los que podemos aprender. Puedes ver a una persona hacer una gran presentación, un artista digital pintar una hermosa puesta de sol, un jugador de Minecraft construir una casa intrincada. Sin embargo, estos videos solo brindan un registro de lo que sucedió, no una descripción exacta de cómo se logró, lo que significa que no reconocerá la secuencia exacta de movimientos del mouse y pulsaciones de teclas.

“Si queremos construir modelos básicos a gran escala en estas áreas, como hicimos en el lenguaje con GPT, entonces la falta de etiquetas de acción crea un nuevo problema que no existe en el dominio del lenguaje, donde las “etiquetas de acción” son simplemente las siguientes palabras en una oración.”

Para aprovechar la gran cantidad de datos de video sin etiquetar disponibles en la web, Open AI presenta un método de entrenamiento de simulación semisupervisado nuevo, pero simple: Entrenamiento previo al video (VPT). El equipo comienza recopilando un pequeño conjunto de datos de los contratistas, donde registra no solo sus videos, sino también sus acciones, que en este caso son pulsaciones de teclas y movimientos del mouse. Con estos datos, una empresa puede entrenar un Modelo de Dinámica Inversa (IDM) que predice la acción realizada en cada etapa del video. Es importante tener en cuenta que IDM puede usar información pasada y futura para adivinar la acción en cada paso.

El representante agregó: “Esta tarea es mucho más simple y requiere muchos menos datos que la tarea de clonación de comportamiento, que consiste en predecir acciones solo a partir de fotogramas pasados ​​​​de un video, lo que requiere inferencia sobre lo que la persona quiere hacer y cómo hacerlo. Luego podemos usar el IDM entrenado para etiquetar un conjunto de datos de video en línea mucho más grande y aprender cómo actuar con la clonación de comportamiento”.

Según Open AI, el VPT está allanando el camino para que los agentes aprendan a actuar viendo grandes cantidades de videos en línea.

Un portavoz de la compañía dijo: “En comparación con el modelado de video generativo o los métodos de contraste que solo producen juicios representativos, VPT ofrece una oportunidad emocionante para enseñar directamente juicios de comportamiento a gran escala en más áreas que solo el lenguaje. Aunque solo hemos realizado experimentos de IA en Minecraft, el juego es muy abierto y la interfaz humana nativa (mouse y teclado) es muy genérica, por lo que creemos que nuestros resultados se adaptan bien a otras áreas similares, como el uso de computadoras".


recomendado: La nueva IA de Gran Turismo 7 está lista para enfrentarse a los mejores jugadores del juego

Compartir:

Otras noticias