Open AI ha addestrato una rete neurale AI per giocare a Minecraft utilizzando il pre-video training (VPT) su una vasta gamma di dati video non etichettati di un essere umano che gioca a Minecraft, utilizzando solo una piccola quantità di dati contraenti etichettati.

Con un po' di modifiche, l'azienda di R&S AI è fiduciosa che il suo modello possa imparare a creare utensili diamantati, un'attività che in genere richiede più di 20 minuti (24 azioni) per le persone esperte. Il modello utilizza un'interfaccia umana nativa di sequenze di tasti e movimenti del mouse, rendendolo abbastanza generico da essere un passo verso la creazione di agenti che utilizzano i computer.

Un portavoce dell'azienda sostenuta da Microsoft ha dichiarato: “Internet ha un'enorme quantità di video pubblici da cui possiamo imparare. Puoi guardare una persona fare un'ottima presentazione, un artista digitale dipingere un bellissimo tramonto, un giocatore di Minecraft costruire una casa intricata. Tuttavia, questi video forniscono solo una registrazione di ciò che è accaduto, non una descrizione esatta di come è stato ottenuto, il che significa che non riconoscerai l'esatta sequenza di movimenti del mouse e sequenze di tasti.

“Se vogliamo costruire modelli di base su larga scala in queste aree, come abbiamo fatto nel linguaggio con GPT, allora la mancanza di etichette di azione crea un nuovo problema che non esiste nel dominio linguistico, dove le “etichette di azione” sono solo le parole successive in una frase.

Per sfruttare la ricchezza di dati video non etichettati disponibili sul Web, Open AI introduce un nuovo, ma semplice, metodo di addestramento con simulazione semi-supervisionata: Pre-Video Training (VPT). Il team inizia raccogliendo un piccolo set di dati dagli appaltatori, dove registra non solo i loro video, ma anche le loro azioni, che in questo caso sono sequenze di tasti e movimenti del mouse. Con questi dati, un'azienda può addestrare un Inverse Dynamics Model (IDM) che prevede l'azione intrapresa in ogni fase del video. È importante notare che IDM può utilizzare informazioni passate e future per indovinare l'azione in ogni passaggio.

Il rappresentante ha aggiunto: “Questa attività è molto più semplice e richiede molti meno dati rispetto all'attività di clonazione del comportamento, che consiste nel prevedere le azioni solo dai fotogrammi passati di un video, che richiede inferenza su ciò che la persona vuole fare e su come farlo. Possiamo quindi utilizzare l'IDM addestrato per etichettare un set di dati video online molto più ampio e imparare come agire con la clonazione comportamentale".

Secondo Open AI, il VPT sta aprendo la strada agli agenti per imparare come agire guardando grandi quantità di video online.

Un portavoce dell'azienda ha dichiarato: “Rispetto alla modellazione video generativa o ai metodi di contrasto che producono solo giudizi rappresentativi, VPT offre un'entusiasmante opportunità di insegnare direttamente giudizi comportamentali su larga scala in più aree oltre al semplice linguaggio. Sebbene abbiamo fatto solo esperimenti di intelligenza artificiale in Minecraft, il gioco è molto aperto e l'interfaccia umana nativa (mouse e tastiera) è molto generica, quindi pensiamo che i nostri risultati siano adatti ad altre aree simili, come l'uso del computer".


raccomandato: La nuova IA di Gran Turismo 7 è pronta ad affrontare i migliori giocatori del gioco

Condividi:

Altre notizie