Open AI a antrenat o rețea neuronală AI să joace Minecraft folosind antrenament pre-video (VPT) pe o gamă uriașă de date video neetichetate ale unui om care joacă Minecraft, folosind în același timp doar o cantitate mică de date etichetate ale contractorului.

Cu puține modificări, compania de cercetare și implementare a AI este încrezătoare că modelul său poate învăța să creeze unelte diamantate, o sarcină care durează de obicei oamenilor experimentați mai mult de 20 de minute (24 de pași). Modelul folosește o interfață umană nativă de apăsări de taste și mișcări ale mouse-ului, ceea ce îl face destul de general și un pas către crearea de agenți care folosesc computere.

Un purtător de cuvânt al companiei susținute de Microsoft a declarat: „Internetul conține o mulțime de videoclipuri disponibile public din care putem învăța. Puteți urmări o persoană care face o prezentare grozavă, un artist digital pictând un apus frumos sau un jucător Minecraft construind o casă complicată. Cu toate acestea, aceste videoclipuri oferă doar o înregistrare a ceea ce s-a întâmplat, dar nu o descriere exactă a modului în care a fost realizat, ceea ce înseamnă că nu veți ști secvența exactă a mișcărilor mouse-ului și a apăsărilor de taste.

„Dacă dorim să construim modele de bază la scară largă în aceste domenii, așa cum am făcut în limbajul cu GPT, atunci lipsa etichetelor de acțiune creează o nouă problemă care nu există în domeniul lingvistic, unde „etichetele de acțiune” sunt pur și simplu următoarele cuvinte dintr-o propoziție.”

Pentru a profita de multitudinea de date video neetichetate disponibile pe web, Open AI introduce o nouă metodă de antrenament prin simulare, dar simplă, semi-supravegheată: Pre-Video Training (VPT). Echipa începe prin a colecta un mic set de date de la contractori, unde înregistrează nu numai videoclipurile lor, ci și acțiunile lor, care în acest caz sunt apăsări de taste și mișcări ale mouse-ului. Cu aceste date, o companie poate antrena un model de dinamică inversă (IDM) care prezice acțiunea întreprinsă în fiecare etapă a videoclipului. Este important de reținut că IDM poate folosi informațiile trecute și viitoare pentru a ghici acțiunea la fiecare pas.

Purtătorul de cuvânt a adăugat: „Această sarcină este mult mai simplă și necesită mult mai puține date decât sarcina de clonare a comportamentului, care implică prezicerea acțiunilor doar din cadrele video anterioare, ceea ce necesită deducerea a ceea ce o persoană vrea să facă și cum să facă acest lucru. Apoi putem folosi IDM-ul instruit pentru a eticheta un set de date video online mult mai mare și pentru a învăța să acționăm asupra lui prin clonarea comportamentală.”

Potrivit Open AI, VPT deschide calea pentru ca agenții să învețe cum să acționeze vizionand cantități mari de videoclipuri online.

Un purtător de cuvânt al companiei a spus: „Comparativ cu modelarea video generativă sau metodele contrastive care produc doar judecăți reprezentative, VPT oferă o oportunitate interesantă de a preda direct judecăți comportamentale la scară largă în mai multe domenii decât doar limbaj. Deși am efectuat doar experimente AI în Minecraft, jocul este foarte deschis, iar interfața umană nativă (mouse-ul și tastatura) este foarte generică, așa că credem că rezultatele noastre se traduc bine în alte domenii similare, cum ar fi utilizarea computerului.”


recomandat: Noua IA a lui Gran Turismo 7 este gata să-i înfrunte pe cei mai buni jucători ai jocului

Imparte asta:

Alte știri