Open AI trænede et AI-neuralt netværk til at spille Minecraft ved hjælp af pre-video-træning (VPT) på et stort udvalg af umærkede videodata fra et menneske, der spiller Minecraft, mens der kun blev brugt en lille mængde mærkede entreprenørdata.

Med lidt justeringer er AI-forsknings- og implementeringsvirksomheden overbevist om, at dens model kan lære at skabe diamantværktøjer, en opgave der typisk tager erfarne mennesker mere end 20 minutter (24 trin). Modellen bruger en indfødt menneskelig grænseflade med tastetryk og musebevægelser, hvilket gør den ret generel og et skridt i retning af at skabe agenter, der bruger computere.

En talsmand for det Microsoft-støttede firma sagde: "Internettet indeholder et væld af offentligt tilgængelige videoer, som vi kan lære af. Du kan se en person lave en fantastisk præsentation, en digital kunstner male en smuk solnedgang, eller en Minecraft-spiller bygge et indviklet hus. Disse videoer giver dog kun en optagelse af, hvad der skete, men ikke en nøjagtig beskrivelse af, hvordan det blev opnået, hvilket betyder, at du ikke kender den nøjagtige rækkefølge af musebevægelser og tastetryk.

”Hvis vi vil bygge storskala funderingsmodeller på disse domæner, som vi har gjort i sprog med GPT, så skaber manglen på handlingsmærker et nyt problem, som ikke eksisterer på sprogdomænet, hvor ”handlingsmærker” blot er de næste ord i en sætning."

For at drage fordel af det væld af umærkede videodata, der er tilgængelige på nettet, introducerer Open AI en ny, men simpel, semi-overvåget simuleringstræningsmetode: Pre-Video Training (VPT). Holdet starter med at indsamle et lille datasæt fra entreprenører, hvor det optager ikke kun deres videoer, men også deres handlinger, som i dette tilfælde er tastetryk og musebevægelser. Med disse data kan en virksomhed træne en Inverse Dynamics Model (IDM), der forudsiger den handling, der udføres på hvert trin af videoen. Det er vigtigt at bemærke, at IDM kan bruge tidligere og fremtidige oplysninger til at gætte handlingen ved hvert trin.

Talsmanden tilføjede: "Denne opgave er meget enklere og kræver meget mindre data end adfærdskloningsopgaven, som involverer kun forudsigelse af handlinger fra tidligere videorammer, hvilket kræver at udlede, hvad en person vil gøre, og hvordan man gør det. Vi kan derefter bruge den trænede IDM til at mærke et meget større online videodatasæt og lære at handle på det gennem adfærdsmæssig kloning."

Ifølge Open AI baner VPT vejen for, at agenter kan lære at handle ved at se enorme mængder af videoer online.

En talsmand for virksomheden sagde: "Sammenlignet med generativ videomodellering eller kontrastive metoder, der kun producerer repræsentative domme, tilbyder VPT en spændende mulighed for direkte at undervise i storskala adfærdsdomme på flere domæner end blot sprog. Selvom vi kun udførte AI-eksperimenter i Minecraft, er spillet meget åbent, og den indbyggede menneskelige grænseflade (mus og tastatur) er meget generisk, så vi mener, at vores resultater oversættes godt til andre lignende domæner, såsom computerbrug."


Anbefalet: Gran Turismo 7s nye AI er klar til at tage imod spillets bedste spillere

Del:

Andre nyheder