Open AI tränade ett AI-neuralt nätverk för att spela Minecraft med hjälp av pre-video-träning (VPT) på en enorm mängd omärkta videodata från en människa som spelar Minecraft, samtidigt som man bara använde en liten mängd märkt entreprenörsdata.

Med lite justeringar är AI-forsknings- och implementeringsföretaget övertygade om att dess modell kan lära sig att skapa diamantverktyg, en uppgift som vanligtvis tar erfarna människor mer än 20 minuter (24 000 steg). Modellen använder ett inbyggt mänskligt gränssnitt med tangenttryckningar och musrörelser, vilket gör den ganska generell och ett steg mot att skapa agenter som använder datorer.

En talesman för det Microsoft-stödda företaget sa: "Internet innehåller en mängd allmänt tillgänglig video som vi kan lära oss av. Du kan se en person göra en fantastisk presentation, en digital konstnär måla en vacker solnedgång eller en Minecraft-spelare bygga ett invecklat hus. Dessa videor ger dock bara en inspelning av vad som hände, men inte en exakt beskrivning av hur det åstadkoms, vilket innebär att du inte vet den exakta sekvensen av musrörelser och tangenttryckningar.

"Om vi ​​vill bygga storskaliga grundmodeller inom dessa domäner, som vi har gjort i språk med GPT, så skapar bristen på handlingsetiketter ett nytt problem som inte finns inom språkdomänen, där "actionetiketter" helt enkelt är nästa ord i en mening."

För att dra nytta av rikedomen av omärkt videodata som finns tillgänglig på webben, introducerar Open AI en ny, men enkel, semi-övervakad simuleringsträningsmetod: Pre-Video Training (VPT). Teamet börjar med att samla in en liten datamängd från entreprenörer, där det spelar in inte bara deras videor, utan också deras handlingar, som i det här fallet är tangenttryckningar och musrörelser. Med dessa data kan ett företag träna en Inverse Dynamics Model (IDM) som förutsäger de åtgärder som vidtas i varje steg av videon. Det är viktigt att notera att IDM kan använda tidigare och framtida information för att gissa åtgärden vid varje steg.

Talesmannen tillade: "Denna uppgift är mycket enklare och kräver mycket mindre data än beteendekloningsuppgiften, som involverar att förutsäga åtgärder endast från tidigare videorutor, vilket kräver att man kan sluta sig till vad en person vill göra och hur man gör det. Vi kan sedan använda den tränade IDM:n för att märka en mycket större onlinevideodatauppsättning och lära oss att agera utifrån den genom beteendekloning.”

Enligt Open AI banar VPT vägen för agenter att lära sig hur man agerar genom att titta på stora mängder videor online.

En företagstalesman sa: "Jämfört med generativ videomodellering eller kontrastiva metoder som endast producerar representativa bedömningar, erbjuder VPT en spännande möjlighet att direkt lära ut storskaliga beteendebedömningar inom fler domäner än bara språk. Även om vi bara utförde AI-experiment i Minecraft är spelet väldigt öppet och det inbyggda mänskliga gränssnittet (mus och tangentbord) är väldigt generiskt, så vi tror att våra resultat översätts bra till andra liknande domäner, som datoranvändning.”


Rekommenderad: Gran Turismo 7:s nya AI är redo att ta sig an spelets bästa spelare

Dela:

Andra nyheter