Open AI trente et AI-nevralt nettverk til å spille Minecraft ved å bruke pre-video-trening (VPT) på et stort utvalg umerkede videodata fra et menneske som spiller Minecraft, mens det bare brukte en liten mengde merket entreprenørdata.

Med litt justeringer er AI-forsknings- og implementeringsselskapet overbevist om at modellen deres kan lære å lage diamantverktøy, en oppgave som vanligvis tar erfarne mennesker mer enn 20 minutter (24 000 trinn). Modellen bruker et innfødt menneskelig grensesnitt med tastetrykk og musebevegelser, noe som gjør den ganske generell og et skritt mot å lage agenter som bruker datamaskiner.

En talsmann for det Microsoft-støttede firmaet sa: «Internett inneholder et vell av offentlig tilgjengelig video som vi kan lære av. Du kan se en person lage en flott presentasjon, en digital kunstner male en vakker solnedgang, eller en Minecraft-spiller bygge et intrikat hus. Imidlertid gir disse videoene bare et opptak av hva som skjedde, men ikke en nøyaktig beskrivelse av hvordan det ble oppnådd, noe som betyr at du ikke vil vite den nøyaktige sekvensen av musebevegelser og tastetrykk.

«Hvis vi ønsker å bygge storskala grunnmodeller på disse domenene, slik vi har gjort i språk med GPT, så skaper mangelen på handlingsmerker et nytt problem som ikke eksisterer i språkdomenet, der «handlingsmerker» rett og slett er de neste ordene i en setning."

For å dra nytte av rikdommen av umerket videodata som er tilgjengelig på nettet, introduserer Open AI en ny, men enkel, semi-overvåket simuleringstreningsmetode: Pre-Video Training (VPT). Teamet starter med å samle et lite datasett fra entreprenører, der det registrerer ikke bare videoene deres, men også handlingene deres, som i dette tilfellet er tastetrykk og musebevegelser. Med disse dataene kan et selskap trene en Inverse Dynamics Model (IDM) som forutsier handlingen som er tatt på hvert trinn av videoen. Det er viktig å merke seg at IDM kan bruke tidligere og fremtidig informasjon til å gjette handlingen ved hvert trinn.

Talspersonen la til: "Denne oppgaven er mye enklere og krever mye mindre data enn atferdskloningsoppgaven, som innebærer å forutsi handlinger bare fra tidligere videorammer, som krever å utlede hva en person vil gjøre og hvordan man gjør det. Vi kan deretter bruke den trente IDM-en til å merke et mye større online videodatasett og lære å handle på det gjennom atferdskloning.»

I følge Open AI baner VPT vei for agenter til å lære hvordan de skal handle ved å se enorme mengder videoer på nettet.

En talsperson for selskapet sa: "Sammenlignet med generativ videomodellering eller kontrastive metoder som bare produserer representasjonsdommer, tilbyr VPT en spennende mulighet til å direkte undervise i storskala atferdsvurderinger på flere domener enn bare språk. Selv om vi bare utførte AI-eksperimenter i Minecraft, er spillet veldig åpent og det opprinnelige menneskelige grensesnittet (mus og tastatur) er veldig generisk, så vi tror resultatene våre oversettes godt til andre lignende domener, for eksempel datamaskinbruk.


anbefalt: Gran Turismo 7s nye AI er klar til å ta imot spillets beste spillere

Del:

Andre nyheter