Open AI heeft een AI-neuraal netwerk getraind om Minecraft te spelen met behulp van pre-videotraining (VPT) op een enorm scala aan niet-gelabelde videogegevens van een mens die Minecraft speelt, terwijl slechts een kleine hoeveelheid gelabelde aannemersgegevens wordt gebruikt.

Met een beetje tweaken heeft het AI R&D-bedrijf er alle vertrouwen in dat zijn model kan leren om diamantgereedschappen te maken, een taak die doorgaans meer dan 20 minuten (24 handelingen) duurt voor ervaren mensen. Het model maakt gebruik van een native menselijke interface van toetsaanslagen en muisbewegingen, waardoor het generiek genoeg is om een ​​stap te zetten in de richting van het creëren van agenten die computers gebruiken.

Een woordvoerder van het door Microsoft gesteunde bedrijf zei: "Het internet heeft een enorme hoeveelheid openbare video waar we van kunnen leren. Je kunt iemand een geweldige presentatie zien geven, een digitale artiest een prachtige zonsondergang schilderen, een Minecraft-speler een ingewikkeld huis bouwen. Deze video's geven echter alleen een verslag van wat er is gebeurd, geen exacte beschrijving van hoe het is bereikt, wat betekent dat u de exacte volgorde van muisbewegingen en toetsaanslagen niet zult herkennen.

“Als we op deze gebieden grootschalige basismodellen willen bouwen, zoals we deden in de taal met GPT, dan creëert het ontbreken van actielabels een nieuw probleem dat niet bestaat in het taaldomein, waar “actielabels” slechts de volgende woorden in een zin.”

Om te profiteren van de rijkdom aan niet-gelabelde videogegevens die op internet beschikbaar zijn, introduceert Open AI een nieuwe, maar toch eenvoudige simulatietrainingsmethode onder toezicht: Pre-Video Training (VPT). Het team begint met het verzamelen van een kleine dataset van aannemers, waar het niet alleen hun video's opneemt, maar ook hun acties, in dit geval toetsaanslagen en muisbewegingen. Met deze gegevens kan een bedrijf een Inverse Dynamics Model (IDM) trainen dat de actie voorspelt die in elke fase van de video wordt ondernomen. Het is belangrijk op te merken dat IDM informatie uit het verleden en de toekomst kan gebruiken om de actie bij elke stap te raden.

De vertegenwoordiger voegde eraan toe: “Deze taak is veel eenvoudiger en vereist veel minder gegevens dan de taak voor het klonen van gedrag, namelijk het voorspellen van acties alleen op basis van eerdere frames van een video, waarvoor conclusies nodig zijn over wat de persoon wil doen en hoe hij het moet doen. We kunnen dan de getrainde IDM gebruiken om een ​​veel grotere online videodataset te labelen en te leren hoe te handelen met gedragsklonen.”

Volgens Open AI maakt de VPT de weg vrij voor agenten om te leren hoe ze moeten handelen door enorme hoeveelheden video's online te bekijken.

Een woordvoerder van het bedrijf zei: “Vergeleken met generatieve videomodellering of contrastmethoden die alleen representatieve oordelen produceren, biedt VPT een geweldige kans om direct grootschalige gedragsoordelen te onderwijzen op meer gebieden dan alleen taal. Hoewel we alleen AI-experimenten hebben gedaan in Minecraft, is de game erg open en is de native menselijke interface (muis en toetsenbord) erg generiek, dus we denken dat onze resultaten goed geschikt zijn voor andere vergelijkbare gebieden, zoals computergebruik."


aanbevolen: De nieuwe AI van Gran Turismo 7 is klaar om het op te nemen tegen de beste spelers van de game

Share:

Ander nieuws