Otvorená AI vycvičila neurónovú sieť AI na hranie Minecraftu pomocou predtréningu videa (VPT) na obrovskom množstve neoznačených videoúdajov ľudského hrania Minecraftu, pričom sa použilo len malé množstvo označených údajov dodávateľa.

S malými úpravami je spoločnosť zaoberajúca sa výskumom a implementáciou AI presvedčená, že jej model sa dokáže naučiť vytvárať diamantové nástroje, čo je úloha, ktorá zvyčajne trvá skúseným ľuďom viac ako 20 minút (24 000 krokov). Model využíva natívne ľudské rozhranie stlačenia klávesov a pohybov myši, vďaka čomu je celkom všeobecný a predstavuje krok smerom k vytvoreniu agentov, ktorí používajú počítače.

Hovorca firmy podporovanej Microsoftom povedal: „Internet obsahuje množstvo verejne dostupných videí, z ktorých sa môžeme učiť. Môžete sledovať človeka, ktorý robí skvelú prezentáciu, digitálneho umelca maľovajúceho nádherný západ slnka alebo hráča Minecraftu, ako stavia zložitý dom. Tieto videá však poskytujú len záznam toho, čo sa stalo, ale nie presný popis toho, ako sa to dosiahlo, čo znamená, že nebudete poznať presnú postupnosť pohybov myši a stlačenia klávesov.

„Ak chceme v týchto doménach vybudovať rozsiahle základné modely, ako sme to urobili v jazyku s GPT, potom nedostatok akčných štítkov vytvára nový problém, ktorý neexistuje v jazykovej doméne, kde „akčné štítky“ sú jednoducho ďalšie slová vo vete."

S cieľom využiť množstvo neoznačených video údajov dostupných na internete, Open AI predstavuje novú, ale jednoduchú metódu simulačného tréningu s čiastočným dohľadom: Video Pre-Training (VPT). Tím začína zhromažďovaním malého súboru údajov od dodávateľov, kde zaznamenáva nielen ich videá, ale aj ich akcie, ktorými sú v tomto prípade stlačenia klávesov a pohyby myši. Pomocou týchto údajov môže spoločnosť trénovať inverzný dynamický model (IDM), ktorý predpovedá akciu vykonanú v každej fáze videa. Je dôležité poznamenať, že IDM môže použiť minulé a budúce informácie na uhádnutie akcie v každom kroku.

Hovorca dodal: „Táto úloha je oveľa jednoduchšia a vyžaduje oveľa menej údajov ako úloha klonovania správania, ktorá zahŕňa predpovedanie akcií iba z predchádzajúcich snímok videa, čo si vyžaduje odvodenie toho, čo chce človek robiť a ako to urobiť. Potom môžeme použiť vyškolený IDM na označenie oveľa väčšieho súboru údajov o online videu a naučiť sa s ním konať prostredníctvom behaviorálneho klonovania.“

Open AI hovorí, že VPT pripravuje cestu pre agentov, aby sa naučili konať sledovaním obrovského množstva videa online.

Hovorca spoločnosti povedal: „V porovnaní s generatívnym video modelovaním alebo kontrastnými metódami, ktoré vytvárajú iba reprezentatívne úsudky, VPT ponúka vzrušujúcu príležitosť priamo vyučovať rozsiahle úsudky správania vo viacerých oblastiach ako len v jazyku. Hoci sme v Minecrafte vykonávali iba experimenty AI, hra je veľmi otvorená a natívne ľudské rozhranie (myš a klávesnica) je veľmi všeobecné, takže veríme, že naše výsledky sa dobre prenesú do iných podobných oblastí, ako je napríklad používanie počítača.“


Odporúčané: Nová AI hry Gran Turismo 7 je pripravená postaviť sa najlepším hráčom hry

Zdieľajte toto:

Ďalšie novinky