Otevřená umělá inteligence vycvičila neuronovou síť umělé inteligence k hraní Minecraftu pomocí pre-video tréninku (VPT) na obrovském množství neoznačených videodat člověka hrajícího Minecraft, přičemž se použilo pouze malé množství označených dat dodavatele.

S trochou úprav je společnost zabývající se výzkumem a implementací umělé inteligence přesvědčena, že se její model dokáže naučit vytvářet diamantové nástroje, což je úkol, který zkušeným lidem obvykle zabere více než 20 minut (24 000 kroků). Model využívá nativní lidské rozhraní úhozů a pohybů myši, takže je docela obecný a je krokem k vytváření agentů, kteří používají počítače.

Mluvčí firmy podporované Microsoftem řekl: „Internet obsahuje velké množství veřejně dostupných videí, ze kterých se můžeme učit. Můžete sledovat člověka, jak dělá skvělou prezentaci, jak digitální umělec maluje nádherný západ slunce nebo jak hráč Minecraftu staví složitý dům. Tato videa však poskytují pouze záznam toho, co se stalo, ale ne přesný popis toho, jak toho bylo dosaženo, což znamená, že nebudete znát přesnou sekvenci pohybů myši a stisku kláves.

„Pokud chceme v těchto doménách vybudovat rozsáhlé základní modely, jak jsme to udělali v jazyce s GPT, pak nedostatek akčních štítků vytváří nový problém, který neexistuje v jazykové doméně, kde „akční štítky“ jsou jednoduše další slova ve větě."

Aby bylo možné využít bohatství neoznačených videodat dostupných na webu, zavádí Open AI novou, ale jednoduchou metodu simulačního tréninku s částečným dohledem: Pre-Video Training (VPT). Tým začíná shromažďováním malého souboru dat od dodavatelů, kam zaznamenává nejen jejich videa, ale také jejich akce, což jsou v tomto případě stisky kláves a pohyby myši. S těmito daty může společnost trénovat inverzní dynamický model (IDM), který předpovídá akci provedenou v každé fázi videa. Je důležité poznamenat, že IDM může použít minulé a budoucí informace k uhodnutí akce v každém kroku.

Mluvčí dodal: „Tento úkol je mnohem jednodušší a vyžaduje mnohem méně dat než úkol klonování chování, který zahrnuje předpovídání akcí pouze z minulých snímků videa, což vyžaduje vyvození toho, co chce člověk dělat a jak to udělat. Vycvičený IDM pak můžeme použít k označení mnohem většího souboru dat online videa a naučit se s ním jednat pomocí behaviorálního klonování.“

Podle Open AI připravuje VPT cestu pro agenty, aby se naučili jednat sledováním obrovského množství videí online.

Mluvčí společnosti řekl: „Ve srovnání s generativním video modelováním nebo kontrastními metodami, které produkují pouze reprezentativní úsudky, nabízí VPT vzrušující příležitost přímo učit rozsáhlé úsudky chování ve více oblastech než jen v jazyce. Přestože jsme v Minecraftu prováděli pouze experimenty s umělou inteligencí, hra je velmi otevřená a nativní lidské rozhraní (myš a klávesnice) je velmi obecné, takže věříme, že se naše výsledky dobře promítnou do jiných podobných oblastí, jako je například používání počítače.“


Doporučené: Nová umělá inteligence Gran Turismo 7 je připravena postavit se nejlepším hráčům hry

Sdílet:

Další novinky