Open AI apmācīja AI neironu tīklu spēlēt Minecraft, izmantojot iepriekšēju video apmācību (VPT) ar milzīgu nemarķētu video datu klāstu, kurā cilvēks spēlē Minecraft, vienlaikus izmantojot tikai nelielu daudzumu marķētu darbuzņēmēja datu.

Ar nelielu pielāgošanu AI izpētes un ieviešanas uzņēmums ir pārliecināts, ka tā modelis var iemācīties izveidot dimanta rīkus, kas parasti pieredzējušiem cilvēkiem prasa vairāk nekā 20 minūtes (24 000 soļu). Modelis izmanto vietējo cilvēka saskarni ar taustiņsitieniem un peles kustībām, padarot to diezgan vispārīgu un soli ceļā uz aģentu izveidi, kas izmanto datorus.

Microsoft atbalstītās firmas pārstāvis sacīja: “Internets satur daudz publiski pieejamu video, no kuriem mēs varam mācīties. Varat vērot, kā cilvēks gatavo lielisku prezentāciju, digitālais mākslinieks glezno skaistu saulrietu vai Minecraft spēlētājs būvē sarežģītu māju. Tomēr šajos videoklipos ir sniegts tikai notikušā ieraksts, bet ne precīzs apraksts par to, kā tas tika sasniegts, kas nozīmē, ka jūs nezināsiet precīzu peles kustību un taustiņu nospiešanas secību.

"Ja mēs vēlamies šajās jomās izveidot liela mēroga pamatu modeļus, kā mēs to darījām valodā ar GPT, tad darbības etiķešu trūkums rada jaunu problēmu, kas nepastāv valodu domēnā, kur "darbības etiķetes" ir vienkārši nākamie vārdi teikumā."

Lai izmantotu tīmeklī pieejamo bezmarķēto video datu bagātību, Open AI ievieš jaunu, tomēr vienkāršu, daļēji uzraudzītu simulācijas apmācības metodi: Pre-Video Training (VPT). Komanda vispirms savāc nelielu datu kopu no darbuzņēmējiem, kur tā ieraksta ne tikai viņu videoklipus, bet arī darbības, kas šajā gadījumā ir taustiņu nospiešanas un peles kustības. Izmantojot šos datus, uzņēmums var apmācīt apgrieztās dinamikas modeli (IDM), kas paredz katrā videoklipa posmā veikto darbību. Ir svarīgi atzīmēt, ka IDM var izmantot pagātnes un nākotnes informāciju, lai uzminētu darbību katrā solī.

Pārstāvis piebilda: "Šis uzdevums ir daudz vienkāršāks un prasa daudz mazāk datu nekā uzvedības klonēšanas uzdevums, kas ietver darbību prognozēšanu tikai no iepriekšējiem video kadriem, kas prasa secināt, ko cilvēks vēlas darīt un kā to izdarīt. Pēc tam mēs varam izmantot apmācītu IDM, lai iezīmētu daudz lielāku tiešsaistes video datu kopu un iemācītos rīkoties ar to, izmantojot uzvedības klonēšanu.

Saskaņā ar Open AI teikto, VPT paver ceļu aģentiem, lai uzzinātu, kā rīkoties, tiešsaistē skatoties milzīgu daudzumu video.

Uzņēmuma pārstāvis teica: "Salīdzinot ar ģeneratīvo video modelēšanu vai kontrastējošām metodēm, kas rada tikai reprezentatīvus spriedumus, VPT piedāvā aizraujošu iespēju tieši mācīt liela mēroga uzvedības spriedumus vairākās jomās, nevis tikai valodā. Lai gan mēs veicām tikai mākslīgā intelekta eksperimentus programmā Minecraft, spēle ir ļoti atvērta, un cilvēka vietējais interfeiss (pele un tastatūra) ir ļoti vispārīgs, tāpēc mēs uzskatām, ka mūsu rezultāti ir labi izmantojami citās līdzīgās jomās, piemēram, datoru lietošanā.


Ieteicam: Gran Turismo 7 jaunais AI ir gatavs uzņemties spēles labākos spēlētājus

Kopīgot:

Citas ziņas