„Open AI“ išmokė dirbtinio intelekto neuronų tinklą žaisti „Minecraft“, naudodamas išankstinį vaizdo mokymą (VPT) su didžiuliu nepažymėtų vaizdo duomenų, kuriuose žmogus žaidžia „Minecraft“, masyvas, naudojant tik nedidelį pažymėtų rangovo duomenų kiekį.

Šiek tiek pataisydama AI tyrimų ir diegimo įmonė įsitikinusi, kad jos modelis gali išmokti kurti deimantinius įrankius – užduotį, kuri paprastai patyrusiems žmonėms trunka ilgiau nei 20 minučių (24 000 žingsnių). Modelis naudoja savąją žmogaus sąsają su klavišų paspaudimais ir pelės judesiais, todėl jis yra gana bendras ir yra žingsnis kuriant kompiuterius naudojančius agentus.

„Microsoft“ remiamos įmonės atstovas sakė: „Internete yra daugybė viešai prieinamų vaizdo įrašų, iš kurių galime pasimokyti. Galite stebėti, kaip žmogus pristato puikų pristatymą, skaitmeninis menininkas piešia gražų saulėlydį arba „Minecraft“ žaidėjas stato sudėtingą namą. Tačiau šiuose vaizdo įrašuose pateikiamas tik to, kas nutiko, įrašas, bet ne tikslus aprašymas, kaip tai buvo pasiekta, tai reiškia, kad nežinosite tikslios pelės judesių ir klavišų paspaudimų sekos.

„Jei norime šiose srityse sukurti didelio masto pagrindų modelius, kaip tai padarėme kalbant su GPT, tai veiksmų etikečių trūkumas sukuria naują problemą, kurios nėra kalbos srityje, kur „veiksmų etiketės“ ​​yra tiesiog kitus sakinio žodžius“.

Siekdamas pasinaudoti daugybe tinkle esančių nepažymėtų vaizdo duomenų, Open AI pristato naują, tačiau paprastą, pusiau prižiūrimą simuliacinio mokymo metodą: mokymą prieš vaizdo įrašą (VPT). Komanda pradeda rinkdama nedidelį duomenų rinkinį iš rangovų, kur įrašo ne tik jų vaizdo įrašus, bet ir veiksmus, kurie šiuo atveju yra klavišų paspaudimai ir pelės judesiai. Turėdama šiuos duomenis, įmonė gali parengti atvirkštinės dinamikos modelį (IDM), kuris numato veiksmus, kurių bus imtasi kiekviename vaizdo įrašo etape. Svarbu pažymėti, kad IDM gali naudoti praeities ir ateities informaciją, kad atspėtų veiksmą kiekviename žingsnyje.

Atstovas pridūrė: „Ši užduotis yra daug paprastesnė ir reikalauja daug mažiau duomenų nei elgesio klonavimo užduotis, apimanti veiksmų numatymą tik iš ankstesnių vaizdo įrašų kadrų, o tai reikalauja padaryti išvadą, ką žmogus nori daryti ir kaip tai padaryti. Tada galime naudoti apmokytą IDM, kad žymėtume daug didesnį internetinių vaizdo įrašų duomenų rinkinį ir išmoktume jį veikti klonuodami elgseną.

Anot „Open AI“, VPT sudaro sąlygas agentams išmokti elgtis žiūrint daugybę vaizdo įrašų internete.

Bendrovės atstovas sakė: „Palyginus su generatyviniu vaizdo modeliavimu ar kontrastiniais metodais, kurie sukuria tik reprezentacinius sprendimus, VPT suteikia puikią galimybę tiesiogiai mokyti didelio masto elgesio sprendimus ne tik kalbose. Nors „Minecraft“ atlikome tik dirbtinio intelekto eksperimentus, žaidimas yra labai atviras, o savoji žmogaus sąsaja (pelė ir klaviatūra) yra labai bendro pobūdžio, todėl manome, kad mūsų rezultatai puikiai perkeliami į kitas panašias sritis, pavyzdžiui, kompiuterio naudojimą.


rekomenduojama: Naujasis „Gran Turismo 7“ AI yra pasirengęs priimti geriausius žaidimo žaidėjus

Dalintis:

Kitos naujienos