Отворена АИ је обучила АИ неуронску мрежу да игра Минецрафт користећи пре-видео обуку (ВПТ) на огромном низу неозначених видео података човека који игра Минецрафт, користећи само малу количину означених података извођача.

Уз мало подешавања, компанија за истраживање и имплементацију вештачке интелигенције уверена је да њен модел може да научи да креира дијамантске алате, задатак који искусним људима обично одузима више од 20 минута (24 корака). Модел користи изворни људски интерфејс притиска на тастере и покрета миша, што га чини прилично општим и представља корак ка стварању агената који користе рачунаре.

Портпарол компаније коју подржава Мицрософт рекао је: „Интернет садржи мноштво јавно доступних видео снимака из којих можемо да учимо. Можете гледати особу како прави одличну презентацију, дигиталног уметника како слика прелеп залазак сунца или играча Минецрафта како гради замршену кућу. Међутим, ови видео снимци пружају само снимак онога што се догодило, али не и тачан опис како је то постигнуто, што значи да нећете знати тачан редослед покрета миша и притиска на тастере.

„Ако желимо да изградимо велике моделе темеља у овим доменима, као што смо урадили у језику са ГПТ-ом, онда недостатак ознака акције ствара нови проблем који не постоји у домену језика, где су „ознаке радње“ једноставно следеће речи у реченици.”

Да би искористио богатство неозначених видео података доступних на вебу, Опен АИ уводи нову, али једноставну, полу-надгледану методу обуке симулације: Пре-Видео Траининг (ВПТ). Тим почиње прикупљањем малог скупа података од извођача, где снима не само њихове видео записе, већ и њихове радње, које су у овом случају притисци на тастере и покрети миша. Са овим подацима, компанија може да обучи модел инверзне динамике (ИДМ) који предвиђа радњу предузету у свакој фази видео снимка. Важно је напоменути да ИДМ може да користи прошле и будуће информације да погоди радњу у сваком кораку.

Портпарол је додао: „Овај задатак је много једноставнији и захтева много мање података од задатка клонирања понашања, који укључује предвиђање радњи само из прошлих кадрова видеа, што захтева закључак шта особа жели да уради и како да то уради. Затим можемо да користимо обучени ИДМ да означимо много већи скуп видео података на мрежи и научимо да делујемо на њега кроз бихејвиорално клонирање."

Према Опен АИ, ВПТ утире пут агентима да науче како да делују гледајући огромне количине видео записа на мрежи.

Портпарол компаније је рекао: „У поређењу са генеративним видео моделирањем или контрастним методама које производе само репрезентативне судове, ВПТ нуди узбудљиву прилику за директно подучавање расуђивања понашања великих размера у више домена од само језика. Иако смо спроводили само експерименте са вештачком интелигенцијом у Минецрафт-у, игра је веома отворена и изворни људски интерфејс (миш и тастатура) је веома генерички, тако да верујемо да се наши резултати добро преводе на друге сличне домене, као што је коришћење рачунара.


Препоручени: Нова вештачка интелигенција Гран Турисма 7 спремна је да се суочи са најбољим играчима игре

Деле ово:

Остале вести