Open AI обучи AI невронна мрежа да играе Minecraft, използвайки предварително видео обучение (VPT) върху огромен масив от немаркирани видео данни на човек, играещ Minecraft, като същевременно използва само малко количество етикетирани данни на изпълнителя.

С малко промени, компанията за изследване и внедряване на AI е уверена, че нейният модел може да се научи да създава диамантени инструменти, задача, която обикновено отнема на опитни хора повече от 20 минути (24 000 стъпки). Моделът използва естествен човешки интерфейс от натискания на клавиши и движения на мишката, което го прави доста общ и стъпка към създаването на агенти, които използват компютри.

Говорител на подкрепяната от Microsoft фирма каза: „Интернет съдържа изобилие от публично достъпни видеоклипове, от които можем да се учим. Можете да гледате как човек прави страхотна презентация, дигитален художник рисува красив залез или играч на Minecraft строи сложна къща. Тези видеоклипове обаче предоставят само запис на случилото се, но не и точно описание на това как е постигнато, което означава, че няма да знаете точната последователност от движения на мишката и натискане на клавиши.

„Ако искаме да изградим широкомащабни базови модели в тези домейни, както направихме в езика с GPT, тогава липсата на етикети за действие създава нов проблем, който не съществува в домейна на езика, където „етикетите за действие“ са просто следващите думи в изречението.”

За да се възползва от изобилието от немаркирани видео данни, налични в мрежата, Open AI въвежда нов, но прост, полуконтролиран метод за симулационно обучение: Предварително видео обучение (VPT). Екипът започва със събиране на малък набор от данни от изпълнители, където записва не само техните видеоклипове, но и техните действия, които в този случай са натискания на клавиши и движения на мишката. С тези данни една компания може да обучи модел на обратна динамика (IDM), който предвижда действието, предприето на всеки етап от видеото. Важно е да се отбележи, че IDM може да използва минала и бъдеща информация, за да отгатне действието на всяка стъпка.

Говорителят добави: „Тази задача е много по-проста и изисква много по-малко данни от задачата за клониране на поведение, която включва предвиждане на действия само от минали кадри от видео, което изисква извод какво иска да направи човек и как да го направи. След това можем да използваме обучения IDM, за да маркираме много по-голям набор от онлайн видео данни и да се научим да действаме върху него чрез поведенческо клониране.

Според Open AI, VPT проправя пътя за агентите да се научат как да действат, като гледат огромно количество видеоклипове онлайн.

Говорител на компанията каза: „В сравнение с генеративно видео моделиране или контрастни методи, които произвеждат само представителни преценки, VPT предлага вълнуваща възможност за директно преподаване на широкомащабни поведенчески преценки в повече области, отколкото само език. Въпреки че проведохме само експерименти с изкуствен интелект в Minecraft, играта е много отворена и родният човешки интерфейс (мишка и клавиатура) е много общ, така че вярваме, че резултатите ни се пренасят добре в други подобни области, като например използването на компютър.“


Препоръчано: Новият AI на Gran Turismo 7 е готов да се изправи срещу най-добрите играчи в играта

Споделя това:

Други новини