Компанія Open AI навчила нейронну мережу ІІ гри в Minecraft за допомогою попереднього відеонавчання (VPT) на величезному масиві немаркованих відео про людську гру в Minecraft, використовуючи при цьому лише невелику кількість маркованих даних про підрядників.

Після невеликого доопрацювання компанія, що займається дослідженнями та впровадженням ІІ, впевнена, що її модель може навчитися створювати алмазні інструменти – завдання, яке зазвичай займає у досвідчених людей понад 20 хвилин (24 000 дій). Модель використовує рідний людський інтерфейс, що складається з натискання клавіш і руху миші, що робить її досить спільною і є кроком до створення агентів, які використовують комп'ютери.

Представник фірми, яка підтримується Microsoft, сказав: «Інтернет містить величезну кількість загальнодоступного відео, на якому ми можемо навчатися. Ви можете подивитися, як людина робить чудову презентацію, як цифровий художник малює гарний захід сонця, як гравець у Minecraft будує хитромудрий будинок. Однак ці відеоролики дають лише запис того, що сталося, але не точний опис того, як це було досягнуто, тобто ви не дізнаєтесь точну послідовність рухів миші та натискання клавіш.

«Якщо ми хочемо побудувати великомасштабні моделі фундаменту в цих галузях, як ми це зробили в мові за допомогою GPT, то відсутність міток дій створює нову проблему, якої немає в мовній галузі, де «мітки дій» – це просто наступні слова у реченні».

Для того, щоб використовувати багатство немаркованих відео, доступних в інтернеті, Open AI представляє новий, але простий, напівсупервізований метод навчання імітації: Попереднє відеонавчання (VPT). Команда починає зі збору невеликого набору даних від підрядників, де вона записує не тільки їх відео, а й їхні дії, які в даному випадку є натисканням клавіш та рухами миші. За допомогою цих даних компанія може навчити модель зворотної динаміки (IDM), яка передбачає дію, що виконується на кожному етапі відео. Важливо зазначити, що IDM може використовувати минулу та майбутню інформацію, щоб вгадати дію на кожному кроці.

Представник додав: «Це завдання набагато простіше і вимагає набагато менше даних, ніж завдання клонування поведінки, яке полягає у передбаченні дій лише за минулими кадрами відео, що вимагає висновку про те, що людина хоче зробити і як це зробити. Потім ми можемо використовувати навчений IDM для маркування набагато більшого набору даних онлайн-відео та навчитися діяти за допомогою поведінкового клонування».

За словами представників Open AI, VPT прокладає шлях до того, щоб агенти могли вчитися діяти, переглядаючи безліч відео в Інтернеті.

Представник компанії сказав: «Порівняно з генеративним моделюванням відео або контрастними методами, які дають лише репрезентативні судження, VPT пропонує захоплюючу можливість прямого навчання великомасштабним поведінковим міркуванням у більшій кількості областей, ніж мова. Хоча ми проводили експерименти ІІ тільки в Minecraft, гра є дуже відкритою, а рідний людський інтерфейс (миша та клавіатура) дуже загальний, тому ми вважаємо, що наші результати добре підходять для інших подібних областей, наприклад, для використання комп'ютера».


Рекомендуємо: Новий ІІ Gran Turismo 7, готовий перемогти найкращих гравців гри

Поділитися:

Інші новини