Компания Open AI обучила нейронную сеть ИИ игре в Minecraft с помощью предварительного видеообучения (VPT) на огромном массиве немаркированных видеоданных о человеческой игре в Minecraft, используя при этом лишь небольшое количество маркированных данных о подрядчиках.

После небольшой доработки компания, занимающаяся исследованиями и внедрением ИИ, уверена, что ее модель может научиться создавать алмазные инструменты — задача, которая обычно занимает у опытных людей более 20 минут (24 000 действий). Модель использует родной человеческий интерфейс, состоящий из нажатия клавиш и движения мыши, что делает ее достаточно общей и представляет собой шаг к созданию агентов, использующих компьютеры.

Представитель фирмы, поддерживаемой Microsoft, сказал: «Интернет содержит огромное количество общедоступного видео, на котором мы можем учиться. Вы можете посмотреть, как человек делает великолепную презентацию, как цифровой художник рисует красивый закат, как игрок в Minecraft строит замысловатый дом. Однако эти видеоролики дают лишь запись того, что произошло, но не точное описание того, как это было достигнуто, то есть вы не узнаете точную последовательность движений мыши и нажатия клавиш.

«Если мы хотим построить крупномасштабные модели фундамента в этих областях, как мы это сделали в языке с помощью GPT, то отсутствие меток действий создает новую проблему, которой нет в языковой области, где «метки действий» — это просто следующие слова в предложении».

Для того, чтобы использовать богатство немаркированных видеоданных, доступных в интернете, Open AI представляет новый, но простой, полусупервизированный метод обучения имитации: Предварительное видеообучение (VPT). Команда начинает со сбора небольшого набора данных от подрядчиков, где она записывает не только их видео, но и их действия, которые в данном случае являются нажатиями клавиш и движениями мыши. С помощью этих данных компания может обучить модель обратной динамики (IDM), которая предсказывает действие, выполняемое на каждом этапе видео. Важно отметить, что IDM может использовать прошлую и будущую информацию, чтобы угадать действие на каждом шаге.

Представитель добавил: «Эта задача намного проще и требует гораздо меньше данных, чем задача клонирования поведения, которая заключается в предсказании действий только по прошлым кадрам видео, что требует вывода о том, что человек хочет сделать и как это сделать. Затем мы можем использовать обученный IDM для маркировки гораздо большего набора данных онлайн-видео и научиться действовать с помощью поведенческого клонирования».

По словам представителей Open AI, VPT прокладывает путь к тому, чтобы агенты могли учиться действовать, просматривая огромное количество видео в Интернете.

Представитель компании сказал: «По сравнению с генеративным моделированием видео или контрастными методами, которые дают только репрезентативные суждения, VPT предлагает захватывающую возможность прямого обучения крупномасштабным поведенческим суждениям в большем количестве областей, чем просто язык. Хотя мы проводили эксперименты ИИ только в Minecraft, игра является очень открытой, а родной человеческий интерфейс (мышь и клавиатура) очень общий, поэтому мы считаем, что наши результаты хорошо подходят для других подобных областей, например, для использования компьютера».


Рекомендуем: Новый ИИ Gran Turismo 7, готов победить лучших игроков игры

Акции:

Другие новости