Otwarta sztuczna inteligencja wyszkoliła sieć neuronową sztucznej inteligencji do gry w Minecrafta, korzystając z treningu wstępnego wideo (VPT) na ogromnej liczbie nieoznakowanych danych wideo człowieka grającego w Minecrafta, przy użyciu tylko niewielkiej ilości oznaczonych danych wykonawców.

Przy odrobinie ulepszeń firma AI R&D jest przekonana, że ​​jej model może nauczyć się tworzyć narzędzia diamentowe, co zwykle zajmuje ponad 20 minut (24 000 działań) doświadczonym ludziom. Model wykorzystuje natywny ludzki interfejs naciśnięć klawiszy i ruchów myszy, dzięki czemu jest na tyle ogólny, że może stanowić krok w kierunku stworzenia agentów korzystających z komputerów.

Rzecznik firmy wspieranej przez Microsoft powiedział: „Internet zawiera ogromną ilość publicznych filmów wideo, z których możemy się uczyć. Możesz zobaczyć, jak osoba robi świetną prezentację, artysta cyfrowy maluje piękny zachód słońca, gracz Minecrafta buduje skomplikowany dom. Jednak te filmy zawierają tylko zapis tego, co się wydarzyło, a nie dokładny opis tego, jak to zostało osiągnięte, co oznacza, że ​​nie rozpoznasz dokładnej sekwencji ruchów myszy i naciśnięć klawiszy.

„Jeśli chcemy budować modele bazowe na dużą skalę w tych obszarach, tak jak zrobiliśmy to w języku z GPT, to brak etykiet akcji stwarza nowy problem, który nie istnieje w domenie językowej, gdzie „etykiety akcji” są po prostu kolejne słowa w zdaniu”.

Aby skorzystać z bogactwa nieoznakowanych danych wideo dostępnych w Internecie, Open AI wprowadza nową, ale prostą, częściowo nadzorowaną metodę szkolenia symulacyjnego: Pre-Video Training (VPT). Zespół zaczyna od zebrania małego zestawu danych od kontrahentów, w którym rejestruje nie tylko ich filmy, ale także ich działania, którymi w tym przypadku są naciśnięcia klawiszy i ruchy myszką. Dzięki tym danym firma może trenować model dynamiki odwrotnej (IDM), który przewiduje działania podejmowane na każdym etapie filmu. Należy zauważyć, że IDM może wykorzystywać informacje z przeszłości i przyszłości, aby odgadnąć akcję na każdym kroku.

Przedstawiciel dodał: „To zadanie jest znacznie prostsze i wymaga znacznie mniej danych niż zadanie klonowania zachowania, które polega na przewidywaniu działań tylko z poprzednich klatek wideo, co wymaga wnioskowania o tym, co dana osoba chce zrobić i jak to zrobić. Następnie możemy użyć przeszkolonego IDM do oznaczenia znacznie większego zestawu danych wideo online i nauczyć się, jak postępować z klonowaniem behawioralnym”.

Według Open AI, VPT toruje agentom drogę do nauczenia się, jak działać, oglądając ogromne ilości filmów online.

Rzecznik firmy powiedział: „W porównaniu z generatywnym modelowaniem wideo lub metodami kontrastowymi, które dają tylko reprezentatywne oceny, VPT oferuje ekscytującą możliwość bezpośredniego nauczania osądów behawioralnych na dużą skalę w większej liczbie obszarów niż tylko język. Chociaż w Minecrafcie przeprowadziliśmy tylko eksperymenty AI, gra jest bardzo otwarta, a natywny interfejs użytkownika (mysz i klawiatura) jest bardzo ogólny, więc uważamy, że nasze wyniki dobrze pasują do innych podobnych obszarów, takich jak korzystanie z komputera”.


Oferowane: Nowa sztuczna inteligencja Gran Turismo 7 jest gotowa do walki z najlepszymi graczami

Udostępnij:

Inne nowości