Ang Open AI ay nagsanay ng isang AI neural network upang maglaro ng Minecraft gamit ang pre-video training (VPT) sa isang malaking hanay ng walang label na data ng video ng isang tao na naglalaro ng Minecraft, habang gumagamit lamang ng isang maliit na halaga ng may label na data ng kontratista.

Sa kaunting pagsasaayos, ang kumpanya ng pagsasaliksik at pagpapatupad ng AI ay kumpiyansa na ang modelo nito ay matututong gumawa ng mga tool na diyamante, isang gawain na karaniwang tumatagal ng mga taong may karanasan nang higit sa 20 minuto (24 hakbang). Gumagamit ang modelo ng katutubong interface ng tao ng mga keystroke at paggalaw ng mouse, na ginagawa itong pangkalahatan at isang hakbang patungo sa paglikha ng mga ahente na gumagamit ng mga computer.

Ang isang tagapagsalita para sa Microsoft-backed firm ay nagsabi: "Ang Internet ay naglalaman ng isang kayamanan ng pampublikong magagamit na video kung saan maaari tayong matuto. Maaari mong panoorin ang isang tao na gumagawa ng isang mahusay na pagtatanghal, isang digital artist na nagpinta ng isang magandang paglubog ng araw, o isang Minecraft player na bumuo ng isang masalimuot na bahay. Gayunpaman, ang mga video na ito ay nagbibigay lamang ng isang recording ng kung ano ang nangyari, ngunit hindi isang eksaktong paglalarawan kung paano ito nakamit, ibig sabihin, hindi mo malalaman ang eksaktong pagkakasunud-sunod ng mga paggalaw ng mouse at mga keystroke.

"Kung gusto naming bumuo ng malakihang mga modelo ng pundasyon sa mga domain na ito, tulad ng ginawa namin sa wika gamit ang GPT, ang kakulangan ng mga label ng pagkilos ay lumilikha ng bagong problema na wala sa domain ng wika, kung saan ang "mga label ng pagkilos" ay simpleng ang mga susunod na salita sa isang pangungusap.”

Upang masulit ang yaman ng walang label na data ng video na available sa web, ipinakilala ng Open AI ang isang bago, ngunit simple, semi-supervised simulation na paraan ng pagsasanay: Pre-Video Training (VPT). Nagsisimula ang koponan sa pamamagitan ng pagkolekta ng isang maliit na dataset mula sa mga kontratista, kung saan itinatala nito hindi lamang ang kanilang mga video, kundi pati na rin ang kanilang mga aksyon, na sa kasong ito ay mga keystroke at paggalaw ng mouse. Gamit ang data na ito, maaaring sanayin ng isang kumpanya ang isang Inverse Dynamics Model (IDM) na hinuhulaan ang pagkilos na ginawa sa bawat yugto ng video. Mahalagang tandaan na ang IDM ay maaaring gumamit ng nakaraan at hinaharap na impormasyon upang hulaan ang aksyon sa bawat hakbang.

Idinagdag ng tagapagsalita: "Ang gawaing ito ay mas simple at nangangailangan ng mas kaunting data kaysa sa gawain sa pag-clone ng pag-uugali, na kinabibilangan ng paghula ng mga aksyon mula lamang sa mga nakaraang frame ng video, na nangangailangan ng paghihinuha kung ano ang gustong gawin ng isang tao at kung paano ito gagawin. Pagkatapos ay maaari naming gamitin ang sinanay na IDM upang lagyan ng label ang isang mas malaking online na dataset ng video at matutong kumilos dito sa pamamagitan ng pag-clone ng pag-uugali."

Ayon sa Open AI, ang VPT ay nagbibigay ng daan para sa mga ahente na matuto kung paano kumilos sa pamamagitan ng panonood ng napakaraming video online.

Sinabi ng isang tagapagsalita ng kumpanya: "Kung ikukumpara sa mga generative na video modeling o contrastive na pamamaraan na gumagawa lamang ng mga representasyonal na paghatol, ang VPT ay nag-aalok ng isang kapana-panabik na pagkakataon upang direktang ituro ang malakihang paghuhusga sa pag-uugali sa higit pang mga domain kaysa sa wika lamang. Bagama't nagsagawa lamang kami ng mga eksperimento sa AI sa Minecraft, ang laro ay napakabukas at ang katutubong interface ng tao (mouse at keyboard) ay napaka-generic, kaya naniniwala kami na ang aming mga resulta ay naisalin nang maayos sa iba pang katulad na mga domain, tulad ng paggamit ng computer."


Inirerekumenda: Ang bagong AI ng Gran Turismo 7 ay handang harapin ang pinakamahuhusay na manlalaro ng laro

Ibahagi:

Iba pang balita