AI terbuka melatih jaringan saraf AI untuk memainkan Minecraft menggunakan pelatihan pra-video (VPT) pada sejumlah besar data video tanpa label dari Minecraft yang dimainkan manusia, sementara hanya menggunakan sejumlah kecil data kontraktor berlabel.

Dengan sedikit penyesuaian, perusahaan riset dan implementasi AI yakin bahwa modelnya dapat belajar membuat alat berlian, sebuah tugas yang biasanya membutuhkan waktu lebih dari 20 menit bagi manusia berpengalaman (24 langkah). Model ini menggunakan antarmuka manusia asli berupa penekanan tombol dan gerakan mouse, menjadikannya cukup umum dan merupakan langkah menuju pembuatan agen yang menggunakan komputer.

Juru bicara perusahaan yang didukung Microsoft mengatakan: “Internet berisi banyak video yang tersedia untuk umum yang dapat kita pelajari. Anda dapat menyaksikan seseorang membuat presentasi yang hebat, seniman digital melukis matahari terbenam yang indah, atau pemain Minecraft membangun rumah yang rumit. Namun, video ini hanya memberikan rekaman tentang apa yang terjadi, namun bukan deskripsi pasti tentang cara pencapaiannya, artinya Anda tidak akan mengetahui urutan pasti gerakan mouse dan penekanan tombol.

“Jika kita ingin membangun model dasar skala besar dalam domain ini, seperti yang telah kita lakukan dalam bahasa dengan GPT, maka kurangnya label tindakan menciptakan masalah baru yang tidak ada dalam domain bahasa, dimana “label tindakan” hanyalah sebuah masalah. kata berikutnya dalam sebuah kalimat.”

Untuk memanfaatkan banyaknya data video tanpa label yang tersedia di web, Open AI memperkenalkan metode pelatihan simulasi semi-diawasi yang baru namun sederhana: Pelatihan Pra-Video (VPT). Tim mulai dengan mengumpulkan kumpulan data kecil dari kontraktor, yang tidak hanya merekam video mereka, tetapi juga tindakan mereka, yang dalam hal ini adalah penekanan tombol dan gerakan mouse. Dengan data ini, perusahaan dapat melatih Inverse Dynamics Model (IDM) yang memprediksi tindakan yang dilakukan di setiap tahapan video. Penting untuk dicatat bahwa IDM dapat menggunakan informasi masa lalu dan masa depan untuk menebak tindakan di setiap langkah.

Juru bicara tersebut menambahkan: “Tugas ini jauh lebih sederhana dan membutuhkan lebih sedikit data dibandingkan tugas kloning perilaku, yang melibatkan prediksi tindakan hanya dari frame video masa lalu, yang memerlukan kesimpulan tentang apa yang ingin dilakukan seseorang dan bagaimana melakukannya. Kami kemudian dapat menggunakan IDM terlatih untuk memberi label pada kumpulan data video online yang jauh lebih besar dan belajar untuk menindaklanjutinya melalui kloning perilaku.”

Menurut Open AI, VPT membuka jalan bagi agen untuk mempelajari cara bertindak dengan menonton banyak video online.

Seorang juru bicara perusahaan mengatakan: “Dibandingkan dengan pemodelan video generatif atau metode kontrastif yang hanya menghasilkan penilaian representasional, VPT menawarkan peluang menarik untuk secara langsung mengajarkan penilaian perilaku berskala besar di lebih banyak domain daripada sekadar bahasa. Meskipun kami hanya melakukan eksperimen AI di Minecraft, game ini sangat terbuka dan antarmuka asli manusia (mouse dan keyboard) sangat umum, jadi kami yakin hasil kami dapat diterapkan dengan baik di domain serupa lainnya, seperti penggunaan komputer.”


Direkomendasikan: AI baru Gran Turismo 7 siap menghadapi pemain terbaik gim ini

Membagikan:

Berita lainnya