Open AI đã đào tạo một mạng lưới thần kinh AI để chơi Minecraft bằng cách sử dụng đào tạo trước video (VPT) trên một mảng lớn dữ liệu video chưa được gắn nhãn của một người đang chơi Minecraft, trong khi chỉ sử dụng một lượng nhỏ dữ liệu của nhà thầu được gắn nhãn.

Với một chút tinh chỉnh, công ty AI R&D tự tin mô hình của họ có thể học cách tạo ra các công cụ kim cương, một nhiệm vụ thường mất hơn 20 phút (24 thao tác) đối với những người có kinh nghiệm. Mô hình này sử dụng giao diện người bản địa của tổ hợp phím và chuyển động của chuột, làm cho nó đủ chung chung để trở thành một bước tiến tới việc tạo ra các tác nhân sử dụng máy tính.

Người phát ngôn của công ty do Microsoft hậu thuẫn cho biết: “Internet có một lượng lớn video công khai mà chúng ta có thể học hỏi. Bạn có thể xem một người thuyết trình tuyệt vời, một nghệ sĩ kỹ thuật số vẽ cảnh hoàng hôn tuyệt đẹp, một người chơi Minecraft xây dựng một ngôi nhà phức tạp. Tuy nhiên, những video này chỉ cung cấp bản ghi về những gì đã xảy ra chứ không mô tả chính xác cách đạt được điều đó, nghĩa là bạn sẽ không nhận ra trình tự chính xác của chuyển động chuột và tổ hợp phím.

“Nếu chúng tôi muốn xây dựng các mô hình nền tảng quy mô lớn trong những lĩnh vực này, như chúng tôi đã làm với ngôn ngữ với GPT, thì việc thiếu nhãn hành động sẽ tạo ra một vấn đề mới không tồn tại trong miền ngôn ngữ, nơi “nhãn hành động” chỉ là những từ tiếp theo trong một câu.”

Để tận dụng sự phong phú của dữ liệu video không được gắn nhãn có sẵn trên web, Open AI giới thiệu một phương pháp đào tạo mô phỏng bán giám sát mới nhưng đơn giản: Đào tạo trước video (VPT). Nhóm bắt đầu bằng cách thu thập một tập dữ liệu nhỏ từ các nhà thầu, nơi tập dữ liệu này không chỉ ghi lại video mà còn ghi lại hành động của họ, trong trường hợp này là thao tác nhấn phím và di chuyển chuột. Với dữ liệu này, một công ty có thể đào tạo Mô hình động lực nghịch đảo (IDM) dự đoán hành động được thực hiện ở từng giai đoạn của video. Điều quan trọng cần lưu ý là IDM có thể sử dụng thông tin trong quá khứ và tương lai để đoán hành động ở mỗi bước.

Người đại diện cho biết thêm: “Nhiệm vụ này đơn giản hơn nhiều và yêu cầu ít dữ liệu hơn nhiều so với nhiệm vụ sao chép hành vi, tức là dự đoán các hành động chỉ từ các khung hình trong quá khứ của video, yêu cầu suy luận về những gì người đó muốn làm và cách thực hiện. Sau đó, chúng tôi có thể sử dụng IDM đã được đào tạo để gắn nhãn cho tập dữ liệu video trực tuyến lớn hơn nhiều và tìm hiểu cách hành động với nhân bản hành vi.”

Theo Open AI, VPT đang mở đường cho các đại lý học cách hành động bằng cách xem một lượng lớn video trực tuyến.

Người phát ngôn của công ty cho biết: “So với các phương pháp tạo mô hình video hoặc phương pháp tương phản tổng quát chỉ đưa ra các phán đoán mang tính đại diện, VPT mang đến cơ hội thú vị để dạy trực tiếp các phán đoán hành vi quy mô lớn trong nhiều lĩnh vực hơn là chỉ ngôn ngữ. Mặc dù chúng tôi mới chỉ thực hiện các thử nghiệm AI trong Minecraft, nhưng trò chơi rất mở và giao diện con người bản địa (chuột và bàn phím) rất chung chung, vì vậy chúng tôi nghĩ rằng kết quả của chúng tôi rất phù hợp với các lĩnh vực tương tự khác, chẳng hạn như sử dụng máy tính."


Đê: AI mới của Gran Turismo 7 đã sẵn sàng đối đầu với những người chơi giỏi nhất của trò chơi

Đăng lại:

Tin tức khác