قامت Open AI بتدريب شبكة عصبية AI للعب Minecraft باستخدام تدريب ما قبل الفيديو (VPT) على مجموعة كبيرة من بيانات الفيديو غير المسماة لشخص يلعب Minecraft ، مع استخدام كمية صغيرة فقط من بيانات المقاول المصنفة.

مع القليل من التغيير والتبديل ، فإن شركة AI R&D واثقة من أن نموذجها يمكن أن يتعلم إنشاء أدوات الماس ، وهي مهمة تستغرق عادةً أكثر من 20 دقيقة (24 إجراء) للأشخاص ذوي الخبرة. يستخدم النموذج واجهة بشرية أصلية من ضغطات المفاتيح وحركات الماوس ، مما يجعلها عامة بما يكفي لتكون خطوة نحو إنشاء عوامل تستخدم أجهزة الكمبيوتر.

قال متحدث باسم الشركة المدعومة من Microsoft: "الإنترنت يحتوي على كمية هائلة من مقاطع الفيديو العامة التي يمكننا التعلم منها. يمكنك مشاهدة شخص يقدم عرضًا تقديميًا رائعًا ، فنان رقمي يرسم غروبًا جميلًا ، لاعب Minecraft يبني منزلًا معقدًا. ومع ذلك ، توفر مقاطع الفيديو هذه فقط سجلًا لما حدث ، وليس وصفًا دقيقًا لكيفية تحقيقه ، مما يعني أنك لن تتعرف على التسلسل الدقيق لحركات الماوس وضربات المفاتيح.

"إذا أردنا بناء نماذج أساس واسعة النطاق في هذه المجالات ، كما فعلنا في اللغة باستخدام GPT ، فإن الافتقار إلى تسميات الإجراءات يخلق مشكلة جديدة غير موجودة في مجال اللغة ، حيث تكون" تسميات الإجراءات "مجرد الكلمات التالية في جملة ".

من أجل الاستفادة من ثروة بيانات الفيديو غير المسماة المتوفرة على الويب ، تقدم Open AI طريقة تدريب محاكاة جديدة ، ولكنها بسيطة ، شبه خاضعة للإشراف: تدريب ما قبل الفيديو (VPT). يبدأ الفريق بجمع مجموعة بيانات صغيرة من المقاولين ، حيث يسجل ليس فقط مقاطع الفيديو الخاصة بهم ، ولكن أيضًا إجراءاتهم ، والتي تكون في هذه الحالة ضغطات المفاتيح وحركات الماوس. باستخدام هذه البيانات ، يمكن للشركة تدريب نموذج ديناميكي معكوس (IDM) يتنبأ بالإجراء المتخذ في كل مرحلة من مراحل الفيديو. من المهم ملاحظة أن IDM يمكنه استخدام المعلومات السابقة والمستقبلية لتخمين الإجراء في كل خطوة.

وأضاف الممثل: "هذه المهمة أبسط بكثير وتتطلب بيانات أقل بكثير من مهمة استنساخ السلوك ، وهي التنبؤ بالإجراءات فقط من الإطارات السابقة للفيديو ، الأمر الذي يتطلب استنتاجًا عما يريد الشخص القيام به وكيفية القيام به. يمكننا بعد ذلك استخدام برنامج IDM المُدرَّب لتسمية مجموعة بيانات فيديو أكبر بكثير عبر الإنترنت وتعلم كيفية التعامل مع الاستنساخ السلوكي ".

وفقًا لـ Open AI ، يمهد VPT الطريق للوكلاء لتعلم كيفية التصرف من خلال مشاهدة كميات هائلة من مقاطع الفيديو عبر الإنترنت.

قال متحدث باسم الشركة: "مقارنةً بنمذجة الفيديو التوليدية أو طرق التباين التي تنتج أحكامًا تمثيلية فقط ، يوفر VPT فرصة مثيرة لتعليم الأحكام السلوكية واسعة النطاق بشكل مباشر في مجالات أكثر من مجرد اللغة. على الرغم من أننا أجرينا تجارب الذكاء الاصطناعي في Minecraft فقط ، إلا أن اللعبة مفتوحة جدًا والواجهة البشرية الأصلية (الماوس ولوحة المفاتيح) عامة جدًا ، لذلك نعتقد أن نتائجنا مناسبة تمامًا لمجالات أخرى مماثلة ، مثل استخدام الكمبيوتر ".


موصى به: الذكاء الاصطناعي الجديد في Gran Turismo 7 جاهز لمواجهة أفضل لاعبي اللعبة

حصة:

أخبار أخرى