Open AI trainierte ein neuronales KI-Netzwerk, um Minecraft zu spielen, indem es Pre-Video-Training (VPT) auf einer riesigen Reihe von nicht gekennzeichneten Videodaten eines Menschen, der Minecraft spielt, verwendet, während nur eine kleine Menge gekennzeichneter Auftragnehmerdaten verwendet wird.

Mit ein wenig Optimierung ist das KI-F&E-Unternehmen zuversichtlich, dass sein Modell lernen kann, Diamantwerkzeuge herzustellen, eine Aufgabe, die für erfahrene Personen normalerweise mehr als 20 Minuten (24 Aktionen) dauert. Das Modell verwendet eine native menschliche Schnittstelle für Tastenanschläge und Mausbewegungen, wodurch es allgemein genug ist, um einen Schritt in Richtung der Entwicklung von Agenten zu sein, die Computer verwenden.

Ein Sprecher der von Microsoft unterstützten Firma sagte: „Das Internet hat eine riesige Menge öffentlicher Videos, von denen wir lernen können. Sie können zusehen, wie eine Person eine großartige Präsentation macht, ein digitaler Künstler einen wunderschönen Sonnenuntergang malt, ein Minecraft-Spieler ein kompliziertes Haus baut. Diese Videos bieten jedoch nur eine Aufzeichnung dessen, was passiert ist, keine genaue Beschreibung dessen, wie es erreicht wurde, was bedeutet, dass Sie die genaue Abfolge von Mausbewegungen und Tastenanschlägen nicht erkennen werden.

„Wenn wir in diesen Bereichen groß angelegte Grundlagenmodelle aufbauen wollen, wie wir es in der Sprache mit GPT getan haben, dann schafft das Fehlen von Aktionsbezeichnungen ein neues Problem, das im Sprachbereich nicht existiert, wo „Aktionsbezeichnungen“ nur sind die nächsten Wörter in einem Satz.“

Um die Fülle an unbeschrifteten Videodaten zu nutzen, die im Internet verfügbar sind, führt Open AI eine neue, aber einfache, teilweise überwachte Simulationstrainingsmethode ein: Pre-Video Training (VPT). Das Team sammelt zunächst einen kleinen Datensatz von Auftragnehmern, in dem nicht nur deren Videos aufgezeichnet werden, sondern auch ihre Aktionen, in diesem Fall Tastenanschläge und Mausbewegungen. Mit diesen Daten kann ein Unternehmen ein Inverse Dynamics Model (IDM) trainieren, das die in jeder Phase des Videos durchgeführte Aktion vorhersagt. Es ist wichtig zu beachten, dass IDM vergangene und zukünftige Informationen verwenden kann, um die Aktion bei jedem Schritt zu erraten.

Der Vertreter fügte hinzu: „Diese Aufgabe ist viel einfacher und erfordert viel weniger Daten als die Aufgabe zum Klonen von Verhaltensweisen, bei der Aktionen nur aus früheren Frames eines Videos vorhergesagt werden, was Rückschlüsse darauf erfordert, was die Person tun möchte und wie sie es tun soll. Wir können dann das trainierte IDM verwenden, um einen viel größeren Online-Videodatensatz zu kennzeichnen und lernen, wie man mit Verhaltensklonen umgeht.“

Laut Open AI ebnet das VPT Agenten den Weg, um zu lernen, wie man sich zu verhalten hat, indem sie sich riesige Mengen von Videos online ansehen.

Ein Sprecher des Unternehmens sagte: „Im Vergleich zu generativer Videomodellierung oder Kontrastmethoden, die nur repräsentative Urteile produzieren, bietet VPT eine spannende Möglichkeit, umfassende Verhaltensbeurteilungen in mehr Bereichen als nur der Sprache direkt zu lehren. Obwohl wir nur KI-Experimente in Minecraft durchgeführt haben, ist das Spiel sehr offen und die native menschliche Schnittstelle (Maus und Tastatur) ist sehr generisch, daher denken wir, dass unsere Ergebnisse gut für andere ähnliche Bereiche wie die Computernutzung geeignet sind."


Empfohlen: Die neue KI von Gran Turismo 7 ist bereit, es mit den besten Spielern des Spiels aufzunehmen

Teilen:

Weitere Nachrichten