Το Open AI εκπαίδευσε ένα νευρωνικό δίκτυο τεχνητής νοημοσύνης για να παίζει Minecraft χρησιμοποιώντας προ-βίντεο εκπαίδευση (VPT) σε μια τεράστια σειρά δεδομένων βίντεο χωρίς ετικέτα ενός ανθρώπου που παίζει Minecraft, ενώ χρησιμοποιεί μόνο μια μικρή ποσότητα δεδομένων εργολάβου με ετικέτα.

Με μια μικρή αλλαγή, η εταιρεία έρευνας και υλοποίησης AI είναι σίγουρη ότι το μοντέλο της μπορεί να μάθει να δημιουργεί εργαλεία διαμαντιών, μια εργασία που συνήθως απαιτεί στους έμπειρους ανθρώπους περισσότερα από 20 λεπτά (24 βήματα). Το μοντέλο χρησιμοποιεί μια εγγενή ανθρώπινη διεπαφή πληκτρολογήσεων και κινήσεων του ποντικιού, καθιστώντας το αρκετά γενικό και ένα βήμα προς τη δημιουργία πρακτόρων που χρησιμοποιούν υπολογιστές.

Ένας εκπρόσωπος της εταιρείας που υποστηρίζεται από τη Microsoft δήλωσε: «Το Διαδίκτυο περιέχει ένα πλήθος από δημόσια διαθέσιμα βίντεο από τα οποία μπορούμε να μάθουμε. Μπορείτε να παρακολουθήσετε ένα άτομο να κάνει μια υπέροχη παρουσίαση, έναν ψηφιακό καλλιτέχνη να ζωγραφίζει ένα όμορφο ηλιοβασίλεμα ή έναν παίκτη του Minecraft να χτίζει ένα περίπλοκο σπίτι. Ωστόσο, αυτά τα βίντεο παρέχουν μόνο μια καταγραφή του τι συνέβη, αλλά όχι μια ακριβή περιγραφή του τρόπου με τον οποίο επιτεύχθηκε, πράγμα που σημαίνει ότι δεν θα γνωρίζετε την ακριβή ακολουθία των κινήσεων του ποντικιού και των πλήκτρων.

«Εάν θέλουμε να δημιουργήσουμε μεγάλης κλίμακας βασικά μοντέλα σε αυτούς τους τομείς, όπως κάναμε στη γλώσσα με το GPT, τότε η έλλειψη ετικετών ενεργειών δημιουργεί ένα νέο πρόβλημα που δεν υπάρχει στον τομέα γλώσσας, όπου οι «ετικέτες δράσης» είναι απλώς οι επόμενες λέξεις σε μια πρόταση."

Προκειμένου να επωφεληθεί από τον πλούτο των δεδομένων βίντεο χωρίς ετικέτα που είναι διαθέσιμα στον Ιστό, το Open AI εισάγει μια νέα, αλλά απλή, ημι-εποπτευόμενη μέθοδο εκπαίδευσης προσομοίωσης: Προ-Βίντεο Εκπαίδευση (VPT). Η ομάδα ξεκινά συλλέγοντας ένα μικρό σύνολο δεδομένων από εργολάβους, όπου καταγράφει όχι μόνο τα βίντεό τους, αλλά και τις ενέργειές τους, που σε αυτή την περίπτωση είναι πληκτρολογήσεις και κινήσεις του ποντικιού. Με αυτά τα δεδομένα, μια εταιρεία μπορεί να εκπαιδεύσει ένα Αντίστροφο Δυναμικό Μοντέλο (IDM) που προβλέπει την ενέργεια που θα γίνει σε κάθε στάδιο του βίντεο. Είναι σημαντικό να σημειωθεί ότι το IDM μπορεί να χρησιμοποιήσει πληροφορίες του παρελθόντος και του μέλλοντος για να μαντέψει την ενέργεια σε κάθε βήμα.

Ο εκπρόσωπος πρόσθεσε: «Αυτή η εργασία είναι πολύ πιο απλή και απαιτεί πολύ λιγότερα δεδομένα από την εργασία κλωνοποίησης συμπεριφοράς, η οποία περιλαμβάνει την πρόβλεψη ενεργειών μόνο από προηγούμενα καρέ βίντεο, η οποία απαιτεί να συμπεράνουμε τι θέλει να κάνει ένα άτομο και πώς να το κάνει. Στη συνέχεια, μπορούμε να χρησιμοποιήσουμε το εκπαιδευμένο IDM για να επισημάνουμε ένα πολύ μεγαλύτερο διαδικτυακό σύνολο δεδομένων βίντεο και να μάθουμε να ενεργούμε σε αυτό μέσω της συμπεριφορικής κλωνοποίησης».

Σύμφωνα με το Open AI, το VPT ανοίγει το δρόμο για τους πράκτορες να μάθουν πώς να ενεργούν παρακολουθώντας τεράστιες ποσότητες βίντεο στο διαδίκτυο.

Εκπρόσωπος της εταιρείας δήλωσε: «Σε σύγκριση με τη μοντελοποίηση βίντεο παραγωγής ή τις μεθόδους αντίθεσης που παράγουν μόνο αναπαραστατικές κρίσεις, το VPT προσφέρει μια συναρπαστική ευκαιρία να διδάξετε απευθείας συμπεριφορικές κρίσεις μεγάλης κλίμακας σε περισσότερους τομείς εκτός από τη γλώσσα. Αν και πραγματοποιήσαμε μόνο πειράματα τεχνητής νοημοσύνης στο Minecraft, το παιχνίδι είναι πολύ ανοιχτό και η εγγενής ανθρώπινη διεπαφή (ποντίκι και πληκτρολόγιο) είναι πολύ γενική, επομένως πιστεύουμε ότι τα αποτελέσματά μας μεταφράζονται καλά σε άλλους παρόμοιους τομείς, όπως η χρήση υπολογιστή».


Συνιστάται: Το νέο AI του Gran Turismo 7 είναι έτοιμο να αντιμετωπίσει τους καλύτερους παίκτες του παιχνιδιού

Μερίδιο:

Άλλες ειδήσεις