Open AI ฝึกฝนโครงข่ายประสาทเทียม AI เพื่อเล่น Minecraft โดยใช้การฝึกอบรมก่อนวิดีโอ (VPT) กับข้อมูลวิดีโอจำนวนมากที่ไม่มีป้ายกำกับของมนุษย์ที่กำลังเล่น Minecraft ในขณะที่ใช้ข้อมูลผู้รับเหมาที่มีป้ายกำกับเพียงเล็กน้อยเท่านั้น

ด้วยการปรับแต่งเล็กน้อย บริษัทวิจัยและใช้งาน AI มั่นใจว่าโมเดลของตนสามารถเรียนรู้การสร้างเครื่องมือเพชร ซึ่งเป็นงานที่โดยทั่วไปแล้วมนุษย์ที่มีประสบการณ์จะใช้เวลามากกว่า 20 นาที (24 ก้าว) โมเดลนี้ใช้อินเทอร์เฟซของมนุษย์ในการกดแป้นพิมพ์และการเคลื่อนไหวของเมาส์ ทำให้เป็นเรื่องทั่วไปและเป็นขั้นตอนในการสร้างตัวแทนที่ใช้คอมพิวเตอร์

โฆษกของบริษัทที่ได้รับการสนับสนุนจากไมโครซอฟต์กล่าวว่า "อินเทอร์เน็ตมีวิดีโอสาธารณะมากมายที่เราสามารถเรียนรู้ได้ คุณสามารถดูคนนำเสนอผลงานได้อย่างยอดเยี่ยม ศิลปินดิจิทัลวาดภาพพระอาทิตย์ตกที่สวยงาม หรือผู้เล่น Minecraft สร้างบ้านที่ซับซ้อน อย่างไรก็ตาม วิดีโอเหล่านี้เป็นเพียงการบันทึกสิ่งที่เกิดขึ้น แต่ไม่ใช่คำอธิบายที่แน่ชัดว่าเกิดขึ้นได้อย่างไร ซึ่งหมายความว่าคุณจะไม่ทราบลำดับการเคลื่อนไหวของเมาส์และการกดแป้นพิมพ์ที่แน่นอน

“หากเราต้องการสร้างโมเดลพื้นฐานขนาดใหญ่ในโดเมนเหล่านี้ ตามที่เราทำในภาษาที่มี GPT การไม่มีป้ายกำกับการดำเนินการจะสร้างปัญหาใหม่ที่ไม่มีอยู่ในโดเมนภาษา โดยที่ “ป้ายกำกับการดำเนินการ” เป็นเพียง คำถัดไปในประโยค”

เพื่อใช้ประโยชน์จากข้อมูลวิดีโอที่ไม่มีป้ายกำกับที่มีอยู่มากมายบนเว็บ Open AI ขอแนะนำวิธีการฝึกอบรมการจำลองกึ่งควบคุมแบบใหม่ที่เรียบง่ายแต่มีการควบคุมดูแล: การฝึกอบรมก่อนวิดีโอ (VPT) ทีมงานเริ่มต้นด้วยการรวบรวมชุดข้อมูลขนาดเล็กจากผู้รับเหมา ซึ่งไม่ได้บันทึกเฉพาะวิดีโอเท่านั้น แต่ยังรวมถึงการกระทำของพวกเขาด้วย ซึ่งในกรณีนี้คือการกดแป้นพิมพ์และการเคลื่อนไหวของเมาส์ ด้วยข้อมูลนี้ บริษัทสามารถฝึกอบรม Inverse Dynamics Model (IDM) ที่คาดการณ์การดำเนินการที่เกิดขึ้นในแต่ละขั้นตอนของวิดีโอ สิ่งสำคัญคือต้องทราบว่า IDM สามารถใช้ข้อมูลในอดีตและอนาคตเพื่อคาดเดาการดำเนินการในแต่ละขั้นตอน

โฆษกกล่าวเสริมว่า “งานนี้ง่ายกว่ามากและต้องการข้อมูลน้อยกว่างานโคลนนิ่งพฤติกรรม ซึ่งเกี่ยวข้องกับการคาดเดาการกระทำจากเฟรมวิดีโอที่ผ่านมาเท่านั้น ซึ่งต้องมีการอนุมานว่าบุคคลต้องการทำอะไรและทำอย่างไร จากนั้นเราสามารถใช้ IDM ที่ได้รับการฝึกอบรมเพื่อติดป้ายกำกับชุดข้อมูลวิดีโอออนไลน์ที่มีขนาดใหญ่กว่ามากและเรียนรู้ที่จะดำเนินการกับชุดข้อมูลดังกล่าวผ่านการโคลนตามพฤติกรรม”

จากข้อมูลของ Open AI นั้น VPT กำลังปูทางให้ตัวแทนเรียนรู้วิธีดำเนินการด้วยการดูวิดีโอออนไลน์จำนวนมหาศาล

โฆษกของบริษัทกล่าวว่า: “เมื่อเปรียบเทียบกับการสร้างแบบจำลองวิดีโอเชิงสร้างสรรค์หรือวิธีการเปรียบเทียบที่สร้างเพียงการตัดสินแบบเป็นตัวแทน VPT มอบโอกาสที่น่าตื่นเต้นในการสอนการตัดสินเชิงพฤติกรรมขนาดใหญ่ในขอบเขตต่างๆ มากกว่าแค่ภาษาโดยตรง แม้ว่าเราจะทำการทดลอง AI ใน Minecraft เท่านั้น แต่เกมดังกล่าวเปิดกว้างมากและอินเทอร์เฟซของมนุษย์ (เมาส์และคีย์บอร์ด) นั้นกว้างมาก ดังนั้นเราจึงเชื่อว่าผลลัพธ์ของเราแปลได้ดีกับโดเมนอื่นที่คล้ายคลึงกัน เช่น การใช้คอมพิวเตอร์”


แนะนำ: AI ใหม่ของ Gran Turismo 7 พร้อมแล้วที่จะต่อสู้กับผู้เล่นที่ดีที่สุดของเกม

แบ่งปัน:

ข่าวอื่นๆ