Open AI는 소량의 레이블이 지정된 계약자 데이터만 사용하면서 인간이 Minecraft를 플레이하는 레이블이 지정되지 않은 방대한 비디오 데이터에 대한 VPT(사전 비디오 훈련)를 사용하여 Minecraft를 플레이하도록 AI 신경망을 훈련했습니다.

AI R&D 회사는 약간의 조정을 통해 모델이 다이아몬드 도구를 만드는 방법을 배울 수 있다고 확신합니다. 이 작업은 숙련된 사람의 경우 일반적으로 20분 이상(24개의 작업)이 걸립니다. 이 모델은 키 입력 및 마우스 움직임의 기본 휴먼 인터페이스를 사용하므로 컴퓨터를 사용하는 에이전트를 만드는 단계가 되기에 충분히 일반적입니다.

Microsoft 지원 회사의 대변인은 "인터넷에는 우리가 배울 수 있는 엄청난 양의 공개 비디오가 있습니다. 멋진 프레젠테이션을 하는 사람, 아름다운 일몰을 그리는 디지털 아티스트, 복잡한 집을 짓는 Minecraft 플레이어를 볼 수 있습니다. 그러나 이 비디오는 발생한 일에 대한 기록만 제공할 뿐 어떻게 달성되었는지에 대한 정확한 설명은 제공하지 않습니다. 즉, 마우스 움직임과 키 입력의 정확한 순서를 인식할 수 없습니다.

"우리가 GPT를 사용하여 언어에서 했던 것처럼 이러한 영역에서 대규모 기반 모델을 구축하려는 경우 작업 레이블이 없기 때문에 "작업 레이블"이 단지 언어 영역에 존재하지 않는 새로운 문제가 발생합니다. 문장의 다음 단어.”

웹에서 사용할 수 있는 레이블이 지정되지 않은 풍부한 비디오 데이터를 활용하기 위해 Open AI는 새롭고 단순한 준지도 시뮬레이션 교육 방법인 사전 비디오 교육(VPT)을 도입했습니다. 팀은 먼저 계약자로부터 작은 데이터 세트를 수집하여 비디오뿐만 아니라 키 입력 및 마우스 움직임과 같은 작업도 기록합니다. 이 데이터를 사용하여 회사는 비디오의 각 단계에서 수행되는 작업을 예측하는 IDM(Inverse Dynamics Model)을 교육할 수 있습니다. IDM은 과거 및 미래 정보를 사용하여 각 단계에서 작업을 추측할 수 있다는 점에 유의해야 합니다.

관계자는 “이 작업은 비디오의 과거 프레임에서만 동작을 예측하는 동작 복제 작업보다 훨씬 간단하고 데이터가 훨씬 적게 필요하며 사람이 원하는 것과 수행 방법에 대한 추론이 필요합니다. 그런 다음 훈련된 IDM을 사용하여 훨씬 더 큰 온라인 비디오 데이터 세트에 레이블을 지정하고 행동 복제로 작동하는 방법을 배울 수 있습니다.”

Open AI에 따르면 VPT는 에이전트가 온라인에서 방대한 양의 비디오를 시청하여 행동 방법을 배울 수 있는 길을 열어주고 있습니다.

회사 대변인은 “대표적 판단만 산출하는 생성적 비디오 모델링이나 대조 방법에 비해 VPT는 언어뿐만 아니라 더 많은 영역에서 대규모 행동 판단을 직접 가르칠 수 있는 흥미로운 기회를 제공한다. 우리는 Minecraft에서만 AI 실험을 수행했지만 게임은 매우 개방적이고 기본 휴먼 인터페이스(마우스 및 키보드)가 매우 일반적이기 때문에 우리의 결과가 컴퓨터 사용과 같은 다른 유사한 영역에 잘 적합하다고 생각합니다."


추천: Gran Turismo 7의 새로운 AI가 게임 최고의 플레이어를 상대할 준비가 되었습니다.

공유 :

기타 뉴스