OpenAI 파이브

OpenAI Five

OpenAI Five는 Open컴퓨터 프로그램입니다.5대5 비디오 게임 도타2를 플레이하는 AI.2017년 첫 공식석상에 모습을 드러낸 뒤 프로선수 Dendi와의 1대1 라이브게임에서 시연됐다.이듬해에는 5인 1조로 경기를 치르는 수준까지 발전해 프로팀과의 대결과 격파 능력을 보이기 시작했다.

Dota 2처럼 복잡한 게임을 선택하여 기계 학습을 학습함으로써 OpenAI는 현실에서 볼 수 있는 예측 불가능성과 연속성을 보다 정확하게 포착할 수 있다고 생각하여 보다 일반적인 문제 해결 시스템을 구축하였다.Open에서 사용하는 알고리즘 및 코드AI Five는 결국 이 회사가 개발 중인 또 다른 신경망에 의해 차용되었는데, 이 신경망은 물리적 로봇 손을 제어하는 네트워크였다.OpenAI Five는 비디오 게임 StarCraft II알파스타, 보드 게임 Go의 알파고, 체스의 블루, 텔레비전 게임 쇼인 Jeopardy!의 왓슨과 같이 인간과 경쟁하고 패배한 다른 유사한 사례들과 비교되어 왔다.

역사

봇에 사용되는 알고리즘의 개발은 2016년 11월에 시작되었습니다.OpenAI는 라이브 스트리밍 플랫폼인 Twitch에서 Linux를 네이티브로 지원하며 애플리케이션 프로그래밍 인터페이스(API)[1]를 이용할 수 있는 인기 있는 도타2를 기반으로 5대5 비디오 게임으로 결정했다.5인 팀이 되기 전, 이 게임의 연례 프리미어 챔피언십 토너먼트인 The International 2017에서 첫 공개 데모가 발생했는데, 이 경기에서 우크라이나 프로 선수인 Dendi가 Open에 패했다.AI 봇이 1대 [2][3]1로 생방송을 하고 있습니다.경기 후 Greg Brockman CTO는 로봇이 2주간의 실시간 게임을 통해 학습했으며, 이 학습 소프트웨어는 "외과의사처럼"[4][5] 복잡한 작업을 처리할 수 있는 소프트웨어를 만드는 방향으로 나아가는 단계라고 설명했다.OpenAI는 강화 학습이라고 불리는 방법론을 사용했는데, 봇은 하루에 수백 번 몇 달 동안 자신을 상대로 게임을 하면서 시간이 지남에 따라 학습하며, 적을 죽이고 [6][7][8]탑을 파괴하는 등의 행동에 대해 보상을 받습니다.

2018년 6월까지, 봇의 능력은 5인 1조로 확장되었고 아마추어 [9][6][10][11]및 준프로 선수들로 구성된 팀을 물리칠 수 있었습니다.The International 2018에서 OpenAI Five는 브라질에 본사를 둔 paiN Gaming과 전 중국 [12][13]선수들로 구성된 올스타 팀과의 두 경기에 출전했다.봇이 두 번의 일치에서 모두 졌지만 Open(열기)AI는 도타2에서 가장 뛰어난 선수들과 경기를 하는 것이 향후 [14]게임을 위해 그들의 알고리즘을 분석하고 조정할 수 있게 해주었다고 말하면서 여전히 성공적인 모험이라고 여겼다.봇의 마지막 공개 시연은 2019년 4월에 이루어졌으며,[15] 샌프란시스코에서 열린 라이브 이벤트에서 The International 2018 Champions OG를 상대로 3전 3선승제로 승리했다.봇과 대결하는 4일간의 온라인 이벤트가 같은 [16]달에 열렸다.그곳에서, 봇들은 42,729개의 공개 게임에 참여했고, [17]그 중 4,075개를 제외한 모든 게임에서 승리했다.

아키텍처

각 오픈AI 파이브봇은 도타 개발자의 API에서 추출된 현재 게임 상태를 관찰하는 4096유닛 LSTM[18] 단일 레이어를 포함하는 뉴럴 네트워크다.뉴럴 네트워크는 수많은 가능한 행동 헤드(인간 데이터 없음)를 통해 동작을 수행하며, 모든 헤드는 의미를 가집니다.예를 들어, 작업을 지연시키는 틱 수, 선택할 작업(장치 주위의 그리드에서 이 작업의 X 또는 Y 좌표)입니다.또한 액션 헤드는 독립적으로 계산됩니다.AI 시스템은 세계를 2만 개의 숫자 목록으로 관찰하고 8개의 열거값 목록을 실행해 액션을 취한다.또한 모든 동작을 인코딩하고 세상을 관찰하는 방법을 이해하기 위해 다양한 [19]동작과 대상을 선택합니다.

OpenAI Five는, 「신속」인프라스트럭처의 범용 강화 학습 트레이닝 시스템으로 개발.Rapid는 두 개의 계층으로 구성됩니다. 수천 대의 머신을 회전시켜 서로 '대화'할 수 있도록 지원하고 두 번째 계층은 소프트웨어를 실행합니다.2018년까지 OpenAI Five는 정책 그라데이션 [19][21]방식인 Proximal Policy Optimization을 사용하여 256개의 GPU와 128,000개의 CPU [20]코어로 실행되는 강화 학습에서 약 180년간 게임을 플레이했습니다.

비교표
OpenAI 1v1 봇 (2017) OpenAI Five (2018)
CPU Microsoft Azure에서 60,000개의 CPU 코어 구글 클라우드 플랫폼(GCP)에서 128,000개의 CPU 코어 사용 가능
GPU 256대의 K80 GPU(Azure 탑재) GCP 상의 256대의 P100 GPU
축적된 경험 하루 최대 300년 하루 최대 180년
관찰 크기 최대 3.3kB 최대 36.8kB
게임 플레이의 초당 관측치 10 7.5
배치 크기 8,388,608개의 관측치 1,048,576개의 관측치
배치/분 ~20 ~60

다른 게임 AI 시스템과의 비교

오픈 전Watson과 Jeopardy!, Deep BlueChess, Go with AlphaGo와 [22][23][24]같은 AI Five와 다른 인공지능 대 인간 실험과 시스템은 이전에 성공적으로 사용되었습니다.AI 시스템을 사용하여 인간 플레이어를 상대하는 다른 게임과 비교했을 때, 도타2는 다음과 [19]같이 다릅니다.

장기 실행 보기:이 봇들은 평균 45분 동안 초당 30프레임으로 작동하는데, 이것은 한 게임당 80,000개의 틱을 발생시킨다.OpenAI Five는 4프레임마다 관찰하여 20,000개의 움직임을 생성합니다.이에 비해 체스는 보통 40수 전에 끝나는 반면 바둑은 150수 전에 끝난다.

부분적으로 관찰된 게임 상태:플레이어와 그 동맹은 그들 주변의 지도를 직접 볼 수 있을 뿐이다.나머지는 적의 부대와 그들의 움직임을 가리는 전쟁의 안개로 덮여 있다.따라서 도타2를 플레이하려면 이 불완전한 데이터를 바탕으로 추론을 하고 동시에 상대가 무엇을 할 수 있을지 예측해야 한다.이에 비해 체스와 바둑은 상대 [25]플레이어로부터 요소를 숨기지 않는 "완전 정보 게임"이다.

연속 작업 공간:영웅으로 알려진 도타2 게임에서 플레이 가능한 각 캐릭터는 다른 유닛이나 포지션을 대상으로 수십 가지 액션을 취할 수 있습니다.오픈AI 5 개발자는 영웅 1인당 17만 개의 가능한 행동을 할 수 있는 공간을 허용합니다.게임의 영구적인 측면을 고려하지 않고, 각 체크마다 평균 1,000개까지의 유효한 액션이 있습니다.이에 비해 체스의 평균 동작 수는 35, 바둑은 250이다.

연속 관측 공간:도타2는 10명의 영웅과 각 팀에 5명씩, 수십 개의 건물과 NPC 유닛이 있는 큰 지도에서 플레이된다.오픈AI 시스템은 개발자의 봇 API를 통해 게임 상태를 관찰하며, 인간이 모든 정보를 구성하는 2만 개의 숫자에 접근할 수 있다.체스판은 약 70개의 목록으로 표현되는 반면 바둑판은 약 400개의 목록이 있다.

접수처

OpenAI Five는 AI, 기술, 비디오 게임 커뮤니티 전반에서 인정을 받았습니다.마이크로소프트 창업자 빌 게이츠는 이를 "빅딜"이라고 불렀는데, 그들의 승리는 "팀워크와 [8][26]협력이 필요했기 때문이다.1997년 딥 블루 AI에 패한 체스 선수 게리 카스파로프는 "인터내셔널 2018에서 패배했음에도 불구하고, 로봇들은 결국 [27]"예상했던 것보다 더 빨리" 그곳에 도착할 것이라고 말했다.

MIT Technology Review와의 대화에서 AI 전문가들은 또한 오픈을 고려했다.AI 파이브 시스템은 도타2가 '극단적으로 복잡한 게임'이라고 지적한 만큼 비프로 선수를 이긴 것조차 [25]인상적이었다.PC게이머는 프로 선수들에 대한 그들의 승리는 기계 [28]학습에서 중요한 사건이었다고 썼다.이와는 대조적으로 마더보드는 컴퓨터 비전[29]사용하여 화면의 픽셀을 해석하는 것이 아니라 봇이 API에 직접 액세스할 수 있다는 사실뿐만 아니라 양측의 단순화된 영웅 풀 때문에 승리가 "기본적으로 부정행위"였다고 썼다.The Verge는 봇이 강화 학습에 대한 회사의 접근법과 AI에 대한 일반적인 철학이 "결정적"[16]이라는 증거라고 썼다.

2019년에 딥마인드는 스타크래프트 II용 비슷한 로봇인 알파스타를 공개했다.Like Open(열린 것처럼)AI 파이브, 알파스타는 강화 학습과 셀프 플레이를 활용했다. 버지는 "이런 종류의 AI 연구의 목표는 단지 그것이 가능하다는 것을 증명하기 위해 다양한 게임에서 인간을 분쇄하는 것이 아니다"라고 보도했다.대신에, 충분한 시간, 노력, 자원을 가지고 있으면, 보드 게임이든 현대의 비디오 게임이든, 거의 모든 경쟁적인 인지적 과제에서 정교한 AI 소프트웨어가 인간을 능가할 수 있다는 것을 증명하기 위해서입니다."DeepMind와 Open은AI의 승리는 또한 강화 [30]학습의 특정한 사용의 힘을 증명하는 것이기도 하다.

그것은 열려 있었다.인공지능은 이 기술이 디지털 영역 밖에서 응용될 수 있기를 희망하고 있다.2018년에는 Open의 동일한 강화 학습 알고리즘과 교육 코드를 재사용할 수 있었습니다.AI Five for Dactyl은 물리적인 [31]물체를 조작하기 위해 만들어진 신경망을 가진 인간과 같은 로봇 손입니다.2019년에 닥틸은 루빅스 [32]큐브를 풀었다.

레퍼런스

  1. ^ OpenAI. "OpenAI Five". openai.com/five. Archived from the original on 1 September 2018. Retrieved 10 October 2018.
  2. ^ Savov, Vlad. "My favorite game has been invaded by killer AI bots and Elon Musk hype". The Verge. Archived from the original on 26 June 2018. Retrieved 25 June 2018.
  3. ^ Frank, Blair Hanley. "OpenAI's bot beats top Dota 2 player so badly that he quits". Venture Beat. Archived from the original on 12 August 2017. Retrieved 12 August 2017.
  4. ^ OpenAI. "Dota 2". blog.openai.com. Archived from the original on 11 August 2017. Retrieved 12 August 2017.
  5. ^ OpenAI. "More on Dota 2". blog.openai.com. Archived from the original on 16 August 2017. Retrieved 16 August 2017.
  6. ^ a b Simonite, Tom (25 June 2018). "Can Bots Outwit Humans in One of the Biggest Esports Games?". Wired. Archived from the original on 25 June 2018. Retrieved 25 June 2018.
  7. ^ Kahn, Jeremy. "A Bot Backed by Elon Musk Has Made an AI Breakthrough in Video Game World". Bloomberg. Archived from the original on 27 June 2018. Retrieved 27 June 2018.
  8. ^ a b "Bill Gates says gamer bots from Elon Musk-backed nonprofit are 'huge milestone' in A.I." CNBC. 28 June 2018. Archived from the original on 28 June 2018. Retrieved 28 June 2018.
  9. ^ OpenAI. "OpenAI Five Benchmark". blog.openai.com. Archived from the original on 26 August 2018. Retrieved 25 August 2018.
  10. ^ Vincent, James. "AI bots trained for 180 years a day to beat humans at Dota 2". The Verge. Archived from the original on 25 June 2018. Retrieved 25 June 2018.
  11. ^ Savov, Vlad. "The OpenAI Dota 2 bots just defeated a team of former pros". The Verge. Archived from the original on 7 August 2018. Retrieved 7 August 2018.
  12. ^ Simonite, Tom. "Pro Gamers Fend off Elon Musk-Backed AI Bots—for Now". Wired. Archived from the original on 24 August 2018. Retrieved 25 August 2018.
  13. ^ Quach, Katyanna. "Game over, machines: Humans defeat OpenAI bots once again at video games Olympics". The Register. Archived from the original on 25 August 2018. Retrieved 25 August 2018.
  14. ^ OpenAI. "The International 2018: Results". blog.openai.com. Archived from the original on 24 August 2018. Retrieved 25 August 2018.
  15. ^ Wiggers, Kyle. "OpenAI Five defeats professional Dota 2 team, twice". Venture Beat. Archived from the original on 13 April 2019. Retrieved 13 April 2019.
  16. ^ a b Statt, Nick (13 April 2019). "OpenAI's Dota 2 AI steamrolls world champion e-sports team with back-to-back victories". The Verge. Vox Media. Archived from the original on 15 April 2019. Retrieved 15 April 2019.
  17. ^ Wiggers, Kyle. "OpenAI's Dota 2 bot defeated 99.4% of players in public matches". Venture Beat. Retrieved 22 April 2019.
  18. ^ "Understanding LSTM Networks". colah's blog. Archived from the original on 1 August 2017. Retrieved 27 August 2015.
  19. ^ a b c OpenAI (25 June 2018). "OpenAI Five". blog.openai.com. Archived from the original on 25 June 2018. Retrieved 25 June 2018.
  20. ^ "Why are AI researchers so obsessed with games?". QUARTZ. Archived from the original on 4 August 2018. Retrieved 4 August 2018.
  21. ^ Schulman, John; Wolski, Filip; Dhariwal, Prafulla; Radford, Alec; Klimov, Oleg (2017). "Proximal Policy Optimization Algorithms". arXiv:1707.06347 [cs.LG].
  22. ^ Gabbatt, Adam (17 February 2011). "IBM computer Watson wins Jeopardy clash". The Guardian. Archived from the original on 21 September 2013. Retrieved 17 February 2011.
  23. ^ "Chess grandmaster Garry Kasparov on what happens when machines 'reach the level that is impossible for humans to compete'". Business Insider. Archived from the original on 29 December 2017. Retrieved 29 December 2017.
  24. ^ "DeepMind's Go-playing AI doesn't need human help to beat us anymore". Verge. 18 October 2017. Archived from the original on 18 October 2017. Retrieved 18 October 2017.
  25. ^ a b Knight, Will (25 June 2018). "A team of AI algorithms just crushed humans in a complex computer game". MIT Tech Review. Retrieved 25 June 2018.
  26. ^ "Bill Gates hails 'huge milestone' for AI as bots work in a team to destroy humans at video game 'Dota 2'". Business Insider. Archived from the original on 27 June 2018. Retrieved 27 June 2018.
  27. ^ "Garry Kasparov's Twitter". 24 August 2018. Retrieved 24 August 2018.
  28. ^ Park, Morgan (11 August 2018). "How the OpenAI Five tore apart a team of Dota 2 pros". PC Gamer. Retrieved 25 May 2020.
  29. ^ Gault, Matthew (17 August 2018). "OpenAI Is Beating Humans at 'Dota 2' Because It's Basically Cheating". Vice. Retrieved 25 May 2020.
  30. ^ Statt, Nick (30 October 2019). "DeepMind's StarCraft 2 AI is now better than 99.8 percent of all human players". The Verge. Retrieved 25 May 2020.
  31. ^ OpenAI; Andrychowicz, Marcin; Baker, Bowen; Chociej, Maciek; Józefowicz, Rafał; McGrew, Bob; Pachocki, Jakub; Petron, Arthur; Plappert, Matthias; Powell, Glenn; Ray, Alex; Schneider, Jonas; Sidor, Szymon; Tobin, Josh; Welinder, Peter; Weng, Lilian; Zaremba, Wojciech (2019). "Learning Dexterous In-Hand Manipulation". arXiv:1808.00177v5 [cs.LG].
  32. ^ OpenAI; Akkaya, Ilge; Andrychowicz, Marcin; Chociej, Maciek; Litwin, Mateusz; McGrew, Bob; Petron, Arthur; Paino, Alex; Plappert, Matthias; Powell, Glenn; Ribas, Raphael (2019). "Solving Rubik's Cube with a Robot Hand". arXiv:1910.07113v1 [cs.LG].

외부 링크