인간 기보없이 독학한 알파고 제로, 최고수 등장

 

인간의 기보를 전혀 학습하지 않은

알파고 새 버전 알파고 제로(AlphaGo Zero)’가 베일을 벗고 세상을 놀라게 하고 있습니다.

 

 

 

 

지금까지의 알파고는 인공신경망 속에서 지도학습(supervised learning)이라는 인간기보 학습을 거쳤지만

알파고 제로는 이 과정을 거치지 않았고,

오직 스스로 대국하면서 강화학습(reinforcement learning)으로만 실력을 키웠답니다.

바둑의 기본 규칙을 제외하고는, 알파고 제로의 학습에 인간의 개입이 없었다는 것입니다.

 

 

 

 

이렇게 독학한알파고 제로는 지금까지 가장 강하다고 알려져 왔던 알파고 마스터(AlphaGo Master)’버전을

압도적으로 이기는 것으로 나타나 충격을 주었답니다.

 

 

 

 

알파고 제로는 각각 같은 연산력(TPU 4대를 갖춘 싱글머신)에 제한시간 2시간의 조건으로

알파고 마스터와 100판을 겨뤄 8911패 했으며, 90%의 승률이랍니다.

알파고 마스터는 올 초 인간 고수들을 상대로 60전 전승을 거둔 뒤

5월 세계 최강 커제 9단을 3-0으로 제압했던 버전인데

알파고 제로 앞에서는 상대도 안 되는 셈이랍니다.

또한 알파고 제로는 이세돌 9단과 겨뤘던 알파고 버전에는 100100승을 기록했다고 합니다.

 

이 놀라운 소식은 알파고 제로 알고리즘과 테스트 결과 등을 담은 논문

인간 지식 없이 바둑을 마스터하다(Mastering the game of Go without human knowledge)’

19(한국시각) 과학학술지 네이처(Nature)에 게재됐답니다.

데미스 하사비스 딥마인드 창업자 겸 최고경영자를 포함한

알파고 제작사 구글 딥마인드 연구원 17명이 공동저자로 되어 있답니다.

 

 

인간의 기보를 안 거쳤더니 왜 더 강해졌을까?

'알파고 제로'는 Elo레이팅 5,185점을 기록하고 있으며,.

 '알파고 마스터' 4,858, '알파고 리' 3,739, '알파고 판'(판후이) 3,144점 순이랍니다.

 

알파고 제로가 인간의 기보로 학습한 기존 알파고를 압도하는 이유를 놓고 연구진은

사람이 그간 쌓아온 바둑에 대한 접근법과는 질적으로 다른 전략을 알파고 제로가 깨친 것으로 보인다.”고 추측했습니다.

 

국가대표팀 알파고 제로의 기보, 해석 어려워

 

알파고 제로의 기보를 접한 바둑 국가대표상비군들은,

  인간의 기보를 전혀 보지 않고 훈련했는데도 인간의 바둑처럼 틀이 잡히는 변천 과정이 신기하다.”

  신선하다. 하지만 이전 알파고 마스터 버전의 셀프대국 55국이 워낙 파격적이었기에 충격파는 그렇게까지 크지 않다.”

  알파고 마스터의 바둑과 비교해 보면 오히려 알파고 제로가 더 인간과 비슷해 보이기도 한다.” 등의 반응을 보였답니다.

 

한편 우리가 알파고 제로가 얼마나 강한지 평가하는 것은

마치 18급이 정상급 프로기사들을 비교하는 것이나 마찬가지.”라며

알파고 제로의 사고방식이 도움을 주는 부분도 어느 정도 있지만

대부분은 해석조차 쉽지 않다.”는 목소리도 나왔다고 합니다.

 

+ Recent posts

티스토리 친구하기