스스로 바둑 깨우친 ‘알파고 제로’… 인간 초월한 AI 나왔다

입력 2017-10-18 23:16

수정 2017-10-19 10:14

글씨 크기 조절
글자크기 설정

닫기

글자크기 설정 시 다른 기사의 본문도 동일하게 적용 됩니다.
- 가
- 가
- 가
- 가
- 가
프린트
공유하기
공유

닫기
- 페이스북
- 네이버블로그
- 엑스
- 카카오톡
- 밴드
https://www.seoul.co.kr/news/economy/IT/2017/10/19/20171019008018
URL 복사
댓글
0

구글 딥마인드, 네이처에 개발 과정·성과 발표

지난해 3월 ‘인간대표’ 이세돌 9단을 누른 ‘로봇대표’ 알파고보다 더 강한 알파고가 나왔다. 바로 ‘알파고 제로’다. 알파고 제로는 백지 상태에서 시작해 바둑 독학 36시간 만에 이세돌을 꺾은 ‘경지’까지 올랐다. 심지어 인간이 아닌, 스스로 그 ‘지식’을 깨우쳤다. 인간 한계를 뛰어넘은 인공지능 개발이라는 평가가 나온다.

알파고 제로가 둘 수 있는 바둑의 수는 정확하지는 않지만 우주의 원자 수보다 많은 것으로 분석된다. 네이처 제공 — 알파고 제로가 둘 수 있는 바둑의 수는 정확하지는 않지만 우주의 원자 수보다 많은 것으로 분석된다.
네이처 제공

구글 딥마인드의 창업자인 데미스 허사비스 최고경영자(CEO) 등 이 회사 소속 연구원 17명은 19일(한국시간) 이런 내용을 포함한 ‘인간 지식 없이 바둑을 마스터하기’(Mastering the game of Go without human knowledge)라는 논문을 과학 학술지 ‘네이처’에 발표했다.

알파고 제로의 가장 큰 특징은 ‘셀프바둑’이다. 알파고 제로는 바둑 기본 규칙만 아는 상태로 인간의 가르침 없이 바둑의 이치를 터득했다.

지난해 3월 ‘구글 딥마인드 챌린지’에서 이세돌 9단을 4대1로 이긴 버전(‘알파고 리’)과 비교해 보면, 알파고 제로는 독학 36시간 만에 이 버전의 실력을 넘어섰다. 이어 알파고 제로가 72시간 독학을 한 후 구글 딥마인드 챌린지 실전 당시와 똑같은 대국 조건(제한시간 2시간씩)에서 알파고 리와 대결한 결과, 제로가 리에게 100전 100승 무패를 따냈다. 알파고 제로가 한 수에 0.4초가 걸리는 ‘초속기’ 바둑으로 490만 판을 혼자 두면서 연구한 결과다.

교신저자인 데미스 허사비스와 공동 제1저자 3명 중 한 명인 데이비드 실버는 독학으로 바둑을 배운 알파고 제로가 기존 버전들보다 오히려 강한 이유에 대해 “인간 지식의 한계에 더이상 속박되지 않기 때문”이라고 설명했다.

알파고 제로를 개발한 구글 딥마인드의 데이비드 실버. 네이처 제공 — 알파고 제로를 개발한 구글 딥마인드의 데이비드 실버.
네이처 제공

기존 알파고 버전들은 일부 정석 등을 인간으로부터 배웠고 인간이 둔 기보도 공부했지만, 알파고 제로는 인간으로부터 전혀 배운 것이 없기 때문에 인간의 선입견과 한계에 얽매이지 않는다는 것이다.

알파고 제로가 단순히 바둑을 더 잘 두는 프로그램을 넘어 과학계와 산업계의 비상한 관심을 끄는 것은 이 때문이다.

인공지능이 인간의 도움 없이 인간을 까마득하게 초월할 수 있는 잠재력을 현실화했다는 점에서 획기적이라는 평가를 받는 것이다. 지금까지 인공지능 시스템은 인간이 인공지능의 훈련을 감독하는 시스템이었다. 결국 인간 한계를 뛰어넘지 못할 수도 있었다는 뜻이다.

이런 한계를 극복하기 위해 최근에는 ‘강화 학습’(reinforcement learning system)에 대한 연구가 이뤄지고 있다. 인간으로부터 배우지 않고 인공지능이 스스로 수많은 시행착오를 통해 요령을 터득하도록 하는 방법이다.

특히 믿을 만한 인간 전문가가 아예 존재하지 않는 전혀 새로운 분야를 이런 방식으로 연구하는 데에 관심이 쏠린다. 허사비스는 “강화학습 방식으로 만들어진 알파고 제로는 지금까지 나온 알파고 버전들 중 가장 강력하며 컴퓨팅 파워도 덜 든다”며 “불과 2년 만에 알파고가 얼마나 멀리 왔는지를 보면 놀라울 따름”이라고 밝혔다.

이경주 기자 kdlrudwn@seoul.co.kr

2017-10-19 8면