뷰페이지

800만권의 책 빅데이터로 쏙

800만권의 책 빅데이터로 쏙

입력 2015-01-30 17:54
업데이트 2015-01-30 17:56
  • 글씨 크기 조절
  • 프린트
  • 공유하기
  • 댓글
    14
빅데이터 인문학:진격의 서막/에레즈 에이든·장바티스트 미셸 지음/김재중 옮김/사계절/ 384쪽/2만 2000원
이미지 확대


모름지기 다섯 수레만큼의 책을 읽으라고 했던가. 기원전 4세기 안팎에 쓰인 ‘장자’의 천하편에 나오는 말이다. 당시 책은 대나무를 쪼갠 죽간을 엮은 형태였다. 수레에 가득 실어 봤자 요즘 종이책 몇 십 권 분량이나 될까. 다섯 수레라 해봤자 100권 종이책만 못하다.

시인 두보(杜甫)가 다시 인용한 ‘남아수독오거서’(男兒須讀五書) 역시 당나라 시절이니 아무리 넉넉히 잡아도 1000~2000권 수준을 넘을 수 없다. 물론 한국인의 월평균 독서량이 0.8권, 연 10권임을 감안하면 이 역시 넘을 수 없는 수준임에는 분명하다.

하지만 현대 인류는 옛 현자들이 결코 따라올 수 없는 비기(秘技)를 갖고 있다. 바로 과학기술이다.

구텐베르크 이후 전 세계에서 발간된 책은 1억 3000만 권으로 추산된다. 세상의 모든 책을 디지털화하겠다는 야심 찬 포부를 밝힌 ‘구글 북스 라이브러리 프로젝트’는 인류에게 새 세상의 문을 노크하도록 권한다. 실제 빅데이터의 마술은 수백만 권의 책을 읽는 효과를, 그만큼의 책이 담고 있는 지혜를 접할 수 있도록 한다. 2004년에 시작한 이 프로젝트는 지금까지 3000만 권의 책을 디지털화했다.

재기발랄한 젊은 과학자인 저자들은 이 중 800만권을 추려냈고 ‘구글 엔그램 뷰어’(Google Ngram Viewer)를 만들었다. 이는 검색창에 단어를 입력하면 해당 단어가 지난 500년간 이들 책에서 사용된 빈도의 추이를 그래프로 보여 주는 프로그램이다. 이 프로그램을 놀이터 삼아 정치, 경제, 문화, 역사, 철학 등 여러 분야에 걸쳐 인류 지식문화사의 새로우면서도 심층적인 접근을 시도한다.

예컨대 지난 200년간 가장 많이 검색된 사람의 이름은 아돌프 히틀러, 카를 마르크스, 지그문트 프로이트, 로널드 레이건, 이오시프 스탈린 순이었다. 히틀러의 이름은 1950년부터 1위로 훌쩍 뛰어오른다. 또 19세기 말 니체의 유명한 명제 ‘신은 죽었다’를 빅데이터로 통렬하게 입증하고 있다. 19세기 초 1000단어당 1회 언급되던 ‘신’은 니체의 발화 즈음인 19세기 말에 이르러 절반 이하로 줄어듦을 알 수 있다.

책 말미에 부록처럼 붙어 있는 48개의 그래프는 800만 권의 책을 읽는 듯 지식의 근육을 강화시켜 주는 효과를 상징적으로 보여 준다.

박록삼 기자 youngtan@seoul.co.kr
2015-01-31 15면

많이 본 뉴스

국민연금 개혁 당신의 선택은?
국민연금 개혁 논의가 이어지고 있습니다. 국회 연금개혁특별위원회 산하 공론화위원회는 현재의 보험료율(9%), 소득대체율(40%)을 개선하는 2가지 안을 냈는데요. 당신의 생각은?
보험료율 13%, 소득대체율 50%로 각각 인상(소득보장안)
보험료율 12%로 인상, 소득대체율 40%로 유지(재정안정안)
광고삭제
위로