[말빛 발견] 말뭉치/이경우 어문팀장

[말빛 발견] 말뭉치/이경우 어문팀장

이경우 기자
입력 2017-11-15 23:34
업데이트 2017-11-30 15:51
  • 글씨 크기 조절
  • 프린트
  • 공유하기
  • 댓글
    14
이미지 확대
이경우 어문팀장
이경우 어문팀장
‘말뭉치’는 ‘말’과 ‘뭉치’로 이루어진 단어다. ‘말’도 ‘뭉치’도 낯설지 않아 ‘말뭉치’도 친근하게 다가온다. 말이 뭉쳐 있거나 모여 있는 상태이겠거니 짐작하게 된다.

‘말뭉치’는 본래 우리말 어휘 속에 들어 있던 말은 아니다. 영어 ‘코퍼스’(corpus)를 우리말로 옮기는 과정에서 생겨난 말이다. 조금은 어림잡을 수 있는 형태로 만들어졌다. 많은 전문용어들이 외국어 그대로이거나 어려운 말들로 이뤄진 것과 비교된다.

언어학에서 ‘말뭉치’는 ‘컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료’를 뜻한다. 즉 언어 자료를 전산화한 것이 ‘말뭉치’다. 크기는 ‘어절’로 나타낸다. ‘어절’은 문장을 구성하는 각각의 마디다. 우리말에서 띄어쓰기를 하는 단위와 일치한다. ‘나는 슬퍼서 울었다’는 3어절로 이루어진 문장이다.

인공지능의 시대에 접어들면서 말뭉치는 더욱 중요해졌다. 인공지능의 바탕에 언어가 있기 때문이다. 말뭉치는 컴퓨터가 언어를 이해하는 핵심이기도 하다.

우리나라는 ‘21세기 세종계획’이란 이름으로 1998년부터 10년간 말뭉치 구축 사업을 벌였다. 이때 2억 어절의 말뭉치를 구축했다. 이 분야에서 선발 주자였다. 이후 중단됐다가 2018년부터 5년간 155억 어절의 말뭉치를 다시 구축한다. 우리가 중단했던 사이 미국은 200억, 일본은 100억 어절을 구축했다.

wlee@seoul.co.kr
2017-11-16 29면
많이 본 뉴스
‘민생회복지원금 25만원’ 당신의 생각은?
더불어민주당은 22대 국회에서 전 국민에게 1인당 25만원의 지역화폐를 지급해 내수 경기를 끌어올리는 ‘민생회복지원금법’을 발의하겠다고 밝혔습니다. 민주당은 빠른 경기 부양을 위해 특별법에 구체적 지원 방법을 담아 지원금을 즉각 집행하겠다는 입장입니다. 반면 국민의힘과 정부는 행정부의 예산편성권을 침해하는 ‘위헌’이라고 맞서는 상황입니다. 또 지원금이 물가 상승과 재정 적자를 심화시킬 수 있다고 우려합니다. 지원금 지급에 대한 당신의 생각은?
찬성
반대
모르겠다
광고삭제
위로