잠용의 타임머신... 영원한 시간 속에서 자세히보기

언론·출판·문헌

[승정원일기] 2억4000만자 AI로 번역한다

잠용(潛蓉) 2017. 2. 13. 15:12

[단독] 2억4000만자 ‘승정원일기’ AI로 번역한다
동아일보ㅣ조종엽기자ㅣ2017-02-13 03:00:00 수정 2017-02-13 03:00:00


모두 2억4000만여 자에 이르는 승정원일기. 동아일보DB


고전번역원 ‘인공지능 번역’ 첫 도전
올해부터 세계 최초로 인공지능(AI)으로 한문 고전이 번역된다. 첫 대상은 고전 번역의 최대 숙원 사업 중 하나인 ‘승정원일기’로, 앞으로 45년이 걸릴 것으로 예상되는 번역 기간을 AI 번역을 통해 27년가량 단축해 18년 뒤에는 마칠 수 있을 것으로 기대된다. 한국정보화진흥원 관계자는 “미래창조과학부가 본원을 통해 진행하는 ‘2017년 정보통신기술(ICT) 기반 공공 서비스 촉진 사업’의 과제 중 하나로 한국고전번역원의 ‘인공지능 기반 고전 문헌 자동 번역 시스템 구축 사업’을 확정했다”라고 최근 밝혔다. 예산(20억 원)도 확정돼 올 12월에는 인공지능이 한문 고전을 번역한 첫 결과물이 나올 것으로 전망된다.


승정원일기는 조선의 최고 기밀 기록으로 사료로서의 가치뿐 아니라 스토리텔링 활용 가능성도 무궁무진하지만 1994년 번역을 시작했는데도 번역률이 20%가 안 된다. 3243책, 2억4000만여 자에 이르는 방대함 탓이다. 고전번역원은 향후 일성록(日省錄)이나 재번역 중인 조선왕조실록, 일반 문집에까지 인공지능 번역을 확대한다는 계획을 갖고 있다.


구글 번역기를 비롯해 우리 시대에 쓰이는 언어를 서로 번역하는 인공지능은 이미 여럿 나와 있지만 과거 문헌을 번역해 현대와 시대적 소통을 모색하는 인공지능은 이번이 세계 최초다. 중국에 옛 한문을 현대 중국어로 옮기는 서비스가 있다고 알려졌지만 기본적으로 같은 언어여서 비교 대상이 안 된다는 게 전문가들의 의견이다. 고전번역원의 AI 번역에는 인공신경망번역(NMT·Neural Machine Translation) 기술이 적용된다. 스스로 학습하며 번역 수준을 향상시켜 나가는 딥러닝 방식으로 이세돌 9단과의 대국에서 승리한 인공지능 ‘알파고’와 크게 보면 같은 범주다. 물론 바둑 대국을 하는 알파고와는 다른 알고리즘이다.



번역 작업은 우선 기존에 전문 번역자들이 번역해 놓은 승정원일기의 영조 때 기록 20만∼30여만 문장의 ‘코퍼스(말뭉치)’를 인공지능에 입력한다. 한문 원문과 우리말 번역문을 함께 입력하기 때문에 이를 ‘병렬 코퍼스’라고 부른다. 이 같은 빅데이터가 구축되면 인공지능이 기계학습을 통해 번역 모델을 생성한다. 여기에 아직 번역되지 않은 다른 원문을 새로 입력하면 자동으로 번역 결과물을 내놓게 되는 방식이다. 조선시대라고 해도 500년에 걸쳐 사용된 용어 등이 시기별로 다르기 때문에 인공지능의 학습 자료가 되는 코퍼스도 시기별로 따로 입력해야 한다. 고전번역원 관계자는 다양한 자동 번역 방식 중 NMT를 선택한 데 대해 “정형화된 번역이 쉽지 않은 한문 문장의 맥락에 따라 인간의 번역처럼 유려하게 옮기는 데 적합할 것으로 보고 있다”라고 설명했다.


인공지능 번역이 혹시 고전번역교육원 수료생 등의 미래 일자리를 빼앗는 건 아닐까? 백한기 고전번역원 고전정보센터장은 “당장은 인공지능이 초벌 번역 수준의 결과물을 낼 것으로 보이고 주석, 원문 대조, 교감, 학술 연구 등은 지금의 인공지능이 할 수 있는 작업이 아니다”라며 “인공지능은 역자를 대체하는 게 아니라 역자의 업무를 지원하게 될 것”이라고 말했다.


인공지능의 고전 번역이 필요한 이유는 무엇보다 고전 자료의 방대함이다. 조선왕조실록 등 주요 고전 외에도 서울대 규장각, 한국학중앙연구원 장서각, 성균관대 존경각 등에 엄청난 양의 고전이 원문으로 남아 있다. 그러나 국내 전문 고전 번역자는 약 200명 수준이다. 이명학 고전번역원장은 “주요 고전의 번역에만 약 100년이 걸릴 것으로 예상되고 있어 신기술을 통해 번역 속도를 높일 필요성이 절실하다”라며 “인공지능이 우리 고전의 번역을 대폭 앞당길 것으로 기대한다”라고 밝혔다. [조종엽 기자 jjj@donga.com]


'세계기록유산' 승정원일기 번역하기가 쉽지 않은 이유는?
(서울=뉴스1) 박창욱 기자 | 2016-12-12 15:46 송고 | 2016-12-13 13:08 최종수정


  규장각에 소장된 승정원일기(문화재청 홈페이지) © News1


한문에 조선시대 사상 문화 이해해야… 전문연구자도 쉽지 않아
 승정원일기연구소 은대학당, 전문연구 위한 '2017 수강생' 모집

유네스코 세계기록유산인 ‘승정원일기’(국보 303호)는 조선시대 승정원에서 군신의 말과 글, 동정 등을 일기 형식으로 기록한 책이다. 승정원은 지금의 청와대 비서실에 해당하는 기관이다. 승정원일기에는 국왕과 신하가 주고받은 문서, 국왕과 신하가 대화한 내용, 국왕과 신하의 동정 등이 날짜별로 기록되어 있다. 조선시대의 정치, 경제, 사회, 문화, 외교, 국방 등 거의 모든 분야를 연구할 수 있는 귀중한 자료다. 조선초기인 세종 때부터 편찬되기 시작한 승정원일기는 임진왜란과 ‘이괄의 난’을 거치면서 화재 등으로 광화군 시대까지 자료는 모두 사라졌다. 현재 인조 이후부터 조선이 멸망한 1910년까지의 기록만 3243책, 2억 4250만자로 남아 있다. 현재 남아있는 분량만으로도 단일 서종으로는 세계에서 가장 많은 기록물로 확인됐다. 유네스코가 2001년 승정원일기를 세계기록유산으로 지정한 이유다.


승정원일기가 이처럼 귀중한 자료이지만, 내용이 한문으로 기록되어 있어서 일반인은 물론이고 전문 연구자들도 접근하기가 쉽지 않다. 내용을 이해하기 위해서는 한문을 번역할 정도의 기본 실력을 갖추는 것 이외에도 조선시대의 제도와 사상, 문서와 어휘 등에 대한 지식까지 갖춰야 해서다. 한국승정원일기연구소(한승연)는 이에 우리의 귀중한 문화자산인 승정원일기를 비롯한 원전 사료를 올바로 이해하고 대중에게 알리기 위해 장기간에 걸쳐 이를 연구하고 번역하며, 전승하는 사업을 수행하고 있다. 이와 함께 한승연 부설 은대학당에서는 한문으로 기록된 조선시대의 사료와 법전을 번역할 수 있는 전문 인력을 양성하는 일도 하는데, 총 4개 과정의 ‘2017년도 수강생’ 총 60명을 오는 16일까지 모집한다.  



 ‘2017년도 수강생’ 모집 내용. 은대학당 제공 © News1


‘사료연구 일반과정’ 12명을 비롯해 △사료와 법전을 연구하고 번역할 수 있는 최고 전문가를 육성하는 사료연구 전문과정 8명 △초서(草書)로 기록된 사료와 편지글을 익힐 수 있는 초서·간찰 연구과정 20명 △역대 한시와 한문을 익힐 수 있는 한시·한문 연구과정 20명 등이다. 은대학당 관계자는 “현재 사료 연구와 번역에 종사하거나 앞으로 진출할 계획이 있는 사람들에게 이번 과정이 많은 도움이 될 것”이라고 밝혔다. 수강생 선정 결과 발표는 오는 19일 한승연 홈페이지(www.eundae.com)에 공고하며 개별 통보한다. 접수문의 070-8846-3915, 010-4731-0314. [© News1]