컴퓨터가 등장한 이후 자연스럽게 컴퓨터를 이용한 자동 번역에 관심을 갖게 되었다.우리나라에서도 90년대 후반 데스크탑이 도입되면서 컴퓨터를 이용한 자동번역 소프트웨어들이 나타나기 시작했다.
이런 자동번역 시장에서 IBM은 자사의 대형 컴퓨터를 이용해서 일치감지 자동 번역 시장에 뛰어들었다.
인간의 각 언어의 규칙을 이해하는 자연어 처리 기술을 핵심으로 언어의 명사 동사 형용사 등 단어를 맥락 속에서 인지하고 번역해 내는 프로그램 개발에 40여년간 투자했다.
즉 프로그램을 통해서 자연어의 관계를 이해하고, 그 의미를 번역하도록 하는 것 개발이었다.
하지만 번역 결과는 그리 만족스럽지 못했다.
인간의 복잡한 자연어를 완벽하게 관계를 파악하고 그것을 다른 언어로 번역하는 것을 컴퓨터 알고리즘으로는 완벽하게 구현하기가 거의 어려웠다.
그런데 이런 난제를 신생 기업인 구글은 전혀 다른 방법으로 접근하여 해결책을 제시하였다.
기계가 언어의 구조를 이해할 수 있도록 하는 것이 아니라,데이터에 기반한 기계 학습 방법이었다.
유엔과 같은 공공 기관에서는 정책이나 공시 등을 영어, 불어, 중국어 등 다양한 언어로 공개하는데, 이러한 데이터를 구글 번역기에 입력하기만 하면, 번역기는 이미 높은 수준으로 번역된 데이터를 기반으로 언어간 번역의 패턴에 대해서 스스로 학습하게 된다.
구글 번역기는 언어를 이해한다기 보다는 번역된 결과물 통해서 기존의 데이터를 기반으로 기계적으로 혹은 통계적으로 번역을 한다.
예를 들어 '나는 당신을 사랑해요' 를 중국어로 번역하면 기존의 번역된 문서 중에 유사한 문장에 대한 번역 패턴을 이해하고 'Wo Ai Ni' 라고 번역을 하게 된다.
이것이 과거 IBM과 결정적인 차이는 언어의 구조를 기계에 이해시키도록 프로그래밍한 것이 아니라, 데이터에 기반해서 기계가 스스로 언어의 패턴을 학습하도록 한 것이다.
구글이 초기 번역을 제공했을 때 그 수준은 초보적이었다.
하지만 신기하게도 하루가 다르게 구글의 번역기는 좋아지고 있다.
그 이유는 바로 입력되는 데이터에 있다. 인터넷에서 공개되는 수많은 책들의 번역서들과 다국어로 번역되어진 문서들은 구글 번역기가 하루가 다르게 정확도가 높아지게 만드는 힘이 되고 있다.
즉 엄청나게 데이터가 많을수록(Big Data) 구글의 번역 결과는 더 정확해지는 것이다.
예를 들어 보자. 다음과 같은 한국어를 영어로 바로 변역하면 결과가 다음과 같다.
사람은 빵으로만 사는게 아니다는 People bread is not live 라는 전혀 의미가 없는 엉뚱한 번역을 하게 된다.
그렇지만 이번에는 한국어를 일어로 번역하고, 그것을 다시 영어로 번역해보자.
그리고 일어를 영어로 번역한 결과는, 아주 정확해졌다.
이런 번역의 이유는 상대적으로 한국어와 영어보다 한국어와 일어 간의 번역이 상대적으로 탁월하고, 일어와 영어간의 번역된 문서들이 한국어와 영어보다 많기 때문에 일어난 현상이다.
물론 이런 구글 번역기는 시간이 지나면 데이터에 의해서 번역의 품질이 더 좋아지기 때문에, 현재의 번역 결과도 지금 다시 실행한다면 결과가 바뀔 수도 있다.
댓글
댓글 쓰기