기본 콘텐츠로 건너뛰기

구글 번역기 제대로 사용하기와 그 원리(Google translation) - 구글은 되고 IBM은 안된 이유


컴퓨터가 등장한 이후 자연스럽게 컴퓨터를 이용한 자동 번역에 관심을 갖게 되었다.우리나라에서도 90년대 후반 데스크탑이 도입되면서 컴퓨터를 이용한 자동번역 소프트웨어들이 나타나기 시작했다.

이런 자동번역 시장에서 IBM은 자사의 대형 컴퓨터를 이용해서 일치감지 자동 번역 시장에 뛰어들었다.
인간의 각 언어의 규칙을 이해하는 자연어 처리 기술을 핵심으로 언어의 명사 동사 형용사 등 단어를 맥락 속에서 인지하고 번역해 내는 프로그램 개발에 40여년간 투자했다.

즉 프로그램을 통해서 자연어의 관계를 이해하고, 그 의미를 번역하도록 하는 것 개발이었다.

하지만 번역 결과는 그리 만족스럽지 못했다.
인간의 복잡한 자연어를 완벽하게 관계를 파악하고 그것을 다른 언어로 번역하는 것을 컴퓨터 알고리즘으로는 완벽하게 구현하기가 거의 어려웠다.

그런데 이런 난제를 신생 기업인 구글은 전혀 다른 방법으로 접근하여 해결책을 제시하였다.
기계가 언어의 구조를 이해할 수 있도록 하는 것이 아니라,데이터에 기반한 기계 학습 방법이었다.
 유엔과 같은 공공 기관에서는 정책이나 공시 등을 영어, 불어, 중국어 등 다양한 언어로 공개하는데, 이러한 데이터를 구글 번역기에 입력하기만 하면, 번역기는 이미 높은 수준으로 번역된 데이터를 기반으로 언어간 번역의 패턴에 대해서 스스로 학습하게 된다.
구글 번역기는 언어를 이해한다기 보다는 번역된 결과물 통해서 기존의 데이터를 기반으로 기계적으로 혹은 통계적으로 번역을 한다.
예를 들어 '나는 당신을 사랑해요' 를 중국어로 번역하면 기존의 번역된 문서 중에  유사한 문장에 대한 번역 패턴을 이해하고 'Wo Ai Ni' 라고 번역을 하게 된다.
이것이 과거 IBM과 결정적인 차이는 언어의 구조를 기계에 이해시키도록 프로그래밍한 것이 아니라, 데이터에 기반해서 기계가 스스로 언어의 패턴을 학습하도록 한 것이다.



구글이 초기 번역을 제공했을 때 그 수준은 초보적이었다.

하지만 신기하게도 하루가 다르게 구글의 번역기는 좋아지고 있다.
그 이유는 바로 입력되는 데이터에 있다. 인터넷에서 공개되는 수많은 책들의 번역서들과 다국어로 번역되어진 문서들은 구글 번역기가 하루가 다르게 정확도가 높아지게 만드는 힘이 되고 있다.
즉 엄청나게 데이터가 많을수록(Big Data) 구글의 번역 결과는 더 정확해지는 것이다.

예를 들어 보자. 다음과 같은 한국어를 영어로 바로 변역하면 결과가 다음과 같다.
사람은 빵으로만 사는게 아니다는 People bread is not live 라는 전혀 의미가 없는 엉뚱한 번역을 하게 된다.



그렇지만 이번에는 한국어를 일어로 번역하고, 그것을 다시 영어로 번역해보자.




그리고 일어를 영어로 번역한 결과는, 아주 정확해졌다.



이런 번역의 이유는 상대적으로 한국어와 영어보다 한국어와 일어 간의 번역이 상대적으로 탁월하고, 일어와 영어간의 번역된 문서들이 한국어와 영어보다 많기 때문에 일어난 현상이다.
물론 이런 구글 번역기는 시간이 지나면 데이터에 의해서 번역의 품질이 더 좋아지기 때문에, 현재의 번역 결과도 지금 다시 실행한다면 결과가 바뀔 수도 있다.

댓글

이 블로그의 인기 게시물

한우물 정수기 사용기 - 단점

일전에 정수기에 대해서 조사하고 포스팅한 적이 있는데, 계획과는 달리 여러 이유로 한우물 정수기를 쓰게 되었다. 한우물 정수기는 오래전부터 들었던 제품인데 중공사막식 필터를 사용하며, 전기 분해로 약알칼리수를 만드는 제품이다. 이런 종류는 대표적으로 암웨이의 이스프링 정수기나 한우물 등이 시중에서 유일하게 유통되는 것으로 알고 있다. 한우물 정수기를 쓰는 지인들도 있고, 최근 실험결과에서도 약 알칼리수가 몸에 좋다는 것은 방송에서도 익히 알려져 있어서 주저함 없이 사용하기로 하였다. 심지어 모 소주회사도 약알칼리수를 사용해서 술맛이 좋다고 선전하기도 한다. 그만큼 믿음도 갔다. 하지만 의외로 문제가 발생했다. 우리 집은 서울에서도 많은 인구가 모여사는 곳으로, 지금 있는 아파트만도 가구수가 천가구가 넘는다. 시음용으로 한우물을 신청해보고 가족이 동의하여서 설치하여 사용하였다. 그런데 시음했던 물맛과는 정수기에서 나오는 물맛이 전혀 달랐다. 그리고 약 일주일간 물을 마시면 비릿한 맛과 넘길때 느껴지는 껄끄러움이 있었고 며칠간 가족들이 공통적으로 배가 아팠다. 때문에 한우물에 전화로 몇번 이야기도 했지만 돌아오는 답은 시음수와 실제 물 맛은 다를수 있다는 답 뿐이었다. 약간 황당했다. 시음수와 다른 물맛이라면 시음수를 보내는 이유가 무엇이란 말인가? 어째든 다시 부탁드려서 한우물 직원분이 직접와서 정수기 물을 채취하여 가서 조사하기로 하였다. 그리고 약 일주일 후 받은 답은 내가 사는 아파트의 수도물이 특이하게도 칼슘 성분이 보통 수돗물보다 배나 많아서 정수기에서 그런 성분때문에 문제가 되었다는 답이다. 즉 원수인 수도물에 칼슘이 과다한데 정수기에서는 칼슘이 과다하거나 한 경우에 거르지 못한다는 말이었다. 이를 해결하기 위해서 추가로 양이온수지라는 필터를 추가로 달라고 권하였다. 이후 몇번의 이야기 끝에 원하면 환불을 받기로 하였다. 하지만 수천가구가 밀집해 있

영화 로보캅 2014에서

로보캅은 예전에 참 재미있게 보았던 영화이다. 특히 대학시절에 영화 평론에 대한 특강에서 영화 보는 법에 대해서 강의를 들은 적이 있었다. 그 당시 로보캅 I, II, III 까지 나왔는데 시리즈를 거듭할 수록 로보캅의 적이 달라지는데 일본의 사무라이 무사 로봇이 나와서 로보캅을 곤경에 빠트리는 것이 3편에 나온걸로 기억한다. 이러한 배경에는 미국인들이 당시 소니를 중심으로 거세게 미국 시장을 점령하고 있던 강해만 가는 일본에 대한 두려움이 깔려 있다는 교수님의 해설을 들은 기억이 지금도 생생하다. 이번 로보캅 2014는 인기를 끄는데는 실패했고, 더군다가 막판에는 겨울왕국에 묻혀서 존재감도 거의 없었다. 스토리 뼈대도 변한것이 없다. 어떻게 보면 전작의 리메이크 작품이라고 할 수 있겠다. 하지만 거의 죽다가 기계인간으로 되 살아난 경찰 알렉스 머피가 자신이 여전히 인간이라고 주장하다가, 데넷 박사가 그의 남아 있는 모습을 수트를 하나하나 분해하면서 보여주자 머피는 눈물을 흘리는데 이 대목에서 감독이 전하고자 하는 영화는 액션이 아니라 어떻게 보면 철학문제라고 생각한다. 자신의 인간으로서 남아 있는 모습을 보면서 닭똥같은 눈물을 흘리는 머피의 모습이 보이는가? 확실히 로보캅은 액션영화이긴 하지만 사실은 다른 문제를 건드리고 있다. 인간 정체성의 문제이다. 이제 웨어러블 컴퓨팅이다 모다 하면서 이제 인간이 스스로 기계를 입는 시대가 오고 있다. 한편에서는 인공 신장 등 장기를 만들고 있고, 또 한편에서는 뇌와 인터페이스가 가능한 새로운 기기들 개발에 한창이다. 십년 이십년 후에 머피와 같은 사람이 탄생하지 않으리라는 법이 없다. 영화는 항상 시대를 한발 앞서 가니까. 나의 정체성은 내가 갖고 있는 육체에서 비롯될 것인가? 아니면 나의 기억에서 비롯될 것인가? 아니면 보이지 않는 나의 영혼인가?

건강을 위해 스탠딩 테이블(입식 책상) 만들기 및 사용기

나는 오래 앉아 있으면 몸이 견디지 못하는 신체를 갖고 있다. 게다가 오래도록 앉아서 일하는 것은 건강에도 정말 좋지 못하다. 일 때문이라도 하루 종일 컴퓨터를 사용해야 하는 현대인에게 앉아서 일하는 것이 그리 건강에 좋지 않다는 것은 익히 알려져 있다. 그래서 오래전부터 스탠딩 테이블을 하나 갖고 싶었다. 입식 책상 말이다. 의자에 앉는 것이 아닌 서서 사용할 수 있는 테이블이 절실했다. 수많은 검색을 했으나 국내에 입식 책상을 파는 곳은 거의 없다. 입식 책상이라는게 높이가 최소 1미터 이상되야 하는데 의자에 앉아서 쓰는 책상인 740cm정도의 높이의 책상이 대부분이다. 아무 수요가 적어서 그런가보다. 거의 유일하게 본 것이 이런 것들이다. 이른바 졸음방지 및 불량학생을 위한 입식 책상이란다. 이걸 집에서 쓸수도 없고... 스타벅스에 가보면 홈바 형태의 높은 책상이 있어서 즐겨 앉곤 했는데 그걸 구하기도 만만찮아서 매우 고민이었다. 유럽에서는 일부 사무실에서는 전동 입식 책상을 사용한다고 한다. 그러나 가격이 넘사벽이다. 거의 이백만원 가까이 하니... 고민하다가 훌륭한 대안을 찾았다. 바로 이케아에서 자작한 스탠딩 데스크를 쓰는 사람들을 보고 힌트를 얻었다. 바로 이 사진이다. 20불로 스탠딩 데스크 만들기였는데... 머 콜롬부스 달걀 세우는 것 처럼 별거 아닌거 같아도 그래도 모를땐 정말 수가 없어 보인다. 나도 못할게 없지 않은가. 게다가 우리 집에서는 안쓰는 물건이 하나있어서 다음과 같이 구성해 보았다. 사실 만들었다고 말하기도 민망하다. 역시 별거 아니다. 집에 몇년째 안쓰는 작은 상 하나를 책상에 올리고 그 위에 모니터와 키보드를 올려 놓았을 뿐이데 훌륭한 입식책상이 되었다.ㅎㅎㅎ 효과는 생각보다 컸다. 우선 앉아서 한시간이상 못버티던 내가 이제는 두세시간은 허리나 어깨 아픈 통증 없이 일할 수 있다. 아내도 보더니 좋다고 감탄한다. 게다가 서서 타이핑하거나 일