본문내용 바로가기

X-뉴스

X-뉴스
X-위원회 추천질문 7호조회수 : 3124

작성일 : 2015-07-16 오후 1:23:00

질문자 id : newreality
  • 20150716_02.jpg
    [출처 : http://ideas.darden.virginia.edu/2014/10/translate-big-data-into-action/]
  • 2819번 질문: 빅데이터를 이용한 번역  [원문보기]
  • 적지 않은 분들이 6개국어를 하는 사람이 존재한다는 얘기를 들으며, 또는 동시통역사에 관한 기사를 읽으며 부러워하던 기억이 있을 것입니다. 세상은 끊임없이 발전하여, 최근에는 이러한 능력을 제공하는 기술이 속속 개발되고 있습니다. 그 중 잘 알려진 번역 서비스로 Google Translate가 있습니다. (translate.google.com) 위키피디아에 따르면, Google Translate는 90가지 언어를 지원하며 매일 2억명의 (2013년) 사용자를 가진 서비스로 자리를 잡았다고 합니다.

    원래 자동번역 기술은 언어별 고유 규칙들을 근간으로 연구되고 있었습니다만 그 성능은 그다지 만족스럽지 못하였습니다.
    그러다 구글이 수천만권의 책들과 리포트들을 하나하나 스캔하여 디지털 데이터로 변환하면서, 특히 이미 전문가들에 의해 정확히 같은 내용이 여러 언어로 잘 번역되어 있던 EU, UN, 관광정보 같은 자료들이 데이터로 제공되기 시작하면서 기계학습 기법을 활용한 번역 기술이 빠른 속도로 발전하기 시작했습니다.
    각 언어의 사용 방식이 워낙 다양하고 예외가 많다보니, 그 모든 규칙들을 알고리즘으로 정리하는 전통방식의 번역보다는 가장 발생가능성이 높은 번역을 통계적으로 찾아내는 방식이 더 잘되기 시작한 것입니다.

    이러한 빅데이터를 이용한 번역기술의 발전에 있어서 몇 가지 생각해 볼 점이 있습니다.
    첫 번째로 데이터의 ‘생성’입니다.
    번역기술의 획기적 발전은 결국 양질의 대용량 정보가 데이터로 만들어진 후에나 가능했습니다(기계학습에 사용되는 데이터의 양이 커질수록 번역의 만족도가 어느 정도까지는 올라간다는 내용도 학계에서는 매우 잘 알려진 내용입니다).
    그렇지만, 이러한 기술의 성공이 가능할지 확신하지 못하는 상태에서 많은 수의 책들을 스캔하고 디지털화하는 방식을 결정하고 적당한 시간과 재화에 대한 투자를 결정하는 것은 생각처럼 간단한 일은 아닙니다. 기계학습의 다양한 이론들을 활용할 수 있는 연구자의 수는 빠른 속도로 늘고 있음에 비해, 이런 문제에 대해 발상의 창의력과 결정의 통찰력을 가진 전문가들은 지속적으로 부족해 보입니다.
    또한, ‘획기적 발전’을 이루는 것과는 상당히 거리가 있고 오히려 왜 큰 노력과 비용을 들여 생성했는지 이해할 수 없는 데이터들을 종종 접하게 되는 이유일 수도 있겠습니다.
    두 번째로 기술과 사람입니다. 자동 번역 기술이 크게 발전하였다지만, 여전히 사람의 능력을 넘어서기에는 갈 길이 멀어 보입니다. 다음은 translate.google.com에서 실제로 번역을 시도한 예입니다.

    20150716_03.jpg

    영어를 조금하는 한국인이라면 띄어쓰기의 문제점을 바로 간파한 후 번역을 쉽게 하였을 것입니다만, 이러한 유형의 번역 예제를 충분히 본적이 없는 기계는 다소 황당한 번역을 하고 말았습니다.
    기계학습은 데이터에 있지 않은 contextual information(상황에 맞는 정보)은 활용하지 못하며, 결국 그러한 정보를 학습과정에 기계가 이해할 수 있는 방식으로 제공해주는 것은 아직도 연구자의 몫으로 남아있습니다. 6개국어가 아닌 90개국어를 할 수 있을지는 몰라도, 초등학교에서 띄어쓰기의 함의에 관한 유희를 경험해보지 못한 기계는 인간을 넘어설 수 없다고나 할까요. 네, 아직도 6개국어를 하시는 분들이나 동시통역이라는 능력은 매우 부러운 일이라고 생각되며, 전문 번역가 분들은 최초 번역에 기계를 이용하실 수 있을지는 몰라도, 결국 중요한 부분들은 한동안 기계에 의존하기 어렵지 않을까 싶습니다.

    http://translate.google.com
    http://en.wikipedia.org/wiki/Google_Translate
    http://www.mt-archive.info/MTS-2005-Och.pdf

    최근에는 마이크로소프트가 만든 Skype Translator처럼 번역을 넘어 실시간 인터넷 전화통화에서 양방향 통역 기능을 제공하려는 서비스도 있고, 간판, 표지판, 안내, 메뉴 등의 시각적 정보를 번역해주는 앱도 다수 있으며, 이베이나 월마트처럼 국제 거래의 활성화를 위해 상품정보의 자동번역을 도입하고 있는 기업들도 있습니다.
    이러한 다양한 서비스에서 한국말의 중요도가 매우 높기에는 한국말 사용자 수의 한계로 인한 어려움이 있을 수 있으며, 따라서 국내 연구진의 한국말 관련 빅데이터 연구에 대한 지속적 투자도 중요하다고 하겠습니다.

    http://en.wikipedia.org/wiki/Skype_Translator
    http://www.waygoapp.com/

    (도움말: 이원종 서울대 융합대학원 교수)

    X위원회가 추천한 좋은 질문은 최종 100대 선정 질문 후보군으로 등록되며, 질문자께는 9월1일 X프로젝트 시상식 때 상금 10만원과 기념품을 드립니다.

    본인인증을 거친 회원가입이 이루어지지 않은 익명 지원자에게는 시상의 혜택이 제공되지 않으니 이점 참고 부탁드립니다.

QUICK MENU