본문 바로가기
  • 이 시대를 살아가면서 꼭 알아야 할 유용하고 세상에서 가르쳐 주지 않는 차원 높은 정보를 공유하고자 합니다. 본 블로그에서 전하고자 하는 메시지의 핵심을 잘 간파하셔서 끊임없이
인생담론*행복론/新기술*미래문명

번역이 AI(인공지능)를 만난 세가지 이유

by 바로요거 2016. 12. 2.

번역이 AI를 만난 세가지 이유

머니투데이 기사입력 2016-12-02 03:00


[머니투데이 김지민 기자] [통계기반→인공신경망 가미한 번역으로 진화…한국어 특화 알고리즘 날개 달면 금상첨화] 

‘더 빠르게, 더 정확하게, 더 다양하게’

통번역 프로그램 시장의 2라운드가 열렸다. 통계를 활용한 번역(SMT)에서 인공신경망 기반의 번역(NMT) 시대를 맞은 것. 이는 서로 다른 언어의 소통을 돕는 1차적인 번역 기능을 뛰어넘어 인공지능을 활용해 처음 듣는 말도 현지화된 언어로 표현하는 세상이 도래했다는 의미다. 기계 스스로 학습을 하는데 필요한 데이터와 특정 언어에 강한 알고리즘을 얼마나 많이 보유하고 있느냐에 따라 왕좌가 결정될 것으로 보인다.

◇인공지능 결합했더니 정확도·속도·데이터 처리능력↑=구글과 네이버는 최근 비슷한 시기에 신경망 기계 번역을 적용해 번역 시스템의 수준을 한 단계 끌어올렸다. 국산 통번역 앱 ‘지니톡’을 만든 한국전자통신연구원(ETRI)도 신경망을 적용한 업그레이드 버전을 내년 초 내놓을 계획이다.

신경망 번역과 통계 기반 번역 모두 기계학습을 통해 결과물을 내놓는다는 점에서는 같다. 가장 큰 차이점은 번역의 ‘범주’다. 신경망 번역은 구문 단위로 번역하는 통계 기반 방식에서 진화해 사람이 말하는 방식과 유사하게 문장 전체를 훑는다.

이 방식을 적용했을 때 가장 큰 장점은 정확도다. 통계 기반 방식은 많은 데이터베이스가 구축되면 번역의 정확도가 높아지지만 사용빈도가 낮은 언어에서는 문법 정확도가 떨어진다. 반면, 신경망 기반 번역은 단어가 아닌 문장 전체를 분석하기 때문에 맥락에 대한 이해도가 높다. 네이버에 따르면 NMT 방식을 도입한 후 번역 정확도가 기존 30점에서 60점(100점 만점)대로 두 배 높아졌다. 구글도 기존대비 오류가 55~85% 정도 줄었다고 설명했다.

신경망 기반 번역은 매 순간 대용량의 데이터가 쌓이는 환경에 적합한 방식이다. 지구 상에서는 매일 10억 건 이상의 번역이 일어나고 있으며 1400억개 이상의 단어가 번역되고 있다. 구글 번역 서비스는 매달 5억명 이상이 이용한다. 이들이 이용한 번역 결과는 결국 기계가 인간의 도움 없이 스스로 학습하는 자원으로 활용된다.

번역 속도를 획기적으로 높여준다는 점도 이전 통계 기반 번역과의 큰 차이점이다. 예컨대 한국어, 영어, 일본어 모델을 훈련시키면 한국어와 일본어 사이에 직접 연결된 데이터가 없어도 한국어와 일본 사이의 실시간 번역이 가능하다. 추가 자원을 투입하고 학습을 시키는데 시간과 노력을 들일 필요가 없다는 얘기다. 버락 투로프스키 구글 번역 프로덕트 매니지먼트 총괄은 “기존 번역의 가장 큰 애로점은 번역을 하는데 시간이 너무 많이 걸린다는 것이었다”며 “궁극의 목표는 신경망 기계번역을 우리가 지원하는 103개 언어에서 지원하는 것”이라고 말했다.  


◇관건은 ‘특정 언어에 강한 알고리즘’과 ‘데이터’=신경망 기반 번역이 향후 통번역 프로그램 시장을 이끌 화두로 떠오른 가운데 ‘학습 방식’과 ‘교재’가 승패를 가를 중요 변수다. 특정 언어에 강한 알고리즘의 보유 여부와 딥러닝을 할 수 있는 자원인 데이터의 양이 중요하단 얘기다. 이를테면 번역을 하기 전에는 의미 단위로 문장을 쪼개는 작업이 필요하다. 당연히 언어마다 다른 알고리즘이 적용된다. 김준석 네이버 부장은 “신경망에 언어가 토큰(Token) 단위로 입력되는데, 이를 얼마나 의미 있게 분석하느냐는 신경망과 별도로 진행되는 작업”이라며 “언어 분석 알고리즘을 얼마나 잘 짜느냐가 번역의 품질이 중요한 부분을 차지한다”고 설명했다.

데이터의 양도 중요하다. 신경망 기반 번역 알고리즘은 구글, 네이버 등 통계 번역에서 강한 면모를 보였던 곳들이 주로 채택한다. 이유는 번역 문제와 번역의 결과물을 이르는 ‘코퍼스’(말뭉치)를 이용자들이 입력한 데이터를 기반으로 누구보다 신속하게 대량으로 만들어낼 수 있기 때문이다.

이런 점들 때문에 한국어 번역에 있어 국내 업체들이 다소 유리한 입지에 있는 게 사실이다. 신소우 한컴인터프리 대표는 “지니톡은 하루에 12만개의 말뭉치를 만들어내고 있다”며 “한국어 맥락에 강한 알고리즘을 갖는 국내 업체들이 NMT라는 진화된 방법론을 갖추면 외국업체와 비교할 수 없는 수준의 고품질 번역 결과를 내놓을 것”이라고 강조했다.

업계에 따르면 기계번역 시장 규모는 연간 40조원에 달한다. 지역별로 아시아 시장이 가장 빠른 성장 속도를 보이고 있으며 업종별로는 상업뿐 아니라 소셜 서비스, 군사 등 영역에서 수요가 늘고 있다.


김지민 기자 dandi@mt.co.kr

<저작권자 ⓒ '돈이 보이는 리얼타임 뉴스' 머니투데이, 무단전재 및 재배포 금지>



 

이 시대를 살아가는 사람이라면 꼭 알아야만 되는 고급정보-서적, 자료 무료 증정무료 대여합니다. 아래 링크를 클릭하셔서 내용을 잘 살펴보신 후에, 신청하시기 바랍니다. http://blog.daum.net/ilsimsycheonzoo/15978349