年到年,机器翻译领域可以说是翻天覆地。
这期间发生的大事,是以神经网络作为基础的机器翻译,开始在全面超越此前以统计模型为基础的统计机器翻译(SMT),并快速成为在线翻译系统的主流标配。
在这场革命之后,机器翻译彻底进入了NeuralMachineTranslation,即NMT神经机器翻译时代。
很多人为此欢欣鼓舞。回想去年,谷歌在中英翻译系统上部署了GNMT——谷歌神经机器翻译之后,当时网上有一句广为流传的话:“作为翻译,看到这个新闻的时候,我理解了18世纪纺织工人看到蒸汽机时的忧虑与恐惧。”
怎么样?是不是感受到了深深的绝望?
但是先让咱们的小情绪平静一下。时过一年,市面上的NMT系统越来越多,国内的BAT、搜狗,国外的谷歌、Facebook、微软等都在布局。虽然翻译质量确有提高,但远没到上述引文中描绘的发生“质变”的程度。这到底是为什么?
于是,我们选取了目前最有代表性的谷歌GNMT和屡获大奖的搜狗的SogouNMT,来摸索一下今天神经网络机器翻译的真实水平和进化空间。
应用效果测试
考虑到要求连贯性、语句准确的在线翻译技术,其应用场景无非两种:一是海外旅游、购物为代表的实时沟通场景;二是垂直领域的专业内容翻译(毕竟日常翻译需求查单词就够了),所以这里选取了一些旅游用语和专业论文,来检测一下SogouNMT和GNMT的翻译实力。
此外,今年6月搜狗在发布翻译APP时表示SogouNMT的独门秘籍之一是翻译古诗词,所以我们也找来了古诗词与文言文来折磨两个“小家伙”。
首先是来看一句基本的旅游用语:
英译汉:WhatisthepossibilityofmygettingaseatifIwait?
谷歌答案:如果我等待,我可以得到座位的可能性?
搜狗答案:如果我等待的话,我有座位的可能性是多少?
汉译英:如果我等下去的话有多大几率有座位?
:WhatisthechanceofhavingaseatifIwait?
:HowoftendoIhaveaseatifIwait?
从中可以看出,英译汉的语序调整大体正确,搜狗对汉语的语法理解更准确。但汉译英却没有那么乐观,对于表述比较口语化的“几率”,两个系统都没有表现出对上下文的理解能力。
我们来找点论文里的长句子虐一下。
英译汉:
ItseemsanachronistictotalkaboutintertextualityinthebeginningoftheTwentyFirstCentury,almostfortyyearssincethetermfirstappearedwithJuliaKristeva’sintroductionofMikhailBakhtintotheWesternworld.
谷歌答案:
在二十一世纪初谈论互文性似乎不合时宜,自从JuliaKristeva将MikhailBakhtin引入西方世界以来,已经有四十年了。
搜狗答案:
在二十世纪初开始谈论互文性似乎是不合时宜的,近四十年来,从Juliakristeva引进米哈伊尔·巴赫金到西方世界第一次出现。
汉译英:
自四十年前朱丽娅·克里斯蒂娃在介绍巴赫金思想时首次将"互文性"概念引进西方世界以来,到21世纪初的今天再针对“互文性”进行讨论已经显得有些不合时宜。
Sincetheintroductionofthe"intertextuality"conceptforthefirsttimeintheintroductionofBakhtinsthoughtfortyyearsago,thediscussionof"intertextuality"atthebeginningofthe21stcenturyhasbe