作者
石筱玉
编辑
傅博
今年已经是谷歌翻译面世的第11年。在10周年的时候,谷歌翻译经历了一次“脱胎换骨”的大事件:
年9月,谷歌翻译中的中英互译正式启用了神经网络机器翻译技术(GooglesNeuralMachineTranslation,GNMT),代替此前基于短语的机器翻译(phrase-basedmachinetranslation,PBMT)。
在7月11日举行的中国互联网大会中,谷歌翻译研发科学家高勤详尽讲述了谷歌翻译在应用神经网络后取得的新进展,比如摄像实时翻译、语音对话翻译等。在高勤分享的数据中,神经网络的应用让谷歌翻译的质量在原本基础上大幅提升,并且在同义词、语序等方面有非常大的进步。
从翻译质量来看,GNMT比PBMT高出不少,甚至在某些语言中接近人类水平。
更重要的是,虽然这个翻译工具是谷歌产品,但是它在中国可以无障碍使用。
在听了高勤的演讲之后,我们立刻就兴奋地对谷歌翻译app进行了一番测试。结果,尽管我们发现谷歌翻译确实很厉害,但是它居然威胁要吃了我们?
翻译中的同义词
高勤的演讲中,对同义词这一现象是这么分析的:
“Like这个英文词,将被翻译到中文“像”“一样”的词组。这两个词根距离是非常长的。
对于传统机器翻译技术来说,这样的关系非常难解决。英语复杂程序结构带来了很多调序以及省略,如果不能够利用整个语言句子的全局信息,我们就会得到一种不连续、不自然、不准确的结果。而神经网络机器翻译在这两方面都有了长足进步。”
在实践中,谷歌翻译也的确正确处理了“like”这个词的双重含意。在英文例句中,第一个like是喜欢,第二个like是“像”。
如果我们尝试一个更复杂的句子呢?
在这个句子中,谷歌翻译成功翻译出了“miss”这个词的四种含义,说明谷歌翻译确实能够根据上下文的情况选择出这个词最合适的意思。当然,我们在尝试中也没少为难谷歌翻译:
这句话也算曾经流行过,不过说真的,在没有上下文的情况下,我们也对这句话束手无策。“我想你,但我错过了你”还是“我错过了你,但是我想你”?我们的内心都是崩溃的,更不要说谷歌翻译了。
翻译中的连续、全局决策
高勤在演讲中表示,神经网络的翻译原理和基于短语的翻译完全不同,其中最突出的一点就是“连续、全局翻译”。高勤是这么说的:
“神经网络相对于传统技术是一种革命性的改变。
基于短语的统计机器翻译是拼图过程,通过对短语对的排列和组合,尝试找出较好的翻译选项,而整个决策过程是离散的,支持这个决策的信息也都是局部的。
神经网络机器学习这反其道而行之,做每一步翻译过程中可以利用原语言与目标语言所有信息,使整个决策过程既是连续也是全局的。”
:首先,将这句中文的词在编码器(Encoder)里生成一个向量列表,其中每个向量都表示了到目前为止所有被读取到的词的含义。读取完整个句子,解码器(Decoder)就开始工作——一次生成英语句子的一个词。谷歌黑板报(blog)对谷歌翻译过程是这么解释的
我们再次尝试翻译了一个“名句”:
第一眼看上去,这句话的翻译是有问题的。前半句还好,但是后半句的“Iwilldependonlifeanddeath”的直译其实是“我会依靠生死”。……好像不太对吧?
不过,如果我们按照谷歌黑板报给出的“解析流程”模拟机器分析“生死相依”这个词的过程,我们很有可能得出类似的结果。“生死”被翻译成“lifeanddeath”(生与死,生死攸关),“相依”翻译成“dependon”(依靠)。
谷歌翻译错误的地方其实在于它没有明白“相依”的对象是对话中的一方,而简单粗暴地认为依靠的是“生死”。但是谷歌的优点在于,在“全局”翻译支持下,谷歌根据“依靠生死”的理解,将名词“lifeanddeath”放在了“dependon”后面,同时也符合了“dependon”后面需要跟随宾语的语法。
没有运用神经网络的PBMT翻译器,翻译出的是什么结果呢?大家一定看过这样一个段子:
……说真的,故事里的这位兄弟,你六级没过吧?
“Ifyouneverabandon,Iwillinlifeanddeath”这个句子的问题就太多了。“abandon”作为及物动词,之后没有连接名词;后半句没有主动词(will是助动词);“相依”的意思根本没有翻译出来。
谷歌翻译虽然并不完美,但是并没有出现语法错误,也没有出现漏掉关键词的问题。对于“Ifyouabandon”这样既没有准确度、又没有可读性的翻译,谷歌翻译表示:
不过谷歌翻译也不是没有出现过“漏译”的现象。在我们“调戏”谷歌翻译的过程中,它居然一度威胁要吃了我们:
“吃瓜群众”被谷歌翻译成了“吃群众”,我们的内心是崩溃的。“瓜”跑哪去了?
温馨提示,谷歌的翻译是”吃群众“。“吃瓜群众”其实就是“旁观者”,可以被翻译成onlookers或者bystanders。再不济,也可以翻译成“melon-eatingcrowd”(“吃瓜众人”)嘛。
摄像头即时翻译
高勤在演讲之初就提到了谷歌翻译的不少新能力:
“随着互联网大潮的到来,谷歌利用机器学习带来了许多全新的翻译体验,例如利用手机摄像头做的即时翻译、利用手机麦克风和扬声器进行即时对话翻译、离线翻译的支持为没有数据服务的旅行者提供很大的帮助。”
在下载一个中文数据包后,手机确实可以离线对摄像头拍到的短语、标志进行即时翻译,并能够像视频中展示的那样把翻译结果加在背景之上。这个功能,也相当于是AR在翻译领域的应用。
不过,在使用中,这个功能的体验并不是很美好。在我们试图翻译英国地铁标志性警示牌“MindtheGap”(“当心缝隙”)的时候,得到了一个让我们哭笑不得的结果。
在这一功能中,谷歌并没有利用神经网络的“全局”翻译,而是一板一眼地将每个词翻译了出来:“mind”翻译成了“记住”,“gap”翻译成了“差距”……在这里,谷歌翻译的AR显示效果不错,但是逐词翻译的问题在于,运用神经网络后的翻译质量优势一点都没有体现。
原文是“小心地滑”……好的谷歌,你开心就好。
不过,我们也能拍下照片,用手指涂抹出需要翻译的区域。这样需要的时间会比较长,但是翻译较为准确。
经过测试我们发现,总体来说,运用了神经网络翻译技术的谷歌翻译确实在可读性、句子完成性上有所提升,也非常少出现语法错误。更重要的是,谷歌翻译目前对同义词的分辨、对于句子的全局理解能力都有所提升。
不过,谷歌翻译还是和人工翻译有不少的距离,高勤也在演讲中承认了这一点:
“去年一年时间内,有篇关于神经网络机器翻译的论文被发表,但这并不代表着神经网络机器翻译已经非常成熟,事实上我们发现,经过过去一年的研究,我们对神经网络机器翻译的认识仍然非常肤浅。”
谷歌翻译虽好,但是说真的,机器对语言的理解在短时间内很难超过人类。要是掌握了英语,大家就不至于沦落到用“ifyouneverabandon”来表白。比如汉代诗歌《上邪》中“天地合,乃敢与君绝”这句诗的翻译就可以被大家用上:
“Whenheavenandearthmingle,
NottillthenwillIpartfromyou.”
看看,这个翻译多美啊。
不过,作为翻译助手和大家旅行探险新国度的好伙伴,谷歌翻译还是能帮上不少忙的。谷歌翻译能在中国无障碍使用,iOS用户点击,安卓用户点击。这里这里