大数据文摘作品,作者
DevinColdewey,编译
白丁,大饼,钱天培。
Iarrivedatthebankaftercrossingthestreet.
Iarrivedatthebankaftercrossingtheriver.
拿到这两句话,你会怎么翻译呢?你觉得机器翻译又会怎么处理呢?
机器翻译的缺点
机器翻译虽然是一大利器,但也有一些缺点,比如说:按照“一个字一个字”顺序翻译的机器翻译模型往往会导致严重错误发生。
谷歌在其研究日志(Researchblog)中发表了一篇趣味十足的文章,详细分析了这个问题并给出解决方案。
谷歌自然语言处理部门的JakobUszkoreit用以下两句话阐释了这个问题:
Iarrivedatthebankaftercrossingthestreet.
过了这条街,就到银行了。
Iarrivedatthebankaftercrossingtheriver.
过了这条河,就到对岸了。
(译者加注:“bank”为多义词,兼有“银行”和“河岸”之意。)
显而易见,“bank”一词在两句话中含义截然不同,但是后台算法很容易处理错-因为不读完整个句子就无法判定句中“bank”的确切含义。类似这种多义词的现象比比皆是。
如果让我去翻译这句话,我一眼就能看出这两句话中”bank“的区别,但这对翻译系统来说就没那么简单了。如果修改神经网络,使其翻译完一句话后再检查是否有误,有问题的话就再重来一遍,就未免效率太低。
解决方法
为此,谷歌提出了在转换器(Transformer)中建立