翻译官

注册

 

发新话题 回复该主题

读了20次苟富贵勿相忘后,谷歌翻译没 [复制链接]

1#

大数据文摘出品

作者:Caleb

陈胜者,阳城人也,字涉。吴广者,阳夏人也,字叔。

相信不少人还记得中学的时候全文背诵《陈涉世家》的痛苦,当然还有考试的时候让你翻译某一句名言,像是“燕雀安知鸿鹄之志哉”,或者“天下苦秦久矣。吾闻二世少子也,不当立,当立者乃公子扶苏”。

如今,随着AI技术的成熟,机器也逐渐在学习如何以人类的方式行动和思考。

既然如此,我们为何不考考它,看看在AI眼中,《陈涉世家》到底是个什么故事。

最近,B站上一位叫做“鹰目大人”的阿婆主就用谷歌翻译对AI进行了一次随堂测验,只不过它的表现嘛,就见仁见智了。

比如,AI就把这句著名的“苟富贵,勿相忘”就翻译成了“没有钱的人,总是会被遗忘”。

“燕雀焉知鸿鹄之志”在AI看来竟然是,“蝎子给了我一个热烈的拥抱”???

整个过程,文摘菌一边黑人问号脸一边笑到拍桌子。

有网友就指出,这波反讽竟然“翻译出了本质”。

还有网友“太喜欢了所以拼了一首诗”,大家可以猜猜每句话对应到的原文是什么?

然后,再来对对答案,看看整本《陈涉世家》都被AI翻译成了什么样子?

机器翻译为何如此困难?

其实不管是语种互译,还是古文翻译,都是机器翻译的类别之一。

但是,如果机器翻译翻车的情况持续发生,我们还能相信它吗?

先别急,我们从NMT(neuralmachinetranslation,神经网络机器翻译)的诞生开始讲起,看看机器翻译到底是个什么东西。

年,NalKalchbrenner和PhilBlunsom提出了一种用于机器翻译的新型端到端编码器-解码器结构。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。

这一研究成果的发布可以说是标志着NMT的诞生,虽然在那之后也有不少研究者进行改进,但是仍然缺乏对模型的理解。比如,经常出现的问题包括但不限于训练和解码过程缓慢;对同一个词的翻译风格不一致;翻译结果存在超出词汇表(out-of-vocabulary)的问题;黑箱的神经网络机制的可解释性很差;训练所用的参数大多数是根据经验选择的。

NMT和SMT对比

总的来说:不确定性是翻译中的一个核心挑战。

知己知彼百战百胜,想要根除这种不确定性,我们还需要知道它的来源。

在一篇论文中作者指出,在构建翻译的模型的时候,基本上有两种不确定性,一种是任务本身固有的不确定性,另一种是数据收集过程中存在的不确定性。

所谓内在的不确定性,是指不确定性的一个来源是一句话会有几种等价的翻译。因为在翻译的过程中或多或少是可以直译的,即使字面上有很多表达相同意思的方法。句子的表达可以是主动的,也可以是被动的,对于某些语言来说,类似于“the”“of”或“their”是可选择的。

除了一句话可以多种翻译这种情况外,规范性不足同样是翻译不确定的来源。另外,如果没有背景输入,模型通常无法预测翻译语言的时态或数字,因此,简化或增加相关背景也是翻译不确定性的来源。

而外在的不确定性,则是因为系统,特别是模型,需要大量的训练数据才能表现良好。为了节省时间和精力,使用低质量的网络数据进行高质量的人工翻译是常见的。这一过程容易出错,并导致数据分配中出现其他的不确定性。目标句可能只是源句的部分翻译,或者目标句里面有源句中没有的信息。

在一些加了copy机制的翻译模型中,对目标语言进行翻译的时候可能会完全或部分复制源句子。论文作者经过研究发现,即使copy机制很小,也能对模型预测产生较大的影响。

论文下载

分享 转发
TOP
发新话题 回复该主题