先给大家看一张动图:
上面的中文是人类说的话,下面的英文是百度AI给出的实时翻译。可以看到,没等说到“莫斯科”的时候,AI自动翻译的英语就已经出现了“meet”,也就是汉语句末的“会晤”。
难道现在AI已经掌握了读心术?
其实这是百度在机器同传中研发的最新技术,有预测和可控延迟能力,能实现两种语言之间的高质量、低延迟翻译。它的出现让机器同传又有了新进展!
在我们了解机器同传之前,首先要知道人类同传是什么。
同声传译是一项很重要的工作,在国际会议、外交谈判、演讲等场合,只要交流之间出现了两种语言,就需要同声翻译的帮助,他们会在现场听取演讲,并实时翻译成另一种语言。
在会场的同声传译(图片来自网络)同声传译工作通常在一句话的话音刚落,2-3秒之内就要立即传译出来,是一份高压力、高强度的职业。而AI机器同传就是把人类翻译工作的过程用AI技术来代替。
机器同传运用语音识别技术自动识别演讲者的讲话内容,把语音转化为文字,然后调用机器翻译引擎,将文字翻译为目标语言,显示在大屏幕或者通过语音合成再播放出来。
并不是!在人工智能领域,两种语言的“即时互译”是一项难以攻克的技术问题,主要原因在于源语言和目标语言之间存在较大的词序和语序差异。
▲中文语序下,“香山”在前,“最美的时候”在后;而英文翻译中,“香山”被后置,“最美的时候”被提前
这种语序的差异,让同传陷入一种“准确度与速度不可兼得”的尴尬境地:
百度工程师们针对同传中遇到的难题,提出了“一揽子”解决方案,一起看看它有哪些亮点?
人类同传译员常用的一个技巧就是“合理预测”:在发言人话说到一半时,预测到后半句可能要讲的内容,超前翻译,这样能使同传又快又准。
百度的工程师们模仿这一点,研发出了“wait-kwords”模型,让机器同传也拥有了“合理预测”的能力,一定程度上解决了上面所说的“准确度与速度不可兼得”的问题。
普通的AI同传是一整句话说完之后才进行翻译,而百度同传没等说完前半句,它的“大脑”就会瞬间做出反应,可以“边听边脑补”!
▲这是百度同传的脑补现场,当说到“百度在18年前”时,AI就预测出了“startedabusiness”
另外一点是!百度同传可以个性化控制翻译时的延迟速度,像法语和西班牙语这种比较接近的语言,延迟就设置在比较低的水平。
但是,英语和汉语这种差异较大的语言,以及英语和德语这种词序不同的语言,延迟可以设置为较高水平,从而更好地应对差异。
人类同传译员在接到翻译任务后,通常会提前很多天学习相关知识,进行“备课”,为的就是更好地应对陌生词汇而临危不惧。
于是,百度工程师们模仿了这一准备过程,让机器同传也能通过快速融合领域知识策略,快速学习专业知识,提前“备课”。
当AI同传接到某一个领域的翻译任务时,系统会收集该领域数据并在通用模型的基础上进行增强训练,最后对该领域术语库进行强制解码,使专业术语翻译得准确可靠,且提升翻译效率。
区别于传统的上下文相关建模技术,百度推出了上下文无关音素组合的中英文混合建模单元,包含个上下文无关中文音节和个上下文无关英文音节。这个方法具有泛化性能好、对噪声鲁棒、中英文混合识别等特点。
根据语音识别模型常犯的错误,在训练数据的时候加入噪声数据,让模型在接收到错误的语音识别结果时,也能在译文中纠正过来。
比如,语音识别系统将“大堂”错误地识别为“大唐”,这一对噪声词被收录到训练数据里,再把源语言句子“我们在酒店大堂见面吧”替换为“我们在酒店大唐见面吧”,而保持目标语言翻译不变“Letsmeetatthelobbyofthehotel”,同时将这两个中文句子存储在它的“大脑”里面,以后再出现类似的情况会更轻松地解决!
和咱们人类译员相比,机器最大的优势是不会因为疲倦而导致译出率下降,能把所有“听到”的句子全部翻译出来,这让机器的“译出率”可以达到%,远高于人类译员的60%-70%。
同声传译被广泛应用于*府间的峰会、多边谈判和其他商业场合,但是同传人员稀缺也成为了当前的棘手问题。
研发百度同传的目的,并不是取代人类译员,而是为了降低同传成本,让同传的应用范围更加广泛。我们希望世界各地的人在AI的帮助下早日实现“无障碍”的交流,用科技让复杂的世界更简单!