翻译官

首页 » 常识 » 预防 » 以假乱真谷歌最新人工智能翻译系统
TUhjnbcbe - 2023/8/28 20:12:00
黑龙江治疗白癜风医院 http://m.39.net/pf/a_10373005.html

这是一个最好的时代,这是一个最坏的时代。

之所以说是最好的时代,是因为我们正站在一个全新技术革命的前夜,这一轮创新将以信息技术为基础,人工智能、大数据、物联网、区块链等技术将融入到各行各业,遍地开花。也是一个最坏的时代,因为站在这个时期,我们的前面是从未涉及的无人区,人工智能等科技的发展会把未来变成天堂或地狱,我们无法预测。

不过,随着人工智能的持续发展,已经出现了能够绘画、写作、唱歌甚至具有情绪智能的AI。近日,谷歌新研究出来的AI翻译系统,不仅与以往生硬的语音翻译不同,甚至还略带一点语气,不知道的人还以为这是人工翻译的。

以假乱真,你听出来了吗?

如果我不说,你能听出来后面那两段录音其实是出自第一个的机器录制的么?

这三段录音全出自谷歌最新的AI翻译系统GoogleTranslatotron,这款AI翻译系统不仅可以模拟人的语调和语气,还能在一定不程度上模仿人的声线。上面的三段语音中第二段就是GoogleTranslatotron对第一段的翻译,第三段则是在翻译的基础上对第一段的声线进行了一定程度的模仿,是不是很厉害?

我们知道,目前绝大多数的翻译系统的工作流程主要分为三部:首先是将原语音识别成文本,然后对文本翻译目标语言,最后再进行文本到语音的合成。但是再声音转换成文字的时候,原先语音的语气等信息是无法转换的,这也就是为什么我们日常听到的翻译都是语气生硬、不带任何感情色彩的。

谷歌GoogleTranslatotron是如何做到以假乱真的?

首先,谷歌GoogleTranslatotron是一个全新的翻译系统,它与传统的翻译系统是不同的,它不通过语音来进行翻译的,也不是通过文字来进行翻译,那是通过什么呢?其实,谷歌GoogleTranslatotron是通过图像来翻译的。

也许很多人会问,怎样通过图像翻译,具体来讲就是,当人讲了一句需要翻译的话之后,谷歌GoogleTranslatotron系统就会根据这段语音生成一段声音图谱,然后经过大量针对性训练的系统AI会对图谱进行分析,根据这个分析结果还能直接生成一张目标语言的语音图谱,最后AI对图谱进行语音播放,这就是开头我们播放的语音了,带有语气的翻译。

GoogleTranslatotron的工作模型.图片来自:GoogleAIBlog

此外,谷歌的这款AI系统还接入了声源编码器来对声音进行处理,这使得谷歌这款AI系统生成的目标语音不仅可以模仿用户原话中的语气,还能模仿用户的声线。

负责这款谷歌AI翻译系统的工程师YeJia以及RonWeiss表示,省去中间转化为文本的步骤,不仅意味着翻译的速度更快了,也意味着更少的错误。

谷歌这款AI翻译系统还处于研究阶段

虽然,谷歌的这款AI翻译系统,目前放出来的测试样例已经相对很好了,但是仔细听依旧还是能够听到机器生成语音的痕迹,只是相比较我们常听到的由文本生成的语音来讲,谷歌AI的所生成的语音显得更为自燃,而且也保留了大部分原语音的语调和声线,可以讲,一定程度上保留了更多的情感信息。

现阶段,谷歌的这款AI翻译系统还处于研究阶段,如果需要在更为复杂的环境,如嘈杂的情况下其翻译的准确性等都还需要优化,但爱德媒以为,该项目的研究将会成为未来翻译技术的一个新起点。

目前,AI已经驶入实用化快车道,如何通过开放技术能力、积极响应国家“一带一路”号召,推动人工智能的落地发展,需要我们更加努力的去创新,将AI往正确的道路上落地奔跑,让更多的人感受到科技的便捷和魅力。

1
查看完整版本: 以假乱真谷歌最新人工智能翻译系统