机器口译软件翻译质量评估实验研究
——以中英旅游文本为例
李双燕孙晔芃(首都经济贸易大学外国语学院,北京)
摘要:近年来机器口译技术发展迅速,多种口译软件应时而生,但其翻译质量如何,有待结合具体应用场景进行评测。本文选取“有道翻译官”口译软件,模拟中英旅游口译场景,以8位测试者组对话为实验材料,对机器口译质量进行量化与质化评测,提出了面向旅游翻译的机器口译质量评估标准。研究发现,当前机器口译App在旅游方面的应用尚未达到预期效果,在语音识别、文化转化、冗余删减、称谓名称处理、数字和语音效果等6个方面尚需不断改进。此外,还发现原语音质量与机器口译正相关,而语音文字数量与机器口译质量反相关,男女语音差异不会对机器口译质量产生明显影响。
关键词:机器口译;旅游口译;实验研究;质量评估
01
引言
随着人工智能技术与翻译领域的深度融合,机器翻译(MT)已成为人工智能翻译时代的新常态。机器口译App因其便捷性、灵活性逐步成为大众生活类翻译的主要选择。但当前机器口译的实验研究较少,主要侧重于使用计算机科学算法及建模评价标准对译文进行自动化、模式化的评分,较少涉及语用层面等语言学意义方面的研究(姜宝涵,;刘佳琛,),因此本研究拟将语用层面纳入进来,把语音识别、语言转换以及语音合成看作一个整体,以中国游客在英语国家旅游交流场景为例,评测有道翻译官在模拟真实场景下的机器口译输出质量,并且通过量化和质化分析,找出当前机器口译App存在的问题,提出改进建议。
20世纪80年代中期,西方学者开始进行口译质量评估实证研究,试图将口译质量量化。Bühler()指出衡量口译质量最重要的9个指标为后续口译质量实证研究奠定了基础。Moser-Mercer()提出针对不同评测目的,口译评测的侧重应该不同。Angelelli()从社会交际视角出发,探索只听取单方对话对口译质量的影响。中国则从90年代起,开始逐步