翻译google 支持108种语言:Google翻译为啥这么好用?
谷歌表示,在提高语言翻译质量方面取得了进展。在张文的一个博客中,该公司详细介绍了新的创新技术,这些技术增强了谷歌翻译支持的108种语言的用户体验,该服务平均每天翻译1500亿字。
谷歌翻译(Google Translation)首次公开以来的13年里,神经机器翻译、基于重写的范式和局部处理等技术在这个平台的翻译精度上实现了可量化的飞跃。
然而直到最近,最新的翻译算法都落后于人类。谷歌之外的努力也说明了问题的难度。马萨汗项目旨在自动翻译非洲大陆的数千种语言,但它并没有超越数据收集和转录阶段。
自2017年6月推出《共同的声音》以来,Mozilla建立转录语音数据开源集合的努力只检查了40种声音。
谷歌表示,其翻译质量的突破不是由单一技术驱动的,而是针对资源较少的语言、高质量的源语言、整体质量、延迟和整体推理速度的技术组合。
从2019年5月到2020年5月,以人工评测和BLEU来衡量,Google翻译在所有语言上平均提升了5分以上,在50个最低级别翻译上平均提升了7分以上。
此外,谷歌表示,“翻译”对于机器翻译协会来说已经变得更加强大。一个现象是,当进入“深圳深圳邵氏国际机场”的泰卢固语字符,人工智能模型会产生奇怪的翻译“嘘嘘嘘嘘嘘嘘嘘嘘嘘嘘嘘嘘嘘嘘嘘嘘嘘嘘嘘嘘嘘嘘嘘。
混合模型和数据挖掘器
这些技术中的第一个是翻译模型架构,这是一种混合架构,包括在Lingvo中实现的变压器编码器和递归神经网络解码器。
在机器翻译中,编码器通常将单词和短语编码成内部表示,然后解码器使用这些表示生成所需语言的文本。
谷歌研究人员在2017年首次提出的基于变压器的模型在这方面比RNN更有效,但谷歌表示,其工作表明,大多数质量改进仅来自变压器的一个组件:编码器。
这可能是因为尽管RNN和变形金刚都是设计来处理有序数据序列的,但变形金刚不需要按顺序处理序列。换句话说,如果所讨论的数据是自然语言,那么Transformer在处理结束之前不需要处理句子的开头。
然而,在推理方面,RNN解码器仍然比《变形金刚》中的解码器“快得多”。意识到这一点,Google Translate团队对RNN解码器进行了优化,然后将RNN解码器与Transformer编码器相结合,创建了一个延迟更低、质量更高的混合模型,比四年前基于RNN的神经机器翻译模型更加稳定。
自2006年成立以来,谷歌翻译模式的BLEU评分
除了新颖的混合模型架构之外,谷歌还从数百万个样本翻译中编译了几十年来用于编译训练集的爬虫。
新的翻译器基于14种嵌入式主流语言,而不是字典——这意味着它使用实数向量来表示单词和短语——并且更加注重精度。
谷歌称,在使用过程中,译者提取的句子数量平均增加了29%。
噪声数据和迁移学习
翻译性能的另一个改进来自于更好地处理训练数据中噪声的建模方法。据观察,嘈杂的数据会损害语言的翻译,因此谷歌翻译团队部署了一个系统,该系统使用训练好的模型为示例分配分数,以调整嘈杂的数据和“干净”的数据。
事实上,这些模型开始训练所有的数据,然后一步一步地训练更小更干净的子集,这是人工智能研究社区中一种叫做课程学习的方法。
在资源贫乏的语言中,谷歌在翻译中实施了反向翻译方案,以增强并行训练数据,语言中的每一句话都与其翻译相匹配。该方案将训练数据与合成的并行数据自动对齐,使目标文本为自然语言,但会生成源翻译模型。
因此,谷歌翻译使用单一语言中更丰富的数据来训练模型,谷歌表示这对于提高流畅性特别有用。
带翻译功能的谷歌地图
谷歌翻译现在也使用M4建模,其中M4,一个大的模型,在多种语言和英语之间翻译。
M4建模使得在谷歌翻译中转移学习成为可能。它收集包括法语、德语和西班牙语在内的高资源语言进行培训,并提高性能,因此可以应用于翻译约鲁巴语、信德语和夏威夷语等低资源语言。
展望未来
谷歌称,自2010年以来,翻译每年至少增加一个BLEU点,但自动机器翻译永远无法解决问题。谷歌承认,即使是它的增强模式也容易出错,包括混淆一种语言的不同方言,产生太多的直译,以及在特定主题和非正式或口头语言中的糟糕表现。
微软试图通过各种方式解决这个问题,包括通过其谷歌翻译社区计划(Google Translation Community Program)招募志愿者,以及通过翻译单词和短语或检查翻译是否正确来帮助提高低资源语言的翻译质量。
仅在2月份,该项目结合新兴的机器学习技术增加了翻译,共有7500万人使用五种语言:基尼亚卢旺达语、奥迪亚语、鞑靼语、土库曼语和维吾尔语。
谷歌并不是唯一追求真正的通用翻译的公司。2018年8月,Facebook发布了一个AI模型,结合了逐字翻译、语言模型和反向翻译,在语言匹配上表现更好。最
最近,麻省理工学院计算机科学与人工智能实验室的研究人员提出了一种无监督模型,即可以从没有明确标记或分类的测试数据中学习的模型。这种模式可以在两种语言之间翻译,而不需要在两种语言之间直接翻译。
谷歌在一份声明中委婉地表示,感谢“学术界和工业界”对机器翻译的研究,其中一些人报告了他们的工作。该公司表示:“我们通过整合和扩展最新发展来实现这一目标。
通过这次更新,我们自豪地提供了相对一致的自动翻译,即使在支持的108种语言中资源最少的情况下。"