脸书研发可翻译100种语言的机器翻译系统
552字
2020-11-15 17:25
11阅读
火星译客

脸书研发出第一个机器学习模式的翻译系统。它可以在100种语言中的任意两种语言之间进行翻译,而无需先译成英语。

脸书表示这一新型多语种机器翻译模式是为了帮助其全球20多亿用户。该公司仍在测试这个被称为“M2M-100”的翻译系统,并希望在未来将其添加到不同的产品中。

这家社交媒体服务公司表示,他们已将该系统开源——这意味着它的计算机代码将可以免费供他人复制或更改。

本周脸书公司的研究助理安吉拉•范在该公司的一家网站上对这一新的机器翻译模式做了解说。她表示,它的研发是数年“机器翻译基础工作”发展中的一个“里程碑”。

范女士还表示,与其他依靠英语帮助翻译的机器学习系统相比,这种模式能得出更好的翻译效果。其他系统会利用英语作为一个中间步骤,就像一座桥梁一样,在两种非英语语言之间进行翻译。

其中一个例子就是汉语翻译成法语。安吉拉指出,很多机器的翻译模式都是先把中文翻译成英文,然后再把英文翻译成法文。她说,这样做“是因为英语的可用数据应用最为广泛”,但这种翻译方法会导致翻译出现错误。

安吉拉还指出:“我们的翻译模型是直接使用中文到法文的培训数据,它能更好地保留原文的含义。” 脸书表示,在一个使用数据衡量机器翻译质量的广泛应用的系统中,新系统的性能明显优于以英语为中心的翻译系统。

脸书称,他们有大约三分之二的用户用英语以外的语言交流。该公司在脸书每天的动态消息中已有日均200亿次的翻译。但它也面临着一个巨大的考验——数量庞大的用户群用160多种语言发布大量内容。

开发团队在一个包含100种语言的75亿个句子的数据集上研发培育出这种新模型。此外,该系统还接受了总共2200个语言方向的培训。脸书表示,这一数量是已有的最好的机器翻译模式的10倍。

研究小组面临的一个难题是为没有被广泛使用的语言组合开发一个有效的机器翻译系统。脸书称这些语言为“低资源语言”。用于创建新翻译模型的数据是从互联网上收集的,然而关于低资源语言的互联网数据资源很有限。

脸书表示,为解决这一问题它使用了一种叫做“回译”的方法。这种方法可以通过创建“合成翻译”来增加用于低资源语言培训的数据量。

该公司还表示,目前它计划继续探索新的语言研究方法同时努力改进新的翻译模式。目前还没有确定在脸书上推出这一翻译系统的日期。

但安吉拉·范表示,新系统标志着脸书迈出了重要一步,尤其是对我们所处的时代而言。“通过机器语言翻译系统来打破语言障碍是将人们聚集起来、提供有关新冠肺炎的权威信息并使人们免受有害内容影响的最重要途径之一。”

0 条评论
评论不能为空