科学家发现，网络上“令人震惊”的数量已经是人工智能翻译的垃圾_探索

一项新研究发现，互联网上机器翻译的垃圾“数量惊人”，尤其是非洲和全球南方国家的语言。

亚马逊网络服务人工智能实验室的研究人员发现，网络上超过一半的句子被翻译成两种或更多种语言，由于机器翻译(MT)的糟糕，质量往往越来越差，他们表示，这引发了对大型语言模型训练的“严重担忧”。

AWS前应用科学实习生、加州大学圣巴巴拉分校现任博士生Mehak Dhaliwal告诉Motherboard:“我们之所以对这个话题感兴趣，是因为几位从事机器翻译工作、母语为低资源语言的同事注意到，他们母语中的大部分互联网似乎都是机器翻译产生的。”“因此，这种见解实际上来自资源匮乏的语言使用者，我们进行了这项研究，以更好地了解这个问题，并了解它的普遍程度。”

“话虽如此，每个人都应该意识到，他们在网上看到的内容可能是由机器生成的，”达利瓦尔补充说。

这项研究于上周四提交给预印本服务器arXiv，从网络上抓取了63.8亿个句子。它研究了多向平行的模式，这种模式描述了三种或三种以上语言直接翻译的句子组。研究发现，大部分互联网内容都是翻译的，因为语料库中57.1%的句子是至少三种语言的多向平行。

像所有机器学习一样，机器翻译也受到人类偏见的影响，倾向于西方世界和全球北方的语言。正因为如此，翻译的质量差异很大，来自非洲等地的“低资源”语言没有足够的训练数据来产生准确的文本。

“总的来说，我们观察到大多数语言倾向于在资源最高的语言中拥有并行数据，”达利瓦尔在一封电子邮件中告诉Motherboard。“句子更有可能翻译成法语，而不是低资源语言，仅仅是因为法语比低资源语言有更多的数据。”

资源丰富的语言，如英语或法语，平均平行度为4，这意味着句子在其他三种语言中都有对等的翻译。资源较少的语言，如非洲语言沃洛夫语或科萨语，平均并行度为8.6。此外，资源较低的语言往往有更糟糕的翻译。

研究人员在论文中指出:“我们发现，高度多向平行翻译的质量明显低于双向平行翻译。”“一个句子被翻译成的语言越多，翻译的质量就越低，这表明机器翻译的普及率更高。”

研究还发现，在高度多向平行语言中，人们倾向于选择5-10个单词之间的较短、“更容易预测”的句子。由于这些句子很短，研究人员发现很难描述它们的质量。然而，研究表明，“在网上搜索这些句子很有启发性。”“绝大多数来自我们认为质量较低的文章，这些文章几乎不需要专业知识或提前付出努力，主题包括在工作中更认真对待、谨慎选择、给新船主的六个建议、决定快乐等等。”

研究人员认为，对低质量文章中的短句的选择偏差是由于“低质量的内容(可能是为了产生广告收入)通过机器翻译大量翻译成许多低资源语言(同样可能是为了产生广告收入)。”它还表明，这些数据起源于英语，并被翻译成其他语言。”

研究人员表示，这意味着互联网上大部分低资源语言的机器翻译效果很差，这给这些语言的大型语言模型的开发带来了问题。

该研究指出:“现代人工智能是由大量的训练数据实现的，通常是数千亿到几万亿的代币。”“这种规模的培训只有通过网络收集的数据才能实现。我们的研究结果引起了多语言模型构建者的许多关注:MT数据的流畅性(特别是跨句子)和准确性较低，这可能会产生不太流畅的模型和更多的幻觉，选择偏差表明数据可能质量较低，甚至在考虑MT错误之前。”