首页 / 探索 / 正文

科学家发现,网络上“令人震惊”的数量已经是人工智能翻译的垃圾

放大字体  缩小字体 2024-04-20 12:30  浏览次数:64 来源:本站编辑    

一项新研究发现,互联网上机器翻译的垃圾“数量惊人”,尤其是非洲和全球南方国家的语言。

亚马逊网络服务人工智能实验室的研究人员发现,网络上超过一半的句子被翻译成两种或更多种语言,由于机器翻译(MT)的糟糕,质量往往越来越差,他们表示,这引发了对大型语言模型训练的“严重担忧”。

AWS前应用科学实习生、加州大学圣巴巴拉分校现任博士生Mehak Dhaliwal告诉Motherboard:“我们之所以对这个话题感兴趣,是因为几位从事机器翻译工作、母语为低资源语言的同事注意到,他们母语中的大部分互联网似乎都是机器翻译产生的。”“因此,这种见解实际上来自资源匮乏的语言使用者,我们进行了这项研究,以更好地了解这个问题,并了解它的普遍程度。”

“话虽如此,每个人都应该意识到,他们在网上看到的内容可能是由机器生成的,”达利瓦尔补充说。

这项研究于上周四提交给预印本服务器arXiv,从网络上抓取了63.8亿个句子。它研究了多向平行的模式,这种模式描述了三种或三种以上语言直接翻译的句子组。研究发现,大部分互联网内容都是翻译的,因为语料库中57.1%的句子是至少三种语言的多向平行。

像所有机器学习一样,机器翻译也受到人类偏见的影响,倾向于西方世界和全球北方的语言。正因为如此,翻译的质量差异很大,来自非洲等地的“低资源”语言没有足够的训练数据来产生准确的文本。

“总的来说,我们观察到大多数语言倾向于在资源最高的语言中拥有并行数据,”达利瓦尔在一封电子邮件中告诉Motherboard。“句子更有可能翻译成法语,而不是低资源语言,仅仅是因为法语比低资源语言有更多的数据。”

资源丰富的语言,如英语或法语,平均平行度为4,这意味着句子在其他三种语言中都有对等的翻译。资源较少的语言,如非洲语言沃洛夫语或科萨语,平均并行度为8.6。此外,资源较低的语言往往有更糟糕的翻译。

研究人员在论文中指出:“我们发现,高度多向平行翻译的质量明显低于双向平行翻译。”“一个句子被翻译成的语言越多,翻译的质量就越低,这表明机器翻译的普及率更高。”

研究还发现,在高度多向平行语言中,人们倾向于选择5-10个单词之间的较短、“更容易预测”的句子。由于这些句子很短,研究人员发现很难描述它们的质量。然而,研究表明,“在网上搜索这些句子很有启发性。”“绝大多数来自我们认为质量较低的文章,这些文章几乎不需要专业知识或提前付出努力,主题包括在工作中更认真对待、谨慎选择、给新船主的六个建议、决定快乐等等。”

研究人员认为,对低质量文章中的短句的选择偏差是由于“低质量的内容(可能是为了产生广告收入)通过机器翻译大量翻译成许多低资源语言(同样可能是为了产生广告收入)。”它还表明,这些数据起源于英语,并被翻译成其他语言。”

研究人员表示,这意味着互联网上大部分低资源语言的机器翻译效果很差,这给这些语言的大型语言模型的开发带来了问题。

该研究指出:“现代人工智能是由大量的训练数据实现的,通常是数千亿到几万亿的代币。”“这种规模的培训只有通过网络收集的数据才能实现。我们的研究结果引起了多语言模型构建者的许多关注:MT数据的流畅性(特别是跨句子)和准确性较低,这可能会产生不太流畅的模型和更多的幻觉,选择偏差表明数据可能质量较低,甚至在考虑MT错误之前。”

声明:本站信息均由用户注册后自行发布,本站不承担任何法律责任。如有侵权请告知,立即做删除处理。
违法不良信息举报邮箱:
粤ICP备2023090362号