paint-brush
为什么将低资源语言集成到法学硕士 (LLM) 课程对于负责任的 AI 至关重要经过@konkiewicz
3,939 讀數
3,939 讀數

为什么将低资源语言集成到法学硕士 (LLM) 课程对于负责任的 AI 至关重要

经过 Magdalena Konkiewicz5m2024/04/27
Read on Terminal Reader

太長; 讀書

本文探讨了资源匮乏的语言在访问大型语言模型 (LLM) 时面临的挑战,并提出了创新策略,例如创建高质量的微调数据集,以提高 LLM 性能,特别是以斯瓦希里语为例进行研究。这些进步有助于打造更具包容性的 AI 生态系统,支持语言多样性和可访问性。
featured image - 为什么将低资源语言集成到法学硕士 (LLM) 课程对于负责任的 AI 至关重要
Magdalena Konkiewicz HackerNoon profile picture
0-item

大型语言模型 (LLM) 中的低资源语言 (LRL)

近年来,大型语言模型 (LLM) 的出现为消费者的日常生活带来了重大变化。个人现在可以通过这些强大的语言工具执行各种任务,例如检索信息、撰写文本和完善文档。LLM 与日常生活的融合显著提高了工作和个人生活的生产力。


然而,我们必须认识到,并非所有消费者都能平等地享受到这些好处。事实上,世界上相当多使用非主流语言的人无法与法学硕士互动,这主要是因为针对这些特定语言设计的语言模型不足。目前世界上有 7,000 种语言,而最大的多语言法学硕士仅使用不到 100 种语言进行训练,因此许多语言和人完全被抛在后面。


支持非英语语言需要高质量、丰富的数据源,而这些数据源很难找到和访问。而且这些模型不仅表现较差,而且据报告布朗大学他们更有可能做出不道德的回应,从而更容易受到恶意攻击。


为什么法学硕士 (LLM) 中的语言代表性不足?

针对低资源语言 (LRL) 定制的 LLM 的性能受到几个关键挑战的阻碍。


首先,许多 LLM 的基础模型依赖于从互联网上抓取的数据,而这些数据往往缺乏对 LRL 的全面覆盖。下图显示了互联网上按语言组划分的数据分布。虽然更常见的语言有数百 GB 的数据可用于训练模型,但图表尾部的语言只有数百兆字节范围内的数据可用。

多语言的长尾效应:少数资源丰富的语言和许多人口稀少的语言。 - 图片最初发表于 https://arxiv.org/pdf/1911.02116.pdf


由于许多 LRL 缺乏经过微调的指令数据集,这一限制进一步加剧。指令数据集由问题集和理想答案组成,是 LLM 训练的关键部分 - 在本例中,是特定语言的 LLM 训练。这就是模型学习遵循指令的方式,如果没有这一资产,模型只能预测序列中的下一个单词,而不能帮助人类解决复杂的问题和解决问题。


上述情况是由于 LLM 是按顺序进行训练的。第一步是通过阅读大量未注释的文本来学习语言,这使模型能够预测序列中的下一个世界。第二步是定制这种预测行为以遵循特定指令,例如回答问题、撰写摘要或提取数据。这就是为什么微调数据集如此重要,因为它们的质量将进一步决定 LLM 协助用户完成所需任务的能力。

在下一节中,我们将介绍一种为斯瓦希里语创建高质量数据集的方法,可用于微调该语言的 LLM。该方法可应用于任何低资源语言。


用于收集 LRL 数据的创新管道

斯瓦希里语是 14 个非洲国家超过 2 亿人使用的语言,也是坦桑尼亚、肯尼亚、乌干达和刚果民主共和国的官方语言。它属于资源匮乏的语言,是没有现成的 LLM 微调教学数据集的语言的一个例子。



一般来说,有三种方法可以为一种语言创建微调数据集。第一种方法是由评估人员(在这种情况下是语言专家)直接生成数据集,这需要用目标语言开发问题和理想答案。这对于斯瓦希里语来说可能具有挑战性,因为评估人员需要是高级专家,而且这个过程通常很昂贵。

另一个可能的解决方案是将现有的英语教学数据集翻译成斯瓦希里语。这可以由会说斯瓦希里语和英语的翻译人员来完成,但这也需要大量时间和资源。可以使用自动翻译器,但这通常会导致翻译结果不足或质量较差。


另一种解决方案将自动翻译与人工验证相结合,提供了一种经济高效且可扩展的方法,这对于确保 LRL 模型准确、反映当地习俗和规范以及对使用它们的社区有用至关重要。这种方法利用目前最好的斯瓦希里语到英语的自动翻译器,然后请斯瓦希里语母语人士过滤掉不符合质量标准的示例。


Toloka最近开展了一个开发项目,他们从 15,000 个原始数据集中创建了一个 11,000 个斯瓦希里语微调数据集 Dolly数据集. 每个数据点由提示和答案组成,使用自动翻译从英语翻译成斯瓦希里语,最初得到 15,000 个斯瓦希里语问答对。通过要求母语人士删除质量低的对,进一步减少了该数据集,从而留下了一个包含 11,000 个实例的经过微调的斯瓦希里语数据集。




然后利用数据集来改进肌醇5 ,这是斯瓦希里语表现最好的多语言模型之一,它对该语言的性能有显著的提升。经过微调的数据集提高了分类任务的准确率和 f 分数(预测性能的衡量标准),但更重要的是,它显著提高了胭脂以回忆为导向的要点评估替补,这是一组用于评估 NLP 中的自动摘要和机器翻译软件的指标,以及chrF++,字符 n-gram F 分数 (chrF),在生成任务中,模型必须回答开放式问题。该实验展示了提高 LLM 在 LRL 中性能的潜力,因此为构建真正的多语言模型开辟了一条道路。


创建更具包容性的人工智能生态系统

随着开发人员和组织努力创建更具包容性的 AI 生态系统,评估变得更加重要,人类参与 LLM 培训也同样重要。Cohere 最近推出了 ,一种支持 100 多种语言(包括斯瓦希里语和其他 LRL)的语言模型,体现了这一承诺。解决数据稀缺问题并提高 LRL 的模型性能是构建更具包容性和责任感的 AI 系统的重要一步,该系统可为全球多样化的语言社区提供服务。