paint-brush
Почему интеграция малоресурсных языков в программы LLM важна для ответственного ИИк@konkiewicz
3,916 чтения
3,916 чтения

Почему интеграция малоресурсных языков в программы LLM важна для ответственного ИИ

к Magdalena Konkiewicz5m2024/04/27
Read on Terminal Reader

Слишком долго; Читать

В статье исследуются проблемы, с которыми сталкиваются языки с ограниченными ресурсами при доступе к большим языковым моделям (LLM), и представлены инновационные стратегии, такие как создание высококачественных наборов данных с точной настройкой, для повышения производительности LLM, особенно с упором на суахили в качестве примера. Эти достижения способствуют созданию более инклюзивной экосистемы искусственного интеллекта, поддерживая языковое разнообразие и доступность.
featured image - Почему интеграция малоресурсных языков в программы LLM важна для ответственного ИИ
Magdalena Konkiewicz HackerNoon profile picture
0-item

Языки с низкими ресурсами (LRL) в моделях больших языков (LLM)

В последние годы появление моделей большого языка (LLM) привело к значительным изменениям в повседневной жизни потребителей. Теперь люди могут выполнять широкий спектр задач, таких как извлечение информации, составление текста и уточнение документов с помощью этих мощных языковых инструментов. Такая интеграция LLM в повседневную жизнь привела к заметному повышению производительности как на работе, так и в личных начинаниях.


Однако важно признать, что не все потребители в равной степени ощутили эти преимущества. Действительно, значительное количество людей во всем мире, говорящих на менее распространенных языках, не могут взаимодействовать с LLM, в первую очередь из-за неадекватности языковых моделей, разработанных для этих конкретных языков. Поскольку в настоящее время в мире говорят на 7000 языках, крупнейшие многоязычные студенты LLM прошли обучение с использованием менее сотни языков, в результате чего многие языки и люди полностью остались позади.


Для поддержки неанглийских языков требуются высококачественные и обширные источники данных, которые может быть трудно найти и получить к ним доступ. И эти модели не только работают хуже, но об этом также сообщили Брауновский университет что они с большей вероятностью будут давать неэтичные ответы, что делает их более уязвимыми для злонамеренных атак.


Почему у нас недостаточно представлены языки в программах LLM?

Эффективности программ LLM, адаптированных для языков с низким уровнем ресурсов (LRL), препятствует несколько ключевых проблем.


Во-первых, базовые модели для многих LLM основаны на данных, полученных из Интернета, в котором часто отсутствует полный охват LRL. На графике ниже показано распределение данных в Интернете, разделенных на языковые группы. В то время как более распространенные языки имеют сотни ГБ данных, потенциально доступных для обучающих моделей, языки в хвосте графика имеют данные только в диапазоне сотен мегабайт.

Длинный хвост многоязычия, мало языков с высокими ресурсами и множество малонаселенных языков. - Изображение первоначально опубликовано в https://arxiv.org/pdf/1911.02116.pdf.


Это ограничение еще больше усугубляется отсутствием точно настроенных наборов данных инструкций для многих LRL. Набор данных инструкций состоит из набора вопросов в сочетании с идеальными ответами и является важной частью обучения LLM - в данном случае на определенных языках. Именно так модель учится следовать инструкциям, и без этого актива модели способны только предсказывать следующее слово в последовательности, а не помогать людям решать сложные вопросы и задачи по решению проблем.


Вышеупомянутое вызвано тем, что обучение LLM происходит поэтапно. Первым шагом является изучение языка путем чтения большого количества неаннотированного текста, что дает модели возможность предсказывать следующий мир в последовательности. Второй шаг — адаптация этого прогнозируемого поведения для выполнения конкретных инструкций, таких как ответы на вопросы, написание резюме или извлечение данных. Вот почему точная настройка наборов данных имеет такое важное значение, поскольку их качество в дальнейшем будет определять способность LLM помогать пользователям в выполнении необходимых задач.

В следующем разделе мы представим метод создания высококачественного набора данных для суахили, который можно использовать для точной настройки LLM для этого языка. Этот метод можно применить к любому языку с низким уровнем ресурсов.


Инновационный конвейер для сбора данных для LRL

Суахили — это язык, на котором говорят более 200 миллионов человек в 14 различных африканских странах, и он является официальным национальным языком в Танзании, Кении, Уганде и Демократической Республике Конго. Он принадлежит к группе языков с низкими ресурсами и является примером языка, который не имеет готового набора данных инструкций для тонкой настройки LLM.



В общем, существует три подхода к созданию набора данных для точной настройки языка. Первый — это непосредственное создание набора данных экспертами, в данном случае экспертами по языку, что требует разработки как вопросов, так и идеальных ответов на желаемом языке. Это может оказаться непростой задачей для языка суахили, поскольку оценщики должны быть экспертами высокого уровня, а этот процесс, как правило, является дорогостоящим.

Другое потенциальное решение — взять существующий набор инструкций на английском языке и перевести его на суахили. Это могли бы сделать переводчики, говорящие как на суахили, так и на английском языке, но это также может потребовать много времени и ресурсов. Можно использовать автоматический переводчик, однако это обычно приводит к недостаточным или некачественным результатам.


Другое решение сочетает в себе автоматический перевод с человеческой проверкой, предлагая экономичный и масштабируемый подход, который имеет решающее значение для обеспечения точности моделей LRL, отражения местных обычаев и норм и полезности для сообществ, которые будут их использовать. В этом методе используется лучший доступный автоматический переводчик с суахили на английский, а затем носителям суахили предлагается отфильтровать примеры, не соответствующие стандартам качества.


Недавно Толока приступила к разработке проекта, в рамках которого они создали набор данных для точной настройки суахили из 11 000 из 15 000 исходных данных. Набор данных Долли . Каждая точка данных, состоящая из подсказки и ответа, была переведена с английского на суахили с использованием автоматического перевода, в результате чего первоначально было получено 15 000 пар вопросов-ответов на суахили. Этот набор данных был дополнительно сокращен за счет того, что носителей языка попросили удалить пары низкого качества, в результате чего остался точно настроенный набор данных на суахили с 11 000 экземпляров.




Затем этот набор данных был использован для улучшения мТ5 , одной из самых эффективных многоязычных языковых моделей для суахили, которая продемонстрировала значительное повышение производительности для этого языка. Тщательно настроенный набор данных повысил точность и показатель f (показатель эффективности прогнозирования) для задач классификации, но, что более важно, он значительно увеличился. РУЖА , или «Дублер, ориентированный на отзыв, для Gisting Evaluation», который представляет собой набор показателей, используемых для оценки программного обеспечения автоматического реферирования и машинного перевода в НЛП, и chrF++, символьная n-грамма F-оценки (chrF), в генеративных задачах, где модель должна отвечать на открытые вопросы. Этот эксперимент показывает потенциал улучшения производительности LLM в LRL и, следовательно, открывает путь к созданию действительно многоязычных моделей.


Создание более инклюзивной экосистемы искусственного интеллекта

Поскольку разработчики и организации стремятся создать более инклюзивную экосистему искусственного интеллекта, оценка становится еще более важной, как и участие человека в обучении LLM. Недавний запуск Cohere Ая , языковая модель, поддерживающая более ста языков, включая суахили и другие LRL, является примером этого обязательства. Решение проблемы нехватки данных и повышение эффективности моделей для LRL является важным шагом на пути к созданию более инклюзивных и ответственных систем искусственного интеллекта, которые обслуживают разнообразные лингвистические сообщества по всему миру.