В последние годы появление моделей большого языка (LLM) привело к значительным изменениям в повседневной жизни потребителей. Теперь люди могут выполнять широкий спектр задач, таких как извлечение информации, составление текста и уточнение документов с помощью этих мощных языковых инструментов. Такая интеграция LLM в повседневную жизнь привела к заметному повышению производительности как на работе, так и в личных начинаниях.
Однако важно признать, что не все потребители в равной степени ощутили эти преимущества. Действительно, значительное количество людей во всем мире, говорящих на менее распространенных языках, не могут взаимодействовать с LLM, в первую очередь из-за неадекватности языковых моделей, разработанных для этих конкретных языков. Поскольку в настоящее время в мире говорят на 7000 языках, крупнейшие многоязычные студенты LLM прошли обучение с использованием менее сотни языков, в результате чего многие языки и люди полностью остались позади.
Для поддержки неанглийских языков требуются высококачественные и обширные источники данных, которые может быть трудно найти и получить к ним доступ. И эти модели не только работают хуже, но об этом также сообщили
Эффективности программ LLM, адаптированных для языков с низким уровнем ресурсов (LRL), препятствует несколько ключевых проблем.
Во-первых, базовые модели для многих LLM основаны на данных, полученных из Интернета, в котором часто отсутствует полный охват LRL. На графике ниже показано распределение данных в Интернете, разделенных на языковые группы. В то время как более распространенные языки имеют сотни ГБ данных, потенциально доступных для обучающих моделей, языки в хвосте графика имеют данные только в диапазоне сотен мегабайт.
Это ограничение еще больше усугубляется отсутствием точно настроенных наборов данных инструкций для многих LRL. Набор данных инструкций состоит из набора вопросов в сочетании с идеальными ответами и является важной частью обучения LLM - в данном случае на определенных языках. Именно так модель учится следовать инструкциям, и без этого актива модели способны только предсказывать следующее слово в последовательности, а не помогать людям решать сложные вопросы и задачи по решению проблем.
Вышеупомянутое вызвано тем, что обучение LLM происходит поэтапно. Первым шагом является изучение языка путем чтения большого количества неаннотированного текста, что дает модели возможность предсказывать следующий мир в последовательности. Второй шаг — адаптация этого прогнозируемого поведения для выполнения конкретных инструкций, таких как ответы на вопросы, написание резюме или извлечение данных. Вот почему точная настройка наборов данных имеет такое важное значение, поскольку их качество в дальнейшем будет определять способность LLM помогать пользователям в выполнении необходимых задач.
В следующем разделе мы представим метод создания высококачественного набора данных для суахили, который можно использовать для точной настройки LLM для этого языка. Этот метод можно применить к любому языку с низким уровнем ресурсов.
Суахили — это язык, на котором говорят более 200 миллионов человек в 14 различных африканских странах, и он является официальным национальным языком в Танзании, Кении, Уганде и Демократической Республике Конго. Он принадлежит к группе языков с низкими ресурсами и является примером языка, который не имеет готового набора данных инструкций для тонкой настройки LLM.
В общем, существует три подхода к созданию набора данных для точной настройки языка. Первый — это непосредственное создание набора данных экспертами, в данном случае экспертами по языку, что требует разработки как вопросов, так и идеальных ответов на желаемом языке. Это может оказаться непростой задачей для языка суахили, поскольку оценщики должны быть экспертами высокого уровня, а этот процесс, как правило, является дорогостоящим.
Другое потенциальное решение — взять существующий набор инструкций на английском языке и перевести его на суахили. Это могли бы сделать переводчики, говорящие как на суахили, так и на английском языке, но это также может потребовать много времени и ресурсов. Можно использовать автоматический переводчик, однако это обычно приводит к недостаточным или некачественным результатам.
Другое решение сочетает в себе автоматический перевод с человеческой проверкой, предлагая экономичный и масштабируемый подход, который имеет решающее значение для обеспечения точности моделей LRL, отражения местных обычаев и норм и полезности для сообществ, которые будут их использовать. В этом методе используется лучший доступный автоматический переводчик с суахили на английский, а затем носителям суахили предлагается отфильтровать примеры, не соответствующие стандартам качества.
Недавно Толока приступила к разработке проекта, в рамках которого они создали набор данных для точной настройки суахили из 11 000 из 15 000 исходных данных.
Затем этот набор данных был использован для улучшения
Поскольку разработчики и организации стремятся создать более инклюзивную экосистему искусственного интеллекта, оценка становится еще более важной, как и участие человека в обучении LLM. Недавний запуск Cohere