paint-brush
책임 있는 AI를 위해 저자원 언어를 LLM에 통합하는 것이 필수적인 이유~에 의해@konkiewicz
3,916 판독값
3,916 판독값

책임 있는 AI를 위해 저자원 언어를 LLM에 통합하는 것이 필수적인 이유

~에 의해 Magdalena Konkiewicz5m2024/04/27
Read on Terminal Reader

너무 오래; 읽다

이 기사에서는 대규모 언어 모델(LLM)에 액세스할 때 리소스가 부족한 언어가 직면한 문제를 살펴보고 LLM 성능을 개선하기 위한 고품질 미세 조정 데이터 세트 생성과 같은 혁신적인 전략을 제시합니다. 특히 사례 연구로서 스와힐리어에 중점을 둡니다. 이러한 발전은 언어적 다양성과 접근성을 지원하여 더욱 포괄적인 AI 생태계에 기여합니다.
featured image - 책임 있는 AI를 위해 저자원 언어를 LLM에 통합하는 것이 필수적인 이유
Magdalena Konkiewicz HackerNoon profile picture
0-item

LLM(대형 언어 모델)의 저자원 언어(LRL)

최근 몇 년 동안 LLM(대형 언어 모델)의 출현으로 소비자의 일상 생활에 큰 변화가 일어났습니다. 이제 개인은 이러한 강력한 언어 도구를 통해 정보 검색, 텍스트 작성, 문서 다듬기 등 다양한 작업을 수행할 수 있습니다. LLM을 일상 생활에 통합함으로써 직장과 개인 활동 모두에서 생산성이 눈에 띄게 향상되었습니다.


그러나 모든 소비자가 이러한 이점을 동등하게 경험한 것은 아니라는 점을 인식하는 것이 중요합니다. 실제로 전 세계적으로 덜 일반적인 언어를 사용하는 상당수의 사람들이 LLM과 상호 작용할 수 없습니다. 주로 이러한 특정 언어용으로 설계된 언어 모델이 부적절하기 때문입니다. 현재 전 세계에서 사용되는 7,000개 언어 중 최대 규모의 다국어 LLM은 100개 미만의 언어만을 사용하여 교육을 받았기 때문에 많은 언어와 사람들이 완전히 뒤쳐져 있습니다.


영어가 아닌 언어를 지원하려면 고품질의 풍부한 데이터 소스가 필요하며 이를 찾고 액세스하기 어려울 수 있습니다. 그리고 해당 모델의 성능이 더 나쁠 뿐만 아니라 다음과 같은 보고도 있습니다. 브라운대학교 비윤리적인 대응을 할 가능성이 높기 때문에 악의적인 공격에 더욱 취약해집니다.


LLM에서 언어가 제대로 표현되지 않는 이유는 무엇입니까?

저자원 언어(LRL)에 맞춰진 LLM의 성능은 몇 가지 주요 과제로 인해 방해를 받습니다.


첫째, 많은 LLM의 기초 모델은 인터넷에서 스크랩한 데이터에 의존하므로 LRL에 대한 포괄적인 적용 범위가 부족한 경우가 많습니다. 아래 그래프는 언어 그룹으로 구분된 인터넷 전반의 데이터 분포를 보여줍니다. 보다 일반적인 언어에는 훈련 모델에 잠재적으로 사용할 수 있는 수백 GB의 데이터가 있는 반면, 그래프 끝의 언어에는 수백 MB 범위의 데이터만 사용할 수 있습니다.

다국어의 긴 꼬리, 리소스가 많은 언어는 거의 없고 인구 밀도가 낮은 언어가 많습니다. - 원래 https://arxiv.org/pdf/1911.02116.pdf에 게시된 이미지


이러한 제한은 많은 LRL에 대해 미세 조정된 명령 데이터 세트가 없기 때문에 더욱 확대됩니다. 지침 데이터 세트는 이상적인 답변과 쌍을 이루는 질문 세트로 구성되며 LLM 교육의 중요한 부분입니다(이 경우 특정 언어). 이는 모델이 지침을 따르는 방법을 학습하는 방법이며, 이 자산이 없으면 모델은 복잡한 질문과 문제 해결 작업으로 인간을 지원하는 대신 시퀀스의 다음 단어만 예측할 수 있습니다.


위의 문제는 LLM이 순차적인 단계로 교육을 받기 때문에 발생합니다. 첫 번째 단계는 모델이 시퀀스의 다음 세계를 예측할 수 있는 기능을 제공하는 주석이 없는 대량의 텍스트를 읽어 언어를 배우는 것입니다. 두 번째 단계는 질문에 답하거나 요약을 작성하거나 데이터를 추출하는 등의 특정 지침을 따르도록 예측 동작을 조정하는 것입니다. 이것이 바로 데이터 세트를 미세 조정하는 것이 중요한 이유입니다. 데이터 세트의 품질에 따라 사용자에게 필요한 작업을 지원하는 LLM의 능력이 더욱 결정되기 때문입니다.

다음 섹션에서는 이 언어에 대한 LLM을 미세 조정하는 데 사용할 수 있는 스와힐리어용 고품질 데이터 세트를 생성하는 방법을 제시합니다. 이 방법은 자원이 적은 모든 언어에 적용될 수 있습니다.


LRL용 데이터를 수집하는 혁신적인 파이프라인

스와힐리어는 아프리카 14개국에서 2억 명이 넘는 사람들이 사용하는 언어이며 탄자니아, 케냐, 우간다, 콩고 민주 공화국의 공식 국어입니다. 이는 저자원 언어 그룹에 속하며 LLM 미세 조정을 위한 기본 지침 데이터 세트가 없는 언어의 예입니다.



일반적으로 언어에 대한 미세 조정 데이터 세트를 만드는 데는 세 가지 접근 방식이 있습니다. 첫 번째는 평가자(이 경우 언어 전문가)가 데이터 세트를 직접 생성하는 것입니다. 이를 위해서는 원하는 언어로 질문과 이상적인 답변을 모두 개발해야 합니다. 평가자는 높은 수준의 전문가여야 하고 일반적으로 프로세스에 비용이 많이 들기 때문에 스와힐리어에서는 이것이 어려울 수 있습니다.

또 다른 잠재적인 해결책은 영어로 된 기존 교육 데이터 세트를 스와힐리어로 번역하는 것입니다. 이는 스와힐리어와 영어를 모두 구사하는 번역가에 의해 수행될 수 있지만 이는 시간과 자원 집약적일 수도 있습니다. 자동 번역기를 사용할 수 있지만 일반적으로 결과가 불충분하거나 품질이 좋지 않습니다.


또 다른 솔루션은 자동화된 번역과 사람의 검증을 결합하여 비용 효율적이고 확장 가능한 접근 방식을 제공합니다. 이는 LRL 모델이 정확하고 현지 관습과 규범을 반영하며 이를 사용할 커뮤니티에 유용한지 확인하는 데 중요합니다. 이 방법은 스와힐리어에서 영어로 사용 가능한 최고의 자동 번역기를 활용한 다음 스와힐리어 원어민에게 품질 표준을 충족하지 않는 예를 필터링하도록 요청합니다.


Toloka는 최근 개발 프로젝트에 착수하여 15,000개의 원본 데이터 세트에서 스와힐리어를 위한 11,000개의 미세 조정 데이터 세트를 만들었습니다. 돌리 데이터세트 . 프롬프트와 답변으로 구성된 각 데이터 포인트는 자동 번역을 사용하여 영어에서 스와힐리어로 번역되었으며, 그 결과 처음에는 스와힐리어로 된 15,000개의 질문 답변 쌍이 생성되었습니다. 이 데이터세트는 원어민에게 품질이 낮은 쌍을 제거하도록 요청하여 11,000개의 인스턴스가 있는 미세 조정된 스와힐리어 데이터세트를 남겨두는 방식으로 더욱 축소되었습니다.




그런 다음 데이터 세트를 사용하여 개선했습니다. mT5 는 스와힐리어에 대한 최고 성능의 다국어 언어 모델 중 하나로, 이 언어에 대한 상당한 성능 향상을 보여줍니다. 미세 조정된 데이터 세트는 분류 작업의 정확도와 f-점수(예측 성능 측정값)를 향상시켰지만 더 중요한 것은 정확도가 크게 향상되었다는 것입니다. 연지 또는 NLP에서 자동 요약 및 기계 번역 소프트웨어를 평가하는 데 사용되는 측정항목 집합인 Gisting Evaluation을 위한 Recall-Oriented Understudy chrF++, 문자 n-그램 F-점수(chrF), 모델이 공개 질문에 응답해야 하는 생성 작업에서. 이 실험은 LRL의 LLM 성능을 향상시킬 수 있는 가능성을 보여줌으로써 진정한 다국어 모델을 구축할 수 있는 길을 열어줍니다.


보다 포괄적인 AI 생태계 구축

개발자와 조직이 보다 포괄적인 AI 생태계를 만들기 위해 노력함에 따라 LLM 교육에 사람이 참여하는 것처럼 평가도 더욱 중요해졌습니다. 코히어가 최근 출시한 아야 스와힐리어 및 기타 LRL을 포함하여 100개 이상의 언어를 지원하는 언어 모델이 이러한 노력을 잘 보여줍니다. 데이터 부족 문제를 해결하고 LRL의 모델 성능을 향상시키는 것은 전 세계의 다양한 언어 커뮤니티에 서비스를 제공하는 보다 포괄적이고 책임감 있는 AI 시스템을 구축하기 위한 중요한 단계입니다.