Sorumlu Yapay Zeka için Düşük Kaynaklı Dilleri Yüksek Lisans Programlarına Entegre Etmek Neden Önemlidir?

Magdalena Konkiewicz5m2024/04/27

Makale, düşük kaynaklı dillerin büyük dil modellerine (LLM'ler) erişimde karşılaştığı zorlukları araştırıyor ve özellikle bir örnek olay olarak Swahili'ye odaklanarak LLM performansını iyileştirmek için yüksek kaliteli ince ayar veri kümeleri oluşturmak gibi yenilikçi stratejiler sunuyor. Bu gelişmeler, dilsel çeşitliliği ve erişilebilirliği destekleyerek daha kapsayıcı bir yapay zeka ekosistemine katkıda bulunuyor.

featured image - Sorumlu Yapay Zeka için Düşük Kaynaklı Dilleri Yüksek Lisans Programlarına Entegre Etmek Neden Önemlidir?

‘A robot learning in an african class room’ Image created by HackerNoon AI Image Generator

Büyük Dil Modellerinde (LLM'ler) Düşük Kaynaklı Diller (LRL'ler)

Son yıllarda Büyük Dil Modellerinin (LLM) ortaya çıkışı tüketicilerin günlük rutinlerinde önemli değişikliklere neden oldu. Bireyler artık bu güçlü dil araçları aracılığıyla bilgiye ulaşmak, metin oluşturmak ve belgeleri iyileştirmek gibi çok çeşitli görevleri üstlenebilirler. Yüksek Lisans'ın günlük hayata bu entegrasyonu, hem işte hem de kişisel çabalarda üretkenlikte dikkate değer artışlarla sonuçlandı.

Ancak tüm tüketicilerin bu avantajlardan eşit şekilde yararlanmadığının bilincinde olmak önemlidir. Aslında, dünya çapında daha az yaygın dilleri konuşan önemli sayıda insan, öncelikle bu belirli diller için tasarlanmış dil modellerinin yetersizliği nedeniyle Yüksek Lisans'larla etkileşime girememektedir. Şu anda dünyada konuşulan 7.000 dille, çok dilli en büyük LLM'ler yalnızca yüzden az dil kullanılarak eğitilmiş, dolayısıyla birçok dili ve insanı tamamen geride bırakmıştır.

İngilizce dışındaki dillerin desteklenmesi, bulunması ve erişilmesi zor olabilecek yüksek kaliteli, bol miktarda veri kaynağı gerektirir. Ve bu modeller yalnızca daha kötü performans göstermekle kalmıyor, aynı zamanda tarafından da rapor ediliyor. Kahverengi Üniversitesi etik olmayan tepkiler verme olasılıklarının daha yüksek olduğunu ve bu nedenle onları kötü niyetli saldırılara karşı daha savunmasız hale getirdiğini söylüyorlar.

Yüksek Lisans'ta neden yeterince temsil edilmeyen dillerimiz var?

Düşük Kaynaklı Diller (LRL) için özel olarak tasarlanmış LLM'lerin performansı, çeşitli temel zorluklar nedeniyle engellenmektedir.

İlk olarak, birçok Yüksek Lisans'ın temel modelleri, genellikle LRL'lerin kapsamlı kapsamına sahip olmayan, internetten alınan verilere dayanmaktadır. Aşağıdaki grafik, internetteki verilerin dil gruplarına göre dağılımını göstermektedir. Daha yaygın dillerde eğitim modelleri için potansiyel olarak yüzlerce GB veri bulunurken, grafiğin kuyruğundaki dillerde yalnızca yüzlerce megabayt aralığında veri mevcuttur.

Bu sınırlama, birçok LRL için ince ayarlı talimat veri kümelerinin bulunmaması nedeniyle daha da büyümektedir. Bir talimat veri seti, ideal cevaplarla eşleştirilmiş bir soru setinden oluşur ve LLM eğitiminin (bu durumda belirli dillerde) çok önemli bir parçasıdır. Model talimatları takip etmeyi bu şekilde öğrenir ve bu varlık olmadan modeller, insanlara karmaşık sorular ve problem çözme görevlerinde yardımcı olmak yerine yalnızca dizideki bir sonraki kelimeyi tahmin etme yeteneğine sahiptir.

Yukarıdaki durum LLM'lerin sıralı adımlarla eğitilmesinden kaynaklanmaktadır. İlk adım, modele bir sonraki dünyayı sırayla tahmin etme yeteneği veren, büyük miktarda açıklamasız metin okuyarak dili öğrenmektir. İkinci adım, bu tahmine dayalı davranışı, soruları yanıtlamak, özet yazmak veya veri çıkarmak gibi belirli talimatları takip edecek şekilde uyarlamaktır. Veri kümelerinin ince ayarının bu kadar önemli olmasının nedeni budur, çünkü bunların kalitesi LLM'nin kullanıcılara gerekli görevlerde yardımcı olma yeteneğini daha da belirleyecektir.

Aşağıdaki bölümde, Swahili dili için bu dil için LLM'de ince ayar yapmak amacıyla kullanılabilecek yüksek kaliteli bir veri kümesi oluşturmaya yönelik bir yöntem sunacağız. Yöntem, düşük kaynaklı herhangi bir dile uygulanabilir.

LRL'ler için veri toplamak için yenilikçi işlem hattı

Swahili, 14 farklı Afrika ülkesinde 200 milyondan fazla insan tarafından konuşulan bir dildir ve Tanzanya, Kenya, Uganda ve Demokratik Kongo Cumhuriyeti'nde resmi ulusal dildir. Düşük kaynaklı diller grubuna aittir ve LLM'nin ince ayarı için kullanıma hazır bir talimat veri kümesine sahip olmayan bir dil örneğidir.

Genel olarak bir dil için ince ayarlı bir veri kümesi oluşturmak için üç yaklaşım mevcuttur. Bunlardan ilki, veri setinin değerlendiriciler (bu durumda dil uzmanları) tarafından doğrudan oluşturulmasıdır; bu, hem soruların hem de ideal cevapların istenilen dilde geliştirilmesini gerektirir. Bu, Swahili dili için zorlayıcı olabilir çünkü değerlendiricilerin üst düzey uzmanlar olması gerekir ve süreç genellikle pahalıdır.

Başka bir potansiyel çözüm, İngilizce olarak mevcut bir talimat veri kümesini alıp Swahili diline çevirmektir. Bu, hem Swahili dili hem de İngilizce konuşan çevirmenler tarafından yapılabilir ancak bu aynı zamanda zaman ve kaynak açısından da yoğun olabilir. Otomatik bir çevirmen kullanılabilir ancak bu genellikle yetersiz veya düşük kaliteli sonuçlara neden olur.

Başka bir çözüm, otomatik çeviriyi insan doğrulamayla birleştirerek LRL modellerinin doğru olmasını, yerel gelenekleri ve normları yansıtmasını ve bunları kullanacak topluluklar için yararlı olmasını sağlamak için kritik önem taşıyan uygun maliyetli ve ölçeklenebilir bir yaklaşım sunuyor. Bu yöntem, Swahili'den İngilizce'ye mevcut en iyi otomatik tercümanı kullanır ve ardından anadili Swahili olanlardan kalite standartlarını karşılamayan örnekleri filtrelemelerini ister.

Toloka yakın zamanda bir geliştirme projesi üstlendi; burada 15.000 orijinal veri kümesinden Swahili için 11.000 ince ayarlı veri kümesi oluşturuldu. Dolly veri kümesi . Bir bilgi istemi ve bir yanıttan oluşan her veri noktası, otomatik çeviri kullanılarak İngilizce'den Swahili diline çevrildi ve sonuçta başlangıçta Swahili dilinde 15.000 soru yanıtı çifti elde edildi. Bu veri seti, ana dilini konuşanlardan düşük kaliteli çiftleri kaldırmaları istenerek daha da azaltıldı ve böylece 11.000 örnekle ince ayarlı bir Swahili veri seti bırakıldı.

Veri seti daha sonra iyileştirmek için kullanıldı mT5 , Svahili dili için en iyi performansı gösteren çok dilli dil modellerinden biri olup, bu dil için önemli performans iyileştirmeleri göstermiştir. İnce ayarlı veri seti, sınıflandırma görevleri için doğruluğu ve f-puanını (tahmin performansının bir ölçüsü) artırdı, ancak daha da önemlisi, önemli ölçüde artırdı ALLIK veya NLP'de otomatik özetleme ve makine çevirisi yazılımını değerlendirmek için kullanılan bir dizi ölçüm olan Gisting Evaluation için Hatırlama Odaklı Yedek Çalışma ve chrF++, Karakter n-gram F-puanı (chrF), modelin açık sorulara yanıt vermesi gereken üretken görevlerde. Bu deney, LRL'lerde Yüksek Lisans performansını iyileştirme potansiyelini göstermektedir ve bu nedenle gerçek anlamda çok dilli modeller oluşturmaya yönelik bir yol açmaktadır.

Daha Kapsayıcı Bir Yapay Zeka Ekosistemi Oluşturma

Geliştiriciler ve kuruluşlar daha kapsayıcı bir yapay zeka ekosistemi yaratmaya çabaladıkça, değerlendirme de yüksek lisans eğitimlerine insan katılımı gibi daha da kritik hale geliyor. Cohere'in son lansmanı Aya Swahili dili ve diğer LRL'ler de dahil olmak üzere yüzün üzerinde dili destekleyen bir dil modeli, bu taahhüdün bir örneğidir. LRL'ler için veri kıtlığının ele alınması ve model performansının artırılması, dünya çapında çeşitli dil topluluklarına hizmet eden daha kapsayıcı ve sorumlu yapay zeka sistemleri oluşturma yolunda önemli bir adımdır.

L O A D I N G
. . . comments & more!

About Author

Magdalena Konkiewicz@konkiewicz

Data Evangelist at Toloka, Master's degree in AI, NLP Engineer, Developer, and Data Scientist, Writer.

Read my stories

Sorumlu Yapay Zeka için Düşük Kaynaklı Dilleri Yüksek Lisans Programlarına Entegre Etmek Neden Önemlidir?

Büyük Dil Modellerinde (LLM'ler) Düşük Kaynaklı Diller (LRL'ler)

Yüksek Lisans'ta neden yeterince temsil edilmeyen dillerimiz var?

LRL'ler için veri toplamak için yenilikçi işlem hattı

Daha Kapsayıcı Bir Yapay Zeka Ekosistemi Oluşturma

About Author

Topics

Languages

Around The Web...