paint-brush
Afrika Dilleri ve Dilbiliminde Yapay Zekanın Görünümüile@kingabimbola
1,175 okumalar
1,175 okumalar

Afrika Dilleri ve Dilbiliminde Yapay Zekanın Görünümü

ile M. Abimbola Mosobalaje7m2023/05/20
Read on Terminal Reader
Read this story w/o Javascript

Çok uzun; Okumak

NLP, Afrika'da birçok durumda kullanıldı; bunlardan bazıları robotik ve konuşma yapay zekasını içeriyor. Şu anda Afrika, işleri bir akışta yapmak üzere eğitilebilecek daha gelişmiş sistemler için birden fazla Afrika dili içeren büyük dil modelleri geliştiriyor; karmaşık bir sistem daha sonra tek bir eyleme (modelleme) daraltılıyor.
featured image - Afrika Dilleri ve Dilbiliminde Yapay Zekanın Görünümü
M. Abimbola Mosobalaje HackerNoon profile picture
0-item
1-item

Birkaç yıl önce Google Asistan'a basit bir soru sordum (ne olduğunu hatırlamıyorum) ve alakasız bir yanıt verdi. Tekrar sordum, farklı bir cevap getirdi. Sorumu yazmam gerekiyordu.



O noktada ses tanıma yazılımlarının Afrikalılar için üretilmediği sonucuna vardım.

Kişisel gelişim ve maruz kalma nedeniyle konuşma İngilizcem ve vurgulamam gelişti, ancak aynı zamanda birçok ses tanıma uygulamasının ve yazılımının Afrika konuşanlar için (aksan açısından) daha uyumlu hale geldiğini de söyleyebilirim. Ancak gerçek şu ki Afrikalılar için ses tanıma konusunda gidilecek çok daha uzun bir yol var.


Hala neden 10 milyonun üzerinde anadili olan Afrika dillerini kullanabilecek çok fazla uygulamamız olmadığını merak ediyorum. Bu nedenle, Afrika bağlamlarında ve dillerinde yapay zeka ve doğal dil işlemenin mevcut durumu hakkında bir alan dilbilimcisi ve akademik araştırmacıyla konuşmaya karar verdim.


S: Merhaba, bana kendinizden bahseder misiniz? Bir dilbilimci ve NLP yapay zeka meraklısı olarak ilgi alanlarınız nelerdir?

Merhaba, ben Olanrewaju Samuel.


Hesaplamalı ses bilimi, veri kümesi oluşturma, açıklama ve iyileştirme, Doğal Dil İşleme ve alan dilbilimi ile ilgileniyorum.


Olanrewaju Samuel, Nijeryalı Sesbilimci ve Hesaplamalı Dilbilimci


Birincil akıl hocam Doktor Akinbo Samuel . Son zamanlarda protein dilbilimi, protein katlanması ve matematiksel dilbilimden büyük keyif aldım. Çok saygı duyduğum bir akademisyenin adı Jeffrey Heinz . Çalışmaları araştırmamı etkiledi ve uzmanlığımı derin öğrenme NLP ve robot bilimine verdim. Şu anki çalışma alanım protein katlanması ve kuantum fiziği, kuantum kimyası ve dilbilim arasındaki karşılıklı ilişkiler üzerinedir.


Henüz araştırma hedeflerim konusunda katı değilim ancak şimdilik uzmanlığımı geliştirmeye ve olanaklarımı keşfetmeye odaklandım. Sertifikalar için değil, kişisel gelişim için. Bu yüzden hem kendimi geliştirmeye hem de buradaki programımı tamamlayıp başka işlere yönelmeye çalışıyorum.


Soru: Bu alandaki yayınlarınızdan bazıları nelerdir?

Farklı yayınların parçası olmak için farklı harika kişilerle işbirliği yaptım. Son zamanlarda dilbilimi makalelerimden biri “ Yoruba sözlü şiirinin iki türünde vokal ifadenin akustik olarak incelenmesi .” NLP'de öne çıkan yayınlarımın çoğu öncelikle Masakhane NLP grubundan geliyor.


Bu içerir:


Kaynak: Omotayo Tajudeen (Pixabay)

S: Kigali, Ruanda'daki mevcut işiniz nedir?

“Dilbilimciler için Doğal Dil İşleme” başlıklı bir ders veriyorum. Temel olarak Kigali, Ruanda'da Afrika bağlamlarında dilsel doğal dil süreçlerini öğretiyorum.


Büyük dil modelleri (LLM) oluşturmak gibi farklı NLP görevleri için çok dilli veri kümeleri oluşturma, açıklama ekleme, düzenleme, analiz etme ve yayınlama konusundaki nüansları sağlamak ve göstermekle görevlendirildim. Büyük bir dil modeli, birden fazla dil sistemini tek bir akışta çalışacak şekilde bir araya getirmek anlamına gelir. Bunu, yapay zeka sistemini bir model veya şablonla eğitmek anlamına gelen lateralizasyon yoluyla başarmaya çalışıyoruz. Desen daha sonra diğer uygulamaların temeli haline gelir.


Konuşmaya dayalı yapay zekanın ötesinde, üretken yapay zeka alanında anlamlı bir şeyler yapmayı düşünüyoruz; bu, modelin verileri değiştirme ve olasılık gibi matematiksel hesaplamalarla sonuçlar üretme yeteneği için hala yanallaştırmanın bir parçası.


Soru: AI/NLP'nin Afrika bağlamındaki mevcut durumundan ve uygulamalarından bahsedebilir misiniz?

NLP, Afrika'da birçok durumda kullanıldı; bunlardan bazıları robotik ve konuşma yapay zekasını içeriyor. Konuşmaya dayalı yapay zekanın tipik bir örneği , doğal turistlerin (diğer eyaletlerden Nijeryalılar) Lagos (bir mega şehir ve eyalet) çevresinde yollarını bulmalarına ve restoranlar, kulüpler, mağazalar gibi yerleri belirlemelerine yardımcı olan Lagos Alaye'dir . ve hatta popüler Nijeryalı pidgin'i (Naija pidgin) kullanan trafik durumları.


Görevleri gerçekleştirmek üzere eğitilebilecek yapay zeka modelleri geliştiriyoruz; karmaşık bir sistem veya süreç, basit komut dizesine (modelleme) daraltılmıştır. Şu anda Afrika'da NLP'nin robot bilimindeki pratik uygulaması budur.


Şu anda dilbilimde yapay zeka uygulaması çoğunlukla otomasyondadır, ancak diğerlerinin yanı sıra robotlar ve sohbet robotları gibi farklı yapay zeka uygulamalarına aşılanmış dilsel modeller de mevcuttur.


Gerçekten harika şeyler yapan bazı arkadaşlarımız var. Maskhane , Mbaza-NLP , NLPGhana ( Daha ), Ve Kenya NLP .


Afrika dilleri bağlamında yapay zeka uygulamalarının zorlukları nelerdir?

Yapay zeka endüstrisinde küresel uygunluk bulma konusunda Afrika'nın manzarasında karşılaşılan en büyük zorluk, dil kaynaklarının (verilerin) sınırlı olmasıdır. Afrika çok dillidir, dolayısıyla sınırlı veri kümeleri Dünyada devam eden çeşitli yapay zeka projeleri için ihtiyaç duyulan büyük miktarda veriyi sağlamak. Örneğin Afrika'da sahip olduğumuz en büyük dil veri seti yaklaşık 2000 saattir, ancak tanınan veri kümeleri milyarlarca saatlik ses verisine sahip olan İngilizce ile karşılaştırıldığında çok saçma olan çok daha küçüktür.


Yapay zekanın başına bir şey gelecekse bu, yüksek kaynaklı dillerin başına gelecektir. Afrika dillerinin başına gelse bile onları besleyecek sistemlere sahip değiliz. Dolayısıyla elimizde yeteri kadar çalışma olmadığı için geride kalıyoruz ve konu neredeyse ömür boyu sürecek bir belge eksikliği sorunu oldu.


Örneğin Nijerya'da 200'den fazla kabile var, ancak yalnızca üç dil en popüler. Yoruba, Igbo ve Hausa'nın aksine, daha küçük kabileler ve diller çok az veriye sahiptir (düşük kaynak verileri). Yapmaya çalıştığımız şey bu Mbaza-NLP , düşük kaynaklı dillerden veri toplayın ve bunları konuşmayı metne (STT) ve metinden konuşmaya (TTS) dahil olmak üzere programlanabilir konuşma tanıma için kullanın.


Yapay zeka ve NLP teknisyenleri, buna inanmadıkları için ya da yatırım getirilerini araştıracak yeterli veri olmadığını düşündükleri için yatırım yapmıyorlar. Bu nedenle mevcut yer altı çalışmalarımızın bir atılım olmasını umuyoruz.


Dahası, en popüler arama motorlarının Asyalı ve Batılı (özellikle Amerikalı) olması nedeniyle, Afrika küresel dilsel yapay zeka ve NLP pazarında marjinalleştirilmiştir. Ayrıca burada yaptığımız bazı işlerde sponsorluk nedeniyle Afrikalılar olarak kendilerine hak veremiyoruz.


S: Afrika NLP uygulamalarında en fazla ilerleme kaydeden Afrika ülkeleri hangileri?

En çok etki yaratan Afrika ülkeleri arasında Güney Afrika, Kenya ve Ruanda yer alıyor; bu adamlar deli! Nijerya da çabalıyor, ancak alanı keşfetmesi gereken çoğu kişi gelişmenin peşinde değil, akademik sertifikaların hazzını arıyor. Dilimize/dillerimize değer veriyoruz ancak onlarla veri kümeleri oluşturmuyoruz. Dili korumak ve muhafaza etmek için belgelere yatırım yapmamız gerekirken, dilimizi bir miras olarak konuşmayı veya özelleştirmeyi tercih ederiz.


S: Peki iş açısından bakıldığında, Afrika dilleri için NLP'nin ticarileştirilmesinde Afrika nerede duruyor?

Dürüst olmak gerekirse veri kümelerini satma işi dışında pek bir şey yok. Öyle bile olsa, projelere para pompalayanlar çok veriyor ama saha temsilcilerine giden miktar, başlangıçta yatırılan miktarla karşılaştırıldığında çok az.


S: Bu beni etik sorununa getiriyor. İnsanların verilerini toplamanın ve satmanın etik bir değeri var mı? Ve bu projeler için büyük miktarda para almak ve bu dillerin birincil kaynaklarının çok az miktarda (bazen sıfır) alması adil midir? Bu veriler veya kaynaklar için korumalar var mı?

Veri toplanmasına karşı herhangi bir yasa bulunmamaktadır. En önemlisi verilerin anadili konuşan kişilerden isteyerek toplanması ve ayırdıkları zamanın ödüllendirilmesidir. Ancak tüm faaliyetlerin Afrika Birliği'nin ilkeleriyle uyumlu olması gerekiyor. AÜ Veri Gizliliği Yasaları. Ayrıca, veri toplamayı içeren dilbilim araştırmaları genellikle anadili konuşanların veya katılımcıların iznini gerektirir.



İkinci sorunuza gelince, bu alanlarda çalışan insanlara eninde sonunda ulaşan para miktarı konusunda kimsenin yapabileceği bir şey yok. En önemlisi herkesin gönüllü olarak projeye katılmasıdır. İnsanlara kayıt altına alınıp ödüllendirilecekleri anlatılıyor ve fiyattan memnun oldukları sürece “haksızlık” olmuyor.


S: Mevcut haliyle NLP'ye ve dil eğitimine katılmak isteyen varsa ne önerirsiniz?

Geniş bir alandır. Birçoğunun zaten temelleri var ve inşaat aşamasındalar, ancak hâlâ temel oluşturamayan daha fazla yönümüz var. Herkese tavsiye edeceğim şey, dil verilerinin toplanması ve analizine dahil olmalarıdır. Veriye ihtiyacımız olduğu kadar veri kümeleri için de veri analitiğine ihtiyacımız var.


Bu nedenle, veri odaklı hevesli gruplara katılmanızı veya gönüllü olmanızı önereceğim; Veri toplama ve analiz, terminolojiyi öğrenme ve diğerleri için gönüllü olun.



Son düşünceler

Pixabay: Kellepics/1112


Afrika, farklı yapay zeka ve NLP'ye yönelik komutlar veya istemlerle ses tanıma yazılımında uygunsuz bir şekilde temsil edilmeye devam ediyor. Afrikalılar veri kümeleri oluşturmaya, kendi dillerini ortaya koymaya ve belgelere yatırım yapmaya devam etmeye başladıklarında anlatı farklılaşacak. Ancak yapay zeka ve NLP uygulamalarıyla ilgili Afrika'dan çıkan bazı eserlerden etkileneceksiniz.


Araştırmamda ve takip ettiğim ipuçlarında, robotların yerel Afrika dilleriyle yönlendirildiğini gördüm, farklı Afrika bağlamlarına (turizm, keşif) uygun daha fazla yerel sohbet robotumuz var, ev aletlerinde IoT için bazı diller kullanılıyor. Ancak şu anda dünyada yaşanan devasa yapay zeka ve NLP devrimi göz önüne alındığında, daha fazlasını yapmamız gerektiğine inanıyorum. Şimdilik elimizde daha fazlası var veri kümeleri için metin sınıflandırmaları ses verileri için sahip olduğumuzdan daha fazla. Ancak hem işitsel hem de metinsel veri kümelerine daha fazla ihtiyacımız var. Veri yeni para birimidir, açıkçası Afrikalıların bunu yabancılar yanlış işler yapmadan hemen önce yapacağını umuyorum (Ah, evet, daha önce yayınlanmış bir kitapta yanlış tarihsel verilerin bildirildiğini okumuştum; uygunsuz belgelerin bize yaptığı şey budur).