Hace algunos años, le hice una pregunta simple al Asistente de Google (no recuerdo cuál era) y me dio una respuesta no relacionada. Pregunté de nuevo, y me trajo una respuesta diferente. Tuve que escribir mi pregunta.
Mi inglés hablado y mi acentuación han mejorado debido al desarrollo personal y la exposición, pero también puedo decir que muchas aplicaciones y software de reconocimiento de voz se están volviendo más adaptables a los hablantes africanos (en cuanto al acento). Sin embargo, la verdad es que el reconocimiento de voz para los africanos tiene un camino mucho más largo por recorrer.
Todavía me pregunto por qué no tenemos muchas aplicaciones que se puedan solicitar con los principales idiomas africanos locales, de los cuales hay más de 10 millones de hablantes nativos. Entonces, decidí hablar con un lingüista de campo e investigador académico sobre la situación actual de la inteligencia artificial y el procesamiento del lenguaje natural en contextos e idiomas africanos.
Hola, soy Olanrewaju Samuel.
Estoy interesado en la fonología computacional, la construcción de conjuntos de datos, la anotación y la curación, el procesamiento del lenguaje natural y la lingüística de campo.
Mi principal mentor es
Todavía no soy estricto con mis objetivos de investigación, pero estoy enfocado en desarrollar mi experiencia y explorar mis posibilidades por ahora. No por las certificaciones en sí, sino por el autodesarrollo. Por lo tanto, busco desarrollarme al mismo tiempo que intento completar mi programa aquí y pasar a otras cosas.
He colaborado con diferentes grandes personas para formar parte de diferentes publicaciones. Uno de mis artículos lingüísticos recientes es “
Esto incluye:
Estoy impartiendo un curso titulado "Procesamiento del lenguaje natural para lingüistas". Básicamente, estoy enseñando procesos lingüísticos del lenguaje natural dentro de los contextos africanos en Kigali, Ruanda.
Tengo la tarea de proporcionar y demostrar los matices de la creación, anotación, selección, análisis y publicación de conjuntos de datos multilingües para diferentes tareas de NLP, como la creación de modelos de lenguaje extenso (LLM). Un modelo de lenguaje grande significa traer múltiples sistemas de lenguaje para que funcionen dentro de una sola secuencia. Intentamos lograr eso mediante la lateralización, que es una especie de entrenamiento del sistema de IA con un patrón o plantilla. El patrón se convierte entonces en la base de sus otras aplicaciones.
Más allá de la IA conversacional, buscamos hacer algo significativo en el campo de la IA generativa, que sigue siendo parte de la lateralización de la capacidad del modelo para permutar datos y generar resultados mediante cálculos matemáticos como la probabilidad.
La PNL se ha utilizado en muchos casos en África, algunos de los cuales incluyen robótica e inteligencia artificial conversacional. Un ejemplo típico de una IA conversacional es Alaye de Lagos, que ayuda a los turistas naturales (nigerianos de otros estados) a orientarse en Lagos —una megaciudad y estado— e identificar lugares como restaurantes, discotecas, tiendas, e incluso situaciones de tráfico usando el popular pidgin nigeriano (Naija pidgin).
Estamos desarrollando modelos de IA que se pueden entrenar para realizar tareas: un sistema o proceso complejo se reduce a una simple cadena de comandos (modelado). Esa es la aplicación práctica de la PNL en robótica tal como está en África, en este momento.
Actualmente, en lingüística, la aplicación de la IA se encuentra principalmente en la automatización, aunque existen modelos lingüísticos infundidos en diferentes aplicaciones de IA, como en robots y chatbots, entre otros.
Tenemos algunas personas que hacen cosas realmente geniales, como
Un desafío importante para el panorama de África a la hora de encontrar relevancia global en la industria de la IA es la limitación de los recursos lingüísticos (datos). África es multilingüe, por lo tanto, hay
Si algo le sucederá a la IA, le sucederá a los lenguajes de muchos recursos. Incluso si sucediera con los idiomas africanos, no tenemos los sistemas para hacerlos funcionar. Por lo tanto, nos estamos quedando atrás porque no tenemos suficiente con qué trabajar, y el problema ha sido un problema de casi toda la vida debido a nuestra falta de documentación.
Tome Nigeria, por ejemplo, más de 200 tribus, pero solo tres idiomas son los más populares. A diferencia de yoruba, igbo y hausa, las tribus y los idiomas más pequeños tienen pocos datos (datos de bajos recursos). Eso es lo que estamos tratando de hacer en
Los técnicos de IA y NLP no están invirtiendo porque no creen en ello o porque piensan que no hay suficientes datos para explorar para su ROI. Por lo tanto, esperamos que nuestras obras subterráneas actuales sean un gran avance.
Además, África está marginada en el mercado global de IA lingüística y PNL porque los motores de búsqueda más populares son asiáticos y occidentales (estadounidenses, especialmente). Además, por algunos de nuestros trabajos aquí, no podemos atribuirlos como africanos debido al patrocinio.
Los países africanos que han tenido el mayor impacto incluyen Sudáfrica, Kenia y Ruanda. ¡Esos tipos están locos! Nigeria también lo está intentando, pero la mayoría de las personas que deberían explorar el espacio no buscan el desarrollo sino las gratificaciones de las certificaciones académicas. Valoramos nuestro(s) idioma(s), pero no estamos construyendo conjuntos de datos con ellos. Preferimos hablar o privatizar nuestro idioma como patrimonio cuando deberíamos invertir en documentación para preservar y proteger el idioma.
Honestamente, no hay mucho más que el negocio de vender conjuntos de datos. Incluso así, los que inyectan dinero en los proyectos dan mucho, pero la cantidad que llega a los agentes de campo es muy pequeña en comparación con la cantidad original puesta.
No existe ninguna ley contra la recopilación de datos. Lo más importante es que los datos se recopilan voluntariamente de los hablantes nativos y se les recompensa por su tiempo. Sin embargo, todas las actividades deben estar alineadas con la Unión Africana
Y a su segunda pregunta, no hay nada que nadie pueda hacer con respecto a la cantidad de dinero que eventualmente llega a las personas involucradas en estos campos. Lo más importante es que todos se comprometan con el proyecto de buena gana. Se les dice a las personas que serán registradas y recompensadas, y mientras estén de acuerdo con el precio, no hay “injusticia”.
Es un campo amplio. Muchos ya tienen cimientos y están en etapas de construcción, pero aún tenemos más aspectos que son apenas fundacionales. Lo que recomendaré a cualquiera es involucrarse en la recopilación y el análisis de datos lingüísticos. Necesitamos análisis de datos para conjuntos de datos tanto como necesitamos datos.
Por lo tanto, recomendaré unirse o ser voluntario en grupos entusiastas basados en datos; voluntario para la recolección y análisis de datos, aprendizaje de nomenclatura y otros.
África sigue estando mal representada en el software de reconocimiento de voz con comandos o avisos para diferentes IA y NLP. La narrativa será diferente cuando los africanos se dispongan a construir conjuntos de datos y expongan su idioma y continúen invirtiendo en documentación. Sin embargo, quedará impresionado con algunas de las creaciones provenientes de África relacionadas con las aplicaciones de IA y PNL.
En mi investigación y seguimiento de pistas, he visto que a los robots se les solicitan idiomas africanos locales, tenemos más chatbots locales aptos para diferentes contextos africanos (turismo, exploración), algunos idiomas se utilizan para IoT para electrodomésticos. Sin embargo, creo que deberíamos estar haciendo más, considerando la revolución masiva de IA y PNL que está ocurriendo en el mundo en este momento. Por ahora tenemos más