몇 년 전, 나는 Google 어시스턴트에게 간단한 질문(무엇인지 기억이 나지 않음)을 물었고 관련 없는 답변을 받았습니다. 다시 물었더니 다른 대답이 나왔다. 질문을 입력해야 했어요.
개인적 발전과 노출로 인해 나의 영어 말하기와 억양이 향상되었지만, 많은 음성 인식 앱과 소프트웨어가 아프리카 사용자(악센트 기준)에 점점 더 적응하고 있다는 것도 알 수 있습니다. 그러나 사실 아프리카인의 음성 인식은 갈 길이 훨씬 더 멀다.
아직도 천만 명이 넘는 원어민이 살고 있는 아프리카의 주요 현지 언어를 지원하는 앱이 많지 않은 이유가 아직도 궁금합니다. 그래서 저는 아프리카의 맥락과 언어에서 인공지능 과 자연어 처리의 현황에 대해 현장 언어학자이자 학술 연구자와 이야기를 나눠보기로 했습니다.
안녕하세요, 저는 Olanrewaju Samuel입니다.
저는 컴퓨터 음운론, 데이터 세트 구축, 주석 및 큐레이션, 자연어 처리 및 현장 언어학에 관심이 있습니다.
나의 주요 멘토는
아직 연구 목표가 엄격하지는 않지만, 지금은 전문성을 키우고 가능성을 탐구하는 데 집중하고 있습니다. 자격증 자체를 위해서가 아니라 자기계발을 위해서입니다. 그래서 저는 여기서 제 프로그램을 완성하고 다른 일로 넘어가는 동시에 제 자신을 발전시키려고 노력하고 있습니다.
저는 다양한 출판물에 참여하기 위해 다양한 훌륭한 개인들과 협력했습니다. 나의 최근 언어학 논문 중 하나는 “
여기에는 다음이 포함됩니다.
저는 "언어학자를 위한 자연어 처리"라는 과목을 가르치고 있습니다. 기본적으로 저는 르완다 키갈리에서 아프리카 환경 내에서 언어적 자연어 과정을 가르치고 있습니다.
저는 대규모 언어 모델(LLM) 구축과 같은 다양한 NLP 작업을 위한 다국어 데이터 세트 구축, 주석 달기, 선별, 분석 및 게시의 미묘한 차이를 제공하고 시연하는 임무를 맡고 있습니다. 대규모 언어 모델은 단일 스트림 내에서 여러 언어 시스템이 작동하도록 하는 것을 의미합니다. 우리는 일종의 패턴이나 템플릿을 사용하여 AI 시스템을 훈련시키는 측면화를 통해 이를 달성하려고 노력합니다. 그러면 이 패턴은 다른 애플리케이션의 기초가 됩니다.
대화형 AI를 넘어서, 우리는 생성적 AI 분야에서 의미 있는 일을 하는 것을 검토하고 있습니다. 이는 여전히 데이터를 순열하고 확률과 같은 수학적 계산을 통해 결과를 생성하는 모델의 능력에 대한 측면화의 일부입니다.
NLP는 아프리카 전역의 많은 사례에서 사용되었으며 그 중 일부에는 로봇 공학 및 대화형 AI가 포함됩니다. 대화형 AI의 대표적인 예가 라고스의 알라예(Lagos' Alaye)로, 자연 관광객(다른 주에서 온 나이지리아인)이 거대 도시이자 주인 라고스 주변에서 길을 찾을 수 있도록 돕고 레스토랑, 클럽, 상점, 상점 등의 위치를 식별하도록 돕는다. 인기 있는 나이지리아 피진(Naija pidgin)을 사용하여 교통 상황까지 알려줍니다.
복잡한 시스템이나 프로세스를 간단한 명령 문자열(모델링)로 압축하여 작업을 수행하도록 훈련할 수 있는 AI 모델을 개발하고 있습니다. 이것이 바로 현재 아프리카에서 로봇 공학에 NLP가 실제로 적용되는 것입니다.
현재 언어학에서는 로봇, 챗봇 등 다양한 AI 응용 프로그램에 언어 모델이 주입되어 있지만 AI의 응용은 대부분 자동화에 있습니다.
다음과 같이 정말 훌륭한 일을 하는 사람들이 있습니다.
AI 산업에서 글로벌 타당성을 찾는 데 있어서 아프리카 환경에 대한 주요 과제는 언어 자원(데이터)의 한계입니다. 아프리카는 다국어를 사용하므로
AI에 무슨 일이 생기면 고자원 언어에도 일어날 것입니다. 설사 아프리카 언어에 그런 일이 일어난다고 해도 우리는 그 언어에 힘을 실어줄 시스템을 갖고 있지 않습니다. 따라서 우리는 작업할 수 있는 리소스가 부족하여 뒤쳐지고 있으며, 문서 부족으로 인해 거의 평생 문제가 되어 왔습니다.
예를 들어 나이지리아의 경우 200개 이상의 부족이 있지만 가장 인기 있는 언어는 세 가지뿐입니다. Yoruba, Igbo 및 Hausa와 달리 소규모 부족 및 언어에는 데이터가 거의 없습니다(낮은 리소스 데이터). 그게 우리가 하려고 하는 일이야
AI 및 NLP 기술자는 투자를 믿지 않거나 ROI를 탐색할 데이터가 충분하지 않다고 생각하여 투자하지 않습니다. 그래서 우리는 현재 진행 중인 지하 작업이 돌파구가 되기를 바라고 있습니다.
더욱이 아프리카는 가장 인기 있는 검색 엔진이 아시아와 서양(특히 미국)이기 때문에 세계 언어 AI 및 NLP 시장에서 소외됩니다. 또한 이곳에서 우리 작품 중 일부는 후원 때문에 아프리카인이라는 공로를 인정할 수 없습니다.
가장 큰 영향을 미친 아프리카 국가로는 남아프리카공화국, 케냐, 르완다 등이 있습니다. 그 사람들은 미쳤어요! 나이지리아도 노력하고 있지만 우주를 탐험해야 할 대부분의 사람들은 개발이 아니라 학업 인증의 만족을 추구하고 있습니다. 우리는 언어를 소중히 여기지만 언어로 데이터 세트를 구축하지는 않습니다. 우리는 언어를 보존하고 보호하기 위해 문서화에 투자해야 할 때 오히려 우리 언어를 유산으로 말하거나 사유화할 것입니다.
솔직히 데이터 세트 판매 사업 외에는 별로 없습니다. 그럼에도 불구하고 프로젝트에 돈을 투자하는 사람들은 많은 것을 주지만 현장 요원에게 전달되는 금액은 원래 투자한 금액에 비해 매우 적습니다.
데이터 수집에 대한 법률은 없습니다. 가장 중요한 것은 원어민들로부터 기꺼이 데이터를 수집하고, 시간에 대한 보상을 받는다는 것입니다. 그러나 모든 활동은 아프리카 연합의 방침에 따라야 합니다.
두 번째 질문은 결국 이 분야에 종사하는 사람들에게 도달하는 금액에 대해 누구도 할 수 있는 일이 없다는 것입니다. 가장 중요한 것은 모두가 기꺼이 프로젝트에 참여한다는 것입니다. 기록을 남기고 보상을 해준다고 하는데, 대가만 괜찮다면 ‘불공평’은 없다.
넓은 들판입니다. 많은 사람들이 이미 기초를 갖고 있고 건설 단계에 있지만 아직 기초가 거의 없는 측면이 더 많습니다. 제가 누구에게나 추천하고 싶은 것은 언어 데이터 수집 및 분석에 참여하는 것입니다. 데이터가 필요한 만큼 데이터세트에 대한 데이터 분석도 필요합니다.
따라서 저는 열정적인 데이터 기반 그룹에 가입하거나 자원 봉사를 할 것을 권장합니다. 데이터 수집 및 분석, 명명법 학습 등을 위해 자원봉사합니다.
아프리카는 다양한 AI 및 NLP에 대한 명령이나 프롬프트가 포함된 음성 인식 소프트웨어에서 계속해서 부적절하게 표현됩니다. 아프리카인들이 데이터 세트를 구축하고 자신의 언어를 내놓고 문서에 계속 투자하면 이야기는 달라질 것입니다. 그러나 AI 및 NLP 애플리케이션과 관련하여 아프리카에서 나오는 일부 창작물에 깊은 인상을 받을 것입니다.
내 연구와 리드를 따르면 로봇이 현지 아프리카 언어로 메시지를 받고 다양한 아프리카 상황(관광, 탐사)에 적합한 현지 챗봇이 더 많아지고 일부 언어는 가전제품용 IoT에 사용되는 것을 보았습니다. 하지만 지금 세계에서 진행되고 있는 대규모 AI 및 NLP 혁명을 고려할 때 우리는 더 많은 일을 해야 한다고 생각합니다. 현재로서는 더 많은 정보가 있습니다.