paint-brush
আফ্রিকান ভাষা এবং ভাষাবিজ্ঞানে এআই এর ল্যান্ডস্কেপদ্বারা@kingabimbola
1,169 পড়া
1,169 পড়া

আফ্রিকান ভাষা এবং ভাষাবিজ্ঞানে এআই এর ল্যান্ডস্কেপ

দ্বারা M. Abimbola Mosobalaje7m2023/05/20
Read on Terminal Reader
Read this story w/o Javascript

অতিদীর্ঘ; পড়তে

এনএলপি আফ্রিকা জুড়ে অনেক ক্ষেত্রে ব্যবহার করা হয়েছে, যার মধ্যে কিছু রোবোটিক্স এবং কথোপকথনমূলক এআই অন্তর্ভুক্ত। বর্তমানে, আফ্রিকা আরও উন্নত সিস্টেমের জন্য একাধিক আফ্রিকান ভাষার সাথে বৃহৎ ভাষার মডেল তৈরি করছে যা একটি স্রোতে কাজ করার জন্য প্রশিক্ষিত হতে পারে - একটি জটিল সিস্টেম তারপর একটি একক অ্যাকশনে (মডেলিং) সংকুচিত হয়।
featured image - আফ্রিকান ভাষা এবং ভাষাবিজ্ঞানে এআই এর ল্যান্ডস্কেপ
M. Abimbola Mosobalaje HackerNoon profile picture
0-item
1-item

কয়েক বছর আগে, আমি গুগল সহকারীকে একটি সাধারণ প্রশ্ন জিজ্ঞাসা করেছি (এটি কী ছিল মনে করতে পারছি না) এবং এটি একটি সম্পর্কহীন উত্তর নিয়ে এসেছিল। আমি আবার জিজ্ঞাসা, এবং এটি একটি ভিন্ন উত্তর এনেছে. আমি আমার প্রশ্ন টাইপ ছিল.



সেই সময়ে, আমি উপসংহারে পৌঁছেছি যে ভয়েস রিকগনিশন সফ্টওয়্যার আফ্রিকানদের জন্য তৈরি করা হয়নি।

ব্যক্তিগত বিকাশ এবং এক্সপোজারের কারণে আমার কথ্য ইংরেজি এবং উচ্চারণ উন্নত হয়েছে, তবে আমি এটাও বলতে পারি যে অনেক ভয়েস রিকগনিশন অ্যাপ এবং সফ্টওয়্যার আফ্রিকান স্পিকারদের (উচ্চারণ-ভিত্তিক) সাথে আরও বেশি অভিযোজিত হয়ে উঠছে। যাইহোক, সত্য যে আফ্রিকানদের জন্য ভয়েস স্বীকৃতি অনেক দীর্ঘ পথ যেতে হবে.


আমি এখনও ভাবছি কেন আমাদের কাছে এমন অনেক অ্যাপ নেই যা প্রধান স্থানীয় আফ্রিকান ভাষাগুলির সাথে প্রম্পট করা যেতে পারে, যার মধ্যে 10 মিলিয়নেরও বেশি স্থানীয় ভাষাভাষী আছে। তাই, আমি আফ্রিকান প্রেক্ষাপট এবং ভাষাগুলিতে কৃত্রিম বুদ্ধিমত্তা এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণের বর্তমান পরিস্থিতি সম্পর্কে একজন ভাষাবিদ এবং একাডেমিক গবেষকের সাথে কথা বলার সিদ্ধান্ত নিয়েছি।


প্রশ্ন: হ্যালো, আপনি কি আমাকে আপনার সম্পর্কে বলতে পারেন এবং একজন ভাষাবিদ এবং এনএলপি এআই উত্সাহী হিসাবে, আপনার আগ্রহ কী?

হাই, আমি ওলানরেওয়াজু স্যামুয়েল।


আমি কম্পিউটেশনাল ফোনোলজি, ডেটাসেট বিল্ডিং, টীকা এবং কিউরেশন, প্রাকৃতিক ভাষা প্রক্রিয়াকরণ এবং ক্ষেত্রের ভাষাবিজ্ঞানে আগ্রহী।


ওলানরেওয়াজু স্যামুয়েল, নাইজেরিয়ান ফোনোলজিস্ট এবং কম্পিউটেশনাল ভাষাবিদ


আমার প্রাথমিক পরামর্শদাতা ডঃ আকিনবো স্যামুয়েল . ইদানীং, আমি প্রোটিন ভাষাতত্ত্ব, প্রোটিন ভাঁজ এবং গাণিতিক ভাষাবিজ্ঞানে খুব আনন্দ পেয়েছি। একজন আলেমকে আমি খুব শ্রদ্ধা করি তার নাম জেফরি হেইঞ্জ . তার কাজগুলি আমার গবেষণাকে প্রভাবিত করেছে, এবং আমি NLP এবং রোবোটিক্স গভীরভাবে শেখার জন্য আমার দক্ষতা ধার দিয়েছি। আমার বর্তমান অধ্যয়নের ক্ষেত্রটি প্রোটিন ভাঁজ এবং কোয়ান্টাম পদার্থবিদ্যা, কোয়ান্টাম রসায়ন এবং ভাষাবিজ্ঞানের মধ্যে আন্তঃসম্পর্ক।


আমি এখনও আমার গবেষণার লক্ষ্যগুলির সাথে কঠোর নই, তবে আমি আমার দক্ষতার বিকাশ এবং আপাতত আমার সম্ভাবনাগুলি অন্বেষণে মনোনিবেশ করছি। স্ব-উন্নয়নের জন্য সার্টিফিকেশনের জন্য নয়। সুতরাং, আমি এখানে আমার প্রোগ্রামটি সম্পূর্ণ করার চেষ্টা করার সময় নিজেকে বিকাশ করতে চাইছি এবং অন্য কিছুতে এগিয়ে যেতে চাইছি।


প্রশ্ন: এই ক্ষেত্রে আপনার কিছু প্রকাশনা কি?

আমি বিভিন্ন প্রকাশনার অংশ হতে বিভিন্ন মহান ব্যক্তির সাথে সহযোগিতা করেছি। আমার সাম্প্রতিক ভাষাবিজ্ঞানের একটি গবেষণাপত্র হল " ইওরুবা মৌখিক কবিতার দুটি ধারায় কণ্ঠ্য প্রকাশের একটি শাব্দিক অধ্যয়ন " প্রাথমিকভাবে, এনএলপি-তে আমার বেশিরভাগ বৈশিষ্ট্যযুক্ত প্রকাশনাগুলি মাসাখানে এনএলপি গ্রুপের।


এটা অন্তর্ভুক্ত:


সূত্র: Omotayo Tajudeen (Pixabay)

প্রশ্ন: কিগালি, রুয়ান্ডায় আপনার বর্তমান কাজ কী?

আমি "ভাষাবিদদের জন্য প্রাকৃতিক ভাষা প্রক্রিয়াকরণ" শিরোনামের একটি কোর্স শেখাচ্ছি। মূলত, আমি কিগালি, রুয়ান্ডায় আফ্রিকান প্রেক্ষাপটের মধ্যে ভাষাগত প্রাকৃতিক ভাষা প্রক্রিয়া শেখাচ্ছি।


আমাকে বিভিন্ন এনএলপি কাজের জন্য বহুভাষিক ডেটাসেট নির্মাণ, টীকা, কিউরেট, বিশ্লেষণ এবং প্রকাশ করার সূক্ষ্মতা প্রদান এবং প্রদর্শনের দায়িত্ব দেওয়া হয়েছে, যেমন বড় ভাষা মডেল (এলএলএম) তৈরি করা। একটি বৃহৎ ভাষা মডেল মানে একটি একক স্ট্রীমের মধ্যে কাজ করার জন্য একাধিক ভাষা ব্যবস্থা নিয়ে আসা। আমরা পাশ্বর্ীয়করণের মাধ্যমে এটি অর্জন করার চেষ্টা করি, যা একধরনের, একটি প্যাটার্ন বা টেমপ্লেট দিয়ে এআই সিস্টেমকে প্রশিক্ষণ দিয়ে। প্যাটার্ন তারপর তার অন্যান্য অ্যাপ্লিকেশনের জন্য ভিত্তি হয়ে ওঠে.


কথোপকথনমূলক AI এর বাইরে, আমরা জেনারেটিভ AI এর ক্ষেত্রে অর্থপূর্ণ কিছু করার দিকে তাকিয়ে আছি, যা এখনও মডেলের ডেটা পরিবর্তন করার এবং সম্ভাব্যতার মতো গাণিতিক গণনা দ্বারা ফলাফল তৈরি করার ক্ষমতার জন্য পার্শ্বীয়করণের একটি অংশ।


প্রশ্ন: আপনি কি আফ্রিকার প্রেক্ষাপটে এআই/এনএলপির বর্তমান পরিস্থিতি এবং প্রয়োগ সম্পর্কে কথা বলতে পারেন?

এনএলপি আফ্রিকা জুড়ে অনেক ক্ষেত্রে ব্যবহার করা হয়েছে, যার মধ্যে কিছু রোবোটিক্স এবং কথোপকথনমূলক এআই অন্তর্ভুক্ত। একটি কথোপকথনমূলক AI এর একটি সাধারণ উদাহরণ হল লাগোস' আলায়ে, যা প্রাকৃতিক পর্যটকদের (অন্যান্য রাজ্য থেকে আসা নাইজেরিয়ানদের) লাগোসের আশেপাশে তাদের পথ খুঁজে পেতে সাহায্য করে—একটি মেগা-শহর এবং রাজ্য—এবং রেস্তোরাঁ, ক্লাব, দোকানের মতো অবস্থানগুলি সনাক্ত করতে। এমনকি জনপ্রিয় নাইজেরিয়ান পিজিন (নাইজা পিজিন) ব্যবহার করে ট্রাফিক পরিস্থিতি।


আমরা এমন AI মডেলগুলি তৈরি করছি যেগুলিকে কার্য সম্পাদনের জন্য প্রশিক্ষিত করা যেতে পারে - একটি জটিল সিস্টেম বা প্রক্রিয়াকে সাধারণ কমান্ড স্ট্রিং (মডেলিং) এ সংকুচিত করা হয়েছে। রোবোটিক্সে এনএলপি-এর ব্যবহারিক প্রয়োগই এই মুহূর্তে আফ্রিকায় দাঁড়িয়ে আছে।


বর্তমানে, ভাষাবিজ্ঞানে, এআই-এর প্রয়োগ বেশিরভাগই অটোমেশনে, যদিও বিভিন্ন এআই অ্যাপ্লিকেশন যেমন রোবট এবং চ্যাটবটগুলিতে ভাষাগত মডেল রয়েছে।


আমরা কিছু মানুষ সত্যিই মহান জিনিস করছেন, মত মাসখনে , এমবাজা-এনএলপি , এনএলপিঘানা ( আরো ), এবং কেনিয়া এনএলপি .


আফ্রিকান ভাষার প্রেক্ষাপটে এআই অ্যাপ্লিকেশনগুলির চ্যালেঞ্জগুলি কী কী

এআই শিল্পে বিশ্বব্যাপী প্রাসঙ্গিকতা খুঁজে বের করার ক্ষেত্রে আফ্রিকার ল্যান্ডস্কেপের একটি বড় চ্যালেঞ্জ হল ভাষা সম্পদের (ডেটা) সীমাবদ্ধতা। আফ্রিকা বহুভাষিক, তাই আছে সীমিত ডেটাসেট বিশ্বের বিভিন্ন এআই প্রকল্পের জন্য প্রয়োজনীয় বিপুল পরিমাণ ডেটা সরবরাহ করতে। উদাহরণস্বরূপ, আফ্রিকাতে আমাদের কাছে সবচেয়ে বড় ভাষা ডেটাসেট প্রায় 2000 ঘন্টা, কিন্তু স্বীকৃত ডেটাসেট এমনকি অনেক ছোট, যা ইংরেজি ভাষার তুলনায় খুবই হাস্যকর, যেখানে বিলিয়ন ঘন্টার অডিও ডেটা রয়েছে।


যদি এআই-এর কিছু হয় তবে তা উচ্চ-সম্পদ ভাষার ক্ষেত্রে ঘটবে। এমনকি যদি আফ্রিকান ভাষাগুলির ক্ষেত্রে এটি ঘটতে থাকে তবে আমাদের কাছে তাদের ক্ষমতা দেওয়ার সিস্টেম নেই। তাই, আমরা পিছিয়ে আছি কারণ আমাদের কাছে কাজ করার মতো যথেষ্ট নেই, এবং সমস্যাটি আমাদের ডকুমেন্টেশনের অভাবের প্রায় আজীবন সমস্যা হয়ে দাঁড়িয়েছে।


উদাহরণস্বরূপ, নাইজেরিয়া নিন, 200 টিরও বেশি উপজাতি, তবুও শুধুমাত্র তিনটি ভাষা সর্বাধিক জনপ্রিয়। ইওরুবা, ইগবো এবং হাউসার বিপরীতে, ছোট উপজাতি এবং ভাষাগুলিতে খুব কম ডেটা (লো রিসোর্স ডেটা) থাকে। যে আমরা এ কি করার চেষ্টা করছি এমবাজা-এনএলপি , নিম্ন-সম্পদ ভাষা থেকে ডেটা সংগ্রহ করুন এবং স্পিচ-টু-টেক্সট (STT) এবং টেক্সট-টু-স্পীচ (TTS) সহ প্রোগ্রামেবল স্পিচ রিকগনিশনের জন্য ব্যবহার করুন।


AI এবং NLP প্রযুক্তিবিদরা বিনিয়োগ করছেন না কারণ তারা এতে বিশ্বাস করেন না, অথবা তারা মনে করেন তাদের ROI-এর জন্য অন্বেষণ করার জন্য পর্যাপ্ত ডেটা নেই। সুতরাং, আমরা আশা করছি আমাদের বর্তমান ভূগর্ভস্থ কাজগুলি যুগান্তকারী হবে।


অধিকন্তু, আফ্রিকা ভাষাগত AI এবং NLP-এর বৈশ্বিক বাজারে প্রান্তিক কারণ সবচেয়ে জনপ্রিয় সার্চ ইঞ্জিন হল এশিয়ান এবং পশ্চিমী (আমেরিকান, বিশেষ করে)। এছাড়াও, এখানে আমাদের কিছু কাজের জন্য, স্পনসরশিপের কারণে আমরা আফ্রিকান হিসাবে তাদের জন্য কৃতিত্ব নিতে পারি না।


প্রশ্ন: আফ্রিকান এনএলপির আবেদনে সবচেয়ে বেশি অগ্রগতি সহ আফ্রিকান দেশগুলি কী কী?

আফ্রিকান যে দেশগুলি সবচেয়ে বেশি প্রভাব ফেলেছে তার মধ্যে রয়েছে দক্ষিণ আফ্রিকা, কেনিয়া এবং রুয়ান্ডা - সেই ছেলেরা পাগল! নাইজেরিয়াও চেষ্টা করছে, কিন্তু বেশিরভাগ ব্যক্তি যাদের স্থানটি অন্বেষণ করা উচিত তারা উন্নয়ন নয় বরং একাডেমিক সার্টিফিকেশনের পরিতৃপ্তি চাইছে। আমরা আমাদের ভাষাকে মূল্য দিই, কিন্তু আমরা সেগুলির সাথে ডেটাসেট তৈরি করছি না। আমরা বরং আমাদের ভাষাকে একটি ঐতিহ্য হিসাবে বলতে বা বেসরকারীকরণ করব যখন আমাদের ভাষা সংরক্ষণ ও সুরক্ষার জন্য ডকুমেন্টেশনে বিনিয়োগ করা উচিত।


প্রশ্ন: সুতরাং, ব্যবসার দিক থেকে, আফ্রিকান ভাষার জন্য NLP-এর বাণিজ্যিকীকরণে আফ্রিকা কোথায় দাঁড়িয়ে আছে?

সত্যি বলতে, ডেটাসেট বিক্রির ব্যবসা ছাড়া আর বেশি কিছু নেই। তাতেও, যারা প্রকল্পে অর্থ পাম্প করেন তারা অনেক কিছু দেন, কিন্তু ফিল্ড এজেন্টদের কাছে যে পরিমাণ অর্থ জমা দেওয়া হয় তার তুলনায় খুব কম।


প্রশ্ন: এটি আমাকে নীতিশাস্ত্রের প্রশ্নে নিয়ে আসে। জনগণের তথ্য সংগ্রহ ও বিক্রি করার কোনো নৈতিক মূল্য আছে কি? এবং এই প্রকল্পগুলির জন্য প্রচুর পরিমাণে অর্থ পাওয়া এবং এই ভাষার প্রাথমিক উত্সগুলি খুব কম পরিমাণে (কখনও কখনও শূন্য) পাওয়া কি ন্যায়সঙ্গত? এই তথ্য বা উত্স জন্য সুরক্ষা আছে?

তথ্য সংগ্রহের বিরুদ্ধে কোনো আইন নেই। সবচেয়ে গুরুত্বপূর্ণ বিষয় হল যে ডেটা স্থানীয় ভাষাভাষীদের কাছ থেকে স্বেচ্ছায় সংগ্রহ করা হয় এবং তারা তাদের সময়ের জন্য পুরস্কৃত হয়। যাইহোক, সমস্ত কার্যক্রম আফ্রিকান ইউনিয়নের সাথে সারিবদ্ধ হতে হবে AU ডেটা গোপনীয়তা আইন। এছাড়াও, ভাষাবিজ্ঞান গবেষণা যা ডেটা সংগ্রহের সাথে জড়িত সাধারণত স্থানীয় ভাষাভাষী বা উত্তরদাতাদের সম্মতি প্রয়োজন।



এবং আপনার দ্বিতীয় প্রশ্নে, শেষ পর্যন্ত এই ক্ষেত্রগুলির সাথে জড়িত ব্যক্তিদের কাছে যে পরিমাণ অর্থ পৌঁছায় সে সম্পর্কে কেউ কিছু করতে পারে না। সবচেয়ে গুরুত্বপূর্ণ বিষয় হল প্রত্যেকে স্বেচ্ছায় প্রকল্পে প্রতিশ্রুতিবদ্ধ। লোকেদের বলা হয় যে তাদের রেকর্ড করা হবে এবং পুরস্কৃত করা হবে, এবং যতক্ষণ না তারা মূল্যের সাথে ঠিক আছে, সেখানে কোন "অন্যায়" নেই।


প্রশ্ন: যদি কেউ NLP এবং ভাষা প্রশিক্ষণে যোগ দিতে চান, তাহলে আপনি কী সুপারিশ করবেন?

এটি একটি বিস্তৃত ক্ষেত্র। অনেকের ইতিমধ্যেই ভিত্তি আছে এবং বিল্ডিং পর্যায়ে রয়েছে, কিন্তু আমাদের কাছে এখনও আরও কিছু দিক রয়েছে যা সবেমাত্র ভিত্তিহীন। আমি যে কারও জন্য সুপারিশ করব তা হল ভাষা ডেটা সংগ্রহ এবং বিশ্লেষণের সাথে জড়িত হওয়া। আমাদের ডেটাসেটের জন্য ডেটা বিশ্লেষণের প্রয়োজন যতটা আমাদের ডেটা দরকার।


তাই, আমি উত্সাহী ডেটা-চালিত গ্রুপগুলিতে যোগদান বা স্বেচ্ছাসেবী হওয়ার পরামর্শ দেব; তথ্য সংগ্রহ এবং বিশ্লেষণ, নামকরণ এবং অন্যান্য শেখার জন্য স্বেচ্ছাসেবক।



সর্বশেষ ভাবনা

Pixabay: Kellepics/1112


বিভিন্ন AI এবং NLP-এর জন্য কমান্ড বা প্রম্পট সহ ভয়েস রিকগনিশন সফ্টওয়্যারে আফ্রিকাকে ভুলভাবে উপস্থাপন করা হচ্ছে। আখ্যানটি ভিন্ন হয়ে উঠবে যখন আফ্রিকানরা ডেটাসেট তৈরি করতে শুরু করে এবং তাদের ভাষা প্রকাশ করে এবং ডকুমেন্টেশনে বিনিয়োগ চালিয়ে যায়। তবুও, আপনি AI এবং NLP অ্যাপ্লিকেশন সম্পর্কিত আফ্রিকা থেকে আসা কিছু সৃষ্টি দেখে মুগ্ধ হবেন।


আমার গবেষণায় এবং ফলো করা লিডগুলিতে, আমি দেখেছি রোবটগুলিকে স্থানীয় আফ্রিকান ভাষার সাথে প্রম্পট করা হচ্ছে, আমাদের কাছে বিভিন্ন আফ্রিকান প্রসঙ্গের (পর্যটন, অন্বেষণ) জন্য উপযুক্ত আরও স্থানীয় চ্যাটবট রয়েছে, কিছু ভাষা IoT-এর জন্য হোম অ্যাপ্লায়েন্সের জন্য ব্যবহার করা হচ্ছে। যাইহোক, আমি বিশ্বাস করি যে এই মুহূর্তে বিশ্বে ব্যাপক AI এবং NLP বিপ্লব চলছে বিবেচনা করে আমাদের আরও কিছু করা উচিত। আপাতত, আমরা আরো আছে ডেটাসেট জন্য পাঠ্য শ্রেণিবিন্যাস আমাদের কাছে অডিও ডেটার চেয়ে বেশি। তবুও, আমাদের অডিও এবং টেক্সচুয়াল ডেটাসেটের আরও বেশি প্রয়োজন। ডেটা হল নতুন মুদ্রা, আমি সত্যই আশা করি যে বিদেশিরা ভুল কাজ করার আগে আফ্রিকানরা এটি সঠিকভাবে করবে (ওহ, হ্যাঁ, আমি আগে একটি প্রকাশিত বইয়ে মিথ্যা ঐতিহাসিক তথ্য পড়েছি; এটিই অনুপযুক্ত ডকুমেন্টেশন আমাদের সাথে করে)।