GPT-3- এর মতো বড় ভাষা মডেল (LLMs) প্রাকৃতিক ভাষা প্রক্রিয়াকরণের (NLP) ক্ষেত্রে দ্রুতগতিতে সবচেয়ে উল্লেখযোগ্য প্রযুক্তিগত অগ্রগতিতে পরিণত হয়েছে।
এলএলএমগুলি ভাষা অনুবাদ, পাঠ্য সংক্ষিপ্তকরণ, প্রশ্নের উত্তর, তথ্য পুনরুদ্ধার, সুপারিশ ইঞ্জিন, ভাষা গ্রাউন্ডেড রোবোটিক্স এবং আরও অনেকগুলি সহ বিভিন্ন কাজে সহায়তা করার উল্লেখযোগ্য সম্ভাবনা প্রদর্শন করেছে।
যদিও ChatGPT-এর মতো বৃহৎ ভাষার মডেলগুলি (LLMs) বিভিন্ন প্রাকৃতিক ভাষা প্রক্রিয়াকরণ কাজে ব্যতিক্রমী কর্মক্ষমতা দেখিয়েছে, তাদের সম্ভাব্য অপব্যবহার নৈতিক উদ্বেগ উত্থাপন করে যা অবশ্যই সমাধান করা উচিত । সুসংগত এবং প্রাসঙ্গিকভাবে প্রাসঙ্গিক পাঠ্য তৈরি করার ক্ষমতার সাথে, LLMগুলি ভুয়া খবর তৈরি করতে বা ভুল তথ্য ছড়াতে ব্যবহার করা যেতে পারে, যা সমাজের উপর মারাত্মক পরিণতি হতে পারে।
এই ধরনের অপব্যবহার সংবাদ মাধ্যমের প্রতি আস্থার ক্ষয় এবং বাস্তবতা সম্পর্কে বিকৃত ধারণার দিকে নিয়ে যেতে পারে। উপরন্তু, এলএলএমগুলি চুরি, বুদ্ধিবৃত্তিক সম্পত্তি চুরি, বা জাল পণ্য পর্যালোচনা প্রজন্মের জন্য ব্যবহার করা যেতে পারে, যা গ্রাহকদের বিভ্রান্ত করতে পারে এবং ব্যবসায়কে নেতিবাচকভাবে প্রভাবিত করতে পারে। তাছাড়া, নকল সোশ্যাল মিডিয়া অ্যাকাউন্ট তৈরি করা বা অনলাইন আলোচনাকে প্রভাবিত করার মতো দূষিত উদ্দেশ্যে ওয়েব কন্টেন্ট ম্যানিপুলেট করার LLM-এর ক্ষমতা জনমত এবং রাজনৈতিক আলোচনার উপর বিপর্যয়কর প্রভাব ফেলতে পারে।
ক্রমবর্ধমান উদ্বেগের সাথে, সম্ভবত প্রশ্ন জিজ্ঞাসা করার সময় এসেছে:
একদিকে, স্ট্যানফোর্ড থেকে ডিটেক্টজিপিটি সম্ভাব্যতা তুলনা করে যে একটি মডেল লিখিত টেক্সটকে বরাদ্দ করে টেক্সটের পরিবর্তনের সাথে, সনাক্ত করার জন্য।
অন্যদিকে, টম গোল্ডস্টেইনের গ্রুপ দ্বারা তৈরি ওয়াটারমার্ক-ভিত্তিক পন্থাগুলি কার্যকরভাবে সনাক্তযোগ্যতা বাড়ানোর প্রস্তাব করা হয়েছে।
যাইহোক, সদাসিভান দ্বারা ওয়াটারমার্কগুলি (যেগুলি দৃঢ়ভাবে প্রশিক্ষিত নয়) প্যারাফ্রেজ এবং স্পুফিং আক্রমণের জন্য দুর্বল বলে দেখানো হয়েছে ইত্যাদি এবং কৃষ্ণ এবং অন্যান্য।
সম্প্রদায়টি ইদানীং এআই-উত্পন্ন পাঠ্যগুলি মানব-উত্পাদিত পাঠ্যগুলি থেকে সনাক্ত করা যায় কিনা তা নিয়ে একটি উত্তপ্ত বিতর্ক চলছে, আমরা 'এআই ধরে রাখতে' ব্যর্থ হব কিনা এবং একটি এজিআই অ্যাপোক্যালিপস হবে কিনা তা নিয়ে আলোচনার সাথে সাথে আমরা AI-কে সনাক্ত করতে পারছি না। উত্পন্ন সামগ্রী। কারিগরি নেতারা এমনকি বড় ভাষা মডেল (LLM) প্রশিক্ষণ 6 মাসের স্থগিত করার আহ্বান জানিয়েছেন।
ইয়ান লেকুন এবং অ্যান্ড্রু এনজির মতো একাডেমিক নেতারা AI-তে এই নিষেধাজ্ঞার বিরুদ্ধে।
ভিপি এবং মেটাতে প্রধান এআই বিজ্ঞানী, ইয়ান লেকুন উদ্ধৃত করেছেন,
"কেন জ্ঞানের অগ্রগতি মন্থর করে?"
এই জটিল সময়ের মধ্যে, আমরা একটি তথ্য তত্ত্ব লেন্সের মাধ্যমে এআই-উত্পন্ন পাঠ্যগুলির সনাক্তকরণের অধ্যয়ন করি। আমরা আশাবাদের প্রমাণ প্রদান করি: এটি সনাক্ত করা প্রায় সবসময়ই সম্ভব হওয়া উচিত যদি না মানব এবং মেশিনের পাঠ্য বিতরণ সম্পূর্ণ সমর্থনে ঠিক একই রকম হয়।
সনাক্তযোগ্যতা চেরনফ তথ্য এবং আরও পর্যবেক্ষণের সাথে একটি সুনির্দিষ্ট ট্রেড-অফের উপর নির্ভর করে। আমরা একাধিক নমুনা ব্যবহার করে সম্ভাবনা-অনুপাত-ভিত্তিক ডিটেক্টরের মাধ্যমে AUROC (যা 0 এবং 1 এর মধ্যে, উচ্চতর মানে আরও সনাক্তযোগ্য) এর একটি অর্জনযোগ্য উপরের সীমানা প্রমাণ করি। নমুনা # বাড়ার সাথে সাথে AUROC দ্রুতগতিতে 1 এ বৃদ্ধি পায়।
এই তথ্যের তাত্ত্বিক ফলাফলগুলি চেরনফ তথ্য নামক একটি মূল পরিমাণের উপর নির্ভর করে, যা এলএলএম-এর ওয়াটারমার্কের নকশা নির্দেশ করতে পারে। পরীক্ষামূলকভাবে, আমরা যাচাই করেছি যে অনুচ্ছেদ-স্তরের সনাক্তকরণে স্যুইচ করার সময় শব্দ-স্তরের সনাক্তকরণের undetectability সনাক্তযোগ্য হয়ে ওঠে।
এই তথ্য তাত্ত্বিক ফলাফলগুলি চেরনফ তথ্য নামক একটি মূল পরিমাণের উপর নির্ভর করে, যা এলএলএম-এর ওয়াটারমার্কের নকশা নির্দেশ করতে পারে। আমরা এআই-জেনারেটেড টেক্সট সনাক্তকরণের সম্ভাবনা নির্দেশ করার জন্য নমুনা জটিলতার সীমাবদ্ধতা অর্জন করেছি।
একাধিক ডেটাসেটে অনুচ্ছেদ-স্তরের সনাক্তকরণে স্যুইচ করলে শব্দ স্তরে সনাক্তযোগ্যতা সনাক্তযোগ্য হয়ে ওঠে। আমরা সনাক্তকরণের দৈর্ঘ্য বাড়াই, জিরোশট সনাক্তকরণের নির্ভুলতা উল্লেখযোগ্যভাবে বৃদ্ধি পায়।
শেষ পর্যন্ত, আমরা বিশ্বাস করি যে #LLM- এর অপব্যবহার মোকাবেলা করার সঠিক উপায় হল সেগুলিকে নিষিদ্ধ করার পরিবর্তে ঠিক করা।
এমনকি একজন যুবক হিসাবে, আমি নিজেকে বিশ্বাস করতে পারিনি যে জ্ঞান যদি বিপদ ডেকে আনে তবে সমাধানটি অজ্ঞতা। আমার কাছে, এটা সবসময় মনে হয়েছিল যে সমাধানটি বুদ্ধি হতে হবে। আপনি বিপদের দিকে তাকাতে অস্বীকার করেননি, বরং আপনি কীভাবে এটি নিরাপদে পরিচালনা করতে হয় তা শিখেছেন।
আইজ্যাক আসিমভ
দ্রষ্টব্য: এটি প্রথম পদক্ষেপ এবং আমাদের অধ্যয়ন কাঠামো এবং নির্দেশিকা বিকাশের জন্য অবিরত গবেষণার আহ্বান জানায় যা উদ্ভাবনকে প্ররোচিত করে এবং এই শক্তিশালী সরঞ্জামগুলির নৈতিক ব্যবহার নিশ্চিত করে।
অতিথি অবদানকারী:
সৌরদীপ চক্রবর্তী , পিএইচডি ইউনিভার্সিটি অফ মেরিল্যান্ডের গ্র্যাড স্টুডেন্ট, অমৃত সিং বেদি , রিসার্চ সায়েন্টিস্ট, ইউনিভার্সিটি অফ মেরিল্যান্ড, সিচেং ঝু, ব্যাং আন, দিনেশ মনোচা এবং ফুরং হুয়াং একটি তথ্য তত্ত্ব লেন্সের মাধ্যমে এআই-উত্পন্ন পাঠ্যের সনাক্তকরণের বিষয়ে গবেষণা করছেন। এই নিবন্ধে প্রকাশিত কোন মতামত লেখকদের কঠোরভাবে।
এই নিবন্ধটি মূলত সৌরদীপ চক্রবর্তী, পিএইচডি দ্বারা প্রকাশিত হয়েছিল। ইউনিভার্সিটি অফ মেরিল্যান্ডের গ্র্যাড স্টুডেন্ট, অমৃত সিং বেদি, রিসার্চ সায়েন্টিস্ট, ইউনিভার্সিটি অফ মেরিল্যান্ড, সিচেং ঝু, ব্যাং আন, দিনেশ মনোচা, এবং দ্য টেক পান্ডায় ফুরং হুয়াং।