paint-brush
আমরা কি সত্যিই চ্যাটজিপিটি এবং অন্যান্য এলএলএম থেকে এআই-জেনারেটেড পাঠ্য সনাক্ত করতে পারি?দ্বারা@thetechpanda
1,601 পড়া
1,601 পড়া

আমরা কি সত্যিই চ্যাটজিপিটি এবং অন্যান্য এলএলএম থেকে এআই-জেনারেটেড পাঠ্য সনাক্ত করতে পারি?

দ্বারা The Tech Panda4m2023/05/15
Read on Terminal Reader
Read this story w/o Javascript

অতিদীর্ঘ; পড়তে

GPT-3-এর মতো বৃহৎ ভাষার মডেল (LLMs) প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) ক্ষেত্রে দ্রুতগতিতে সবচেয়ে উল্লেখযোগ্য প্রযুক্তিগত অগ্রগতিগুলির মধ্যে একটি হয়ে উঠেছে সুসঙ্গত এবং প্রাসঙ্গিকভাবে প্রাসঙ্গিক পাঠ্য তৈরি করার ক্ষমতা সহ, LLMগুলি ভুয়া খবর তৈরি করতে ব্যবহার করা যেতে পারে। বা ভুল তথ্য ছড়ায়, যা সমাজে মারাত্মক পরিণতি বয়ে আনতে পারে।
featured image - আমরা কি সত্যিই চ্যাটজিপিটি এবং অন্যান্য এলএলএম থেকে এআই-জেনারেটেড পাঠ্য সনাক্ত করতে পারি?
The Tech Panda HackerNoon profile picture
0-item
1-item

GPT-3- এর মতো বড় ভাষা মডেল (LLMs) প্রাকৃতিক ভাষা প্রক্রিয়াকরণের (NLP) ক্ষেত্রে দ্রুতগতিতে সবচেয়ে উল্লেখযোগ্য প্রযুক্তিগত অগ্রগতিতে পরিণত হয়েছে।


এলএলএমগুলি ভাষা অনুবাদ, পাঠ্য সংক্ষিপ্তকরণ, প্রশ্নের উত্তর, তথ্য পুনরুদ্ধার, সুপারিশ ইঞ্জিন, ভাষা গ্রাউন্ডেড রোবোটিক্স এবং আরও অনেকগুলি সহ বিভিন্ন কাজে সহায়তা করার উল্লেখযোগ্য সম্ভাবনা প্রদর্শন করেছে।


এলএলএম-এর সাফল্য (ছবির সূত্র : রেফ)


যদিও ChatGPT-এর মতো বৃহৎ ভাষার মডেলগুলি (LLMs) বিভিন্ন প্রাকৃতিক ভাষা প্রক্রিয়াকরণ কাজে ব্যতিক্রমী কর্মক্ষমতা দেখিয়েছে, তাদের সম্ভাব্য অপব্যবহার নৈতিক উদ্বেগ উত্থাপন করে যা অবশ্যই সমাধান করা উচিত । সুসংগত এবং প্রাসঙ্গিকভাবে প্রাসঙ্গিক পাঠ্য তৈরি করার ক্ষমতার সাথে, LLMগুলি ভুয়া খবর তৈরি করতে বা ভুল তথ্য ছড়াতে ব্যবহার করা যেতে পারে, যা সমাজের উপর মারাত্মক পরিণতি হতে পারে।


এই ধরনের অপব্যবহার সংবাদ মাধ্যমের প্রতি আস্থার ক্ষয় এবং বাস্তবতা সম্পর্কে বিকৃত ধারণার দিকে নিয়ে যেতে পারে। উপরন্তু, এলএলএমগুলি চুরি, বুদ্ধিবৃত্তিক সম্পত্তি চুরি, বা জাল পণ্য পর্যালোচনা প্রজন্মের জন্য ব্যবহার করা যেতে পারে, যা গ্রাহকদের বিভ্রান্ত করতে পারে এবং ব্যবসায়কে নেতিবাচকভাবে প্রভাবিত করতে পারে। তাছাড়া, নকল সোশ্যাল মিডিয়া অ্যাকাউন্ট তৈরি করা বা অনলাইন আলোচনাকে প্রভাবিত করার মতো দূষিত উদ্দেশ্যে ওয়েব কন্টেন্ট ম্যানিপুলেট করার LLM-এর ক্ষমতা জনমত এবং রাজনৈতিক আলোচনার উপর বিপর্যয়কর প্রভাব ফেলতে পারে।


ক্রমবর্ধমান উদ্বেগের সাথে, সম্ভবত প্রশ্ন জিজ্ঞাসা করার সময় এসেছে:


আমরা কি মানব-উত্পাদিত পাঠ্য থেকে এআই-উত্পন্ন পাঠ্যগুলি সনাক্ত করতে পারি ?


অতীত গবেষণা এবং সনাক্তযোগ্যতা

একদিকে, স্ট্যানফোর্ড থেকে ডিটেক্টজিপিটি সম্ভাব্যতা তুলনা করে যে একটি মডেল লিখিত টেক্সটকে বরাদ্দ করে টেক্সটের পরিবর্তনের সাথে, সনাক্ত করার জন্য।




অন্যদিকে, টম গোল্ডস্টেইনের গ্রুপ দ্বারা তৈরি ওয়াটারমার্ক-ভিত্তিক পন্থাগুলি কার্যকরভাবে সনাক্তযোগ্যতা বাড়ানোর প্রস্তাব করা হয়েছে।




যাইহোক, সদাসিভান দ্বারা ওয়াটারমার্কগুলি (যেগুলি দৃঢ়ভাবে প্রশিক্ষিত নয়) প্যারাফ্রেজ এবং স্পুফিং আক্রমণের জন্য দুর্বল বলে দেখানো হয়েছে ইত্যাদি এবং কৃষ্ণ এবং অন্যান্য।




সম্প্রদায়ের মধ্যে সর্বশেষ বিতর্ক

সম্প্রদায়টি ইদানীং এআই-উত্পন্ন পাঠ্যগুলি মানব-উত্পাদিত পাঠ্যগুলি থেকে সনাক্ত করা যায় কিনা তা নিয়ে একটি উত্তপ্ত বিতর্ক চলছে, আমরা 'এআই ধরে রাখতে' ব্যর্থ হব কিনা এবং একটি এজিআই অ্যাপোক্যালিপস হবে কিনা তা নিয়ে আলোচনার সাথে সাথে আমরা AI-কে সনাক্ত করতে পারছি না। উত্পন্ন সামগ্রী। কারিগরি নেতারা এমনকি বড় ভাষা মডেল (LLM) প্রশিক্ষণ 6 মাসের স্থগিত করার আহ্বান জানিয়েছেন।


ইয়ান লেকুন এবং অ্যান্ড্রু এনজির মতো একাডেমিক নেতারা AI-তে এই নিষেধাজ্ঞার বিরুদ্ধে।

ভিপি এবং মেটাতে প্রধান এআই বিজ্ঞানী, ইয়ান লেকুন উদ্ধৃত করেছেন,


"কেন জ্ঞানের অগ্রগতি মন্থর করে?"


সনাক্তকরণের সম্ভাবনা

এই জটিল সময়ের মধ্যে, আমরা একটি তথ্য তত্ত্ব লেন্সের মাধ্যমে এআই-উত্পন্ন পাঠ্যগুলির সনাক্তকরণের অধ্যয়ন করি। আমরা আশাবাদের প্রমাণ প্রদান করি: এটি সনাক্ত করা প্রায় সবসময়ই সম্ভব হওয়া উচিত যদি না মানব এবং মেশিনের পাঠ্য বিতরণ সম্পূর্ণ সমর্থনে ঠিক একই রকম হয়।

সনাক্তকরণ সম্ভব

সনাক্তযোগ্যতা চেরনফ তথ্য এবং আরও পর্যবেক্ষণের সাথে একটি সুনির্দিষ্ট ট্রেড-অফের উপর নির্ভর করে। আমরা একাধিক নমুনা ব্যবহার করে সম্ভাবনা-অনুপাত-ভিত্তিক ডিটেক্টরের মাধ্যমে AUROC (যা 0 এবং 1 এর মধ্যে, উচ্চতর মানে আরও সনাক্তযোগ্য) এর একটি অর্জনযোগ্য উপরের সীমানা প্রমাণ করি। নমুনা # বাড়ার সাথে সাথে AUROC দ্রুতগতিতে 1 এ বৃদ্ধি পায়।



একটি তথ্য নির্দেশিত লেন্স

এই তথ্যের তাত্ত্বিক ফলাফলগুলি চেরনফ তথ্য নামক একটি মূল পরিমাণের উপর নির্ভর করে, যা এলএলএম-এর ওয়াটারমার্কের নকশা নির্দেশ করতে পারে। পরীক্ষামূলকভাবে, আমরা যাচাই করেছি যে অনুচ্ছেদ-স্তরের সনাক্তকরণে স্যুইচ করার সময় শব্দ-স্তরের সনাক্তকরণের undetectability সনাক্তযোগ্য হয়ে ওঠে।



আমাদের ফলাফলগুলি দেখায় যে AI জেনারেটেড টেক্সট সনাক্ত করা প্রায় সবসময়ই সম্ভব হবে।



তাত্ত্বিক ফলাফল

এই তথ্য তাত্ত্বিক ফলাফলগুলি চেরনফ তথ্য নামক একটি মূল পরিমাণের উপর নির্ভর করে, যা এলএলএম-এর ওয়াটারমার্কের নকশা নির্দেশ করতে পারে। আমরা এআই-জেনারেটেড টেক্সট সনাক্তকরণের সম্ভাবনা নির্দেশ করার জন্য নমুনা জটিলতার সীমাবদ্ধতা অর্জন করেছি।




অভিজ্ঞতামূলক বিক্ষোভ

একাধিক ডেটাসেটে অনুচ্ছেদ-স্তরের সনাক্তকরণে স্যুইচ করলে শব্দ স্তরে সনাক্তযোগ্যতা সনাক্তযোগ্য হয়ে ওঠে। আমরা সনাক্তকরণের দৈর্ঘ্য বাড়াই, জিরোশট সনাক্তকরণের নির্ভুলতা উল্লেখযোগ্যভাবে বৃদ্ধি পায়।




শেষ পর্যন্ত, আমরা বিশ্বাস করি যে #LLM- এর অপব্যবহার মোকাবেলা করার সঠিক উপায় হল সেগুলিকে নিষিদ্ধ করার পরিবর্তে ঠিক করা।



এমনকি একজন যুবক হিসাবে, আমি নিজেকে বিশ্বাস করতে পারিনি যে জ্ঞান যদি বিপদ ডেকে আনে তবে সমাধানটি অজ্ঞতা। আমার কাছে, এটা সবসময় মনে হয়েছিল যে সমাধানটি বুদ্ধি হতে হবে। আপনি বিপদের দিকে তাকাতে অস্বীকার করেননি, বরং আপনি কীভাবে এটি নিরাপদে পরিচালনা করতে হয় তা শিখেছেন।

আইজ্যাক আসিমভ



দ্রষ্টব্য: এটি প্রথম পদক্ষেপ এবং আমাদের অধ্যয়ন কাঠামো এবং নির্দেশিকা বিকাশের জন্য অবিরত গবেষণার আহ্বান জানায় যা উদ্ভাবনকে প্ররোচিত করে এবং এই শক্তিশালী সরঞ্জামগুলির নৈতিক ব্যবহার নিশ্চিত করে।


অতিথি অবদানকারী:


সৌরদীপ চক্রবর্তী , পিএইচডি ইউনিভার্সিটি অফ মেরিল্যান্ডের গ্র্যাড স্টুডেন্ট, অমৃত সিং বেদি , রিসার্চ সায়েন্টিস্ট, ইউনিভার্সিটি অফ মেরিল্যান্ড, সিচেং ঝু, ব্যাং আন, দিনেশ মনোচা এবং ফুরং হুয়াং একটি তথ্য তত্ত্ব লেন্সের মাধ্যমে এআই-উত্পন্ন পাঠ্যের সনাক্তকরণের বিষয়ে গবেষণা করছেন। এই নিবন্ধে প্রকাশিত কোন মতামত লেখকদের কঠোরভাবে।





এই নিবন্ধটি মূলত সৌরদীপ চক্রবর্তী, পিএইচডি দ্বারা প্রকাশিত হয়েছিল। ইউনিভার্সিটি অফ মেরিল্যান্ডের গ্র্যাড স্টুডেন্ট, অমৃত সিং বেদি, রিসার্চ সায়েন্টিস্ট, ইউনিভার্সিটি অফ মেরিল্যান্ড, সিচেং ঝু, ব্যাং আন, দিনেশ মনোচা, এবং দ্য টেক পান্ডায় ফুরং হুয়াং।