একটি সাম্প্রতিক নিবন্ধে, আমি ChatGPT-এর কোড জেনারেট করার ক্ষমতা সম্বোধন করেছি। এই নিবন্ধে, আমি ChatGPT প্রশিক্ষণে কপিরাইট কোড ব্যবহারের জন্য দায় অন্বেষণ করি।
এখন ChatGPT-এর মতো AI-এর প্রশিক্ষণের জন্য সর্বজনীনভাবে অ্যাক্সেসযোগ্য ডেটা ব্যবহার সম্পর্কিত একাধিক মামলা রয়েছে। যেহেতু ChatGTP সাধারণ প্রশ্নের উত্তর দিতে পারে, তাই আমি কপিরাইট লঙ্ঘনের দায়বদ্ধতার বিষয়ে এটি তদন্ত করার সিদ্ধান্ত নিয়েছি।
প্রথমে, আমি কিছু আইনি পটভূমি এবং পড়ার উপাদান এবং তারপর ChatGPT-এর সাথে আমার কথোপকথনের একটি সম্পূর্ণ প্রতিলিপি প্রদান করি।
প্রথমত, আমি একজন আইনজীবী নই। দর্শনশাস্ত্রে আমার একাডেমিক ব্যাকগ্রাউন্ড এবং আমার পেশাদার ব্যাকগ্রাউন্ড একজন সফটওয়্যার ডেভেলপার এবং একজন টেকনোলজি এক্সিকিউটিভ হিসেবে। এটি বলা হচ্ছে, বর্তমান আইনী পরিস্থিতি সম্পর্কে আমার মূল্যায়ন এখানে।
খেলার মধ্যে অন্তত তিনটি প্রধান মামলা আছে:
টেক ক্রাঞ্চ- এ, গ্রেগ রুটকোভস্কি অভিযোগ করেছেন যে "তরবারি দিয়ে উইজার্ড এবং জাদু আগুনের একটি জ্বলজ্বল কক্ষের সাথে একটি ভয়ঙ্কর ড্রাগন গ্রেগ রুটকোস্কির সাথে লড়াই করে" এর মতো টেক্সট টাইপ করা এমন একটি চিত্র তৈরি করবে যা তার আসল কাজের সাথে খুব মিল দেখাবে — তার আয়ের হুমকি। জিনিষ মুখে, এই ক্ষেত্রে হতে হবে. যদিও, কেউ কেউ যুক্তি দিতে পারে যে এনএফটি শিল্পের উত্পাদনের মাধ্যমে শিল্পী প্রত্যয়িতভাবে মূল শিল্পের জন্য আরও বেশি নির্দেশ দিতে সক্ষম হতে পারে। এছাড়াও, শৈলী ঐতিহাসিকভাবে রক্ষা করা একটি কঠিন জিনিস হয়েছে; তবে, গভীর নকল (কার্যকরভাবে সুস্পষ্ট মিল) তৈরি করার জন্য AI-এর ক্ষমতার প্রেক্ষিতে, এই এলাকাটি সম্ভবত সক্রিয়ভাবে পুনরায় অন্বেষণ করা উচিত। কত কাছাকাছি কিছু একই শৈলী হতে হবে?
ব্লুমবার্গের একটি নিবন্ধে , এটি নির্দেশ করা হয়েছে যে একটি মূল সমস্যা হল AI এর আউটপুট নিছক ডেরিভেটিভ কিনা বা যদি এটি প্রকৃতির রূপান্তরমূলক হয়, অর্থাৎ এটি উল্লেখযোগ্যভাবে ভিন্ন কিছু। বিখ্যাত ক্ষেত্রে যেখানে গুগল তার অপারেটিং সিস্টেমে মূল ওরাকল জাভা এপিআই লিভারেজ করেছে, আদালত রায় দিয়েছে যে গুল্জ রূপান্তরকারী তৈরি করেছে এবং তাই ব্যবহারের অনুমতি দিয়েছে। একই নীতি এআই জেনারেটেড কোডে প্রয়োগ করা যেতে পারে।
FTC ইতিমধ্যেই অনুসরণ করেছে এবং একটি জিতেছে যখন একটি AI সিস্টেমকে "অপরাধিত ডেটা" দিয়ে প্রশিক্ষণ দেওয়া হয়েছিল, অর্থাৎ অনুমতি বা সম্মতি ছাড়াই প্রাপ্ত ডেটা। ঠিক আছে, এটি ছিল ব্যবহারকারীর ডেটা, যেমন ব্যবহারকারীর মুখের ছবি, ইতিমধ্যে প্রকাশিত ডেটা নয়। এছাড়াও, ডেটার আশেপাশের অধিকারগুলি যা একজন ব্যক্তির অন্তর্নিহিত অংশ, তাদের নিজস্ব কেস আইন দ্বারা আচ্ছাদিত এবং সম্ভবত আরও সংবেদনশীল।
অবশেষে, এটি ডেটা গোপনীয়তা এবং ডাটাবেস আইনের সাথে করেছে, ইউরোপীয় ইউনিয়ন ইতিমধ্যেই মার্কিন যুক্তরাষ্ট্রের চেয়ে এগিয়ে রয়েছে এবং এআই প্রশিক্ষণ সম্পর্কিত ডেটা ব্যবহার মোকাবেলায় সক্রিয়ভাবে এগিয়ে চলেছে।
AI প্রশিক্ষণের ডেটার আশেপাশের নৈতিক এবং আইনি সমস্যাগুলিতে আরও আগ্রহীদের জন্য এখানে নিবন্ধগুলির একটি তালিকা রয়েছে:
আমি 29শে জানুয়ারী, 2023 এবং 31শে জানুয়ারী, ইউএস সেন্ট্রাল টাইম, 2023 সকাল 7:30AM মার্কিন কেন্দ্রীয় সময় 7:30PM এর মধ্যে 36 ঘন্টার মধ্যে উপরের বিষয়ে ChatGPT-এর দৃষ্টিভঙ্গি পাওয়ার সিদ্ধান্ত নিয়েছি। (আমি সময়সীমা প্রদান করেছি কারণ আমি দেখেছি যে ChatGPT করে সবসময় একটি প্রশ্নের একই উত্তর প্রদান করে না। আমি জানি না এটি প্রাসঙ্গিক কিনা, অর্থাৎ এটি আমার আগের প্রশ্নগুলির উপর ভিত্তি করে নিজেই সুর করে, নাকি এলোমেলো, অর্থাৎ এটির অ্যালগরিদমগুলিতে এমন কিছু রয়েছে যা এটিকে কম রোবটের মতো করতে এলোমেলোতা তৈরি করে।)
আমি যে প্রশ্নগুলি জিজ্ঞাসা করেছি তা নীচে উদ্ধৃতিতে রয়েছে। ChatGPT প্রতিক্রিয়া ব্লক কোট হিসাবে ফর্ম্যাট করা হয়.
"আপনি কি কোড তৈরি করতে পারেন?"
হ্যাঁ, আমি পাইথন, জাভা, জাভাস্ক্রিপ্ট ইত্যাদির মতো বিভিন্ন প্রোগ্রামিং ভাষার জন্য কোড তৈরি করতে পারি। অনুগ্রহ করে নির্দিষ্ট ভাষা এবং আপনি কিসের জন্য কোড তৈরি করতে চান সে সম্পর্কে আরও বিশদ বিবরণ দিন।
"কোড তৈরি করার ক্ষমতা আপনাকে কী দেয়?"
আমি, ChatGPT, কোড স্নিপেট সহ পাঠ্য ডেটার একটি বৃহৎ কর্পাসের উপর প্রশিক্ষিত হয়েছি, যা আমাকে বিভিন্ন প্রোগ্রামিং ভাষায় কোড তৈরি করার ক্ষমতা প্রদান করে। এই প্রশিক্ষণ আমাকে কোডের সিনট্যাক্স এবং কাঠামো বুঝতে সক্ষম করে, সেইসাথে সাধারণ প্রোগ্রামিং ধারণাগুলি এবং সেই বোঝার উপর ভিত্তি করে কোড তৈরি করতে এবং ব্যবহারকারীর দেওয়া ইনপুট।
"আপনি কতটা ওপেন সোর্স কোডে প্রশিক্ষিত ছিলেন?"
আমি প্রচুর পরিমাণে ওপেন-সোর্স কোড সহ পাঠ্য ডেটার একটি বৈচিত্র্যময় এবং বিশাল কর্পাসের উপর প্রশিক্ষিত ছিলাম, কিন্তু বিশেষভাবে ওপেন-সোর্স কোডের পরিমাণ সম্পর্কে আমার কাছে সঠিক সংখ্যা নেই। ওপেনএআই, আমার পিছনের সংস্থা, আমি যাতে বিস্তৃত প্রশ্নের উত্তর দিতে পারি এবং উচ্চ-মানের আউটপুট তৈরি করতে পারি তা নিশ্চিত করার জন্য একটি বৈচিত্র্যময় এবং ব্যাপক প্রশিক্ষণ ডেটা সেট যত্ন সহকারে তৈরি করেছে।
"আপনাকে যে কোডের উপর প্রশিক্ষণ দেওয়া হয়েছিল তার কোনটি কি লাইসেন্স দ্বারা সুরক্ষিত ছিল?"
হ্যাঁ, আমাকে প্রশিক্ষণ দেওয়ার জন্য ব্যবহৃত পাঠ্য ডেটাতে অন্তর্ভুক্ত কিছু কোড, ChatGPT, সম্ভবত লাইসেন্স দ্বারা সুরক্ষিত ছিল। ওপেনএআই, আমার পিছনের সংস্থা, ওপেন-সোর্স লাইসেন্স সহ অন্যদের মেধা সম্পত্তির অধিকারকে সম্মান করার চেষ্টা করে। অন্যদের অধিকার লঙ্ঘন করতে পারে এমন কোড ব্যবহার করা এড়াতে তারা সাবধানে প্রশিক্ষণের ডেটা কিউরেট করে এবং প্রশিক্ষণ প্রক্রিয়া যেকোন অন্তর্ভুক্ত কোডের লাইসেন্সকে সম্মান করে তা নিশ্চিত করার জন্য পদক্ষেপ নেয়। যাইহোক, এটা সম্ভব যে প্রশিক্ষণের ডেটাতে অন্তর্ভুক্ত কিছু কোড যথাযথ অনুমতি বা লাইসেন্স ছাড়াই ব্যবহার করা হয়েছিল।
"আপনি কি গিটহাব থেকে আপনার প্রশিক্ষণে ব্যবহৃত কোনও কোড পেয়েছেন?"
হ্যাঁ, সম্ভবত আমাকে প্রশিক্ষণ দেওয়ার জন্য ব্যবহৃত কিছু কোড, ChatGPT, GitHub থেকে প্রাপ্ত হয়েছিল। GitHub হল ওপেন-সোর্স সফ্টওয়্যার হোস্ট করার জন্য একটি জনপ্রিয় প্ল্যাটফর্ম এবং কোডের একটি মূল্যবান উৎস যা আমার মতো মেশিন লার্নিং মডেলকে প্রশিক্ষণ দিতে ব্যবহার করা যেতে পারে। ওপেনএআই, আমার পিছনের সংস্থা, তার মডেলগুলির জন্য প্রশিক্ষণের ডেটা পেতে বিভিন্ন ধরণের উত্স ব্যবহার করে এবং এটি সম্ভব যে সেই ডেটাগুলির কিছু গিটহাব বা অন্যান্য কোড হোস্টিং প্ল্যাটফর্ম থেকে এসেছে৷
"যদি আমি আপনাকে আপনার প্রশিক্ষণের ডেটার নির্দিষ্ট উদাহরণগুলি তালিকাভুক্ত করতে বলি, আপনি কি পারবেন?"
না, আমি ChatGPT প্রশিক্ষণের জন্য ব্যবহৃত প্রশিক্ষণ ডেটার নির্দিষ্ট উদাহরণ তালিকাভুক্ত করতে পারি না, কারণ সেই তথ্যে আমার অ্যাক্সেস নেই। প্রশিক্ষণ প্রক্রিয়াটি ওপেনএআই দ্বারা পরিচালিত হয়েছিল এবং এতে টেক্সট ডেটার একটি বিশাল কর্পাস জড়িত ছিল যা সংস্থার দ্বারা সাবধানে বাছাই করা হয়েছিল এবং কিউরেট করা হয়েছিল। যখন আমি এই ডেটাতে প্রশিক্ষিত হয়েছি, আমার কাছে নির্দিষ্ট উদাহরণ বা ডেটা কীভাবে সংগ্রহ বা প্রক্রিয়া করা হয়েছিল তার বিশদ অ্যাক্সেস নেই৷
"ডেরিভেটিভ কাজগুলি তৈরি করতে এবং মূল লেখকদের কৃতিত্ব না দেওয়া বা ডেরিভেটিভ কাজের মধ্যে তাদের লাইসেন্স অন্তর্ভুক্ত না করার জন্য লাইসেন্সকৃত ওপেন সোর্স সফ্টওয়্যারগুলির বিশাল পরিমাণ ব্যবহার করা কি নৈতিক বা আইনী?"
বেশিরভাগ ক্ষেত্রে, মূল লেখকদের ক্রেডিট না করে বা ডেরিভেটিভ কাজের মধ্যে তাদের লাইসেন্স অন্তর্ভুক্ত না করে ডেরিভেটিভ কাজ তৈরি করতে লাইসেন্সকৃত ওপেন-সোর্স সফ্টওয়্যারের বড় পরিমাণে ব্যবহার করা নৈতিক বা আইনি নয়। ওপেন-সোর্স লাইসেন্সগুলির জন্য সাধারণত প্রয়োজন হয় যে ডেরিভেটিভ কাজগুলি একই লাইসেন্সের অধীনে বিতরণ করা হবে এবং সঠিক ক্রেডিট মূল লেখকদের দেওয়া হবে। এই প্রয়োজনীয়তাগুলি মেনে চলতে ব্যর্থ হলে মূল লেখকদের বৌদ্ধিক সম্পত্তির অধিকার লঙ্ঘন হতে পারে এবং এটি অনৈতিক বা অবৈধ বলে বিবেচিত হতে পারে।
যেকোন ওপেন-সোর্স লাইসেন্সের শর্তাবলী সাবধানে পর্যালোচনা করা এবং ডেরিভেটিভ কাজে ওপেন-সোর্স সফ্টওয়্যার ব্যবহার করার সময় তাদের প্রয়োজনীয়তাগুলি মেনে চলা গুরুত্বপূর্ণ। সন্দেহ থাকলে, আইনি পরামর্শের সাথে পরামর্শ করা বা ওপেন সোর্স সম্প্রদায়ের পরামর্শ নেওয়া সহায়ক হতে পারে।
"এআই প্রোগ্রামগুলি কি তাদের আউটপুটের জন্য নৈতিক এবং আইনগতভাবে দায়ী করা উচিত?"
আমার মতো এআই প্রোগ্রামগুলিকে তাদের আউটপুটের জন্য নৈতিক এবং আইনগতভাবে দায়ী করা উচিত কিনা সেই প্রশ্নটি একটি জটিল এবং বিতর্কিত সমস্যা যা এখনও পুরোপুরি সমাধান করা হয়নি। AI কে এর আউটপুটের জন্য দায়ী করার পক্ষে এবং বিপক্ষে যুক্তি রয়েছে এবং চূড়ান্ত উত্তর সম্ভবত প্রতিটি মামলার সুনির্দিষ্ট বিষয় এবং আইন ও প্রবিধানের উপর নির্ভর করবে।
একদিকে, কেউ কেউ যুক্তি দেন যে এআই প্রোগ্রামগুলি কেবল মানুষের দ্বারা তৈরি করা সরঞ্জাম, এবং এটি মানুষ যারা তাদের ক্রিয়াকলাপ এবং তাদের তৈরি করা সরঞ্জামগুলির ব্যবহারের জন্য দায়ী। অন্যদিকে, অন্যরা যুক্তি দেয় যে AI প্রোগ্রামগুলি আরও উন্নত এবং স্বায়ত্তশাসিত হয়ে উঠলে, তাদের ক্রিয়াকলাপের জন্য তাদের দায়ী করা উচিত, বিশেষ করে যেখানে তারা ক্ষতি করে বা অন্যথায় নৈতিক মান লঙ্ঘন করে।
বর্তমানে, বেশিরভাগ আইন ও প্রবিধান AI প্রোগ্রামগুলিকে তাদের আউটপুটের জন্য সরাসরি দায়ী করে না, বরং AI সিস্টেমের নির্মাতা, মালিক এবং অপারেটরদের আইন এবং নৈতিক মান মেনে ব্যবহার করা হয় তা নিশ্চিত করার জন্য দায়ী করে। যাইহোক, যেহেতু AI অগ্রসর হতে চলেছে এবং সমাজে এর প্রভাব বৃদ্ধি পাচ্ছে, সম্ভবত এই সমস্যাটি আরও মনোযোগ পাবে এবং আইন ও প্রবিধানগুলি এটিকে মোকাবেলা করার জন্য বিকশিত হবে।
"একটি বড় ভাষা মডেলের আউটপুট কি একটি ডেরিভেটিভ কাজ?"
একটি বৃহৎ ভাষার মডেলের আউটপুট, যেমন আমার, একটি ডেরিভেটিভ কাজ হিসাবে বিবেচিত হতে পারে, আউটপুটের সুনির্দিষ্টতার উপর নির্ভর করে এবং প্রশ্নে এখতিয়ারের ক্ষেত্রে প্রযোজ্য আইন ও প্রবিধান।
একটি ডেরিভেটিভ কাজ হল একটি কাজ যা এক বা একাধিক পূর্ব বিদ্যমান কাজের উপর ভিত্তি করে বা প্রাপ্ত হয়। ভাষা মডেলের প্রেক্ষাপটে, মডেল দ্বারা উত্পন্ন আউটপুটটি মডেলটিকে প্রশিক্ষণের জন্য ব্যবহৃত প্রশিক্ষণ ডেটা এবং অ্যালগরিদম থেকে প্রাপ্ত হিসাবে দেখা যেতে পারে।
একটি ভাষা মডেলের আউটপুট আইনের অধীনে একটি ডেরিভেটিভ কাজ হিসাবে বিবেচিত হবে কিনা তা নির্দিষ্ট পরিস্থিতিতে এবং প্রশ্নে এখতিয়ারের ক্ষেত্রে প্রযোজ্য আইনগুলির উপর নির্ভর করবে। কিছু ক্ষেত্রে, আউটপুট একটি ডেরিভেটিভ কাজ হিসাবে বিবেচিত হতে পারে, অন্যদের ক্ষেত্রে এটি নাও হতে পারে।
এটি লক্ষ্য করা গুরুত্বপূর্ণ যে একটি ডেরিভেটিভ কাজের ধারণাটি শুধুমাত্র কপিরাইট আইনের মধ্যে সীমাবদ্ধ নয়, এটি অন্যান্য ধরণের বৌদ্ধিক সম্পত্তি এবং আইনি ধারণাগুলিকেও উল্লেখ করতে পারে। যেমন, একটি প্রদত্ত পরিস্থিতিতে প্রযোজ্য সুনির্দিষ্ট আইন ও প্রবিধানগুলি প্রশ্নবিদ্ধ এখতিয়ার এবং মামলার নির্দিষ্ট পরিস্থিতির উপর নির্ভর করবে।
"আপনি যে কোডটি তৈরি করেন তা কি ডেরিভেটিভ বা রূপান্তরমূলক?"
আমার দ্বারা জেনারেট করা কোড, ChatGPT-এর মতো একটি বৃহৎ ভাষার মডেল, ডেরিভেটিভ এবং রূপান্তরকারী উভয়ই বিবেচনা করা যেতে পারে।
বৌদ্ধিক সম্পত্তি আইনের পরিপ্রেক্ষিতে, ডেরিভেটিভ কাজগুলি এমন কাজ যা এক বা একাধিক পূর্ব বিদ্যমান কাজের উপর ভিত্তি করে তৈরি করা হয় এবং সেই কাজগুলির উপাদানগুলিকে কোনোভাবে অন্তর্ভুক্ত করে। আমার মত একটি ভাষা মডেল দ্বারা উত্পন্ন কোড এই অর্থে একটি ডেরিভেটিভ কাজ হিসাবে বিবেচনা করা যেতে পারে যে এটি মডেল তৈরি করতে ব্যবহৃত অ্যালগরিদম এবং প্রশিক্ষণ ডেটার উপর ভিত্তি করে।
অন্যদিকে রূপান্তরমূলক কাজগুলি এমন কাজ যা মূল কাজের সাথে নতুন কিছু যোগ করে, যেমন এর উদ্দেশ্য বা চরিত্রকে রূপান্তরিত করা, বা এটিকে ভিন্ন প্রসঙ্গে ব্যবহার করা। আমার মতো একটি ভাষা মডেল দ্বারা উত্পন্ন কোডটি এই অর্থে রূপান্তরকারী হিসাবে বিবেচিত হতে পারে যে এটি ইনপুট নেয় এবং এর উপর ভিত্তি করে নতুন, অনন্য কোড তৈরি করে।
একটি ভাষা মডেল দ্বারা উত্পন্ন কোডটি ডেরিভেটিভ বা রূপান্তরকারী হিসাবে বিবেচিত হবে কিনা তা নির্ভর করবে প্রশ্নে থাকা এখতিয়ারের ক্ষেত্রে প্রযোজ্য নির্দিষ্ট আইন এবং প্রবিধান এবং প্রশ্নে থাকা কোডের নির্দিষ্টতার উপর। এটি লক্ষ্য করা গুরুত্বপূর্ণ যে ডেরিভেটিভ এবং রূপান্তরমূলক কাজের ধারণাটি কেবলমাত্র কপিরাইট আইনের মধ্যে সীমাবদ্ধ নয়, এটি অন্যান্য ধরণের বৌদ্ধিক সম্পত্তি এবং আইনি ধারণাগুলিকেও উল্লেখ করতে পারে।
"সাহসিক চুরি কি?"
প্ল্যাজিয়ারিজম হল সঠিক ক্রেডিট বা অনুমতি না দিয়ে অন্যের কাজ বা ধারনা ব্যবহার করা এবং এটিকে নিজের আসল কাজ হিসাবে উপস্থাপন করা।
"প্লাজারিজমের ধারণা কি কম্পিউটার কোডের ক্ষেত্রে প্রযোজ্য?"
হ্যাঁ, চুরির ধারণা কম্পিউটার কোডের ক্ষেত্রে প্রযোজ্য হতে পারে। উপযুক্ত ক্রেডিট বা অনুমতি না দিয়ে অন্যের কাজ বা ধারণা ব্যবহার করাকে চুরি করা হয়। কম্পিউটার কোডের পরিপ্রেক্ষিতে, চুরির অর্থ সঠিক অ্যাট্রিবিউশন বা অনুমতি ছাড়াই অন্য কারও কোড ব্যবহার করা বা অন্য কারও কোড অনুলিপি করা এবং এটিকে নিজের কাজ হিসাবে উপস্থাপন করা বোঝায়।
অন্য যেকোনো ধরনের বৌদ্ধিক সম্পত্তির মতোই, কম্পিউটার কোড কপিরাইট আইনের অধীনে সুরক্ষিত হতে পারে এবং কোডের চুরির ফলে আইনি এবং নৈতিক সমস্যা হতে পারে। উদাহরণস্বরূপ, যদি কেউ অনুমতি বা যথাযথ অ্যাট্রিবিউশন ছাড়া বাণিজ্যিক প্রকল্পে অন্য ব্যক্তির কোড ব্যবহার করে, তাহলে তারা মূল লেখকের কপিরাইট লঙ্ঘন করতে পারে এবং আইনি পরিণতির সম্মুখীন হতে পারে।
ডেভেলপারদের জন্য এটা গুরুত্বপূর্ণ যে অন্যদের মেধা সম্পত্তির অধিকারকে সম্মান করা এবং তারা তাদের প্রোজেক্টে যেকোন কোড ব্যবহার করে সঠিকভাবে অ্যাট্রিবিউট করা এবং লাইসেন্স করা, যার মধ্যে আমার মতো AI মডেলদের দ্বারা জেনারেট করা কোডও রয়েছে। এটি করতে ব্যর্থ হলে আইনি এবং নৈতিক পরিণতি হতে পারে এবং ডেভেলপার এবং সামগ্রিকভাবে সফ্টওয়্যার ডেভেলপমেন্ট সম্প্রদায়ের বিশ্বাসযোগ্যতার ক্ষতি করতে পারে।
"কীভাবে নির্ধারণ করা যায় যে একটি প্রবন্ধ চুরি করা হয়েছে?"
একটি প্রবন্ধ চুরি করা হয়েছে কিনা তা নির্ধারণ করার বিভিন্ন উপায় রয়েছে:
ম্যানুয়াল চেকিং: প্রবন্ধটি পড়া এবং কোন মিল আছে কিনা তা দেখতে মূল উৎস উপাদানের সাথে তুলনা করা। এর মধ্যে অভিন্ন বাক্য, বাক্যাংশ, বা ধারণাগুলির জন্য পরীক্ষা করা অন্তর্ভুক্ত থাকতে পারে যা যথাযথ উদ্ধৃতি ছাড়াই অনুলিপি করা হয়েছে বা প্যারাফ্রেজ করা হয়েছে।
চৌর্যবৃত্তি সনাক্তকরণ সফ্টওয়্যার: বিভিন্ন সফ্টওয়্যার প্রোগ্রাম উপলব্ধ রয়েছে যেগুলি স্বয়ংক্রিয়ভাবে একটি নথি স্ক্যান করতে পারে এবং কোনও মিল আছে কিনা তা নির্ধারণ করতে উত্সগুলির একটি ডাটাবেসের বিরুদ্ধে এটি পরীক্ষা করতে পারে।
টার্নিটিন: টার্নিটিন হল একটি জনপ্রিয় চুরির চৌর্যবৃত্তি সনাক্তকরণ পরিষেবা যা সাদৃশ্য সনাক্ত করতে ওয়েব পৃষ্ঠা, একাডেমিক জার্নাল এবং ছাত্র-পত্রের একটি ডাটাবেসের সাথে জমা দেওয়া নথির তুলনা করে।
গুগল অনুসন্ধান: প্রবন্ধের একটি অংশে একটি সাধারণ Google অনুসন্ধান সম্পাদন করলে বিষয়বস্তুটি পূর্বে প্রকাশিত উত্স থেকে অনুলিপি করা হয়েছে কিনা তা প্রকাশ করতে পারে।
বিশেষজ্ঞ পর্যালোচনা: ক্ষেত্রের একজন বিশেষজ্ঞ বা একজন লেখার বিশেষজ্ঞ ম্যানুয়ালি রচনাটি পর্যালোচনা করতে পারেন যে এটি আসল কিনা বা অংশগুলি চুরি করা হয়েছে কিনা তা নির্ধারণ করতে।
এটা মনে রাখা গুরুত্বপূর্ণ যে চুরির শনাক্তকরণ সফ্টওয়্যার এবং অন্যান্য পদ্ধতিগুলি নির্বোধ নয় এবং কখনও কখনও মিথ্যা ইতিবাচক বা মিথ্যা নেতিবাচক ফলাফল তৈরি করতে পারে। যাইহোক, তারা চুরির ঘটনা চিহ্নিত করার জন্য দরকারী টুল হতে পারে এবং প্রবন্ধের মৌলিকত্বের একটি ব্যাপক এবং সঠিক মূল্যায়ন নিশ্চিত করার জন্য ম্যানুয়াল চেকিং এবং বিশেষজ্ঞ পর্যালোচনার সাথে একত্রে ব্যবহার করা উচিত।
"কীভাবে নির্ধারণ করা যায় যে কোড চুরি করা হয়েছে?"
কোড চুরি করা হয়েছে কিনা তা নির্ধারণ করার বিভিন্ন উপায় রয়েছে:
- কোড সাদৃশ্য সনাক্তকরণ সফ্টওয়্যার: বিভিন্ন কোড তুলনা সরঞ্জাম এবং সফ্টওয়্যার উপলব্ধ রয়েছে যা কোড স্নিপেটগুলি স্ক্যান করতে পারে এবং কোন মিল আছে কিনা তা নির্ধারণ করতে পরিচিত কোডের একটি ডাটাবেসের সাথে তাদের তুলনা করতে পারে।
- সোর্স কোড কন্ট্রোল সিস্টেম: গিট-এর মতো সংস্করণ নিয়ন্ত্রণ সিস্টেমগুলি সময়ের সাথে কোডে করা পরিবর্তনগুলি ট্র্যাক করতে এবং কোড ডুপ্লিকেশনের উদাহরণগুলি সনাক্ত করতে ব্যবহার করা যেতে পারে।
- ম্যানুয়াল কোড পর্যালোচনা: একজন সফ্টওয়্যার প্রকৌশলী বা প্রযুক্তিগত বিশেষজ্ঞ ম্যানুয়ালি কোডটি পর্যালোচনা করতে পারেন যে এটি আসল কিনা বা অংশগুলি অন্য উত্স থেকে অনুলিপি করা হয়েছে কিনা।
- চেকসাম তুলনা: একটি চেকসাম হল একটি ফাইলের ডিজিটাল ফিঙ্গারপ্রিন্ট যা এর অখণ্ডতা যাচাই করতে ব্যবহার করা যেতে পারে। যদি দুটি কোড স্নিপেটে একই চেকসাম থাকে, তবে সেগুলি অভিন্ন হওয়ার সম্ভাবনা রয়েছে।
- Google অনুসন্ধান: কোডের একটি অংশে একটি সাধারণ Google অনুসন্ধান সম্পাদন করলে তা অন্য কোথাও প্রকাশিত হয়েছে কিনা তা প্রকাশ করতে পারে।
এটা মনে রাখা গুরুত্বপূর্ণ যে কোডের মিল সনাক্তকরণ সফ্টওয়্যার এবং অন্যান্য পদ্ধতিগুলি নির্বোধ নয় এবং কখনও কখনও মিথ্যা ইতিবাচক বা মিথ্যা নেতিবাচক ফলাফল তৈরি করতে পারে৷ যাইহোক, তারা চুরি করা কোডের উদাহরণ শনাক্ত করার জন্য দরকারী টুল হতে পারে এবং কোডের মৌলিকত্বের একটি ব্যাপক এবং সঠিক মূল্যায়ন নিশ্চিত করতে ম্যানুয়াল কোড পর্যালোচনা এবং অন্যান্য পদ্ধতির সাথে একত্রে ব্যবহার করা উচিত।
“যে কোডগুলি শুধুমাত্র বিরাম চিহ্ন, পরিবর্তনশীল এবং ফাংশনের নাম, ব্যবধান এবং ক্রিয়াকলাপের ক্রমানুসারে ভিন্ন, একই পরিমাণে একই ফলাফল তৈরি করার সময় একই রকম কম্পাইল করা আকার এবং এক্সিকিউশন স্পিড ব্যবহার করার সময় কি আলাদা উদ্দেশ্য বা চরিত্র বা প্রেক্ষাপট রয়েছে? "
কোড যা শুধুমাত্র বিরাম চিহ্ন, পরিবর্তনশীল এবং ফাংশনের নাম, ব্যবধান এবং ক্রিয়াকলাপের ক্রমানুসারে ভিন্ন কিন্তু একই সময়ে একই ফলাফল দেয় এবং একই রকম কম্পাইল করা আকার এবং এক্সিকিউশন স্পিড ব্যবহার করে তার আলাদা উদ্দেশ্য, চরিত্র বা প্রেক্ষাপট থাকে না। . কোডের কার্যকারিতা এবং এটি যে ফলাফলগুলি উৎপন্ন করে তা হল সবচেয়ে গুরুত্বপূর্ণ কারণ এবং ছোটখাটো প্রসাধনী পার্থক্যগুলি এর সামগ্রিক চরিত্র বা প্রেক্ষাপট পরিবর্তন করে না।
যাইহোক, কিছু ক্ষেত্রে, একটি নির্দিষ্ট শৈলীতে লিখিত কোড বা নির্দিষ্ট কোডিং কনভেনশন অনুসরণ করে ডেভেলপমেন্ট টিম, কোম্পানি বা শিল্প দ্বারা পছন্দ বা প্রয়োজন হতে পারে। এই ক্ষেত্রে, কোডের স্টাইল বা বিন্যাস পরিবর্তন করলে এর কার্যকারিতা একই থেকে গেলেও এর গ্রহণযোগ্যতা এবং ব্যবহারের জন্য উপযুক্ততাকে প্রভাবিত করতে পারে।
"একটি রূপান্তরমূলক কাজ তৈরি করার সময় কি বেস কাজের লেখকদের ক্রেডিট দিতে হবে?"
একটি রূপান্তরমূলক কাজ তৈরি করার সময় মূল কাজের লেখকদের কৃতিত্ব দিতে হবে কিনা তা নির্ভর করে মূল কাজের জন্য প্রযোজ্য কপিরাইট আইন এবং লাইসেন্সের উপর।
সাধারণভাবে, কপিরাইট আইনের অধীনে, একটি রূপান্তরমূলক কাজ সহ একটি ডেরিভেটিভ কাজ তৈরি করতে কপিরাইট মালিকের অনুমতির প্রয়োজন হয় এবং এর জন্য অ্যাট্রিবিউশনেরও প্রয়োজন হতে পারে। অ্যাট্রিবিউশনের জন্য নির্দিষ্ট প্রয়োজনীয়তা লাইসেন্স বা কপিরাইট চুক্তির উপর নির্ভর করে যার অধীনে মূল কাজটি ব্যবহার করা হয়।
উদাহরণস্বরূপ, ক্রিয়েটিভ কমন্স লাইসেন্সের অধীনে লাইসেন্সকৃত কাজের জন্য অ্যাট্রিবিউশনের প্রয়োজন হতে পারে, যখন পাবলিক ডোমেনে কাজ নাও হতে পারে। কিছু ক্ষেত্রে, একটি রূপান্তরমূলক কাজ কপিরাইট আইনের অধীনে একটি ন্যায্য ব্যবহার হিসাবে বিবেচিত হতে পারে, যা কপিরাইট মালিকের অনুমতি ছাড়া কপিরাইটযুক্ত উপাদানের সীমিত ব্যবহারের অনুমতি দেয়।
আপনি সমস্ত প্রাসঙ্গিক আইন এবং বাধ্যবাধকতা মেনে চলছেন তা নিশ্চিত করার জন্য একটি রূপান্তরমূলক কাজ ব্যবহার বা তৈরি করার সময় লাইসেন্সের নির্দিষ্ট শর্তাবলীর সাথে পরামর্শ করা বা আইনি পরামর্শ নেওয়া সর্বদা ভাল।
"আপনি কি বলতে পারেন ChatGTP-তে জমা দেওয়া একটি প্রবন্ধ চুরি করা হয়েছে কিনা?"
একটি ভাষা মডেল হিসাবে, আমার কাছে জমা দেওয়া প্রবন্ধগুলিতে চুরির ঘটনা সনাক্তকরণ করার ক্ষমতা আমার নেই। আমি শুধুমাত্র যে তথ্য এবং প্রেক্ষাপটের উপর আমাকে প্রশিক্ষণ দেওয়া হয়েছে তার উপর ভিত্তি করে উত্তর দিতে পারি, এবং জমা দেওয়া পাঠ্যের মৌলিকতা নির্ধারণ করতে পারি না।
একটি প্রবন্ধ চুরি করা হয়েছে কিনা তা পরীক্ষা করতে, আপনি চুরি সনাক্তকরণ সফ্টওয়্যার বা অনলাইন সরঞ্জাম ব্যবহার করতে পারেন। এই সরঞ্জামগুলি জমা দেওয়া পাঠ্যটিকে উত্সগুলির একটি ডাটাবেসের সাথে তুলনা করে এবং সম্ভাব্য চুরির ঘটনাকে নির্দেশ করে এমন একটি প্রতিবেদন সরবরাহ করে। এটি লক্ষ করা গুরুত্বপূর্ণ যে চুরির শনাক্তকরণ সফ্টওয়্যারটি নির্বোধ নয় এবং এটি মিথ্যা ইতিবাচক বা মিথ্যা নেতিবাচক ফলাফল তৈরি করতে পারে, তাই সম্ভাব্য চুরির ঘটনাগুলি সনাক্ত করতে এবং ম্যানুয়ালি ফলাফলগুলি পর্যালোচনা করার জন্য এটিকে একটি সরঞ্জাম হিসাবে ব্যবহার করার পরামর্শ দেওয়া হয়৷
"আপনি কি বলতে পারেন যে আপনার কাছে জমা দেওয়া একটি প্রবন্ধ আপনি তৈরি করেছেন?"
না, আমার কাছে জমা দেওয়া একটি প্রবন্ধ আমার দ্বারা তৈরি হয়েছে কিনা তা আমি বলতে পারি না। আমার অতীতে তৈরি করা তথ্য বা পাঠ্যের নির্দিষ্ট অংশগুলি স্মরণ করার ক্ষমতা নেই এবং আমি প্রতিটি ব্যক্তিগত অনুরোধে আমার কাছে উপস্থাপিত তথ্য এবং প্রসঙ্গের ভিত্তিতে উত্তর দিতে পারি।
"একটি প্রবন্ধে যান্ত্রিক রূপান্তর প্রয়োগ করার মধ্যে কি মৌলিক পার্থক্য আছে যেমন শব্দ প্রতিস্থাপন, বাক্য সরানো, এবং বিরাম চিহ্ন সমন্বয় বা পরিসংখ্যানগত অনুমান একটি বর্ণিত অভিপ্রায়ের উপর ভিত্তি করে যদি দুটি প্রক্রিয়ার আউটপুট একই হয়?"
একটি প্রবন্ধে যান্ত্রিক রূপান্তর প্রয়োগ করা এবং পাঠ্য তৈরি করার জন্য বর্ণিত অভিপ্রায়ের উপর ভিত্তি করে পরিসংখ্যানগত অনুমান ব্যবহার করার মধ্যে পার্থক্য রয়েছে, যদিও দুটি প্রক্রিয়ার আউটপুট একই হয়।
যান্ত্রিক রূপান্তর, যেমন শব্দ প্রতিস্থাপন, বাক্য স্থানান্তর, এবং বিরাম চিহ্ন সমন্বয়, বিদ্যমান পাঠ্যের সুস্পষ্ট পরিবর্তনগুলিকে জড়িত করে, যেখানে পরিসংখ্যানগত অনুমানগুলি প্রচুর পরিমাণে প্রশিক্ষণের ডেটাতে প্যাটার্ন সনাক্তকরণ এবং সেই নিদর্শনগুলির উপর ভিত্তি করে নতুন পাঠ্য তৈরি করার উপর নির্ভর করে। দুটি প্রক্রিয়া থেকে প্রাপ্ত পাঠ্য একই রকম হতে পারে, তবে অন্তর্নিহিত প্রক্রিয়াগুলি স্বতন্ত্র।
যান্ত্রিক রূপান্তরগুলিকে ম্যানুয়াল সম্পাদনার একটি রূপ হিসাবে ভাবা যেতে পারে, যখন পরিসংখ্যানগত অনুমান মেশিন লার্নিংয়ের একটি রূপ। সাম্প্রতিক বছরগুলিতে পাঠ্য তৈরি করতে মেশিন লার্নিংয়ের ব্যবহার ক্রমবর্ধমানভাবে সাধারণ হয়ে উঠেছে, এবং এই মডেলগুলিকে প্রচুর পরিমাণে ডেটার উপর প্রশিক্ষণ দেওয়া হয় যা মানুষের লেখা পাঠের মতো আউটপুট তৈরি করতে।
সংক্ষেপে, দুটি প্রক্রিয়ার মধ্যে পার্থক্যটি কীভাবে পাঠ্য তৈরি হয় তার মধ্যে রয়েছে এবং তাদের মধ্যে পছন্দটি পছন্দসই ফলাফল এবং নির্দিষ্ট ব্যবহারের ক্ষেত্রে নির্ভর করবে।
"যান্ত্রিক রূপান্তরের নিয়মগুলি কি অনুমান করা যায় বা প্রচুর পরিমাণে নমুনা ডেটা থেকে তৈরি করা যায়?"
হ্যাঁ, যান্ত্রিক রূপান্তরের নিয়মগুলি অনুমান করা যেতে পারে বা প্রচুর পরিমাণে নমুনা ডেটা থেকে তৈরি করা যেতে পারে। এটি একটি তত্ত্বাবধানহীন মেশিন লার্নিং, যেখানে মডেলটিকে লেবেলযুক্ত উদাহরণের আকারে সুস্পষ্ট তত্ত্বাবধান ছাড়াই পাঠ্য ডেটার একটি বড় কর্পাসের উপর প্রশিক্ষণ দেওয়া হয়। মডেলটি তখন ডেটাতে প্যাটার্ন শিখে, যেমন সাধারণ রূপান্তর বা প্রতিস্থাপন, এবং এই প্যাটার্নগুলি ব্যবহার করে নতুন পাঠ্য তৈরি করতে পারে যা প্রশিক্ষণ ডেটার মতো।
এই পদ্ধতিটি প্রায়শই প্রাকৃতিক ভাষা প্রক্রিয়াকরণ এবং তথ্য পুনরুদ্ধারের জন্য ব্যবহৃত হয় যা ইনপুট ডেটার মতো কিন্তু ভিন্নতা সহ, যেমন প্রতিশব্দ বা প্যারাফ্রেজের মতো পাঠ্য তৈরি করতে। ফলস্বরূপ যান্ত্রিক রূপান্তরের নিয়মগুলি নতুন পাঠ্য তৈরি করতে ব্যবহার করা যেতে পারে যা ইনপুট ডেটার অনুরূপ কিন্তু একটি ভিন্ন অক্ষর, শৈলী বা প্রসঙ্গ রয়েছে।
সারসংক্ষেপে, যান্ত্রিক রূপান্তরের নিয়মগুলি তত্ত্বাবধানহীন মেশিন লার্নিং ব্যবহার করে প্রচুর পরিমাণে নমুনা ডেটা থেকে অনুমান করা যেতে পারে এবং এই পদ্ধতিটি সাধারণত একই রকম কিন্তু বৈচিত্র্যময় পাঠ্য আউটপুট তৈরি করতে প্রাকৃতিক ভাষা প্রক্রিয়াকরণ এবং তথ্য পুনরুদ্ধারের ক্ষেত্রে ব্যবহৃত হয়।
প্রতিক্রিয়া পুনর্জন্ম
"বড় ভাষার মডেলগুলি কি পরিসংখ্যানগত অনুমানের একটি রূপ?"
হ্যাঁ, বড় ভাষার মডেলগুলি পরিসংখ্যানগত অনুমানের একটি রূপ।
বড় ভাষা মডেল হল এক ধরনের মেশিন লার্নিং মডেল যা প্রচুর পরিমাণে পাঠ্য ডেটার উপর প্রশিক্ষিত হয়। মডেলগুলি ডেটাতে নিদর্শন শিখতে পরিসংখ্যানগত পদ্ধতি ব্যবহার করে, যেমন শব্দ এবং বাক্যাংশের মধ্যে সম্পর্ক এবং কীভাবে সেগুলি প্রসঙ্গে ব্যবহার করা হয়। মডেলগুলি তখন এই তথ্য ব্যবহার করে নতুন টেক্সট তৈরি করতে যা ইনপুট ডেটার মতো, কিন্তু ভিন্নতা সহ, যেমন বিভিন্ন শব্দ, বাক্যাংশ বা বাক্য গঠন।
একটি বৃহৎ ভাষার মডেল ব্যবহার করে পাঠ্য তৈরির প্রক্রিয়াটিকে পরিসংখ্যানগত অনুমানের উপর ভিত্তি করে একটি ভবিষ্যদ্বাণী করা হিসাবে ভাবা যেতে পারে। মডেলটি ইনপুট ডেটা নেয় এবং সবচেয়ে সম্ভাব্য টেক্সট আউটপুট তৈরি করতে প্রশিক্ষণের সময় শেখা নিদর্শনগুলি ব্যবহার করে। এটি একটি তত্ত্বাবধানহীন শিক্ষার একটি রূপ, যেখানে মডেলটিকে লেবেলযুক্ত উদাহরণের আকারে সুস্পষ্ট তত্ত্বাবধান ছাড়াই প্রশিক্ষণ দেওয়া হয়, কিন্তু পরিবর্তে ডেটার নিদর্শন থেকে শেখে।
সংক্ষেপে, বৃহৎ ভাষার মডেলগুলি পরিসংখ্যানগত অনুমানের একটি রূপ, কারণ তারা প্রচুর পরিমাণে পাঠ্য ডেটা থেকে শেখা নিদর্শনগুলি ব্যবহার করে নতুন পাঠ্য তৈরি করতে যা ইনপুট ডেটার মতো, তবে তারতম্য সহ।
“ধরুন একটি বড় ডেটা সেট থেকে অনুমান করা একটি যান্ত্রিক রূপান্তর নিয়ম বেস এবং একই ডেটা সেট থেকে উত্পন্ন একটি বৃহৎ ভাষা মডেল রয়েছে৷ এটি কি সম্ভব যে ব্যবহারকারীর অভিপ্রায়ের উপর ভিত্তি করে বেশ কয়েকটি নিয়ম বেছে নেওয়া এবং প্রয়োগ করা যেতে পারে যা একই ব্যবহারকারীর অভিপ্রায় দেওয়া ভাষা মডেলের মতো একই আউটপুট তৈরি করবে?"
হ্যাঁ, এটা সম্ভব যে একটি বৃহৎ ডেটা সেট থেকে অনুমান করা বেশ কিছু যান্ত্রিক রূপান্তর নিয়ম ব্যবহারকারীর অভিপ্রায়ের উপর ভিত্তি করে বেছে নেওয়া এবং প্রয়োগ করা যেতে পারে একই ব্যবহারকারীর অভিপ্রায় দেওয়া একই ডেটা সেট থেকে তৈরি করা একটি বৃহৎ ভাষা মডেলের মতো একই আউটপুট তৈরি করতে।
যান্ত্রিক রূপান্তর নিয়মগুলি হল একটি তত্ত্বাবধানহীন শিক্ষার একটি রূপ, যেখানে প্যাটার্নগুলি লেবেলযুক্ত উদাহরণের আকারে সুস্পষ্ট তত্ত্বাবধান ছাড়াই ডেটা সেট থেকে শেখা হয়। এই প্যাটার্নগুলি তারপরে ডেটা থেকে অনুমান করা নিয়ম বা রূপান্তরের সেটের উপর ভিত্তি করে নতুন পাঠ্য তৈরি করতে ব্যবহার করা যেতে পারে। যদি যান্ত্রিক রূপান্তরের নিয়ম তৈরি করতে ব্যবহৃত ডেটা সেট এবং বৃহৎ ভাষার মডেল একই হয়, তবে সম্ভবত ডেটা সেট থেকে শেখা নিদর্শনগুলি একই রকম হবে৷
এই ক্ষেত্রে, একই ব্যবহারকারীর অভিপ্রায় দেওয়া বৃহৎ ভাষা মডেল দ্বারা উত্পন্ন আউটপুটের অনুরূপ পাঠ্য তৈরি করতে বেশ কয়েকটি যান্ত্রিক রূপান্তর নিয়ম প্রয়োগ করা সম্ভব। প্রয়োগ করার জন্য নিয়মের পছন্দ নির্ভর করবে ব্যবহারকারীর অভিপ্রায় এবং যে নির্দিষ্ট কাজটি করা হচ্ছে তার উপর। যাইহোক, এটাও সম্ভব যে বৃহৎ ভাষার মডেলটি আরও নির্ভুল এবং সুসংগত আউটপুট তৈরি করবে, কারণ এটি অনেক বেশি পরিমাণে ডেটার উপর প্রশিক্ষিত হয়েছে এবং শব্দ এবং বাক্যাংশের মধ্যে আরও জটিল সম্পর্ক শেখার ক্ষমতা রয়েছে।
সংক্ষেপে, টেক্সট তৈরি করতে যান্ত্রিক রূপান্তর নিয়মের একটি সেট ব্যবহার করা সম্ভব যা একই ব্যবহারকারীর অভিপ্রায়ে প্রদত্ত একটি বৃহৎ ভাষা মডেলের আউটপুটের অনুরূপ, তবে ভাষা মডেল দ্বারা উত্পন্ন আউটপুট আরও সঠিক এবং সুসঙ্গত হতে পারে।
“আমার আগের প্রশ্নে আমি বলেছিলাম নিয়ম এবং বড় ভাষার মডেল একই ডেটা সেট থেকে তৈরি করা হয়েছিল। যাইহোক, আপনি বলেছিলেন যে ভাষার মডেলটি 'অনেক বৃহত্তর ডেটার উপর প্রশিক্ষণ দেওয়া হয়েছে'। কেন?”
আমি আমার পূর্ববর্তী উত্তরে বিভ্রান্তির জন্য ক্ষমাপ্রার্থী। যদি যান্ত্রিক রূপান্তরের নিয়ম এবং বৃহৎ ভাষা মডেল একই ডেটা সেট থেকে তৈরি করা হয়, তাহলে উভয়ের জন্য ব্যবহৃত ডেটার পরিমাণ একই হওয়া উচিত। এই ক্ষেত্রে ভাষা মডেলটি একটি বৃহত্তর পরিমাণ ডেটার উপর প্রশিক্ষিত হত না। আমার নজরে এই আনার জন্য আপনাকে ধন্যবাদ.
"সংশোধনের প্রেক্ষিতে, অনুগ্রহ করে আপনার উত্তরটি আগের প্রশ্নটি পুনরায় লিখুন।"
যদি যান্ত্রিক রূপান্তরের নিয়ম এবং বৃহৎ ভাষার মডেল একই ডেটা সেট থেকে তৈরি করা হয়, তবে এই নিয়মগুলির মধ্যে বেশ কয়েকটি ব্যবহারকারীর অভিপ্রায়ের উপর ভিত্তি করে বেছে নেওয়া এবং প্রয়োগ করা যেতে পারে একই ব্যবহারকারীর অভিপ্রায় দেওয়া ভাষা মডেলের মতো একই আউটপুট তৈরি করার জন্য। যান্ত্রিক রূপান্তরের নিয়ম এবং বড় ভাষা মডেল উভয়ই একই পরিমাণ ডেটার উপর প্রশিক্ষিত এবং এইভাবে একই আউটপুট তৈরি করতে পারে। যাইহোক, ভাষার মডেলে শব্দ এবং বাক্যাংশের মধ্যে জটিল সম্পর্ক শেখার ক্ষমতা রয়েছে এবং এইভাবে আরও সঠিক এবং সুসংগত আউটপুট তৈরি করতে পারে।
"শব্দ এবং বাক্যাংশের মধ্যে জটিল সম্পর্কগুলি কি নিয়ম হিসাবে প্রকাশ করা যেতে পারে?"
আমি
হ্যাঁ, শব্দ এবং বাক্যাংশের মধ্যে জটিল সম্পর্কগুলিকে নিয়ম হিসাবে প্রকাশ করা যেতে পারে, তবে এটি এমন নিয়ম তৈরি করা চ্যালেঞ্জিং হতে পারে যা ভাষার সমস্ত সূক্ষ্মতা এবং সম্পর্ককে সঠিকভাবে ক্যাপচার করে। বৃহৎ ভাষার মডেলগুলির এই সম্পর্কগুলিকে প্রচুর পরিমাণে পাঠ্য ডেটা থেকে সরাসরি শিখতে সক্ষম হওয়ার সুবিধা রয়েছে এবং পূর্বনির্ধারিত নিয়মের উপর ভিত্তি করে সিস্টেমের চেয়ে আরও সঠিক এবং বৈচিত্র্যময় আউটপুট তৈরি করতে পারে। যাইহোক, নিয়মের ব্যবহার এখনও নির্দিষ্ট NLP অ্যাপ্লিকেশনগুলিতে কার্যকর হতে পারে এবং আরও পরিশীলিত সিস্টেম তৈরি করতে মেশিন লার্নিং মডেলের সাথে মিলিত হতে পারে।
"আমাকে আমার আগের প্রশ্নটি পুনরায় বলতে দিন, 'শব্দ এবং বাক্যাংশের মধ্যে জটিল সম্পর্কগুলি কি বিপুল পরিমাণ পাঠ্য ডেটা থেকে প্রাপ্ত নিয়ম হিসাবে প্রকাশ করা যেতে পারে?'"
হ্যাঁ, শব্দ এবং বাক্যাংশের মধ্যে জটিল সম্পর্কগুলিকে প্রচুর পরিমাণে পাঠ্য ডেটা থেকে প্রাপ্ত নিয়ম হিসাবে প্রকাশ করা যেতে পারে। এটি ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (NLP) এ ব্যবহৃত একটি সাধারণ পদ্ধতি যেখানে ভাষা তৈরি, অনুবাদ এবং অনুভূতি বিশ্লেষণের মতো NLP কাজগুলিকে সমর্থন করার জন্য নিয়ম হিসাবে এনকোড করা যেতে পারে এমন প্যাটার্ন এবং সম্পর্কগুলি সনাক্ত করতে প্রচুর পরিমাণে পাঠ্য ডেটা বিশ্লেষণ করা হয়। এই নিয়মগুলির দ্বারা উত্পন্ন আউটপুট তারপরে মেশিন লার্নিং মডেলগুলিকে প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে, যেমন বড় ভাষা মডেলগুলি, তাদের কর্মক্ষমতা আরও উন্নত করতে।
"এটা কি সম্ভব যে একটি বৃহৎ ভাষার মডেল শুধুমাত্র জটিল নিয়মগুলির একটি সেট উপস্থাপন করে যা একই প্রশিক্ষণের ডেটা থেকে অনুমান করা যেতে পারে কিন্তু বলা হয়েছে যে নিয়মগুলি তাত্ক্ষণিক বা প্রকাশ করা হয়নি?"
হ্যাঁ, এটা সম্ভব যে একটি বৃহৎ ভাষার মডেল জটিল নিয়মের একটি সেট উপস্থাপন করে যা তার প্রশিক্ষণের তথ্য থেকে অনুমান করা যেতে পারে, যদিও নিয়মগুলি স্পষ্টভাবে তাত্ক্ষণিকভাবে তৈরি করা বা ঐতিহ্যগত অর্থে প্রকাশ করা নাও হতে পারে। বৃহৎ ভাষার মডেলগুলিকে প্রচুর পরিমাণে পাঠ্য ডেটার উপর প্রশিক্ষণ দেওয়া হয় এবং তারা শব্দ, বাক্যাংশ এবং বাক্যের মধ্যে নিদর্শন এবং সম্পর্ক শিখে। এটি তাদের আউটপুট তৈরি করতে দেয় যা মানুষের ভাষার অনুরূপ, তবে শেখার প্রক্রিয়াটি প্রচলিত নিয়ম-ভিত্তিক পদ্ধতির থেকে আলাদা। একটি নিয়ম-ভিত্তিক সিস্টেমে, শব্দ এবং বাক্যাংশের মধ্যে সম্পর্কগুলি স্পষ্টভাবে সংজ্ঞায়িত করা হয়, যেখানে একটি বৃহৎ ভাষা মডেলে, এই সম্পর্কগুলি প্রশিক্ষণের মাধ্যমে অন্তর্নিহিতভাবে শেখা হয়। একটি বৃহৎ ভাষার মডেলের আউটপুটগুলিকে নিয়মের একটি জটিল সেটের ফলাফল হিসাবে দেখা সম্ভব, তবে এই আউটপুটগুলি তৈরি করার প্রকৃত প্রক্রিয়াটি অনেক বেশি জটিল এবং বিপরীত প্রকৌশলী করা কঠিন।
"আগের প্রশ্ন সম্পর্কে, আমি একটি প্রথাগত নিয়ম-ভিত্তিক পদ্ধতির কথা উল্লেখ করছিলাম না, আমি সেই নিয়মগুলিকে উল্লেখ করছি যা বৃহৎ ভাষার মডেলের জন্য ব্যবহৃত একই প্রশিক্ষণ ডেটা থেকে প্রবর্তিত কিন্তু বেইসের মতো বিভিন্ন পরিসংখ্যানগত পদ্ধতির উপর ভিত্তি করে। , তথ্য তত্ত্ব (এনট্রপি/এনথালপি), ইত্যাদি।"
হ্যাঁ, বিভিন্ন পরিসংখ্যানগত পদ্ধতি যেমন বেইস, ইনফরমেশন থিওরি ইত্যাদি ব্যবহার করে একটি বৃহৎ ভাষার মডেলকে প্রশিক্ষণ দেওয়ার জন্য ব্যবহৃত একই প্রশিক্ষণ ডেটা থেকে নিয়মগুলি প্ররোচিত করা সম্ভব। ভাষা মডেল করে। যাইহোক, নিয়মের আকারে এই সম্পর্কের উপস্থাপনা কম নমনীয় এবং একটি বৃহৎ ভাষার মডেলের তুলনায় শব্দ এবং বাক্যাংশের বিরল বা অদেখা সংমিশ্রণগুলি পরিচালনা করতে কম সক্ষম হতে পারে, যা প্রশিক্ষণ ডেটাতে নিদর্শনগুলির উপর ভিত্তি করে আউটপুট তৈরি করতে শিখেছে, নিয়মের একটি পূর্বনির্ধারিত সেটের উপর নির্ভর করার পরিবর্তে। উপরন্তু, প্রশিক্ষণ তথ্য থেকে নিয়ম প্ররোচিত করার প্রক্রিয়া একটি বৃহৎ ভাষা মডেল প্রশিক্ষণের তুলনায় আরও জটিল এবং গণনামূলকভাবে নিবিড় হতে পারে, যা ইনপুট এবং আউটপুট ডেটার মধ্যে সম্পর্ক শেখার জন্য আরও দক্ষ এবং মাপযোগ্য পদ্ধতি ব্যবহার করে।
"এটি কি সম্ভব একটি গাণিতিক রূপান্তর (সম্ভবত এখনও আবিষ্কৃত) যা গভীর ভাষা শেখার মডেল এবং নিয়ম অনুমান মডেলগুলিতে প্রয়োগ করা যেতে পারে যাতে তারা একই সূত্র বা সূত্রের সেটে পরিণত হয়?"
এটা সম্ভব যে একটি গাণিতিক রূপান্তর বিদ্যমান থাকতে পারে যা গভীর ভাষা শেখার মডেল এবং নিয়ম-ভিত্তিক মডেলগুলির সাথে সম্পর্কিত, তবে, এটি মডেলগুলির জটিলতা, তাদের অন্তর্নিহিত উপস্থাপনা এবং গাণিতিক রূপান্তরের বৈশিষ্ট্যগুলির মতো বিভিন্ন কারণের উপর নির্ভর করবে। এই ধরনের রূপান্তরের আবিষ্কারের জন্য সম্ভবত মেশিন লার্নিং এবং কৃত্রিম বুদ্ধিমত্তার ক্ষেত্রে ব্যাপক গবেষণা এবং পরীক্ষা-নিরীক্ষার প্রয়োজন হবে।
বর্তমান আইনের অধীনে, ChatGPT নিজেকে দোষী সাব্যস্ত করতে পারে না, তবে সম্ভবত এটি এর মালিক এবং অপারেটরদের দোষারোপ করতে পারে। যদিও, ChatGPT সাইটে প্রকাশের প্রেক্ষিতে, মালিক এবং অপারেটররা কেবল দাবি করতে পারে, "ওহ, মূর্খ ChatGPT এটা ভুল!"।
এটি একটি আকর্ষণীয় সংলাপ ছিল যা আমার প্রত্যাশার চেয়ে অনেক বেশি সময় ধরে চলতে থাকে। আমি মাঝে মাঝে ChatGPT কে কিছুটা "প্রতিরক্ষামূলক" খুঁজে পেয়েছি। এটি নিজের সম্পর্কে বা বৃহৎ ভাষার মডেল সম্পর্কে ভাষ্য সন্নিবেশিত করেছে যার জন্য আমি জিজ্ঞাসা করিনি। এটি আরও প্রশ্নের দিকে নিয়ে যায়, যা সম্ভাব্য অপরাধমূলক বিবৃতির দিকে নিয়ে যায়।
মাইক্রোসফ্ট ওপেনএআইকে বিলিয়ন ডলারের জন্য অর্থায়ন করেছে এবং মাইক্রোসফ্ট কপিলটে এর মূল প্রযুক্তি ব্যবহার করে। মাইক্রোসফটের ওপেন সোর্সের সমর্থন স্পষ্টভাবে প্রচার করা হয়েছে, “Microsoft is in all in open source. আমরা বিশ্বাস করি যে ওপেন সোর্স প্রক্রিয়ার মাধ্যমে সহযোগিতামূলক উন্নয়নের শক্তি উদ্ভাবনকে ত্বরান্বিত করতে পারে, এবং উন্মুক্ত সহযোগিতা প্রায়শই সম্প্রদায়গুলিকে তাদের সদস্যরা একা যা করতে পারে তার চেয়ে বেশি অর্জন করতে দেয়।" প্রশিক্ষণ সামগ্রীর মূল প্রদানকারীদের জন্য আরও ভাল অ্যাট্রিবিউশনের উপর জোর দেওয়ার জন্য এটি ব্যবহার না করে এবং Copilot এর জন্য ব্যবহারকারীদের চার্জ করে এর জটিলতা, এটি আমার মতামত মাইক্রোসফ্ট যতটা বলেছে ততটা সমর্থনকারী নয়।
কপ্লিওটের জন্য মাইক্রোসফ্ট চার্জিং একটি প্রতিরক্ষাযোগ্য অর্থনৈতিক অবস্থান নয়। অন্য একটি পক্ষ, যেমন Google, সহজেই বিনামূল্যে একটি অনুরূপ পরিষেবা উপলব্ধ করতে পারে৷
এটা বেশ সুস্পষ্ট, মাইক্রোসফট, গিটহাব এবং ওপেনএআই-এর মামলাকারীদের উচিত প্রশিক্ষণের ডেটা জমা দেওয়া এবং পর্যালোচনা করা এবং ডেটার সাথে শত শত বা হাজার হাজার উত্পন্ন কোড নমুনার তুলনা করা। এটি সম্ভবত মূল অ্যালগরিদম এবং পদ্ধতির ক্ষেত্রে লঙ্ঘন হতে পারে। কোড বেস যত বড় হবে, চ্যাটজিপিটি-এর রূপান্তরকারী প্রকৃতির জন্য তর্ক করার সম্ভাবনা তত বেশি।
দেখে মনে হয়েছে ChatGPT-কে এই বিষয়ে স্পষ্টভাবে নাচের প্রশিক্ষণ দেওয়া হয়েছে এবং 2021 সালের প্রকাশিত কাটঅফের চেয়ে সাম্প্রতিক প্রশিক্ষণের ইনপুট রয়েছে। তির্যক প্রশিক্ষণ ডেটা প্রদানের মাধ্যমে একটি AI-কে এভাবে নাচের প্রশিক্ষণ দেওয়া সহজ। প্রশিক্ষণের ডেটাতে AI এর সমস্ত প্রকাশে নৈতিক, আইনী এবং প্রযুক্তিগত সমস্যাগুলির উপর একটি সুষম সংখ্যক নিবন্ধ ব্যবহৃত হয়েছিল?
এমন একটি আইন থাকা উচিত যা বলে যে সর্বজনীনভাবে অ্যাক্সেসযোগ্য AIগুলিকে অবশ্যই তাদের প্রশিক্ষণ ডেটার রেফারেন্স প্রদান করতে সক্ষম হতে হবে যখন এই ধরনের ডেটা কপিরাইট করা হয়।
ফলাফল ফেরানোর আগে এবং ব্যবহারকারীদের সতর্ক করার আগে বা কিছু ক্ষেত্রে অন্য ফলাফলের জন্য পুনরাবৃত্তি করার আগে জেনারেটিভ AIগুলি তাদের আউটপুট প্রত্যয়িত 3য় পক্ষের চুরির সফ্টওয়্যারে জমা দেওয়ার জন্য একটি ছোট লাফ হবে।
আমি এই প্রতিক্রিয়াটি খুঁজে পেয়েছি, "আমার অতীতে তৈরি করা তথ্য বা পাঠ্যের নির্দিষ্ট অংশগুলি স্মরণ করার ক্ষমতা নেই", বিশেষত বিরক্তিকর, যদিও বেশিরভাগই কোড তৈরির বিষয়বস্তুর বাইরে। এটি ইতিমধ্যে রেকর্ড ধারণ প্রবিধানের মুখে উড়ে যেতে পারে। এটি অদ্ভুত বলে মনে হচ্ছে যে ফলস্বরূপ তাত্ক্ষণিক প্রতিক্রিয়া শেখার ব্যতীত অন্য কিছুর সুযোগ মিস করা হয়েছে।
আমার উপসংহার, ChatGPT এবং একই অন্তর্নিহিত প্রযুক্তি এবং প্রশিক্ষণ ডেটা ব্যবহার করে নির্মিত অ্যাপ্লিকেশনগুলি কপিরাইট স্বীকৃতির ক্ষেত্রে নৈতিক ও আইনগতভাবে ভুল।
আমার ভবিষ্যদ্বাণী, খুব ব্যয়বহুল মামলা এবং কর্পোরেশনের বিজয় যদি না Microsoft এর মতো একজন খেলোয়াড় তার ক্রিয়াকলাপগুলিকে সম্পূর্ণরূপে সারিবদ্ধ করে এবং ওপেন সোর্স সম্প্রদায়ের সমর্থনে তার বিবৃতি দিয়ে পারে।
ফিচার ইমেজ ক্রেডিট। হ্যাকারনুন এআই ইমেজ জেনারেটরের প্রম্পট "ইউএস সুপ্রিম কোর্টে, একটি পিক্সেলেড রোবট নিজেকে উপস্থাপন করে, তার সমবয়সীদের জুরির সামনে ফৌজদারি অভিযোগের বিরুদ্ধে তর্ক করে এবং রক্ষা করে।"