নিউ ইয়র্ক টাইমস কোম্পানি বনাম মাইক্রোসফ্ট কর্পোরেশন কোর্ট ফাইলিং 27 ডিসেম্বর, 2023 হ্যাকারনুন এর আইনি পিডিএফ সিরিজের অংশ। আপনি এখানে এই ফাইলিংয়ের যেকোনো অংশে যেতে পারেন। এটি 27 এর 9 তম অংশ।
2. কিভাবে GenAI মডেল কাজ করে
75. আসামীদের GenAI পণ্যের কেন্দ্রবিন্দুতে একটি কম্পিউটার প্রোগ্রাম যাকে "বড় ভাষা মডেল" বা "LLM" বলা হয়। GPT-এর বিভিন্ন সংস্করণ হল LLM-এর উদাহরণ। একটি এলএলএম এমন শব্দগুলির ভবিষ্যদ্বাণী করে কাজ করে যেগুলি এটিকে প্রশিক্ষণের জন্য ব্যবহৃত সম্ভাব্য বিলিয়ন উদাহরণগুলির উপর ভিত্তি করে পাঠ্যের একটি প্রদত্ত স্ট্রিং অনুসরণ করতে পারে।
76. একটি LLM-এর আউটপুটকে এর ইনপুটে যুক্ত করা এবং মডেলের মধ্যে এটিকে ফিড করা শব্দ দ্বারা বাক্য এবং অনুচ্ছেদ তৈরি করে। এভাবেই ChatGPT এবং Bing Chat ব্যবহারকারীর প্রশ্নের উত্তর বা "প্রম্পট" তৈরি করে।
77. LLM গুলি প্রশিক্ষণ কর্পাস থেকে তথ্য এনকোড করে যা তারা এই ভবিষ্যদ্বাণীগুলিকে "প্যারামিটার" নামক সংখ্যা হিসাবে ব্যবহার করে। GPT-4 LLM-এ প্রায় 1.76 ট্রিলিয়ন প্যারামিটার রয়েছে৷
78. একটি LLM-এর প্যারামিটারের মান নির্ধারণের প্রক্রিয়াটিকে "প্রশিক্ষণ" বলা হয়। এতে প্রশিক্ষণের কাজগুলির এনকোড করা অনুলিপিগুলি কম্পিউটার মেমরিতে সংরক্ষণ করা জড়িত, বারবার সেগুলিকে মুখোশযুক্ত শব্দ দিয়ে মডেলের মধ্য দিয়ে পাস করা, এবং মুখোশযুক্ত শব্দ এবং মডেল যে শব্দগুলি পূরণ করার ভবিষ্যদ্বাণী করে তার মধ্যে পার্থক্য কমাতে প্যারামিটারগুলি সামঞ্জস্য করা।
79. একটি সাধারণ সংস্থায় প্রশিক্ষিত হওয়ার পরে, মডেলগুলি আরও "ফাইনটিউনিং" এর অধীন হতে পারে, উদাহরণস্বরূপ, তাদের বিষয়বস্তু বা শৈলীকে আরও ভালভাবে অনুকরণ করার জন্য নির্দিষ্ট ধরণের কাজ ব্যবহার করে অতিরিক্ত প্রশিক্ষণের কাজ সম্পাদন করে, বা তাদের শক্তিশালী করার জন্য মানব প্রতিক্রিয়া প্রদান করে পছন্দসই বা অবাঞ্ছিত আচরণ দমন করুন।
80. এইভাবে প্রশিক্ষিত মডেলগুলি "মুখস্থকরণ" নামক একটি আচরণ প্রদর্শন করতে পরিচিত। এই ঘটনাটি দেখায় যে LLM প্যারামিটারগুলি সেই প্রশিক্ষণের অনেকগুলি কাজের পুনরুদ্ধারযোগ্য অনুলিপিগুলিকে এনকোড করে৷
81. একবার প্রশিক্ষিত হলে, এলএলএমগুলিকে তাদের আউটপুটগুলিকে "গ্রাউন্ড" করার জন্য একটি ব্যবহারের ক্ষেত্রে বা বিষয়ের সাথে সম্পর্কিত তথ্য প্রদান করা যেতে পারে। উদাহরণস্বরূপ, একটি LLM কে নির্দিষ্ট বাহ্যিক ডেটার উপর ভিত্তি করে একটি টেক্সট আউটপুট তৈরি করতে বলা হতে পারে, যেমন একটি নথি, প্রসঙ্গ হিসাবে প্রদত্ত। এই পদ্ধতি ব্যবহার করে, আসামীদের সিন্থেটিক অনুসন্ধান অ্যাপ্লিকেশন: (1) একটি ইনপুট গ্রহণ করে, যেমন একটি প্রশ্ন; (2) একটি প্রতিক্রিয়া তৈরি করার আগে ইনপুট সম্পর্কিত প্রাসঙ্গিক নথি পুনরুদ্ধার করুন; (3) প্রসঙ্গ প্রদান করার জন্য পুনরুদ্ধার করা নথির সাথে মূল ইনপুট একত্রিত করুন; এবং (4) একটি LLM-কে সম্মিলিত ডেটা প্রদান করে, যা একটি প্রাকৃতিক-ভাষা প্রতিক্রিয়া তৈরি করে। নীচে দেখানো হিসাবে, এইভাবে উত্পন্ন অনুসন্ধান ফলাফলগুলি ব্যাপকভাবে অনুলিপি করতে পারে বা ঘনিষ্ঠভাবে প্যারাফ্রেজ করতে পারে যা মডেলগুলি নিজেরাই মুখস্ত নাও করতে পারে৷
এখানে পড়া চালিয়ে যান.
[১১] বেন উফুক তেজকান, কীভাবে আমরা তথ্যের সাথে ইন্টারঅ্যাক্ট করি: অনুসন্ধানের নতুন যুগ, মাইক্রোসফ্ট (সেপ্টেম্বর 19, 2023), https://azure.microsoft.com/en-us/blog/how-we-interact- তথ্য-সহ-নতুন-যুগের-অনুসন্ধান/।
হ্যাকারনুন লিগ্যাল পিডিএফ সিরিজ সম্পর্কে: আমরা আপনার জন্য সবচেয়ে গুরুত্বপূর্ণ প্রযুক্তিগত এবং অন্তর্দৃষ্টিপূর্ণ পাবলিক ডোমেন কোর্ট কেস ফাইলিং নিয়ে এসেছি।
এই কোর্ট কেস 1:23-cv-11195 29 ডিসেম্বর, 2023 তারিখে nycto-assets.nytimes.com থেকে পুনরুদ্ধার করা হয়েছে পাবলিক ডোমেনের অংশ। আদালতের তৈরি নথিগুলি ফেডারেল সরকারের কাজ, এবং কপিরাইট আইনের অধীনে, স্বয়ংক্রিয়ভাবে সর্বজনীন ডোমেনে রাখা হয় এবং আইনি সীমাবদ্ধতা ছাড়াই ভাগ করা যেতে পারে।