paint-brush
টাইমস বনাম মাইক্রোসফ্ট/ওপেনএআই: মডেলগুলি "স্মরণ" নামে একটি আচরণ প্রদর্শন করে। (9)দ্বারা@legalpdf
103 পড়া

টাইমস বনাম মাইক্রোসফ্ট/ওপেনএআই: মডেলগুলি "স্মরণ" নামে একটি আচরণ প্রদর্শন করে। (9)

দ্বারা Legal PDF: Tech Court Cases3m2024/01/02
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

একটি এলএলএম এমন শব্দগুলির ভবিষ্যদ্বাণী করে কাজ করে যেগুলি এটিকে প্রশিক্ষণের জন্য ব্যবহৃত সম্ভাব্য বিলিয়ন উদাহরণগুলির উপর ভিত্তি করে পাঠ্যের একটি প্রদত্ত স্ট্রিং অনুসরণ করতে পারে।
featured image - টাইমস বনাম মাইক্রোসফ্ট/ওপেনএআই: মডেলগুলি "স্মরণ" নামে একটি আচরণ প্রদর্শন করে। (9)
Legal PDF: Tech Court Cases HackerNoon profile picture

নিউ ইয়র্ক টাইমস কোম্পানি বনাম মাইক্রোসফ্ট কর্পোরেশন কোর্ট ফাইলিং 27 ডিসেম্বর, 2023 হ্যাকারনুন এর আইনি পিডিএফ সিরিজের অংশ। আপনি এখানে এই ফাইলিংয়ের যেকোনো অংশে যেতে পারেন। এটি 27 এর 9 তম অংশ।

IV বাস্তব অভিযোগ

B. আসামীদের GenAI পণ্য

2. কিভাবে GenAI মডেল কাজ করে


75. আসামীদের GenAI পণ্যের কেন্দ্রবিন্দুতে একটি কম্পিউটার প্রোগ্রাম যাকে "বড় ভাষা মডেল" বা "LLM" বলা হয়। GPT-এর বিভিন্ন সংস্করণ হল LLM-এর উদাহরণ। একটি এলএলএম এমন শব্দগুলির ভবিষ্যদ্বাণী করে কাজ করে যেগুলি এটিকে প্রশিক্ষণের জন্য ব্যবহৃত সম্ভাব্য বিলিয়ন উদাহরণগুলির উপর ভিত্তি করে পাঠ্যের একটি প্রদত্ত স্ট্রিং অনুসরণ করতে পারে।


76. একটি LLM-এর আউটপুটকে এর ইনপুটে যুক্ত করা এবং মডেলের মধ্যে এটিকে ফিড করা শব্দ দ্বারা বাক্য এবং অনুচ্ছেদ তৈরি করে। এভাবেই ChatGPT এবং Bing Chat ব্যবহারকারীর প্রশ্নের উত্তর বা "প্রম্পট" তৈরি করে।


77. LLM গুলি প্রশিক্ষণ কর্পাস থেকে তথ্য এনকোড করে যা তারা এই ভবিষ্যদ্বাণীগুলিকে "প্যারামিটার" নামক সংখ্যা হিসাবে ব্যবহার করে। GPT-4 LLM-এ প্রায় 1.76 ট্রিলিয়ন প্যারামিটার রয়েছে৷


78. একটি LLM-এর প্যারামিটারের মান নির্ধারণের প্রক্রিয়াটিকে "প্রশিক্ষণ" বলা হয়। এতে প্রশিক্ষণের কাজগুলির এনকোড করা অনুলিপিগুলি কম্পিউটার মেমরিতে সংরক্ষণ করা জড়িত, বারবার সেগুলিকে মুখোশযুক্ত শব্দ দিয়ে মডেলের মধ্য দিয়ে পাস করা, এবং মুখোশযুক্ত শব্দ এবং মডেল যে শব্দগুলি পূরণ করার ভবিষ্যদ্বাণী করে তার মধ্যে পার্থক্য কমাতে প্যারামিটারগুলি সামঞ্জস্য করা।


79. একটি সাধারণ সংস্থায় প্রশিক্ষিত হওয়ার পরে, মডেলগুলি আরও "ফাইনটিউনিং" এর অধীন হতে পারে, উদাহরণস্বরূপ, তাদের বিষয়বস্তু বা শৈলীকে আরও ভালভাবে অনুকরণ করার জন্য নির্দিষ্ট ধরণের কাজ ব্যবহার করে অতিরিক্ত প্রশিক্ষণের কাজ সম্পাদন করে, বা তাদের শক্তিশালী করার জন্য মানব প্রতিক্রিয়া প্রদান করে পছন্দসই বা অবাঞ্ছিত আচরণ দমন করুন।


80. এইভাবে প্রশিক্ষিত মডেলগুলি "মুখস্থকরণ" নামক একটি আচরণ প্রদর্শন করতে পরিচিত। এই ঘটনাটি দেখায় যে LLM প্যারামিটারগুলি সেই প্রশিক্ষণের অনেকগুলি কাজের পুনরুদ্ধারযোগ্য অনুলিপিগুলিকে এনকোড করে৷


81. একবার প্রশিক্ষিত হলে, এলএলএমগুলিকে তাদের আউটপুটগুলিকে "গ্রাউন্ড" করার জন্য একটি ব্যবহারের ক্ষেত্রে বা বিষয়ের সাথে সম্পর্কিত তথ্য প্রদান করা যেতে পারে। উদাহরণস্বরূপ, একটি LLM কে নির্দিষ্ট বাহ্যিক ডেটার উপর ভিত্তি করে একটি টেক্সট আউটপুট তৈরি করতে বলা হতে পারে, যেমন একটি নথি, প্রসঙ্গ হিসাবে প্রদত্ত। এই পদ্ধতি ব্যবহার করে, আসামীদের সিন্থেটিক অনুসন্ধান অ্যাপ্লিকেশন: (1) একটি ইনপুট গ্রহণ করে, যেমন একটি প্রশ্ন; (2) একটি প্রতিক্রিয়া তৈরি করার আগে ইনপুট সম্পর্কিত প্রাসঙ্গিক নথি পুনরুদ্ধার করুন; (3) প্রসঙ্গ প্রদান করার জন্য পুনরুদ্ধার করা নথির সাথে মূল ইনপুট একত্রিত করুন; এবং (4) একটি LLM-কে সম্মিলিত ডেটা প্রদান করে, যা একটি প্রাকৃতিক-ভাষা প্রতিক্রিয়া তৈরি করে। নীচে দেখানো হিসাবে, এইভাবে উত্পন্ন অনুসন্ধান ফলাফলগুলি ব্যাপকভাবে অনুলিপি করতে পারে বা ঘনিষ্ঠভাবে প্যারাফ্রেজ করতে পারে যা মডেলগুলি নিজেরাই মুখস্ত নাও করতে পারে৷


এখানে পড়া চালিয়ে যান.


[১১] বেন উফুক তেজকান, কীভাবে আমরা তথ্যের সাথে ইন্টারঅ্যাক্ট করি: অনুসন্ধানের নতুন যুগ, মাইক্রোসফ্ট (সেপ্টেম্বর 19, 2023), https://azure.microsoft.com/en-us/blog/how-we-interact- তথ্য-সহ-নতুন-যুগের-অনুসন্ধান/।



হ্যাকারনুন লিগ্যাল পিডিএফ সিরিজ সম্পর্কে: আমরা আপনার জন্য সবচেয়ে গুরুত্বপূর্ণ প্রযুক্তিগত এবং অন্তর্দৃষ্টিপূর্ণ পাবলিক ডোমেন কোর্ট কেস ফাইলিং নিয়ে এসেছি।


এই কোর্ট কেস 1:23-cv-11195 29 ডিসেম্বর, 2023 তারিখে nycto-assets.nytimes.com থেকে পুনরুদ্ধার করা হয়েছে পাবলিক ডোমেনের অংশ। আদালতের তৈরি নথিগুলি ফেডারেল সরকারের কাজ, এবং কপিরাইট আইনের অধীনে, স্বয়ংক্রিয়ভাবে সর্বজনীন ডোমেনে রাখা হয় এবং আইনি সীমাবদ্ধতা ছাড়াই ভাগ করা যেতে পারে।