নিউ ইয়র্ক টাইমস কোম্পানি বনাম মাইক্রোসফ্ট কর্পোরেশন কোর্ট ফাইলিং 27 ডিসেম্বর, 2023 হ্যাকারনুন এর আইনি পিডিএফ সিরিজের অংশ। আপনি এখানে এই ফাইলিংয়ের যেকোনো অংশে যেতে পারেন। এটি 27-এর 10 নম্বর অংশ।
82. মাইক্রোসফ্ট এবং ওপেনএআই তাদের এলএলএম প্রশিক্ষণ এবং তাদের অন্তর্ভুক্ত পণ্যগুলি পরিচালনা করার জন্য টাইমসের বিষয়বস্তুর পুনরুত্পাদন তৈরি এবং বিতরণ করেছে।
1. জিপিটি মডেল প্রশিক্ষণের সময় টাইমসের অননুমোদিত পুনরুৎপাদন
83. আসামীদের জিপিটি মডেল হল এলএলএম-এর একটি পরিবার, যার মধ্যে প্রথমটি 2018 সালে চালু হয়েছিল, তারপরে 2019 সালে GPT-2, 2020 সালে GPT-3, 2022 সালে GPT-3.5 এবং 2023 সালে GPT-4। চ্যাট” স্টাইল এলএলএম, জিপিটি-৩.৫ এবং জিপিটি-৪, দুটি পর্যায়ে তৈরি করা হয়েছিল। প্রথমত, একটি ট্রান্সফরমার মডেলকে প্রচুর পরিমাণে ডেটার উপর প্রাক-প্রশিক্ষিত করা হয়েছিল। দ্বিতীয়ত, মডেলটিকে সুনির্দিষ্ট কাজগুলি সমাধান করতে সাহায্য করার জন্য একটি অনেক ছোট তত্ত্বাবধানে থাকা ডেটাসেটে মডেলটিকে "সূক্ষ্ম-টিউন" করা হয়েছিল।
84. প্রাক-প্রশিক্ষণের ধাপে প্রশিক্ষণ ডেটাসেট তৈরি করার জন্য পাঠ্য সামগ্রী সংগ্রহ এবং সংরক্ষণ করা এবং জিপিটি মডেলের মাধ্যমে সেই বিষয়বস্তু প্রক্রিয়াকরণ জড়িত। যদিও OpenAI GPT-2 এর প্রশিক্ষিত সংস্করণ প্রকাশ করেনি, "[d] [OpenAI] প্রযুক্তির দূষিত অ্যাপ্লিকেশন সম্পর্কে উদ্বেগের কারণে," OpenAI GPT মডেলগুলির জন্য তার প্রাক-প্রশিক্ষণ প্রক্রিয়া সম্পর্কে সাধারণ তথ্য প্রকাশ করেছে। ]
85. GPT-2 এর মধ্যে রয়েছে 1.5 বিলিয়ন প্যারামিটার, যা GPT-এর 10X স্কেল ছিল। GPT-2-এর প্রশিক্ষণ ডেটাসেটে "ওয়েবটেক্সট" নামে একটি অভ্যন্তরীণ কর্পাস ওপেনএআই তৈরি করা হয়েছে, যার মধ্যে রয়েছে "'রেডডিট' সোশ্যাল নেটওয়ার্কের ব্যবহারকারীদের দ্বারা পোস্ট করা 45 মিলিয়ন লিঙ্কের পাঠ্য বিষয়বস্তু।"[14] ওয়েবটেক্সট ডেটাসেটের বিষয়বস্তু ছিল একটি "নতুন ওয়েব স্ক্র্যাপ যা নথির গুণমানের উপর জোর দেয়" হিসাবে তৈরি করা হয়েছে। উদাহরণ স্বরূপ, NYTimes.com ডোমেন হল WebText ডেটাসেটের "ভলিউম অনুসারে শীর্ষ 15টি ডোমেন" এর মধ্যে একটি,[16] এবং 333,160টি এন্ট্রি সহ WebText ডেটাসেটে 5ম "শীর্ষ ডোমেন" হিসেবে তালিকাভুক্ত করা হয়েছে।[17]
86. GPT-3 175 বিলিয়ন প্যারামিটার অন্তর্ভুক্ত করে এবং নীচের সারণীতে তালিকাভুক্ত ডেটাসেটগুলিতে প্রশিক্ষণ দেওয়া হয়েছিল।
87. এই ডেটাসেটগুলির মধ্যে একটি, WebText2, উচ্চ মূল্যের বিষয়বস্তুকে অগ্রাধিকার দেওয়ার জন্য তৈরি করা হয়েছিল৷ মূল ওয়েবটেক্সটের মতো, এটি Reddit থেকে জনপ্রিয় আউটবাউন্ড লিঙ্কগুলির সমন্বয়ে গঠিত। উপরের সারণীতে দেখানো হয়েছে, প্রশিক্ষণের মিশ্রণে মোট টোকেনের 4% এর কম থাকা সত্ত্বেও GPT-3-এর প্রশিক্ষণ মিশ্রণে WebText2 কর্পাসের ওজন 22% ছিল। টাইমস বিষয়বস্তু—মোট 209,707টি অনন্য ইউআরএল—ওপেনওয়েবটেক্সট2-এ তালিকাভুক্ত সমস্ত উত্সের 1.23%-এর জন্য অ্যাকাউন্ট, যা GPT-3 প্রশিক্ষণে ব্যবহৃত WebText2 ডেটাসেটের একটি ওপেন-সোর্স পুনঃসৃষ্টি। মূল WebText এর মত, OpenAI WebText2 কে একটি "উচ্চ মানের" ডেটাসেট হিসাবে বর্ণনা করে যা "ওয়েবটেক্সট ডেটাসেটের একটি প্রসারিত সংস্করণ … দীর্ঘ সময়ের জন্য লিঙ্কগুলিকে স্ক্র্যাপ করে সংগ্রহ করা হয়।"[19]
88. GPT-3-এ সবচেয়ে বেশি ওজনযুক্ত ডেটাসেট, কমন ক্রল, হল একটি "ইন্টারনেটের অনুলিপি" যা ধনী ভেঞ্চার ক্যাপিটাল বিনিয়োগকারীদের দ্বারা পরিচালিত একটি 501(c)(3) সংস্থার দ্বারা উপলব্ধ করা হয়েছে৷[20] ডোমেন www.nytimes.com হল সবচেয়ে বেশি প্রতিনিধিত্ব করা মালিকানাধীন উৎস (এবং সামগ্রিকভাবে শুধুমাত্র উইকিপিডিয়ার পিছনে তৃতীয় এবং মার্কিন পেটেন্ট নথির একটি ডাটাবেস) সাধারণ ক্রলের একটি 2019 স্ন্যাপশটের একটি ফিল্টার করা ইংরেজি-ভাষার উপসেটে প্রতিনিধিত্ব করা হয়েছে, যার হিসাব 100 মিলিয়ন টোকেন (পাঠ্যের মৌলিক একক): [২১]
89. কমন ক্রল ডেটাসেটে দ্য টাইমস থেকে নিউজ, কুকিং, ওয়্যারকাটার এবং দ্য অ্যাথলেটিক জুড়ে কমপক্ষে 16 মিলিয়ন ইউনিক কন্টেন্ট এবং টাইমস থেকে মোট 66 মিলিয়নেরও বেশি কন্টেন্ট রেকর্ড রয়েছে।
90. সমালোচনামূলকভাবে, OpenAI স্বীকার করে যে প্রশিক্ষণের সময় "আমরা যে ডেটাসেটগুলিকে উচ্চ-মানের হিসাবে দেখি সেগুলি আরও ঘন ঘন নমুনা করা হয়"। তদনুসারে, OpenAI-এর নিজস্ব স্বীকারোক্তি অনুসারে, The Times-এর বিষয়বস্তু সহ উচ্চ-মানের সামগ্রী, অন্যান্য, নিম্ন-মানের উত্স থেকে নেওয়া সামগ্রীর তুলনায় GPT মডেলের প্রশিক্ষণের জন্য আরও গুরুত্বপূর্ণ এবং মূল্যবান ছিল।
91. যদিও OpenAI GPT-4 সম্পর্কে বেশি তথ্য প্রকাশ করেনি, বিশেষজ্ঞরা সন্দেহ করেন যে GPT-4-এর মধ্যে রয়েছে 1.8 ট্রিলিয়ন প্যারামিটার, যা GPT-3 থেকে 10X বড়, এবং প্রায় 13 ট্রিলিয়ন টোকেনে প্রশিক্ষণ দেওয়া হয়েছিল। GPT-3, GPT-3.5, এবং GPT-4-এর জন্য প্রশিক্ষণ সেটটি 45 টেরাবাইট ডেটার সমন্বয়ে গঠিত ছিল- যা একটি Microsoft Word নথির সমতুল্য যা 3.7 বিলিয়ন পৃষ্ঠা দীর্ঘ। [২৪] কমন ক্রল, ওয়েবটেক্সট এবং ওয়েবটেক্সট২ ডেটাসেটের মধ্যে, জিপিটি মডেলগুলিকে প্রশিক্ষণ দেওয়ার জন্য বিবাদীরা সম্ভবত টাইমস-মালিকানাধীন কাজগুলি সম্পূর্ণরূপে ব্যবহার করেছিল।
92. বিবাদীরা টাইমসের কোন লাইসেন্স বা অন্যান্য ক্ষতিপূরণ ছাড়াই বারবার টাইমসের কপিরাইটযুক্ত বিষয়বস্তু কপি করেছে। জিপিটি মডেলের প্রশিক্ষণের অংশ হিসেবে, মাইক্রোসফট এবং ওপেনএআই টাইমস-মালিকানাধীন বিষয়বস্তুর কপি সহ প্রশিক্ষণ ডেটাসেটের অনুলিপি এবং পুনরুত্পাদন করার জন্য একটি জটিল, বেসপোক সুপারকম্পিউটিং সিস্টেম তৈরি করতে সহযোগিতা করেছে। লক্ষ লক্ষ টাইমস ওয়ার্কস অনুলিপি করা হয়েছে এবং গৃহীত হয়েছে — একাধিকবার — আসামীদের GPT মডেলগুলিকে "প্রশিক্ষণ" দেওয়ার উদ্দেশ্যে৷
93. তথ্য এবং বিশ্বাসের ভিত্তিতে, মাইক্রোসফ্ট এবং ওপেনএআই দ্য টাইমসের বিষয়বস্তু এবং লেখকদের সঠিকভাবে অনুকরণ করার জন্য প্রোগ্রাম করা GPT মডেল তৈরিতে জড়িত টাইমসের উপাদানগুলির বৃহৎ আকারের অনুলিপিতে যৌথভাবে কাজ করেছে। মাইক্রোসফট এবং ওপেনএআই জিপিটি মডেল ডিজাইন, প্রশিক্ষণ ডেটাসেট নির্বাচন এবং প্রশিক্ষণ প্রক্রিয়া তত্ত্বাবধানে সহযোগিতা করেছে। মিঃ নাদেলা যেমন বলেছেন:
সুতরাং, অনেক আছে, আমি এটাকে বলি, আপনি যখন AI এবং AI নিরাপত্তার কথা চিন্তা করেন তখন পণ্যের ডিজাইনের পছন্দ এক হয়ে যায়। তাহলে, অন্যভাবে আসা যাক। আপনাকে প্রাক-প্রশিক্ষিত ডেটার প্রকৃত যত্ন নিতে হবে কারণ মডেলগুলিকে প্রাক-প্রশিক্ষিত ডেটাতে প্রশিক্ষণ দেওয়া হয়। সেই পূর্বপ্রশিক্ষিত ডেটার গুণমান কী? এটি এমন একটি জায়গা যেখানে আমরা অনেক কাজ করেছি।
94. মাইক্রোসফ্ট যে পরিমাণে GPT মডেলগুলিকে প্রশিক্ষণের জন্য ব্যবহৃত কাজগুলি নির্বাচন করেনি, এটি সেই নির্বাচনকে সম্মান করে OpenAI-এর সাথে স্ব-বর্ণিত "অংশীদারিত্ব" হিসাবে কাজ করেছে, এটির কারণে নির্বাচিত কাজগুলির পরিচয় সম্পর্কে জানত বা ইচ্ছাকৃতভাবে অন্ধ ছিল। ওপেনএআই দ্বারা নিযুক্ত প্রশিক্ষণ সংস্থাগুলির প্রকৃতি এবং পরিচয় এবং নির্বাচনের মানদণ্ড সম্পর্কে জ্ঞান, এবং/অথবা সেই উদ্দেশ্যে তৈরি করা সুপার কম্পিউটারের শারীরিক নিয়ন্ত্রণের কারণে ওপেনএআই-কে প্রশিক্ষণের জন্য কোনও বিশেষ কাজ ব্যবহার করতে বাধা দেওয়ার অধিকার ও ক্ষমতা ছিল এবং ওপেনএআই ডিফেন্ডেন্টদের উপর এর আইনি ও আর্থিক প্রভাব।
95. তথ্য এবং বিশ্বাসের ভিত্তিতে, Microsoft এবং OpenAI তাদের বিং চ্যাট দ্বারা ফিরে আসা সিন্থেটিক অনুসন্ধান ফলাফলের আকারে Times Works-এর অননুমোদিত অনুলিপি তৈরি করতে থাকে এবং Bing পণ্যগুলির সাথে ব্রাউজ করে। Microsoft সক্রিয়ভাবে তার Bing সার্চ ইঞ্জিনের জন্য সূচক তৈরি করতে ওয়েব ক্রল করার প্রক্রিয়ায় এই ধরনের ফলাফল তৈরি করতে ব্যবহৃত Times Works-এর কপি সংগ্রহ করে।
96. তথ্য এবং বিশ্বাসের ভিত্তিতে, Microsoft এবং OpenAI বর্তমানে পরবর্তী প্রজন্মের GPT-5 LLM-এর প্রশিক্ষণ এবং/অথবা ফাইন-টিউন করার জন্য Times Works-এর অতিরিক্ত অনুলিপি তৈরি করা শুরু করবে বা শুরু করবে।
97. টাইমস বিষয়বস্তুর প্রতিবাদীদের বৃহৎ আকারের বাণিজ্যিক শোষণ লাইসেন্সপ্রাপ্ত নয়, অথবা বিবাদীরা তাদের GenAI সরঞ্জামগুলি তৈরি করতে টাইমসের কাজগুলি অনুলিপি করতে এবং ব্যবহার করার অনুমতি পায়নি৷
এখানে পড়া চালিয়ে যান.
[১২] ওপেনএআই, বেটার ল্যাঙ্গুয়েজ মডেল এবং তাদের ইমপ্লিকেশন, ওপেনাআই (ফেব্রুয়ারি 14, 2019), https://openai.com/research/better-language-models।
[১৩] আইডি।
[১৪] GPT-2 মডেল কার্ড, GITHUB (নভেম্বর 2019), https://github.com/openai/gpt-2/blob/master/model_card.md।
[১৫] RADFORD ET AL., ভাষা মডেলগুলি তত্ত্বাবধানে নেই মাল্টিটাস্ক লার্নার্স 3 (2018), https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf৷
[১৬] জিপিটি-২ মডেল কার্ড, সুপ্রা নোট ১৪।
[17] GPT-2 / domains.txt, GITHUB, https://github.com/openai/gpt-2/blob/master/domains.txt (শেষবার 21 ডিসেম্বর, 2023-এ দেখা হয়েছিল)।
[১৮] ব্রাউন এট আল।, ল্যাঙ্গুয়েজ মডেলগুলি অল্প-শট লার্নার্স 9 (2020), https://arxiv.org/pdf/2005.14165.pdf।
[১৯] আইডি. 8 এ
[২০] কমন ক্রল, https://commoncrawl.org/ (শেষবার 21 ডিসেম্বর, 2023 পরিদর্শন করা হয়েছে)।
[২১] ডজ এট আল।, ডকুমেন্টিং লার্জ ওয়েবটেক্সট কর্পোরা: একটি কেস স্টাডি অন দ্য ক্লোসাল ক্লিন ক্রলড কর্পাস (2021), https://arxiv.org/abs/2104.08758।
[২২] ব্রাউন এট এএল।, সুপ্রা নোট ১৮।
[২৩] ম্যাক্সিমিলিয়ান শ্রেইনার, GPT-4 আর্কিটেকচার, ডেটাসেট, খরচ এবং আরও কিছু ফাঁস, দ্য ডিকোডার (জুলাই 11, 2023), https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more -ফাঁস/।
[২৪] কিন্দ্রা কুপার, ওপেনএআই জিপিটি-৩: আপনার যা জানা দরকার [আপডেট করা হয়েছে], স্প্রিংবোর্ড (২৭ সেপ্টেম্বর, ২০২৩), https://www.springboard.com/blog/data-science/machine-learning-gpt -3-ওপেন-এআই/।
[২৫] নিলয় প্যাটেল, মাইক্রোসফট থিঙ্কস এআই সার্চে গুগলকে হারাতে পারে — সিইও সত্য নাদেলা ব্যাখ্যা করেছেন কেন, দ্য ভার্জ (ফেব্রুয়ারি 7, 2023), https://www.theverge.com/23589994/microsoft-ceo-satya-nadella -bing-chatgpt-googlesearch-ai.
হ্যাকারনুন লিগ্যাল পিডিএফ সিরিজ সম্পর্কে: আমরা আপনার জন্য সবচেয়ে গুরুত্বপূর্ণ প্রযুক্তিগত এবং অন্তর্দৃষ্টিপূর্ণ পাবলিক ডোমেন কোর্ট কেস ফাইলিং নিয়ে এসেছি।
এই কোর্ট কেস 1:23-cv-11195 29 ডিসেম্বর, 2023 তারিখে nycto-assets.nytimes.com থেকে পুনরুদ্ধার করা হয়েছে পাবলিক ডোমেনের অংশ। আদালতের তৈরি নথিগুলি ফেডারেল সরকারের কাজ, এবং কপিরাইট আইনের অধীনে, স্বয়ংক্রিয়ভাবে সর্বজনীন ডোমেনে রাখা হয় এবং আইনি সীমাবদ্ধতা ছাড়াই ভাগ করা যেতে পারে।