দ্য সেন্টার ফর ইনভেস্টিগেটিভ রিপোর্টিং ইনক. বনাম ওপেনএআই কোর্ট ফাইলিং, 27 জুন, 2024-এ পুনরুদ্ধার করা হয়েছে, হ্যাকারনুন-এর আইনি পিডিএফ সিরিজের অংশ। আপনি এখানে এই ফাইলিংয়ের যেকোনো অংশে যেতে পারেন। এই অংশটি 18 এর মধ্যে 5।
46. ওপেনএআই ডিসেম্বর 2015 সালে একটি "অলাভজনক কৃত্রিম বুদ্ধিমত্তা গবেষণা সংস্থা" হিসাবে গঠিত হয়েছিল কিন্তু দ্রুত একটি বহু-বিলিয়ন ডলারের লাভজনক ব্যবসায় পরিণত হয় যা CIR সহ সারা বিশ্বের নির্মাতাদের কপিরাইটযুক্ত কাজের শোষণের উপর নির্মিত হয়েছিল৷ =CIR-এর বিপরীতে, OpenAI তার প্রতিষ্ঠার মাত্র তিন বছর পর তার একচেটিয়া অলাভজনক অবস্থা ছেড়ে দেয় এবং মার্চ 2019-এ OpenAI LP তৈরি করে, একটি লাভজনক কোম্পানি যা পণ্যের উন্নয়ন এবং বিনিয়োগকারীদের কাছ থেকে পুঁজি সংগ্রহ সহ তার লাভজনক কার্যকলাপে নিবেদিত।
47. আসামীদের GenAI পণ্যগুলি একটি "বড় ভাষার মডেল" বা "LLM" ব্যবহার করে৷ GPT-এর বিভিন্ন সংস্করণ হল LLM-এর উদাহরণ। একটি LLM, যেগুলি ChatGPT এবং Copilot কে শক্তি দেয়, ইনপুট হিসাবে টেক্সট প্রম্পট গ্রহণ করে এবং প্রতিক্রিয়াগুলির পূর্বাভাস দেওয়ার জন্য আউটপুট নির্গত করে যা এটি প্রশিক্ষণের জন্য ব্যবহৃত সম্ভাব্য বিলিয়ন ইনপুট উদাহরণগুলি অনুসরণ করতে পারে৷
48. এলএলএমগুলি মানুষের দ্বারা লিখিত কাজের উপর তাদের প্রশিক্ষণের ফলাফল হিসাবে তাদের আউটপুটগুলিতে পৌঁছায়, যা প্রায়শই কপিরাইট দ্বারা সুরক্ষিত থাকে। তারা প্রশিক্ষণ সেটে এই উদাহরণগুলি সংগ্রহ করে।
49. প্রশিক্ষণ সেট একত্রিত করার সময়, বিবাদী সহ এলএলএম নির্মাতারা প্রথমে তারা যে কাজগুলি অন্তর্ভুক্ত করতে চান তা চিহ্নিত করে৷ তারপরে তারা কম্পিউটার মেমরিতে "প্যারামিটার" নামক সংখ্যা হিসাবে কাজটি এনকোড করে।
50. আসামীরা ChatGPT-এর কোনো সংস্করণকে প্রশিক্ষণ দেওয়ার জন্য ব্যবহৃত প্রশিক্ষণ সেটের বিষয়বস্তু প্রকাশ করেনি, তবে GPT-4-এর আগে সেই প্রশিক্ষণ সেটগুলির বিষয়ে তথ্য প্রকাশ করেছে। GPT-4 থেকে শুরু করে, আসামীরা ChatGPT এর পরবর্তী সংস্করণগুলিকে প্রশিক্ষণ দেওয়ার জন্য ব্যবহৃত প্রশিক্ষণ সেট সম্পর্কে সম্পূর্ণ গোপনীয়তা বজায় রেখেছে। তাই আসামীদের প্রশিক্ষণ সেট সম্পর্কে বাদীর অভিযোগগুলি ChatGPT-এর পূর্ববর্তী সংস্করণগুলি সম্পর্কিত সর্বজনীনভাবে উপলব্ধ তথ্যের একটি বিস্তৃত পর্যালোচনা এবং সেই তথ্য বিশ্লেষণ করতে এবং AI যেভাবে বিকশিত হয় এবং কাজ করে সে সম্পর্কে অন্তর্দৃষ্টি প্রদান করার জন্য বাদীর পরামর্শ দ্বারা নিযুক্ত একজন ডেটা বিজ্ঞানীর সাথে পরামর্শের উপর ভিত্তি করে। .
51. মাইক্রোসফ্ট তার নিজস্ব এআই পণ্য তৈরি করেছে, যার নাম কপিলট, যা মাইক্রোসফ্টের প্রমিথিউস প্রযুক্তি ব্যবহার করে। প্রমিথিউস Bing সার্চ প্রোডাক্টকে ওপেনএআই ডিফেন্ড্যান্টদের জিপিটি মডেলের সাথে বিং অর্কেস্ট্রেটর নামক একটি উপাদানে একত্রিত করে। প্রম্পট করা হলে, কপিলট বিং অর্কেস্ট্রেটর ব্যবহার করে AI-পুনরায় লিখিত সংক্ষিপ্তকরণ বা ইন্টারনেটে পাওয়া বিষয়বস্তুর পুনর্গঠন প্রদান করে ব্যবহারকারীর প্রশ্নের উত্তর দেয়।[4]
52. ChatGPT-এর পূর্ববর্তী সংস্করণগুলি (GPT-4-এর আগে) কমপক্ষে নিম্নলিখিত প্রশিক্ষণ সেটগুলি ব্যবহার করে প্রশিক্ষণ দেওয়া হয়েছিল: WebText, WebText2 এবং সাধারণ ক্রল থেকে প্রাপ্ত সেটগুলি।
53. WebText এবং WebText2 OpenAI ডিফেন্ডেন্টদের দ্বারা তৈরি করা হয়েছিল। তারা ওয়েবসাইট Reddit এর সমস্ত আউটবাউন্ড লিঙ্কের সংগ্রহ যা কমপক্ষে তিনটি "কর্ম" পেয়েছে।[5] Reddit-এ, একটি কর্ম নির্দেশ করে যে ব্যবহারকারীরা সাধারণত লিঙ্কটিকে অনুমোদন করেছেন। ডেটাসেটের মধ্যে পার্থক্য হল যে WebText2 একটি দীর্ঘ সময়ের জন্য Reddit থেকে লিঙ্কগুলিকে স্ক্র্যাপ করার সাথে জড়িত। সুতরাং, WebText2 হল WebText-এর একটি সম্প্রসারিত সংস্করণ।
54. ওপেনএআই ডিফেন্ড্যান্টরা ওয়েবটেক্সট প্রশিক্ষণ সেটে উপস্থিত শীর্ষ 1,000 ওয়েব ডোমেনের একটি তালিকা এবং তাদের ফ্রিকোয়েন্সি প্রকাশ করেছে৷ সেই তালিকা অনুসারে, মাদার জোনসের ওয়েব ডোমেইন থেকে 16,793টি স্বতন্ত্র URLs WebText-এ উপস্থিত হয়।
55. আসামীদের একটি রেকর্ড আছে, এবং তারা সচেতন, প্রতিটি URL সম্পর্কে যা তাদের প্রতিটি প্রশিক্ষণ সেটে অন্তর্ভুক্ত ছিল।
56. জোশুয়া সি. পিটারসন, বর্তমানে বোস্টন ইউনিভার্সিটির কম্পিউটিং এবং ডেটা সায়েন্সেস অনুষদের একজন সহকারী অধ্যাপক এবং UC বার্কলে থেকে পিএইচডি সহ দুই কম্পিউটেশনাল জ্ঞানীয় বিজ্ঞানী, আউটবাউন্ড লিঙ্কগুলিকে স্ক্র্যাপ করে ওপেনওয়েবটেক্সট নামে পরিচিত ওয়েবটেক্সট ডেটাসেটের একটি অনুমান তৈরি করেছেন। Reddit থেকে যেটি অন্তত তিনটি "কর্মফল" পেয়েছে, ঠিক যেমন OpenAI ডিফেন্ডেন্টরা ওয়েবটেক্সট তৈরিতে করেছে। তারা অনলাইনে ফলাফল প্রকাশ করেছে। বাদীর কৌঁসুলি দ্বারা নিযুক্ত একজন ডেটা বিজ্ঞানী তারপর সেই ফলাফলগুলি বিশ্লেষণ করেন। OpenWebText-এ motherjones.com থেকে 17,019টি আলাদা ইউআরএল এবং revealnews.org থেকে 415টি আলাদা ইউআরএল রয়েছে। OpenWebText-এ থাকা মাদার জোন্সের কাজের একটি তালিকা প্রদর্শনী 2 হিসেবে সংযুক্ত করা হয়েছে। OpenWebText-এ থাকা প্রকাশের কাজের একটি তালিকা প্রদর্শনী 3 হিসেবে সংযুক্ত করা হয়েছে।
57. তথ্য এবং বিশ্বাসের ভিত্তিতে, WebText এবং OpenWebText-এ মাদার জোন্সের নিবন্ধগুলির সামান্য ভিন্ন সংখ্যা রয়েছে কারণ স্ক্র্যাপগুলি বিভিন্ন তারিখে ঘটেছে।
58. ওপেনএআই ব্যাখ্যা করেছে যে, ওয়েবটেক্সট তৈরিতে, এটি ওয়েবসাইট থেকে পাঠ্য বের করার জন্য ড্রাগনেট এবং নিউজপেপার নামক অ্যালগরিদমের সেট ব্যবহার করে। তথ্য এবং বিশ্বাসের ভিত্তিতে, OpenAI এই দুটি নিষ্কাশন পদ্ধতি ব্যবহার করেছে, একটি পদ্ধতির পরিবর্তে, একটি পদ্ধতিতে একটি বাগ দেখা দিলে বা প্রদত্ত ক্ষেত্রে সঠিকভাবে কাজ না করলে রিডান্ড্যান্সি তৈরি করতে। একটির পরিবর্তে দুটি পদ্ধতি প্রয়োগ করা একটি প্রশিক্ষণ সেটের দিকে নিয়ে যাবে যা এটিতে থাকা বিষয়বস্তুর সাথে আরও সামঞ্জস্যপূর্ণ, যা প্রশিক্ষণের দৃষ্টিকোণ থেকে পছন্দনীয়।
59. ড্রাগনেটের অ্যালগরিদমগুলি "প্রধান নিবন্ধের বিষয়বস্তুকে" ওয়েবসাইটের অন্যান্য অংশ থেকে "ফুটার" এবং "কপিরাইট নোটিশ" সহ "বিচ্ছিন্ন" করার জন্য ডিজাইন করা হয়েছে এবং এক্সট্রাক্টরকে শুধুমাত্র "প্রধান নিবন্ধের বিষয়বস্তু" থেকে আরও অনুলিপি তৈরি করার অনুমতি দেয়। ] Dragnet এছাড়াও শিরোনাম বা বাইলাইন থেকে লেখক এবং শিরোনাম তথ্য নিষ্কাশন করতে অক্ষম, এবং এটি শুধুমাত্র মূল নিবন্ধের বিষয়বস্তুতে আলাদাভাবে থাকা হলেই এটি বের করে। ভিন্নভাবে লিখুন, Dragnet দ্বারা তৈরি সংবাদ নিবন্ধের অনুলিপিগুলি লেখক, শিরোনাম, কপিরাইট নোটিশ এবং ফুটার ধারণ না করার জন্য ডিজাইন করা হয়েছে এবং মূল নিবন্ধের বিষয়বস্তুতে না থাকলে এই ধরনের তথ্য ধারণ করে না।
60. Dragnet এর মতো, সংবাদপত্রের অ্যালগরিদমগুলি কপিরাইট নোটিশ এবং ফুটার বের করতে অক্ষম। আরও, সংবাদপত্রের একজন ব্যবহারকারীর লেখক এবং শিরোনামের তথ্য বের করা বা না বের করার পছন্দ রয়েছে। তথ্য এবং বিশ্বাসের ভিত্তিতে, OpenAI ডিফেন্ডেন্টরা লেখক এবং শিরোনামের তথ্য বের না করা বেছে নিয়েছিল কারণ তারা ড্রাগনেট নিষ্কাশনের সাথে সামঞ্জস্যতা চায়, এবং ড্রাগনেট সাধারণত লেখক এবং শিরোনাম তথ্য বের করতে অক্ষম।
61. WebText ডেটাসেট একত্রিত করার সময় Dragnet এবং নিউজপেপার অ্যালগরিদম প্রয়োগ করার সময়, OpenAI বিবাদীরা বাদীর লেখক, শিরোনাম, কপিরাইট নোটিশ এবং ব্যবহারের শর্তাবলী সরিয়ে দেয়, যার পরবর্তীটি বাদীর ওয়েবসাইটের ফুটারে রয়েছে।
62. তথ্য এবং বিশ্বাসের ভিত্তিতে, OpenAI ডিফেন্ডেন্টরা, যখন Dragnet এবং Newspaper ব্যবহার করে, প্রথমে প্রাসঙ্গিক ওয়েবপেজ থেকে ডেটা বের করার আগে ডাউনলোড করে সেভ করে। এটি অন্তত কারণ, যখন তারা Dragnet এবং Newspaper ব্যবহার করে, তারা সম্ভবত ডেটাসেট পুনরায় তৈরি করার সম্ভাব্য ভবিষ্যতের প্রয়োজন বলে অনুমান করে (যেমন, যদি ডেটাসেটটি দূষিত হয়ে যায়), এবং সমস্ত ডেটা পুনরায় ক্রল করার চেয়ে একটি কপি সংরক্ষণ করা সস্তা। .
63. কারণ, এর স্ক্র্যাপিংয়ের সময়, ড্রাগনেট এবং সংবাদপত্র সর্বজনীনভাবে লেখক, শিরোনাম, কপিরাইট নোটিশ এবং পাদচরণ মুছে ফেলার জন্য পরিচিত ছিল, এবং প্রদত্ত যে OpenAI অত্যন্ত দক্ষ ডেটা বিজ্ঞানী নিয়োগ করে যারা জানবে কিভাবে Dragnet এবং সংবাদপত্র কাজ করে, OpenAI বিবাদীরা WebText একত্রিত করার সময় ইচ্ছাকৃতভাবে এবং জ্ঞাতসারে এই কপিরাইট ব্যবস্থাপনা তথ্য মুছে ফেলা হয়েছে।
64. বাদীর কৌঁসুলি দ্বারা নিযুক্ত একজন ডেটা সায়েন্টিস্ট ওপেনওয়েবটেক্সটে থাকা তিনটি রিভিল ইউআরএলে ড্রাগনেট কোড প্রয়োগ করেছেন। ফলাফলগুলি প্রদর্শনী 4 হিসাবে সংযুক্ত করা হয়েছে৷ ফলাফলের অনুলিপিগুলি, যার পাঠ্যটি মূলের সাথে উল্লেখযোগ্যভাবে অভিন্ন (যেমন, দুটি শব্দের মধ্যে একটি অতিরিক্ত স্থানের আপাতদৃষ্টিতে এলোমেলো যোগ ব্যতীত, বা এমবেডেড ফটোর সাথে যুক্ত একটি বর্ণনার বর্জন ব্যতীত অভিন্ন) , লেখক, শিরোনাম, কপিরাইট নোটিশ, এবং ব্যবহারের শর্তাবলীর তথ্যের অভাব রয়েছে যা দিয়ে সেগুলি জনসাধারণের কাছে পৌঁছে দেওয়া হয়েছিল, কিছু ক্ষেত্রে যেখানে লেখকের তথ্য মূল নিবন্ধের বিষয়বস্তুতে থাকে। ডাটা সায়েন্টিস্ট যখন মাদার জোন্সের নিবন্ধগুলিতে প্রয়োগ করার চেষ্টা করেছিলেন তখন ড্রাগনেট কোডটি ব্যর্থ হয়েছিল, উপরে উল্লিখিত অপ্রয়োজনীয়তার জন্য ওপেনএআই ডিফেন্ড্যান্টদের প্রয়োজনীয়তাকে আরও সমর্থন করে।
65. বাদীর কৌঁসুলি দ্বারা নিযুক্ত একজন ডেটা সায়েন্টিস্ট ওপেনওয়েবটেক্সটে থাকা তিনটি মাদার জোনস এবং তিনটি রিভিল ইউআরএল-এ নিউজপেপার কোড প্রয়োগ করেছেন। ডেটা সায়েন্টিস্ট কোডের সংস্করণটি প্রয়োগ করেছেন যা ব্যবহারকারীকে লেখক এবং শিরোনামের তথ্য বের করতে সক্ষম করে না এই যুক্তিসঙ্গত অনুমানের ভিত্তিতে যে OpenAI ডিফেন্ডেন্টরা ড্রাগনেট নিষ্কাশনের সাথে সামঞ্জস্যতা কামনা করে। ফলাফলগুলি প্রদর্শনী 5 হিসাবে সংযুক্ত করা হয়েছে৷ ফলাফলের অনুলিপিগুলি, যার পাঠ্যটি মূলের সাথে উল্লেখযোগ্যভাবে অভিন্ন, লেখক, শিরোনাম, কপিরাইট বিজ্ঞপ্তি এবং ব্যবহারের শর্তাবলীর তথ্য নেই যার সাথে সেগুলি জনসাধারণের কাছে পৌঁছে দেওয়া হয়েছিল, কিছু ক্ষেত্রে যেখানে লেখক তথ্য প্রধান নিবন্ধ বিষয়বস্তু অন্তর্ভুক্ত করা হয়েছে ঘটেছে.
66. ড্রাগনেট এবং নিউজপেপার কোডগুলি প্রয়োগ করে তৈরি করা বাদীর নিবন্ধগুলির অনুলিপিগুলি থেকে লেখক, শিরোনাম, কপিরাইট নোটিশ এবং ব্যবহারের শর্তাবলীর তথ্যের অনুপস্থিতি - কোডগুলি OpenAI স্বীকার করেছে যে ওয়েবটেক্সট একত্রিত করার সময় ইচ্ছাকৃতভাবে ব্যবহার করা হয়েছে - আরও নিশ্চিত করে যে OpenAI আসামীরা বাদীর কপিরাইট-সুরক্ষিত সংবাদ নিবন্ধগুলি থেকে ইচ্ছাকৃতভাবে লেখক, শিরোনাম, কপিরাইট নোটিশ এবং ব্যবহারের শর্তাবলী সরানো হয়েছে।
67. তথ্য এবং বিশ্বাসের ভিত্তিতে, OpenAI ডিফেন্ডেন্টরা GPT-2 থেকে ChatGPT-এর প্রতিটি সংস্করণের জন্য প্রশিক্ষণ সেট তৈরি করার সময় একই বা অনুরূপ Dragnet এবং সংবাদপত্রের পাঠ্য নিষ্কাশন পদ্ধতি ব্যবহার করা অব্যাহত রেখেছে। অন্ততপক্ষে এর কারণ হল OpenAI ডিফেন্ড্যান্টরা GPT-2-এর জন্য এই পদ্ধতিগুলি ব্যবহার করার কথা স্বীকার করেছে এবং ChatGPT-এর পরবর্তী সংস্করণের জন্য তাদের ব্যবহার প্রকাশ্যে অস্বীকার করেনি বা প্রকাশ্যে দাবি করেনি যে পরবর্তী সংস্করণগুলির জন্য অন্য কোনও পাঠ্য নিষ্কাশন পদ্ধতি ব্যবহার করেছে।
68. ওপেনএআই ডিফেন্ডেন্টরা যে অন্য রিপোজিটরি ব্যবহার করার কথা স্বীকার করেছে, কমন ক্রল, সেটি হল তৃতীয় পক্ষের তৈরি বেশিরভাগ ইন্টারনেটের স্ক্র্যাপ।
69. GPT-2 প্রশিক্ষণের জন্য, OpenAI তৃতীয় পক্ষের ওয়েবসাইট থেকে কমন ক্রল ডেটা ডাউনলোড করে এবং শুধুমাত্র নির্দিষ্ট কিছু কাজ অন্তর্ভুক্ত করার জন্য ফিল্টার করে, যেমন ইংরেজিতে লেখা।
70. Google C4 নামক একটি ডেটাসেটের প্রতিলিপি তৈরি করার নির্দেশাবলী প্রকাশ করেছে, এটি ফিল্টার করা সাধারণ ক্রল ডেটার একটি মাসিক স্ন্যাপশট যা Google তার নিজস্ব AI মডেলগুলিকে প্রশিক্ষণের জন্য ব্যবহার করে। তথ্য এবং বিশ্বাসের ভিত্তিতে, এআই মডেলের প্রশিক্ষণে আসামীদের এবং Google-এর লক্ষ্যের মিলের উপর ভিত্তি করে, C4 ChatGPT-কে প্রশিক্ষণের জন্য ব্যবহৃত কমন ক্রলের ফিল্টার করা সংস্করণের মতোই। অ্যালেন ইনস্টিটিউট ফর এআই, মাইক্রোসফ্টের সহ-প্রতিষ্ঠাতা পল অ্যালেন দ্বারা চালু করা একটি অলাভজনক গবেষণা প্রতিষ্ঠান, গুগলের নির্দেশনা অনুসরণ করে এবং অনলাইনে C4 এর বিনোদন প্রকাশ করে।
71. বাদীর কাউন্সেল দ্বারা নিযুক্ত একজন তথ্য বিজ্ঞানী এই বিনোদন বিশ্লেষণ করেছেন। এতে motherjones.com থেকে উদ্ভূত 26,178টি URL রয়েছে। এই ইউআরএলগুলির বেশিরভাগই বাদীর কপিরাইট-সুরক্ষিত সংবাদ নিবন্ধগুলি ধারণ করে৷ কোনটিতে ব্যবহারের শর্তাবলীর তথ্য নেই। কোনোটিতেই বাদীর কপিরাইট-সুরক্ষিত সংবাদ নিবন্ধের কপিরাইট বিজ্ঞপ্তির তথ্য নেই। সংখ্যাগরিষ্ঠ লেখক এবং শিরোনাম তথ্যের অভাব আছে. কিছু ক্ষেত্রে, নিবন্ধগুলি উল্লেখযোগ্যভাবে অভিন্ন, অন্যদের ক্ষেত্রে অল্প সংখ্যক অনুচ্ছেদ বাদ দেওয়া হয়েছে।
72. এই বিনোদনে 451টি নিবন্ধ রয়েছে যা revealnews.org থেকে এসেছে। এই ইউআরএলগুলির বেশিরভাগই বাদীর কপিরাইট-সুরক্ষিত সংবাদ নিবন্ধগুলি ধারণ করে৷ কোনো সংবাদ নিবন্ধে কপিরাইট বিজ্ঞপ্তি বা ব্যবহারের শর্তাবলীর তথ্য নেই। সংখ্যাগরিষ্ঠ লেখক এবং শিরোনাম তথ্যের অভাব আছে. কিছু ক্ষেত্রে, নিবন্ধগুলি উল্লেখযোগ্যভাবে অভিন্ন, অন্যদের ক্ষেত্রে অল্প সংখ্যক অনুচ্ছেদ বাদ দেওয়া হয়েছে।
73. একটি প্রতিনিধি নমুনা হিসাবে, C4 সেটে প্রদর্শিত তিনটি মাদার জোনস এবং তিনটি রিভিল নিবন্ধের পাঠ্য প্রদর্শনী 6 হিসাবে সংযুক্ত করা হয়েছে। এই নিবন্ধগুলির কোনওটিতে লেখক, শিরোনাম, কপিরাইট বিজ্ঞপ্তি বা ব্যবহারের শর্তাবলী নেই যার সাথে তারা জনসাধারণের কাছে পৌঁছে দেওয়া হয়েছিল।
74. বাদী লাইসেন্সপ্রাপ্ত বা অন্যথায় বিবাদীদের তাদের প্রশিক্ষণ সেটে এর কোনো কাজ অন্তর্ভুক্ত করার অনুমতি দেয়নি।
75. অনুমতি ছাড়া বাদীর হাজার হাজার নিবন্ধ ডাউনলোড করা বাদীর কপিরাইট লঙ্ঘন করে, আরও নির্দিষ্টভাবে, কপিরাইট-সুরক্ষিত কাজের পুনরুত্পাদন নিয়ন্ত্রণ করার অধিকার৷
এখানে পড়া চালিয়ে যান.
হ্যাকারনুন লিগ্যাল পিডিএফ সিরিজ সম্পর্কে: আমরা আপনার জন্য সবচেয়ে গুরুত্বপূর্ণ প্রযুক্তিগত এবং অন্তর্দৃষ্টিপূর্ণ পাবলিক ডোমেন কোর্ট কেস ফাইলিং নিয়ে এসেছি।
এই আদালতের মামলাটি 27 জুন, 2024 এ পুনরুদ্ধার করা হয়েছে, motherjones.com পাবলিক ডোমেনের অংশ। আদালতের তৈরি নথিগুলি ফেডারেল সরকারের কাজ, এবং কপিরাইট আইনের অধীনে, স্বয়ংক্রিয়ভাবে সর্বজনীন ডোমেনে রাখা হয় এবং আইনি সীমাবদ্ধতা ছাড়াই ভাগ করা যেতে পারে।
[৩] বাদী সমষ্টিগতভাবে ChatGPT-এর সমস্ত সংস্করণকে "ChatGPT" হিসাবে উল্লেখ করেন যদি না একটি নির্দিষ্ট সংস্করণ উল্লেখ করা হয়।
[৪] https://blogs.bing.com/search-quality-insights/february-2023/Building-the-New-Bing
[৫] অ্যালেক র্যাডফোর্ড এবং অন্যান্য, ভাষার মডেলগুলি হল আন-সুপারভাইজড মাল্টিটাস্ক লার্নার্স, 3 https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf ।
[6] https://github.com/openai/gpt-2/blob/master/domains.txt ।
[7] https://github.com/jcpeterson/openwebtext/blob/master/README.md.
[৮] অ্যালেক র্যাডফোর্ড এবং অন্যান্য, ভাষার মডেলগুলি হল আন-সুপারভাইজড মাল্টিটাস্ক লার্নার্স, 3 https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf।
[৯] ম্যাট ম্যাকডোনেল, বেঞ্চমার্কিং পাইথন সামগ্রী নিষ্কাশন অ্যালগরিদম (জানুয়ারি ২৯, ২০১৫), https://moz.com/devblog/benchmarking-python-content-extraction-algorithms-dragnetreadability-goose-and-eatiht।
[১০] টম বি. ব্রাউন এট আল, ভাষার মডেলগুলি অল্প সংখ্যক শিক্ষার্থী, 14 (জুলাই 22, 2020), https://arxiv.org/pdf/2005.14165।
[১১] https://huggingface.co/datasets/allenai/c4।