ইউকে-ভিত্তিক আইনজীবী ক্রিস ম্যামেন এআই-উত্পন্ন সঙ্গীত সম্পর্কে ভাইসের সাথে একটি সাম্প্রতিক সাক্ষাত্কারে ব্যাখ্যা করেছেন যে আইনটি ধীরে ধীরে চলে এবং সাদৃশ্য দ্বারা বিকশিত হয়। " নতুন কিছু আসে, এবং আমরা এটি কিসের সাথে সাদৃশ্যপূর্ণ তা খুঁজে বের করি, এবং তারপরে এটি ধীরে ধীরে স্থির আইনে পরিণত হয় "।
আমরা এখন জেনারেটিভ এআই-এআই মডেলের সাথে যে সমস্যাটির সম্মুখীন হচ্ছি যা টেক্সট, ইমেজ, মিউজিক বা ভিডিওর মতো সৃজনশীল আউটপুট তৈরি করতে পারে – তা হল সাদৃশ্য নিয়ে আসা অসুবিধা। অন্য কথায়, আমরা ইতিমধ্যে জানি এবং বুঝতে পারি এমন কিছুর সাথে জেনারেটিভ এআই সম্পর্কিত। অন্তর্নিহিত প্রযুক্তি এতই জটিল যে এটি কীভাবে একটি ধারণাগত স্তরে কাজ করে এবং কীভাবে এটি নিয়ন্ত্রিত করা উচিত তা বোঝার জন্য কিছু গুরুতর মন সম্প্রসারণ প্রয়োজন।
সোশ্যাল মিডিয়া এবং ইন্টারনেটের মতো, AI মডেল যেমন OpenAI-এর ChatGPT বা তাদের টেক্সট-টু-ইমেজ মডেল DALL-E 2, ব্যবহার করা প্রতারণামূলকভাবে সহজ। তবুও, স্পষ্টতই হুডের নীচে অনেক কিছু চলছে যা আমরা সামান্যতম বুঝতে পারি না। ব্যবহারকারীর অভিজ্ঞতা এবং এর নীচে থাকা সমস্ত জটিল, প্রযুক্তিগত জিনিসগুলির মধ্যে ব্যবধান, যেখানে অপরাধী এবং অনৈতিক জিনিসগুলি অলক্ষিত হতে পারে৷
আমরা এই "ব্ল্যাক বক্স প্রভাব" স্পষ্টভাবে দেখেছি আর্থিক জগতে, সম্প্রতি ক্রিপ্টো সেক্টরে। আমি সহ কয়েকজন ক্রিপ্টো সমর্থক, কীভাবে ক্রিপ্টো কাজ করে সে সম্পর্কে গভীর প্রযুক্তিগত ধারণা ছিল, এবং আমরা জানতাম না কিভাবে কেন্দ্রীভূত এক্সচেঞ্জগুলি পরিচালিত হয়। ঐতিহ্যগত অর্থায়নে, এখানেই আমরা সাধারণত সরকারী ভাউচিং এবং তদারকির উপর নির্ভর করি। কিন্তু একটি শিল্পে ক্রিপ্টোর মতো নতুন এবং জটিল, সেখানে প্রায় কিছুই ছিল না। তুলনামূলকভাবে ব্যাপক গ্রহণ, প্রযুক্তিগত জটিলতা, তদারকির অভাব, এবং বিকাশকারী এবং ব্যবহারকারীদের মধ্যে জ্ঞানের ব্যবধান, অপরাধ এবং শোষণের জন্য নিখুঁত শর্ত তৈরি করেছে। গত বছর, ক্রিপ্টো এক্সচেঞ্জগুলি একটি ক্যাসকেডে ভেঙে পড়ে, 2022 সালে DeFi প্ল্যাটফর্মগুলি থেকে $3 বিলিয়নেরও বেশি চুরি হয়েছিল , এবং কয়েক লক্ষ লোক আর্থিক ধ্বংসের মধ্যে পড়েছিল৷
এআই শিল্প অবশ্যই ক্রিপ্টো শিল্প থেকে খুব আলাদা, কিন্তু অপরাধ এবং শোষণের জন্য একই অবস্থা বিদ্যমান। এআই মডেলগুলি ব্যাপকভাবে গৃহীত হয়, ক্রিপ্টোর চেয়ে ব্যবহার করা সহজ, প্রযুক্তিগতভাবে আরও জটিল, সেখানে খুব বেশি নজরদারি নেই এবং ব্যবহারকারী এবং বিকাশকারীদের মধ্যে জ্ঞানের ব্যবধান ক্রিপ্টোর তুলনায় তর্কযোগ্যভাবে আরও বিস্তৃত। সৌভাগ্যবশত, AI এর বিপদ এবং ঝুঁকি নিয়ে অনেক সচেতনতামূলক প্রচারণা রয়েছে, যেখানে ক্রিপ্টোতে অনুরূপ প্রচারণাগুলি গোলমালের মধ্যে ডুবে গেছে।
জেনারেটিভ এআই মডেলগুলিতে কপিরাইটযুক্ত উপাদানের ব্যবহার এমন একটি ক্ষেত্র যেখানে বিদ্যমান আইন এবং কাঠামো চ্যালেঞ্জ করা হয়। গত সপ্তাহ থেকে আমার পোস্টে, আমি ইইউ এর ভিত্তিগত মডেলগুলির ব্যাখ্যা সম্পর্কে লিখেছিলাম। এই সপ্তাহে আমি ক্লোজড-সোর্স বনাম ওপেন-সোর্স AI মডেলের মধ্যে পার্থক্যের উপর ফোকাস করব এবং স্টেবল ডিফিউশন, একটি জনপ্রিয় ওপেন-সোর্স AI ইমেজ মডেল যা এই বছরের শুরুতে দুটি ভিন্ন কোণ থেকে কপিরাইট মামলার শিকার হয়েছিল। আমি আগামী কয়েক সপ্তাহের মধ্যে মামলা এবং কপিরাইট আইনের প্রভাব সম্পর্কে আরেকটি পোস্ট প্রকাশ করার পরিকল্পনা করছি৷
প্রশিক্ষণ ফাউন্ডেশন মডেলগুলি সময়, অর্থ এবং গণনামূলক সংস্থানগুলির পরিপ্রেক্ষিতে একটি ব্যয়বহুল ব্যাপার। সাধারণভাবে, শুধুমাত্র গভীর পকেট সহ BigTech কোম্পানিগুলি প্রাথমিক বিনিয়োগ করার সামর্থ্য রাখে। একই টোকেন দ্বারা, ফাউন্ডেশন মডেলগুলির পিছনে থাকা সংস্থাগুলি সাধারণত ক্লোজড-সোর্সিং AI-তে আগ্রহ রাখে। প্রতিযোগীরা যদি সমস্ত উপাদান অ্যাক্সেস করতে পারে এবং তাদের গোপন সস ব্যবহার করতে পারে তবে বিকাশ এবং প্রশিক্ষণের বহু-মিলিয়ন-ডলার খরচ পুনরুদ্ধার করা কঠিন।
একটি গুরুত্বপূর্ণ ব্যতিক্রম হল Meta's LLaMA যা মার্ক জুকারবার্গ এবং মেটার এআই গবেষণা দল বিতর্কিতভাবে জনসমক্ষে প্রকাশ করার সিদ্ধান্ত নিয়েছে । LLaMA হল একটি বৃহৎ ভাষা মডেল (LLM) যা 7B থেকে 65B প্যারামিটার পর্যন্ত বিভিন্ন আকারে প্রকাশ করা হয়। এমনকি ছোট-থেকে-মাঝারি আকারের সংস্করণ, LLaMA-13B, 10 x ছোট হওয়া সত্ত্বেও OpenAI-এর GPT-3-কে ছাড়িয়ে যেতে পারে। GPT-3 মাত্র তিন আগে গ্রাউন্ডব্রেকিং এবং বাজার-নেতৃস্থানীয় ছিল।
মেটার প্রধান এআই বিজ্ঞানী ইয়ান লেকুন বলেছেন যে "যে প্ল্যাটফর্মটি জিতবে তা উন্মুক্ত হবে"। তিনি যুক্তি দেন যে AI-তে অগ্রগতি এইভাবে দ্রুততর হয় এবং ভোক্তা এবং সরকার AI গ্রহণ করতে অস্বীকার করবে যদি না এটি Google এবং Meta-এর মতো কোম্পানির নিয়ন্ত্রণের বাইরে থাকে।
ওপেন-সোর্সিং AI (যার অর্থ সোর্স কোড উপলব্ধ করা) এর পাল্টা যুক্তি হল যে খারাপ অভিনেতারা খারাপ অ্যাপ্লিকেশান তৈরি করতে, ভুল তথ্য ছড়াতে, জালিয়াতি, সাইবার ক্রাইম এবং অন্যান্য অনেক খারাপ জিনিস তৈরি করতে কোডটি ব্যবহার করতে পারে। মার্ক জুকারবার্গ সম্প্রতি দুই মার্কিন সিনেটরের কাছ থেকে একটি চিঠি পেয়েছেন যারা LLaMA জনসাধারণের জন্য উপলব্ধ করার সিদ্ধান্তের সমালোচনা করেছেন। সেনেটররা চিঠিতে উপসংহারে পৌঁছেছেন যে, মেটার " পুঙ্খানুপুঙ্খভাবে অভাব, এর পূর্বাভাসযোগ্য ব্যাপক প্রচারের প্রভাবের জনসাধারণের বিবেচনা " শেষ পর্যন্ত একটি " জনসাধারণের জন্য ক্ষতিকর" ছিল।
আজ, এটি প্রকাশের তিন মাসেরও কম সময় পরে, একগুচ্ছ ওপেন-সোর্স মডেল LLaMa-এর কাঁধে দাঁড়িয়ে আছে। উদাহরণস্বরূপ Vicuna-13B হল একটি ওপেন-সোর্স চ্যাটবট যা ShareGPT (একটি Chrome এক্সটেনশন যা ব্যবহারকারীদের তাদের কথোপকথনগুলি ChatGPT-এর সাথে শেয়ার করতে দেয়) থেকে সংগৃহীত ব্যবহারকারী-শেয়ার করা কথোপকথনের উপর LLaMA সূক্ষ্ম-টিউনিং দ্বারা প্রশিক্ষিত হয়েছিল। GPT-4 এর মূল্যায়ন অনুসারে, Vicuna-13B প্রায় $300 এর প্রশিক্ষণ খরচ সহ OpenAI-এর ChatGPT এবং Google's Bard-এর মানের 90% এর বেশি অর্জন করে!
প্রতিযোগিতা এবং নিরাপত্তার উদ্বেগ নির্বিশেষে, ওপেন-সোর্সিং এআই-এর প্রতি একটি শক্তিশালী টান রয়েছে। নতুন এবং উন্নত মডেলগুলি প্রায়শই প্রকাশিত হয়। HuggingFace ওপেন LLM লিডারবোর্ডে , এই মুহূর্তে সেরা-পারফর্মিং মডেল হল Falcon 40B , যেটি সম্প্রতি Meta's LLaMA কে বাদ দিয়েছে৷ Falcon 40B আমাজনের সহায়তায় আবুধাবির প্রযুক্তি উদ্ভাবন ইনস্টিটিউট দ্বারা তৈরি করা হয়েছে।
ওপেন সোর্স ডেভেলপমেন্ট ভবিষ্যতে জেনারেটিভ এআই ব্যবহারে আধিপত্য বিস্তার করতে পারে কিনা সে বিষয়ে জুরি এখনও আউট। সেমিঅ্যানালাইসিস দ্বারা প্রকাশিত একটি ফাঁস হওয়া অভ্যন্তরীণ Google নথিতে একজন সিনিয়র গুগল প্রকৌশলী যুক্তি দিয়েছিলেন যে গুগল এবং ওপেনএআই, "কোন পরিখা নেই" এবং শেষ পর্যন্ত ওপেন-সোর্স এআই দ্বারা প্রতিদ্বন্দ্বিতা করা হবে। তিনি লিখেছেন যে " ওপেন-সোর্স মডেলগুলি দ্রুত, আরও কাস্টমাইজযোগ্য, আরও ব্যক্তিগত এবং পাউন্ডের জন্য পাউন্ড আরও সক্ষম "৷
ওপেন-সোর্স এআই-এর ফ্রন্টলাইনে একটি কোম্পানি হল স্টেবিলিটি এআই । কোম্পানিটি প্রাক্তন হেজ ফান্ড ম্যানেজার এমাদ মোস্তাক দ্বারা প্রতিষ্ঠিত হয়েছিল। এর ওয়েবসাইট অনুসারে, 2021 সালে চালু হওয়ার পর থেকে স্টেবিলিটি AI সারা বিশ্বে 140.000 টিরও বেশি বিকাশকারী এবং সাতটি গবেষণা কেন্দ্রের একটি বাহিনী সংগ্রহ করেছে। গবেষণা সম্প্রদায় বিভিন্ন উদ্দেশ্যে AI মডেল তৈরি করে, যেমন ইমেজিং, ভাষা, কোড, অডিও, ভিডিও, 3D বিষয়বস্তু, ডিজাইন, বায়োটেক এবং অন্যান্য বৈজ্ঞানিক গবেষণা।
পণ্য স্থিতিশীলতা AI আজ পর্যন্ত সর্বাধিক পরিচিত হল ইমেজ মডেল স্টেবল ডিফিউশন। স্টেবল ডিফিউশন হল একটি এআই ইমেজ মডেল যা টেক্সট প্রম্পট থেকে ইমেজ তৈরি বা টুইক করতে পারে। এটি আগস্ট 2022-এ প্রকাশিত হয়েছিল, ওপেনএআই-এর ভাইরাল ইন্টারনেট সেনসেশন DALL-E 2 ব্যক্তিগতভাবে অপেক্ষা তালিকায় থাকা 1 মিলিয়ন ব্যবহারকারীর কাছে প্রকাশ করার কিছুক্ষণ পরেই। এআই সম্প্রদায়ের অনেকেই স্ট্যাবল ডিফিউশনকে একটি বিপ্লবী মাইলফলক বলে মনে করেন। DALL-E 2 বা Google এর Imagen- এর মতো সমসাময়িক, বৃহৎ এবং ক্লোজড টেক্সট-টু-ইমেজ মডেলের সামর্থ্যের সাথে এটি শুধুমাত্র মেলেনি, বা এমনকি অতিক্রম করেছে কিন্তু এটি ওপেন সোর্স ছিল।
স্টেবল ডিফিউশন লাইসেন্স অনুসারে, যে কেউ বাণিজ্যিক অ্যাপ্লিকেশন তৈরি করতে, এর স্থাপত্য অধ্যয়ন করতে, এটির উপর তৈরি করতে এবং আইন, নীতিশাস্ত্র এবং সাধারণ জ্ঞানের সুযোগের মধ্যে এর নকশা পরিবর্তন করতে মডেলটি ব্যবহার করতে পারেন। ক্লোজড-সোর্সড ইমেজ মডেল থেকে ভিন্ন, স্টেবল ডিফিউশন ডাউনলোড করা যায় এবং গড় গেমিং পিসিতে স্থানীয়ভাবে চালানো যায়। কোডিং দক্ষতা ছাড়া নৈমিত্তিক ব্যবহারকারীদের জন্য, স্থিতিশীল ডিফিউশন ওয়েব অ্যাপ DreamStudio বা নতুন ওপেন-সোর্স ওয়েব অ্যাপ StableStudio- এর মাধ্যমেও অ্যাক্সেস করা যেতে পারে।
একটি পার্শ্ব গল্প হিসাবে, স্টেবল ডিফিউশন প্রকৃতপক্ষে মিউনিখের লুডভিগ-ম্যাক্সিমিলিয়ানস-ইউনিভার্সিটির গবেষকদের একটি দল দ্বারা বিকশিত হয়েছিল, যখন স্ট্যাবিলিটি এআই মডেলটি প্রশিক্ষণের জন্য কম্পিউটিং সংস্থানগুলিকে অর্থায়ন করেছিল। স্থিতিশীলতাকে অত্যধিক অযৌক্তিক ক্রেডিট নেওয়ার জন্য সমালোচিত হয়েছে কারণ মিউনিখের বিশ্ববিদ্যালয় সমস্ত ভারী উত্তোলন করেছে যার ফলে স্থিতিশীল বিস্তার ঘটে। গত রবিবার প্রকাশিত ফোর্বসের একটি নিবন্ধে , স্থিতিশীলতার প্রতিষ্ঠাতা এমাদ মসজিদকে মিথ্যা বলার প্রবণতা সহ একটি প্যাথলজিকাল অতিরঞ্জক হিসাবে চিত্রিত করা হয়েছিল। স্টেবল ডিফিউশনের পিছনে গবেষণা দলের প্রধান অধ্যাপক ডঃ বজর্ন ওমার, ফোর্বসকে বলেছেন যে তিনি তার ল্যাবের কাজ প্রচার করার আশা করেছিলেন, কিন্তু তার বিশ্ববিদ্যালয়ের পুরো প্রেস বিভাগ তখন ছুটিতে ছিল (এ ধরনের জিনিসগুলি শুধুমাত্র পাবলিক বিশ্ববিদ্যালয়েই ঘটতে পারে)।
স্টেবল ডিফিউশনের উন্মুক্ততা গবেষকদের জন্য, সেইসাথে সরকার, প্রতিযোগী, নিয়ন্ত্রক এবং রক্তপিপাসু কপিরাইট অ্যাডভোকেটদের জন্য একটি উপহার। শেষ বিভাগের মধ্যে, আমরা ম্যাথিউ বাটারিক এবং তার আইনি দলকে খুঁজে পেয়েছি যারা স্ট্যাবিলিটি AI, মিডজার্নি এবং ডেভিয়েন্টআর্টের বিরুদ্ধে ক্লাস-অ্যাকশন মামলায় তিনজন স্বাধীন শিল্পীর প্রতিনিধিত্ব করে।
আইনজীবী ম্যাথিউ বাটারিকের মতে: " [স্থির বিচ্ছুরণ] একটি পরজীবী যেটিকে প্রসারিত হতে দেওয়া হলে, এখন এবং ভবিষ্যতে শিল্পীদের জন্য অপূরণীয় ক্ষতি হবে।"
আমি যুক্তি দেব যে বাটারিক তার স্থিতিশীল বিস্তার এবং আধুনিক এআই ইমেজ মডেলগুলির বৈশিষ্ট্য সম্পর্কে কিছু অর্থে সঠিক। তারা একধরনের সৃজনশীলতাকে মূল কাজ থেকে চুষে ফেলে, এটিকে একত্রে ব্যাপক আকারে মাখিয়ে দেয় এবং শিল্পীদের জীবিকাকে হুমকির মুখে ফেলে যারা অনিচ্ছাকৃত এবং অজ্ঞাতসারে ক্ষুদ্র অবদানের মাধ্যমে মডেলটিকে প্রশিক্ষণ দিতে সাহায্য করেছে।
যাইহোক, ক্লাস অ্যাকশন মামলাটি অনেক আইনি এবং প্রযুক্তিগত ত্রুটি, ভুল বোঝাবুঝি এবং ত্রুটিগুলির সাথে ধাঁধাঁযুক্ত যে আমি কেবল আশ্চর্য হতে পারি যে যখন তারা সাবপোনার প্রথম খসড়াটি লিখেছিল তখন আইনী দল তাদের মনের বাইরে ছিল কিনা। আরেকটি তত্ত্ব হল যে বাটারিক এবং কো ইচ্ছাকৃতভাবে জনসাধারণ বা বিচারকদের বিভ্রান্ত করতে প্রযুক্তি কীভাবে কাজ করে তা ভুলভাবে উপস্থাপন করার চেষ্টা করছে। বলা কঠিন.
আমার পরবর্তী পোস্টে, আমরা অযৌক্তিক মামলাটি আরও দেখব এবং ব্যাখ্যা করব কেন এটি সঠিক জায়গায় কপিরাইট চুলকানিকে স্ক্র্যাচ করে না।
এছাড়াও এখানে প্রকাশিত .