এআই আরও চতুর হয়ে উঠছে, লোকেরা। সেই দিনগুলি চলে গেছে যখন কৃত্রিম বুদ্ধিমত্তা কেবল মোকাবেলা করতে পারে
আমি একটি মাধ্যমে এই সাহসী প্রকল্প জুড়ে হোঁচট খেয়েছি
তাই, স্বাভাবিকভাবেই, আমি গভীরভাবে ডুব দিতে বাধ্য বোধ করি
তাই, CoDi সম্পর্কে এত বিশেষ কি? প্রথমত, এই এআই পাওয়ারহাউসটি আমরা এখন পর্যন্ত দেখেছি এমন যেকোনো জেনারেটিভ মডেলের চেয়ে বহুমুখী। ইমেজ-টু-ইমেজ বা টেক্সট-টু-টেক্সট-এর মতো নির্দিষ্ট পদ্ধতির সাথে এটি আবদ্ধ নয়। ওহ না, CoDi একটি মুক্ত আত্মা, কারণ এটি একটি "যেকোন-থেকে-যেকোনো" মডেল।
এই খারাপ ছেলেটি আপনি যা কিছু দেন—ভাষা, ছবি, ভিডিও, অডিও—এবং এটিকে একটি ভিন্ন পদ্ধতিতে রূপান্তরিত করে।
চ্যাপেল হিলের নর্থ ক্যারোলিনা বিশ্ববিদ্যালয়ের গবেষকরা এবং মাইক্রোসফ্ট অ্যাজুর কগনিটিভ সার্ভিসেস রিসার্চ CoDi তৈরি করেছেন যাতে শুধুমাত্র একাধিক পদ্ধতিগুলি একবারে পরিচালনা করা যায় না বরং এমন আউটপুটও তৈরি করা হয় যা মূল প্রশিক্ষণের ডেটাতেও নেই।
এখন, যে আমরা আপনার ওজন উপরে ঘুষি কল কি.
এর চেয়েও শীতল বিষয় হল এই সবই সম্ভব হয়েছে একটি অভিনব কম্পোজেবল জেনারেশন কৌশলের মাধ্যমে, যার মাধ্যমে সিঙ্ক্রোনাইজড প্রজন্মের আন্তঃসম্পর্কিত পদ্ধতিগুলিকে সক্ষম করে। একটি মেশিন দ্বারা উত্পাদিত নিখুঁতভাবে সিঙ্ক করা অডিও সহ একটি ভিডিও কল্পনা করুন যা মূলত অনুমান করে যে তারা কীভাবে একসাথে ফিট করে৷
এটি একরকম এআই রিমিক্স শিল্পীর মতো।
প্রযুক্তিগত নিটি-গ্রিটির জন্য যাদের তৃষ্ণা রয়েছে তাদের জন্য, CoDi একটি মাল্টি-স্টেজ ট্রেনিং স্কিম ব্যবহার করে, যার অর্থ এটি ইনপুট এবং আউটপুটগুলির সমস্ত ধরণের সংমিশ্রণ অনুমান করার সময় বিভিন্ন কাজের প্রশিক্ষণ দিতে পারে। এটা মাল্টিটাস্ক করার ক্ষমতা আছে মত.
মডেলের উপযোগিতা তার স্থাপত্যে প্রদর্শিত হয়। নিম্নলিখিত বিভাগটি মডেলটিকে তাদের ইচ্ছামতো কাজ করার জন্য নির্মাতারা যে মূল পদ্ধতিগুলি ব্যবহার করে তার কিছুটা প্রযুক্তিগত সারসংক্ষেপ।
CoDi এর ভিত্তি হল একটি ডিফিউশন মডেল, বিশেষ করে একটি সুপ্ত ডিফিউশন মডেল (LDM)। জেনারেটিভ এআই-এর এই ফর্মটি সময়ের সাথে সাথে তথ্যের বিস্তারকে নকল করে ডেটা বিতরণ শেখে।
প্রশিক্ষণের সময়, এটি ইনপুট ডেটাতে ক্রমাগত এলোমেলো শব্দ যোগ করে, এই প্রক্রিয়াটিকে বিপরীত করতে শেখে এবং ডেটাটিকে তার আসল আকারে ফিরিয়ে আনতে শেখে। যখন এটি নতুন ডেটা তৈরি করে, তখন এটি সাধারণ শব্দ নেয় এবং প্রশিক্ষণের ডেটার মতো দেখায় এমন কিছু তৈরি করতে এটি অস্বীকার করে।
এলডিএম-এর ক্ষেত্রে, একটি অটোএনকোডার—এক ধরনের এআই মডেল যা তার ইনপুট পুনরায় তৈরি করতে পারে—ডেটাকে একটি ছোট "সুপ্ত" আকারে সংকুচিত করতে ব্যবহৃত হয়, যা সময়ের সাথে সাথে ছড়িয়ে পড়ে। এই প্রক্রিয়াটি কম্পিউটেশনাল খরচকে ব্যাপকভাবে হ্রাস করে এবং মডেলের দক্ষতা উন্নত করে।
CoDi এর অনন্য দিকটি এর সংমিশ্রণযোগ্য মাল্টিমোডাল কন্ডিশনিংয়ের মধ্যে রয়েছে। এই উপাদানটি এটিকে ইনপুট হিসাবে যেকোনও পদ্ধতির সংমিশ্রণ-টেক্সট, ইমেজ, ভিডিও এবং অডিও-কে গ্রহণ করার অনুমতি দেয়।
এই সমস্ত পদ্ধতি থেকে ইনপুটকে একই স্থানে সারিবদ্ধ করে এটি অর্জন করা হয়, যা তাদের উপস্থাপনাকে ইন্টারপোলেট করে সুবিধাজনকভাবে শর্তযুক্ত করা যেতে পারে।
দক্ষ গণনামূলক ক্রিয়াকলাপ নিশ্চিত করার জন্য, "ব্রিজিং অ্যালাইনমেন্ট" নামে একটি সাধারণ কৌশল ব্যবহার করা হয়। টেক্সটকে "ব্রিজিং" মোডালিটি হিসেবে বেছে নেওয়া হয়েছে কারণ এটি সাধারণত টেক্সট-ইমেজ, টেক্সট-ভিডিও এবং টেক্সট-অডিও পেয়ারের মতো অন্যান্য পদ্ধতির সাথে যুক্ত পাওয়া যায়।
এই পদ্ধতিটি মডেলটিকে ফিচার স্পেসে চারটি মোডালিটি সারিবদ্ধ করার অনুমতি দেয়, এমনকি যখন ইমেজ-অডিও জোড়ার মতো দ্বৈত পদ্ধতিগুলি বিক্ষিপ্ত হয়।
এমন একটি মডেলকে প্রশিক্ষণ দেওয়া যা যেকোনো ইনপুটকে যেকোনো আউটপুটে রূপান্তরিত করতে পারে এমন একটি চাহিদাপূর্ণ কাজ যার জন্য বিভিন্ন তথ্য সম্পদের ওপর যথেষ্ট শিক্ষার প্রয়োজন হয়।
এটি মোকাবেলা করার জন্য, CoDi কে কম্পোজেবল এবং একীভূত করার জন্য ডিজাইন করা হয়েছে, যার অর্থ প্রতিটি মডেলটির জন্য পৃথক মডেলগুলি স্বাধীনভাবে তৈরি করা যেতে পারে এবং তারপরে মসৃণভাবে পরে একত্রিত করা যেতে পারে।
উদাহরণ স্বরূপ, একটি ইমেজ ডিফিউশন মডেল ব্যবহার করা যেতে পারে একটি প্রতিষ্ঠিত মডেলের জ্ঞান এবং প্রজন্মের বিশ্বস্ততা হস্তান্তর করতে যা বড় আকারের, উচ্চ-মানের ইমেজ ডেটাসেটে প্রশিক্ষিত।
একইভাবে, একটি ভিডিও ডিফিউশন মডেল ভিডিওর টেম্পোরাল বৈশিষ্ট্য মডেল করার জন্য টেম্পোরাল মডিউল সহ ইমেজ ডিফিউজারকে প্রসারিত করতে পারে।
উপরন্তু, অডিও ডিফিউজার ভিউ
ধাঁধার শেষ অংশটি হল এই স্বাধীনভাবে প্রশিক্ষিত মডেলগুলিকে একসাথে একাধিক পদ্ধতি তৈরিতে একসাথে কাজ করার অনুমতি দেওয়া। মডেলটিতে ক্রস-মোডাল মনোযোগ সাবলেয়ার যোগ করে এটি অর্জন করা হয়।
এই "ল্যাটেন্ট অ্যালাইনমেন্ট" কৌশলটি প্রতিটি মোডালিটি-নির্দিষ্ট মডেলকে অন্যদের দিকে মনোযোগ দিতে দেয়, তাদের সুপ্ত ভেরিয়েবলগুলিকে একটি শেয়ার্ড স্পেসে প্রজেক্ট করে যা তারা সবাই অ্যাক্সেস করতে পারে।
এই নকশাটি যেকোন পদ্ধতির সংমিশ্রণের নিরবচ্ছিন্ন যৌথ প্রজন্মের জন্য অনুমতি দেয়। উদাহরণস্বরূপ, এমনকি যদি শুধুমাত্র A এবং B, এবং B এবং C এর যৌথ প্রজন্মের জন্য প্রশিক্ষণ দেওয়া হয়, CoDi কোনো অতিরিক্ত প্রশিক্ষণ ছাড়াই A এবং C এর যৌথ প্রজন্ম অর্জন করতে পারে!
তদুপরি, এটি যৌথ প্রজন্মের A, B, এবং C একসাথে পরিচালনা করতে পারে। এই বহুমুখীতা সম্ভব কারণ মডেলটি বিভিন্ন পদ্ধতির মধ্যে ক্রস-অ্যাটেন্ড করতে শিখেছে।
মোটকথা, এই পদ্ধতিগুলির মাধ্যমে, CoDi দক্ষতার সাথে যেকোনো ধরনের ইনপুটকে অন্য যেকোনো ফর্মের আউটপুটে রূপান্তর করতে শিখতে পারে, সমস্ত সংশ্লেষণ প্রবাহের জন্য উচ্চ প্রজন্মের গুণমান বজায় রাখে। ফলস্বরূপ, এটি মাল্টিমোডাল এআই মিথস্ক্রিয়াগুলির জন্য সম্ভাবনার একটি সম্পূর্ণ নতুন ক্ষেত্র উন্মুক্ত করে।
উদাহরণস্বরূপ, "একটি স্কেটবোর্ডে টেডি বিয়ার, 4k, উচ্চ রেজোলিউশন" পাঠ্য ইনপুট সহ CoDi প্রদান করুন এবং এটি সহগামী শব্দ সহ একটি ভিডিও আউটপুট করতে পারে। অথবা এটিকে "সাইবারপাঙ্ক ভাইব" সহ পাঠ্য এবং একটি চিত্র ফিড করুন এবং এটি প্রদত্ত থিমের সাথে মানানসই পাঠ্য এবং একটি চিত্র তৈরি করতে পারে।
উদাহরণ প্রজন্ম নীচে দেখানো হয়েছে -
CoDi-এর যেকোন-থেকে-যেকোন প্রজন্মের প্রভাব ব্যাপক। এমন একটি বিশ্বে যা ক্রমবর্ধমান ডিজিটাল হয়ে উঠছে, CoDi-এর মতো একটি টুল থাকার মানে হল প্রযুক্তির সাথে আরও বহুমুখী, প্রাকৃতিক এবং মানুষের মতো উপায়ে যোগাযোগ করতে সক্ষম হওয়া৷ এটি ভার্চুয়াল সহকারী থেকে বিষয়বস্তু তৈরি এবং অ্যাক্সেসিবিলিটি সরঞ্জাম থেকে বিনোদনে সবকিছু রূপান্তর করতে পারে।
কিন্তু সর্বদা হিসাবে, প্রভাবগুলি সম্পূর্ণরূপে ইউটোপিয়ান নয়। যেহেতু AI বাস্তবসম্মত, মাল্টিমডাল আউটপুট তৈরিতে আরও ভাল হয়ে ওঠে, তাই AI-উত্পন্ন সামগ্রী থেকে বাস্তবকে বোঝার প্রয়োজনীয়তা আরও গুরুত্বপূর্ণ হয়ে ওঠে। ভুল তথ্য আরও বিশ্বাসযোগ্য হতে পারে এবং ডিপফেকগুলি আরও প্রচলিত হতে পারে।
তবে কুচকাওয়াজে বৃষ্টি না হোক। CoDi হল AI প্রযুক্তিতে একটি উল্লেখযোগ্য পদক্ষেপ, যা দেখায় যে আমরা মানব যোগাযোগের সমৃদ্ধ ট্যাপেস্ট্রি বোঝার এবং পুনরায় তৈরি করার জন্য প্রশিক্ষণ মেশিনে কতদূর এসেছি।
আপনি যদি CoDi-এর মেকানিক্সের গভীরে খনন করতে চান, অথবা হয়তো নিজেও এটি নিয়ে পরীক্ষা-নিরীক্ষা করতে চান, তাহলে আপনি ওপেন-সোর্সটি দেখতে পারেন
শেষ পর্যন্ত, যা CoDi কে সত্যিকারের বিপ্লবী করে তোলে তা হল এর বিভিন্ন ধরণের ডেটা নির্বিঘ্নে মিশ্রিত করার এবং এমনভাবে আউটপুট তৈরি করার ক্ষমতা যা আগে অসম্ভব বলে মনে করা হয়েছিল। এটা কর্মক্ষেত্রে একজন আলকেমিস্টকে দেখার মতো, সীসাকে সোনায় পরিণত করা।
এই ক্ষেত্রে বাদে, এটি যেকোনো ধরনের ইনপুটকে যেকোনো ধরনের আউটপুটে পরিণত করছে। এটি সত্যিই AI এর একটি অসাধারণ যুগ যা আমরা বাস করছি।