paint-brush
এই এআই যেকোনো ইনপুটকে যেকোনো আউটপুটে অনুবাদ করতে পারে: এখানে কেন এটি একটি বড় চুক্তিদ্বারা@mikeyoung44
2,535 পড়া
2,535 পড়া

এই এআই যেকোনো ইনপুটকে যেকোনো আউটপুটে অনুবাদ করতে পারে: এখানে কেন এটি একটি বড় চুক্তি

দ্বারা Mike Young6m2023/05/27
Read on Terminal Reader
Read this story w/o Javascript

অতিদীর্ঘ; পড়তে

CoDi হল একটি গেম-চেঞ্জিং জেনারেটিভ মডেল যা ইনপুটগুলির একটি মিশ্র ব্যাগ পরিচালনা করতে পারে। এটি পাঠ্য, অডিও, ভিডিও, চিত্রগুলি পরিচালনা করতে পারে এবং আউটপুটগুলির অন্য কোনও সংমিশ্রণে তাদের স্থানান্তর করতে পারে। CoDi একটি বহু-পর্যায়ের প্রশিক্ষণ স্কিম ব্যবহার করে, যার অর্থ এটি বিভিন্ন কাজের প্রশিক্ষণ দিতে পারে।
featured image - এই এআই যেকোনো ইনপুটকে যেকোনো আউটপুটে অনুবাদ করতে পারে: এখানে কেন এটি একটি বড় চুক্তি
Mike Young HackerNoon profile picture
0-item

এআই আরও চতুর হয়ে উঠছে, লোকেরা। সেই দিনগুলি চলে গেছে যখন কৃত্রিম বুদ্ধিমত্তা কেবল মোকাবেলা করতে পারে একক ধরনের ইনপুট এবং থুতু আউট একক ধরনের আউটপুট . এই যুগ CoDi : একটি গেম-পরিবর্তনকারী জেনারেটিভ মডেল যা ইনপুটগুলির একটি মিশ্র ব্যাগ (পাঠ্য, অডিও, ভিডিও, চিত্র মনে করুন) পরিচালনা করতে পারে এবং আউটপুটগুলির অন্য কোনও সংমিশ্রণে স্থানান্তর করতে পারে৷


আমি একটি মাধ্যমে এই সাহসী প্রকল্প জুড়ে হোঁচট খেয়েছি টুইট Avi Schiffmann, একজন AI উত্সাহী যার কৌতূহলের কোন সীমা নেই।


তাই, স্বাভাবিকভাবেই, আমি গভীরভাবে ডুব দিতে বাধ্য বোধ করি কাগজ যে এই উত্তেজনাপূর্ণ যুগান্তকারী বিবরণ. স্ট্র্যাপ ইন, কারণ এটি একটি বন্য রাইড.

পার্টিতে স্বাগতম, CoDi

তাই, CoDi সম্পর্কে এত বিশেষ কি? প্রথমত, এই এআই পাওয়ারহাউসটি আমরা এখন পর্যন্ত দেখেছি এমন যেকোনো জেনারেটিভ মডেলের চেয়ে বহুমুখী। ইমেজ-টু-ইমেজ বা টেক্সট-টু-টেক্সট-এর মতো নির্দিষ্ট পদ্ধতির সাথে এটি আবদ্ধ নয়। ওহ না, CoDi একটি মুক্ত আত্মা, কারণ এটি একটি "যেকোন-থেকে-যেকোনো" মডেল।


এই খারাপ ছেলেটি আপনি যা কিছু দেন—ভাষা, ছবি, ভিডিও, অডিও—এবং এটিকে একটি ভিন্ন পদ্ধতিতে রূপান্তরিত করে।


চ্যাপেল হিলের নর্থ ক্যারোলিনা বিশ্ববিদ্যালয়ের গবেষকরা এবং মাইক্রোসফ্ট অ্যাজুর কগনিটিভ সার্ভিসেস রিসার্চ CoDi তৈরি করেছেন যাতে শুধুমাত্র একাধিক পদ্ধতিগুলি একবারে পরিচালনা করা যায় না বরং এমন আউটপুটও তৈরি করা হয় যা মূল প্রশিক্ষণের ডেটাতেও নেই।


এখন, যে আমরা আপনার ওজন উপরে ঘুষি কল কি.


এর চেয়েও শীতল বিষয় হল এই সবই সম্ভব হয়েছে একটি অভিনব কম্পোজেবল জেনারেশন কৌশলের মাধ্যমে, যার মাধ্যমে সিঙ্ক্রোনাইজড প্রজন্মের আন্তঃসম্পর্কিত পদ্ধতিগুলিকে সক্ষম করে। একটি মেশিন দ্বারা উত্পাদিত নিখুঁতভাবে সিঙ্ক করা অডিও সহ একটি ভিডিও কল্পনা করুন যা মূলত অনুমান করে যে তারা কীভাবে একসাথে ফিট করে৷


এটি একরকম এআই রিমিক্স শিল্পীর মতো।

কিন্তু এটা কিভাবে কাজ করে?

প্রযুক্তিগত নিটি-গ্রিটির জন্য যাদের তৃষ্ণা রয়েছে তাদের জন্য, CoDi একটি মাল্টি-স্টেজ ট্রেনিং স্কিম ব্যবহার করে, যার অর্থ এটি ইনপুট এবং আউটপুটগুলির সমস্ত ধরণের সংমিশ্রণ অনুমান করার সময় বিভিন্ন কাজের প্রশিক্ষণ দিতে পারে। এটা মাল্টিটাস্ক করার ক্ষমতা আছে মত.

কাগজ থেকে: "কম্পোজেবল ডিফিউশন একটি মাল্টি-স্টেজ ট্রেনিং স্কিম ব্যবহার করে শুধুমাত্র একটি রৈখিক সংখ্যক কাজের প্রশিক্ষণ দিতে সক্ষম হতে পারে কিন্তু ইনপুট এবং আউটপুট পদ্ধতির সমস্ত সংমিশ্রণে অনুমান করতে পারে।"


মডেলের উপযোগিতা তার স্থাপত্যে প্রদর্শিত হয়। নিম্নলিখিত বিভাগটি মডেলটিকে তাদের ইচ্ছামতো কাজ করার জন্য নির্মাতারা যে মূল পদ্ধতিগুলি ব্যবহার করে তার কিছুটা প্রযুক্তিগত সারসংক্ষেপ।

প্রাথমিক: সুপ্ত প্রসারণ মডেল

CoDi এর ভিত্তি হল একটি ডিফিউশন মডেল, বিশেষ করে একটি সুপ্ত ডিফিউশন মডেল (LDM)। জেনারেটিভ এআই-এর এই ফর্মটি সময়ের সাথে সাথে তথ্যের বিস্তারকে নকল করে ডেটা বিতরণ শেখে।


প্রশিক্ষণের সময়, এটি ইনপুট ডেটাতে ক্রমাগত এলোমেলো শব্দ যোগ করে, এই প্রক্রিয়াটিকে বিপরীত করতে শেখে এবং ডেটাটিকে তার আসল আকারে ফিরিয়ে আনতে শেখে। যখন এটি নতুন ডেটা তৈরি করে, তখন এটি সাধারণ শব্দ নেয় এবং প্রশিক্ষণের ডেটার মতো দেখায় এমন কিছু তৈরি করতে এটি অস্বীকার করে।


এলডিএম-এর ক্ষেত্রে, একটি অটোএনকোডার—এক ধরনের এআই মডেল যা তার ইনপুট পুনরায় তৈরি করতে পারে—ডেটাকে একটি ছোট "সুপ্ত" আকারে সংকুচিত করতে ব্যবহৃত হয়, যা সময়ের সাথে সাথে ছড়িয়ে পড়ে। এই প্রক্রিয়াটি কম্পিউটেশনাল খরচকে ব্যাপকভাবে হ্রাস করে এবং মডেলের দক্ষতা উন্নত করে।

কম্পোজেবল মাল্টিমডাল কন্ডিশনিং

CoDi এর অনন্য দিকটি এর সংমিশ্রণযোগ্য মাল্টিমোডাল কন্ডিশনিংয়ের মধ্যে রয়েছে। এই উপাদানটি এটিকে ইনপুট হিসাবে যেকোনও পদ্ধতির সংমিশ্রণ-টেক্সট, ইমেজ, ভিডিও এবং অডিও-কে গ্রহণ করার অনুমতি দেয়।


এই সমস্ত পদ্ধতি থেকে ইনপুটকে একই স্থানে সারিবদ্ধ করে এটি অর্জন করা হয়, যা তাদের উপস্থাপনাকে ইন্টারপোলেট করে সুবিধাজনকভাবে শর্তযুক্ত করা যেতে পারে।


দক্ষ গণনামূলক ক্রিয়াকলাপ নিশ্চিত করার জন্য, "ব্রিজিং অ্যালাইনমেন্ট" নামে একটি সাধারণ কৌশল ব্যবহার করা হয়। টেক্সটকে "ব্রিজিং" মোডালিটি হিসেবে বেছে নেওয়া হয়েছে কারণ এটি সাধারণত টেক্সট-ইমেজ, টেক্সট-ভিডিও এবং টেক্সট-অডিও পেয়ারের মতো অন্যান্য পদ্ধতির সাথে যুক্ত পাওয়া যায়।


এই পদ্ধতিটি মডেলটিকে ফিচার স্পেসে চারটি মোডালিটি সারিবদ্ধ করার অনুমতি দেয়, এমনকি যখন ইমেজ-অডিও জোড়ার মতো দ্বৈত পদ্ধতিগুলি বিক্ষিপ্ত হয়।

কম্পোজেবল ডিফিউশন

এমন একটি মডেলকে প্রশিক্ষণ দেওয়া যা যেকোনো ইনপুটকে যেকোনো আউটপুটে রূপান্তরিত করতে পারে এমন একটি চাহিদাপূর্ণ কাজ যার জন্য বিভিন্ন তথ্য সম্পদের ওপর যথেষ্ট শিক্ষার প্রয়োজন হয়।


এটি মোকাবেলা করার জন্য, CoDi কে কম্পোজেবল এবং একীভূত করার জন্য ডিজাইন করা হয়েছে, যার অর্থ প্রতিটি মডেলটির জন্য পৃথক মডেলগুলি স্বাধীনভাবে তৈরি করা যেতে পারে এবং তারপরে মসৃণভাবে পরে একত্রিত করা যেতে পারে।


উদাহরণ স্বরূপ, একটি ইমেজ ডিফিউশন মডেল ব্যবহার করা যেতে পারে একটি প্রতিষ্ঠিত মডেলের জ্ঞান এবং প্রজন্মের বিশ্বস্ততা হস্তান্তর করতে যা বড় আকারের, উচ্চ-মানের ইমেজ ডেটাসেটে প্রশিক্ষিত।


একইভাবে, একটি ভিডিও ডিফিউশন মডেল ভিডিওর টেম্পোরাল বৈশিষ্ট্য মডেল করার জন্য টেম্পোরাল মডিউল সহ ইমেজ ডিফিউজারকে প্রসারিত করতে পারে।


উপরন্তু, অডিও ডিফিউজার ভিউ মেল-স্পেকট্রোগ্রাম একটি চ্যানেলের সাথে একটি ইমেজ হিসাবে অডিও, এবং একটি টেক্সট ডিফিউশন মডেল অন্যান্য মডেলের মতো টেক্সট ডেটাকে একটি ছোট সুপ্ত আকারে সংকুচিত করতে একটি বৈচিত্রপূর্ণ অটোএনকোডার ব্যবহার করে।

সুপ্ত প্রান্তিককরণ দ্বারা যৌথ মাল্টিমোডাল জেনারেশন

ধাঁধার শেষ অংশটি হল এই স্বাধীনভাবে প্রশিক্ষিত মডেলগুলিকে একসাথে একাধিক পদ্ধতি তৈরিতে একসাথে কাজ করার অনুমতি দেওয়া। মডেলটিতে ক্রস-মোডাল মনোযোগ সাবলেয়ার যোগ করে এটি অর্জন করা হয়।


এই "ল্যাটেন্ট অ্যালাইনমেন্ট" কৌশলটি প্রতিটি মোডালিটি-নির্দিষ্ট মডেলকে অন্যদের দিকে মনোযোগ দিতে দেয়, তাদের সুপ্ত ভেরিয়েবলগুলিকে একটি শেয়ার্ড স্পেসে প্রজেক্ট করে যা তারা সবাই অ্যাক্সেস করতে পারে।


এই নকশাটি যেকোন পদ্ধতির সংমিশ্রণের নিরবচ্ছিন্ন যৌথ প্রজন্মের জন্য অনুমতি দেয়। উদাহরণস্বরূপ, এমনকি যদি শুধুমাত্র A এবং B, এবং B এবং C এর যৌথ প্রজন্মের জন্য প্রশিক্ষণ দেওয়া হয়, CoDi কোনো অতিরিক্ত প্রশিক্ষণ ছাড়াই A এবং C এর যৌথ প্রজন্ম অর্জন করতে পারে!


তদুপরি, এটি যৌথ প্রজন্মের A, B, এবং C একসাথে পরিচালনা করতে পারে। এই বহুমুখীতা সম্ভব কারণ মডেলটি বিভিন্ন পদ্ধতির মধ্যে ক্রস-অ্যাটেন্ড করতে শিখেছে।


মোটকথা, এই পদ্ধতিগুলির মাধ্যমে, CoDi দক্ষতার সাথে যেকোনো ধরনের ইনপুটকে অন্য যেকোনো ফর্মের আউটপুটে রূপান্তর করতে শিখতে পারে, সমস্ত সংশ্লেষণ প্রবাহের জন্য উচ্চ প্রজন্মের গুণমান বজায় রাখে। ফলস্বরূপ, এটি মাল্টিমোডাল এআই মিথস্ক্রিয়াগুলির জন্য সম্ভাবনার একটি সম্পূর্ণ নতুন ক্ষেত্র উন্মুক্ত করে।

CoDi কীভাবে কাজ করে তা দেখানো একটি GIF - পেপার থেকে।


উদাহরণস্বরূপ, "একটি স্কেটবোর্ডে টেডি বিয়ার, 4k, উচ্চ রেজোলিউশন" পাঠ্য ইনপুট সহ CoDi প্রদান করুন এবং এটি সহগামী শব্দ সহ একটি ভিডিও আউটপুট করতে পারে। অথবা এটিকে "সাইবারপাঙ্ক ভাইব" সহ পাঠ্য এবং একটি চিত্র ফিড করুন এবং এটি প্রদত্ত থিমের সাথে মানানসই পাঠ্য এবং একটি চিত্র তৈরি করতে পারে।


উদাহরণ প্রজন্ম নীচে দেখানো হয়েছে - কাগজ পরীক্ষা করুন ইন্টারেক্টিভ উদাহরণের জন্য।

এটা আমাদের জন্য কি অর্থ বহন করে?

CoDi-এর যেকোন-থেকে-যেকোন প্রজন্মের প্রভাব ব্যাপক। এমন একটি বিশ্বে যা ক্রমবর্ধমান ডিজিটাল হয়ে উঠছে, CoDi-এর মতো একটি টুল থাকার মানে হল প্রযুক্তির সাথে আরও বহুমুখী, প্রাকৃতিক এবং মানুষের মতো উপায়ে যোগাযোগ করতে সক্ষম হওয়া৷ এটি ভার্চুয়াল সহকারী থেকে বিষয়বস্তু তৈরি এবং অ্যাক্সেসিবিলিটি সরঞ্জাম থেকে বিনোদনে সবকিছু রূপান্তর করতে পারে।


কিন্তু সর্বদা হিসাবে, প্রভাবগুলি সম্পূর্ণরূপে ইউটোপিয়ান নয়। যেহেতু AI বাস্তবসম্মত, মাল্টিমডাল আউটপুট তৈরিতে আরও ভাল হয়ে ওঠে, তাই AI-উত্পন্ন সামগ্রী থেকে বাস্তবকে বোঝার প্রয়োজনীয়তা আরও গুরুত্বপূর্ণ হয়ে ওঠে। ভুল তথ্য আরও বিশ্বাসযোগ্য হতে পারে এবং ডিপফেকগুলি আরও প্রচলিত হতে পারে।


তবে কুচকাওয়াজে বৃষ্টি না হোক। CoDi হল AI প্রযুক্তিতে একটি উল্লেখযোগ্য পদক্ষেপ, যা দেখায় যে আমরা মানব যোগাযোগের সমৃদ্ধ ট্যাপেস্ট্রি বোঝার এবং পুনরায় তৈরি করার জন্য প্রশিক্ষণ মেশিনে কতদূর এসেছি।


আপনি যদি CoDi-এর মেকানিক্সের গভীরে খনন করতে চান, অথবা হয়তো নিজেও এটি নিয়ে পরীক্ষা-নিরীক্ষা করতে চান, তাহলে আপনি ওপেন-সোর্সটি দেখতে পারেন কোডবেস গিটহাবে। CoDi ব্যবহার করে আপনি কী ধরনের বন্য রূপান্তর নিয়ে আসতে পারেন কে জানে?


শেষ পর্যন্ত, যা CoDi কে সত্যিকারের বিপ্লবী করে তোলে তা হল এর বিভিন্ন ধরণের ডেটা নির্বিঘ্নে মিশ্রিত করার এবং এমনভাবে আউটপুট তৈরি করার ক্ষমতা যা আগে অসম্ভব বলে মনে করা হয়েছিল। এটা কর্মক্ষেত্রে একজন আলকেমিস্টকে দেখার মতো, সীসাকে সোনায় পরিণত করা।


এই ক্ষেত্রে বাদে, এটি যেকোনো ধরনের ইনপুটকে যেকোনো ধরনের আউটপুটে পরিণত করছে। এটি সত্যিই AI এর একটি অসাধারণ যুগ যা আমরা বাস করছি।