সাম্প্রতিক AI মডেল যেমন ChatGPT এবং Midjourney টেক্সট এবং ইমেজ তৈরিতে চিত্তাকর্ষক ক্ষমতা প্রদর্শন করেছে।
যাইহোক, এমন মডেলগুলিও রয়েছে যা এই ইনপুটগুলি বোঝার ক্ষেত্রে বিশেষজ্ঞ, যেমন চিত্রের জন্য ভিশন ট্রান্সফরমার (ViT) এবং পাঠ্যের জন্য পাথওয়েস ভাষা মডেল (PaLM)৷ এই মডেলগুলি ইমেজ এবং বাক্যের অর্থ ব্যাখ্যা করতে এবং বুঝতে পারে।
টেক্সট এবং ইমেজ মডেল উভয়কে একত্রিত করার ফলে একটি AI তৈরি হবে যা বিভিন্ন ধরনের ডেটা বুঝতে পারে এবং প্রায় সবকিছুই বুঝতে সক্ষম হবে।
যাইহোক, এই ধরনের মডেলের ক্ষমতা প্রথম নজরে সীমিত বলে মনে হতে পারে, কারণ এটি শুধুমাত্র জিনিসগুলি বুঝতে সক্ষম হবে। কিন্তু, যদি এই মডেলটি একটি রোবোটিক সিস্টেমের সাথে একত্রিত হয় যা ভৌত জগতে চলতে পারে? এখানেই PaLM-E আসে।
Google-এর সর্বশেষ প্রকাশনা, PaLM-E, একটি মূর্ত মাল্টিমডাল ভাষার মডেল ।
এর অর্থ হল এটি এমন একটি মডেল যা যথাক্রমে ViT এবং PaLM মডেলের ছবি এবং পাঠ্য সহ বিভিন্ন ধরণের ডেটা ব্যাখ্যা করতে এবং বুঝতে পারে এবং এই তথ্যটিকে একটি রোবোটিক হাতের মাধ্যমে ক্রিয়ায় রূপান্তর করতে পারে।
ভিডিওতে আরও জানুন…