चैटजीपीटी और मिडजर्नी जैसे हाल के एआई मॉडल ने पाठ और छवियों को उत्पन्न करने में प्रभावशाली क्षमताओं का प्रदर्शन किया है।
हालांकि, ऐसे मॉडल भी हैं जो इन इनपुटों को समझने में विशेषज्ञ हैं, जैसे छवियों के लिए विजन ट्रांसफॉर्मर्स (वीआईटी) और टेक्स्ट के लिए पाथवे भाषा मॉडल (पीएएलएम)। ये मॉडल छवियों और वाक्यों के अर्थ की व्याख्या और समझ कर सकते हैं।
पाठ और छवि मॉडल दोनों के संयोजन के परिणामस्वरूप एक एआई होगा जो डेटा के विभिन्न रूपों को समझ सकता है और लगभग हर चीज को समझने में सक्षम होगा।
हालाँकि, ऐसे मॉडल की क्षमताएँ पहली नज़र में सीमित लग सकती हैं, क्योंकि यह केवल चीजों को समझने में सक्षम होगी। लेकिन, क्या होगा अगर यह मॉडल एक रोबोटिक प्रणाली के साथ एकीकृत हो जो भौतिक दुनिया में स्थानांतरित हो सके? यहीं पर PaLM-E आता है।
Google का नवीनतम प्रकाशन, PaLM-E, एक सन्निहित मल्टीमॉडल भाषा मॉडल है।
इसका मतलब यह है कि यह एक ऐसा मॉडल है जो विभिन्न प्रकार के डेटा की व्याख्या और समझ सकता है, जिसमें क्रमशः ViT और PaLM मॉडल से चित्र और पाठ शामिल हैं, और इस जानकारी को एक रोबोटिक हाथ के माध्यम से कार्यों में परिवर्तित कर सकते हैं।
वीडियो में और जानें...