और जैसे हाल के एआई मॉडल ने पाठ और छवियों को उत्पन्न करने में प्रभावशाली क्षमताओं का प्रदर्शन किया है। चैटजीपीटी मिडजर्नी हालांकि, ऐसे मॉडल भी हैं जो इन इनपुटों को समझने में विशेषज्ञ हैं, जैसे छवियों के लिए विजन ट्रांसफॉर्मर्स (वीआईटी) और टेक्स्ट के लिए पाथवे भाषा मॉडल (पीएएलएम)। ये मॉडल छवियों और वाक्यों के अर्थ की व्याख्या और समझ कर सकते हैं। पाठ और छवि मॉडल दोनों के संयोजन के परिणामस्वरूप एक एआई होगा जो डेटा के विभिन्न रूपों को समझ सकता है और लगभग हर चीज को समझने में सक्षम होगा। हालाँकि, ऐसे मॉडल की क्षमताएँ पहली नज़र में सीमित लग सकती हैं, क्योंकि यह केवल चीजों को समझने में सक्षम होगी। लेकिन, क्या होगा अगर यह मॉडल एक रोबोटिक प्रणाली के साथ एकीकृत हो जो भौतिक दुनिया में स्थानांतरित हो सके? यहीं पर PaLM-E आता है। Google का PaLM-E AI मॉडल क्या है? Google का नवीनतम प्रकाशन, PaLM-E, एक है। सन्निहित मल्टीमॉडल भाषा मॉडल इसका मतलब यह है कि यह एक ऐसा मॉडल है जो विभिन्न प्रकार के डेटा की व्याख्या और समझ सकता है, जिसमें क्रमशः ViT और PaLM मॉडल से चित्र और पाठ शामिल हैं, और इस जानकारी को एक रोबोटिक हाथ के माध्यम से कार्यों में परिवर्तित कर सकते हैं। वीडियो में और जानें... https://youtu.be/1RF06BL7VAc?embedable=true&transcript=true