paint-brush
एआई के लिए एक बड़ा कदम: 3डी-एलएलएम ने भाषा मॉडल को 3डी दुनिया में पेश कियाद्वारा@whatsai
3,156 रीडिंग
3,156 रीडिंग

एआई के लिए एक बड़ा कदम: 3डी-एलएलएम ने भाषा मॉडल को 3डी दुनिया में पेश किया

द्वारा Louis Bouchard2m2023/08/11
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

3डी-एलएलएम एक नया मॉडल है जो भाषा और हमारे रहने वाले 3डी क्षेत्र के बीच अंतर को पाटता है। यह न केवल दुनिया को देखता है बल्कि उसके साथ बातचीत भी करता है। यह जो दुनिया देखता है वह पारंपरिक रूप से सुंदर नहीं हो सकती है, लेकिन इसकी समझ बिंदु बादलों और भाषा में गहरी है।
featured image - एआई के लिए एक बड़ा कदम: 3डी-एलएलएम ने भाषा मॉडल को 3डी दुनिया में पेश किया
Louis Bouchard HackerNoon profile picture
0-item

हमने बड़े भाषा मॉडल (एलएलएम) की उल्लेखनीय क्षमताओं को देखा है, लेकिन हमारे आस-पास की दुनिया की उनकी समझ में एक अंतर है - एक गायब हिस्सा। उन्होंने पाठ, कोड और छवियों में उत्कृष्टता हासिल की है, फिर भी उन्हें वास्तव में हमारी वास्तविकता से जुड़ने के लिए संघर्ष करना पड़ा है। यानी अब तक. यहां एआई परिदृश्य में एक अभूतपूर्व छलांग है: 3डी-एलएलएम।


3डी-एलएलएम एक नया मॉडल है जो भाषा और हमारे रहने वाले 3डी क्षेत्र के बीच अंतर को पाटता है। हालाँकि यह हमारी पूरी दुनिया को कवर नहीं करता है, लेकिन यह हमारे जीवन को आकार देने वाले महत्वपूर्ण आयामों और पाठ को समझने में एक महत्वपूर्ण प्रगति है। जैसा कि आप वीडियो में देखेंगे, 3डी-एलएलएम न केवल दुनिया को देखता है बल्कि उसके साथ बातचीत भी करता है। आप पर्यावरण के बारे में प्रश्न पूछ सकते हैं, वस्तुओं की तलाश कर सकते हैं या स्थानों के माध्यम से नेविगेट कर सकते हैं, और इसके सामान्य ज्ञान के तर्क को देख सकते हैं - जो विस्मयकारी करतबों की याद दिलाता है जो हमने चैटजीपीटी के साथ अनुभव किया है।


दिलचस्प बात यह है कि यह जो दुनिया देखता है वह पारंपरिक रूप से सुंदर नहीं हो सकती है, लेकिन इसकी समझ बिंदु बादलों और भाषा में गहरी है। प्वाइंट क्लाउड, 3डी डेटा प्रतिनिधित्व का आधार, वस्तुओं और वातावरण के स्थानिक निर्देशांक को एनकोड करता है, जिससे एआई वास्तविक दुनिया के साथ मूर्त तरीके से बातचीत करने में सक्षम होता है। स्वायत्त ड्राइविंग, रोबोटिक्स और संवर्धित वास्तविकता में उनकी भूमिका के बारे में सोचें- 3डी-एलएलएम इस क्षेत्र में आता है।


उत्सुकतावश, आपको आश्चर्य हो सकता है कि ऐसे मॉडल को 3-आयामी डेटा और भाषा को समझने के लिए कैसे प्रशिक्षित किया गया था। यह प्रक्रिया नवीन और जटिल थी, जिसमें लेखकों ने एक अद्वितीय 3डी-टेक्स्ट डेटासेट का निर्माण किया था। उन्होंने इस डेटा को तीन अलग-अलग तरीकों से इकट्ठा करने के लिए चैटजीपीटी की क्षमता का उपयोग किया, जिनके बारे में आप सीखेंगे, प्रत्येक दृश्य के लिए कार्यों और उदाहरणों का एक व्यापक भंडार तैयार किया।


इस समृद्ध डेटासेट से, लेखकों ने एक एआई मॉडल तैयार किया जो टेक्स्ट और 3डी पॉइंट क्लाउड दोनों को संसाधित करने में सक्षम है। मॉडल दृश्य को लेता है, विभिन्न दृष्टिकोणों के माध्यम से महत्वपूर्ण विशेषताओं को निकालता है, और इसे ऐसे रूप में पुनर्निर्मित करता है जो मॉडल की समझ के साथ प्रतिध्वनित होता है।


परिणाम? पहले 3डी-एलएलएम का जन्म, एक ऐसा मॉडल जो वास्तव में हमारी दुनिया को देखता और समझता है-एआई के विकास में एक दिलचस्प झलक पेश करता है। वीडियो यात्रा का एक स्नैपशॉट प्रस्तुत करता है, लेकिन मैं आपको इस नवाचार के पीछे प्रभावशाली इंजीनियरिंग उपलब्धियों के बारे में गहराई से जानने के लिए पेपर का अध्ययन करने के लिए प्रोत्साहित करता हूं। लिंक नीचे संदर्भ में दिया गया है।

शो का आनंद लो!

और सीखने के लिए वीडियो देखिये:

सन्दर्भ:

►पूरा लेख पढ़ें: https://www.louisbouchard.ai/3d-llm/

►वीडियो डेमो के साथ प्रोजेक्ट पेज: https://vis-www.cs.umass.edu/3dllm/ ►कोड: https://github.com/UMass-Foundation-Model/3D-LLM

►पेपर: होंग एट अल., 2023: 3डी-एलएलएम, https://arxiv.org/pdf/2307.12981.pdf

►ट्विटर: https://twitter.com/Whats_AI

►मेरा न्यूज़लेटर (एक नया एआई एप्लिकेशन आपके ईमेल पर साप्ताहिक रूप से समझाया जाता है!): https://www.louisbouchard.ai/newsletter/

►Patreon पर मेरा समर्थन करें: https://www.patreon.com/whatsai

►हमारे एआई डिस्कॉर्ड से जुड़ें: https://discord.gg/learnaitogether