लेखक:  (1) यिंगक्सू हे, कंप्यूटर विज्ञान विभाग नेशनल यूनिवर्सिटी ऑफ़ सिंगापुर {e0139128@u.nus.edu};  (2) क्युकी सन, कॉलेज ऑफ लाइफ साइंसेज नानकाई यूनिवर्सिटी {sunqiqi1018@gmail.com}.  लिंक की तालिका   सार और परिचय   क्रियाविधि   संदर्भ  अमूर्त  प्राकृतिक भाषा का उपयोग करके दृश्य जानकारी संप्रेषित करने के लिए स्वचालित छवि कैप्शनिंग एक आशाजनक तकनीक है। यह उपग्रह रिमोट सेंसिंग में विभिन्न कार्यों, जैसे पर्यावरण निगरानी, संसाधन प्रबंधन, आपदा प्रबंधन, आदि को लाभ पहुंचा सकता है। हालाँकि, इस डोमेन में मुख्य चुनौतियों में से एक बड़े पैमाने पर छवि-कैप्शन डेटासेट की कमी है, क्योंकि उन्हें बनाने के लिए बहुत अधिक मानवीय विशेषज्ञता और प्रयास की आवश्यकता होती है। बड़े भाषा मॉडल (LLM) पर हाल के शोध ने प्राकृतिक भाषा समझ और निर्माण कार्यों में उनके प्रभावशाली प्रदर्शन का प्रदर्शन किया है। फिर भी, उनमें से अधिकांश छवियों (GPT-3.5, Falcon, Claude, आदि) को संभाल नहीं सकते हैं, जबकि सामान्य ग्राउंड-व्यू छवियों पर पूर्व-प्रशिक्षित पारंपरिक कैप्शनिंग मॉडल अक्सर हवाई छवियों (BLIP, GIT, CM3, CM3Leon, आदि) के लिए विस्तृत और सटीक कैप्शन बनाने में विफल होते हैं। इस समस्या को हल करने के लिए, हम एक नया तरीका प्रस्तावित करते हैं: स्वचालित रिमोट सेंसिंग इमेज कैप्शनिंग (ARSIC) जो LLM को उनके ऑब्जेक्ट एनोटेशन का वर्णन करने के लिए मार्गदर्शन करके रिमोट सेंसिंग छवियों के लिए स्वचालित रूप से कैप्शन एकत्र करता है। हम एक बेंचमार्क मॉडल भी प्रस्तुत करते हैं जो रिमोट-सेंसिंग छवियों के लिए उच्च-गुणवत्ता वाले कैप्शन बनाने के लिए पूर्व-प्रशिक्षित जनरेटिव इमेज2टेक्स्ट मॉडल (GIT) को अनुकूलित करता है। हमारा मूल्यांकन रिमोट सेंसिंग छवियों के लिए कैप्शन एकत्र करने के हमारे दृष्टिकोण की प्रभावशीलता को प्रदर्शित करता है।  पिछले कई अध्ययनों से पता चला है कि GPT-3.5 और GPT-4 जैसे LLM शब्दार्थ को समझने में अच्छे हैं, लेकिन संख्यात्मक डेटा और जटिल तर्क के साथ संघर्ष करते हैं। इस सीमा को दूर करने के लिए, ARSIC छवियों पर सरल भौगोलिक विश्लेषण करने के लिए बाहरी API का लाभ उठाता है, जैसे कि ऑब्जेक्ट रिलेशन और क्लस्टरिंग। हम ऑब्जेक्ट्स पर क्लस्टरिंग करते हैं और सारांश बनाने के लिए LLM के लिए महत्वपूर्ण ज्यामितीय संबंध प्रस्तुत करते हैं। LLM का अंतिम आउटपुट कई कैप्शन हैं जो छवि का वर्णन करते हैं, जिन्हें भाषा प्रवाह और मूल छवि के साथ संगतता के आधार पर आगे रैंक और शॉर्टलिस्ट किया जाएगा।  हम Xview और DOTA डेटासेट से 7 हज़ार और 2 हज़ार इमेज-कैप्शन जोड़ियों पर एक पूर्व-प्रशिक्षित जनरेटिव इमेज2टेक्स्ट (GIT) मॉडल को फ़ाइन-ट्यून करते हैं, जिसमें विभिन्न ऑब्जेक्ट्स, जैसे वाहन, निर्माण, जहाज़ आदि के लिए बाउंडिंग बॉक्स एनोटेशन के साथ सैटेलाइट इमेज शामिल हैं। हम RSICD डेटासेट पर अपने दृष्टिकोण का मूल्यांकन करते हैं, जो सैटेलाइट इमेज कैप्शनिंग के लिए एक बेंचमार्क डेटासेट है जिसमें 10,892 इमेज और मानव विशेषज्ञों द्वारा एनोटेट किए गए 31,783 कैप्शन हैं। हम प्रशिक्षण डेटा से अनदेखी ऑब्जेक्ट प्रकारों वाले कैप्शन हटाते हैं और 5 हज़ार से अधिक कैप्शन वाली 1746 इमेज प्राप्त करते हैं, जहाँ हम 85.93 का CIDEr-D स्कोर प्राप्त करते हैं, जो सैटेलाइट रिमोट सेंसिंग में स्वचालित इमेज कैप्शनिंग के लिए हमारे दृष्टिकोण की प्रभावशीलता और क्षमता को प्रदर्शित करता है। हमारा दृष्टिकोण मानवीय एनोटेशन की आवश्यकता को कम करता है और इसे डेटासेट या डोमेन पर आसानी से लागू किया जा सकता है।  1 परिचय  सैटेलाइट रिमोट सेंसिंग आपदा प्रबंधन, पर्यावरण निगरानी और संसाधन प्रबंधन जैसे कई क्षेत्रों में आवश्यक है। इसमें अंतरिक्ष से कैप्चर की गई छवियों का विश्लेषण करना शामिल है, जो पृथ्वी की सतह पर वस्तुओं का पता लगाने और उन्हें वर्गीकृत करने पर ध्यान केंद्रित करता है ताकि उपयोगी स्थानिक जानकारी उत्पन्न हो सके। चूंकि इन छवियों में बहुत अधिक मात्रा में डेटा हो सकता है, इसलिए स्वचालित छवि कैप्शनिंग प्राकृतिक भाषा का उपयोग करके इन छवियों में दृश्य जानकारी की व्याख्या और संप्रेषण करने के लिए एक कुशल विधि के रूप में उभरी है।  अपनी महत्वपूर्ण क्षमता के बावजूद, सैटेलाइट रिमोट सेंसिंग छवियों में स्वचालित छवि कैप्शनिंग में एक बड़ी चुनौती बड़े पैमाने पर छवि-कैप्शन डेटासेट की कमी है। ऐसे डेटासेट बनाना श्रम-गहन है और इसके लिए महत्वपूर्ण मानवीय विशेषज्ञता की आवश्यकता होती है। अक्सर, पहले से मौजूद मॉडल, जैसे कि GPT3.5[7], फाल्कन और क्लाउड, अपनी प्रयोज्यता में कम पड़ जाते हैं क्योंकि वे संख्यात्मक डेटा की व्याख्या करने या जटिल तर्क करने के लिए सुसज्जित नहीं होते हैं। इसी तरह, BLIP[5], GIT[9], CM3[1] और CM3Leon[12] जैसे मॉडल जो सामान्य ग्राउंड-व्यू छवियों पर पहले से प्रशिक्षित होते हैं, हवाई छवियों के लिए सटीक कैप्शन बनाने के लिए संघर्ष करते हैं। ये सीमाएँ रिमोट-सेंसिंग छवियों के लिए उच्च-गुणवत्ता वाली स्वचालित कैप्शनिंग प्राप्त करना चुनौतीपूर्ण बनाती हैं।  इस मुद्दे का सामना करने के लिए, इस अध्ययन में, हम एक नए दृष्टिकोण का प्रस्ताव करते हैं: स्वचालित रिमोट सेंसिंग इमेज कैप्शनिंग (ARSIC), जो रिमोट सेंसिंग छवियों के लिए कुशलतापूर्वक उच्च गुणवत्ता वाले कैप्शन उत्पन्न करने के लिए बड़े भाषा मॉडल और उपग्रह डेटा दोनों का लाभ उठाता है। हमारा योगदान तीन गुना है। सबसे पहले, हम समूहों का पता लगाने, वस्तुओं द्वारा बनाई गई आकृतियों की पहचान करने और छवि की बेहतर समझ प्रदान करने के लिए दूरी की गणना करने के लिए कई भौगोलिक विश्लेषण API विकसित करते हैं। दूसरा, हम भौगोलिक API से परिणामों को कैप्शन में संक्षेपित करने के लिए बड़े भाषा मॉडल का मार्गदर्शन करके कैप्शन संग्रह की प्रक्रिया को स्वचालित करते हैं। यह मानव एनोटेशन की आवश्यकता को काफी कम कर देता है। अंत में, हम Xview[4] और DOTA[2] डेटासेट से हमारे ARSIC दृष्टिकोण का पालन करते हुए एकत्र की गई छवि-कैप्शन जोड़ियों पर  हमारे दृष्टिकोण की प्रभावशीलता को RSICD[6] परीक्षण डेटासेट पर कठोर परीक्षण के माध्यम से मान्य किया गया है, जो क्षेत्र में एक नया बेंचमार्क CIDEr-D[8] स्कोर स्थापित करता है। संक्षेप में, हमारा काम रिमोट सेंसिंग छवियों की व्याख्या और कैप्शनिंग के लिए एक अभिनव दृष्टिकोण प्रस्तुत करता है - एक ऐसी विधि जो न केवल एंड-टू-एंड इमेज कैप्शनिंग मॉडल को अनुकूलित करने के लिए आशाजनक है, बल्कि डेटासेट या डोमेन में लागू होने के लिए पर्याप्त लचीली भी है।  यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत   है। arxiv पर उपलब्ध

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

FEW SHOT .tech

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

एलएलएम का उपयोग करके स्वचालित उपग्रह चित्र कैप्शन निर्माण की ओर: सार और परिचय

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

इन 18 डेवलपर टूल के साथ अपनी उत्पादकता बढ़ाएँ 🚀🔥

अपने वर्कफ़्लो को 10 गुना बेहतर कैसे बनाएं: 17 ज़रूरी ऐप्स

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

टेलीग्राम: क्रिप्टो द्वीप का मुख्य भूमि से पुल

इन 18 डेवलपर टूल के साथ अपनी उत्पादकता बढ़ाएँ 🚀🔥

अपने वर्कफ़्लो को 10 गुना बेहतर कैसे बनाएं: 17 ज़रूरी ऐप्स

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

टेलीग्राम: क्रिप्टो द्वीप का मुख्य भूमि से पुल

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps