paint-brush
एलएलएम का उपयोग करके स्वचालित उपग्रह चित्र कैप्शन निर्माण की ओर: सार और परिचयद्वारा@fewshot
197 रीडिंग

एलएलएम का उपयोग करके स्वचालित उपग्रह चित्र कैप्शन निर्माण की ओर: सार और परिचय

द्वारा The FewShot Prompting Publication 4m2024/06/16
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

शोधकर्ताओं ने एआरएसआईसी प्रस्तुत किया है, जो एलएलएम और एपीआई का उपयोग करके रिमोट सेंसिंग इमेज कैप्शनिंग की एक विधि है, जो सटीकता में सुधार करती है और मानव एनोटेशन की आवश्यकता को कम करती है।
featured image - एलएलएम का उपयोग करके स्वचालित उपग्रह चित्र कैप्शन निर्माण की ओर: सार और परिचय
The FewShot Prompting Publication  HackerNoon profile picture
0-item

लेखक:

(1) यिंगक्सू हे, कंप्यूटर विज्ञान विभाग नेशनल यूनिवर्सिटी ऑफ़ सिंगापुर {[email protected]};

(2) क्युकी सन, कॉलेज ऑफ लाइफ साइंसेज नानकाई यूनिवर्सिटी {[email protected]}.

लिंक की तालिका

अमूर्त

प्राकृतिक भाषा का उपयोग करके दृश्य जानकारी संप्रेषित करने के लिए स्वचालित छवि कैप्शनिंग एक आशाजनक तकनीक है। यह उपग्रह रिमोट सेंसिंग में विभिन्न कार्यों, जैसे पर्यावरण निगरानी, संसाधन प्रबंधन, आपदा प्रबंधन, आदि को लाभ पहुंचा सकता है। हालाँकि, इस डोमेन में मुख्य चुनौतियों में से एक बड़े पैमाने पर छवि-कैप्शन डेटासेट की कमी है, क्योंकि उन्हें बनाने के लिए बहुत अधिक मानवीय विशेषज्ञता और प्रयास की आवश्यकता होती है। बड़े भाषा मॉडल (LLM) पर हाल के शोध ने प्राकृतिक भाषा समझ और निर्माण कार्यों में उनके प्रभावशाली प्रदर्शन का प्रदर्शन किया है। फिर भी, उनमें से अधिकांश छवियों (GPT-3.5, Falcon, Claude, आदि) को संभाल नहीं सकते हैं, जबकि सामान्य ग्राउंड-व्यू छवियों पर पूर्व-प्रशिक्षित पारंपरिक कैप्शनिंग मॉडल अक्सर हवाई छवियों (BLIP, GIT, CM3, CM3Leon, आदि) के लिए विस्तृत और सटीक कैप्शन बनाने में विफल होते हैं। इस समस्या को हल करने के लिए, हम एक नया तरीका प्रस्तावित करते हैं: स्वचालित रिमोट सेंसिंग इमेज कैप्शनिंग (ARSIC) जो LLM को उनके ऑब्जेक्ट एनोटेशन का वर्णन करने के लिए मार्गदर्शन करके रिमोट सेंसिंग छवियों के लिए स्वचालित रूप से कैप्शन एकत्र करता है। हम एक बेंचमार्क मॉडल भी प्रस्तुत करते हैं जो रिमोट-सेंसिंग छवियों के लिए उच्च-गुणवत्ता वाले कैप्शन बनाने के लिए पूर्व-प्रशिक्षित जनरेटिव इमेज2टेक्स्ट मॉडल (GIT) को अनुकूलित करता है। हमारा मूल्यांकन रिमोट सेंसिंग छवियों के लिए कैप्शन एकत्र करने के हमारे दृष्टिकोण की प्रभावशीलता को प्रदर्शित करता है।


पिछले कई अध्ययनों से पता चला है कि GPT-3.5 और GPT-4 जैसे LLM शब्दार्थ को समझने में अच्छे हैं, लेकिन संख्यात्मक डेटा और जटिल तर्क के साथ संघर्ष करते हैं। इस सीमा को दूर करने के लिए, ARSIC छवियों पर सरल भौगोलिक विश्लेषण करने के लिए बाहरी API का लाभ उठाता है, जैसे कि ऑब्जेक्ट रिलेशन और क्लस्टरिंग। हम ऑब्जेक्ट्स पर क्लस्टरिंग करते हैं और सारांश बनाने के लिए LLM के लिए महत्वपूर्ण ज्यामितीय संबंध प्रस्तुत करते हैं। LLM का अंतिम आउटपुट कई कैप्शन हैं जो छवि का वर्णन करते हैं, जिन्हें भाषा प्रवाह और मूल छवि के साथ संगतता के आधार पर आगे रैंक और शॉर्टलिस्ट किया जाएगा।


हम Xview और DOTA डेटासेट से 7 हज़ार और 2 हज़ार इमेज-कैप्शन जोड़ियों पर एक पूर्व-प्रशिक्षित जनरेटिव इमेज2टेक्स्ट (GIT) मॉडल को फ़ाइन-ट्यून करते हैं, जिसमें विभिन्न ऑब्जेक्ट्स, जैसे वाहन, निर्माण, जहाज़ आदि के लिए बाउंडिंग बॉक्स एनोटेशन के साथ सैटेलाइट इमेज शामिल हैं। हम RSICD डेटासेट पर अपने दृष्टिकोण का मूल्यांकन करते हैं, जो सैटेलाइट इमेज कैप्शनिंग के लिए एक बेंचमार्क डेटासेट है जिसमें 10,892 इमेज और मानव विशेषज्ञों द्वारा एनोटेट किए गए 31,783 कैप्शन हैं। हम प्रशिक्षण डेटा से अनदेखी ऑब्जेक्ट प्रकारों वाले कैप्शन हटाते हैं और 5 हज़ार से अधिक कैप्शन वाली 1746 इमेज प्राप्त करते हैं, जहाँ हम 85.93 का CIDEr-D स्कोर प्राप्त करते हैं, जो सैटेलाइट रिमोट सेंसिंग में स्वचालित इमेज कैप्शनिंग के लिए हमारे दृष्टिकोण की प्रभावशीलता और क्षमता को प्रदर्शित करता है। हमारा दृष्टिकोण मानवीय एनोटेशन की आवश्यकता को कम करता है और इसे डेटासेट या डोमेन पर आसानी से लागू किया जा सकता है।

1 परिचय

सैटेलाइट रिमोट सेंसिंग आपदा प्रबंधन, पर्यावरण निगरानी और संसाधन प्रबंधन जैसे कई क्षेत्रों में आवश्यक है। इसमें अंतरिक्ष से कैप्चर की गई छवियों का विश्लेषण करना शामिल है, जो पृथ्वी की सतह पर वस्तुओं का पता लगाने और उन्हें वर्गीकृत करने पर ध्यान केंद्रित करता है ताकि उपयोगी स्थानिक जानकारी उत्पन्न हो सके। चूंकि इन छवियों में बहुत अधिक मात्रा में डेटा हो सकता है, इसलिए स्वचालित छवि कैप्शनिंग प्राकृतिक भाषा का उपयोग करके इन छवियों में दृश्य जानकारी की व्याख्या और संप्रेषण करने के लिए एक कुशल विधि के रूप में उभरी है।


अपनी महत्वपूर्ण क्षमता के बावजूद, सैटेलाइट रिमोट सेंसिंग छवियों में स्वचालित छवि कैप्शनिंग में एक बड़ी चुनौती बड़े पैमाने पर छवि-कैप्शन डेटासेट की कमी है। ऐसे डेटासेट बनाना श्रम-गहन है और इसके लिए महत्वपूर्ण मानवीय विशेषज्ञता की आवश्यकता होती है। अक्सर, पहले से मौजूद मॉडल, जैसे कि GPT3.5[7], फाल्कन और क्लाउड, अपनी प्रयोज्यता में कम पड़ जाते हैं क्योंकि वे संख्यात्मक डेटा की व्याख्या करने या जटिल तर्क करने के लिए सुसज्जित नहीं होते हैं। इसी तरह, BLIP[5], GIT[9], CM3[1] और CM3Leon[12] जैसे मॉडल जो सामान्य ग्राउंड-व्यू छवियों पर पहले से प्रशिक्षित होते हैं, हवाई छवियों के लिए सटीक कैप्शन बनाने के लिए संघर्ष करते हैं। ये सीमाएँ रिमोट-सेंसिंग छवियों के लिए उच्च-गुणवत्ता वाली स्वचालित कैप्शनिंग प्राप्त करना चुनौतीपूर्ण बनाती हैं।


इस मुद्दे का सामना करने के लिए, इस अध्ययन में, हम एक नए दृष्टिकोण का प्रस्ताव करते हैं: स्वचालित रिमोट सेंसिंग इमेज कैप्शनिंग (ARSIC), जो रिमोट सेंसिंग छवियों के लिए कुशलतापूर्वक उच्च गुणवत्ता वाले कैप्शन उत्पन्न करने के लिए बड़े भाषा मॉडल और उपग्रह डेटा दोनों का लाभ उठाता है। हमारा योगदान तीन गुना है। सबसे पहले, हम समूहों का पता लगाने, वस्तुओं द्वारा बनाई गई आकृतियों की पहचान करने और छवि की बेहतर समझ प्रदान करने के लिए दूरी की गणना करने के लिए कई भौगोलिक विश्लेषण API विकसित करते हैं। दूसरा, हम भौगोलिक API से परिणामों को कैप्शन में संक्षेपित करने के लिए बड़े भाषा मॉडल का मार्गदर्शन करके कैप्शन संग्रह की प्रक्रिया को स्वचालित करते हैं। यह मानव एनोटेशन की आवश्यकता को काफी कम कर देता है। अंत में, हम Xview[4] और DOTA[2] डेटासेट से हमारे ARSIC दृष्टिकोण का पालन करते हुए एकत्र की गई छवि-कैप्शन जोड़ियों पर


हमारे दृष्टिकोण की प्रभावशीलता को RSICD[6] परीक्षण डेटासेट पर कठोर परीक्षण के माध्यम से मान्य किया गया है, जो क्षेत्र में एक नया बेंचमार्क CIDEr-D[8] स्कोर स्थापित करता है। संक्षेप में, हमारा काम रिमोट सेंसिंग छवियों की व्याख्या और कैप्शनिंग के लिए एक अभिनव दृष्टिकोण प्रस्तुत करता है - एक ऐसी विधि जो न केवल एंड-टू-एंड इमेज कैप्शनिंग मॉडल को अनुकूलित करने के लिए आशाजनक है, बल्कि डेटासेट या डोमेन में लागू होने के लिए पर्याप्त लचीली भी है।


यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।