लेखक:
(1) यिंगक्सू हे, कंप्यूटर विज्ञान विभाग नेशनल यूनिवर्सिटी ऑफ़ सिंगापुर {[email protected]};
(2) क्युकी सन, कॉलेज ऑफ लाइफ साइंसेज नानकाई यूनिवर्सिटी {[email protected]}.
इस खंड में, हम LLM को उनके ऑब्जेक्ट एनोटेशन का वर्णन करने के लिए मार्गदर्शन करके रिमोट सेंसिंग छवियों के लिए स्वचालित रूप से कैप्शन एकत्र करने के लिए हमारे प्रस्तावित दृष्टिकोण का वर्णन करते हैं। इस कार्य में, हम प्रत्येक छवि में ऑब्जेक्ट की संख्या को 15 से अधिक नहीं रखते हैं, जो LLM के लिए अपेक्षाकृत सरल स्थानिक लेआउट सुनिश्चित करता है। हमारे दृष्टिकोण में तीन मुख्य चरण शामिल हैं: (1) भौगोलिक विश्लेषण करने और वस्तुओं के बीच स्थानिक संबंधों का वर्णन करने के लिए API विकसित करना, (2) API की मदद से कैप्शन बनाने के लिए API को संकेत देना, और (3) कैप्शन मूल्यांकन और चयन। हम नीचे प्रत्येक चरण को विस्तार से समझाते हैं।
एलएलएम 2-आयामी भौगोलिक जानकारी को संसाधित करने में अक्षम है, इसलिए हमने वस्तुओं के बीच स्थानिक संबंधों का विश्लेषण करने के लिए कई विश्लेषणात्मक दृष्टिकोण लागू किए। RSICD पेपर द्वारा दिए गए कैप्शन से प्रेरित होकर, हमने केवल वस्तुओं के बीच की दूरी, वस्तु स्थानों की सांद्रता, वस्तुओं के समूहों द्वारा बनाई गई आकृतियों और वस्तुओं के बीच महत्वपूर्ण संबंधों का विश्लेषण करने पर ध्यान केंद्रित किया।
Xview और Dota डेटासेट में, वस्तुओं का आकार बहुत भिन्न होता है। इसलिए, वस्तुओं के बीच की दूरी के लिए केंद्रों के बीच की दूरी का उपयोग करना अनुचित है। उदाहरण के लिए, हालाँकि दो बड़ी इमारतों के केंद्र काफी दूर हो सकते हैं, लेकिन उनकी अंदरूनी दीवारें केवल कुछ कदम दूर हो सकती हैं। इसलिए, हम बाउंडिंग बॉक्स के बीच की सबसे छोटी दूरी को उनकी दूरी मानते हैं। वस्तुओं के दो समूहों के बीच की दूरी के लिए, हम इसे उनके निकटतम तत्व के बीच की दूरी के साथ दर्शाते हैं, जिसे आमतौर पर क्लस्टरिंग के क्षेत्र में सिंगल लिंकेज माप के रूप में संदर्भित किया जाता है।
मानव आंखों द्वारा कैप्चर की गई सबसे महत्वपूर्ण विशेषताओं में से एक उनके स्थानों और प्रकारों के आधार पर वस्तुओं की एकाग्रता है, उदाहरण के लिए, कोई व्यक्ति सड़क पर खड़ी कई इमारतों से राजमार्ग पर चल रहे वाहन को आसानी से अलग कर सकता है। दूसरी ओर, लोग वस्तुओं के निकटतम पड़ोसी पर भी ध्यान देते हैं, उदाहरण के लिए, ट्रक के बगल में एक यात्री कार लोगों का ध्यान आकर्षित करने के लिए ट्रक से अपेक्षाकृत दूर एक इमारत की तुलना में आसान है। पारंपरिक मशीन लर्निंग क्लस्टरिंग एल्गोरिदम में K-Means और पदानुक्रमित क्लस्टरिंग जैसे दूरी-आधारित एल्गोरिदम और DBSCAN और इसके वेरिएंट जैसे घनत्व-आधारित क्लस्टरिंग शामिल हैं। हालांकि, K-Means एल्गोरिदम अक्सर केंद्रित वस्तुओं से आउटलेयर को अलग करने में विफल रहता है
इस काम में, हमने छवि में सभी ऑब्जेक्ट्स को कनेक्ट करने और ग्राफ से काफी लंबे किनारों को हटाकर क्लस्टर बनाने के लिए मिनिमम स्पैनिंग ट्री (MST) एल्गोरिदम का इस्तेमाल किया। क्रुस्कल का MST एल्गोरिदम[3] वस्तुओं के निकटतम पड़ोसियों पर विचार करता है और साथ ही नगण्य कनेक्शनों को छोड़ देता है, यह सुनिश्चित करता है कि हर पेड़ का किनारा मनुष्यों के अवलोकन व्यवहार के अनुरूप हो। हमने संपूर्ण डेटासेट से किनारे के वजन के 75 प्रतिशत पर सीमा निर्धारित की है। इस सीमा से ऊपर के किनारों को क्लस्टर बनाने के लिए ग्राफ से हटा दिया गया, जिससे इंट्रा-क्लस्टर कम से कम और इंटर-क्लस्टर दूरी अधिकतम हो गई। एक ही प्रकार की वस्तुओं को एक ही क्लस्टर में समूहीकृत करने के लिए प्रोत्साहित करने के लिए, हम विभिन्न प्रकार की वस्तुओं के बीच की दूरी में अतिरिक्त लंबाई जोड़ते हैं।
RSICD डेटासेट में दिए गए कैप्शन से प्रेरित होकर, इस कार्य में रेखा आकार को पता लगाने के लिए मूलभूत आकार माना जाता है। यह मानवीय आँखों को सबसे अधिक आकर्षक लगता है और कई अन्य जटिल आकृतियों का मूल तत्व है। उदाहरण के लिए, स्क्वायर ग्रिड स्ट्रीट पैटर्न शहरों में उपयोग किए जाने वाले सबसे लोकप्रिय स्ट्रीट पैटर्न में से एक है, जहाँ इमारतों की रेखाएँ सबसे मौलिक तत्व हैं। निस्संदेह, अन्य आकृतियाँ भी आसानी से लोगों का ध्यान आकर्षित कर सकती हैं, जैसे कि वृत्त और वर्ग। फिर भी, इस कार्य की सेटिंग में, जहाँ प्रत्येक छवि में अधिकतम 15 ऑब्जेक्ट होते हैं, वे कम स्पष्ट होते हैं और उनका पता लगाना अधिक कठिन होता है। इसलिए, हमने केवल यह जाँच करके वस्तुओं के समूहों से रेखा आकृतियों का पता लगाने के लिए एक विधि लागू की कि क्या बाउंडिंग बॉक्स के कोनों द्वारा बनाई गई रेखाएँ समानांतर हैं।
हम RSICD पेपर[6] में सूचीबद्ध कुछ संबंधों की समीक्षा करते हैं और छवि कैप्शन में शामिल किए जाने वाले संबंधों की अपनी सूची लेकर आते हैं: "अकेला खड़ा है", "निकट", "एक पंक्ति में", "चारों ओर से घिरा हुआ", "बीच में", और "दो तरफ से"। हमने RSICD पेपर से "पंक्तियों में" संबंध को "एक पंक्ति में" में संशोधित किया, क्योंकि विभिन्न पंक्तियों में वस्तुओं को अलग-अलग समूहों में समूहीकृत किया जा सकता है जैसा कि खंड 2.1.2 में वर्णित है, और किसी भी संभावित रेखा आकार का पता खंड 2.1.3 में वर्णित आकार पहचान एल्गोरिदम द्वारा लगाया जाएगा। इसके अतिरिक्त, हम "दो तरफ से" के फ्लिप पक्ष के रूप में "बीच में" संबंध का प्रस्ताव करते हैं ताकि उस स्थिति को अलग किया जा सके जहां केवल दो तरफ की वस्तुएं हैं और अन्य 360◦ का चक्कर लगा रही वस्तुएं हैं। इस कार्य में, ऊपर वर्णित दृष्टिकोण "अकेला खड़ा है", "निकट" और "एक पंक्ति में" संबंधों को संबोधित कर सकते हैं। "चारों ओर से घिरा हुआ" संबंध केवल तभी माना जाता है जब कुछ वस्तुएं वस्तुओं के दूसरे समूह की सीमा के भीतर स्थित होती हैं। विस्तृत कार्य मध्य में स्थित बक्सों से बाहरी बक्सों तक लिंक खींचकर तथा उनके बीच के कोणों की गणना करके प्राप्त किया जाता है। "बीच में" तथा "दो पक्षों में" संबंधों का क्रियान्वयन भविष्य के कार्य के लिए छोड़ दिया गया है।
हमारे दृष्टिकोण का दूसरा चरण एलएलएम को इसी तरह के पैटर्न का अनुसरण करते हुए कैप्शन बनाने के लिए मार्गदर्शन करने के लिए संकेतों का उपयोग करना है। अनुभाग 2.1 में कार्यान्वित एपीआई के साथ, एलएलएम को संकेत देने और आदर्श कैप्शन उत्पन्न करने के लिए उसे मार्गदर्शन करने के कई विकल्प हैं। एलएलएम को नियंत्रक या एक्शन डिस्पैचर[13] के रूप में मानने के हाल ही में लोकप्रिय विचार के बाद, एक दृष्टिकोण भाषा मॉडल को अपनी क्रियाओं की योजना बनाने और सहायक भौगोलिक विश्लेषण परिणाम प्राप्त करने के लिए अनुक्रम में कार्यों को निष्पादित करने की अनुमति देना हो सकता है। उदाहरण के लिए, हाल ही में विकसित रीएक्ट[10] दृष्टिकोण जटिल कार्यों को संभालने की एलएलएम की क्षमता को बढ़ाने के लिए तर्क और निष्पादन प्रक्रिया को समन्वित करता है। यह भौगोलिक विश्लेषण में काफी लचीलापन और उत्पन्न कैप्शन में अधिक विविधता की अनुमति देता है
समस्या को हल करने के लिए, हमने MST एल्गोरिदम का लाभ उठाया, जो क्लस्टर और स्टैंड-अलोन ऑब्जेक्ट दोनों के लिए सबसे महत्वपूर्ण पड़ोसियों को प्रकट करता है, जहाँ से हम आसानी से महत्वपूर्ण भौगोलिक संबंधों को निकाल सकते हैं। अधिक विशेष रूप से, हम प्रत्येक छवि में प्रत्येक समूह की उपस्थिति को उनके संयोजन और आकृतियों के साथ-साथ स्टैंड-अलोन ऑब्जेक्ट्स के साथ सूचीबद्ध करते हैं। फिर बक्सों के बीच महत्वपूर्ण ज्यामितीय संबंध LLM को उनके स्थानिक संबंधों का बोध कराने के लिए प्रदान किए जाते हैं। इस मामले में, हम केवल क्लस्टरिंग चरण (अनुभाग 2.1.2) के दौरान हटाए गए किनारों को प्रस्तुत करते हैं जो क्लस्टर और स्टैंड-अलोन ऑब्जेक्ट्स को जोड़ता है। LLM द्वारा प्रस्तुत स्थानिक संबंधों और बनाए गए कैप्शन का एक चित्रण चित्र 2 में दिया गया है।
हालाँकि प्रॉम्प्ट ने पहले से ही आवश्यक क्लस्टरिंग जानकारी और वस्तुओं के बीच स्थानिक संबंध प्रदान किए हैं, LLM को केवल स्थानिक संबंधों में क्लस्टरिंग जानकारी लाने और कैप्शन बनाने के लिए नहीं माना जाता है, जो पहले से ही एक टेम्पलेट-आधारित या नियम-आधारित विधि द्वारा किया जा सकता है। LLM द्वारा निभाई गई सबसे महत्वपूर्ण भूमिका वर्तमान स्थानिक लेआउट को समझना और संभावित रूप से निरर्थक या महत्वहीन संबंधों को उपयुक्त कैप्शन में बदलना है। उदाहरण के लिए, चित्र 2 (2) में, MST-आधारित एल्गोरिदम यह पता लगाता है कि एक इमारत कुछ इमारतों के मुकाबले अन्य के ज्यादा करीब है। हालाँकि, चूँकि पूरी छवि अलग-अलग इमारतों से भरी हुई है, इसलिए उस संबंध को दोहराने वाला कैप्शन डाउनस्ट्रीम डीप-लर्निंग मॉडल और यहाँ तक कि मानव पाठकों के लिए भ्रम और अस्पष्टता ला सकता है।
इस कार्य में, प्रॉम्प्ट में आवश्यक उदाहरण प्रदान करके LLM के सारांश व्यवहार को सुनिश्चित किया जाता है, जिसे अधिक बार "फ्यू-शॉट" प्रॉम्प्टिंग तकनीक के रूप में संदर्भित किया जाता है। हमने कई उदाहरण दिए हैं जहाँ LLM को अपने शब्दों में कैप्शन बनाने के लिए स्थानिक संबंधों के साथ क्लस्टरिंग परिणामों को समन्वित करना चाहिए। अन्य प्रॉम्प्टिंग तकनीकें संभावित रूप से समान लक्ष्य प्राप्त कर सकती हैं, जैसे कि अपेक्षित व्यवहारों के लिए विवरण जोड़ना या चेन ऑफ़ थॉट या ट्री ऑफ़ थॉट तकनीकों का उपयोग करके तर्क प्रक्रिया को तोड़ना। फिर भी, यह देखते हुए कि इनपुट और अपेक्षित आउटपुट प्रारूप पहले से ही जटिल हैं, ये प्रॉम्प्टिंग रणनीतियाँ प्रॉम्प्ट लेखन प्रक्रिया में बहुत अधिक जटिलता और कठिनाई ला सकती हैं। इसके अलावा, हमारे प्रयोगात्मक परिणाम दिखाते हैं कि फ़्यू-शॉट प्रॉम्प्टिंग उपर्युक्त किसी भी तकनीक की तुलना में अधिक स्थिर रूप से प्रदर्शन करती है।
इसके अतिरिक्त, प्रतिक्रिया को कंप्यूटर-पठनीय प्रारूप में प्रभावी रूप से प्रतिबंधित करने के लिए, हम स्पष्ट रूप से एलएलएम को पायथन सूची के प्रारूप में कैप्शन को आउटपुट करने का निर्देश देते हैं, जिसकी विस्तृत जानकारी पहले से ही एलएलएम के प्री-ट्रेनिंग कॉर्पस में शामिल की गई है और इसकी पैरामीट्रिक मेमोरी में अच्छी तरह से एम्बेड की गई है।
अन्य अनुकूलित प्रारूप की तुलना में जिसके लिए अतिरिक्त स्पष्टीकरण की आवश्यकता होती है। यह वांछित है कि एलएलएम प्रतिक्रिया में ऑब्जेक्ट समूहों की कोई आईडी न हो, जिसे प्रॉम्प्ट में उदाहरण प्रदान करके फिर से प्राप्त किया जाता है, जैसा कि पिछले अनुभाग में पेश किया गया है। कई हालिया शोध कार्यों में यह कहा गया है कि कुछ-शॉट प्रॉम्प्टिंग लंबे निर्देशों के साथ शून्य-शो प्रॉम्प्टिंग से बेहतर काम करता है [11]। विस्तृत प्रक्रियाओं को चित्र 3 में दिखाया जा सकता है।
हमारे दृष्टिकोण का तीसरा चरण प्रत्येक छवि के लिए सर्वश्रेष्ठ कैप्शन का मूल्यांकन और चयन करना है। हम कैप्शन की गुणवत्ता का आकलन करने के लिए दो मानदंडों का उपयोग करते हैं: (ए) कैप्शन गुणवत्ता, जो मापता है कि कैप्शन ग्राउंड ट्रुथ एनोटेशन से कितनी अच्छी तरह मेल खाता है, और (बी) कैप्शन विविधता, जो मापता है कि कैप्शन अन्य छवियों से उत्पन्न अन्य कैप्शन से कितना अलग है। हम निम्नलिखित प्रक्रिया का उपयोग करते हैं:
• हम अवांछित कीवर्ड वाले कैप्शन को फ़िल्टर कर देते हैं, जैसे कि समूह की आईडी, जैसे "समूह 0" या समूह का क्रम, जैसे "पहला समूह", जिससे भ्रम की स्थिति पैदा हो सकती है।
• हम इनपुट इमेज से मिलान के आधार पर प्रत्येक कैप्शन के लिए स्कोर की गणना करने के लिए पूर्व-प्रशिक्षित CLIP का उपयोग करते हैं। मूल्यांकनकर्ता को बड़े पैमाने पर इमेज-कैप्शन डेटासेट पर प्रशिक्षित किया जाता है जो विभिन्न डोमेन और परिदृश्यों को कवर करता है।
• हम कैप्शन विविधता के आधार पर प्रत्येक कैप्शन के लिए स्कोर की गणना करने के लिए समानता माप का उपयोग करते हैं। समानता माप प्रत्येक कैप्शन की तुलना अन्य छवियों से उत्पन्न कैप्शन से करता है ताकि बहुत अस्पष्ट और व्यापक विवरण से बचा जा सके।
• हम प्रत्येक कैप्शन के लिए अंतिम स्कोर प्राप्त करने के लिए भारित औसत सूत्र का उपयोग करके दोनों स्कोर को जोड़ते हैं।
• हम प्रत्येक छवि के लिए सर्वोत्तम कैप्शन के रूप में उच्चतम अंतिम स्कोर वाले कैप्शन का चयन करते हैं।
यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।