paint-brush
एलएलएम का उपयोग करके स्वचालित उपग्रह चित्र कैप्शन निर्माण की ओर: कार्यप्रणालीद्वारा@fewshot
186 रीडिंग

एलएलएम का उपयोग करके स्वचालित उपग्रह चित्र कैप्शन निर्माण की ओर: कार्यप्रणाली

द्वारा The FewShot Prompting Publication 8m2024/06/16
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

शोधकर्ताओं ने एआरएसआईसी प्रस्तुत किया है, जो एलएलएम और एपीआई का उपयोग करके रिमोट सेंसिंग इमेज कैप्शनिंग की एक विधि है, जो सटीकता में सुधार करती है और मानव एनोटेशन की आवश्यकता को कम करती है।
featured image - एलएलएम का उपयोग करके स्वचालित उपग्रह चित्र कैप्शन निर्माण की ओर: कार्यप्रणाली
The FewShot Prompting Publication  HackerNoon profile picture
0-item

लेखक:

(1) यिंगक्सू हे, कंप्यूटर विज्ञान विभाग नेशनल यूनिवर्सिटी ऑफ़ सिंगापुर {[email protected]};

(2) क्युकी सन, कॉलेज ऑफ लाइफ साइंसेज नानकाई यूनिवर्सिटी {[email protected]}.

लिंक की तालिका

2. कार्यप्रणाली

इस खंड में, हम LLM को उनके ऑब्जेक्ट एनोटेशन का वर्णन करने के लिए मार्गदर्शन करके रिमोट सेंसिंग छवियों के लिए स्वचालित रूप से कैप्शन एकत्र करने के लिए हमारे प्रस्तावित दृष्टिकोण का वर्णन करते हैं। इस कार्य में, हम प्रत्येक छवि में ऑब्जेक्ट की संख्या को 15 से अधिक नहीं रखते हैं, जो LLM के लिए अपेक्षाकृत सरल स्थानिक लेआउट सुनिश्चित करता है। हमारे दृष्टिकोण में तीन मुख्य चरण शामिल हैं: (1) भौगोलिक विश्लेषण करने और वस्तुओं के बीच स्थानिक संबंधों का वर्णन करने के लिए API विकसित करना, (2) API की मदद से कैप्शन बनाने के लिए API को संकेत देना, और (3) कैप्शन मूल्यांकन और चयन। हम नीचे प्रत्येक चरण को विस्तार से समझाते हैं।

2.1 स्थानिक संबंध एपीआई

एलएलएम 2-आयामी भौगोलिक जानकारी को संसाधित करने में अक्षम है, इसलिए हमने वस्तुओं के बीच स्थानिक संबंधों का विश्लेषण करने के लिए कई विश्लेषणात्मक दृष्टिकोण लागू किए। RSICD पेपर द्वारा दिए गए कैप्शन से प्रेरित होकर, हमने केवल वस्तुओं के बीच की दूरी, वस्तु स्थानों की सांद्रता, वस्तुओं के समूहों द्वारा बनाई गई आकृतियों और वस्तुओं के बीच महत्वपूर्ण संबंधों का विश्लेषण करने पर ध्यान केंद्रित किया।

2.1.1 दूरी

Xview और Dota डेटासेट में, वस्तुओं का आकार बहुत भिन्न होता है। इसलिए, वस्तुओं के बीच की दूरी के लिए केंद्रों के बीच की दूरी का उपयोग करना अनुचित है। उदाहरण के लिए, हालाँकि दो बड़ी इमारतों के केंद्र काफी दूर हो सकते हैं, लेकिन उनकी अंदरूनी दीवारें केवल कुछ कदम दूर हो सकती हैं। इसलिए, हम बाउंडिंग बॉक्स के बीच की सबसे छोटी दूरी को उनकी दूरी मानते हैं। वस्तुओं के दो समूहों के बीच की दूरी के लिए, हम इसे उनके निकटतम तत्व के बीच की दूरी के साथ दर्शाते हैं, जिसे आमतौर पर क्लस्टरिंग के क्षेत्र में सिंगल लिंकेज माप के रूप में संदर्भित किया जाता है।

2.1.2 क्लस्टरिंग

मानव आंखों द्वारा कैप्चर की गई सबसे महत्वपूर्ण विशेषताओं में से एक उनके स्थानों और प्रकारों के आधार पर वस्तुओं की एकाग्रता है, उदाहरण के लिए, कोई व्यक्ति सड़क पर खड़ी कई इमारतों से राजमार्ग पर चल रहे वाहन को आसानी से अलग कर सकता है। दूसरी ओर, लोग वस्तुओं के निकटतम पड़ोसी पर भी ध्यान देते हैं, उदाहरण के लिए, ट्रक के बगल में एक यात्री कार लोगों का ध्यान आकर्षित करने के लिए ट्रक से अपेक्षाकृत दूर एक इमारत की तुलना में आसान है। पारंपरिक मशीन लर्निंग क्लस्टरिंग एल्गोरिदम में K-Means और पदानुक्रमित क्लस्टरिंग जैसे दूरी-आधारित एल्गोरिदम और DBSCAN और इसके वेरिएंट जैसे घनत्व-आधारित क्लस्टरिंग शामिल हैं। हालांकि, K-Means एल्गोरिदम अक्सर केंद्रित वस्तुओं से आउटलेयर को अलग करने में विफल रहता है


इस काम में, हमने छवि में सभी ऑब्जेक्ट्स को कनेक्ट करने और ग्राफ से काफी लंबे किनारों को हटाकर क्लस्टर बनाने के लिए मिनिमम स्पैनिंग ट्री (MST) एल्गोरिदम का इस्तेमाल किया। क्रुस्कल का MST एल्गोरिदम[3] वस्तुओं के निकटतम पड़ोसियों पर विचार करता है और साथ ही नगण्य कनेक्शनों को छोड़ देता है, यह सुनिश्चित करता है कि हर पेड़ का किनारा मनुष्यों के अवलोकन व्यवहार के अनुरूप हो। हमने संपूर्ण डेटासेट से किनारे के वजन के 75 प्रतिशत पर सीमा निर्धारित की है। इस सीमा से ऊपर के किनारों को क्लस्टर बनाने के लिए ग्राफ से हटा दिया गया, जिससे इंट्रा-क्लस्टर कम से कम और इंटर-क्लस्टर दूरी अधिकतम हो गई। एक ही प्रकार की वस्तुओं को एक ही क्लस्टर में समूहीकृत करने के लिए प्रोत्साहित करने के लिए, हम विभिन्न प्रकार की वस्तुओं के बीच की दूरी में अतिरिक्त लंबाई जोड़ते हैं।


चित्र 1: MST-आधारित क्लस्टरिंग एल्गोरिदम का चित्रण। चित्र (1) न्यूनतम स्पैनिंग ट्री का प्रतिनिधित्व करने वाले बनाए गए ग्राफ़ को प्रदर्शित करता है। विभिन्न प्रकार की वस्तुओं के बीच की दूरी में अतिरिक्त लंबाई जोड़ी जाती है। चित्र (2) लंबे किनारों को काटकर बनाए गए क्लस्टर को दर्शाता है। चित्र (3) वस्तुओं के स्थान को वास्तविक छवि पर प्रोजेक्ट करता है।

2.1.3 ज्यामितीय आकार

RSICD डेटासेट में दिए गए कैप्शन से प्रेरित होकर, इस कार्य में रेखा आकार को पता लगाने के लिए मूलभूत आकार माना जाता है। यह मानवीय आँखों को सबसे अधिक आकर्षक लगता है और कई अन्य जटिल आकृतियों का मूल तत्व है। उदाहरण के लिए, स्क्वायर ग्रिड स्ट्रीट पैटर्न शहरों में उपयोग किए जाने वाले सबसे लोकप्रिय स्ट्रीट पैटर्न में से एक है, जहाँ इमारतों की रेखाएँ सबसे मौलिक तत्व हैं। निस्संदेह, अन्य आकृतियाँ भी आसानी से लोगों का ध्यान आकर्षित कर सकती हैं, जैसे कि वृत्त और वर्ग। फिर भी, इस कार्य की सेटिंग में, जहाँ प्रत्येक छवि में अधिकतम 15 ऑब्जेक्ट होते हैं, वे कम स्पष्ट होते हैं और उनका पता लगाना अधिक कठिन होता है। इसलिए, हमने केवल यह जाँच करके वस्तुओं के समूहों से रेखा आकृतियों का पता लगाने के लिए एक विधि लागू की कि क्या बाउंडिंग बॉक्स के कोनों द्वारा बनाई गई रेखाएँ समानांतर हैं।

2.1.4 ज्यामितीय संबंध

हम RSICD पेपर[6] में सूचीबद्ध कुछ संबंधों की समीक्षा करते हैं और छवि कैप्शन में शामिल किए जाने वाले संबंधों की अपनी सूची लेकर आते हैं: "अकेला खड़ा है", "निकट", "एक पंक्ति में", "चारों ओर से घिरा हुआ", "बीच में", और "दो तरफ से"। हमने RSICD पेपर से "पंक्तियों में" संबंध को "एक पंक्ति में" में संशोधित किया, क्योंकि विभिन्न पंक्तियों में वस्तुओं को अलग-अलग समूहों में समूहीकृत किया जा सकता है जैसा कि खंड 2.1.2 में वर्णित है, और किसी भी संभावित रेखा आकार का पता खंड 2.1.3 में वर्णित आकार पहचान एल्गोरिदम द्वारा लगाया जाएगा। इसके अतिरिक्त, हम "दो तरफ से" के फ्लिप पक्ष के रूप में "बीच में" संबंध का प्रस्ताव करते हैं ताकि उस स्थिति को अलग किया जा सके जहां केवल दो तरफ की वस्तुएं हैं और अन्य 360◦ का चक्कर लगा रही वस्तुएं हैं। इस कार्य में, ऊपर वर्णित दृष्टिकोण "अकेला खड़ा है", "निकट" और "एक पंक्ति में" संबंधों को संबोधित कर सकते हैं। "चारों ओर से घिरा हुआ" संबंध केवल तभी माना जाता है जब कुछ वस्तुएं वस्तुओं के दूसरे समूह की सीमा के भीतर स्थित होती हैं। विस्तृत कार्य मध्य में स्थित बक्सों से बाहरी बक्सों तक लिंक खींचकर तथा उनके बीच के कोणों की गणना करके प्राप्त किया जाता है। "बीच में" तथा "दो पक्षों में" संबंधों का क्रियान्वयन भविष्य के कार्य के लिए छोड़ दिया गया है।

2.2 एलएलएम प्रॉम्प्टिंग

हमारे दृष्टिकोण का दूसरा चरण एलएलएम को इसी तरह के पैटर्न का अनुसरण करते हुए कैप्शन बनाने के लिए मार्गदर्शन करने के लिए संकेतों का उपयोग करना है। अनुभाग 2.1 में कार्यान्वित एपीआई के साथ, एलएलएम को संकेत देने और आदर्श कैप्शन उत्पन्न करने के लिए उसे मार्गदर्शन करने के कई विकल्प हैं। एलएलएम को नियंत्रक या एक्शन डिस्पैचर[13] के रूप में मानने के हाल ही में लोकप्रिय विचार के बाद, एक दृष्टिकोण भाषा मॉडल को अपनी क्रियाओं की योजना बनाने और सहायक भौगोलिक विश्लेषण परिणाम प्राप्त करने के लिए अनुक्रम में कार्यों को निष्पादित करने की अनुमति देना हो सकता है। उदाहरण के लिए, हाल ही में विकसित रीएक्ट[10] दृष्टिकोण जटिल कार्यों को संभालने की एलएलएम की क्षमता को बढ़ाने के लिए तर्क और निष्पादन प्रक्रिया को समन्वित करता है। यह भौगोलिक विश्लेषण में काफी लचीलापन और उत्पन्न कैप्शन में अधिक विविधता की अनुमति देता है


समस्या को हल करने के लिए, हमने MST एल्गोरिदम का लाभ उठाया, जो क्लस्टर और स्टैंड-अलोन ऑब्जेक्ट दोनों के लिए सबसे महत्वपूर्ण पड़ोसियों को प्रकट करता है, जहाँ से हम आसानी से महत्वपूर्ण भौगोलिक संबंधों को निकाल सकते हैं। अधिक विशेष रूप से, हम प्रत्येक छवि में प्रत्येक समूह की उपस्थिति को उनके संयोजन और आकृतियों के साथ-साथ स्टैंड-अलोन ऑब्जेक्ट्स के साथ सूचीबद्ध करते हैं। फिर बक्सों के बीच महत्वपूर्ण ज्यामितीय संबंध LLM को उनके स्थानिक संबंधों का बोध कराने के लिए प्रदान किए जाते हैं। इस मामले में, हम केवल क्लस्टरिंग चरण (अनुभाग 2.1.2) के दौरान हटाए गए किनारों को प्रस्तुत करते हैं जो क्लस्टर और स्टैंड-अलोन ऑब्जेक्ट्स को जोड़ता है। LLM द्वारा प्रस्तुत स्थानिक संबंधों और बनाए गए कैप्शन का एक चित्रण चित्र 2 में दिया गया है।

2.2.1 कैप्शन विविधीकरण

हालाँकि प्रॉम्प्ट ने पहले से ही आवश्यक क्लस्टरिंग जानकारी और वस्तुओं के बीच स्थानिक संबंध प्रदान किए हैं, LLM को केवल स्थानिक संबंधों में क्लस्टरिंग जानकारी लाने और कैप्शन बनाने के लिए नहीं माना जाता है, जो पहले से ही एक टेम्पलेट-आधारित या नियम-आधारित विधि द्वारा किया जा सकता है। LLM द्वारा निभाई गई सबसे महत्वपूर्ण भूमिका वर्तमान स्थानिक लेआउट को समझना और संभावित रूप से निरर्थक या महत्वहीन संबंधों को उपयुक्त कैप्शन में बदलना है। उदाहरण के लिए, चित्र 2 (2) में, MST-आधारित एल्गोरिदम यह पता लगाता है कि एक इमारत कुछ इमारतों के मुकाबले अन्य के ज्यादा करीब है। हालाँकि, चूँकि पूरी छवि अलग-अलग इमारतों से भरी हुई है, इसलिए उस संबंध को दोहराने वाला कैप्शन डाउनस्ट्रीम डीप-लर्निंग मॉडल और यहाँ तक कि मानव पाठकों के लिए भ्रम और अस्पष्टता ला सकता है।


इस कार्य में, प्रॉम्प्ट में आवश्यक उदाहरण प्रदान करके LLM के सारांश व्यवहार को सुनिश्चित किया जाता है, जिसे अधिक बार "फ्यू-शॉट" प्रॉम्प्टिंग तकनीक के रूप में संदर्भित किया जाता है। हमने कई उदाहरण दिए हैं जहाँ LLM को अपने शब्दों में कैप्शन बनाने के लिए स्थानिक संबंधों के साथ क्लस्टरिंग परिणामों को समन्वित करना चाहिए। अन्य प्रॉम्प्टिंग तकनीकें संभावित रूप से समान लक्ष्य प्राप्त कर सकती हैं, जैसे कि अपेक्षित व्यवहारों के लिए विवरण जोड़ना या चेन ऑफ़ थॉट या ट्री ऑफ़ थॉट तकनीकों का उपयोग करके तर्क प्रक्रिया को तोड़ना। फिर भी, यह देखते हुए कि इनपुट और अपेक्षित आउटपुट प्रारूप पहले से ही जटिल हैं, ये प्रॉम्प्टिंग रणनीतियाँ प्रॉम्प्ट लेखन प्रक्रिया में बहुत अधिक जटिलता और कठिनाई ला सकती हैं। इसके अलावा, हमारे प्रयोगात्मक परिणाम दिखाते हैं कि फ़्यू-शॉट प्रॉम्प्टिंग उपर्युक्त किसी भी तकनीक की तुलना में अधिक स्थिर रूप से प्रदर्शन करती है।

2.2.2 प्रतिक्रिया स्वरूपण

इसके अतिरिक्त, प्रतिक्रिया को कंप्यूटर-पठनीय प्रारूप में प्रभावी रूप से प्रतिबंधित करने के लिए, हम स्पष्ट रूप से एलएलएम को पायथन सूची के प्रारूप में कैप्शन को आउटपुट करने का निर्देश देते हैं, जिसकी विस्तृत जानकारी पहले से ही एलएलएम के प्री-ट्रेनिंग कॉर्पस में शामिल की गई है और इसकी पैरामीट्रिक मेमोरी में अच्छी तरह से एम्बेड की गई है।


चित्र 2: LLM द्वारा उत्पन्न भौगोलिक विश्लेषण जानकारी और कैप्शन के उदाहरण। प्रत्येक उदाहरण के लिए, ऑब्जेक्ट जानकारी और भौगोलिक पैटर्न हमारे कार्यान्वित API द्वारा प्रदान किए जाते हैं और LLM को इनपुट के रूप में दिए जाते हैं।


अन्य अनुकूलित प्रारूप की तुलना में जिसके लिए अतिरिक्त स्पष्टीकरण की आवश्यकता होती है। यह वांछित है कि एलएलएम प्रतिक्रिया में ऑब्जेक्ट समूहों की कोई आईडी न हो, जिसे प्रॉम्प्ट में उदाहरण प्रदान करके फिर से प्राप्त किया जाता है, जैसा कि पिछले अनुभाग में पेश किया गया है। कई हालिया शोध कार्यों में यह कहा गया है कि कुछ-शॉट प्रॉम्प्टिंग लंबे निर्देशों के साथ शून्य-शो प्रॉम्प्टिंग से बेहतर काम करता है [11]। विस्तृत प्रक्रियाओं को चित्र 3 में दिखाया जा सकता है।

2.3 कैप्शन मूल्यांकन और चयन

हमारे दृष्टिकोण का तीसरा चरण प्रत्येक छवि के लिए सर्वश्रेष्ठ कैप्शन का मूल्यांकन और चयन करना है। हम कैप्शन की गुणवत्ता का आकलन करने के लिए दो मानदंडों का उपयोग करते हैं: (ए) कैप्शन गुणवत्ता, जो मापता है कि कैप्शन ग्राउंड ट्रुथ एनोटेशन से कितनी अच्छी तरह मेल खाता है, और (बी) कैप्शन विविधता, जो मापता है कि कैप्शन अन्य छवियों से उत्पन्न अन्य कैप्शन से कितना अलग है। हम निम्नलिखित प्रक्रिया का उपयोग करते हैं:


• हम अवांछित कीवर्ड वाले कैप्शन को फ़िल्टर कर देते हैं, जैसे कि समूह की आईडी, जैसे "समूह 0" या समूह का क्रम, जैसे "पहला समूह", जिससे भ्रम की स्थिति पैदा हो सकती है।


• हम इनपुट इमेज से मिलान के आधार पर प्रत्येक कैप्शन के लिए स्कोर की गणना करने के लिए पूर्व-प्रशिक्षित CLIP का उपयोग करते हैं। मूल्यांकनकर्ता को बड़े पैमाने पर इमेज-कैप्शन डेटासेट पर प्रशिक्षित किया जाता है जो विभिन्न डोमेन और परिदृश्यों को कवर करता है।


• हम कैप्शन विविधता के आधार पर प्रत्येक कैप्शन के लिए स्कोर की गणना करने के लिए समानता माप का उपयोग करते हैं। समानता माप प्रत्येक कैप्शन की तुलना अन्य छवियों से उत्पन्न कैप्शन से करता है ताकि बहुत अस्पष्ट और व्यापक विवरण से बचा जा सके।


• हम प्रत्येक कैप्शन के लिए अंतिम स्कोर प्राप्त करने के लिए भारित औसत सूत्र का उपयोग करके दोनों स्कोर को जोड़ते हैं।


• हम प्रत्येक छवि के लिए सर्वोत्तम कैप्शन के रूप में उच्चतम अंतिम स्कोर वाले कैप्शन का चयन करते हैं।


चित्र 3: हमारे प्रॉम्प्ट की संरचना और LLM से आउटपुट का चित्रण। प्रॉम्प्ट में LLM के और उदाहरण दिए गए हैं, जबकि यहाँ केवल एक को प्रदर्शन के लिए शामिल किया गया है।



यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।