লেখক:
(1) Yingxu He, ডিপার্টমেন্ট অফ কম্পিউটার সায়েন্স ন্যাশনাল ইউনিভার্সিটি অফ সিঙ্গাপুর {[email protected]};
(2) Qiqi Sun, College of Life Sciences Nankai University {[email protected]}।
এই বিভাগে, আমরা LLM-কে তাদের অবজেক্টের টীকা বর্ণনা করার জন্য গাইড করে রিমোট সেন্সিং ইমেজগুলির জন্য স্বয়ংক্রিয়ভাবে ক্যাপশন সংগ্রহ করার জন্য আমাদের প্রস্তাবিত পদ্ধতির বর্ণনা করি। এই কাজে, আমরা প্রতিটি ছবিতে বস্তুর সংখ্যা 15-এর বেশি নয়, যা LLM-এর জন্য তুলনামূলকভাবে সহজ স্থানিক বিন্যাস নিশ্চিত করে। আমাদের পদ্ধতির তিনটি প্রধান ধাপ রয়েছে: (1) ভৌগলিক বিশ্লেষণ পরিচালনা করতে এবং বস্তুর মধ্যে স্থানিক সম্পর্ক বর্ণনা করার জন্য API বিকাশ করুন, (2) API-এর সাহায্যে ক্যাপশন তৈরি করতে API-কে অনুরোধ করুন এবং (3) ক্যাপশন মূল্যায়ন এবং নির্বাচন। আমরা নীচে বিস্তারিতভাবে প্রতিটি ধাপ ব্যাখ্যা.
LLM 2-মাত্রিক ভৌগলিক তথ্য প্রক্রিয়াকরণে অক্ষম, তাই আমরা বস্তুর মধ্যে স্থানিক সম্পর্ক বিশ্লেষণ করার জন্য বেশ কয়েকটি বিশ্লেষণাত্মক পদ্ধতি প্রয়োগ করেছি। RSICD কাগজ দ্বারা প্রদত্ত ক্যাপশন দ্বারা অনুপ্রাণিত হয়ে, আমরা শুধুমাত্র বস্তুর মধ্যে দূরত্ব, বস্তুর অবস্থানের ঘনত্ব, বস্তুর গোষ্ঠী দ্বারা গঠিত আকার এবং বস্তুর মধ্যে উল্লেখযোগ্য সম্পর্ক বিশ্লেষণ করার উপর দৃষ্টি নিবদ্ধ করেছি।
Xview এবং Dota ডেটাসেটে, বস্তুর আকার অনেক পরিবর্তিত হয়। অতএব, কেন্দ্রগুলির মধ্যে দূরত্ব ব্যবহার করা বস্তুর মধ্যে দূরত্বের জন্য অনুপযুক্ত। উদাহরণস্বরূপ, যদিও দুটি বড় ভবনের কেন্দ্রগুলি বেশ দূরে হতে পারে, তবে তাদের অভ্যন্তরীণ দেয়ালগুলি কেবল কয়েক ধাপ দূরে হতে পারে। অতএব, আমরা বাউন্ডিং বাক্সগুলির মধ্যে সবচেয়ে কম দূরত্বকে তাদের দূরত্ব হিসাবে বিবেচনা করি। বস্তুর দুটি গ্রুপের মধ্যে দূরত্বের জন্য, আমরা এটিকে তাদের নিকটতম উপাদানের মধ্যে দূরত্ব দিয়ে উপস্থাপন করি, যা সাধারণত ক্লাস্টারিংয়ের ক্ষেত্রে একক সংযোগ পরিমাপ হিসাবে উল্লেখ করা হয়।
মানুষের চোখ দ্বারা ক্যাপচার করা সবচেয়ে গুরুত্বপূর্ণ বৈশিষ্ট্যগুলির মধ্যে একটি হল তাদের অবস্থান এবং প্রকারের উপর ভিত্তি করে বস্তুর ঘনত্ব, যেমন, রাস্তার পাশে দাঁড়িয়ে থাকা বেশ কয়েকটি ভবন থেকে হাইওয়েতে চলমান একটি গাড়িকে সহজেই আলাদা করার প্রবণতা দেখা যায়। অন্যদিকে, লোকেরা বস্তুর নিকটতম প্রতিবেশীর দিকেও মনোযোগ দেয়, যেমন, একটি ট্রাকের পাশের একটি যাত্রীবাহী গাড়ি ট্রাক থেকে অপেক্ষাকৃত বেশি দূরে একটি বিল্ডিংয়ের চেয়ে মানুষের দৃষ্টি আকর্ষণ করা সহজ। প্রথাগত মেশিন লার্নিং ক্লাস্টারিং অ্যালগরিদমগুলির মধ্যে রয়েছে দূরত্ব-ভিত্তিক অ্যালগরিদম যেমন কে-মিনস এবং শ্রেণিবদ্ধ ক্লাস্টারিং, এবং ঘনত্ব-ভিত্তিক ক্লাস্টারিং যেমন DBSCAN এবং এর রূপগুলি। যাইহোক, কে-মিনস অ্যালগরিদম প্রায়ই ঘনীভূত বস্তু থেকে আউটলিয়ারকে আলাদা করতে ব্যর্থ হয়, যখন ঘনত্ব-ভিত্তিক ক্লাস্টারিংয়ের সুবিধাগুলি এই ক্ষেত্রে সমাহিত হতে পারে, যেখানে প্রতিটি ছবিতে শুধুমাত্র দশটিরও কম বস্তু থাকে।
এই কাজে, আমরা ন্যূনতম স্প্যানিং ট্রি (MST) অ্যালগরিদম ব্যবহার করেছি ইমেজের সমস্ত বস্তুকে সংযুক্ত করতে এবং গ্রাফ থেকে উল্লেখযোগ্যভাবে লম্বা প্রান্তগুলি সরিয়ে ক্লাস্টার তৈরি করতে। Kruskal এর MST অ্যালগরিদম [3] বস্তুর নিকটতম প্রতিবেশী বিবেচনা করে এবং একই সাথে নগণ্য সংযোগগুলি এড়িয়ে যায়, প্রতিটি গাছের প্রান্ত মানুষের পর্যবেক্ষণ আচরণের সাথে সংযুক্ত থাকে তা নিশ্চিত করে। আমরা সমগ্র ডেটাসেট থেকে প্রান্ত ওজনের 75 শতাংশে থ্রেশহোল্ড সেট করেছি। এই থ্রেশহোল্ডের উপরের প্রান্তগুলিকে ক্লাস্টার তৈরি করার জন্য গ্রাফ থেকে সরানো হয়েছে, ইন্ট্রা-ক্লাস্টারকে কমিয়েছে এবং আন্ত-ক্লাস্টার দূরত্বকে সর্বাধিক করেছে৷ একই ধরনের বস্তুকে একই ক্লাস্টারে গোষ্ঠীবদ্ধ করতে উৎসাহিত করতে, আমরা বিভিন্ন ধরনের বস্তুর মধ্যে দূরত্বে অতিরিক্ত দৈর্ঘ্য যোগ করি। চিত্র 1 এমএসটি-ভিত্তিক ক্লাস্টারিং অ্যালগরিদমের একটি বিশদ চিত্র দেয়। এই পদ্ধতির ধরন, অবস্থান এবং নৈকট্য দ্বারা বস্তুগুলিকে সুনির্দিষ্টভাবে বিভক্ত করতে পারে, যা পরবর্তী ভৌগোলিক বিশ্লেষণের সুবিধা দেয়।
RSICD ডেটাসেটে দেওয়া ক্যাপশন দ্বারা অনুপ্রাণিত হয়ে, লাইনের আকৃতিটিকে এই কাজে সনাক্ত করা মৌলিক আকৃতি হিসাবে বিবেচনা করা হয়। এটি মানুষের চোখের কাছে সবচেয়ে আকর্ষণীয় বলে মনে হয় এবং অন্যান্য অনেক জটিল আকারের মৌলিক উপাদান। উদাহরণস্বরূপ, বর্গাকার গ্রিড রাস্তার প্যাটার্ন শহরগুলিতে ব্যবহৃত সবচেয়ে জনপ্রিয় রাস্তার প্যাটার্নগুলির মধ্যে একটি, যেখানে বিল্ডিংয়ের লাইনগুলি সবচেয়ে মৌলিক উপাদান। নিঃসন্দেহে, অন্যান্য আকারগুলিও সহজেই মানুষের দৃষ্টি আকর্ষণ করতে পারে, যেমন বৃত্ত এবং বর্গক্ষেত্র। তবুও, এই কাজের সেটিংয়ে, যেখানে প্রতিটি ছবিতে সর্বাধিক 15টি বস্তু রয়েছে, সেগুলি কম স্পষ্ট এবং সনাক্ত করা আরও কঠিন। অতএব, আমরা কেবলমাত্র বাউন্ডিং বাক্সের কোণগুলি দ্বারা গঠিত রেখাগুলি সমান্তরাল কিনা তা পরিদর্শন করে বস্তুর গোষ্ঠীগুলি থেকে লাইনের আকারগুলি সনাক্ত করার জন্য একটি পদ্ধতি প্রয়োগ করেছি।
আমরা RSICD কাগজে তালিকাভুক্ত কিছু সম্পর্ক পর্যালোচনা করি ", এবং "এর দুই পাশে"। আমরা RSICD কাগজ থেকে "সারিবদ্ধ" সম্পর্কটিকে "এক সারিতে" পরিবর্তন করেছি, কারণ বিভাগ 2.1.2 এ বর্ণিত বিভিন্ন সারিতে থাকা বস্তুগুলিকে বিভিন্ন গোষ্ঠীতে ক্লাস্টার করা যেতে পারে, এবং যে কোনো সম্ভাব্য রেখার আকৃতি আকৃতি সনাক্তকরণ দ্বারা সনাক্ত করা হবে। বিভাগ 2.1.3 এ বর্ণিত অ্যালগরিদম। অতিরিক্তভাবে, আমরা "এর দুই পাশে" এর ফ্লিপ সাইড হিসাবে একটি "এর মধ্যে" সম্পর্কের প্রস্তাব দিই যেখানে অন্যদের 360◦ প্রদক্ষিণকারী বস্তু থেকে অন্যের দুই পাশের বস্তুগুলিই আছে। এই কাজে, উপরে বর্ণিত পন্থাগুলি "একা দাঁড়িয়ে", "কাছে" এবং "একটি সারিতে" সম্পর্ককে সম্বোধন করতে পারে। "বেষ্টিত" সম্পর্কটি শুধুমাত্র তখনই বিবেচনা করা হয় যখন নির্দিষ্ট বস্তু বস্তুর অন্য গ্রুপের সীমানার মধ্যে অবস্থিত। বিশদ ফাংশনটি মাঝখানের বাক্সগুলি থেকে বাইরেরগুলির লিঙ্কগুলি অঙ্কন করে এবং তাদের মধ্যে কোণগুলি গণনা করে অর্জন করা হয়। সম্পর্কের বাস্তবায়ন "এর মধ্যে" এবং "দুই পক্ষের মধ্যে" ভবিষ্যতের কাজের জন্য বাকি আছে।
আমাদের পদ্ধতির দ্বিতীয় ধাপ হল অনুরূপ প্যাটার্ন অনুসরণ করে ক্যাপশন তৈরি করতে LLM-কে গাইড করার জন্য প্রম্পট ব্যবহার করা। বিভাগ 2.1-এ বাস্তবায়িত APIগুলির সাথে, LLM-কে প্রম্পট করার জন্য এবং আদর্শ ক্যাপশন তৈরি করতে এটিকে গাইড করার জন্য অনেকগুলি বিকল্প রয়েছে৷ LLM-গুলিকে নিয়ন্ত্রক বা অ্যাকশন প্রেরক হিসাবে বিবেচনা করার সাম্প্রতিক জনপ্রিয় ধারণা অনুসরণ করে[13], একটি পদ্ধতি হল ভাষা মডেলকে তার ক্রিয়াকলাপের পরিকল্পনা করতে এবং সহায়ক ভৌগলিক বিশ্লেষণের ফলাফল পেতে ক্রমানুসারে কার্য সম্পাদন করার অনুমতি দেওয়া হতে পারে। উদাহরণস্বরূপ, সম্প্রতি বিকশিত ReAct[10] পদ্ধতি জটিল কাজগুলি পরিচালনা করার ক্ষমতা বাড়াতে LLM-এর যুক্তি ও নির্বাহের প্রক্রিয়াকে সমন্বয় করে। এটি ভৌগলিক বিশ্লেষণে দুর্দান্ত নমনীয়তা এবং জেনারেট করা ক্যাপশনগুলিতে আরও বৈচিত্র্যের অনুমতি দেয়। তা সত্ত্বেও, এলএলএম চোখ ধাঁধানো ভৌগলিক সম্পর্ক আবিষ্কার করতে অসুবিধার সম্মুখীন হয় এবং কাজ সম্পাদনের প্রক্রিয়া চলাকালীন প্রাপ্ত কম গুরুত্বপূর্ণ তথ্যে সহজেই প্লাবিত হয়।
সমস্যা সমাধানের জন্য, আমরা MST অ্যালগরিদমের সুবিধা গ্রহণ করেছি, যা ক্লাস্টার এবং একক বস্তু উভয়ের জন্য সবচেয়ে গুরুত্বপূর্ণ প্রতিবেশীকে প্রকাশ করে, যেখান থেকে আমরা সহজেই উল্লেখযোগ্য ভৌগলিক সম্পর্ক বের করতে পারি। আরও নির্দিষ্টভাবে, আমরা প্রতিটি চিত্রে প্রতিটি গ্রুপের উপস্থিতি তালিকাবদ্ধ করি তাদের সংমিশ্রণ এবং আকৃতি সনাক্ত করা, একত্রে একক বস্তুর সাথে। বাক্সগুলির মধ্যে উল্লেখযোগ্য জ্যামিতিক সম্পর্কগুলি তারপর এলএলএমকে তাদের স্থানিক সম্পর্কের ধারণা দেওয়ার জন্য সরবরাহ করা হয়। এই ক্ষেত্রে, আমরা শুধুমাত্র ক্লাস্টারিং ধাপের (বিভাগ 2.1.2) সময় সরানো প্রান্তগুলি উপস্থাপন করি যা ক্লাস্টার এবং একক বস্তুকে সংযুক্ত করে। উপস্থাপিত স্থানিক সম্পর্কের একটি চিত্র এবং এলএলএম দ্বারা তৈরি ক্যাপশন চিত্র 2-এ দেওয়া হয়েছে।
যদিও প্রম্পট ইতিমধ্যেই প্রয়োজনীয় ক্লাস্টারিং তথ্য এবং বস্তুর মধ্যে স্থানিক সম্পর্ক সরবরাহ করেছে, LLM শুধুমাত্র ক্লাস্টারিং তথ্য স্থানিক সম্পর্কের মধ্যে আনতে এবং ক্যাপশন তৈরি করার কথা নয়, যা ইতিমধ্যেই একটি টেমপ্লেট-ভিত্তিক বা নিয়ম-ভিত্তিক পদ্ধতি দ্বারা করা যেতে পারে। LLM দ্বারা পরিচালিত সবচেয়ে গুরুত্বপূর্ণ ভূমিকা হল বর্তমান স্থানিক বিন্যাস বোঝা এবং সম্ভাব্য অপ্রয়োজনীয় বা তুচ্ছ সম্পর্ককে উপযুক্ত ক্যাপশনে ব্যাখ্যা করা। উদাহরণস্বরূপ, চিত্র 2 (2) এ, MST-ভিত্তিক অ্যালগরিদম সনাক্ত করে যে একটি বিল্ডিং অন্যদের তুলনায় কিছু বিল্ডিংয়ের কাছাকাছি। যাইহোক, যেহেতু পুরো চিত্রটি বিভিন্ন বিল্ডিং দ্বারা দখল করা হয়েছে, একটি ক্যাপশন পুনরাবৃত্তি করে যে সম্পর্কটি নিম্নধারার গভীর-শিক্ষার মডেল এবং এমনকি মানব পাঠকদের জন্য বিভ্রান্তি এবং অস্পষ্টতা আনতে পারে। এই ক্ষেত্রে, LLM প্রতিটি স্থানিক সম্পর্কের তাৎপর্য মূল্যায়ন এবং প্রয়োজনীয় প্যারাফ্রেজিং সম্পাদনে একটি গুরুত্বপূর্ণ ভূমিকা পালন করে।
এই কাজটিতে, প্রম্পটে প্রয়োজনীয় উদাহরণ প্রদান করে এলএলএম-এর সংক্ষিপ্ত আচরণ নিশ্চিত করা হয়, যাকে প্রায়শই "ফ্যু-শট" প্রম্পটিং কৌশল হিসাবে উল্লেখ করা হয়। আমরা বেশ কয়েকটি উদাহরণ প্রদান করেছি যেখানে LLM এর নিজস্ব শব্দে ক্যাপশন তৈরি করতে স্থানিক সম্পর্কের সাথে ক্লাস্টারিং ফলাফলগুলিকে সমন্বয় করার কথা। অন্যান্য প্রম্পটিং কৌশলগুলি সম্ভাব্যভাবে একই লক্ষ্য অর্জন করতে পারে, যেমন প্রত্যাশিত আচরণের জন্য বর্ণনা যোগ করা বা চেইন অফ থট বা ট্রি অফ থট কৌশল ব্যবহার করে যুক্তি প্রক্রিয়া ভেঙে ফেলা। তা সত্ত্বেও, ইনপুট এবং প্রত্যাশিত আউটপুট বিন্যাস ইতিমধ্যেই জটিল, এই প্রম্পট কৌশলগুলি প্রম্পট লেখার প্রক্রিয়ায় আরও জটিলতা এবং অসুবিধা আনতে পারে। তদুপরি, আমাদের পরীক্ষামূলক ফলাফলগুলি দেখায় যে কয়েকটি-শট প্রম্পটিং উপরে উল্লিখিত কৌশলগুলির তুলনায় আরও স্থিতিশীলভাবে সম্পাদন করে।
অতিরিক্তভাবে, কম্পিউটার-পঠনযোগ্য বিন্যাসে প্রতিক্রিয়াকে কার্যকরভাবে সীমাবদ্ধ করতে, আমরা স্পষ্টভাবে LLM-কে নির্দেশ দিই একটি পাইথন তালিকার বিন্যাসে ক্যাপশনগুলি আউটপুট করার জন্য, যার বিস্তারিত তথ্য ইতিমধ্যেই এলএলএম-এর প্রাক-প্রশিক্ষণ সংস্থায় অন্তর্ভুক্ত করা হয়েছে এবং এর প্যারামেট্রিকে ভালভাবে এম্বেড করা হয়েছে। স্মৃতি, বরং
অন্যান্য কাস্টমাইজড বিন্যাসের চেয়ে অতিরিক্ত ব্যাখ্যা প্রয়োজন। LLM রেসপন্সে অবজেক্ট গ্রুপের কোনো আইডি না থাকা চাই, যেটা আবার প্রম্পটে উদাহরণ প্রদান করে অর্জন করা হয়, যেমনটি পূর্ববর্তী বিভাগে প্রবর্তিত হয়েছে। সাম্প্রতিক অনেক গবেষণায় বলা হয়েছে যে অল্প-শট প্রম্পটিং দীর্ঘায়িত নির্দেশাবলী সহ জিরো-শো প্রম্পটিংয়ের চেয়ে ভাল কাজ করে[11]। বিস্তারিত পদ্ধতি চিত্র 3 এ দেখানো যেতে পারে।
আমাদের পদ্ধতির তৃতীয় ধাপ হল মূল্যায়ন করা এবং প্রতিটি ছবির জন্য সেরা ক্যাপশন নির্বাচন করা। ক্যাপশনের গুণমান মূল্যায়ন করার জন্য আমরা দুটি মানদণ্ড ব্যবহার করি: (a) ক্যাপশনের গুণমান, যা পরিমাপ করে কতটা ভালোভাবে ক্যাপশনটি গ্রাউন্ড ট্রুথ টীকাটির সাথে মেলে এবং (খ) ক্যাপশন বৈচিত্র্য, যা পরিমাপ করে ক্যাপশনটি অন্যান্য ছবি থেকে তৈরি হওয়া ক্যাপশন থেকে কতটা আলাদা। . আমরা নিম্নলিখিত পদ্ধতি ব্যবহার করি:
• আমরা গোষ্ঠীর আইডির মতো অবাঞ্ছিত কীওয়ার্ড, যেমন "গ্রুপ 0" বা "প্রথম গোষ্ঠী" এর মতো গোষ্ঠীর আদেশের মতো ক্যাপশনগুলিকে ফিল্টার করি, যা বিভ্রান্তির কারণ হতে পারে।
• ইনপুট চিত্রের সাথে মিলের ভিত্তিতে প্রতিটি ক্যাপশনের জন্য একটি স্কোর গণনা করতে আমরা প্রাক-প্রশিক্ষিত CLIP ব্যবহার করি। মূল্যায়নকারীকে একটি বড় মাপের ইমেজ-ক্যাপশন ডেটাসেটে প্রশিক্ষিত করা হয় যা বিভিন্ন ডোমেন এবং পরিস্থিতি কভার করে।
• আমরা ক্যাপশন বৈচিত্র্যের উপর ভিত্তি করে প্রতিটি ক্যাপশনের জন্য একটি স্কোর গণনা করতে একটি সাদৃশ্য পরিমাপ ব্যবহার করি। খুব অস্পষ্ট এবং বিস্তৃত বর্ণনা এড়াতে সাদৃশ্য পরিমাপ প্রতিটি ক্যাপশনকে অন্যান্য ছবি থেকে তৈরি করা ক্যাপশনের সাথে তুলনা করে।
• আমরা প্রতিটি ক্যাপশনের জন্য একটি চূড়ান্ত স্কোর পেতে ওজনযুক্ত গড় সূত্র ব্যবহার করে উভয় স্কোরকে একত্রিত করি।
• আমরা প্রতিটি ছবির জন্য সেরা ক্যাপশন হিসেবে সর্বোচ্চ চূড়ান্ত স্কোর সহ ক্যাপশন নির্বাচন করি।
এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।