paint-brush
স্বয়ংক্রিয় স্যাটেলাইট ইমেজ ক্যাপশন জেনারেশন ব্যবহার করে এলএলএমের দিকে: বিমূর্ত ও ভূমিকাদ্বারা@fewshot
171 পড়া

স্বয়ংক্রিয় স্যাটেলাইট ইমেজ ক্যাপশন জেনারেশন ব্যবহার করে এলএলএমের দিকে: বিমূর্ত ও ভূমিকা

দ্বারা The FewShot Prompting Publication 4m2024/06/16
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

গবেষকরা ARSIC উপস্থাপন করেন, LLMs এবং API ব্যবহার করে রিমোট সেন্সিং ইমেজ ক্যাপশনিং, নির্ভুলতা উন্নত করা এবং মানুষের টীকা প্রয়োজন কমানোর একটি পদ্ধতি।
featured image - স্বয়ংক্রিয় স্যাটেলাইট ইমেজ ক্যাপশন জেনারেশন ব্যবহার করে এলএলএমের দিকে: বিমূর্ত ও ভূমিকা
The FewShot Prompting Publication  HackerNoon profile picture
0-item

লেখক:

(1) Yingxu He, ডিপার্টমেন্ট অফ কম্পিউটার সায়েন্স ন্যাশনাল ইউনিভার্সিটি অফ সিঙ্গাপুর {[email protected]};

(2) Qiqi Sun, College of Life Sciences Nankai University {[email protected]}।

লিঙ্কের টেবিল

বিমূর্ত

স্বয়ংক্রিয় চিত্র ক্যাপশন প্রাকৃতিক ভাষা ব্যবহার করে চাক্ষুষ তথ্য প্রদানের জন্য একটি প্রতিশ্রুতিশীল কৌশল। এটি স্যাটেলাইট রিমোট সেন্সিং-এ বিভিন্ন কাজকে উপকৃত করতে পারে, যেমন পরিবেশ পর্যবেক্ষণ, সম্পদ ব্যবস্থাপনা, দুর্যোগ ব্যবস্থাপনা ইত্যাদি। যাইহোক, এই ডোমেনের একটি প্রধান চ্যালেঞ্জ হল বড় আকারের ইমেজ-ক্যাপশন ডেটাসেটের অভাব, কারণ তাদের অনেক প্রয়োজন। মানুষের দক্ষতা এবং তৈরি করার প্রচেষ্টা। বৃহৎ ভাষা মডেল (LLMs) এর উপর সাম্প্রতিক গবেষণা প্রাকৃতিক ভাষা বোঝা এবং প্রজন্মের কাজগুলিতে তাদের চিত্তাকর্ষক কর্মক্ষমতা প্রদর্শন করেছে। তা সত্ত্বেও, তাদের বেশিরভাগই ছবিগুলি পরিচালনা করতে পারে না (GPT-3.5, Falcon, Claude, ইত্যাদি), যখন সাধারণ গ্রাউন্ড-ভিউ ইমেজগুলিতে প্রশিক্ষিত প্রচলিত ক্যাপশনিং মডেলগুলি প্রায়শই বায়বীয় চিত্রগুলির জন্য বিশদ এবং সঠিক ক্যাপশন তৈরি করতে ব্যর্থ হয় (BLIP, GIT, CM3, CM3 Leon, ইত্যাদি)। এই সমস্যাটি সমাধান করার জন্য, আমরা একটি অভিনব পদ্ধতির প্রস্তাব করছি: স্বয়ংক্রিয় রিমোট সেন্সিং ইমেজ ক্যাপশনিং (ARSIC) স্বয়ংক্রিয়ভাবে LLM-কে তাদের অবজেক্টের টীকা বর্ণনা করার জন্য গাইড করে রিমোট সেন্সিং ইমেজগুলির জন্য ক্যাপশন সংগ্রহ করতে। আমরা একটি বেঞ্চমার্ক মডেলও উপস্থাপন করি যা রিমোট-সেন্সিং ইমেজগুলির জন্য উচ্চ-মানের ক্যাপশন তৈরি করতে প্রাক-প্রশিক্ষিত জেনারেটিভ ইমেজ2টেক্সট মডেল (GIT) কে অভিযোজিত করে। আমাদের মূল্যায়ন রিমোট সেন্সিং ইমেজের জন্য ক্যাপশন সংগ্রহের জন্য আমাদের পদ্ধতির কার্যকারিতা প্রদর্শন করে।


অনেক পূর্ববর্তী গবেষণায় দেখা গেছে যে LLM যেমন GPT-3.5 এবং GPT-4 শব্দার্থবিদ্যা বোঝার ক্ষেত্রে ভালো কিন্তু সংখ্যাসূচক তথ্য এবং জটিল যুক্তির সাথে লড়াই করে। এই সীমাবদ্ধতা কাটিয়ে ওঠার জন্য, ARSIC বাহ্যিক এপিআই ব্যবহার করে ছবিগুলিতে সহজ ভৌগোলিক বিশ্লেষণ করতে, যেমন বস্তুর সম্পর্ক এবং ক্লাস্টারিং। আমরা বস্তুর উপর ক্লাস্টারিং সঞ্চালন করি এবং সারাংশ তৈরি করতে LLM-এর জন্য গুরুত্বপূর্ণ জ্যামিতিক সম্পর্ক উপস্থাপন করি। এলএলএম-এর চূড়ান্ত আউটপুট হল বেশ কয়েকটি ক্যাপশন যা চিত্রটিকে বর্ণনা করে, যা মূল চিত্রের সাথে ভাষার সাবলীলতা এবং সামঞ্জস্যের উপর ভিত্তি করে আরও র‌্যাঙ্কিং এবং শর্টলিস্ট করা হবে।


আমরা Xview এবং DOTA ডেটাসেট থেকে 7 হাজার এবং 2 হাজার ইমেজ-ক্যাপশন জোড়ার উপর একটি প্রাক-প্রশিক্ষিত জেনারেটিভ ইমেজ2টেক্সট (GIT) মডেল ফাইন-টিউন করি, যাতে বিভিন্ন বস্তুর জন্য বাউন্ডিং বক্সের টীকা সহ স্যাটেলাইট ছবি রয়েছে, যেমন যানবাহন, নির্মাণ, জাহাজ। , ইত্যাদি। আমরা RSICD ডেটাসেটে আমাদের পদ্ধতির মূল্যায়ন করি, স্যাটেলাইট ইমেজের ক্যাপশনের জন্য একটি বেঞ্চমার্ক ডেটাসেট 10,892টি ছবি এবং 31,783টি ক্যাপশন মানব বিশেষজ্ঞদের দ্বারা টীকা করা। আমরা প্রশিক্ষণের ডেটা থেকে অদেখা অবজেক্টের ধরন সহ ক্যাপশনগুলি সরিয়ে ফেলি এবং 5 হাজারেরও বেশি ক্যাপশন সহ 1746টি চিত্র প্রাপ্ত করি, যেখানে আমরা 85.93 এর একটি CIDER-D স্কোর অর্জন করি, স্যাটেলাইট রিমোট সেন্সিং-এ স্বয়ংক্রিয় চিত্র ক্যাপশনিংয়ের জন্য আমাদের পদ্ধতির কার্যকারিতা এবং সম্ভাবনা প্রদর্শন করে। সামগ্রিকভাবে, এই কাজটি তাদের ভূ-স্থানিক ডেটাসেট ব্যাখ্যা করতে এবং শেষ-থেকে-শেষ চিত্র ক্যাপশনিং মডেলের প্রশিক্ষণের জন্য সঠিক চিত্র ক্যাপশন তৈরি করার জন্য একটি সম্ভাব্য উপায় উপস্থাপন করে। আমাদের দৃষ্টিভঙ্গি মানুষের টীকাটির প্রয়োজনীয়তা হ্রাস করে এবং সহজেই ডেটাসেট বা ডোমেনে প্রয়োগ করা যেতে পারে।

1। পরিচিতি

স্যাটেলাইট রিমোট সেন্সিং অনেক ক্ষেত্রে অপরিহার্য, যেমন দুর্যোগ ব্যবস্থাপনা, পরিবেশ পর্যবেক্ষণ, এবং সম্পদ ব্যবস্থাপনা। এটিতে মহাকাশ থেকে ধারণ করা ছবিগুলি বিশ্লেষণ করা, দরকারী স্থানিক তথ্য তৈরি করার জন্য পৃথিবীর পৃষ্ঠের বস্তুগুলি সনাক্তকরণ এবং শ্রেণীবদ্ধ করার উপর ফোকাস করা জড়িত। যেহেতু এই চিত্রগুলিতে প্রচুর পরিমাণে ডেটা থাকতে পারে, তাই স্বয়ংক্রিয় চিত্র ক্যাপশনিং প্রাকৃতিক ভাষা ব্যবহার করে এই চিত্রগুলিতে ভিজ্যুয়াল তথ্য ব্যাখ্যা এবং প্রকাশ করার জন্য একটি কার্যকর পদ্ধতি হিসাবে আবির্ভূত হয়েছে।


এর উল্লেখযোগ্য সম্ভাবনা থাকা সত্ত্বেও, স্যাটেলাইট রিমোটসেন্সিং ইমেজগুলিতে স্বয়ংক্রিয় চিত্র ক্যাপশনিংয়ের একটি বড় চ্যালেঞ্জ হল বড় আকারের চিত্র-ক্যাপশন ডেটাসেটের অভাব। এই ধরনের ডেটাসেট তৈরি করা শ্রম-নিবিড় এবং তাৎপর্যপূর্ণ মানবিক দক্ষতার দাবি রাখে। প্রায়শই, প্রাক-বিদ্যমান মডেল, যেমন GPT3.5[7], Falcon, এবং Claude, তাদের প্রযোজ্যতায় কম পড়ে কারণ তারা সংখ্যাসূচক ডেটা ব্যাখ্যা করতে বা জটিল যুক্তি বহন করতে সজ্জিত নয়। একইভাবে, BLIP[5], GIT[9], CM3[1], এবং CM3Leon[12]-এর মতো মডেলগুলি যেগুলি সাধারণ গ্রাউন্ড-ভিউ ইমেজগুলিতে প্রাক-প্রশিক্ষিত, তারা বায়বীয় চিত্রগুলির জন্য সুনির্দিষ্ট ক্যাপশন তৈরি করতে লড়াই করে। এই সীমাবদ্ধতাগুলি রিমোট সেন্সিং ইমেজের জন্য উচ্চ-মানের স্বয়ংক্রিয় ক্যাপশনিং অর্জন করা চ্যালেঞ্জিং করে তোলে।


এই সমস্যাটির মোকাবিলা করার জন্য, এই গবেষণায়, আমরা একটি অভিনব পদ্ধতির প্রস্তাব করছি: স্বয়ংক্রিয় রিমোট সেন্সিং ইমেজ ক্যাপশনিং (ARSIC), যা দূরবর্তী সেন্সিং চিত্রগুলির জন্য দক্ষতার সাথে উচ্চ-মানের ক্যাপশন তৈরি করতে বৃহৎ ভাষার মডেল এবং উপগ্রহ ডেটা উভয়ই ব্যবহার করে। আমাদের অবদান তিনগুণ। প্রথমত, আমরা ক্লাস্টারগুলি সনাক্ত করতে, বস্তু দ্বারা গঠিত আকারগুলি সনাক্ত করতে এবং চিত্রের একটি উন্নত বোঝার প্রস্তাব দেওয়ার জন্য দূরত্ব গণনা করার জন্য বেশ কয়েকটি ভৌগলিক বিশ্লেষণ API তৈরি করি। দ্বিতীয়ত, আমরা ক্যাপশন সংগ্রহের প্রক্রিয়াটিকে স্বয়ংক্রিয়ভাবে ভৌগলিক API থেকে ক্যাপশনে ফলাফলের সারসংক্ষেপ করার জন্য বৃহৎ ভাষার মডেলকে নির্দেশিত করি। এটি মানুষের টীকাটির প্রয়োজনীয়তাকে উল্লেখযোগ্যভাবে হ্রাস করে। পরিশেষে, আমরা Xview[4] এবং DOTA[2] ডেটাসেট থেকে আমাদের ARSIC পদ্ধতি অনুসরণ করে সংগৃহীত ইমেজ-ক্যাপশন জোড়ার উপর একটি জেনারেটিভ ইমেজ2টেক্সট (GIT) মডেল ফাইনটিউন করে একটি বেঞ্চমার্ক প্রদান করি এবং বায়বীয় চিত্রগুলির জন্য উচ্চ-মানের এবং সঠিক ক্যাপশন তৈরি করার জন্য তৈরি। .


আমাদের পদ্ধতির কার্যকারিতা RSICD[6] পরীক্ষার ডেটাসেটে কঠোর পরীক্ষার মাধ্যমে যাচাই করা হয়, ক্ষেত্রে একটি নতুন বেঞ্চমার্ক CIDER-D[8] স্কোর সেট করে। সংক্ষেপে, আমাদের কাজ রিমোট সেন্সিং ইমেজগুলিকে ব্যাখ্যা করার এবং ক্যাপশন দেওয়ার জন্য একটি উদ্ভাবনী পদ্ধতি উপস্থাপন করে - একটি পদ্ধতি যা শুধুমাত্র শেষ থেকে শেষ চিত্র ক্যাপশনিং মডেলগুলিকে অপ্টিমাইজ করার জন্য প্রতিশ্রুতিশীল নয় কিন্তু ডেটাসেট বা ডোমেনগুলিতে প্রয়োগ করার জন্য যথেষ্ট নমনীয়।


এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ