197 পড়া

স্বয়ংক্রিয় স্যাটেলাইট ইমেজ ক্যাপশন জেনারেশন ব্যবহার করে এলএলএমের দিকে: বিমূর্ত ও ভূমিকা

দ্বারা The FewShot Prompting Publication 4m2024/06/16

অতিদীর্ঘ; পড়তে

গবেষকরা ARSIC উপস্থাপন করেন, LLMs এবং API ব্যবহার করে রিমোট সেন্সিং ইমেজ ক্যাপশনিং, নির্ভুলতা উন্নত করা এবং মানুষের টীকা প্রয়োজন কমানোর একটি পদ্ধতি।

featured image - স্বয়ংক্রিয় স্যাটেলাইট ইমেজ ক্যাপশন জেনারেশন ব্যবহার করে এলএলএমের দিকে: বিমূর্ত ও ভূমিকা

‘satellite images’ Image created by HackerNoon AI Image Generator

লেখক:

(1) Yingxu He, ডিপার্টমেন্ট অফ কম্পিউটার সায়েন্স ন্যাশনাল ইউনিভার্সিটি অফ সিঙ্গাপুর {[email protected]};

(2) Qiqi Sun, College of Life Sciences Nankai University {[email protected]}।

লিঙ্কের টেবিল

বিমূর্ত

স্বয়ংক্রিয় চিত্র ক্যাপশন প্রাকৃতিক ভাষা ব্যবহার করে চাক্ষুষ তথ্য প্রদানের জন্য একটি প্রতিশ্রুতিশীল কৌশল। এটি স্যাটেলাইট রিমোট সেন্সিং-এ বিভিন্ন কাজকে উপকৃত করতে পারে, যেমন পরিবেশ পর্যবেক্ষণ, সম্পদ ব্যবস্থাপনা, দুর্যোগ ব্যবস্থাপনা ইত্যাদি। যাইহোক, এই ডোমেনের একটি প্রধান চ্যালেঞ্জ হল বড় আকারের ইমেজ-ক্যাপশন ডেটাসেটের অভাব, কারণ তাদের অনেক প্রয়োজন। মানুষের দক্ষতা এবং তৈরি করার প্রচেষ্টা। বৃহৎ ভাষা মডেল (LLMs) এর উপর সাম্প্রতিক গবেষণা প্রাকৃতিক ভাষা বোঝা এবং প্রজন্মের কাজগুলিতে তাদের চিত্তাকর্ষক কর্মক্ষমতা প্রদর্শন করেছে। তা সত্ত্বেও, তাদের বেশিরভাগই ছবিগুলি পরিচালনা করতে পারে না (GPT-3.5, Falcon, Claude, ইত্যাদি), যখন সাধারণ গ্রাউন্ড-ভিউ ইমেজগুলিতে প্রশিক্ষিত প্রচলিত ক্যাপশনিং মডেলগুলি প্রায়শই বায়বীয় চিত্রগুলির জন্য বিশদ এবং সঠিক ক্যাপশন তৈরি করতে ব্যর্থ হয় (BLIP, GIT, CM3, CM3 Leon, ইত্যাদি)। এই সমস্যাটি সমাধান করার জন্য, আমরা একটি অভিনব পদ্ধতির প্রস্তাব করছি: স্বয়ংক্রিয় রিমোট সেন্সিং ইমেজ ক্যাপশনিং (ARSIC) স্বয়ংক্রিয়ভাবে LLM-কে তাদের অবজেক্টের টীকা বর্ণনা করার জন্য গাইড করে রিমোট সেন্সিং ইমেজগুলির জন্য ক্যাপশন সংগ্রহ করতে। আমরা একটি বেঞ্চমার্ক মডেলও উপস্থাপন করি যা রিমোট-সেন্সিং ইমেজগুলির জন্য উচ্চ-মানের ক্যাপশন তৈরি করতে প্রাক-প্রশিক্ষিত জেনারেটিভ ইমেজ2টেক্সট মডেল (GIT) কে অভিযোজিত করে। আমাদের মূল্যায়ন রিমোট সেন্সিং ইমেজের জন্য ক্যাপশন সংগ্রহের জন্য আমাদের পদ্ধতির কার্যকারিতা প্রদর্শন করে।

অনেক পূর্ববর্তী গবেষণায় দেখা গেছে যে LLM যেমন GPT-3.5 এবং GPT-4 শব্দার্থবিদ্যা বোঝার ক্ষেত্রে ভালো কিন্তু সংখ্যাসূচক তথ্য এবং জটিল যুক্তির সাথে লড়াই করে। এই সীমাবদ্ধতা কাটিয়ে ওঠার জন্য, ARSIC বাহ্যিক এপিআই ব্যবহার করে ছবিগুলিতে সহজ ভৌগোলিক বিশ্লেষণ করতে, যেমন বস্তুর সম্পর্ক এবং ক্লাস্টারিং। আমরা বস্তুর উপর ক্লাস্টারিং সঞ্চালন করি এবং সারাংশ তৈরি করতে LLM-এর জন্য গুরুত্বপূর্ণ জ্যামিতিক সম্পর্ক উপস্থাপন করি। এলএলএম-এর চূড়ান্ত আউটপুট হল বেশ কয়েকটি ক্যাপশন যা চিত্রটিকে বর্ণনা করে, যা মূল চিত্রের সাথে ভাষার সাবলীলতা এবং সামঞ্জস্যের উপর ভিত্তি করে আরও র‌্যাঙ্কিং এবং শর্টলিস্ট করা হবে।

আমরা Xview এবং DOTA ডেটাসেট থেকে 7 হাজার এবং 2 হাজার ইমেজ-ক্যাপশন জোড়ার উপর একটি প্রাক-প্রশিক্ষিত জেনারেটিভ ইমেজ2টেক্সট (GIT) মডেল ফাইন-টিউন করি, যাতে বিভিন্ন বস্তুর জন্য বাউন্ডিং বক্সের টীকা সহ স্যাটেলাইট ছবি রয়েছে, যেমন যানবাহন, নির্মাণ, জাহাজ। , ইত্যাদি। আমরা RSICD ডেটাসেটে আমাদের পদ্ধতির মূল্যায়ন করি, স্যাটেলাইট ইমেজের ক্যাপশনের জন্য একটি বেঞ্চমার্ক ডেটাসেট 10,892টি ছবি এবং 31,783টি ক্যাপশন মানব বিশেষজ্ঞদের দ্বারা টীকা করা। আমরা প্রশিক্ষণের ডেটা থেকে অদেখা অবজেক্টের ধরন সহ ক্যাপশনগুলি সরিয়ে ফেলি এবং 5 হাজারেরও বেশি ক্যাপশন সহ 1746টি চিত্র প্রাপ্ত করি, যেখানে আমরা 85.93 এর একটি CIDER-D স্কোর অর্জন করি, স্যাটেলাইট রিমোট সেন্সিং-এ স্বয়ংক্রিয় চিত্র ক্যাপশনিংয়ের জন্য আমাদের পদ্ধতির কার্যকারিতা এবং সম্ভাবনা প্রদর্শন করে। সামগ্রিকভাবে, এই কাজটি তাদের ভূ-স্থানিক ডেটাসেট ব্যাখ্যা করতে এবং শেষ-থেকে-শেষ চিত্র ক্যাপশনিং মডেলের প্রশিক্ষণের জন্য সঠিক চিত্র ক্যাপশন তৈরি করার জন্য একটি সম্ভাব্য উপায় উপস্থাপন করে। আমাদের দৃষ্টিভঙ্গি মানুষের টীকাটির প্রয়োজনীয়তা হ্রাস করে এবং সহজেই ডেটাসেট বা ডোমেনে প্রয়োগ করা যেতে পারে।

1। পরিচিতি

স্যাটেলাইট রিমোট সেন্সিং অনেক ক্ষেত্রে অপরিহার্য, যেমন দুর্যোগ ব্যবস্থাপনা, পরিবেশ পর্যবেক্ষণ, এবং সম্পদ ব্যবস্থাপনা। এটিতে মহাকাশ থেকে ধারণ করা ছবিগুলি বিশ্লেষণ করা, দরকারী স্থানিক তথ্য তৈরি করার জন্য পৃথিবীর পৃষ্ঠের বস্তুগুলি সনাক্তকরণ এবং শ্রেণীবদ্ধ করার উপর ফোকাস করা জড়িত। যেহেতু এই চিত্রগুলিতে প্রচুর পরিমাণে ডেটা থাকতে পারে, তাই স্বয়ংক্রিয় চিত্র ক্যাপশনিং প্রাকৃতিক ভাষা ব্যবহার করে এই চিত্রগুলিতে ভিজ্যুয়াল তথ্য ব্যাখ্যা এবং প্রকাশ করার জন্য একটি কার্যকর পদ্ধতি হিসাবে আবির্ভূত হয়েছে।

এর উল্লেখযোগ্য সম্ভাবনা থাকা সত্ত্বেও, স্যাটেলাইট রিমোটসেন্সিং ইমেজগুলিতে স্বয়ংক্রিয় চিত্র ক্যাপশনিংয়ের একটি বড় চ্যালেঞ্জ হল বড় আকারের চিত্র-ক্যাপশন ডেটাসেটের অভাব। এই ধরনের ডেটাসেট তৈরি করা শ্রম-নিবিড় এবং তাৎপর্যপূর্ণ মানবিক দক্ষতার দাবি রাখে। প্রায়শই, প্রাক-বিদ্যমান মডেল, যেমন GPT3.5[7], Falcon, এবং Claude, তাদের প্রযোজ্যতায় কম পড়ে কারণ তারা সংখ্যাসূচক ডেটা ব্যাখ্যা করতে বা জটিল যুক্তি বহন করতে সজ্জিত নয়। একইভাবে, BLIP[5], GIT[9], CM3[1], এবং CM3Leon[12]-এর মতো মডেলগুলি যেগুলি সাধারণ গ্রাউন্ড-ভিউ ইমেজগুলিতে প্রাক-প্রশিক্ষিত, তারা বায়বীয় চিত্রগুলির জন্য সুনির্দিষ্ট ক্যাপশন তৈরি করতে লড়াই করে। এই সীমাবদ্ধতাগুলি রিমোট সেন্সিং ইমেজের জন্য উচ্চ-মানের স্বয়ংক্রিয় ক্যাপশনিং অর্জন করা চ্যালেঞ্জিং করে তোলে।

এই সমস্যাটির মোকাবিলা করার জন্য, এই গবেষণায়, আমরা একটি অভিনব পদ্ধতির প্রস্তাব করছি: স্বয়ংক্রিয় রিমোট সেন্সিং ইমেজ ক্যাপশনিং (ARSIC), যা দূরবর্তী সেন্সিং চিত্রগুলির জন্য দক্ষতার সাথে উচ্চ-মানের ক্যাপশন তৈরি করতে বৃহৎ ভাষার মডেল এবং উপগ্রহ ডেটা উভয়ই ব্যবহার করে। আমাদের অবদান তিনগুণ। প্রথমত, আমরা ক্লাস্টারগুলি সনাক্ত করতে, বস্তু দ্বারা গঠিত আকারগুলি সনাক্ত করতে এবং চিত্রের একটি উন্নত বোঝার প্রস্তাব দেওয়ার জন্য দূরত্ব গণনা করার জন্য বেশ কয়েকটি ভৌগলিক বিশ্লেষণ API তৈরি করি। দ্বিতীয়ত, আমরা ক্যাপশন সংগ্রহের প্রক্রিয়াটিকে স্বয়ংক্রিয়ভাবে ভৌগলিক API থেকে ক্যাপশনে ফলাফলের সারসংক্ষেপ করার জন্য বৃহৎ ভাষার মডেলকে নির্দেশিত করি। এটি মানুষের টীকাটির প্রয়োজনীয়তাকে উল্লেখযোগ্যভাবে হ্রাস করে। পরিশেষে, আমরা Xview[4] এবং DOTA[2] ডেটাসেট থেকে আমাদের ARSIC পদ্ধতি অনুসরণ করে সংগৃহীত ইমেজ-ক্যাপশন জোড়ার উপর একটি জেনারেটিভ ইমেজ2টেক্সট (GIT) মডেল ফাইনটিউন করে একটি বেঞ্চমার্ক প্রদান করি এবং বায়বীয় চিত্রগুলির জন্য উচ্চ-মানের এবং সঠিক ক্যাপশন তৈরি করার জন্য তৈরি। .

আমাদের পদ্ধতির কার্যকারিতা RSICD[6] পরীক্ষার ডেটাসেটে কঠোর পরীক্ষার মাধ্যমে যাচাই করা হয়, ক্ষেত্রে একটি নতুন বেঞ্চমার্ক CIDER-D[8] স্কোর সেট করে। সংক্ষেপে, আমাদের কাজ রিমোট সেন্সিং ইমেজগুলিকে ব্যাখ্যা করার এবং ক্যাপশন দেওয়ার জন্য একটি উদ্ভাবনী পদ্ধতি উপস্থাপন করে - একটি পদ্ধতি যা শুধুমাত্র শেষ থেকে শেষ চিত্র ক্যাপশনিং মডেলগুলিকে অপ্টিমাইজ করার জন্য প্রতিশ্রুতিশীল নয় কিন্তু ডেটাসেট বা ডোমেনগুলিতে প্রয়োগ করার জন্য যথেষ্ট নমনীয়।

এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।

L O A D I N G
. . . comments & more!

About Author

The FewShot Prompting Publication @fewshot

Spearheading research, publications, and advancements in few-shot learning, and redefining artificial intelligence.

Read my stories

আসে ট্যাগ

machine-learning #large-language-models #llms #image-captioning #remote-sensing #satellite-imagery #data-annotation #geospatial-analysis #arsic

এই নিবন্ধটি উপস্থাপন করা হয়েছে...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas

স্বয়ংক্রিয় স্যাটেলাইট ইমেজ ক্যাপশন জেনারেশন ব্যবহার করে এলএলএমের দিকে: বিমূর্ত ও ভূমিকা

অতিদীর্ঘ; পড়তে

লিঙ্কের টেবিল

বিমূর্ত

1। পরিচিতি

About Author

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে...

সম্পর্কিত গল্প