লেখক:
(1) Yingxu He, ডিপার্টমেন্ট অফ কম্পিউটার সায়েন্স ন্যাশনাল ইউনিভার্সিটি অফ সিঙ্গাপুর {[email protected]};
(2) Qiqi Sun, College of Life Sciences Nankai University {[email protected]}।
[১] আর্মেন আগাজানিয়ান, বার্নি হুয়াং, ক্যান্ডেস রস, ভ্লাদিমির কার্পুখিন, হু জু, নমন গোয়াল, দিমিত্রো ওখোনকো, মন্দার জোশি, গার্গী ঘোষ, মাইক লুইস, এবং লুক জেটলমোয়ার। CM3: ইন্টারনেটের একটি কার্যকারণ মাস্কড মাল্টিমডাল মডেল। CoRR, abs/2201.07520, 2022।
[২] জিয়ান ডিং, নান জু, গুই-সং জিয়া, জিয়াং বাই, ওয়েন ইয়াং, মাইকেল ইয়াং, সার্জ বেলঙ্গি, জিবো লুও, মিহাই দাতকু, মার্সেলো পেলিলো এবং লিয়াংপেই ঝাং। বায়বীয় চিত্রগুলিতে বস্তু সনাক্তকরণ: একটি বড় মাপের মানদণ্ড এবং চ্যালেঞ্জ। প্যাটার্ন অ্যানালাইসিস এবং মেশিন ইন্টেলিজেন্সের উপর IEEE লেনদেন, পৃষ্ঠা 1-1, 2021।
[৩] জন ক্লেইনবার্গ এবং ইভা টারডোস। অ্যালগরিদম ডিজাইন। অ্যাডিসন-ওয়েসলি লংম্যান পাবলিশিং কোং, ইনকর্পোরেটেড, ইউএসএ, 2005। [৪] ড্যারিয়াস ল্যাম, রিচার্ড কুজমা, কেভিন ম্যাকগি, স্যামুয়েল ডুলি, মাইকেল লাইলি, ম্যাথিউ ক্ল্যারিক, ইয়ারোস্লাভ বুলাটভ এবং ব্রেন্ডন ম্যাককর্ড। xview: ওভারহেড ইমেজের প্রেক্ষাপটে অবজেক্ট। CoRR, abs/1802.07856, 2018।
[৫] জুন্নান লি, ডংজু লি, কাইমিং জিওং এবং স্টিভেন সিএইচ হোই। BLIP: একীভূত দৃষ্টি-ভাষা বোঝা এবং প্রজন্মের জন্য বুটস্ট্র্যাপিং ভাষা-চিত্র প্রাক-প্রশিক্ষণ। CoRR, abs/2201.12086, 2022।
[৬] জিয়াওকিয়াং লু, বিনকিয়াং ওয়াং, জিয়াংতাও ঝেং এবং জুয়েলং লি। রিমোট সেন্সিং ইমেজ ক্যাপশন জেনারেশনের জন্য মডেল এবং ডেটা অন্বেষণ করা হচ্ছে। জিওসায়েন্স অ্যান্ড রিমোট সেন্সিং-এর উপর IEEE লেনদেন, 56(4):2183–2195।
[৭] OpenAI. chatgpt উপস্থাপন করা হচ্ছে, নভেম্বর 2022।
[৮] রামকৃষ্ণ বেদান্তম, সি. লরেন্স জিটনিক, এবং দেবী পারিখ। সাইডার: কনসেনসাস-ভিত্তিক চিত্র বর্ণনা মূল্যায়ন, 2015।
[৯] জিয়ানফেং ওয়াং, ঝেংইয়াং ইয়াং, জিয়াওই হু, লিনজি লি, কেভিন লিন, ঝে গান, জিচেং লিউ, সি লিউ এবং লিজুয়ান ওয়াং। গিট: দৃষ্টি ও ভাষার জন্য একটি জেনারেটিভ ইমেজ-টু-টেক্সট ট্রান্সফরমার, 2022।
[১০] শুনিউ ইয়াও, জেফরি ঝাও, দিয়ান ইউ, নান ডু, ইজহাক শাফরান, কার্তিক নরসিমহান, এবং ইউয়ান কাও। প্রতিক্রিয়া: সমন্বিত যুক্তি এবং ভাষার মডেলে অভিনয়, 2023।
[১১] শি ইয়ে এবং গ্রেগ ডুরেট। টেক্সচুয়াল যুক্তি, 2022-এর জন্য কয়েক শট প্রম্পটিং-এ ব্যাখ্যার অবিশ্বস্ততা।
[১২] লিলি ইউ, বোয়েন শি, রমাকান্ত পাসুনুরু, বেঞ্জামিন মুলার, ওলগা গোলভনেভা, তিয়ানলু ওয়াং, অরুণ বাবু, বিন তাং, ব্রায়ান কারের, শেলি শেনিন, ক্যান্ডেস রস, অ্যাডাম পলিয়াক, রাসেল হাউস, ভাসু শর্মা, পুক্সিন জু, হোভানস তামোয়ান। , ওরন আশুয়াল, উরিয়েল সিঙ্গার, শ্যাং-ওয়েন লি, সুসান ঝাং, রিচার্ড জেমস, গার্গী ঘোষ, ইয়ানিভ তাইগম্যান, মরিয়ম ফাজেল-জারান্ডি, আসলি সেলিকাইলমাজ, লুক জেটলমোয়ার, এবং আরমেন আগাজানিয়ান। স্কেলিং অটোরিগ্রেসিভ মাল্টি-মোডাল মডেল: প্রিট্রেনিং এবং ইন্সট্রাকশন টিউনিং, 2023।
[১৩] ওয়েনকি ঝাং, ইয়ংলিয়াং শেন, ওয়েইমিং লু এবং ইউয়েটিং ঝুয়াং। ডেটা-কপিলট: স্বায়ত্তশাসিত কর্মপ্রবাহের সাথে বিলিয়ন বিলিয়ন ডেটা এবং মানুষের ব্রিজিং, 2023।
এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।