এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।
লেখক:
(1) মিথুন দল, গুগল।
এই প্রতিবেদনটি মাল্টিমোডাল মডেলের একটি নতুন পরিবারকে পরিচয় করিয়ে দেয়, জেমিনি, যা চিত্র, অডিও, ভিডিও এবং পাঠ্য বোঝার ক্ষেত্রে অসাধারণ ক্ষমতা প্রদর্শন করে। মিথুন পরিবারে আল্ট্রা, প্রো এবং ন্যানো আকার রয়েছে, যা জটিল যুক্তির কাজ থেকে শুরু করে ডিভাইসের মেমরি-সংক্রান্ত ব্যবহারের ক্ষেত্রে অ্যাপ্লিকেশনের জন্য উপযুক্ত। বেঞ্চমার্কের বিস্তৃত পরিসরের মূল্যায়ন দেখায় যে আমাদের সবচেয়ে-সক্ষম জেমিনি আল্ট্রা মডেলটি এই বেঞ্চমার্কগুলির মধ্যে 30টির মধ্যে 30টিতে শিল্পকে উন্নত করেছে — বিশেষত ভাল-অধ্যয়ন করা পরীক্ষার বেঞ্চমার্ক MMLU-তে মানব-বিশেষজ্ঞ পারফরম্যান্স অর্জনের জন্য প্রথম মডেল, এবং আমরা যে 20টি মাল্টিমডাল বেঞ্চমার্ক পরীক্ষা করেছি তার প্রতিটিতে শিল্পের অবস্থার উন্নতি করা। আমরা বিশ্বাস করি যে ক্রস-মডেল যুক্তি এবং ভাষা বোঝার ক্ষেত্রে জেমিনি মডেলগুলির নতুন ক্ষমতাগুলি বিভিন্ন ধরণের ব্যবহারের ক্ষেত্রে সক্ষম করবে এবং আমরা ব্যবহারকারীদের কাছে সেগুলিকে দায়বদ্ধতার সাথে মোতায়েন করার জন্য আমাদের পদ্ধতি নিয়ে আলোচনা করি।
আমরা Gemini উপস্থাপন করি, Google-এ তৈরি করা অত্যন্ত সক্ষম মাল্টিমোডাল মডেলের একটি পরিবার। আমরা প্রতিটি নিজ নিজ ডোমেনে অত্যাধুনিক বোঝাপড়া এবং যুক্তির পারফরম্যান্সের পাশাপাশি মডেলটি জুড়ে শক্তিশালী জেনারেলিস্ট উভয় ক্ষমতা সহ একটি মডেল তৈরির উদ্দেশ্যে ছবি, অডিও, ভিডিও এবং পাঠ্য ডেটা জুড়ে যৌথভাবে জেমিনিকে প্রশিক্ষণ দিয়েছি।
জেমিনি 1.0, আমাদের প্রথম সংস্করণ, তিনটি আকারে আসে: অত্যন্ত-জটিল কাজের জন্য আল্ট্রা, বর্ধিত কর্মক্ষমতা এবং স্কেলে স্থাপনযোগ্যতার জন্য প্রো এবং ডিভাইসে অ্যাপ্লিকেশনগুলির জন্য ন্যানো৷ প্রতিটি আকার বিশেষভাবে বিভিন্ন গণনীয় সীমাবদ্ধতা এবং আবেদনের প্রয়োজনীয়তা মোকাবেলার জন্য তৈরি করা হয়েছে। আমরা অভ্যন্তরীণ এবং বাহ্যিক বেঞ্চমার্কগুলির একটি বিস্তৃত স্যুটে জেমিনি মডেলগুলির কার্যকারিতা মূল্যায়ন করি যা বিস্তৃত ভাষা, কোডিং, যুক্তি এবং মাল্টিমডাল কাজগুলিকে কভার করে।
জেমিনি বৃহৎ মাপের ভাষার মডেলিং-এ অত্যাধুনিক উন্নতি করেছে (অনিল এট আল।, 2023; ব্রাউন এট আল।, 2020; চৌধুরী এট আল।, 2023; হফম্যান এট আল।, 2022; ওপেনএআই, 2023a; র্যাডফোর্ড এবং al., 2019; Rae et al., 2021), ইমেজ বোঝাপড়া (Alayrac et al., 2022; Chen et al., 2022; Dosovitskiy et al., 2020; OpenAI, 2023b; Reed et al., 2022; Yu et al., 2022a), অডিও প্রসেসিং (Radford et al., 2023; Zhang et al., 2023), এবং ভিডিও বোঝাপড়া (Alayrac et al., 2022; Chen et al., 2023)। এটি সিকোয়েন্স মডেল (Sutskever et al., 2014), নিউরাল নেটওয়ার্ক (LeCun et al., 2015), এবং মেশিন লার্নিং ডিস্ট্রিবিউটেড সিস্টেমের উপর ভিত্তি করে গভীর শিক্ষার একটি দীর্ঘ ইতিহাস (Barham et al., 2022; Bradbury et al., 2018; Dean et al., 2012) যা বড় মাপের প্রশিক্ষণ সক্ষম করে।
আমাদের সবচেয়ে সক্ষম মডেল, জেমিনি আল্ট্রা, 32টি বেঞ্চমার্কের মধ্যে 30টিতে নতুন অত্যাধুনিক ফলাফল অর্জন করে যা আমরা রিপোর্ট করি, যার মধ্যে 12টি জনপ্রিয় টেক্সট এবং রিজনিং বেঞ্চমার্কের মধ্যে 10টি, 9টির মধ্যে 9টি ইমেজ বোঝার বেঞ্চমার্ক, 6টির মধ্যে 6টি ভিডিও বোঝার বেঞ্চমার্ক রয়েছে৷ , এবং 5টির মধ্যে 5টি স্পিচ রিকগনিশন এবং স্পিচ ট্রান্সলেশন বেঞ্চমার্ক। জেমিনি আল্ট্রা হল প্রথম মডেল যা MMLU (Hendrycks et al., 2021a)-এ মানব-বিশেষজ্ঞ পারফরম্যান্স অর্জন করে — 90%-এর উপরে স্কোর সহ পরীক্ষার একটি স্যুটের মাধ্যমে একটি বিশিষ্ট বেঞ্চমার্ক পরীক্ষার জ্ঞান এবং যুক্তি। পাঠ্যের বাইরে, জেমিনি আল্ট্রা চ্যালেঞ্জিং মাল্টিমডাল যুক্তির কাজগুলিতে উল্লেখযোগ্য অগ্রগতি করে। উদাহরণ স্বরূপ, সাম্প্রতিক MMMU বেঞ্চমার্কে (Yue et al., 2023), যেটি কলেজ-স্তরের বিষয় জ্ঞান এবং ইচ্ছাকৃত যুক্তির প্রয়োজনে বহু-শৃঙ্খলামূলক কাজের চিত্র সম্পর্কে প্রশ্ন নিয়ে গঠিত, জেমিনি আল্ট্রা একটি নতুন অত্যাধুনিক স্কোর অর্জন করেছে 62.4%, পূর্ববর্তী সেরা মডেলটিকে 5 শতাংশের বেশি পয়েন্ট দ্বারা ছাড়িয়ে গেছে। এটি ভিডিও প্রশ্নের উত্তর এবং অডিও বোঝার বেঞ্চমার্কের জন্য একটি অভিন্ন কর্মক্ষমতা লিফট প্রদান করে।
গুণগত মূল্যায়ন চিত্তাকর্ষক ক্রসমোডাল যুক্তির ক্ষমতা প্রদর্শন করে, মডেলটিকে অডিও, চিত্র এবং পাঠ্যের একটি ইনপুট ক্রম জুড়ে স্থানীয়ভাবে বুঝতে এবং যুক্তি দিতে সক্ষম করে (চিত্র 5 এবং সারণী 13 দেখুন)। একটি উদাহরণ হিসাবে চিত্র 1 এ চিত্রিত শিক্ষাগত সেটিং বিবেচনা করুন। একজন শিক্ষক ঢালে নেমে যাওয়া একজন স্কিয়ারের পদার্থবিজ্ঞানের সমস্যা আঁকেন, এবং একজন ছাত্র এটির সমাধানের মাধ্যমে কাজ করেছেন। জেমিনীর মাল্টিমোডাল যুক্তির ক্ষমতা ব্যবহার করে, মডেলটি অগোছালো হাতের লেখা বুঝতে, সমস্যা গঠন সঠিকভাবে বুঝতে, সমস্যা এবং সমাধান উভয়কেই গাণিতিক টাইপসেটিং-এ রূপান্তর করতে, যুক্তির নির্দিষ্ট ধাপ চিহ্নিত করতে সক্ষম হয় যেখানে শিক্ষার্থী সমস্যা সমাধানে ভুল করেছিল এবং তারপর সমস্যার সঠিক সমাধানের মাধ্যমে একটি কাজ দিন। এটি উত্তেজনাপূর্ণ শিক্ষাগত সম্ভাবনার দ্বার উন্মোচন করে, এবং আমরা বিশ্বাস করি যে মিথুন মডেলের নতুন মাল্টিমোডাল এবং যুক্তির ক্ষমতার অনেক ক্ষেত্রে নাটকীয় প্রয়োগ রয়েছে।
বৃহৎ ভাষার মডেলগুলির যুক্তির ক্ষমতাগুলি সাধারণবাদী এজেন্ট তৈরির প্রতিশ্রুতি দেখায় যা আরও জটিল বহু-পদক্ষেপের সমস্যাগুলি মোকাবেলা করতে পারে। AlphaCode টিম AlphaCode 2 (Leblond et al, 2023), একটি নতুন জেমিনি-চালিত এজেন্ট তৈরি করেছে, যেটি প্রতিযোগিতামূলক প্রোগ্রামিং সমস্যা সমাধানে উৎকর্ষ সাধনের জন্য অনুসন্ধান এবং টুল-ব্যবহারের সাথে মিথুনের যুক্তির ক্ষমতাকে একত্রিত করে। Codeforces প্রতিযোগিতামূলক প্রোগ্রামিং প্ল্যাটফর্মে প্রথম 15% প্রবেশকারীদের মধ্যে AlphaCode 2 র্যাঙ্ক করে, শীর্ষ 50% (Li et al., 2022) এর অত্যাধুনিক পূর্বসূরীর তুলনায় ব্যাপক উন্নতি করেছে।
একযোগে, আমরা জেমিনি ন্যানো সহ দক্ষতার সীমানাকে এগিয়ে নিয়েছি, ডিভাইসে স্থাপনাকে লক্ষ্য করে ছোট মডেলের একটি সিরিজ। এই মডেলগুলি অন-ডিভাইস কাজগুলিতে পারদর্শী, যেমন সংক্ষিপ্তকরণ, পাঠ বোঝার কাজ, পাঠ্য সমাপ্তির কাজগুলি, এবং তাদের আকারের তুলনায় যুক্তি, STEM, কোডিং, মাল্টিমোডাল এবং বহুভাষিক কাজগুলিতে চিত্তাকর্ষক ক্ষমতা প্রদর্শন করে৷
নিম্নলিখিত বিভাগে, আমরা প্রথমে মডেল আর্কিটেকচার, প্রশিক্ষণ পরিকাঠামো এবং প্রশিক্ষণ ডেটাসেটের একটি ওভারভিউ প্রদান করি। তারপরে আমরা মিথুন মডেল পরিবারের বিশদ মূল্যায়ন উপস্থাপন করি, পাঠ্য, কোড, চিত্র, অডিও এবং ভিডিও জুড়ে ভাল-অধ্যয়ন করা বেঞ্চমার্ক এবং মানব-অভিরুচি মূল্যায়নগুলিকে কভার করে — যার মধ্যে ইংরেজি কর্মক্ষমতা এবং বহুভাষিক ক্ষমতা উভয়ই অন্তর্ভুক্ত। আমরা দায়িত্বশীল স্থাপনার জন্য আমাদের পদ্ধতির বিষয়েও আলোচনা করি, [২] যার মধ্যে প্রভাব মূল্যায়ন, মডেল নীতির বিকাশ, মূল্যায়ন এবং স্থাপনার সিদ্ধান্তের আগে ক্ষতির প্রশমনের প্রক্রিয়া সহ। অবশেষে, আমরা মিথুনের বৃহত্তর প্রভাব, এর সম্ভাব্য অ্যাপ্লিকেশনগুলির পাশাপাশি এর সীমাবদ্ধতাগুলি নিয়ে আলোচনা করি — AI-তে গবেষণা এবং উদ্ভাবনের একটি নতুন যুগের পথ প্রশস্ত করে৷
[২] জেমিনি আল্ট্রা মডেলের সাধারণ উপলব্ধতার আগে আমরা এই প্রতিবেদনটি আরও বিশদ সহ আপডেট করার পরিকল্পনা করছি।