paint-brush
Gemini - Son Derece Yetenekli Multimodal Modellerden Oluşan Bir Aile: Özet ve Girişile@escholar
957 okumalar
957 okumalar

Gemini - Son Derece Yetenekli Multimodal Modellerden Oluşan Bir Aile: Özet ve Giriş

Çok uzun; Okumak

Bu rapor, görüntü, ses, video ve metin anlamada dikkate değer yetenekler sergileyen yeni bir multimodal model ailesi olan Gemini'yi tanıtıyor. Gemini ailesi, karmaşık akıl yürütme görevlerinden cihaz içi belleğin kısıtlı kullanım durumlarına kadar çeşitli uygulamalara uygun Ultra, Pro ve Nano boyutlarından oluşur. Çok çeşitli kıyaslamalara ilişkin değerlendirmeler, en yetenekli Gemini Ultra modelimizin bu 32 kıyaslamanın 30'unda en son teknolojiyi geliştirdiğini gösteriyor; özellikle de üzerinde çok çalışılan sınav ölçütü MMLU'da insan-uzman performansına ulaşan ilk model, ve incelediğimiz 20 multimodal kriterin her birinde en son teknolojiyi geliştirmek. Gemini modellerinin modlar arası akıl yürütme ve dil anlama konusundaki yeni yeteneklerinin çok çeşitli kullanım senaryolarına olanak sağlayacağına inanıyoruz ve bunları kullanıcılara sorumlu bir şekilde dağıtmaya yönelik yaklaşımımızı tartışıyoruz.
featured image - Gemini - Son Derece Yetenekli Multimodal Modellerden Oluşan Bir Aile: Özet ve Giriş
EScholar: Electronic Academic Papers for Scholars HackerNoon profile picture

Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur.

Yazarlar:

(1) Gemini Ekibi, Google.

Bağlantı Tablosu

Özet ve Giriş

Model Mimarisi

Eğitim Altyapısı

Eğitim Veri Kümesi

Değerlendirme

Sorumlu Dağıtım

Tartışma ve Sonuç, Kaynaklar

Katkılar ve Teşekkür

Ek


Bu rapor, görüntü, ses, video ve metin anlamada dikkate değer yetenekler sergileyen yeni bir multimodal model ailesi olan Gemini'yi tanıtıyor. Gemini ailesi, karmaşık muhakeme görevlerinden cihaz içi belleğin kısıtlı kullanım durumlarına kadar çeşitli uygulamalara uygun Ultra, Pro ve Nano boyutlarından oluşur. Çok çeşitli kıyaslamalara ilişkin değerlendirmeler, en yetenekli Gemini Ultra modelimizin bu 32 kıyaslamanın 30'unda en son teknolojiyi geliştirdiğini göstermektedir; özellikle iyi çalışılmış sınav ölçütü MMLU'da insan-uzman performansına ulaşan ilk modeldir. ve incelediğimiz 20 multimodal kriterin her birinde en son teknolojiyi geliştirmek. Gemini modellerinin modlar arası akıl yürütme ve dil anlama konusundaki yeni yeteneklerinin çok çeşitli kullanım senaryolarına olanak sağlayacağına inanıyoruz ve bunları kullanıcılara sorumlu bir şekilde dağıtmaya yönelik yaklaşımımızı tartışıyoruz.

1. Giriş

Google'da geliştirilen son derece yetenekli çok modlu modellerden oluşan bir aile olan Gemini'yi sunuyoruz. Gemini'yi, her bir ilgili alanda son teknoloji anlayış ve akıl yürütme performansının yanı sıra, yöntemler arasında güçlü genelleme yeteneklerine sahip bir model oluşturmak amacıyla görüntü, ses, video ve metin verileri konusunda ortaklaşa eğittik.


İlk sürümümüz Gemini 1.0 üç boyutta geliyor: Son derece karmaşık görevler için Ultra, gelişmiş performans ve geniş ölçekte dağıtılabilirlik için Pro ve cihaz içi uygulamalar için Nano. Her boyut, farklı hesaplama sınırlamalarına ve uygulama gereksinimlerine yanıt verecek şekilde özel olarak tasarlanmıştır. Gemini modellerinin performansını, çok çeşitli dil, kodlama, akıl yürütme ve çok modlu görevleri kapsayan kapsamlı bir iç ve dış ölçütler paketine göre değerlendiriyoruz.


Gemini, büyük ölçekli dil modellemede en son teknolojiyi geliştirmektedir (Anil ve diğerleri, 2023; Brown ve diğerleri, 2020; Chowdhery ve diğerleri, 2023; Hoffmann ve diğerleri, 2022; OpenAI, 2023a; Radford ve diğerleri) diğerleri, 2019; Rae ve diğerleri, 2021), görüntü anlama (Alayrac ve diğerleri, 2022; Chen ve diğerleri, 2022; Dosovitskiy ve diğerleri, 2020; OpenAI, 2023b; Reed ve diğerleri, 2022; Yu ve diğerleri) diğerleri, 2022a), ses işleme (Radford ve diğerleri, 2023; Zhang ve diğerleri, 2023) ve video anlama (Alayrac ve diğerleri, 2022; Chen ve diğerleri, 2023). Aynı zamanda dizi modelleri (Sutskever ve diğerleri, 2014), sinir ağlarına dayalı derin öğrenmede uzun bir çalışma geçmişi (LeCun ve diğerleri, 2015) ve makine öğrenimi dağıtılmış sistemler (Barham ve diğerleri, 2022; Bradbury ve diğerleri, 2018; Dean ve diğerleri, 2012) büyük ölçekli eğitime olanak sağlar.


En yetenekli modelimiz Gemini Ultra, raporladığımız 32 kıyaslamadan 30'unda yeni, son teknoloji sonuçlar elde ediyor; bunlar arasında 12 popüler metin ve akıl yürütme testinin 10'u, 9 görüntü anlama testinin 9'u, 6 video anlama testinin 6'sı yer alıyor. ve 5/5 konuşma tanıma ve konuşma çevirisi kriterleri. Gemini Ultra, bir dizi sınav yoluyla önemli bir kıyaslama testi bilgisi ve muhakeme yeteneği olan MMLU'da (Hendrycks ve diğerleri, 2021a) insan-uzman performansını %90'ın üzerinde bir puanla elde eden ilk modeldir. Gemini Ultra, metnin ötesinde, zorlu çok modlu muhakeme görevlerinde dikkate değer ilerlemeler sağlar. Örneğin, üniversite düzeyinde konu bilgisi ve bilinçli muhakeme gerektiren çok disiplinli görevlere ilişkin görsellerle ilgili soruları içeren son MMMU değerlendirmesinde (Yue ve diğerleri, 2023) Gemini Ultra, son teknoloji ürünü yeni bir puan elde ediyor %62,4 ile önceki en iyi modele göre yüzde 5'ten fazla performans gösterdi. Görüntülü soru yanıtlama ve ses anlama kriterleri için tek tip bir performans artışı sağlar.


Niteliksel değerlendirme, modelin ses, görüntü ve metin giriş dizisini yerel olarak anlamasını ve mantık yürütmesini sağlayan etkileyici çapraz mod akıl yürütme yeteneklerini sergiler (bkz. Şekil 5 ve Tablo 13). Örnek olarak Şekil 1'de gösterilen eğitim ortamını düşünün. Bir öğretmen yokuştan aşağı inen bir kayakçının fizik problemini çizmiş ve bir öğrenci de bu problemin çözümü üzerinde çalışmıştır. Gemini'nin çok modlu muhakeme yeteneklerini kullanan model, dağınık el yazısını anlayabilir, problem formülasyonunu doğru bir şekilde anlayabilir, hem problemi hem de çözümü matematiksel dizgiye dönüştürebilir, öğrencinin problemi çözerken yanlış yaptığı akıl yürütme adımını belirleyebilir ve ardından Soruna derinlemesine çalışılmış doğru bir çözüm verin. Bu, heyecan verici eğitim olanaklarının önünü açıyor ve Gemini modellerinin yeni çok modlu ve muhakeme yeteneklerinin birçok alanda çarpıcı uygulamalara sahip olduğuna inanıyoruz.


Şekil 1 | Bir öğrencinin bir fizik problemine çözümünün doğrulanması. Model, el yazısı içeriğin tamamını doğru bir şekilde tanıyabiliyor ve gerekçeyi doğrulayabiliyor. Görüntüdeki metni anlamanın yanı sıra, sorunun kurulumunu da anlaması ve LATEX oluşturmak için talimatları doğru bir şekilde takip etmesi gerekir.


Büyük dil modellerinin muhakeme yetenekleri, daha karmaşık, çok adımlı problemlerin üstesinden gelebilecek genelci etmenler oluşturmaya yönelik umut vaat ediyor. AlphaCode ekibi, Gemini'nin muhakeme yeteneklerini arama ve araç kullanımıyla birleştirerek rekabetçi programlama problemlerini çözmede üstünlük sağlayan yeni bir Gemini destekli aracı olan AlphaCode 2'yi (Leblond ve diğerleri, 2023) geliştirdi. AlphaCode 2, Codeforces rekabetçi programlama platformuna girenler arasında ilk %15'lik dilimde yer alıyor ve ilk %50'deki son teknoloji ürünü öncülüne göre büyük bir gelişme gösteriyor (Li ve diğerleri, 2022).


Buna paralel olarak, cihaz üzerinde dağıtımı hedefleyen bir dizi küçük model olan Gemini Nano ile verimlilik sınırını ilerletiyoruz. Bu modeller, özetleme, okuduğunu anlama, metin tamamlama görevleri gibi cihaz içi görevlerde öne çıkıyor ve boyutlarına göre akıl yürütme, STEM, kodlama, çok modlu ve çok dilli görevlerde etkileyici yetenekler sergiliyor.


Aşağıdaki bölümlerde öncelikle model mimarisine, eğitim altyapısına ve eğitim veri setine genel bir bakış sunuyoruz. Daha sonra Gemini model ailesinin, hem İngilizce performansını hem de çok dilli yetenekleri içeren metin, kod, görüntü, ses ve video genelinde iyi çalışılmış kriterleri ve insan tercihi değerlendirmelerini kapsayan ayrıntılı değerlendirmelerini sunuyoruz. Ayrıca etki değerlendirme sürecimiz, model politikalar geliştirme, değerlendirmeler ve dağıtım kararlarından önce zararın azaltılması dahil olmak üzere sorumlu dağıtım yaklaşımımızı da tartışıyoruz. Son olarak, Yapay Zekada yeni bir araştırma ve yenilik çağının önünü açacak olan Gemini'nin daha geniş etkilerini, potansiyel uygulamalarının yanı sıra sınırlamalarını da tartışıyoruz.


[2] Gemini Ultra modelinin genel kullanıma sunulmasından önce bu raporu daha fazla ayrıntıyla güncellemeyi planlıyoruz.