Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur.   Yazarlar:  (1) Gemini Ekibi, Google.  Bağlantı Tablosu   Özet ve Giriş   Model Mimarisi   Eğitim Altyapısı   Eğitim Veri Kümesi   Değerlendirme   Sorumlu Dağıtım   Tartışma ve Sonuç, Kaynaklar   Katkılar ve Teşekkür   Ek  Bu rapor, görüntü, ses, video ve metin anlamada dikkate değer yetenekler sergileyen yeni bir multimodal model ailesi olan Gemini'yi tanıtıyor. Gemini ailesi, karmaşık muhakeme görevlerinden cihaz içi belleğin kısıtlı kullanım durumlarına kadar çeşitli uygulamalara uygun Ultra, Pro ve Nano boyutlarından oluşur. Çok çeşitli kıyaslamalara ilişkin değerlendirmeler, en yetenekli Gemini Ultra modelimizin bu 32 kıyaslamanın 30'unda en son teknolojiyi geliştirdiğini göstermektedir; özellikle iyi çalışılmış sınav ölçütü MMLU'da insan-uzman performansına ulaşan ilk modeldir. ve incelediğimiz 20 multimodal kriterin her birinde en son teknolojiyi geliştirmek. Gemini modellerinin modlar arası akıl yürütme ve dil anlama konusundaki yeni yeteneklerinin çok çeşitli kullanım senaryolarına olanak sağlayacağına inanıyoruz ve bunları kullanıcılara sorumlu bir şekilde dağıtmaya yönelik yaklaşımımızı tartışıyoruz.  1. Giriş  Google'da geliştirilen son derece yetenekli çok modlu modellerden oluşan bir aile olan Gemini'yi sunuyoruz. Gemini'yi, her bir ilgili alanda son teknoloji anlayış ve akıl yürütme performansının yanı sıra, yöntemler arasında güçlü genelleme yeteneklerine sahip bir model oluşturmak amacıyla görüntü, ses, video ve metin verileri konusunda ortaklaşa eğittik.  İlk sürümümüz Gemini 1.0 üç boyutta geliyor: Son derece karmaşık görevler için Ultra, gelişmiş performans ve geniş ölçekte dağıtılabilirlik için Pro ve cihaz içi uygulamalar için Nano. Her boyut, farklı hesaplama sınırlamalarına ve uygulama gereksinimlerine yanıt verecek şekilde özel olarak tasarlanmıştır. Gemini modellerinin performansını, çok çeşitli dil, kodlama, akıl yürütme ve çok modlu görevleri kapsayan kapsamlı bir iç ve dış ölçütler paketine göre değerlendiriyoruz.  Gemini, büyük ölçekli dil modellemede en son teknolojiyi geliştirmektedir (Anil ve diğerleri, 2023; Brown ve diğerleri, 2020; Chowdhery ve diğerleri, 2023; Hoffmann ve diğerleri, 2022; OpenAI, 2023a; Radford ve diğerleri) diğerleri, 2019; Rae ve diğerleri, 2021), görüntü anlama (Alayrac ve diğerleri, 2022; Chen ve diğerleri, 2022; Dosovitskiy ve diğerleri, 2020; OpenAI, 2023b; Reed ve diğerleri, 2022; Yu ve diğerleri) diğerleri, 2022a), ses işleme (Radford ve diğerleri, 2023; Zhang ve diğerleri, 2023) ve video anlama (Alayrac ve diğerleri, 2022; Chen ve diğerleri, 2023). Aynı zamanda dizi modelleri (Sutskever ve diğerleri, 2014), sinir ağlarına dayalı derin öğrenmede uzun bir çalışma geçmişi (LeCun ve diğerleri, 2015) ve makine öğrenimi dağıtılmış sistemler (Barham ve diğerleri, 2022; Bradbury ve diğerleri, 2018; Dean ve diğerleri, 2012) büyük ölçekli eğitime olanak sağlar.  En yetenekli modelimiz Gemini Ultra, raporladığımız 32 kıyaslamadan 30'unda yeni, son teknoloji sonuçlar elde ediyor; bunlar arasında 12 popüler metin ve akıl yürütme testinin 10'u, 9 görüntü anlama testinin 9'u, 6 video anlama testinin 6'sı yer alıyor. ve 5/5 konuşma tanıma ve konuşma çevirisi kriterleri. Gemini Ultra, bir dizi sınav yoluyla önemli bir kıyaslama testi bilgisi ve muhakeme yeteneği olan MMLU'da (Hendrycks ve diğerleri, 2021a) insan-uzman performansını %90'ın üzerinde bir puanla elde eden ilk modeldir. Gemini Ultra, metnin ötesinde, zorlu çok modlu muhakeme görevlerinde dikkate değer ilerlemeler sağlar. Örneğin, üniversite düzeyinde konu bilgisi ve bilinçli muhakeme gerektiren çok disiplinli görevlere ilişkin görsellerle ilgili soruları içeren son MMMU değerlendirmesinde (Yue ve diğerleri, 2023) Gemini Ultra, son teknoloji ürünü yeni bir puan elde ediyor %62,4 ile önceki en iyi modele göre yüzde 5'ten fazla performans gösterdi. Görüntülü soru yanıtlama ve ses anlama kriterleri için tek tip bir performans artışı sağlar.  Niteliksel değerlendirme, modelin ses, görüntü ve metin giriş dizisini yerel olarak anlamasını ve mantık yürütmesini sağlayan etkileyici çapraz mod akıl yürütme yeteneklerini sergiler (bkz. Şekil 5 ve Tablo 13). Örnek olarak Şekil 1'de gösterilen eğitim ortamını düşünün. Bir öğretmen yokuştan aşağı inen bir kayakçının fizik problemini çizmiş ve bir öğrenci de bu problemin çözümü üzerinde çalışmıştır. Gemini'nin çok modlu muhakeme yeteneklerini kullanan model, dağınık el yazısını anlayabilir, problem formülasyonunu doğru bir şekilde anlayabilir, hem problemi hem de çözümü matematiksel dizgiye dönüştürebilir, öğrencinin problemi çözerken yanlış yaptığı akıl yürütme adımını belirleyebilir ve ardından Soruna derinlemesine çalışılmış doğru bir çözüm verin. Bu, heyecan verici eğitim olanaklarının önünü açıyor ve Gemini modellerinin yeni çok modlu ve muhakeme yeteneklerinin birçok alanda çarpıcı uygulamalara sahip olduğuna inanıyoruz.   Büyük dil modellerinin muhakeme yetenekleri, daha karmaşık, çok adımlı problemlerin üstesinden gelebilecek genelci etmenler oluşturmaya yönelik umut vaat ediyor. AlphaCode ekibi, Gemini'nin muhakeme yeteneklerini arama ve araç kullanımıyla birleştirerek rekabetçi programlama problemlerini çözmede üstünlük sağlayan yeni bir Gemini destekli aracı olan AlphaCode 2'yi (Leblond ve diğerleri, 2023) geliştirdi. AlphaCode 2, Codeforces rekabetçi programlama platformuna girenler arasında ilk %15'lik dilimde yer alıyor ve ilk %50'deki son teknoloji ürünü öncülüne göre büyük bir gelişme gösteriyor (Li ve diğerleri, 2022).  Buna paralel olarak, cihaz üzerinde dağıtımı hedefleyen bir dizi küçük model olan Gemini Nano ile verimlilik sınırını ilerletiyoruz. Bu modeller, özetleme, okuduğunu anlama, metin tamamlama görevleri gibi cihaz içi görevlerde öne çıkıyor ve boyutlarına göre akıl yürütme, STEM, kodlama, çok modlu ve çok dilli görevlerde etkileyici yetenekler sergiliyor.  Aşağıdaki bölümlerde öncelikle model mimarisine, eğitim altyapısına ve eğitim veri setine genel bir bakış sunuyoruz. Daha sonra Gemini model ailesinin, hem İngilizce performansını hem de çok dilli yetenekleri içeren metin, kod, görüntü, ses ve video genelinde iyi çalışılmış kriterleri ve insan tercihi değerlendirmelerini kapsayan ayrıntılı değerlendirmelerini sunuyoruz. Ayrıca etki değerlendirme sürecimiz, model politikalar geliştirme, değerlendirmeler ve dağıtım kararlarından önce zararın azaltılması dahil olmak üzere sorumlu dağıtım yaklaşımımızı da tartışıyoruz. Son olarak, Yapay Zekada yeni bir araştırma ve yenilik çağının önünü açacak olan Gemini'nin daha geniş etkilerini, potansiyel uygulamalarının yanı sıra sınırlamalarını da tartışıyoruz.  [2] Gemini Ultra modelinin genel kullanıma sunulmasından önce bu raporu daha fazla ayrıntıyla güncellemeyi planlıyoruz.

EScholar Technologies

EScholar

Bu ses hikayenin orijinal dilinde üretilmiştir!

Gemini - Son Derece Yetenekli Multimodal Modellerden Oluşan Bir Aile: Özet ve Giriş

About Author

YORUMLAR

ETİKETLERİ ASIN

BU YAZI

Related Stories

Floki'den Valhalla Hindistan'ın Sri Lanka Turuna Yardımcı Sponsor Olarak Katıldı

Görünmeyen Katmanlar: Kullanıcı Görüşmeleri Neden Yeri doldurulamaz bir Varlıktır?

Yapay Zekanın Gücünü Ortaya Çıkarıyoruz. En Son Tekniklerin Sistematik Bir İncelemesi: Özet ve Giriş

State of the Noonion: Building, Selling and Storytelling @ HackerNoon

Floki'den Valhalla Hindistan'ın Sri Lanka Turuna Yardımcı Sponsor Olarak Katıldı

Görünmeyen Katmanlar: Kullanıcı Görüşmeleri Neden Yeri doldurulamaz bir Varlıktır?

Yapay Zekanın Gücünü Ortaya Çıkarıyoruz. En Son Tekniklerin Sistematik Bir İncelemesi: Özet ve Giriş

State of the Noonion: Building, Selling and Storytelling @ HackerNoon

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps