Dieses Dokument ist auf arxiv unter der CC 4.0-Lizenz verfügbar.
Autoren:
(1) Gemini-Team, Google.
Zusammenfassung und Einführung
Diskussion und Schlussfolgerung, Referenzen
In diesem Bericht wird eine neue Familie multimodaler Modelle vorgestellt, Gemini, die bemerkenswerte Fähigkeiten im Bild-, Audio-, Video- und Textverständnis aufweisen. Die Gemini-Familie besteht aus den Größen Ultra, Pro und Nano und eignet sich für Anwendungen, die von komplexen Argumentationsaufgaben bis hin zu Anwendungsfällen mit begrenztem Speicher auf dem Gerät reichen. Die Auswertung einer breiten Palette von Benchmarks zeigt, dass unser leistungsfähigstes Gemini Ultra-Modell in 30 von 32 dieser Benchmarks den neuesten Stand der Technik übertrifft – insbesondere ist es das erste Modell, das beim gut untersuchten Prüfungsbenchmark MMLU die Leistung eines menschlichen Experten erreicht hat. und Verbesserung des Stands der Technik in jedem der 20 von uns untersuchten multimodalen Benchmarks. Wir glauben, dass die neuen Fähigkeiten der Gemini-Modelle im modalübergreifenden Denken und Sprachverständnis eine Vielzahl von Anwendungsfällen ermöglichen werden, und wir diskutieren unseren Ansatz für den verantwortungsvollen Einsatz dieser Modelle für Benutzer.
Wir präsentieren Gemini, eine Familie hochleistungsfähiger multimodaler Modelle, die bei Google entwickelt wurden. Wir haben Gemini gemeinsam mit Bild-, Audio-, Video- und Textdaten trainiert, um ein Modell zu erstellen, das sowohl starke generalistische Fähigkeiten über alle Modalitäten hinweg als auch modernste Verständnis- und Argumentationsleistung in den jeweiligen Bereichen bietet.
Gemini 1.0, unsere erste Version, ist in drei Größen erhältlich: Ultra für hochkomplexe Aufgaben, Pro für verbesserte Leistung und Bereitstellung im großen Maßstab und Nano für Anwendungen auf dem Gerät. Jede Größe ist speziell auf unterschiedliche Rechenbeschränkungen und Anwendungsanforderungen zugeschnitten. Wir bewerten die Leistung von Gemini-Modellen anhand einer umfassenden Reihe interner und externer Benchmarks, die ein breites Spektrum an Sprach-, Codierungs-, Argumentations- und multimodalen Aufgaben abdecken.
Gemini bringt den neuesten Stand der Sprachmodellierung im großen Maßstab voran (Anil et al., 2023; Brown et al., 2020; Chowdhery et al., 2023; Hoffmann et al., 2022; OpenAI, 2023a; Radford et al., 2019; Rae et al., 2021), Bildverständnis (Alayrac et al., 2022; Chen et al., 2022; Dosovitskiy et al., 2020; OpenAI, 2023b; Reed et al., 2022; Yu et al., 2022a), Audioverarbeitung (Radford et al., 2023; Zhang et al., 2023) und Videoverständnis (Alayrac et al., 2022; Chen et al., 2023). Es baut auch auf der Arbeit an Sequenzmodellen (Sutskever et al., 2014), einer langen Geschichte der Arbeit im Deep Learning auf der Grundlage neuronaler Netze (LeCun et al., 2015) und verteilten Systemen des maschinellen Lernens (Barham et al., 2022; Bradbury et al., 2018; Dean et al., 2012), die groß angelegte Schulungen ermöglichen.
Unser leistungsstärkstes Modell, Gemini Ultra, erzielt in 30 von 32 Benchmarks, über die wir berichten, neue Ergebnisse auf dem neuesten Stand der Technik, darunter 10 von 12 beliebten Benchmarks für Text und Argumentation, 9 von 9 Benchmarks für Bildverständnis und 6 von 6 Benchmarks für Videoverständnis und 5 von 5 Spracherkennungs- und Sprachübersetzungs-Benchmarks. Gemini Ultra ist das erste Modell, das bei MMLU (Hendrycks et al., 2021a) – einem herausragenden Benchmark-Test für Wissen und Argumentation durch eine Reihe von Prüfungen – eine menschliche Expertenleistung mit einer Punktzahl von über 90 % erreicht. Über den Text hinaus macht Gemini Ultra bemerkenswerte Fortschritte bei anspruchsvollen multimodalen Denkaufgaben. Beispielsweise erreicht Gemini Ultra beim aktuellen MMMU-Benchmark (Yue et al., 2023), der Fragen zu Bildern zu multidisziplinären Aufgaben umfasst, die Fachwissen auf Hochschulniveau und bewusstes Denken erfordern, eine neue, hochmoderne Punktzahl von 62,4 % und übertraf damit das bisher beste Modell um mehr als 5 Prozentpunkte. Es bietet eine einheitliche Leistungssteigerung für die Beantwortung von Videofragen und Benchmarks für das Audioverständnis.
Die qualitative Auswertung zeigt beeindruckende Fähigkeiten zur modalübergreifenden Argumentation, die es dem Modell ermöglichen, eine Eingabesequenz aus Audio, Bildern und Text nativ zu verstehen und zu argumentieren (siehe Abbildung 5 und Tabelle 13). Betrachten Sie als Beispiel das in Abbildung 1 dargestellte Bildungsumfeld. Ein Lehrer hat ein physikalisches Problem gezeichnet, bei dem ein Skifahrer einen Hang hinunterfährt, und ein Schüler hat eine Lösung dafür erarbeitet. Mithilfe der multimodalen Denkfähigkeiten von Gemini ist das Modell in der Lage, die unordentliche Handschrift zu verstehen, die Problemformulierung richtig zu verstehen, sowohl das Problem als auch die Lösung in mathematischen Schriftsatz umzuwandeln, den spezifischen Denkschritt zu identifizieren, bei dem der Schüler bei der Lösung des Problems einen Fehler gemacht hat, und dann Geben Sie eine ausgearbeitete, korrekte Lösung für das Problem an. Dies eröffnet spannende Bildungsmöglichkeiten und wir glauben, dass die neuen multimodalen und logischen Fähigkeiten der Gemini-Modelle dramatische Anwendungen in vielen Bereichen haben.
Die Argumentationsfähigkeiten großer Sprachmodelle sind vielversprechend für die Entwicklung generalistischer Agenten, die komplexere mehrstufige Probleme lösen können. Das AlphaCode-Team hat AlphaCode 2 (Leblond et al., 2023) entwickelt, einen neuen Gemini-basierten Agenten, der die Denkfähigkeiten von Gemini mit Suche und Tool-Nutzung kombiniert, um sich bei der Lösung wettbewerbsorientierter Programmierprobleme hervorzuheben. AlphaCode 2 gehört zu den besten 15 % der Teilnehmer der wettbewerbsfähigen Programmierplattform Codeforces, eine deutliche Verbesserung gegenüber seinem hochmodernen Vorgänger in den besten 50 % (Li et al., 2022).
Gleichzeitig stoßen wir mit Gemini Nano, einer Reihe kleiner Modelle, die auf den Einsatz auf dem Gerät abzielen, neue Maßstäbe in Sachen Effizienz. Diese Modelle zeichnen sich durch geräteinterne Aufgaben wie Zusammenfassung, Leseverständnis und Textvervollständigung aus und weisen im Verhältnis zu ihrer Größe beeindruckende Fähigkeiten in den Bereichen Argumentation, MINT, Codierung sowie multimodale und mehrsprachige Aufgaben auf.
In den folgenden Abschnitten geben wir zunächst einen Überblick über die Modellarchitektur, die Trainingsinfrastruktur und den Trainingsdatensatz. Anschließend präsentieren wir detaillierte Auswertungen der Gemini-Modellfamilie, die gut untersuchte Benchmarks und Bewertungen menschlicher Präferenzen in Text, Code, Bild, Audio und Video abdecken – einschließlich der Englischleistung und der Mehrsprachigkeit. Wir diskutieren auch unseren Ansatz für einen verantwortungsvollen Einsatz [2], einschließlich unseres Prozesses für Folgenabschätzungen, die Entwicklung von Modellrichtlinien, Bewertungen und Schadensminderungen vor Entscheidungen über den Einsatz. Abschließend diskutieren wir die umfassenderen Auswirkungen von Gemini, seine Einschränkungen sowie seine potenziellen Anwendungen – und ebnen den Weg für eine neue Ära der Forschung und Innovation in der KI.
[2] Wir planen, diesen Bericht vor der allgemeinen Verfügbarkeit des Gemini Ultra-Modells mit weiteren Details zu aktualisieren.