Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.
tác giả:
(1) Nhóm Song Tử, Google.
Thảo luận và kết luận, tài liệu tham khảo
Báo cáo này giới thiệu một nhóm mô hình đa phương thức mới, Gemini, thể hiện khả năng vượt trội về khả năng hiểu hình ảnh, âm thanh, video và văn bản. Dòng Gemini bao gồm các kích thước Ultra, Pro và Nano, phù hợp cho các ứng dụng từ các tác vụ suy luận phức tạp đến các trường hợp sử dụng hạn chế về bộ nhớ trên thiết bị. Đánh giá trên nhiều điểm chuẩn cho thấy rằng mô hình Gemini Ultra có khả năng cao nhất của chúng tôi nâng cao tính năng tiên tiến ở 30 trên 32 điểm chuẩn này — đáng chú ý là mô hình đầu tiên đạt được hiệu suất chuyên gia của con người trên điểm chuẩn kỳ thi được nghiên cứu kỹ lưỡng MMLU, và cải thiện tính chất tiên tiến của từng tiêu chuẩn trong số 20 tiêu chuẩn đa phương thức mà chúng tôi đã kiểm tra. Chúng tôi tin rằng các khả năng mới của mô hình Gemini trong lý luận đa phương thức và hiểu ngôn ngữ sẽ cho phép nhiều trường hợp sử dụng khác nhau và chúng tôi thảo luận về cách tiếp cận của chúng tôi trong việc triển khai chúng một cách có trách nhiệm đối với người dùng.
Chúng tôi giới thiệu Gemini, một nhóm mô hình đa phương thức có khả năng cao được phát triển tại Google. Chúng tôi đã cùng đào tạo Gemini về dữ liệu hình ảnh, âm thanh, video và văn bản nhằm mục đích xây dựng một mô hình có cả khả năng tổng quát mạnh mẽ trên các phương thức cùng với sự hiểu biết tiên tiến và hiệu suất lý luận trong từng lĩnh vực tương ứng.
Gemini 1.0, phiên bản đầu tiên của chúng tôi, có ba kích cỡ: Ultra dành cho các tác vụ có độ phức tạp cao, Pro để nâng cao hiệu suất và khả năng triển khai trên quy mô lớn và Nano dành cho các ứng dụng trên thiết bị. Mỗi kích thước được thiết kế riêng để giải quyết các hạn chế tính toán và yêu cầu ứng dụng khác nhau. Chúng tôi đánh giá hiệu suất của các mô hình Gemini trên một bộ toàn diện các điểm chuẩn bên trong và bên ngoài bao gồm nhiều nhiệm vụ ngôn ngữ, mã hóa, lý luận và đa phương thức.
Gemini nâng cao công nghệ tiên tiến nhất trong mô hình ngôn ngữ quy mô lớn (Anil và cộng sự, 2023; Brown và cộng sự, 2020; Chowdhery và cộng sự, 2023; Hoffmann và cộng sự, 2022; OpenAI, 2023a; Radford và cộng sự, 2019; Rae và cộng sự, 2021), hiểu biết về hình ảnh (Alayrac và cộng sự, 2022; Chen và cộng sự, 2022; Dosovitskiy và cộng sự, 2020; OpenAI, 2023b; Reed và cộng sự, 2022; Yu và cộng sự cộng sự, 2022a), xử lý âm thanh (Radford và cộng sự, 2023; Zhang và cộng sự, 2023) và hiểu video (Alayrac và cộng sự, 2022; Chen và cộng sự, 2023). Nó cũng được xây dựng dựa trên công trình nghiên cứu về các mô hình trình tự (Sutskever và cộng sự, 2014), lịch sử lâu dài về nghiên cứu học sâu dựa trên mạng lưới thần kinh (LeCun và cộng sự, 2015) và hệ thống phân tán học máy (Barham và cộng sự, 2022; Bradbury và cộng sự, 2018; Dean và cộng sự, 2012) cho phép đào tạo quy mô lớn.
Mô hình có khả năng nhất của chúng tôi, Gemini Ultra, đạt được kết quả tiên tiến mới ở 30 trong số 32 điểm chuẩn mà chúng tôi báo cáo, bao gồm 10 trong số 12 điểm chuẩn về văn bản và lý luận phổ biến, 9 trên 9 điểm chuẩn về hiểu hình ảnh, 6 trên 6 điểm chuẩn về hiểu video và 5 trên 5 điểm chuẩn nhận dạng giọng nói và dịch giọng nói. Gemini Ultra là mô hình đầu tiên đạt được hiệu suất con người-chuyên gia trên MMLU (Hendrycks và cộng sự, 2021a) — một tiêu chuẩn nổi bật kiểm tra kiến thức và lý luận thông qua một bộ bài kiểm tra — với số điểm trên 90%. Ngoài văn bản, Gemini Ultra còn đạt được những tiến bộ đáng chú ý trong các nhiệm vụ lý luận đa phương thức đầy thách thức. Ví dụ: trong tiêu chuẩn MMMU gần đây (Yue và cộng sự, 2023), bao gồm các câu hỏi về hình ảnh trong các nhiệm vụ đa ngành đòi hỏi kiến thức môn học cấp đại học và lý luận có chủ ý, Gemini Ultra đã đạt được điểm số tiên tiến mới là 62,4%, vượt trội so với mô hình tốt nhất trước đó hơn 5 điểm phần trăm. Nó cung cấp mức tăng hiệu suất đồng đều cho các tiêu chuẩn trả lời câu hỏi video và hiểu âm thanh.
Đánh giá định tính thể hiện khả năng suy luận đa phương thức ấn tượng, cho phép mô hình hiểu và suy luận về chuỗi đầu vào gồm âm thanh, hình ảnh và văn bản một cách nguyên bản (xem Hình 5 và Bảng 13). Hãy xem môi trường giáo dục được mô tả trong Hình 1 làm ví dụ. Một giáo viên đã vẽ một bài toán vật lý về một vận động viên trượt tuyết đang xuống dốc và một học sinh đã tìm ra lời giải cho bài toán đó. Bằng cách sử dụng khả năng suy luận đa phương thức của Gemini, mô hình có thể hiểu được chữ viết tay lộn xộn, hiểu chính xác cách đặt vấn đề, chuyển cả vấn đề và giải pháp sang cách sắp chữ toán học, xác định bước lý luận cụ thể mà học sinh đã sai khi giải quyết vấn đề, sau đó đưa ra giải pháp chính xác cho vấn đề. Điều này mở ra những khả năng giáo dục thú vị và chúng tôi tin rằng khả năng suy luận và đa phương thức mới của các mô hình Song Tử có những ứng dụng ấn tượng trên nhiều lĩnh vực.
Khả năng suy luận của các mô hình ngôn ngữ lớn hứa hẹn hướng tới việc xây dựng các tác nhân tổng quát có thể giải quyết các vấn đề phức tạp gồm nhiều bước. Nhóm AlphaCode đã xây dựng AlphaCode 2 (Leblond và cộng sự, 2023), một tác nhân mới do Gemini cung cấp, kết hợp khả năng suy luận của Gemini với khả năng tìm kiếm và sử dụng công cụ để giải quyết các vấn đề lập trình cạnh tranh một cách xuất sắc. AlphaCode 2 xếp hạng trong top 15% số người tham gia trên nền tảng lập trình cạnh tranh Codeforces, một sự cải thiện lớn so với người tiền nhiệm tiên tiến nhất của nó trong top 50% (Li và cộng sự, 2022).
Song song với đó, chúng tôi nâng cao hiệu quả vượt trội với Gemini Nano, một loạt mô hình nhỏ nhắm mục tiêu triển khai trên thiết bị. Các mô hình này vượt trội trong các tác vụ trên thiết bị, chẳng hạn như tóm tắt, đọc hiểu, hoàn thành văn bản và thể hiện khả năng ấn tượng trong các tác vụ lý luận, STEM, mã hóa, đa phương thức và đa ngôn ngữ so với quy mô của chúng.
Trong các phần sau, trước tiên chúng tôi cung cấp cái nhìn tổng quan về kiến trúc mô hình, cơ sở hạ tầng đào tạo và tập dữ liệu đào tạo. Sau đó, chúng tôi trình bày các đánh giá chi tiết về dòng mô hình Gemini, bao gồm các tiêu chuẩn được nghiên cứu kỹ lưỡng và đánh giá sở thích của con người trên văn bản, mã, hình ảnh, âm thanh và video — bao gồm cả khả năng tiếng Anh và khả năng đa ngôn ngữ. Chúng tôi cũng thảo luận về cách tiếp cận của chúng tôi đối với việc triển khai có trách nhiệm, [2] bao gồm quy trình đánh giá tác động, phát triển các chính sách mẫu, đánh giá và giảm thiểu tác hại trước khi đưa ra quyết định triển khai. Cuối cùng, chúng tôi thảo luận về ý nghĩa rộng lớn hơn của Gemini, những hạn chế của nó cùng với các ứng dụng tiềm năng của nó - mở đường cho một kỷ nguyên nghiên cứu và đổi mới mới trong AI.
[2] Chúng tôi dự định cập nhật báo cáo này với nhiều thông tin chi tiết hơn trước khi mẫu Gemini Ultra được tung ra thị trường.