本文可在 CC 4.0 许可下在 arxiv 上获取。
作者:
(1) 双子座团队,谷歌。
本报告介绍了一个新的多模式模型系列 Gemini,它在图像、音频、视频和文本理解方面表现出卓越的能力。 Gemini 系列包括 Ultra、Pro 和 Nano 尺寸,适用于从复杂推理任务到设备内存受限用例的各种应用。对广泛基准的评估表明,我们功能最强大的 Gemini Ultra 模型在 32 个基准中的 30 个中提升了最先进的水平,特别是它是第一个在经过充分研究的考试基准 MMLU 上实现人类专家表现的模型,并提高我们检查的 20 个多式联运基准中每一个的最新水平。我们相信,Gemini 模型在跨模式推理和语言理解方面的新功能将支持各种用例,我们将讨论如何负责任地向用户部署它们。
我们推出 Gemini,这是 Google 开发的一系列高性能多模式模型。我们在图像、音频、视频和文本数据方面联合训练 Gemini,目的是构建一个模型,该模型既具有跨模态的强大通才能力,又在各个领域具有前沿的理解和推理性能。
Gemini 1.0 是我们的第一个版本,具有三种尺寸:Ultra 用于高度复杂的任务,Pro 用于增强性能和大规模可部署性,Nano 用于设备上应用程序。每种尺寸都经过专门定制,以满足不同的计算限制和应用要求。我们根据一套全面的内部和外部基准评估 Gemini 模型的性能,涵盖广泛的语言、编码、推理和多模式任务。
Gemini 在大规模语言建模方面取得了最先进的进展(Anil 等人,2023;Brown 等人,2020;Chowdhery 等人,2023;Hoffmann 等人,2022;OpenAI,2023a;Radford 等人) al., 2019; Rae et al., 2021),图像理解(Alayrac et al., 2022; Chen et al., 2022; Dosovitskiy et al., 2020; OpenAI, 2023b; Reed et al., 2022; Yu et al., 2022) al., 2022a)、音频处理(Radford et al., 2023;Zhang et al., 2023)和视频理解(Alayrac et al., 2022;Chen et al., 2023)。它还建立在序列模型方面的工作(Sutskever 等人,2014)、基于神经网络的深度学习工作的悠久历史(LeCun 等人,2015)以及机器学习分布式系统(Barham 等人, 2022;Bradbury 等人,2018;Dean 等人,2012),支持大规模培训。
我们最强大的模型 Gemini Ultra 在我们报告的 32 个基准测试中的 30 个中取得了最新的结果,其中包括 12 个流行文本和推理基准测试中的 10 个、9 个图像理解基准测试中的 9 个、6 个视频理解基准测试中的 6 个,以及 5 个语音识别和语音翻译基准测试中的 5 个。 Gemini Ultra 是第一个在 MMLU(Hendrycks 等人,2021a)上实现人类专家表现的模型,MMLU 是通过一系列考试测试知识和推理的著名基准测试,得分高于 90%。除了文本之外,Gemini Ultra 在具有挑战性的多模式推理任务上也取得了显着的进步。例如,在最近的 MMMU 基准(Yue 等人,2023)中,该基准包含有关需要大学水平学科知识和深思熟虑推理的多学科任务的图像问题,Gemini Ultra 取得了新的最先进分数达到 62.4%,比之前的最佳模型高出 5 个百分点以上。它为视频问答和音频理解基准提供了统一的性能提升。
定性评估展示了令人印象深刻的跨模式推理能力,使模型能够本地理解和推理音频、图像和文本的输入序列(见图 5 和表 13)。以图 1 所示的教育环境为例。一位老师画了一个滑雪者从斜坡上滑下的物理问题,一位学生找到了该问题的解决方案。利用Gemini的多模态推理能力,该模型能够理解凌乱的笔迹,正确理解问题的表述,将问题和解决方案都转换为数学排版,识别学生在解决问题时出错的具体推理步骤,然后给出问题的正确解决方案。这开启了令人兴奋的教育可能性,我们相信 Gemini 模型的新多模态和推理能力在许多领域都有巨大的应用。
大型语言模型的推理能力有望构建能够解决更复杂的多步骤问题的多面手智能体。 AlphaCode 团队构建了 AlphaCode 2(Leblond 等人,2023),这是一种由 Gemini 驱动的新型代理,它将 Gemini 的推理能力与搜索和工具使用相结合,擅长解决竞争性编程问题。 AlphaCode 2 在 Codeforces 竞争性编程平台的参赛者中排名前 15%,比前 50% 的最先进的前身有很大进步(Li 等人,2022)。
与此同时,我们通过 Gemini Nano(一系列针对设备上部署的小型模型)推进了效率前沿。这些模型在摘要、阅读理解、文本完成任务等设备端任务中表现出色,并且在推理、STEM、编码、多模式和多语言任务(相对于其规模)方面表现出令人印象深刻的能力。
在以下部分中,我们首先概述模型架构、训练基础设施和训练数据集。然后,我们对 Gemini 模型系列进行详细评估,涵盖文本、代码、图像、音频和视频方面经过充分研究的基准和人类偏好评估,其中包括英语性能和多语言能力。我们还讨论了我们负责任的部署方法,[2] 包括我们在部署决策之前进行影响评估、制定模型政策、评估和减轻危害的流程。最后,我们讨论 Gemini 的更广泛影响、其局限性及其潜在应用——为人工智能研究和创新的新时代铺平道路。
[2] 我们计划在 Gemini Ultra 型号全面上市之前更新此报告,提供更多详细信息。