paint-brush
为什么开源语言模型是真正的“开放人工智能”经过@FrederikBussler
5,893 讀數
5,893 讀數

为什么开源语言模型是真正的“开放人工智能”

经过 Frederik Bussler4m2024/02/05
Read on Terminal Reader

太長; 讀書

人工智能的长远未来不在于仅通过 API 提供服务的更私密的更大模型,而在于与社区一起开放构建的开源语言模型。
featured image - 为什么开源语言模型是真正的“开放人工智能”
Frederik Bussler HackerNoon profile picture
0-item
1-item
2-item

2015年,一非营利组织名为 OpenAI 的成立是为了创造“广泛且均匀分布”的人工智能。快进到 2024 年,OpenAI 已转变为全面的营利模式,将 LLM 的访问权限隐藏在事务 API 服务背后。最近,他们正在寻找一个估值1000亿美元


过去十年,人工智能的进步一直由 Google、Meta 和 OpenAI 等大型科技公司主导,它们发布了越来越大的专有语言模型。从 Bard 和 Claude 到 GPT-4,自然语言处理 (NLP) 领域的大部分最先进技术仍然集中在少数研究实验室手中。


然而,人工智能的长期未来不在于完全通过 API 提供服务的更私密的更大模型,而在于与社区一起公开构建的开源语言模型。

开源语言模型

近年来,一些初创公司、大学和有奉献精神的个人帮助开创了这种开放的语言模型开发模式。


延续这一开源血统的最新模型是H2O-Danube-1.8B 。 Danube 拥有 18 亿个参数,即使与其他几倍于其大小的公开模型相比,它也表现出了令人惊讶的能力。 H2O.ai团队完全透明地精心设计、训练和验证 Danube,完整报告可在arXiv上获取。


H2O.ai没有封锁访问权限,而是在 HuggingFace 上公开发布了 Danube 的完整参数和训练代码。在最初宣布后的几天内,好奇的开发人员开始自由地试验该模型,展示了专有模型根本无法实现快速创新。截至撰写本文时,整个 h2o-danube-1.8b-chat 模型已在 HuggingFace 上下载超过 500 次。


任何人都可以通过transformers库使用该模型,遵循以下代码(由 h2o 的 HuggingFace 存储库提供):


 import torch from transformers import pipeline pipe = pipeline( "text-generation", model="h2oai/h2o-danube-1.8b-chat", torch_dtype=torch.bfloat16, device_map="auto", ) # We use the HF Tokenizer chat template to format each message # https://huggingface.co/docs/transformers/main/en/chat_templating messages = [ {"role": "user", "content": "Why is drinking water so healthy?"}, ] prompt = pipe.tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True, ) res = pipe( prompt, max_new_tokens=256, ) print(res[0]["generated_text"]) # <|prompt|>Why is drinking water so healthy?</s><|answer|> Drinking water is healthy for several reasons: [...]


H2O 认为,公开合作仍然是实现人工智能获取民主化和为多数人带来利益而不是为少数人带来财富的最终关键。

其他开源语言模型

随着开发人员在全球范围内就共享模型进行合作,开源人工智能生态系统不断扩大。除了 H2O-Danube-1.8B 之外,还有许多值得注意的举措旨在防止知识集中在围墙花园内。

MPT

机器编程转换器 (MPT)由初创公司 MosaicML 开发,结合了专家混合并行化和上下文长度外推等技术来提高效率。

Falcon 最大的开源 LLM 是一个拥有1800 亿个参数的巨兽,其表现优于拉玛-2 ,稳定LM ,红色睡衣, 和MPT


对于该大小,建议有 400 GB 的可用内存来运行模型。

米斯特拉尔

Mistral 由前 Google 员工和 Meta 研究人员创立,于 2022 年 9 月发布了 70 亿参数的Mistral 7B 模型。Mistral 7B 在开放模型中实现了在样本质量上几乎与封闭式 GPT-3 相当的竞争性能。

旧型号

除了新推出的模型之外,早期的开源模型继续为开发人员提供支持。 OpenAI 的 GPT2 和 EleutherAI 的 GPT-J 尽管落后于现代架构,但都具有历史意义。像 BERT 这样的 Transformer 带来了 NLP 突破的整个子类,为全球产品提供动力。


由于充满热情的社区慷慨地将他们的创作回馈给共同的知识库,民主化的叙事只会得到加强。

更公平的未来

在许多方面,专有语言模型都有可能重新造成科技行业仍在努力解决的许多不平等问题。将知识集中在富裕的组织内会使较小的团队无法尽早取得进展。一旦纯粹通过事务 API 实现,集成的成本就会变得异常昂贵。


开源模型对于开辟更公平的前进道路至关重要。机构更接近实际构建具体人工智能应用程序的不同社区。只有当人们团结起来支持技术本身而不是任何一个试图控制技术的组织时,进步的长弧才会走向正义。


多瑙河及其所代表的开放范式仅提供了另一种愿景的一瞥。其驱动力不是短期利润或声望,而是让世界各地的开发者能够自由地在彼此的肩膀上进行开发。专有工作总会有空间,但人工智能的真正未来是开放的。

社区驱动的创新

开源模型的发布吸引了积极进取的开发人员和研究人员社区的贡献。这种开放式的协作方式释放了独特的机会。组织内的专家可以对彼此的工作进行同行评审以验证技术。


研究人员可以轻松复制和扩展新想法,而不是重新发明轮子。软件工程师可以快速将创新集成并部署到客户产品中。


也许最有希望的是,开放范式允许利基社区围绕特定用例的定制模型进行聚集。团队可以根据医学、法律或金融等特定主题定制版本,其性能优于通用模型。然后,这些专门的模型会被分享回来,以使社区的其他人受益。团队共同努力,取得集体进步,这在任何单一的封闭实验室中都是不可能实现的。