6,060 讀數

为什么开源语言模型是真正的“开放人工智能”

经过 Frederik Bussler4m2024/02/05

太長; 讀書

人工智能的长远未来不在于仅通过 API 提供服务的更私密的更大模型，而在于与社区一起开放构建的开源语言模型。

2015年，一非营利组织名为 OpenAI 的成立是为了创造“广泛且均匀分布”的人工智能。快进到 2024 年，OpenAI 已转变为全面的营利模式，将 LLM 的访问权限隐藏在事务 API 服务背后。最近，他们正在寻找一个估值1000亿美元。

过去十年，人工智能的进步一直由 Google、Meta 和 OpenAI 等大型科技公司主导，它们发布了越来越大的专有语言模型。从 Bard 和 Claude 到 GPT-4，自然语言处理 (NLP) 领域的大部分最先进技术仍然集中在少数研究实验室手中。

然而，人工智能的长期未来不在于完全通过 API 提供服务的更私密的更大模型，而在于与社区一起公开构建的开源语言模型。

开源语言模型

近年来，一些初创公司、大学和有奉献精神的个人帮助开创了这种开放的语言模型开发模式。

延续这一开源血统的最新模型是H2O-Danube-1.8B 。 Danube 拥有 18 亿个参数，即使与其他几倍于其大小的公开模型相比，它也表现出了令人惊讶的能力。 H2O.ai团队完全透明地精心设计、训练和验证 Danube，完整报告可在arXiv上获取。

H2O.ai没有封锁访问权限，而是在 HuggingFace 上公开发布了 Danube 的完整参数和训练代码。在最初宣布后的几天内，好奇的开发人员开始自由地试验该模型，展示了专有模型根本无法实现快速创新。截至撰写本文时，整个 h2o-danube-1.8b-chat 模型已在 HuggingFace 上下载超过 500 次。

任何人都可以通过transformers库使用该模型，遵循以下代码（由 h2o 的 HuggingFace 存储库提供）：

 import torch from transformers import pipeline pipe = pipeline( "text-generation", model="h2oai/h2o-danube-1.8b-chat", torch_dtype=torch.bfloat16, device_map="auto", ) # We use the HF Tokenizer chat template to format each message # https://huggingface.co/docs/transformers/main/en/chat_templating messages = [ {"role": "user", "content": "Why is drinking water so healthy?"}, ] prompt = pipe.tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True, ) res = pipe( prompt, max_new_tokens=256, ) print(res[0]["generated_text"]) # <|prompt|>Why is drinking water so healthy?</s><|answer|> Drinking water is healthy for several reasons: [...]

H2O 认为，公开合作仍然是实现人工智能获取民主化和为多数人带来利益而不是为少数人带来财富的最终关键。