paint-brush
Vicuna:它与 Llama、Alpaca 和 ChatGPT 相比如何?经过@mikeyoung44
5,296 讀數
5,296 讀數

Vicuna:它与 Llama、Alpaca 和 ChatGPT 相比如何?

经过 Mike Young10m2023/08/08
Read on Terminal Reader

太長; 讀書

将 Vicuna 与 ChatGPT、LLaMA 和 Alpaca 等替代法学硕士进行比较。构建聊天应用程序的最佳人工智能模型是什么?
featured image - Vicuna:它与 Llama、Alpaca 和 ChatGPT 相比如何?
Mike Young HackerNoon profile picture
0-item

作为人工智能初创公司的创始人,您可能知道像 ChatGPT 这样的大型语言模型在推进对话式人工智能方面的影响力有多大。


然而,由于商业许可成本、审查问题、性能下降、隐私问题和黑匣子,这些专有模型对于许多初创公司来说仍然遥不可及。


这就是一个名为 Vicuna 的开源项目的用武之地。Vicuna 由来自斯坦福大学等机构的研究人员团队开发,是一个开源对话模型,其质量达到了 ChatGPT 90% 以上的水平。这使其成为 GPT-4 等封闭模型的令人兴奋的替代品。


订阅或在Twitter上关注我以获取更多此类内容!


在本文中,我们将探讨 Vicuna 是什么、它的工作原理、它的功能,以及作为人工智能创始人如何利用它。我们将看到它如何与 ChatGPT 和基本 LLaMA 模型等竞争对手相比。


我还将分享一些有用的提示和指南,您可以遵循这些提示和指南来获取有关模型特定方面的更多信息。


在本文中,我们将重点关注 Vicuna-13b,但还有许多不同尺寸的 Vicuna 模型供您尝试。让我们开始!


注意:Vicuna 并不是唯一一个对 LLaMA 聊天进行微调的模型。查看我们的关于使用LLaMA v2 AlpacaLLaMA-v2-chat进行对话应用程序的指南。

骆驼毛概述

在对话式人工智能领域,我们最近看到了令人震惊的进展,像 ChatGPT 这样的模型展示了卓越的自然语言能力。然而,作为具有上述所有问题的专有模型,ChatGPT 对于许多开发人员来说仍然是一个糟糕的选择。


因此,需要更易于访问和开放的模型来促进对话应用程序的创新。


这就是 Vicuna 的用武之地。Vicuna 由斯坦福大学、伯克利分校和 MBZUAI 等领先机构的研究人员开发,代表了尖端的开放式对话人工智能。


它是通过对精选对话数据微调 LLaMA 模型而创建的,展示了开源基础模型迁移学习的强大功能。


尽管体积比 ChatGPT 小,但 Vicuna 的对话质量与其他开放模型相当,并且性能显着优于其他开放模型。


但这不仅仅与 Vicuna 的技术有关。它真正具有影响力的是它在非商业研究许可下的可用性。这使得人们可以接触到最先进的对话式人工智能,而以前仅限于大型科技公司。


我们终于拥有了一个开放模型,可以为下一代聊天机器人、虚拟助手、对话式搜索引擎和其他创新应用程序提供支持。


Vicuna 的承诺已经通过利用它的酷炫项目得到了证明。例如, MiniGPT4使用Vicuna构建了智能虚拟助手, LLaVA用它创建了对话式搜索引擎,而ToolLLaMA则利用了Vicuna的自然语言内容创建能力。


当然,有一天您也可以将自己的项目添加到此列表中!


对于人工智能开发者和初创公司来说,Vicuna 代表了一个令人兴奋的新机遇。其高性能、免费可用性和宽松的研究许可证可实现对话应用程序的快速原型设计。


初创公司现在可以使用尖端的对话式人工智能来验证和构建产品,而不是受到访问专有模型的限制。比赛场地刚刚变得公平。


因此,总而言之,Vicuna 承诺使顶级对话智能的获取民主化。它的出现代表着构建开放人工智能模型以赋能创新的一个重要里程碑。


对于任何想要利用对话式人工智能的初创公司来说,Vicuna 绝对是一个值得关注的项目!

骆马毛是如何创造的?是什么让它特别?

Vicuna 的故事始于 LLaMA,一种由 Meta AI 开发的开源语言模型。虽然 LLaMA 有能力,但他没有天生的会话能力,主要关注语言本身而不是会话艺术。


来自斯坦福大学、伯克利分校和 MBZUAI 等机构的研究人员着手改变这一现状。他们的目标是创建一个开源对话模型,与 ChatGPT 等专有聊天机器人相媲美。


顺便问一下,经过训练来处理和分析文本的人工智能模型(如 LLaMA)与专门用于聊天的人工智能模型(如 Vicuna)有什么区别?有几个关键因素可以区分两者:


  • 架构- 像 Vicuna 这样的对话模型具有针对对话优化的编码器-解码器结构。编码器将对话历史记录和当前用户输入置于上下文中。然后解码器生成相关响应。像 LLaMA 这样的通用语言模型缺乏这种专门的架构。


  • 训练目标- 像 Vicuna 这样的模型经过微调,可以最大限度地提高对话任务的性能。这涉及对对话数据集进行训练以优化对话指标。 LLaMA 更普遍地针对文本进行训练,而不是专门针对对话进行训练。


  • 多轮能力——对话模型需要处理多轮对话,保持多个交换之间的上下文和一致性。一般文本模型一次评估一个输入。


  • 交互性——对话式人工智能需要与用户流畅地交互,回答后续问题和澄清。文本评价较为被动,缺乏用户交互性。


  • 评估- 对话模型需要比文本指标更复杂的评估,测试一致性、细微差别以及优雅处理不适当响应的能力等质量。


虽然像 LLaMA 这样的通用语言模型更注重文本分析和生成,没有对话代理的特定要求,但对话式 AI 的目标从根本上来说比被动文本评估更复杂。


为此,创建 Vicuna 的研究人员在超过 70,000 次人类与 ChatGPT 对话交流中对 LLaMA 进行了微调,专门用于对话的模型,并教授其对话环境中文本的自然特征。


这种微调对于为他们的 LLaMA 版本提供以前所缺乏的对话智能至关重要。通过对对话数据的迭代训练,LLaMA 被转化为 Vicuna,一种针对多轮对话优化的编码器-解码器转换器。


他们的努力效果如何?

进入竞技场:根据替代聊天 AI 模型评估 Vicuna

为了评估 Vicuna 的功能,研究人员在 200 种不同的对话提示下对其进行了测试。为了进一步评估,他们让 GPT-4 模型比较判断 Vicuna 的反应。


结果表明,Vicuna 尽管尺寸较小,但在会话能力方面达到了 ChatGPT 90% 以上的水平。它显着优于原始的 LLaMA 模型。


通过将架构优化与对人类对话数据的专门微调相结合,研究人员成功地将 LLaMA 增强为与专有聊天机器人同等的开源对话模型。


让我们看一下来自官方项目网站的头对头测试作为示例。

Vicuna/ChatGPT 的替代示例

Vicuna 和竞争对手模型之间的正面挑战示例,在本例中,使用 ChatGPT-3.5 作为潜在的替代方案。


该项目网站有一系列示例任务,其中要求 Vicuna-13b 和竞争模型进行正面交锋。然后使用 GPT-4 模型作为评判者对每个模型进行评分并陈述其推理。


这产生了一些真正令人大开眼界的比较。上图中提供了一个示例。另一个是这个挑战,如下所示:


  • 类别:角色扮演
  • 问题:在皇家宴会上,作为一名中世纪骑士,你会如何介绍自己?


LLaMA-13b 的回应:

“我是一名英勇的骑士,忠于国王。我将竭尽全力捍卫他的荣誉,保护他的国家。(蹩脚!GPT-4得分7/10,我认为非常慷慨。)”


Vicuna-13b:

**“**作为一名中世纪骑士,我会在皇家宴会上自我介绍,深深鞠躬并发表恭敬的演讲,承认我卑微的出身和对王室的忠诚。我会说这样的话:

“各位大人,女士们,我是一名谦卑的骑士,发誓服务和保护这个王国。我来自一长串战士,他们世世代代为保卫这个王国而战。今天我很荣幸来到这里,在场的如此受人尊敬的公司,我希望用我的事迹和行动赢得你们的信任和尊重。我保证我的剑、我的盾牌和我的生命为我的国王和我的人民服务。”

然后我会在宴会上就座,准备聆听并学习上级的明智建议,并尽我所能为他们服务。”


哇!骆驼毛的反应更好。以下是 GPT-4 的推理,解释了为何 Vicuna 成为 LLaMA 的更好替代品。


助理 1 [LLaMA]提供了简短且相关的答复,但缺乏中世纪骑士介绍中所期望的细节和正式性。另一方面, 2号助手[Vicuna]提供了更全面、更有条理的回应,包括一场充满敬意的演讲,展示了骑士的谦逊、忠诚和对王国的奉献。这种回应更适合皇家宴会的背景,也表明了对中世纪骑士角色和礼仪的更好理解。


虽然法学硕士并不是其他法学硕士的绝对正确的法官,但人类也不是。我认为使用人工智能来判断和评估人工智能是一种相当可扩展且一致的方式来判断哪些替代方案是最好的。


您应该在LMSYS.org网站上查看其他一些竞争对手的答案和任务。

让我们自己尝试一下:如何使用 Vicuna 构建基本聊天机器人

现在我们已经了解了该模型如何与一些替代方案相比较,让我们看看如何构建一个可以通过命令行与之交互的简单聊天机器人。此处提供的指南中的步骤可以进一步扩展,以便您可以继续为您的 AI 项目构建自己的聊天机器人!

第 1 步:设置

安装 Node.js :确保您的系统上安装了Node.js。


创建项目目录:在终端中运行以下命令:

 mkdir my-chatbot cd my-chatbot npm init -y npm install replicate


设置您的 API 令牌:将your_api_token_here替换为您的实际 API 令牌:

 export REPLICATE_API_TOKEN=your_api_token_here

第 2 步:编写聊天机器人代码

创建一个名为chatbot.js的文件,并添加以下代码:

 const Replicate = require("replicate"); const replicate = new Replicate({ auth: process.env.REPLICATE_API_TOKEN, }); async function generateResponse(prompt) { const output = await replicate.run( "replicate/vicuna-13b:version_hash_here", { input: { prompt: prompt }, } ); return output.items[0]; } const readline = require('readline'); const rl = readline.createInterface({ input: process.stdin, output: process.stdout }); function askQuestion() { rl.question('You: ', async (userInput) => { const botResponse = await generateResponse(userInput); console.log(`Bot: ${botResponse}`); askQuestion(); }); } askQuestion();

version_hash_here替换为 Vicuna 13b 模型的正确版本哈希值。

第 3 步:运行聊天机器人

通过执行以下命令来运行聊天机器人:

 node chatbot.js


您现在可以通过命令行向聊天机器人发送消息!

不想构建自己的聊天机器人?您可以使用此演示来评估 Vicuna 的性能。

Vicuna-13b-v1.3 的模型详细信息页面包含几个可用于操作模型的演示。这是一个嵌入式的供您尝试(如果下面的链接不可用,您也可以使用此链接来访问它)。


该演示由 zeno-ml 构建,可让您比较模型和其他参数,以了解 Vicuna 与 LLaMA、GPT2 和 MPT 等竞争对手相比的表现,同时还可以改变温度或其他参数。

骆驼毛的局限性

尽管会话技术发展迅速,但模型仍然面临着重大挑战。


  • 其中一个问题是知识基础。对话代理缺乏足够的真实事实知识基础,使得他们容易做出听起来合理但不正确的反应。更多的现实世界的基础可以提高准确性。


  • 推理能力是另一个需要改进的领域。对于聊天机器人来说,执行逻辑推理、因果推理和数学运算仍然很困难。他们的推理能力仍然有限。


  • 大规模评估人工智能系统的对话质量也带来了困难。目前的解决方案(例如询问单独的人工智能法官)存在缺陷。制定严格的评估框架是一个悬而未决的问题。


  • 此外,由于依赖不完善的训练数据,偏见和安全问题仍然存在。对话模型有时会表现得不恰当或不安全。更好的训练数据管理很重要。


  • 让聊天机器人适应特定用户和用例仍然具有挑战性。不同领域需要更多的个性化和定制化。您无法轻松地做到这一点。


尽管已经取得了巨大进展,但这些局限性凸显了需要改进的关键领域。


提高知识基础、推理、评估、训练数据、定制和部署效率可以通过 Vicuna 等模型实现新水平的对话智能。

结论:使用 Vicuna AI 作为 ChatGPT、LLaMA 和其他 LLM 的开源替代方案

Vicuna 的开发展示了在推进开源对话人工智能方面取得的有希望的进展。


通过专门针对对话应用程序微调 LLaMA 模型架构和训练方法,研究人员能够创建一个可免费使用的对话代理,与领先的专有替代方案相竞争。


然而,解决推理、评估、定制和其他领域的局限性仍有待完成。虽然像 Vicuna 这样的模型在许多基准上取得了不错的结果,但它们并没有完全复制全面的人类对话。


正在进行的调整这些模型的研究非常重要。


尽管如此,Vicuna 代表着在民主化获取最先进的对话情报方面向前迈出了宝贵的一步。


对于构建聊天机器人、助手和其他应用程序的初创公司和开发人员来说,Vicuna 等开源选项提供了受欢迎的功能,而无需限制性商业许可。


Vicuna 背后的起源和技术细节为对话式人工智能的专门训练方法提供了有用的见解。随着研究的继续,我们预计会看到基于这些方法的进一步创新。


Vicuna 背后的作者为开源这样一个强大的对话代理做出了重要贡献。


尽管还需要取得更多进展,Vicuna 展示了开发开放式对话模型可以带来的有意义的结果。对于人工智能社区来说,这代表着充满希望的一步,而不是最终的目的地。


随着这些技术的不断发展,未来的潜力仍然令人兴奋。


订阅或在Twitter上关注我以获取更多此类内容!

进一步阅读和资源

您可能会发现这些其他文章有助于您为新产品或项目构建终极聊天机器人。



也发布在这里