paint-brush
深入探讨聊天应用程序的 LLaMA v2经过@mikeyoung44
1,087 讀數
1,087 讀數

深入探讨聊天应用程序的 LLaMA v2

经过 Mike Young5m2023/07/19
Read on Terminal Reader

太長; 讀書

A16z-infra 对 Meta 的新 [llama13b-v2-chat] 聊天模型的实现。模型托管在 Replicate 上,这是一项 AI 模型托管服务,让您只需几行代码或简单的 API 调用即可与复杂模型进行交互。该模型拥有多达 130 亿个参数,专为聊天应用程序量身定制。
featured image - 深入探讨聊天应用程序的 LLaMA v2
Mike Young HackerNoon profile picture
0-item
1-item
2-item


考虑一下在在线聊天应用程序中生成类人响应的复杂性。如何使基础设施高效且响应切合实际?解决方案是人工智能语言模型。在本指南中,我们深入研究了 a16z-infra 对Meta的新llama13b-v2-chat LLM 的实现,这是一个专门针对聊天应用程序进行微调的 130 亿参数语言模型。该模型托管在 Replicate 上,这是一项 AI 模型托管服务,让您只需几行代码或简单的 API 调用即可与复杂而强大的模型进行交互。


在本指南中,我们将介绍 llama13b-v2-chat 模型的全部内容、如何考虑其输入和输出,以及如何使用它来创建聊天完成。我们还将引导您了解如何使用AIModels.fyi查找类似模型来增强您的 AI 应用程序。因此,让我们剖析一下人工智能术语并触及核心。


订阅或在Twitter关注我以获取更多此类内容!

关于 LLaMA-v2 聊天模型

Replicate 上提供的LLaMA13b-v2-chat模型由a16z-infra 团队创建,建立在 Meta 的新 LLaMA v2 模型之上。 Meta 创建 LLaMA 的目的是更好地理解和生成人类语言,我们将要检查的聊天模型已经过进一步微调,以改善人类用户和人工智能聊天机器人之间的交互。该模型拥有多达 130 亿个参数,已针对特定用例进行了大幅定制。您可以在AIModels.fyi的创建者页面找到有关此模型和 a16z-infra 的其他模型的更多详细信息。


llama13b-v2-chat 模型的复制实现使用强大的 Nvidia A100 (40GB) GPU 进行预测,每次预测的平均运行时间为 7 秒。每次运行的价格仅为 0.014 美元,这使得低预算项目或初创公司可以广泛使用它。

了解 LLaMA v2 聊天的输入和输出

了解模型的进出内容是有效利用其功能的关键。那么让我们熟悉一下模型的输入和输出。

输入

该模型接受以下输入:


  1. prompt (字符串):发送到 Llama v2 的提示。


  2. max_length (整数):要生成的最大令牌数。请记住,一个单词通常由 2-3 个标记组成。默认值为 500。


  3. temperature (数字):调整输出的随机性。大于 1 是随机的,大于 0 是确定性的。一个好的起始值为 0.75。


  4. top_p (数字):在文本解码期间,它从最有可能的标记的前 p 百分比中进行采样。降低此值以忽略不太可能的标记。默认值为 1。


  5. repetition_penalty (数字):对生成文本中的重复单词进行惩罚。 1是没有处罚。大于 1 的值会阻止重复,小于 1 会鼓励重复。


  6. debug (布尔值):用于在日志中提供调试输出。


请注意,模型的创建者建议您在创建提示时遵循以下结构:

 User: <your prompt goes here> Assistant:


例如...

 User: give me tips on things to do in Maine Assistant:

模型的输出

该模型产生以下输出:


  1. 原始 JSON 模式,对输出结构进行编目 - 用于进一步计算或用户界面的字符串数组。以下是输出架构的示例:
 { "type": "array", "items": { "type": "string" }, "title": "Output", "x-cog-array-type": "iterator", "x-cog-array-display": "concatenate" }


现在,让我们过渡到如何使用此模型的实质内容。

使用 LLaMA v2 聊天生成自然聊天完成

无论您是涉足代码的新手,还是经验丰富的老手,使用 llama13b-v2-chat 模型创建真实的聊天完成都会非常有趣。


如果您只是玩玩并想了解它的工作原理,请使用此演示链接与模型的界面进行交互并了解其工作原理。一旦您准备好将其实施到您的项目中,请按照以下步骤操作。


首先,您需要通过安装 Node.js 客户端来设置环境:

 npm install Replicate


接下来,验证您的 API 令牌并将其设置为环境变量。该令牌是个人的,因此应保密:

 export REPLICATE_API_TOKEN=r8_******


然后,您可以使用以下脚本运行模型:

 import Replicate from "replicate"; const replicate = new Replicate({ auth: process.env.REPLICATE_API_TOKEN, }); const output = await replicate.run( "a16z-infra/llama13b-v2-chat:df7690f1994d94e96ad9d568eac121aecf50684a0b0963b25a41cc40061269e5", { input: { prompt: "..." } } );


您还可以设置在预测完成时调用的 Webhook。这对于维护日志或设置自动警报可能是有益的。

 const prediction = await replicate.predictions.create({ version: "df7690f1994d94e96ad9d568eac121aecf50684a0b0963b25a41cc40061269e5", input: { prompt: "..." }, webhook: "https://example.com/your-webhook", webhook_events_filter: ["completed"] });

有关更多详细信息,您可以随时参阅Replicate上的文档。

更进一步:使用AIModels.fyi查找其他文本到文本模型

想要探索适合您的应用程序的其他聊天机器人吗?当您使用AIModels.fyi时,查找与 llama13b-v2-chat 类似的模型很容易。


以下分步指南可帮助您找到满足您特定需求的其他人工智能模型:

第1步:访问AIModels.fyi

前往AIModels.fyi开始您的探索。

第 2 步:使用搜索栏

输入关键短语,例如“文本到文本”、“语言模型”等。搜索引擎将提供适合您查询的模型列表。

第 3 步:过滤结果

您可以在搜索结果页面上找到用于缩小搜索范围的过滤器。您可以按类型、成本、受欢迎程度甚至特定创建者对模型进行过滤和排序。例如,如果您正在寻找预算友好的文本到文本模型,您可以按价格对模型进行排序,以找到最便宜的选项。

结论

在本指南中,我们探索了 LLaMA v2 的潜力,这是一种功能丰富、经济高效的语言模型。它是您下一个聊天应用程序的潜在支柱,为细致入微且现实的对话提供支持。您现在知道如何实现此模型,了解其输入/输出,并有效地生成相关的聊天完成结果。


当您继续积累知识时,您可能会发现这些其他指南很有帮助:


通过发挥您的想象力并将其与这些人工智能工具结合起来,您可以将自己带入广阔的人工智能领域,创造出令人兴奋的新项目。我们很高兴看到您下一步要去哪里。不要忘记订阅更多教程,了解新的和改进的 AI 模型的最新动态,并为您的下一个 AI 项目发挥创造力。到那时,祝 AI 冒险愉快,记得在我的推特上打个招呼。


订阅或在Twitter关注我以获取更多此类内容!