考虑一下在在线聊天应用程序中生成类人响应的复杂性。如何使基础设施高效且响应切合实际?解决方案是人工智能语言模型。在本指南中,我们深入研究了 a16z-infra 对Meta的新llama13b-v2-chat LLM 的实现,这是一个专门针对聊天应用程序进行微调的 130 亿参数语言模型。该模型托管在 Replicate 上,这是一项 AI 模型托管服务,让您只需几行代码或简单的 API 调用即可与复杂而强大的模型进行交互。
在本指南中,我们将介绍 llama13b-v2-chat 模型的全部内容、如何考虑其输入和输出,以及如何使用它来创建聊天完成。我们还将引导您了解如何使用AIModels.fyi查找类似模型来增强您的 AI 应用程序。因此,让我们剖析一下人工智能术语并触及核心。
Replicate 上提供的LLaMA13b-v2-chat模型由a16z-infra 团队创建,建立在 Meta 的新 LLaMA v2 模型之上。 Meta 创建 LLaMA 的目的是更好地理解和生成人类语言,我们将要检查的聊天模型已经过进一步微调,以改善人类用户和人工智能聊天机器人之间的交互。该模型拥有多达 130 亿个参数,已针对特定用例进行了大幅定制。您可以在AIModels.fyi的创建者页面找到有关此模型和 a16z-infra 的其他模型的更多详细信息。
llama13b-v2-chat 模型的复制实现使用强大的 Nvidia A100 (40GB) GPU 进行预测,每次预测的平均运行时间为 7 秒。每次运行的价格仅为 0.014 美元,这使得低预算项目或初创公司可以广泛使用它。
了解模型的进出内容是有效利用其功能的关键。那么让我们熟悉一下模型的输入和输出。
该模型接受以下输入:
prompt
(字符串):发送到 Llama v2 的提示。
max_length
(整数):要生成的最大令牌数。请记住,一个单词通常由 2-3 个标记组成。默认值为 500。
temperature
(数字):调整输出的随机性。大于 1 是随机的,大于 0 是确定性的。一个好的起始值为 0.75。
top_p
(数字):在文本解码期间,它从最有可能的标记的前 p 百分比中进行采样。降低此值以忽略不太可能的标记。默认值为 1。
repetition_penalty
(数字):对生成文本中的重复单词进行惩罚。 1是没有处罚。大于 1 的值会阻止重复,小于 1 会鼓励重复。
debug
(布尔值):用于在日志中提供调试输出。
请注意,模型的创建者建议您在创建提示时遵循以下结构:
User: <your prompt goes here> Assistant:
例如...
User: give me tips on things to do in Maine Assistant:
该模型产生以下输出:
{ "type": "array", "items": { "type": "string" }, "title": "Output", "x-cog-array-type": "iterator", "x-cog-array-display": "concatenate" }
现在,让我们过渡到如何使用此模型的实质内容。
无论您是涉足代码的新手,还是经验丰富的老手,使用 llama13b-v2-chat 模型创建真实的聊天完成都会非常有趣。
如果您只是玩玩并想了解它的工作原理,请使用此演示链接与模型的界面进行交互并了解其工作原理。一旦您准备好将其实施到您的项目中,请按照以下步骤操作。
npm install Replicate
接下来,验证您的 API 令牌并将其设置为环境变量。该令牌是个人的,因此应保密:
export REPLICATE_API_TOKEN=r8_******
然后,您可以使用以下脚本运行模型:
import Replicate from "replicate"; const replicate = new Replicate({ auth: process.env.REPLICATE_API_TOKEN, }); const output = await replicate.run( "a16z-infra/llama13b-v2-chat:df7690f1994d94e96ad9d568eac121aecf50684a0b0963b25a41cc40061269e5", { input: { prompt: "..." } } );
您还可以设置在预测完成时调用的 Webhook。这对于维护日志或设置自动警报可能是有益的。
const prediction = await replicate.predictions.create({ version: "df7690f1994d94e96ad9d568eac121aecf50684a0b0963b25a41cc40061269e5", input: { prompt: "..." }, webhook: "https://example.com/your-webhook", webhook_events_filter: ["completed"] });
有关更多详细信息,您可以随时参阅Replicate上的文档。
想要探索适合您的应用程序的其他聊天机器人吗?当您使用AIModels.fyi时,查找与 llama13b-v2-chat 类似的模型很容易。
以下分步指南可帮助您找到满足您特定需求的其他人工智能模型:
前往AIModels.fyi开始您的探索。
输入关键短语,例如“文本到文本”、“语言模型”等。搜索引擎将提供适合您查询的模型列表。
您可以在搜索结果页面上找到用于缩小搜索范围的过滤器。您可以按类型、成本、受欢迎程度甚至特定创建者对模型进行过滤和排序。例如,如果您正在寻找预算友好的文本到文本模型,您可以按价格对模型进行排序,以找到最便宜的选项。
在本指南中,我们探索了 LLaMA v2 的潜力,这是一种功能丰富、经济高效的语言模型。它是您下一个聊天应用程序的潜在支柱,为细致入微且现实的对话提供支持。您现在知道如何实现此模型,了解其输入/输出,并有效地生成相关的聊天完成结果。
通过发挥您的想象力并将其与这些人工智能工具结合起来,您可以将自己带入广阔的人工智能领域,创造出令人兴奋的新项目。我们很高兴看到您下一步要去哪里。不要忘记订阅更多教程,了解新的和改进的 AI 模型的最新动态,并为您的下一个 AI 项目发挥创造力。到那时,祝 AI 冒险愉快,记得在我的推特上打个招呼。