在本教程中，我们重点介绍如何使用 Dewy 和 LangChain.js 构建问答 CLI 工具。 Dewy 是一个开源知识库，可帮助开发人员高效地组织和检索信息。 LangChain.js 是一个简化大型语言模型 (LLM) 与应用程序集成的框架。通过将 Dewy 的知识管理功能与 LangChain.js 的 LLM 集成相结合，您可以创建用精确且相关的信息回答复杂查询的工具。 本指南将引导您设置环境、将文档加载到 Dewy 中，以及通过 LangChain.js 使用 LLM 来回答基于存储数据的问题。它专为希望通过高级问答功能增强其项目的工程师而设计。 为什么选择 Dewy 和 LangChain.js？   是一个 OSS 知识库，旨在简化开发人员存储、组织和检索信息的方式。它的灵活性和易用性使其成为旨在构建知识驱动应用程序的开发人员的绝佳选择。 Dewy 另一方面，  是一个功能强大的框架，使开发人员能够将 LLM 无缝集成到他们的应用程序中。通过将 Dewy 的结构化知识管理与 LangChain.js 的 LLM 功能相结合，开发人员可以创建复杂的问答系统，该系统可以理解和处理复杂的查询，提供精确且与上下文相关的答案。 LangChain.js 目标 我们的目标是构建一个简单但功能强大的问答 CLI 脚本。该脚本将允许用户将文档加载到 Dewy 知识库中，然后通过 LangChain.js 使用 LLM 根据 Dewy 中存储的信息回答问题。本教程将指导您完成从设置环境到实施 CLI 脚本的整个过程。 您将学习如何使用 LangChain 构建一个简单的问答应用程序，以及如何将 Dewy 集成为知识源，让您的应用程序根据您提供的特定文档来回答问题。 先决条件 在深入学习本教程之前，请确保您满足以下先决条件：  Typescript 编程的基础知识 熟悉CLI工具开发 在本地计算机上运行的 Dewy 副本（如果您需要帮助，请参阅 Dewy 的 ）。 安装说明 第 1 步：设置您的项目 如果您想继续前进，可以 找到此示例的最终代码。 在 Dewy 存储库中 首先，为 TypeScript CLI 项目创建一个目录并切换到该目录 mkdir dewy_qa cd dewy_qa 设置目录后，您可以安装 TypeScript 并初始化项目：   npm init -y npm i typescript --save-dev npx tsc --init 根据您的环境，您可能需要对 TypeScript 配置进行一些更改。确保您的 类似于以下内容： tsconfig.json   { "compilerOptions": { "target": "ES6", "module": "CommonJS", "moduleResolution": "node", "declaration": true, "outDir": "./dist", "esModuleInterop": true, "strict": true, } 现在您已准备好创建 CLI 应用程序。为了防止代码变得太混乱，将其组织到几个目录中，布局如下 dewy_qa/ ├── commands/ │ └── ... ├── utils/ │ └── ... ├── index.ts ├── package.json └── tsconfig.ts 每个命令都会在 目录中实现，共享代码将在 目录中。 CLI 应用程序的入口点是文件  。 commands utils index.ts 从简单的“hello world”版本的 开始 - 您将在下一节中开始填写它 index.ts #!/usr/bin/env ts-node-script console.log("hello world"); 要验证环境设置是否正确，请尝试运行以下命令 - 您应该看到控制台中打印出“hello world”：   npx ts-node index.ts 让我们在 中为该命令创建一个条目，而不是每次都输入这个很长的命令。这将帮助我们记住如何调用 CLI，并使其更容易作为命令安装： package.json   { ... "bin": { "dewy_qa": "./index.ts" } ... } 现在您可以使用 运行脚本或 包并将其作为 运行 npm exec dewy_qa npm link dewy_qa 第二步：实现文档加载 通过设置 Dewy 客户端加载文档。第一步是向项目添加一些依赖项。第一个是  ，Dewy 的客户端库。第二个是  ，它将帮助我们构建一个具有参数解析、子命令等功能的 CLI 应用程序。最后，  使提示更加丰富多彩。 dewy-ts commander chalk   npm install dewy-ts commander chalk 接下来，实现加载命令的逻辑。您将在名为 的单独文件中执行此操作。该文件实现了一个名为 的函数，它需要一个 URL 和一些附加选项 - 这将在后面的部分中与 CLI 连接起来。 commands/load.ts load  Dewy 使文档加载变得超级简单 - 只需设置客户端并使用您要加载的文件的 URL 调用 即可。 Dewy 负责提取 PDF 的内容，将它们分割成大小合适的块，以便发送给法学硕士，并对它们建立索引以进行语义搜索。 addDocument   import { Dewy } from 'dewy-ts'; import { success, error } from '../utils/colors'; export async function load(url: string, options: { collection: string, dewy_endpoint: string }): Promise<void> { console.log(success(`Loading ${url} into collection: ${options.collection}`)); try { const dewy = new Dewy({ BASE: options.dewy_endpoint }) const result = await dewy.kb.addDocument({ collection: options.collection, url }); console.log(success(`File loaded successfully`)); console.log(JSON.stringify(result, null, 2)); } catch (err: any) { console.error(error(`Failed to load file: ${err.message}`)); } } 您可能已经注意到一些函数是从 导入的。该文件只是设置了一些用于为控制台输出着色的帮助程序 - 将其放入 中，以便可以在其他地方使用： ../utils/colors utils   import chalk from 'chalk'; export const success = (message: string) => chalk.green(message); export const info = (message: string) => chalk.blue(message); export const error = (message: string) => chalk.red(message); 第三步：实施问答 有了将文档加载到 Dewy 中的能力，是时候集成 LangChain.js 以利用 LLM 来回答问题了。此步骤涉及设置 LangChain.js 来查询 Dewy 知识库并使用 LLM 处理结果以生成答案。 首先，安装一些额外的包 -  和 以使用 OpenAI API 作为 LLM： langchain openai   npm install dewy-langchain langchain @langchain/openai openai 该命令有点长，因此我们将先介绍其中的几个部分，然后最后将它们组合起来 为 OpenAI 和 Dewy 创建客户端 首先要设置的是 Dewy（和以前一样）和法学硕士。与之前的一个区别是 用于构建  ：这是 LangChain 用于检索作为链的一部分的信息的特殊类型。您很快就会看到如何使用检索器。 dewy DewyRetriever   const model = new ChatOpenAI({ openAIApiKey: options.openai_api_key, }); const dewy = new Dewy({ BASE: options.dewy_endpoint }) const retriever = new DewyRetriever({ dewy, collection }); 创建 LangChain 提示 这是一个字符串模板，指示 LLM 的行为方式，并带有用于创建“链”时提供的附加上下文的占位符。在这种情况下，法学硕士被指示回答问题，但仅使用其提供的信息。这减少了模型“产生幻觉”的倾向，或者提出看似合理但错误的答案。  和 的值在下一步中提供： context question   const prompt = PromptTemplate.fromTemplate(`Answer the question based only on the following context: {context} Question: {question}`); 建立链条 LangChain 的工作原理是建立控制如何查询 LLM 和其他数据源的行为“链”。本示例使用  ，它比 LangChain 的一些原始接口提供了更灵活的编程体验。 LCEL 使用 创建 LCEL 链。该链描述了如何生成 和 值：上下文是使用之前创建的检索器生成的，问题是通过传递步骤的输入生成的。 Dewy 检索的结果通过管道传输到 函数来格式化为字符串。 RunnableSequence context question formatDocumentsAsString 该链执行以下操作： 它使用 检索文档，并将它们分配给  ，并将链的输入值分配给  。 DewyRetriever context question 它使用 和 变量来格式化提示字符串。 context question 它将格式化的提示传递给 LLM 以生成响应。 它将 LLM 的响应格式化为字符串。   const chain = RunnableSequence.from([ { context: retriever.pipe(formatDocumentsAsString), question: new RunnablePassthrough(), }, prompt, model, new StringOutputParser(), ]); 执行链 现在链已经构建完毕，执行它并将结果输出到控制台。正如您将看到的，  是函数调用者提供的输入参数。 question 使用 执行链可以让您看到从 LLM 返回的每个响应块。流处理程序循环有点丑陋，但它只是过滤到适当的流结果并将它们写入  （使用 会在每个块后添加换行符）。 chain.streamLog() STDOUT console.log   const stream = await chain.streamLog(question); // Write chunks of the response to STDOUT as they're received console.log("Answer:"); for await (const chunk of stream) { if (chunk.ops?.length > 0 && chunk.ops[0].op === "add") { const addOp = chunk.ops[0]; if ( addOp.path.startsWith("/logs/ChatOpenAI") && typeof addOp.value === "string" && addOp.value.length ) { process.stdout.write(addOp.value); } } } 将它们作为命令集中在一起 现在您已经了解了所有内容，可以准备创建 命令了。这应该与之前的 命令类似，但有一些额外的导入。 query load   import { StringOutputParser } from "@langchain/core/output_parsers"; import { PromptTemplate } from "@langchain/core/prompts"; import { formatDocumentsAsString } from "langchain/util/document"; import { RunnablePassthrough, RunnableSequence } from "@langchain/core/runnables"; import { ChatOpenAI } from "@langchain/openai"; import { Dewy } from 'dewy-ts'; import { DewyRetriever } from 'dewy-langchain'; import { success, error } from '../utils/colors'; export async function query(question: string, options: { collection: string, dewy_endpoint: string, openai_api_key: string }): Promise<void> { console.log(success(`Querying ${options.collection} collection for: "${question}"`)); try { const model = new ChatOpenAI({ openAIApiKey: options.openai_api_key, }); const dewy = new Dewy({ BASE: options.dewy_endpoint }) const retriever = new DewyRetriever({ dewy, collection: options.collection }); const prompt = PromptTemplate.fromTemplate(`Answer the question based only on the following context: {context} Question: {question}`); const chain = RunnableSequence.from([ { context: retriever.pipe(formatDocumentsAsString), question: new RunnablePassthrough(), }, prompt, model, new StringOutputParser(), ]); const stream = await chain.streamLog(question); // Write chunks of the response to STDOUT as they're received console.log("Answer:"); for await (const chunk of stream) { if (chunk.ops?.length > 0 && chunk.ops[0].op === "add") { const addOp = chunk.ops[0]; if ( addOp.path.startsWith("/logs/ChatOpenAI") && typeof addOp.value === "string" && addOp.value.length ) { process.stdout.write(addOp.value); } } } } catch (err: any) { console.error(error(`Failed to query: ${err.message}`)); } } 第 4 步：构建 CLI 集成 Dewy 和 LangChain.js 后，下一步是构建 CLI 界面。使用像 这样的库创建一个用户友好的命令行界面，该界面支持将文档加载到 Dewy 中并使用 LangChain.js 查询知识库的命令。 commander 首先，重写 以创建子命令 和  。  参数确定文档应加载到哪个 Dewy 集合（Dewy 允许您将文档组织到不同的集合中，类似于文件夹）。  参数允许您指定如何连接到 Dewy - 默认情况下假定实例在端口 上本地运行。最后，  参数（默认为环境变量）配置 OpenAI API： index.ts load query --collection --dewy-endpoint 8000 --openai_api_key   #!/usr/bin/env ts-node-script import { Command } from 'commander'; import { load } from './commands/load'; import { query } from './commands/query'; const program = new Command(); program.name('dewy-qa').description('CLI tool for interacting with a knowledge base API').version('1.0.0'); const defaultOpenAIKey = process.env.OPENAI_API_KEY; program .command('load') .description("Load documents into Dewy from a URL") .option('--collection <collection>', 'Specify the collection name', 'main') .option('--dewy-endpoint <endpoint>', 'Specify the collection name', 'http://localhost:8000') .argument('<url>', 'URL to load into the knowledge base') .action(load); program .command('query') .description('Ask questions using an LLM and the loaded documents for answers') .option('--collection <collection>', 'Specify the collection name', 'main') .option('--dewy-endpoint <endpoint>', 'Specify the collection name', 'http://localhost:8000') .option('--openai-api-key <key>', 'Specify the collection name', defaultOpenAIKey) .argument('<question>', 'Question to ask the knowledge base') .action(query); program.parse(process.argv); 好的，一切都完成了 - 是不是很容易？您可以通过运行以下命令来尝试一下：   dewy_qa load https://arxiv.org/pdf/2009.08553.pdf 你应该看到类似的东西 Loading https://arxiv.org/pdf/2009.08553.pdf into collection: main File loaded successfully { "id": 18, "collection": "main", "extracted_text": null, "url": "https://arxiv.org/pdf/2009.08553.pdf", "ingest_state": "pending", "ingest_error": null } 提取大型 PDF 的内容可能需要一两分钟，因此当您首次加载新文档时，您经常会看到  。 "ingest_state": "pending" 接下来，尝试问一些问题：   dewy_qa query "tell me about RAG 你应该看到类似的东西 Querying main collection for: "tell me about RAG" Answer: Based on the given context, RAG refers to the RAG proteins, which are involved in DNA binding and V(D)J recombination. The RAG1 and RAG2 proteins work together to bind specific DNA sequences known as RSS (recombination signal sequences) and facilitate the cutting and rearrangement of DNA segments during the process of V(D)J recombination... 结论 通过遵循本指南，您已经了解了如何创建一个 CLI，该 CLI 使用 Dewy 来管理知识，并使用 LangChain.js 来处理问题并生成答案。该工具演示了将结构化知识库与法学硕士的分析能力相结合的实际应用，使开发人员能够构建更智能、响应更灵敏的应用程序。 进一步阅读和资源 Dewy GitHub 存储库：https:  //github.com/Dewy  Dewy TypeScript 客户端存储库：  https://github.com/DewyKB/dewy-ts  Dewy LangChain 集成存储库：  https://github.com/DewyKB/dewy_langchainjs  LangChain.js 文档：https:  //js.langchain.com  OpenAI 文档：https:  //platform.opnai.com

This writer has a vested interest be it monetary, business, or otherwise, with 1 or more of the products or companies mentioned within.

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

The code in this story is for educational purposes. The readers are solely responsible for whatever they build with it.

Read My Stories

該音頻是用故事的原始語言製作的！

使用 Dewy 和 LangChain.js 创建问答 CLI

About Author

註釋

標籤

这篇文章刊登在

Related Stories

从论坛到信息流：社交媒体算法如何塑造数字互动

创建以用户为中心的加密产品：客户反馈的重要性

State of the Noonion: Green Clock Strikes Noon

成功云迁移的完整指南：策略和最佳实践

从论坛到信息流：社交媒体算法如何塑造数字互动

创建以用户为中心的加密产品：客户反馈的重要性

State of the Noonion: Green Clock Strikes Noon

成功云迁移的完整指南：策略和最佳实践

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps