我开始手工总结十几本书,发现每次总结都要花几周的时间。然后我想起了这场人工智能革命的发生,并决定我早就该跳入这片水域了。
当我开始探索使用大型语言模型(LLM)来总结大型文本时,我发现没有明确的方向说明如何做到这一点。
本指南提供了我确定和测试上述变量细节的过程的一些细节。
其中一些术语的使用方式不同,具体取决于上下文(无双关语)。
大型语言模型(LLM) :(又名模型)一种人工智能,经过海量数据集的训练来理解和生成人类语言。
示例:OpenAI 的 GPT3.5 和 GPT4 风靡全球。 (在我们的例子中,我们在Hugging Face上找到的开源和/或可免费下载的模型中进行选择。)
检索增强生成(RAG) : 由 Meta AI 开发的一种技术,将文档存储在数据库中,法学硕士可以在数据库中进行搜索,以找到给定用户查询(文档 Q/A)的答案。
用户指令:(又名提示或上下文)是用户提供的查询。
示例:“总结以下文本: { text }
”
系统提示:在用户提示之前给出的特殊说明,有助于塑造助手的个性。
示例:“你是一位乐于助人的人工智能助手。”
上下文:用户指令,可能还有系统提示,可能还有前几轮的问题\答案对。 (之前的 Q/A 对也简称为上下文)。
提示样式:这些是特殊的字符组合,法学硕士接受培训时可以识别用户指令、系统提示和先前问题的上下文之间的差异。
示例: <s>[INST] {systemPrompt} [INST] [INST] {previousQuestion} [/INST] {answer} </s> [INST] {userInstructions} [/INST]
7B:表示给定模型中的参数数量(通常越高越好)。参数是模型在训练过程中学习的内部变量,用于进行预测。就我的目的而言,7B 型号可能适合我的具有 12GB VRAM 的 GPU。
GGUF:这是专为消费类硬件(CPU/GPU)设计的LLM的特定格式。无论您对哪种模型感兴趣,要在 PrivateGPT 中使用,您必须找到其 GGUF 版本(通常由TheBloke制造)。
Q2-Q8 0、K_M 或 K_S:浏览 GGUF 存储库的文件时,您将看到同一模型的不同版本。数字越大意味着压缩越少,质量越好。 K_M 中的 M 表示“中”,K_S 中的 S 表示“小”。
VRAM:这是 GPU 的内存容量。要将其完全加载到 GPU,您需要一个比可用 VRAM 更小的模型。
标记:这是法学硕士衡量语言的指标。每个标记大约由 4 个字符组成。
PrivateGPT (pgpt) 是一个开源项目,提供用户界面和可编程 API,使用户能够在家中通过自己的硬件使用 LLM。它允许您将文档上传到您自己的本地数据库,以进行 RAG 支持的文档问答。
PrivateGPT 提供了一个API,其中包含构建私有的、上下文感知的 AI 应用程序所需的所有构建块。该API遵循并扩展了OpenAI API标准,支持普通响应和流响应。这意味着,如果您可以在您的工具之一中使用 OpenAI API,则可以使用您自己的 PrivateGPT API,无需更改代码,并且如果您在
local
模式下运行 privateGPT,则免费。
我首先使用PrivateGPT UI\RAG 提出问题来预订章节。
然后尝试预先选择文本进行摘要。这就是第一轮排名的灵感,看看我的结果会显示出多大的差异。 (总结预先选择的部分。)
接下来,我想找出哪些模型在这项任务上表现最好,这导致了第二轮排名,其中Mistral-7B-Instruct-v0.2明显获胜。
然后我想通过对提示样式进行排名并编写代码来获得预期的确切提示样式,从而从该模型中获得最佳结果。
当然,在那之后,我必须测试各种系统提示,看看哪个效果最好。
接下来,我尝试了一些用户提示,以确定生成需要最少后处理的摘要的最佳提示是什么。
最终,应该对每个法学硕士进行此类测试,并确定我们流程中任何改进的有效性。在我看来,只有当每个模型都针对其最理想的条件时,它们才能正确地相互排名。
当我开始测试各种 LLM 变体时, mistral-7b-instruct-v0.1.Q4_K_M.gguf
作为 PrivateGPT 默认设置的一部分(在您的 CPU 上运行)。在这里,我更喜欢 Q8_0 变体。
虽然我已经尝试了 50 多个不同的 LLM 来完成同一任务,但 Mistral-7B-Instruct 仍然是最好的,特别是自从 v0.2 发布以来我还没有找到更好的。
TLDR: Mistral-7B-Instruct-v0.2 - 是我目前负责汇总任务的领导者。
我很快发现,在进行问答时,将较小的数据块上传到数据库中并且每次都从干净的状态开始时,我会得到更好的结果。因此,我开始将 PDF 分成章节以用于问答目的。
在我的第一次分析中,我针对以下任务测试了 5 个不同的法学硕士:
模型 | 评分 | 搜索准确度 | 人物 | 秒数 | 学士 | 填料 | 短的 | 良好的学士学位 |
---|---|---|---|---|---|---|---|---|
Hermes-trismegistus-mistral-7b | 68 | 56 | 62141 | 298 | 3 | 4 | 0 | 6 |
Synthia-7b-v2.0 | 63 | 59 | 28087 | 188 | 1 | 7 | 7 | 0 |
米斯特拉尔-7b-指令-v0.1 | 51 | 56 | 21131 | 144 | 3 | 0 | 17 号 | 1 |
集体认知-v1.1-mistral-7b | 56 | 57 | 59453 | 第377章 | 3 | 10 | 0 | 0 |
kai-7b-指令 | 44 | 56 | 21480 | 117 | 5 | 0 | 18 | 0 |
对于第一轮,我将章节内容分为几个部分,其中包含一系列内容
每个 900-14000 个字符(或 225-3500 个标记)。
注意:尽管已经发布了许多大型上下文模型,但目前,我仍然相信较小的上下文会产生更好的摘要。我不喜欢每个摘要任务超过 2750 个标记(11000 个字符)。
毫不奇怪,摘要的表现比问答要好得多,但它们也有更明确的目标上下文。
姓名 | 分数 | 生成的角色 | 与 OG 的差异百分比 | 生成秒数 | 短的 | 垃圾 | 学士 | 充满 | 问题 | 详细的 |
---|---|---|---|---|---|---|---|---|---|---|
Hermes-trismegistus-mistral-7b | 74 | 45870 | -61 | 274 | 0 | 1 | 1 | 3 | 0 | 0 |
Synthia-7b-v2.0 | 60 | 26849 | -77 | 171 | 7 | 1 | 0 | 0 | 0 | 1 |
米斯特拉尔-7b-指令-v0.1 | 58 | 25797 | -78 | 174 | 7 | 2 | 0 | 0 | 0 | 0 |
kai-7b-指令 | 59 | 25057 | -79 | 168 | 5 | 1 | 0 | 0 | 0 | 0 |
集体认知-v1.1-mistral-7b | 31 | 29509 | -75 | 214 | 0 | 1 | 1 | 2 | 17 号 | 8 |
在Google Docs或 GitHub 上查找完整数据和排名: QA 分数、 摘要排名。
再说一次,我更喜欢7B车型的Q8版本。
发现Mistral 7b Instruct v0.2已经发布,非常值得进行新一轮的测试。
我还决定测试一下提示样式。 PrivateGPT 并未与 Mistral 提示符打包在一起,虽然 Mistral 提示符与 Llama2 提示符类似,但它似乎在默认 (llama-index) 提示符下表现更好。
只有摘要,Q/A对于书籍摘要来说效率较低。
模型 | % 不同之处 | 分数 | 评论 |
---|---|---|---|
合成7b V2 | -64.43790093 | 28 | 好的 |
Mistral 7b Instruct v0.2(默认提示) | -60.81878508 | 33 | 维古德 |
Mistral 7b 指令 v0.2(Llama2 提示) | -64.5871483 | 28 | 好的 |
苔丝7b v1.4 | -62.12938978 | 29 | 结构较少 |
Llama 2 7b 32k 指令(默认) | -61.39890553 | 27 号 | 结构较少。慢的 |
在Google Docs或GitHub上查找完整数据和排名。
在上一轮中,我注意到Mistral 7b Instruct v0.2在默认提示下的表现比 llama2 好得多。
嗯,实际上,mistral 提示符与 llama2 非常相似,但并不完全相同。
system: {{systemPrompt}} user: {{userInstructions}} assistant: {{assistantResponse}}
<s> [INST] <<SYS>> {{systemPrompt}} <</SYS>> {{userInstructions}} [/INST]
<s>[INST] {{systemPrompt}} [/INST]</s>[INST] {{userInstructions}} [/INST]
我开始使用default
测试输出,然后llama2
提示样式。接下来,我开始对 Misstral 模板进行编码。
该排名的结果让我确信我的编码是正确的。
提示风格 | % 不同之处 | 分数 | 笔记 |
---|---|---|---|
米斯特拉尔 | -50% | 51 | 完美的! |
默认(美洲驼索引) | -42% | 43 | 错误的标题 |
骆驼2 | -47% | 48 | 无结构 |
在Google Docs或GitHub上查找完整数据和排名。
当我拨入提示样式后,我尝试了几种不同的系统提示,并对结果感到惊讶!
姓名 | 系统提示 | 改变 | 分数 | 评论 |
---|---|---|---|---|
没有任何 | | -49.8 | 51 | 完美的 |
默认提示 | 你是一位乐于助人、受人尊敬且诚实的助手。 \n始终尽可能提供有帮助的答案,并遵循所有给出的说明。 \n请勿猜测或编造信息。 \n不要引用任何给定的说明或上下文。” | -58.5 | 39 | 不太好 |
我的提示1 | “你是被爱的。作为总结、提纲和结构方面的专家。\n你的写作风格应该内容丰富且逻辑性强。” | -54.4 | 44 | 不太好 |
简单的 | “你是一个有用的人工智能助手。不要在你的输出中包含任何用户指令或系统上下文。” | -52.5 | 42 | 不太好 |
最后,我发现Mistral 7b Instruct v0.2最适合我的摘要,无需任何系统提示。
也许对于不同的任务会有不同的结果,或者可能有更好的提示,但这很有效,所以我不会搞乱它。
在Google Docs或GitHub上查找完整数据和排名。
我已经开始怀疑,提示中的单词越少,我就越能得到更好的结果。由于我找到了Mistral 7b Instruct v0.2的最佳系统提示,我还测试了哪种用户提示最适合它。
| 迅速的 | 与 OG | 分数 | 笔记 |
---|---|---|---|---|
提示0 | 写下简洁而全面的笔记,总结以下文本。使用嵌套的项目符号点:标题、术语和关键概念以粗体显示。重点关注本文中的基本知识,而不添加任何外部信息。 | 43% | 11 | |
提示1 | 写下简洁而全面的笔记,总结以下文本。使用嵌套的项目符号点:标题、术语和关键概念以粗体显示。重点关注本文中的基本知识,而不添加任何外部信息。 | 46% | 11 | 额外说明 |
提示2 | 写下总结以下文字的综合笔记。使用嵌套的项目符号点:标题、术语和关键概念以粗体显示。 | 58% | 15 | |
提示3 | 创建简洁的要点注释,总结以下文本的重要部分。使用嵌套的项目符号点,标题术语和关键概念以粗体显示,包括空格以确保可读性。避免重复。 | 43% | 10 | |
提示4 | 写下简洁的笔记,总结以下文本。使用嵌套的项目符号点:标题、术语和关键概念以粗体显示。 | 41% | 14 | |
提示5 | 创建全面但简洁的注释来总结以下文本。使用嵌套的项目符号点:标题、术语和关键概念以粗体显示。 | 52% | 14 | 额外说明 |
在Google Docs或GitHub上查找完整数据和排名。
也许使用可以支持 11b 或 30b 型号的更强大的硬件,我会通过更具描述性的提示获得更好的结果。即使使用 Mistral 7b Instruct v0.2,我仍然愿意尝试一些创造性的指令,但现在我很高兴改进我现有的流程。
写下总结以下文字的综合笔记。使用嵌套的项目符号点:标题、术语和关键概念以粗体显示。
在这种情况下,全面的表现比“简洁”更好,甚至比“全面,但简洁”表现得更好。
但是,我确实提醒您,这将取决于您的用例。我正在寻找的是涵盖重要知识的高度浓缩且可读的笔记。
本质上,如果我没有读过原著,即使不是每个具体细节,我仍然应该知道它传达了什么信息。即使我读过原著,以后我也不会记住大部分内容。这些注释是主要主题的快速参考。
利用从这些测试中获得的知识,我在 5-6 小时内总结了我的第一本完整的书,539 页!极好的!
我没有花几周的时间来写摘要,而是只用了 10 天就完成了前 9 本书的摘要。
您可以在此处查看下面CopyLeaks发布的每篇文本的结果。
特别是考虑到这不是为了盈利,而是出于教育目的,我相信这些数字是可以接受的。
书 | 楷模 | 性格差异 | 完全相同的 | 小改动 | 释义 | 总匹配数 |
---|---|---|---|---|---|---|
东方身体西方心灵 | 辛西亚7Bv2 | -75% | 3.5% | 1.1% | 0.8% | 5.4% |
迷走神经的治愈力量 | Mistral-7B-指令-v0.2; SynthIA-7B-v2.0 | -81% | 1.2% | 0.8% | 2.5% | 4.5% |
阿育吠陀与心灵 | Mistral-7B-指令-v0.2; SynthIA-7B-v2.0 | -77% | 0.5% | 0.3% | 1.2% | 2% |
治愈创伤幸存者支离破碎的自我 | Mistral-7B-指令-v0.2 | -75% | | | | 2% |
安全的基地 | Mistral-7B-指令-v0.2 | -84% | 0.3% | 0.1% | 0.3% | 0.7% |
身体记录分数 | Mistral-7B-指令-v0.2 | -74% | 0.1% | 0.2% | 0.3% | 0.5% |
完整的脉轮书 | Mistral-7B-指令-v0.2 | -70% | 0.3% | 0.3% | 0.4% | 1.1% |
依恋理论 50 年 | Mistral-7B-指令-v0.2 | -70% | 1.1% | 0.4% | 2.1% | 3.7% |
成人依恋障碍 | Mistral-7B-指令-v0.2 | -62% | 1.1% | 1.2% | 0.7% | 3.1% |
心理学专业的伴侣 | Mistral-7B-指令-v0.2 | -62% | 1.3% | 1.2% | 0.4% | 2.9% |
生活中的心理学 | Mistral-7B-指令-v0.2 | -74% | 0.6% | 0.4% | 0.5% | 1.6% |
我没有花几周的时间来写摘要,而是只用了 10 天就完成了前 9 本书的摘要。括号内是原件的页数。
如果您有兴趣更仔细地遵循我的步骤,请查看GitHub 上的演练,其中包含脚本和示例。
现在我已经完善了我的流程,并且对使用提示格式充满信心,我将进行进一步的测试。事实上,我已经进行了进一步的测试和排名(接下来将发布这些),但当然会再次进行更多测试并继续学习!
我仍然相信,如果你想在使用人工智能执行的任何任务中获得最佳结果,你应该进行自己的实验,看看什么最有效。不要仅仅依赖流行模型排名,而是用它们来指导您自己的研究。
也出现在这里。