paint-brush
法学硕士傻瓜 - 演练指南和术语表经过@reneeeshaw
2,906 讀數
2,906 讀數

法学硕士傻瓜 - 演练指南和术语表

经过 Renee4m2024/01/26
Read on Terminal Reader

太長; 讀書

人工智能中有一些你可能不知道的单词——这是我如何向 5 岁的孩子解释它们的。
featured image - 法学硕士傻瓜 - 演练指南和术语表
Renee HackerNoon profile picture
0-item

这是你👆吗?你没有做过 CompSci,所以现在你是宫廷小丑,快速尝试在世界上前所未见的 __ 发展最快的行业__ 中扩展知识?

喘口气。这是一篇回归基础的文章,您可以在其中提出“一个非常愚蠢的问题” ,而不会感到受到评判。

供学习者使用的法学硕士术语小词汇表

Transformer — 不只是看上去那么简单……机器学习中使用的一种模型,特别是用于处理文本或音频等数据序列。它擅长理解句子中的上下文,可用于翻译语言、总结文本或生成聊天机器人响应。


大型语言模型 (LLM) —它就像一个巨大的语言知识数据库,可以撰写文章、回答问题或创建真实的对话。

图片来源:作者在 excallidraw 中制作


Transformer 是人工智能中用于处理语言的一种技术。 LLM 是用于语言任务的大型人工智能模型,通常使用 Transformer 技术构建。


界面——计算机系统或软件的一部分,允许用户与其交互。将其视为程序的前端,您在其中输入问题或命令,程序就会做出响应。


推理——在人工智能中,这意味着使用经过训练的模型来做出预测或决策。例如,训练模型识别图片中的猫后,推理就是模型查看新图片并判断其中是否有猫。🐈‍⬛


监督学习——一种训练机器的方法,您可以为模型提供示例并给出答案。就像向程序展示大量猫的图片并告诉它“这是一只猫”,这样它就可以了解猫的样子。


无监督学习heeeyo) ——训练机器而不给出答案。该模型查看数据并尝试自行查找模式或组。例如,它可能会将不同类型的音乐分类为流派,而无需告知流派名称。

“fewshot Learning”的一个例子(作者:excallidraw 制作)



强化学习——通过反复试验来教导机器。机器在某种情况下做出选择,并根据其选择是好还是坏获得奖励或惩罚,随着时间的推移学习以做出更好的决策(或变得怨恨和神秘)


神经网络——设计得有点像人脑。它由许多小单元(如脑细胞)组成,它们协同工作来处理信息和解决问题。

创建法学硕士

收集您的数据


首先收集各种文本数据。这可能包括书籍、在线文章或数据库中的数据。您的数据越多样化,您的法学硕士就越能更好地理解语言的不同方面。


Kaggle 拥有用于机器学习和数据科学项目的大量数据。看看澳大利亚本地Kaggle 大师杰里米·霍华德 (Jeremy Howard)


GitHub通常托管研究人员和开发人员发布的数据集。搜索的好地方。


值得一提- 与论文 + 政府网站相关的数据集的 Google Scholar

数据预处理


现在,清理这些数据。此步骤是关于修复错误、删除无用的部分并对其进行组织,以便您的 AI 可以有效地从中学习。


注意事项

您将如何处理缺失值、修复格式问题、处理重复数据?


选择模型架构

模型架构本质上是模型的设计或结构,充当指导人工智能如何处理信息的蓝图。


Transformer 架构专门为处理文本等顺序数据而设计,专注于理解数据中的上下文,今天我们将坚持这一点。

训练模型

将准备好的数据输入到您的人工智能模型中。这是你的人工智能开始学习语言复杂性的地方。培训可能会耗费时间和资源,尤其是在处理大量数据的情况下。 (在这里我想提一下我在Unsloth的朋友们,播客即将推出)

测试和精炼

训练结束后,评估您的 AI 理解和生成语言的能力。根据结果,您可能需要调整和重新训练以提高其性能。


图片来源:作者在 excallidraw 中制作


运行法学硕士

现在,你如何驾驭这头野兽?

您可以使用Hugging Face来访问已经接受过海量数据训练的模型,而不是从头开始构建法学硕士。您可以在其云服务上运行这些模型,也可以下载它们以在您的计算机上本地运行。


无论您如何选择,关键是拥有经过培训的 LLM 模型以及与其交互的方式,无论是通过互联网还是直接在计算机上。

信用作者在 excallidraw 中制作


这是旨在减少理解和采用开源人工智能障碍的一系列帖子中的第一篇。


我在这里编写和制作播客 -

(非)监督学习


其他链接在这里https://linktr.ee/Unsupervisedlearning


也发布在这里