您是否曾梦想过一款能够准确理解您所说内容并将其写下来的优秀转录工具?不像 YouTube 的自动翻译工具……我的意思是,它们很好,但远非完美。只需尝试一下并为视频打开该功能,您就会明白我在说什么。 幸运的是,OpenAI 刚刚发布并开源了一个非常强大的 AI 模型:Whisper。 它理解我什至无法理解的东西,不是以英语为母语的人(在视频中听),它也适用于语言翻译!在下面的视频中了解更多... 参考 ►阅读全文: ://www.louisbouchard.ai/whisper/ ► Radford, A., Kim, JW, Xu, T., Brockman, G., McLeavey, C. 和 Sutskever, I.,通过大规模弱的鲁棒语音识别 监督。 ►项目链接: ://openai.com/blog/whisper/ ►代码: ://github.com/openai/whisper ►Google Colab 笔记本: ://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb ►YouTube Whisperer 应用程序: ://huggingface.co/spaces/jeffistyping/Youtube-Whisperer ►My Newsletter(每周在您的电子邮件中解释的新 AI 应用程序!): ://www.louisbouchard.ai/newsletter/ https https https https https https 视频抄本 0:00 你有没有想过一个好的 0:01 准确的转录工具 0:03 理解你所看到的并写下来 0:05 不喜欢自动 YouTube 0:07 翻译工具我的意思是它们很好 0:09 但远非完美尝试一下 0:12 打开此视频的功能并 0:14 你会明白我在说什么 0:16 open AI 刚刚发布了一个开源的 0:18 和一个非常强大的 AI 模型 0:21 那耳语它甚至能理解我的东西 0:24 甚至无法理解不是本地人 0:26 英语母语者 0:28 这是微型机器人呈现 0:29 最微型的车队 0:30 微机每一台都有戏剧性 0:32 细节很棒的装饰精密页面艺术 0:33 加上令人难以置信的微型机口袋 0:34 说 PlayStation 开火的地方 0:36 也适用于语言翻译 0:38 耳语一致的液体它 0:41 自动发声 0:48 结果和精度令人难以置信 0:51 但更酷的是它的工作原理 0:53 让我们深入研究,但首先让我 0:56 介绍这一集的赞助商是 0:58 与本研究集会高度相关 1:00 AI组装AI是API平台 1:03 来自初创公司的最先进的人工智能模型 1:06 对财富 500 强公司的开发人员和 1:08 世界各地的产品团队利用 1:10 组装 AI 以构建更好的基于 AI 的 1:13 产品和功能,如果你是 1:15 构建会议摘要播客 1:17 分析器或任何相关的东西 1:19 音频或视频,并希望利用 AI 1:22 为转录或洞察力提供动力 1:24 规模肯定检查他们的API 1:26 更具体地说,我想要的平台 1:29 分享他们的总结模型,我 1:31 发现真的很酷,正如名字所说 1:34 这个模型你可以构建工具 1:36 自动总结您的音频和 1:38 视频文件模型可以灵活适应 1:41 您的用例,可以定制为 1:44 不同的摘要类型项目符号 1:46 段落标题或全部调整 1:48 通过简单的 API 调用工作,您 1:51 可以找到您需要的所有信息 1:53 用于汇总模型和装配 1:55 AI与下面的第一个链接 1:59 说到模型本身 2:01 耳语是非常经典的,它是建立在 2:04 Transformer 架构堆叠 2:06 编码器块和解码器块 2:08 传播的注意力机制 2:10 两者之间的信息将需要 2:13 录音将其分成 30 2:16 第二个块并逐个处理它们 2:18 每 30 秒录制一次 2:21 将使用编码器对音频进行编码 2:23 部分并保存每个位置 2:25 说的话并利用这个编码 2:28 信息以查找所说的内容 2:30 解码器将预测的解码器 2:33 我们称之为令牌的所有这些 2:34 这些信息基本上是每个 2:37 说的话会重复 2:39 下一个单词的这个过程使用 all 2:41 相同的信息以及 2:43 预测前一个单词帮助它 2:46 猜猜下一个会赚更多的 2:48 感觉就像我说的整体架构 2:50 是经典的编码器和解码器,我 2:53 在多个类似的视频中涵盖了它 2:55 gpt3 和其他语言模型,我 2:58 邀请您查看更多 3:00 建筑细节 3:02 接受了超过 600 000 小时的培训 3:05 多语言和多任务监督 3:08 从网络收集的数据意味着 3:11 他们训练了他们的音频模型 3:12 与 gpt3 类似的方式,有可用数据 3:15 在互联网上使它成为一个大而 3:18 通用音频模型它也使 3:20 模型比其他模型更健壮 3:23 事实上他们提到了那个耳语 3:24 由于接近人类水平的鲁棒性 3:27 接受如此多样化的训练 3:29 数据来自 Clips TED Talks 3:32 播客采访等等 3:34 用一些代表真实世界的数据 3:36 其中使用机器转录 3:38 基于学习的模型而不是人类 3:40 肯定使用这种不完善的数据 3:43 降低了可能的精度,但我 3:45 会争辩说它有助于稳健性 3:47 与纯人类相比,很少使用 3:49 精心策划的音频数据集 3:52 具有这样一般性的转录 3:54 模型本身并不是很强大 3:57 它会在大多数任务中被击败 3:58 适应更小和更具体的模型 4:01 手头的任务,但它有其他 4:03 您可以使用这种方法的好处 4:05 预训练模型并对其进行微调 4:08 你的任务意味着你将承担 4:10 这个强大的模型并重新训练一个部分 4:13 它或你自己的整个事情 4:15 该技术已被证明的数据 4:17 产生比开始更好的模型 4:19 使用您的数据从头开始训练 4:21 更酷的是openai open 4:24 采购他们的代码和一切 4:25 而不是 API,因此您可以使用耳语 4:28 作为预训练的基础架构 4:30 建立并创造更强大的 4:33 有些人有自己的模型 4:35 已经发布了像 4:37 Jeff 的 YouTube Whisperer 不拥抱脸 4:39 正在输入一个 YouTube 链接,并且 4:42 生成我发现的转录 4:44 感谢Yannick kilter,他们也 4:46 发布了一个谷歌协作笔记本 4:48 玩的时候马上玩 4:50 竞争是关键 我很高兴 openai 是 4:53 向公众发布其部分作品 4:54 我相信这样的合作是 4:57 在我们的领域取得进步的最佳方式让 5:00 如果你愿意,我知道你的想法 5:01 查看更多 openai 的公开版本,或者如果 5:04 你喜欢他们制造的最终产品 5:06 像往常一样,你可以找到更多 5:08 关于纸上耳语的信息 5:11 和下面链接的代码,我希望你已经 5:13 喜欢这个视频,下次见 5:15 一周与另一篇惊人的论文