paint-brush
用于生成文本到视频的 AI 堆栈经过@ratikeshmisra
2,210 讀數
2,210 讀數

用于生成文本到视频的 AI 堆栈

经过 Ratikesh4m2024/01/17
Read on Terminal Reader

太長; 讀書

使用人工智能工具创建视频内容不仅变得简单快捷,而且富有创意。在这篇文章中,我们学习如何使用抽象层中的工具创建一个管道来生成文本到视频。
featured image - 用于生成文本到视频的 AI 堆栈
Ratikesh HackerNoon profile picture
0-item
1-item

近年来,随着大型语言模型的诞生,我们批判性争论的一件事是, AI 生成的内容(如 AI 艺术、AI 视频等)是否会破坏内容创作者的创造力,还是可以提高质量并为他们提供帮助。在我之前的博客中,我讨论了人工智能代码生成工具如何帮助为软件开发周期增加价值,在这篇文章中,我将主要强调如何使用人工智能工具创建视频内容不仅变得简单、快速,而且富有创意。


在了解如何利用当前的视频和图像模型来生成创意和引人入胜的内容之前,了解当前的状态非常重要,我们可以将当前的人工智能视频生成景观分层如下:

AI 视频生成中的层

  1. 现有的视频编辑器试图将 AI 集成到他们的工作流程中,例如 Adobe、Canva 等。

  2. 基于人工智能的新时代视频编辑工具,如 Fliki.ai、unscreen.com、synthesia.ai、hourone.ai 等。

  3. 抽象层专用于视频生成工作流程中的单个用例,例如Midjourney有助于为视频创建逼真的图像, RunwayML提供了将图像转换为视频或图像转换为图像的平台, Did有助于将动画添加到图像等。

  4. 模型层构成了整个景观的基础,软件团队可以利用该层来定制他们的用例。


随着我们在层上的灵活性降低,而易用性增加,在本文的上下文中,我们将深入了解如何使用抽象层来生成创意视频,因为该层处于灵活性和易用性的中间。易用性,作为一名艺术家,需要两全其美。

构建文本到视频的管道

我们学习如何使用抽象层中的工具创建管道来生成文本到视频之前,重要的是要记下生成视频的步骤以及每个层中可以使用哪些工具。



AI 视频生成工作流程



AI文本转视频生成涉及以下步骤:

1. 使用 GPT 提示从脚本生成场景


我做的第一步是用很少的镜头提示 GPT 以每个场景中涉及的角色之间对话的形式给出印地语脚本。


输入

输入


输出


输出


2. 从场景生成图像

这是关键的一步,涉及到为从脚本中分解出来的场景创建图像,这一切都归结为我们如何使用Midjourney的提示准则创造性地表达自己,下面的示例提到了 Midjourney 生成的提示场景的图像。



印度老圣人向云勋爵求助的漫画场景;云主拟人化,脸上带着幸福,周围环境树木茂盛,乌云密布,周围有闪电


生成图像


3.为图像添加动画

如果您需要向图像添加动画,您可以使用DiDRunwayML添加角色运动和场景动画。

4. 生成场景旁白的AI语音

在这一步中,您可以使用十一个实验来生成用于旁白的AI语音,一般来说,这些是文本转语音旁白模型,后面使用的听起来可能有点机器人,但解决了生成语音的目的,可以使其更具表现力和真实感来自 11 个实验室的付费版本,对于这个故事,我需要印地语语音旁白,而Ai4Bharat 文本到语音旁白做得很好。

5. 拼接视频片段并同步声音

这是在视频编辑器中添加图像并根据场景和旁白时间线同步声音的最后也是最简单的一步,Canva 和 Adobe Express 等工具在这里做得很好。

视频制作的大致成本

上面是如何使用一些基本工具快速从文本生成视频的最简单的细分,对于我的例子,我生成了一个大约 3 分钟的视频,有 16 个独特的场景,有趣的是看看我付出的时间和金钱生成这个视频:


中途费用 ~ $0.05/图像 - 16*0.05 = $0.8

RunwayML ~ $0.02/图像 - 16*0.02 = 0.32

Canva ~ 免费,因为没有使用他们的高级工件

总成本 ~ 1 美元/视频


Fliki 等新时代的 AI 视频编辑器相比,Fliki的 180 分钟创作费用约为每月 28 美元,而上述视频长度的成本约为 0.5 美元

需要捆绑产品

尽管与使用 Midjourney、RunwayML 等工具产生的总成本相比,在基于 AI 的视频编辑器中生成视频的最终成本似乎较低,但随着成本的增加,这些工具为视频内容创建者提供了灵活性和创造力,并可以帮助在生成一些可以与好莱坞电影的惊人场景相媲美的令人惊叹的视频时,似乎如果这些人工智能工具能够与视频机构或视频制作公司的工作流程捆绑和集成,它们就可以在视频制作中产生最大的价值,正如Justine Moore,线程中的合作伙伴@a16z也反映了同样的情况。




贾斯汀·摩尔