2,079 測定値

テキストからビデオへの生成のための AI スタック

に Ratikesh4m2024/01/17

長すぎる; 読むには

AI ツールを使用してビデオコンテンツを作成することは、簡単かつ迅速になるだけでなく、創造性も高まります。この投稿では、抽象化レイヤーのツールを使用してテキストからビデオへの変換を生成するパイプラインを作成する方法を学びます。

featured image - テキストからビデオへの生成のための AI スタック

‘A banner image representing multiple server stack’ Image created by HackerNoon AI Image Generator

大規模な言語モデルが誕生した最近、私たちが批判的に議論していることの 1 つは、AI アートや AI ビデオなどのAI によって生成されたコンテンツがコンテンツ作成者の創造性を破壊するのか、それとも品質を向上させて支援できるのかということです。前回のブログでは、AI コード生成ツールがどのようにソフトウェア開発サイクルに付加価値を与えることができるかについて説明しました。この投稿では主に、AI ツールを使用することでビデオコンテンツの作成がどのように簡単かつ迅速になるだけでなく、創造的になるかを主に説明します。。

クリエイティブで魅力的なコンテンツを生成する際に現在のビデオおよび画像モデルをどのように活用できるかを理解する前に、現在の状態がどのようなものであるかを理解することが重要です。現在の AI ビデオ生成の状況を以下のように階層化できます。

Adobe、Canva など、 AI をワークフローに統合しようとしている既存のビデオ編集者。
Fliki.ai、unscreen.com、synthesia.ai、hourone.ai などのAI ベースの新時代のビデオ編集ツール
ビデオ生成ワークフローにおける単一のユースケース専用の抽象化レイヤー。たとえば、 Midjourney はビデオ用のリアルな画像の作成に役立ち、 RunwayML は画像からビデオまたは画像から画像に変換するプラットフォームを提供し、 Didは画像にアニメーションを追加するのに役立ちます。
ランドスケープ全体のベースを形成するモデルレイヤー。ソフトウェアチームはこのレイヤーを活用して、ユースケースに合わせてカスタマイズできます。

レイヤーの上位に進むにつれて、カスタマイズの柔軟性が低下し、使いやすさが向上します。この記事の文脈では、このレイヤーは柔軟性と柔軟性の中間に位置するため、クリエイティブなビデオを生成する際に抽象化レイヤーを使用する方法を理解するために深く掘り下げていきます。使いやすさ、そしてアーティストとしては両方の長所を必要とします。

テキストからビデオへのパイプラインの構築

抽象化レイヤーのツールを使用してテキストからビデオを生成するパイプラインを作成する方法を学ぶ前に、ビデオを生成する手順と各レイヤーで使用できるツールを書き留めておくことが重要です。

AI によるテキストからビデオへの生成には、次の手順が含まれます。

1. GPT プロンプトを使用してスクリプトからシーンを生成する

私が行った最初のステップは、GPT を数ショットプロンプトで作成し、すべてのシーンに関係する登場人物間の対話の形でヒンディー語のスクリプトを渡すことでした。

入力

出力

2. シーンから画像を生成する

これは重要なステップであり、スクリプトから分割されたシーンの画像の作成が含まれます。すべては、 Midjourneyのプロンプトガイドラインを使用して、いかに創造的に自分自身を表現できるかにかかっています。以下の例では、Midjourney に生成するために与えられたプロンプトについて言及しています。シーンのイメージ。

インドの古いヒンズー教の聖者がクラウド卿に助けを求めているシーンの漫画。主雲は擬人化されており、その顔には幸せがあり、周囲の環境は木々でいっぱいで、暗い雲があり、周囲は明るくなっています。

3. 画像にアニメーションを追加する

画像にアニメーションを追加する必要がある場合は、 DiDまたはRunwayMLを使用してキャラクターのモーションとシーンのアニメーションを追加できます。

4. シーンナレーションのAI音声生成

このステップでは、11 のラボを使用してナレーション用の AI 音声を生成できます。一般に、これらはテキスト読み上げナレーションモデルです。少しロボットのように聞こえるかもしれませんが、音声生成の目的は解決され、より表現力豊かで現実的なものにすることができます。 eleven labs の有料バージョンでは、このストーリーのためにヒンディー語の音声ナレーションが必要でしたが、 Ai4Bharat のテキスト読み上げナレーションが素晴らしい仕事をしてくれました。

5. ビデオクリップをつなぎ合わせて音声を同期する

これは、ビデオエディタに画像を追加し、シーンやナレーションのタイムラインに従って音声を同期するための最後の最も簡単な手順です。ここでは、Canva や Adobe Express などのツールがうまく機能します。

動画制作にかかる費用の目安

上記は、いくつかの基本的なツールを使用してテキストからビデオをすばやく生成する方法の最も単純な内訳です。私の例では、16 のユニークなシーンを含む約 3 分のビデオを生成しました。興味深いのは、私が支払った時間と費用を確認することです。このビデオを生成します:

中間コスト ~ 0.05 ドル/画像 - 16*0.05 = 0.8 ドル

RunwayML ~ $0.02/画像 - 16*0.02 = 0.32

Canva ~ プレミアムアーティファクトを使用していないため無料

総コスト ~ 1 ビデオあたり $1

これを、180 分の作成で月額約 28 ドルの料金を請求するFlikiのような新時代の AI ビデオ編集ソフトと比較すると、上記のビデオの長さでは約 0.5 ドルかかります。

オファリングをバンドルする必要がある

AI ベースのビデオエディターでビデオを生成する最終的なコストは、Midjourney、RunwayML などのツールを使用することで発生する総コストと比較すると少ないように見えますが、コストが追加されるため、これらのツールはビデオコンテンツ作成者に柔軟性と創造性を提供し、役立ちます。ハリウッド映画の素晴らしいシーンに匹敵する素晴らしいビデオを生成する際に、これらの AI ツールをバンドルしてビデオ代理店やビデオ制作会社のワークフローに統合できれば、ビデオ制作で最大の価値を生み出すことができるようです (Justine 氏)このスレッドのムーア、パートナー@a16zも同じことを反映しています。

L O A D I N G
. . . comments & more!

About Author

Ratikesh@ratikeshmisra

Techie and creator who loves developing hacks that scale, here to learn and contribute to the tech & startup community

Read my stories