paint-brush
この AI はあらゆる入力をあらゆる出力に変換できます。これが重要な理由です@mikeyoung44
2,535 測定値
2,535 測定値

この AI はあらゆる入力をあらゆる出力に変換できます。これが重要な理由です

Mike Young6m2023/05/27
Read on Terminal Reader

長すぎる; 読むには

CoDi は、混合された入力を処理できる、革新的な生成モデルです。テキスト、オーディオ、ビデオ、画像を処理し、それらを他の出力の組み合わせに変換できます。 CoDi は多段階トレーニング スキームを使用しており、さまざまなタスクについてトレーニングできることを意味します。
featured image - この AI はあらゆる入力をあらゆる出力に変換できます。これが重要な理由です
Mike Young HackerNoon profile picture
0-item

AI はますます賢くなっています。人工知能が対処することしかできなかった時代は終わりました単一タイプの入力と単一タイプの出力の吐き出し。の時代です。コディ: 混合された入力 (テキスト、オーディオ、ビデオ、画像を考えてください) を処理し、それらを他の出力の組み合わせに変換できる、革新的な生成モデルです。


私はこの大胆なプロジェクトに偶然出会いました。つぶやき著者は、AI 愛好家であり、その好奇心はとどまることを知りません。


したがって、当然のことながら、私はこの問題について深く掘り下げてみる必要があると感じました。このエキサイティングな画期的な進歩について詳しく説明します。ワイルドなライドなので、ストラップを締めてください。

パーティーへようこそ、CoDi

では、CoDi の何がそんなに特別なのでしょうか?まず第一に、この AI の強力なツールは、これまでに見てきたどの生成モデルよりも多用途です。画像から画像への変換やテキストからテキストへの変換など、特定のモダリティに縛られることはありません。いや、CoDi は「any-to-any」モデルであるため、自由な精神を持っています。


この悪い子は、言語、画像、ビデオ、オーディオなど、あなたが与えたものは何でも受け取り、それを別の形式に変換します。


ノースカロライナ大学チャペルヒル校と Microsoft Azure Cognitive Services Research の研究者は、複数のモダリティを一度に管理するだけでなく、元のトレーニング データには含まれていない出力も生成できるように CoDi を作成しました。


さて、それが自分の体重を超えるパンチと呼ばれるものです。


さらにすばらしいのは、これがすべて新しいコンポーザブル生成戦略によって可能になり、絡み合ったモダリティの同期生成を可能にすることです。基本的にそれらがどのように組み合わされるかを推測するだけのマシンによって生成された、完全に同期されたオーディオを含むビデオを想像してください。


ある種のAIリミックスアーティストのようなものです。

しかし、それはどのように機能するのでしょうか?

技術的な詳細を知りたい人のために、CoDi は多段階トレーニング スキームを使用しています。これは、入力と出力のあらゆる種類の組み合わせを推論しながら、さまざまなタスクをトレーニングできることを意味します。マルチタスク能力もあるみたいです。

論文より: 「コンポーザブル拡散は多段階トレーニング スキームを使用して、直線的な数のタスクのみでトレーニングできるようにしますが、入力モダリティと出力モダリティのすべての組み合わせで推論を行うことができます。」


モデルの有用性はそのアーキテクチャで実証されています。次のセクションは、作成者がモデルを思いどおりに動作させるために使用する主な方法を、やや技術的にまとめたものです。

暫定版: 潜在拡散モデル

CoDi の基礎は拡散モデル、特に潜在拡散モデル (LDM) です。この形式の生成 AI は、時間の経過に伴う情報の拡散を模倣することでデータの分布を学習します。


トレーニング中、入力データにランダム ノイズを継続的に追加し、このプロセスを逆にしてデータを元の形式にクリーンアップする方法を学習します。新しいデータを生成するときは、単純なノイズを取得してノイズを除去し、トレーニング データのようなものを生成します。


LDM の場合、入力を再作成できる AI モデルの一種であるオートエンコーダーを使用して、データをより小さな「潜在」形式に圧縮し、時間の経過とともに拡散します。このプロセスにより、計算コストが大幅に削減され、モデルの効率が向上します。

構成可能なマルチモーダルコンディショニング

CoDi のユニークな点は、構成可能なマルチモーダル コンディショニングにあります。このコンポーネントにより、テキスト、画像、ビデオ、オーディオなどのモダリティの任意の組み合わせを入力として受け入れることができます。


これは、これらすべてのモダリティからの入力を同じ空間に整列させることによって実現され、表現を補間することで便利に条件付けすることができます。


効率的な計算操作を保証するために、「ブリッジ アライメント」と呼ばれる単純な手法が使用されます。テキストが「ブリッジング」モダリティとして選択されるのは、テキストと画像、テキストとビデオ、テキストと音声のペアなど、他のモダリティと組み合わせて使用されることが一般的であるためです。


この方法により、画像と音声のペアのようなデュアル モダリティが疎である場合でも、モデルは特徴空間内の 4 つのモダリティすべてを位置合わせすることができます。

コンポーザブルの拡散

あらゆる入力をあらゆる出力に変換できるモデルをトレーニングすることは、さまざまなデータ リソースに関する十分な学習を必要とする困難なタスクです。


これに対処するために、CoDi は構成可能で統合できるように設計されています。これは、各モダリティの個別のモデルを独立して構築し、後でスムーズに統合できることを意味します。


たとえば、画像拡散モデルを使用すると、大規模で高品質の画像データセットでトレーニングされた確立されたモデルの知識と生成の忠実度を転送できます。


同様に、ビデオ拡散モデルは、ビデオの時間特性をモデル化する時間モジュールを使用して画像ディフューザーを拡張できます。


さらに、オーディオ ディフューザーからは、メルスペクトログラムテキスト拡散モデルは、他のモデルと同様に、変分オートエンコーダーを使用してテキスト データをより小さな潜在形式に圧縮します。

潜在的アライメントによる共同マルチモーダル生成

パズルの最後のピースは、これらの個別にトレーニングされたモデルが連携して複数のモダリティを同時に生成できるようにすることです。これは、モデルにクロスモーダル アテンション サブレイヤーを追加することで実現されます。


この「潜在的アライメント」技術により、各モダリティ固有のモデルが他のモデルに注意を向けることができ、潜在変数をすべてのモデルがアクセスできる共有スペースに投影できます。


この設計により、モダリティのあらゆる組み合わせのシームレスな共同生成が可能になります。たとえば、モダリティ A と B、および B と C の結合生成のみをトレーニングしたとしても、CoDi は追加のトレーニングなしでモダリティ A と C の結合生成を達成できます。


さらに、モダリティ A、B、C の共同生成を同時に処理できます。この多用途性が可能になるのは、モデルが異なるモダリティ間で相互参加することを学習しているためです。


基本的に、これらの方法を通じて、CoDi はあらゆる形式の入力を他の形式の出力に変換する方法を効率的に学習し、すべての合成フローで高い生成品質を維持できます。その結果、マルチモーダルな AI インタラクションにまったく新しい可能性の領域が開かれます。

CoDi の仕組みを示す gif (論文より)。


たとえば、「スケートボードに乗ったテディベア、4k、高解像度」というテキスト入力を CoDi に提供すると、音声付きのビデオを出力できます。または、「サイバーパンクな雰囲気」のテキストと画像を入力すると、指定されたテーマに合わせたテキストと画像を生成できます。


世代の例を以下に示します。紙をチェックするインタラクティブな例については。

これは私たちにとって何を意味するのでしょうか?

CoDi の Any-to-Any 世代の影響は膨大です。デジタル化が進む世界において、CoDi のようなツールを持つことは、より多用途で自然で人間らしい方法でテクノロジーと対話できることを意味します。仮想アシスタントからコンテンツ作成、アクセシビリティツール、エンターテイメントに至るまで、あらゆるものを変革する可能性があります。


しかし、いつものように、その意味は純粋にユートピア的なものではありません。 AI が現実的でマルチモーダルな出力を生成する能力が向上するにつれて、AI が生成したコンテンツから現実のものを識別する必要性がますます重要になっています。誤った情報がより説得力を持ち、ディープフェイクがさらに蔓延する可能性があります。


でもパレードには雨が降らないようにしましょう。 CoDi は AI テクノロジーにおける重要な前進であり、人間のコミュニケーションの豊かなタペストリーを理解し、再現するためのトレーニング マシンがどこまで進歩したかを示しています。


CoDi の仕組みをさらに詳しく知りたい場合、あるいは自分で試してみたい場合は、オープンソースをチェックしてください。コードベースGitHub 上で。 CoDi を使用すると、どのようなワイルドな変換が可能になるか誰にもわかりません。


結局のところ、CoDi を真に革新的なものにしているのは、さまざまな種類のデータをシームレスにブレンドし、以前は不可能だと考えられていた方法で出力を生成できる機能です。錬金術師が鉛を金に変える作業を見ているようなものです。


この場合を除いて、あらゆる種類の入力をあらゆる種類の出力に変換します。私たちが生きているのはまさに AI の素晴らしい時代です。