AI はますます賢くなっています。人工知能が対処することしかできなかった時代は終わりました
私はこの大胆なプロジェクトに偶然出会いました。
したがって、当然のことながら、私はこの問題について深く掘り下げてみる必要があると感じました。
では、CoDi の何がそんなに特別なのでしょうか?まず第一に、この AI の強力なツールは、これまでに見てきたどの生成モデルよりも多用途です。画像から画像への変換やテキストからテキストへの変換など、特定のモダリティに縛られることはありません。いや、CoDi は「any-to-any」モデルであるため、自由な精神を持っています。
この悪い子は、言語、画像、ビデオ、オーディオなど、あなたが与えたものは何でも受け取り、それを別の形式に変換します。
ノースカロライナ大学チャペルヒル校と Microsoft Azure Cognitive Services Research の研究者は、複数のモダリティを一度に管理するだけでなく、元のトレーニング データには含まれていない出力も生成できるように CoDi を作成しました。
さて、それが自分の体重を超えるパンチと呼ばれるものです。
さらにすばらしいのは、これがすべて新しいコンポーザブル生成戦略によって可能になり、絡み合ったモダリティの同期生成を可能にすることです。基本的にそれらがどのように組み合わされるかを推測するだけのマシンによって生成された、完全に同期されたオーディオを含むビデオを想像してください。
ある種のAIリミックスアーティストのようなものです。
技術的な詳細を知りたい人のために、CoDi は多段階トレーニング スキームを使用しています。これは、入力と出力のあらゆる種類の組み合わせを推論しながら、さまざまなタスクをトレーニングできることを意味します。マルチタスク能力もあるみたいです。
モデルの有用性はそのアーキテクチャで実証されています。次のセクションは、作成者がモデルを思いどおりに動作させるために使用する主な方法を、やや技術的にまとめたものです。
CoDi の基礎は拡散モデル、特に潜在拡散モデル (LDM) です。この形式の生成 AI は、時間の経過に伴う情報の拡散を模倣することでデータの分布を学習します。
トレーニング中、入力データにランダム ノイズを継続的に追加し、このプロセスを逆にしてデータを元の形式にクリーンアップする方法を学習します。新しいデータを生成するときは、単純なノイズを取得してノイズを除去し、トレーニング データのようなものを生成します。
LDM の場合、入力を再作成できる AI モデルの一種であるオートエンコーダーを使用して、データをより小さな「潜在」形式に圧縮し、時間の経過とともに拡散します。このプロセスにより、計算コストが大幅に削減され、モデルの効率が向上します。
CoDi のユニークな点は、構成可能なマルチモーダル コンディショニングにあります。このコンポーネントにより、テキスト、画像、ビデオ、オーディオなどのモダリティの任意の組み合わせを入力として受け入れることができます。
これは、これらすべてのモダリティからの入力を同じ空間に整列させることによって実現され、表現を補間することで便利に条件付けすることができます。
効率的な計算操作を保証するために、「ブリッジ アライメント」と呼ばれる単純な手法が使用されます。テキストが「ブリッジング」モダリティとして選択されるのは、テキストと画像、テキストとビデオ、テキストと音声のペアなど、他のモダリティと組み合わせて使用されることが一般的であるためです。
この方法により、画像と音声のペアのようなデュアル モダリティが疎である場合でも、モデルは特徴空間内の 4 つのモダリティすべてを位置合わせすることができます。
あらゆる入力をあらゆる出力に変換できるモデルをトレーニングすることは、さまざまなデータ リソースに関する十分な学習を必要とする困難なタスクです。
これに対処するために、CoDi は構成可能で統合できるように設計されています。これは、各モダリティの個別のモデルを独立して構築し、後でスムーズに統合できることを意味します。
たとえば、画像拡散モデルを使用すると、大規模で高品質の画像データセットでトレーニングされた確立されたモデルの知識と生成の忠実度を転送できます。
同様に、ビデオ拡散モデルは、ビデオの時間特性をモデル化する時間モジュールを使用して画像ディフューザーを拡張できます。
さらに、オーディオ ディフューザーからは、
パズルの最後のピースは、これらの個別にトレーニングされたモデルが連携して複数のモダリティを同時に生成できるようにすることです。これは、モデルにクロスモーダル アテンション サブレイヤーを追加することで実現されます。
この「潜在的アライメント」技術により、各モダリティ固有のモデルが他のモデルに注意を向けることができ、潜在変数をすべてのモデルがアクセスできる共有スペースに投影できます。
この設計により、モダリティのあらゆる組み合わせのシームレスな共同生成が可能になります。たとえば、モダリティ A と B、および B と C の結合生成のみをトレーニングしたとしても、CoDi は追加のトレーニングなしでモダリティ A と C の結合生成を達成できます。
さらに、モダリティ A、B、C の共同生成を同時に処理できます。この多用途性が可能になるのは、モデルが異なるモダリティ間で相互参加することを学習しているためです。
基本的に、これらの方法を通じて、CoDi はあらゆる形式の入力を他の形式の出力に変換する方法を効率的に学習し、すべての合成フローで高い生成品質を維持できます。その結果、マルチモーダルな AI インタラクションにまったく新しい可能性の領域が開かれます。
たとえば、「スケートボードに乗ったテディベア、4k、高解像度」というテキスト入力を CoDi に提供すると、音声付きのビデオを出力できます。または、「サイバーパンクな雰囲気」のテキストと画像を入力すると、指定されたテーマに合わせたテキストと画像を生成できます。
世代の例を以下に示します。
CoDi の Any-to-Any 世代の影響は膨大です。デジタル化が進む世界において、CoDi のようなツールを持つことは、より多用途で自然で人間らしい方法でテクノロジーと対話できることを意味します。仮想アシスタントからコンテンツ作成、アクセシビリティツール、エンターテイメントに至るまで、あらゆるものを変革する可能性があります。
しかし、いつものように、その意味は純粋にユートピア的なものではありません。 AI が現実的でマルチモーダルな出力を生成する能力が向上するにつれて、AI が生成したコンテンツから現実のものを識別する必要性がますます重要になっています。誤った情報がより説得力を持ち、ディープフェイクがさらに蔓延する可能性があります。
でもパレードには雨が降らないようにしましょう。 CoDi は AI テクノロジーにおける重要な前進であり、人間のコミュニケーションの豊かなタペストリーを理解し、再現するためのトレーニング マシンがどこまで進歩したかを示しています。
CoDi の仕組みをさらに詳しく知りたい場合、あるいは自分で試してみたい場合は、オープンソースをチェックしてください。
結局のところ、CoDi を真に革新的なものにしているのは、さまざまな種類のデータをシームレスにブレンドし、以前は不可能だと考えられていた方法で出力を生成できる機能です。錬金術師が鉛を金に変える作業を見ているようなものです。
この場合を除いて、あらゆる種類の入力をあらゆる種類の出力に変換します。私たちが生きているのはまさに AI の素晴らしい時代です。