一般的なビデオ認識とは?
長すぎる; 読むには
AI がテキストを生成し、次に画像を生成し、最近では短い動画を生成することさえ見てきましたが、まだ改善が必要です。
これらの作品の作成プロセスに実際に誰も関与していないことを考えると、結果は信じられないほどであり、安定した拡散のように、一度トレーニングするだけで何千人もの人々が使用できます.
それでも、これらのモデルは自分たちが何をしているかを本当に理解しているのでしょうか?作成したばかりの写真やビデオが実際に何を表しているか知っていますか?
そのようなモデルは、そのような写真やさらに複雑なビデオを見たときに何を理解するのでしょうか?詳しくは動画で…(プレゼント情報も動画で!)