著者:  （１）ゴンザロ・J・アニアーノ・ポルシル、LinkedIn  （２）ジャック・ギンディ、LinkedIn  （３）シヴァンシュ・ムンドラ、LinkedIn  （4）ジェームズ・R・バーバス、LinkedIn  （５）ハニー・ファリド、LinkedInおよびカリフォルニア大学バークレー校。 リンク一覧 概要と序文 データセット モデル 結果 議論、謝辞、参考文献 3. モデル 我々は本物の顔とAIが生成した顔を区別するモデルを訓練した。基礎となるモデルはEfficientNet-B1[7]畳み込みニューラルネットワーク[30]である。このアーキテクチャは他の最先端のアーキテクチャ（Swin-T [22]、Resnet50 [14]、XceptionNet [7]）と比較して優れたパフォーマンスを発揮することが判明した。EfficientNet-B1ネットワークには、ImageNet1K画像データセット[30]で事前訓練された780万の内部パラメータがある。 私たちのパイプラインは、(1) 画像前処理段階、(2) 画像埋め込み段階、(3) スコアリング段階の 3 つの段階で構成されています。このモデルはカラー画像を入力として受け取り、[0, 1] の範囲の数値スコアを生成します。スコアが 0 に近い場合は画像が本物である可能性が高く、スコアが 1 に近い場合は画像が AI によって生成された可能性が高いことを示します。  画像の事前処理ステップでは、入力画像のサイズを 512×512 ピクセルの解像度に変更します。次に、このサイズ変更されたカラー画像は、EfficientNet-B1 転送学習レイヤーに渡されます。スコアリング ステージでは、転送学習レイヤーの出力が、ReLU アクティベーション関数を持つサイズがそれぞれ 2,048 の 2 つの完全接続レイヤー、ドロップアウト確率が 0.8 のドロップアウト レイヤー、およびシグモイド アクティベーションを持つ最終スコアリング レイヤーに送られます。680 万のトレーニング可能なパラメーターを持つスコアリング レイヤーのみが調整されます。トレーニング可能な重みは、サイズ 32 のミニバッチ、学習率 0.0001 の AdaGrad アルゴリズムを使用して最適化され、最大 10,000 ステップでトレーニングされます。モデルのトレーニングには、60 個の NVIDIA A100 GPU を備えたクラスターが使用されました。 この論文はCC 4.0ライセンスの下で 。 arxivで公開されています  [7] ここで説明しているのは、以前LinkedInで運用していたEfficientNetモデルの古いバージョンです。このモデルはその後新しいモデルに置き換えられました。このモデルが最新のものではないことは認識していますが、このモデルが使用されなくなったため、今になってようやくこれらの結果を報告できるようになりました。

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Read My Stories

BotBeat is an AI Research Goldmine - said real person talking to a bot on Twitter/X/Gronk/WhateverWeAreCallingIt

BotBeat's Blog

このオーディオは、ストーリーの元の言語で制作されています。

AI生成の顔の発見：モデル

About Author

コメント

ラベル

この記事は

Related Stories

ワークフローを10倍に向上させる方法: 必須アプリ17選

暗号通貨の成長: 効果的なユーザーペルソナの作成

Telegram: クリプト島と本土を結ぶ橋

ユニークなエコシステムを支えるビットコインUTXOのモデル

ワークフローを10倍に向上させる方法: 必須アプリ17選

暗号通貨の成長: 効果的なユーザーペルソナの作成

Telegram: クリプト島と本土を結ぶ橋

ユニークなエコシステムを支えるビットコインUTXOのモデル

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps