Travel enthusiast, tech worker, history buff, Quora Top Writer 2013
Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.
生成 AI モデリングが誤動作を引き起こす仕組み
ここでの意見と議論は完全に私自身のものであり、Meta や私のチームの見解、あるいは内部関係者や専有知識をまったく反映していません。
私は Meta の Generative AI 部門で働いています。具体的にはメタ用のテキスト→画像生成を担当しています。当社の最初の製品はここで発売され、ここで試すことができます。 「2024 年のドイツ人の家族」と入力すると、次の拡大画像が表示されましたが、下部には他の 3 つの画像も表示されました。
他の提案のうち 2 つを拡大した結果は次のとおりです。
ご覧のとおり、ここには家族を代表する民族的多様性があります。しかし、それは「伝統的な」ドイツの家族のあり方を排除することではありません。
一方、ここではさらにいくつかの例を示します。
ここでは、歴史上の人物を表すもう 1 つのプロンプトを示します。
もちろん欠点はたくさんありますが、私を含むチームの人々はそれを改善するために取り組んでいます。たとえば、上記のプロンプトでは、「インディアン」という言葉が、インド出身の人々とアメリカの「ネイティブ インディアン」の両方を少し意味していると考えられていました。
しかし、先週の Google の Gemini の大失敗に少しでも注目していただければ、モデルの結果は上記のようなものではなく、より懸念すべき出力が得られました。ここに、それらの落とし穴のいくつかを描いたスレッドがあります。
Twitter のスレッド全体にアクセスできない場合は、ここに非圧縮スレッドがあります。
話題になった画像は他にもたくさんありますが、これらは次の結論を導くのに十分でしょう。
これらは多くの反応を引き起こすだろう――「覚醒した企業」による「白人」の「抹殺」に対する憤り、ジェミニがどのように「有色人種をナチスとして見せるか」に焦点を当てようとする他のメディア出版物や、その方法についての解説など。問題が不当に誇張されたり、「リベラルな偏見」 に反論されたりしている。こうした反応は政治的な方針に沿ったものであることが多く、ここでそれを掘り下げるつもりはありません。
しかし、私が積極的に貢献できるのは、この特定の分野で働くエンジニアとして、モデル開発、特に生成 AI における開発サイクルがどのように機能するかを説明することと、それを使用して上記のような出力がどのように支配的になるかを (推測的に) 理解することです。専門用語を使用したり、ニューラル ネットワークの内部を説明したりするつもりはありません。また、それらがここでは関連性があるとも思えません。繰り返しになりますが、ここでの内容は機密情報であってはならず、私はこの問題や Google の内部事情について内部知識がありません。
いくつかの段階に入る前に、非常に重要な不変条件について説明したいと思います。モデルの良さは、トレーニングに使用されたデータによって決まります。これは、モデルの他のコンポーネント (アーキテクチャなど) が重要ではない、あるいはそれほど重要ではないという意味ではありません。実際、ここ数年、機械学習の分野で優れた研究が行われ、LLM、画像生成、ビデオ生成など、この分野の指数関数的な成長が加速しました。ただし、進歩に関係なく、すべてのモデルが直面する制限の 1 つは、適切な代表的なデータセットでトレーニングされていない場合、望ましい出力は得られません。
機械学習の概念に馴染みのない人のために説明すると、モデルには、特定の概念 (犬など) の複数の例 (ポジティブ (含む) とネガティブ (含まない) の両方) が与えられ (または「トレーニング」) されます。ランダムな入力を使用すると、モデルにその概念のインスタンスが含まれるかどうかを高い信頼度で予測できる必要があります。特定の使用例 (犬の座標の特定など) のために多くの拡張を行うことができます。
大規模なトレーニング(別名事前トレーニング): 犬の識別は一例にすぎません。ここでの一般化された問題は、任意のテキストが与えられた場合、対応する画像を生成するということです。そのためには、モデルはまず特定の単語の意味を特定 (「学習」) する必要があります。したがって、各基準 (「概念」) の多くの例を調べることによって、象、男性、女性、犬、山などを認識する必要があります。ただし、モデルが各シナリオに対して適切なイメージを生成するには、最も一般的な概念だけでなく、あまり使用されていない、あまり馴染みのない概念のロングテールも含む、広範囲にわたる概念を理解する必要があります。これをかなり高い信頼性で行うには、大量のデータ (数百万から数十億) を使用してモデルをトレーニングする必要があります。この段階は事前トレーニングとして知られており、取り込まれた大規模なデータは、モデルが十分な品質の望ましい出力を生成するのに役立ちます。
取り込まれたデータに基づいてモデルが学習すると、モデルはトレーニング セットのパターンとそれが持つすべてのバイアスを学習することになります。したがって、犬のトレーニング データセットに柴犬とコーギー (ちなみに非常にかわいい犬) の画像しか含まれていない場合、生成されるすべての犬はこれらの品種のように見えます。したがって、上記のようにモデルの出力が特定のタイプに「過剰適合」しないようにしたい場合は、ソースに多様性を追加する必要があります。したがって、上記の例では、均一にサンプリングして反映させたい主要な品種の十分な量がトレーニング データに含まれていることを確認したいと考えています。
これは人間にも当てはまります。特定の犬種を過剰に表現することが望ましくないのと同様に、人間についても同様です。しかし、人間の場合、品種とは異なり、その境界線は性別、国籍、民族、人種を超えて発生します。理想的には、モデル出力で特定の特性が支配的になるのを避けるために、事前トレーニング段階でこれらの次元全体にわたる相対的な均一性を反映させたいと考えています。
したがって、トレーニング前の段階で、モデルは概念 (人間、ペット、野生動物、自然、家具、風景など) の多様性を見つけようとしながら大量のデータを取り込み、その後、これらの概念内の多様性 (品種、国籍、寸法など) を見つけようとします。 )。
微調整: ただし、膨大なスケールのデータでモデルをトレーニングした後、最終ステップでは、非常に小規模で高品質なデータに対して「微調整」されます。ここで、小さな変更により、モデルの出力が大幅に変更される可能性があります。したがって、視覚的な品質を変更したい場合、配布はここで行うことができます。ただし、大規模なトレーニング前のデータが依然として支配的であり、モデルのトレーニングのどの段階によってモデルの出力がどの程度影響を受けるかを確認するのが難しいことに注意してください。
安全性: 上記の理解は、モデル出力の中核段階と重要な側面の説明に主に焦点を当ててきました。ただし、バイアスや法的制約が現実世界に与える影響を理解し、モデルが悪影響を与えていないことを確認する必要もあります。法律は定められているため比較的容易に従うことができますが(裁判所が示しているように解釈の余地はまだたくさんありますが)、違法ではないものの潜在的に有害な他の問題に取り組むと、多くの論争が引き起こされ、政治的な分裂が明らかになります。 「 AI 倫理」または「責任ある AI 」と呼ばれる AI の分野は、違法ではないが潜在的に有害である後者の種類の問題に取り組むために生まれました。
上記のバイアスの例では、たとえば、トレーニング データセットに男性と女性の代表的なサンプルが必要であると言うのは比較的議論の余地がありません。あるいは、人間を反映するインド、中国、米国、英国、ブラジル、ナイジェリアの人々。同様の比較的議論の余地のない他の緩和策としては、(成人のヌードは完全に違法ではないが、子供も違法)、同意に反して個人の個人情報(経済情報、健康情報を含む)を漏らさないこと、知的財産侵害の可能性などが考えられる。しかし、責任ある AI の分野はこれらを超えており、「有害な固定観念」を永続させないという目標もあります。
ここに例を示します。モデルに医師と看護師の画像を生成するよう依頼し、100 回中 99 回、男性が医師、女性が看護師として表示された場合、それは間違いなく望ましくない社会の固定観念を永続させることになります。
他の例として、モデルにイスラム教徒の男性を生成するように依頼すると、暴力的なテロリストが表示される可能性があります。
なぜモデルはそんなことをするのかと疑問に思うかもしれません。モデルはトレーニング データと同じくらい優れていることに注意してください。そしてそれは、現実世界の分布(医師ではなく看護職に女性が多いなど、多くの場合社会的制約による)と、さまざまな分野での特定の言葉の定義(暴力的過激主義は特定のグループの行為と関連付けられており、他ではありません)、または特定の地域の特定のグループ(たとえば、犬やコウモリを食べる中国人)に対する偏ったメディア報道は、モデルが消費するデータによってこれらのバイアスの多くが増幅されます。したがって、そのようなデータに基づいてトレーニングされたモデルは、ほとんどの場合、女性を看護師として、男性を医師として、イスラム教徒の男性を暴力的過激派として、または中国人/アジア人をコウモリを食べる人物として生成する可能性があります。
これらは、モデルとデータの「無意識の」バイアスと呼ばれます。これを修正する必要がありますか?法的にはありません (ただし、一部の管轄区域ではおそらくそうされています)。道徳的に?それはトリッキーでかなり物議を醸す質問です。有害な固定観念が増幅されるのを防ぐため、直感的には「はい」と答えるでしょう。しかし、特にそれが経験的事実を反映している場合(たとえそれが社会的偏見や差別の結果であったとしても)、結果を捻じ曲げるために人間がどの程度介入すべきかについては、異論もあるかもしれません。たとえそうすることが望ましいことに同意したとしても、では、どのような人間がそうすることができるのでしょうか、また、もしあればそれに対する制限は何でしょうか(彼ら自身の偏見など)?介入によってマイナスの副作用も生じる可能性はあるのでしょうか?とにかく、前述したように、この記事の目的はそのような議論に参加することではなく、いくつかの論争と基本的な議論を認めることだけです。
これらの問題についてあなたの立場が何であるかにかかわらず、生成 AI モデル (テキストと画像の両方) を開発しているほとんどの大手企業 (メタを含む) は、「修正する必要があるか」という質問に対して肯定的に答えており、これを軽減するために多くの手順が必要です。その方法の例としては、有害なペアを検出して削除することによってデータをクレンジングすることや、微調整段階でモデルを積極的に特定の望ましくない結果から遠ざけ、インターネットのコーパスを取り込むことで到達する結果よりも変更することなどが挙げられます。
その結果、Google 画像検索結果からわかるように、非常に問題となる可能性のあるプロンプトが非常に均等に分散されていることがわかります。
上からわかるように、4 つの画像が出力されます。両方の役割に男性と女性が十分に配分されています。
法的およびプライバシーの緩和:上記は、ランダムな従業員が独自のバイアスを注入し、不変の特性を使用して好きなようにモデルの出力を変更するという点で、一部の個人にとって多くの懸念を引き起こす可能性があります。しかし、すべての大手テクノロジー企業には大規模な法務部門があり、その一部には、モデル出力生成にパラメーターを導入しながら、法的リスクの検討と限界の超過に対処するためだけにスタッフが配置されています。どうやってやっているの?彼らはすべてのコードを読んでいますか?いいえ。
ただし、開発を大規模に開始する前、運用環境にリリースするかなり前に、開発者、プロダクト マネージャー、データ サイエンティスト、マネージャーは、目標をどのように達成するか、それによって生じる可能性のあるバイアス、およびそれによって引き起こされる可能性のあるプライバシーの懸念についてのビジョンを提示する必要があります。想定されていないデータへのアクセスまたは公開、さらに物議を醸すパラメータの使用。それでは、人種をモデルにエンコードするだけでよいでしょうか?国籍についてはどうですか?このようなすべての質問には、会社に応じて異なる答えがあり、メタ社内での決定については明かしませんが、これらのそれぞれは、設計段階自体で検討され、法定代理人が満足できるように答えられます。これらを満たさないと起動ブロッカーとなり、出力が適切であっても出荷できなくなります。
モデルの評価: 最後に非常に重要な段階である評価があります。結局のところ、これらの大規模で複雑なモデルを開発するという多大な苦痛を経験したのであれば、それをテストしたいと思わないでしょうか?これを行う方法は多数あります。その多くは手動で、一部は自動ですが、非常に一般的な方法では、生成された出力の一部を評価者のセットに送信し、視覚的な品質、プロンプトの忠実さ、プロンプトの忠実度などのいくつかの側面を通じて出力を評価するよう依頼します。有害な相互作用もある可能性があります。方法はチームや会社によって異なりますが、基本的にリリースするには、通常、以前のバージョンよりもパフォーマンスが優れていることを確信するために、いくつかの内部指標を満たす必要があります。さらに、「 ガードレール」があります。これは、改良する必要はありませんが、起動するために後退させることはできないことを意味します。有害なコンテンツの生成は一般にガードレールであり、各モデルのバージョンでは、他の必要で有益な側面が改善されたとしても、有害なコンテンツが生成される可能性が誤って増加しないようにする必要があります。
Generative AI 画像生成モデルの開発に必要なすべての要素を理解したので、問題がどこから始まったのかを理解する価値があるかもしれません。安全層が役割を果たしているのは明らかです。結局のところ、Google の結果は間違いなく人種に関係するいくつかのパラメータを微調整しているように見えます。私の研究に基づいて、私は次のような仮説を立てます。
何らかの一般的なプロンプトを得るために、少数派を排除して白人だけを生み出すわけではないことを確認するための実験が行われていた。
この実験は、結果を積極的に達成するために微調整層で実行されました。
一般に、1 つのデータセットが完全に優勢にならないように、いくつかの比率/割合でデータセットをサンプリングします。
誤って、これが適切に設定されていなかったため、白人がいないデータセットへの微調整のオーバーフィッティングにより他の画像が薄れてしまいました。
最終的に一部の白人が表示される少数の例は、ありがたいことにトレーニング前のデータセットには依然として人種的および民族的多様性があるためです。
これが私の技術的評価になります。読者の皆様には、モデル開発プロセスの一部、難しい問題にどのように取り組むか、プロセス全体が間違いに対してどれほど敏感であるかを理解していただければ幸いです。ここでは、有害な固定観念と方法論の修正に関する物議を醸す議論、誰が「責任」を負うのか、そして最も重要なことに、これほど誤ったモデルが(おそらく)厳密なモデル評価をどのように通過するのか、そして出荷前の法務チームなど、ここでは触れなかった部分がいくつかあります。宇宙最大のゴリアテの一つ。最後の部分については、次回の投稿で仮説を立てて説明します(もちろん内部情報はゼロです)。
ここでの意見や議論は完全に私個人のものであり、Meta や私のチームの見解はまったく反映されていません。私には内部の知識はなく、共有される情報はいずれも Meta 独自のものではなく、モデルのライフサイクルのさまざまな段階は業界の標準的な慣行であり、オンラインで広く入手できます。
ここでも公開されています。