トランスフォーマーは、多くの視覚タスクで選択されるモデル アーキテクチャになっています。ビジョン トランスフォーマー (ViT) は特に人気があります。これらは、トランスフォーマーを画像パッチのシーケンスに直接適用します。 ViT は、画像分類などのベンチマークで CNN と同等かそれを上回るようになりました。しかし、Meta と INRIA の研究者は、ViT の内部動作にいくつかの奇妙なアーティファクトを特定しました。
この投稿では、について詳しく説明します。
これまでの多くの研究では、ビジョン トランスフォーマーがスムーズで解釈可能なアテンション マップを生成することが賞賛されてきました。これらにより、モデルが画像のどの部分に焦点を当てているかを覗くことができます。
奇妙なことに、多くの ViT 亜種は、ランダムで有益ではない背景パッチに高い注目度のスパイクを示します。なぜこれらのモデルは、これらの画像の主要な主題ではなく、退屈で重要ではない背景要素にそれほど焦点を当てているのでしょうか?
研究者らは、モデル全体のアテンション マップを視覚化し、上記のような画像を作成することで、DeiT や CLIP などの教師ありバージョンだけでなく、DINOv2 などの新しい自己教師ありモデルでもこれが発生することを明確に示しました。
明らかに、何かがモデルに不可解にも背景ノイズに焦点を当てている原因となっています。でも何?
著者らは、出力の埋め込みを数値的に調査することで、根本原因を特定しました。パッチ トークンのごく一部 (約 2%) は、L2 基準が異常に高く、極端な外れ値となっています。
ニューラル ネットワークのコンテキストでは、ニューロンの重みとバイアスはベクトルとして表すことができます。ベクトルの L2 ノルム (ユークリッド ノルムとも呼ばれます) はその大きさの尺度であり、その要素の二乗の合計の平方根として計算されます。
ベクトル (ニューロンまたは層の重みなど) が「異常に高い L2 ノルム」を持っていると言う場合、そのベクトルの大きさまたは長さが、特定のコンテキストで予想されるものまたは典型的なものと比較して異常に大きいことを意味します。
ニューラル ネットワークの L2 ノルムが高い場合は、いくつかの問題を示している可能性があります。
過学習: モデルがトレーニング データに近づきすぎてノイズが取り込まれている場合、重みが非常に大きくなる可能性があります。 L2 正則化などの正則化手法は、これを軽減するために大きな重みにペナルティを与えます。
数値の不安定性: 重みが非常に大きいか非常に小さいと、数値的な問題が発生し、モデルが不安定になる可能性があります。
一般化が不十分: L2 ノルムが高いということは、モデルが新しいまだ見たことのないデータに対してうまく一般化できない可能性があることを示している可能性もあります。
これは簡単な英語で何を意味しますか?シーソーのバランスをとろうとしていて、両側にさまざまなサイズの重り (または砂の袋) を置いていると想像してください。それぞれのバッグの大きさは、シーソーのバランスにどれだけの影響力や重要性を持っているかを表します。さて、それらのバッグの 1 つが異常に大きい (「L2 ノルム」が高い) 場合、それはそのバッグがバランスに多大な影響を与えていることを意味します。
ユーラル ネットワークのコンテキストでは、その一部の影響力が異常に高い (L2 ノルムが高い) 場合、他の重要な部分が影を落とす可能性があり、誤った決定や特定の機能への過度の依存につながる可能性があります。これは理想的ではありません。私たちは、単一の部品が過度の影響を及ぼさないようにマシンを調整しようとすることがよくあります。
これらの高規範トークンは、アテンション マップのスパイクに直接対応します。したがって、モデルは不明な理由でこれらのパッチを選択的に強調表示しています。
追加の実験により、次のことが明らかになりました。
さらに、外れ値は元のパッチに関する情報をあまり保持しませんが、完全な画像カテゴリをより正確に予測します。
この証拠は興味深い理論を示しています...
著者らは、モデルが ImageNet-22K のような大規模なデータセットでトレーニングされるにつれて、画像のセマンティクスを失うことなく値を破棄できる低情報パッチを識別する方法を学習すると仮説を立てています。
次に、モデルはそれらのパッチの埋め込みをリサイクルして、完全なイメージに関する一時的なグローバル情報を保存し、無関係なローカルの詳細を破棄します。これにより、効率的な内部特徴処理が可能になります。
ただし、このリサイクルは望ましくない副作用を引き起こします。
したがって、この行動は自然に現れますが、マイナスの結果をもたらします。
リサイクルされたパッチを軽減するために、研究者らはシーケンスに「登録」トークンを追加することでモデルに専用のストレージを与えることを提案しています。これにより、内部計算用の一時的なスクラッチ スペースが提供され、ランダムなパッチ埋め込みのハイジャックが防止されます。
驚くべきことに、この単純な調整は非常にうまく機能します。
レジスターを使用してトレーニングされたモデルは次のようになります。
レジスターはリサイクル メカニズムに適切な居場所を与え、その厄介な副作用を排除します。アーキテクチャを少し変更するだけで、顕著なメリットが得られます。
この興味深い研究は、いくつかの貴重な洞察を提供します。
ニューラル ネットワークのブラック ボックスの内部を覗くと、その内部の仕組みが多く明らかになり、段階的な改善につながります。このような取り組みがさらに進むと、変圧器の機能が着実に進歩します。
ビジョントランスフォーマーの急速な進歩は減速する兆しがありません。私たちはエキサイティングな時代に生きています。