paint-brush
なぜビジョントランスフォーマーは退屈な背景に注目するのでしょうか?@mikeyoung44
1,593 測定値
1,593 測定値

なぜビジョントランスフォーマーは退屈な背景に注目するのでしょうか?

Mike Young5m2023/10/02
Read on Terminal Reader

長すぎる; 読むには

ビジョン トランスフォーマー (ViT) は、画像関連のタスクで人気を集めていますが、画像内の主要な被写体ではなく、重要でない背景のパッチに焦点を当てるという奇妙な動作を示します。研究者らは、L2 ノルムが異常に高いパッチ トークンのごく一部がこのような注意の急増を引き起こすことを発見しました。彼らは、ViT が情報量の少ないパッチを再利用してグローバルなイメージ情報を保存し、この動作を引き起こしていると仮説を立てています。これを修正するために、彼らは専用のストレージを提供する「登録」トークンを追加することを提案しています。これにより、よりスムーズなアテンション マップ、より良いパフォーマンス、そして改善されたオブジェクト検出能力がもたらされます。この研究は、変圧器の機能を向上させるためにモデルアーチファクトに関する継続的な研究の必要性を強調しています。
featured image - なぜビジョントランスフォーマーは退屈な背景に注目するのでしょうか?
Mike Young HackerNoon profile picture
0-item


トランスフォーマーは、多くの視覚タスクで選択されるモデル アーキテクチャになっています。ビジョン トランスフォーマー (ViT) は特に人気があります。これらは、トランスフォーマーを画像パッチのシーケンスに直接適用します。 ViT は、画像分類などのベンチマークで CNN と同等かそれを上回るようになりました。しかし、Meta と INRIA の研究者は、ViT の内部動作にいくつかの奇妙なアーティファクトを特定しました。


この投稿では、について詳しく説明します。新しい用紙これらのアーティファクトの原因を調査しています。そして、モデルを混乱させがちな退屈な背景のパッチではなく、画像の主題に焦点を合わせるために、研究者たちがどのように簡単なトリックを使用したか (クリックベイトっぽくならないように) 見ていきます。さあ行こう。


謎の注目度の急上昇

これまでの多くの研究では、ビジョン トランスフォーマーがスムーズで解釈可能なアテンション マップを生成することが賞賛されてきました。これらにより、モデルが画像のどの部分に焦点を当てているかを覗くことができます。


奇妙なことに、多くの ViT 亜種は、ランダムで有益ではない背景パッチに高い注目度のスパイクを示します。なぜこれらのモデルは、これらの画像の主要な主題ではなく、退屈で重要ではない背景要素にそれほど焦点を当てているのでしょうか?


論文の図。研究者が削減したい奇妙な注意アーティファクトの一部を視覚的に示しています。



研究者らは、モデル全体のアテンション マップを視覚化し、上記のような画像を作成することで、DeiT や CLIP などの教師ありバージョンだけでなく、DINOv2 などの新しい自己教師ありモデルでもこれが発生することを明確に示しました。


明らかに、何かがモデルに不可解にも背景ノイズに焦点を当てている原因となっています。でも何?


原因の追跡: 高標準外れ値トークン

著者らは、出力の埋め込みを数値的に調査することで、根本原因を特定しました。パッチ トークンのごく一部 (約 2%) は、L2 基準が異常に高く、極端な外れ値となっています。


ニューラル ネットワークのコンテキストでは、ニューロンの重みとバイアスはベクトルとして表すことができます。ベクトルの L2 ノルム (ユークリッド ノルムとも呼ばれます) はその大きさの尺度であり、その要素の二乗の合計の平方根として計算されます。


ベクトル (ニューロンまたは層の重みなど) が「異常に高い L2 ノルム」を持っていると言う場合、そのベクトルの大きさまたは長さが、特定のコンテキストで予想されるものまたは典型的なものと比較して異常に大きいことを意味します。


ニューラル ネットワークの L2 ノルムが高い場合は、いくつかの問題を示している可能性があります。


  1. 過学習: モデルがトレーニング データに近づきすぎてノイズが取り込まれている場合、重みが非常に大きくなる可能性があります。 L2 正則化などの正則化手法は、これを軽減するために大きな重みにペナルティを与えます。


  2. 数値の不安定性: 重みが非常に大きいか非常に小さいと、数値的な問題が発生し、モデルが不安定になる可能性があります。


  3. 一般化が不十分: L2 ノルムが高いということは、モデルが新しいまだ見たことのないデータに対してうまく一般化できない可能性があることを示している可能性もあります。


これは簡単な英語で何を意味しますか?シーソーのバランスをとろうとしていて、両側にさまざまなサイズの重り (または砂の袋) を置いていると想像してください。それぞれのバッグの大きさは、シーソーのバランスにどれだけの影響力や重要性を持っているかを表します。さて、それらのバッグの 1 つが異常に大きい (「L2 ノルム」が高い) 場合、それはそのバッグがバランスに多大な影響を与えていることを意味します。


ユーラル ネットワークのコンテキストでは、その一部の影響力が異常に高い (L2 ノルムが高い) 場合、他の重要な部分が影を落とす可能性があり、誤った決定や特定の機能への過度の依存につながる可能性があります。これは理想的ではありません。私たちは、単一の部品が過度の影響を及ぼさないようにマシンを調整しようとすることがよくあります。


これらの高規範トークンは、アテンション マップのスパイクに直接対応します。したがって、モデルは不明な理由でこれらのパッチを選択的に強調表示しています。


追加の実験により、次のことが明らかになりました。


  • 外れ値は、十分に大きなモデルのトレーニング中にのみ表示されます。
  • 彼らは訓練の半分くらいで出現します。
  • これらは隣接するパッチと非常によく似たパッチ上で発生し、冗長性を示唆しています。


さらに、外れ値は元のパッチに関する情報をあまり保持しませんが、完全な画像カテゴリをより正確に予測します。


この証拠は興味深い理論を示しています...

リサイクル仮説

著者らは、モデルが ImageNet-22K のような大規模なデータセットでトレーニングされるにつれて、画像のセマンティクスを失うことなく値を破棄できる低情報パッチを識別する方法を学習すると仮説を立てています。


次に、モデルはそれらのパッチの埋め込みをリサイクルして、完全なイメージに関する一時的なグローバル情報を保存し、無関係なローカルの詳細を破棄します。これにより、効率的な内部特徴処理が可能になります。

ただし、このリサイクルは望ましくない副作用を引き起こします。


  • 元のパッチの詳細が失われ、セグメンテーションなどの密度の高いタスクに悪影響を及ぼす
  • 解釈が難しいとがったアテンション マップ
  • オブジェクト検出方法との非互換性


したがって、この行動は自然に現れますが、マイナスの結果をもたらします。


明示的なレジスタによる ViT の修正

リサイクルされたパッチを軽減するために、研究者らはシーケンスに「登録」トークンを追加することでモデルに専用のストレージを与えることを提案しています。これにより、内部計算用の一時的なスクラッチ スペースが提供され、ランダムなパッチ埋め込みのハイジャックが防止されます。



レジスタを使用した結果 - モデルは画像の主題にさらに厳密に焦点を合わせます。論文より。



驚くべきことに、この単純な調整は非常にうまく機能します。


レジスターを使用してトレーニングされたモデルは次のようになります。


  • よりスムーズで意味的に意味のあるアテンション マップ
  • さまざまなベンチマークでのパフォーマンスの若干の向上
  • オブジェクト発見能力が大幅に向上


レジスターはリサイクル メカニズムに適切な居場所を与え、その厄介な副作用を排除します。アーキテクチャを少し変更するだけで、顕著なメリットが得られます。


重要なポイント

この興味深い研究は、いくつかの貴重な洞察を提供します。


  • ビジョントランスフォーマーはパッチを保管用にリサイクルするなどの予期せぬ動作を発生します
  • レジスタを追加すると一時的なスクラッチ スペースが提供され、意図しない副作用が防止されます。
  • この簡単な修正により、アテンション マップとダウンストリーム パフォーマンスが向上します。
  • 他にも調査すべき未発見のモデルアーティファクトがある可能性があります


ニューラル ネットワークのブラック ボックスの内部を覗くと、その内部の仕組みが多く明らかになり、段階的な改善につながります。このような取り組みがさらに進むと、変圧器の機能が着実に進歩します。

ビジョントランスフォーマーの急速な進歩は減速する兆しがありません。私たちはエキサイティングな時代に生きています。


購読するまたは私をフォローしてくださいツイッターこのようなコンテンツをもっと見るには!