トランスフォーマーは、多くの視覚タスクで選択されるモデル アーキテクチャになっています。ビジョン トランスフォーマー (ViT) は特に人気があります。これらは、トランスフォーマーを画像パッチのシーケンスに直接適用します。 ViT は、 しかし、Meta と INRIA の研究者は、ViT の内部動作にいくつかの奇妙なアーティファクトを特定しました。 画像分類などのベンチマークで CNN と同等かそれを上回るようになりました。 この投稿では、について詳しく説明します。 これらのアーティファクトの原因を調査しています。そして、モデルを混乱させがちな退屈な背景のパッチではなく、画像の主題に焦点を合わせるために、研究者たちがどのように簡単なトリックを使用したか (クリックベイトっぽくならないように) 見ていきます。さあ行こう。 新しい用紙 謎の注目度の急上昇 これまでの多くの研究では、ビジョン トランスフォーマーがスムーズで解釈可能なアテンション マップを生成することが賞賛されてきました。これらにより、モデルが画像のどの部分に焦点を当てているかを覗くことができます。 奇妙なことに、多くの ViT 亜種は、ランダムで有益ではない背景パッチに高い注目度のスパイクを示します。なぜこれらのモデルは、これらの画像の主要な主題ではなく、退屈で重要ではない背景要素にそれほど焦点を当てているのでしょうか?  研究者らは、モデル全体のアテンション マップを視覚化し、上記のような画像を作成することで、DeiT や CLIP などの教師ありバージョンだけでなく、DINOv2 などの新しい自己教師ありモデルでもこれが発生することを明確に示しました。 明らかに、何かがモデルに不可解にも背景ノイズに焦点を当てている原因となっています。でも何？ 原因の追跡: 高標準外れ値トークン 著者らは、出力の埋め込みを数値的に調査することで、根本原因を特定しました。パッチ トークンのごく一部 (約 2%) は、L2 基準が異常に高く、極端な外れ値となっています。 ニューラル ネットワークのコンテキストでは、ニューロンの重みとバイアスはベクトルとして表すことができます。ベクトルの L2 ノルム (ユークリッド ノルムとも呼ばれます) はその大きさの尺度であり、その要素の二乗の合計の平方根として計算されます。 ベクトル (ニューロンまたは層の重みなど) が「異常に高い L2 ノルム」を持っていると言う場合、そのベクトルの大きさまたは長さが、特定のコンテキストで予想されるものまたは典型的なものと比較して異常に大きいことを意味します。 ニューラル ネットワークの L2 ノルムが高い場合は、いくつかの問題を示している可能性があります。 : モデルがトレーニング データに近づきすぎてノイズが取り込まれている場合、重みが非常に大きくなる可能性があります。 L2 正則化などの正則化手法は、これを軽減するために大きな重みにペナルティを与えます。 過学習 : 重みが非常に大きいか非常に小さいと、数値的な問題が発生し、モデルが不安定になる可能性があります。 数値の不安定性 : L2 ノルムが高いということは、モデルが新しいまだ見たことのないデータに対してうまく一般化できない可能性があることを示している可能性もあります。 一般化が不十分 シーソーのバランスをとろうとしていて、両側にさまざまなサイズの重り (または砂の袋) を置いていると想像してください。それぞれのバッグの大きさは、シーソーのバランスにどれだけの影響力や重要性を持っているかを表します。さて、それらのバッグの 1 つが異常に大きい (「L2 ノルム」が高い) 場合、それはそのバッグがバランスに多大な影響を与えていることを意味します。 これは簡単な英語で何を意味しますか?   のコンテキストでは、その一部の影響力が異常に高い (L2 ノルムが高い) 場合、他の重要な部分が影を落とす可能性があり、誤った決定や特定の機能への過度の依存につながる可能性があります。これは理想的ではありません。私たちは、単一の部品が過度の影響を及ぼさないようにマシンを調整しようとすることがよくあります。 ユーラル ネットワーク これらの高規範トークンは、アテンション マップのスパイクに直接対応します。したがって、モデルは不明な理由でこれらのパッチを選択的に強調表示しています。 追加の実験により、次のことが明らかになりました。 外れ値は、十分に大きなモデルのトレーニング中にのみ表示されます。 彼らは訓練の半分くらいで出現します。 これらは隣接するパッチと非常によく似たパッチ上で発生し、冗長性を示唆しています。 さらに、外れ値は元のパッチに関する情報をあまり保持しませんが、完全な画像カテゴリをより正確に予測します。 この証拠は興味深い理論を示しています... リサイクル仮説 著者らは、モデルが ImageNet-22K のような大規模なデータセットでトレーニングされるにつれて、画像のセマンティクスを失うことなく値を破棄できる低情報パッチを識別する方法を学習すると仮説を立てています。 次に、モデルはそれらのパッチの埋め込みをリサイクルして、完全なイメージに関する一時的なグローバル情報を保存し、無関係なローカルの詳細を破棄します。これにより、効率的な内部特徴処理が可能になります。 ただし、このリサイクルは望ましくない副作用を引き起こします。 元のパッチの詳細が失われ、セグメンテーションなどの密度の高いタスクに悪影響を及ぼす 解釈が難しいとがったアテンション マップ オブジェクト検出方法との非互換性 したがって、この行動は自然に現れますが、マイナスの結果をもたらします。 明示的なレジスタによる ViT の修正 リサイクルされたパッチを軽減するために、研究者らはシーケンスに「登録」トークンを追加することでモデルに専用のストレージを与えることを提案しています。これにより、内部計算用の一時的なスクラッチ スペースが提供され、ランダムなパッチ埋め込みのハイジャックが防止されます。  驚くべきことに、この単純な調整は非常にうまく機能します。 レジスターを使用してトレーニングされたモデルは次のようになります。 よりスムーズで意味的に意味のあるアテンション マップ さまざまなベンチマークでのパフォーマンスの若干の向上 オブジェクト発見能力が大幅に向上 レジスターはリサイクル メカニズムに適切な居場所を与え、その厄介な副作用を排除します。アーキテクチャを少し変更するだけで、顕著なメリットが得られます。 重要なポイント この興味深い研究は、いくつかの貴重な洞察を提供します。 ビジョントランスフォーマーはパッチを保管用にリサイクルするなどの予期せぬ動作を発生します レジスタを追加すると一時的なスクラッチ スペースが提供され、意図しない副作用が防止されます。 この簡単な修正により、アテンション マップとダウンストリーム パフォーマンスが向上します。 他にも調査すべき未発見のモデルアーティファクトがある可能性があります ニューラル ネットワークのブラック ボックスの内部を覗くと、その内部の仕組みが多く明らかになり、段階的な改善につながります。このような取り組みがさらに進むと、変圧器の機能が着実に進歩します。 ビジョントランスフォーマーの急速な進歩は減速する兆しがありません。私たちはエキサイティングな時代に生きています。 こちらでも公開しております。 購読する または私をフォローしてください ツイッター このようなコンテンツをもっと見るには！

This story contains new, firsthand information uncovered by the writer.

Tell me why my site sucks so I can make it better. Be mean.

Read My Stories

このオーディオは、ストーリーの元の言語で制作されています。

なぜビジョントランスフォーマーは退屈な背景に注目するのでしょうか?

About Author

コメント

ラベル

この記事は

Related Stories

タップして稼ぐ：テレグラムはソラナより先に次の100億人の暗号通貨ユーザーを獲得する可能性がある

目に見えない層: ユーザーインタビューがかけがえのない資産である理由

AI の力を解き放つ。最先端技術の体系的レビュー: 概要と序論

フォーラムからフィードへ: ソーシャルメディアアルゴリズムがデジタルインタラクションを形作る仕組み

タップして稼ぐ：テレグラムはソラナより先に次の100億人の暗号通貨ユーザーを獲得する可能性がある

目に見えない層: ユーザーインタビューがかけがえのない資産である理由

AI の力を解き放つ。最先端技術の体系的レビュー: 概要と序論

フォーラムからフィードへ: ソーシャルメディアアルゴリズムがデジタルインタラクションを形作る仕組み

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps