Pourquoi les transformateurs de vision se concentrent-ils sur des arrière-plans ennuyeux ?
Trop long; Pour lire
Les transformateurs de vision (ViT) ont gagné en popularité pour les tâches liées aux images, mais présentent un comportement étrange : ils se concentrent sur des zones d'arrière-plan sans importance au lieu des sujets principaux des images. Les chercheurs ont découvert qu’une petite fraction des jetons de correctifs avec des normes L2 anormalement élevées provoquent ces pics d’attention. Ils émettent l’hypothèse que les ViT recyclent les correctifs à faible information pour stocker des informations d’image globales, conduisant à ce comportement. Pour résoudre ce problème, ils proposent d'ajouter des jetons de « registre » pour fournir un stockage dédié, ce qui se traduit par des cartes d'attention plus fluides, de meilleures performances et des capacités de découverte d'objets améliorées. Cette étude met en évidence la nécessité de recherches continues sur les artefacts de modèles pour faire progresser les capacités des transformateurs.