Pourquoi les transformateurs de vision se concentrent-ils sur des arrière-plans ennuyeux ?par@mikeyoung44
1,215 lectures

Pourquoi les transformateurs de vision se concentrent-ils sur des arrière-plans ennuyeux ?

2023/10/02
5m
par @mikeyoung44 1,215 lectures
tldt arrow
FR
Read on Terminal Reader

Trop long; Pour lire

Les transformateurs de vision (ViT) ont gagné en popularité pour les tâches liées aux images, mais présentent un comportement étrange : ils se concentrent sur des zones d'arrière-plan sans importance au lieu des sujets principaux des images. Les chercheurs ont découvert qu’une petite fraction des jetons de correctifs avec des normes L2 anormalement élevées provoquent ces pics d’attention. Ils émettent l’hypothèse que les ViT recyclent les correctifs à faible information pour stocker des informations d’image globales, conduisant à ce comportement. Pour résoudre ce problème, ils proposent d'ajouter des jetons de « registre » pour fournir un stockage dédié, ce qui se traduit par des cartes d'attention plus fluides, de meilleures performances et des capacités de découverte d'objets améliorées. Cette étude met en évidence la nécessité de recherches continues sur les artefacts de modèles pour faire progresser les capacités des transformateurs.
featured image - Pourquoi les transformateurs de vision se concentrent-ils sur des arrière-plans ennuyeux ?
Mike Young HackerNoon profile picture

@mikeyoung44

Mike Young

Among other things, launching AIModels.fyi ... Find the right AI model for your project - https://aimodels.fyi


Credibility

react to story with heart
Mike Young HackerNoon profile picture
by Mike Young @mikeyoung44.Among other things, launching AIModels.fyi ... Find the right AI model for your project - https://aimodels.fyi
Read my stories

HISTOIRES CONNEXES

L O A D I N G
. . . comments & more!