Los transformadores se han convertido en el modelo de arquitectura elegido para muchas tareas de visión. Los transformadores de visión (ViT) son especialmente populares. Aplican el transformador directamente a secuencias de parches de imágenes. Los ViT ahora igualan o superan a los CNN en puntos de referencia como la clasificación de imágenes. Sin embargo, investigadores de Meta e INRIA han identificado algunos artefactos extraños en el funcionamiento interno de los ViT.
En esta publicación, profundizaremos en un
Muchos trabajos anteriores han elogiado a los transformadores de visión por producir mapas de atención fluidos e interpretables. Estos nos permiten echar un vistazo a en qué partes de la imagen se está enfocando el modelo.
Curiosamente, muchas variantes de ViT muestran picos de gran atención en parches de fondo aleatorios y poco informativos. ¿Por qué estos modelos se centran tanto en elementos de fondo aburridos y sin importancia en lugar de en los temas principales de estas imágenes?
Al visualizar mapas de atención en todos los modelos y crear imágenes como la anterior, los investigadores definitivamente muestran que esto sucede en versiones supervisadas como DeiT y CLIP, junto con modelos autosupervisados más nuevos como DINOv2.
Claramente, algo está provocando que los modelos se centren inexplicablemente en el ruido de fondo. ¿Pero que?
Al sondear numéricamente las incorporaciones de resultados, los autores identificaron la causa raíz. Una pequeña fracción (alrededor del 2%) de los tokens de parche tiene normas L2 anormalmente altas, lo que los convierte en valores atípicos extremos.
En el contexto de las redes neuronales, los pesos y sesgos de las neuronas se pueden representar como vectores. La norma L2 (también conocida como norma euclidiana) de un vector es una medida de su magnitud y se calcula como la raíz cuadrada de la suma de los cuadrados de sus elementos.
Cuando decimos que un vector (por ejemplo, los pesos de una neurona o capa) tiene una "norma L2 anormalmente alta", significa que la magnitud o longitud de ese vector es inusualmente grande en comparación con lo esperado o típico en el contexto dado.
Las normas L2 altas en las redes neuronales pueden ser indicativas de algunos problemas:
Sobreajuste : si el modelo se ajusta demasiado a los datos de entrenamiento y captura el ruido, las ponderaciones pueden volverse muy grandes. Las técnicas de regularización, como la regularización L2, penalizan los pesos grandes para mitigar esto.
Inestabilidad numérica : pesos muy grandes o muy pequeños pueden causar problemas numéricos, lo que lleva a la inestabilidad del modelo.
Generalización deficiente : las normas L2 altas también pueden indicar que el modelo podría no generalizarse bien a datos nuevos e invisibles.
¿Qué significa esto en inglés sencillo? Imagina que estás tratando de equilibrar un balancín y tienes pesas (o bolsas de arena) de varios tamaños para colocar a cada lado. El tamaño de cada bolsa representa cuánta influencia o importancia tiene en el equilibrio del balancín. Ahora bien, si una de esas bolsas es anormalmente grande (tiene una "norma L2" alta), significa que la bolsa está teniendo demasiada influencia en el equilibrio.
En el contexto de una red neuronal , si una parte de ella tiene una influencia anormalmente alta (alta norma L2), podría eclipsar otras partes importantes, lo que puede llevar a decisiones equivocadas o a una dependencia excesiva de características específicas. Esto no es lo ideal y, a menudo, intentamos ajustar la máquina para asegurarnos de que ninguna pieza tenga demasiada influencia indebida.
Estos tokens de alto nivel corresponden directamente a los picos en los mapas de atención. Entonces, los modelos están resaltando selectivamente estos parches por razones desconocidas.
Experimentos adicionales revelan:
Además, si bien los valores atípicos retienen menos información sobre su parche original, predicen mejor la categoría de imagen completa.
Esta evidencia apunta a una teoría intrigante...
Los autores plantean la hipótesis de que a medida que los modelos se entrenan en grandes conjuntos de datos como ImageNet-22K, aprenden a identificar parches con poca información cuyos valores pueden descartarse sin perder la semántica de la imagen.
Luego, el modelo recicla esas incrustaciones de parches para almacenar información global temporal sobre la imagen completa, descartando detalles locales irrelevantes. Esto permite un procesamiento eficiente de características internas.
Sin embargo, este reciclaje provoca efectos secundarios indeseables:
Entonces, si bien este comportamiento surge de forma natural, tiene consecuencias negativas.
Para aliviar los parches reciclados, los investigadores proponen dar a los modelos almacenamiento dedicado agregando tokens de "registro" a la secuencia. Esto proporciona un espacio temporal temporal para los cálculos internos, evitando el secuestro de incrustaciones de parches aleatorios.
Sorprendentemente, este simple ajuste funciona muy bien.
Los modelos entrenados con registros muestran:
Los registros le dan al mecanismo de reciclaje un hogar adecuado, eliminando sus desagradables efectos secundarios. Sólo un pequeño cambio arquitectónico genera ganancias notables.
Este intrigante estudio proporciona varias ideas valiosas:
Echar un vistazo al interior de las cajas negras de las redes neuronales revela mucho sobre su funcionamiento interno, lo que guía mejoras incrementales. Más trabajos como este mejorarán constantemente las capacidades de los transformadores.
El rápido ritmo de progreso en los transformadores de visión no muestra signos de desaceleración. ¡Vivimos tiempos emocionantes!
También publicado aquí.