1,593 lecturas

¿Por qué los Vision Transformers se centran en entornos aburridos?

por Mike Young5m2023/10/02

Demasiado Largo; Para Leer

Los Vision Transformers (ViT) han ganado popularidad para tareas relacionadas con imágenes, pero exhiben un comportamiento extraño: se centran en parches de fondo sin importancia en lugar de en los sujetos principales de las imágenes. Los investigadores descubrieron que una pequeña fracción de tokens de parche con normas L2 anormalmente altas causan estos picos de atención. Su hipótesis es que los ViT reciclan parches con poca información para almacenar información de imagen global, lo que lleva a este comportamiento. Para solucionarlo, proponen agregar tokens de "registro" para proporcionar almacenamiento dedicado, lo que resulta en mapas de atención más fluidos, mejor rendimiento y capacidades mejoradas de descubrimiento de objetos. Este estudio destaca la necesidad de realizar investigaciones continuas sobre artefactos modelo para mejorar las capacidades de los transformadores.

featured image - ¿Por qué los Vision Transformers se centran en entornos aburridos?

Los transformadores se han convertido en el modelo de arquitectura elegido para muchas tareas de visión. Los transformadores de visión (ViT) son especialmente populares. Aplican el transformador directamente a secuencias de parches de imágenes. Los ViT ahora igualan o superan a los CNN en puntos de referencia como la clasificación de imágenes. Sin embargo, investigadores de Meta e INRIA han identificado algunos artefactos extraños en el funcionamiento interno de los ViT.

En esta publicación, profundizaremos en un nuevo papel investigando la causa de estos artefactos. Y veremos cómo los investigadores utilizaron un truco simple (para no parecer demasiado clickbait) para lograr que los modelos se enfocaran en los sujetos de las imágenes y no en los aburridos parches de fondo que tienden a confundirlos. Vamos.

Los misteriosos picos de atención

Muchos trabajos anteriores han elogiado a los transformadores de visión por producir mapas de atención fluidos e interpretables. Estos nos permiten echar un vistazo a en qué partes de la imagen se está enfocando el modelo.

Curiosamente, muchas variantes de ViT muestran picos de gran atención en parches de fondo aleatorios y poco informativos. ¿Por qué estos modelos se centran tanto en elementos de fondo aburridos y sin importancia en lugar de en los temas principales de estas imágenes?

Al visualizar mapas de atención en todos los modelos y crear imágenes como la anterior, los investigadores definitivamente muestran que esto sucede en versiones supervisadas como DeiT y CLIP, junto con modelos autosupervisados más nuevos como DINOv2.

Claramente, algo está provocando que los modelos se centren inexplicablemente en el ruido de fondo. ¿Pero que?

Rastreando la causa: tokens atípicos de alta norma

Al sondear numéricamente las incorporaciones de resultados, los autores identificaron la causa raíz. Una pequeña fracción (alrededor del 2%) de los tokens de parche tiene normas L2 anormalmente altas, lo que los convierte en valores atípicos extremos.

En el contexto de las redes neuronales, los pesos y sesgos de las neuronas se pueden representar como vectores. La norma L2 (también conocida como norma euclidiana) de un vector es una medida de su magnitud y se calcula como la raíz cuadrada de la suma de los cuadrados de sus elementos.

Cuando decimos que un vector (por ejemplo, los pesos de una neurona o capa) tiene una "norma L2 anormalmente alta", significa que la magnitud o longitud de ese vector es inusualmente grande en comparación con lo esperado o típico en el contexto dado.

Las normas L2 altas en las redes neuronales pueden ser indicativas de algunos problemas:

Sobreajuste : si el modelo se ajusta demasiado a los datos de entrenamiento y captura el ruido, las ponderaciones pueden volverse muy grandes. Las técnicas de regularización, como la regularización L2, penalizan los pesos grandes para mitigar esto.
Inestabilidad numérica : pesos muy grandes o muy pequeños pueden causar problemas numéricos, lo que lleva a la inestabilidad del modelo.
Generalización deficiente : las normas L2 altas también pueden indicar que el modelo podría no generalizarse bien a datos nuevos e invisibles.

¿Qué significa esto en inglés sencillo? Imagina que estás tratando de equilibrar un balancín y tienes pesas (o bolsas de arena) de varios tamaños para colocar a cada lado. El tamaño de cada bolsa representa cuánta influencia o importancia tiene en el equilibrio del balancín. Ahora bien, si una de esas bolsas es anormalmente grande (tiene una "norma L2" alta), significa que la bolsa está teniendo demasiada influencia en el equilibrio.

En el contexto de una red neuronal , si una parte de ella tiene una influencia anormalmente alta (alta norma L2), podría eclipsar otras partes importantes, lo que puede llevar a decisiones equivocadas o a una dependencia excesiva de características específicas. Esto no es lo ideal y, a menudo, intentamos ajustar la máquina para asegurarnos de que ninguna pieza tenga demasiada influencia indebida.

Estos tokens de alto nivel corresponden directamente a los picos en los mapas de atención. Entonces, los modelos están resaltando selectivamente estos parches por razones desconocidas.

Experimentos adicionales revelan:

Los valores atípicos sólo aparecen durante el entrenamiento de modelos suficientemente grandes.
Emergen aproximadamente a la mitad del entrenamiento.
Ocurren en parches muy similares a sus vecinos, lo que sugiere redundancia.

Además, si bien los valores atípicos retienen menos información sobre su parche original, predicen mejor la categoría de imagen completa.

Esta evidencia apunta a una teoría intrigante...

La hipótesis del reciclaje

Los autores plantean la hipótesis de que a medida que los modelos se entrenan en grandes conjuntos de datos como ImageNet-22K, aprenden a identificar parches con poca información cuyos valores pueden descartarse sin perder la semántica de la imagen.

Luego, el modelo recicla esas incrustaciones de parches para almacenar información global temporal sobre la imagen completa, descartando detalles locales irrelevantes. Esto permite un procesamiento eficiente de características internas.

Sin embargo, este reciclaje provoca efectos secundarios indeseables:

Pérdida de detalles del parche original, lo que perjudica tareas densas como la segmentación.
Mapas de atención puntiagudos que son difíciles de interpretar
Incompatibilidad con métodos de descubrimiento de objetos.

Entonces, si bien este comportamiento surge de forma natural, tiene consecuencias negativas.

Arreglando ViT con registros explícitos

Para aliviar los parches reciclados, los investigadores proponen dar a los modelos almacenamiento dedicado agregando tokens de "registro" a la secuencia. Esto proporciona un espacio temporal temporal para los cálculos internos, evitando el secuestro de incrustaciones de parches aleatorios.

Sorprendentemente, este simple ajuste funciona muy bien.

Los modelos entrenados con registros muestran:

Mapas de atención más fluidos y semánticamente significativos
Mejoras menores en el rendimiento en varios puntos de referencia
Capacidades de descubrimiento de objetos muy mejoradas.

Los registros le dan al mecanismo de reciclaje un hogar adecuado, eliminando sus desagradables efectos secundarios. Sólo un pequeño cambio arquitectónico genera ganancias notables.

Conclusiones clave

Este intrigante estudio proporciona varias ideas valiosas:

Los transformadores de visión desarrollan comportamientos imprevistos como reciclar parches para almacenarlos
Agregar registros proporciona un espacio temporal temporal, lo que evita efectos secundarios no deseados
Esta sencilla solución mejora los mapas de atención y el rendimiento posterior.
Es probable que haya otros artefactos modelo no descubiertos que investigar

Echar un vistazo al interior de las cajas negras de las redes neuronales revela mucho sobre su funcionamiento interno, lo que guía mejoras incrementales. Más trabajos como este mejorarán constantemente las capacidades de los transformadores.

El rápido ritmo de progreso en los transformadores de visión no muestra signos de desaceleración. ¡Vivimos tiempos emocionantes!