1,593 판독값

Vision Transformers가 지루한 배경에 초점을 맞추는 이유는 무엇입니까?

~에 의해 Mike Young5m2023/10/02

너무 오래; 읽다

ViT(Vision Transformer)는 이미지 관련 작업에서 인기를 얻었지만 이상한 동작을 보입니다. 이미지의 주요 피사체 대신 중요하지 않은 배경 패치에 초점을 맞추는 것입니다. 연구원들은 L2 규범이 비정상적으로 높은 소수의 패치 토큰이 이러한 관심 급증을 유발한다는 사실을 발견했습니다. 그들은 ViT가 정보가 부족한 패치를 재활용하여 전역 이미지 정보를 저장함으로써 이러한 동작을 일으킨다는 가설을 세웠습니다. 이 문제를 해결하기 위해 그들은 전용 저장소를 제공하기 위해 "등록" 토큰을 추가하여 보다 원활한 주의 지도, 더 나은 성능 및 향상된 개체 검색 기능을 제공할 것을 제안합니다. 이 연구는 변압기 기능을 향상시키기 위해 모델 아티팩트에 대한 지속적인 연구가 필요하다는 점을 강조합니다.

featured image - Vision Transformers가 지루한 배경에 초점을 맞추는 이유는 무엇입니까?

Transformer는 많은 비전 작업에 선택되는 모델 아키텍처가 되었습니다. ViT(Vision Transformer)가 특히 인기가 있습니다. 변환기를 이미지 패치 시퀀스에 직접 적용합니다. 이제 ViT는 이미지 분류와 같은 벤치마크에서 CNN과 일치하거나 이를 초과합니다. 그러나 Meta와 INRIA의 연구원들은 ViT의 내부 작동에서 몇 가지 이상한 인공물을 발견했습니다.

이번 포스팅에서는 새 종이 이러한 아티팩트의 원인을 조사합니다. 그리고 우리는 모델을 혼동시키는 지루한 배경 패치가 아닌 이미지의 주제에 초점을 맞추도록 모델을 얻기 위해 연구자들이 어떻게 간단한 트릭(너무 미끼처럼 들리지 않도록)을 사용했는지 살펴보겠습니다. 갑시다.

신비한 관심 스파이크

이전 연구에서는 부드럽고 해석 가능한 주의 지도를 생성하는 비전 변환기를 칭찬했습니다. 이를 통해 모델이 이미지의 어느 부분에 초점을 맞추고 있는지 엿볼 수 있습니다.

이상하게도 많은 ViT 변종은 무작위적이고 정보가 없는 배경 패치에서 높은 관심을 보입니다. 왜 이 모델들은 이미지의 주요 피사체 대신 지루하고 중요하지 않은 배경 요소에 그렇게 집중하는 걸까요?

연구자들은 모델 전반에 걸쳐 주의 지도를 시각화하고 위와 같은 이미지를 생성함으로써 이러한 현상이 DeiT 및 CLIP과 같은 감독 버전과 DINOv2와 같은 최신 자체 감독 모델에서 발생한다는 것을 확실히 보여줍니다.

분명히 무언가가 모델이 설명할 수 없을 정도로 배경 소음에 집중하게 만들고 있습니다. 근데 뭐?

원인 추적: 높은 표준 이상치 토큰

저자는 출력 임베딩을 수치적으로 조사하여 근본 원인을 식별했습니다. 패치 토큰의 작은 부분(약 2%)은 L2 규범이 비정상적으로 높기 때문에 극단적인 이상값이 됩니다.

신경망의 맥락에서 뉴런의 가중치와 편향은 벡터로 표현될 수 있습니다. 벡터의 L2 노름(유클리드 노름이라고도 함)은 크기의 척도이며 해당 요소의 제곱합의 제곱근으로 계산됩니다.

벡터(예: 뉴런 또는 레이어의 가중치)가 "비정상적으로 높은 L2 표준"을 갖는다고 말할 때 이는 해당 벡터의 크기 또는 길이가 주어진 상황에서 예상되거나 일반적인 것과 비교하여 비정상적으로 크다는 것을 의미합니다.

신경망의 높은 L2 규범은 다음과 같은 몇 가지 문제를 나타낼 수 있습니다.

과적합 : 모델이 훈련 데이터에 너무 가깝게 피팅되어 노이즈를 포착하는 경우 가중치가 매우 커질 수 있습니다. L2 정규화와 같은 정규화 기술은 이를 완화하기 위해 큰 가중치에 페널티를 적용합니다.
수치적 불안정성 : 가중치가 너무 크거나 작으면 수치적 문제가 발생하여 모델이 불안정해질 수 있습니다.
일반화 불량 : L2 규범이 높으면 모델이 보이지 않는 새로운 데이터에 대해 잘 일반화되지 않을 수도 있음을 나타낼 수도 있습니다.

이것은 일반 영어로 무엇을 의미합니까? 시소의 균형을 맞추려고 하고 있고 양쪽에 다양한 크기의 추(또는 모래 주머니)가 있다고 상상해 보십시오. 각 가방의 크기는 시소의 균형을 맞추는 데 얼마나 많은 영향이나 중요성이 있는지를 나타냅니다. 이제 해당 가방 중 하나가 비정상적으로 크다면("L2 표준"이 높음) 이는 해당 가방이 밸런스에 너무 많은 영향을 미친다는 의미입니다.

유럴 네트워크 의 맥락에서 한 부분이 비정상적으로 높은 영향력(높은 L2 규범)을 갖는 경우 다른 중요한 부분을 무색하게 만들어 잘못된 결정이나 특정 기능에 대한 과도한 의존으로 이어질 수 있습니다. 이는 이상적인 것은 아니며, 우리는 종종 단일 부품이 과도한 영향을 받지 않도록 기계를 조정하려고 합니다.

이러한 높은 수준의 토큰은 주의 지도의 급증에 직접적으로 대응됩니다. 따라서 모델은 알 수 없는 이유로 이러한 패치를 선택적으로 강조합니다.

추가 실험에서 밝혀진 사실은 다음과 같습니다.