Transformer는 많은 비전 작업에 선택되는 모델 아키텍처가 되었습니다. ViT(Vision Transformer)가 특히 인기가 있습니다. 변환기를 이미지 패치 시퀀스에 직접 적용합니다. 이제 ViT는 이미지 분류와 같은 벤치마크에서 CNN과 일치하거나 이를 초과합니다. 그러나 Meta와 INRIA의 연구원들은 ViT의 내부 작동에서 몇 가지 이상한 인공물을 발견했습니다.
이번 포스팅에서는
이전 연구에서는 부드럽고 해석 가능한 주의 지도를 생성하는 비전 변환기를 칭찬했습니다. 이를 통해 모델이 이미지의 어느 부분에 초점을 맞추고 있는지 엿볼 수 있습니다.
이상하게도 많은 ViT 변종은 무작위적이고 정보가 없는 배경 패치에서 높은 관심을 보입니다. 왜 이 모델들은 이미지의 주요 피사체 대신 지루하고 중요하지 않은 배경 요소에 그렇게 집중하는 걸까요?
연구자들은 모델 전반에 걸쳐 주의 지도를 시각화하고 위와 같은 이미지를 생성함으로써 이러한 현상이 DeiT 및 CLIP과 같은 감독 버전과 DINOv2와 같은 최신 자체 감독 모델에서 발생한다는 것을 확실히 보여줍니다.
분명히 무언가가 모델이 설명할 수 없을 정도로 배경 소음에 집중하게 만들고 있습니다. 근데 뭐?
저자는 출력 임베딩을 수치적으로 조사하여 근본 원인을 식별했습니다. 패치 토큰의 작은 부분(약 2%)은 L2 규범이 비정상적으로 높기 때문에 극단적인 이상값이 됩니다.
신경망의 맥락에서 뉴런의 가중치와 편향은 벡터로 표현될 수 있습니다. 벡터의 L2 노름(유클리드 노름이라고도 함)은 크기의 척도이며 해당 요소의 제곱합의 제곱근으로 계산됩니다.
벡터(예: 뉴런 또는 레이어의 가중치)가 "비정상적으로 높은 L2 표준"을 갖는다고 말할 때 이는 해당 벡터의 크기 또는 길이가 주어진 상황에서 예상되거나 일반적인 것과 비교하여 비정상적으로 크다는 것을 의미합니다.
신경망의 높은 L2 규범은 다음과 같은 몇 가지 문제를 나타낼 수 있습니다.
과적합 : 모델이 훈련 데이터에 너무 가깝게 피팅되어 노이즈를 포착하는 경우 가중치가 매우 커질 수 있습니다. L2 정규화와 같은 정규화 기술은 이를 완화하기 위해 큰 가중치에 페널티를 적용합니다.
수치적 불안정성 : 가중치가 너무 크거나 작으면 수치적 문제가 발생하여 모델이 불안정해질 수 있습니다.
일반화 불량 : L2 규범이 높으면 모델이 보이지 않는 새로운 데이터에 대해 잘 일반화되지 않을 수도 있음을 나타낼 수도 있습니다.
이것은 일반 영어로 무엇을 의미합니까? 시소의 균형을 맞추려고 하고 있고 양쪽에 다양한 크기의 추(또는 모래 주머니)가 있다고 상상해 보십시오. 각 가방의 크기는 시소의 균형을 맞추는 데 얼마나 많은 영향이나 중요성이 있는지를 나타냅니다. 이제 해당 가방 중 하나가 비정상적으로 크다면("L2 표준"이 높음) 이는 해당 가방이 밸런스에 너무 많은 영향을 미친다는 의미입니다.
유럴 네트워크 의 맥락에서 한 부분이 비정상적으로 높은 영향력(높은 L2 규범)을 갖는 경우 다른 중요한 부분을 무색하게 만들어 잘못된 결정이나 특정 기능에 대한 과도한 의존으로 이어질 수 있습니다. 이는 이상적인 것은 아니며, 우리는 종종 단일 부품이 과도한 영향을 받지 않도록 기계를 조정하려고 합니다.
이러한 높은 수준의 토큰은 주의 지도의 급증에 직접적으로 대응됩니다. 따라서 모델은 알 수 없는 이유로 이러한 패치를 선택적으로 강조합니다.
추가 실험에서 밝혀진 사실은 다음과 같습니다.
또한 이상치는 원래 패치에 대한 정보를 적게 유지하지만 전체 이미지 범주를 더 잘 예측합니다.
이 증거는 흥미로운 이론을 지적합니다.
저자는 모델이 ImageNet-22K와 같은 대규모 데이터세트를 학습할 때 이미지 의미를 잃지 않고 값을 삭제할 수 있는 정보가 적은 패치를 식별하는 방법을 학습한다고 가정합니다.
그런 다음 모델은 해당 패치 임베딩을 재활용하여 전체 이미지에 대한 임시 전역 정보를 저장하고 관련 없는 로컬 세부 정보는 삭제합니다. 이를 통해 효율적인 내부 특성 처리가 가능합니다.
그러나 이러한 재활용은 바람직하지 않은 부작용을 야기합니다.
따라서 이러한 행동은 자연스럽게 나타나기는 하지만 부정적인 결과를 초래합니다.
재활용 패치를 완화하기 위해 연구원들은 시퀀스에 "등록" 토큰을 추가하여 모델 전용 스토리지를 제공할 것을 제안합니다. 이는 내부 계산을 위한 임시 스크래치 공간을 제공하여 무작위 패치 임베딩 하이재킹을 방지합니다.
놀랍게도 이 간단한 조정은 매우 효과적입니다.
레지스터로 훈련된 모델은 다음을 보여줍니다.
레지스터는 재활용 메커니즘에 적절한 집을 제공하여 불쾌한 부작용을 제거합니다. 작은 아키텍처 변경만으로도 눈에 띄는 이점을 얻을 수 있습니다.
이 흥미로운 연구는 다음과 같은 몇 가지 귀중한 통찰력을 제공합니다.
신경망 블랙박스를 들여다보면 내부 작동 방식에 대해 많은 것을 알 수 있고 점진적인 개선을 안내할 수 있습니다. 이와 같은 더 많은 작업을 통해 변압기 기능이 꾸준히 향상될 것입니다.
비전 변환기의 급속한 발전 속도는 둔화될 기미를 보이지 않습니다. 우리는 흥미로운 시대에 살고 있습니다!
여기에도 게시되었습니다 .