paint-brush
Vision Transformers가 지루한 배경에 초점을 맞추는 이유는 무엇입니까?~에 의해@mikeyoung44
1,541 판독값
1,541 판독값

Vision Transformers가 지루한 배경에 초점을 맞추는 이유는 무엇입니까?

~에 의해 Mike Young5m2023/10/02
Read on Terminal Reader
Read this story w/o Javascript

너무 오래; 읽다

ViT(Vision Transformer)는 이미지 관련 작업에서 인기를 얻었지만 이상한 동작을 보입니다. 이미지의 주요 피사체 대신 중요하지 않은 배경 패치에 초점을 맞추는 것입니다. 연구원들은 L2 규범이 비정상적으로 높은 소수의 패치 토큰이 이러한 관심 급증을 유발한다는 사실을 발견했습니다. 그들은 ViT가 정보가 부족한 패치를 재활용하여 전역 이미지 정보를 저장함으로써 이러한 동작을 일으킨다는 가설을 세웠습니다. 이 문제를 해결하기 위해 그들은 전용 저장소를 제공하기 위해 "등록" 토큰을 추가하여 보다 원활한 주의 지도, 더 나은 성능 및 향상된 개체 검색 기능을 제공할 것을 제안합니다. 이 연구는 변압기 기능을 향상시키기 위해 모델 아티팩트에 대한 지속적인 연구가 필요하다는 점을 강조합니다.
featured image - Vision Transformers가 지루한 배경에 초점을 맞추는 이유는 무엇입니까?
Mike Young HackerNoon profile picture
0-item


Transformer는 많은 비전 작업에 선택되는 모델 아키텍처가 되었습니다. ViT(Vision Transformer)가 특히 인기가 있습니다. 변환기를 이미지 패치 시퀀스에 직접 적용합니다. 이제 ViT는 이미지 분류와 같은 벤치마크에서 CNN과 일치하거나 이를 초과합니다. 그러나 Meta와 INRIA의 연구원들은 ViT의 내부 작동에서 몇 가지 이상한 인공물을 발견했습니다.


이번 포스팅에서는 새 종이 이러한 아티팩트의 원인을 조사합니다. 그리고 우리는 모델을 혼동시키는 지루한 배경 패치가 아닌 이미지의 주제에 초점을 맞추도록 모델을 얻기 위해 연구자들이 어떻게 간단한 트릭(너무 미끼처럼 들리지 않도록)을 사용했는지 살펴보겠습니다. 갑시다.


신비한 관심 스파이크

이전 연구에서는 부드럽고 해석 가능한 주의 지도를 생성하는 비전 변환기를 칭찬했습니다. 이를 통해 모델이 이미지의 어느 부분에 초점을 맞추고 있는지 엿볼 수 있습니다.


이상하게도 많은 ViT 변종은 무작위적이고 정보가 없는 배경 패치에서 높은 관심을 보입니다. 왜 이 모델들은 이미지의 주요 피사체 대신 지루하고 중요하지 않은 배경 요소에 그렇게 집중하는 걸까요?


연구자들이 줄이고 싶어하는 이상한 주의 아티팩트 중 일부를 시각적으로 보여주는 논문의 그림입니다.



연구자들은 모델 전반에 걸쳐 주의 지도를 시각화하고 위와 같은 이미지를 생성함으로써 이러한 현상이 DeiT 및 CLIP과 같은 감독 버전과 DINOv2와 같은 최신 자체 감독 모델에서 발생한다는 것을 확실히 보여줍니다.


분명히 무언가가 모델이 설명할 수 없을 정도로 배경 소음에 집중하게 만들고 있습니다. 근데 뭐?


원인 추적: 높은 표준 이상치 토큰

저자는 출력 임베딩을 수치적으로 조사하여 근본 원인을 식별했습니다. 패치 토큰의 작은 부분(약 2%)은 L2 규범이 비정상적으로 높기 때문에 극단적인 이상값이 됩니다.


신경망의 맥락에서 뉴런의 가중치와 편향은 벡터로 표현될 수 있습니다. 벡터의 L2 노름(유클리드 노름이라고도 함)은 크기의 척도이며 해당 요소의 제곱합의 제곱근으로 계산됩니다.


벡터(예: 뉴런 또는 레이어의 가중치)가 "비정상적으로 높은 L2 표준"을 갖는다고 말할 때 이는 해당 벡터의 크기 또는 길이가 주어진 상황에서 예상되거나 일반적인 것과 비교하여 비정상적으로 크다는 것을 의미합니다.


신경망의 높은 L2 규범은 다음과 같은 몇 가지 문제를 나타낼 수 있습니다.


  1. 과적합 : 모델이 훈련 데이터에 너무 가깝게 피팅되어 노이즈를 포착하는 경우 가중치가 매우 커질 수 있습니다. L2 정규화와 같은 정규화 기술은 이를 완화하기 위해 큰 가중치에 페널티를 적용합니다.


  2. 수치적 불안정성 : 가중치가 너무 크거나 작으면 수치적 문제가 발생하여 모델이 불안정해질 수 있습니다.


  3. 일반화 불량 : L2 규범이 높으면 모델이 보이지 않는 새로운 데이터에 대해 잘 일반화되지 않을 수도 있음을 나타낼 수도 있습니다.


이것은 일반 영어로 무엇을 의미합니까? 시소의 균형을 맞추려고 하고 있고 양쪽에 다양한 크기의 추(또는 모래 주머니)가 있다고 상상해 보십시오. 각 가방의 크기는 시소의 균형을 맞추는 데 얼마나 많은 영향이나 중요성이 있는지를 나타냅니다. 이제 해당 가방 중 하나가 비정상적으로 크다면("L2 표준"이 높음) 이는 해당 가방이 밸런스에 너무 많은 영향을 미친다는 의미입니다.


유럴 네트워크 의 맥락에서 한 부분이 비정상적으로 높은 영향력(높은 L2 규범)을 갖는 경우 다른 중요한 부분을 무색하게 만들어 잘못된 결정이나 특정 기능에 대한 과도한 의존으로 이어질 수 있습니다. 이는 이상적인 것은 아니며, 우리는 종종 단일 부품이 과도한 영향을 받지 않도록 기계를 조정하려고 합니다.


이러한 높은 수준의 토큰은 주의 지도의 급증에 직접적으로 대응됩니다. 따라서 모델은 알 수 없는 이유로 이러한 패치를 선택적으로 강조합니다.


추가 실험에서 밝혀진 사실은 다음과 같습니다.


  • 이상값은 충분히 큰 모델을 훈련하는 동안에만 나타납니다.
  • 그들은 훈련의 중간쯤에 나타납니다.
  • 이는 이웃과 매우 유사한 패치에서 발생하므로 중복성을 암시합니다.


또한 이상치는 원래 패치에 대한 정보를 적게 유지하지만 전체 이미지 범주를 더 잘 예측합니다.


이 증거는 흥미로운 이론을 지적합니다.

재활용 가설

저자는 모델이 ImageNet-22K와 같은 대규모 데이터세트를 학습할 때 이미지 의미를 잃지 않고 값을 삭제할 수 있는 정보가 적은 패치를 식별하는 방법을 학습한다고 가정합니다.


그런 다음 모델은 해당 패치 임베딩을 재활용하여 전체 이미지에 대한 임시 전역 정보를 저장하고 관련 없는 로컬 세부 정보는 삭제합니다. 이를 통해 효율적인 내부 특성 처리가 가능합니다.

그러나 이러한 재활용은 바람직하지 않은 부작용을 야기합니다.


  • 원본 패치 세부 정보가 손실되어 세분화와 같은 밀도가 높은 작업이 손상됨
  • 해석하기 어려운 뾰족한 주의 지도
  • 개체 검색 방법과의 비호환성


따라서 이러한 행동은 자연스럽게 나타나기는 하지만 부정적인 결과를 초래합니다.


명시적 레지스터를 사용하여 ViT 수정

재활용 패치를 완화하기 위해 연구원들은 시퀀스에 "등록" 토큰을 추가하여 모델 전용 스토리지를 제공할 것을 제안합니다. 이는 내부 계산을 위한 임시 스크래치 공간을 제공하여 무작위 패치 임베딩 하이재킹을 방지합니다.



레지스터 사용 결과 - 모델은 이미지의 주제에 훨씬 더 밀접하게 초점을 맞춥니다! 신문에서.



놀랍게도 이 간단한 조정은 매우 효과적입니다.


레지스터로 훈련된 모델은 다음을 보여줍니다.


  • 더 부드럽고 의미적으로 의미 있는 주의 지도
  • 다양한 벤치마크에서 약간의 성능 향상
  • 객체 발견 능력이 크게 향상되었습니다.


레지스터는 재활용 메커니즘에 적절한 집을 제공하여 불쾌한 부작용을 제거합니다. 작은 아키텍처 변경만으로도 눈에 띄는 이점을 얻을 수 있습니다.


주요 시사점

이 흥미로운 연구는 다음과 같은 몇 가지 귀중한 통찰력을 제공합니다.


  • 비전 트랜스포머는 보관용 패치 재활용과 같은 예상치 못한 동작을 개발합니다.
  • 레지스터를 추가하면 임시 스크래치 공간이 제공되어 의도하지 않은 부작용을 방지할 수 있습니다.
  • 이 간단한 수정으로 주의 지도와 다운스트림 성능이 향상됩니다.
  • 조사할 다른 발견되지 않은 모델 아티팩트가 있을 가능성이 높습니다.


신경망 블랙박스를 들여다보면 내부 작동 방식에 대해 많은 것을 알 수 있고 점진적인 개선을 안내할 수 있습니다. 이와 같은 더 많은 작업을 통해 변압기 기능이 꾸준히 향상될 것입니다.

비전 변환기의 급속한 발전 속도는 둔화될 기미를 보이지 않습니다. 우리는 흥미로운 시대에 살고 있습니다!


여기에도 게시되었습니다 .

구독하다 아니면 나를 따라오세요 트위터 이런 콘텐츠를 더 보려면!