1,593 lượt đọc

Tại sao Vision Transformers lại tập trung vào những hình nền nhàm chán?

từ tác giả Mike Young5m2023/10/02

dài quá đọc không nổi

Vision Transformers (ViTs) đã trở nên phổ biến đối với các tác vụ liên quan đến hình ảnh nhưng lại có hành vi kỳ lạ: tập trung vào các mảng nền không quan trọng thay vì chủ thể chính trong hình ảnh. Các nhà nghiên cứu phát hiện ra rằng một phần nhỏ các mã thông báo vá lỗi có chỉ tiêu L2 cao bất thường gây ra sự chú ý tăng đột biến này. Họ đưa ra giả thuyết rằng ViT tái chế các bản vá ít thông tin để lưu trữ thông tin hình ảnh toàn cầu, dẫn đến hành vi này. Để khắc phục, họ đề xuất thêm mã thông báo "đăng ký" để cung cấp bộ nhớ chuyên dụng, dẫn đến bản đồ chú ý mượt mà hơn, hiệu suất tốt hơn và khả năng khám phá đối tượng được cải thiện. Nghiên cứu này nhấn mạnh sự cần thiết phải tiếp tục nghiên cứu các tạo phẩm mô hình để nâng cao khả năng của máy biến áp.

featured image - Tại sao Vision Transformers lại tập trung vào những hình nền nhàm chán?

Máy biến áp đã trở thành kiến trúc kiểu mẫu được lựa chọn cho nhiều nhiệm vụ tầm nhìn. Vision Transformers (ViT) đặc biệt phổ biến. Họ áp dụng biến áp trực tiếp vào chuỗi các bản vá hình ảnh. ViT hiện khớp hoặc vượt CNN trên các điểm chuẩn như phân loại hình ảnh. Tuy nhiên, các nhà nghiên cứu từ Meta và INRIA đã xác định được một số hiện tượng kỳ lạ trong hoạt động bên trong của ViT.

Trong bài đăng này, chúng tôi sẽ đi sâu vào một giấy mới điều tra nguyên nhân của những cổ vật này. Và chúng ta sẽ xem cách các nhà nghiên cứu sử dụng một thủ thuật đơn giản (không nghe có vẻ quá lôi cuốn) để khiến các mô hình tập trung vào chủ đề của hình ảnh chứ không phải các mảng nền nhàm chán có xu hướng khiến họ bối rối. Đi nào.

Sự chú ý bí ẩn tăng vọt

Nhiều nghiên cứu trước đây đã ca ngợi máy biến đổi tầm nhìn trong việc tạo ra các bản đồ chú ý mượt mà, dễ hiểu. Những điều này cho phép chúng ta xem qua phần nào của hình ảnh mà người mẫu đang tập trung vào.

Điều kỳ lạ là nhiều biến thể ViT lại thể hiện sự chú ý cao độ trên các bản vá nền ngẫu nhiên, không có thông tin. Tại sao những người mẫu này lại tập trung quá nhiều vào các yếu tố nền nhàm chán, không quan trọng thay vì chủ thể chính của những hình ảnh này?

Bằng cách trực quan hóa bản đồ chú ý trên các mô hình và tạo ra hình ảnh giống như hình trên, các nhà nghiên cứu cho thấy rõ điều này xảy ra trong các phiên bản được giám sát như DeiT và CLIP, cùng với các mô hình tự giám sát mới hơn như DINOv2.

Rõ ràng, có điều gì đó đang khiến các mô hình tập trung vào tiếng ồn xung quanh một cách khó hiểu. Nhưng cái gì?

Truy tìm nguyên nhân: Token ngoại lệ tiêu chuẩn cao

Bằng cách thăm dò số lượng các phần nhúng đầu ra, các tác giả đã xác định được nguyên nhân gốc rễ. Một phần nhỏ (khoảng 2%) mã thông báo vá có chỉ tiêu L2 cao bất thường, khiến chúng trở thành những ngoại lệ cực kỳ lớn.

Trong bối cảnh mạng lưới thần kinh, trọng số và độ lệch của các nơ-ron có thể được biểu diễn dưới dạng vectơ. Định mức L2 (còn được gọi là định mức Euclide) của một vectơ là thước đo độ lớn của nó và được tính bằng căn bậc hai của tổng bình phương các phần tử của nó.

Khi chúng ta nói một vectơ (ví dụ: trọng lượng của nơ-ron hoặc lớp) có "chỉ tiêu L2 cao bất thường", điều đó có nghĩa là độ lớn hoặc độ dài của vectơ đó lớn bất thường so với những gì được mong đợi hoặc điển hình trong bối cảnh nhất định.

Chỉ tiêu L2 cao trong mạng lưới thần kinh có thể là dấu hiệu của một số vấn đề:

Trang bị quá mức : Nếu mô hình quá khớp với dữ liệu huấn luyện và thu được tiếng ồn thì trọng số có thể trở nên rất lớn. Các kỹ thuật chính quy hóa như chính quy hóa L2 sẽ xử phạt các trọng số lớn để giảm thiểu điều này.
Tính không ổn định về mặt số : Trọng số rất lớn hoặc rất nhỏ có thể gây ra các vấn đề về số, dẫn đến mô hình không ổn định.
Khả năng khái quát hóa kém : Chỉ tiêu L2 cao cũng có thể chỉ ra rằng mô hình có thể không khái quát hóa tốt đối với dữ liệu mới, chưa được nhìn thấy.

Điều này có nghĩa gì trong tiếng Anh đơn giản? Hãy tưởng tượng bạn đang cố gắng giữ thăng bằng cho một chiếc bập bênh và bạn có các vật nặng (hoặc bao cát) với nhiều kích cỡ khác nhau để đặt ở hai bên. Kích thước của mỗi chiếc túi thể hiện mức độ ảnh hưởng hoặc tầm quan trọng của nó trong việc cân bằng bập bênh. Bây giờ, nếu một trong những chiếc túi đó lớn bất thường (có "chỉ tiêu L2" cao), điều đó có nghĩa là chiếc túi đó đang có quá nhiều ảnh hưởng đến sự cân bằng.

Trong bối cảnh mạng eural , nếu một phần của nó có ảnh hưởng cao bất thường (chỉ tiêu L2 cao), nó có thể làm lu mờ các phần quan trọng khác, điều này có thể dẫn đến những quyết định sai lầm hoặc phụ thuộc quá mức vào các tính năng cụ thể. Điều này không lý tưởng và chúng tôi thường cố gắng điều chỉnh máy để đảm bảo rằng không có bộ phận nào có quá nhiều ảnh hưởng quá mức.

Những mã thông báo tiêu chuẩn cao này tương ứng trực tiếp với mức tăng đột biến trong bản đồ chú ý. Vì vậy, các mô hình đang làm nổi bật các bản vá lỗi này một cách có chọn lọc mà không rõ lý do.

Các thí nghiệm bổ sung tiết lộ:

Các ngoại lệ chỉ xuất hiện trong quá trình huấn luyện các mô hình đủ lớn.
Họ xuất hiện khoảng nửa chừng trong quá trình đào tạo.
Chúng xuất hiện trên các vùng rất giống với các vùng lân cận, cho thấy sự dư thừa.

Hơn nữa, mặc dù các ngoại lệ giữ lại ít thông tin hơn về bản vá ban đầu của chúng, nhưng chúng có khả năng dự đoán tốt hơn về danh mục hình ảnh đầy đủ.

Bằng chứng này chỉ ra một lý thuyết hấp dẫn...

Giả thuyết tái chế

Các tác giả đưa ra giả thuyết rằng khi các mô hình đào tạo trên các tập dữ liệu lớn như ImageNet-22K, họ học cách xác định các bản vá có ít thông tin mà giá trị của chúng có thể bị loại bỏ mà không làm mất ngữ nghĩa hình ảnh.

Sau đó, mô hình sẽ tái chế các phần nhúng bản vá đó để lưu trữ thông tin toàn cầu tạm thời về hình ảnh đầy đủ, loại bỏ các chi tiết cục bộ không liên quan. Điều này cho phép xử lý tính năng nội bộ hiệu quả.

Tuy nhiên, việc tái chế này gây ra những tác dụng phụ không mong muốn:

Mất chi tiết bản vá gốc, làm ảnh hưởng đến các nhiệm vụ dày đặc như phân đoạn
Bản đồ chú ý có nhiều gai nhọn khó diễn giải
Không tương thích với các phương pháp khám phá đối tượng

Vì vậy, mặc dù hành vi này xuất hiện một cách tự nhiên nhưng nó lại gây ra những hậu quả tiêu cực.

Sửa lỗi ViT bằng các thanh ghi rõ ràng

Để giảm bớt các bản vá được tái chế, các nhà nghiên cứu đề xuất cung cấp cho các mô hình bộ nhớ chuyên dụng bằng cách thêm mã thông báo "đăng ký" vào chuỗi. Điều này cung cấp không gian tạm thời cho các tính toán nội bộ, ngăn chặn việc chiếm đoạt các phần nhúng bản vá ngẫu nhiên.

Điều đáng chú ý là tinh chỉnh đơn giản này hoạt động rất tốt.

Các mô hình được đào tạo với các thanh ghi hiển thị:

Bản đồ chú ý mượt mà hơn, có ý nghĩa hơn về mặt ngữ nghĩa
Tăng hiệu suất nhỏ trên các điểm chuẩn khác nhau
Khả năng khám phá đối tượng được cải thiện đáng kể

Các sổ đăng ký cung cấp cho cơ chế tái chế một ngôi nhà thích hợp, loại bỏ các tác dụng phụ khó chịu của nó. Chỉ cần một thay đổi nhỏ về kiến trúc sẽ mang lại những lợi ích đáng chú ý.

Bài học chính

Nghiên cứu hấp dẫn này cung cấp một số hiểu biết có giá trị:

Máy biến đổi tầm nhìn phát triển các hành vi không lường trước được như tái chế các bản vá để lưu trữ
Việc thêm các thanh ghi mang lại không gian tạm thời, ngăn ngừa các tác dụng phụ ngoài ý muốn
Bản sửa lỗi đơn giản này cải thiện bản đồ chú ý và hiệu suất xuôi dòng
Có khả năng có những tạo tác mô hình khác chưa được khám phá để điều tra

Nhìn vào bên trong các hộp đen của mạng thần kinh sẽ tiết lộ nhiều điều về hoạt động bên trong của chúng, hướng dẫn các cải tiến gia tăng. Nhiều công việc như thế này sẽ dần dần nâng cao khả năng của máy biến áp.

Tốc độ phát triển nhanh chóng của máy biến đổi thị giác không có dấu hiệu chậm lại. Chúng ta đang sống trong thời kỳ thú vị!