Máy biến áp đã trở thành kiến trúc kiểu mẫu được lựa chọn cho nhiều nhiệm vụ tầm nhìn. Vision Transformers (ViT) đặc biệt phổ biến. Họ áp dụng biến áp trực tiếp vào chuỗi các bản vá hình ảnh. ViT hiện khớp hoặc vượt CNN trên các điểm chuẩn như phân loại hình ảnh. Tuy nhiên, các nhà nghiên cứu từ Meta và INRIA đã xác định được một số hiện tượng kỳ lạ trong hoạt động bên trong của ViT.
Trong bài đăng này, chúng tôi sẽ đi sâu vào một
Nhiều nghiên cứu trước đây đã ca ngợi máy biến đổi tầm nhìn trong việc tạo ra các bản đồ chú ý mượt mà, dễ hiểu. Những điều này cho phép chúng ta xem qua phần nào của hình ảnh mà người mẫu đang tập trung vào.
Điều kỳ lạ là nhiều biến thể ViT lại thể hiện sự chú ý cao độ trên các bản vá nền ngẫu nhiên, không có thông tin. Tại sao những người mẫu này lại tập trung quá nhiều vào các yếu tố nền nhàm chán, không quan trọng thay vì chủ thể chính của những hình ảnh này?
Bằng cách trực quan hóa bản đồ chú ý trên các mô hình và tạo ra hình ảnh giống như hình trên, các nhà nghiên cứu cho thấy rõ điều này xảy ra trong các phiên bản được giám sát như DeiT và CLIP, cùng với các mô hình tự giám sát mới hơn như DINOv2.
Rõ ràng, có điều gì đó đang khiến các mô hình tập trung vào tiếng ồn xung quanh một cách khó hiểu. Nhưng cái gì?
Bằng cách thăm dò số lượng các phần nhúng đầu ra, các tác giả đã xác định được nguyên nhân gốc rễ. Một phần nhỏ (khoảng 2%) mã thông báo vá có chỉ tiêu L2 cao bất thường, khiến chúng trở thành những ngoại lệ cực kỳ lớn.
Trong bối cảnh mạng lưới thần kinh, trọng số và độ lệch của các nơ-ron có thể được biểu diễn dưới dạng vectơ. Định mức L2 (còn được gọi là định mức Euclide) của một vectơ là thước đo độ lớn của nó và được tính bằng căn bậc hai của tổng bình phương các phần tử của nó.
Khi chúng ta nói một vectơ (ví dụ: trọng lượng của nơ-ron hoặc lớp) có "chỉ tiêu L2 cao bất thường", điều đó có nghĩa là độ lớn hoặc độ dài của vectơ đó lớn bất thường so với những gì được mong đợi hoặc điển hình trong bối cảnh nhất định.
Chỉ tiêu L2 cao trong mạng lưới thần kinh có thể là dấu hiệu của một số vấn đề:
Trang bị quá mức : Nếu mô hình quá khớp với dữ liệu huấn luyện và thu được tiếng ồn thì trọng số có thể trở nên rất lớn. Các kỹ thuật chính quy hóa như chính quy hóa L2 sẽ xử phạt các trọng số lớn để giảm thiểu điều này.
Tính không ổn định về mặt số : Trọng số rất lớn hoặc rất nhỏ có thể gây ra các vấn đề về số, dẫn đến mô hình không ổn định.
Khả năng khái quát hóa kém : Chỉ tiêu L2 cao cũng có thể chỉ ra rằng mô hình có thể không khái quát hóa tốt đối với dữ liệu mới, chưa được nhìn thấy.
Điều này có nghĩa gì trong tiếng Anh đơn giản? Hãy tưởng tượng bạn đang cố gắng giữ thăng bằng cho một chiếc bập bênh và bạn có các vật nặng (hoặc bao cát) với nhiều kích cỡ khác nhau để đặt ở hai bên. Kích thước của mỗi chiếc túi thể hiện mức độ ảnh hưởng hoặc tầm quan trọng của nó trong việc cân bằng bập bênh. Bây giờ, nếu một trong những chiếc túi đó lớn bất thường (có "chỉ tiêu L2" cao), điều đó có nghĩa là chiếc túi đó đang có quá nhiều ảnh hưởng đến sự cân bằng.
Trong bối cảnh mạng eural , nếu một phần của nó có ảnh hưởng cao bất thường (chỉ tiêu L2 cao), nó có thể làm lu mờ các phần quan trọng khác, điều này có thể dẫn đến những quyết định sai lầm hoặc phụ thuộc quá mức vào các tính năng cụ thể. Điều này không lý tưởng và chúng tôi thường cố gắng điều chỉnh máy để đảm bảo rằng không có bộ phận nào có quá nhiều ảnh hưởng quá mức.
Những mã thông báo tiêu chuẩn cao này tương ứng trực tiếp với mức tăng đột biến trong bản đồ chú ý. Vì vậy, các mô hình đang làm nổi bật các bản vá lỗi này một cách có chọn lọc mà không rõ lý do.
Các thí nghiệm bổ sung tiết lộ:
Hơn nữa, mặc dù các ngoại lệ giữ lại ít thông tin hơn về bản vá ban đầu của chúng, nhưng chúng có khả năng dự đoán tốt hơn về danh mục hình ảnh đầy đủ.
Bằng chứng này chỉ ra một lý thuyết hấp dẫn...
Các tác giả đưa ra giả thuyết rằng khi các mô hình đào tạo trên các tập dữ liệu lớn như ImageNet-22K, họ học cách xác định các bản vá có ít thông tin mà giá trị của chúng có thể bị loại bỏ mà không làm mất ngữ nghĩa hình ảnh.
Sau đó, mô hình sẽ tái chế các phần nhúng bản vá đó để lưu trữ thông tin toàn cầu tạm thời về hình ảnh đầy đủ, loại bỏ các chi tiết cục bộ không liên quan. Điều này cho phép xử lý tính năng nội bộ hiệu quả.
Tuy nhiên, việc tái chế này gây ra những tác dụng phụ không mong muốn:
Vì vậy, mặc dù hành vi này xuất hiện một cách tự nhiên nhưng nó lại gây ra những hậu quả tiêu cực.
Để giảm bớt các bản vá được tái chế, các nhà nghiên cứu đề xuất cung cấp cho các mô hình bộ nhớ chuyên dụng bằng cách thêm mã thông báo "đăng ký" vào chuỗi. Điều này cung cấp không gian tạm thời cho các tính toán nội bộ, ngăn chặn việc chiếm đoạt các phần nhúng bản vá ngẫu nhiên.
Điều đáng chú ý là tinh chỉnh đơn giản này hoạt động rất tốt.
Các mô hình được đào tạo với các thanh ghi hiển thị:
Các sổ đăng ký cung cấp cho cơ chế tái chế một ngôi nhà thích hợp, loại bỏ các tác dụng phụ khó chịu của nó. Chỉ cần một thay đổi nhỏ về kiến trúc sẽ mang lại những lợi ích đáng chú ý.
Nghiên cứu hấp dẫn này cung cấp một số hiểu biết có giá trị:
Nhìn vào bên trong các hộp đen của mạng thần kinh sẽ tiết lộ nhiều điều về hoạt động bên trong của chúng, hướng dẫn các cải tiến gia tăng. Nhiều công việc như thế này sẽ dần dần nâng cao khả năng của máy biến áp.
Tốc độ phát triển nhanh chóng của máy biến đổi thị giác không có dấu hiệu chậm lại. Chúng ta đang sống trong thời kỳ thú vị!
Cũng được xuất bản ở đây.