Máy biến áp đã trở thành kiến trúc kiểu mẫu được lựa chọn cho nhiều nhiệm vụ tầm nhìn. Vision Transformers (ViT) đặc biệt phổ biến. Họ áp dụng biến áp trực tiếp vào chuỗi các bản vá hình ảnh. ViT hiện khớp hoặc vượt CNN trên các điểm chuẩn như   Tuy nhiên, các nhà nghiên cứu từ Meta và INRIA đã xác định được một số hiện tượng kỳ lạ trong hoạt động bên trong của ViT. phân loại hình ảnh.  Trong bài đăng này, chúng tôi sẽ đi sâu vào một  điều tra nguyên nhân của những cổ vật này. Và chúng ta sẽ xem cách các nhà nghiên cứu sử dụng một thủ thuật đơn giản (không nghe có vẻ quá lôi cuốn) để khiến các mô hình tập trung vào chủ đề của hình ảnh chứ không phải các mảng nền nhàm chán có xu hướng khiến họ bối rối. Đi nào.   giấy mới  Sự chú ý bí ẩn tăng vọt  Nhiều nghiên cứu trước đây đã ca ngợi máy biến đổi tầm nhìn trong việc tạo ra các bản đồ chú ý mượt mà, dễ hiểu. Những điều này cho phép chúng ta xem qua phần nào của hình ảnh mà người mẫu đang tập trung vào.  Điều kỳ lạ là nhiều biến thể ViT lại thể hiện sự chú ý cao độ trên các bản vá nền ngẫu nhiên, không có thông tin. Tại sao những người mẫu này lại tập trung quá nhiều vào các yếu tố nền nhàm chán, không quan trọng thay vì chủ thể chính của những hình ảnh này?   Bằng cách trực quan hóa bản đồ chú ý trên các mô hình và tạo ra hình ảnh giống như hình trên, các nhà nghiên cứu cho thấy rõ điều này xảy ra trong các phiên bản được giám sát như DeiT và CLIP, cùng với các mô hình tự giám sát mới hơn như DINOv2.  Rõ ràng, có điều gì đó đang khiến các mô hình tập trung vào tiếng ồn xung quanh một cách khó hiểu. Nhưng cái gì?  Truy tìm nguyên nhân: Token ngoại lệ tiêu chuẩn cao  Bằng cách thăm dò số lượng các phần nhúng đầu ra, các tác giả đã xác định được nguyên nhân gốc rễ. Một phần nhỏ (khoảng 2%) mã thông báo vá có chỉ tiêu L2 cao bất thường, khiến chúng trở thành những ngoại lệ cực kỳ lớn.  Trong bối cảnh mạng lưới thần kinh, trọng số và độ lệch của các nơ-ron có thể được biểu diễn dưới dạng vectơ. Định mức L2 (còn được gọi là định mức Euclide) của một vectơ là thước đo độ lớn của nó và được tính bằng căn bậc hai của tổng bình phương các phần tử của nó.  Khi chúng ta nói một vectơ (ví dụ: trọng lượng của nơ-ron hoặc lớp) có "chỉ tiêu L2 cao bất thường", điều đó có nghĩa là độ lớn hoặc độ dài của vectơ đó lớn bất thường so với những gì được mong đợi hoặc điển hình trong bối cảnh nhất định.   Chỉ tiêu L2 cao trong mạng lưới thần kinh có thể là dấu hiệu của một số vấn đề:    : Nếu mô hình quá khớp với dữ liệu huấn luyện và thu được tiếng ồn thì trọng số có thể trở nên rất lớn. Các kỹ thuật chính quy hóa như chính quy hóa L2 sẽ xử phạt các trọng số lớn để giảm thiểu điều này. Trang bị quá mức    : Trọng số rất lớn hoặc rất nhỏ có thể gây ra các vấn đề về số, dẫn đến mô hình không ổn định. Tính không ổn định về mặt số    : Chỉ tiêu L2 cao cũng có thể chỉ ra rằng mô hình có thể không khái quát hóa tốt đối với dữ liệu mới, chưa được nhìn thấy. Khả năng khái quát hóa kém    Hãy tưởng tượng bạn đang cố gắng giữ thăng bằng cho một chiếc bập bênh và bạn có các vật nặng (hoặc bao cát) với nhiều kích cỡ khác nhau để đặt ở hai bên. Kích thước của mỗi chiếc túi thể hiện mức độ ảnh hưởng hoặc tầm quan trọng của nó trong việc cân bằng bập bênh. Bây giờ, nếu một trong những chiếc túi đó lớn bất thường (có "chỉ tiêu L2" cao), điều đó có nghĩa là chiếc túi đó đang có quá nhiều ảnh hưởng đến sự cân bằng. Điều này có nghĩa gì trong tiếng Anh đơn giản?  Trong bối cảnh   , nếu một phần của nó có ảnh hưởng cao bất thường (chỉ tiêu L2 cao), nó có thể làm lu mờ các phần quan trọng khác, điều này có thể dẫn đến những quyết định sai lầm hoặc phụ thuộc quá mức vào các tính năng cụ thể. Điều này không lý tưởng và chúng tôi thường cố gắng điều chỉnh máy để đảm bảo rằng không có bộ phận nào có quá nhiều ảnh hưởng quá mức. mạng eural  Những mã thông báo tiêu chuẩn cao này tương ứng trực tiếp với mức tăng đột biến trong bản đồ chú ý. Vì vậy, các mô hình đang làm nổi bật các bản vá lỗi này một cách có chọn lọc mà không rõ lý do.   Các thí nghiệm bổ sung tiết lộ:  Các ngoại lệ chỉ xuất hiện trong quá trình huấn luyện các mô hình đủ lớn.  Họ xuất hiện khoảng nửa chừng trong quá trình đào tạo.  Chúng xuất hiện trên các vùng rất giống với các vùng lân cận, cho thấy sự dư thừa.  Hơn nữa, mặc dù các ngoại lệ giữ lại ít thông tin hơn về bản vá ban đầu của chúng, nhưng chúng có khả năng dự đoán tốt hơn về danh mục hình ảnh đầy đủ.  Bằng chứng này chỉ ra một lý thuyết hấp dẫn...  Giả thuyết tái chế  Các tác giả đưa ra giả thuyết rằng khi các mô hình đào tạo trên các tập dữ liệu lớn như ImageNet-22K, họ học cách xác định các bản vá có ít thông tin mà giá trị của chúng có thể bị loại bỏ mà không làm mất ngữ nghĩa hình ảnh.  Sau đó, mô hình sẽ tái chế các phần nhúng bản vá đó để lưu trữ thông tin toàn cầu tạm thời về hình ảnh đầy đủ, loại bỏ các chi tiết cục bộ không liên quan. Điều này cho phép xử lý tính năng nội bộ hiệu quả.  Tuy nhiên, việc tái chế này gây ra những tác dụng phụ không mong muốn:  Mất chi tiết bản vá gốc, làm ảnh hưởng đến các nhiệm vụ dày đặc như phân đoạn  Bản đồ chú ý có nhiều gai nhọn khó diễn giải  Không tương thích với các phương pháp khám phá đối tượng  Vì vậy, mặc dù hành vi này xuất hiện một cách tự nhiên nhưng nó lại gây ra những hậu quả tiêu cực.  Sửa lỗi ViT bằng các thanh ghi rõ ràng  Để giảm bớt các bản vá được tái chế, các nhà nghiên cứu đề xuất cung cấp cho các mô hình bộ nhớ chuyên dụng bằng cách thêm mã thông báo "đăng ký" vào chuỗi. Điều này cung cấp không gian tạm thời cho các tính toán nội bộ, ngăn chặn việc chiếm đoạt các phần nhúng bản vá ngẫu nhiên.   Điều đáng chú ý là tinh chỉnh đơn giản này hoạt động rất tốt.   Các mô hình được đào tạo với các thanh ghi hiển thị:  Bản đồ chú ý mượt mà hơn, có ý nghĩa hơn về mặt ngữ nghĩa  Tăng hiệu suất nhỏ trên các điểm chuẩn khác nhau  Khả năng khám phá đối tượng được cải thiện đáng kể  Các sổ đăng ký cung cấp cho cơ chế tái chế một ngôi nhà thích hợp, loại bỏ các tác dụng phụ khó chịu của nó. Chỉ cần một thay đổi nhỏ về kiến trúc sẽ mang lại những lợi ích đáng chú ý.  Bài học chính   Nghiên cứu hấp dẫn này cung cấp một số hiểu biết có giá trị:  Máy biến đổi tầm nhìn phát triển các hành vi không lường trước được như tái chế các bản vá để lưu trữ  Việc thêm các thanh ghi mang lại không gian tạm thời, ngăn ngừa các tác dụng phụ ngoài ý muốn  Bản sửa lỗi đơn giản này cải thiện bản đồ chú ý và hiệu suất xuôi dòng  Có khả năng có những tạo tác mô hình khác chưa được khám phá để điều tra  Nhìn vào bên trong các hộp đen của mạng thần kinh sẽ tiết lộ nhiều điều về hoạt động bên trong của chúng, hướng dẫn các cải tiến gia tăng. Nhiều công việc như thế này sẽ dần dần nâng cao khả năng của máy biến áp.  Tốc độ phát triển nhanh chóng của máy biến đổi thị giác không có dấu hiệu chậm lại. Chúng ta đang sống trong thời kỳ thú vị!  Cũng được xuất bản  ở đây.       Đặt mua hoặc theo dõi tôi trên   Twitter để biết thêm nội dung như thế này!

This story contains new, firsthand information uncovered by the writer.

Tell me why my site sucks so I can make it better. Be mean.

Read My Stories

Nghe bài viết này bằng Tiếng Anh, đọc bởi robot thông minh của HackerNoon

Tại sao Vision Transformers lại tập trung vào những hình nền nhàm chán?

About Author

BÌNH LUẬN

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI

Related Stories

309 Stories To Learn About Smart Contracts

61 Stories To Learn About Polotical Philosophy

128 Stories To Learn About Charles Dickens

72 Stories To Learn About Adam Smith

309 Stories To Learn About Smart Contracts

61 Stories To Learn About Polotical Philosophy

128 Stories To Learn About Charles Dickens

72 Stories To Learn About Adam Smith

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps