tác giả:
(1) Bobby He, Khoa Khoa học Máy tính, ETH Zurich (Thư từ: [email protected].);
(2) Thomas Hofmann, Khoa Khoa học Máy tính, ETH Zurich.
Thảo luận, Tuyên bố về khả năng tái tạo, Lời cảm ơn và Tài liệu tham khảo
Tính đối ngẫu giữa cập nhật dư và cập nhật hạn chế trong các lớp tuyến tính
Một công thức thiết kế đơn giản cho Deep Transformers là tạo ra các khối xây dựng giống hệt nhau. Nhưng các khối máy biến áp tiêu chuẩn không hề đơn giản, sự chú ý đan xen và các khối con MLP với các kết nối bỏ qua & các lớp chuẩn hóa được sắp xếp chính xác. Sự phức tạp này dẫn đến kiến trúc dễ vỡ, trong đó những thay đổi dường như nhỏ có thể làm giảm đáng kể tốc độ huấn luyện hoặc khiến các mô hình không thể huấn luyện được. Trong công việc này, chúng tôi hỏi khối máy biến áp tiêu chuẩn có thể được đơn giản hóa đến mức nào? Kết hợp lý thuyết truyền tín hiệu và quan sát thực nghiệm, chúng tôi thúc đẩy các sửa đổi cho phép loại bỏ nhiều thành phần khối mà không làm giảm tốc độ huấn luyện, bao gồm bỏ qua kết nối, tham số chiếu hoặc giá trị, khối con tuần tự và lớp chuẩn hóa. Trong các thử nghiệm trên cả hai mô hình chỉ bộ giải mã tự hồi quy và chỉ bộ mã hóa BERT, các máy biến áp đơn giản hóa của chúng tôi mô phỏng hiệu suất và tốc độ huấn luyện mỗi lần cập nhật của các máy biến áp tiêu chuẩn, đồng thời đạt được thông lượng huấn luyện nhanh hơn 15% và sử dụng ít tham số hơn 15%
Kiến trúc máy biến áp (Vaswani và cộng sự, 2017) được cho là nền tảng đằng sau nhiều thành công gần đây trong lĩnh vực học sâu. Một cách đơn giản để xây dựng kiến trúc máy biến áp sâu là xếp chồng nhiều “khối” máy biến áp giống hệt nhau lần lượt theo thứ tự. Tuy nhiên, mỗi khối phức tạp hơn và bao gồm nhiều thành phần khác nhau, cần được kết hợp theo những cách sắp xếp cụ thể để đạt được hiệu suất tốt. Điều đáng ngạc nhiên là khối máy biến áp cơ sở đã thay đổi rất ít kể từ khi ra đời mặc dù thu hút được sự quan tâm của nhiều nhà nghiên cứu.
Trong công việc này, chúng tôi nghiên cứu xem khối máy biến áp tiêu chuẩn có thể được đơn giản hóa hay không. Cụ thể hơn, chúng tôi thăm dò sự cần thiết của một số thành phần khối, bao gồm bỏ qua kết nối, ma trận chiếu/giá trị, các khối con tuần tự và các lớp chuẩn hóa. Đối với mỗi thành phần được xem xét, chúng tôi hỏi liệu có thể loại bỏ nó mà không làm giảm tốc độ huấn luyện hay không (cả về bước và thời gian chạy cho mỗi lần cập nhật) và những sửa đổi kiến trúc nào cần được thực hiện đối với khối biến áp để thực hiện được điều đó.
Chúng tôi tin rằng vấn đề đơn giản hóa các khối máy biến áp mà không ảnh hưởng đến tốc độ huấn luyện là một câu hỏi nghiên cứu thú vị vì nhiều lý do. Đầu tiên, kiến trúc mạng thần kinh (NN) hiện đại có thiết kế phức tạp với nhiều thành phần và không rõ vai trò của các thành phần khác nhau này trong động lực đào tạo NN cũng như cách chúng tương tác với nhau. Điều này đặc biệt phù hợp với khoảng cách hiện có giữa lý thuyết và thực hành trong học sâu, trong đó các nhà lý thuyết làm việc để hiểu các cơ chế của học sâu thường chỉ xem xét các kiến trúc đơn giản hóa do sự tiện lợi, không nhất thiết phản ánh các kiến trúc hiện đại được sử dụng trong thực tế. Đơn giản hóa các kiến trúc NN được sử dụng trong thực tế có thể giúp thu hẹp khoảng cách này
Trên một lưu ý lý thuyết liên quan, công trình của chúng tôi nêu bật cả điểm mạnh và hạn chế hiện tại của việc truyền tín hiệu: một lý thuyết đã được chứng minh là có ảnh hưởng nhờ khả năng thúc đẩy các lựa chọn thiết kế thực tế trong kiến trúc NN sâu. Truyền tín hiệu (Poole và cộng sự, 2016; Schoenholz và cộng sự, 2017; Hayou và cộng sự, 2019) nghiên cứu sự phát triển của thông tin hình học trong NN khi khởi tạo, được ghi lại thông qua các sản phẩm bên trong của các biểu diễn theo lớp trên các đầu vào và đã truyền cảm hứng cho nhiều người. kết quả ấn tượng trong việc đào tạo NN sâu (Xiao và cộng sự, 2018; Brock và cộng sự, 2021; Martens và cộng sự, 2021; Zaidi và cộng sự, 2023). Tuy nhiên, lý thuyết hiện tại chỉ xem xét mô hình khi khởi tạo và thường chỉ xem xét bước chuyển tiếp ban đầu. Do đó, việc truyền tín hiệu hiện tại không thể làm sáng tỏ nhiều điểm phức tạp của động lực đào tạo NN sâu, chẳng hạn như lợi ích của việc bỏ qua kết nối đối với tốc độ đào tạo. Mặc dù việc truyền tín hiệu là rất quan trọng trong việc thúc đẩy các sửa đổi của chúng tôi, nhưng chúng tôi sẽ không đạt được các khối biến áp đơn giản hóa chỉ dựa trên lý thuyết mà còn dựa vào những hiểu biết thực nghiệm.
Cuối cùng, về mặt thực tế, do chi phí đào tạo và triển khai các mô hình máy biến áp lớn hiện nay rất cao, bất kỳ lợi ích hiệu quả nào trong quy trình đào tạo và suy luận cho kiến trúc máy biến áp đều thể hiện tiềm năng tiết kiệm đáng kể. Đơn giản hóa khối máy biến áp bằng cách loại bỏ các thành phần không cần thiết vừa làm giảm số lượng tham số vừa tăng thông lượng trong các mô hình của chúng tôi. Đặc biệt, chúng tôi cho thấy rằng có thể loại bỏ các kết nối bỏ qua, tham số giá trị, tham số chiếu và khối con tuần tự, đồng thời khớp với máy biến áp tiêu chuẩn về tốc độ huấn luyện và hiệu suất tác vụ xuôi dòng. Kết quả là, chúng tôi giảm số lượng tham số lên tới 16% và quan sát thấy thông lượng tăng 16% ở cả thời gian huấn luyện và thời gian suy luận.
Điểm khởi đầu của chúng tôi để đơn giản hóa các khối Transformer là He et al. (2023), người cho thấy rằng việc tôn trọng các nguyên tắc truyền tín hiệu cho phép người ta huấn luyện các Máy biến áp sâu mà không bỏ qua các kết nối hoặc các lớp chuẩn hóa, nhưng với tốc độ hội tụ giảm đáng kể trên mỗi lần cập nhật tham số. Trước tiên, chúng tôi chỉ ra rằng việc điều chỉnh các cập nhật đối với các giá trị và tham số chiếu (Phần 4.1) hoặc trên thực tế là loại bỏ chúng hoàn toàn (Phần 4.2), sẽ cải thiện hiệu suất của các khối con chú ý không bỏ qua và khôi phục tốc độ đào tạo bị mất trên mỗi bản cập nhật được báo cáo bởi He và cộng sự. (2023). Điều này loại bỏ một nửa tham số và phép nhân ma trận trong khối con chú ý. Trong giây. 4.3, chúng tôi cho thấy sự đơn giản hóa của chúng tôi kết hợp có lợi với các khối con song song (Wang & Komatsuzaki, 2021), cho phép chúng tôi loại bỏ tất cả các kết nối bỏ qua còn lại và các khối con tuần tự mà không ảnh hưởng đến tốc độ đào tạo mỗi lần cập nhật, đồng thời tăng thêm thông lượng tăng lên là 16% trong quá trình thực hiện của chúng tôi. Cuối cùng, trong Giây. 5, chúng tôi cho thấy rằng các khối đơn giản hóa của chúng tôi cải thiện khi được chia tỷ lệ ở độ sâu lớn hơn, hoạt động tốt ở cả kiến trúc chỉ bộ mã hóa và chỉ bộ giải mã, đồng thời các phát hiện của chúng tôi cũng đúng khi mở rộng quy mô thời lượng đào tạo. Chúng tôi kết thúc bằng phần thảo luận về những hạn chế và công việc trong tương lai trong Phần. 6.
Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.