paint-brush
Thuật toán máy biến áp có độ phức tạp thời gian tối ưu thấp nhất có thểtừ tác giả@thomascherickal
1,102 lượt đọc
1,102 lượt đọc

Thuật toán máy biến áp có độ phức tạp thời gian tối ưu thấp nhất có thể

từ tác giả Thomas Cherickal17m2024/05/26
Read on Terminal Reader

dài quá đọc không nổi

Đã có một số tiến bộ đáng kinh ngạc về máy biến áp như DPO, LoRa, v.v. Nhưng thuật toán máy biến áp cơ bản cũng đã được cải tiến! Chúng ta sẽ thấy máy biến áp hoạt động ở một cấp độ hoàn toàn mới. Tầm quan trọng của những khám phá này không thể được đánh giá quá cao! Đây là một cuộc cách mạng.
featured image - Thuật toán máy biến áp có độ phức tạp thời gian tối ưu thấp nhất có thể
Thomas Cherickal HackerNoon profile picture
0-item
1-item


So sánh Chú ý, Mamba, Jamba và xLSTM

Lời mở đầu

Chúng tôi chỉ nói về độ phức tạp của thời gian trong bài viết này - một cách có chủ ý.


Để biết độ phức tạp của không gian, hãy tham khảo bài viết của tôi về máy biến áp 1 bit, có tại đây:

Giới thiệu

Chúng tôi đang chạy đua về phía tương lai khi có liên quan đến công nghệ Generative AI và các thuật toán đằng sau Mô hình ngôn ngữ lớn cũng không ngoại lệ. Trong bài viết này, chúng tôi sẽ đề cập đến ba trong số những phát triển thú vị nhất trong lĩnh vực Generative AI gần đây và nói chi tiết về chúng. Một trong số họ cũng đã đạt được độ phức tạp về thời gian tối ưu để chạy thuật toán mô hình ngôn ngữ lớn. Nói cách khác, một sự phát triển gần đây đã trở thành thuật toán biến đổi LLM nhanh nhất có thể một cách tối ưu nhất - theo các mô hình hiện tại của chúng tôi, không thể nhanh hơn tốc độ đó khi xét đến độ phức tạp thời gian tiệm cận, ngoại trừ bằng cách tối ưu hóa thời gian liên tục. Bởi vì chúng ta đang xử lý hàng trăm tỷ tham số nên tốc độ tăng tốc của hằng số có thể khá lớn! Tôi hy vọng bạn cũng hào hứng như tôi vì đây sẽ là một chuyến đi thú vị!


Thuật toán đương nhiệm - Máy biến áp dựa trên sự chú ý

Mọi người đều quen thuộc với ấn phẩm quan trọng năm 2017. Chú ý là tất cả những gì bạn cần giấy, nhưng dù sao thì tôi cũng sẽ tóm tắt nó để những người mới đến sẽ có bức tranh rõ ràng hơn về những gì chúng ta đang nói đến.


Đây là liên kết đến bài nghiên cứu:

Sự chú ý là tất cả những gì bạn cần

Từ phần giới thiệu bài báo:

Mạng lưới thần kinh tái phát, bộ nhớ ngắn hạn dài và mạng lưới thần kinh tái phát có kiểm soát nói riêng, đã được thiết lập vững chắc như là các phương pháp tiếp cận hiện đại trong các vấn đề mô hình hóa và chuyển đổi trình tự như mô hình hóa ngôn ngữ và dịch máy.


Kể từ đó, nhiều nỗ lực đã tiếp tục vượt qua ranh giới của các mô hình ngôn ngữ lặp lại và kiến trúc bộ mã hóa-giải mã.


Các mô hình lặp lại thường tính toán nhân tố dọc theo vị trí ký hiệu của chuỗi đầu vào và đầu ra.


Căn chỉnh các vị trí theo các bước trong thời gian tính toán, chúng tạo ra một chuỗi các trạng thái ẩn ℎ𝑡, như một hàm của trạng thái ẩn ℎ𝑡−1 trước đó và đầu vào cho vị trí 𝑡.


Bản chất tuần tự vốn có này ngăn cản việc song song hóa trong các ví dụ huấn luyện, điều này trở nên quan trọng ở độ dài chuỗi dài hơn, vì các hạn chế về bộ nhớ hạn chế việc phân nhóm giữa các ví dụ.


Công việc gần đây đã đạt được những cải tiến đáng kể về hiệu quả tính toán thông qua các thủ thuật phân tích nhân tử và tính toán có điều kiện, đồng thời cải thiện hiệu suất mô hình trong trường hợp sau.


Tuy nhiên, hạn chế cơ bản của tính toán tuần tự vẫn còn.


Các cơ chế chú ý đã trở thành một phần không thể thiếu của các mô hình mô hình hóa và truyền tải trình tự hấp dẫn trong các nhiệm vụ khác nhau, cho phép mô hình hóa các phụ thuộc mà không cần quan tâm đến khoảng cách của chúng trong trình tự đầu vào hoặc đầu ra.


Tuy nhiên, trong tất cả trừ một số trường hợp, các cơ chế chú ý như vậy được sử dụng cùng với mạng định kỳ.


Trong công việc này, chúng tôi đề xuất Transformer, một kiến trúc mô hình tránh sự lặp lại và thay vào đó dựa hoàn toàn vào cơ chế chú ý để rút ra sự phụ thuộc tổng thể giữa đầu vào và đầu ra.


Transformer cho phép thực hiện song song nhiều hơn đáng kể và có thể đạt đến trạng thái tiên tiến mới về chất lượng dịch thuật sau khi được đào tạo chỉ trong 12 giờ trên tám GPU P100.


Và như chúng ta đã biết, các máy biến áp GPT-1, GPT-2, GPT-3 và GPT 3.5 đã sớm cách mạng hóa AI mãi mãi.


Đột nhiên máy móc có thể nói được tiếng Anh như con người.


Đây là sơ đồ cổ điển thống trị các bài báo và bản tin nghiên cứu trong hai năm tiếp theo:

Kiến trúc máy biến áp tinh tế.


Sau đó GPT-4 xuất hiện - và cuộc sống sẽ không bao giờ như cũ nữa.


Chúng tôi đã vượt qua một điểm bùng phát.


Tuy nhiên, những máy biến áp này đắt tiền, vận hành chậm và khó triển khai do chi phí vận hành cực cao.


Độ phức tạp về thời gian của thuật toán Transformer là bậc hai hoặc O(n*n) trong đó n là số lượng tham số đầu vào .


Đối với mô hình máy biến áp tiêu chuẩn có 𝐿 lớp, độ phức tạp về thời gian của thuật toán suy luận là 𝑂( L*n*n*d ) trong đó L là số lớp, n số lượng mã thông báo đầu vào và d độ sâu của máy biến áp .


Đây dường như là công nghệ tiên tiến - trong một thời gian.


Lượng tử hóa đã được giới thiệu trong một bài báo khác vào đầu năm 2021 và đó dường như là cơ chế tiên tiến tiếp theo (Xem phần Mở đầu ).


Nhưng chẳng bao lâu nữa chúng tôi sắp có một đối thủ khác.


Chào mừng đến với Thuật toán Mamba

Đây là bài nghiên cứu có liên quan:



Mamba: Mô hình hóa trình tự thời gian tuyến tính với các không gian trạng thái chọn lọc


Từ bản tóm tắt bài nghiên cứu:


Các mô hình nền tảng, hiện cung cấp năng lượng cho hầu hết các ứng dụng thú vị trong học sâu, hầu như đều dựa trên kiến trúc Transformer và mô-đun chú ý cốt lõi của nó.


Nhiều kiến trúc thời gian dưới bậc hai như chú ý tuyến tính, mô hình tích chập và hồi quy cũng như mô hình không gian trạng thái có cấu trúc (SSM) đã được phát triển để giải quyết sự kém hiệu quả tính toán của Transformers trên các chuỗi dài, nhưng chúng chưa thực hiện tốt sự chú ý trên các phương thức quan trọng như như ngôn ngữ.


Chúng tôi xác định rằng điểm yếu chính của các mô hình như vậy là không có khả năng thực hiện lý luận dựa trên nội dung và thực hiện một số cải tiến.


Đầu tiên, chỉ cần để các tham số SSM là chức năng của đầu vào sẽ giải quyết điểm yếu của chúng bằng các phương thức riêng biệt, cho phép mô hình truyền có chọn lọc hoặc quên thông tin dọc theo chiều dài chuỗi tùy thuộc vào mã thông báo hiện tại.


Thứ hai, mặc dù thay đổi này ngăn cản việc sử dụng các phép tích chập hiệu quả, chúng tôi vẫn thiết kế thuật toán song song nhận biết phần cứng ở chế độ lặp lại.


Chúng tôi tích hợp các SSM chọn lọc này vào một kiến trúc mạng thần kinh đầu cuối được đơn giản hóa mà không cần chú ý hoặc thậm chí không cần đến các khối MLP (Mamba).


Mamba có khả năng suy luận nhanh (thông lượng cao hơn 5 lần so với Transformers) và chia tỷ lệ tuyến tính theo độ dài chuỗi, đồng thời hiệu suất của nó cải thiện trên dữ liệu thực với các chuỗi có độ dài lên tới hàng triệu.


Là xương sống của mô hình trình tự chung, Mamba đạt được hiệu suất tiên tiến trên nhiều phương thức như ngôn ngữ, âm thanh và bộ gen.


Về mô hình hóa ngôn ngữ, mô hình Mamba-3B của chúng tôi hoạt động tốt hơn Transformers có cùng kích thước và phù hợp với Transformers gấp đôi kích thước của nó, cả trong quá trình đào tạo trước và đánh giá xuôi dòng.

Đột nhiên



Đột nhiên chúng tôi có một đối thủ cạnh tranh mới trong thị trấn!


Ưu điểm chính của thuật toán biến áp Mamba là:



  1. Kiến trúc lai :

    Mamba kết hợp các lớp Transformer và Mamba, cho phép cải thiện hiệu suất và thông lượng cao hơn trong khi vẫn duy trì dung lượng bộ nhớ có thể quản lý được.


  2. Những thách thức được giải quyết :

    • Hiệu suất bộ nhớ và điện toán : Mamba giải quyết các yêu cầu về bộ nhớ và điện toán cao của Transformers, đặc biệt là trong các bối cảnh dài.

    • Trạng thái tóm tắt : Không giống như Transformers, Mamba cung cấp một trạng thái tóm tắt duy nhất, cho phép suy luận nhanh hơn.


  3. Chi tiết kiến trúc :

    • Lớp biến áp : Mamba kết hợp các lớp Transformer.
    • Lớp Mamba : Mamba giới thiệu các lớp mô hình hóa không gian trạng thái (SSM), giúp xử lý hiệu quả các bối cảnh dài.
    • Hỗn hợp các chuyên gia (MoE) : Mamba sử dụng các lớp MoE để tăng công suất mô hình mà không làm tăng đáng kể yêu cầu tính toán.


  4. Hiệu suất :

    Mamba hoạt động tương đương với các mô hình hiện có như Mixtral-8x7B và Llama-2 70B, đồng thời hỗ trợ độ dài ngữ cảnh lên tới 256K mã thông báo.


  5. Hiệu quả : Thông lượng của Mamba gấp 3 lần so với Mixtral-8x7B trong các bối cảnh dài và nó được trang bị trong một GPU duy nhất ngay cả với các bối cảnh lớn.


Kiến trúc Mamba thể hiện sự tiến bộ đáng kể trong các mô hình ngôn ngữ lớn, kết hợp sức mạnh của cả hai phương pháp Transformer và SSM.


Tuy nhiên, khi tiếp tục thử nghiệm, người ta nhận thấy rằng thuật toán Mamba không phải là đối thủ phù hợp cho mọi trường hợp sử dụng.


Đặc biệt, thuật toán Mamba đã thất bại thảm hại khi đưa vào bộ dữ liệu IMDB.


Tuy nhiên, kiến trúc này vẫn là công nghệ hiện đại và được cho là cực kỳ hữu ích với các trường hợp sử dụng thị giác.


Bạn có thể thấy cách triển khai bằng Python tại đây:


Và đây là lời giải thích tuyệt vời về thuật toán Mamba kèm theo lý thuyết được cung cấp.

Và đây là cách triển khai Mamba tiêu chuẩn trong PyPI:


Thuật toán Mamba đã có ngày ra đời và vẫn là một lĩnh vực nghiên cứu rất tích cực. Người kế nhiệm sẽ sớm xuất hiện, nhưng chúng tôi sẽ để dành điều tốt nhất cho đến cuối cùng.


Chúng ta sẽ chuyển sang đối thủ tiếp theo - thuật toán xLSTM


Thuật toán xLSTM

Bạn có thể tham khảo bài nghiên cứu tại đây:

xLSTM: Bộ nhớ ngắn hạn dài mở rộng - arXiv .


Từ bản tóm tắt bài nghiên cứu:

Vào những năm 1990, băng chuyền lỗi liên tục và cổng được giới thiệu như là ý tưởng trung tâm của Trí nhớ ngắn hạn dài (LSTM).


Kể từ đó, LSTM đã đứng vững trước thử thách của thời gian và đóng góp vào nhiều câu chuyện thành công trong học tập sâu, đặc biệt, chúng đã tạo thành Mô hình ngôn ngữ lớn (LLM) đầu tiên.


Tuy nhiên, sự ra đời của công nghệ Transformer với cốt lõi là khả năng tự chú ý song song đã đánh dấu buổi bình minh của một kỷ nguyên mới, vượt xa các LSTM trên quy mô lớn.


Bây giờ, chúng tôi đặt ra một câu hỏi đơn giản: Chúng tôi tiến được bao xa trong mô hình hóa ngôn ngữ khi mở rộng LSTM thành hàng tỷ tham số, tận dụng các kỹ thuật mới nhất từ LLM hiện đại nhưng giảm thiểu những hạn chế đã biết của LSTM?


Đầu tiên, chúng tôi giới thiệu việc chọn cổng theo cấp số nhân với các kỹ thuật chuẩn hóa và ổn định thích hợp.


Thứ hai, chúng tôi sửa đổi cấu trúc bộ nhớ LSTM, thu được:


(i) sLSTM với bộ nhớ vô hướng, cập nhật vô hướng và trộn bộ nhớ mới,


(ii) mLSTM có thể song song hóa hoàn toàn với bộ nhớ ma trận và quy tắc cập nhật hiệp phương sai.


Việc tích hợp các phần mở rộng LSTM này vào các đường trục khối dư sẽ tạo ra các khối xLSTM sau đó được xếp chồng lên nhau thành các kiến trúc xLSTM.


Cấu trúc bộ nhớ được sửa đổi và cổng cấp số nhân giúp tăng cường khả năng xLSTM để hoạt động thuận lợi khi so sánh với các Máy biến áp và Mô hình không gian trạng thái hiện đại, cả về hiệu suất và tỷ lệ.


xLSTM là tia bình minh mới cho mẫu LSTM


Thuật toán Bộ nhớ ngắn hạn dài (LSTM) rất hữu ích vào thời đó và đạt được nhiều thành công.


xLSTM sử dụng cùng một mô hình nhưng có kiến trúc hoàn toàn khác.


Đây là sự đổi mới chính, được tóm tắt trong sơ đồ này trong bài nghiên cứu:


Những ưu điểm chính của xLSTM là:


Ưu điểm của xLSTM khi so sánh với thuật toán Transformer:

  1. Xử lý chuỗi dài :

    • xLSTM được thiết kế đặc biệt để xử lý các chuỗi dài bằng cơ chế cổng kiểm soát luồng thông tin. Điều này giúp việc nắm bắt các mối phụ thuộc dài hạn trong dữ liệu tuần tự trở nên hiệu quả hơn so với LSTM truyền thống.




  2. Hiệu quả tính toán :

    • xLSTM có thể hiệu quả hơn về mặt tính toán đối với một số tác vụ nhất định, đặc biệt khi xử lý các tập dữ liệu nhỏ hơn hoặc khi độ dài chuỗi không quá lớn.

    • Mặt khác, máy biến áp yêu cầu nguồn lực tính toán đáng kể do cơ chế tự chú ý của chúng, có tỷ lệ bậc hai theo độ dài chuỗi.




  3. Sử dụng bộ nhớ :

    • xLSTM thường yêu cầu ít bộ nhớ hơn Transformers.

    • Cơ chế tự chú ý trong Transformers yêu cầu lưu trữ các ma trận chú ý lớn, có thể tốn nhiều bộ nhớ, đặc biệt là đối với các chuỗi dài.


  4. Ổn định đào tạo :

    • xLSTM có thể ổn định hơn trong quá trình đào tạo vì tính chất lặp lại của nó và các cơ chế chọn cổng giúp giảm thiểu vấn đề độ dốc biến mất.

    • Máy biến áp, mặc dù mạnh mẽ, nhưng đôi khi có thể khó huấn luyện hơn và có thể yêu cầu điều chỉnh cẩn thận các siêu tham số và kỹ thuật chính quy hóa.


  5. Tính đơn giản và dễ hiểu :

    • Các mô hình xLSTM có thể dễ hiểu và diễn giải đơn giản hơn so với Transformers.

    • Bản chất lặp lại của LSTM giúp việc theo dõi luồng thông tin qua mạng trở nên dễ dàng hơn, trong khi các cơ chế chú ý trong Transformers có thể trừu tượng hơn và khó diễn giải hơn.


  6. Hiệu suất trên các tập dữ liệu nhỏ :

    • xLSTM có thể hoạt động tốt hơn trên các tập dữ liệu nhỏ hoặc khi dữ liệu được gắn nhãn bị hạn chế.

    • Máy biến áp thường yêu cầu lượng lớn dữ liệu để phát huy hết tiềm năng, khiến xLSTM trở thành lựa chọn tốt hơn trong các tình huống có lượng dữ liệu hạn chế

      .

  7. Dữ liệu tuần tự :

    • Đối với một số loại dữ liệu tuần tự nhất định, chẳng hạn như chuỗi thời gian hoặc một số loại tác vụ xử lý ngôn ngữ tự nhiên nhất định, xLSTM có thể mang lại hiệu suất tốt hơn do thiết kế vốn có của nó để xử lý các chuỗi.


Tuy nhiên, điều quan trọng cần lưu ý là Transformers có những ưu điểm riêng, chẳng hạn như khả năng song song tốt hơn, hiệu suất vượt trội trên các tập dữ liệu lớn và mang lại kết quả hiện đại trong nhiều nhiệm vụ NLP.


Việc lựa chọn giữa xLSTM và Transformer phải dựa trên các yêu cầu và ràng buộc cụ thể của nhiệm vụ hiện tại.


Bạn có thể xem cách triển khai xLSTM trong PyTorch tại đây:


Bạn có thể xem giải thích chi tiết về xLSTM tại đây:

Đây là một bản tóm tắt tốt về tình trạng hiện tại của nó:





Nhưng đã có người kế nhiệm Mamba đã đạt được Chén Thánh - Độ phức tạp thời gian tối ưu cho thuật toán LLM


Jamba - Người kế vị Mamba đã trực tiếp đánh bại nó!


Bài viết nghiên cứu có thể được tìm thấy ở đây:

Jamba: Mô hình ngôn ngữ lai-Mamba biến áp


Từ phần tóm tắt của Bài nghiên cứu:


Chúng tôi giới thiệu Jamba, một mô hình ngôn ngữ lớn cơ sở mới dựa trên kiến trúc kết hợp giữa các chuyên gia (MoE) Transformer-Mamba mới lạ.


Cụ thể, Jamba xen kẽ các khối của lớp Transformer và Mamba, tận hưởng những lợi ích của cả hai dòng mô hình.


MoE được thêm vào một số lớp này để tăng công suất mô hình trong khi vẫn quản lý được việc sử dụng tham số hoạt động.


Kiến trúc linh hoạt này cho phép cấu hình theo mục tiêu và tài nguyên cụ thể.


Trong cấu hình cụ thể mà chúng tôi đã triển khai, chúng tôi thu được một mô hình mạnh mẽ phù hợp với một GPU 80 GB duy nhất.


Được xây dựng ở quy mô lớn, Jamba cung cấp thông lượng cao và dung lượng bộ nhớ nhỏ so với Transformers thông thường, đồng thời mang lại hiệu suất cao nhất trên các tiêu chuẩn mô hình ngôn ngữ tiêu chuẩn và đánh giá ngữ cảnh dài.


Đáng chú ý, mô hình này mang lại kết quả tốt cho độ dài ngữ cảnh lên tới 256K mã thông báo.


Chúng tôi nghiên cứu các quyết định kiến trúc khác nhau, chẳng hạn như cách kết hợp các lớp Transformer và Mamba cũng như cách kết hợp các chuyên gia và chỉ ra rằng một số trong số chúng rất quan trọng trong mô hình hóa quy mô lớn.


Chúng tôi cũng mô tả một số đặc tính thú vị của các kiến trúc này mà quá trình đào tạo và đánh giá của Jamba đã tiết lộ, đồng thời có kế hoạch đưa ra các điểm kiểm tra từ các hoạt động cắt bỏ khác nhau, để khuyến khích khám phá thêm về kiến trúc mới lạ này.


Chúng tôi công bố công khai trọng số của việc triển khai Jamba theo giấy phép cho phép.



Việc triển khai có sẵn trên kho lưu trữ HuggingFace tại đây:


Người mẫu: https://huggingface.co/ai21labs/Jamba-v0.1



  1. So sánh với các mô hình khác :


Tóm lại, kiến trúc lai của Jamba kết hợp các điểm mạnh của lớp Transformers và Mamba, mang lại hiệu suất và khả năng mở rộng ấn tượng.


Sơ đồ chính cần nhớ là sơ đồ được trình bày trong bài nghiên cứu trên:



Sự kết hợp giữa các mô hình Mamba và Transformer dẫn đến sự gia tăng đáng kinh ngạc về Độ phức tạp về Thời gian, được tóm tắt rất hay trong bài viết dưới đây:


Mamba và Jamba - Giải thích đơn giản

  • Tác giả : Nimrita Koul

  • Ngày : 1 tháng 4 năm 2024


  • Bản tóm tắt :

    • Jamba là Mô hình ngôn ngữ lớn dựa trên Mamba cấp sản xuất đầu tiên được AI21 giới thiệu.


    • Nó kết hợp những điểm mạnh của cả kiến trúc Transformer và Mamba.


      • Các mô hình dựa trên máy biến áp gặp khó khăn với các chuỗi dài do độ phức tạp về thời gian huấn luyện của chúng là O(n²) .


      • Kiến trúc Mamba cung cấp độ phức tạp về thời gian đào tạo tuyến tính ( O(n) ) và thời gian suy luận không đổi ( O(1) ).


      • Mamba dựa trên kiến trúc Mô hình Không gian Trạng thái (SSM).


      • SSM sử dụng các biến trạng thái để mô tả một hệ thống bằng các phương trình vi phân hoặc sai phân.


      • Phương pháp kết hợp của Mamba nhằm mục đích giải quyết những hạn chế của các mô hình hiện có.



Bạn có thể đọc bài báo đầy đủ tại đây:

Mamba và Jamba - Giải thích đơn giản , bởi Nimrita Koul, trên Medium.com.


Giới hạn tối ưu đã đạt được!

Điểm mấu chốt cần lưu ý ở đây là, để đào tạo, thuật toán phải xem xét mọi mã thông báo đầu vào ít nhất một lần, đưa ra độ phức tạp về thời gian là O(n).


Ngoài ra, tốc độ suy luận nhanh nhất có thể có đối với bất kỳ mô hình LLM nào là O(1) - thời gian không đổi, không phụ thuộc vào độ dài của mã thông báo (một thành tích đáng kinh ngạc)!


Cả hai giới hạn này đều đã đạt đến trong trường hợp thuật toán Jamba!


Do đó, với những cải tiến liên tục - có thể vẫn rất cao (những con số này lên tới hàng trăm tỷ):


Jamba đã đạt đến Giới hạn tối ưu về Độ phức tạp Thời gian cho Thuật toán Máy biến áp!


Trong các điều kiện hệ thống nhất định, trừ khi công nghệ mới được giới thiệu (điện toán lượng tử, bất kỳ ai), chúng ta đơn giản là không thể có độ phức tạp thời gian tiệm cận nhanh hơn!


Đó là một kết quả rất có ý nghĩa!


Jamba là thuật toán biến áp hứa hẹn nhất cho đến nay!


Thông báo chính thức của phòng thí nghiệm A121:

Một bài viết hay khác trên Medium trên Jamba:

Một trong những cách triển khai Jamba tốt nhất hiện có:


Một lần nữa, mô hình Jamba của HuggingFace Hub:

Phần kết luận

Do đó, Jamba đạt đến độ phức tạp về thời gian tối đa có thể đạt được bằng thuật toán biến dòng hiện tại trong hệ thống hiện có, đến mức biến thiên không đổi. Lặp lại; các hằng số có thể rất lớn, vì chúng có thứ tự hàng trăm tỷ số hạng! Tuy nhiên, đây vẫn là một thành tựu đáng kể. Và không có giới hạn nào về việc nghiên cứu về vấn đề này có thể đi đến đâu, đặc biệt là khi kết hợp với DPO (Tối ưu hóa tùy chọn trực tiếp) và Lượng tử hóa - xem Phần kết để biết thêm.

Hiện tại, thực sự không có giới hạn nào cả!


Phần kết:


Có một mặt của vấn đề này mà dường như không ai đang giải quyết một cách công khai.


Các mô hình Mamba, xLSTM và Jamba có thể được lượng tử hóa tới độ chính xác 1 bit không?


Tất nhiên rồi!


Tôi nóng lòng muốn xem những cải tiến về hiệu suất của Mamba và Jamba sau khi được lượng tử hóa thành từng bit! Hoặc 1,58 bit {-1, 0, 1 }.


Một lần nữa, hãy xem bài viết này để biết thêm chi tiết:


https://hackernoon.com/why-1-bit-transformers-will-change-the-world


Tương lai của công nghệ này sẽ vô cùng thú vị!


Chúc niềm vui và cảm giác hồi hộp khi làm việc trong lĩnh vực này luôn ở bên bạn!


Chúc mừng!


Thời gian thú vị ở phía trước!


Người giới thiệu:

Ngoài những điều được đề cập rõ ràng trong bài viết trên:

  1. Transformer-XL: Các mô hình ngôn ngữ chú ý vượt ra ngoài bối cảnh có độ dài cố định
  2. Longformer: Máy biến áp tài liệu dài
  3. Máy biến áp: Máy biến áp hiệu quả
  4. Linformer: Tự chú ý với độ phức tạp tuyến tính
  5. Mô hình không gian trạng thái: Khung chung để mô hình hóa dữ liệu chuỗi thời gian
  6. S4: Mô hình hóa trình tự với các không gian trạng thái có cấu trúc
  7. Về hiệu quả tính toán của các mô hình ngôn ngữ lớn
    • Các tác giả ẩn danh. (Năm không được chỉ định). [Về hiệu quả tính toán của các mô hình ngôn ngữ lớn](URL không được cung cấp).
  8. Máy biến áp hiệu quả: Một cuộc khảo sát
  9. Lượng tử hóa và đào tạo mạng lưới thần kinh để suy luận chỉ số nguyên hiệu quả
  10. Q-BERT: Lượng tử hóa BERT có độ chính xác cực thấp dựa trên Hessian
  11. BERT: Đào tạo trước Máy biến áp hai chiều sâu để hiểu ngôn ngữ
  12. GPT-3: Mô hình ngôn ngữ là những người học ít cơ hội
  13. RoBERTa: Phương pháp tiếp cận đào tạo trước BERT được tối ưu hóa mạnh mẽ
  14. ALBERT: BERT rút gọn để tự học cách biểu diễn ngôn ngữ
  15. T5: Khám phá các giới hạn của việc học chuyển tiếp bằng Bộ chuyển đổi văn bản thành văn bản hợp nhất
  16. DistilBERT, phiên bản chưng cất của BERT: nhỏ hơn, nhanh hơn, rẻ hơn và nhẹ hơn




Và đừng quên Độ phức tạp của không gian! Gần như quan trọng như nhau!


Đối với phần mở đầu và phần kết

Để lượng tử hóa, bài viết này chắc chắn đáng đọc:

  1. Tài liệu nghiên cứu - BitNet: Chia tỷ lệ Máy biến áp 1 bit cho các mô hình ngôn ngữ lớn :

    • Tóm tắt : Kích thước ngày càng tăng của các mô hình ngôn ngữ lớn đã đặt ra những thách thức cho việc triển khai và làm dấy lên mối lo ngại về tác động môi trường do tiêu thụ năng lượng cao. Trong công việc này, chúng tôi giới thiệu BitNet , một kiến trúc Transformer 1-bit ổn định và có thể mở rộng được thiết kế cho các mô hình ngôn ngữ lớn. Cụ thể, chúng tôi giới thiệu BitLinear như một giải pháp thay thế sẵn có cho lớp nn.Linear để huấn luyện các trọng số 1 bit ngay từ đầu. Kết quả thử nghiệm về mô hình hóa ngôn ngữ cho thấy BitNet đạt được hiệu suất cạnh tranh đồng thời giảm đáng kể dung lượng bộ nhớ và mức tiêu thụ năng lượng so với các phương pháp lượng tử hóa 8 bit tiên tiến và đường cơ sở của Máy biến áp FP16. Hơn nữa, BitNet thể hiện luật chia tỷ lệ tương tự như Transformers có độ chính xác hoàn toàn , cho thấy tiềm năng mở rộng hiệu quả của nó cho các mô hình ngôn ngữ lớn hơn trong khi vẫn duy trì được lợi ích về hiệu suất và hiệu suất.

      Đọc toàn bộ bài nghiên cứu


      https://arxiv.org/abs/2310.11453



Và người mẫu trên HuggingFace:

  1. Kho lưu trữ khuôn mặt ôm - BitNet b1.58-3B Lượng tử hóa :


Một điều về tương lai: nó sẽ rất thú vị!