paint-brush
Tiềm năng mang tính cách mạng của các mô hình ngôn ngữ 1 bit (LLM)từ tác giả@thebojda
6,773 lượt đọc
6,773 lượt đọc

Tiềm năng mang tính cách mạng của các mô hình ngôn ngữ 1 bit (LLM)

từ tác giả Laszlo Fazekas4m2024/03/03
Read on Terminal Reader

dài quá đọc không nổi

LLM 1 bit là một cách tiềm năng để xây dựng các mạng thần kinh hiệu quả hơn nhiều, hợp lý hơn về mặt sinh học và chạy hiệu quả hơn trên phần cứng chuyên dụng. Việc nghiên cứu xem mạng 1 bit có thể được huấn luyện hiệu quả như thế nào bằng các phương pháp không có độ dốc có thể là một chủ đề nghiên cứu rất thú vị.
featured image - Tiềm năng mang tính cách mạng của các mô hình ngôn ngữ 1 bit (LLM)
Laszlo Fazekas HackerNoon profile picture
0-item
1-item

Bất kỳ ai quan tâm đến sự phát triển của công nghệ Trí tuệ nhân tạo đều biết rằng các giải pháp ngày nay đều là về Mô hình ngôn ngữ lớn (LLM)máy biến áp . Tóm lại, LLM là mạng thần kinh có thể dự đoán mã thông báo tiếp theo dựa trên mã thông báo đầu vào. Thông thường, các mã thông báo này là các từ (điều này không hoàn toàn chính xác, nhưng sẽ dễ khái niệm hóa theo cách này hơn) và đầu ra của mạng cũng là một từ. Đây là cách ChatGPT hoạt động. Bạn nhập một câu hỏi và mạng sẽ tạo ra một từ. Sau đó, câu hỏi và từ đó cùng trở thành đầu vào của mạng, tạo ra một từ khác, v.v. cho đến khi hình thành câu trả lời hoàn chỉnh.


Tuy nhiên, mã thông báo có thể không chỉ là lời nói. Các mô hình ngôn ngữ nâng cao như GPT-4 hoặc Gemini hiện là đa phương thức, nghĩa là đầu vào của chúng có thể bao gồm hình ảnh và từ ngữ. Giống như một câu có thể được chia thành các từ, một hình ảnh có thể được chia thành các mảng nhỏ và từ đó, cùng một kiến trúc máy biến áp có thể xử lý chúng. Ví dụ: một mạng đa phương thức có thể được yêu cầu mô tả nội dung trong hình ảnh hoặc mã hóa giao diện người dùng nhìn thấy trong hình ảnh.

nguồn: https://production-media.paperswithcode.com/methods/Screen_Shot_2021-01-26_at_9.43.31_PM_uI4jjMq.png



Kiến trúc này thậm chí còn tổng quát hơn. Hệ thống Gato của DeepMind là một ví dụ điển hình, trong đó một mạng biến áp duy nhất có thể đồng thời trả lời các câu hỏi, chơi trò chơi điện tử hoặc điều khiển robot và robot thậm chí còn được điều khiển bằng ChatGPT . Vì LLM hoạt động với mã thông báo và mọi tác vụ đều có thể được mã hóa nên LLM cung cấp giải pháp chung cho mọi tác vụ.


nguồn: https://deepmind.google/discover/blog/a-generalist-agent/



Một trong những câu chuyện tin tức công nghệ được thổi phồng nhất gần đây là về công ty Groq đang phát triển ASIC (Mạch tích hợp dành riêng cho ứng dụng) có thể chạy LLM hiệu quả hơn nhiều và tiêu tốn ít năng lượng hơn GPU truyền thống. Điều này cho thấy rõ ràng rằng kiến trúc LLM đã trở nên cơ bản đến mức hiện nay việc tạo ra phần cứng chuyên dụng cho nó là điều đáng giá.


Cũng gần đây, một ấn phẩm có tựa đề " Kỷ nguyên của LLM 1 bit: Tất cả các mô hình ngôn ngữ lớn đều ở dạng 1,58 bit " đã xuất hiện. Lượng tử hóa mạng lưới thần kinh là một phương pháp phổ biến để giảm kích thước và nhu cầu tính toán. Bản chất của giải pháp là thực hiện đào tạo trên các cụm GPU lớn bằng cách sử dụng số dấu phẩy động, sau đó chuyển đổi trọng số của mạng đã hoàn thành sang định dạng ít chính xác hơn, cho phép bộ xử lý của thiết bị người dùng hoạt động hiệu quả hơn. Ví dụ: quá trình đào tạo được thực hiện với các số dấu phẩy động 16 hoặc 32 bit, sau đó được chuyển đổi thành số dấu phẩy động 8 hoặc 4 bit để thực hiện nhanh các thao tác phía máy khách. Bằng cách này, mô hình có thể hoạt động tốt ngay cả trên thiết bị di động hoặc thiết bị IoT. Một dạng cực đoan của lượng tử hóa này là khi các trọng số được chuyển đổi thành số 1 bit. Đây có thể là một chuyển đổi nhị phân hoàn chỉnh hoặc như ấn phẩm gợi ý, sử dụng các giá trị {-1,0,1} (do đó là 1,58 bit). Người ta có thể nghĩ rằng lượng tử hóa cực độ như vậy sẽ khiến mạng hoàn toàn không thể sử dụng được, nhưng trên thực tế, điều ngược lại mới đúng; các mạng 1 bit này hoạt động rất tốt.


Tại sao đây là một vấn đề lớn như vậy?

Nếu ba giá trị này đủ để biểu thị các trọng số thì phép nhân, hiện là phép toán được sử dụng thường xuyên nhất trong mạng nơ-ron, không còn cần thiết nữa. Đây là lý do tại sao cụm GPU được sử dụng cho mạng thần kinh, vì GPU có thể thực hiện phép nhân rất hiệu quả. Không cần phép nhân, không cần GPU và các mô hình có thể chạy hiệu quả ngay cả trên CPU hoặc có thể xây dựng phần cứng chuyên dụng (ASIC) có thể (thậm chí theo cách tương tự) chạy các mạng 1 bit này.


Hiện tại, lượng tử hóa là một hoạt động sau đào tạo. Do đó, việc sử dụng mạng 1 bit không đẩy nhanh quá trình đào tạo. Tuy nhiên, chúng vẫn hữu ích vì việc đào tạo là hoạt động một lần, nhưng sau đó mạng lưới thần kinh sẽ được chạy vô số lần. Do đó, việc vận hành mạng tiêu thụ năng lượng lớn hơn đáng kể so với việc đào tạo. Do đó, chúng ta có thể hưởng lợi từ công nghệ này ngay cả trong bối cảnh đào tạo.


Do đào tạo dựa trên độ dốc không hoạt động với mạng 1 bit hoặc mạng nhị phân, nên các công nghệ không dựa trên độ dốc trở nên phù hợp (kiểm tra nevergradPyGAD ), như thuật toán di truyền hoặc các công nghệ không có độ dốc khác. Mặc dù trong hầu hết các trường hợp, lan truyền ngược hiệu quả hơn nhiều so với các giải pháp không có độ dốc, nhưng mạng 1 bit có thể chạy hiệu quả hơn nhiều so với các mạng dấu phẩy động của chúng. Vì vậy, có thể với lan truyền ngược, chúng ta tìm thấy mạng tối ưu nhanh hơn 10 lần khi sử dụng các số có dấu phẩy động so với các thuật toán di truyền. Nhưng nếu mạng 1 bit chạy nhanh hơn 20 lần thì việc huấn luyện vẫn sẽ nhanh gấp đôi khi sử dụng thuật toán di truyền. Việc nghiên cứu xem mạng 1 bit có thể được huấn luyện hiệu quả như thế nào bằng các phương pháp không có độ dốc có thể là một chủ đề nghiên cứu rất thú vị.


Một lý do khác khiến chủ đề này hấp dẫn đến vậy là vì các mạng này gần giống với mạng lưới thần kinh được tìm thấy trong não tự nhiên hơn (có lý về mặt sinh học). Do đó, tôi tin rằng bằng cách chọn một thuật toán đào tạo không có độ dốc tốt và áp dụng các mạng 1 bit này, chúng ta có thể xây dựng các hệ thống giống với bộ não con người hơn nhiều. Hơn nữa, điều này mở ra khả năng cho các giải pháp công nghệ ngoài ASIC mà trước đây không khả thi, chẳng hạn như bộ xử lý tương tự, dựa trên ánh sáng hoặc thậm chí dựa trên sinh học.


Có thể hướng đi này về lâu dài sẽ đi vào ngõ cụt, nhưng hiện tại, tiềm năng mang tính cách mạng của nó đã lộ rõ, khiến nó trở thành một con đường nghiên cứu rất hứa hẹn cho bất kỳ ai tham gia vào lĩnh vực trí tuệ nhân tạo.