paint-brush
Tại sao các mô hình ngôn ngữ nguồn mở lại là “AI mở” đích thựcby@FrederikBussler
5,941
5,941

Tại sao các mô hình ngôn ngữ nguồn mở lại là “AI mở” đích thực

Frederik Bussler4m2024/02/05
Read on Terminal Reader

Tương lai lâu dài của AI không nằm ở các mô hình lớn hơn, riêng tư hơn được phục vụ độc quyền thông qua API mà nằm ở các mô hình ngôn ngữ nguồn mở được xây dựng cởi mở cùng với các cộng đồng.
featured image - Tại sao các mô hình ngôn ngữ nguồn mở lại là “AI mở” đích thực
Frederik Bussler HackerNoon profile picture
0-item
1-item
2-item

Vào năm 2015, một phi lợi nhuận được gọi là OpenAI được thành lập để tạo ra AI “được phân bổ rộng rãi và đồng đều”. Chuyển nhanh đến năm 2024 và OpenAI đã chuyển sang chế độ hoàn toàn vì lợi nhuận, tích trữ quyền truy cập vào LLM đằng sau dịch vụ API giao dịch. Gần đây nhất, họ đang tìm kiếm một định giá 100 tỷ USD .


Sự phát triển của AI trong thập kỷ qua đã bị chi phối bởi các công ty công nghệ lớn như Google, Meta và OpenAI khi phát hành các mô hình ngôn ngữ độc quyền ngày càng lớn hơn. Từ Bard và Claude đến GPT-4, phần lớn công nghệ tiên tiến nhất trong xử lý ngôn ngữ tự nhiên (NLP) vẫn tập trung vào tay một số phòng thí nghiệm nghiên cứu.


Tuy nhiên, tương lai lâu dài của AI không nằm ở các mô hình lớn hơn mang tính riêng tư hơn được phục vụ độc quyền thông qua API mà nằm ở các mô hình ngôn ngữ nguồn mở được xây dựng cởi mở cùng với các cộng đồng.

Mô hình ngôn ngữ nguồn mở

Trong những năm gần đây, một số công ty khởi nghiệp, trường đại học và các cá nhân tận tâm đã giúp đi tiên phong trong mô hình phát triển mô hình ngôn ngữ mở này.


Mô hình mới nhất tiếp tục dòng nguồn mở này là H2O-Danube-1.8B . Với trọng lượng 1,8 tỷ thông số, Danube thể hiện khả năng đáng kinh ngạc, thậm chí so với các mẫu đã được công bố rộng rãi khác gấp nhiều lần kích thước của nó. Nhóm H2O.ai đã thiết kế, đào tạo và xác nhận Danube một cách tỉ mỉ, hoàn toàn minh bạch, với báo cáo đầy đủ có trên arXiv .


Thay vì tích trữ quyền truy cập, H2O.ai đã công khai toàn bộ thông số và mã đào tạo của Danube trên HuggingFace. Trong vòng vài ngày kể từ thông báo ban đầu, các nhà phát triển tò mò đã bắt đầu tự do thử nghiệm mô hình này, cho thấy việc tạo ra sự đổi mới nhanh chóng đơn giản là không khả thi với các mô hình độc quyền. Tính đến thời điểm viết bài, toàn bộ mô hình h2o-danube-1.8b-chat đã được tải xuống hơn 500 lần trên HuggingFace.


Bất kỳ ai cũng có thể sử dụng mô hình với thư viện transformers , làm theo mã bên dưới, nhờ vào kho lưu trữ HuggingFace của h2o:


 import torch from transformers import pipeline pipe = pipeline( "text-generation", model="h2oai/h2o-danube-1.8b-chat", torch_dtype=torch.bfloat16, device_map="auto", ) # We use the HF Tokenizer chat template to format each message # https://huggingface.co/docs/transformers/main/en/chat_templating messages = [ {"role": "user", "content": "Why is drinking water so healthy?"}, ] prompt = pipe.tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True, ) res = pipe( prompt, max_new_tokens=256, ) print(res[0]["generated_text"]) # <|prompt|>Why is drinking water so healthy?</s><|answer|> Drinking water is healthy for several reasons: [...]


H2O tin rằng cộng tác một cách cởi mở vẫn là chìa khóa cuối cùng hướng tới dân chủ hóa khả năng tiếp cận AI và mang lại lợi ích cho nhiều người thay vì sự giàu có cho một số ít.

Các mô hình ngôn ngữ nguồn mở khác

Hệ sinh thái AI nguồn mở tiếp tục mở rộng với việc các nhà phát triển trên toàn cầu cộng tác trên các mô hình dùng chung. Ngoài H2O-Danube-1.8B, nhiều sáng kiến đáng chú ý nhằm ngăn chặn sự tập trung kiến thức vào các khu vườn có tường bao quanh.

MPT

Được phát triển bởi công ty khởi nghiệp KhảmML, Máy biến đổi lập trình máy (MPT) kết hợp các kỹ thuật như song song hóa hỗn hợp các chuyên gia và ngoại suy độ dài ngữ cảnh để nâng cao hiệu quả.

Chim ưng

LLM mã nguồn mở lớn nhất của Falcon là một con thú khổng lồ với 180 tỷ tham số , vượt trội so với những thứ như LLaMA-2 , Ổn địnhLM , Pyjama màu đỏ , Và MPT .


Ở kích thước đó, bạn nên có 400 gigabyte bộ nhớ khả dụng để chạy mô hình.

Mistral

Được thành lập bởi các nhà nghiên cứu cũ của Google và Meta, Mistral đã phát hành mô hình Mistral 7B có 7 tỷ tham số vào tháng 9 năm 2022. Mistral 7B đạt được hiệu suất cạnh tranh giữa các mô hình mở gần như phù hợp với GPT-3 đóng về chất lượng mẫu.

Mô hình kế thừa

Ngoài các mô hình mới ra mắt, các mô hình nguồn mở trước đó tiếp tục trao quyền cho các nhà phát triển. GPT2 từ OpenAI và GPT-J từ EleutherAI đều có ý nghĩa lịch sử mặc dù tụt hậu so với các kiến trúc hiện đại. Và các Transformers như BERT đã tạo ra toàn bộ phân nhóm gồm các sản phẩm đột phá NLP cung cấp năng lượng cho các sản phẩm trên toàn cầu.


Câu chuyện về dân chủ hóa chỉ được củng cố nhờ các cộng đồng nhiệt huyết hào phóng đóng góp những sáng tạo của họ cho kho kiến thức chung.

Một tương lai công bằng hơn

Theo nhiều cách, các mô hình ngôn ngữ độc quyền có nguy cơ tạo ra nhiều bất bình đẳng mà ngành công nghệ vẫn đang phải vật lộn. Việc tập trung kiến thức vào các tổ chức giàu có sẽ ngăn cản các nhóm nhỏ hơn hình thành tiến trình sớm. Và sau này khiến cho việc tích hợp trở nên cực kỳ tốn kém khi chỉ có sẵn thông qua API giao dịch.


Các mô hình nguồn mở đóng vai trò quan trọng trong việc gieo mầm một hướng đi công bằng hơn về phía trước. Một nơi mà cơ quan nằm gần các cộng đồng đa dạng hơn, thực sự xây dựng các ứng dụng AI cụ thể. Vòng cung tiến bộ dài chỉ hướng tới công lý khi mọi người cùng nhau đoàn kết đằng sau chính công nghệ chứ không phải bất kỳ tổ chức nào đang tìm cách kiểm soát nó.


Danube và mô hình mở mà nó đại diện chỉ đưa ra một cái nhìn thoáng qua về một tầm nhìn thay thế. Một điều được thúc đẩy không phải bởi lợi nhuận hoặc uy tín ngắn hạn mà bằng cách trao quyền cho các nhà phát triển ở khắp mọi nơi để tự do xây dựng trên vai của nhau. Sẽ luôn có không gian cho công việc độc quyền, nhưng tương lai thực sự của AI vẫn còn rộng mở.

Đổi mới hướng tới cộng đồng

Việc phát hành các mô hình nguồn mở thu hút sự đóng góp từ cộng đồng các nhà phát triển và nhà nghiên cứu đầy động lực. Phong cách hợp tác làm việc cởi mở này sẽ mở ra những cơ hội độc đáo. Các chuyên gia trong các tổ chức có thể đánh giá ngang hàng công việc của nhau để xác nhận các kỹ thuật.


Các nhà nghiên cứu có thể dễ dàng nhân rộng và mở rộng những ý tưởng mới thay vì phát minh lại cái bánh xe. Và các kỹ sư phần mềm có thể nhanh chóng tích hợp và triển khai các cải tiến vào sản phẩm của khách hàng.


Có lẽ hứa hẹn nhất là mô hình mở cho phép các cộng đồng thích hợp tập hợp xung quanh các mô hình tùy chỉnh cho các trường hợp sử dụng cụ thể. Các nhóm có thể tạo ra các phiên bản phù hợp với các chủ đề cụ thể như y học, luật hoặc tài chính, hoạt động tốt hơn các mô hình chung. Những mô hình chuyên dụng này sau đó sẽ được chia sẻ lại để mang lại lợi ích cho phần còn lại của cộng đồng. Cùng nhau, các nhóm sẽ đạt được tiến bộ tập thể mà không thể có được trong bất kỳ phòng thí nghiệm khép kín nào.