paint-brush
Cuộc chiến giữa AI độc quyền và nguồn mởtừ tác giả@juanfrank77
2,497 lượt đọc
2,497 lượt đọc

Cuộc chiến giữa AI độc quyền và nguồn mở

từ tác giả Juan F. Gonzalez7m2023/11/03
Read on Terminal Reader

dài quá đọc không nổi

Một cái nhìn về tiến bộ khoa học đã phát triển như thế nào trong những thập kỷ qua. Nói về phần mềm nguồn mở như chất xúc tác cho một số phát minh vĩ đại nhất của thời đại chúng ta. Tiến trình hiện tại của phần mềm AI độc quyền cùng với cái nhìn tổng quan về tiến bộ vượt bậc mà cộng đồng nguồn mở đã đạt được trong AI và ML. Cuối cùng, có một cái nhìn về tương lai để thấy những ưu và nhược điểm của cả hai phương pháp.
featured image - Cuộc chiến giữa AI độc quyền và nguồn mở
Juan F. Gonzalez HackerNoon profile picture
0-item


Hãy cố lên các bạn, AI đang chiếm lĩnh thế giới!


Chà, có lẽ nó vẫn chưa hoàn toàn ở đó. Tuy nhiên, bạn vẫn không thể phủ nhận mức độ ảnh hưởng của nó trong 12 tháng qua.


Điều kỳ lạ ở đây là “ trí tuệ nhân tạo ” với tư cách là một khái niệm và một lĩnh vực nghiên cứu không phải là mới, nhưng nó “có cảm giác” mới với tất cả các chatbot và công cụ hỗ trợ AI đã xuất hiện trong năm nay.


Điều quan trọng hơn đó là thực tế là vào thời điểm này năm ngoái, công cụ AI duy nhất được biết đến rộng rãi là GPT-3 và sau đó là ChatGPT. Nhưng bây giờ, bạn có thể gặp khó khăn khi theo dõi tất cả các công cụ AI, chatbot và LLM khác nhau hiện có.


Tất cả đều thuộc 2 loại:


Nguồn đóng (như ChatGPT và Claude)


Nguồn mở (như Falcon hoặc Mistral)


Và đây là nơi nó trở nên thú vị.


Cũng phổ biến và được đánh giá cao như các mô hình AI độc quyền, có những mô hình nguồn mở tạo nên làn sóng trong không gian AI và vượt lên trên hạng cân của chúng.


Đó là những gì chúng ta sẽ xem xét trong bài viết này. Với công nghệ mang tính cách mạng như AI, liệu phần mềm độc quyền, giống hộp đen, có phải là lựa chọn hay nguồn mở là lựa chọn tốt hơn?


Câu hỏi này và những câu hỏi khác sẽ được giải đáp trong tập hôm nay.


Mở hay đóng? Đó là câu hỏi

Trước hết, toàn bộ quá trình khoa học đã được xây dựng trên các nguyên tắc trung thực, liêm chính và minh bạch. Nó liên quan đến sự cởi mở, hợp tác và đánh giá ngang hàng để xác nhận các phát hiện.


Nhiều tiến bộ khoa học lớn nhất thế giới, như thanh trùng, penicillin và phân bón, có thể thực hiện được nhờ sự hợp tác của nhiều nhà khoa học trong nhiều năm.


Thông thường, họ giải quyết một vấn đề lớn khi họ thiếu nguồn lực vào thời điểm đó. Họ đã công bố những phát hiện của mình và các nhà khoa học nhiều năm sau đó đã sử dụng nó làm nền tảng để phát triển giải pháp cho vấn đề ban đầu vì lợi ích của nhân loại.


Và điều này cũng áp dụng cho công nghệ nguồn mở. Thế giới đã thay đổi khi máy tính từ một cỗ máy khổng lồ chiếm toàn bộ căn phòng trở thành thiết bị mà mọi nhà đều có thể có.


Và sau đó là Internet, một bước tiến nữa trong việc cho phép nhiều người tiếp cận công nghệ thay vì một số ít người có đặc quyền.


Tim Berners-Lee đã phát minh ra World Wide Web vào năm 1989 và cung cấp nó miễn phí cho mọi người mà không cần bất kỳ bằng sáng chế hay tiền bản quyền nào. Điều này thúc đẩy sự phát triển nhanh chóng của Internet và nhiều đổi mới trong thập kỷ tiếp theo.


Câu chuyện tương tự cũng xảy ra với các hệ điều hành, hãy nghĩ đến Windows và Linux. Và điều tương tự cũng đã xảy ra với công nghệ web.


Với tất cả các ví dụ trước đây, có lý do để cho rằng một công nghệ mang tính biến đổi như AI có thể (hoặc nên) đi theo con đường tương tự.


Vì vậy, hãy xem cả hai bên (AI nguồn đóng và nguồn mở) đã tiến triển như thế nào trong năm nay.


Trạng thái AI độc quyền

Hiện tại, không có tin tức nào cho bất kỳ ai về tác động của ChatGPT khi nó được phát hành vào tháng 11 năm ngoái. Và trong thời gian còn lại của năm, AI độc quyền đã trở thành chủ đề bàn tán của thị trấn.


Vào tháng 3 năm 2023, phiên bản kế nhiệm của GPT-3, GPT-4 đã được phát hành. Sự kiện đó đã châm ngòi cho cuộc đua AI.


Chẳng bao lâu sau, Google đã tham gia cuộc cạnh tranh với Bard . Sau đó đến Anthropic, được thành lập bởi các nhà nghiên cứu trước đây của OpenAI, phát hành Claude , một đối thủ của ChatGPT nổi tiếng.


Tính đến thời điểm hiện tại, OpenAI là công ty có nhiều “hit” nhất trên thị trường.


Đó là các mẫu GPT, các phiên bản Dall-E khác nhau và Whisper. Microsoft cũng đang ở đó với Bing Chat mới và cải tiến (dựa trên công nghệ của OpenAI) và Copilot sắp được đưa vào mọi nơi.


Google tham gia cuộc đua với dự án nghiên cứu ban đầu Bard, dự án ban đầu khiến mọi người choáng ngợp và khiến chúng tôi chú ý hơn đến Microsoft cũng như các sáng kiến của nó. Nhưng sau dự án “hội chợ khoa học” đó, Google đã đẩy mạnh hoạt động của mình và phát hành các dịch vụ như Vertex AI, PaLM (và PaLM2), Imagen và Codey.


Và sau đó là Anthropic với các phiên bản khác nhau của Claude mạnh mẽ (Claude-instant, Claude 2). Phần thú vị là cách họ sử dụng để đào tạo Claude, cái mà họ gọi là "AI hiến pháp". Cách tiếp cận này đặt sự an toàn lên hàng đầu và giúp tạo ra AI phù hợp với lợi ích và giá trị của con người.


Đó là những tiến bộ vượt bậc trong lĩnh vực AI được biết đến rộng rãi hơn do chúng được phát triển bởi các công ty có nhiều nhân viên, nguồn lực dồi dào và bộ phận tiếp thị giỏi.


Bây giờ chúng ta hãy nhìn vào mặt khác của đồng xu.


Trạng thái của AI nguồn mở

Kể từ khi GPT-4 được phát hành, không chỉ những gã khổng lồ công nghệ đã nhảy vào cuộc đua AI mà các dự án độc lập khác cũng xuất hiện. Có thể thực hiện được nhờ các khung ML nguồn mở như TensorFlow và PyTorch.


Stability AI đã phát hành Stable Diffusion , một giải pháp thay thế cho Dall-E và nhiều người đam mê công nghệ đã thử nghiệm rộng rãi các khả năng của nó đến mức nó gây ra những lo ngại về mặt đạo đức liên quan đến bản chất của nghệ thuật và sự sáng tạo.


Meta đã công bố phát hành một mô hình ngôn ngữ lớn gần như mở có tên LLaMA (với một số kích cỡ mô hình và sau đó là phiên bản thứ hai).


Mô hình đó cùng với các dịch vụ Ôm mặt (như Gradio, Spaces, Transformers) đã tạo ra một cuộc cách mạng vì lần đầu tiên, mọi người trên khắp thế giới có quyền truy cập vào công nghệ nguồn mở cạnh tranh với ChatGPT hoặc PaLM.


Và bạn có biết điều gì sẽ xảy ra khi một nhóm dân công nghệ, hacker và những người đam mê công nghệ có đủ thời gian và nguồn lực không? Vâng, họ có thể điên cuồng xây dựng mọi thứ.


Các diễn đàn internet thích hợp và các kênh IRC từ những năm 90 với sự ra đời của internet đã được thay thế bằng các cuộc thảo luận Ôm mặt, các vấn đề về GitHub và máy chủ Discord.


Một thứ khác góp phần vào sự phát triển của nguồn mở là bộ dữ liệu Pile từ EleutherAI. Sáng kiến này đã giúp thúc đẩy quá trình học tập không giám sát và tự giám sát, giảm nhu cầu về các tập dữ liệu được dán nhãn lớn.



Với các mô hình ngôn ngữ lớn, các bộ dữ liệu để đào tạo/tinh chỉnh chúng và giảm bớt các yêu cầu về điện toán, toàn bộ hệ sinh thái các sản phẩm và dịch vụ sẽ sớm xuất hiện.


(Khi tôi nói các yêu cầu về điện toán giảm, ý tôi là LLM không cần nhiều tham số để tạo ra chất lượng kết quả do các mô hình độc quyền tạo ra, điều này được thể hiện qua các mô hình như LLaMA 13BMistral 7B )


Có rất nhiều dự án, mô hình được đào tạo trước và tinh chỉnh, bộ dữ liệu và công cụ trong không gian này dành cho tất cả những ai muốn tham gia và cộng tác với những người khác.


Hiện tại, chúng tôi có nhiều loại chatbot khác nhau không dựa vào GPT-3/GPT-4 để hoạt động như Zephyr-chat, LLaMA2-chat, Mistral-instruct và Falcon-chat.


LLM được tinh chỉnh để tạo và hỗ trợ mã như Code-LLaMA , CodeGenStarCoder .


Một mô hình ngôn ngữ đa ngôn ngữ truy cập mở có tên Bloom .


LLM đa phương thức (không chỉ là văn bản) như LLaVAFuyu .


Bảng xếp hạng Ôm Mặt đánh giá và xếp hạng tất cả các mô hình nguồn mở hiện có.


Một số bộ dữ liệu để đào tạo trước và tinh chỉnh LLM như RedPajama hoặc OpenOrca .


Và gần đây nhất chúng ta có thêm nhiều mô hình tự trị được gọi là “tác nhân AI”.


Những cái phổ biến nhất được cung cấp bởi GPT-3.5 nhưng có những cái khác dựa trên LLaMA.


Và có vẻ như chúng ta đang chạy đua để xây dựng các tác nhân không bị mắc kẹt trong các vòng lặp hoặc có thể hoàn thành nhiệm vụ một cách độc lập mà không cần đưa ra một loạt văn bản có vẻ thuyết phục nhưng lại không chính xác hoặc rõ ràng là sai.


Chỉ riêng trong 6 tháng qua đã có rất nhiều tiến bộ và bạn có thể chắc chắn rằng không có mặt trận nào có dấu hiệu chậm lại.

Tiến về phía trước

Ngay cả với tất cả những tiến bộ nhanh chóng và chóng mặt mà chúng ta đã thấy trong năm qua, chúng ta vẫn còn ở giai đoạn đầu trong quá trình phát triển AI. Có một số điều chúng ta cần tìm ra, các khía cạnh khác nhau cần xem xét như quyền riêng tư của AI, đạo đức, những thành kiến cố hữu, v.v.


Giống như mọi thứ trong cuộc sống, không có bên nào sai hoàn toàn và bên kia đúng. Cả AI độc quyền và nguồn mở đều có những ưu và nhược điểm.


AI độc quyền có thể tận dụng lượng tài nguyên lớn hơn để đào tạo các mô hình mới và mạnh hơn, đồng thời cung cấp quyền truy cập cho mọi người ở quy mô rộng hơn. Nhưng họ hoạt động như một chiếc hộp đen, thiếu khả năng quan sát và lợi ích của họ có thể hướng tới những người chơi lớn có tiền hơn là người tiêu dùng thông thường.


Mặt khác, AI nguồn mở được hưởng lợi từ sự hợp tác, tính minh bạch và đổi mới mở trên toàn thế giới. Nhưng nó thiếu tổ chức, nguồn lực cho những sáng kiến đầy tham vọng hơn và có nguy cơ gặp rủi ro nếu các quy định chặt chẽ hơn được thiết lập.


Câu hỏi bây giờ là làm thế nào chúng ta có thể duy trì sự tiến bộ trong AI theo cách kết hợp.


Một cách mà chúng tôi có thể cộng tác chung với một số bộ óc thông minh nhất trong lĩnh vực này và với các nguồn lực cần thiết để thúc đẩy sự đổi mới này tiến lên một cách có trách nhiệm, đặt sự an toàn và quyền riêng tư lên hàng đầu.


Một cách mà lợi ích và lợi ích của một số ít không lấn át lợi ích của số còn lại trong chúng ta. Một cách mà công nghệ mang tính cách mạng như AI không bị tư nhân hóa, hạn chế hoặc vũ khí hóa để chống lại các nhóm người được coi là “kẻ thù” của các cường quốc lớn hơn.


Chúng ta đang ở trong một thời điểm đặc biệt trong lịch sử, nơi những quyết định mà chúng ta đưa ra và cách chúng ta xử lý công nghệ sẽ quyết định tương lai sẽ hình thành như thế nào, tốt hơn hay tồi tệ hơn.


Cảm ơn vì đã đọc.


Đừng quên đăng ký trên Hackernoon và đừng bỏ lỡ các bài viết sắp tới.