paint-brush
Bạn có thể sử dụng ChatGPT của OpenAI mà không làm rò rỉ IP của doanh nghiệp mình không?từ tác giả@artyfishle
830 lượt đọc
830 lượt đọc

Bạn có thể sử dụng ChatGPT của OpenAI mà không làm rò rỉ IP của doanh nghiệp mình không?

từ tác giả Arty Fishle6m2023/07/19
Read on Terminal Reader

dài quá đọc không nổi

API Hoàn thành của ChatGPT và OpenAI được các nhà phát triển sử dụng để tạo ứng dụng và sử dụng các mô hình ngôn ngữ hiện đại. Nếu không được sử dụng đúng cách, những công cụ này có thể vô tình làm lộ tài sản trí tuệ (IP) của công ty bạn trong các mô hình AI tổng quát trong tương lai. Chúng ta sẽ nói về những rủi ro tiềm ẩn khi sử dụng ChatGPT với dữ liệu nội bộ của công ty và cách bạn có thể giảm thiểu rủi ro cho công ty của mình.
featured image - Bạn có thể sử dụng ChatGPT của OpenAI mà không làm rò rỉ IP của doanh nghiệp mình không?
Arty Fishle HackerNoon profile picture
0-item
1-item
2-item

Trong kỷ nguyên của AI, các công cụ như ChatGPT đã trở thành giải pháp phù hợp cho nhiều tổ chức, mang lại hiệu quả và năng suất được cải thiện. Dữ liệu không nói dối: tỷ lệ cược là bạn hoặc nhân viên của bạn đang sử dụng ChatGPT để soạn thảo email, tạo nội dung, thực hiện phân tích dữ liệu và thậm chí hỗ trợ viết mã.


Tuy nhiên, nếu không được sử dụng đúng cách, những công cụ này có thể vô tình làm lộ tài sản trí tuệ (IP) của công ty bạn trong các mô hình AI thế hệ mới trong tương lai như GPT-3.5, GPT-4 và cuối cùng là GPT-5, nghĩa là bất kỳ người dùng ChatGPT nào cũng có thể truy cập thông tin đó.


Trường hợp điển hình: Samsung

Các kỹ sư của Samsung đã sử dụng ChatGPT để hỗ trợ kiểm tra mã nguồn, nhưng The Economist Korea đã báo cáo ba trường hợp riêng biệt về việc nhân viên của Samsung vô tình làm rò rỉ thông tin nhạy cảm qua công cụ này . Điều này dẫn đến mã nguồn bí mật và nội dung cuộc họp được ghi lại kết thúc ở miền công cộng, có thể sử dụng được bằng các lần lặp lại ChatGPT trong tương lai ( Nguồn ).


Chắc chắn rồi, chính sách bảo mật ChatGPT của OpenAI rất rõ ràng:


Khi bạn sử dụng các dịch vụ dành cho người tiêu dùng không phải API của chúng tôi ChatGPT hoặc DALL-E, chúng tôi có thể sử dụng dữ liệu bạn cung cấp cho chúng tôi để cải thiện các mô hình của chúng tôi.


Dữ liệu của bạn được sử dụng như thế nào để cải thiện hiệu suất của mô hình


Trong bài đăng này, chúng ta sẽ nói về những rủi ro tiềm ẩn khi sử dụng API của ChatGPT và OpenAI với dữ liệu nội bộ của công ty và cách bạn có thể giảm rủi ro cho công ty của mình nhiều nhất có thể. Chúng ta cũng sẽ thảo luận về các tùy chọn khác cho công ty của bạn, chẳng hạn như đào tạo mô hình ngôn ngữ của riêng bạn sao chép chức năng của ChatGPT hoặc sử dụng mô hình nguồn mở. Cả hai tùy chọn này đều cung cấp các cách để nhận được lợi ích về năng suất của ChatGPT mà không cần gửi dữ liệu tới OpenAI.

Sử dụng API hoàn thành của OpenAI

API Hoàn thành của OpenAI được các nhà phát triển sử dụng để tạo ứng dụng và sử dụng các mô hình ngôn ngữ hiện đại của OpenAI như GPT-3 và GPT-4, các mô hình cung cấp năng lượng cho ChatGPT. Các API này cung cấp một mức độ bảo vệ bổ sung vượt trội. Không giống như ChatGPT, dữ liệu của bạn chỉ được xem bởi nhóm kiểm duyệt đã ký hợp đồng và không được tái sử dụng để đào tạo các mô hình của OpenAI trong tương lai. Các API của họ tuân theo chính sách dữ liệu không cho phép sử dụng thông tin đã gửi để đào tạo các mô hình trong tương lai ( chính sách sử dụng dữ liệu API của họ cho biết dữ liệu của bạn chỉ được lưu giữ trong 30 ngày để theo dõi lạm dụng và lạm dụng. Sau đó, dữ liệu sẽ bị xóa.)


Tuy nhiên, tùy thuộc vào bản chất dữ liệu của bạn được gửi tới API, bạn có thể quyết định rằng việc sử dụng API của OpenAI vẫn còn quá rủi ro. Cuối cùng, một nhân viên hoặc nhà thầu của OpenAI sẽ xem xét một số dữ liệu bạn gửi tới API và nếu dữ liệu đó chứa thông tin nhạy cảm, có thể nhận dạng cá nhân hoặc sức khỏe cá nhân, thì điều đó có thể gây ra vô số rắc rối.

Vô hiệu hóa lịch sử trò chuyện & đào tạo

Lịch sử trò chuyện & Nút đào tạo trên trang cài đặt của ChatGPT

Vào cuối tháng 4 năm 2023, ChatGPT đã phát hành một cách để quản lý dữ liệu của bạn , nút “Lịch sử trò chuyện và đào tạo” trong cài đặt ChatGPT. Khi tắt tính năng này, mọi dữ liệu được chia sẻ trên nền tảng sẽ không được sử dụng để đào tạo các mô hình trong tương lai. Bên dưới nút có ghi chú: “Các cuộc trò chuyện chưa được lưu sẽ bị xóa khỏi hệ thống của chúng tôi trong vòng 30 ngày”. Ghi chú 30 ngày này có khả năng đề cập đến chính sách giám sát lạm dụng và lạm dụng. Điều này mang lại những rủi ro tương tự như việc sử dụng API của OpenAI như đã lưu ý ở trên.

Đào tạo mô hình của riêng bạn

Một số công ty có thể xem xét việc đào tạo các mô hình của riêng họ như một giải pháp thay thế, đi theo con đường mà Samsung đã bắt đầu sau sự cố rò rỉ dữ liệu của họ. Cách tiếp cận này có vẻ giống như một viên đạn bạc: bạn sẽ duy trì toàn quyền kiểm soát dữ liệu của mình, tránh rò rỉ IP tiềm ẩn và có được công cụ phù hợp với nhu cầu cụ thể của bạn.


Nhưng chúng ta hãy tạm dừng một chút. Đào tạo mô hình ngôn ngữ của riêng bạn là một nhiệm vụ không nhỏ. Nó sử dụng nhiều tài nguyên, đòi hỏi chuyên môn đáng kể, sức mạnh tính toán và dữ liệu chất lượng cao. Ngay cả sau khi phát triển một mô hình, bạn vẫn phải đối mặt với những thách thức liên tục trong việc duy trì, cải thiện và điều chỉnh mô hình đó cho phù hợp với nhu cầu phát triển của mình.


Hơn nữa, chất lượng của các mô hình ngôn ngữ phần lớn phụ thuộc vào số lượng và tính đa dạng của dữ liệu mà chúng được đào tạo. Với các bộ dữ liệu khổng lồ được sử dụng bởi các công ty như OpenAI để đào tạo các mô hình của họ, thật khó khăn cho các công ty riêng lẻ để phù hợp với mức độ phức tạp và tính linh hoạt đó. Các công ty thành công là những công ty như Bloomberg, đã tạo ra BloombergGPT từ dữ liệu và tài liệu tài chính trong 40 năm của họ ( Nguồn ). Đôi khi, dữ liệu không thể đạt được đối với các công ty nhỏ đang cố gắng vươn lên.

Sử dụng các mô hình mã nguồn mở hoặc tự lưu trữ

Trình độ nghệ thuật của các mô hình mã nguồn mở đang phát triển nhanh chóng. Một mô hình nguồn mở có thể được tải xuống và chạy trên máy của bạn, làm cho nó có thể tự lưu trữ và loại bỏ nhu cầu tham gia của một công ty như OpenAI.


Các mô hình được đào tạo bởi các tổ chức như Trợ lý mở đang tạo ra các kết quả đáng chú ý và hoàn toàn là nguồn mở. Cộng đồng của họ đang tích cực thu thập dữ liệu để tham gia vào cùng một vòng lặp phản hồi của con người học tăng cường (RLHF) mà OpenAI đã sử dụng với ChatGPT. Hiệu suất của mô hình rất ấn tượng, đặc biệt khi xem xét sự phụ thuộc của nó vào cộng đồng nguồn mở (bao gồm cả những đóng góp của riêng tôi). Tuy nhiên, Trợ lý mở minh bạch về những hạn chế trong mô hình của họ , thừa nhận rằng dữ liệu của họ thiên về đối tượng nhân khẩu học nam, 26 tuổi. Họ chỉ khuyến nghị sử dụng mô hình của họ trong môi trường nghiên cứu, thể hiện hành vi có trách nhiệm trong việc tiết lộ những thông tin nhân khẩu học này. Xin chúc mừng để mở Trợ lý!


Orca là một mô hình nguồn mở đầy hứa hẹn, chưa được phát hành do Microsoft đào tạo. Nó nhỏ hơn GPT-3, nhưng tạo ra kết quả ngang bằng và đôi khi tốt hơn GPT-3. Có một video tuyệt vời của AI được giải thích trên Orca nếu bạn quan tâm. Tuy nhiên, bạn không thể sử dụng các mô hình của OpenAI để đào tạo các mô hình của riêng mình, vì điều này sẽ cấu thành hành vi vi phạm Điều khoản dịch vụ của OpenAI. Orca được đào tạo rõ ràng về các kết quả đầu ra từ GPT-3.5 và GPT-4, vì vậy Microsoft tuyên bố rằng họ sẽ chỉ phát hành mô hình này cho mục đích “nghiên cứu”.


Cả hai mô hình này đều được thiết kế đặc biệt cho mục đích nghiên cứu, khiến chúng không phù hợp với các ứng dụng kinh doanh. Sau khi xem xét các mô hình nguồn mở khác làm giải pháp thay thế, tôi nhận thấy rằng hầu hết chúng đều bắt nguồn từ mô hình LLAMA của Meta (do đó cũng chịu các giới hạn “nghiên cứu” tương tự) hoặc quá lớn để chạy hiệu quả.


Một tùy chọn đáng khích lệ là tận dụng một công ty như MosaicML để lưu trữ suy luận của bạn một cách riêng tư. MosaicML nổi bật là một trong số ít các mô hình ngôn ngữ nguồn mở có sẵn trên thị trường. Họ khẳng định rằng mẫu MPT-30b của họ đạt chất lượng tương đương với GPT-3 . Mặc dù họ không cung cấp điểm chuẩn cụ thể, nhưng tôi có xu hướng tin tưởng vào tuyên bố của họ, với tư cách là một người bạn và tôi đã bắt đầu thử nghiệm một trong những mẫu nhỏ hơn của họ (MPT-7b) và kết quả ban đầu rất hứa hẹn!

Mô hình MPT-7b-Trò chuyện trả lời câu hỏi về sự khác biệt giữa phản ứng phân hạch và phản ứng tổng hợp hạt nhân. Nó cung cấp một câu trả lời hợp lý và đầy đủ!

Phần kết luận

Tùy thuộc vào bản chất của dữ liệu và trường hợp sử dụng của bạn, việc sử dụng ChatGPT hoặc API của OpenAI có thể không phù hợp với công ty của bạn. Nếu công ty của bạn không có chính sách về dữ liệu nào có thể được gửi hoặc lưu trong ChatGPT, thì bây giờ là lúc để bắt đầu những cuộc trò chuyện đó.


Việc sử dụng sai các công cụ này trong cài đặt doanh nghiệp tư nhân có thể dẫn đến rò rỉ IP. Những tác động của việc tiếp xúc như vậy là rất lớn, từ việc mất lợi thế cạnh tranh đến các vấn đề pháp lý tiềm ẩn.

Nếu bạn quan tâm đến việc khám phá thêm các mô hình của MosaicML, đây là một trong số các tùy chọn giới hạn có cả mã nguồn mở và có sẵn trên thị trường cho các mô hình ngôn ngữ lớn, vui lòng cho chúng tôi biết ! Chúng tôi có cùng mối quan tâm và rất vui mừng được cùng nhau khám phá thêm về chủ đề này.


Nếu bạn quan tâm đến một giải pháp cung cấp khả năng tạo tăng cường truy xuất, an toàn bằng cách sử dụng dữ liệu của chính công ty bạn, thì chúng tôi đang phát triển một công cụ được thiết kế đặc biệt để bảo vệ dữ liệu của bạn tuân thủ SOC2, tích hợp với các nhà cung cấp SSO của bạn, cho phép chia sẻ cuộc hội thoại trong tổ chức của bạn và thực thi các chính sách về dữ liệu đầu vào. Mục tiêu cuối cùng của chúng tôi là cung cấp chất lượng ChatGPT cho dữ liệu của bạn mà không có bất kỳ nguy cơ rò rỉ IP nào. Nếu bạn quan tâm đến một công cụ như vậy, chúng tôi khuyên bạn nên điền vào bản khảo sát của chúng tôi hoặc truy cập vào minddataai.com .


Cảm ơn bạn đã dành thời gian để đọc bài viết này!