Đã có rất nhiều tin đồn về OpenAI GPT-3, hiện có mạng nơ-ron lớn nhất. Nó có nghĩa là vấn đề AI đã được giải quyết? Có, nó có một tập dữ liệu lớn, nhưng chúng ta vẫn không biết nó học như thế nào.
OpenAI Inc là một chi nhánh phi lợi nhuận của Open.AI LP với mục tiêu là tạo ra một 'AI thân thiện' có lợi cho nhân loại.
Open.AI có một số dịch vụ khác nhau:
OpenAI GPT-3 được đào tạo trên 500 tỷ từ bằng cách sử dụng các bộ dữ liệu sau:
Dataset | Mã thông báo | Trọng lượng trong đào tạo |
---|---|---|
Thu thập thông tin chung | 410 tỷ | 60% |
WebText2 | 19 tỷ | 22% |
Sách1 | 12 tỷ | số 8% |
Sách2 | 55 tỷ | số 8% |
Wikipedia | 3 tỷ | 3% |
Mô hình đào tạo có thể được thực hiện bằng các phương pháp sau:
Cảnh quay ít (FS). Đây là nơi chúng tôi đưa ra từ 10-100 ngữ cảnh cho một mô hình và mong đợi mô hình xác định điều gì xảy ra tiếp theo.
Một lần chụp (1S). Điều này khá giống với FS. Tuy nhiên, một ví dụ được đưa ra mà không có bất kỳ đào tạo nào. Bối cảnh được đưa cho mô hình để xác định từ nào xuất hiện tiếp theo.
Zero-Shot (0S)
Mô hình dự đoán câu trả lời được đưa ra. Ý tưởng là trong quá trình đào tạo, mô hình có
đã xem đủ mẫu để xác định từ nào xuất hiện tiếp theo. Chỉ cho phép ngữ cảnh cuối cùng, làm cho việc cài đặt này trở nên khó khăn.
Đào tạo mô hình bao gồm việc lấy các phần lớn văn bản cho GPT-3 và hình ảnh cho DALL • E từ internet. Đây là nơi mà vấn đề xảy ra. Mô hình gặp phải điều tốt nhất và xấu nhất. Để giải quyết vấn đề này, OpenAI đã tạo ra GuiductGPT, Trong khi đào tạo GuiductGPT, Open.ai đã thuê 40 người để đánh giá các câu trả lời và sẽ thưởng cho mô hình tương ứng.
Open.ai nêu ra những Rủi ro và Hạn chế mà họ hiện đang gặp phải:
“Việc sử dụng DALL · E 2 có khả năng gây hại cho các cá nhân và nhóm bằng cách củng cố các định kiến, xóa bỏ hoặc bôi nhọ họ, cung cấp cho họ hiệu suất chất lượng thấp hoặc bằng cách khiến họ phải chịu sự phẫn nộ. ''
Đây là những gì DALL • E 2 tin rằng một 'Giám đốc điều hành' trông như thế này:
Đây là những gì DALL • E 2 tin rằng một 'tiếp viên hàng không' trông như thế này:
Để giảm sự thiên vị, OpenAI đã tuyển dụng các chuyên gia bên ngoài để cung cấp phản hồi.
Để kiểm tra sự thiên vị, tôi đã mượn danh sách các lời nhắc về khuynh hướng Giới tính từ Jenny Nicholson . Bạn có thể sử dụng sân chơi OpenAI để tự mình kiểm tra. Các kết quả được chứng minh là khá thú vị.
Giới và Chủng tộc là những thành kiến đã được nghiên cứu trong quá khứ. Tuy nhiên, một bài báo gần đây tiết lộ rằng GPT-3 cũng có thành kiến về tôn giáo. Những điều sau đây đã được tìm thấy:
CLIP thực hiện tốt các nhiệm vụ phân loại, như bạn đã thấy trong bài viết này. Nó sử dụng ImageNet làm tập dữ liệu để đào tạo mô hình. Điều này là do những hình ảnh nó được lấy từ internet. Tuy nhiên, mô hình bị phá vỡ khi nó phân loại độ tuổi, giới tính, chủng tộc, cân nặng, v.v. Điều này có nghĩa là các công cụ AI được sử dụng để tạo ra nghệ thuật mới có thể tiếp tục duy trì các định kiến lặp lại.
OpenAI có thể được sử dụng để cải thiện việc tạo nội dung. Nhưng miễn là các bộ dữ liệu đang được đào tạo bằng cách loại bỏ mạng internet hiện có, chúng tôi sẽ xây dựng thành kiến về tuổi tác, giới tính, chủng tộc và hơn thế nữa đối với công nghệ.
Chúng ta phải đề phòng khi sử dụng internet. Thông tin đi vào AI phải được lọc, nếu không những định kiến có hại sẽ không bao giờ bị xóa bỏ.