Vụ kiện Center for Investigative Reporting Inc. v. OpenAI Court Filing, được truy xuất vào ngày 27 tháng 6 năm 2024, là một phần của Loạt PDF pháp lý của HackerNoon . Bạn có thể chuyển đến bất kỳ phần nào trong hồ sơ này tại đây . Phần này là phần thứ 5 trong số 18.
46. OpenAI được thành lập vào tháng 12 năm 2015 với tư cách là "công ty nghiên cứu trí tuệ nhân tạo phi lợi nhuận" nhưng nhanh chóng trở thành một doanh nghiệp vì lợi nhuận trị giá hàng tỷ đô la được xây dựng dựa trên việc khai thác các tác phẩm có bản quyền thuộc về những người sáng tạo trên toàn thế giới, bao gồm cả CIR. Không giống như =CIR, OpenAI đã từ bỏ tư cách phi lợi nhuận độc quyền của mình chỉ ba năm sau khi thành lập và thành lập OpenAI LP vào tháng 3 năm 2019, một công ty vì lợi nhuận chuyên về các hoạt động vì lợi nhuận của mình bao gồm phát triển sản phẩm và huy động vốn từ các nhà đầu tư.
47. Các sản phẩm GenAI của Bị đơn sử dụng “mô hình ngôn ngữ lớn” hay “LLM”. Các phiên bản khác nhau của GPT là ví dụ về LLM. Một LLM, bao gồm cả những LLM hỗ trợ ChatGPT và Copilot, lấy lời nhắc văn bản làm đầu vào và đưa ra đầu ra để dự đoán các phản hồi có khả năng xảy ra sau khi có hàng tỷ ví dụ đầu vào được sử dụng để đào tạo nó.
48. LLM đạt được kết quả đầu ra của họ là kết quả của quá trình đào tạo về các tác phẩm do con người viết, thường được bảo vệ bởi bản quyền. Họ thu thập các ví dụ này trong các bộ đào tạo.
49. Khi lắp ráp các bộ đào tạo, những người sáng tạo LLM, bao gồm Bị đơn, trước tiên xác định các tác phẩm họ muốn đưa vào. Sau đó, họ mã hóa tác phẩm trong bộ nhớ máy tính dưới dạng các con số được gọi là "tham số".
50. Bị đơn không công bố nội dung của các bộ đào tạo được sử dụng để đào tạo bất kỳ phiên bản nào của ChatGPT, nhưng đã tiết lộ thông tin về các bộ đào tạo đó trước GPT-4.[3] Bắt đầu từ GPT-4, Bị đơn đã hoàn toàn giữ bí mật về các bộ đào tạo được sử dụng để đào tạo phiên bản đó và các phiên bản sau của ChatGPT. Do đó, các cáo buộc của Nguyên đơn về các bộ đào tạo của Bị đơn dựa trên việc xem xét kỹ lưỡng thông tin có sẵn công khai liên quan đến các phiên bản trước của ChatGPT và tham vấn với một nhà khoa học dữ liệu do luật sư của Nguyên đơn thuê để phân tích thông tin đó và cung cấp thông tin chi tiết về cách thức AI được phát triển và hoạt động.
51. Microsoft đã xây dựng sản phẩm AI của riêng mình, được gọi là Copilot, sử dụng công nghệ Prometheus của Microsoft. Prometheus kết hợp sản phẩm tìm kiếm Bing với các mô hình GPT của Bị đơn OpenAI thành một thành phần được gọi là Bing Orchestrator. Khi được nhắc, Copilot sẽ phản hồi các truy vấn của người dùng bằng Bing Orchestrator bằng cách cung cấp các bản tóm tắt hoặc bản sao chép được AI viết lại của nội dung tìm thấy trên internet.[4]
52. Các phiên bản trước đó của ChatGPT (trước GPT-4) được đào tạo bằng cách sử dụng ít nhất các bộ đào tạo sau: WebText, WebText2 và các bộ bắt nguồn từ Common Crawl.
53. WebText và WebText2 được tạo ra bởi Bị đơn OpenAI. Chúng là tập hợp tất cả các liên kết đi trên trang web Reddit đã nhận được ít nhất ba “nghiệp chướng”.[5] Trên Reddit, nghiệp chướng cho biết người dùng nói chung đã chấp thuận liên kết. Sự khác biệt giữa các tập dữ liệu là WebText2 liên quan đến việc thu thập các liên kết từ Reddit trong một khoảng thời gian dài hơn. Do đó, WebText2 là phiên bản mở rộng của WebText.
54. Các Bị đơn OpenAI đã công bố danh sách 1.000 tên miền web hàng đầu có trong bộ đào tạo WebText và tần suất của chúng. Theo danh sách đó, 16.793 URL riêng biệt từ tên miền web của Mother Jones xuất hiện trong WebText.[6]
55. Bị cáo có hồ sơ và biết về từng URL được đưa vào từng bộ dữ liệu đào tạo của họ.
56. Joshua C. Peterson, hiện là phó giáo sư tại Khoa Khoa học Máy tính và Dữ liệu tại Đại học Boston, cùng hai nhà khoa học nhận thức tính toán có bằng Tiến sĩ từ UC Berkeley, đã tạo ra một bản xấp xỉ của tập dữ liệu WebText, được gọi là OpenWebText, bằng cách cũng thu thập các liên kết đi từ Reddit đã nhận được ít nhất ba "nghiệp chướng", giống như Bị đơn OpenAI đã làm khi tạo ra WebText.[7] Họ đã công bố kết quả trực tuyến. Sau đó, một nhà khoa học dữ liệu được luật sư của Nguyên đơn thuê đã phân tích các kết quả đó. OpenWebText chứa 17.019 URL riêng biệt từ motherjones.com và 415 từ revealnews.org. Danh sách các tác phẩm của Mother Jones có trong OpenWebText được đính kèm dưới dạng Phụ lục 2. Danh sách các tác phẩm của Reveal có trong OpenWebText được đính kèm dưới dạng Phụ lục 3.
57. Theo thông tin và niềm tin, số lượng bài viết về Mother Jones trên WebText và OpenWebText có đôi chút khác biệt, ít nhất một phần là do các bản sao xảy ra vào những ngày khác nhau.
58. OpenAI đã giải thích rằng, khi phát triển WebText, họ đã sử dụng các bộ thuật toán có tên là Dragnet và Newspaper để trích xuất văn bản từ các trang web.[8] Dựa trên thông tin và niềm tin, OpenAI đã sử dụng hai phương pháp trích xuất này, thay vì một phương pháp, để tạo ra sự dư thừa trong trường hợp một phương pháp gặp lỗi hoặc không hoạt động bình thường trong một trường hợp nhất định. Áp dụng hai phương pháp thay vì một phương pháp sẽ dẫn đến một bộ đào tạo nhất quán hơn về loại nội dung mà nó chứa, điều này là mong muốn từ góc độ đào tạo.
59. Các thuật toán của Dragnet được thiết kế để “tách nội dung bài viết chính” khỏi các phần khác của trang web, bao gồm “chân trang” và “thông báo bản quyền”, và cho phép trình trích xuất tạo thêm các bản sao chỉ của “nội dung bài viết chính”. [9] Dragnet cũng không thể trích xuất thông tin tác giả và tiêu đề từ tiêu đề hoặc dòng phụ, và chỉ trích xuất thông tin đó nếu thông tin đó tình cờ được chứa riêng trong nội dung bài viết chính. Nói cách khác, các bản sao của các bài báo do Dragnet tạo ra được thiết kế để không chứa thông tin tác giả, tiêu đề, thông báo bản quyền và chân trang, và không chứa thông tin đó trừ khi thông tin đó tình cờ được chứa trong nội dung bài viết chính.
60. Giống như Dragnet, các thuật toán của Newspaper không có khả năng trích xuất thông báo bản quyền và chân trang. Hơn nữa, người dùng Newspaper có quyền lựa chọn trích xuất hoặc không trích xuất thông tin tác giả và tiêu đề. Về thông tin và niềm tin, Bị đơn OpenAI đã chọn không trích xuất thông tin tác giả và tiêu đề vì họ muốn có sự nhất quán với các trích xuất của Dragnet và Dragnet thường không thể trích xuất thông tin tác giả và tiêu đề.
61. Khi áp dụng thuật toán Dragnet và Newspaper trong khi lắp ráp tập dữ liệu WebText, Bị đơn OpenAI đã xóa thông tin về tác giả, tiêu đề, thông báo bản quyền và điều khoản sử dụng của Nguyên đơn, thông tin sau này được chứa trong phần chân trang của trang web Nguyên đơn.
62. Theo thông tin và niềm tin, Bị đơn OpenAI, khi sử dụng Dragnet và Newspaper, trước tiên tải xuống và lưu trang web có liên quan trước khi trích xuất dữ liệu từ đó. Ít nhất là vì khi họ sử dụng Dragnet và Newspaper, họ có thể dự đoán nhu cầu có thể xảy ra trong tương lai là phải tạo lại tập dữ liệu (ví dụ, nếu tập dữ liệu bị hỏng) và việc lưu một bản sao rẻ hơn so với việc thu thập lại toàn bộ dữ liệu.
63. Bởi vì, vào thời điểm thu thập dữ liệu, Dragnet và Newspaper đã được công khai xóa thông báo về tác giả, tiêu đề, bản quyền và chân trang, và vì OpenAI sử dụng các nhà khoa học dữ liệu có tay nghề cao, những người hiểu rõ cách Dragnet và Newspaper hoạt động, nên Bị đơn OpenAI đã cố tình và có chủ ý xóa thông tin quản lý bản quyền này trong khi biên soạn WebText.
64. Một nhà khoa học dữ liệu được luật sư của Nguyên đơn thuê đã áp dụng mã Dragnet vào ba URL Reveal có trong OpenWebText. Các kết quả được đính kèm dưới dạng Triển lãm 4. Các bản sao kết quả, có văn bản về cơ bản giống hệt bản gốc (ví dụ: giống hệt ngoại trừ việc thêm một khoảng cách ngẫu nhiên giữa hai từ hoặc loại trừ mô tả liên quan đến ảnh nhúng), thiếu thông tin về tác giả, tiêu đề, thông báo bản quyền và điều khoản sử dụng mà chúng được truyền đạt đến công chúng, ngoại trừ một số trường hợp thông tin về tác giả tình cờ có trong nội dung bài viết chính. Mã Dragnet đã thất bại khi nhà khoa học dữ liệu cố gắng áp dụng nó vào các bài viết của Mother Jones, qua đó xác nhận thêm nhu cầu về sự dư thừa của Bị đơn OpenAI được tham chiếu ở trên.
65. Một nhà khoa học dữ liệu do luật sư của Nguyên đơn thuê cũng đã áp dụng mã Báo cho ba URL Mother Jones và ba URL Reveal có trong OpenWebText. Nhà khoa học dữ liệu đã áp dụng phiên bản mã cho phép người dùng không trích xuất thông tin tác giả và tiêu đề dựa trên giả định hợp lý rằng Bị đơn OpenAI mong muốn sự nhất quán với các trích xuất Dragnet. Các kết quả được đính kèm dưới dạng Triển lãm 5. Các bản sao kết quả, có văn bản về cơ bản giống hệt với bản gốc, thiếu thông tin về tác giả, tiêu đề, thông báo bản quyền và điều khoản sử dụng mà chúng được truyền đạt đến công chúng, ngoại trừ một số trường hợp thông tin tác giả tình cờ có trong nội dung bài viết chính.
66. Việc không có thông tin về tác giả, tiêu đề, thông báo bản quyền và điều khoản sử dụng trong các bản sao bài viết của Nguyên đơn được tạo ra bằng cách áp dụng mã Dragnet và Newspaper—các mã mà OpenAI thừa nhận đã cố ý sử dụng khi biên soạn WebText—càng chứng minh thêm rằng Bị đơn OpenAI đã cố tình xóa thông tin về tác giả, tiêu đề, thông báo bản quyền và điều khoản sử dụng khỏi các bài viết tin tức được bảo vệ bản quyền của Nguyên đơn.
67. Theo thông tin và niềm tin, Bị đơn OpenAI đã tiếp tục sử dụng cùng một phương pháp trích xuất văn bản Dragnet và Newspaper tương tự khi tạo bộ dữ liệu đào tạo cho mọi phiên bản ChatGPT kể từ GPT-2. Điều này ít nhất là vì Bị đơn OpenAI đã thừa nhận sử dụng các phương pháp này cho GPT-2 và không công khai phủ nhận việc sử dụng của họ cho phiên bản ChatGPT sau này cũng như không công khai tuyên bố đã sử dụng bất kỳ phương pháp trích xuất văn bản nào khác cho các phiên bản sau này.
68. Kho lưu trữ khác mà Bị cáo OpenAI thừa nhận đã sử dụng, Common Crawl, là một phần của hầu hết dữ liệu trên internet do bên thứ ba tạo ra.
69. Để đào tạo GPT-2, OpenAI đã tải xuống dữ liệu Common Crawl từ trang web của bên thứ ba và lọc nó để chỉ bao gồm một số tác phẩm nhất định, chẳng hạn như những tác phẩm được viết bằng tiếng Anh.[10]
70. Google đã công bố hướng dẫn về cách sao chép một tập dữ liệu có tên là C4, một ảnh chụp nhanh hàng tháng của dữ liệu Common Crawl đã lọc mà Google đã sử dụng để đào tạo các mô hình AI của riêng mình. Theo thông tin và niềm tin, dựa trên sự tương đồng giữa mục tiêu của Bị đơn và Google trong việc đào tạo các mô hình AI, C4 về cơ bản giống với các phiên bản đã lọc của Common Crawl được sử dụng để đào tạo ChatGPT. Allen Institute for AI, một viện nghiên cứu phi lợi nhuận do người đồng sáng lập Microsoft Paul Allen thành lập, đã làm theo hướng dẫn của Google và công bố bản tái tạo C4 trực tuyến.[11]
71. Một nhà khoa học dữ liệu được luật sư của Nguyên đơn thuê đã phân tích bản tái tạo này. Nó chứa 26.178 URL có nguồn gốc từ motherjones.com . Phần lớn các URL này chứa các bài báo được bảo vệ bản quyền của Nguyên đơn. Không có bài nào chứa thông tin về điều khoản sử dụng. Không có bài nào chứa thông tin thông báo bản quyền về các bài báo được bảo vệ bản quyền của Nguyên đơn. Phần lớn cũng thiếu thông tin về tác giả và tiêu đề. Trong một số trường hợp, các bài viết về cơ bản giống hệt nhau, trong khi ở những trường hợp khác, một số ít đoạn văn bị lược bỏ.
72. Bản giải trí này cũng chứa 451 bài viết có nguồn gốc từ revealnews.org . Phần lớn các URL này chứa các bài viết tin tức được bảo vệ bản quyền của Nguyên đơn. Không có bài viết tin tức nào chứa thông báo bản quyền hoặc thông tin về điều khoản sử dụng. Phần lớn cũng thiếu thông tin về tác giả và tiêu đề. Trong một số trường hợp, các bài viết về cơ bản giống hệt nhau, trong khi ở những trường hợp khác, một số ít đoạn văn bị lược bỏ.
73. Là một ví dụ đại diện, văn bản của ba bài viết trên Mother Jones và ba bài viết trên Reveal khi chúng xuất hiện trong bộ C4 được đính kèm dưới dạng Mục 6. Không có bài viết nào trong số này chứa thông tin về tác giả, tiêu đề, thông báo bản quyền hoặc điều khoản sử dụng mà chúng được truyền đạt tới công chúng.
74. Nguyên đơn không cấp phép hoặc cho phép Bị đơn đưa bất kỳ tác phẩm nào của mình vào bộ đào tạo của họ.
75. Việc tải xuống hàng chục nghìn bài viết của Nguyên đơn mà không được phép sẽ vi phạm bản quyền của Nguyên đơn, cụ thể hơn là quyền kiểm soát việc sao chép các tác phẩm được bảo vệ bản quyền.
Tiếp tục đọc tại đây .
Giới thiệu về loạt PDF pháp lý của HackerNoon: Chúng tôi mang đến cho bạn những hồ sơ vụ kiện công cộng có tính kỹ thuật và hiểu biết sâu sắc nhất.
Vụ kiện này được đưa ra xét xử vào ngày 27 tháng 6 năm 2024, motherjones.com là một phần của phạm vi công cộng. Các tài liệu do tòa án tạo ra là tác phẩm của chính phủ liên bang và theo luật bản quyền, được tự động đưa vào phạm vi công cộng và có thể được chia sẻ mà không bị hạn chế về mặt pháp lý.
[3] Nguyên đơn cùng nhau gọi tất cả các phiên bản của ChatGPT là “ChatGPT” trừ khi có chỉ định phiên bản cụ thể.
[4] https://blogs.bing.com/search-quality-insights/february-2023/Building-the-New-Bing
[5] Alec Radford và cộng sự, Mô hình ngôn ngữ là người học đa nhiệm không giám sát, 3 https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf .
[6] https://github.com/openai/gpt-2/blob/master/domains.txt .
[7] https://github.com/jcpeterson/openwebtext/blob/master/README.md.
[8] Alec Radford và cộng sự, Mô hình ngôn ngữ là người học đa nhiệm không giám sát, 3 https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf.
[9] Matt McDonnell, Đánh giá chuẩn các thuật toán trích xuất nội dung Python (29 tháng 1 năm 2015), https://moz.com/devblog/benchmarking-python-content-extraction-algorithms-dragnetreadability-goose-and-eatiht.
[10] Tom B. Brown và cộng sự, Mô hình ngôn ngữ là người học ít lần, 14 (ngày 22 tháng 7 năm 2020), https://arxiv.org/pdf/2005.14165.
[11] https://huggingface.co/datasets/allenai/c4.