Vụ kiện Công ty New York Times kiện Microsoft Corporation ra tòa ngày 27 tháng 12 năm 2023 là một phần trong Chuỗi PDF pháp lý của HackerNoon . Bạn có thể chuyển tới bất kỳ phần nào trong hồ sơ này tại đây . Đây là phần 10 của 27.
82. Microsoft và OpenAI đã tạo và phân phối các bản sao nội dung của The Times theo nhiều cách độc lập trong quá trình đào tạo LLM của họ và vận hành các sản phẩm kết hợp chúng.
1. Sao chép trái phép các tác phẩm trong quá trình đào tạo mô hình GPT
83. Các mô hình GPT của Bị cáo là một họ LLM, mẫu đầu tiên được giới thiệu vào năm 2018, tiếp theo là GPT-2 vào năm 2019, GPT-3 vào năm 2020, GPT-3.5 vào năm 2022 và GPT-4 vào năm 2023. “ chat”, LLM kiểu GPT-3.5 và GPT-4, được phát triển theo hai giai đoạn. Đầu tiên, một mô hình máy biến áp được huấn luyện trước trên một lượng dữ liệu rất lớn. Thứ hai, mô hình đã được “tinh chỉnh” trên tập dữ liệu được giám sát nhỏ hơn nhiều để giúp mô hình giải quyết các nhiệm vụ cụ thể.
84. Bước tiền đào tạo bao gồm thu thập và lưu trữ nội dung văn bản để tạo tập dữ liệu đào tạo và xử lý nội dung đó thông qua các mô hình GPT. Mặc dù OpenAI không phát hành các phiên bản đã được huấn luyện của GPT-2 trở đi, nhưng “do [OpenAI's] lo ngại về các ứng dụng công nghệ độc hại,” OpenAI đã công bố thông tin chung về quy trình đào tạo trước cho các mô hình GPT.[12 ]
85. GPT-2 bao gồm 1,5 tỷ tham số, gấp 10 lần GPT.[13] Tập dữ liệu đào tạo cho GPT-2 bao gồm một kho dữ liệu nội bộ OpenAI được xây dựng có tên là “WebText”, bao gồm “nội dung văn bản của 45 triệu liên kết được đăng bởi người dùng mạng xã hội 'Reddit'”.[14] Nội dung của tập dữ liệu WebText là được tạo dưới dạng “bản tin web mới nhằm nhấn mạnh chất lượng tài liệu”.[15] Tập dữ liệu WebText chứa một lượng nội dung cóp nhặt đáng kinh ngạc từ The Times. Ví dụ: miền NYTimes.com là một trong “15 miền hàng đầu theo số lượng” trong tập dữ liệu WebText,[16] và được liệt kê là “miền hàng đầu” thứ 5 trong tập dữ liệu WebText với 333.160 mục nhập.[17]
86. GPT-3 bao gồm 175 tỷ tham số và được đào tạo trên các bộ dữ liệu được liệt kê trong bảng bên dưới.[18]
87. Một trong những bộ dữ liệu này, WebText2, được tạo để ưu tiên nội dung có giá trị cao. Giống như WebText ban đầu, nó bao gồm các liên kết ra ngoài phổ biến từ Reddit. Như được hiển thị trong bảng trên, kho dữ liệu WebText2 có trọng số 22% trong hỗn hợp huấn luyện cho GPT-3 mặc dù chiếm ít hơn 4% tổng số mã thông báo trong hỗn hợp huấn luyện. Nội dung của Times—tổng cộng 209.707 URL duy nhất—chiếm 1,23% tổng số nguồn được liệt kê trong OpenWebText2, một bản tạo lại nguồn mở của tập dữ liệu WebText2 được sử dụng trong đào tạo GPT-3. Giống như WebText ban đầu, OpenAI mô tả WebText2 là một tập dữ liệu “chất lượng cao”, là “phiên bản mở rộng của tập dữ liệu WebText… được thu thập bằng cách thu thập các liên kết trong một khoảng thời gian dài hơn.”[19]
88. Tập dữ liệu có trọng số cao nhất trong GPT-3, Common Crawl, là “bản sao của Internet” được cung cấp bởi tổ chức 501(c)(3) cùng tên do các nhà đầu tư mạo hiểm giàu có điều hành.[20] Tên miền www.nytimes.com là nguồn độc quyền được đại diện nhiều nhất (và là nguồn tổng thể thứ ba chỉ sau Wikipedia và cơ sở dữ liệu về các tài liệu bằng sáng chế của Hoa Kỳ) được thể hiện trong tập hợp con bằng tiếng Anh được lọc của ảnh chụp nhanh năm 2019 của Common Crawl, chiếm 100 triệu mã thông báo (đơn vị cơ bản của văn bản): [21]
89. Tập dữ liệu Common Crawl bao gồm ít nhất 16 triệu bản ghi nội dung duy nhất từ The Times trên News, Cooking, Wirecutter và The Athletic và hơn 66 triệu tổng số bản ghi nội dung từ Times.
90. Về mặt quan trọng, OpenAI thừa nhận rằng “các tập dữ liệu mà chúng tôi xem là chất lượng cao hơn được lấy mẫu thường xuyên hơn” trong quá trình đào tạo.[22] Theo đó, theo sự thừa nhận của chính OpenAI, nội dung chất lượng cao, bao gồm cả nội dung từ The Times, quan trọng và có giá trị hơn để đào tạo các mô hình GPT so với nội dung lấy từ các nguồn khác, chất lượng thấp hơn.
91. Mặc dù OpenAI chưa công bố nhiều thông tin về GPT-4, nhưng các chuyên gia nghi ngờ rằng GPT-4 bao gồm 1,8 nghìn tỷ tham số, lớn hơn 10 lần so với GPT-3 và được đào tạo trên khoảng 13 nghìn tỷ mã thông báo.[23] Tập huấn luyện cho GPT-3, GPT-3.5 và GPT-4 bao gồm 45 terabyte dữ liệu—tương đương với một tài liệu Microsoft Word dài hơn 3,7 tỷ trang. [24] Giữa các bộ dữ liệu Common Crawl, WebText và WebText2, Bị cáo có thể đã sử dụng toàn bộ hàng triệu tác phẩm thuộc sở hữu của Times để đào tạo các mô hình GPT.
92. Các bị cáo liên tục sao chép khối lượng nội dung có bản quyền này của Times mà không có bất kỳ giấy phép hoặc khoản bồi thường nào khác cho The Times. Là một phần của quá trình đào tạo các mô hình GPT, Microsoft và OpenAI đã hợp tác để phát triển một hệ thống siêu máy tính phức tạp, riêng biệt để chứa và tái tạo các bản sao của tập dữ liệu đào tạo, bao gồm các bản sao nội dung do The Times sở hữu. Hàng triệu tác phẩm lần đã được sao chép và sử dụng—nhiều lần—với mục đích “đào tạo” mô hình GPT của Bị cáo.
93. Dựa trên thông tin và niềm tin, Microsoft và OpenAI đã cùng nhau hành động sao chép quy mô lớn tài liệu của The Times liên quan đến việc tạo ra các mô hình GPT được lập trình để bắt chước chính xác nội dung và người viết của The Times. Microsoft và OpenAI đã hợp tác thiết kế các mô hình GPT, chọn tập dữ liệu đào tạo và giám sát quá trình đào tạo. Như ông Nadella đã nêu:
Vì vậy, tôi gọi nó là rất nhiều lựa chọn thiết kế sản phẩm mà người ta phải đưa ra khi nghĩ về AI và sự an toàn của AI. Vậy hãy nói theo cách khác. Bạn phải thực sự quan tâm đến dữ liệu được huấn luyện trước vì các mô hình được huấn luyện trên dữ liệu được huấn luyện trước. Chất lượng, nguồn gốc của dữ liệu được đào tạo trước đó là gì? Đó là nơi chúng tôi đã làm rất nhiều việc.[25]
94. Trong phạm vi Microsoft không chọn các tác phẩm được sử dụng để đào tạo các mô hình GPT, thì Microsoft đã hành động với tư cách là “quan hệ đối tác” tự mô tả với OpenAI tôn trọng lựa chọn đó, biết hoặc cố tình không biết danh tính của các tác phẩm đã chọn nhờ vào kiến thức về bản chất và danh tính của các khối đào tạo và tiêu chí lựa chọn được OpenAI sử dụng và/hoặc có quyền và khả năng ngăn OpenAI sử dụng bất kỳ công việc cụ thể nào để đào tạo nhờ khả năng kiểm soát vật lý của siêu máy tính mà nó đã phát triển cho mục đích đó và ảnh hưởng pháp lý và tài chính của nó đối với Bị cáo OpenAI.
95. Dựa trên thông tin và niềm tin, Microsoft và OpenAI tiếp tục tạo các bản sao trái phép của Times Works dưới dạng kết quả tìm kiếm tổng hợp được trả về bởi các sản phẩm Bing Chat và Duyệt bằng Bing của họ. Microsoft tích cực thu thập các bản sao của Times Works được sử dụng để tạo ra các kết quả như vậy trong quá trình thu thập thông tin trên web để tạo chỉ mục cho công cụ tìm kiếm Bing của mình.
96. Dựa trên tin tức và niềm tin, Microsoft và OpenAI hiện đang hoặc sẽ bắt đầu tạo thêm các bản sao của Times Works để đào tạo và/hoặc tinh chỉnh GPT-5 LLM thế hệ tiếp theo.
97. Việc khai thác thương mại nội dung Times trên quy mô lớn của Bị cáo không được cấp phép và Bị cáo cũng không nhận được sự cho phép của The Times để sao chép và sử dụng các tác phẩm của mình để xây dựng các công cụ GenAI của họ.
Tiếp tục đọc ở đây .
[12] OpenAI, Mô hình ngôn ngữ tốt hơn và ý nghĩa của chúng, OPENAI (14 tháng 2 năm 2019), https://openai.com/research/better-lingu-models.
[13] Mã số.
[14] Thẻ mẫu GPT-2, GITHUB (tháng 11 năm 2019), https://github.com/openai/gpt-2/blob/master/model_card.md.
[15] RADFORD VÀ CỘNG ĐỒNG, MÔ HÌNH NGÔN NGỮ LÀ NGƯỜI HỌC ĐA NĂNG KHÔNG GIÁM SÁT 3 (2018), https://d4mucfpksywv.cloudfront.net/better-lingu-models/lingu-models.pdf.
[16] Thẻ mẫu GPT-2, ghi chú trên 14.
[17] GPT-2 / domains.txt, GITHUB, https://github.com/openai/gpt-2/blob/master/domains.txt (truy cập lần cuối vào ngày 21 tháng 12 năm 2023).
[18] BROWN ET AL., MÔ HÌNH NGÔN NGỮ LÀ NGƯỜI HỌC MỚI 9 (2020), https://arxiv.org/pdf/2005.14165.pdf.
[19] Mã số. lúc 8 giờ.
[20] COMMON CRAWL, https://commoncrawl.org/ (truy cập lần cuối vào ngày 21 tháng 12 năm 2023).
[21] DODGE ET AL., TÀI LIỆU TẬP ĐOÀN WEBTEXT LỚN: NGHIÊN CỨU TRƯỜNG HỢP VỀ TẬP THỂ BÒ SẠCH SẠCH KHỔNG LỒ (2021), https://arxiv.org/abs/2104.08758.
[22] BROWN ET AL., chú thích trên 18.
[23] Maximilian Schreiner, Kiến trúc GPT-4, Bộ dữ liệu, Chi phí và nhiều thông tin khác bị rò rỉ, THE DECODER (11 tháng 7 năm 2023), https://the-decoding.com/gpt-4-architecture-datasets-costs-and-more -bị rò rỉ/.
[24] Kindra Cooper, OpenAI GPT-3: Mọi thứ bạn cần biết [Đã cập nhật], SPRINGBOARD (27 tháng 9 năm 2023), https://www.springboard.com/blog/data-science/machine-learning-gpt -3-open-ai/.
[25] Nilay Patel, Microsoft cho rằng AI có thể đánh bại Google trong lĩnh vực Tìm kiếm — CEO Satya Nadella giải thích lý do tại sao, THE VERGE (ngày 7 tháng 2 năm 2023), https://www.theverge.com/23589994/microsoft-ceo-satya-nadella -bing-chatgpt-googlesearch-ai.
Giới thiệu về Chuỗi PDF pháp lý của HackerNoon: Chúng tôi mang đến cho bạn hồ sơ vụ kiện tòa án phạm vi công cộng chuyên sâu và mang tính kỹ thuật quan trọng nhất.
Vụ án 1:23-cv-11195 này được truy xuất vào ngày 29 tháng 12 năm 2023, từ nycto-assets.nytimes.com là một phần của phạm vi công cộng. Các tài liệu do tòa án tạo ra là tác phẩm của chính phủ liên bang và theo luật bản quyền, sẽ tự động được đưa vào phạm vi công cộng và có thể được chia sẻ mà không bị hạn chế về mặt pháp lý.