paint-brush
The Times 대 Microsoft/OpenAI: GPT 모델 교육에서 시간의 무단 복제가 작동합니다(10)~에 의해@legalpdf
148 판독값

The Times 대 Microsoft/OpenAI: GPT 모델 교육에서 시간의 무단 복제가 작동합니다(10)

~에 의해 Legal PDF6m2024/01/02
Read on Terminal Reader

너무 오래; 읽다

Microsoft와 OpenAI는 LLM 및 운영 교육 과정에서 여러 가지 독립적인 방식으로 The Times 콘텐츠의 복제물을 제작하고 배포했습니다.
featured image - The Times 대 Microsoft/OpenAI: GPT 모델 교육에서 시간의 무단 복제가 작동합니다(10)
Legal PDF HackerNoon profile picture

New York Times Company v. Microsoft Corporation 법원에 2023년 12월 27일 제출된 소송은 HackerNoon의 법적 PDF 시리즈 의 일부입니다. 여기에서 이 서류의 어느 부분으로든 이동할 수 있습니다. 27개 중 10번째 부분입니다.

IV. 사실적 주장

다. 피고인의 타임즈 콘텐츠 무단 이용 및 복제

82. Microsoft와 OpenAI는 LLM을 교육하고 이를 통합하는 제품을 운영하는 과정에서 여러 가지 독립적인 방식으로 The Times 콘텐츠의 복제물을 제작하고 배포했습니다.


1. GPT 모델 훈련 중 시간의 무단 복제


83. 피고인의 GPT 모델은 LLM 제품군으로, 2018년에 처음 도입되었으며, 2019년에 GPT-2, 2020년에 GPT-3, 2022년에 GPT-3.5, 2023년에 GPT-4가 도입되었습니다. “ chat' 스타일 LLM인 GPT-3.5와 GPT-4는 두 단계로 개발되었습니다. 첫째, 변환기 모델은 매우 많은 양의 데이터에 대해 사전 훈련되었습니다. 둘째, 모델이 특정 작업을 해결하는 데 도움이 되도록 훨씬 작은 지도 데이터 세트에서 모델을 "미세 조정"했습니다.


84. 사전 훈련 단계에는 텍스트 콘텐츠를 수집 및 저장하여 훈련 데이터 세트를 생성하고 해당 콘텐츠를 GPT 모델을 통해 처리하는 작업이 포함되었습니다. OpenAI는 "기술의 악의적인 응용 프로그램에 대한 [OpenAI의] 우려로 인해" 훈련된 GPT-2 버전을 출시하지 않았지만 OpenAI는 GPT 모델에 대한 사전 훈련 프로세스에 대한 일반 정보를 게시했습니다.[12 ]


85. GPT-2에는 15억 개의 매개변수가 포함되어 있으며 이는 GPT의 10배 규모입니다.[13] GPT-2용 훈련 데이터세트에는 "'Reddit' 소셜 네트워크 사용자가 게시한 4,500만 개의 링크의 텍스트 콘텐츠"를 포함하는 "WebText"라고 불리는 내부 코퍼스 OpenAI가 포함되어 있습니다.[14] WebText 데이터세트의 내용은 다음과 같습니다. "문서 품질을 강조하는 새로운 웹 스크랩"으로 만들어졌습니다.[15] WebText 데이터 세트에는 The Times에서 스크랩한 콘텐츠가 엄청나게 많이 포함되어 있습니다. 예를 들어, NYTimes.com 도메인은 WebText 데이터 세트에서 "볼륨 기준 상위 15개 도메인" 중 하나이며[16] 333,160개의 항목이 있는 WebText 데이터 세트에서 5번째 "상위 도메인"으로 나열됩니다.[17]



86. GPT-3에는 1,750억 개의 매개변수가 포함되어 있으며 아래 표에 나열된 데이터 세트에 대해 훈련되었습니다.[18]



87. 이러한 데이터세트 중 하나인 WebText2는 고부가가치 콘텐츠의 우선순위를 지정하기 위해 만들어졌습니다. 원본 WebText와 마찬가지로 Reddit의 인기 있는 아웃바운드 링크로 구성됩니다. 위 표에서 볼 수 있듯이 WebText2 코퍼스는 훈련 믹스에서 전체 토큰의 4% 미만을 구성함에도 불구하고 GPT-3의 훈련 믹스에서 22%의 가중치를 받았습니다. 타임즈 콘텐츠(총 209,707개의 고유 URL)는 GPT-3 교육에 사용된 WebText2 데이터 세트를 오픈 소스로 재현한 OpenWebText2에 나열된 모든 소스의 1.23%를 차지합니다. 원본 WebText와 마찬가지로 OpenAI는 WebText2를 "장기간에 걸쳐 링크를 스크랩하여 수집한 WebText 데이터세트의 확장된 버전"인 "고품질" 데이터세트로 설명합니다.[19]


88. GPT-3에서 가장 가중치가 높은 데이터 세트인 Common Crawl은 부유한 벤처 캐피탈 투자자가 운영하는 동명의 501(c)(3) 조직이 제공하는 "인터넷 사본"입니다.[20] www.nytimes.com 도메인은 2019년 Common Crawl 스냅샷의 필터링된 영어 하위 집합으로 표시되는 가장 많이 대표되는 독점 소스(Wikipedia 및 미국 특허 문서 데이터베이스에 이어 세 번째 전체 소스)입니다. 토큰(텍스트의 기본 단위): [21]



89. Common Crawl 데이터 세트에는 News, Cooking, Wirecutter 및 The Athletic 전반에 걸쳐 The Times의 최소 1,600만 개 이상의 고유 콘텐츠 기록과 Times의 총 6,600만 개 이상의 콘텐츠 기록이 포함되어 있습니다.


90. 비판적으로, OpenAI는 훈련 중에 "우리가 더 높은 품질로 보는 데이터 세트가 더 자주 샘플링된다"는 점을 인정합니다.[22] 따라서 OpenAI 자체 인정에 따르면 The Times의 콘텐츠를 포함한 고품질 콘텐츠는 다른 품질이 낮은 소스에서 가져온 콘텐츠에 비해 GPT 모델을 교육하는 데 더 중요하고 가치가 있었습니다.


91. OpenAI는 GPT-4에 대한 많은 정보를 공개하지 않았지만 전문가들은 GPT-4에 GPT-3보다 10배 이상 많은 1조 8천억 개의 매개변수가 포함되어 있으며 약 13조 개의 토큰에 대해 교육을 받은 것으로 의심합니다.[23] GPT-3, GPT-3.5 및 GPT-4에 대한 훈련 세트는 45테라바이트의 데이터로 구성되었습니다. 이는 37억 페이지가 넘는 Microsoft Word 문서에 해당합니다. [24] Common Crawl, WebText 및 WebText2 데이터 세트 사이에서 피고인은 GPT 모델을 교육하기 위해 수백만 개의 Times 소유 작품 전체를 사용했을 가능성이 높습니다.


92. 피고인들은 The Times에 대한 라이센스나 기타 보상 없이 이 대량의 Times 저작권 콘텐츠를 반복적으로 복사했습니다. GPT 모델 교육의 일환으로 Microsoft와 OpenAI는 The Times 소유 콘텐츠의 사본을 포함하여 교육 데이터 세트의 사본을 보관하고 재현하는 복잡한 맞춤형 슈퍼컴퓨팅 시스템을 개발하기 위해 협력했습니다. 수백만 번 저작물은 피고의 GPT 모델을 "훈련"할 목적으로 여러 번 복사되고 수집되었습니다.


93. 정보와 믿음에 따라 Microsoft와 OpenAI는 The Times의 콘텐츠와 작가를 정확하게 모방하도록 프로그래밍된 GPT 모델 생성과 관련된 The Times 자료의 대규모 복사에 공동으로 참여했습니다. Microsoft와 OpenAI는 GPT 모델 설계, 교육 데이터 세트 선택, 교육 프로세스 감독에 협력했습니다. Nadella 씨는 다음과 같이 말했습니다.


따라서 AI와 AI 안전에 대해 생각할 때 제품 디자인을 선택하게 되는 경우가 많이 있습니다. 그렇다면 다른 방법으로 살펴보겠습니다. 모델은 사전 훈련된 데이터로 훈련되기 때문에 사전 훈련된 데이터를 잘 관리해야 합니다. 사전 훈련된 데이터의 품질과 출처는 무엇입니까? 그곳은 우리가 많은 일을 해온 곳입니다.[25]


94. Microsoft가 GPT 모델을 훈련하는 데 사용된 저작물을 선택하지 않은 한, Microsoft는 해당 선택과 관련하여 OpenAI와 자칭 "파트너십"으로 행동했으며, 선택한 저작물의 신원을 알고 있었거나 의도적으로 알지 못했습니다. OpenAI가 채택한 훈련 자료 및 선택 기준의 성격과 정체성에 대한 지식 및/또는 OpenAI가 해당 목적으로 개발한 슈퍼컴퓨터의 물리적 제어를 통해 훈련을 위해 특정 작업을 사용하는 것을 방지할 권리와 능력이 있었습니다. OpenAI 피고인에 대한 법적, 재정적 영향력.


95. 정보와 믿음에 따라 Microsoft와 OpenAI는 Bing Chat 및 Browse with Bing 제품에서 반환된 합성 검색 결과의 형태로 Times Works의 무단 복사본을 계속 생성합니다. Microsoft는 Bing 검색 엔진용 색인을 생성하기 위해 웹을 크롤링하는 과정에서 이러한 결과를 생성하는 데 사용된 Times Works의 사본을 적극적으로 수집합니다.


96. 정보와 믿음에 따르면 Microsoft와 OpenAI는 차세대 GPT-5 LLM을 교육 및/또는 미세 조정하기 위해 Times Works의 추가 복사본을 현재 또는 곧 만들기 시작할 것입니다.


97. 피고의 Times 콘텐츠에 대한 대규모 상업적 이용은 허가되지 않았으며, 피고는 GenAI 도구를 구축하기 위해 The Times의 저작물을 복사하고 사용하도록 허가를 받지 않았습니다.



여기에서 계속 읽으세요.


[12] OpenAI, 더 나은 언어 모델과 그 의미, OPENAI(2019년 2월 14일), https://openai.com/research/better-언어-models.


[13] ID.


[14] GPT-2 모델 카드, GITHUB(2019년 11월), https://github.com/openai/gpt-2/blob/master/model_card.md.


[15] RADFORD 외, 언어 모델은 감독되지 않는 다중 작업 학습자입니다 3(2018), https://d4mucfpksywv.cloudfront.net/better-언어-models/언어-models.pdf.


[16] GPT-2 모델 카드, 위 참고 14.


[17] GPT-2 / domains.txt, GITHUB, https://github.com/openai/gpt-2/blob/master/domains.txt(마지막 방문일: 2023년 12월 21일).


[18] BROWN 등, 언어 모델은 소수 학습자입니다 9(2020), https://arxiv.org/pdf/2005.14165.pdf.


[19] ID. 8시에.


[20] 공통 크롤링, https://commoncrawl.org/(마지막 방문일: 2023년 12월 21일).


[21] DODGE 외, 대규모 웹텍스트 코퍼스 문서화: 거대하고 깨끗한 크롤링 코퍼스에 대한 사례 연구(2021), https://arxiv.org/abs/2104.08758.


[22] BROWN 등, 위 각주 18.


[23] Maximilian Schreiner, GPT-4 아키텍처, 데이터 세트, 비용 등 유출, THE DECODER(2023년 7월 11일), https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more -유출/.


[24] Kindra Cooper, OpenAI GPT-3: 알아야 할 모든 것 [업데이트됨], SPRINGBOARD(2023년 9월 27일), https://www.springboard.com/blog/data-science/machine-learning-gpt -3-open-ai/.


[25] Nilay Patel, Microsoft는 AI가 검색에서 Google을 이길 수 있다고 생각합니다. CEO Satya Nadella가 그 이유를 설명합니다. THE VERGE(2023년 2월 7일), https://www.theverge.com/23589994/microsoft-ceo-satya-nadella -bing-chatgpt-googlesearch-ai.




HackerNoon 법률 PDF 시리즈 정보: 가장 중요한 기술적이고 통찰력 있는 공개 도메인 법원 소송 서류를 제공합니다.


nycto-assets.nytimes.com 에서 2023년 12월 29일에 검색된 이 법원 사건 1:23-cv-11195는 공개 도메인의 일부입니다. 법원이 작성한 문서는 연방 정부의 저작물이며 저작권법에 따라 자동으로 공개 도메인에 배치되며 법적 제한 없이 공유될 수 있습니다.