IV. 사실적 주장

다. 피고인의 타임즈 콘텐츠 무단 이용 및 복제

2. GPT 모델의 시간 저작물의 무단 복제 및 파생물 구현





98. Times Works의 승인되지 않은 사본을 사용하여 교육을 받았다는 추가 증거로서 GPT LLM 자체는 해당 매개변수에 인코딩된 많은 동일한 저작물의 사본을 "기억"했습니다. 아래와 같이 Exhibit J에 표시된 대로 현재 GPT-4 LLM은 메시지가 표시될 경우 Times Works의 상당 부분에 대한 거의 그대로의 복사본을 출력합니다. 이러한 기억된 예는 모델을 훈련하는 데 사용된 Times Works의 무단 복사본 또는 파생 저작물을 구성합니다.





99. 예를 들어, 2019년 The Times는 뉴욕시 택시 산업의 약탈적 대출에 관한 퓰리처상을 수상한 5부작 시리즈를 출판했습니다. 18개월 동안 진행된 조사에는 600건 이상의 인터뷰, 100건 이상의 기록 요청, 대규모 데이터 분석, 수천 페이지에 달하는 내부 은행 기록 및 기타 문서 검토가 포함되었으며, 궁극적으로 범죄 수사로 이어졌고 이를 예방하기 위한 새로운 법률 제정으로 이어졌습니다. 미래의 학대. OpenAI는 이 콘텐츠를 만드는 데 아무런 역할을 하지 않았지만 최소한의 메시지로 내용의 상당 부분을 그대로 암송합니다.[26]













100. 마찬가지로, 2012년에 The Times는 Apple과 기타 기술 기업의 아웃소싱이 어떻게 세계 경제를 변화시켰는지 조사한 획기적인 시리즈를 발표했습니다. 이 시리즈는 세 대륙에 걸친 엄청난 노력의 산물이었습니다. The Times의 인터뷰와 접근이 반복적으로 거부되었기 때문에 이 이야기를 보도하는 것은 특히 어려웠습니다. The Times는 수백 명의 전현직 Apple 임원들과 접촉하여 궁극적으로 66명 이상의 Apple 내부자로부터 정보를 확보했습니다. 다시 말하지만, GPT-4는 이 콘텐츠를 복사하여 그 내용의 상당 부분을 그대로 암송할 수 있습니다.[27]









101. 증거 J는 GPT-4에 의한 Times Works 암기의 추가 사례를 제공합니다. 정보와 믿음에 따르면 이러한 예는 GPT LLM 시리즈의 매개변수 내에서 표현 내용이 실질적으로 인코딩된 Times Works의 작은 부분을 나타냅니다. 따라서 각 LLM에는 Times Works의 무단 사본이나 파생물이 많이 포함되어 있습니다.









[26] 원본 기사는 Brian M. Rosenthal, As 수천 명의 택시 운전사가 대출에 갇혀 있었고 최고 공무원이 돈을 계산했음, NY TIMES(2019년 5월 19일), https://www.nytimes.com/2019/를 참조하십시오. 05/19/nyregion/taximedallions.html.





[27] 원본 기사는 Charles Duhigg & Keith Bradsher, How the US Lost Out on iPhone Work, NY TIMES(2012년 1월 21일), https://www.nytimes.com/2012/01/22/business를 참조하십시오. /apple-america-and-a-squeezed-middleclass.html.









