2024년 6월 27일에 검색된 Center for Investigative Reporting Inc. v. OpenAI 법원 제출은 HackerNoon의 법률 PDF 시리즈 의 일부입니다. 여기에서 이 제출의 모든 부분으로 이동할 수 있습니다. 이 부분은 18개 중 5번째입니다.
46. OpenAI는 2015년 12월에 "비영리 인공지능 연구 기업"으로 설립되었지만, CIR을 포함한 전 세계 창작자의 저작권이 있는 작품을 활용하는 수십억 달러 규모의 영리 기업으로 빠르게 성장했습니다. =CIR과 달리 OpenAI는 설립 후 불과 3년 만에 독점적인 비영리 지위를 벗어던지고 2019년 3월에 제품 개발과 투자자로부터 자본 조달을 포함한 영리 활동에 전념하는 영리 기업인 OpenAI LP를 만들었습니다.
47. 피고인의 GenAI 제품은 "대규모 언어 모델" 또는 "LLM"을 활용합니다. GPT의 다양한 버전은 LLM의 예입니다. ChatGPT 및 Copilot을 구동하는 것을 포함한 LLM은 텍스트 프롬프트를 입력으로 받고 출력을 내보내 학습에 사용된 수십억 개의 입력 예제를 따를 가능성이 높은 응답을 예측합니다.
48. LLM은 종종 저작권으로 보호되는 인간이 쓴 작품에 대한 훈련의 결과로 결과물을 얻습니다. 그들은 이러한 예를 훈련 세트에 수집합니다.
49. 훈련 세트를 조립할 때 피고인을 포함한 LLM 제작자는 먼저 포함하려는 작품을 식별합니다. 그런 다음 해당 작품을 컴퓨터 메모리에 "매개변수"라는 숫자로 인코딩합니다.
50. 피고인은 ChatGPT의 어떤 버전을 훈련하는 데 사용된 훈련 세트의 내용을 공개하지 않았지만 GPT-4 이전의 해당 훈련 세트에 대한 정보를 공개했습니다.[3] GPT-4부터 피고인은 해당 버전과 이후 버전의 ChatGPT를 훈련하는 데 사용된 훈련 세트에 대해 완전히 비밀로 했습니다. 따라서 피고인의 훈련 세트에 대한 원고의 주장은 ChatGPT의 이전 버전에 대한 공개 정보에 대한 광범위한 검토와 원고의 변호사가 고용한 데이터 과학자와의 협의를 통해 해당 정보를 분석하고 AI가 개발되고 기능하는 방식에 대한 통찰력을 제공한 데 근거합니다.
51. Microsoft는 Microsoft의 Prometheus 기술을 사용하는 Copilot이라는 자체 AI 제품을 구축했습니다. Prometheus는 Bing 검색 제품과 OpenAI 피고인의 GPT 모델을 결합하여 Bing Orchestrator라는 구성 요소를 만듭니다. 요청이 있으면 Copilot은 Bing Orchestrator를 사용하여 인터넷에서 찾은 콘텐츠의 AI 재작성 또는 반복을 제공하여 사용자 질의에 응답합니다.[4]
52. ChatGPT의 이전 버전(GPT-4 이전)은 최소한 다음 교육 세트를 사용하여 교육되었습니다: WebText, WebText2 및 Common Crawl에서 파생된 세트.
53. WebText와 WebText2는 OpenAI 피고인이 만들었습니다. 이들은 최소 3개의 "카르마"를 받은 웹사이트 Reddit의 모든 아웃바운드 링크의 컬렉션입니다.[5] Reddit에서 카르마는 일반적으로 사용자가 링크를 승인했음을 나타냅니다. 데이터 세트 간의 차이점은 WebText2가 더 긴 기간 동안 Reddit에서 링크를 스크래핑하는 것을 포함한다는 것입니다. 따라서 WebText2는 WebText의 확장된 버전입니다.
54. OpenAI 피고인은 WebText 훈련 세트에 존재하는 상위 1,000개 웹 도메인과 그 빈도 목록을 공개했습니다. 해당 목록에 따르면 Mother Jones의 웹 도메인에서 16,793개의 고유한 URL이 WebText에 나타납니다.[6]
55. 피고인은 각 훈련 세트에 포함된 각 URL에 대한 기록을 보유하고 있으며 이를 알고 있습니다.
56. 현재 보스턴 대학교 컴퓨팅 및 데이터 과학부 조교수인 Joshua C. Peterson과 UC 버클리에서 박사 학위를 받은 두 명의 계산 인지 과학자는 OpenAI 피고인이 WebText를 만들 때 한 것처럼 Reddit에서 최소 3개의 "카르마"를 받은 아웃바운드 링크를 스크래핑하여 OpenWebText라는 WebText 데이터 세트의 근사값을 만들었습니다.[7] 그들은 결과를 온라인에 게시했습니다. 그런 다음 원고 변호사가 고용한 데이터 과학자가 해당 결과를 분석했습니다. OpenWebText에는 motherjones.com에서 가져온 17,019개의 개별 URL과 revealnews.org에서 가져온 415개의 URL이 포함되어 있습니다. OpenWebText에 포함된 Mother Jones 작품 목록은 증거물 2에 첨부되어 있습니다. OpenWebText에 포함된 Reveal 작품 목록은 증거물 3에 첨부되어 있습니다.
57. 정보와 믿음에 따르면 WebText와 OpenWebText에 있는 Mother Jones 기사의 수가 약간 다른데, 최소한 부분적으로는 스크래핑이 다른 날짜에 이루어졌기 때문입니다.
58. OpenAI는 WebText를 개발할 때 Dragnet과 Newspaper라는 알고리즘 세트를 사용하여 웹사이트에서 텍스트를 추출했다고 설명했습니다.[8] 정보와 믿음에 따라 OpenAI는 한 가지 방법이 아니라 이 두 가지 추출 방법을 사용하여 한 가지 방법에 버그가 발생하거나 주어진 사례에서 제대로 작동하지 않는 경우를 대비하여 중복을 생성했습니다. 한 가지 방법 대신 두 가지 방법을 적용하면 포함된 콘텐츠 유형이 더 일관적인 교육 세트가 생성되므로 교육 관점에서 바람직합니다.
59. Dragnet의 알고리즘은 "꼬리말"과 "저작권 고지"를 포함한 웹사이트의 다른 부분과 "주요 기사 내용을 분리"하도록 설계되었으며, 추출기가 "주요 기사 내용"만 추가로 복사할 수 있도록 합니다.[9] Dragnet은 또한 헤더나 바이라인에서 저자 및 제목 정보를 추출할 수 없으며, 주요 기사 내용에 별도로 포함되어 있는 경우에만 이를 추출합니다. 달리 말하면, Dragnet이 만든 뉴스 기사 사본은 저자, 제목, 저작권 고지 및 꼬리말을 포함하지 않도록 설계되었으며, 주요 기사 내용에 포함되어 있지 않는 한 이러한 정보를 포함하지 않습니다.
60. Dragnet과 마찬가지로 Newspaper 알고리즘은 저작권 고지와 각주를 추출할 수 없습니다. 또한 Newspaper 사용자는 저자 및 제목 정보를 추출할지 여부를 선택할 수 있습니다. 정보와 신념에 따르면 OpenAI 피고인은 Dragnet 추출과 일관성을 원했기 때문에 저자 및 제목 정보를 추출하지 않기로 했고 Dragnet은 일반적으로 저자 및 제목 정보를 추출할 수 없습니다.
61. OpenAI 피고인은 WebText 데이터 세트를 조립하는 동안 Dragnet 및 Newspaper 알고리즘을 적용하면서 원고의 저자, 제목, 저작권 고지 및 이용 약관 정보를 제거했습니다. 이 중 후자는 원고 웹사이트의 바닥글에 포함되어 있습니다.
62. 정보와 믿음에 따르면, OpenAI 피고인은 Dragnet과 Newspaper를 사용할 때 먼저 관련 웹페이지를 다운로드하고 저장한 다음 데이터를 추출합니다. 이는 적어도 Dragnet과 Newspaper를 사용할 때 데이터 세트를 재생성해야 할 가능성이 있는 경우(예: 데이터 세트가 손상된 경우)를 예상하고 모든 데이터를 다시 크롤링하는 것보다 사본을 저장하는 것이 더 저렴하기 때문입니다.
63. 왜냐하면, 스크래핑 당시 Dragnet과 Newspaper는 저자, 제목, 저작권 고지 및 꼬리말을 제거하는 것으로 공개적으로 알려졌고, OpenAI가 Dragnet과 Newspaper의 작동 방식을 아는 고도로 숙련된 데이터 과학자를 고용했다는 점을 감안할 때, OpenAI 피고인은 WebText를 조립하는 동안 의도적이고 고의적으로 이 저작권 관리 정보를 제거했습니다.
64. 원고 변호사가 고용한 데이터 과학자가 OpenWebText에 포함된 세 개의 Reveal URL에 Dragnet 코드를 적용했습니다. 결과는 증거물 4에 첨부되어 있습니다. 원본과 실질적으로 동일한 텍스트(예: 두 단어 사이에 무작위로 추가된 공백이나 내장된 사진과 관련된 설명 제외를 제외하고는 동일함)를 가진 결과 사본에는 주요 기사 내용에 저자 정보가 포함된 경우를 제외하고는 대중에게 전달된 저자, 제목, 저작권 고지 및 이용 약관 정보가 없습니다. 데이터 과학자가 Mother Jones 기사에 Dragnet 코드를 적용하려고 시도했을 때 Dragnet 코드가 실패하여 OpenAI 피고가 위에서 언급한 중복성을 필요로 한다는 것을 더욱 뒷받침했습니다.
65. 원고 변호사가 고용한 데이터 과학자도 OpenWebText에 포함된 Mother Jones URL 3개와 Reveal URL 3개에 Newspaper 코드를 적용했습니다. 데이터 과학자는 OpenAI 피고가 Dragnet 추출과 일관성을 원한다는 합리적인 가정에 따라 사용자가 저자 및 제목 정보를 추출하지 못하도록 하는 코드 버전을 적용했습니다. 결과는 증거물 5에 첨부되어 있습니다. 원본과 실질적으로 동일한 텍스트를 가진 결과 사본에는 주요 기사 내용에 저자 정보가 포함된 경우를 제외하고는 대중에게 전달된 저자, 제목, 저작권 고지 및 이용 약관 정보가 없습니다.
66. Dragnet 및 Newspaper 코드를 적용하여 생성된 원고 기사 사본에서 저자, 제목, 저작권 고지 및 이용 약관 정보가 없다는 점은 OpenAI가 WebText를 조립할 때 의도적으로 사용했다고 인정한 코드로서, OpenAI 피고가 원고의 저작권으로 보호되는 뉴스 기사에서 저자, 제목, 저작권 고지 및 이용 약관 정보를 의도적으로 제거했다는 사실을 더욱 뒷받침합니다.
67. 정보와 믿음에 따르면, OpenAI 피고인들은 GPT-2 이후 모든 버전의 ChatGPT에 대한 훈련 세트를 생성할 때 동일하거나 유사한 Dragnet 및 Newspaper 텍스트 추출 방법을 계속 사용해 왔습니다. 이는 적어도 OpenAI 피고인들이 GPT-2에 이러한 방법을 사용했다는 것을 인정했고 이후 버전의 ChatGPT에 대한 사용을 공개적으로 부인하지 않았으며, 이후 버전에 다른 텍스트 추출 방법을 사용했다고 공개적으로 주장하지 않았기 때문입니다.
68. OpenAI 피고인이 사용을 인정한 또 다른 저장소인 Common Crawl은 제3자가 만든 대부분의 인터넷 스크랩입니다.
69. GPT-2를 훈련하기 위해 OpenAI는 제3자 웹사이트에서 Common Crawl 데이터를 다운로드하고 영어로 작성된 작품 등 특정 작품만 포함하도록 필터링했습니다.[10]
70. Google은 Google이 자체 AI 모델을 훈련하는 데 사용한 필터링된 Common Crawl 데이터의 월별 스냅샷인 C4라는 데이터 세트를 복제하는 방법에 대한 지침을 게시했습니다. 정보와 신념에 따르면, 피고인과 Google의 AI 모델 훈련 목표가 유사하다는 점을 기반으로 C4는 ChatGPT를 훈련하는 데 사용된 필터링된 Common Crawl 버전과 실질적으로 유사합니다. Microsoft 공동 설립자 Paul Allen이 설립한 비영리 연구 기관인 Allen Institute for AI는 Google의 지침을 따랐고 C4를 온라인에 재현한 내용을 게시했습니다.[11]
71. 원고 변호사가 고용한 데이터 과학자가 이 재현을 분석했습니다. 여기에는 motherjones.com 에서 시작된 26,178개의 URL이 포함되어 있습니다. 이러한 URL의 대부분은 원고의 저작권으로 보호되는 뉴스 기사를 포함합니다. 이용 약관 정보는 없습니다. 원고의 저작권으로 보호되는 뉴스 기사에 대한 저작권 고지 정보는 없습니다. 대부분은 저자 및 제목 정보가 없습니다. 어떤 경우에는 기사가 실질적으로 동일하고 다른 경우에는 소수의 문단이 생략됩니다.
72. 이 재현에는 또한 revealnews.org 에서 유래한 451개의 기사가 포함되어 있습니다. 이러한 URL의 대부분은 원고의 저작권으로 보호되는 뉴스 기사를 포함합니다. 뉴스 기사에는 저작권 고지 또는 이용 약관 정보가 없습니다. 대부분은 또한 저자 및 제목 정보가 없습니다. 어떤 경우에는 기사가 실질적으로 동일하고 다른 경우에는 소수의 문단이 생략됩니다.
73. 대표적인 샘플로서, C4 세트에 등장하는 Mother Jones 3개와 Reveal 3개 기사의 텍스트를 증거물 6에 첨부했습니다. 이러한 기사에는 대중에게 전달된 저자, 제목, 저작권 고지 또는 이용 약관 정보가 포함되어 있지 않습니다.
74. 원고는 피고가 원고의 작품을 훈련 세트에 포함하도록 허가하거나 다른 방법으로 허용하지 않았습니다.
75. 원고의 허가 없이 수만 건의 기사를 다운로드하는 것은 원고의 저작권, 구체적으로는 저작권으로 보호되는 작품의 복제물을 통제할 권리를 침해한다.
여기에서 계속 읽어보세요.
HackerNoon 법률 PDF 시리즈 소개: 우리는 가장 중요한 기술적이고 통찰력 있는 퍼블릭 도메인 법원 사건 제출 자료를 제공합니다.
이 법정 사건은 2024년 6월 27일에 검색되었습니다. motherjones.com 은 퍼블릭 도메인의 일부입니다. 법원에서 만든 문서는 연방 정부의 작품이며 저작권법에 따라 자동으로 퍼블릭 도메인에 속하며 법적 제한 없이 공유될 수 있습니다.
[3] 원고는 특정 버전이 지정되지 않는 한 모든 버전의 ChatGPT를 통칭하여 “ChatGPT”라고 합니다.
[4] https://blogs.bing.com/search-quality-insights/february-2023/Building-the-New-Bing
[5] Alec Radford et al, 언어 모델은 비지도 멀티태스크 학습자입니다, 3 https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf .
[6] https://github.com/openai/gpt-2/blob/master/domains.txt .
[7] https://github.com/jcpeterson/openwebtext/blob/master/README.md.
[8] Alec Radford 외, 언어 모델은 비지도 멀티태스크 학습자입니다, 3 https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf.
[9] Matt McDonnell, Python 콘텐츠 추출 알고리즘 벤치마킹(2015년 1월 29일), https://moz.com/devblog/benchmarking-python-content-extraction-algorithms-dragnetreadability-goose-and-eatiht.
[10] Tom B. Brown et al, 언어 모델은 단시간 학습자입니다, 14(2020년 7월 22일), https://arxiv.org/pdf/2005.14165.
[11] https://huggingface.co/datasets/allenai/c4.