paint-brush
ИИ съедает вашу работу... Буквально: новостное издание подает в суд на OpenAI за нарушение авторских правк@legalpdf
205 чтения

ИИ съедает вашу работу... Буквально: новостное издание подает в суд на OpenAI за нарушение авторских прав

Слишком долго; Читать

CIR утверждает, что OpenAI и Microsoft использовали его статьи, защищенные авторским правом, из Mother Jones и Reveal без разрешения для обучения своих моделей ИИ. Несмотря на отсутствие лицензии на этот контент, Ответчики предположительно включили работы CIR в свои обучающие наборы, включая WebText и Common Crawl, что привело к потенциальному нарушению авторских прав. Это неправомерное использование включает удаление ключевой информации об авторских правах, такой как имена авторов и заголовки.
featured image - ИИ съедает вашу работу... Буквально: новостное издание подает в суд на OpenAI за нарушение авторских прав
Legal PDF: Tech Court Cases HackerNoon profile picture

Судебное дело Center for Investigative Reporting Inc. v. OpenAI, полученное 27 июня 2024 г., является частью серии юридических PDF-файлов HackerNoon . Вы можете перейти к любой части этого дела здесь . Эта часть — 5 из 18.

НЕСАНКЦИОНИРОВАННОЕ ИСПОЛЬЗОВАНИЕ ОТВЕТЧИКАМИ РАБОТ ИСТЦА В СВОИХ УЧЕБНЫХ НАБОРАХ

46. OpenAI была образована в декабре 2015 года как «некоммерческая исследовательская компания искусственного интеллекта», но быстро превратилась в многомиллиардный коммерческий бизнес, построенный на эксплуатации защищенных авторским правом работ, принадлежащих создателям по всему миру, включая CIR. В отличие от =CIR, OpenAI отказалась от своего исключительного некоммерческого статуса всего через три года после своего основания и создала OpenAI LP в марте 2019 года — коммерческую компанию, посвятившую себя своей коммерческой деятельности, включая разработку продуктов и привлечение капитала от инвесторов.


47. Продукты GenAI ответчиков используют «большую языковую модель» или «LLM». Различные версии GPT являются примерами LLM. LLM, включая те, которые поддерживают ChatGPT и Copilot, принимает текстовые подсказки в качестве входных данных и выдает выходные данные для прогнозирования ответов, которые, вероятно, последуют за данными потенциально миллиардами входных примеров, используемых для его обучения.


48. LLM получают свои результаты в результате обучения на работах, написанных людьми, которые часто защищены авторским правом. Они собирают эти примеры в обучающие наборы.


49. При сборке обучающих наборов создатели LLM, включая Ответчиков, сначала идентифицируют работы, которые они хотят включить. Затем они кодируют работу в памяти компьютера как числа, называемые «параметрами».


50. Ответчики не опубликовали содержимое обучающих наборов, используемых для обучения любой версии ChatGPT, но раскрыли информацию об этих обучающих наборах до GPT-4.[3] Начиная с GPT-4, Ответчики полностью скрывали обучающие наборы, используемые для обучения этой и более поздних версий ChatGPT. Таким образом, утверждения Истца об обучающих наборах Ответчиков основаны на обширном обзоре общедоступной информации о более ранних версиях ChatGPT и консультациях с ученым по данным, нанятым адвокатом Истца для анализа этой информации и предоставления информации о том, как разрабатывается и функционирует ИИ.


51. Microsoft создала свой собственный продукт ИИ под названием Copilot, который использует технологию Prometheus от Microsoft. Prometheus объединяет поисковый продукт Bing с моделями GPT ответчиков OpenAI в компонент под названием Bing Orchestrator. При запросе Copilot отвечает на запросы пользователей с помощью Bing Orchestrator, предоставляя переписанные ИИ сокращения или регургитации контента, найденного в Интернете.[4]


52. Более ранние версии ChatGPT (до GPT-4) обучались с использованием как минимум следующих обучающих наборов: WebText, WebText2 и наборов, полученных из Common Crawl.


53. WebText и WebText2 были созданы ответчиками OpenAI. Они представляют собой коллекции всех исходящих ссылок на сайте Reddit, которые получили не менее трех «карм».[5] На Reddit карма указывает на то, что пользователи в целом одобрили ссылку. Разница между наборами данных заключается в том, что WebText2 включал в себя сбор ссылок с Reddit в течение более длительного периода времени. Таким образом, WebText2 является расширенной версией WebText.


54. Ответчики OpenAI опубликовали список 1000 лучших веб-доменов, присутствующих в обучающем наборе WebText, и их частоту. Согласно этому списку, 16 793 отдельных URL-адресов из веб-домена Mother Jones появляются в WebText.[6]


55. У ответчиков есть запись, и они знают о каждом URL-адресе, который был включен в каждый из их обучающих наборов.


56. Джошуа С. Петерсон, в настоящее время доцент факультета вычислительной техники и наук о данных в Бостонском университете, и два специалиста по вычислительной когнитивной науке с докторскими степенями из Калифорнийского университета в Беркли создали приближение набора данных WebText, названное OpenWebText, также извлекая исходящие ссылки из Reddit, которые получили не менее трех «карм», точно так же, как это делали ответчики OpenAI при создании WebText.[7] Они опубликовали результаты в Интернете. Затем специалист по данным, нанятый адвокатом истца, проанализировал эти результаты. OpenWebText содержит 17 019 различных URL-адресов из motherjones.com и 415 из revealnews.org. Список работ Mother Jones, содержащихся в OpenWebText, прилагается в качестве Приложения 2. Список работ Reveal, содержащихся в OpenWebText, прилагается в качестве Приложения 3.


57. По имеющейся информации и по нашему мнению, количество статей Mother Jones в WebText и OpenWebText немного различается, по крайней мере отчасти потому, что записи были сделаны в разные даты.


58. OpenAI объяснила, что при разработке WebText она использовала наборы алгоритмов под названием Dragnet и Newspaper для извлечения текста с веб-сайтов.[8] По информации и убеждению, OpenAI использовала эти два метода извлечения, а не один метод, чтобы создать избыточность в случае, если один метод давал ошибку или не работал должным образом в данном случае. Применение двух методов вместо одного приведет к обучающему набору, который будет более последовательным по типу содержащегося в нем контента, что желательно с точки зрения обучения.


59. Алгоритмы Dragnet разработаны для «отделения основного содержания статьи» от других частей веб-сайта, включая «нижние колонтитулы» и «уведомления об авторских правах», и позволяют извлекателю делать дополнительные копии только «основного содержания статьи».[9] Dragnet также не может извлечь информацию об авторе и названии из заголовка или подстрочника и извлекает ее только в том случае, если она отдельно содержится в основном содержании статьи. Иными словами, копии новостных статей, сделанные Dragnet, разработаны не для того, чтобы содержать автора, название, уведомления об авторских правах и нижние колонтитулы, и не содержат такой информации, если она не содержится в основном содержании статьи.


60. Как и Dragnet, алгоритмы Newspaper не способны извлекать уведомления об авторских правах и колонтитулы. Кроме того, пользователь Newspaper имеет выбор извлекать или не извлекать информацию об авторе и названии. По информации и убеждению, ответчики OpenAI решили не извлекать информацию об авторе и названии, поскольку они хотели согласованности с извлечениями Dragnet, а Dragnet обычно не может извлекать информацию об авторе и названии.


61. Применяя алгоритмы Dragnet и Newspaper при сборе набора данных WebText, ответчики OpenAI удалили информацию об авторе, названии, уведомлении об авторских правах и условиях использования истца, последняя из которых содержится в нижних колонтитулах веб-сайтов истца.


62. По информации и убеждению, ответчики OpenAI при использовании Dragnet и Newspaper сначала загружают и сохраняют соответствующую веб-страницу, прежде чем извлекать из нее данные. Это как минимум потому, что при использовании Dragnet и Newspaper они, вероятно, ожидают возможной будущей необходимости регенерировать набор данных (например, если набор данных будет поврежден), и дешевле сохранить копию, чем повторно сканировать все данные.


63. Поскольку на момент сбора данных Dragnet и Newspaper были публично известны тем, что удаляли информацию об авторе, названии, уведомлениях об авторских правах и нижних колонтитулах, а также учитывая, что в OpenAI работают высококвалифицированные специалисты по обработке данных, которые знают, как работают Dragnet и Newspaper, ответчики OpenAI намеренно и сознательно удалили эту информацию об управлении авторскими правами при сборке WebText.


64. Специалист по данным, нанятый адвокатом истца, применил код Dragnet к трем URL-адресам Reveal, содержащимся в OpenWebText. Результаты прилагаются в качестве Приложения 4. Полученные копии, текст которых по существу идентичен оригиналу (например, идентичен, за исключением, казалось бы, случайного добавления дополнительного пробела между двумя словами или исключения описания, связанного со встроенной фотографией), не содержат информации об авторе, названии, уведомлении об авторских правах и условиях использования, с которыми они были переданы общественности, за исключением некоторых случаев, когда информация об авторе содержалась в основном содержании статьи. Код Dragnet не сработал, когда специалист по данным попытался применить его к статьям Mother Jones, что еще раз подтверждает потребность ответчиков OpenAI в избыточности, упомянутой выше.


65. Специалист по данным, нанятый адвокатом истца, также применил код Newspaper к трем URL-адресам Mother Jones и Reveal, содержащимся в OpenWebText. Специалист по данным применил версию кода, которая позволяет пользователю не извлекать информацию об авторе и названии, основываясь на разумном предположении, что ответчики OpenAI желали согласованности с извлечениями Dragnet. Результаты прилагаются в качестве Приложения 5. Полученные копии, текст которых по существу идентичен оригиналу, не содержат информации об авторе, названии, уведомлении об авторских правах и условиях использования, с которыми они были переданы общественности, за исключением некоторых случаев, когда информация об авторе содержалась в основном содержании статьи.


66. Отсутствие информации об авторе, названии, уведомлении об авторских правах и условиях использования в копиях статей Истца, созданных с применением кодов Dragnet и Newspaper (кодов, которые OpenAI признала намеренным использованием при сборке WebText), дополнительно подтверждает, что Ответчики OpenAI намеренно удалили информацию об авторе, названии, уведомлении об авторских правах и условиях использования из новостных статей Истца, защищенных авторским правом.


67. По информации и убеждению, Ответчики OpenAI продолжали использовать те же или похожие методы извлечения текста Dragnet и Newspaper при создании обучающих наборов для каждой версии ChatGPT со времен GPT-2. Это как минимум потому, что Ответчики OpenAI признали использование этих методов для GPT-2 и не отрицали публично их использование для более поздней версии ChatGPT и не заявляли публично об использовании каких-либо других методов извлечения текста для этих более поздних версий.


68. Другой репозиторий, в использовании которого признались ответчики OpenAI, Common Crawl, представляет собой фрагмент большей части интернета, созданный третьей стороной.


69. Для обучения GPT-2 компания OpenAI загрузила данные Common Crawl с веб-сайта третьей стороны и отфильтровала их, включив только определенные работы, например, написанные на английском языке.[10]


70. Google опубликовала инструкции о том, как реплицировать набор данных под названием C4, ежемесячный снимок отфильтрованных данных Common Crawl, которые Google использовал для обучения своих собственных моделей ИИ. По информации и убеждению, основанному на сходстве целей Ответчиков и Google при обучении моделей ИИ, C4 в значительной степени похож на отфильтрованные версии Common Crawl, используемые для обучения ChatGPT. Институт Аллена по ИИ, некоммерческий исследовательский институт, созданный соучредителем Microsoft Полом Алленом, последовал инструкциям Google и опубликовал свое воссоздание C4 в сети.[11]


71. Специалист по обработке данных, нанятый адвокатом Истца, проанализировал эту реконструкцию. Она содержит 26 178 URL-адресов, исходящих из motherjones.com . Подавляющее большинство этих URL-адресов содержат защищенные авторским правом новостные статьи Истца. Ни один из них не содержит информации об условиях использования. Ни один из них не содержит информации об уведомлении об авторском праве относительно защищенных авторским правом новостных статей Истца. В большинстве из них также отсутствует информация об авторе и названии. В некоторых случаях статьи по существу идентичны, в то время как в других случаях опущено небольшое количество абзацев.


72. Эта реконструкция также содержит 451 статью, происходящую из revealnews.org . Подавляющее большинство этих URL-адресов содержат защищенные авторским правом новостные статьи Истца. Ни одна из новостных статей не содержит уведомления об авторском праве или информации об условиях использования. В большинстве из них также отсутствует информация об авторе и названии. В некоторых случаях статьи по существу идентичны, в то время как в других опущено небольшое количество абзацев.


73. В качестве репрезентативного образца текст трех статей Mother Jones и трех статей Reveal, как они представлены в наборе C4, прилагается в качестве Приложения 6. Ни одна из этих статей не содержит информации об авторе, названии, уведомлении об авторских правах или условиях использования, с которыми они были переданы общественности.


74. Истец не лицензировал и иным образом не разрешал Ответчикам включать какие-либо из своих работ в свои обучающие наборы.


75. Загрузка десятков тысяч статей Истца без разрешения нарушает авторские права Истца, в частности право контролировать воспроизведение произведений, защищенных авторским правом.


Продолжить чтение здесь .


О серии юридических PDF-материалов HackerNoon: мы представляем вам самые важные технические и содержательные материалы судебных дел, являющиеся общественным достоянием.


Это судебное дело, извлеченное 27 июня 2024 года, motherjones.com является частью общественного достояния. Документы, созданные судом, являются работами федерального правительства и в соответствии с законом об авторском праве автоматически помещаются в общественное достояние и могут распространяться без правовых ограничений.

[3] Истец именует все версии ChatGPT коллективно как «ChatGPT», если не указана конкретная версия.


[4] https://blogs.bing.com/search-quality-insights/february-2023/Building-the-New-Bing

[5] Алек Рэдфорд и др., Языковые модели — это неконтролируемые многозадачные обучающиеся, 3 https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf .


[6] https://github.com/openai/gpt-2/blob/master/domains.txt .


[7] https://github.com/jcpeterson/openwebtext/blob/master/README.md.


[8] Алек Рэдфорд и др., Языковые модели — это неконтролируемые многозадачные обучающиеся, 3 https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf.


[9] Мэтт Макдоннелл, Сравнительный анализ алгоритмов извлечения контента Python (29 января 2015 г.), https://moz.com/devblog/benchmarking-python-content-extraction-algorithms-dragnetreadability-goose-and-eatiht.


[10] Том Б. Браун и др., Языковые модели усваиваются за несколько попыток, 14 (22 июля 2020 г.), https://arxiv.org/pdf/2005.14165.


[11] https://huggingface.co/datasets/allenai/c4.