paint-brush
The Times contra Microsoft/OpenAI: la reproducción no autorizada de Times funciona en el entrenamiento del modelo GPT (10)por@legalpdf
169 lecturas

The Times contra Microsoft/OpenAI: la reproducción no autorizada de Times funciona en el entrenamiento del modelo GPT (10)

Demasiado Largo; Para Leer

Microsoft y OpenAI crearon y distribuyeron reproducciones del contenido de The Times de varias maneras independientes en el curso de la capacitación de sus LLM y operaciones.
featured image - The Times contra Microsoft/OpenAI: la reproducción no autorizada de Times funciona en el entrenamiento del modelo GPT (10)
Legal PDF: Tech Court Cases HackerNoon profile picture

La presentación judicial del New York Times Company contra Microsoft Corporation del 27 de diciembre de 2023 es parte de la serie PDF legal de HackerNoon . Puede saltar a cualquier parte de este archivo aquí . Esta es la parte 10 de 27.

IV. ALEGACIONES DE HECHO

C. Uso no autorizado y copia del contenido del Times por parte de los demandados

82. Microsoft y OpenAI crearon y distribuyeron reproducciones del contenido de The Times de varias maneras independientes en el curso de la capacitación de sus LLM y la operación de los productos que las incorporan.


1. Reproducción no autorizada de trabajos de Times durante el entrenamiento del modelo GPT


83. Los modelos GPT de los demandados son una familia de LLM, el primero de los cuales se introdujo en 2018, seguido por GPT-2 en 2019, GPT-3 en 2020, GPT-3.5 en 2022 y GPT-4 en 2023. El “ Los LLM estilo chat”, GPT-3.5 y GPT-4, se desarrollaron en dos etapas. Primero, se entrenó previamente un modelo de transformador con una gran cantidad de datos. En segundo lugar, el modelo se “ajustó” en un conjunto de datos supervisados mucho más pequeño para ayudarlo a resolver tareas específicas.


84. El paso previo a la capacitación implicó recopilar y almacenar contenido de texto para crear conjuntos de datos de capacitación y procesar ese contenido a través de los modelos GPT. Si bien OpenAI no lanzó las versiones entrenadas de GPT-2 en adelante, “[de]bido a las preocupaciones [de OpenAI] sobre las aplicaciones maliciosas de la tecnología”, OpenAI ha publicado información general sobre su proceso de preentrenamiento para los modelos GPT.[12 ]


85. GPT-2 incluye 1.500 millones de parámetros, lo que representa una ampliación 10 veces superior a la de GPT.[13] El conjunto de datos de entrenamiento para GPT-2 incluye un corpus interno creado por OpenAI llamado "WebText", que incluye "el contenido de texto de 45 millones de enlaces publicados por usuarios de la red social 'Reddit'". [14] El contenido del conjunto de datos WebText fue creado como un “nuevo web scrape que enfatiza la calidad del documento”. [15] El conjunto de datos WebText contiene una asombrosa cantidad de contenido extraído de The Times. Por ejemplo, el dominio NYTimes.com es uno de los "15 dominios principales por volumen" en el conjunto de datos de WebText,[16] y figura como el quinto "dominio principal" en el conjunto de datos de WebText con 333,160 entradas.[17]



86. GPT-3 incluye 175 mil millones de parámetros y fue entrenado con los conjuntos de datos enumerados en la siguiente tabla.[18]



87. Uno de estos conjuntos de datos, WebText2, se creó para priorizar el contenido de alto valor. Al igual que el WebText original, se compone de enlaces salientes populares de Reddit. Como se muestra en la tabla anterior, el corpus WebText2 tuvo un peso del 22 % en la combinación de entrenamiento para GPT-3 a pesar de constituir menos del 4 % del total de tokens en la combinación de entrenamiento. El contenido del Times (un total de 209.707 URL únicas) representa el 1,23 % de todas las fuentes enumeradas en OpenWebText2, una recreación de código abierto del conjunto de datos WebText2 utilizado en el entrenamiento de GPT-3. Al igual que el WebText original, OpenAI describe WebText2 como un conjunto de datos de "alta calidad" que es "una versión ampliada del conjunto de datos de WebText... recopilado mediante la extracción de enlaces durante un período de tiempo más largo".


88. El conjunto de datos mejor ponderado en GPT-3, Common Crawl, es una “copia de Internet” puesta a disposición por una organización 501(c)(3) del mismo nombre dirigida por ricos inversores de capital de riesgo.[20] El dominio www.nytimes.com es la fuente propietaria más representada (y la tercera en general, solo detrás de Wikipedia y una base de datos de documentos de patentes estadounidenses) representada en un subconjunto filtrado en inglés de una instantánea de Common Crawl de 2019, que representa 100 millones. tokens (unidades básicas de texto): [21]



89. El conjunto de datos Common Crawl incluye al menos 16 millones de registros únicos de contenido de The Times en News, Cooking, Wirecutter y The Athletic, y más de 66 millones de registros totales de contenido del Times.


90. Fundamentalmente, OpenAI admite que “los conjuntos de datos que consideramos de mayor calidad se muestrean con mayor frecuencia” durante el entrenamiento.[22] En consecuencia, según admitió la propia OpenAI, el contenido de alta calidad, incluido el contenido de The Times, era más importante y valioso para entrenar los modelos GPT en comparación con el contenido tomado de otras fuentes de menor calidad.


91. Si bien OpenAI no ha publicado mucha información sobre GPT-4, los expertos sospechan que GPT-4 incluye 1,8 billones de parámetros, que es más de 10 veces mayor que GPT-3, y fue entrenado en aproximadamente 13 billones de tokens.[23] El conjunto de entrenamiento para GPT-3, GPT-3.5 y GPT-4 estaba compuesto por 45 terabytes de datos, el equivalente a un documento de Microsoft Word con más de 3.700 millones de páginas. [24] Entre los conjuntos de datos Common Crawl, WebText y WebText2, los demandados probablemente utilizaron millones de obras propiedad del Times en su totalidad para entrenar los modelos GPT.


92. Los demandados copiaron repetidamente esta masa de contenido protegido por derechos de autor del Times, sin ninguna licencia u otra compensación para The Times. Como parte del entrenamiento de los modelos GPT, Microsoft y OpenAI colaboraron para desarrollar un sistema de supercomputación complejo y personalizado para albergar y reproducir copias del conjunto de datos de entrenamiento, incluidas copias del contenido propiedad de The Times. Millones de veces se copiaron e ingerieron trabajos (varias veces) con el fin de “entrenar” los modelos GPT de los demandados.


93. Según la información y la creencia, Microsoft y OpenAI actuaron conjuntamente en la copia a gran escala del material del Times involucrada en la generación de los modelos GPT programados para imitar con precisión el contenido y los escritores del Times. Microsoft y OpenAI colaboraron en el diseño de los modelos GPT, seleccionando los conjuntos de datos de entrenamiento y supervisando el proceso de entrenamiento. Como afirmó el Sr. Nadella:


Entonces, hay muchas, lo que yo llamo, opciones de diseño de productos que uno puede tomar cuando piensa en la IA y la seguridad de la IA. Entonces, vayamos al otro lado. Hay que tener mucho cuidado con los datos previamente entrenados porque los modelos se entrenan con datos previamente entrenados. ¿Cuál es la calidad y la procedencia de esos datos previamente entrenados? Ése es un lugar donde hemos trabajado mucho.[25]


94. En la medida en que Microsoft no seleccionó las obras utilizadas para entrenar los modelos GPT, actuó en la autodenominada “asociación” con OpenAI con respecto a esa selección, conocía o estaba deliberadamente ciego a la identidad de las obras seleccionadas en virtud de su conocimiento de la naturaleza e identidad de los corpus de capacitación y los criterios de selección empleados por OpenAI, y/o tenía el derecho y la capacidad de evitar que OpenAI usara cualquier trabajo en particular para capacitación en virtud de su control físico de la supercomputadora que desarrolló para ese propósito y su influencia legal y financiera sobre los demandados de OpenAI.


95. Según información y creencia, Microsoft y OpenAI continúan creando copias no autorizadas de Times Works en forma de resultados de búsqueda sintéticos devueltos por sus productos Bing Chat y Browse with Bing. Microsoft recopila activamente copias de Times Works que se utilizan para generar dichos resultados en el proceso de rastreo de la web para crear el índice de su motor de búsqueda Bing.


96. Según la información y la creencia, Microsoft y OpenAI están actualmente o comenzarán de manera inminente a hacer copias adicionales de Times Works para entrenar y/o perfeccionar el GPT-5 LLM de próxima generación.


97. La explotación comercial a gran escala del contenido del Times por parte de los demandados no cuenta con licencia, ni los demandados han recibido permiso del Times para copiar y utilizar sus trabajos para construir sus herramientas GenAI.



Continuar leyendo aquí .


[12] OpenAI, Mejores modelos de lenguaje y sus implicaciones, OPENAI (14 de febrero de 2019), https://openai.com/research/better-language-models.


[13] Ídem.


[14] Tarjeta modelo GPT-2, GITHUB (noviembre de 2019), https://github.com/openai/gpt-2/blob/master/model_card.md.


[15] RADFORD ET AL., LOS MODELOS DE LENGUAJE SON ESTUDIANTES MULTITAREAS NO SUPERVISADOS 3 (2018), https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf.


[16] Tarjeta modelo GPT-2, supra nota 14.


[17] GPT-2 / domains.txt, GITHUB, https://github.com/openai/gpt-2/blob/master/domains.txt (última visita el 21 de diciembre de 2023).


[18] BROWN ET AL., LOS MODELOS DE LENGUAJE SON POCOS APRENDICES 9 (2020), https://arxiv.org/pdf/2005.14165.pdf.


[19] Ídem. a las 8.


[20] COMMON CRAWL, https://commoncrawl.org/ (última visita el 21 de diciembre de 2023).


[21] DODGE ET AL., DOCUMENTACIÓN DE GRANDES CORPORAS DE TEXTO WEB: UN ESTUDIO DE CASO SOBRE EL CORPUS RASTREADO LIMPIO COLOSAL (2021), https://arxiv.org/abs/2104.08758.


[22] BROWN ET AL., supra nota 18.


[23] Maximilian Schreiner, Arquitectura GPT-4, conjuntos de datos, costos y más filtrados, THE DECODER (11 de julio de 2023), https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more -filtrado/.


[24] Kindra Cooper, OpenAI GPT-3: todo lo que necesita saber [actualizado], SPRINGBOARD (27 de septiembre de 2023), https://www.springboard.com/blog/data-science/machine-learning-gpt -3-abierto-ai/.


[25] Nilay Patel, Microsoft cree que la IA puede vencer a Google en la búsqueda: el director ejecutivo Satya Nadella explica por qué, THE VERGE (7 de febrero de 2023), https://www.theverge.com/23589994/microsoft-ceo-satya-nadella -bing-chatgpt-googlesearch-ai.




Acerca de la serie PDF Legal de HackerNoon: Le traemos los expedientes judiciales de dominio público más importantes, técnicos y reveladores.


Este caso judicial 1:23-cv-11195 recuperado el 29 de diciembre de 2023 de nycto-assets.nytimes.com es parte del dominio público. Los documentos creados por el tribunal son obras del gobierno federal y, según la ley de derechos de autor, se colocan automáticamente en el dominio público y se pueden compartir sin restricciones legales.