paint-brush
La IA se come tu trabajo... literalmente: un medio de comunicación demanda a OpenAI por quitarle los derechos de autorpor@legalpdf
208 lecturas

La IA se come tu trabajo... literalmente: un medio de comunicación demanda a OpenAI por quitarle los derechos de autor

Demasiado Largo; Para Leer

CIR afirma que OpenAI y Microsoft utilizaron sus artículos protegidos por derechos de autor de Mother Jones y Reveal sin autorización para entrenar sus modelos de IA. A pesar de no tener licencia para este contenido, los demandados supuestamente incorporaron las obras de CIR en sus conjuntos de entrenamiento, incluidos WebText y Common Crawl, lo que dio lugar a una posible infracción de los derechos de autor. Este uso indebido incluye la eliminación de información clave sobre derechos de autor, como los nombres y títulos de los autores.
featured image - La IA se come tu trabajo... literalmente: un medio de comunicación demanda a OpenAI por quitarle los derechos de autor
Legal PDF: Tech Court Cases HackerNoon profile picture

El expediente judicial de The Center for Investigative Reporting Inc. v. OpenAI, recuperado el 27 de junio de 2024, es parte de la serie de documentos legales en formato PDF de HackerNoon . Puede saltar a cualquier parte de este expediente aquí . Esta parte es la 5 de 18.

USO NO AUTORIZADO POR PARTE DE LOS DEMANDADOS DE LAS OBRAS DEL DEMANDANTE EN SUS CONJUNTOS DE ENTRENAMIENTO

46. OpenAI se formó en diciembre de 2015 como una “empresa de investigación de inteligencia artificial sin fines de lucro”, pero rápidamente se convirtió en una empresa con fines de lucro multimillonaria basada en la explotación de obras protegidas por derechos de autor pertenecientes a creadores de todo el mundo, incluido CIR. A diferencia de =CIR, OpenAI se deshizo de su condición exclusiva de organización sin fines de lucro solo tres años después de su fundación y creó OpenAI LP en marzo de 2019, una empresa con fines de lucro dedicada a sus actividades con fines de lucro, incluido el desarrollo de productos y la captación de capital de inversores.


47. Los productos GenAI de los demandados utilizan un “modelo de lenguaje extenso” o “LLM”. Las diferentes versiones de GPT son ejemplos de LLM. Un LLM, incluidos los que impulsan ChatGPT y Copilot, toma indicaciones de texto como entradas y emite salidas para predecir las respuestas que probablemente seguirán a los miles de millones de ejemplos de entrada que se utilizan para entrenarlo.


48. Los LLM obtienen sus resultados como resultado de su entrenamiento en obras escritas por humanos, que a menudo están protegidas por derechos de autor. Recopilan estos ejemplos en conjuntos de entrenamiento.


49. Al reunir los conjuntos de entrenamiento, los creadores de LLM, incluidos los Demandados, primero identifican las obras que desean incluir. Luego codifican la obra en la memoria de la computadora como números llamados "parámetros".


50. Los demandados no han publicado el contenido de los conjuntos de entrenamiento utilizados para entrenar ninguna versión de ChatGPT, pero han revelado información sobre esos conjuntos de entrenamiento antes de GPT-4.[3] A partir de GPT-4, los demandados han mantenido en completo secreto los conjuntos de entrenamiento utilizados para entrenar esa y versiones posteriores de ChatGPT. Por lo tanto, las alegaciones del demandante sobre los conjuntos de entrenamiento de los demandados se basan en una revisión exhaustiva de la información disponible públicamente sobre versiones anteriores de ChatGPT y consultas con un científico de datos empleado por el abogado del demandante para analizar esa información y proporcionar información sobre la forma en que se desarrolla y funciona la IA.


51. Microsoft ha creado su propio producto de inteligencia artificial, llamado Copilot, que utiliza la tecnología Prometheus de Microsoft. Prometheus combina el producto de búsqueda de Bing con los modelos GPT de los Demandados OpenAI en un componente llamado Bing Orchestrator. Cuando se le solicita, Copilot responde a las consultas de los usuarios utilizando Bing Orchestrator proporcionando resúmenes reescritos por IA o regurgitaciones de contenido encontrado en Internet.[4]


52. Las versiones anteriores de ChatGPT (anteriores a GPT-4) se entrenaron utilizando al menos los siguientes conjuntos de entrenamiento: WebText, WebText2 y conjuntos derivados de Common Crawl.


53. WebText y WebText2 fueron creados por los demandados de OpenAI. Son colecciones de todos los enlaces salientes en el sitio web Reddit que recibieron al menos tres “karma”. [5] En Reddit, un karma indica que los usuarios en general aprobaron el enlace. La diferencia entre los conjuntos de datos es que WebText2 implicó extraer enlaces de Reddit durante un período de tiempo más largo. Por lo tanto, WebText2 es una versión ampliada de WebText.


54. Los demandados de OpenAI han publicado una lista de los 1.000 dominios web más importantes presentes en el conjunto de entrenamiento de WebText y su frecuencia. Según esa lista, 16.793 URL distintas del dominio web de Mother Jones aparecen en WebText.[6]


55. Los acusados tienen un registro y conocen cada URL que se incluyó en cada uno de sus conjuntos de entrenamiento.


56. Joshua C. Peterson, actualmente profesor adjunto en la Facultad de Informática y Ciencias de Datos de la Universidad de Boston, y dos científicos cognitivos computacionales con doctorados de la Universidad de California en Berkeley, crearon una aproximación del conjunto de datos de WebText, llamado OpenWebText, al extraer también enlaces salientes de Reddit que recibieron al menos tres "karma", tal como lo hicieron los Demandados de OpenAI al crear WebText.[7] Publicaron los resultados en línea. Un científico de datos empleado por el abogado del demandante analizó luego esos resultados. OpenWebText contiene 17.019 URL distintas de motherjones.com y 415 de revealednews.org. Se adjunta una lista de las obras de Mother Jones contenidas en OpenWebText como Anexo 2. Se adjunta una lista de las obras de Reveal contenidas en OpenWebText como Anexo 3.


57. Según la información y la creencia, hay cantidades ligeramente diferentes de artículos de Mother Jones en WebText y OpenWebText, al menos en parte porque los robos ocurrieron en fechas diferentes.


58. OpenAI ha explicado que, al desarrollar WebText, utilizó conjuntos de algoritmos llamados Dragnet y Newspaper para extraer texto de sitios web.[8] Según la información y la creencia, OpenAI utilizó estos dos métodos de extracción, en lugar de un método, para crear redundancias en caso de que un método experimentara un error o no funcionara correctamente en un caso determinado. La aplicación de dos métodos en lugar de uno conduciría a un conjunto de entrenamiento que es más consistente en el tipo de contenido que contiene, lo que es deseable desde una perspectiva de entrenamiento.


59. Los algoritmos de Dragnet están diseñados para “separar el contenido principal del artículo” de otras partes del sitio web, incluidos los “pies de página” y los “avisos de derechos de autor”, y permiten al extractor hacer copias adicionales solo del “contenido principal del artículo”. [9] Dragnet tampoco puede extraer información sobre el autor y el título del encabezado o la firma, y la extrae solo si está contenida por separado en el contenido principal del artículo. Dicho de otro modo, las copias de los artículos de noticias realizadas por Dragnet están diseñadas para no contener autor, título, avisos de derechos de autor y pies de página, y no contienen dicha información a menos que esté contenida en el contenido principal del artículo.


60. Al igual que Dragnet, los algoritmos de Newspaper no pueden extraer avisos de derechos de autor ni pies de página. Además, el usuario de Newspaper tiene la opción de extraer o no información sobre el autor y el título. Según la información y la creencia, los demandados de OpenAI decidieron no extraer información sobre el autor y el título porque deseaban coherencia con las extracciones de Dragnet, y Dragnet normalmente no puede extraer información sobre el autor y el título.


61. Al aplicar los algoritmos Dragnet y Newspaper al ensamblar el conjunto de datos WebText, los demandados de OpenAI eliminaron la información sobre el autor, el título, el aviso de derechos de autor y los términos de uso del demandante, la última de las cuales se encuentra en los pies de página de los sitios web del demandante.


62. Según la información y la creencia, los demandados de OpenAI, cuando utilizan Dragnet y Newspaper, primero descargan y guardan la página web pertinente antes de extraer datos de ella. Esto se debe, al menos, a que, cuando utilizan Dragnet y Newspaper, probablemente prevén una posible necesidad futura de regenerar el conjunto de datos (por ejemplo, si el conjunto de datos se corrompe), y es más barato guardar una copia que volver a rastrear todos los datos.


63. Debido a que, en el momento de su extracción, Dragnet y Newspaper eran de conocimiento público que eliminaban el autor, el título, los avisos de derechos de autor y los pies de página, y dado que OpenAI emplea científicos de datos altamente capacitados que sabrían cómo funcionan Dragnet y Newspaper, los Demandados de OpenAI eliminaron intencional y conscientemente esta información de gestión de derechos de autor mientras ensamblaban WebText.


64. Un científico de datos empleado por el abogado del demandante aplicó el código Dragnet a tres URL de Reveal contenidas en OpenWebText. Los resultados se adjuntan como Anexo 4. Las copias resultantes, cuyo texto es sustancialmente idéntico al original (por ejemplo, idéntico excepto por la adición aparentemente aleatoria de un espacio extra entre dos palabras, o la exclusión de una descripción asociada con una foto incrustada), carecen de la información sobre el autor, el título, el aviso de derechos de autor y las condiciones de uso con las que se comunicaron al público, excepto en algunos casos en los que la información del autor estaba contenida en el contenido principal del artículo. El código Dragnet falló cuando el científico de datos intentó aplicarlo a los artículos de Mother Jones, lo que corrobora aún más la necesidad de redundancias de los demandados de OpenAI a la que se hace referencia anteriormente.


65. Un científico de datos empleado por el abogado del demandante también aplicó el código de Newspaper a tres URL de Mother Jones y tres de Reveal contenidas en OpenWebText. El científico de datos aplicó la versión del código que permite al usuario no extraer información sobre el autor y el título basándose en la suposición razonable de que los demandados de OpenAI deseaban coherencia con las extracciones de Dragnet. Los resultados se adjuntan como Anexo 5. Las copias resultantes, cuyo texto es sustancialmente idéntico al original, carecen de la información sobre el autor, el título, el aviso de derechos de autor y las condiciones de uso con las que se comunicaron al público, excepto en algunos casos en los que la información sobre el autor estaba contenida en el contenido principal del artículo.


66. La ausencia de información sobre el autor, el título, el aviso de derechos de autor y los términos de uso en las copias de los artículos del demandante generados mediante la aplicación de los códigos Dragnet y Newspaper (códigos que OpenAI admitió haber utilizado intencionalmente al ensamblar WebText) corrobora aún más que los demandados de OpenAI eliminaron intencionalmente la información sobre el autor, el título, el aviso de derechos de autor y los términos de uso de los artículos de noticias protegidos por derechos de autor del demandante.


67. Según la información y la creencia, los Demandados de OpenAI han seguido utilizando los mismos métodos de extracción de texto de Dragnet y Newspaper o similares al crear conjuntos de entrenamiento para cada versión de ChatGPT desde GPT-2. Esto se debe, al menos, a que los Demandados de OpenAI han admitido haber utilizado estos métodos para GPT-2 y no han negado públicamente su uso para versiones posteriores de ChatGPT ni han afirmado públicamente haber utilizado otros métodos de extracción de texto para esas versiones posteriores.


68. El otro repositorio que los demandados de OpenAI admitieron haber utilizado, Common Crawl, es un fragmento de la mayor parte de Internet creado por un tercero.


69. Para entrenar a GPT-2, OpenAI descargó datos de Common Crawl del sitio web de terceros y los filtró para incluir solo ciertos trabajos, como aquellos escritos en inglés.[10]


70. Google ha publicado instrucciones sobre cómo replicar un conjunto de datos llamado C4, una instantánea mensual de datos filtrados de Common Crawl que Google utilizó para entrenar sus propios modelos de IA. Según la información y la creencia, en función de la similitud de los objetivos de los Demandados y de Google en el entrenamiento de los modelos de IA, C4 es sustancialmente similar a las versiones filtradas de Common Crawl utilizadas para entrenar ChatGPT. El Instituto Allen para IA, un instituto de investigación sin fines de lucro fundado por el cofundador de Microsoft, Paul Allen, siguió las instrucciones de Google y publicó su recreación de C4 en línea.[11]


71. Un científico de datos empleado por el abogado del demandante analizó esta recreación. Contiene 26.178 URL originadas en motherjones.com . La gran mayoría de estas URL contienen artículos de noticias protegidos por derechos de autor del demandante. Ninguno contiene información sobre los términos de uso. Ninguno contiene información sobre avisos de derechos de autor en relación con los artículos de noticias protegidos por derechos de autor del demandante. La mayoría también carece de información sobre el autor y el título. En algunos casos, los artículos son sustancialmente idénticos, mientras que en otros se omite una pequeña cantidad de párrafos.


72. Esta recreación también contiene 451 artículos originados en revealednews.org . La gran mayoría de estas URL contienen artículos de noticias del demandante protegidos por derechos de autor. Ninguno de los artículos de noticias contiene avisos de derechos de autor ni información sobre los términos de uso. La mayoría también carece de información sobre el autor y el título. En algunos casos, los artículos son sustancialmente idénticos, mientras que en otros se omite una pequeña cantidad de párrafos.


73. Como muestra representativa, se adjunta como Anexo 6 el texto de tres artículos de Mother Jones y tres de Reveal tal como aparecen en el conjunto C4. Ninguno de estos artículos contiene el autor, el título, el aviso de derechos de autor o la información de los términos de uso con los que fueron comunicados al público.


74. El demandante no ha autorizado ni permitido de otro modo a los demandados incluir ninguna de sus obras en sus conjuntos de capacitación.


75. La descarga de decenas de miles de artículos del demandante sin permiso infringe los derechos de autor del demandante, más específicamente, el derecho a controlar las reproducciones de obras protegidas por derechos de autor.


Continúe leyendo aquí .


Acerca de la serie PDF legal de HackerNoon: le traemos los archivos de casos judiciales de dominio público más importantes, técnicos y reveladores.


Este caso judicial recuperado el 27 de junio de 2024, motherjones.com es parte del dominio público. Los documentos creados por el tribunal son obras del gobierno federal y, según la ley de derechos de autor, se colocan automáticamente en el dominio público y se pueden compartir sin restricciones legales.

[3] El demandante se refiere colectivamente a todas las versiones de ChatGPT como “ChatGPT” a menos que se especifique una versión específica.


[4] https://blogs.bing.com/search-quality-insights/february-2023/Building-the-New-Bing

[5] Alec Radford et al, Los modelos de lenguaje son aprendices multitarea no supervisados, 3 https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf .


[6] https://github.com/openai/gpt-2/blob/master/domains.txt .


[7] https://github.com/jcpeterson/openwebtext/blob/master/README.md.


[8] Alec Radford et al., Los modelos de lenguaje son aprendices multitarea no supervisados, 3 https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf.


[9] Matt McDonnell, Evaluación comparativa de algoritmos de extracción de contenido de Python (29 de enero de 2015), https://moz.com/devblog/benchmarking-python-content-extraction-algorithms-dragnetreadability-goose-and-eatiht.


[10] Tom B. Brown et al, Los modelos lingüísticos son aprendices de pocas oportunidades, 14 (22 de julio de 2020), https://arxiv.org/pdf/2005.14165.


[11] https://huggingface.co/datasets/allenai/c4.