La presentación judicial del New York Times Company contra Microsoft Corporation del 27 de diciembre de 2023 es parte de la serie PDF legal de HackerNoon . Puede saltar a cualquier parte de este archivo aquí . Esta es la parte 11 de 27.
2. Realización de reproducciones no autorizadas y derivadas de obras de Times en modelos GPT
98. Como prueba adicional de haber sido entrenados utilizando copias no autorizadas de Times Works, los propios LLM del GPT han “memorizado” copias de muchos de esos mismos trabajos codificados en sus parámetros. Como se muestra a continuación y en el Anexo J, el LLM GPT-4 actual producirá copias casi textuales de partes importantes de Times Works cuando se le solicite. Dichos ejemplos memorizados constituyen copias no autorizadas u trabajos derivados de los Times Works utilizados para entrenar el modelo.
99. Por ejemplo, en 2019, The Times publicó una serie de cinco capítulos ganadora del premio Pulitzer sobre préstamos abusivos en la industria del taxi de la ciudad de Nueva York. La investigación de 18 meses incluyó 600 entrevistas, más de 100 solicitudes de registros, análisis de datos a gran escala y la revisión de miles de páginas de registros bancarios internos y otros documentos, y finalmente condujo a investigaciones penales y a la promulgación de nuevas leyes para prevenir abuso futuro. OpenAI no tuvo ningún papel en la creación de este contenido, sin embargo, con una mínima indicación, recitará gran parte del mismo palabra por palabra:[26]
100. De manera similar, en 2012, The Times publicó una serie innovadora que examinaba cómo la subcontratación por parte de Apple y otras empresas de tecnología transformó la economía global. La serie fue producto de un enorme esfuerzo en tres continentes. Informar esta historia fue especialmente desafiante porque al Times se le negaron repetidamente tanto las entrevistas como el acceso. El Times se puso en contacto con cientos de ejecutivos actuales y anteriores de Apple y, finalmente, obtuvo información de más de seis docenas de personas con información privilegiada de Apple. Nuevamente, GPT-4 copió este contenido y puede recitar grandes porciones palabra por palabra:[27]
101. El Anexo J proporciona decenas de ejemplos adicionales de memorización de Times Works mediante GPT-4. Según la información y la creencia, estos ejemplos representan una pequeña fracción de Times Works cuyos contenidos expresivos se han codificado sustancialmente dentro de los parámetros de la serie GPT de LLM. Por lo tanto, cada uno de esos LLM incorpora muchas copias no autorizadas o derivados de Times Works.
Continuar leyendo aquí .
[26] Para consultar el artículo original, consulte Brian M. Rosenthal, As Miles of Taxi Drivers Were Trapped in Loans, Top Officials Counted the Money, NY TIMES (19 de mayo de 2019), https://www.nytimes.com/2019/ 19/05/nyregion/taximedallions.html.
[27] Para consultar el artículo original, consulte Charles Duhigg y Keith Bradsher, How the US Lost Out on iPhone Work, NY TIMES (21 de enero de 2012), https://www.nytimes.com/2012/01/22/business /apple-america-and-a-squeezed-middleclass.html.
Acerca de la serie PDF Legal de HackerNoon: Le traemos los expedientes judiciales de dominio público más importantes, técnicos y reveladores.
Este caso judicial 1:23-cv-11195 recuperado el 29 de diciembre de 2023 de nycto-assets.nytimes.com es parte del dominio público. Los documentos creados por el tribunal son obras del gobierno federal y, según la ley de derechos de autor, se colocan automáticamente en el dominio público y se pueden compartir sin restricciones legales.