El abogado con sede en el Reino Unido, Chris Mammen, explica en una entrevista reciente con Vice sobre la música generada por IA , que la ley se mueve lentamente y evoluciona por analogía. “ Surge algo nuevo, y descubrimos a qué es análogo, y luego eso se convierte gradualmente en ley establecida ”.
El problema al que nos enfrentamos ahora con la IA generativa (modelos de IA que pueden generar resultados creativos como texto, imágenes, música o videos) es la dificultad para encontrar analogías. En otras palabras, relacionar la IA generativa con algo que ya conocemos y entendemos. La tecnología subyacente es tan compleja que comprender cómo funciona a nivel conceptual y cómo debe regularse requiere una gran expansión mental.
Al igual que con las redes sociales e Internet, los modelos de IA como ChatGPT de OpenAI o su modelo de texto a imagen DALL-E 2 son engañosamente fáciles de usar. Sin embargo, obviamente hay muchas cosas sucediendo debajo del capó que no entendemos en lo más mínimo. La brecha entre la experiencia del usuario y todas las cosas técnicas complicadas que hay debajo es donde las cosas criminales y poco éticas pueden pasar desapercibidas.
Este “efecto de caja negra” lo hemos visto claramente en el mundo financiero, recientemente en el sector de las criptomonedas. Pocos partidarios de las criptomonedas, incluyéndome a mí, tenían un conocimiento técnico profundo de cómo funcionaban las criptomonedas, y no sabíamos cómo funcionaban los intercambios centralizados. En las finanzas tradicionales, aquí es donde normalmente confiaríamos en la verificación y supervisión del gobierno. Pero en una industria tan nueva y compleja como la criptografía, casi no había. La adopción relativamente amplia, la complejidad técnica, la falta de supervisión y la brecha de conocimiento entre desarrolladores y usuarios establecieron las condiciones perfectas para el crimen y la explotación en masa. El año pasado, los intercambios de criptomonedas colapsaron en cascada, se robaron más de $ 3 mil millones de las plataformas DeFi en 2022 y cientos de miles de personas quedaron en la ruina financiera.
La industria de la IA es, por supuesto, muy diferente de la industria de la criptografía, pero están presentes las mismas condiciones para el crimen y la explotación. Los modelos de IA se adoptan ampliamente, son más fáciles de usar que las criptomonedas, son técnicamente más complejos, no hay mucha supervisión y la brecha de conocimiento entre los usuarios y los desarrolladores es posiblemente incluso mayor que con las criptomonedas. Afortunadamente, hay muchas campañas de concientización sobre los peligros y riesgos de la IA, donde campañas similares en criptografía se ahogaron en el ruido.
El uso de material protegido por derechos de autor en modelos generativos de IA es un área en la que se cuestionan las leyes y los marcos existentes. En mi publicación de la semana pasada, escribí sobre la interpretación de la UE de los modelos fundacionales . Esta semana me centraré en la diferencia entre los modelos de IA de código cerrado y de código abierto y presentaré Stable Diffusion, un popular modelo de imagen de IA de código abierto que fue objeto de demandas por derechos de autor a principios de este año desde dos ángulos diferentes. Planeo publicar otra publicación sobre las demandas y las implicaciones en la ley de derechos de autor en las próximas semanas.
El entrenamiento de modelos básicos es un asunto costoso en términos de tiempo, dinero y recursos computacionales. En general, solo las empresas BigTech con mucho dinero pueden permitirse el lujo de realizar la inversión inicial. De la misma manera, las empresas detrás de los modelos básicos generalmente tienen interés en la IA de código cerrado. Los costos multimillonarios de desarrollo y capacitación son difíciles de recuperar si los competidores pueden acceder a todos los ingredientes y usar su salsa secreta.
Una excepción importante es LLaMA de Meta, que Mark Zuckerberg y el equipo de investigación de IA de Meta decidieron hacer público de manera controvertida . LLaMA es un modelo de lenguaje grande (LLM) lanzado en diferentes tamaños, desde parámetros 7B a 65B. Incluso la versión de tamaño pequeño a mediano, LLaMA-13B, puede superar al GPT-3 de OpenAI, a pesar de ser 10 veces más pequeño. GPT-3 fue innovador y líder en el mercado hace solo tres años.
El científico jefe de inteligencia artificial de Meta, Yann LeCun, dice que "la plataforma que ganará estará abierta". Argumenta que el progreso de la IA es más rápido de esta manera y que los consumidores y los gobiernos se negarán a adoptar la IA a menos que esté fuera del control de empresas como Google y Meta.
El argumento en contra de la IA de código abierto (lo que significa hacer que el código fuente esté disponible) es que los malos actores pueden usar el código para crear aplicaciones nefastas, difundir información errónea, cometer fraude, ciberdelincuencia y muchas otras cosas malas. Mark Zuckerberg recibió recientemente una carta de dos senadores estadounidenses que criticaban la decisión de poner LLaMA a disposición del público. Los senadores concluyeron en la carta que la “ falta de consideración pública y exhaustiva de Meta de las ramificaciones de su previsible difusión generalizada ” fue en última instancia un “ daño al público”.
Hoy, menos de tres meses después de su lanzamiento , un montón de modelos de código abierto se alzan sobre los hombros de LLaMa. Vicuna-13B, por ejemplo, es un chatbot de código abierto que se entrenó ajustando LLaMA en conversaciones compartidas por usuarios recopiladas de ShareGPT (una extensión de Chrome que permite a los usuarios compartir sus conversaciones con ChatGPT). Según las evaluaciones de GPT-4, Vicuna-13B logra más del 90 % de la calidad de ChatGPT de OpenAI y Bard de Google con un costo de capacitación de alrededor de $300.
Independientemente de las preocupaciones sobre la competencia y la seguridad, existe un fuerte impulso hacia la IA de código abierto. Los modelos nuevos y mejorados se lanzan cada cierto tiempo. En la tabla de clasificación de HuggingFace Open LLM , el modelo con mejor rendimiento en este momento es Falcon 40B , que recientemente destronó al LLaMA de Meta. Falcon 40B fue desarrollado por el Instituto de Innovación Tecnológica de Abu Dhabi con la ayuda de Amazon .
El jurado aún está deliberando sobre si el desarrollo de código abierto podría dominar potencialmente el uso de la IA generativa en el futuro. En un documento interno de Google filtrado y publicado por SemiAnalysis, un ingeniero senior de Google argumentó que Google y OpenAI "no tienen foso" y eventualmente serán superados por la IA de código abierto. Él escribe que " los modelos de código abierto son más rápidos, más personalizables, más privados y libra por libra más capaces ".
Una de las empresas a la vanguardia de la IA de código abierto es Stability AI . La empresa fue fundada por el exgestor de fondos de cobertura Emad Mostaque. Según su sitio web, Stability AI ha acumulado desde su lanzamiento en 2021 un ejército de más de 140.000 desarrolladores y siete centros de investigación en todo el mundo. La comunidad de investigación desarrolla modelos de IA para diferentes propósitos, como imágenes, lenguaje, código, audio, video, contenido 3D, diseño, biotecnología y otras investigaciones científicas.
El producto por el que Stability AI es más conocido hasta la fecha es el modelo de imagen Stable Diffusion. Stable Diffusion es un modelo de imagen de IA que puede generar o modificar imágenes a partir de indicaciones de texto. Se lanzó en agosto de 2022 , poco después de que la sensación viral de Internet de OpenAI , DALL-E 2, se lanzara de forma privada a 1 millón de usuarios en la lista de espera. Muchos en la comunidad de IA consideraron Stable Diffusion como un hito revolucionario . No solo igualaba, o incluso superaba, las capacidades de los modelos contemporáneos, grandes y cerrados de texto a imagen, como DALL-E 2 o Imagen de Google, sino que era de código abierto.
De acuerdo con la licencia de Stable Diffusions , cualquiera puede usar el modelo para crear aplicaciones comerciales, estudiar su arquitectura, construir sobre él y modificar su diseño dentro del alcance de la ley, la ética y el sentido común. A diferencia de los modelos de imagen de código cerrado, Stable Diffusion se puede descargar y ejecutar localmente en una PC de juegos promedio. Para usuarios ocasionales sin habilidades de codificación, también se puede acceder a Stable Diffusion a través de la aplicación web DreamStudio o la nueva aplicación web de código abierto StableStudio .
Como historia paralela, Stable Diffusion fue desarrollado por un equipo de investigadores de la Ludwig-Maximilians-Universität en Münich, mientras que Stability AI financió los recursos informáticos para entrenar el modelo. Stability ha sido criticado por tomar demasiado crédito indebido ya que la Universidad de Münich hizo todo el trabajo pesado que resultó en Stable Diffusion. En un artículo de Forbes publicado el domingo pasado , el fundador de Stability, Emad Mosque, fue retratado como un exagerador patológico con tendencia a mentir. El Prof. Dr. Björn Ommer, jefe del equipo de investigación detrás de Stable Diffusion, le dijo a Forbes que esperaba publicitar el trabajo de su laboratorio, pero todo el departamento de prensa de su universidad estaba de vacaciones en ese momento (estas cosas solo pueden suceder en las universidades públicas).
La apertura de Stable Diffusion es un regalo para los investigadores, así como para los gobiernos, los competidores, los reguladores y los sanguinarios defensores de los derechos de autor. Dentro de la última categoría, encontramos a Matthew Butterick y su equipo legal que representa a tres artistas independientes en una demanda colectiva contra Stability AI, MidJourney y DeviantArt .
Según el abogado Matthew Butterick: “ [Stable Diffusion] es un parásito que, si se le permite proliferar, causará un daño irreparable a los artistas, ahora y en el futuro”.
Yo diría que Butterick tiene razón en cierto sentido acerca de su caracterización de la difusión estable y los modelos de imagen de IA modernos. De alguna manera absorben la creatividad del trabajo original, lo mezclan todo a gran escala y amenazan el sustento de los artistas que, sin querer y sin saberlo, ayudaron a entrenar el modelo con micro contribuciones.
Sin embargo, la demanda colectiva está plagada de tantas inexactitudes legales y técnicas, malentendidos y deficiencias que solo puedo preguntarme si el equipo legal estaba loco cuando escribieron el primer borrador de la citación. Otra teoría es que Butterick y compañía intentan tergiversar intencionalmente cómo funciona la tecnología para confundir al público o a los jueces. Difícil de decir.
En mi próxima publicación, analizaremos más a fondo la demanda frívola y explicaremos por qué no aborda la comezón de los derechos de autor en el lugar correcto.
También publicado aquí .