La IA se está volviendo más inteligente, amigos. Atrás quedaron los días en que la inteligencia artificial solo podía hacer frente a
Me topé con este audaz proyecto a través de un
Así que, naturalmente, me sentí obligado a sumergirme profundamente en el
Entonces, ¿qué tiene de especial CoDi? En primer lugar, esta potencia de IA es más versátil que cualquier modelo generativo que hayamos visto hasta ahora. No está atado a modalidades específicas como imagen a imagen o texto a texto. Oh no, CoDi es un espíritu libre, ya que es un modelo "cualquiera-a-cualquiera".
Este chico malo toma lo que le des (lenguaje, imagen, video, audio) y lo transmuta en una modalidad diferente.
Investigadores de la Universidad de Carolina del Norte en Chapel Hill y Microsoft Azure Cognitive Services Research han diseñado CoDi no solo para administrar múltiples modalidades a la vez, sino también para generar resultados que ni siquiera están en los datos de capacitación originales.
Ahora, eso es lo que llamamos golpear por encima de su peso.
Lo que es aún más genial es que todo esto es posible gracias a una novedosa estrategia de generación componible, que permite la generación sincronizada de modalidades entrelazadas. Imagine un video con audio perfectamente sincronizado producido por una máquina que esencialmente solo está adivinando cómo encajan.
Es como una especie de artista de remezclas de IA.
Para aquellos con sed de los detalles técnicos, CoDi utiliza un esquema de capacitación de varias etapas, lo que significa que puede capacitar en una variedad de tareas mientras infiere todo tipo de combinaciones de entradas y salidas. Es como si tuviera la capacidad de realizar múltiples tareas.
La utilidad del modelo se demuestra en su arquitectura. La siguiente sección es un resumen un tanto técnico de los métodos clave que usan los creadores para hacer que el modelo funcione como ellos querían.
La base de CoDi es un modelo de difusión, específicamente un modelo de difusión latente (LDM). Esta forma de IA generativa aprende distribuciones de datos imitando la difusión de información a lo largo del tiempo.
Durante el entrenamiento, continuamente agrega ruido aleatorio a los datos de entrada, aprendiendo a revertir este proceso y limpiando los datos a su forma original. Cuando está generando nuevos datos, toma ruido simple y lo elimina para producir algo que se parece a los datos de entrenamiento.
En el caso de LDM, se usa un codificador automático, un tipo de modelo de IA que puede recrear su entrada, para comprimir los datos en una forma "latente" más pequeña, que luego se difunde con el tiempo. Este proceso reduce drásticamente el costo computacional y mejora la eficiencia del modelo.
El aspecto único de CoDi radica en su condicionamiento multimodal componible. Este componente le permite aceptar cualquier combinación de modalidades (texto, imagen, video y audio) como entradas.
Esto se logra alineando la entrada de todas estas modalidades en un mismo espacio, que puede condicionarse convenientemente interpolando sus representaciones.
Para garantizar operaciones computacionales eficientes, se utiliza una técnica simple llamada "Alineación de puentes". El texto se elige como la modalidad de "puente" porque se encuentra comúnmente emparejado con otras modalidades, como pares de texto-imagen, texto-video y texto-audio.
Este método permite que el modelo alinee las cuatro modalidades en el espacio de características, incluso cuando las modalidades duales, como los pares de imagen y audio, son escasas.
Entrenar un modelo que pueda transformar cualquier entrada en cualquier salida es una tarea exigente que requiere un aprendizaje sustancial sobre diversos recursos de datos.
Para lidiar con esto, CoDi está diseñado para ser componible e integrador, lo que significa que los modelos individuales para cada modalidad se pueden construir de forma independiente y luego integrarse sin problemas más adelante.
Por ejemplo, un modelo de difusión de imágenes se puede usar para transferir el conocimiento y la fidelidad de generación de un modelo establecido entrenado en conjuntos de datos de imágenes de alta calidad a gran escala.
De manera similar, un modelo de difusión de video puede extender el difusor de imágenes con módulos temporales para modelar las propiedades temporales de los videos.
Además, el difusor de audio visualiza el
La última pieza del rompecabezas es permitir que estos modelos entrenados de forma independiente trabajen juntos para generar múltiples modalidades simultáneamente. Esto se logra agregando subcapas de atención multimodal al modelo.
Esta técnica de "alineación latente" permite que cada modelo específico de modalidad preste atención a los demás, proyectando sus variables latentes en un espacio compartido al que todos pueden acceder.
Este diseño permite la generación conjunta sin fisuras de cualquier combinación de modalidades. Por ejemplo, incluso si solo está capacitado para la generación conjunta de las modalidades A y B, y B y C, ¡CoDi puede lograr la generación conjunta de las modalidades A y C sin ningún entrenamiento adicional!
Además, puede manejar la generación conjunta de las modalidades A, B y C concurrentemente. Esta versatilidad es posible porque el modelo ha aprendido a cruzar la atención entre diferentes modalidades.
En esencia, a través de estos métodos, CoDi puede aprender de manera eficiente a convertir cualquier forma de entrada en cualquier otra forma de salida, manteniendo una alta calidad de generación para todos los flujos de síntesis. Como resultado, abre un ámbito completamente nuevo de posibilidades para las interacciones multimodales de IA.
Por ejemplo, proporcione a CoDi la entrada de texto "Osito de peluche en una patineta, 4k, alta resolución", y puede generar un video con el sonido que lo acompaña. O aliméntelo con texto y una imagen con "ambiente Cyberpunk", y puede generar texto y una imagen que se ajuste al tema dado.
Las generaciones de ejemplo se muestran a continuación:
Las implicaciones de la generación cualquiera de CoDi son enormes. En un mundo cada vez más digital, contar con una herramienta como CoDi significa poder interactuar con la tecnología de una forma aún más versátil, natural y humana. Podría transformar todo, desde asistentes virtuales hasta herramientas de creación y accesibilidad de contenido y entretenimiento.
Pero como siempre, las implicaciones no son puramente utópicas. A medida que la IA mejora en la generación de resultados multimodales realistas, la necesidad de distinguir el contenido real del generado por IA se vuelve cada vez más crucial. La información errónea podría volverse más convincente y las falsificaciones profundas más frecuentes.
Pero no lluevamos sobre el desfile. CoDi es un importante paso adelante en la tecnología de IA, que muestra lo lejos que hemos llegado en el entrenamiento de máquinas para comprender y recrear el rico tapiz de la comunicación humana.
Si desea profundizar en la mecánica de CoDi, o tal vez incluso experimentar con él usted mismo, puede consultar el código abierto
Al final, lo que hace que CoDi sea realmente revolucionario es su capacidad para combinar sin problemas diferentes tipos de datos y generar resultados de una manera que antes se creía imposible. Es como ver a un alquimista trabajando, convirtiendo el plomo en oro.
Excepto en este caso, está convirtiendo cualquier tipo de entrada en cualquier tipo de salida. Es realmente una era notable de IA en la que estamos viviendo.