2,535 lecturas

Esta IA puede traducir cualquier entrada en cualquier salida: he aquí por qué es un gran problema

por Mike Young6m2023/05/27

Demasiado Largo; Para Leer

CoDi es un modelo generativo innovador que puede manejar una mezcla de entradas. Puede manejar texto, audio, video, imágenes y transmutarlos en cualquier otra combinación de salidas. CoDi utiliza un esquema de capacitación de varias etapas, lo que significa que puede capacitarse en una variedad de tareas.

featured image - Esta IA puede traducir cualquier entrada en cualquier salida: he aquí por qué es un gran problema

La IA se está volviendo más inteligente, amigos. Atrás quedaron los días en que la inteligencia artificial solo podía hacer frente a un solo tipo de entrada y escupir un solo tipo de salida . Esta es la era de CoDi : un modelo generativo innovador que puede manejar una mezcla de entradas (piense en texto, audio, video, imágenes) y transmutarlos en cualquier otra combinación de salidas.

Me topé con este audaz proyecto a través de un Pío por Avi Schiffmann, un entusiasta de la IA cuya curiosidad no tiene límites.

Así que, naturalmente, me sentí obligado a sumergirme profundamente en el papel que detalla este emocionante avance. Ponte el cinturón, porque es un paseo salvaje.

Bienvenidos a la Fiesta, CoDi

Entonces, ¿qué tiene de especial CoDi? En primer lugar, esta potencia de IA es más versátil que cualquier modelo generativo que hayamos visto hasta ahora. No está atado a modalidades específicas como imagen a imagen o texto a texto. Oh no, CoDi es un espíritu libre, ya que es un modelo "cualquiera-a-cualquiera".

Este chico malo toma lo que le des (lenguaje, imagen, video, audio) y lo transmuta en una modalidad diferente.

Investigadores de la Universidad de Carolina del Norte en Chapel Hill y Microsoft Azure Cognitive Services Research han diseñado CoDi no solo para administrar múltiples modalidades a la vez, sino también para generar resultados que ni siquiera están en los datos de capacitación originales.

Ahora, eso es lo que llamamos golpear por encima de su peso.

Lo que es aún más genial es que todo esto es posible gracias a una novedosa estrategia de generación componible, que permite la generación sincronizada de modalidades entrelazadas. Imagine un video con audio perfectamente sincronizado producido por una máquina que esencialmente solo está adivinando cómo encajan.

Es como una especie de artista de remezclas de IA.

¿Pero como funciona?

Para aquellos con sed de los detalles técnicos, CoDi utiliza un esquema de capacitación de varias etapas, lo que significa que puede capacitar en una variedad de tareas mientras infiere todo tipo de combinaciones de entradas y salidas. Es como si tuviera la capacidad de realizar múltiples tareas.

La utilidad del modelo se demuestra en su arquitectura. La siguiente sección es un resumen un tanto técnico de los métodos clave que usan los creadores para hacer que el modelo funcione como ellos querían.

Preliminar: modelo de difusión latente

La base de CoDi es un modelo de difusión, específicamente un modelo de difusión latente (LDM). Esta forma de IA generativa aprende distribuciones de datos imitando la difusión de información a lo largo del tiempo.

Durante el entrenamiento, continuamente agrega ruido aleatorio a los datos de entrada, aprendiendo a revertir este proceso y limpiando los datos a su forma original. Cuando está generando nuevos datos, toma ruido simple y lo elimina para producir algo que se parece a los datos de entrenamiento.

En el caso de LDM, se usa un codificador automático, un tipo de modelo de IA que puede recrear su entrada, para comprimir los datos en una forma "latente" más pequeña, que luego se difunde con el tiempo. Este proceso reduce drásticamente el costo computacional y mejora la eficiencia del modelo.

Acondicionamiento multimodal componible

El aspecto único de CoDi radica en su condicionamiento multimodal componible. Este componente le permite aceptar cualquier combinación de modalidades (texto, imagen, video y audio) como entradas.

Esto se logra alineando la entrada de todas estas modalidades en un mismo espacio, que puede condicionarse convenientemente interpolando sus representaciones.

Para garantizar operaciones computacionales eficientes, se utiliza una técnica simple llamada "Alineación de puentes". El texto se elige como la modalidad de "puente" porque se encuentra comúnmente emparejado con otras modalidades, como pares de texto-imagen, texto-video y texto-audio.

Este método permite que el modelo alinee las cuatro modalidades en el espacio de características, incluso cuando las modalidades duales, como los pares de imagen y audio, son escasas.

Difusión Componible

Entrenar un modelo que pueda transformar cualquier entrada en cualquier salida es una tarea exigente que requiere un aprendizaje sustancial sobre diversos recursos de datos.

Para lidiar con esto, CoDi está diseñado para ser componible e integrador, lo que significa que los modelos individuales para cada modalidad se pueden construir de forma independiente y luego integrarse sin problemas más adelante.

Por ejemplo, un modelo de difusión de imágenes se puede usar para transferir el conocimiento y la fidelidad de generación de un modelo establecido entrenado en conjuntos de datos de imágenes de alta calidad a gran escala.

De manera similar, un modelo de difusión de video puede extender el difusor de imágenes con módulos temporales para modelar las propiedades temporales de los videos.

Además, el difusor de audio visualiza el espectrograma de mel de audio como una imagen con un canal, y un modelo de difusión de texto utiliza un codificador automático variacional para comprimir datos de texto en una forma latente más pequeña, como los otros modelos.

Generación Multimodal Conjunta por Alineación Latente

La última pieza del rompecabezas es permitir que estos modelos entrenados de forma independiente trabajen juntos para generar múltiples modalidades simultáneamente. Esto se logra agregando subcapas de atención multimodal al modelo.

Esta técnica de "alineación latente" permite que cada modelo específico de modalidad preste atención a los demás, proyectando sus variables latentes en un espacio compartido al que todos pueden acceder.

Este diseño permite la generación conjunta sin fisuras de cualquier combinación de modalidades. Por ejemplo, incluso si solo está capacitado para la generación conjunta de las modalidades A y B, y B y C, ¡CoDi puede lograr la generación conjunta de las modalidades A y C sin ningún entrenamiento adicional!

Además, puede manejar la generación conjunta de las modalidades A, B y C concurrentemente. Esta versatilidad es posible porque el modelo ha aprendido a cruzar la atención entre diferentes modalidades.

En esencia, a través de estos métodos, CoDi puede aprender de manera eficiente a convertir cualquier forma de entrada en cualquier otra forma de salida, manteniendo una alta calidad de generación para todos los flujos de síntesis. Como resultado, abre un ámbito completamente nuevo de posibilidades para las interacciones multimodales de IA.

Por ejemplo, proporcione a CoDi la entrada de texto "Osito de peluche en una patineta, 4k, alta resolución", y puede generar un video con el sonido que lo acompaña. O aliméntelo con texto y una imagen con "ambiente Cyberpunk", y puede generar texto y una imagen que se ajuste al tema dado.

Las generaciones de ejemplo se muestran a continuación: revisa el papel para ejemplos interactivos.

¿Qué significa esto para nosotros?

Las implicaciones de la generación cualquiera de CoDi son enormes. En un mundo cada vez más digital, contar con una herramienta como CoDi significa poder interactuar con la tecnología de una forma aún más versátil, natural y humana. Podría transformar todo, desde asistentes virtuales hasta herramientas de creación y accesibilidad de contenido y entretenimiento.

Pero como siempre, las implicaciones no son puramente utópicas. A medida que la IA mejora en la generación de resultados multimodales realistas, la necesidad de distinguir el contenido real del generado por IA se vuelve cada vez más crucial. La información errónea podría volverse más convincente y las falsificaciones profundas más frecuentes.

Pero no lluevamos sobre el desfile. CoDi es un importante paso adelante en la tecnología de IA, que muestra lo lejos que hemos llegado en el entrenamiento de máquinas para comprender y recrear el rico tapiz de la comunicación humana.

Si desea profundizar en la mecánica de CoDi, o tal vez incluso experimentar con él usted mismo, puede consultar el código abierto código base en GitHub. ¿Quién sabe qué tipo de transformaciones salvajes se te ocurrirían usando CoDi?

Al final, lo que hace que CoDi sea realmente revolucionario es su capacidad para combinar sin problemas diferentes tipos de datos y generar resultados de una manera que antes se creía imposible. Es como ver a un alquimista trabajando, convirtiendo el plomo en oro.

Excepto en este caso, está convirtiendo cualquier tipo de entrada en cualquier tipo de salida. Es realmente una era notable de IA en la que estamos viviendo.