A IA está ficando mais inteligente, pessoal. Foi-se o tempo em que a inteligência artificial só conseguia lidar com
Eu me deparei com este projeto audacioso através de um
Então, naturalmente, me senti obrigado a mergulhar fundo no
Então, o que há de tão especial no CoDi? Em primeiro lugar, esta usina de IA é mais versátil do que qualquer modelo generativo que vimos até agora. Não está vinculado a modalidades específicas, como imagem para imagem ou texto para texto. Oh não, CoDi é um espírito livre, pois é um modelo "any-to-any".
Esse bad boy pega tudo o que você dá - linguagem, imagem, vídeo, áudio - e o transmuta em uma modalidade diferente.
Pesquisadores da University of North Carolina em Chapel Hill e da Microsoft Azure Cognitive Services Research criaram o CoDi para não apenas gerenciar várias modalidades de uma só vez, mas também gerar saídas que nem mesmo estão nos dados de treinamento originais.
Agora, isso é o que chamamos de socar acima do seu peso.
O que é ainda mais legal é que tudo isso é possível por meio de uma nova estratégia de geração composta, permitindo a geração sincronizada de modalidades entrelaçadas. Imagine um vídeo com áudio perfeitamente sincronizado produzido por uma máquina que basicamente apenas adivinha como eles se encaixam.
É como uma espécie de artista de remix de IA.
Para aqueles com sede de detalhes técnicos, o CoDi usa um esquema de treinamento em vários estágios, o que significa que pode treinar em uma variedade de tarefas enquanto infere todos os tipos de combinações de entradas e saídas. É como se tivesse a capacidade de multitarefa.
A utilidade do modelo é demonstrada em sua arquitetura. A seção a seguir é um resumo um tanto técnico dos principais métodos que os criadores usam para fazer o modelo funcionar da maneira que desejam.
A base do CoDi é um modelo de difusão, especificamente um Modelo de Difusão Latente (LDM). Essa forma de IA generativa aprende distribuições de dados imitando a difusão de informações ao longo do tempo.
Durante o treinamento, ele continuamente adiciona ruído aleatório aos dados de entrada, aprendendo a reverter esse processo e limpar os dados de volta à sua forma original. Quando está gerando novos dados, ele pega um ruído simples e o elimina para produzir algo que se pareça com os dados de treinamento.
No caso do LDM, um autoencoder - um tipo de modelo de IA que pode recriar sua entrada - é usado para compactar os dados em um formato "latente" menor, que é então difundido ao longo do tempo. Este processo reduz drasticamente o custo computacional e melhora a eficiência do modelo.
O aspecto único do CoDi está em seu condicionamento multimodal componível. Este componente permite aceitar qualquer combinação de modalidades – texto, imagem, vídeo e áudio – como entradas.
Isso é conseguido alinhando a entrada de todas essas modalidades no mesmo espaço, que pode ser convenientemente condicionado pela interpolação de suas representações.
Para garantir operações computacionais eficientes, uma técnica simples chamada "Bridging Alignment" é usada. O texto é escolhido como a modalidade "ponte" porque é comumente encontrado emparelhado com outras modalidades, como texto-imagem, texto-vídeo e texto-áudio.
Esse método permite que o modelo alinhe todas as quatro modalidades no espaço de recursos, mesmo quando modalidades duplas, como pares imagem-áudio, são esparsas.
Treinar um modelo que pode transformar qualquer entrada em qualquer saída é uma tarefa exigente que requer aprendizado substancial em diversos recursos de dados.
Para lidar com isso, o CoDi foi projetado para ser composto e integrador, o que significa que modelos individuais para cada modalidade podem ser construídos de forma independente e posteriormente integrados suavemente.
Por exemplo, um modelo de difusão de imagem pode ser usado para transferir o conhecimento e a fidelidade de geração de um modelo estabelecido treinado em conjuntos de dados de imagem de alta qualidade e grande escala.
Da mesma forma, um modelo de difusão de vídeo pode estender o difusor de imagem com módulos temporais para modelar as propriedades temporais dos vídeos.
Além disso, o difusor de áudio visualiza o
A última peça do quebra-cabeça é permitir que esses modelos treinados independentemente trabalhem juntos na geração de várias modalidades simultaneamente. Isso é obtido adicionando subcamadas de atenção cross-modal ao modelo.
Essa técnica de "alinhamento latente" permite que cada modelo específico de modalidade preste atenção aos outros, projetando suas variáveis latentes em um espaço compartilhado que todos podem acessar.
Este projeto permite a geração conjunta perfeita de qualquer combinação de modalidades. Por exemplo, mesmo treinado apenas para a geração conjunta das modalidades A e B, e B e C, o CoDi pode alcançar a geração conjunta das modalidades A e C sem nenhum treinamento adicional!
Além disso, pode lidar com a geração conjunta das modalidades A, B e C simultaneamente. Essa versatilidade é possível porque o modelo aprendeu a atender de forma cruzada entre diferentes modalidades.
Em essência, por meio desses métodos, o CoDi pode aprender eficientemente a converter qualquer forma de entrada em qualquer outra forma de saída, mantendo alta qualidade de geração para todos os fluxos de síntese. Como resultado, abre um reino totalmente novo de possibilidades para interações multimodais de IA.
Por exemplo, forneça ao CoDi a entrada de texto "Urso de pelúcia em um skate, 4k, alta resolução" e ele pode gerar um vídeo com som de acompanhamento. Ou alimente-o com texto e uma imagem com "Cyberpunk vibe", e ele pode gerar texto e uma imagem adequada ao tema dado.
Gerações de exemplo são mostradas abaixo -
As implicações da geração de qualquer para qualquer do CoDi são vastas. Em um mundo cada vez mais digital, ter uma ferramenta como o CoDi significa poder interagir com a tecnologia de uma forma ainda mais versátil, natural e humana. Ele pode transformar tudo, desde assistentes virtuais até ferramentas de criação de conteúdo e acessibilidade para entretenimento.
Mas, como sempre, as implicações não são puramente utópicas. À medida que a IA se torna melhor na geração de saídas realistas e multimodais, a necessidade de discernir o conteúdo real do gerado pela IA torna-se cada vez mais crucial. A desinformação pode se tornar mais convincente e os deepfakes mais prevalentes.
Mas não vamos chover no desfile. O CoDi é um passo significativo na tecnologia de IA, mostrando o quão longe chegamos no treinamento de máquinas para entender e recriar a rica tapeçaria da comunicação humana.
Se você quiser se aprofundar na mecânica do CoDi, ou talvez até mesmo experimentá-lo, verifique o código aberto
No final, o que torna o CoDi verdadeiramente revolucionário é sua capacidade de combinar perfeitamente diferentes tipos de dados e gerar saídas de uma forma que antes era considerada impossível. É como assistir a um alquimista trabalhando, transformando chumbo em ouro.
Exceto neste caso, está transformando qualquer tipo de entrada em qualquer tipo de saída. É realmente uma era notável da IA a que estamos vivendo.