AI가 점점 더 똑똑해지고 있습니다. 인공지능이 오로지 처리만 할 수 있는 시대는 지났다.
나는 우연히 이 대담한 프로젝트를 우연히 발견했습니다.
그래서 자연스럽게 나는 그 분야에 대해 깊이 탐구해야겠다는 의무감을 느꼈다.
그렇다면 CoDi의 특별한 점은 무엇입니까? 우선, 이 강력한 AI는 지금까지 본 어떤 생성 모델보다 다재다능합니다. 이미지 대 이미지 또는 텍스트 대 텍스트와 같은 특정 양식에 얽매이지 않습니다. 아뇨, CoDi는 "any-to-any" 모델이므로 자유로운 정신입니다.
이 나쁜 소년은 언어, 이미지, 비디오, 오디오 등 사용자가 제공하는 모든 것을 가져와 다른 양식으로 변환합니다.
University of North Carolina at Chapel Hill의 연구원과 Microsoft Azure Cognitive Services Research는 CoDi를 만들어 여러 양식을 한 번에 관리할 뿐만 아니라 원본 교육 데이터에도 없는 출력을 생성할 수 있도록 만들었습니다.
이것이 바로 우리가 체중 이상으로 펀치를 날린다고 부르는 것입니다.
더욱 멋진 점은 이 모든 것이 새로운 컴포저블 생성 전략을 통해 가능해지며, 서로 얽힌 양식의 동기화된 생성을 가능하게 한다는 것입니다. 본질적으로 단순히 서로 어떻게 맞춰지는지 추측하는 기계에서 생성된 완벽하게 동기화된 오디오가 포함된 비디오를 상상해 보십시오.
일종의 AI 리믹스 아티스트 같아요.
기술적 핵심에 대한 갈증이 있는 사람들을 위해 CoDi는 다단계 교육 체계를 사용합니다. 즉, 모든 종류의 입력 및 출력 조합을 추론하면서 다양한 작업에 대해 교육할 수 있습니다. 멀티태스킹 능력이 있는 것 같습니다.
모델의 유용성은 아키텍처에서 입증됩니다. 다음 섹션은 작성자가 원하는 방식으로 모델이 작동하도록 하기 위해 사용하는 주요 방법을 다소 기술적으로 요약한 것입니다.
CoDi의 기초는 확산 모델, 특히 LDM(Latent Diffusion Model)입니다. 이러한 형태의 생성 AI는 시간에 따른 정보 확산을 모방하여 데이터 분포를 학습합니다.
훈련 중에 입력 데이터에 무작위 노이즈를 지속적으로 추가하여 이 프로세스를 역전시키고 데이터를 원래 형식으로 다시 정리하는 방법을 학습합니다. 새로운 데이터를 생성할 때 간단한 잡음을 제거하고 훈련 데이터처럼 보이는 것을 생성합니다.
LDM의 경우 입력을 다시 생성할 수 있는 AI 모델의 일종인 자동 인코더를 사용하여 데이터를 더 작은 "잠재" 형식으로 압축한 다음 시간이 지남에 따라 확산됩니다. 이 프로세스는 계산 비용을 대폭 줄이고 모델의 효율성을 향상시킵니다.
CoDi의 독특한 측면은 구성 가능한 다중 모드 조절에 있습니다. 이 구성 요소를 사용하면 텍스트, 이미지, 비디오, 오디오 등 모든 형식의 조합을 입력으로 받아들일 수 있습니다.
이는 이러한 모든 양식의 입력을 동일한 공간에 정렬함으로써 달성되며, 해당 표현을 보간하여 편리하게 조절할 수 있습니다.
효율적인 계산 작업을 보장하기 위해 "브리징 정렬"이라는 간단한 기술이 사용됩니다. 텍스트는 일반적으로 텍스트-이미지, 텍스트-비디오 및 텍스트-오디오 쌍과 같은 다른 양식과 짝을 이루기 때문에 "브리징" 양식으로 선택됩니다.
이 방법을 사용하면 이미지-오디오 쌍과 같은 이중 양식이 희박한 경우에도 모델이 특징 공간에서 네 가지 양식을 모두 정렬할 수 있습니다.
모든 입력을 모든 출력으로 변환할 수 있는 모델을 교육하는 것은 다양한 데이터 리소스에 대한 실질적인 학습이 필요한 까다로운 작업입니다.
이를 처리하기 위해 CoDi는 구성 가능하고 통합적으로 설계되었습니다. 즉, 각 양식의 개별 모델을 독립적으로 구축한 다음 나중에 원활하게 통합할 수 있습니다.
예를 들어, 이미지 확산 모델을 사용하면 대규모 고품질 이미지 데이터 세트에 대해 훈련된 확립된 모델의 지식과 생성 충실도를 전달할 수 있습니다.
마찬가지로, 비디오 확산 모델은 비디오의 시간적 속성을 모델링하기 위해 시간 모듈을 사용하여 이미지 확산기를 확장할 수 있습니다.
또한 오디오 디퓨저는
퍼즐의 마지막 조각은 독립적으로 훈련된 모델이 여러 양식을 동시에 생성하는 데 함께 작동할 수 있도록 하는 것입니다. 이는 모델에 교차 모드 주의 하위 계층을 추가하여 달성됩니다.
이 "잠재 정렬" 기술을 사용하면 각 양식별 모델이 다른 모델에 주의를 기울이고 잠재 변수를 모두 액세스할 수 있는 공유 공간에 투영할 수 있습니다.
이 설계를 통해 모든 양식 조합의 원활한 공동 생성이 가능합니다. 예를 들어, 코디는 A와 B, B와 C의 공동 생성에 대해서만 훈련을 하더라도 추가적인 훈련 없이도 A와 C의 공동 생성을 달성할 수 있습니다!
또한 양식 A, B, C의 공동 생성을 동시에 처리할 수 있습니다. 이러한 다양성은 모델이 서로 다른 양식 사이에 교차 참여하는 방법을 학습했기 때문에 가능합니다.
본질적으로 이러한 방법을 통해 CoDi는 모든 형태의 입력을 다른 형태의 출력으로 변환하는 방법을 효율적으로 학습하여 모든 합성 흐름에 대해 높은 생성 품질을 유지할 수 있습니다. 결과적으로, 이는 다중 모드 AI 상호 작용을 위한 완전히 새로운 가능성의 영역을 열어줍니다.
예를 들어 코디에게 "스케이트보드 탄 테디베어, 4k, 고해상도"라는 텍스트를 입력하면 사운드와 함께 영상을 출력할 수 있다. 또는 "사이버펑크 분위기"로 텍스트와 이미지를 입력하면 주어진 테마에 맞는 텍스트와 이미지를 생성할 수 있습니다.
예시 세대는 아래와 같습니다.
CoDi의 모든 세대에 미치는 영향은 엄청납니다. 점점 디지털화되는 세상에서 CoDi와 같은 도구를 갖는다는 것은 훨씬 더 다재다능하고 자연스러우며 인간과 같은 방식으로 기술과 상호 작용할 수 있다는 것을 의미합니다. 가상 비서부터 콘텐츠 제작, 접근성 도구, 엔터테인먼트까지 모든 것을 변화시킬 수 있습니다.
그러나 항상 그렇듯이 그 의미는 순전히 유토피아적인 것은 아닙니다. AI가 사실적인 다중 모드 출력을 생성하는 능력이 향상됨에 따라 AI 생성 콘텐츠와 실제 콘텐츠를 식별하는 필요성이 더욱 중요해졌습니다. 잘못된 정보가 더욱 설득력을 얻고 딥페이크가 더욱 널리 퍼질 수 있습니다.
하지만 퍼레이드에 비를 내리지는 말자. CoDi는 인간 의사소통의 풍부한 태피스트리를 이해하고 재현하기 위해 훈련 기계가 얼마나 멀리 왔는지 보여주는 AI 기술의 중요한 진전입니다.
CoDi의 메커니즘을 더 자세히 알아보고 싶거나 직접 실험해 보고 싶다면 오픈 소스를 확인해 보세요.
결국 CoDi를 진정으로 혁명적으로 만드는 것은 다양한 유형의 데이터를 원활하게 혼합하고 이전에는 불가능하다고 생각했던 방식으로 출력을 생성하는 능력입니다. 연금술사가 납을 금으로 바꾸는 작업을 보는 것과 같습니다.
이 경우를 제외하고 모든 유형의 입력을 모든 유형의 출력으로 전환합니다. 우리가 살고 있는 지금은 참으로 놀라운 AI 시대입니다.