paint-brush
"Midjourney에 API가 있는 것과 같습니다" - Kandinsky 2.2 살펴보기~에 의해@mikeyoung44
2,545 판독값
2,545 판독값

"Midjourney에 API가 있는 것과 같습니다" - Kandinsky 2.2 살펴보기

~에 의해 Mike Young9m2023/08/24
Read on Terminal Reader
Read this story w/o Javascript

너무 오래; 읽다

Kandinsky v2.2는 javascript API를 통해 텍스트에서 고품질 이미지를 생성하는 Midjourney 대안입니다.
featured image - "Midjourney에 API가 있는 것과 같습니다" - Kandinsky 2.2 살펴보기
Mike Young HackerNoon profile picture
0-item

AI 기반 이미지 생성 모델은 창의적인 환경에 혁명을 일으키고 있습니다. Midjourney 플랫폼은 텍스트 기반 이미지 생성을 통해 이 혁신적인 분야의 핵심 플레이어였습니다. 그러나 Discord 기반 인터페이스는 전문적인 용도로 사용하기에는 몇 가지 제한 사항을 제시했습니다.


대신 다양한 API를 통해 사용할 수 있는 더욱 빌더 친화적인 텍스트-이미지 모델인 Kandinsky 2.2라는 새로운 AI 모델을 살펴보겠습니다.


Discord를 통해 운영되는 Midjourney와 달리 Kandinsky는 개발자가 AI 이미지 생성을 Python, Node.js, cURL과 같은 다양한 프로그래밍 언어에 통합할 수 있도록 해줍니다.


이는 단 몇 줄의 코드만으로 Kandinsky가 이미지 생성 프로세스를 자동화하여 창의적인 전문가를 위한 보다 효율적인 도구가 될 수 있음을 의미합니다. 그리고 새로운 v2.2 릴리스에서는 Kandinsky의 이미지 품질이 그 어느 때보다 높아졌습니다.


구독하다 아니면 나를 따라오세요 트위터 이런 콘텐츠를 더 보려면!


Kandinsky 2.2는 AI 이미지 생성에 새로운 수준의 접근성과 유연성을 제공합니다. 여러 프로그래밍 언어 및 도구와 원활하게 통합되어 Midjourney 플랫폼을 능가하는 수준의 유연성을 제공합니다.


게다가 칸딘스키의 고급 확산 기술은 놀랍도록 사실적인 이미지를 만들어냅니다. API 우선 접근 방식을 통해 전문가는 AI 기반 시각화를 기존 기술 스택에 더 쉽게 통합할 수 있습니다.


Kandinsky v2.2 이미지 생성 예


이 가이드에서는 확장성, 자동화 및 통합에 대한 Kandinsky의 잠재력을 살펴보고 이것이 창의성의 미래에 어떻게 기여할 수 있는지 논의합니다.


이 고급 AI 도우미를 사용하여 놀라운 AI 아트를 제품에 통합하는 데 필요한 도구와 기술을 탐구하는 데 참여하세요.

Kandinsky 2.2의 주요 이점

  • 오픈 소스 - Kandinsky는 완전한 오픈 소스입니다. 코드를 직접 사용하거나 Replicate의 유연한 API를 통해 액세스하세요.
  • API 액세스 - Replicate API를 통해 Kandinsky를 Python, Node.js, cURL 등의 워크플로에 통합하세요.
  • 자동화 - 빠른 반복을 위해 코드에서 텍스트 프롬프트를 수정하여 프로그래밍 방식으로 이미지를 조정합니다.
  • 확장성 - 간단한 API 호출로 수천 개의 이미지를 생성합니다. 스토리보드를 만들고 규모에 맞게 개념을 시각화하세요.
  • 맞춤형 통합 - API 우선 설계 덕분에 Kandinsky를 자신의 도구 및 제품에 통합할 수 있습니다.
  • ControlNet - 텍스트 프롬프트를 통해 조명 및 각도와 같은 이미지 속성을 세부적으로 제어할 수 있습니다.
  • 다국어 - 영어, 중국어, 일본어, 한국어, 프랑스어 등의 메시지를 이해합니다.
  • 고해상도 - 모든 사용 사례에 적합한 선명하고 상세한 1024x1024 이미지.
  • 포토리얼리즘 - 최첨단 확산 기술은 Midjourney와 동등한 놀랍고 사실적인 이미지를 생성합니다.

칸딘스키는 어떻게 작동하는가?

Kandinsky 2.2는 텍스트 프롬프트에서 이미지를 생성하는 텍스트-이미지 확산 모델입니다. 이는 몇 가지 주요 구성 요소로 구성됩니다.


  • 텍스트 인코더: 텍스트 프롬프트는 XLM-Roberta-Large-Vit-L-14 인코더를 통해 전달되어 의미론적 특징을 추출하고 텍스트를 잠재 공간으로 인코딩합니다. 그러면 텍스트 임베딩 벡터가 생성됩니다.


  • 이미지 인코더: 사전 훈련된 CLIP-ViT-G 모델은 이미지를 텍스트 임베딩과 동일한 잠재 공간으로 인코딩합니다. 이를 통해 텍스트와 이미지 표현을 일치시킬 수 있습니다.


  • 확산 우선(Diffusion Prior): 변환기는 텍스트 임베딩 잠재 공간과 이미지 임베딩 잠재 공간 사이를 매핑합니다. 이는 텍스트와 이미지를 확률적으로 연결하는 사전 확산을 설정합니다.


  • UNet: 1.22B 매개변수 Latent Diffusion UNet이 백본 네트워크 역할을 합니다. 이미지 임베딩을 입력으로 사용하고 반복적인 노이즈 제거를 통해 노이즈가 있는 이미지 샘플을 깨끗한 이미지로 출력합니다.


  • ControlNet: 깊이 맵과 같은 보조 입력에 대한 이미지 생성을 조절하는 추가 신경망입니다. 이를 통해 제어 가능한 이미지 합성이 가능해집니다.


  • MoVQ 인코더/디코더: 보다 효율적인 샘플링을 위해 이미지 임베딩을 개별 잠재 코드로 압축하는 개별 VAE입니다.


훈련 중에 텍스트-이미지 쌍은 연결된 임베딩으로 인코딩됩니다. 확산 UNet은 잡음 제거를 통해 이러한 임베딩을 이미지로 다시 반전시키도록 훈련되었습니다.


추론을 위해 텍스트는 임베딩으로 인코딩되고, 이미지 임베딩 이전에 확산을 통해 매핑되고, MoVQ에 의해 압축되고, UNet에 의해 반전되어 반복적으로 이미지를 생성합니다. 추가 ControlNet을 사용하면 깊이와 같은 속성을 제어할 수 있습니다.

Kandinsky의 이전 버전에 비해 주요 개선 사항

칸딘스키 플랫폼의 진화를 보여주는 이미지.

v2.0에서 v2.1, v2.2로 칸딘스키의 진화를 보여주는 예입니다. 현실감!

Kandinsky 2.2의 주요 개선 사항은 다음과 같습니다.


  1. 새로운 이미지 인코더 - CLIP-ViT-G : 주요 업그레이드 중 하나는 CLIP-ViT-G 이미지 인코더의 통합입니다. 이번 업그레이드는 미학적으로 만족스러운 이미지를 생성하는 모델의 능력을 크게 강화합니다. Kandinsky 2.2는 더욱 강력한 이미지 인코더를 활용하여 텍스트 설명을 더 잘 해석하고 이를 시각적으로 매력적인 이미지로 변환할 수 있습니다.


  2. ControlNet 지원 : Kandinsky 2.2에는 이미지 생성 프로세스를 정밀하게 제어할 수 있는 기능인 ControlNet 메커니즘이 도입되었습니다. 이 추가 기능은 생성된 출력의 정확성과 매력을 향상시킵니다. ControlNet을 사용하면 모델은 텍스트 지침을 기반으로 이미지를 조작하는 기능을 확보하여 창의적인 탐색을 위한 새로운 길을 열 수 있습니다.

Kandinsky를 사용하여 이미지를 만드는 방법은 무엇입니까?

이 강력한 AI 모델로 창작을 시작할 준비가 되셨나요? 다음은 Replicate API를 사용하여 Kandinsky 2.2와 상호 작용하는 방법에 대한 단계별 가이드입니다. 높은 수준에서는 다음을 수행해야 합니다.


  1. 인증 - 복제 API 키를 가져와 환경에서 인증합니다.


  2. 프롬프트 보내기 - prompt 매개변수에 텍스트 설명을 전달합니다. 여러 언어로 지정할 수 있습니다.


  3. 매개변수 사용자 정의 - 필요에 따라 이미지 크기, 출력 수 등을 조정합니다. 다음을 참조하세요. 모델 사양 자세한 내용을 알아보거나 계속 읽어보세요.


  4. 응답 처리 - Kandinsky 2.2는 생성된 이미지에 대한 URL을 출력합니다. 프로젝트에 사용할 수 있도록 이 이미지를 다운로드하세요.


편의를 위해 다음을 시도해 볼 수도 있습니다. 라이브 데모 코드 작업을 시작하기 전에 모델의 기능에 대한 느낌을 얻으십시오.

Replicate API를 통해 Kandinsky 2.2를 사용하는 단계별 가이드

이 예에서는 Node를 사용하여 모델 작업을 수행합니다. 따라서 먼저 Node.js 클라이언트를 설치해야 합니다.


 npm install replicate


그런 다음 API 토큰을 복사하여 환경 변수로 설정합니다.

 export REPLICATE_API_TOKEN=r8_*************************************


다음으로 Node.js 스크립트를 사용하여 모델을 실행합니다.

 import Replicate from "replicate"; const replicate = new Replicate({ auth: process.env.REPLICATE_API_TOKEN, }); const output = await replicate.run( "ai-forever/kandinsky-2.2:ea1addaab376f4dc227f5368bbd8eff901820fd1cc14ed8cad63b29249e9d463", { input: { prompt: "A moss covered astronaut with a black background" } } );


프로세스가 완료되면 업데이트를 수신하도록 예측을 위한 웹후크를 설정할 수도 있습니다.


 const prediction = await replicate.predictions.create({ version: "ea1addaab376f4dc227f5368bbd8eff901820fd1cc14ed8cad63b29249e9d463", input: { prompt: "A moss covered astronaut with a black background" }, webhook: "https://example.com/your-webhook", webhook_events_filter: ["completed"] });


이 코드를 애플리케이션에 적용하면서 모델의 매개변수를 실험해보고 싶을 것입니다. 칸딘스키의 입력과 출력을 살펴보자.

프롬프트의 Kandinsky 2.2 세대 예시: 빨간 고양이 사진, 8k


칸딘스키 2.2의 입력과 출력

텍스트 프롬프트는 칸딘스키의 이미지 생성을 안내하는 핵심 입력입니다. 프롬프트를 조정하여 출력을 형성할 수 있습니다.


  • 프롬프트 - "화성에서 체스를 두는 우주비행사"와 같은 텍스트 설명입니다. 이는 필수입니다.


  • 부정적인 프롬프트 - "우주 헬멧 없음"과 같이 제외할 요소를 지정합니다. 선택 과목.


  • 너비 및 높이 - 이미지 크기(픽셀 단위)(384~2048). 기본값은 512 x 512입니다.


  • Num Inference Steps(추론 단계 수) - 확산 중 노이즈 제거 단계 수입니다. 높을수록 속도는 느려지지만 품질은 더 높아질 수 있습니다. 기본값은 75입니다.


  • 출력 수 - 프롬프트당 생성할 이미지 수, 기본값은 1입니다.


  • 시드 - 무작위화를 위한 정수 시드입니다. 무작위로 사용하려면 비워두세요.


창의적인 프롬프트와 이러한 조정 매개변수를 결합하면 완벽한 이미지를 얻을 수 있습니다.

칸딘스키 모델 출력

Kandinsky는 입력 내용을 기반으로 하나 이상의 이미지 URL을 출력합니다. URL은 백엔드에서 호스팅되는 1024x1024 JPG 이미지를 가리킵니다. 이러한 이미지를 다운로드하여 창의적인 프로젝트에 사용할 수 있습니다. 출력 수는 "num_outputs" 매개변수에 따라 다릅니다.


출력 형식은 다음과 같습니다.


 { "type": "array", "items": { "type": "string", "format": "uri" }, "title": "Output" }


변형을 생성하면 최상의 결과를 선택하거나 영감을 주는 방향을 찾을 수 있습니다.

Kandinsky로 어떤 종류의 앱이나 제품을 구축할 수 있나요?

텍스트를 이미지로 변환하는 능력은 놀라운 혁신이며 Kandinsky 2.2는 이 기술의 선두에 있습니다. 이 모델을 사용할 수 있는 몇 가지 실제적인 방법을 살펴보겠습니다.


예를 들어, 디자인에서는 텍스트 아이디어를 시각적 개념으로 신속하게 변환함으로써 창작 과정을 크게 간소화할 수 있습니다.


디자이너는 긴 토론과 수동 스케치에 의존하는 대신 Kandinsky를 사용하여 아이디어를 즉시 시각화하여 고객 승인 및 수정 속도를 높일 수 있었습니다.


교육에서는 복잡한 텍스트 설명을 시각적 다이어그램으로 변환하면 학습을 더욱 매력적이고 접근 가능하게 만들 수 있습니다. 교사는 어려운 개념을 즉석에서 설명하여 생물학이나 물리학과 같은 과목에 대한 학생들의 이해력과 관심을 높일 수 있습니다.

프롬프트에서 Kandinsky 2.2 세대 예: 굴뚝이 있는 아름다운 흰색 아늑한 집, 보라색 문, 루핀으로 풍성하게 장식된 화분, 이끼로 자란 화분, 프로방스, 금 액센트, 초라한 시크 스타일, 흰색으로 분리됨, 극도로 사실적 디테일, 사실적인 높은 디테일, 고해상도


영화와 웹 디자인의 세계도 Kandinsky 2.2의 혜택을 누릴 수 있습니다. 작성된 대본과 컨셉을 비주얼로 전환함으로써 감독과 디자이너는 자신의 작업을 실시간으로 미리 볼 수 있습니다.


이러한 즉각적인 시각화는 계획 단계를 단순화하고 팀 구성원 간의 협업을 촉진할 수 있습니다.


더욱이, 고품질 이미지를 생산하는 칸딘스키의 능력은 새로운 형태의 예술적 표현과 전문적인 적용을 위한 문을 열어줄 수 있습니다. 디지털 아트 갤러리에서 인쇄 매체에 이르기까지 잠재적인 용도는 광범위하고 흥미진진합니다.


하지만 현실적 한계를 간과해서는 안 됩니다. 개념은 유망하지만 실제 통합은 어려움에 직면할 것이며 생성된 이미지의 품질은 다양하거나 사람의 감독이 필요할 수 있습니다.


다른 새로운 기술과 마찬가지로 Kandinsky 2.2는 귀하의 요구 사항을 충족시키기 위해 개선과 조정이 필요할 것입니다.

더 나아가 - AIModels.fyi를 사용하여 유사한 모델을 찾아보세요

AIModels.fyi는 특정 창의적 요구 사항에 맞는 AI 모델을 검색하는 데 유용한 리소스입니다. 다양한 유형의 모델을 탐색하고, 비교하고, 가격별로 정렬할 수도 있습니다. 새로운 모델에 대한 정보를 지속적으로 제공하기 위해 다이제스트 이메일을 제공하는 무료 플랫폼입니다.


Kandinsky-2.2와 유사한 모델을 찾으려면:


  1. 방문하다 AIModels.fyi .


  2. 검색창을 사용하여 사용 사례에 대한 설명을 입력하세요. 예를 들어, " 사실적인 초상화 " 또는 " 고품질 텍스트를 이미지 생성기로 변환합니다 . "


  3. 각 모델의 모델 카드를 확인하고 사용 사례에 가장 적합한 모델을 선택하세요.


  4. 각 모델의 모델 세부 정보 페이지를 확인하고 비교하여 마음에 드는 모델을 찾아보세요.

결론

이 가이드에서는 다국어 텍스트-이미지 잠재 확산 모델인 Kandinsky-2.2의 혁신적인 기능을 살펴보았습니다.


기술 구현 이해부터 단계별 지침을 통한 활용까지, 이제 창의적인 작업에 AI의 힘을 활용할 수 있는 준비가 되었습니다.


또한 AIModels.fyi는 유사한 모델을 발견하고 비교할 수 있도록 도와줌으로써 가능성의 세계로 향하는 문을 열어줍니다. AI 기반 콘텐츠 제작의 잠재력을 활용하고 AIModels.fyi에서 더 많은 튜토리얼, 업데이트 및 영감을 구독하세요. 탐험하고 창조해 보세요!


구독하다 아니면 나를 따라오세요 트위터 이런 콘텐츠를 더 보려면!

추가 자료: AI 모델 및 애플리케이션 탐색

AI 모델의 기능과 다양한 애플리케이션에 관심이 있는 사람들을 위해 AI 기반 콘텐츠 생성 및 조작의 다양한 측면을 탐구하는 관련 기사가 있습니다.


  1. AI 로고 생성기: Erlich : AI 로고 생성기 Erlich가 AI를 활용하여 독특하고 시각적으로 매력적인 로고를 만들고 AI의 창의적 잠재력에 대한 이해를 넓히는 방법을 알아보세요.


  2. 최고의 업스케일러 : 최고의 업스케일링 AI 모델에 대한 포괄적인 개요를 살펴보고 이미지 해상도와 품질 향상에 대한 통찰력을 제공합니다.


  3. 도중에 확장하는 방법: 단계별 가이드 : Midjourney AI 모델을 사용하여 이미지를 효과적으로 확대하고 이미지 향상 기술에 대한 지식을 풍부하게 하는 방법에 대한 자세한 가이드를 살펴보세요.


  4. 이미지 노이즈에 작별 인사: ScuNet GAN을 사용하여 오래된 이미지를 향상시키는 방법 : ScuNet GAN을 사용하여 이미지 노이즈 제거 및 복원 영역에 대해 알아보고 시간이 지남에 따라 이미지 품질을 보존하는 방법에 대한 통찰력을 얻습니다.


  5. AI로 오래된 사진에 새 생명을 불어넣다: 초보자를 위한 Gfpgan 가이드 : Gfpgan AI 모델이 어떻게 오래된 사진에 새 생명을 불어넣고 소중한 추억을 되살릴 수 있는 초보자 가이드를 제공하는지 알아보세요.


  6. Gfpgan과 Codeformer 비교: AI 얼굴 복원에 대한 심층 분석 : Gfpgan과 Codeformer 모델을 비교하여 AI 기반 얼굴 복원의 뉘앙스에 대한 통찰력을 얻으세요.


  7. NightmareAI: 최고의 AI 모델 : Nightmare AI 팀의 최고의 모델을 확인하세요.


  8. ESRGAN 대 실제 ESRGAN: AI를 활용한 이론에서 실제 초해상도까지 : ESRGAN과 Real-ESRGAN AI 모델 간의 미묘한 차이를 이해하고 초해상도 기술을 조명합니다.


  9. 실제 ESRGAN과 SwinIR: 복원 및 확장을 위한 AI 모델 : Real-ESRGAN 및 SwinIR 모델을 비교하여 이미지 복원 및 업스케일링의 효율성에 대한 통찰력을 얻습니다.


여기에도 게시됨