paint-brush
"Sanki Midjourney'in bir API'si Varmış Gibi" - Kandinsky 2.2'ye Bir Bakışile@mikeyoung44
2,545 okumalar
2,545 okumalar

"Sanki Midjourney'in bir API'si Varmış Gibi" - Kandinsky 2.2'ye Bir Bakış

ile Mike Young9m2023/08/24
Read on Terminal Reader
Read this story w/o Javascript

Çok uzun; Okumak

Kandinsky v2.2, bir javascript API aracılığıyla metinden yüksek kaliteli görüntüler üreten bir Midjourney alternatifidir.
featured image - "Sanki Midjourney'in bir API'si Varmış Gibi" - Kandinsky 2.2'ye Bir Bakış
Mike Young HackerNoon profile picture
0-item

Yapay zeka destekli görüntü oluşturma modelleri yaratıcı ortamda devrim yaratıyor. Midjourney platformu, metin odaklı görüntü oluşturma özelliğiyle bu yenilikçi alanda önemli bir oyuncu olmuştur. Ancak Discord tabanlı arayüzü profesyonel kullanım için bazı sınırlamalar sunuyordu.


Bunun yerine, çok yönlü bir API aracılığıyla kullanılabilen, daha geliştirici dostu bir metin-görüntü modeli olan Kandinsky 2.2 adlı yeni bir yapay zeka modeline göz atalım.


Discord aracılığıyla çalışan Midjourney'den farklı olarak Kandinsky, geliştiricilerin AI görüntü oluşturmayı Python, Node.js ve cURL'ler gibi çeşitli programlama dillerine entegre etmelerine olanak tanır.


Bu, Kandinsky'nin yalnızca birkaç satır kodla görüntü oluşturma sürecini otomatikleştirebileceği ve onu yaratıcı profesyoneller için daha verimli bir araç haline getirebileceği anlamına geliyor. Ve yeni v2.2 sürümüyle Kandinsky'nin görüntü kalitesi hiç bu kadar yüksek olmamıştı.


Abone ya da beni takip et heyecan Bunun gibi daha fazla içerik için!


Kandinsky 2.2, yapay zeka görüntü oluşturmaya yeni bir erişilebilirlik ve esneklik düzeyi getiriyor. Birden fazla programlama dili ve aracıyla sorunsuz bir şekilde bütünleşerek Midjourney platformunu aşan bir esneklik düzeyi sunar.


Üstelik Kandinsky'nin gelişmiş yayılma teknikleri, etkileyici derecede fotogerçekçi görüntüler ortaya çıkarıyor. API öncelikli yaklaşımı, profesyonellerin yapay zeka destekli görselleştirmeyi mevcut teknoloji yığınlarına dahil etmesini kolaylaştırır.


Örnek Kandinsky v2.2 görüntü nesilleri


Bu kılavuzda Kandinsky'nin ölçeklenebilirlik, otomasyon ve entegrasyon potansiyelini keşfedeceğiz ve yaratıcılığın geleceğine nasıl katkıda bulunabileceğini tartışacağız.


Bu gelişmiş yapay zeka asistanını kullanarak çarpıcı yapay zeka sanatını ürünlerinize dahil etmek için gereken araçları ve teknikleri incelerken bize katılın.

Kandinsky 2.2'nin Temel Faydaları

  • Açık kaynak - Kandinsky tamamen açık kaynaktır. Kodu doğrudan kullanın veya Replicate'in esnek API'si aracılığıyla koda erişin.
  • API erişimi - Replicate API aracılığıyla Kandinsky'yi Python, Node.js, cURL'ler ve daha fazlasındaki iş akışlarınıza entegre edin.
  • Otomasyon - Hızlı yineleme için koddaki metin istemlerini değiştirerek görüntülerde programlı olarak ince ayarlar yapın.
  • Ölçeklenebilirlik - Basit API çağrılarıyla binlerce görüntü oluşturun. Hikaye taslakları oluşturun ve kavramları geniş ölçekte görselleştirin.
  • Özel entegrasyon - API öncelikli tasarımı sayesinde Kandinsky'yi kendi araçlarınıza ve ürünlerinize dahil edin.
  • ControlNet - Metin istemleri aracılığıyla aydınlatma ve açı gibi görüntü özellikleri üzerinde ayrıntılı kontrol elde edin.
  • Çok Dilli - İngilizce, Çince, Japonca, Korece, Fransızca ve daha birçok dildeki istemleri anlar.
  • Yüksek çözünürlük - Her türlü kullanıma hazır, net, ayrıntılı 1024x1024 görüntüler.
  • Fotogerçekçilik - Son teknoloji ürünü yayılma teknikleri, Midjourney ile aynı düzeyde çarpıcı, gerçekçi görüntüler üretir.

Kandinsky Nasıl Çalışır?

Kandinsky 2.2, metin istemlerinden görüntüler üreten bir metinden görüntüye yayılma modelidir. Birkaç temel bileşenden oluşur:


  • Metin Kodlayıcı: Metin istemi, anlamsal özellikleri çıkarmak ve metni gizli bir alana kodlamak için bir XLM-Roberta-Large-Vit-L-14 kodlayıcıdan geçirilir. Bu, bir metin gömme vektörü üretir.


  • Görüntü Kodlayıcı: Önceden eğitilmiş bir CLIP-ViT-G modeli, görüntüleri metin yerleştirmeleriyle aynı gizli alana kodlar. Bu, metin ve resim gösterimleri arasında eşleştirme yapılmasına olanak tanır.


  • Difüzyon Öncesi: Bir dönüştürücü, metin içeren gizli alan ile görüntü içeren gizli alan arasında eşleme yapar. Bu, metin ve görüntüleri olasılıksal olarak birbirine bağlayan bir yayılma önceliği oluşturur.


  • UNet: 1.22B parametresi Gizli Difüzyon UNet, omurga ağı olarak hizmet eder. Giriş olarak bir görüntü yerleştirmeyi alır ve yinelemeli gürültü giderme yoluyla gürültülüden temize kadar görüntü örneklerini çıkarır.


  • ControlNet: Derinlik haritaları gibi yardımcı girdilerde görüntü oluşturulmasını koşullandıran ek bir sinir ağı. Bu, kontrol edilebilir görüntü sentezini mümkün kılar.


  • MoVQ Kodlayıcı/Kod Çözücü: Daha verimli örnekleme için görüntü yerleştirmelerini ayrı gizli kodlar olarak sıkıştıran ayrı bir VAE.


Eğitim sırasında metin-görüntü çiftleri bağlantılı yerleştirmelere kodlanır. UNet difüzyonu, gürültü giderme yoluyla bu yerleştirmeleri görüntülere geri çevirmek için eğitilmiştir.


Çıkarım için metin bir gömmeye kodlanır, bir görüntü yerleştirmeden önce difüzyon yoluyla haritalanır, MoVQ tarafından sıkıştırılır ve yinelemeli olarak görüntüler oluşturmak için UNet tarafından ters çevrilir. Ek ControlNet, derinlik gibi özelliklerin kontrol edilmesine olanak sağlar.

Kandinsky'nin Önceki Sürümlerine Göre Önemli İyileştirmeler

Kandinsky platformunun gelişimini gösteren resim.

Kandinsky'nin v2.0'dan v2.1'e ve v2.2'ye evrimini gösteren bir örnek. Gerçekçilik!

Kandinsky 2.2'deki başlıca geliştirmeler şunları içerir:


  1. Yeni Görüntü Kodlayıcı - CLIP-ViT-G : Önemli yükseltmelerden biri CLIP-ViT-G görüntü kodlayıcının entegrasyonudur. Bu yükseltme, modelin estetik açıdan hoş görüntüler oluşturma yeteneğini önemli ölçüde artırıyor. Kandinsky 2.2, daha güçlü bir görüntü kodlayıcı kullanarak metin açıklamalarını daha iyi yorumlayabilir ve bunları görsel olarak büyüleyici görüntülere dönüştürebilir.


  2. ControlNet Desteği : Kandinsky 2.2, görüntü oluşturma süreci üzerinde hassas kontrol sağlayan bir özellik olan ControlNet mekanizmasını sunar. Bu ekleme, oluşturulan çıktıların doğruluğunu ve çekiciliğini artırır. ControlNet ile model, metin rehberliğine dayalı olarak görüntüleri değiştirme yeteneği kazanarak yaratıcı keşif için yeni yollar açar.

Görüntü Oluşturmak İçin Kandinsky'yi Nasıl Kullanabilirim?

Bu güçlü yapay zeka modeliyle yaratmaya başlamaya hazır mısınız? Kandinsky 2.2 ile etkileşimde bulunmak için Replicate API'yi kullanmaya yönelik adım adım kılavuzu burada bulabilirsiniz. Yüksek düzeyde şunları yapmanız gerekir:


  1. Kimlik Doğrula - Replicate API anahtarınızı alın ve ortamınızda kimlik doğrulaması yapın.


  2. Bilgi istemi gönder - Metinsel açıklamanızı prompt parametresine iletin. Bunu birden çok dilde belirtebilirsiniz.


  3. Parametreleri özelleştirin - Gerektiğinde görüntü boyutlarını, çıktı sayısını vb. ayarlayın. Bakın model özellikleri daha fazla ayrıntı için veya okumaya devam edin.


  4. Yanıtı işleyin - Kandinsky 2.2, oluşturulan görüntüye bir URL çıktısı verir. Projenizde kullanmak için bu görseli indirin.


Kolaylık sağlamak için bunu da denemek isteyebilirsiniz canlı demo kodunuz üzerinde çalışmaya başlamadan önce modelin yetenekleri hakkında fikir sahibi olmak için.

Replicate API aracılığıyla Kandinsky 2.2'yi Kullanmaya İlişkin Adım Adım Kılavuz

Bu örnekte modelle çalışmak için Node'u kullanacağız. Bu nedenle öncelikle Node.js istemcisini kurmanız gerekir.


 npm install replicate


Ardından API belirtecinizi kopyalayın ve bunu bir ortam değişkeni olarak ayarlayın:

 export REPLICATE_API_TOKEN=r8_*************************************


Daha sonra modeli Node.js betiğini kullanarak çalıştırın:

 import Replicate from "replicate"; const replicate = new Replicate({ auth: process.env.REPLICATE_API_TOKEN, }); const output = await replicate.run( "ai-forever/kandinsky-2.2:ea1addaab376f4dc227f5368bbd8eff901820fd1cc14ed8cad63b29249e9d463", { input: { prompt: "A moss covered astronaut with a black background" } } );


Ayrıca, işlem tamamlandığında güncellemeleri almak amacıyla tahminler için bir web kancası da ayarlayabilirsiniz.


 const prediction = await replicate.predictions.create({ version: "ea1addaab376f4dc227f5368bbd8eff901820fd1cc14ed8cad63b29249e9d463", input: { prompt: "A moss covered astronaut with a black background" }, webhook: "https://example.com/your-webhook", webhook_events_filter: ["completed"] });


Bu kodu uygulamanızda çalıştırırken modelin parametrelerini denemek isteyeceksiniz. Kandinsky'nin girdi ve çıktılarına bir göz atalım.

İstemden bir Kandinsky 2.2 nesli örneği: kırmızı bir kedi fotoğrafı, 8k


Kandinsky 2.2'nin Girişleri ve Çıkışları

Metin istemi, Kandinsky'nin imaj oluşturma sürecini yönlendiren temel girdidir. İsteminizde ince ayar yaparak çıktıyı şekillendirebilirsiniz.


  • Bilgi İstemi - "Mars'ta satranç oynayan bir astronot" gibi metinsel açıklama. Bu gereklidir.


  • Olumsuz Bilgi İstemi - "Uzay kaskı yok" gibi hariç tutulacak öğeleri belirtir. İsteğe bağlı.


  • Genişlik ve Yükseklik - Piksel cinsinden görüntü boyutları 384'ten 2048'e kadardır. Varsayılan değer 512 x 512'dir.


  • Çıkarım Adımlarının Sayısı - Difüzyon sırasındaki gürültü giderme adımlarının sayısı, ne kadar yüksek olursa o kadar yavaş olur ancak potansiyel olarak daha yüksek kalite olur. Varsayılan 75'tir.


  • Çıkış Sayısı - İstem başına oluşturulacak görüntü sayısı, varsayılan 1'dir.


  • Tohum - Rastgeleleştirme için tamsayı tohum. Rastgele için boş bırakın.


Yaratıcı istemleri bu ayarlama parametreleriyle birleştirmek, mükemmel görüntünüzü yakalamanıza olanak tanır.

Kandinsky Modeli Çıktıları

Kandinsky, girişlerinize göre bir veya daha fazla resim URL'sinin çıktısını alır. URL'ler, arka uçta barındırılan 1024x1024 JPG resimlerine işaret ediyor. Yaratıcı projelerinizde kullanmak için bu görselleri indirebilirsiniz. Çıkışların sayısı "num_outputs" parametresine bağlıdır.


Çıktı formatı şöyle görünür:


 { "type": "array", "items": { "type": "string", "format": "uri" }, "title": "Output" }


Varyasyonlar oluşturarak en iyi sonucu seçebilir veya ilham verici yönler bulabilirsiniz.

Kandinsky ile Ne Tür Uygulamalar veya Ürünler Geliştirebilirim?

Metni görsellere dönüştürme yeteneği dikkat çekici bir yeniliktir ve Kandinsky 2.2 bu teknolojinin ön saflarında yer almaktadır. Bu modelin kullanılabileceği bazı pratik yolları inceleyelim.


Örneğin tasarımda, metinsel fikirlerin görsel kavramlara hızlı bir şekilde dönüştürülmesi, yaratıcı süreci önemli ölçüde kolaylaştırabilir.


Tasarımcılar, uzun tartışmalara ve manuel eskizlere güvenmek yerine, fikirlerini anında görselleştirmek için Kandinsky'yi kullanabilir, müşteri onaylarını ve revizyonlarını hızlandırabilir.


Eğitimde karmaşık metinsel açıklamaların görsel diyagramlara dönüştürülmesi, öğrenmeyi daha ilgi çekici ve erişilebilir hale getirebilir. Öğretmenler zorlayıcı kavramları anında örneklendirerek öğrencilerin biyoloji veya fizik gibi konulara olan ilgilerini ve kavramalarını geliştirebilirler.

Örnek Kandinsky 2.2 nesli, istemden: suluboya karışık teknik şaheseri bacaları olan güzel beyaz rahat ev, mor bir kapı, acı bakla ile zengin bir şekilde dekore edilmiş, yosunla büyümüş saksılar, Provence, altın vurgular, eski püskü şık stil, beyaz üzerine izole edilmiş, son derece fotogerçekçi ayrıntılar, gerçekçi yüksek ayrıntı, yüksek çözünürlük


Film ve web tasarımı dünyası da Kandinsky 2.2'den yararlanabilir. Yönetmenler ve tasarımcılar, yazılı senaryoları ve konseptleri görsellere dönüştürerek çalışmalarının gerçek zamanlı ön izlemesini yapabilirler.


Bu anlık görselleştirme, planlama aşamasını basitleştirebilir ve ekip üyeleri arasındaki işbirliğini güçlendirebilir.


Üstelik Kandinsky'nin yüksek kaliteli görüntüler üretme yeteneği, yeni sanatsal ifade biçimlerine ve profesyonel uygulamalara kapı açabilir. Dijital sanat galerilerinden basılı medyaya kadar potansiyel kullanım alanları geniş ve heyecan vericidir.


Ancak pratik sınırlamaları gözden kaçırmayalım. Konsept umut verici olsa da, gerçek dünya entegrasyonu zorluklarla karşılaşacak ve oluşturulan görüntülerin kalitesi farklılık gösterebilecek veya insan gözetimi gerektirebilecek.


Gelişen tüm teknolojiler gibi Kandinsky 2.2'nin de ihtiyaçlarınızı karşılayacak şekilde iyileştirilmesi ve uyarlanması gerekecektir.

Daha İleriye Taşıyoruz - AIModels.fyi ile Benzer Modelleri Keşfedin

AIModels.fyi, belirli yaratıcı ihtiyaçlara göre uyarlanmış yapay zeka modellerini keşfetmek için değerli bir kaynaktır. Çeşitli model türlerini keşfedebilir, karşılaştırabilir ve hatta fiyata göre sıralayabilirsiniz. Sizi yeni modeller hakkında bilgilendirmek için özet e-postalar sunan ücretsiz bir platformdur.


Kandinsky-2.2'ye benzer modelleri bulmak için:


  1. Ziyaret etmek AIModels.fyi .


  2. Kullanım durumunuzun açıklamasını girmek için arama çubuğunu kullanın. Örneğin, " gerçekçi portreler " veya " yüksek kaliteli metinden görüntü oluşturucuya . "


  3. Her model için model kartlarını görüntüleyin ve kullanım durumunuza en uygun olanı seçin.


  4. Her model için model ayrıntıları sayfasına göz atın ve favorilerinizi bulmak için karşılaştırın.

Çözüm

Bu kılavuzda, çok dilli bir metinden resme gizli yayılma modeli olan Kandinsky-2.2'nin yenilikçi yeteneklerini araştırdık.


Teknik uygulamasını anlamaktan adım adım talimatlarla kullanmaya kadar, artık yaratıcı çabalarınızda yapay zekanın gücünden yararlanacak donanıma sahipsiniz.


Ayrıca AIModels.fyi, benzer modelleri keşfetmenize ve karşılaştırmanıza yardımcı olarak olasılıklar dünyasının kapılarını açar. Yapay zeka odaklı içerik oluşturma potansiyelini benimseyin ve daha fazla eğitim, güncelleme ve ilham için AIModels.fyi'ye abone olun. Mutlu keşfetme ve yaratma!


Abone ya da beni takip et heyecan Bunun gibi daha fazla içerik için!

Ek Okuma: Yapay Zeka Modellerini ve Uygulamalarını Keşfetmek

Yapay zeka modellerinin ve bunların çeşitli uygulamalarının yetenekleri ilgilerini çekenler için yapay zeka destekli içerik oluşturma ve işlemenin çeşitli yönlerini ele alan bazı ilgili makaleleri burada bulabilirsiniz:


  1. AI Logo Oluşturucu: Erlich : Yapay Zeka Logo Oluşturucu Erlich'in, yapay zekanın yaratıcı potansiyeline ilişkin anlayışınızı genişleterek benzersiz ve görsel olarak çekici logolar oluşturmak için yapay zekadan nasıl yararlandığını keşfedin.


  2. En İyi Yükselticiler : Görüntü çözünürlüğünü ve kalitesini artırmaya yönelik bilgiler sağlayan, ölçeklendirmesi en iyi yapay zeka modellerine ilişkin kapsamlı bir genel bakışı ortaya çıkarın.


  3. Yolculuğun Ortasında Nasıl Yükseltilir: Adım Adım Kılavuz : Midjourney AI modelini kullanarak görüntüleri etkili bir şekilde nasıl yükseltebileceğinize ve görüntü geliştirme teknikleri konusundaki bilginizi zenginleştirmeye ilişkin ayrıntılı kılavuzu keşfedin.


  4. Görüntü Gürültüsüne Elveda Deyin: ScuNet GAN ile Eski Görüntüler Nasıl Geliştirilir? : ScuNet GAN'ı kullanarak görüntü kirliliği giderme ve restorasyon alanına dalın ve görüntü kalitesinin zaman içinde korunmasına ilişkin içgörüler kazanın.


  5. Yapay Zeka ile Eski Fotoğraflara Yeni Bir Hayat Verin: Yeni Başlayanlar İçin Gfpgan Kılavuzu : Gfpgan AI modelinin eski fotoğraflara nasıl yeni bir soluk getirdiğini ve yeni başlayanlar için değerli anıları canlandırmaya yönelik bir kılavuz sağladığını öğrenin.


  6. Gfpgan ve Codeformer'ın Karşılaştırılması: Yapay Zeka Yüz Restorasyonuna Derin Bir Bakış : Gfpgan ve Codeformer modellerini karşılaştırarak yapay zeka tabanlı yüz restorasyonunun nüansları hakkında bilgi edinin.


  7. NightmareAI: En İyi Halleriyle Yapay Zeka Modelleri : Nightmare AI ekibinin en iyi modellerini görün.


  8. ESRGAN ve Gerçek-ESRGAN: Teorik'ten Gerçek Dünyaya Yapay Zeka ile Süper Çözünürlük : ESRGAN ve Real-ESRGAN AI modelleri arasındaki nüansları anlayarak süper çözünürlük tekniklerine ışık tutun.


  9. Gerçek ESRGAN ve SwinIR Karşılaştırması: Restorasyon ve Yükseltme için Yapay Zeka Modelleri : Real-ESRGAN ve SwinIR modellerini karşılaştırarak görüntü restorasyonu ve yükseltmedeki etkinlikleri hakkında fikir edinin.


Burada da yayınlandı