2,545 lượt đọc

"Giống như nếu Midjourney có API" - Hãy xem Kandinsky 2.2

từ tác giả Mike Young9m2023/08/24

dài quá đọc không nổi

Kandinsky v2.2 là một giải pháp thay thế Midjourney tạo ra hình ảnh chất lượng cao từ văn bản thông qua API javascript.

featured image - "Giống như nếu Midjourney có API" - Hãy xem Kandinsky 2.2

Các mô hình tạo hình ảnh được hỗ trợ bởi AI đang cách mạng hóa bối cảnh sáng tạo. Nền tảng Midjourney đã đóng vai trò quan trọng trong lĩnh vực đổi mới này với tính năng tạo hình ảnh dựa trên văn bản. Tuy nhiên, giao diện dựa trên Discord của nó có một số hạn chế đối với việc sử dụng chuyên nghiệp.

Thay vào đó, chúng ta hãy xem xét một mô hình AI mới có tên Kandinsky 2.2, một mô hình chuyển văn bản thành hình ảnh thân thiện hơn với người xây dựng có sẵn thông qua API linh hoạt.

Không giống như Midjourney hoạt động thông qua Discord, Kandinsky cho phép các nhà phát triển tích hợp tính năng tạo hình ảnh AI vào nhiều ngôn ngữ lập trình khác nhau như Python, Node.js và cURL.

Điều này có nghĩa là chỉ với một vài dòng mã, Kandinsky có thể tự động hóa quá trình tạo hình ảnh, khiến nó trở thành công cụ hiệu quả hơn cho các chuyên gia sáng tạo. Và với phiên bản v2.2 mới, chất lượng hình ảnh của Kandinsky chưa bao giờ cao hơn thế.

Đặt mua hoặc theo dõi tôi trên Twitter để biết thêm nội dung như thế này!

Kandinsky 2.2 mang đến mức độ tiếp cận và tính linh hoạt mới cho việc tạo hình ảnh AI. Nó tích hợp liền mạch với nhiều ngôn ngữ và công cụ lập trình, mang lại mức độ linh hoạt vượt trội so với nền tảng Midjourney.

Hơn nữa, kỹ thuật khuếch tán tiên tiến của Kandinsky tạo ra những hình ảnh chân thực ấn tượng. Cách tiếp cận ưu tiên API của nó giúp các chuyên gia dễ dàng kết hợp hình ảnh hóa do AI cung cấp vào kho công nghệ hiện có của họ.

Trong hướng dẫn này, chúng ta sẽ khám phá tiềm năng của Kandinsky về khả năng mở rộng, tự động hóa và tích hợp, đồng thời thảo luận về cách nó có thể đóng góp cho tương lai của sự sáng tạo.

Hãy tham gia cùng chúng tôi khi chúng tôi đi sâu vào các công cụ và kỹ thuật cần thiết để kết hợp nghệ thuật AI tuyệt đẹp vào sản phẩm của bạn bằng trợ lý AI tiên tiến này.

Lợi ích chính của Kandinsky 2.2

Mã nguồn mở - Kandinsky hoàn toàn là mã nguồn mở. Sử dụng mã trực tiếp hoặc truy cập mã thông qua API linh hoạt của Replicate.
Truy cập API - Tích hợp Kandinsky vào quy trình làm việc của bạn bằng Python, Node.js, cURL, v.v. thông qua API sao chép.
Tự động hóa - Tinh chỉnh hình ảnh theo chương trình bằng cách sửa đổi lời nhắc văn bản trong mã để lặp lại nhanh chóng.
Khả năng mở rộng - Tạo hàng nghìn hình ảnh bằng các lệnh gọi API đơn giản. Tạo bảng phân cảnh và trực quan hóa các khái niệm ở quy mô lớn.
Tích hợp tùy chỉnh - Kết hợp Kandinsky vào các công cụ và sản phẩm của riêng bạn nhờ thiết kế ưu tiên API của nó.
ControlNet - Kiểm soát chi tiết các thuộc tính hình ảnh như ánh sáng và góc thông qua lời nhắc văn bản.
Đa ngôn ngữ - Hiểu lời nhắc bằng tiếng Anh, tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Pháp, v.v.
Độ phân giải cao - Hình ảnh 1024x1024 sắc nét, chi tiết sẵn sàng cho mọi trường hợp sử dụng.
Photorealism - Kỹ thuật khuếch tán tiên tiến tạo ra những hình ảnh chân thực, tuyệt đẹp ngang bằng với Midjourney.

Kandinsky hoạt động như thế nào?

Kandinsky 2.2 là mô hình khuếch tán văn bản thành hình ảnh tạo ra hình ảnh từ lời nhắc văn bản. Nó bao gồm một số thành phần chính:

Bộ mã hóa văn bản: Lời nhắc văn bản được chuyển qua bộ mã hóa XLM-Roberta-Large-Vit-L-14 để trích xuất các đặc điểm ngữ nghĩa và mã hóa văn bản vào không gian tiềm ẩn. Điều này tạo ra một vector nhúng văn bản.

Bộ mã hóa hình ảnh: Mô hình CLIP-ViT-G được đào tạo trước sẽ mã hóa hình ảnh vào cùng một không gian tiềm ẩn như phần nhúng văn bản. Điều này cho phép kết hợp giữa các biểu diễn văn bản và hình ảnh.

Khuếch tán trước: Một máy biến áp ánh xạ giữa không gian tiềm ẩn nhúng văn bản và không gian tiềm ẩn nhúng hình ảnh. Điều này thiết lập một sự phổ biến trước đó để liên kết văn bản và hình ảnh một cách xác suất.

UNet: UNet khuếch tán tiềm ẩn tham số 1,22B đóng vai trò là mạng đường trục. Nó lấy hình ảnh nhúng làm mẫu hình ảnh đầu vào và đầu ra từ nhiễu đến sạch thông qua quá trình khử nhiễu lặp đi lặp lại.

ControlNet: Mạng thần kinh bổ sung điều kiện tạo hình ảnh trên các đầu vào phụ trợ như bản đồ độ sâu. Điều này cho phép tổng hợp hình ảnh có thể kiểm soát được.

Bộ mã hóa/giải mã MoVQ: Một VAE riêng biệt nén các phần nhúng hình ảnh dưới dạng mã tiềm ẩn riêng biệt để lấy mẫu hiệu quả hơn.

Trong quá trình đào tạo, các cặp văn bản-hình ảnh được mã hóa thành các phần nhúng được liên kết. UNet khuếch tán được đào tạo để đảo ngược các phần nhúng này trở lại hình ảnh thông qua việc khử nhiễu.

Để suy luận, văn bản được mã hóa thành phần nhúng, ánh xạ thông qua quá trình khuếch tán trước khi nhúng hình ảnh, được nén bởi MoVQ và được UNet đảo ngược để tạo ra hình ảnh lặp đi lặp lại. ControlNet bổ sung cho phép kiểm soát các thuộc tính như độ sâu.

Những cải tiến chính so với các phiên bản trước của Kandinsky

Một ví dụ cho thấy sự phát triển của Kandinsky từ v2.0 lên v2.1 lên v2.2. Chủ nghĩa hiện thực!

Những cải tiến chính trong Kandinsky 2.2 bao gồm:

Bộ mã hóa hình ảnh mới - CLIP-ViT-G : Một trong những nâng cấp quan trọng là việc tích hợp bộ mã hóa hình ảnh CLIP-ViT-G. Nâng cấp này tăng cường đáng kể khả năng của mô hình trong việc tạo ra những hình ảnh có tính thẩm mỹ. Bằng cách sử dụng bộ mã hóa hình ảnh mạnh mẽ hơn, Kandinsky 2.2 có thể diễn giải các mô tả văn bản tốt hơn và chuyển chúng thành những hình ảnh hấp dẫn về mặt thị giác.
Hỗ trợ ControlNet : Kandinsky 2.2 giới thiệu cơ chế ControlNet, một tính năng cho phép kiểm soát chính xác quá trình tạo hình ảnh. Sự bổ sung này giúp nâng cao độ chính xác và sự hấp dẫn của các kết quả đầu ra được tạo ra. Với ControlNet, mô hình này có được khả năng xử lý hình ảnh dựa trên hướng dẫn bằng văn bản, mở ra những con đường mới để khám phá sáng tạo.

Làm cách nào tôi có thể sử dụng Kandinsky để tạo hình ảnh?

Bạn đã sẵn sàng bắt đầu sáng tạo với mô hình AI mạnh mẽ này chưa? Dưới đây là hướng dẫn từng bước về cách sử dụng API sao chép để tương tác với Kandinsky 2.2. Ở cấp độ cao, bạn sẽ cần:

Xác thực - Nhận khóa API sao chép và xác thực trong môi trường của bạn.
Gửi lời nhắc - Chuyển mô tả văn bản của bạn vào tham số prompt . Bạn có thể chỉ định nó bằng nhiều ngôn ngữ.
Tùy chỉnh thông số - Tinh chỉnh kích thước hình ảnh, số lượng đầu ra, v.v. nếu cần. Tham khảo đến thông số mô hình để biết thêm chi tiết, hoặc đọc tiếp.
Xử lý phản hồi - Kandinsky 2.2 xuất URL tới hình ảnh được tạo. Tải xuống hình ảnh này để sử dụng trong dự án của bạn.

Để thuận tiện, bạn cũng có thể muốn thử cái này bản thử trực tiếp để cảm nhận về khả năng của mô hình trước khi làm việc với mã của bạn.

Hướng dẫn từng bước sử dụng Kandinsky 2.2 thông qua API sao chép

Trong ví dụ này, chúng tôi sẽ sử dụng Node để làm việc với mô hình. Vì vậy, trước tiên bạn cần cài đặt ứng dụng khách Node.js.

 npm install replicate

Sau đó, sao chép mã thông báo API của bạn và đặt nó làm biến môi trường:

 export REPLICATE_API_TOKEN=r8_*************************************

Tiếp theo, chạy mô hình bằng tập lệnh Node.js:

 import Replicate from "replicate"; const replicate = new Replicate({ auth: process.env.REPLICATE_API_TOKEN, }); const output = await replicate.run( "ai-forever/kandinsky-2.2:ea1addaab376f4dc227f5368bbd8eff901820fd1cc14ed8cad63b29249e9d463", { input: { prompt: "A moss covered astronaut with a black background" } } );

Bạn cũng có thể thiết lập webhook để dự đoán nhận thông tin cập nhật khi quá trình hoàn tất.

 const prediction = await replicate.predictions.create({ version: "ea1addaab376f4dc227f5368bbd8eff901820fd1cc14ed8cad63b29249e9d463", input: { prompt: "A moss covered astronaut with a black background" }, webhook: "https://example.com/your-webhook", webhook_events_filter: ["completed"] });

Khi đưa mã này vào ứng dụng của mình, bạn sẽ muốn thử nghiệm các tham số của mô hình. Chúng ta hãy xem đầu vào và đầu ra của Kandinsky.

Đầu vào và đầu ra của Kandinsky 2.2

Lời nhắc văn bản là đầu vào cốt lõi hướng dẫn việc tạo hình ảnh của Kandinsky. Bằng cách điều chỉnh lời nhắc của bạn, bạn có thể định hình đầu ra.

Lời nhắc - Mô tả bằng văn bản, chẳng hạn như "Một phi hành gia chơi cờ trên sao Hỏa". Điều này là bắt buộc.

Lời nhắc tiêu cực - Chỉ định các yếu tố cần loại trừ, như "không có mũ bảo hiểm không gian". Không bắt buộc.

Chiều rộng và Chiều cao - Kích thước hình ảnh tính bằng pixel, từ 384 đến 2048. Mặc định là 512 x 512.

Số bước suy luận - Số bước khử nhiễu trong quá trình khuếch tán, cao hơn có nghĩa là chậm hơn nhưng có khả năng chất lượng cao hơn. Mặc định là 75.

Số đầu ra - Số lượng hình ảnh được tạo trên mỗi lời nhắc, mặc định là 1.

Hạt giống - Hạt giống số nguyên để ngẫu nhiên hóa. Để trống một cách ngẫu nhiên.

Kết hợp các lời nhắc sáng tạo với các tham số điều chỉnh này cho phép bạn tạo ra hình ảnh hoàn hảo của mình.

Đầu ra mô hình Kandinsky

Kandinsky xuất ra một hoặc nhiều URL hình ảnh dựa trên thông tin đầu vào của bạn. Các URL trỏ tới hình ảnh JPG 1024x1024 được lưu trữ trên phần phụ trợ. Bạn có thể tải xuống những hình ảnh này để sử dụng trong các dự án sáng tạo của mình. Số lượng đầu ra phụ thuộc vào tham số "num_outputs".

Định dạng đầu ra trông như thế này:

 { "type": "array", "items": { "type": "string", "format": "uri" }, "title": "Output" }

Bằng cách tạo ra các biến thể, bạn có thể chọn kết quả tốt nhất hoặc tìm ra những hướng đi đầy cảm hứng.

Tôi có thể xây dựng những loại ứng dụng hoặc sản phẩm nào với Kandinsky?

Khả năng biến văn bản thành hình ảnh là một cải tiến đáng chú ý và Kandinsky 2.2 đang đi đầu trong công nghệ này. Hãy cùng khám phá một số cách thực tế mà mô hình này có thể được sử dụng.

Ví dụ, trong thiết kế, việc chuyển đổi nhanh chóng các ý tưởng văn bản thành các khái niệm trực quan có thể hợp lý hóa đáng kể quá trình sáng tạo.

Thay vì dựa vào các cuộc thảo luận dài dòng và các bản phác thảo thủ công, các nhà thiết kế có thể sử dụng Kandinsky để trực quan hóa ngay ý tưởng của họ, đẩy nhanh quá trình phê duyệt và sửa đổi của khách hàng.

Trong giáo dục, việc chuyển đổi các mô tả văn bản phức tạp thành sơ đồ trực quan có thể khiến việc học trở nên hấp dẫn và dễ tiếp cận hơn. Giáo viên có thể minh họa các khái niệm đầy thách thức một cách nhanh chóng, nâng cao khả năng hiểu và sự quan tâm của học sinh đối với các môn học như sinh học hoặc vật lý.

Thế giới phim ảnh và thiết kế web cũng có thể được hưởng lợi từ Kandinsky 2.2. Bằng cách biến các kịch bản và ý tưởng bằng văn bản thành hình ảnh, đạo diễn và nhà thiết kế có thể xem trước tác phẩm của mình trong thời gian thực.

Hình dung ngay lập tức này có thể đơn giản hóa giai đoạn lập kế hoạch và thúc đẩy sự hợp tác giữa các thành viên trong nhóm.

Hơn nữa, khả năng tạo ra những hình ảnh chất lượng cao của Kandinsky có thể mở ra cánh cửa cho những hình thức biểu đạt nghệ thuật mới và những ứng dụng chuyên nghiệp. Từ các phòng trưng bày nghệ thuật kỹ thuật số đến phương tiện in ấn, tiềm năng sử dụng rất rộng rãi và thú vị.

Nhưng chúng ta đừng bỏ qua những hạn chế thực tế. Mặc dù khái niệm này đầy hứa hẹn nhưng việc tích hợp vào thế giới thực sẽ phải đối mặt với những thách thức và chất lượng hình ảnh được tạo ra có thể khác nhau hoặc cần có sự giám sát của con người.

Giống như bất kỳ công nghệ mới nổi nào, Kandinsky 2.2 có thể sẽ cần được cải tiến và điều chỉnh để đáp ứng nhu cầu của bạn.

Đưa nó đi xa hơn - Khám phá các mô hình tương tự với AIModels.fyi

AIModels.fyi là nguồn tài nguyên quý giá để khám phá các mô hình AI phù hợp với nhu cầu sáng tạo cụ thể. Bạn có thể khám phá nhiều loại mô hình khác nhau, so sánh chúng và thậm chí sắp xếp theo giá. Đây là một nền tảng miễn phí cung cấp email thông báo để thông báo cho bạn về các mẫu mới.

Để tìm các mô hình tương tự như Kandinsky-2.2:

Thăm nom AIModels.fyi .
Sử dụng thanh tìm kiếm để nhập mô tả trường hợp sử dụng của bạn. Ví dụ, " chân dung thực tế " hoặc " Trình tạo văn bản thành hình ảnh chất lượng cao . "
Xem thẻ mô hình cho từng mô hình và chọn mô hình tốt nhất cho trường hợp sử dụng của bạn.
Hãy xem trang chi tiết về từng mẫu máy và so sánh để tìm ra mẫu máy bạn yêu thích.

Phần kết luận

Trong hướng dẫn này, chúng tôi đã khám phá các khả năng đổi mới của Kandinsky-2.2, một mô hình khuếch tán tiềm ẩn văn bản thành hình ảnh đa ngôn ngữ.

Từ việc hiểu cách triển khai kỹ thuật cho đến cách sử dụng nó thông qua hướng dẫn từng bước, giờ đây bạn đã được trang bị để tận dụng sức mạnh của AI trong nỗ lực sáng tạo của mình.

Ngoài ra, AIModels.fyi mở ra cánh cửa dẫn đến vô số khả năng bằng cách giúp bạn khám phá và so sánh các mô hình tương tự. Tận dụng tiềm năng của việc tạo nội dung do AI điều khiển và đăng ký để nhận thêm hướng dẫn, cập nhật và nguồn cảm hứng trên AIModels.fyi. Chúc bạn khám phá và sáng tạo vui vẻ!

Đặt mua hoặc theo dõi tôi trên Twitter để biết thêm nội dung như thế này!

Đọc thêm: Khám phá các mô hình và ứng dụng AI

Đối với những người bị hấp dẫn bởi khả năng của các mô hình AI và các ứng dụng đa dạng của chúng, dưới đây là một số bài viết có liên quan đi sâu vào các khía cạnh khác nhau của việc tạo và thao tác nội dung do AI cung cấp:

Trình tạo logo AI: Erlich : Khám phá cách Erlich Trình tạo Logo AI tận dụng AI để tạo ra các biểu tượng độc đáo và hấp dẫn về mặt hình ảnh, mở rộng hiểu biết của bạn về tiềm năng sáng tạo của AI.
Người nâng cấp tốt nhất : Khám phá cái nhìn tổng quan toàn diện về các mô hình AI nâng cấp tốt nhất, cung cấp thông tin chuyên sâu về việc nâng cao chất lượng và độ phân giải hình ảnh.
Cách nâng cấp giữa hành trình: Hướng dẫn từng bước : Khám phá hướng dẫn chi tiết về cách nâng cấp hình ảnh một cách hiệu quả bằng mô hình AI giữa hành trình, làm phong phú thêm kiến thức của bạn về các kỹ thuật nâng cao hình ảnh.
Nói lời tạm biệt với nhiễu hình ảnh: Cách cải thiện hình ảnh cũ bằng ScuNet GAN : Đi sâu vào lĩnh vực khử nhiễu và phục hồi hình ảnh bằng ScuNet GAN, hiểu rõ hơn về việc duy trì chất lượng hình ảnh theo thời gian.
Thổi sức sống mới vào những bức ảnh cũ bằng AI: Hướng dẫn về Gfpgan cho người mới bắt đầu : Tìm hiểu cách mô hình Gfpgan AI thổi sức sống mới vào những bức ảnh cũ, cung cấp cho bạn hướng dẫn dành cho người mới bắt đầu để làm sống lại những ký ức ấp ủ.
So sánh Gfpgan và Codeformer: Đi sâu vào việc khôi phục khuôn mặt AI : Hiểu rõ hơn về các sắc thái của quá trình khôi phục khuôn mặt dựa trên AI bằng cách so sánh mô hình Gfpgan và Codeformer.
NightmareAI: Những mô hình AI tốt nhất : Xem những mô hình tốt nhất từ nhóm Nightmare AI.
ESRGAN so với Real-ESRGAN: Từ lý thuyết đến siêu phân giải trong thế giới thực với AI : Hiểu các sắc thái giữa mô hình AI ESRGAN và Real-ESRGAN, làm sáng tỏ các kỹ thuật siêu phân giải.
Real-ESRGAN so với SwinIR: Mô hình AI để khôi phục và nâng cấp quy mô : So sánh các mô hình Real-ESRGAN và SwinIR, hiểu rõ hơn về hiệu quả của chúng trong việc khôi phục và nâng cấp hình ảnh.