Các công cụ chỉnh sửa hình ảnh AI đã có nhiều tiến bộ trong vài năm trở lại đây. Ngày nay, việc tạo ra những bức chân dung đẹp, có phong cách của con người và động vật khá dễ dàng. Nhưng các mô hình AI lại rất khó đoán. Vì vậy, hầu hết các công cụ đều dựa vào người dùng (hoặc một số con người) để loại bỏ các thế hệ xấu và tìm ra thế hệ tốt nhất.
Đây là vấn đề kinh điển "con người trong vòng lặp" thường gây khó khăn cho các công cụ AI. Hóa ra, với một số thủ thuật thông minh và điều chỉnh cẩn thận, bạn có thể xây dựng một đường ống hoạt động đáng tin cậy cho phần lớn vật nuôi. Nó cực kỳ bền bỉ trước những thay đổi về tư thế, ánh sáng, v.v.
Trong bài đăng này, tôi sẽ đi sâu hơn vào cách thức hoạt động và tất cả các thủ thuật nhỏ gọn giúp thực hiện điều này. Sau đây là một số ví dụ về chân dung bạn có thể tạo bằng quy trình này.
Chúng ta hãy bắt đầu nhé!
Điểm mấu chốt của kỹ thuật này là IPAdapter. Về cơ bản, đây là cách nhắc nhở mô hình bằng hình ảnh thay vì văn bản (theo nghĩa đen, nó là viết tắt của Image Prompt Adapter). Vì vậy, thay vì nhúng văn bản, nó sử dụng hình ảnh để lấy nhúng. Điều này cực kỳ mạnh mẽ vì nó có thể nắm bắt chính xác phong cách và cấu trúc trong hình ảnh trực tiếp, thay vì ai đó phải dịch những gì họ muốn từ hình ảnh thành văn bản. Trong nút ComfyUI IPAdapter của chúng tôi, chúng tôi có hai đầu vào, một cho phong cách và một cho thành phần. Chúng tôi sử dụng hình ảnh tranh màu nước để tạo kiểu và đưa hình ảnh gốc vào để tạo thành phần (vì chúng tôi muốn giữ nguyên thành phần nhưng thay đổi phong cách).
Bây giờ chúng ta đã có cách để giữ cho phong cách nhất quán, chúng ta có thể chuyển sự chú ý của mình sang việc thể hiện trung thực vật nuôi. IPAdapters thiên về chất lượng hình ảnh và độ giống nhau của hình ảnh bị ảnh hưởng. Vì vậy, chúng ta cần làm gì đó để có thể giữ cho đầu ra trông giống như cùng một đối tượng như đầu vào.
Câu trả lời cho câu hỏi đó là ControlNet. ControlNet là một kỹ thuật thú vị khác để cung cấp các ràng buộc bổ sung cho quá trình tạo ảnh. Sử dụng ControlNet, bạn có thể chỉ định các ràng buộc dưới dạng các cạnh, độ sâu, tư thế con người, v.v. Một tính năng tuyệt vời của ControlNet là chúng có thể được xếp chồng lên nhau. Vì vậy, bạn có thể có một controlnet cạnh buộc đầu ra phải có các cạnh tương tự như đầu vào và cũng có một controlnet độ sâu buộc đầu ra phải có cấu hình độ sâu tương tự. Và đó chính xác là những gì tôi làm ở đây.
Hóa ra là controlnet không chỉ có thể xếp chồng với các controlnet khác mà còn có thể hoạt động song song với IPAdapter được đề cập ở trên. Và đó là những công cụ chúng ta sẽ sử dụng cho việc này - IPAdapter với hình ảnh nguồn để lấy kiểu, ControlNet với trình phát hiện cạnh canny để hạn chế dựa trên các cạnh và controlnet với độ sâu để hạn chế dựa trên hồ sơ độ sâu.
Đó thực sự là tất cả những gì bạn cần về mặt kỹ thuật, nhưng điều tôi học được từ việc thử nghiệm với máy học để sản xuất là rất nhiều giá trị của những thứ này đến từ việc dành thời gian để điều chỉnh tất cả các thông số của bạn một cách hoàn hảo. Vì vậy, tôi muốn nói một chút về điều đó.
Bạn đã bao giờ tìm thấy một mô hình với các đầu ra ví dụ tuyệt vời, thử nó trên hình ảnh của riêng bạn và nhận ra chúng trông thật tệ không? Thông thường, lý do duy nhất cho điều đó là mô hình chưa được tinh chỉnh cho hình ảnh của bạn. Đôi khi nó có thể giống như một trình chặn hoàn toàn, bởi vì chúng ta thậm chí bắt đầu tinh chỉnh một mô hình được đào tạo trước ở đâu?! Đây là những gì tôi đã học được về chủ đề này. Điều này cũng mở rộng ra ngoài đường ống cụ thể này, vì vậy, nói chung, đây là kiến thức tốt để có.
ControlNet rất mạnh, vì vậy bạn phải cẩn thận kiểm soát tác động của chúng lên đầu ra. May mắn thay, các nút tùy chỉnh trong ComfyUI cho phép chúng ta giảm tác động của controlnet và cũng dừng tác động của chúng tại bất kỳ thời điểm nào. Vì vậy, chúng ta đặt trình phát hiện cạnh ở mức 75% và khiến nó ngừng ảnh hưởng đến quá trình tạo ở mức 75% và trình phát hiện độ sâu dừng ở mức 30%. Lý do chúng ta dừng chúng ở cuối thay vì chỉ giảm sức mạnh của chúng là điều này cho phép mạng "dọn dẹp" mọi hiện tượng lạ do chúng gây ra trong một vài bước cuối cùng mà không bị hạn chế bên ngoài. Nó chỉ làm cho hình ảnh đẹp hơn. Vì vậy, nó chỉ sử dụng dữ liệu đào tạo của nó để làm cho mọi thứ trông đẹp nhất có thể, bỏ qua các cạnh và độ sâu.
Một điều lớn khác cần điều chỉnh là KSampler. Có rất nhiều thứ nhỏ nhặt đang diễn ra ở đây, nhưng tôi sẽ chỉ đề cập ngắn gọn đến một số thứ trong số chúng:
Đầu tiên chúng ta có các bước. Đây thực sự là số lần mô hình sẽ chạy lặp lại. Càng chạy nhiều, đầu ra của bạn càng được cách điệu và càng xa hình ảnh gốc. Hiệu ứng của điều này thường không rõ ràng, vì vậy, bạn nên thử nghiệm.
Sau đó là CFG. Thành thật mà nói, tôi không hiểu hết về điều này, nhưng từ tên của nó - Hướng dẫn miễn phí phân loại - tôi cho rằng nó kiểm soát mức độ mà mô hình được phép sửa đổi hình ảnh mà không bị giới hạn bởi các lời nhắc để làm cho hình ảnh trông đẹp hơn. Điều này cũng ảnh hưởng đáng kể đến hình ảnh đầu ra, vì vậy rất đáng để thử nghiệm.
Một mẹo nhỏ gọn khác mà tôi sử dụng ở đây là bắt đầu quá trình tạo ảnh bằng ảnh đầu vào thay vì ảnh trống và giữ mức khử nhiễu thấp. Điều này đảm bảo rằng đầu ra sẽ trông tương tự về màu sắc và kết cấu.
Một điều bạn sẽ nhận thấy là tôi chưa bao giờ đề cập đến lời nhắc văn bản cho đến tận bây giờ! Thật ngạc nhiên, vì đó thường là điều kiện duy nhất mà bạn thường cung cấp cho các mô hình khuếch tán. Nhưng trong trường hợp này, chúng ta có rất nhiều cách điều kiện khác mà lời nhắc văn bản thường chỉ cản trở. Vì vậy, trong trường hợp này, lời nhắc thực sự chỉ là "một con chó". Tôi sử dụng lời nhắc văn bản nhiều hơn một chút trong một số bức chân dung cách điệu hơn, như chú chó đầu bếp hoặc chú chó trong phòng tắm.
Về bản chất, đây ít nhiều chỉ là một "Bộ lọc AI" chuyển đổi hình ảnh thành chân dung màu nước. Nhưng thật đáng kinh ngạc khi nó có thể linh hoạt đến thế. Ví dụ, để tạo chân dung chú chó đang tắm, tôi chỉ cần ghép các hình ảnh lại với nhau trong một công cụ chỉnh sửa hình ảnh và sử dụng công cụ đó làm đầu vào! Mô hình sẽ đảm nhiệm việc hợp nhất mọi thứ và làm sạch hình ảnh.
Bây giờ hãy xóa nền, thêm một số văn bản và Bùm! Bạn có một bức chân dung tuyệt đẹp ghi lại mọi chi tiết nhỏ của thú cưng và luôn chụp chúng dưới ánh sáng tốt nhất!
Cảm ơn @cubiq rất nhiều vì công sức của anh ấy dành cho các nút ComfyUI và loạt bài giải thích tuyệt vời của anh ấy trên youtube! Hầu hết các pipeline này đều được anh ấy xây dựng và giải thích trong các video của mình.
Nếu bạn muốn có một bức chân dung thú cưng mà không phải trải qua tất cả những rắc rối này, hãy cân nhắc mua một bức từ đây: pawprints.pinenlime.com!