tác giả:
(1) Kedan Li, Đại học Illinois tại Urbana-Champaign;
(2) Min Jin Chong, Đại học Illinois tại Urbana-Champaign;
(3) Jingen Liu, JD AI Research;
(4) David Forsyth, Đại học Illinois tại Urbana-Champaign.
Phương pháp thử ảo sẽ lấy hình ảnh sản phẩm và hình ảnh người mẫu rồi tạo ra hình ảnh người mẫu đang mặc sản phẩm. Về cơ bản, hầu hết các phương pháp đều tính toán các đường cong từ hình ảnh sản phẩm đến hình ảnh mô hình và kết hợp bằng các phương pháp tạo hình ảnh. Tuy nhiên, việc có được một hình ảnh chân thực là một thách thức vì động học của trang phục rất phức tạp và vì đường viền, kết cấu và các tín hiệu bóng trong hình ảnh có thể bộc lộ lỗi đối với người xem. Trang phục phải có rèm phù hợp; kết cấu phải được uốn cong để phù hợp với hình dáng của trang phục xếp nếp; các chi tiết nhỏ (khuy, cổ áo, ve áo, túi, v.v.) phải được đặt sao cho hợp lý trên trang phục, v.v. Việc đánh giá là đặc biệt khó khăn và thường mang tính định tính.
Bài viết này sử dụng đánh giá định lượng trên một tập dữ liệu mới, đầy thách thức để chứng minh rằng (a) đối với bất kỳ phương pháp sai lệch nào, người ta có thể tự động chọn mô hình mục tiêu để cải thiện kết quả và (b) việc học nhiều phương pháp điều chỉnh chuyên biệt phối hợp sẽ mang lại những cải tiến hơn nữa về kết quả. Các mô hình mục tiêu được chọn bằng quy trình nhúng đã học để dự đoán hình ảnh đại diện của sản phẩm mà mô hình đang mặc. Dự đoán này được sử dụng để so sánh sản phẩm với mô hình. Những người điều khiển chuyên dụng được huấn luyện bằng một phương pháp khuyến khích người điều khiển thứ hai hoạt động tốt ở những vị trí mà người điều khiển thứ nhất hoạt động kém. Các sợi dọc sau đó được kết hợp bằng cách sử dụng U-Net. Đánh giá định tính xác nhận rằng những cải tiến này là tổng thể về đường viền, màu sắc kết cấu và các chi tiết may mặc.
Từ khóa: Thời trang, Thử ảo, Tạo hình ảnh, Cong vênh hình ảnh
Thương mại điện tử đồng nghĩa với việc không được dùng thử sản phẩm, điều này gây khó khăn cho người tiêu dùng thời trang [44]. Các trang web hiện nay thường xuyên đăng ảnh người mẫu mặc sản phẩm, nhưng số lượng và doanh thu đồng nghĩa với việc làm như vậy rất tốn kém và mất thời gian [34]. Cần phải tạo ra hình ảnh chân thực và chính xác về những người mẫu thời trang mặc những bộ quần áo khác nhau. Người ta có thể sử dụng mô hình tư thế 3D [8,14]. Giải pháp thay thế – tổng hợp hình ảnh mô hình sản phẩm mà không cần đo 3D [17,45,39,11,15] – được gọi là thử ảo. Các phương pháp này thường bao gồm hai thành phần: 1) máy biến áp không gian để làm cong sản phẩm
hình ảnh sử dụng một số ước tính về tư thế của người mẫu và 2) mạng tạo hình ảnh kết hợp sản phẩm bị biến dạng, căn chỉnh thô với hình ảnh người mẫu để tạo ra hình ảnh chân thực của người mẫu đang mặc sản phẩm.
Việc chuyển đổi sẽ dễ dàng hơn nhiều với những trang phục đơn giản như áo phông, vốn được nhấn mạnh trong văn học. Quần áo thông thường (không giống như áo phông) có thể hở phía trước; có rèm cầu kỳ; có cấu trúc hình dạng như cổ áo và cổ tay áo; có nút; và như thế. Những hiệu ứng này thách thức nghiêm trọng các phương pháp hiện có (ví dụ trong Tài liệu bổ sung). Độ cong vênh được cải thiện đáng kể nếu người ta sử dụng hình ảnh sản phẩm để chọn hình ảnh mẫu phù hợp với loại quần áo đó (Hình 1).
Ít nhất một phần, đây là kết quả của cách các mạng tạo hình ảnh được đào tạo. Chúng tôi đào tạo bằng cách sử dụng hình ảnh ghép nối – một sản phẩm và một người mẫu mặc sản phẩm [17,45,53]. Điều này có nghĩa là mạng thế hệ luôn kỳ vọng hình ảnh mục tiêu phải phù hợp với sản phẩm (vì vậy, mạng này không được đào tạo để mặc áo len cho người mẫu mặc váy chẳng hạn, Hình 1). Một cách khác là sử dụng phương pháp huấn luyện đối nghịch [11,12,38,13,37]; nhưng thật khó để bảo tồn các chi tiết sản phẩm cụ thể (ví dụ: một kiểu nút cụ thể; decal trên áo phông) trong khuôn khổ này. Để giải quyết khó khăn này, chúng tôi tìm hiểu một không gian nhúng để chọn các cặp mô hình sản phẩm sẽ mang lại kết quả chuyển giao chất lượng cao (Hình 2). Quá trình nhúng học cách dự đoán hình dạng của trang phục trong hình ảnh người mẫu nếu nó ở trong hình ảnh sản phẩm. Sau đó, các sản phẩm sẽ được ghép với những người mẫu mặc trang phục có hình dáng tương tự. Vì người mẫu thường mặc nhiều loại quần áo nên chúng tôi sử dụng bộ mã hóa hình ảnh chú ý không gian để phân tích từng danh mục (áo trên, dưới, áo khoác ngoài, toàn thân, v.v.) của quần áo và nhúng từng loại riêng biệt.
Một vấn đề khác nảy sinh khi quần áo bị hở (ví dụ: áo khoác không cài cúc). Trong trường hợp này, mục tiêu của sợi dọc có thể có nhiều thành phần được kết nối. Những kẻ cong vênh có xu hướng phản ứng bằng cách khớp tốt một vùng và vùng kia kém, dẫn đến các chi tiết bị lệch (các nút trong Hình 1). Những lỗi như vậy có thể ít gây ra tổn thất huấn luyện nhưng rất rõ ràng và được người dùng thực sự coi là vấn đề nghiêm trọng. Chúng tôi cho thấy rằng việc sử dụng nhiều sợi dọc chuyên dụng phối hợp sẽ tạo ra những cải tiến đáng kể về số lượng và chất lượng trong độ cong vênh. Warper của chúng tôi tạo ra nhiều sợi dọc, được huấn luyện để phối hợp với nhau. Mạng inpainting kết hợp các sợi dọc và mô hình mặt nạ và tạo ra một hình ảnh tổng hợp. Về cơ bản, mạng inpainting học cách lựa chọn giữa các sợi dọc, đồng thời cung cấp hướng dẫn cho người vẽ sợi dọc khi chúng được huấn luyện chung. Đánh giá định tính xác nhận rằng một phần quan trọng của cải tiến là kết quả của việc dự đoán tốt hơn về nút, túi, nhãn và những thứ tương tự.
Chúng tôi hiển thị các đánh giá định lượng quy mô lớn về thử nghiệm ảo. Chúng tôi đã thu thập một tập dữ liệu mới gồm 422.756 cặp hình ảnh sản phẩm và ảnh studio bằng cách khai thác các trang web thương mại điện tử thời trang. Bộ dữ liệu chứa nhiều danh mục sản phẩm. Chúng tôi so sánh với công việc trước đây trên bộ dữ liệu VITON đã được thiết lập [17] cả về mặt định lượng và chất lượng. Kết quả định lượng cho thấy rằng việc chọn các cặp mô hình sản phẩm bằng cách sử dụng tính năng nhúng hình dạng của chúng tôi sẽ mang lại những cải tiến đáng kể cho tất cả các quy trình tạo hình ảnh (bảng 4.3). Việc sử dụng nhiều sợi dọc cũng luôn mang lại hiệu quả tốt hơn so với đường cơ sở sợi dọc đơn, được thể hiện qua cả kết quả định lượng (bảng 4.3, hình 5) và định tính (hình 7). So sánh định tính với công việc trước đây cho thấy hệ thống của chúng tôi lưu giữ các chi tiết của cả trang phục thay đổi và mẫu mục tiêu chính xác hơn công việc trước đó. Chúng tôi đã tiến hành nghiên cứu người dùng mô phỏng chi phí cho thương mại điện tử để thay thế mô hình thực bằng mô hình tổng hợp. Kết quả cho thấy 40% mô hình tổng hợp của chúng tôi được coi là mô hình thực tế.
Như một bản tóm tắt những đóng góp của chúng tôi:
– chúng tôi giới thiệu một quy trình so khớp mang lại những cải tiến đáng kể về chất lượng và số lượng trong quá trình thử ảo, bất kể sử dụng công cụ cong vênh nào.
– chúng tôi giới thiệu một mô hình cong vênh có thể học nhiều đường cong phối hợp và luôn vượt trội so với đường cơ sở trên tất cả các bộ thử nghiệm.
– kết quả do chúng tôi tạo ra bảo tồn các chi tiết đủ chính xác và thực tế để khiến người mua hàng nghĩ rằng một số hình ảnh tổng hợp là thật.
Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-SA 4.0 DEED.