tác giả:
(1) Kedan Li, Đại học Illinois tại Urbana-Champaign;
(2) Min Jin Chong, Đại học Illinois tại Urbana-Champaign;
(3) Jingen Liu, JD AI Research;
(4) David Forsyth, Đại học Illinois tại Urbana-Champaign.
Bộ dữ liệu VITON [17] chứa các cặp hình ảnh sản phẩm (mặt trước, nằm phẳng, nền trắng) và hình ảnh studio, bản đồ tư thế 2D và các điểm chính về tư thế. Nó đã được sử dụng bởi nhiều công trình [45,11,15,53,24,22,2,37]. Một số tác phẩm [47,15,13,51] về khớp nhiều tư thế đã sử dụng DeepFashion [33] hoặc MVC [32] và các bộ dữ liệu tự thu thập khác [12,21,47,55]. Các tập dữ liệu này có cùng một sản phẩm được nhiều người mặc nhưng không có hình ảnh sản phẩm nên không phù hợp với nhiệm vụ của chúng ta.
Bộ dữ liệu VITON chỉ có phần trên cùng. Điều này có thể làm tăng hiệu suất, bởi vì (ví dụ): độ rủ của quần khác với độ rủ của áo; một số loại quần áo (áo choàng, áo khoác, v.v.) thường không được kéo khóa và hở, gây ra hiện tượng cong vênh; độ rủ của váy rất thay đổi và phụ thuộc vào các chi tiết như nếp gấp, hướng của thớ vải, v.v. Để nhấn mạnh những vấn đề thực tế này, chúng tôi đã thu thập một tập dữ liệu mới gồm 422.756 sản phẩm thời trang thông qua các trang web thương mại điện tử về thời trang. Mỗi sản phẩm chứa một hình ảnh sản phẩm (mặt trước, nằm phẳng, nền trắng), hình ảnh mô hình (một người, chủ yếu là nhìn từ phía trước) và siêu dữ liệu khác. Chúng tôi sử dụng tất cả các danh mục ngoại trừ giày và phụ kiện và nhóm chúng thành bốn loại (áo, quần, áo khoác ngoài hoặc toàn thân). Chi tiết loại xuất hiện trong các tài liệu bổ sung.
Chúng tôi chia ngẫu nhiên dữ liệu thành 80% để đào tạo và 20% để kiểm tra. Do tập dữ liệu không đi kèm chú thích phân đoạn nên chúng tôi sử dụng Deeplab v3 [6] được đào tạo trước trên tập dữ liệu ModaNet [56] để lấy mặt nạ phân đoạn cho hình ảnh mô hình. Một phần lớn mặt nạ phân đoạn gây ồn, điều này càng làm tăng độ khó (xem Tài liệu bổ sung).
Chúng tôi đào tạo mô hình của mình trên tập dữ liệu mới được thu thập và tập dữ liệu VITON [17] để tạo điều kiện so sánh với công việc trước đó. Khi đào tạo phương pháp của chúng tôi trên tập dữ liệu VITON, chúng tôi chỉ trích xuất phần bản đồ tư thế 2D tương ứng với sản phẩm để lấy mặt nạ phân đoạn và loại bỏ phần còn lại. Chi tiết về quy trình đào tạo có trong Tài liệu bổ sung.
Chúng tôi cũng đã cố gắng đào tạo các tác phẩm trước đó trên tập dữ liệu của mình. Tuy nhiên, công việc trước [45,17,11,15,53,24,22,13,47,51,7,37] yêu cầu chú thích ước tính tư thế không có sẵn trong tập dữ liệu của chúng tôi. Vì vậy, chúng tôi chỉ so sánh với công việc trước đó trên bộ dữ liệu VITON.
So sánh định lượng với hiện đại là khó khăn. Báo cáo FID trong các bài báo khác là vô nghĩa, bởi vì giá trị bị sai lệch và độ lệch phụ thuộc vào các tham số của mạng được sử dụng [9,37]. Chúng tôi sử dụng điểm FID∞, điểm này không thiên vị. Chúng tôi không thể tính FID∞ cho hầu hết các phương pháp khác vì kết quả chưa được công bố; trên thực tế, các phương pháp gần đây (ví dụ [15,53,24,24,42,22,2]) chưa đưa ra bản triển khai nào. CP-VTON [45] có và chúng tôi sử dụng điều này làm điểm so sánh.
Hầu hết các đánh giá đều mang tính định tính và những đánh giá khác [24,37] cũng tính điểm FID trên bộ thử nghiệm ban đầu của VITON, chỉ bao gồm 2.032 cặp tổng hợp. Do tập dữ liệu nhỏ nên điểm FID này không có ý nghĩa. Phương sai phát sinh từ phép tính sẽ cao, dẫn đến sai lệch lớn về điểm FID, khiến kết quả không chính xác. Để đảm bảo so sánh chính xác, chúng tôi đã tạo một bộ thử nghiệm lớn hơn gồm 50.000 cặp tổng hợp thông qua kết hợp ngẫu nhiên, theo quy trình của tác phẩm gốc [17]. Chúng tôi đã tạo các bộ thử nghiệm mới bằng mô hình khớp hình dạng của mình bằng cách chọn 25 lân cận gần nhất trong không gian nhúng hình dạng cho mọi mục trong bộ thử nghiệm ban đầu. Chúng tôi tạo ra hai bộ dữ liệu, mỗi bộ gồm 50.000 cặp sử dụng hình ảnh màu và hình ảnh thang độ xám để tính toán nhúng hình dạng. Việc cắt bỏ thang độ xám cho chúng ta biết liệu việc nhúng hình dạng có xem xét các đặc điểm màu sắc hay không.
Số lượng sợi dọc được chọn bằng cách tính toán lỗi L1 và lỗi nhận thức (sử dụng VGG19 được đào tạo trước trên ImageNet) bằng cách sử dụng các bộ cong vênh với k khác nhau trên tập thử nghiệm của tập dữ liệu của chúng tôi. Ở đây, độ cong vênh được đánh giá bằng cách ánh xạ một sản phẩm tới một người mẫu đang mặc sản phẩm đó. Như được hiển thị trong Hình 5, k = 2 luôn hoạt động tốt hơn k = 1. Tuy nhiên, việc có nhiều hơn hai điểm dọc cũng làm giảm hiệu suất khi sử dụng cấu hình đào tạo hiện tại, có thể do trang bị quá mức.
Chúng tôi chọn β bằng cách đào tạo một mô hình dọc duy nhất với các giá trị β khác nhau bằng cách sử dụng 10% tập dữ liệu, sau đó đánh giá bằng thử nghiệm. Bảng 1 cho thấy rằng một β quá lớn hoặc hai β quá nhỏ sẽ khiến hiệu suất giảm xuống. β = 3 là tốt nhất nên được chấp nhận. So sánh định tính có sẵn trong các tài liệu bổ sung.
Với dữ liệu này, chúng tôi có thể so sánh CP-VTON, phương pháp của chúng tôi sử dụng một sợi dọc đơn (k = 1) và hai sợi dọc (k = 2) và hai sợi dọc được trộn lẫn. Mô hình kết hợp lấy trung bình của hai sợi dọc thay vì nối. Kết quả được thể hiện trong Bảng 4.3. Chúng ta tìm thấy:
– đối với tất cả các phương pháp, việc chọn mô hình sẽ mang lại kết quả tốt hơn;
– có rất ít sự lựa chọn giữa màu sắc và sự kết hợp thang độ xám, do đó sự phù hợp chủ yếu tập trung vào hình dáng trang phục;
– có hai máy dọc thì tốt hơn là có một;
– kết hợp với u-net tốt hơn nhiều so với trộn.
Chúng tôi tin rằng các kết quả định lượng đã đánh giá thấp sự cải thiện của việc sử dụng nhiều dụng cụ cong vênh hơn, bởi vì thước đo định lượng còn tương đối thô. Bằng chứng định tính ủng hộ điều này (hình 7).
Chúng tôi đã xem xét cẩn thận các ví dụ phù hợp trong [15,24,53,37] để đưa ra so sánh định tính. Việc so sánh với MG-VTON [12] không được áp dụng vì tác phẩm không bao gồm bất kỳ ví dụ định tính về tư thế cố định nào. Lưu ý rằng việc so sánh ưu tiên công việc trước đó vì mô hình của chúng tôi đào tạo và kiểm tra chỉ sử dụng vùng tương ứng với trang phục trong bản đồ tư thế 2D trong khi công việc trước đó sử dụng bản đồ tư thế 2D đầy đủ và chú thích tư thế điểm chính.
Nói chung, việc chuyển giao hàng may mặc rất khó, nhưng các phương pháp hiện đại hiện nay chủ yếu thất bại ở chi tiết. Điều này có nghĩa là việc đánh giá sự chuyển giao đòi hỏi sự chú ý cẩn thận đến từng chi tiết. Hình 6 cho thấy một số so sánh. Đặc biệt, việc chú ý đến chi tiết hình ảnh xung quanh các đường viền, họa tiết và chi tiết trang phục sẽ bộc lộ một số khó khăn trong công việc. Như được hiển thị trong Hình 6 bên trái, phương pháp của chúng tôi có thể xử lý mạnh mẽ kết cấu phức tạp (col. a, c) và bảo toàn chính xác các chi tiết của logo (col. b, e, f, g, i). Các ví dụ cũng cho thấy sự khác biệt rõ ràng giữa phương pháp dựa trên sơn vẽ của chúng tôi và phương pháp trước đó – phương pháp của chúng tôi chỉ sửa đổi khu vực có tấm vải gốc
được trình bày. Đặc tính này cho phép chúng ta bảo quản các chi tiết của chi tiết (col. a, d, f, g, h, j) và các mặt hàng quần áo khác (col. a, b) tốt hơn hầu hết các công việc trước đây. Một số kết quả của chúng tôi (col. c, g) hiển thị các tạo tác màu từ vải ban đầu trên đường biên vì cạnh của bản đồ tư thế hơi bị lệch (mặt nạ phân đoạn không hoàn hảo). Điều này xác nhận rằng phương pháp của chúng tôi dựa vào mặt nạ phân đoạn hạt mịn để tạo ra kết quả chất lượng cao. Một số cặp hơi không khớp về hình dạng (col. d, h). Điều này hiếm khi xảy ra với phương pháp của chúng tôi nếu tập kiểm tra được xây dựng bằng cách nhúng hình dạng. Do đó, phương pháp của chúng tôi không cố gắng giải quyết nó.
Hai sợi dọc rõ ràng là tốt hơn một (Hình 7), có thể là do sợi dọc thứ hai có thể khắc phục sự căn chỉnh và các chi tiết mà mô hình sợi dọc đơn không giải quyết được. Những cải tiến đặc biệt xảy ra đối với áo khoác ngoài không cài cúc/không khóa kéo và đối với hình ảnh sản phẩm có gắn thẻ. Những cải tiến này có thể không dễ dàng nắm bắt được bằng cách đánh giá định lượng vì sự khác biệt về giá trị pixel là nhỏ.
Chúng tôi đã cố gắng huấn luyện mô-đun đối sánh hình học (sử dụng biến đổi TPS) để tạo các đường dọc trên tập dữ liệu của chúng tôi, vì nó thường được áp dụng trong công việc trước đó [17,45,11]. Tuy nhiên, phép biến đổi TPS không thể thích ứng với các phân vùng và các điểm tắc quan trọng (ví dụ trong Tài liệu bổ sung).
Chúng tôi đã sử dụng nghiên cứu người dùng để kiểm tra tần suất người dùng có thể xác định hình ảnh tổng hợp. Người dùng được hỏi liệu hình ảnh người mẫu đang mặc sản phẩm (được hiển thị) là thật hay tổng hợp. Màn hình sử dụng độ phân giải cao nhất có thể (512x512), như trong hình 8.
Chúng tôi đã sử dụng các ví dụ trong đó mặt nạ tốt, thể hiện hợp lý 20 phần trăm kết quả hàng đầu của chúng tôi. Người dùng được chuẩn bị sẵn hai cặp thật và giả trước khi nghiên cứu. Sau đó, mỗi người tham gia sẽ được kiểm tra với 50 cặp gồm 25 thẻ thật và
25 sản phẩm giả, không lặp lại. Chúng tôi kiểm tra hai nhóm người dùng (nhà nghiên cứu thị giác và những người tham gia được chọn ngẫu nhiên).
Hầu hết người dùng bị đánh lừa bởi hình ảnh của chúng tôi; có tỷ lệ dương tính giả rất cao (tức là hình ảnh tổng hợp được người dùng đánh dấu là thật) (bảng 3). Hình 8 cho thấy hai ví dụ về hình ảnh tổng hợp mà 70% dân số nói chung cho là có thật. Chúng là những ví dụ về áo khoác ngoài cứng có phân chia vùng và tạo bóng phức tạp. Tuy nhiên, phương pháp của chúng tôi đã tạo ra sự tổng hợp chất lượng cao. Xem tài liệu bổ sung cho tất cả các câu hỏi và kết quả đầy đủ của nghiên cứu người dùng.
Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-SA 4.0 DEED.