paint-brush
Hướng tới việc thử nghiệm ảo thực tế, chính xác thông qua việc khớp hình dạng: Thử nghiệmtừ tác giả@polyframe
183 lượt đọc

Hướng tới việc thử nghiệm ảo thực tế, chính xác thông qua việc khớp hình dạng: Thử nghiệm

từ tác giả Polyframe Peer Reviewed Publication8m2024/06/08
Read on Terminal Reader

dài quá đọc không nổi

Các nhà nghiên cứu cải tiến các phương pháp thử ảo bằng cách sử dụng tập dữ liệu mới để chọn mô hình mục tiêu và đào tạo các chuyên gia điều khiển chuyên dụng, nâng cao tính chân thực và độ chính xác.
featured image - Hướng tới việc thử nghiệm ảo thực tế, chính xác thông qua việc khớp hình dạng: Thử nghiệm
Polyframe Peer Reviewed Publication HackerNoon profile picture
0-item

tác giả:

(1) Kedan Li, Đại học Illinois tại Urbana-Champaign;

(2) Min Jin Chong, Đại học Illinois tại Urbana-Champaign;

(3) Jingen Liu, JD AI Research;

(4) David Forsyth, Đại học Illinois tại Urbana-Champaign.

Bảng liên kết

4. Thí nghiệm

4.1 Bộ dữ liệu

Bộ dữ liệu VITON [17] chứa các cặp hình ảnh sản phẩm (mặt trước, nằm phẳng, nền trắng) và hình ảnh studio, bản đồ tư thế 2D và các điểm chính về tư thế. Nó đã được sử dụng bởi nhiều công trình [45,11,15,53,24,22,2,37]. Một số tác phẩm [47,15,13,51] về khớp nhiều tư thế đã sử dụng DeepFashion [33] hoặc MVC [32] và các bộ dữ liệu tự thu thập khác [12,21,47,55]. Các tập dữ liệu này có cùng một sản phẩm được nhiều người mặc nhưng không có hình ảnh sản phẩm nên không phù hợp với nhiệm vụ của chúng ta.


Bộ dữ liệu VITON chỉ có phần trên cùng. Điều này có thể làm tăng hiệu suất, bởi vì (ví dụ): độ rủ của quần khác với độ rủ của áo; một số loại quần áo (áo choàng, áo khoác, v.v.) thường không được kéo khóa và hở, gây ra hiện tượng cong vênh; độ rủ của váy rất thay đổi và phụ thuộc vào các chi tiết như nếp gấp, hướng của thớ vải, v.v. Để nhấn mạnh những vấn đề thực tế này, chúng tôi đã thu thập một tập dữ liệu mới gồm 422.756 sản phẩm thời trang thông qua các trang web thương mại điện tử về thời trang. Mỗi sản phẩm chứa một hình ảnh sản phẩm (mặt trước, nằm phẳng, nền trắng), hình ảnh mô hình (một người, chủ yếu là nhìn từ phía trước) và siêu dữ liệu khác. Chúng tôi sử dụng tất cả các danh mục ngoại trừ giày và phụ kiện và nhóm chúng thành bốn loại (áo, quần, áo khoác ngoài hoặc toàn thân). Chi tiết loại xuất hiện trong các tài liệu bổ sung.


Chúng tôi chia ngẫu nhiên dữ liệu thành 80% để đào tạo và 20% để kiểm tra. Do tập dữ liệu không đi kèm chú thích phân đoạn nên chúng tôi sử dụng Deeplab v3 [6] được đào tạo trước trên tập dữ liệu ModaNet [56] để lấy mặt nạ phân đoạn cho hình ảnh mô hình. Một phần lớn mặt nạ phân đoạn gây ồn, điều này càng làm tăng độ khó (xem Tài liệu bổ sung).

4.2 Quá trình đào tạo

Chúng tôi đào tạo mô hình của mình trên tập dữ liệu mới được thu thập và tập dữ liệu VITON [17] để tạo điều kiện so sánh với công việc trước đó. Khi đào tạo phương pháp của chúng tôi trên tập dữ liệu VITON, chúng tôi chỉ trích xuất phần bản đồ tư thế 2D tương ứng với sản phẩm để lấy mặt nạ phân đoạn và loại bỏ phần còn lại. Chi tiết về quy trình đào tạo có trong Tài liệu bổ sung.


Chúng tôi cũng đã cố gắng đào tạo các tác phẩm trước đó trên tập dữ liệu của mình. Tuy nhiên, công việc trước [45,17,11,15,53,24,22,13,47,51,7,37] yêu cầu chú thích ước tính tư thế không có sẵn trong tập dữ liệu của chúng tôi. Vì vậy, chúng tôi chỉ so sánh với công việc trước đó trên bộ dữ liệu VITON.

4.3 Đánh giá định lượng

So sánh định lượng với hiện đại là khó khăn. Báo cáo FID trong các bài báo khác là vô nghĩa, bởi vì giá trị bị sai lệch và độ lệch phụ thuộc vào các tham số của mạng được sử dụng [9,37]. Chúng tôi sử dụng điểm FID∞, điểm này không thiên vị. Chúng tôi không thể tính FID∞ cho hầu hết các phương pháp khác vì kết quả chưa được công bố; trên thực tế, các phương pháp gần đây (ví dụ [15,53,24,24,42,22,2]) chưa đưa ra bản triển khai nào. CP-VTON [45] có và chúng tôi sử dụng điều này làm điểm so sánh.


Hình 5. Hình so sánh tổn thất L1 và mất nhận thức (VGG19 được huấn luyện trước) trên bộ kiểm tra trên 200 kỷ nguyên huấn luyện, được ghi lại sau mỗi 5 kỷ nguyên. k=2 có sai số tổng thể thấp nhất. Sử dụng k lớn sẽ tăng tốc quá trình huấn luyện ở giai đoạn đầu nhưng về sau sẽ bị quá tải.


Hầu hết các đánh giá đều mang tính định tính và những đánh giá khác [24,37] cũng tính điểm FID trên bộ thử nghiệm ban đầu của VITON, chỉ bao gồm 2.032 cặp tổng hợp. Do tập dữ liệu nhỏ nên điểm FID này không có ý nghĩa. Phương sai phát sinh từ phép tính sẽ cao, dẫn đến sai lệch lớn về điểm FID, khiến kết quả không chính xác. Để đảm bảo so sánh chính xác, chúng tôi đã tạo một bộ thử nghiệm lớn hơn gồm 50.000 cặp tổng hợp thông qua kết hợp ngẫu nhiên, theo quy trình của tác phẩm gốc [17]. Chúng tôi đã tạo các bộ thử nghiệm mới bằng mô hình khớp hình dạng của mình bằng cách chọn 25 lân cận gần nhất trong không gian nhúng hình dạng cho mọi mục trong bộ thử nghiệm ban đầu. Chúng tôi tạo ra hai bộ dữ liệu, mỗi bộ gồm 50.000 cặp sử dụng hình ảnh màu và hình ảnh thang độ xám để tính toán nhúng hình dạng. Việc cắt bỏ thang độ xám cho chúng ta biết liệu việc nhúng hình dạng có xem xét các đặc điểm màu sắc hay không.


Số lượng sợi dọc được chọn bằng cách tính toán lỗi L1 và lỗi nhận thức (sử dụng VGG19 được đào tạo trước trên ImageNet) bằng cách sử dụng các bộ cong vênh với k khác nhau trên tập thử nghiệm của tập dữ liệu của chúng tôi. Ở đây, độ cong vênh được đánh giá bằng cách ánh xạ một sản phẩm tới một người mẫu đang mặc sản phẩm đó. Như được hiển thị trong Hình 5, k = 2 luôn hoạt động tốt hơn k = 1. Tuy nhiên, việc có nhiều hơn hai điểm dọc cũng làm giảm hiệu suất khi sử dụng cấu hình đào tạo hiện tại, có thể do trang bị quá mức.


Chúng tôi chọn β bằng cách đào tạo một mô hình dọc duy nhất với các giá trị β khác nhau bằng cách sử dụng 10% tập dữ liệu, sau đó đánh giá bằng thử nghiệm. Bảng 1 cho thấy rằng một β quá lớn hoặc hai β quá nhỏ sẽ khiến hiệu suất giảm xuống. β = 3 là tốt nhất nên được chấp nhận. So sánh định tính có sẵn trong các tài liệu bổ sung.



Với dữ liệu này, chúng tôi có thể so sánh CP-VTON, phương pháp của chúng tôi sử dụng một sợi dọc đơn (k = 1) và hai sợi dọc (k = 2) và hai sợi dọc được trộn lẫn. Mô hình kết hợp lấy trung bình của hai sợi dọc thay vì nối. Kết quả được thể hiện trong Bảng 4.3. Chúng ta tìm thấy:


– đối với tất cả các phương pháp, việc chọn mô hình sẽ mang lại kết quả tốt hơn;


– có rất ít sự lựa chọn giữa màu sắc và sự kết hợp thang độ xám, do đó sự phù hợp chủ yếu tập trung vào hình dáng trang phục;


– có hai máy dọc thì tốt hơn là có một;


– kết hợp với u-net tốt hơn nhiều so với trộn.


Chúng tôi tin rằng các kết quả định lượng đã đánh giá thấp sự cải thiện của việc sử dụng nhiều dụng cụ cong vênh hơn, bởi vì thước đo định lượng còn tương đối thô. Bằng chứng định tính ủng hộ điều này (hình 7).

4.4 Kết quả định tính

Chúng tôi đã xem xét cẩn thận các ví dụ phù hợp trong [15,24,53,37] để đưa ra so sánh định tính. Việc so sánh với MG-VTON [12] không được áp dụng vì tác phẩm không bao gồm bất kỳ ví dụ định tính về tư thế cố định nào. Lưu ý rằng việc so sánh ưu tiên công việc trước đó vì mô hình của chúng tôi đào tạo và kiểm tra chỉ sử dụng vùng tương ứng với trang phục trong bản đồ tư thế 2D trong khi công việc trước đó sử dụng bản đồ tư thế 2D đầy đủ và chú thích tư thế điểm chính.


Nói chung, việc chuyển giao hàng may mặc rất khó, nhưng các phương pháp hiện đại hiện nay chủ yếu thất bại ở chi tiết. Điều này có nghĩa là việc đánh giá sự chuyển giao đòi hỏi sự chú ý cẩn thận đến từng chi tiết. Hình 6 cho thấy một số so sánh. Đặc biệt, việc chú ý đến chi tiết hình ảnh xung quanh các đường viền, họa tiết và chi tiết trang phục sẽ bộc lộ một số khó khăn trong công việc. Như được hiển thị trong Hình 6 bên trái, phương pháp của chúng tôi có thể xử lý mạnh mẽ kết cấu phức tạp (col. a, c) và bảo toàn chính xác các chi tiết của logo (col. b, e, f, g, i). Các ví dụ cũng cho thấy sự khác biệt rõ ràng giữa phương pháp dựa trên sơn vẽ của chúng tôi và phương pháp trước đó – phương pháp của chúng tôi chỉ sửa đổi khu vực có tấm vải gốc


Bảng 2. Bảng này so sánh điểm FID∞ (nhỏ hơn, tốt hơn) giữa các phương pháp tổng hợp hình ảnh khác nhau trên các cặp ngẫu nhiên với các cặp khớp bằng cách sử dụng mạng nhúng hình dạng của chúng tôi. Tất cả các giá trị trong col. 1 lớn hơn đáng kể so với col. 2 và 3, chứng tỏ việc chọn một cặp tương thích sẽ cải thiện đáng kể hiệu suất của các phương pháp của chúng tôi và của CP-VTON. Chúng tôi tin rằng cải tiến này áp dụng cho các phương pháp khác nhưng những phương pháp khác chưa xuất bản mã. Qua các phương pháp, phương pháp của chúng tôi với hai bộ cong vênh vượt trội hơn đáng kể so với công việc trước đó trên tất cả các bộ thử nghiệm. Không có nhiều lựa chọn giữa công cụ so khớp màu và thang độ xám, cho thấy rằng quy trình so khớp tập trung vào hình dáng quần áo (như nó được đào tạo để làm). Việc sử dụng hai sợi dọc (k = 2) cho thấy sự cải thiện đôi chút so với việc sử dụng một sợi dọc (k = 1), bởi vì bất kỳ số liệu định lượng nào cũng khó nắm bắt được những cải tiến này. Sự khác biệt được thấy rõ hơn trong các ví dụ định tính (hình 7). Điều quan trọng là sử dụng u-net để kết hợp các sợi dọc; chỉ pha trộn tạo ra kết quả kém (hàng cuối cùng).


Hình 6. So sánh với CP VTON, FabricFlow, VTNFP và SieveNet trên bộ dữ liệu VITON, sử dụng hình ảnh được xuất bản cho các phương pháp đó. Mỗi khối hiển thị một tập dữ liệu khác nhau. Kết quả của chúng tôi nằm ở hàng 2 và kết quả của phương pháp so sánh nằm ở hàng 3. Lưu ý CP-VTON, so với phương pháp của chúng tôi: che khuất đường viền cổ áo (b); sọc răng cưa (c); chuyển đổi quy mô (b); kết cấu bôi nhọ và làm mờ ranh giới (a); và làm mờ chuyển giao (b). Lưu ý GarmentGAN, so với phương pháp của chúng tôi: ranh giới chi bị xé nát (d); mất độ tương phản ở hoa ở thắt lưng (d); và đặt bí danh nghiêm trọng khi chuyển khoản (e). Lưu ý FabricFlow, so với phương pháp của chúng tôi: KHÔNG có sọc răng cưa (f); làm mờ bàn tay (f, g); giải phẫu làm mờ (gân xương đòn và cổ, g); thay đổi quy mô chuyển giao (g). Lưu ý VTNFP, so với phương pháp của chúng tôi: đặt sai vị trí chi tiết kết cấu (hoa ở đường viền cổ và vai, h); chuyển giao sai lệch (i). Lưu ý SieveNet, so với phương pháp của chúng tôi: làm mờ đường viền (j, k); đặt sai còng (k); che bóng xáo trộn (cánh tay trên k). Xem tốt nhất ở màu sắc ở độ phân giải cao.


được trình bày. Đặc tính này cho phép chúng ta bảo quản các chi tiết của chi tiết (col. a, d, f, g, h, j) và các mặt hàng quần áo khác (col. a, b) tốt hơn hầu hết các công việc trước đây. Một số kết quả của chúng tôi (col. c, g) hiển thị các tạo tác màu từ vải ban đầu trên đường biên vì cạnh của bản đồ tư thế hơi bị lệch (mặt nạ phân đoạn không hoàn hảo). Điều này xác nhận rằng phương pháp của chúng tôi dựa vào mặt nạ phân đoạn hạt mịn để tạo ra kết quả chất lượng cao. Một số cặp hơi không khớp về hình dạng (col. d, h). Điều này hiếm khi xảy ra với phương pháp của chúng tôi nếu tập kiểm tra được xây dựng bằng cách nhúng hình dạng. Do đó, phương pháp của chúng tôi không cố gắng giải quyết nó.


Hai sợi dọc rõ ràng là tốt hơn một (Hình 7), có thể là do sợi dọc thứ hai có thể khắc phục sự căn chỉnh và các chi tiết mà mô hình sợi dọc đơn không giải quyết được. Những cải tiến đặc biệt xảy ra đối với áo khoác ngoài không cài cúc/không khóa kéo và đối với hình ảnh sản phẩm có gắn thẻ. Những cải tiến này có thể không dễ dàng nắm bắt được bằng cách đánh giá định lượng vì sự khác biệt về giá trị pixel là nhỏ.


Hình 7. Các hình vẽ thể hiện sự so sánh định tính giữa k = 2 và k = 1. Lưu ý: các nút đặt sai vị trí cho một sợi dọc bên trái, đã sửa cho k = 2; một túi có tỷ lệ sai và các vấn đề về ranh giới tay áo cho sợi dọc đơn ở giữa bên trái, được cố định với k = 2; một nút bị đặt sai vị trí nghiêm trọng và mất ổn định xung quanh ở trung tâm, được cố định với k = 2; nhãn quần áo bị đặt sai vị trí ở giữa bên phải, được sửa với k = 2; một nhãn hàng may mặc khác bị đặt sai vị trí ở bên phải, được sửa với k = 2.


Chúng tôi đã cố gắng huấn luyện mô-đun đối sánh hình học (sử dụng biến đổi TPS) để tạo các đường dọc trên tập dữ liệu của chúng tôi, vì nó thường được áp dụng trong công việc trước đó [17,45,11]. Tuy nhiên, phép biến đổi TPS không thể thích ứng với các phân vùng và các điểm tắc quan trọng (ví dụ trong Tài liệu bổ sung).

4.5 Nghiên cứu người dùng

Chúng tôi đã sử dụng nghiên cứu người dùng để kiểm tra tần suất người dùng có thể xác định hình ảnh tổng hợp. Người dùng được hỏi liệu hình ảnh người mẫu đang mặc sản phẩm (được hiển thị) là thật hay tổng hợp. Màn hình sử dụng độ phân giải cao nhất có thể (512x512), như trong hình 8.


Chúng tôi đã sử dụng các ví dụ trong đó mặt nạ tốt, thể hiện hợp lý 20 phần trăm kết quả hàng đầu của chúng tôi. Người dùng được chuẩn bị sẵn hai cặp thật và giả trước khi nghiên cứu. Sau đó, mỗi người tham gia sẽ được kiểm tra với 50 cặp gồm 25 thẻ thật và


Hình 8. Hai hình ảnh tổng hợp mà 70% người tham gia nghiên cứu người dùng cho là có thật. Hãy lưu ý, ví dụ như màu sắc, nếp nhăn, thậm chí cả khóa kéo và cổ áo.


Bảng 3. Kết quả nghiên cứu người dùng cho thấy người tham gia gặp khó khăn cao trong việc phân biệt giữa hình ảnh thật và hình ảnh tổng hợp. 51,6% và 61,5% hình ảnh giả được đám đông và các nhà nghiên cứu cho là thật. Đôi khi, một số hình ảnh thật cũng bị cho là giả, cho thấy người tham gia đã chú ý.


25 sản phẩm giả, không lặp lại. Chúng tôi kiểm tra hai nhóm người dùng (nhà nghiên cứu thị giác và những người tham gia được chọn ngẫu nhiên).


Hầu hết người dùng bị đánh lừa bởi hình ảnh của chúng tôi; có tỷ lệ dương tính giả rất cao (tức là hình ảnh tổng hợp được người dùng đánh dấu là thật) (bảng 3). Hình 8 cho thấy hai ví dụ về hình ảnh tổng hợp mà 70% dân số nói chung cho là có thật. Chúng là những ví dụ về áo khoác ngoài cứng có phân chia vùng và tạo bóng phức tạp. Tuy nhiên, phương pháp của chúng tôi đã tạo ra sự tổng hợp chất lượng cao. Xem tài liệu bổ sung cho tất cả các câu hỏi và kết quả đầy đủ của nghiên cứu người dùng.


Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-SA 4.0 DEED.


L O A D I N G
. . . comments & more!

About Author

Polyframe Peer Reviewed Publication HackerNoon profile picture
Polyframe Peer Reviewed Publication@polyframe
PolyFrame publishes academic papers about computational framework manipulation of reciprocal polyhedrons.

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI...