저자:
(1) 일리노이 대학교 어바나-샴페인 캠퍼스의 케단 리(Kedan Li);
(2) 일리노이 대학교 어바나-샴페인 캠퍼스 민진정(Min Jin Chong);
(3) JD AI 리서치의 Jingen Liu;
(4) David Forsyth, 일리노이 대학교 어바나-샴페인 캠퍼스.
VITON 데이터세트[17]에는 제품 이미지(정면도, 평면도, 흰색 배경)와 스튜디오 이미지, 2D 포즈 맵 및 포즈 키 포인트 쌍이 포함되어 있습니다. 이는 많은 작품에서 사용되었습니다 [45,11,15,53,24,22,2,37]. DeepFashion[33] 또는 MVC[32] 및 기타 자체 수집 데이터세트[12,21,47,55]를 사용한 다중 포즈 매칭에 대한 일부 작업[47,15,13,51]. 이러한 데이터 세트에는 여러 사람이 착용한 동일한 제품이 있지만 제품 이미지가 없으므로 우리 작업에 적합하지 않습니다.
VITON 데이터세트에는 상위 항목만 있습니다. 이는 (예를 들어) 바지의 주름이 상의의 주름과 다르기 때문에 성능이 향상될 가능성이 높습니다. 일부 의류(가운, 재킷 등)는 압축이 풀려 열려 뒤틀림 문제가 발생하는 경우가 많습니다. 스커트의 드레이프는 매우 다양하며 주름, 직물 결의 방향 등과 같은 세부 사항에 따라 달라집니다. 이러한 실제 문제를 강조하기 위해 우리는 웹스크래핑 패션 전자상거래 사이트를 통해 422,756개의 패션 제품에 대한 새로운 데이터세트를 수집했습니다. 각 제품에는 제품 이미지(정면도, 눕혀진 모습, 흰색 배경), 모델 이미지(한 사람, 대부분 정면도) 및 기타 메타데이터가 포함되어 있습니다. 신발, 액세서리를 제외한 모든 카테고리를 활용하여 4가지 타입(상의, 하의, 아우터, 올바디)으로 분류합니다. 유형 세부 사항은 보충 자료에 나와 있습니다.
데이터를 훈련용 80%와 테스트용 20%로 무작위로 나눕니다. 데이터세트에는 분할 주석이 제공되지 않기 때문에 ModaNet 데이터세트[56]에서 사전 훈련된 Deeplab v3[6]을 사용하여 모델 이미지에 대한 분할 마스크를 얻습니다. 분할 마스크의 상당 부분에 노이즈가 있어 난이도가 더욱 높아집니다(보충 자료 참조).
우리는 이전 작업과의 비교를 용이하게 하기 위해 새로 수집된 데이터세트와 VITON 데이터세트[17]에 대해 모델을 훈련합니다. VITON 데이터 세트에 대한 방법을 훈련할 때 제품에 해당하는 2D 포즈 맵 부분만 추출하여 분할 마스크를 얻고 나머지는 버립니다. 교육 절차에 대한 자세한 내용은 보충 자료에 나와 있습니다.
우리는 또한 데이터 세트에 대한 이전 작업을 훈련하려고 시도했습니다. 그러나 이전 작업 [45,17,11,15,53,24,22,13,47,51,7,37]에는 데이터 세트에서 사용할 수 없는 포즈 추정 주석이 필요합니다. 따라서 우리는 VITON 데이터 세트에 대한 이전 작업과만 비교합니다.
최신 기술과의 양적 비교는 어렵습니다. 다른 논문에서 FID를 보고하는 것은 의미가 없습니다. 왜냐하면 그 값은 편향되어 있고 편향은 사용된 네트워크의 매개변수에 따라 달라지기 때문입니다[9,37]. 우리는 편견이 없는 FID Infini 점수를 사용합니다. 결과가 공개되지 않았기 때문에 대부분의 다른 방법에 대해서는 FID를 계산할 수 없습니다. 실제로 최근 방법(예: [15,53,24,24,42,22,2])에서는 구현이 공개되지 않았습니다. CP-VTON[45]은 이를 비교 지점으로 사용합니다.
대부분의 평가는 정성적이며 다른 것[24,37]도 2,032개의 합성 쌍으로 구성된 VITON의 원래 테스트 세트에 대한 FID 점수를 계산했습니다. 데이터 세트가 작기 때문에 이 FID 점수는 의미가 없습니다. 계산으로 인해 발생하는 분산이 높아서 FID 점수에 큰 편향이 발생하여 부정확해집니다. 정확한 비교를 보장하기 위해 원본 작업 [17]의 절차에 따라 무작위 매칭을 통해 합성된 50,000쌍의 더 큰 테스트 세트를 만들었습니다. 우리는 원래 테스트 세트의 모든 항목에 대한 모양 임베딩 공간에서 가장 가까운 상위 25개 이웃을 선택하여 모양 일치 모델을 사용하여 새로운 테스트 세트를 만들었습니다. 모양 임베딩을 계산하기 위해 컬러 이미지와 회색조 이미지를 사용하여 각각 50,000쌍의 두 개의 데이터 세트를 생성합니다. 그레이스케일 제거는 모양 임베딩이 색상 특징을 보는지 여부를 알려줍니다.
워프 수는 데이터세트의 테스트 세트에서 서로 다른 k를 갖는 워퍼를 사용하여 L1 오류와 지각 오류(ImageNet에서 사전 훈련된 VGG19 사용)를 계산하여 선택됩니다. 여기서 워퍼는 해당 제품을 착용한 모델에 제품을 매핑하여 평가됩니다. 그림 5에서 볼 수 있듯이 k = 2는 지속적으로 k = 1보다 성능이 뛰어납니다. 그러나 두 개 이상의 워프가 있으면 과적합으로 인해 현재 훈련 구성을 사용하여 성능도 저하됩니다.
데이터 세트의 10%를 사용하여 다양한 β 값으로 단일 워프 모델을 훈련한 다음 테스트에서 평가하여 β를 선택합니다. 표 1은 β가 너무 크거나 두 개 작으면 성능이 저하된다는 것을 보여줍니다. β = 3이 가장 좋은 결과이므로 채택됩니다. 보충자료를 통해 정성적 비교가 가능합니다.
이 데이터를 사용하여 단일 워프(k = 1), 두 개의 워프(k = 2) 및 두 개의 워프 혼합을 사용하는 방법인 CP-VTON을 비교할 수 있습니다. 혼합 모델은 연결 대신 두 워프의 평균을 사용합니다. 결과는 표 4.3에 나와 있습니다. 우리는 찾는다:
– 모든 방법에 대해 모델을 선택하면 더 나은 결과를 얻을 수 있습니다.
– 컬러와 그레이스케일 매칭 중에서 선택할 수 있는 것이 거의 없으므로 매칭은 주로 의류 형태에 따라 결정됩니다.
– 두 개의 워퍼를 갖는 것이 하나를 갖는 것보다 낫습니다.
– 블렌딩보다 u-net과 결합하는 것이 훨씬 좋습니다.
우리는 정량적 측정이 상대적으로 조잡하기 때문에 정량적 결과가 더 많은 워퍼 사용의 개선을 과소평가한다고 믿습니다. 질적 증거가 이를 뒷받침합니다(그림 7).
우리는 질적 비교를 생성하기 위해 [15,24,53,37]에서 일치하는 예를 주의 깊게 살펴보았습니다. MG-VTON[12]과의 비교는 해당 작업에 고정 자세 정성적 예가 포함되지 않았기 때문에 적용할 수 없습니다. 이전 작업에서는 전체 2D 포즈 맵과 키포인트 포즈 주석을 사용하는 반면 모델은 2D 포즈 맵에서 의복에 해당하는 영역만 사용하여 훈련하고 테스트하기 때문에 비교에서는 이전 작업이 유리합니다.
일반적으로 의복을 옮기는 것은 어렵지만 현대적인 방법은 이제 주로 세부적인 부분에서 실패합니다. 이는 이전을 평가할 때 세부 사항에 세심한 주의가 필요하다는 것을 의미합니다. 그림 6은 몇 가지 비교를 보여줍니다. 특히 경계, 질감, 의복 세부 사항 주변의 이미지 세부 사항에 주의를 기울이면 작업의 어려움이 드러납니다. 왼쪽 그림 6에서 볼 수 있듯이 우리의 방법은 복잡한 질감을 강력하게 처리하고(열 a, c) 로고의 세부 사항을 정확하게 보존할 수 있습니다(열 b, e, f, g, i). 또한 이 예는 인페인팅 기반 방법과 이전 작업 간의 명확한 차이점을 보여줍니다. 우리 방법은 원래 천이 있는 영역만 수정합니다.
제시. 이 속성을 사용하면 대부분의 이전 작업보다 팔다리(열 a, d, f, g, h, j) 및 기타 의류 항목(열 a, b)의 세부 사항을 더 잘 보존할 수 있습니다. 일부 결과(col. c, g)는 포즈 맵의 가장자리가 약간 잘못 정렬되어 있기 때문에(불완전한 분할 마스크) 경계에 원래 천의 색상 아티팩트를 표시합니다. 이는 우리의 방법이 고품질 결과를 생성하기 위해 미세한 분할 마스크에 의존한다는 것을 확인시켜줍니다. 일부 쌍의 모양이 약간 일치하지 않습니다(열 d, h). 테스트 세트가 모양 임베딩을 사용하여 구성되면 우리 방법에서는 이런 일이 거의 발생하지 않습니다. 따라서 우리의 방법은 이를 해결하려고 시도하지 않습니다.
두 개의 워프가 하나보다 확실히 더 좋습니다(그림 7). 이는 두 번째 워프가 단일 워프 모델이 해결하지 못한 정렬 및 세부 사항을 수정할 수 있기 때문일 수 있습니다. 단추가 없거나 지퍼가 풀린 겉옷과 태그가 있는 제품 이미지에 특별한 개선이 이루어졌습니다. 이러한 개선점은 픽셀 값의 차이가 작기 때문에 정량적 평가로는 쉽게 포착되지 않을 수 있습니다.
우리는 이전 작업[17,45,11]에서 자주 채택되었기 때문에 데이터 세트에 워프를 생성하기 위해 기하학적 일치 모듈(TPS 변환 사용)을 훈련하려고 시도했습니다. 그러나 TPS 변환은 파티션 및 중요한 폐색에 적응하지 못했습니다(보충 자료의 예).
우리는 사용자 연구를 통해 사용자가 합성 이미지를 얼마나 자주 식별할 수 있는지 확인했습니다. 사용자에게 제품을 착용한 모델의 이미지가 실제인지 합성인지 질문을 받습니다. 디스플레이는 그림 8과 같이 가능한 가장 높은 해상도(512x512)를 사용합니다.
우리는 마스크가 좋은 예를 사용하여 결과의 상위 20번째 백분위수를 공정하게 표현했습니다. 사용자는 연구 전에 두 개의 실제 쌍과 가짜 쌍으로 준비됩니다. 그런 다음 각 참가자는 25개의 실제 쌍과 50개의 쌍으로 테스트됩니다.
25개의 가짜, 반복되는 제품이 없습니다. 우리는 두 명의 사용자 집단(시각 연구자와 무작위로 선택된 참가자)을 테스트합니다.
대부분의 사용자는 우리 이미지에 속습니다. 매우 높은 위양성(즉, 사용자가 실제라고 표시한 합성 이미지) 비율이 있습니다(표 3). 그림 8은 일반 인구의 70%가 실제라고 보고한 합성 이미지의 두 가지 예를 보여줍니다. 영역 분할과 복잡한 음영을 적용한 하드 아우터의 예입니다. 그럼에도 불구하고 우리의 방법은 고품질 합성을 생성하는 데 성공했습니다. 사용자 연구의 모든 질문과 전체 결과에 대한 보충 자료를 참조하세요.
이 문서는 CC BY-NC-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다 .