저자:
(1) 일리노이 대학교 어바나-샴페인 캠퍼스의 케단 리(Kedan Li);
(2) 일리노이 대학교 어바나-샴페인 캠퍼스 민진정(Min Jin Chong);
(3) JD AI 리서치의 Jingen Liu;
(4) David Forsyth, 일리노이 대학교 어바나-샴페인 캠퍼스.
가상 시착 방식은 제품 이미지와 모델 이미지를 촬영하여 모델이 제품을 착용한 이미지를 생성하는 방식입니다. 대부분의 방법은 기본적으로 제품 이미지에서 모델 이미지까지의 워프를 계산하고 이미지 생성 방법을 사용하여 결합합니다. 그러나 의복의 운동학은 복잡하고 이미지의 윤곽선, 질감 및 음영 신호가 보는 사람에게 오류를 드러내기 때문에 사실적인 이미지를 얻는 것은 어렵습니다. 의복에는 적절한 커튼이 있어야 합니다. 질감은 드레이프된 의류의 모양과 일치하도록 뒤틀려야 합니다. 작은 디테일(단추, 칼라, 옷깃, 주머니 등)은 의복 등에 적절하게 배치되어야 합니다. 평가는 특히 어렵고 일반적으로 정성적입니다.
이 논문에서는 (a) 모든 워핑 방법에 대해 대상 모델을 자동으로 선택하여 결과를 개선할 수 있고 (b) 여러 개의 조정된 특수 워퍼를 학습하면 결과가 더욱 향상된다는 점을 입증하기 위해 까다롭고 새로운 데이터 세트에 대한 정량적 평가를 사용합니다. 대상 모델은 모델이 착용하고 있는 제품의 표현을 예측하는 학습된 임베딩 절차를 통해 선택됩니다. 이 예측은 제품을 모델과 일치시키는 데 사용됩니다. 특수 워퍼는 첫 번째 워퍼가 제대로 작동하지 않는 위치에서 두 번째 워퍼가 잘 작동하도록 장려하는 방법으로 훈련됩니다. 그런 다음 워프는 U-Net을 사용하여 결합됩니다. 정성적 평가를 통해 이러한 개선 사항이 윤곽선, 질감 음영 및 의류 세부 사항에 걸쳐 전반적으로 개선되었음을 확인했습니다.
키워드: 패션, 가상시착, 이미지 생성, 이미지 워핑
전자상거래란 제품을 직접 입어볼 수 없다는 의미인데, 이는 패션소비자에게는 어려운 일이다[44]. 이제 사이트에서는 제품을 착용한 모델의 사진 촬영을 일상적으로 게시하지만 볼륨과 회전율로 인해 그렇게 하는 데는 비용과 시간이 많이 소요됩니다[34]. 다양한 의상을 입은 패션모델의 사실적이고 정확한 이미지를 생성할 필요가 있습니다. 자세의 3D 모델을 사용할 수 있습니다[8,14]. 3D 측정 없이 제품 모델 이미지를 합성하는 대안[17,45,39,11,15]을 가상 시험착용이라고 합니다. 이러한 방법은 일반적으로 두 가지 구성 요소로 구성됩니다. 1) 제품을 휘게 하는 공간 변환기
모델 포즈의 일부 추정을 사용한 이미지 및 2) 거칠게 정렬되고 뒤틀린 제품을 모델 이미지와 결합하여 제품을 착용한 모델의 사실적인 이미지를 생성하는 이미지 생성 네트워크.
문헌에서 강조하는 티셔츠와 같은 단순한 의류로 옮기는 것이 훨씬 쉽습니다. 일반 의류(티셔츠와 달리)는 앞으로 열릴 수 있습니다. 정교한 커튼이 있습니다. 칼라나 커프스와 같은 모양의 구조가 있습니다. 버튼이 있습니다. 등등. 이러한 효과는 기존 방법에 심각한 문제를 제기합니다(보충 자료의 예). 제품 이미지를 사용하여 해당 의류에 적합한 모델 이미지를 선택하면 워핑이 크게 개선됩니다(그림 1).
적어도 부분적으로 이는 이미지 생성 네트워크가 훈련되는 방식의 결과입니다. 우리는 제품과 제품을 착용한 모델이라는 쌍의 이미지를 사용하여 훈련합니다[17,45,53]. 이는 생성 네트워크가 항상 대상 이미지가 제품에 적합할 것으로 기대한다는 것을 의미합니다(따라서 예를 들어 드레스를 입은 모델에게 스웨터를 입혀주는 것과 같이 훈련되지 않았습니다(그림 1).) 대안은 적대적 훈련을 사용하는 것입니다[11,12,38,13,37]. 하지만 이 프레임워크에서는 특정 제품 세부 정보(예: 특정 스타일의 버튼, 티셔츠 데칼)를 유지하기가 어렵습니다. 이러한 어려움을 해결하기 위해 우리는 고품질 전송을 가져올 제품-모델 쌍을 선택하기 위한 임베딩 공간을 학습합니다(그림 2). 임베딩은 모델 이미지의 의류가 제품 이미지에 있을 경우 어떤 모양을 취할지 예측하는 방법을 학습합니다. 그런 다음 비슷한 모양의 의류를 입은 모델과 제품을 매칭합니다. 모델은 일반적으로 많은 옷을 입기 때문에 공간 주의 시각적 인코더를 사용하여 의류의 각 카테고리(상의, 하의, 겉옷, 전신 등)를 분석하고 각각을 별도로 삽입합니다.
의복이 열려 있을 때(예: 단추가 풀린 코트) 또 다른 문제가 발생합니다. 이 경우 워프 대상에는 둘 이상의 연결된 구성요소가 있을 수 있습니다. 워퍼는 한 영역은 잘 맞고 다른 영역은 잘못 맞춰지는 경향이 있어 세부 사항이 잘못 정렬됩니다(그림 1의 버튼). 이러한 오류는 훈련 손실에 거의 기여하지 않을 수 있지만 매우 명백하며 실제 사용자에게는 심각한 문제로 간주됩니다. 우리는 여러 개의 조정된 특수 워프를 사용하면 워핑에 있어 상당한 양적, 질적 개선이 이루어짐을 보여줍니다. 우리 워퍼는 서로 조화를 이루도록 훈련된 여러 워프를 생성합니다. 인페인팅 네트워크는 워프와 마스크된 모델을 결합하고 합성된 이미지를 생성합니다. 인페인팅 네트워크는 본질적으로 워프 중에서 선택하는 방법을 학습하는 동시에 워퍼가 공동으로 훈련될 때 워퍼에게 지침을 제공합니다. 정성적 평가를 통해 개선의 중요한 부분이 버튼, 포켓, 라벨 등에 대한 더 나은 예측에서 비롯된다는 사실이 확인되었습니다.
가상 시착에 대한 대규모 정량적 평가를 보여줍니다. 우리는 패션 전자상거래 사이트를 마이닝하여 422,756쌍의 제품 이미지와 스튜디오 사진으로 구성된 새로운 데이터 세트를 수집했습니다. 데이터 세트에는 여러 제품 카테고리가 포함되어 있습니다. 우리는 확립된 VITON 데이터세트[17]에 대한 이전 작업과 양적, 질적 모두를 비교합니다. 정량적 결과는 모양 임베딩을 사용하여 제품 모델 쌍을 선택하면 모든 이미지 생성 파이프라인이 크게 향상된다는 것을 보여줍니다(표 4.3). 다중 워프를 사용하면 정량적(표 4.3, 그림 5) 및 정성적(그림 7) 결과를 통해 입증된 것처럼 단일 워프 기준보다 일관되게 뛰어난 성능을 발휘합니다. 이전 작업과의 질적 비교는 우리 시스템이 이전 작업보다 변경 의류와 대상 모델의 세부 사항을 더 정확하게 유지한다는 것을 보여줍니다. 실제 모델을 합성 모델로 대체하기 위해 전자상거래 비용을 시뮬레이션하는 사용자 연구를 수행했습니다. 결과는 합성된 모델의 40%가 실제 모델로 간주된다는 것을 보여줍니다.
우리의 기여를 요약하면 다음과 같습니다.
– 어떤 워퍼를 사용하든 가상 시착에서 상당한 질적, 양적 개선을 가져오는 매칭 절차를 소개합니다.
– 여러 개의 조정된 워프를 학습하고 모든 테스트 세트에서 기준선보다 지속적으로 뛰어난 성능을 발휘하는 워핑 모델을 도입합니다.
– 생성된 결과는 쇼핑객이 합성 이미지 중 일부가 실제라고 생각할 수 있을 만큼 정확하고 사실적으로 세부 정보를 보존합니다.
이 문서는 CC BY-NC-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다 .