paint-brush
형태 매칭을 통한 정확하고 실감나는 가상 시착을 향하여: 관련 연구~에 의해@polyframe
252 판독값

형태 매칭을 통한 정확하고 실감나는 가상 시착을 향하여: 관련 연구

~에 의해 Polyframe Peer Reviewed Publication4m2024/06/08
Read on Terminal Reader

너무 오래; 읽다

연구원들은 새로운 데이터 세트를 사용하여 대상 모델을 선택하고 전문 워퍼를 훈련시켜 현실감과 정확성을 향상함으로써 가상 시험 방법을 개선합니다.
featured image - 형태 매칭을 통한 정확하고 실감나는 가상 시착을 향하여: 관련 연구
Polyframe Peer Reviewed Publication HackerNoon profile picture
0-item

저자:

(1) 일리노이 대학교 어바나-샴페인 캠퍼스의 케단 리(Kedan Li);

(2) 일리노이대학교 어바나-샴페인캠퍼스 민진정(Min Jin Chong);

(3) JD AI 리서치의 Jingen Liu;

(4) David Forsyth, 일리노이 대학교 어바나-샴페인 캠퍼스.

링크 표

2. 관련 업무

이미지 합성 : 공간 변환기 네트워크는 신경망을 사용하여 기하학적 변환을 추정합니다[23]. 후속 작업 [28,39]에서는 한 개체를 다른 개체로 워프하는 방법을 보여줍니다. 워핑은 단단한 물체[26,30]와 비강체 물체(예: 옷)[17,12,45]의 이미지를 생성하는 데 사용될 수 있습니다. 이전 작업과 달리 우리는 여러 공간 워퍼를 사용합니다.


워프는 단일 이미지로 결합되어야 하며 이 이미지를 생성하기 위한 U-Net은 인페인팅(이미지의 누락된 부분을 채우는 방법, [48,31,50,49] 참조)의 추세를 따릅니다. Hanet al. [16,52] 인페인팅 방법을 사용하면 사람의 잃어버린 옷을 완성할 수 있습니다.


우리 연구에서는 FID 를 사용하여 우리의 방법을 정량적으로 평가합니다. 이는 생성 이미지 모델링[5,54,29]의 일반적인 측정항목인 FID(Frchet Inception Distance)[18]를 기반으로 합니다. Chong et al. [9]는 최근 FID가 편향되어 있음을 보여주었습니다. 외삽법은 편향을 제거하여 편향되지 않은 점수(FID Infini)로 만듭니다.


옷을 입은 사람 생성: Zhu et al. [57]은 조건부 GAN을 사용하여 의상의 포즈 뼈대와 텍스트 설명을 기반으로 이미지를 생성했습니다. SwapNet [38]은 옷과 포즈 특징을 풀어서 A 사람에서 B 사람으로 옷을 옮기는 방법을 학습합니다. Hsiaoet al. [20]은 특정 항목에 대한 최소한의 편집을 편리하게 할 수 있도록 의류별 인코딩을 사용하는 패션 모델 합성 네트워크를 학습했습니다. 대조적으로 우리는 제품을 실제 모델 이미지로 변환합니다.


모양 일치는 제품과 모델을 일치시키는 방법의 기초입니다. Tsiaoet al. [19]는 인체와 몸에 잘 맞는 의류 아이템 간의 매칭이 가능하도록 Shape Embedding을 구축했습니다. 이전 연구에서는 2D 이미지를 통해 인체[4,27], 의류 품목[10,25] 및 둘 다[35,40]의 형태를 추정했습니다. DensePose [1] 설명자는 옷감의 변형과 음영을 모델링하는 데 도움이 되므로 최근 연구[36,13,47,51,7,52]에서 채택되었습니다.


VTO( 가상 체험 )는 제품을 모델 이미지에 매핑합니다. VITON [17]은 U-Net을 사용하여 제품이 제시되는 모델에 대략적인 합성과 마스크를 생성합니다. 제품 마스크에서 모델 마스크로의 매핑은 TPS(Thin Plate Spline) 변환[3]을 통해 학습됩니다. 학습된 매핑을 제품 이미지에 적용하여 워프를 생성합니다. 그들의 연구에 이어 Wang et al. [45]는 제품 이미지와 대상 인물의 쌍에서 직접 TPS 변환 매개변수를 추정하기 위해 기하학적 매칭 모듈[39]을 사용하여 아키텍처를 개선했습니다. 워프와 대상 이미지를 결합하기 위해 별도의 정제 네트워크를 훈련합니다. VTNFP[53]는 신체 부분 예측을 통합하여 작업을 확장하고 이후 작업은 유사한 절차를 따릅니다[37,24,42,22,2]. 그러나 오른쪽 그림 6에서 볼 수 있듯이 TPS 변환은 데이터 세트에서 생성된 마스크의 노이즈로 인해 합리적인 워프를 생성하지 못합니다. 대신, 우리는 TPS 변환 대신 결함에 더 강력한 것으로 밝혀진 아핀 변환을 채택합니다. 다음 작업 그룹은 작업을 다중 포즈로 확장했습니다. Warping-GAN [11]은 적대적 훈련을 GMM과 결합하고 2단계 네트워크를 사용하여 포스트와 텍스처를 별도로 생성합니다. MG-VTON[12]은 3단계 생성 네트워크를 사용하여 생성 방법을 더욱 개선했습니다. 다른 연구[21,55,51,7,46]도 비슷한 절차를 따랐습니다. Hanet al. [15]는 TPS 변환의 자유도가 낮다고 주장하고 흐름 기반 방법을 제안하여 워프를 생성했습니다.


기존의 많은 가상 시착 작업[17,12,21,47,55,53,24,37]은 상의(티셔츠, 셔츠 등)만 있는 데이터 세트에서 평가됩니다. 상의만 있으면 상의가 단순하고 유사한 모양을 갖기 때문에 모양이 일치하지 않을 가능성이 크게 줄어듭니다. 우리 작업에서는 문제를 모든 카테고리의 의류 아이템(티셔츠, 셔츠, 바지, 반바지, 드레스, 스커트, 가운, 재킷, 코트 등)으로 확장하고 원본 제품 간의 모양을 일치시키는 방법을 제안합니다. 그리고 타겟 모델. 평가에 따르면 모양이 일치하는 쌍을 사용하면 우리 작업과 이전 작업 모두에 대한 생성 품질이 크게 향상됩니다(표 4.3).


또한, 실제 스튜디오 의상은 지퍼가 없거나 단추가 풀린 겉옷으로 덮이는 경우가 많으며, 이는 이전 작업에서도 제시되지 않았습니다[17,12,21,47,55,53,37]. 이는 의복에 대한 분할 또는 심각한 폐색을 일으킬 수 있으며 그림 6과 같이 이전 작업에서는 해결되지 않습니다. 우리는 다중 워프 생성 모듈이 이러한 어려움을 개선한다는 것을 보여줍니다.


그림 2. 예를 들어 티셔츠를 입은 모델에게 긴팔 셔츠를 입히는 것은 어렵습니다. 우리 프로세스는 두 단계로 호환 가능한 쌍을 검색합니다. 먼저, 제품-모델 쌍과 공간적 주의를 사용하여 훈련된 의류 시각적 인코더를 사용하여 의류 외관 임베딩을 계산합니다. 그런 다음 모양 인코더는 의류 모양 임베딩에서 모양 임베딩을 계산합니다. 모양 임베딩은 제품 윤곽선을 메트릭으로 사용하여 학습되며 모양 정보만 보존됩니다. Transfer 시 Shape Embed 공간을 검색하여 호환되는 의류를 착용한 모델을 선택합니다.


이 문서는 CC BY-NC-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다 .