paint-brush
배송비 예측을 위한 자기주의의 힘 공개: 방법론~에 의해@convolution
124 판독값

배송비 예측을 위한 자기주의의 힘 공개: 방법론

너무 오래; 읽다

새로운 AI 모델(요율표 변환기)은 패키지 세부 정보(크기, 운송업체 등)를 분석하여 배송 비용을 보다 정확하게 예측합니다.
featured image - 배송비 예측을 위한 자기주의의 힘 공개: 방법론
Convolution: Leading Authority on Signal Processing HackerNoon profile picture
0-item

저자:

(1) P Aditya Sreekar, Amazon 및 이들 저자는 이 작업에 동등하게 기여했습니다 {[email protected]}.

(2) Sahil Verm, Amazon 및 이들 저자는 이 작업에 동등하게 기여했습니다. {[email protected];}

(3) Varun Madhavan, 인도 공과대학, Kharagpur. Amazon {[email protected]}에서 인턴십 중에 수행한 작업

(4) Abhishek Persad, Amazon {[email protected]}.

링크 표

3. 방법론

3.1. 문제 설명

3.2. 배경

Transformer 아키텍처(Vaswani et al., 2017)는 여러 인코더 블록을 쌓아서 구성됩니다. 여기서 각 블록은 일련의 임베딩을 입력으로 사용하고 일련의 컨텍스트 인식 임베딩을 출력합니다. 인코더 블록은 MHSA(Multi-Head Self-Attention) 레이어와 위치별 피드포워드 레이어로 구성되며, 각 레이어 앞에 잔여 연결과 레이어 노름이 있습니다. MHSA 레이어는 입력 임베딩 간의 상호 작용을 학습하는 헤드라고 하는 여러 개의 self-attention 단위로 구성됩니다.




그런 다음 출력 시퀀스는 후속 인코더 레이어를 통해 재귀적으로 전달되어 각 연속 레이어가 더 높은 수준의 기능 상호 작용을 학습할 수 있습니다. 변환기의 깊이는 학습된 표현의 복잡성을 제어합니다. 더 깊은 레이어는 기능 간의 더 복잡한 상호 작용을 포착합니다. 또한 MHSA에서는 여러 개의 self-attention 헤드가 사용되어 각 헤드가 서로 다른 기능 하위 공간에 주의를 기울이고 이들 간의 상호 작용을 학습하여 여러 개의 독립적인 기능 상호 작용 세트를 누적적으로 학습할 수 있습니다.

3.3. 요율표 변환기

패키지의 요율표는 차원, 경로, 서비스, 항목 및 요금(그림 1a)과 같은 여러 기능 유형으로 구성되며, 각 기능 유형은 여러 숫자 및 범주 기능으로 구성됩니다. 차원, 경로 및 서비스 기능은 각각 고정된 수의 기능을 갖기 때문에 고정 길이 기능 유형이라고 합니다. 고정 길이 기능 유형은 MEL(혼합 임베딩 레이어)을 사용하여 일련의 토큰에 포함됩니다. 예를 들어, 차원 특징 d ∈ S[md, nd]는 길이가 md + nd인 d차원 토큰 시퀀스에 포함됩니다. MEL에는 포함되는 기능 유형의 각 기능에 대해 하나씩 여러 개의 포함 블록이 포함되어 있습니다. 임베딩 조회 테이블은 범주형 특징을 임베딩하는 데 사용되는 반면, 숫자 특징은 (Gorishniy et al., 2021)에 소개된 것처럼 연속 임베딩 블록을 사용하여 임베딩됩니다.



기능 토큰의 시퀀스는 기능 간의 복잡하고 고차원적인 상호 작용을 학습할 수 있는 L Transformer 인코더 레이어 스택에 입력으로 전달됩니다. 마지막으로, 풀링된 Transformer 출력은 그림 1b와 같이 배송비 Cˆ를 예측하기 위해 피드포워드 계층에 공급됩니다.


우리는 전체 아키텍처를 RCT(요율표 변환기)라고 부릅니다. 예측된 배송 비용과 실제 배송 비용 사이의 L1 손실을 최소화하도록 훈련된 RCT는 배송 비용을 정확하게 예측할 수 있는 동적 요율표의 효과적인 표현을 학습합니다.



이 문서는 CC BY-NC-ND 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다.