심층 신경망의 모델 양자화
너무 오래; 읽다
양자화는 연속 범위의 값을 더 작은 이산 값 세트로 변환하는 프로세스로, 다양한 장치에서 추론 속도를 향상시키기 위해 심층 신경망에서 자주 사용됩니다. 이 변환에는 float32와 같은 고정밀 형식을 int8과 같은 낮은 정밀도 형식으로 매핑하는 작업이 포함됩니다. 양자화는 균일(선형 매핑) 또는 비균일(비선형 매핑)일 수 있습니다. 대칭 양자화에서는 입력의 0이 출력의 0으로 매핑되는 반면 비대칭 양자화는 이 매핑을 이동합니다. 스케일 팩터와 영점은 교정을 통해 결정되는 양자화에 중요한 매개변수입니다. 양자화 모드에는 PTQ(Post Training Quantization) 및 QAT(Quantization Aware Training)가 포함되며, QAT는 미세 조정을 통해 더 나은 모델 정확도를 제공합니다. 여기에는 미세 조정에 필요한 미분성과 양자화가 호환되도록 가짜 양자화기를 사용하는 작업이 포함됩니다.