Quant @ Five Rings Capital
The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.
당신이 나와 같은 사람이라면 데이터 세트에서 누락된 데이터를 한 번 이상 처리한 적이 있을 것입니다. 아니면 두 번. 아니면 너무 여러 번…
때로는 이러한 성가신 NA를 처리하는 데 필요한 것은 NA를 삭제하는 것, 즉 누락된 데이터가 포함된 행을 제거하는 것뿐입니다. 그러나 특히 시계열 데이터의 경우, 특히 재무의 경우 이는 항상 최적이 아닐 수도 있습니다. 물론 이 문제는 잘 연구되었기 때문에 삭제에 대한 대안이 많이 존재합니다.
그 중 몇 가지(아래 나열)를 살펴보고 장단점에 대해 논의하겠습니다.
적하
LOCF(마지막 관찰이 이월됨)
평균(또는 유사한) 전가
보간
스포일러 경고: 모든 경우에 적용되는 일률적인 접근 방식은 없습니다! 나는 LOCF가 일반적으로 금융 측면에서 좋은 선택이지만 단점이 없는 것은 아니라고 주장할 것입니다. 이를 염두에 두고 이를 소개하는 데 사용할 방법과 데이터를 설명하겠습니다.
참고: 현명하게 표현하려면 2~4번 방법이 모두 일부 전가의 예입니다.
애초에 낙하하는 것에 관심을 갖는 이유에 대한 몇 가지 예부터 시작하겠습니다. 설명을 위해 나는 표류가 없는 무작위 보행(즉, 평균 장기 가격이 일정하게 유지되어야 함)을 따른다는 가정하에 지나치게 단순화된 일부 일일 주가 데이터를 생성했습니다. 그럼에도 불구하고 가장 정확하지는 않지만 온화한 가정입니다.
np.random.seed(10) # needed for reproducibility price_moves = 3*pd.Series(np.random.randn(100)) # generating random "steps" with 0 mean price_vec = 100 + price_moves.cumsum() # generating brownian motion price_vec.plot()
글쎄, 줄거리는 꽤 의미있는 것 같습니다.
이제 일일 가격 차이의 경험적 평균을 찾고 싶다고 가정해 보겠습니다.
price_vec.diff().mean() #sample mean >0.20030544816842052
분명히 생성 시리즈와는 달리 0이 아닙니다. 그러나 이는 단지 샘플 노이즈일 뿐입니다. 여태까지는 그런대로 잘됐다.
이제 몇 가지 데이터 포인트를 삭제하여 이 데이터를 약간 변형해 보겠습니다.
price_vec_na_simple = price_vec.copy() price_vec_na_simple.iloc[90:95] = np.array([np.NaN, np.NaN, np.NaN, np.NaN, np.NaN]) # price_vec_na_simple.diff().mean() >0.1433356258183252
우리는 바로 몇 가지 사실을 알아차렸습니다.
diff
벡터에 분명히 NA가 포함되어 있더라도 평균은 NA가 아닙니다.
평균은 이전에 얻은 평균과 다릅니다.
이제 #1은 매우 쉽습니다. pd.mean
기본적으로 NA를 자동으로 제거합니다.
하지만 #2는 어떻습니까? 우리가 무엇을 계산하고 있는지 다시 생각해 봅시다.
최소한 NA가 없으면 평균 가격 차이는 단순히 (price_vec[99]-price_vec[0])/99
한다는 것을 쉽게 알 수 있습니다. 실제로 가격 차이를 합산하면 모든 "중간" 부분이 상쇄됩니다. (price_vec[1] - price_vec[0]) + (price_vec[2] - price_vec[1]) + ..
!
이제 누락된 데이터가 삽입된 상태에서 먼저 차이점을 취한 다음 NA
를 삭제하면 이 취소가 깨집니다. 일부 쉬운 수학에서는 현재 계산하고 있음을 보여줍니다 (price_vec[99] - price_vec[0] - price_vec[95] + price_vec[89])/93
.
이를 보여주기 위해 이제 다음 두 용어( price_vec[95] - price_vec[94]
및 price_vec[90] - price_vec[89]
가 생략되었습니다. (NA - any number)
NA로 평가된 다음 삭제되기 때문입니다.
이것을 확인해 봅시다:
(price_vec[99] - price_vec[0])/99 >0.20030544816842052 (price_vec[99] - price_vec[0] - price_vec[95] + price_vec[89])/93 >0.1433356258183252
이제 문제를 어떻게 해결할 수 있는지가 더 명확해졌습니다. 먼저 NA를 삭제한 다음 diff
확인해야 합니다.
price_vec_na_simple.dropna().diff().mean() >0.21095999328376203
평균은 원래 위치로 거의 돌아왔습니다. 이제 평균의 항이 99개가 아닌 94개로 적어졌기 때문에 약간의 불일치가 발생합니다.
좋아, 평균에만 관심이 있다면 dropna
사용해도 괜찮을 것 같습니다(올바르게 사용하는 한). 결국, 0.2
와 0.21
의 차이는 애초에 우리의 노이즈 허용 범위 내에 있는 것이 분명합니다. 글쎄, 그렇지는 않습니다. 이유를 살펴 보겠습니다.
LOCF는 Last Observation Carried Forward를 나타냅니다. 그 뒤에 있는 아이디어는 매우 간단합니다. 일정할 수도 있고 아닐 수도 있는 특정 시간 간격으로 데이터를 기록하는 경우, 특정 간격의 관찰이 누락된 경우 변수에 변경된 사항이 없다고 가정하고 이를 마지막 비-규칙적 간격으로 대체합니다. 누락된 값(예: - [3, 5, NA, 8] → [3, 5, 5, 8]). 누군가는 질문할 수 있습니다. 왜 처음에 누락된 관찰이 있는 구간에 관심을 두는가? 즉, "dropping" 방법에서처럼 삭제하지 않는가? 글쎄요, 그 대답은 위에서 언급하지 않은 '드롭'의 본질적인 결함에 있습니다.
한 번에 여러 수량을 기록한다고 가정해 보겠습니다. 특히 시간별 온도 및 습도 기록과 같이 일반적으로 너무 빨리 변하지 않는 수량을 기록한다고 가정해 보겠습니다. 10:00, 11:00, 12:00에 대한 값이 모두 있지만 13:00에는 습도만 있다고 가정 합니다 . 해당 "행"을 삭제하시겠습니까? 즉, 13시 동안 읽지 않은 척 하시겠습니까? 글쎄요, 두 개의 변수만 있으면 괜찮습니다. 비록 잠재적으로 가치 있는 정보(13:00 습도)를 방금 제거했더라도 말이죠. 그러나 그러한 발생이 많거나 한 번에 많은 변수가 있는 경우 삭제하면 사실상 데이터가 전혀 남지 않을 수 있습니다!
매우 매력적인 대안은 12시에서 13시 사이의 온도에 아무런 변화가 없다고 가정하는 것입니다. 결국 누군가가 12시 30분에 우리에게 와서 "현재 온도가 몇 도입니까?"라고 묻는다면 우리는 12시 판독값으로 정당하게 대답했을 것입니다(물론 즉시 새로운 판독값을 얻을 수 없다면, ). 13:00 값에 동일한 논리를 사용하지 않는 이유는 무엇입니까?
먼저 이전 데이터에 대해 새로 발견한 접근 방식을 테스트해 보겠습니다.
price_vec_na_simple.ffill().diff().mean() # ffill performs LOCF by default >0.20030544816842052
정확하게 예전 가치를 회복한 것 같습니다! 또한, 가격 차이 데이터에 대해 더 자세히 조사하고 싶다면 매일 항목이 있으므로 이제 더 "정돈된" 것처럼 보입니다. 비록 해당 항목 중 5개가 이제 0이지만(왜? price_vec_na_simple.ffill().diff().iloc[90:95]
실행해 보세요) price_vec_na_simple.ffill().diff().iloc[90:95]
직접 확인하세요).
그 외에도 금융에서는 누락된 데이터와 이상값 데이터가 함께 나타나는 경우가 많습니다. 다음과 같이 설명하겠습니다.
#inflate two observations, delete three next ones price_moves_na[90] += 20 price_moves_na[91] += 30 price_moves_na[92] -= 50 # to "deflate" the price shock back price_vec_na = (100 + price_moves_na.cumsum()) price_vec_na[92:95] = [np.NaN, np.NaN, np.NaN] price_vec_na.tail(20).plot() price_vec_na.diff().dropna().mean() >0.7093365245831178
가격이 급등한 후 3일 동안 데이터를 사용할 수 없다는 것을 알 수 있습니다. 이것은 들리는 것처럼 "인공적인" 예가 아닙니다! 적어도 이 특정 거래소에서 급등 후 거래가 중단되었다고 상상해 보십시오. 그런 다음 상황이 조금 안정되어 가격이 정상 체제로 돌아갔습니다. 어쩌면 점진적인 것이었을 수도 있습니다. 스파이크와 스파이크 이후 사이의 점을 실제로 "연결"한 장면 뒤에서 진행되는 일이 진정됩니다. 그러나 당신은 그것을 모르고 이에 대한 데이터가 없습니다!
새로운 데이터가 없다면 가장 자연스러운 가정은 무엇입니까? 우리의 데이터 생성 모델은 기본적으로 가격 변화를 기반으로 한다는 점을 기억해 보세요. 그렇다면 새로운 데이터가 없다면 가격이 전혀 변하지 않는 것이 아닐까요? 이것이 바로 LOCF(Last Observation Carried Forward)가 가정하는 것입니다.
호기심 많은 독자를 위한 참고 사항 - LOCF가 특히 주가 데이터에 적합한 이유 에 대한 보다 근본적인 관점은 일반적으로 마틴게일 로 모델링된다는 것입니다. 대략적으로 말하면, 마틴게일은 내일에 대한 최선의 추측이 오늘 우리가 보는 것과 같거나 E[x_{t+1} | x_t] = x_t
좋아, 실제 데이터로 돌아가자! LOCF의 결과를 시각적으로나 수치적으로 살펴보겠습니다.
price_vec_na.ffill().tail(20).plot() price_vec_na.ffill().diff().mean() >0.20030544816842052
즉시, 우리는 LOCF의 장단점을 (문자 그대로) 볼 수 있습니다! 우선, 평균은 우리가 "예상"하는 위치, 즉 변경되지 않은 경험적 값으로 돌아갑니다. 그러나 우리는 가격이 "일반적인" 가격과 일치하지 않고 94일과 95일 사이에 가격이 인위적으로 하락하는 다소 추악한 기간을 소개합니다.
LOCF에서 얻은 결과를 (평균) 대치와 대조해 보겠습니다. 특히 시계열이 아닌 데이터의 NA 처리에 매우 일반적인 선택입니다. 그러나 순진하게 사용하면 금융 데이터로 활용하기에는 단점이 많다.
전체 표본 평균만 사용하면 명백한 예측 편향이 발생합니다. 즉, 미래 데이터를 사용하여 과거 값을 대치하게 됩니다.
일종의 되돌아보기 또는 롤링 평균을 사용하는 것이 확실히 더 좋습니다. 그러나 때로는 이전에 설명한 마틴게일 "기준" 관점과 긴장 관계에 빠질 수도 있습니다.
이에 대해 좀 더 자세히 살펴보겠습니다. 이전 데이터에 대한 되돌아보기 대치를 사용하겠습니다.
price_vec_na_impute = price_vec_na.copy() price_vec_na_impute[price_vec_na_impute.isna()] = price_vec_na.iloc[:90].mean() price_vec_na_impute.diff().mean() >0.20030544816842052
LOCF와 마찬가지로 "올바른" 가격 변동 평균을 복구합니다. 그러나 우리는 91일과 92일 사이에 인위적인 가격 하락을 도입했는데, 이는 어떤 면에서는 이전보다 더 나쁜 것입니다. 결국, 그 사건은 상황이 진정되었을 때 또는 그 이후에 발생한 반면, 이번 사건은 모든 것이 즉시 정상으로 돌아간다고 가정합니다. 그 외에도 실제로는 a) 최근 추세를 포착하고 b) 장기적인 추세(일반적인 편향-분산 트레이드오프)를 포착하도록 되돌아보기 창의 균형을 맞추는 것이 다소 어려울 수 있습니다.
이제 더 복잡한 작업을 수행한다고 가정해 보겠습니다. 즉, 가격 시리즈 중 하나 또는 둘 다에 누락된 데이터가 있는 경우 경험적 데이터에서 두 자산의 가격 변동 간의 상관 관계를 추출합니다. 물론, 여전히 drop을 사용할 수 있지만, 다음과 같습니다.
사용할 수 있다고 해도 최적인가요?
변수가 많으면 어떨까요? 하나 이상의 NA가 있는 모든 행을 삭제하면 데이터가 전혀 남지 않을 수 있습니다!
상관 관계를 계산하려는 이유는 여러 가지가 있습니다. 이는 거의 모든 다변수 모델에서 EDA의 첫 번째 단계이고 모든 종류의 포트폴리오 구성 에서 꽤 널리 사용됩니다. 따라서 이 숫자를 가능한 한 정확하게 측정하는 것이 매우 필요합니다!
설명을 위해 첫 번째 변수에 대해 0.4의 "기본 제공" 상관 관계가 있는 두 번째 변수를 생성해 보겠습니다. 이를 위해 일종의 Gaussian Mixture Model을 사용하겠습니다. 우리가 염두에 둘 수 있는 그림은 중요한 위험 요소를 공유하는 두 개의 상관 주식이지만 두 번째 주식도 첫 번째 주식이 아닌 주요 위험 요소에 노출되어 있다는 것입니다. 예를 들어 Google과 Facebook을 생각해 보세요. 첫 번째 요소는 기술 부문에 대한 일반적인 정서일 수 있고 두 번째 요소는 경쟁 소셜 네트워크와의 경쟁일 수 있습니다.
np.random.seed(2) # needed to ensure a fixed second series price_moves_2 = pd.Series(np.random.randn(100)) price_vec_2 = 50+(0.4*price_moves/3 + np.sqrt(1-0.4**2)*price_moves_2).cumsum() # all this math to ensure we get a 0.4 "theoretical" correlation with the first one
즉, NA와 점프 없이 "기준" 경험적 상관 관계를 확인해 보겠습니다.
pd.concat([price_vec, price_vec_2], axis = 1).diff().corr().iloc[0,1] >0.4866403018044526
이제 이는 "이론적" 상관 관계에 합리적으로 가깝습니다. 상관 관계에 대한 경험적 측정에는 다소 큰 노이즈가 발생하기 쉽다는 것이 잘 알려져 있습니다.
다음 단계에서는 NA가 있는 경우를 조사하지만 이상치는 없습니다. 또한 diff
이전과 이후에 dropna
하면 어떤 일이 발생하는지 비교해 보겠습니다.
pd.concat([price_vec_na_simple, price_vec_2], axis = 1).diff().corr().iloc[0,1] # implicit dropna after diff >0.5022675176281746 pd.concat([price_vec_na_simple, price_vec_2], axis = 1).dropna().diff().corr().iloc[0,1] >0.5287405341268966
두 결과 모두 꽤 가깝고 이전에 얻은 "경험적" 값과 그리 멀지 않습니다. LOCF와 대치도 제대로 수행되는지 확인해 보겠습니다.
pd.concat([price_vec_na_simple, price_vec_2], axis = 1).ffill().diff().corr().iloc[0,1] >0.5049380499525835 price_vec_na_simple_impute = price_vec_na_simple.copy() price_vec_na_simple_impute[price_vec_na_simple_impute.isna()] = price_vec_na_simple_impute.iloc[:90].mean() pd.concat([price_vec_na_simple_impute, price_vec_2], axis = 1).ffill().diff().corr().iloc[0,1] >0.4866728183859715
위의 4가지 결과를 비교하면 모든 방법이 매우 잘 수행되는 것을 알 수 있습니다. 아마도 우리는 이상한 경우에 대해서도 같은 것을 기대해야 할까요?
일관성을 유지하려면 두 번째 가격 계열을 첫 번째 가격 충격과 동일한 가격 충격에 노출시켜야 하지만 다음 NA는 제외되어야 합니다 . 위의 예로 돌아가서 첫 번째 자산의 거래를 결국 중단시키는 첫 번째 위험 요소의 급증을 일으키는 일부 주요 이벤트를 상상해 보십시오. 두 번째 자산도 확실히 이러한 현상을 경험하지만 그 정도는 덜할 수 있으므로 정지가 발생하지 않고 NA도 발생하지 않습니다.
price_vec_na_2 = 50+(0.4*price_moves_na/3 + np.sqrt(1-0.4**2)*price_moves_2).cumsum()
모든 방법의 성능을 다시 비교해 보겠습니다.
pd.concat([price_vec_na, price_vec_na_2], axis = 1).diff().corr().iloc[0,1] >0.6527112906179914 pd.concat([price_vec_na, price_vec_na_2], axis = 1).dropna().diff().corr().iloc[0,1] >0.7122391279139506
이론적인 값과 경험적인 값 모두에서 상당한 차이가 있습니다! LOCF와 대체는 어떻습니까?
pd.concat([price_vec_na, price_vec_na_2], axis = 1).ffill().diff().corr().iloc[0,1] >0.33178239830519984 pd.concat([price_vec_na_impute, price_vec_na_2], axis = 1).dropna().diff().corr().iloc[0,1] >0.7280990594963112
이제 우리는 마침내 LOCF의 가치가 무엇인지 확인했습니다! 확실히 다른 모든 방법보다 성능이 뛰어납니다!
물론 이것이 100% 견고하지는 않습니다. 첫째, LOCF를 수행하면 누락된 데이터가 끝나면 큰 가격 하락이 발생합니다. 두 번째 가격 벡터의 일부 이상값과 일치하면 결과가 상당히 바뀔 수 있습니다. (*독자를 위한 연습 - price_vec_na_2[95]
의 가격 변동 기호를 뒤집어 결과에 어떤 영향을 미치는지 확인하세요.) 예를 들어 최고 가격인 price_vec_na[91]
와 이후의 "정상" 값인 price_vec_na[95]
사이를 보간하는 것과는 대조적으로 이 가격 하락을 단순히 도입하는 것이 "깨끗한" 것인지는 확실하지 않습니다. 그러나 특히 "라이브" 사용의 경우 보간은 실제로 불가능합니다! 결국, 오늘이 #93일이라면, #95일의 끝 부분에 기록된 미래 가치를 사용하여 어떻게 보간할 수 있을까요? 역사적 연구의 경우 물론 여전히 선택 사항이지만 실제 예측을 위해 이를 해석하고 사용하는 방법은 여전히 불분명합니다! 결론적으로, 시간 차원을 가로지르는 보간은 가능하지만 다소 의문스럽습니다.
나는 왜 LOCF가 금융 시계열에서 누락된 데이터를 처리하는 데 사용할 수 있는 가장 매력적이고 간단한 옵션인지 소개하고 옹호하기 위해 작은 사례 연구를 제공하려고 했습니다.
요약하자면 장점은 다음과 같습니다.
몇 가지 단점:
소품 거래 상점의 퀀트로서 저는 거의 모든 연구에 이를 효과적인 기준으로 사용합니다. 물론 일부 상황에서는 보다 미묘한 조치가 필요하지만 이러한 조치는 거의 없으며 일반적으로 언급된 세 가지 다른 방법으로는 실제로 100% "해결"되지 않습니다.