چرا ML کولی شي د هوايي پیژندل شي، مګر د مالیې بازارونه نه

په 2010s په پیل کې، د شبکې پراختیا د 300 ملیون ډالرو په اړه د شیکاگو او نیویارک تر منځ د مستقیم فایبر فایبر لړۍ کې. په دې وخت کې، شیکاگو د فاریکس سوداګرۍ اصلي مرکز دی، په داسې حال کې چې نیویارک د اټکلونو په کارولو سره کارول. منظم ریلونه بدل شوي چې ډیری کیلومترونه اضافه کړ، مګر د نوي کیبل له ~17 څخه د ~13 میلی ثانیو ته کم شوی. د پانګونه د پانګونه د لوړ فریکونسۍ سوداګریزو لپاره، دا 3-4 ms یو لوی لګښت دی. هغه څوک چې د معلوماتو یوازې لږ مخکې وګورئ، کولی شي لومړی امرونه ترسره کړي او د توازن ترلاسه کړي. په کال کې د لړۍ ته لاس رسی کولو لپاره میلیونونو ډالرو لګښت لري، مګر دا بدل کیږي - میلی ثانیو په اصل کې په پیسو بدل کیږي. که شرکتونه چمتو وي ترڅو د 3-4 ملیس ثانیو لپاره ډیری میلیونه اخلئ، تصور وکړئ چې د ML ماډل څخه ګټه لري چې نه ځواب ورکوي (که څه هم په اټکل کې)، خو په حقیقت کې د بازار حرکتونه پیشې کوي. که دا ماډل هیڅکله شتون نلري، د بازار به فورا پوه شي. نو چرا دا دی چې اوسني ماډلونه د مالیې په دې کار کې ناکام کیږي، که څه هم دوی په نورو ډومینونو کې ډیری ښه کار کوي، ایا، د هوايي پیژندنه؟ بیا په دې کې ځي. نو چرا موږ د مالیې په اړه د ML په اړه د عمومي بریالیتوب تاریخونه نه وګورئ؟ تاسو کولی شئ دا په دوه لارو کې وګورئ. یو دا ده چې پایلې شتون لري مګر نه شریک شي. ځینې وختونه، تاسو به د ښه شمېر سره د کاغذ وګورئ، مګر دوی نږدې نږدې نږدې نږدې شتون لري او عموما د چیرې لخوا انتخاب شوي دي. بل دا ده چې واقعي مخکښونه شتون لري. د مالیې معلوماتو سره د نورو ډومینونو کې د معلوماتو په پرتله کارولو سخت دی، په عمده توګه د درې دلیلونو لپاره: ډیری غږونه نه ډاټا ډاټا په دوامداره توګه بدلون بازارونه دا ترکیب د مالیې ډاټا څخه د هوايي ډاټا څخه خورا مختلف کوي، کوم چې د شور کم دی ځکه چې سیسټم د فیزیکو قانونونو سره سم، ډاټا د ماهرانو او سینسرونو لخوا لګښت لري چې هر ورځ terabytes نظرونه تولید کوي، او د بنسټیز فیزیک ثابته وي، نو حتی د قديم ډاټا هم ګټور وي. د مالیې کې د دغو ستونزو په هر کې، د معلوماتو حلونه شتون لري. زه به په لاندې کې د دوی له لارې وي. ستونزه دا ده چې دوی یوازې په انفرادي ډول کار کوي. هیڅکله د دوی ټولې په یو واحد سوداګرۍ ماشین کې وساتي. لکه څنګه چې دوی وايي، تاسو کولی شئ یوازې دوه غوره کړئ. Reducing noise with filters and aggregation د فلټرونو او aggregation له لارې د شور کمولو د مالیې وخت لړۍ سره یو ضعیف سیگنال ته ورسیږي چې د ګرځنده کې پوښل کیږي. بيهونه هر ثانیو کې بدلون کوي - خبرونه، روښانونه، د لویو لوبغاړي حرکتونه. حتی ساده لینکونه لکه "د ښه خبر → بيه ته راځي" ډیری وختونه خراب کیږي. د صدا دوو اصلي سرچینې شتون لري: The first source of noise is a The core issue is not the magnitude of the noise itself, but the weakness of the signal: meaningful price movements are usually fractions of a percent, while random swings can easily reach several percent. As a result, the share of informative changes within the overall data stream is extremely small. weak signal-to-noise ratio. According to the Efficient Market Hypothesis, prices already reflect all available information from news — which is exactly what we typically aim to predict. However, markets also include whose actions generate additional noise. uninformed participants Noise filtering Noise filtering via FFT remains a staple tool. The approach decomposes a time series into frequency components: low frequencies capture the underlying trend, while high frequencies represent noise. By discarding the high-frequency parts and reconstructing only the low-frequency component, we obtain a smoothed signal that’s much easier to model. (The high-frequency remainder can still serve for volatility estimation if needed.) was able to augment classical computing workflows to better unravel hidden pricing signals in noisy market data than standard, classical-only approaches in use by HSBC, resulting in strong improvements in the bond trading process. IBM Heron Heuristics and reframing the problem Noise from market participants is handled differently. One useful trick is to reframe the question itself. Instead of asking you can ask: “What will Apple’s stock price be one second from now?” “What will it cost to buy 1 share?” “What will it cost to buy 100k shares?” In the second case we predict the average price for a large volume, and that is much more stable and better reflects market movement. def avg_price(order_book, volume): taken, cost = 0, 0 for price, avail in order_book: take = min(avail, volume - taken) cost += take * price taken += take if taken >= volume: break return cost / taken Example: the averaged price for 100k shares y = avg_price(order_book, 100_000) د IBM Heron "د اپل د اګستونو په ارزښت کې یو ثانیو به څه وي؟" When More Volume Means More Noise که څه هم، دا هم د برعکس اغیز لري: ځینې وختونه حساب د حجم په حقیقت کې کولی شي د معلوماتو ته رڼا اضافه کړي. د دوو گرافونه مقایسه کړئ: دوی په Binance کې د BTCUSDT متوسط نرخونه ښیي، په مختلفو سوداګرۍ حجمونو سره وزن شوي. په لومړي صورت کې، د $ 50M حجم وزن شوي گرافې د "نور رڼا" ښیي - دا په چټکۍ سره د قیمت کمولو په وخت کې ترسره کیږي. په دویم صورت کې، په ورته وزن شوي متوسط کې ډیر "انډول" چټکونه ښیي. دا ځکه چې په آرامۍ بيه وخت کې، ګډون کوونکي خپل لوی امرونه د امر کتاب کې ډیر اغیزمنه وده وکړه، کوم چې په بل ډول د وزن شوي متوسط نرخ ته اغیزه کړې. نور دا حیرانتیا لرئ: که تاسو یوازې د 22 اګست څخه 22 سپتامبر ته د دې درې اډې د هر ډول بدلونونو شمېر حساب کړئ، تاسو په واقعیت کې د معلوماتو زیاتوالی ترلاسه کړئ کله چې د بیلګې په توګه د بیلګې په توګه د بیلګې په توګه. P1_1_market_hits.csv: 2،374،605 ډاټا ټکي P2_500k_market_hits.csv: د 51،309،973 ډاټا ټکي P3_50m_market_hits.csv: د 133.191.896 ډاټا ټکي د ګمرک دا دی: د متوسطې ځینې وختونه کارونه بدوي. په هرصورت، مخکښ دي مخکښ دي. Smarter Targets Beat Raw Prices د "غور کمولو" او "د ML سره مرسته" یو بل لاره ده چې د مخکښ هدف ځان د وخت په اوږدو کې د ګوتې متوسط کولو له لارې اصلاح کړي. د مثال په توګه، یو ناخودانه لارښوونې به وي: یو ډیر قوي ده: دا په هر وخت کې د دوو ستونزو حل کوي: د 10 ثانیو څخه اوس د دقیق نرخ پیشې کړئ. " "د راتلونکي 10 ثانیو کې د حجم په وزن کې منځني قیمتونه پیشې وکړئ." If a price jump occurs within those 10 seconds, the exact moment doesn’t matter as much — averaging smooths it out. The algorithm therefore has fewer ways to fail. Secondly (and here we get a bit more mathematical), averaging the target also reduces the average penalty the model receives during training for “wrong predictions.” In the simplest case of a regression model, the loss is proportional to (y^* - y)^2, where y^* is the “true answer” and y is the model output. The larger the error, the quadratically higher the penalty. Now, suppose that over the next 10 seconds the price trend is generally upward, but at some random moment there is a brief downward spike. The model would have to predict that spike, otherwise it gets penalized. But in reality, we don’t care much about that random blip — what we want the model to capture is the overall upward movement.\ د مثال په توګه: په ګراف کې موږ د 1 ثانیو په پرتله د 10 ثانیو په پرتله متوسطې مقایسه کوو. د 10 ثانیو هدف ډیر اسانه ده، لږ تر لږه د ساده رجوع لپاره - ځکه چې دا ډیر کم د تصادفي شور لري. Don’t Predict Price, Predict the Crowd ځینې وختونه دا سمارټ نه ده چې د بیلګې په توګه د بیلګې په توګه د بیلګې په توګه د بیلګې په توګه د بیلګې په توګه د بیلګې په توګه د بیلګې په توګه د بیلګې په توګه د بیلګې په توګه د بیلګې په توګه د بیلګې په توګه د بیلګې په توګه د بیلګې په توګه د بیلګې په توګه د بیلګې په توګه د بیلګې په توګه د بیلګې په توګه د بیلګې په توګه د بیلګې په توګه د بیلګې په توګه د بیلګې په توګه. په نورو عبارتونو کې، که تاسو د ML ماډل ته "تعقيب" وکړئ چې دقیقا هغه څه چې موږ په ډاټا کې لرو (د مثال په توګه، په هغه صورتونو کې چې بازار شرکتونکي د ځانګړي تخنیکي تحلیل نمونې بشپړولو هڅه کوي)، د ماډل ډیر اغیزمن زده کوي. څنګه د مختلفو ماډلونو په کارولو کې ترکیب او غوښتنلیک کړئ - مطالعه وکړئ! Bootstrapping and augmenting limited data Bootstrapping او محدود ډاټا زیاتولو دوهم لوی چمتو د معلوماتو کمښت دی. د اپلوډ اګستونه، د مثال په توګه. که تاسو په ثانیو کې د بیلابیلو نرخونه وګورئ، تاسو په پای کې د 60 ځله × 60 ځله × 8 سوداګریزو ساعتونه × 5 ورځو په اونۍ کې × ~ 50 اونۍ (د تعطیلات پرته) ≈ 7 200 000 ټکي په کال کې - د 10 ملیون څخه کم. د "د ډاټا" معیارونو له مخې، دا ټوکرونه ده. البته، د HFT ډاټا لري چې هر میلی ثانیو کې څه شي. مګر دا یوازې د لومړي ستونزو ته راځي: ټنه رڼا او ډیر کم واقعي سیگنال. په پایله کې، ماشین زده کړې د اټکلونو ده، او اټکلونه د کوچني نمونې سره کار کولو لپاره چټکونه لري. Bootstrapping د مفکوره ساده دی: د مثال په توګه، تاسو 100 نظرونه لري، مګر تاسو غواړئ 1000. تاسو په تکرار ډول د تصادفي زیربناونه واخلئ - د مثال په توګه، د 50 توکي هر - او د محاسبات محاسبات. د احتمالي "100 غوره 50" ترکیبونو شمېر لوی دی. په پایله کې، تاسو کولی شئ د ډاټاټا سیټونه او د باور وړو محاسبات څخه ډیری ترلاسه کړئ چې تاسو یوازې د اصل 100 په اړه اعتماد وکړئ. د رخصتۍ ده چې د وخت لړۍ لپاره دا یوازې کار کوي - تاسو کولی شئ یوازې د رخصتۍ په ټوټهونو کې کښته کړئ د رخصتۍ له لاسه ورکړئ. له دې امله د کلاسيک bootstrapping په رښتيا ډول د بيه پیژندل لپاره کارول کیږي. مګر د 100 سوداګریزو سوداګریزو تحلیل کولو په څیر کارونو کې، دا کارول کیدی شي: تاسو کولی شئ د لومړنۍ سینې په منځ کې یا د 50 په لټه کې ډیری ټوټه جوړ کړئ او د دغو پایلو په منځ کې وي. Data augmentation دوهم ستراتیژۍ دا ده چې د ډاټا سیټ په تخنیکي توګه پراختیا کړي. په انځورونو کې، دا ساده دی: rotate، deform - او تاسو یو نوی مثال ترلاسه کړئ. په متن کې هم. د مالیې سره دا سخت دی، مګر ځینې ټکټونه هم کار کوي. یو ساده مثال: که یو ماډل یوازې په یو ټوکر بازار کې روزل کیږي، دا به تل د "کوي" وړاندیز کوي. لکه څنګه چې د بازار په پرتله کیږي - ضایع پیل کیږي. د دې کمولو لپاره، تاسو کولی شئ ډاټا بدل کړئ: د ودې په کمښت کې بدل کړئ، د خرڅلاو په توګه پلورل، ښه خبرونه په بریالیتوب کې بدل کړئ. د algorithm له دغو سټینرونو څخه زده کوي او په پای کې بازار کې د پلورلو پیل کوي. Synthetic trade generation is a that still has many open questions field ځمکه ځمکه د لارښوونې نسبتا ساده دی: واقعي سوداګریزونه واخلئ، دوی ته د توزیع (یا د توزیعونو ټولګه)، او بیا د دې توزیع څخه نمونې څخه اضافي مصنوعي ډاټا تولید کړي. مګر د کلیدي چمتو د توزیع چڼاسکه (پټ چڼاسکه) دي - نادره خو لوی واقعاتو. د دوی احتمال کم دی، مګر بازارونه د دغو واقعاتو شامل دي. د وروستیو څیړنو په کچه د تولیدي ماډلونو په اړه: د پراختیا ماډلونه، GANs، د بدلونونو اتوماتیک. د مثال په توګه، د کاغذ "Generation of synthetic financial time series by diffusion models" بیان کوي چې په دې کې چې د نظم کتابونو لړۍ په wavelet فضا کې بدل شوي دي، د DDPM له لارې تولید شوي، او بیا د وخت لړۍ ته بدل شوي. د TransFusion یو بل مثال دی، چې د پراختیا او ترانسپورت آرکټیکټیکونو سره یوځای کوي ترڅو اوږد، د عالي اعتبار د مصنوعي وخت سیریز تولید کړي. اصلي کار دا ده چې دوه اړتیاو سره سمبال کړي: په يو بل کې، د بازار د اندازې حقایقونه (د چټک رنګونه، د توازن کټګوریشنونه، autocorrelations، او داسې نور) ساتل، او په بل بل کې، د اضافي سنټیټیک artefacts مخنیوی. په دې وخت کې، په ادبیات کې د یوځای ماډل نه شتون لري چې د ټولو ستراتیژیکي ځانګړتیاو په اعتبار سره reproduces. Time shifts د وخت بدلولو تکنالوژۍ هم شتون لري: د ورته ډاټا کارولو سره، مګر د تاخیر سره. ستونزه دا ده چې دا آسانه ده چې په تصادفي توګه په راتلونکي کې "پیرې" (پیرې پیژندل) وي. دا یو کلاسيک انجنیري غلطۍ دی: د روزنې سیټ د معلوماتو سره پای ته ورسيږي چې د موډل باید پیژندل شي. په چټکونو کې، دا ښه ښکاري - مګر په حقیقي بازارونو کې، دا خراب کیږي. په دې توګه، د وخت سیریز سره، هر بدلون اړتيا لري د سخت درملنې. نور تکنالوژۍ د وخت بدلون دی: د ورته ډاټا سره د تاخیر په کارولو سره. په دې کې اصلي ستونزه د چټک-پړاو مخنیوی خطر دی - یو کلاسیک انجنیري غلطۍ چې د روزنې سیټ په تصادفي توګه د ډاټا په ګډون شامل دي چې د موډل د پیژندلو لپاره اړتیا لري. په ګرافونو کې دا اغیزمن ښکاري، مګر په ژوند بازارونو کې دا په چټکۍ سره مخه ونیسي. له همدې امله هر ډول کارول د وخت لړۍ ته اړتیا لري. یو ګټور مثال د هوا په توګه دی: که دا اوس بارونه ده، د احتمال په لوړه ده چې دا به د باران په لوړه توګه وده ورکړي. مګر کله چې هرڅه د شمعونه لرې کوي، نو د باران په لوړه توګه کم ارزښت اضافه کوي. سوداګریزو په ورته ډول کار کوي: کله چې یو لوی نرخ حرکت دی، د راتلونکي حرکت هم احتمال لري چې لوی وي. که څه هم، د لارښوونې نږدې نږدې نږدې ده - یوازې د amplitudes ثابت کړي. ** د سیسټمونو او چڼاسکه کړکۍونو سره د بدلون بازارونو ته تطبیق کول **د تیسری ستونزه - بازارونه د وحشي غرب په څیر چلند. هر څه په چټکۍ سره بدل کیږي. تاسو کولی شئ وايي: "د وروستیو میاشتو څخه یوازې تازه معلوماتو په اړه تمرین وکړئ." مګر که د معلوماتو په پیل کې کم دی، دا د ستونزو څخه ډیر بدوي. Ensembles یو عملی روښانه ده ensembles. تاسو د څو موډلونو روزنه: one on the most recent days or weeks, another on the entire history, a third on some mid-range horizon. and a fourth that focuses on special cases — for example, detecting noise patterns or technical-analysis formations, as discussed earlier. Then you aggregate their predictions (e.g., by averaging, or taking the min/max). This is a standard trick for dealing with heteroscedastic data — where the distribution is non-stationary and constantly shifting. Markets are exactly that kind of case. pred1 = model_recent.predict(x) pred2 = model_history.predict(x) pred3 = model_midterm.predict(x) final = np.mean([pred1, pred2, pred3]/ # final = np.max([pred1, pred2, pred3]) The idea is that the market may change tomorrow, but some of the old information is still useful. Averaging helps smooth out these distortions. Sliding windows Another technique is training on sliding windows. Take the last 7 days, predict the next one. Then shift the window: add new data, drop the old. The model keeps updating, allowing it to adapt to new market regimes. window = 7 for t in range(window, len(data)): model.fit(data[t-window:t]) pred = model.predict(data[t]) So why is there no universal ML for trading? So, each of the three problems can be solved on its own, but together they don’t add up to a universal solution. One reason is the lack of quality feedback for training models. In finance, you don’t have the usual ML metrics like accuracy or F1-score. The only metric is money made. Imagine two hedge funds. One shows average returns, the other twice as high. If someone consistently outperforms the rest, everyone immediately assumes it’s a scam. Why? First, because nothing like that shows up in the market — other participants don’t feel like someone is “skimming” them on every trade. Second, there’s the survivor bias. Classic example: take a thousand people, half go long on oil, half go short. The next day, half of them are right. From the remaining 500, split again, and repeat for several rounds. After ten days, you’ll have one “genius” who made the right call ten times in a row. But in reality, he was just lucky — the illusion comes from starting with a thousand players. This is the core problem of verification. There isn’t much data to train on, and there’s even less to validate results. Even if we could see trades from a fund that outperforms the market twofold, over a relatively short horizon we still wouldn’t be able to tell luck from real skill. A good example is the many “one-day wonders” — funds or companies that show great returns when the overall market is going up (say, during an S&P 500 rally). But as soon as conditions turn south, their performance collapses. Over the long run, there are indeed legendary cases like the Medallion Fund. They consistently beat the market, delivering returns above so-called risk-free bonds. But the edge isn’t by orders of magnitude — it’s a few percentage points. To do better than them means being ahead by fractions of a percent, sustained over a very long horizon. The reality is that few funds survive long enough to prove such stability. Over six months, almost anyone can “look like a genius” if they get lucky — that’s the classic survivor bias. And not surprisingly, it’s exactly this illusion that a lot of flashy marketing campaigns for “successful” funds are built on. The philosophical takeaway is a harsh one: an algorithm can’t be called successful until it’s been tested by time. Even if it’s profitable on average, in real life it can get wiped out in a single day with a million-dollar drawdown — simply because you don’t have an extra million lying around to survive that day.