خلاصہ اور 1۔ انضمام

3۔ طریقہ کار

ہم سب سے پہلے ایک بڑے پیمانے پر عوامی وقت سیریز ڈیٹا جمع کرتے ہیںTime Series Pileاور پھر اس کو استعمال کرنے کے لئے پہلے ٹریننگ atransformer modelکے بارے میںmasked time series prediction taskہم مندرجہ ذیل حصوں میں ان اقدامات میں سے ہر ایک پر بحث کرتے ہیں.

3.1 وقت کی سیریز

قدرتی زبان کی پروسیسنگ اور کمپیوٹر بصیرت کے برعکس، جہاں بڑے پیمانے پر ڈیٹا سیٹ جیسے The Pile (Gao et al., 2020) اور ImageNet-1K (Russakovsky et al., 2015) پیشہ ورانہ تربیت کے لئے آسانی سے دستیاب ہیں، عوامی وقت سیریز ڈیٹا سیٹ بہت چھوٹے، پراسرار ہیں، اور بڑے پیمانے پر کام کے مخصوص ہیں (Ma et al., 2023; Zhou et al., 2023; Gruver et al., 2023). اس گڑیا کو منسلک کرنے کے لئے، ہم 4 کام کے مخصوص، وسیع پیمانے پر استعمال ہونے والے عوامی ریپیوٹرز سے کئی وقت سیٹوں کو منسلک کرتے ہیں جس میں مختلف ڈومینز، اور وقت سیریز کی خصوصیات جیسے لمحات، وسیع پیمانے، اور وقت کی قراردادیں شامل ہیں. ہم اس





Informer long-horizon forecasting datasets(Zhou et al., 2021) 9 اعداد و شمار کی ایک مجموعہ ہے جو وسیع پیمانے پر طویل مدتی پیشکش کی کارکردگی کا اندازہ لگانے کے لئے استعمال کیا جاتا ہے (Wu et al., 2023; Nie et al., 2023; Challu et al., 2023): 2 گھنٹے اور منٹ کے اعداد و شمار کے الیکٹرکٹ ٹرانسفرورر درجہ حرارت (ETT) (Zhou et al., 2021), الیکٹرک (Trindade, 2015), ٹریفک (کالیفورنیا وزارت نقل و حمل، 2024), موسم (Max Planck Institute for Biogeochemistry, 2024), گلی کی طرح بیماری (ILI) (سیٹرز بیماری کنٹرول اور پیشگی، 2024)، اور تبادلے کی شرح (Lai et al., 2018).





Monash time series forecasting archive(Godahewa et al., 2021) ایک مجموعہ ہے 58 عام طور پر دستیاب مختصر دور کے پیش گوئی ڈیٹا سیٹ کے ساتھ ایک مجموعی 100K سے زائد وقت سیریز، مختلف ڈومینز اور وقت کے حل پر مشتمل ہے.





UCR/UEA classification archive(Dau et al., 2018) 159 وقت سیریز ڈیٹا سیٹ شامل ہیں جو عام طور پر درجہ بندی کے الگورتھم کا استعمال کرنے کے لئے استعمال کیا جاتا ہے (Ismail Fawaz et al., 2019). یہ ڈیٹا سیٹ سات مختلف اقسام سے متعلق ہیں (اعداد و شمار، سینسر پڑھنے، حرکت کی گرفتاری، سپیکٹروگراف، ECG، الیکٹرک آلات، اور سامنا شدہ ڈیٹا) کلاسوں کی تعداد اور تربیت کے سیٹ کی سائز کے لحاظ سے بہت مختلف ہیں.





TSB-UAD anomaly benchmark(Paparrizos et al., 2022b) گزشتہ دس سالوں میں پیش کی گئی 18 غیر معمولی تشخیص ڈیٹا سیٹز سے لیبل شدہ غیر معمولی وقت سیریز کی ایک حالیہ مجموعہ ہے. اس مجموعہ میں انسانی جسم، فضائی جہاز، ماحول، اور ویب سروسز جیسے وسیع رینج کے ذریعہ پیدا ہونے والے مصنوعی اور حقیقی وقت سیریز دونوں شامل ہیں.





Minimizing data contamination using careful train-test splitting.ہم ہر ڈیٹا سیٹ کو احتیاط سے ڈیزائن ٹریننگ، تصدیق اور ٹیسٹ کے ڈیزائن میں تقسیم کرتے ہیں، ڈیٹا تخلیق کرنے والوں کی طرف سے بیان کردہ ڈیزائنز پر مبنی ہے. جب یہ ڈیزائنز دستیاب نہیں ہیں تو، ہم ٹریننگ کے لئے ڈیٹا کے 60٪، تصدیق کے لئے 10٪ اور ٹیسٹ کے لئے 30٪ کو randomly sample کرتے ہیں. Long-horizon prediction and anomaly detection data sets are typically long time series, which are split horizontally as shown in Fig. 2. Inversely, short-horizon prediction and classification data sets often contain multiple short time series. For these data sets, a complete time series is either training, validation, or testing. We use the same random seed, set to 13, throughout our experiments, from pre-training to downstream

3.2 ماڈل آرکیٹیکل





ہمارے ٹرانسفرنٹر کوڈورر اصل ٹرانسفرنر (Vaswani et al., 2017) کے لئے رافیل et al. (2020) کی سفارش کردہ تبدیلیوں کو برقرار رکھتا ہے. خاص طور پر، ہم Layer Norm (Ba et al., 2016) سے additive bias کو ہٹا دیتے ہیں، اور اس کو باقی سوئچ کنکشنز (He et al., 2016) سے پہلے رکھتے ہیں، اور رشتہ پوزیشنل انبساط کے شیڈم کا استعمال کرتے ہیں (Shaw et al., 2018). ذیل میں ہم ہمارے اہم ڈیزائن فیصلوں کے پیچھے انٹرویو کو جمع کرتے ہیں.





Handling varying time series characteristics.ٹائم سیریز کی لمبائی، چینلز کی تعداد، وسیع پیمانے پر، اور وقت کی حل میں مختلف ہیں. ہم متغیر لمبائی کا حل کرتے ہیں، ایک مقررہ لمبائی T = 512 کے ایک متغیر وقت سیریز کے لئے MOMENT کے انٹرویو کو محدود کرتے ہوئے. عام عمل کے طور پر، ہم طویل وقت سیریز کو sub-نمائیدار کرتے ہیں، اور بائیں طرف صفر کے ساتھ مختصر ترین سیریزوں کو پڈ کرتے ہیں.[2] اس کے علاوہ، پیٹرن میں وقت سیریز کے حصوں کو چارٹرک طور پر کم کرتا ہے، MOMENT کی ذہنیت کی ٹائم سیریز کی لمبائی اور کمپیوٹنگ کی پیچیدگی کو محدود کرتا ہے، اور لنک طور پر انٹرویو کے طور پر لے جا سکتا ہے کہ وقت سیریز کی لمبائی کو بڑھاتا ہے





Intentionally simple encoder.زبان کے میدان میں ٹرانسفررز کے ڈیزائن کو قریب سے پیروی کرنے سے ہمیں ان کے وسیع پیمانے پر اور مؤثر انضمام (مثال کے طور پر، گریڈینٹ چیک پینٹنگ، مشترکہ درستگی کی تربیت) کا استعمال کرنے کی اجازت دیتا ہے.





Light-weight prediction head.ہم ایک decoder کے ساتھ ایک ہی سائز کے decoder کے بجائے ایک ہلکے پیش گوئی کے سر کا استعمال کرتے ہیں، ایک محدود تعداد میں تربیت یافتہ پیرامیٹرز کی ایک محدود تعداد کے لئے کام کے مخصوص تفصیلی تنصیب کے لئے ضروری آرکیٹیکل تبدیلیوں کی اجازت دیتا ہے جبکہ زیادہ تر پیرامیٹرز اور اعلی درجے کی خصوصیات کو encoder کی طرف سے سیکھنے کو محفوظ رکھتا ہے.

3.3 ماسکٹ وقت سیریز کے ساتھ پیشہ ورانہ تربیت

ہم ماسکٹ وقت سیریز ماڈلنگ کے کام کا استعمال کرتے ہوئے پیرا ٹریننگ MOMENT. فہرست 3 ہمارے پہلے تربیت کے طریقہ کار کا ایک مجموعہ پیش کرتا ہے. تربیت کے دوران، ہم سب سے پہلے ایک چھوٹی سی تعداد کے پیٹرز کو تصادفی طور پر ایک سیکھنے کے قابل ماسک داخلہ [MASK] کے ساتھ ان کے پیٹرز انبساطات کو تبدیل کرتے ہوئے مساوی طور پر مسح کرتے ہیں. تباہ شدہ وقت سیریز پیٹرز پھر ٹرانسفارمر انکوڈر میں ٹرانسفارمر کی نمائندگیوں کو سیکھنے کے لئے دبانے جاتے ہیں، جو ایک ہلکے دوبارہ تعمیر کے سر کا استعمال کرتے ہوئے اصل وقت سیریز کو دوبارہ تعمیر کرنے کے لئے استعمال کیا جاتا ہے.





Pre-training Setup.ہم T5-Small، Base، اور Large میں کوڈرز کے سائز کے مطابق تین مختلف سائز کے MOMENT کو پہلے سے تربیت دیتے ہیں. خاص طور پر، بیس (Small، Large) ماڈل ایک 12 (6, 24) layer Transform استعمال کرتا ہے جس میں سائز D = 768 (512, 1024)، 12 کے چھپی سائز ہیں.









(8، 16) توجہ کے سر، اور 3072 (2048, 4096) کی سائز کی فراہمی کے نیٹ ورک، تقریبا 125 (40، 385) ملین پیرامیٹرز کا نتیجہ بناتا ہے. تمام وزن پیشہ ورانہ تربیت سے پہلے تصادفی طور پر آغاز کیا جاتا ہے. تمام ماڈل طویل T = 512 کے انٹرویو وقت سیریز لیتے ہیں، اسے N = 64 طویل P = 8 کے disjoint پیکیجوں میں تقسیم کرتے ہوئے.





3.4.Downstream کاموں پر Fine-tuning

MOMENT کئی وقت سیریز تجزیہ کے کاموں کے لئے آسانی سے استعمال کیا جا سکتا ہے. اس کام میں، ہم 5 عملی وقت سیریز تجزیہ کے کاموں کو مثال کے طور پر دیکھتے ہیں، یعنی: طویل اور مختصر دور کے پیش گوئی، کلاسنگ، غیر معمولی تشخیص، اور انپائٹنگ. horizon H کے ساتھ پیش گوئی کے کاموں کے لئے، ہم دوبارہ تعمیر کے سر کو ایک پیش گوئی کے سر کے ساتھ تبدیل کرتے ہیں، جو سب سے پہلے N D-dimensional patch embeddings کو ایک N × D-dimensional ویکٹر میں فٹنگ کرتا ہے، اور اس کے بعد اسے ایک لنک پروجیکٹ کی سطح کے ذریعے ایک H-dimensional وقت سیریز میں پروجیکٹ کرتا ہے.









مصنفین : (1) Mononito Goswami، آٹو لیب، Robotics Insititute، کارنجی میلون یونیورسٹی، پیٹسبورگ، امریکہ ([email protected]) (2) کنراڈ Szafer، آٹو لیب، روبوٹک انسٹی ٹیوٹ، کارنجی میلون یونیورسٹی، پیٹسبورگ، امریکہ، برابر حصہ کے ساتھ، ایک ہینڈل جنریٹر کا استعمال کرتے ہوئے فیصلہ کرنے کا حکم؛ (3) Arjun Choudhry، آٹو لیب، روبوٹک انسٹی ٹیوٹ، کارنجی میلون یونیورسٹی، پیٹسبورگ، امریکہ، برابر حصہ کے ساتھ، ایک ہینڈل جنریٹر کا استعمال کرتے ہوئے فیصلہ کرنے کا حکم؛ (4) Yifu Cai، آٹو لیب، روبوٹک انسٹی ٹیوٹ، کارنجی میلون یونیورسٹی، پیٹسبورگ، امریکہ؛ (5) Shuo لی، پینسیلینیا یونیورسٹی، فلادلفیا، امریکہ؛ (6) Artur Dubrawski، آٹو لیب، روبوٹک انسٹی ٹیوٹ، کارنجی میلون یونیورسٹی، پیٹسبورگ، امریکہ.

یہ مضمون CC BY 4.0 DEED لائسنس کے تحت archiv پر دستیاب ہے.

[2] ہم نے یہ پایا کہ درجہ بندی ڈیٹا سیٹ کی ایک بڑی اکثریت 512 سے کم وقت سیریز ہے، اس کے علاوہ، 512 کی لمبائی کی ایک بیک اپ ونڈو درست لمبائی کی پیش گوئی کے لئے کافی پایا گیا تھا (Nie et al., 2023).





[4] https://cloud.google.com/tpu/docs/ bfloat16