DeepMind's GraphCast porazil najlepší systém predpovede počasia na svete

Autori : Remi Lam (Google DeepMind) Alvaro Sanchez-Gonzalez (Google DeepMind) Matthew Willson (Google DeepMind) Peter Wirnsberger (Google DeepMind) Meire Fortunato (Google DeepMind) Ferran Alet (Google DeepMind) Suman Ravuri (Google DeepMind) Timo Ewalds (Google DeepMind) Zach Eaton-Rosen (Google DeepMind) Weihua Hu (Google DeepMind) Alexander Merose (Google Research) Stephan Hoyer (Google Research) George Holland (Google DeepMind) Oriol Vinyals (Google DeepMind) Jacklynn Stott (Google DeepMind) Alexander Pritzel (Google DeepMind) Shakir Mohamed (Google DeepMind) Peter Battaglia (Google DeepMind) Autori : Remi Lamová (Google DeepMind) Alvaro Sanchez-Gonzalez (v službe Google DeepMind) Matúš Willson (Google DeepMind) Peter Wirnsberger (Spoločnosť Google DeepMind) Meire Fortunatoová (Google DeepMind) Ferran Alet (Spoločnosť Google DeepMind) Suman Ravuri (Google DeepMind) – vydavateľstvo Timo Ewalds (Google DeepMind) - Výsledky Zach Eaton-Rosen (z Google DeepMind) Weihua Huová (Google DeepMind) Alexander Merose (Google výskum) Stephan Hoyer (Google výskum) Spoločnosť Google (Google DeepMind) Oriol Vinyals (Google DeepMind) prehľadávač Jacklynn Stottová (Google DeepMind) Alexander Pritzel (Google DeepMind) – vydavateľstvo Šákir Mohamed (Google DeepMind) Peter Battaglia (Google DeepMind) – vydavateľstvo Tradičné numerické predpovede počasia využívajú zvýšené výpočtové zdroje na zlepšenie presnosti predpovede, ale nemôžu priamo použiť historické údaje o počasí na zlepšenie základného modelu. Zavádzame metódu založenú na strojovom učení nazývanú „GraphCast“, ktorá môže byť vyškolená priamo z údajov o opätovnej analýze. Predpovedá stovky premenných počasia, počas 10 dní pri rozlíšení 0,25° celosvetovo, za menej ako jednu minútu. Ukážeme, že GraphCast výrazne prevyšuje najpresnejšie operačné deterministické systémy na 90% z 1380 overovacích cieľov a jeho predpovede podporujú lepšie predpovede závažných udalostí, vrátane tropických cyklónov, atmosférických riek a extrémnych teplôt. Graph Kľúčové slová: predpoveď počasia, ECMWF, ERA5, HRES, simulácia učenia, grafické neurálne siete Úvodná Je 05:45 UTC v polovici októbra 2022 v talianskom Bologne a nové zariadenie Európskeho centra pre stredne dlhé predpovede počasia (ECMWF) práve začalo fungovať. Počas posledných niekoľkých hodín Integrovaný systém predpovede (IFS) vykonával sofistikované výpočty na predpovedanie počasia na Zemi v najbližších dňoch a týždňoch a jeho prvé predpovede sa používateľom práve začali šíriť. IFS a moderné predpovede počasia vo všeobecnosti sú triumfy vedy a inžinierstva. Dynamika systémov počasia patrí medzi najzložitejšie fyzikálne javy na Zemi a každý deň nespočetné rozhodnutia prijaté jednotlivcami, odvetviami a tvorcami politík závisia od presných predpovedí počasia, od rozhodnutia, či nosiť bundu alebo uniknúť nebezpečnej búrke. Dominantným prístupom k predpovedi počasia je dnes „číselná predpoveď počasia“ (NWP), ktorá zahŕňa riešenie správnych rovníc počasia pomocou superpočítačov. Úspech NWP spočíva v prísnych a prebiehajúcich výskumných postupoch, ktoré poskytujú čoraz podrobnejšie popisy poveternostných javov, a ako dobre NWP Existujú rozsiahle archívy meteorologických a klimatologických údajov, napr. ECMWF MARS [17], ale až donedávna bolo málo praktických prostriedkov na použitie takýchto údajov na priame zlepšenie kvality predikčných modelov. Predikcia počasia založená na strojovom učení (MLWP) ponúka alternatívu k tradičnému NWP, kde sa predikčné modely trénujú priamo z historických údajov. To má potenciál zlepšiť presnosť predpovedania zachytením vzorcov a stupníc v údajoch, ktoré nie sú ľahko reprezentované explicitnými rovnicami. MLWP tiež ponúka príležitosti pre väčšiu účinnosť využitím moderného hardvéru hlbokého učenia namiesto superpočítačov a dosahovaním priaznivejších kompromisov rýchlosti a presnosti. Nedávno MLWP pomohol zlepšiť predpovede založené na NWP v režimoch, kde je tradičný NWP relatívne slabý, napríklad predpovedanie sub-sezónnych tepelných vĺn [16] a zrážok V strednodobom predpovedaní počasia, t. j. predpovedaní atmosférických premenných až do 10 dní vopred, sú systémy založené na NWP, ako je IFS, stále najpresnejšie. Najvyšším deterministickým operačným systémom na svete je predpoveď s vysokým rozlíšením (HRES) ECMWF, súčasť IFS, ktorá produkuje globálne 10-dňové predpovede s rozlíšením 0,1° šírky/dlžiny, za približne hodinu [27]. Avšak v priebehu posledných niekoľkých rokov sa metódy MLWP pre predpovedanie stredného rozsahu postupne rozvíjali, uľahčované referenčnými hodnotami, ako je WeatherBench [27]. Architektúry hlbokého učenia založené na konvolučných neurálnych sieťach Grafický Tu predstavujeme nový prístup MLWP pre globálne stredne dlhé predpovede počasia s názvom "GraphCast", ktorý produkuje presnú 10-dňovú prognózu za menej ako minútu na jednom zariadení Google Cloud TPU v4 a podporuje aplikácie vrátane predpovedania tropických cyklónov, atmosférických riek a extrémnych teplôt. GraphCast berie ako vstup dva najnovšie stavy zemského počasia – aktuálny čas a šesť hodín predtým – a predpovedá ďalší stav počasia šesť hodín vopred. Jediný stav počasia je reprezentovaný mriežkou 0,25° šírky/dĺžky (721 × 1440), ktorá zodpovedá približne rozlíšeniu 28 × 28 kilometrov na rovníku (obrázok 1a), kde každý bod mriežky predstavuje súbor povrchových a atmosférických premenných (uvedených v tabuľke 1). Rovnako ako tradičné systémy NWP, GraphCast je autoregresívny: môže byť „vyvrhnutý“ tým, že nasmeruje svoje vlastné predpovede späť ako vstup, aby vytvoril ľubovoľne dlhú trajektóriu poveternostných stav GraphCast je implementovaný ako architektúra neurálnej siete, založená na GNNs v konfigurácii „kódovanie-proces-dekódovanie“ [1], s celkovým počtom 36,7 milióna parametrov. Predchádzajúce GNN-založené učené simulátory [31, 26] boli veľmi účinné pri učení sa komplexnej dynamike tekutín a iných systémov modelovaných čiastočnými diferenciálnymi rovnicami, čo podporuje ich vhodnosť pre modelovanie dynamiky počasia. Encoder (obrázok 1d) používa jedinú vrstvu GNN na mapovanie premenných (normalizovaných na nulovú priemernú jednotkovú varianciu), ktoré sú reprezentované ako atribúty uzlov na vstupnej mriežke, na učené atribúty uzlov na vnútornej "multi-mesh" reprezentácii. Multi-mesh (obrázok 1g) je graf, ktorý je priestorovo homogénny, s vysokým priestorovým rozlíšením po celom svete. Je definovaný rafinovaním pravidelného icosahedronu (12 uzlov, 20 tvárí, 30 okrajov) iteratívne šesťkrát, kde každé rafinovanie rozdeľuje každý trojuholník na štyri menšie (čo vedie k štyrikrát väčšiemu počtu tvárí a okrajov) a reprodukuje uzly do sféry. Multi-mesh obsahuje 40,962 uzlov z najvyššieho rozlíšenia siete a zväzok všetkých okrajov vytvorených v stredných grafoch, tvoriacich plochú hierarchiu okrajov s rôznou dĺžkou. Procesor (obrázok 1e) používa 16 nezdieľaných vrstiev GNN na vykonanie učeného prenosu správ na multi-mesh, čo umožňuje efektívne lokálne a dlhodobé šírenie informácií s niekoľkými krokmi prenosu správ. Dekodér (obrázok 1f) mapuje naučené vlastnosti konečnej vrstvy procesora z multi-mesh reprezentácie späť do mriežky šírky a dĺžky. Používa jednu vrstvu GNN a predpovedá výstup ako reziduálnu aktualizáciu na najnovší vstupný stav (s normalizáciou výstupu na dosiahnutie jednotkovej variancie na cieľovom reziduáli). Počas vývoja modelu sme použili 39 rokov (1979-2017) historických údajov z archívu reanalýzy ERA5 [10] ECMWF. Ako tréningový cieľ sme vypočítali priemernú štvorcovú chybu (MSE) váženú vertikálnou úrovňou. Chyba bola vypočítaná medzi predpovedaným stavom GraphCast a korrespondujúcim stavom ERA5 cez N autoregresívne kroky. Hodnota N sa počas tréningu postupne zvyšovala z 1 na 12 (t. j. šesť hodín až tri dni). GraphCast bol vyškolený na minimalizáciu tréningového cieľa pomocou gradientného zostupu a spätného šírenia. tréning GraphCast trval približne štyri týždne na zariadeniach Cloud 32 TPU v4 s použitím paralelizmu V súlade s reálnymi scenármi nasadenia, kde budúce informácie nie sú k dispozícii pre vývoj modelov, sme vyhodnotili GraphCast na základe údajov z rokov 2018 a ďalej (pozri časť 5.1 doplnkov). Metódy overovania Preverujeme predikčné schopnosti GraphCast komplexne porovnaním jeho presnosti s HRES na veľkom počte premenných, úrovní a časov vedenia. Kvantifikujeme príslušné schopnosti GraphCast, HRES a ML základných čiar s dvoma metrikami zručností: koreňová priemerná chyba štvorca (RMSE) a koeficient korelácie anomálií (ACC). Z 227 premenných a úrovňových kombinácií predpovedaných GraphCastom v každom mriežkovom bode sme vyhodnotili jeho zručnosť oproti HRES na 69 z nich, ktoré zodpovedajú 13 úrovniach WeatherBench[27] a premenným z ECMWF Scorecard [9]; pozri boldface premenných a úrovní v tabuľke 1 a v oddiele Doplnky 1.2 pre ktoré bol cyklus HRES v prevádzke počas hodnotiaceho obdobia. Poznámka: z hodnotenia vylučujeme celkové zrážky, pretože údaje o zrážkach ERA5 majú známe predispozície [15]. Okrem súhrnnej výkonnosti hlásenej v hlavnom texte poskytuje oddiel 7 Doplnky ďalšie podrobné hodnotenia, vrátane iných premenných, regionálnych výkonov, Pri uskutočňovaní týchto porovnaní sú dve kľúčové voľby založené na tom, ako je zriadená zručnosť: (1) výber základnej pravdy na porovnanie a (2) starostlivé vypočítavanie okien asimilácie údajov používaných na založenie údajov s pozorovaniami. Používame ERA5 ako základnú pravdu na hodnotenie GraphCast, pretože bol vyškolený na to, aby sa údaje ERA5 použili ako vstup a predpovedali údaje ERA5 ako výstupy. Avšak hodnotenie predpovede HRES voči ERA5 by viedlo k chybám, ktoré nie sú nulové v počiatočnom kroku predpovedania. Namiesto toho sme vybudovali dátovú sadu „predpoveď HRES v kroku 0“ (HRES-fc0) na použitie ako základnú pravdu pre Spravodlivé porovnania medzi metódami vyžadujú, aby žiadna metóda nemala privilegované informácie, ktoré nie sú k dispozícii pre druhú. Vzhľadom na povahu údajov o predpovedi počasia to vyžaduje starostlivú kontrolu rozdielov medzi oknami asimilácie údajov ERA5 a HRES. Každý deň HRES asimiluje pozorovania pomocou štyroch +/-3h okien zameraných na 00z, 06z, 12z a 18z (kde 18z znamená 18:00 UTC), zatiaľ čo ERA5 používa dve +9h/-3h okná zamerané na 00z a 12z, alebo ekvivalentne dve +3h/-9h okná zamerané na 06z a 18z. Vybrali sme sa na hodnotenie predpovede GraphCast z 06z a 18z inicializácií Predpovede HRES inicializované na 06z a 18z sa spúšťajú len na horizont 3,75 dní (inicializácie HRES 00z a 12z sa spúšťajú na 10 dní).Preto naše čísla naznačujú prechod s odstupňovanou čiarou, kde 3,5 dní pred čiarou sú porovnania s HRES inicializovanými na 06z a 18z a po čiare sú porovnania s inicializáciami na 00z a 12z. Výsledky predpokladaných overení Zistili sme, že GraphCast má väčšiu schopnosť predpovedať počasie ako HRES, keď sa hodnotí na 10-dňových prognózach s horizontálnym rozlíšením 0,25 ° pre zemepisnú šírku / dĺžku a na 13 vertikálnych úrovniach. Obrázok 2a–c ukazuje, ako GraphCast (modré čiary) prevyšuje HRES (čierne čiary) na poli z500 (geopotenciálne pri 500 hPa) „hlavnej línie“ z hľadiska zručností RMSE, skóre zručností RMSE (t. j. normalizovaný rozdiel zručností RMSE medzi modelom A a základnou líniou B definovanou ako (RMSEA − RMSEB)/RMSEB) a zručnosti ACC. Použitie z500, ktoré kóduje rozloženie tlaku v synoptickej stupnici, je v literatúre bežné, pretože má silný meteorologický význam [27]. Ploty ukazujú, že GraphCast má lepšie skóre zručností vo všetkých vedúcich časoch, s zlepšením skóre zručností okolo Obrázok 2d zhrnuje skóre zručností RMSE pre všetkých 1380 hodnotených premenných a úrovní tlaku v priebehu 10-dňových prognóz v podobnom formáte ako skóre ECMWF. Farby buniek sú úmerné skóre zručností, kde modrá indikuje, že GraphCast mal lepšiu zručnosť a červená indikuje, že HRES mal vyššiu zručnosť. GraphCast prekonal HRES na 90,3% z cieľov 1380 a výrazne (p ≤ 0,05, menovitá veľkosť vzorky n ∈ {729, 730}) prekonal HRES na 89,9% cieľov. Oblasti atmosféry, v ktorých HRES mal lepší výkon ako GraphCast (vrchné riadky v červenej farbe na scorecards), boli neúmerne lokalizované v stratosfére a mali najnižšiu stratovú hmotnosť tréningu (pozri časť 7.2.2) Pri vylúčení úrovne 50 hPa, GraphCast výrazne prekonal HRES na 96,9% z zostávajúcich 1280 cieľov. Pri vylúčení úrovní 50 a 100 hPa, GraphCast výrazne prekonal HRES na 99,7% z zostávajúcich cieľov 1180. Zistili sme, že zvýšenie počtu automaticky regresívnych krokov pri strate MSE zlepšuje výkon GraphCast pri dlhšom čase vedenia (pozri časť 7.3.2) a povzbudzuje ho, aby vyjadril svoju neistotu predpovedaním priestorovo vyhladených výstupov, čo vedie k rozmazateľnejším prognózam pri dlhších časoch vedenia (pozri časť 7.5. dodatkov). Základné fyzikálne rovnice HRES však nevedú k rozmazaným predpovediam. Na posúdenie toho, či sa zachováva relatívna výhoda GraphCast oproti HRES na RMSE, ak je HRES povolené tiež rozmazávať svoje prognózy, prispôsobíme rozmazateľné filtre GraphCast a HRES, čím minimalizujeme RMSE vo vzťahu k Porovnali sme tiež výkon GraphCast s najvyšším konkurenčným modelom počasia založeným na ML, Pangu-Weather [4], a zistili sme, že GraphCast to prekonal na 99,2% z 252 cieľov, ktoré prezentovali (pozri časť 6 doplnkov pre podrobnosti). Závažné udalosti predpovedajú výsledky Okrem hodnotenia predikčnej schopnosti GraphCast v porovnaní s HRES v širokej škále premenných a časov vedenia, hodnotíme aj to, ako jeho predpovede podporujú predpovedanie závažných udalostí, vrátane tropických cyklónov, atmosférických riek a extrémnych teplôt. Tropické cyklónové stopy Zlepšenie presnosti predpovede tropických cyklónov môže pomôcť zabrániť zraneniam a stratám životov, ako aj znížiť ekonomické škody [21]. Existencia, sila a trajektória cyklónu sa predpovedá aplikáciou sledovacieho algoritmu na predpovede geopotenciálneho (z), horizontálneho vetra (10 U/10 v, U/v) a priemerného tlaku na hladine mora (MsL). Implementovali sme sledovací algoritmus založený na rovnakých uverejnených protokoloch [20] ECMWF a aplikovali ho na predpovede GraphCast, aby sme vytvorili predpovede trasy cyklónov (pozri dodatky oddiel 8.1). Ako základnú líniu na porovnanie sme použili prevádzkové stopy získané z predpovede HRES 0,1°ec, uložené v arch Obrázok 3a ukazuje, že GraphCast má nižšiu mediánovú chybu v sledovaní ako HRES v rokoch 2018-2021. Keďže chyby na sledovanie pre HRES a GraphCast sú korelované, merali sme aj rozdiel v párovaných chybách na sledovanie medzi dvoma modelmi a zistili sme, že GraphCast je výrazne lepší ako HRES pre čas vedenia 18 hodín až 4,75 dní, ako je znázornené na obrázku 3b. Atmosférické rieky Atmosférické rieky sú úzkymi oblasťami atmosféry, ktoré sú zodpovedné za väčšinu dopravy vodnej pary smerom do polohy v stredných zemepisných šírkach, a vytvárajú 30%-65% ročného zrážania na západnom pobreží USA [6]. Ich silu môže charakterizovať vertikálne integrovaná preprava vodnej pary IvT [23, 22], čo naznačuje, či udalosť poskytne prospešné zrážky alebo je spojená s katastrofálnym poškodením [7]. IvT možno vypočítať z nelineárnej kombinácie horizontálnej rýchlosti vetra (U a v) a špecifickej vlhkosti (Q), ktorú predpovedá GraphCast. Vyhodnocujeme predpovede GraphCast pre pobrežnú Severnú Ameriku a východný Extrémne teplo a chlad Extrémne teplo a chlad sú charakterizované veľkými anomáliami vo vzťahu k typickej klimatológii [19, 16, 18], ktoré môžu byť nebezpečné a narušiť ľudskú činnosť. Vyhodnocujeme zručnosť HRES a GraphCast pri predpovedaní udalostí nad top 2% klimatológie naprieč lokalitou, časom dňa a mesiacom roka, pre 2 T pri 12-hodinových, 5-dňových a 10-dňových časoch vedenia, pre pozemné oblasti cez severnú a južnú pologuľu v letných mesiacoch. Plánujeme krivky na pripomenutie presnosti [30] aby sme odrážali možné rôzne kompromisy medzi znižovaním falošných pozitívov (vysoká presnosť) a znižovaním falošných negatívov (vysoká pripomenutie Figure 3d shows GraphCast’s precision-recall curves are above HRES’s for 5- and 10-day lead times, suggesting GraphCast’s forecasts are generally superior than HRES at extreme classification over longer horizons. By contrast, HRES has better precision-recall at the 12-hour lead time, which is consistent with the 2 T skill score of GraphCast over HRES being near zero, as shown in Figure 2d. We generally find these results to be consistent across other variables relevant to extreme heat, such as T 850 and z500 [18], other extreme thresholds (5%, 2% and 0.5%), and extreme cold forecasting in winter. See Supplements Section 8.3 for details. Účinky tréningových dát z nedávnej doby GraphCast môže byť pravidelne preškolovaný s najnovšími údajmi, čo v zásade umožňuje zachytiť poveternostné vzory, ktoré sa menia v priebehu času, ako je cyklus ENSO a iné oscilácie, ako aj účinky zmeny klímy. trénovali sme štyri varianty GraphCast s údajmi, ktoré vždy začali v roku 1979, ale skončili v rokoch 2017, 2018, 2019 a 2020, resp. (označujeme variant končiaci sa v roku 2017 ako „GraphCast:<2018“, atď.) Porovnali sme ich výkon s HRES na testovacích údajoch z roku 2021. Obrázok 4 ukazuje skóre zručností (normalizované GraphCast:<2018) štyroch variantov a HRES, pre z500. Zistili sme, že zatiaľ čo výkonnosť GraphCast pri tréningu až do roku 2018 je stále konkurencieschopná s HRES v roku 2021, tréning až do roku 2021 ďalej zlepšuje svoje skóre zručností (pozri doplnky oddiel 7.1.3). Špekulujeme, že tento nedávny efekt umožňuje zachytiť nedávne trendy počasia na zlepšenie presnosti. závery Predikčné zručnosti a efektívnosť GraphCast v porovnaní s HRES ukazujú, že metódy MLWP sú teraz konkurencieschopné s tradičnými metódami predpovedania počasia.Okrem toho výkon GraphCast v oblasti predpovedania závažných udalostí, pre ktoré nebol priamo vyškolený, demonštruje jeho robustnosť a potenciál pre hodnotu nadol. S 36,7 miliónmi parametrov, GraphCast je relatívne malý model podľa moderných noriem ML, vybraný tak, aby pamäťový odtlačok sledovateľný. A zatiaľ čo HRES je uvoľnený na 0,1 ° rozlíšenie, 137 úrovní a až 1 hodinu časových krokov, GraphCast pracoval na 0,25 ° rozlíšenie v dĺžke, 37 vertikálnych úrovniach a 6 hodín časových krokov, kvôli natívnemu rozlíšeniu 0,25 ° dátového výcviku ERA5 a inžinierskych výziev pri umiestňovaní údajov s vyšším rozlíšením na hardvér. Všeobecne GraphCast by sa mal považovať za rodinu modelov, pričom súčasná verzia je najväčšia, ktorú môžeme prakticky zapadnúť pod súčas Jedným z kľúčových obmedzení nášho prístupu je spôsob, akým sa s neistotou zaobchádza. Zamerali sme sa na deterministické predpovede a v porovnaní s HRES, ale druhý pilier ECMWF IFS, súborový predikčný systém, ENS, je obzvlášť dôležitý pre 10-dňové predpovede. Nelineárnosť dynamiky počasia znamená, že sa zvyšuje neistota pri dlhších časoch vedenia, čo nie je dobre zachytené jedinou deterministickou predpoveďou. ENS to rieši generovaním viacerých stochastických predpovedí, ktoré modelujú empirické rozloženie budúceho počasia, avšak generovanie viacerých predpovedí je nákladné. Naopak, tréningový cieľ GraphCast MSE ho povzbudzuje k Je dôležité zdôrazniť, že MLWP založený na údajoch závisí kriticky od veľkého množstva vysokokvalitných údajov, ktoré sú asimilované prostredníctvom NWP, a že bohaté zdroje údajov, ako sú archívy ECMWF MARS, sú neoceniteľné. Preto by sa náš prístup nemal považovať za náhradu za tradičné metódy predpovedania počasia, ktoré sa vyvíjajú už desaťročia, sú prísne testované v mnohých reálnych kontextoch a ponúkajú mnoho funkcií, ktoré sme doteraz nepreskúmali. Okrem predpovedania počasia môže GraphCast otvoriť nové smery pre ďalšie dôležité geopriestorovo-časové predpovedacie problémy, vrátane klímy a ekológie, energetiky, poľnohospodárstva a ľudskej a biologickej aktivity, ako aj iných komplexných dynamických systémov. Dostupnosť údajov a materiálov Kód GraphCast a vyškolené váhy sú verejne dostupné na github https://github.com/ deepmind/graphcast. Táto práca využíva verejne dostupné údaje z Európskeho centra pre predpovedanie stredného rozsahu (ECMWF). Používame archívy ECMWF (vypršané v reálnom čase) pre produkty ERA5, HRES a TIGGE, ktorých používanie sa riadi Creative Commons Attribution 4.0 International (CC BY 4.0). Používame IBTrACS verzia 4 z https://www.ncei.noaa.gov/ products/international-best-track-archive and reference [13, 12] podľa potreby. Textúra Zeme na obrázku 1 sa používa pod CC BY 4.0 z https://www.solarsystemscope.com/ textures/. uznanie V abecednom poradí ďakujeme Kelsey Allen, Charles Blundell, Matt Botvinick, Zied Ben Bouallegue, Michael Brenner, Rob Carver, Matthew Chantry, Marc Deisenroth, Peter Deuben, Marta Garnelo, Ryan Keisler, Dmitrii Kochkov, Christopher Mattern, Piotr Mirowski, Peter Norgaard, Ilan Price, Chongli Qin, Sébastien Racanière, Stephan Rasp, Yulia Rubanova, Kunal Shah, Jamie Smith, Daniel Worrall a nespočetným ďalším v Alphabet a ECMWF za poradenstvo a spätnú väzbu o našej práci. Ďakujeme tiež ECMWF za poskytnutie neoceniteľných dátových súborov výskumnej komunite. Štýl otváracieho odseku bol inšpirovaný D. Referencie [1] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Relatívne indukčné predsudky, hlboké učenie a grafické siete. arXiv preprint arXiv:1806.01261, 2018. [2] P. Bauer, A. Thorpe, a G Brunet. Tichá revolúcia číselnej predpovede počasia. príroda, 525, 2015. [3] Stanley G Benjamin, John M Brown, Gilbert Brunet, Peter Lynch, Kazuo Saito a Thomas W Schlatter. 100 rokov pokroku v predpovedaní a aplikáciách NWP. [4] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu, and Qi Tian. Pangu-Weather: A 3D high-resolution model for fast and accurate global weather forecast. arXiv preprint arXiv:2211.02556, 2022. [5] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. The THORPEX interactive grand global ensemble. Bulletin of the American Meteorological Society, 91(8):1059–1072, 2010. [6] WE Chapman, AC Subramanian, L Delle Monache, SP Xie a FM Ralph. Zlepšenie predpovede atmosférických riek pomocou strojového učenia. Geophysical Research Letters, 46(17-18):10627–10635, 2019. [7] Thomas W Corringham, F Martin Ralph, Alexander Gershunov, Daniel R Cayan a Cary A Talbot. Atmosférické rieky spôsobujú škody spôsobené povodňami v západných Spojených štátoch. [8] Lasse Espeholt, Shreya Agrawal, Casper Sønderby, Manoj Kumar, Jonathan Heek, Carla Bromberg, Cenk Gazen, Rob Carver, Marcin Andrychowicz, Jason Hickey, et al. Hlboké učenie pre dvanásťhodinové predpovede zrážok. [9] T Haiden, Martin Janousek, J Bidlot, R Buizza, Laura Ferranti, F Prates a F Vitart. Hodnotenie prognóz ECMWF vrátane aktualizácie na rok 2018. [10] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. Globálna reanalýza ERA5. Štvrťročný časopis Kráľovskej meteorologickej spoločnosti, 146(730):1999–2049, 2020. [11] Ryan Keisler. Predikcia globálneho počasia s grafickými neurálnymi sieťami. arXiv preprint arXiv:2202.07575, 2022. [12] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. Medzinárodný projekt Best Track Archive for Climate Stewardship (IBTrACS), verzia 4. https: //doi.org/10.25921/82ty-9e16, 2018 [13] Kenneth R. Knapp, Michael C. Kruk, David H. Levinson, Howard J. Diamond a Charles J. Neumann. Medzinárodný najlepší archív pre správu klímy (IBTrACS) zjednocujúci údaje o tropických cyklónoch. [14] Thorsten Kurth, Shashank Subramanian, Peter Harrington, Jaideep Pathak, Morteza Mardani, David Hall, Andrea Miele, Karthik Kashinath, and Animashree Anandkumar. FourCastNet: Accelerating global high-resolution weather forecasting using adaptive fourier neural operators. arXiv preprint arXiv:2208.05419, 2022. [15] David A Lavers, Adrian Simmons, Freja Vamborg a Mark J Rodwell. Hodnotenie zrážok ERA5 na monitorovanie klímy. Štvrťročný časopis Kráľovskej meteorologickej spoločnosti, 148(748):3152–3165, 2022. [16] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal a Jason Hickey. globálne predpovede extrémneho tepla s použitím modelov neurálneho počasia. umelá inteligencia pre systémy Zeme, stránky 1-41, 2022. [17] Carsten Maass a Esperanza Cuartero. MARS užívateľská dokumentácia. https://confluence. ecmwf.int/display/UDOC/MARS+user+documentation, 2022. [18] Linus Magnusson. 202208 - tepelná vlna - uk. https://confluence.ecmwf.int/display/ FCST/202208+-+Tepelná vlna+-+UK, 2022. [19] Linus Magnusson, Thomas Haiden a David Richardson. Overenie extrémnych poveternostných udalostí: diskrétne prediktory. [20] Linus Magnusson, Sharanya Majumdar, Rebecca Emerton, David Richardson, Magdalena Alonso-Balmaseda, Calum Baugh, Peter Bechtold, Jean Bidlot, Antonino Bonanni, Massimo Bonavita, et al. Tropické cyklónové aktivity na ECMWF. [21] Andrew B Martinez. Predikcia presnosť záleží na hurikánovej škody. Econometrics, 8(2):18, 2020. [22] Benjamin J Moore, Paul J Neiman, F Martin Ralph a Faye E Barthold. Fyzikálne procesy spojené s ťažkými povodňovými zrážkami v Nashville, Tennessee a okolí počas 1. – 2. mája 2010: Úloha atmosférickej rieky a konvekčných systémov v mezoskale. mesačný prehľad počasia, 140(2):358–378, 2012. [23] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist, a Michael D Dettinger. Meteorologické charakteristiky a nadzemné zrážky vplyvy atmosférických riek ovplyvňujúcich západné pobrežie Severnej Ameriky na základe ôsmich rokov satelitných pozorovaní ssm / i. Journal of Hydrometeorology, 9(1):22-47, 2008. [24] Tung Nguyen, Johannes Brandstetter, Ashish Kapoor, Jayesh K Gupta a Aditya Grover. ClimaX: Základný model pre počasie a klímu. arXiv preprint arXiv:2301.10343, 2023. [25] Jaideep Pathak, Shashank Subramanian, Peter Harrington, Sanjeev Raja, Ashesh Chattopad-hyay, Morteza Mardani, Thorsten Kurth, David Hall, Zongyi Li, Kamyar Azizzadenesheli, et al. Fourcastnet: Globálny dátovo riadený model počasia s vysokým rozlíšením pomocou adaptívnych štyroch nervových operátorov. arXiv preprint arXiv:2202.11214, 2022. [26] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez, a Peter Battaglia. Učenie simulácie na báze sieťových sieťach s grafickými sieťami. [27] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid a Nils Thuerey. WeatherBench: súbor referenčných údajov pre predpovede počasia založené na údajoch. Journal of Advances in Modeling Earth Systems, 12(11):e2020MS002203, 2020. [28] Stephan Rasp a Nils Thuerey. predpoveď počasia v strednom rozsahu založená na údajoch s resnetom na simuláciách klímy: nový model pre meteorologickú stanicu. [29] Suman Ravuri, Karel Lenc, Matthew Willson, Dmitry Kangin, Remi Lam, Piotr Mirowski, Megan Fitzsimons, Maria Athanassiadou, Sheleem Kashem, Sam Madge, et al. Skillful zrážky terazcasting pomocou hlbokých generatívnych modelov radaru. Príroda, 597(7878):672–677, 2021. [30] Takaya Saito a Marc Rehmsmeier. Plot precízneho pripomenutia je informatívnejší ako plot ROC pri hodnotení binárnych klasifikátorov na nevyvážených dátových súboroch. PloS jedna, 10(3):e0118432, 2015. [31] Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec a Peter Battaglia. Učenie sa simulovať komplexnú fyziku s grafickými sieťami. V Medzinárodnej konferencii o strojovom učení, stránky 8459–8468. PMLR, 2020. [32] Xingjian Shi, Zhihan Gao, Leonard Lausen, Hao Wang, Dit-Yan Yeung, Wai-kin Wong a Wang-chun Woo. Hlboké učenie pre zrážanie terazcasting: referenčná hodnota a nový model. Pokroky v systémoch spracovania neurálnych informácií, 30, 2017. [33] Casper Kaae Sønderby, Lasse Espeholt, Jonathan Heek, Mostafa Dehghani, Avital Oliver, Tim Salimans, Shreya Agrawal, Jason Hickey a Nal Kalchbrenner. Metnet: Neurálny model počasia pre predpovede zrážok. arXiv preprint arXiv:2003.12140, 2020. [34] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson a Munehiko Yamaguchi. Projekt TIGGE a jeho úspechy. Bulletin of the American Meteorological Society, 97(1):49 – 67, 2016. [35] Jonathan A Weyn, Dale R Durran a Rich Caruana. Môžu sa stroje naučiť predpovedať počasie? Použitie hlbokého učenia na predpovedanie geopotenciálnej výšky 500 hPa z historických údajov o počasí. Journal of Advances in Modeling Earth Systems, 11(8):2680–2693, 2019. [36] Jonathan A Weyn, Dale R Durran, a Rich Caruana. Zlepšenie predpovede globálneho počasia založeného na údajoch pomocou hlbokých konvolučných nervových sietí na kockovej sfére. 1. dátové súbory V tejto časti poskytujeme prehľad údajov, ktoré sme použili na výcvik a vyhodnotenie GraphCast (oddiel Doplnky 1.1), údaje, ktoré definujú predpovede NWP základnej rady HRES, ako aj HRES-fc0, ktoré používame ako základnú pravdu pre HRES (oddiel Doplnky 1.2). Na školenie a vyhodnotenie sme vytvorili viacero dátových súborov, ktoré pozostávajú z podskupín archívov údajov ECMWF a IBTrACS [29, 28]. Všeobecne rozlišujeme medzi zdrojovými údajmi, ktoré označujeme ako „archív“ alebo „archivované údaje“, oproti dátovým súborom, ktoré sme z týchto archívov vybudovali, ktoré označujeme ako „datasets“. 1.1 ERA5 Na výcvik a vyhodnotenie GraphCast sme vybudovali naše databázy z podskupiny archívu ERA5 [24]1 ECMWF, ktorý je veľkým súborom údajov, ktoré predstavujú globálne počasie od roku 1959 do súčasnosti, s rozlíšením 0,25° zemepisnej šírky/dĺžky, a 1 hodinovými zväčšeniami, pre stovky statických, povrchových a atmosférických premenných. archív ERA5 je založený na opätovnej analýze, ktorá používa model HRES ECMWF (cyklus 42r1) ktorý bol v prevádzke počas väčšiny roka 2016 (pozri tabuľku 3), v rámci systému asimilácie údajov ECMWF 4D-Var. Náš dataset ERA5 obsahuje podskupinu dostupných premenných v archíve ECMWF ERA5 (Tabuľka 2), na 37 úrovniach tlaku: 1, 2, 3, 5, 7, 10, 20, 30, 50, 70, 100, 125, 150, 175, 200, 225, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 775, 800, 825, 850, 875, 900, 925, 950, 975, 1000 hPa. Rozsah zahrnutých rokov bol 1979-01-01 až 2022-01-10, ktoré boli odoberané v časových intervaloch 6 hodín (zodpovedajúcich 00z, 06z, 12z a 18z každý deň). 1.2. HRES Hodnotenie východiskovej línie modelu HRES si vyžaduje dva samostatné súbory údajov, a to údaje o prognóze a údaje o základnej pravde, ktoré sú zhrnuté v nasledujúcich pododdieloch. HRES je všeobecne považovaný za najpresnejší deterministický model počasia založený na NWP na svete, takže na vyhodnotenie východiskovej hodnoty HRES sme vybudovali databázu archivovaných historických predpovedí HRES. HRES je pravidelne aktualizovaný ECMWF, takže tieto predpovede predstavujú najnovší model HRES v čase, keď boli predpovede vykonané. Predpovede boli stiahnuté v ich natívnej reprezentácii (ktorá používa sférickú harmoniku a oktaedrálnu redukovanú gausijskú mriežku, TCo1279 [36]) a približne zodpovedá rozlíšeniu 0,1° zemepisnej šírky / dĺžky. HRES operational forecasts Potom sme priestorovo odobrali predpovede na mriežku 0,25° šírky/dĺžky (aby sa zhodovalo s rozlíšením ERA5) pomocou knižnice Metview ECMWF s predvolenými regridnými parametrami. For evaluating the skill of the HRES operational forecasts, we constructed a ground truth dataset, “HRES-fc0”, based on ECMWF’s HRES operational forecast archive. This dataset comprises the initial time step of each HRES forecast, at initialization times 00z, 06z, 12z, and 18z (see Figure 5). The HRES-fc0 data is similar to the ERA5 data, but it is assimilated using the latest ECMWF NWP model at the forecast time, and assimilates observations from ±3 hours around the corresponding date and time. Note, ECMWF also provides an archive of “HRES Analysis” data, which is distinct from our HRES-fc0 dataset. The HRES Analysis dataset includes both atmospheric and land surface analyses, but is not the input which is provided to the HRES forecasts, therefore we do not use it as ground truth because it would introduce discrepancies between HRES forecasts and ground truth, simply due to HRES using different inputs, which would be especially prominent at short lead times. HRES-fc0 Veľmi malá podskupina hodnôt z archívu ECMWF HRES pre premenlivý geopotenciál pri 850hPa (z850) a 925hPa (z925) nie sú čísla (NaN). Zdá sa, že tieto NaN sú rozložené rovnomerne v rozmedzí rokov 2016 až 2021 a v predpovedaných časoch. To predstavuje približne 0,00001% pixelov pre z850 (1 pixel každých desať šírky šírky šírky 1440 x 721), 0,00000001% pixelov pre z925 (1 pixel každých desať tisíc šírky šírky šírky šírky šírky šírky šírky šírky šírky šírky šírky šírky šírky šírky šírky šírky šírky šír HRES NaN handling 1.3 Tropické cyklóny Pre našu analýzu predpovedania tropických cyklónov sme použili archív IBTrACS [28, 29, 31, 30] na vytvorenie súboru údajov o pozemnej pravde. To zahŕňa historické stopy cyklónov z približne desiatich autoritatívnych zdrojov.Každá stopa je časová séria, v 6-hodinových intervaloch (00z, 06z, 12z, 18z), kde každá časová etapa predstavuje oko cyklónu v súradniciach zemepisnej šírky a dĺžky spolu s príslušnou kategóriou Saffir-Simpson a ďalšími relevantnými meteorologickými vlastnosťami v danom čase. Pre základnú hodnotu HRES sme použili archív TIGGE, ktorý poskytuje cyklónové stopy odhadované s operačným sledovačom, z prognóz HRES v rozlíšení 0,1° [8, 46]. Údaje sú uložené ako súbory XML dostupné na stiahnutie pod https://confluence.ecmwf.int/display/TIGGE/Tools. Na premenu údajov do formátu vhodného pre ďalšie post-spracovanie a analýzu sme implementovali analyzátor, ktorý extrahuje cyklónové stopy pre roky záujmu. Relevantné sekcie (tagy) v súboroch XML sú tie typu „forecast“, ktoré zvyčajne obsahujú viaceré stopy zodpovedajúce rôznym počiatočným časom prognózy. S týmito značkami potom extrahujeme názov cyklónu Pozri časť 8.1 pre podrobnosti o algoritme a výsledkoch sledovania. Notácia a vyhlásenie o probléme V tejto časti definujeme užitočné časové poznámky používané v celom článku (oddiel 2.1), formalizujeme všeobecný predikčný problém, ktorý riešime (oddiel 2.2), a podrobne popisujeme, ako modelujeme stav počasia (oddiel 2.3). 2.1 Časové označenie Časové označenie používané v predpovedaní môže byť mätúce, zahŕňajúce množstvo rôznych časových symbolov, napr. na označenie počiatočného predpovedacieho času, času platnosti, predpovedacieho horizontu atď. Preto zavádzame niektoré štandardizované pojmy a poznámky pre jasnosť a jednoduchosť. Na konkrétny časový bod odkazujeme ako na „dátumový čas“, označený kalendárnym dátumom a časom UTC. Napríklad 2018-06-21_18:00:00 znamená 21. jún 2018, na 18:00 UTC. Na krátky účel tiež niekedy používame Zulu konvenciu, t. j. 00z, 06z, 12z, 18z znamená 00:00, 06:00, 12:00, 18:00 UTC. Ďalej definujeme nasledujúce symboly: t: Index predpovedaných časových krokov, ktorý indexuje počet krokov od inicializácie predpovede. 𝑇: Forecast horizon, which represents the total number of steps in a forecast. d: Čas platnosti, ktorý označuje dátum-čas konkrétneho poveternostného stavu. d0: Predpokladaný čas inicializácie, ktorý označuje čas platnosti počiatočných vstupov predpovede. Δd: Predpokladaná dĺžka kroku, ktorá ukazuje, koľko času uplynie počas jedného kroku predpovedania. τ: Predpokladaný čas vedenia, ktorý predstavuje uplynutý čas v predpovedi (tj, τ = tΔd). 2.2.Všeobecné vyhlásenie o probléme predpovedania Časová evolúcia skutočného počasia môže byť reprezentovaná základnou funkciou diskrétnej časovej dynamiky, Φ, ktorá generuje stav v ďalšom časovom kroku (Δd v budúcnosti) na základe súčasného stavu, t.j. Zd+Δd = Φ(Zd). Our goal is to find an accurate and efficient model, 𝜙, of the true dynamics function, Φ, that can efficiently forecast the state of the weather over some forecast horizon, 𝑇Δ𝑑. We assume that we cannot observe 𝑍𝑑 directly, but instead only have some partial observation 𝑋𝑑, which is an incomplete representation of the state information required to predict the weather perfectly. Because 𝑋𝑑 is only an approximation of the instantaneous state 𝑍𝑑, we also provide 𝜙 with one or more past states, Xd−Δd , Xd−2Δd , ..., okrem Xd. Model potom môže v zásade využiť tieto dodatočné kontextové informácie na bližšie zhrnutie Zd. Analogicky k rovnici (1), predpoveď X ̈d+Δd môže byť nasmerovaná späť do φ, aby sa autoregresívne vytvorila úplná predpoveď, Hodnotíme kvalitu predpovedania, alebo zručnosť, φ kvantifikovaním toho, ako dobre predpovedaná trajektória, X ̈d+Δd:d+T Δd, zodpovedá trajektórii základnej pravdy, Xd+Δd:d+TΔd. Je však dôležité opäť zdôrazniť, že Xd+Δd:d+TΔd obsahuje len naše pozorovania Zd+Δd:d+TΔd, ktoré samotné nie sú pozorované. ktoré sú výslovne opísané v oddiele 5. V našej práci bolo časové rozlíšenie údajov a prognóz vždy Δd = 6 hodín s maximálnym horizontom prognózy 10 dní, čo zodpovedá celkovému počtu T = 40 krokov. Pretože Δd je konštantou v celom tomto dokumente, môžeme zjednodušiť notáciu pomocou (Xt, Xt+1, . . , Xt+T ) namiesto (Xd, Xd+Δd , . . , Xd+TΔd ), aby sme indexovali čas s celým číslom namiesto konkrétneho dátumového času. Modelovanie údajov o počasí ECMWF Pri výcviku a hodnotení modelov zaobchádzame s našou databázou ERA5 ako s podkladovou pravdivou reprezentáciou povrchu a atmosférického poveternostného stavu.Ako je popísané v oddiele 1.2 sme použili databázu HRES-fc0 ako podkladovú pravdu na hodnotenie zručnosti HRES. V našom súbore údajov je atmosférický stav ERA5 Xt zložený zo všetkých premenných v tabuľke 2 s rozlíšením 0,25° horizontálnej šírky a dĺžky s celkovým počtom 721 × 1440 = 1, 038, 240 bodov mriežky a 37 úrovní vertikálneho tlaku. Atmosférické premenné sú definované na všetkých úrovniach tlaku a súbor (horizontálnych) bodov mriežky je daný G0.25◦ = {−90.0, −89.75, . . . , 90.0} × {−179.75, −179.5, . . . , 180.0}. Tieto premenné sú jedinečne identifikované ich skratkou (a úrovňou tlaku, pre atmosférické premenné). Napríklad povrchová premenná „2 metre“ je označená 2 T; atmosfér Zo všetkých týchto premenných náš model predpovedá 5 povrchových premenných a 6 atmosférických premenných pre celkom 227 cieľových premenných. Niekoľko ďalších statických a/alebo vonkajších premenných bolo tiež poskytnutých ako vstupný kontext pre náš model. Tieto premenné sú uvedené v tabuľke 1 a tabuľke 2. Odkazujeme na podskupinu premenných v Xt, ktoré zodpovedajú konkrétnemu mriežkovému bodu i (1,038,240 celkovo) ako xt, a na každú premennú j z 227 cieľových premenných ako xt. Úplné štátne zastúpenie Xtii, j preto obsahuje celkom 721 × 1440 × (5 + 6 × 37) = 235, 680, 480 hodnôt. GraphCast model Táto časť poskytuje podrobný opis GraphCast, počnúc autoregresívnej generácie prognózy (oddiel 3.1), prehľad architektúry v jednoduchom jazyku (oddiel 3.2), po ktorom nasleduje technický popis všetkých grafov definujúcich GraphCast (oddiel 3.3), jeho kódovač (oddiel 3.4), procesor (oddiel 3.5), a dekodér (oddiel 3.6), ako aj všetky normalizácie a parametrizácie podrobnosti (oddiel 3.7). 3.1 Vytvorenie prognózy Náš model GraphCast je definovaný ako simulátor jedného kroku, ktorý zohráva úlohu φ v rovnici (2) a predpovedá ďalší krok na základe dvoch po sebe nasledujúcich vstupných stavov, Rovnako ako v rovnici (3), môžeme aplikovať GraphCast iteratívne na vytvorenie predpovede To je znázornené na obrázku 1b,c. V skorých experimentoch sme zistili, že dva vstupné stavy priniesli lepší výkon ako jeden a že tri nepomohli dostatočne na odôvodnenie zvýšenej pamäťovej stopy. 4.2 Architektonický prehľad Základná architektúra GraphCast používa GNN v konfigurácii „kód-proces-dekód“ [6], ako je znázornené na obrázku 1d,e,f. GNN-založené učené simulátory sú veľmi účinné pri učení sa komplexnej fyzikálnej dynamiky tekutín a iných materiálov [43, 39], pretože štruktúra ich reprezentácií a výpočtov je analógová s učenými riešiteľmi konečných prvkov [1]. Kľúčovou výhodou GNN je, že štruktúra vstupného grafu určuje, ktoré časti reprezentácie navzájom interagujú prostredníctvom učeného prenosu správ, čo umožňuje ľubovoľné vzory priestorových interakcií v akomkoľvek rozsahu. Na rozdiel od toho je konvolučná neurálna sieť (CNN) obmedzená na výpočtové interakcie Spôsob, akým využívame schopnosť GNN modelovať ľubovoľné vzdialené interakcie, je zavedením vnútornej „multi-mesh“ reprezentácie GraphCast, ktorá umožňuje dlhodobé interakcie v priebehu niekoľkých krokov prenosu správ a má všeobecne homogénne priestorové rozlíšenie po celom svete. Náš multi-mesh je konštruovaný tým, že najprv rozdelíme pravidelný icosahedron (12 uzlov a 20 tvárí) iteratívne 6 krát, aby sme získali hierarchiu icosahedrových sietí s celkovým počtom 40,962 uzlov a 81,920 tvárí na najvyššom rozlíšení. Využili sme skutočnosť, že hrubé-meshové uzly sú podskupinami jemno-meshových uzlov, čo nám umožnilo prekrývať okraje zo všetkých úrovní hierarchie sietí na najjemnejšie rozlíšenie. Tento postup prináša viacúrovňovú sadu sietí, s hrubými okrajmi, ktoré prekrývajú dlhé vzdialenosti na viacerých stupňoch, a jemnými okrajmi zachytávaj Encoder GraphCast (obrázok 1d) najprv mapuje vstupné dáta, z pôvodnej šírky a dĺžky mriežky, do naučených funkcií na multi-meshe, pomocou GNN s smerovanými okrajmi z bodov mriežky do multi-meshe. Procesor (obrázok 1e) potom používa 16-vrstvovú hlbokú GNN na vykonanie učeného prechodu správ na multi-meshe, čo umožňuje efektívne šírenie informácií cez priestor v dôsledku okrajov s dlhým dosahom. Dekodér (obrázok 1f) potom mapuje konečnú multi-mesh reprezentáciu späť do šírky a dĺžky mriežky pomocou GNN s smerovanými okrajmi a kombinuje túto reprezentáciu mriežky, Ytk+, s vstupným stavom, Xt+k Encoder a dekodér nevyžadujú, aby boli surové údaje usporiadané v pravidelnej obdĺžnikovej mriežke, a môžu byť tiež aplikované na ľubovoľné diskretizácie stavov podobných mriežke [1]. Na jednom zariadení Cloud TPU v4 môže GraphCast generovať 0,25° rozlíšenie, 10-dňovú prognózu (v 6-hodinových krokoch) za menej ako 60 sekúnd. Na porovnanie, systém ECMWF IFS beží na 11,664-jadrovom klastre a generuje 0,1° rozlíšenie, 10-dňovú prognózu (vydané v 1-hodinových krokoch pre prvých 90 hodín, 3-hodinové kroky pre hodiny 93-144, a 6-hodinové kroky od 150-240 hodín, v približne jednej hodine počítačového času [41]. Pozrite si podrobnosti o vydaní HRES tu: https://www.ecmwf.int/en/forecasts/datasets/set-i. 3.3 GraphCastova grafika GraphCast sa implementuje pomocou GNNs v konfigurácii "kódovanie-proces-dekódovanie", kde kódovač mapy (povrch a atmosféra) funkcie na vstupnej šírke-dĺžka mriežky na multi-mesh, procesor vykonáva mnoho kôl správy-prechod na multi-mesh, a dekodér mapuje multi-mesh funkcie späť na výstupnej šírke-dĺžka mriežky (pozri obrázok 1). The model operates on a graph G(VG, VM, EM, EG2M, EM2G), defined in detail in the subsequent paragraphs. VG represents the set containing each of the grid nodes 𝑣G. Each grid node represents a vertical slice of the atmosphere at a given latitude-longitude point, 𝑖. The features associated with each grid node 𝑣G are vG,features = [x𝑡−1, x𝑡, f𝑡−1, f𝑡, f𝑡+1, c𝑖], where x𝑡 is the time-dependent weather state 𝑋𝑡 corresponding to grid node 𝑣G and includes all the predicted data variables for all 37 atmospheric levels as well as surface variables. The forcing terms f𝑡 consist of time-dependent features that can be computed analytically, and do not need to be predicted by GraphCast. They include the total incident solar radiation at the top of the atmosphere, accumulated over 1 hour, the sine and cosine of the local time of day (normalized to [0, 1)), and the sine and cosine of the of year progress (normalized to [0, 1)). The constants c𝑖 are static features: the binary land-sea mask, the geopotential at the surface, the cosine of the latitude, and the sine and cosine of the longitude. At 0.25° resolution, there is a total of 721 × 1440 = 1, 038, 240 grid nodes, each with (5 surface variables + 6 atmospheric variables × 37 levels) × 2 steps + 5 forcings × 3 steps + 5 constant = 474 input features. Grid nodes VM predstavuje sadu obsahujúcu každý z sieťových uzlov vM. Sieťové uzly sú rovnomerne umiestnené po celom svete v R-refinovanej icosahedralnej sieťovej sieti MR. M0 zodpovedá jednotkovému icosahedronu (12 uzlov a 20 trojuholníkových tvárí) s tvárami paralelnými s pólmi (pozri obrázok 1g). Sieť je iteratívne rafinovaná Mr → Mr+1 rozdelením každej trojuholníckej tváre na 4 menšie tváre, čo má za následok dodatočný uzol v strede každého okraja a preprojekciu nových uzlov späť na jednotkovú sféru.4 Vlastnosti vM,funkcie spojené s každým sieťovým uzlom vM zahŕňajú kosinu šírky a ihe Mesh nodes EM sú obojsmerné okraje pridané medzi sieťovými uzlinami, ktoré sú pripojené do sieťoviny. Kľúčové sú okraje sieťoviny pridané k EM pre všetky úrovne rafinácie, t. j. pre najjemnejšie sieťoviny, M6, ako aj pre M5, M4, M3, M2, M1 a M0. To je jednoduché kvôli tomu, ako proces rafinácie funguje: uzly Mr−1 sú vždy podskupinou uzlov v Mr. Preto uzly zavedené na nižších úrovniach rafinácie slúžia ako uzly pre komunikáciu dlhšieho rozsahu, nezávisle od maximálnej úrovne rafinácie. Výsledný graf, ktorý obsahuje spoločnú sadu okrajov zo všetkých úrovní rafinácie, je to, čo nazývame „multi-mes Mesh edges Pre každý okraj eM pripájajúci odosielateľ mesh uzol vM na prijímač mesh uzol vM, budujeme vM→vM okraj funkcie eM, funkcie využívajúce pozíciu na jednotkovej sfére sieťových uzlov. To zahŕňa dĺžku vM→vM s r okraja, a vektorový rozdiel medzi 3d pozíciami odosielateľa uzla a prijímača uzla vypočítaný v lokálnom súradnicovom systéme prijímača. Miestny súradnicový systém prijímača sa vypočíta aplikáciou rotácie, ktorá mení azimútny uhol, kým tento prijímač uzol leží na dĺžke 0, po ktorom nasleduje rotácia, ktorá mení polárny uhol, kým prijímač EG2M sú jednosmerné okraje, ktoré spájajú odosielateľské sieťové uzly s prijímačovými sieťovými uzlinami. Okraj eG2M vG→vM sa pridá, ak je vzdialenosť medzi sieťovým uzlom a sieťovým uzlom menšia ako s r alebo rovná 0,6 krát5 dĺžky okrajov v sieťovom M6 (pozri obrázok 1) ktorý zabezpečuje, že každý sieťový uzol je pripojený k aspoň jednému sieťovému uzlu. Grid2Mesh edges EM2G sú jednosmerné okraje, ktoré spájajú odosielateľské sieťové uzly s prijímačovými sieťovými uzlinami. Pre každý sieťový bod nájdeme trojuholníkovú tvár v sieťovom M6, ktorá ho obsahuje, a pridáme tri okraje Mesh2Grid formy eM2G vM→vG, na pripojenie sieťového uzla k trom sieťovým uzlom priľahlým k tejto tvári (pozri obrázok 1). Funkcie eM2G,funkcie sú postavené rovnakým spôsobom ako tie pre sieťové vM→vG s r okraje. To má za následok celkom 3 114,720 okrajov Mesh2Grid (3 sieťové uzly pripojené ku každému z 721 × 1440 bodov sieťovej šírky), z ktorých Mesh2Grid edges 3.4 Kódovanie Účelom kódovača je pripraviť dáta do latentných reprezentácií pre procesor, ktoré budú bežať výlučne na multi-mesh. Ako súčasť kódovača najprv vložíme funkcie každého z uzlov mriežky, uzlov mriežky, okrajov mriežky, okrajov mriežky a okrajov mriežky do latentného priestoru fixnej veľkosti pomocou piatich viacvrstvových perceptrónov (MLP), Embedding the input features Ďalej, s cieľom prenášať informácie o stave atmosféry zo sieťových uzlov do sieťových uzlov, vykonávame jedinú správu, ktorá prechádza krok cez Grid2Mesh bipartitný subgraf GG2M (VG, VM, EG2M), ktorý spája sieťové uzly so sieťovými uzlami. Táto aktualizácia sa vykonáva pomocou interakčnej siete [5, 6], rozšírená tak, aby mohla pracovať s viacerými typmi uzlov [2]. Grid2Mesh GNN Then each of the mesh nodes is updated by aggregating information from all of the edges arriving at that mesh node: Každý z uzlov mriežky je tiež aktualizovaný, ale bez agregácie, pretože uzly mriežky nie sú prijímačmi žiadnych okrajov v podgrafe Grid2Mesh, Po aktualizácii všetkých troch prvkov model zahŕňa reziduálne spojenie a pre jednoduchosť notácie prerozdeľuje premenné, 5.3 Procesor Procesor je hlboký GNN, ktorý pracuje na subgraf GM Mesh (VM, EM), ktorý obsahuje iba uzly Mesh a okraje Mesh. Všimnite si, že okraje Mesh obsahujú celý multi-mesh, s nielen okrajmi M6, ale všetky okraje M5, M4, M3, M2, M1 a M0, ktoré umožnia komunikáciu na dlhé vzdialenosti. Jediná vrstva Mesh GNN je štandardná interakčná sieť [5, 6], ktorá najprv aktualizuje každý z okrajov siete pomocou informácií o priľahlých uzloch: Multi-mesh GNN Potom aktualizuje každý z uzlov siete a zhromažďuje informácie zo všetkých okrajov prichádzajúcich k tomuto uzlu siete: A po aktualizácii oboch sú zastúpenia aktualizované s reziduálnym pripojením a pre jednoduchosť notácie, tiež prerozdelené k vstupným premenným: Predchádzajúci odsek opisuje jedinú vrstvu prechádzajúcej správy, ale po podobnom prístupe k [43, 39], sme túto vrstvu aplikovali iteratívne 16 krát, s použitím nerozdelených váh neurónovej siete pre MLP v každej vrstve. 3.6 Dekódovanie Úlohou dekodéra je vrátiť informácie do siete a extrahovať výstup. Rovnako ako Grid2Mesh GNN, Mesh2Grid GNN vykonáva jedinú správu, ktorá prechádza cez Mesh2Grid bipartitný subgraf GM2G(VG, VM, EM2G). Grid2Mesh GNN je funkčne ekvivalentný Mesh2Grid GNN, ale používa okraje Mesh2Grid na odosielanie informácií v opačnom smere. Mesh2Grid GNN Potom aktualizuje každý z uzlov mriežky a zhromažďuje informácie zo všetkých okrajov prichádzajúcich k tomuto uzlu mriežky: V tomto prípade neaktualizujeme sieťové uzly, pretože od tohto okamihu nebudú zohrávať žiadnu úlohu. Here again we add a residual connection, and for simplicity of the notation, reassign the variables, this time only for the grid nodes, which are the only ones required from this point on: Napokon predpoveď yi pre každý z uzlov mriežky sa vytvára pomocou iného MLP, Output function which contains all 227 predicted variables for that grid node. Similar to [43, 39], the next weather state, 𝑋ˆ𝑡+1, is computed by adding the per-node prediction, 𝑌ˆ𝑡 , to the input state for all grid nodes, Normalizácia a parametrizácia siete Podobne ako [43, 39], normalizovali sme všetky vstupy. Pre každú fyzickú premennú sme vypočítali priemer a štandardnú odchýlku na úrovni tlaku v rokoch 1979 – 2015 a použili sme ich na normalizáciu na nulový priemer a jednotkovú odchýlku. Pre relatívne okrajové vzdialenosti a dĺžky sme normalizovali funkcie na dĺžku najdlhšieho okraja. Input normalization Because our model outputs a difference, 𝑌ˆ𝑡 , which, during inference, is added to 𝑋𝑡 to produce 𝑋ˆ𝑡+1, we normalized the output of the model by computing per-pressure level standard deviation statistics for the time difference 𝑌𝑡 = 𝑋𝑡+1 − 𝑋𝑡 of each variable6. When the GNN produces an output, we multiply this output by this standard deviation to obtain 𝑌ˆ𝑡 before computing 𝑋ˆ𝑡+1, as in Equation (18). For simplicity, we omit this output normalization from the notation. Output normalization Neurálne siete v GraphCast sú všetky MLPs, s jednou skrytou vrstvou, a skryté a výstupné vrstvy veľkosti 512 (s výnimkou konečnej vrstvy Decoder MLP, ktorého výstupná veľkosť je 227, zodpovedajúce počtu predpovedaných premenných pre každý sieťový uzol). Vybrali sme „swish“ [40] aktivácia funkcie pre všetky MLPs. Všetky MLPs sú nasledované LayerNorm [3] vrstva (s výnimkou Decoder MLP). Neural network parameterizations Školenie Podrobnosti Táto časť poskytuje podrobnosti týkajúce sa výcviku GraphCast, vrátane dátového rozdelenia použitého na vývoj modelu (oddiel 4.1), úplnej definície objektívnej funkcie s hmotnosťou spojenou s každou premennou a vertikálnou úrovňou (oddiel 4.2), autoregresívneho tréningového prístupu (oddiel 4.3), nastavení optimalizácie (oddiel 4.4), školiaceho programu použitého na zníženie nákladov na výcvik (oddiel 4.5), technických podrobností použitých na zníženie pamäťovej stopy GraphCast (oddiel 4.6), tréningového času (oddiel 4.7) a softvéru, ktorý sme použili (oddiel 4.8). 4.1 Školenie rozdelené Aby sme napodobnili skutočné podmienky nasadenia, v ktorých prognóza nemôže závisieť od informácií z budúcnosti, rozdelili sme údaje používané na vývoj GraphCast a údaje používané na testovanie jeho výkonu „príčinným spôsobom“, v tom zmysle, že „vývojová sada“ obsahovala iba dátumy skôr ako tie v „testovacej súprave“. Vývojová súprava pozostáva z obdobia 1979 – 2017 a testovacia súprava obsahuje roky 2018 – 2021. Ani výskumníkom, ani modelovému tréningovému softvéru nebolo dovolené zobraziť údaje z testovacej súpravy, kým sme nedokončili vývojovú fázu. V rámci nášho vývojového súboru sme ďalej rozdelili údaje na tréningový súbor pozostávajúci z rokov 1979 – 2015 a validačný súbor, ktorý zahŕňa roky 2016 – 2017. Použili sme tréningový súbor ako tréningové údaje pre naše modely a validačný súbor pre optimalizáciu hyperparametrov a výber modelu, t. j. na rozhodnutie o najlepšej modelovej architektúre. Potom sme zmrazili modelovú architektúru a všetky tréningové možnosti a presunuli sa do testovacej fázy.V predbežnej práci sme tiež preskúmali tréning na skorších údajoch z rokov 1959 – 1978, ale zistili sme, že mal mal malý prínos na výkon, takže v záverečných fázach našej práce sme pre jednoduchosť vylúčili 1959 – 1978. 4.2. Training objective GraphCast bol vyškolený tak, aby minimalizoval objektívnu funkciu cez 12-stupňové predpovede (3 dni) proti cieľom ERA5, pričom sa používa gradientný pokles. kde 𝜏 ∈ 1 : 𝑇train are the lead times that correspond to the 𝑇train autoregressive steps. 𝑑0 ∈ 𝐷batch represent forecast initialization date-times in a batch of forecasts in the training set, 𝑗 ∈ 𝐽 indexes the variable, and for atmospheric variables the pressure level. E.g. 𝐽 ={z1000, z850, . . . , 2 T, MsL}, 𝑖 ∈ 𝐺0.25◦ are the location (latitude and longitude) coordinates in the grid, x ̈d0+τ a xd0+τ sú predpovedané a cieľové hodnoty pre niektoré úrovne premenných, umiestnenie a čas vedenia,j,i j,i s j je reverzná variancia časových rozdielov na úrovni premennej, wj je hmotnosť straty na variabilnej úrovni, 𝑎𝑖 is the area of the latitude-longitude grid cell, which varies with latitude, and is normalized to unit mean over the grid. In order to build a single scalar loss, we took the average across latitude-longitude, pressure levels, variables, lead times, and batch size. We averaged across latitude-longitude axes, with a weight proportional to the latitude-longitude cell size (normalized to mean 1). We applied uniform averages across time and batch. The quantities 𝑠 = 𝕍 h𝑥𝑡+1 − 𝑥𝑡 i −1 are per-variable-level inverse variance estimates of the time differences, which aim to standardize the targets (over consecutive steps) to unit variance. These were estimated from the training data. We then applied per-variable-level loss weights, 𝑤𝑗. For atmospheric variables, we averaged across levels, with a weight proportional to the pressure of the level (normalized to unit mean), as shown in Figure 6a. We use pressure here as a proxy for the density [26]. Note that the loss weight applied to pressure levels at or below 50 hPa, where HRES tends to perform better than GraphCast, is only 0.66% of the total loss weight across all variables and levels. We tuned the loss weights for the surface variables during model development, so as to produce roughly comparable validation performance across all variables: the weight on 2 T was 1.0, and the weights on 10 U, 10 v, MsL, and TP were each 0.1, as shown in Figure 6b. The loss weights across all variables sum to 7.4, i.e., (6 × 1.0 for the atmospheric variables, plus (1.0 + 0.1 + 0.1 + 0.1 + 0.1) for the surface variables listed above, respectively). 4.3 Výcvik na autoregresívny cieľ In order to improve our model’s ability to make accurate forecasts over more than one step, we used an autoregressive training regime, where the model’s predicted next step was fed back in as input for predicting the next step. The final GraphCast version was trained on 12 autoregressive steps, following a curriculum training schedule described below. The optimization procedure computed the loss on each step of the forecast, with respect to the corresponding ground truth step, error gradients with respect to the model parameters were backpropagated through the full unrolled sequence of model iterations (i.e., using backpropagation-through-time). 4.4. Optimization Funkcia tréningového cieľa bola minimalizovaná pomocou gradientného poklesu, s mini-balíčkami. Vzorkovali sme pozemné pravdivé trajektórie z nášho tréningového dátového súboru ERA5, s náhradou, pre dávky veľkosti 32. Použili sme optimalizátor AdamW [33, 27] s parametrami (beta1 = 0,9, beta2 = 0,95). Použili sme hmotnostný pokles 0,1 na hmotnostných matricách. Použili sme gradientné (normálne) strihanie s maximálnou normálnou hodnotou 32. 5.4 Program školenia Prvá fáza pozostávala z 1000 aktualizácií gradientného poklesu, s jedným autoregresívnym krokom, a plánu rýchlosti učenia, ktorý sa lineárne zvýšil z 0 na 1e−3 (obrázok 7a). Druhá fáza pozostávala z 299 000 aktualizácií gradientného poklesu, opäť s jedným autoregresívnym krokom, a plánu rýchlosti učenia, ktorý klesol späť na 0 s funkciou polokozínového poklesu (obrázok 7b). Tretia fáza pozostávala z 11 000 aktualizácií gradientného poklesu, kde sa počet autoregresívnych krokov zvýšil z 2 12, čím sa zvýšil o 1 každých 1000 aktualizácií a s pevnou rýchlosťou učenia 3e−7 (obrázok 7c 4.6 Zníženie pamäťovej stopy Na prispôsobenie dlhých trajektórií (12 autoregresívnych krokov) do 32 GB zariadenia Cloud TPU v4 používame niekoľko stratégií na zníženie pamäťovej stopy nášho modelu. Po prvé, používame paralelizáciu dávok na distribúciu údajov cez 32 TPU zariadení (t. j. jeden dátový bod na zariadenie). Po druhé, používame presnosť plávajúceho bodu bfloat16 na zníženie pamäte prijaté aktiváciami (pozor, používame plnohodnotné číselné údaje (t. j. float32) na výpočet ukazovateľov výkonu v čase hodnotenia). 4.7 Čas výcviku Po tréningovom rozvrhu, ktorý zvyšuje počet autoregresívnych krokov, ako je uvedené vyššie, tréning GraphCast trval asi štyri týždne na 32 zariadeniach TPU. 4.8 Softvér a hardvér stack Používame JAX [9], Haiku [23], Jraph [17], Optax, Jaxline [4] a xarray [25] na budovanie a školenie našich modelov. 5. overovacie metódy Táto časť poskytuje podrobnosti o našom protokole hodnotenia. Oddiel 5.1 podrobne opisuje náš prístup k rozdeľovaniu údajov príčinným spôsobom, zabezpečujúc naše testy hodnotenia pre zmysluplnú generalizáciu, t. j. bez využitia informácií z budúcnosti. Oddiel 5.2 podrobnejšie vysvetľuje naše voľby na hodnotenie zručnosti HRES a porovnanie s GraphCastom, počnúc potrebou pozemnej pravdy špecifickej pre HRES, aby sa zabránilo jej penalizácii v krátkych časoch (oddiel 5.2.1), vplyvom ERA5 a HRES pomocou rôznych okien asimilácie na lookahead, ktorý každý štát začleňuje (oddiel 5.2.2), výslednou voľbou inicializácie pre čas GraphCast a HRES, aby sa zabezpečilo, že všetky metódy 5.1 Školenie, validácia a testovacie rozdelenia V testovacej fáze, pomocou protokolu zmrazeného na konci vývojovej fázy (oddiel 4.1), sme trénovali štyri verzie GraphCast, z ktorých každá bola v inom období. 2018–2021, 2019–2021, 2020–2021 and 2021, respectively. Again, these splits maintained a causal separation between the data used to train a version of the model and the data used to evaluate its performance (see Figure 8). Most of our results were evaluated on 2018 (i.e., with the model trained on 1979–2017), with several exceptions. For cyclone tracking experiments, we report results on 2018–2021 because cyclones are not that common, so including more years increases the sample size. We use the most recent version of GraphCast to make forecast on a given year: GraphCast <2018 for 2018 forecast, GraphCast <2019 for 2019 forecast, etc. For training data recency experiments, we evaluated how different models trained up to different years compared on 2021 test performance. 5.2. Comparing GraphCast to HRES 5.2.1 Výber dátových súborov základnej pravdy GraphCast bol vyškolený na predpovedanie údajov ERA5 a na zber údajov ERA5 ako vstupu; používame tiež ERA5 ako základnú pravdu na vyhodnotenie nášho modelu. Predpovede HRES sú však inicializované na základe analýzy HRES. Vo všeobecnosti overenie modelu proti jeho vlastnej analýze poskytuje najlepšie odhady zručností [45]. Namiesto hodnotenia predpovede HRES proti predpovedi ERA5, čo by znamenalo, že aj nulový krok predpovede HRES by nemal nulovú chybu, sme vybudovali dátový súbor „predpoveď HRES v kroku 0“ (HRES-fc0) obsahujúci počiatočný časový krok predpovede HRES pri budúcich inicializáciách (pozri tabuľku 3). Používame HRES-fc0 ako 5.2.2. Ensuring equal lookahead in assimilation windows When comparing the skills of GraphCast and HRES, we made several choices to control for differences between the ERA5 and HRES-fc0 data assimilation windows. As described in Section 1, each day HRES assimilates observations using four +/-3h windows centered on 00z, 06z, 12z and 18z (where 18z means 18:00 UTC in Zulu convention), while ERA5 uses two +9h/-3h windows centered on 00z and 12z, or equivalently two +3h/-9h windows centered on 06z and 18z. See Figure 9 for an illustration. We chose to evaluate GraphCast’s forecasts from the 06z and 18z initializations, ensuring its inputs carry information from +3h of future observations, matching HRES’s inputs. We did not evaluate GraphCast’s 00z and 12z initializations, to avoid a mismatch between having a +9h lookahead in ERA5 inputs versus +3h lookahead for HRES inputs. Figure 10 show the performance of GraphCast initialized from 06z/18z, and 00z/12z. When initialized from a state with a larger lookahead, GraphCast gets a visible improvement that persists at longer lead times, supporting our choice to initialized evaluation from 06z/18z. We applied the same logic when choosing the target on which to evaluate: we only evaluate targets which incorporate a 3h lookahead for both HRES and ERA5. Given our choice of initialization at 06z and 18z, this corresponds to evaluating every 12h, on future 06z and 18z analysis times. As a practical example, if we were to evaluate GraphCast and HRES initialized at 06z, at lead time 6h (i.e., 12z), the target for GraphCast would integrate a +9h lookahead, while the target for HRES would only incorporate +3h lookahead. At equal lead time, this could result in a harder task for GraphCast. 5.2.3 Zosúladenie inicializácie a platnosti časov dňa As stated above, a fair comparison with HRES requires us to evaluate GraphCast using 06z and 18z initializations, and with lead times which are multiples of 12h, meaning validity times are also 06z and 18z. Pre časy vedenia až do 3,75 dňa sú k dispozícii archivované predpovede HRES pomocou 06z a 18z inicializačných a platnostných časov a používame ich na vykonanie podobného porovnania s GraphCastom v týchto časoch vedenia. For lead times of 4 days and beyond, archived HRES forecasts are only available at 00z and 12z initializations, which given our 12-hour-multiple lead times means 00z and 12z validity times. At these lead times we have no choice but to compare GraphCast at 06z and 18z, with HRES at 00z and 12z. V týchto porovnaní globálne definovaných RMSEs očakávame, že rozdiel v čase dňa poskytne HRES miernu výhodu. Na obrázku 11 môžeme vidieť, že až do 3,5-dňové časy vedenia, HRES RMSEs majú tendenciu byť menšie v priemere nad 00z a 12z časy inicializácie/platnosti, než sú na 06z a 18z časy, na ktorých sa hodnotí GraphCast. Môžeme tiež vidieť, že rozdiel klesá, keď sa zvyšuje čas vedenia, a že 06z/18z RMSEs všeobecne vyzerajú, že majú tendenciu smerovať k asymptote nad 00z/12z RMSE, ale v rámci 2% z toho. očakávame, že tieto rozdiely budú naďalej podporovať HRES pri dlhších časoch vedenia, a napriek tomu Whenever we plot RMSE and other evaluation metrics as a function of lead time, we indicate with a dotted line the 3.5 day changeover point where we switch from evaluating HRES on 06z/18z to evaluating on 00z/12z. At this changeover point, we plot both the 06z/18z and 00z/12z metrics, showing the discontinuity clearly. 5.2.4 Časové obdobie hodnotenia Väčšina našich hlavných výsledkov sa uvádza za rok 2018 (z nášho testovacieho súboru), pre ktorý bol prvý čas inicializácie prognózy 2018-01-01_06:00:00 UTC a posledný 2018-12-31_18:00:00, alebo pri hodnotení HRES pri dlhších časoch vedenia, 2018-01-01_00:00:00 a 2018-12-31_12:00:00. 5.3 Hodnotenie metriky Kvantifikujeme zručnosť GraphCast, iných modelov ML a HRES pomocou koreňovej priemernej chyby štvorca (RMSE) a koeficientu korelácie anomálií (ACC), ktoré sú obidve vypočítané na základe údajov o pozemnej pravde jednotlivých modelov. RMSE meria veľkosť rozdielov medzi prognózami a pozemnou pravdou pre danú premennú indexovanú j a daný vodivý čas τ (pozri rovnicu (20)). ACC, Lj,τ , je definovaný v rovnici (29) a meria, ako dobre predpovedá rozdiely od klimatológie, t. j. priemerné počasie pre miesto a dátum, koreluje s rozdielmi pozemnej pravdy od klimatológie. Pre skóre zručnosti používame normalizovaný rozdiel RMSE medzi modelom A a základnou Všetky metriky boli vypočítané pomocou presnosti float32 a zaznamenané pomocou natívneho dynamického rozsahu premenných bez normalizácie. . We quantified forecast skill for a given variable, 𝑥 𝑗, and lead time, 𝜏 = 𝑡Δ𝑑, using a latitude-weighted root mean square error (RMSE) given by Root mean square error (RMSE) where • 𝑑0 ∈ 𝐷eval represent forecast initialization date-times in the evaluation dataset, • j ∈ J indexové premenné a úrovne, napr. J = {z1000, z850, . . . , 2 T, MsL}, • i ∈ G0.25◦ sú polohy (latitúdy a dĺžky) súradnice v mriežke, • 𝑥ˆ𝑑0+𝜏 and 𝑥𝑑0+𝜏 are predicted and target values for some variable-level, location, and lead time, J , J , I • ai je oblasť bunky mriežky so šírkou a dĺžkou (normalizovaná na jednotkový priemer cez mriežku), ktorá sa mení s šírkou. Tým, že vezmeme štvorcový koreň vnútri priemeru nad predikčné inicializácie, nasledujeme konvenciu WeatherBench [41]. Všimneme si však, že sa to líši od toho, ako je RMSE definovaný v mnohých iných kontextoch, kde sa štvorcový koreň aplikuje iba na konečný priemer, to znamená, Vo všetkých porovnaniach zahŕňajúcich predpovede, ktoré sú filtrované, truncované alebo rozložené v sférickej harmonickej oblasti, pre pohodlie vypočítavame RMSEs priamo v sférickej harmonickej oblasti, so všetkými prostriedkami prijatými vo vnútri štvorcového koreňa, Root mean square error (RMSE), spherical harmonic domain. Tu f ̈d0+τ a f d0+τ sú predpovedané a cielené koeficienty guľových harmoník s celkovým počtom vĺn j,l,m j,l,m Tieto koeficienty vypočítavame z údajov založených na mriežke pomocou diskrétnej sférickej harmonickej transformácie [13] s trojuholníkovou truncáciou na vlnovom čísle 719, ktorá bola zvolená na vyriešenie 0,25° (28km) rozlíšenia našej mriežky na rovníku. Tento RMSE úzko približuje definíciu RMSE danú v rovnici (21), ale nie je presne porovnateľný, čiastočne preto, že trojuholníková truncácia na vlnovom čísle 719 nerieši dodatočné rozlíšenie rovníkovej mriežky v blízkosti pólov. Toto sa vypočíta podľa RMSE definície rovnice (21), ale pre jediné miesto: Root mean square error (RMSE), per location. Rozdeľujeme tiež RMSE len podľa šírky: where |lon(𝐺0.25◦ ) | = 1440 is the number of distinct longitudes in our regular 0.25° grid. Toto sa vypočíta podľa definície RMSE rovnice (21), ale obmedzuje sa na určitý rozsah povrchových výšok, daný hranicami zl ≤ zsurface < zu na povrchovom geopotenciáli: Root mean square error (RMSE), by surface elevation. kde ll označuje funkciu indikátora. This quantity is defined as Mean bias error (MBE), per location. This quantifies the average magni-tude of the per-location biases from Equation (26) and is given by Root-mean-square per-location mean bias error (RMS-MBE). This quantifies the correlation between per-location biases (Equation (26)) of two different models A and B. We use an uncentered correlation coefficient because of the significance of the origin zero in measurements of bias, and compute this quantity according to Correlation of per-location mean bias errors. Koeficient korelácie anomálie (ACC). Vypočítali sme tiež koeficient korelácie anomálie pre danú premennú, x j, a čas vedenia, τ = tΔd, podľa kde Cd0+τ je klimatologický priemer pre danú premennú, úroveň, zemepisnú šírku a dĺžku a pre deň roka obsahujúci čas platnosti d0 + τ. Klimatologické prostriedky boli vypočítané pomocou údajov ERA5 medzi rokmi 1993 a 2016. 5.4 Štatistická metodika 5.4.1 Skúšky významnosti pre rozdiel v prostriedkoch Pre každý čas vedenia τ a premenlivú úroveň j testujeme rozdiel v priemere medzi RMSEs pre čas inicializácie (definovaný v rovnici (30)) pre GraphCast a HRES. Používame spárovaný obojstranný t-test s korekciou pre automatickú koreláciu, podľa metodiky [16]. Tento test predpokladá, že časové série rozdielov v predikčných skóre sú adekvátne modelované ako stacionárne Gaussian AR(2) procesy. Nominálna veľkosť vzorky pre naše testy je n = 730 pri časoch vedenia kratších ako 4 dni, pozostávajúca z dvoch predpovedných inicializácií denne počas 365 dní roku 2018. (Pre čas vedenia dlhšie ako 4 dni máme n = 729, pozri časť 5.4.2). Avšak tieto údaje (rozdiely v predpovedaných RMSEs) sú automaticky korelované v čase. Po [16] odhadujeme infláčný faktor k pre štandardnú chybu, ktorá na to koriguje. Hodnoty k sa pohybujú v rozmedzí od 1,21 do 6,75, pričom najvyššie hodnoty sa všeobecne pozorujú pri krátkych časoch vedenia a pri najnižších úrovniach tlaku. Pozri tabuľku 5 pre podrobné výsledky našich testov významnosti, vrátane p-hodnôt, hodnôt štatistiky testov t a neff. 5.4.2 Prognóza zosúladenia Pre časy vedenia τ menej ako 4 dni, máme predpovede k dispozícii na 06z a 18z inicializačné a platnosť časy každý deň pre GraphCast a HRES, a môžeme otestovať na rozdiely v RMSEs medzi týmito spárovaných predpovede. Vypočítavame rozdiely ktoré používame na testovanie nulovej hypotézy, že E[diff-RMSE( j, τ, d0)] = 0 proti obojstrannému alterna-tive. Všimnite si, že naším predpokladom stacionárnosti toto očakávanie nezávisí od d0. Ako je uvedené v oddiele 5.2.3, pri časoch prevodu 4 dní alebo viac máme predpovede HRES k dispozícii iba pri časoch inicializácie a platnosti 00z a 12z, zatiaľ čo pre najspravodlivejšie porovnanie (oddiel 5.2.2) predpovede GraphCast musia byť hodnotené pomocou časov inicializácie a platnosti 06z a 18z. Aby sme mohli vykonať spárovaný test, porovnávame RMSE predpovede GraphCast s interpolovanou RMSE dvoch predpovede HRES na oboch stranách: jedna je inicializovaná a platná 6 hodín skôr a druhá je inicializovaná a platná o 6 hodín neskôr, všetko s rovnakým časom prevodu. Môžeme ich použiť na testovanie nulovej hypotézy E[diff-RMSEinterp( j, τ, d0)] = 0, ktorá opäť nezávisí od d0 predpokladom stacionárnosti na rozdieloch. Ak ďalej predpokladáme, že samotná časová séria HRES RMSE je stacionárna (alebo aspoň dostatočne blízko stacionárnej v priebehu 6-hodinového okna), potom E[diff-RMSEinterp( j, τ, d0)] = E[diff-RMSE( j, τ, d0)] a interpolované rozdiely môžu byť tiež použité na testovanie odchýlok od pôvodnej nulovej hypotézy, že E[diff-RMSE( j, τ, d0)] = 0. This stronger stationarity assumption for HRES RMSEs is violated by diurnal periodicity, and in Section 5.2.3 we do see some systematic differences in HRES RMSEs between 00z/12z and 06z/18z validity times. However as discussed there, these systematic differences reduce substantially as lead time grows and they tend to favour HRES, and so we believe that a test of 𝔼[diff-RMSE( 𝑗, 𝜏, 𝑑0)] = 0 based on diff-RMSEinterp will be conservative in cases where GraphCast appears to have greater skill than HRES. 5.4.3. Confidence intervals for RMSEs The error bars in our RMSE skill plots correspond to separate confidence intervals for 𝔼[RMSE𝐺𝐶] and 𝔼[RMSE𝐻𝑅𝐸𝑆] (eliding or now the arguments 𝑗, 𝜏, 𝑑0). These are derived from the two-sided 𝑡-test with correction for autocorrelation that is described above, applied separately to GraphCast and HRES RMSE time-series. Tieto intervaly dôvery tvoria predpoklad stacionárnosti pre samostatné časové rady GraphCast a HRES RMSE, čo je, ako bolo uvedené vyššie, silnejší predpoklad, že stacionárnosť rozdielov a je trochu porušená. 5.4.4 Intervaly dôveryhodnosti pre skóre zručností RMSE Z t-testu opísaného v oddiele 5.4.1 môžeme tiež odvodzovať štandardným spôsobom intervaly dôveryhodnosti pre skutočný rozdiel v RMSEs, avšak v našich plotoch skóre zručností by sme chceli ukázať intervaly dôveryhodnosti pre skutočné skóre zručností RMSE, v ktorom je skutočný rozdiel normalizovaný skutočným RMSE HRES: Interval spoľahlivosti pre toto množstvo by mal brať do úvahy neistotu nášho odhadu skutočného HRES RMSE. Nech je [ldiff, udiff] náš 1 − α/2 interval spoľahlivosti pre číslovač (rozdiel v RMSEs) a [lHRES, uHRES] náš 1 − α/2 interval spoľahlivosti pre menovateľ (HRES RMSE). Vzhľadom na to, že 0 < lHRES v každom prípade pre nás, pomocou aritmetiky intervalu a zväzku zväzku získame konzervatívny 1 − α interval spoľahlivosti Tieto intervaly spoľahlivosti plánujeme spolu s našimi odhadmi skóre zručností RMSE, ale majte na pamäti, že sa na ne nespoliehame pri testovaní významnosti. 6. Comparison with previous machine learning baselines To determine how GraphCast’s performance compares to other ML methods, we focus on Pangu-Weather [7], a strong MLWP baseline that operates at 0.25° resolution. To make the most direct comparison, we depart from our evaluation protocol, and use the one described in [7]. Because published Pangu-Weather results are obtained from the 00z/12z initializations, we use those same initializations for GraphCast, instead of 06z/18z, as in the rest of this paper. This allows both models to be initialized on the same inputs, which incorporate the same amount of lookahead (+9 hours, see Sections 5.2.2 and 5.2.3). As HRES initialization incorporates at most +3 hours lookahead, even if initialized from 00z/12z, we do not show the evaluation of HRES (against ERA5 or against HRES-fc0) in this comparison as it would disadvantage it. The second difference with our protocol is to report performance every 6 hours, rather than every 12 hours. Since both models are evaluated against ERA5, their targets are identical, in particular, for a given lead time, the target incorporates +3 hours or +9 hours of lookahead for both GraphCast and Pangu-Weather, allowing for a fair comparison. Pangu-Weather[7] reports its 7-day forecast accuracy (RMSE and ACC) on: z500, T 500, T 850, Q 500, U 500, v 500, 2 T, 10 U, 10 v, and MsL. As shown in Figure 12, GraphCast (blue lines) outperforms Pangu-Weather [7] (red lines) on 99.2% of targets. For the surface variables (2 T, 10 U, 10 v, MsL), GraphCast’s error in the first several days is around 10-20% lower, and over the longer lead times plateaus to around 7-10% lower error. The only two (of the 252 total) metrics on which Pangu-Weather outperformed GraphCast was z500, at lead times 6 and 12 hours, where GraphCast had 1.7% higher average RMSE (Figure 12a,e). Dodatočné výsledky preverovania prognóz Táto časť poskytuje dodatočnú analýzu výkonu GraphCast, poskytuje úplnejší obraz o jeho silných stránkach a obmedzeniach. Oddiel 7.1 dopĺňa hlavné výsledky papiera o ďalších premenných a úrovniach nad z500. Oddiel 7.2 ďalej analyzuje výkon GraphCast rozdelený podľa regiónov, šírky a úrovní tlaku (najmä rozlišovanie výkonu pod a nad tropopauzou), ilustruje predsudky a RMSE podľa šírky a výšky. Oddiel 7.3 demonštruje, že multi-mesh a autoregresívna strata zohrávajú dôležitú úlohu vo výkone GraphCast. Oddiel 7.4 podrobne popisuje prístup optimálneho rozmazania aplikovaného na HRES a GraphCast, aby sa zabezpečilo, že GraphCast zlepšen 7.1 Podrobné výsledky pre ďalšie premenné 7.1.1 RMSE a ACC Obrázok 13 dopĺňa Obrázok 2a-b a ukazuje rozdiel RMSE a normalizovaný RMSE vo vzťahu k HRES pre GraphCast a HRES na kombinácii 12 zvýrazňujúcich premenných. Obrázok 14 ukazuje rozdiel ACC a normalizovaný ACC vo vzťahu k HRES pre GraphCast a HRES na rovnakej kombinácii 12 premenných a dopĺňa Obrázok 2c. Skúška ACC je normalizovaný rozdiel ACC medzi modelom A a východiskovou čiarou B ako (ACCA − ACCB)/(1 − RMSEB). 7.1.2. Detailed significance test results for RMSE comparisons Table 5 provides further information about the statistical significance claims made in the main section about differences in RMSE between GraphCast and HRES. Details of the methodology are in Section 5.4. Here we give 𝑝-values, test statistics and effective sample sizes for all variables. For reasons of space we limit ourselves to three key lead times (12 hours, 2 days and 10 days) and a subset of 7 pressure levels chosen to include all cases where 𝑝 > 0.05 at these lead times. 7.1.3 Účinok dátovej aktuálnosti na GraphCast To im v zásade umožňuje modelovať nedávne poveternostné vzory, ktoré sa v priebehu času menia, ako je cyklus ENSO a iné oscilácie, ako aj účinky zmeny klímy.Aby sme preskúmali, ako nedávnosť údajov o výcviku ovplyvňuje testovací výkon GraphCast, trénovali sme štyri varianty GraphCast, pričom údaje o výcviku sa vždy začali v roku 1979, ale skončili v rokoch 2017, 2018, 2019 a 2020 (označili sme variant končiaci sa v roku 2017 ako „GraphCast:<2018“, atď.). Obrázok 15 ukazuje skóre zručností a zručností (vo vzťahu k HRES) štyroch variantov GraphCast, pre niekoľko premenných a dopĺňa Obrázok 4a. Existuje všeobecný trend, v ktorom varianty vyškolené na roky bližšie k skúšobnému roku vo všeobecnosti zlepšili skóre zručností voči HRES. Dôvod tohto zlepšenia nie je plne pochopený, hoci špekulujeme, že je analógový s dlhodobou korekciou predsudkov, kde sa využívajú nedávne štatistické predsudky v počasí na zlepšenie presnosti. Je tiež dôležité poznamenať, že HRES nie je jediným NWP v priebehu rokov: má tendenciu byť aktualizovaný raz alebo dvakrát ročne, so všeobecne rastúcou z This may also contribute to why GraphCast:<2018 and GraphCast:<2019, in particular, have lower skill scores against HRES at early lead times for the 2021 test evaluation. We note that for other variables, GraphCast:<2018 and GraphCast:<2019 tend to still outperform HRES. These results highlight a key feature of GraphCast, in allowing performance to be automatically improved by re-training on recent data. 7.2 Rozdelené výsledky 7.2.1 RMSE podľa regiónu Regionálne hodnotenie predikčných zručností je uvedené na obrázkoch 17 a 18, pričom sa používajú rovnaké regióny a konvencia pomenovania ako v skóre ECMWF (https://sites.ecmwf.int/ifs/scorecards/ scorecards-47r3HRES.html). Pridali sme niektoré ďalšie regióny pre lepšie pokrytie celej planéty. Tieto regióny sú znázornené na obrázku 16. 7.2.2. RMSE skill score by latitude and pressure level In Figure 19, we plot normalized RMSE differences between GraphCast and HRES, as a function of both pressure level and latitude. We plot only the 13 pressure levels from WeatherBench [41] on which we have evaluated HRES. Na týchto pozemkoch uvádzame pri každej zemepisnej šírke priemerný tlak tropopázy, ktorý oddeľuje troposféru od stratosféry. Používame hodnoty vypočítané pre dátový súbor ERA-15 (1979-1993), uvedené na obrázku 1 z [44]. Tieto hodnoty nebudú úplne rovnaké ako pre ERA5, ale sú určené len ako hrubá pomoc pri interpretácii. Z tabuľky skóre na obrázku 2 môžeme vidieť, že GraphCast funguje horšie ako HRES na najnižších hodnotených úrovniach tlaku (50hPa). Obrázok 19 ukazuje, že úroveň tlaku, pri ktorej sa GraphCast začína zhoršovať, je často závislá aj od zemepisnej šírky, v niektorých prípadoch približne podľa priemernej úrov Používame nižšiu váhu strát pre nižšie úrovne tlaku a to môže hrať nejakú úlohu; je tiež možné, že môžu existovať rozdiely medzi dátovými súbormi ERA5 a HRES-fc0 v predvídateľnosti premenných v stratosfére. 7.2.3 Rozdiely podľa zemepisnej šírky a dĺžky In Figures 20 to 22, we plot the mean bias error (MBE, or just ‘bias’, defined in Equation (26)) of GraphCast as a function of latitude and longitude, at three lead times: 12 hours, 2 days and 10 days. V pozemkoch pre premenné uvedené na úrovniach tlaku sme maskovali oblasti, ktorých povrchová výška je dostatočne vysoká, aby hladina tlaku bola pod zemou v priemere. Určujeme, že je to prípad, keď povrchová geopotenciálnosť presahuje klimatologický priemerný geopotenciál v tej istej polohe a úrovni tlaku. Aby sme kvantifikovali priemernú veľkosť predsudkov na miesto zobrazených na obrázkoch 20 až 22, vypočítali sme koreňový priemer chybových predsudkov na miesto (RMS-MBE, definovaný v rovnici (26)). Tieto sú vykreslené na obrázku 23 pre GraphCast a HRES ako funkciu času vedenia. Môžeme vidieť, že predsudky GraphCast sú v priemere menšie ako HRES pre väčšinu premenných až do 6 dní. We also computed a correlation coefficient between GraphCast and HRES’ per-location mean bias errors (defined in Equation (27)), which is plotted as a function of lead time in Figure 24. We can see that GraphCast and HRES’ biases are uncorrelated or weakly correlated at the shortest lead times, but the correlation coefficient generally grows with lead time, reaching values as high as 0.6 at 10 days. 7.2.4. skóre zručností RMSE podľa šírky a dĺžky Na obrázkoch 25 až 27 sme načrtli normalizovaný rozdiel RMSE medzi GraphCast a HRES podľa šírky a dĺžky. Ako v oddiele 7.2.3, pre premenné uvedené na úrovniach tlaku, sme maskovali oblasti, ktorých povrchová výška je dostatočne vysoká, aby úroveň tlaku bola pod zemou v priemere. Pozoruhodné oblasti, kde HRES prevyšuje výkon GraphCast, zahŕňajú špecifickú vlhkosť v blízkosti pólov (najmä južného pólu); geopotenciálne v blízkosti pólov; teplota 2 m v blízkosti pólov a na mnohých pozemných plochách; a množstvo povrchových alebo takmer povrchových premenných v regiónoch s vysokou nadmorskou výškou (pozri tiež oddiel 7.2.5). At 12 hour and 2 day lead times both GraphCast and HRES are evaluated at 06z/18z initialization and validity times, however at 10 day lead times we must compare GraphCast at 06z/18z with HRES at 00z/12z (see Section 5). This difference in time-of-day may confound comparisons at specific locations for variables like 2m temperature (2 T) with a strong diurnal cycle. 7.2.5. RMSE skill score by surface elevation In Figure 25, we can see that GraphCast appears to have reduced skill in high-elevation regions for many variables at 12 hour lead time. To investigate this further we divided the earth surface into 32 bins by surface elevation (given in terms of geopotential height) and computed RMSEs within each bin according to Equation (24). These are plotted in Figure 28. At short lead times and especially at 6 hours, GraphCast’s skill relative to HRES tends to decrease with higher surface elevation, in most cases dropping below the skill of HRES at sufficiently high elevations. At longer lead times of 5 to 10 days this effect is less noticeable, however. Upozorňujeme, že GraphCast je vyškolený na premenných definovaných pomocou kombinácie súradníc úrovne tlaku (pre atmosférické premenné) a výšky nad povrchovými súradnicami (pre premenných úrovne povrchu, ako je teplota 2m alebo vietor 10m). Vzťah medzi týmito dvoma súradnicovými systémami závisí od výšky povrchu. Napriek podmieneniu GraphCast na výške povrchu predpokladáme, že sa môže snažiť naučiť tento vzťah a extrapolovať ho dobre na najvyššie povrchové výšky. V ďalšej práci by sme navrhli vyskúšať model na podskupine nativných modelových úrovní ERA5 namiesto tlakových úrovní; tieto používajú hybridný súradnicový systém [14] ktorý sleduje povrch zeme na najnižších úrovnia Variables using pressure-level coordinates are interpolated below ground when the pressure level exceeds surface pressure. GraphCast is not given any explicit indication that this has happened and this may add to the challenge of learning to forecast at high surface elevations. In further work using pressure-level coordinates we propose to provide additional signal to the model indicating when this has happened. Napokon, naša váha strát je nižšia pre atmosférické premenné pri nižších úrovniach tlaku a to môže ovplyvniť zručnosti na miestach s vyššou výškou. 7.3 GraphCast ablácia 7.3.1. Multi-mesh ablation Aby sme lepšie pochopili, ako multi-mesh reprezentácia ovplyvňuje výkon GraphCast, porovnáme výkon GraphCast s verziou modelu vyškoleného bez multi-mesh reprezentácie. Architektúra tohto druhého modelu je totožná s GraphCast (vrátane rovnakého kódovača a dekodéra a rovnakého počtu uzlov), okrem toho, že v procesnom bloku graf obsahuje iba okraje z najlepšieho icosahedron mesh M6 (245,760 okrajov, namiesto 327,660 pre GraphCast). Výsledkom je, že ablatovaný model môže šíriť informácie iba s okrajmi s krátkym rozsahom, zatiaľ čo GraphCast obsahuje ďalšie okraje s dlhým rozsahom. Obrázok 29 (ľavý panel) zobrazuje scorecard porovnávajúci GraphCast s ablatovaným modelom. GraphCast využíva multi-mesh štruktúru pre všetky predpovedané premenné, s výnimkou časov vedenia nad 5 dní pri 50 hPa. Zlepšenie je obzvlášť výrazné pre geopotenciál na všetkých úrovniach tlaku a pre priemerný tlak na úrovni mora pre čas vedenia pod 5 dňami. Stredný panel zobrazuje scorecard porovnávajúci ablatovaný model s HRES, zatiaľ čo pravý panel porovnáva GraphCast s HRES, čo dokazuje, že multi-mesh je nevyhnutný pre GraphCast na prekonanie HRES na geopotenciál pri časoch vedenia pod 5 dňami. 7.3.2 Účinky autoregresívneho tréningu Analyzovali sme výkonnosť variantov GraphCast, ktoré boli vyškolené s menej autoregresívnymi (AR) krokmi7, čo by ich malo povzbudiť k zlepšeniu ich krátkeho času vedenia na úkor dlhšieho času vedenia. Ako je znázornené na obrázku 30 (s jasnejšími modrými čiarami zodpovedajúcimi tréningu s menej AR krokmi), zistili sme, že modely vyškolené s menej AR krokmi majú tendenciu obchodovať dlhšie pre kratšiu presnosť času vedenia. Tieto výsledky naznačujú potenciál pre kombináciu viacerých modelov s rôznym počtom krokov AR, napr. pre krátke, stredné a dlhé časy vedenia, aby sa využili ich príslušné výhody v celom horizonte prognóz. 7.4. Optimal blurring 7.4.1.Vplyv na porovnanie zručností medzi GraphCast a HRES In Figures 31 and 32 we compare the RMSE of HRES with GraphCast before and after optimal blurring has been applied to both models. We can see that optimal blurring rarely changes the ranking of the two models, however it does generally narrow the gap between them. 7.4.2 Metodika filtrovania Vybrali sme filtre, ktoré minimalizujú RMSE v rámci triedy lineárnych, homogénnych (mesto invariantné), izotropných (smer invariantné) filtrov na sfére. Tieto filtre môžu byť ľahko aplikované v sférickej harmonickej oblasti, kde zodpovedajú násobeniu filtračných váh, ktoré závisia od celkového počtu vĺn, ale nie od pozdĺžneho počtu vĺn [12]. For each initialization 𝑑0, lead time 𝜏, variable and level 𝑗, we applied a discrete spherical harmonic transform [13] to predictions 𝑥ˆ𝑑0+𝜏 and targets 𝑥𝑑0+𝜏, obtaining spherical harmonic coefficients 𝑓ˆ𝑑0+𝜏 𝑗 𝑗 𝑗,𝑙,𝑚 and 𝑓 𝑑0+𝜏 for each pair of total wavenumber 𝑙 and longitudinal wavenumber 𝑚. To resolve the 0.25° (28km) resolution of our grid at the equator, we use a triangular truncation at total wavenumber 719, which means that 𝑙 ranges from 0 to 𝑙𝑚𝑎𝑥 = 719, and for each 𝑙 the value of 𝑚 ranges from −𝑙 to 𝑙. Potom sme vynásobili každý predpovedaný koeficient f ̈d0+τ hmotnosťou filtra bτ , ktorá je nezávislá od j,l,m j,l pozdĺžneho počtu vĺn m. Filtračné váhy boli namontované pomocou najmenších štvorcov, aby sa minimalizovala priemerná štvorcová chyba, ako sa vypočíta v sférickej harmonickej oblasti: Pri hodnotení filtrovaných predpovedí sme vypočítali MSE v sférickej harmonickej oblasti, ako je podrobne uvedené v rovnici (22). Pri montáži rôznych filtrov pre každý čas vedenia sa stupeň rozmazania voľne zvyšoval s rastúcou neistotou pri dlhších časoch vedenia. Hoci táto metóda je pomerne všeobecná, má tiež obmedzenia. Pretože filtre sú homogénne, nie sú schopné brať do úvahy špecifické vlastnosti miesta, ako je orografia alebo hranice zeme do mora, a preto musia vybrať medzi nadmerným rozmazaním predvídateľných detailov s vysokým rozlíšením na týchto miestach alebo pod rozmazaním nepredvídateľných detailov s vysokým rozlíšením vo všeobecnosti. An alternative way to approximate a conditional expectation (and so improve RMSE) for our ECMWF forecast baseline would be to evaluate the ensemble mean of the ENS ensemble forecast system, instead of the deterministic HRES forecast. However the ENS ensemble is run at lower resolution than HRES, and because of this, it is unclear to us whether its ensemble mean will improve on the RMSE of a post-processed version of HRES. We leave an exploration of this for future work. 7.4.3. Transfer functions of the optimal filters Váhy filtra sú vizualizované na obrázku 33, ktorý ukazuje pomer výstupného výkonu k vstupnému výkonu pre filter, na logaritmickej decibelovej stupnici, ako funkciu vlnovej dĺžky. (S odkazom na Rovnica (35), ktorá sa rovná 20 log10(bτ ) pre vlnovú dĺžku Ce/l zodpovedajúcu celkovému počtu vĺn l.) Pre HRES aj GraphCast vidíme, že je optimálne, aby MSE oslabila výkon na niektorých krátkych až stredných vlnových dĺžkach. Ako sa zvyšuje čas vedenia, zvyšuje sa množstvo oslabenia, rovnako ako vlnová dĺžka, pri ktorej je najväčšia. Pri optimalizácii pre MSE sa snažíme približovať podmienené očakávanie, ktoré je priemerom prediktívnej neistoty. Po dlhších časoch vedenia sa táto prediktívna neistota zvyšuje, rovnako ako priestorová škála neistoty o umiestnení poveternostných javov. Veríme, že to vo veľkej miere vysvetľuje tieto zmeny v optimálnej reakcii filtra ako funkciu času vedenia. Môžeme vidieť, že HRES vo všeobecnosti vyžaduje viac rozmazania ako GraphCast, pretože predpovede GraphCast už do istej miery rozmazávajú (pozri oddiel 7.5.3), zatiaľ čo HRES nie. The optimal filters are also able to compensate, to some extent, for spectral biases in the predictions of GraphCast and HRES. For example, for many variables in our regridded ERA5 dataset, the spectrum cuts off abruptly for wavelengths below 62km that are unresolved at ERA5’s native 0.28125◦ resolution. GraphCast has not learned to replicate this cutoff exactly, but the optimal filters are able to implement it. Upozorňujeme tiež, že existujú viditeľné vrcholy v odozve filtra GraphCast okolo vlnovej dĺžky 100 km pre z500, ktoré nie sú prítomné pre HRES. veríme, že tieto sú filtrovanie malých, podvodných artefaktov, ktoré sú zavedené GraphCast okolo týchto vlnových dĺžok ako vedľajší účinok transformácií mriežky do mriežky a mriežky do mriežky vykonaných vo vnútri modelu. 7.4.4 Vzťah medzi autoregresívnym tréningovým horizontom a rozmazaním Na obrázku 34 používame výsledky optimálneho rozmazania na preskúmanie spojenia medzi autoregresívnym tréningom a rozmazaním predpovedí GraphCast pri dlhších časoch vedenia. V prvom riadku obrázka 34 vidíme, že modely vyškolené s dlhšími autoregresívnymi tréningovými horizontami majú menší prospech z optimálneho rozmazania a že výhody optimálneho rozmazania sa vo všeobecnosti začínajú hromadiť až po prednej dobe zodpovedajúcej horizontu, na ktorý boli vyškolené. It would be convenient if we could replace longer-horizon training with a simple post-processing strategy like optimal blurring, but this does not appear to be the case: in the second row of Figure 34 we see that longer-horizon autoregressive training still results in lower RMSEs, even after optimal blurring has been applied. Ak si človek želá predpovede, ktoré sú v určitom zmysle minimálne rozmazané, mohol by sa použiť model vyškolený na malý počet autoregresívnych krokov. To by samozrejme viedlo k vyšším RMSEs pri dlhších časoch vedenia a naše výsledky tu naznačujú, že tieto vyššie RMSEs by neboli len kvôli nedostatku rozmazania; jeden by kompromis na iných aspektoch zručnosti pri dlhších časoch vedenia tiež. 5.6 Spektrálna analýza 7.5.1 Spektrálna dekompozícia priemernej štvorcovej chyby Na obrázkoch 35 a 36 porovnáme schopnosť GraphCast s HRES na rôznych priestorových stupniciach, pred a po optimálnom filtrovaní (pozri podrobnosti v oddiele 7.4). kde lmax = 719 ako v rovnici (22). Každý celkový počet vĺn l zodpovedá približne vlnovej dĺžke Ce / l, kde Ce je obvod Zeme. We plot power density histograms, where the area of each bar corresponds to 𝑆 𝑗,𝜏(𝑙), and the bars center around log10(1 + 𝑙) (since a log frequency scale allows for easier visual inspection, but we must also include wavenumber 𝑙 = 0). In these plots, the total area under the curve is the MSE. Pri časoch vedenia 2 alebo viac dní, pre väčšinu premenných GraphCast zlepšuje schopnosť HRES rovnomerne na všetkých vlnových dĺžkach. (2m teplota je pozoruhodnou výnimkou). At shorter lead times of 12 hours to 1 day, for a number of variables (including z500, T500, T850 and U500) HRES has greater skill than GraphCast at scales in the approximate range of 200-2000km, with GraphCast generally having greater skill outside this range. 7.5.2. RMSE as a function of horizontal resolution Na obrázku 37 porovnávame schopnosť GraphCast s HRES, keď sa hodnotí v rozsahu priestorových rozlíšení. Konkrétne, pri každom celkovom čísle vlny ltrunc, plánujeme RMSEs medzi predpovede a ciele, ktoré sú obidve truncated na tomto celkovom čísle vlny. RMSEs medzi truncovanými predpoveďami a cieľmi možno získať prostredníctvom kumulatívnych súm priemerných chybových síl S j,τ(l) definovaných v rovnici (37), podľa Figure 37 shows that in most cases GraphCast has lower RMSE than HRES at all resolutions typically used for forecast verification. This applies before and after optimal filtering (see Section 7.4). Exceptions include 2 meter temperature at a number of lead times and resolutions, T 500 at 12 hour lead times, and U 500 at 12 hour lead times, where GraphCast does better at 0.25° resolution but HRES does better at resolutions around 0.5◦ to 2.5◦ (corresponding to shortest wavelengths of around 100 to 500 km). In particular we note that the native resolution of ERA5 is 0.28125◦ corresponding to a shortest wavelength of 62km, indicated by a vertical line in the plots. HRES-fc0 targets contain some signal at wavelengths shorter than 62km, but the ERA5 targets used to evaluate GraphCast do not, natively at least (see Section 7.5.3). In Figure 37 we can see that evaluating at 0.28125◦ resolution instead of 0.25° does not significantly affect the comparison of skill between GraphCast and HRES. 7.5.3 Spektrum predpovede a ciele Obrázok 38 porovnáva výkonové spektrum predpovede GraphCast, ciele ERA5, proti ktorým boli vyškolení, a HRES-fc0. Tieto rozdiely môžu byť čiastočne spôsobené metódami, ktoré sa používajú na ich regridovanie z ich príslušných natívnych IFS rozlíšení TL639 (0.28125◦) a TCo1279 (približne 0.1◦, [36]) na rovnomernú mriežku 0,25°. Avšak aj pred týmto regridovaním existujú rozdiely vo verziách IFS, nastaveniach, rozlíšení a metodike asimilácie údajov používaných pre HRES a ERA5, a tieto rozdiely môžu mať vplyv aj na spektrum. Differences between HRES and ERA5 We see reduced power at short-to-mid wavelengths in GraphCast’s predictions which reduces further with lead time. We believe this corresponds to blurring which GraphCast has learned to perform in optimizing for MSE. We discussed this further in Sections 7.4 and 7.4.4. Blurring in GraphCast These peaks are particularly visible for z500; they appear to increase with lead time. We believe they correspond to small, spurious artifacts introduced by the internal grid-to-mesh and mesh-to-grid transformations performed by GraphCast at each autoregressive step. In future work we hope to eliminate or reduce the effect of these artifacts, which were also observed by [26]. Peaks for GraphCast around 100km wavelengths Napokon poznamenávame, že zatiaľ čo tieto rozdiely v výkone pri krátkych vlnových dĺžkach sú veľmi nápadné v logovom meradle a relatívnych plotoch, tieto krátke vlnové dĺžky neprispievajú k celkovému výkonu signálu. Ďalšie závažné výsledky predpovedania udalostí In this section, we provide additional details about our severe event forecasting analysis. We note that GraphCast is not specifically trained for those downstream tasks, which demonstrates that, beyond improved skills, GraphCast provides useful forecast for tasks with real-world impact such as tracking cyclones (Section 8.1), characterizing atmospheric rivers (Section 8.2), and classifying extreme temperature (Section 8.3). Each task can also be seen as evaluating the value of GraphCast on a different axis: spatial and temporal structure of high-resolution prediction (cyclone tracking task), ability to non-linearly combine GraphCast predictions to derive quantities of interest (atmospheric rivers task), and ability to characterize extreme and rare events (extreme temperatures). 8.1. Tropical cyclone track forecasting In this section, we detail the evaluation protocols we used for cyclone tracking (Supplements Sec-tion 8.1.1) and analyzing statistical significance (Supplements Section 8.1.2), provide additional results (Supplements Section 8.1.3), and describe our tracker and its differences with the one from ECMWF (Supplements Section 8.1.4). 8.1.1 Vyhodnocovací protokol Štandardným spôsobom, ako GraphCast porovnávať dva rovnaké systémy predpovedania tropických cyklónov, je obmedziť porovnanie na udalosti, v ktorých oba modely predpovedajú existenciu cyklónu. Ako je podrobne uvedené v oddiele 5.2.2, GraphCast je inicializovaný z 06z a 18z, namiesto 00z a 12z, aby sa zabránilo tomu, že bude mať výhodu pri pohľade nad HRES. Namiesto toho, aby sme porovnali HRES a GraphCast v súbore podobných udalostí [8] sú inicializované len v 00z a 12z. Táto rozdielnosť nám bráni vybrať udalosti, v ktorých je inicializácia a časová mapa vedie k rovnakému času platnosti pre obe metódy, pretože vždy existuje 6h nesúlad. Namiesto toho por Because we compute error with respect to the same ground truth (i.e., IBTrACS), the evaluation is not subject to the same restrictions described in Supplements Section 5.2.2, i.e., the targets for both models incorporate the same amount of lookahead. This is in contrast with most our evaluations in this paper, where the targets for HRES (i.e., HRES-fc0) incorporates +3h lookahead, and the ones for GraphCast (from ERA5) incorporate +3h or +9h, leading us to only report results for the lead times with a matching lookahead (multiples of 12h). Here, since the IBTrACS targets are the same for both models, we can report performance as a function of lead time by increments of 6h. For a given forecast, the error between the predicted center of the cyclone and the true center is computed using the geodesic distance. 8.1 Štatistická metodika Počítačová štatistická dôvera v sledovaní cyklónov si vyžaduje osobitnú pozornosť v dvoch aspektoch: 1.Existujú dva spôsoby, ako definovať počet vzoriek. Prvý je počet tropických cyklónových udalostí, ktoré možno predpokladať ako väčšinou nezávislé udalosti. Druhým je počet dátových bodov na vedúci čas použitý, ktorý je väčší, ale predstavuje korelované body (pre každú tropickú cyklónovú udalosť sa v intervaloch 6 hodín robia viacero predpovede). Vybrali sme si použitie prvej definície, ktorá poskytuje konzervatívnejšie odhady štatistického významu. Obe čísla sú zobrazené na vedúcich časoch od 1 do 5 dní na osi x doplnkov obrázku 39. 2. príkladové chyby sledovania HRES a GraphCast sú korelované. Preto je štatistická odchýlka v ich rozdiele oveľa menšia ako ich spoločná odchýlka. Takto hlásime dôveru, že GraphCast je lepší ako HRES (pozri doplnky obrázok 39b) okrem dôveryhodnosti podľa modelu (pozri doplnky obrázok 39a). Given the two considerations above, we do bootstrapping with 95% confidence intervals at the level of cyclones. For a given lead time, we consider all the corresponding initialization time/lead time pairs and keep a list of which cyclone they come from (without duplication). For the bootstrap estimate, we draw samples from this cyclone list (with replacement) and apply the median (or the mean) to the corresponding initialization time/lead time pairs. Note that this gives us much more conservative confidence bounds than doing bootstrapping at the level of initialization time/lead time pairs, as it is equivalent to assuming all bootstrap samples coming from the sample cyclone (usually in the order of tens) are perfectly correlated. Napríklad, predpokladajme, že pre daný čas vedenia máme chyby (50, 100, 150) pre cyklón A, (300, 200) pre cyklón B a (100, 100) pre cyklón C, pričom A má viac vzoriek. bootstrapping vzorka na úrovni cyklónov najprv rovnomerne odoberá vzorky na náhodných 3 cyklónoch s náhradou (napríklad A,A,B) a potom vypočíta priemer nad zodpovedajúcimi vzorkami s množstvom: priemer(50,100,150,50,100,150,200,300)=137.5. 8.1 Výsledky V doplnkoch na obrázku 3a-b sme sa rozhodli ukázať mediánovú chybu namiesto priemeru. Toto rozhodnutie bolo prijaté pred výpočtom výsledkov na testovacom súbore na základe výkonu na validácii. V rokoch 2016 – 2017, pomocou verzie GraphCast vyškolenej v rokoch 1979 – 2015, sme pozorovali, že pri použití skorých verzií nášho sledovača bola mediánová chyba dominovaná veľmi málo outliers a nebola reprezentatívna pre celú populáciu. Okrem toho značná časť týchto outliers bola spôsobená chybami v sledovacom algoritme namiesto samotných predpovedí, čo naznačuje, že sledovač bol suboptimálny pre použitie s GraphCastom. Pretože naším cieľom je posúdiť hodnotu predpovede GraphCast skôr ako konkrétny sledovač, ukazujeme mediánové Supplements Figure 39 complements Figure 3a-b by showing the mean track error and the corresponding paired analysis. We note that using the final version of our tracker (Supplements Sec-tion 8.1.4), GraphCast mean results are similar to the median one, with GraphCast significantly outperforming HRES for lead time between 2 and 5 days. Vzhľadom na známe účinky rozmazania, ktoré majú tendenciu vyhladiť extrémy používané trackerom na detekciu prítomnosti cyklónu, metódy ML môžu spustiť existujúce cyklóny častejšie ako NWP. Spustenie cyklónu je veľmi korelované s veľkou chybou polohy. Preto odstránenie z hodnotenia takých predpovede, kde by model ML vykonal obzvlášť zle, by mohlo poskytnúť nespravodlivú výhodu. Aby sme sa vyhli tomuto problému, overujeme, že náš hyper-parameter-hľadaný tracker (pozri doplnky oddiel 8.1.4) chýba podobný počet cyklónov ako HRES. Doplnky Obrázok 41 ukazuje, že na testovacej súprave (2018–2021), GraphCast a HRES klesne podobný počet cyklónov, čím sa zabezpečí, že naše porovnania sú čo najspravodlivejšie. Supplements Figures 42 and 43 show the median error and paired analysis as a function of lead time, broken down by cyclone category, where category is defined on the Saffir-Simpson Hurricane Wind Scale [47], with category 5 representing the strongest and most damaging storms (note, we use category 0 to represent tropical storms). We found that GraphCast has equal or better performance than HRES across all categories. For category 2, and especially for category 5 (the most intense events), GraphCast is significantly better that HRES, as demonstrated by the per-track paired analysis. We also obtain similar results when measuring mean performance instead of median. 8.1.4 Podrobnosti o sledovači Tracker, ktorý sme použili pre GraphCast, je založený na našej reimplementácii sledovača ECMWF [35]. Pretože je navrhnutý pre 0.1° HRES, bolo užitočné pridať niekoľko modifikácií na zníženie počtu mistrackých cyklónov pri aplikácii na predpovede GraphCast. Avšak stále sa vyskytujú chyby sledovania, ktoré sa očakávajú pri sledovaní cyklónu z 0,25° predpovede namiesto 0,1°. Najprv poskytneme zhrnutie na vysokej úrovni predvoleného sledovača z ECMWF, predtým ako vysvetlíme zmeny, ktoré sme vykonali, a náš rozhodovací proces. Vzhľadom na predpovede modelu pre premenné 10 U, 10 v, MsL, ako aj U, v a z pri tlakových hladinách 200, 500, 700, 850 a 1000 hPa v niekoľkých časových krokoch, sledovač ECMWF [35] postupne spracováva každý časový krok, aby iteratívne predpovedal polohu cyklónu na celej trajektórii. Každá 6-hodinová predpoveď sledovača má dva hlavné kroky. V prvom kroku, na základe aktuálnej polohy cyklónu, sledovač vypočíta odhad nasledujúcej polohy, 6 hodín dopredu. Druhým krokom je pozrieť sa do blízkosti tejto novej odhady pre miesta, ktoré spĺňajú niekoľko podmienok charakteristických pre cyklónové centrá. ECMWF tracker To compute the estimate of the next cyclone location, the tracker moves the current estimate using a displacement computed as the average of two vectors: 1) the displacement between the last two track locations (i.e., linear extrapolation) and 2) an estimate of the wind steering, averaging the wind speed U and v at the previous track position at pressure levels 200, 500, 700 and 850 hPa. Once the estimate of the next cyclone location is computed, the tracker looks at all local minima of mean sea-level pressure (MsL) within 445 km of this estimate. It then searches for the candidate minima closest to the current estimate that satisfies the following three conditions: Kontrola vrtácnosti: maximálna vrtácnosť pri 850 hPa v rozmedzí 278 km od miestnych mín je väčšia ako 5 · 10−5 s−1 pre severnú pologuľu, alebo je menšia ako −5 · 10−5s−1 pre južnú pologuľu. Kontrola rýchlosti vetra: ak je uchádzač na zemi, maximálna rýchlosť vetra 10 m v rozmedzí 278 km je väčšia ako 8 m/s. Kontrola hrúbky: ak je cyklón extratropický, maximálna hrúbka je medzi 850 hPa a 200 hPa v okruhu 278 km, kde je hrúbka definovaná ako z850-z200. Ak žiadne minimum nespĺňa všetky tieto podmienky, tracker považuje za neexistujúci žiadny cyklón. Tracker ECMWF umožňuje cyklónom krátko zmiznúť za určitých podmienok pred ich opätovným objavením. Analyzovali sme nesprávne sledovanie cyklónov z našich overovacích rokov (2016 – 2017), pričom používali verziu GraphCast vyškolenú v rokoch 1979 – 2015 a modifikovali predvolenú reimplementáciu sledovača ECMWF, ako je popísané nižšie. Our modified tracker Zistili sme, že tento parameter je kritický a vyhľadali sme lepšiu hodnotu medzi nasledujúcimi možnosťami: 445 × f pre f v 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (pôvodná hodnota). Zistili sme tiež, že tento parameter je kritický a vyhľadali sme lepšiu hodnotu medzi nasledujúcimi možnosťami: 278 × f pre f v 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (pôvodná hodnota). 3. The next-step estimate of ECMWF uses a 50-50 weighting between linear extrapolation and wind steering vectors. In our case where wind is predicted at 0.25° resolution, we found wind steering to sometimes hinder estimates. This is not surprising because the wind is not a spatially smooth field, and the tracker is likely tailored to leverage 0.1° resolution predictions. Thus, we hyper-parameter searched the weighting among the following options: 0.0, 0.1, 0.33, 0.5 (original value). Všimli sme si, že došlo k viacerým omylom, keď sa trať prudko obrátila smerom proti svojmu predchádzajúcemu smeru.Teda, považujeme iba kandidátov, ktorí vytvárajú uhol medzi predchádzajúcim a novým smerom pod d stupňov, kde d bol vyhľadávaný medzi týmito hodnotami: 90, 135, 150, 165, 175, 180 (tj žiadny filter, pôvodná hodnota). Všimli sme si, že viaceré mätúce trasy robili veľké skoky, kvôli kombinácii hlučného riadenia vetra a funkcií, ktoré sú pre slabé cyklóny ťažko rozlíšiteľné.Tak sme preskúmali odhad pohybu nad x kilometrov (zmenou delty s posledným stredom), vyhľadávaním nasledujúcich hodnôt pre x: 445 × f pre f v 0.25, 0.5, 1.0, 2.0, 4.0, ∞ (t.j. žiadne odrezky, pôvodná hodnota). Počas hyperparametrického vyhľadávania sme tiež overili na overovacích údajoch, že tracker aplikovaný na GraphCast spustil podobný počet cyklónov ako HRES. 8.2 Atmosférické rieky Vertikálne integrovaný transport vodnej pary (IvT) sa bežne používa na charakterizáciu intenzity atmosférických riek [38, 37]. Hoci GraphCast priamo nepredpovedá IvT a nie je špecificky vyškolený na predpovedanie atmosférických riek, môžeme toto množstvo odvodzovať z predpovedaných atmosférických premenných špecifických pre vlhkosť, Q a horizontálny vietor (U, v), prostredníctvom vzťahu [38]: kde g = 9,80665 m/s2 je zrýchlenie spôsobené gravitáciou na zemskom povrchu, pb = 1000 hPa je spodný tlak a pt = 300 hPa je najvyšší tlak. Evaluation of IvT using the above relation requires numerical integration and the result therefore depends on the vertical resolution of the prediction. GraphCast has a vertical resolution of 37 pressure levels which is higher than the resolution of the available HRES trajectories with only 25 pressure levels. For a consistent and fair comparison of both models, we therefore only use a common subset of pressure levels, which are also included in the WeatherBench benchmark, when evaluating IvT 8, namely [300, 400, 500, 600, 700, 850, 925, 1000] hPa. Consistently with the rest of our evaluation protocol, each model is evaluated against its own “analysis”. For GraphCast, we compute the IvT based on its predictions and we compare it to the IvT computed analogously from ERA5. Similarly, we use HRES predictions to compute the IvT for HRES and and compare it to the IvT computed from HRES-fc0. Podobne ako v predchádzajúcej práci [10], obrázok 44 uvádza priemerné skóre zručností a zručností RMSE v pobrežnej Severnej Amerike a východnom Pacifiku (od 180 ° W do 110 ° W dĺžky a 10 ° N do 60 ° N zemepisnej šírky) počas chladnej sezóny (január-apríl a október-december 2018), čo zodpovedá regiónu a období s častými atmosférickými riekami. 8.3 Extrémne teplo a chlad We study extreme heat and cold forecasting as a binary classification problem [35, 32] by comparing whether a given forecasting model can correctly predict whether the value for a certain variable will be above (or below) a certain percentile of the distribution of a reference historical climatology (for example above 98% percentile for extreme heat, and below 2% percentile for extreme cold). Following previous work [35], the reference climatology is obtained separately for (1) each variable (2) each month of the year, (3) each time of the day, (4) each latitude/longitude coordinate, and (5) each pressure level (if applicable). This makes the detection of extremes more contrasted by removing the effect of the diurnal and seasonal cycles in each spatial location. To keep the comparison as fair as possible between HRES and GraphCast, we compute this climatology from HRES-fc0 and ERA5 respectively, for years 2016-2021. We experimented with other ways to compute climatology (2016-2017 as well as using ERA5 climatology 1993-2016 for both models), and found that results hold generally. Pretože extrémna predpoveď je podľa definície problémom s nevyváženou klasifikáciou, založíme našu analýzu na presných odvolávacích pozemkoch, ktoré sú pre tento prípad veľmi vhodné [42]. Precízna predpoveďová krivka sa získa zmenou voľného parametra „zisk“ pozostávajúceho z faktoru škálovania vo vzťahu k mediánovej hodnote klimatológie, t. j. škálovaná predpoveď = zisk × (predpoveď − mediánová klimatológia) + mediánová klimatológia. To má vplyv na posunutie hranice rozhodnutia a umožňuje študovať rôzne obchodné offs medzi falošnými negatívami a falošnými pozitívami. Intuitívne, 0 zisk bude produkovať nulové predpoveďové pozitíva (napr. nulové falošné Naše analýzy sa zameriavajú na premenné, ktoré sú relevantné pre extrémne teplotné podmienky, konkrétne 2 T [35, 32], a tiež T 850, z500, ktoré ECMWF často používa na charakterizáciu tepelných vĺn [34]. Po predchádzajúcej práci[32], pre extrémne teplo priemerné v júni, júli a auguste na zemi v severnej pologuli (latitúda > 20◦) a v decembri, januári a februári na zemi v južnej pologuli (latitúda < -20◦). Pre extrémne chladné mesiace sme vymenili mesiace pre severnú a južnú pologuli. Pozri úplné výsledky na obrázku 45. Poskytujeme tiež jemnejšie porovnanie času vedenia, zhrnutie presných kriviek výberom bodu s najvyšším skóre Predikčné vizualizácie V tejto záverečnej časti poskytujeme niekoľko príkladov vizualizácií predpovedí vykonaných GraphCast pre premenné 2 T (obrázok 47), 10 U (obrázok 48), MsL (obrázok 49), z500 (obrázok 50), T 850 (obrázok 51), v 500 (obrázok 52), Q 700 (obrázok 53). Referencie [1] Ferran Alet, Adarsh Keshav Jeewajee, Maria Bauza Villalonga, Alberto Rodriguez, Tomas Lozano-Perez a Leslie Kaelbling. Graph element networks: adaptive, structured computing and memory. In International Conference on Machine Learning, pages 212–222. [2] Kelsey R Allen, Yulia Rubanova, Tatiana Lopez-Guevara, William Whitney, Alvaro Sanchez-Gonzalez, Peter Battaglia a Tobias Pfaff. Učenie sa tuhej dynamiky s sieťami grafov interakcie tváre. arXiv preprint arXiv:2212.03574, 2022. [3] Jimmy Lei Ba, Jamie Ryan Kiros a Geoffrey E. Hinton. normalizácia vrstvy. arXiv, 2016. [4] Igor Babuschkin, Kate Baumli, Alison Bell, Surya Bhupatiraju, Jake Bruce, Peter Buchlovsky, David Budden, Trevor Cai, Aidan Clark, Ivo Danihelka, Claudio Fantacci, Jonathan Godwin, Chris Jones, Ross Hemsley, Tom Hennigan, Matteo Hessel, Shaobo Hou, Steven Kapturowski, Thomas Keck, Iurii Kemaev, Michael King, Markus Kunesch, Lena Martens, Hamza Merzic, Vladimir Mikulik, Tamara Norman, John Quan, George Papamakarios, Roman Ring, Francisco Ruiz, Alvaro Sanchez, Rosalia Schneider, Eren Sezener, Stephen Spencer, Srivatsan Srinivasan, Luyu, Wangciech Wojciech Stokowiec a Fabio Viola. // github.com / hlboké myslenie, 2020 [5] Peter Battaglia, Razvan Pascanu, Matthew Lai, Danilo Jimenez Rezende, et al. Interakčné siete pre učenie sa o objektoch, vzťahoch a fyzike. [6] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Relatívne indukčné predsudky, hlboké učenie a grafické siete. arXiv preprint arXiv:1806.01261, 2018. [7] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu a Qi Tian. Pangu-Počasie: 3D model s vysokým rozlíšením pre rýchlu a presnú globálnu predpoveď počasia. arXiv preprint arXiv:2211.02556, 2022. [8] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. The THORPEX interactive grand global ensemble. Bulletin of the American Meteorological Society, 91(8):1059–1072, 2010. [9] James Bradbury, Roy Frostig, Peter Hawkins, Matthew James Johnson, Chris Leary, Dougal Maclaurin, George Necula, Adam Paszke, Jake VanderPlas, Skye Wanderman-Milne a Qiao Zhang. JAX: skladateľné transformácie programov Python+NumPy. http://github. com/google/jax, 2018. [10] WE Chapman, AC Subramanian, L Delle Monache, SP Xie a FM Ralph. Zlepšenie predpovede atmosférických riek pomocou strojového učenia. Geophysical Research Letters, 46(17-18):10627–10635, 2019. [11] Tianqi Chen, Bing Xu, Chiyuan Zhang a Carlos Guestrin. Školenie hlbokých sietí s sublineárnymi pamäťovými nákladmi. arXiv predtlač arXiv:1604.06174, 2016. [12] Balaji Devaraju. porozumenie filtrovania na sfére: skúsenosti z filtrovania údajov GRACE. doktorandská práca, Univerzita v Stuttgarte, 2015. [13] J. R. Driscoll a D. M. Healy. Computing fourier transforms a convolutions na 2-sféry. Matúš 15(2):202–250, jún 1994 [14] ECMWF. IFS dokumentácia CY41R2 - časť III: Dynamika a numerické postupy. https: //www.ecmwf.int/node/16647, 2016 [15] Meire Fortunato, Tobias Pfaff, Peter Wirnsberger, Alexander Pritzel a Peter Battaglia. Multi-scale meshgraphnets. arXiv preprint arXiv:2210.00612, 2022. [16] Alan J Geer. Význam zmien v strednodobých prognózových skóre. Tellus A: Dynamic Meteorology and Oceanography, 68(1):30229, 2016. [17] Jonathan Godwin, Thomas Keck, Peter Battaglia, Victor Bapst, Thomas Kipf, Yujia Li, Kimberly Stachenfeld, Petar Veličković a Alvaro Sanchez-Gonzalez. Jraph: Knižnica pre grafické nervové siete v JAX. http://github.com/deepmind/jraph, 2020. [18] T. Haiden, Martin Janousek, Jean-Raymond Bidlot, R. Buizza, L. Ferranti, F. Prates a Frédéric Vitart. Hodnotenie prognóz ECMWF vrátane aktualizácie na rok 2018. https://www.ecmwf. int/node/18746, 10/2018 2018. [19] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, Crtistina Prates, a David Richardson. Hodnotenie prognóz ECMWF, vrátane inovácie 2020. https://www.ecmwf.int/node/19879, 01/2021 2021. [20] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, a Fernando Prates. Hodnotenie prognóz ECMWF, vrátane aktualizácie 2021. https://www. ecmwf.int/node/20142, 09/2021 2021. [21] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, Fernando Prates, a David Richardson. Hodnotenie prognóz ECMWF, vrátane aktualizácie 2021. https://www.ecmwf.int/node/20469, 09/2022 2022. [22] Thomas Haiden, Martin Janousek, Frédéric Vitart, Laura Ferranti, and Fernando Prates. Evaluation of ECMWF forecasts, including the 2019 upgrade. https://www.ecmwf.int/node/ 19277, 11/2019 2019. [23] Tom Hennigan, Trevor Cai, Tamara Norman a Igor Babuschkin. Haiku: Sonet pre JAX. http://github.com/deepmind/dm-haiku, 2020. [24] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. Globálna reanalýza ERA5. Štvrťročný časopis Kráľovskej meteorologickej spoločnosti, 146(730):1999–2049, 2020. [25] S. Hoyer and J. Hamman. xarray: N-D labeled arrays and datasets in Python. Journal of Open Research Software, 5(1), 2017. [26] Ryan Keisler. Predikcia globálneho počasia s grafickými neurálnymi sieťami. arXiv preprint arXiv:2202.07575, 2022. [27] Diederik P Kingma a Jimmy Ba. Adam: Metóda pre stochastickú optimalizáciu. arXiv preprint arXiv:1412.6980, 2014. [28] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. Medzinárodný najlepší archív pre riadenie klímy (IBTrACS) projekt, verzia 4. https://doi.org/10.25921/82ty-9e16, 2018. [29] Kenneth R Knapp, Michael C Kruk, David H Levinson, Howard J Diamond a Charles J Neumann. Medzinárodný najlepší archív pre správu klímy (IBTrACS) zjednocujúci tropické údaje o cyklónoch. Bulletin of American Meteorological Society, 91(3):363-376, 2010. [30] Michael C Kruk, Kenneth R Knapp, a David H Levinson. Technika pre kombináciu globálnych tropických cyklónov najlepšie sledovacie údaje. Journal of Atmospheric and Oceanic Technology, 27(4):680-692, 2010. [31] David H. Levinson, Howard J Diamond, Kenneth R. Knapp, Michael C. Kruk a Ethan J. Gibney. Na ceste k homogénnemu celosvetovému tropickému cyklónu. Bulletin of the American Meteorological Society, 91(3):377–380, 2010. [32] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal a Jason Hickey. globálne predpovede extrémneho tepla pomocou modelov neurálneho počasia. umelá inteligencia pre systémy Zeme, stránky 1-41, 2022. [33] Ilya Loshchilov a Frank Hutter. oddelená regulácia chudnutia. arXiv predtlač arXiv:1711.05101, 2017. [34] Linus Magnusson. 202208 - tepelná vlna - uk. https://confluence.ecmwf.int/display/ FCST/202208+-+Tepelná vlna+-+UK, 2022. [35] Linus Magnusson, Thomas Haiden a David Richardson. Overenie extrémnych poveternostných udalostí: diskrétne prediktory. [36] S. Malardel, Nils Wedi, Willem Deconinck, Michail Diamantakis, Christian Kuehnlein, G. Mozdzynski, M. Hamrud a Piotr Smolarkiewicz. Nová sieť pre IFS. https: //www.ecmwf.int/node/17262, 2016 [37] Benjamin J Moore, Paul J Neiman, F Martin Ralph a Faye E Barthold. Fyzikálne procesy spojené s ťažkými povodňovými zrážkami v Nashville, Tennessee a okolí počas 1. – 2. mája 2010: Úloha atmosférickej rieky a mezoskálových konvekčných systémov. [38] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist, a Michael D Dettinger. Meteorologické charakteristiky a nadzemné zrážky vplyvy atmosférických riek ovplyvňujúcich západné pobrežie Severnej Ameriky na základe ôsmich rokov satelitných pozorovaní ssm / i. Journal of Hydrometeorology, 9(1):22-47, 2008. [39] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez, a Peter Battaglia. Učenie sieťovej simulácie s grafovými sieťami. [40] Prajit Ramachandran, Barret Zoph a Quoc V Le. Hľadanie funkcií aktivácie. arXiv preprint arXiv:1710.05941, 2017. [41] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid a Nils Thuerey. WeatherBench: súbor referenčných údajov pre predpovede počasia založené na údajoch. Journal of Advances in Modeling Earth Systems, 12(11):e2020MS002203, 2020. [42] Takaya Saito a Marc Rehmsmeier. Plot precízneho pripomenutia je informatívnejší ako plot ROC pri hodnotení binárnych klasifikátorov na nevyvážených dátových súboroch. PloS jedna, 10(3):e0118432, 2015. [43] Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec a Peter Battaglia. Učenie sa simulovať komplexnú fyziku s grafickými sieťami. [44] B. D. Santer, R. Sausen, T. M. L. Wigley, J. S. Boyle, K. AchutaRao, C. Doutriaux, J. E. Hansen, G. A. Meehl, E. Roeckner, R. Ruedy, G. Schmidt, a K. E. Taylor. správanie tropopauzálnej výšky a teploty atmosféry v modeloch, reanalýzach a pozorovaniach: zmeny desaťročia. [45] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M Hamill, Tim D Hewson, Julia H Keller, Mio Matsueda, John Methven, Florian Pappenberger, et al. Projekt TIGGE a jeho úspechy. [46] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson a Munehiko Yamaguchi. Projekt TIGGE a jeho úspechy. Bulletin of the American Meteorological Society, 97(1):49 – 67, 2016. [47] Harvey Thurm Taylor, Bill Ward, Mark Willis a Walt Zaleski. Hurikánová škála vetra Saffir-Simpson. Atmosférická správa: Washington, DC, USA, 2010. [48] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser a Illia Polosukhin. Pozornosť je všetko, čo potrebujete. Pokroky v systémoch spracovania neurálnych informácií, 30, 2017. [49] Petar Veličković, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio, a Yoshua Bengio. Graph pozornosť siete. arXiv preprint arXiv:1710.10903, 2017. Tento dokument je k dispozícii v archíve pod licenciou CC by 4.0 Deed (Attribution 4.0 International). Tento dokument je k dispozícii v archíve pod licenciou CC by 4.0 Deed (Attribution 4.0 International).