DeepMind's GraphCast pobeđuje najbolji sistem za prognozu vremena na svetu

Autori : Remi Lam (Google DeepMind) Alvaro Sanchez-Gonzalez (Google DeepMind) Matthew Willson (Google DeepMind) Peter Wirnsberger (Google DeepMind) Meire Fortunato (Google DeepMind) Ferran Alet (Google DeepMind) Suman Ravuri (Google DeepMind) Timo Ewalds (Google DeepMind) Zach Eaton-Rosen (Google DeepMind) Weihua Hu (Google DeepMind) Alexander Merose (Google Research) Stephan Hoyer (Google Research) George Holland (Google DeepMind) Oriol Vinyals (Google DeepMind) Jacklynn Stott (Google DeepMind) Alexander Pritzel (Google DeepMind) Shakir Mohamed (Google DeepMind) Peter Battaglia (Google DeepMind) Autori : Remi Lam iz Google DeepMind Alvaro Sanchez Gonzalez (Google DeepMind) Matthew Willson (Google DeepMind) je jedan od njih. Petar Virsberger (Google DeepMind) Meire Fortunato (Google DeepMind) - Predavanje Uslovi korišćenja Google DeepMind (Google DeepMind) Suman Ravuri (Google DeepMind) (predavanje) Timo Ewalds (Google DeepMind) – Preduzetnik Zač Eaton-Rosen (Google DeepMind) Uslovi korišćenja (Google DeepMind) Aleksandar Merose (Google istraživanje) Stephan Hoyer (Google istraživanje) Džordž Holland (Google DeepMind) Uslovi korišćenja (Google DeepMind) Džeklin Stot (Google DeepMind) Aleksandar Pritzel (Google DeepMind) Šakir Mohamed (Google DeepMind) Petar Battaglija (Google DeepMind) Globalna srednjeg domena vremenska prognoza je ključna za donošenje odluka u mnogim društvenim i ekonomskim područjima. Tradicionalna numerička vremenska prognoza koristi povećane računalne resurse za poboljšanje preciznosti predviđanja, ali ne može izravno koristiti povijesne vremenske podatke za poboljšanje osnovnog modela. Uvodimo metodu baziranu na strojnom učenju pod nazivom „GraphCast“, koja se može obučiti direktno iz podataka reanalize. Ona predviđa stotine vremenskih varijabilnih, preko 10 dana pri rezoluciji od 0,25° globalno, za manje od jednog minuta. Pokazujemo da GraphCast značajno nadmašuje najtočnije operativne determinističke sisteme na 90% od 1380 verifikacijskih ciljeva, a njegove prognoze bolje podržavaju ozbiljnije pred Ključne riječi: vremenska prognoza, ECMWF, ERA5, HRES, simulacija učenja, grafne neuronske mreže Uvod To je 05:45 UTC sredinom oktobra 2022. u Bologni, Italija, a novi High-Performance Computing Facility Europskog centra za srednjoročne vremenske prognoze (ECMWF) upravo je počeo s radom. U proteklih nekoliko sati, Integrirani sistem za prognozu (IFS) radi sofisticirane izračune kako bi predvidio Zemljino vreme u narednim danima i tjednima, a prve prognoze su upravo počele da se šire korisnicima. IFS, i suvremena vremenska prognoza općenito, su trijumfi nauke i inženjerstva. Dinamika vremenskih sistema su među najsloženijim fizičkim fenomenima na Zemlji, a svaki dan, bezbroj odluka koje donose pojedinci, industrije i tvorci politika zavise od točnih vremenskih prognoza, od odlučivanja da li nositi jaknu ili pobjeći od opasne oluje. Dominantan pristup za vremenska prognoza danas je „numericna vremenska prognoza“ (NWP), koja uključuje rješavanje upravljačkih jednadžbe vremena pomoću superračunala. Uspeh NWP leži u strogim i kontinuiranim istraživačkim praksama koje pružaju sve detaljnije opise vremenskih fenomena, i kako dobro NWP skale na veću preciznost s većim račun Međutim, dok tradicionalni NWP dobro skali računarima, njegova preciznost se ne poboljšava sa sve većim količinama povijesnih podataka. Postoje ogromni arhivi vremenskih i klimatskih podataka, npr. ECMWF-ov MARS [17], ali do nedavno je bilo malo praktičnih načina za korištenje takvih podataka za direktno poboljšanje kvalitete predviđanja modela. Umjesto toga, NWP metode poboljšavaju visoko osposobljeni stručnjaci koji inoviraju bolje modele, algoritme i približavanja, što može biti proces koji traje mnogo vremena i košta mnogo. Machine learning-based weather prediction (MLWP) offers an alternative to traditional NWP, where forecast models are trained directly from historical data. This has potential to improve forecast accuracy by capturing patterns and scales in the data which are not easily represented in explicit equations. MLWP also offers opportunities for greater efficiency by exploiting modern deep learning hardware, rather than supercomputers, and striking more favorable speed-accuracy trade-offs. Recently MLWP has helped improve on NWP-based forecasting in regimes where traditional NWP is relatively weak, for example sub-seasonal heat wave prediction [16] and precipitation nowcasting from radar images [32, 33, 29, 8], where accurate equations and robust numerical methods are not as available. U srednjoročnom vremenskom predviđanju, tj. predviđanju atmosferskih varijabilnosti do 10 dana unapred, NWP sistemi poput IFS-a su i dalje najprecizniji. Najviši deterministski operativni sistem na svetu je ECMWF-ova High Resolution predviđanje (HRES), komponenta IFS-a koja proizvodi globalne 10-dnevne predviđanja na 0,1° latitude/longitude rezoluciji, za oko sat [27]. Međutim, u proteklih nekoliko godina, MLWP metode za srednjoročno predviđanje su stalno napredovale, olakšane referentnim kriterijumima kao što su WeatherBench [27]. Arhitekture dubokog učenja zasnovane na konvolucionalnim neuralnim mrežama [35, 36, 28] i Transformeri [24 Grafički Ovde predstavljamo novi MLWP pristup za globalno srednjeg dometa vremenske prognoze pod nazivom "GraphCast", koji proizvodi točnu 10-dnevnu prognozu za manje od minute na jednom Google Cloud TPU v4 uređaju, i podržava aplikacije uključujući predviđanje tropske ciklonske staze, atmosferske rijeke i ekstremne temperature. GraphCast uzima kao ulaz dva najnovija stanja Zemljinog vremena – trenutno vreme i šest sati ranije – i predviđa sledeće stanje vremena šest sati unaprijed. Jedno vremensko stanje predstavlja mreža od 0,25° širine/dužine (721 × 1440), što odgovara otprilike rezoluciji od 28 × 28 kilometara na ekvatoru (slika 1a), gde svaka tačka mreže predstavlja skup površinskih i atmosferskih varijabilnih (na seznamu u Tablici 1). Kao i tradicionalni NWP sustavi, GraphCast je autoregresivan: može se „izvući“ hranjenjem vlastitih predviđanja nazad kao ulaz, da bi se generirala proizvoljno duga trajektorija vremenskih stanja (slika 1b–c). GraphCast je implementiran kao arhitektura neuronske mreže, zasnovan na GNN-ovima u konfiguraciji „kodiranje-proces-dekodiranje“ [1], sa ukupno 36,7 miliona parametara. Encoder (slika 1d) koristi jedan GNN sloj za mapiranje varijable (normalizovano na nula-mean unit-variance) predstavljen kao nod atribute na ulaznoj mreži za naučene nod atribute na internoj "multi-mesh" reprezentacije. Multi-mesh (Slika 1g) je graf koji je prostorno homogen, sa visokom prostornom rezolucijom širom svijeta. Definiran je rafiniranjem redovnog icosahedron (12 čvorova, 20 lica, 30 rubova) iterativno šest puta, gde svako rafiniranje dijeli svaki trokut u četiri manja (što dovodi do četiri puta više lica i rubova), i reproducirajući čvorove na sferi. Multi-mesh sadrži 40,962 čvorova iz mreže najvišeg rezolucije, i ujedinjenje svih rubova stvorenih u srednjim grafima, formirajući ravnu hijerarhiju rubova sa varirajućim dužinama. Procesor (slika 1e) koristi 16 nepodijeljenih slojeva GNN-a za izvođenje naučene komunikacije na multi-mesh, što omogućuje efikasnu lokalnu i široku razmjenu informacija uz nekoliko koraka komunikacije. Dekoder (slika 1f) mapira naučene karakteristike konačnog sloja procesora iz multi-mesh reprezentacije nazad u mrežu širine i dužine. Koristi jedan GNN sloj, i predviđa izlaz kao rezidualnu ažuriranje na najnovije ulazno stanje (s normalizacijom izlaza da bi se postigla jedinica-varijanca na ciljanom ostatku). Tijekom razvoja modela, koristili smo 39 godina (1979-2017) povijesnih podataka iz ECMWF-ovog arhiva za reanalizu ERA5 [10]. Kao cilj obuke, prosječili smo prosječnu kvadratnu grešku (MSE) ponderiranu po vertikalnom nivou. Greška je izračunata između predviđenog stanja GraphCasta i korrespondujućeg stanja ERA5 preko N autoregresivnih koraka. Vrijednost N je povećana progresivno sa 1 na 12 (tj. šest sati do tri dana) tokom obuke. GraphCast je obučavan kako bi se cilj obuke minimizirao koristeći gradijentni pad i backpropagation. Obuka GraphCast je trajala otprilike četiri sedmice na uređajima Cloud 32 TPU v4 koristeći Consistent with real deployment scenarios, where future information is not available for model development, we evaluated GraphCast on the held out data from the years 2018 onward (see Supplements Section 5.1). Metode verifikacije Sveobuhvatno provjeravamo GraphCastovu sposobnost predviđanja usporedbom njene tačnosti sa HRES-ovima na velikom broju varijabilnih, nivoa i prolaznih vremena. Kvantificiramo odgovarajuće sposobnosti GraphCast, HRES i ML osnovnih linija pomoću dve metrike vještina: korijenske srednje kvadratne greške (RMSE) i koeficijenta korelacije anomalije (ACC). Od 227 varijabilnih i nivonih kombinacija koje je GraphCast predvidio na svakoj mrežnoj točki, mi smo ocijenili njegovu sposobnost u odnosu na HRES na 69 njih, što odgovara 13 nivoima WeatherBench[27] i varijabilima iz ECMWF Scorecard [9]; vidjeti boldface varijable i nivoe u Tablici 1 i Dodatcima odjeljku 1.2 za koje je HRES ciklus bio operativan tokom evaluacijskog perioda. Napomena, isključujemo ukupne padavine iz evaluacije jer podaci o padavini ERA5 imaju poznate predrasude [15]. Pored agregatnih performansi prijavljenih u glavnom tekstu, Dodatci odjeljak 7 pruža dodatne detaljne evaluacije, uključujući druge varijable, regionalne performanse, Prilikom praćenja tih usporedbi, dva ključna izbora leže u načinu na koji se uspostavlja vještina: (1) odabir temeljne istine za usporedbu i (2) pažljivo računanje prozora asimilacije podataka koji se koriste za temeljne podatke s promatranjima. Koristimo ERA5 kao temeljnu istinu za procjenu GraphCasta, budući da je osposobljen da uzme ERA5 podatke kao ulaz i predvidi ERA5 podatke kao izlazeće. Međutim, ocjenjivanje HRES predviđanja u odnosu na ERA5 rezultiralo bi ne-zero pogreškom na početnom koraku predviđanja. Umjesto toga, izgradili smo „HRES predviđanje na koraku 0“ (HRES-fc0) skup podataka koji će se koristiti kao temeljna istina za HRES. HR Zbog prirode podataka o vremenskoj prognozi, to zahtijeva pažljivu kontrolu razlika između ERA5 i HRES prozora asimilacije podataka. Svakog dana, HRES asimilira opažanja koristeći četiri +/-3h prozora usredotočenih na 00z, 06z, 12z i 18z (gde 18z znači 18:00 UTC), dok ERA5 koristi dva +9h/-3h prozora usredotočenih na 00z i 12z, ili ekvivalentno dva +3h/-9h prozora usredotočenih na 06z i 18z. Odabrali smo da procijenimo GraphCastove predviđanja od 06z i 18z inicijacijacija, osiguravajući da njegovi ulazi nose informacije iz +3h budućih opažanja, podudarajući iste HRES ulaze. Nismo procijenili Graph HRES predviđanja inicijalizovana na 06z i 18z pokreću se samo za horizont od 3,75 dana (HRES inicijalizovanja 00z i 12z pokreću se za 10 dana). stoga, naši brojevi će ukazati na tranziciju s raspodijeljenom linijom, gde su 3.5 dana prije linije usporedbe s HRES-om inicijalizovanim na 06z i 18z, a nakon linije usporedbe s inicijalizama na 00z i 12z. Prognoza rezultata verifikacije Pronalazimo da GraphCast ima veću sposobnost predviđanja vremena od HRES kada se ocjenjuje na 10-dnevnim predviđanjima na horizontalnoj rezoluciji od 0,25° za širinu/dužinu i na 13 vertikalnih nivoa. Slika 2a–c pokazuje kako GraphCast (plave linije) nadmašuje HRES (crne linije) na z500 (geopotencijalno na 500 hPa) „glavnoj liniji” polja u smislu RMSE veštine, RMSE veštine skóre (tj. normalizovana RMSE razlika između modela A i osnovne linije B definirane kao (RMSEA − RMSEB)/RMSEB), i ACC veštine. Upotreba z500, koja kodira sinoptičku skalu distribucije pritiska, uobičajena je u literaturi, jer ima jaku meteorološku važnost [27]. Plotovi pokazuju da GraphCast ima bolje veštine skóre u svim vodećim vremenima, sa poboljšanjem veštine skóre oko 7–14%. Plotovi za dodatne glavne varijable Slika 2d sažima RMSE performanse za sve 1380 procijenjenih varijabilnih i nivoa pritiska, kroz 10-dnevne prognoze, u formatu analognom ECMWF Scorecard. Boje ćelija su proporcionalne performansi, gde plava označava GraphCast imao bolju sposobnost, a crvena označava HRES imao veću sposobnost. GraphCast nadmašio HRES na 90.3% od 1380 ciljeva, i značajno (p ≤ 0.05, nominalna veličina uzorka n ∈ {729, 730}) nadmašio HRES na 89.9% ciljeva. Vidi Dodatke odjeljak 5.4 za metodologiju i Dodatke Tabela 5 za p-vrednosti, test statistike i efikasne veličine uzorka. Regije atmosfere u kojima je HRES imao bolje performanse od GraphCast (vrhovni redovi u crvenom u rezultatnim karticama), bili su nesrazmjerno lokalizirani u stratosferi, i imao je najnižu težinu gubitka obuke (vidi Dodatke Odjeljak 7.2.2). Kada se isključi 50 hPa nivo, GraphCast značajno nadmašuje HRES na 96,9% preostalih 1280 ciljeva. Kada se isključi nivo 50 i 100 hPa, GraphCast značajno nadmašuje HRES na 99,7% od 1180 preostalih ciljeva. Kada se provode procjene po regijama, otkrili smo da prethodni rezultati općenito drže širom svijeta, kao što je detaljno navedeno u Dodatke Slika 16 do 18. Otkrili smo da povećanje broja automatski regresivnih koraka u gubitku MSE-a poboljšava performanse GraphCast-a u dužem vodnom vremenu (vidjeti Dodatke odjeljak 7.3.2) i potiče ga da izrazi svoju neizvjesnost predviđanjem prostorno glatkih izlaza, što dovodi do zamagljenijih predviđanja u dužim vodnim vremenima (vidjeti Dodatke odjeljak 7.5.3). Međutim, HRES-ove temeljne fizičke jednadžbe ne dovode do zamagljenih predviđanja. Da bi se procijenilo da li je relativna prednost GraphCast-a u odnosu na HRES na RMSE veštinu održana ako je HRES-u takođe dopušteno da zamagli svoje predviđanja, prilagođavamo Također smo uspoređivali performanse GraphCast-a sa top konkurencijskim ML-based vremenskim modelom, Pangu-Weather [4], i otkrili da ga je GraphCast nadmašio na 99,2% od 252 ciljeva koje su predstavili (vidjeti dodatke odjeljak 6 za detalje). Teški rezultati događaja predviđanja Pored procjene GraphCast-ove sposobnosti predviđanja u odnosu na HRES-ove na širokom rasponu varijabilnih i vodi vremena, mi takođe procjenjujemo kako njegove predviđanja podržavaju predviđanje teških događaja, uključujući tropske ciklone, atmosferske rijeke i ekstremne temperature. Tropske ciklonske staze Poboljšanje preciznosti prognoza tropskih ciklona može pomoći u sprečavanju ozljeda i gubitka života, kao i smanjenju ekonomske štete [21]. Postojanje, snaga i trajektorija ciklona se predviđaju primjenom algoritma za praćenje predviđanja geopotencijalnog (z), horizontalnog vjetra (10 U/10 v, U/v) i prosečnog tlaka na moru (MsL). Primijenili smo algoritam praćenja zasnovan na istim objavljenim protokolima ECMWF-a [20] i primijenili ga na prognoze GraphCast-a, kako bismo proizvedli predviđanja staze ciklona (vidi Dodatke odjeljak 8.1). Kao baznu liniju za poređenje, koristili smo operativne staze dobivene od HRES- Kao što su greške po stazi za HRES i GraphCast su korelirane, mi smo takođe izmjerili razliku po stazi pareno greške između dva modela i otkrili da je GraphCast je znatno bolji od HRES za vrijeme vode 18 sati do 4,75 dana, kao što je prikazano u Slika 3b. Atmosferne reke Atmosferske rijeke su uske regije atmosfere koje su odgovorne za većinu polusmernog transporta vodene pare preko srednje širine i generiraju 30%-65% godišnjih padavina na zapadnoj obali SAD-a [6]. Njihovu snagu može karakterizirati vertikalno integrirani transport vodene pare IvT [23, 22], što ukazuje na to da li će događaj pružiti korisne padavine ili biti povezan sa katastrofalnim oštećenjem [7]. IvT se može izračunati iz nelinearne kombinacije horizontalne brzine vjetra (U i v) i specifične vlažnosti (Q), što GraphCast predviđa. Mi procjenjujemo GraphCast prognoze za obalni Severna Amerika i Istočni Pacifik tokom hladnih mjeseci (Okt-Apr), kada su atmosferske rijeke najčešće. Ekstremna vrućina i hladnoća Ekstremne vrućine i hladnoće karakteriziraju velike anomalije u odnosu na tipičnu klimatologiju [19, 16, 18], koje mogu biti opasne i poremetiti ljudske aktivnosti. Mi procjenjujemo vještinu HRES-a i GraphCasta u predviđanju događaja iznad top 2% klimatologije preko lokacije, vremena dana i meseca godine, za 2 T u 12-satnim, 5-dnevnim i 10-dnevnim vodnim vremenima, za kopnene regije diljem sjeverne i južne hemisfere tokom ljetnih mjeseci. Mi planiramo krivulje za precizno podsjećanje [30] kako bismo odražavali moguće različite kompromise između smanjenja lažnih pozitivnih (visoka preciznost) i smanjenja lažnih negativnih (visok podsjećaj). Za svaku prognozu, dob Slika 3d pokazuje GraphCastove krivulje preciznog podsjećanja su iznad HRES-ova za 5 i 10 dana predviđanja, što sugerira da su prognoze GraphCast-a općenito superiorne od HRES-a na ekstremnoj klasifikaciji na dužim horizontima. Za razliku od toga, HRES ima bolju preciznost podsjećanja na 12 sati predviđanja, što je u skladu s 2 T ocjenom vještine GraphCast-a nad HRES-om koji je blizu nule, kao što je prikazano na Slika 2d. Uticaj nedavnih podataka o obuci GraphCast se može redovno obučavati pomoću najnovijih podataka, što mu u principu omogućuje da uhvati vremenske obrasce koji se mijenjaju s vremenom, kao što su ENSO ciklus i druge oscilacije, kao i učinci klimatskih promjena. Obučavali smo četiri varijante GraphCasta sa podacima koji su uvijek počeli 1979. godine, ali su završili 2017. godine, 2019. godine i 2020. godine, odnosno (označili smo varijantu koja se završava 2017. godine kao „GraphCast:<2018“, itd.). Na slici 4 prikazani su rezultati vještina (normalizovani GraphCast:<2018) četiriju varijanti i HRES, za z500. Otkrili smo da dok je GraphCastova performansa kada je obučena do 2018. i dalje konkurentna s HRES-om 2021. godine, obuka do 2021. dodatno poboljšava svoje rezultate vještina (vidjeti Dodatke odjeljak 7.1.3). Špekuliramo da ovaj nedavni efekat omogućava da se nedavni vremenski trendovi uhvate kako bi se poboljšala preciznost. Zaključci GraphCastova veština i efikasnost predviđanja u poređenju sa HRES-om pokazuju da su MLWP metode sada konkurentne sa tradicionalnim metodama predviđanja vremena. Osim toga, GraphCastova izvedba na predviđanju ozbiljnih događaja, za koju nije bio izravno osposobljen, pokazuje svoju robusnost i potencijal za vrednost u daljnjem toku. Sa 36,7 miliona parametara, GraphCast je relativno mali model prema modernim ML standardima, odabran za održavanje memorijskog otiska. I dok je HRES objavljen na rezoluciji od 0,1°, 137 nivoa, i do 1 sata vremenskih koraka, GraphCast je radio na rezoluciji od 0,25° širine-dužine, 37 vertikalnih nivoa i 6 sati vremenskih koraka, zbog native 0,25° rezolucije ERA5 podataka za obuku, i inženjerskih izazova u prilagođavanju podataka veće rezolucije na hardveru. Općenito, GraphCast treba gledati kao obitelj modela, s trenutnom verzijom koja je najveća koja se praktički može uklopiti pod trenutnim inženjerskim ograničenjima, ali koja ima potencijal da se proširi Jedno ključno ograničenje našeg pristupa je u tome kako se nesigurnost rješava. Usredotočili smo se na deterministske prognoze i u poređenju sa HRES-om, ali drugi stup ECMWF-ovog IFS-a, ansamblovni sistem predviđanja, ENS, posebno je važan za 10+ dnevne prognoze. Ne-linearnost vremenske dinamike znači da postoji povećana nesigurnost u dužim vodnim vremenima, što nije dobro uhvaćeno jednim determinističkim predviđanjem. ENS rješava to stvaranjem višestrukih, stohastičkih predviđanja, koja modeliraju empirijsku distribuciju budućeg vremena, ali stvaranje višestrukih predviđanja je skupo. U suprotnosti, GraphCastov cilj obuke MSE potiče ga It is important to emphasize that data-driven MLWP depends critically on large quantities of high-quality data, assimilated via NWP, and that rich data sources like ECMWF’s MARS archive are invaluable. Therefore, our approach should not be regarded as a replacement for traditional weather forecasting methods, which have been developed for decades, rigorously tested in many real-world contexts, and offer many features we have not yet explored. Rather our work should be interpreted as evidence that MLWP is able to meet the challenges of real-world forecasting problems, and has potential to complement and improve the current best methods. Pored vremenskih predviđanja, GraphCast može otvoriti nove pravce za druge važne geospatiotemporalne probleme predviđanja, uključujući klimu i ekologiju, energiju, poljoprivredu i ljudsku i biološku aktivnost, kao i druge složene dinamičke sisteme. Dostupnost podataka i materijala GraphCastov kod i obučene težine su javno dostupni na github https://github.com/ deepmind/graphcast. Ovaj rad koristi javno dostupne podatke iz Europskog centra za prognozu srednjeg dometa (ECMWF). Koristimo ECMWF arhive (izgubljeni u realnom vremenu) proizvode za ERA5, HRES i TIGGE proizvode, čija je upotreba regulirana Creative Commons Attribution 4.0 Međunarodni (CC BY 4.0). Koristimo IBTrACS verzija 4 iz https://www.ncei.noaa.gov/ proizvodi/international-best-track-archive i reference [13, 12] kao što je potrebno. Zemljina tekstura na slici 1 se koristi pod CC BY 4.0 iz https://www.solarsystemscope.com/ textures/. Priznanja U abecednom redoslijedu, zahvaljujemo Kelsey Allen, Charles Blundell, Matt Botvinick, Zied Ben Bouallegue, Michael Brenner, Rob Carver, Matthew Chantry, Marc Deisenroth, Peter Deuben, Marta Garnelo, Ryan Keisler, Dmitrii Kochkov, Christopher Mattern, Piotr Mirowski, Peter Norgaard, Ilan Price, Chongli Qin, Sébastien Racanière, Stephan Rasp, Yulia Rubanova, Kunal Shah, Jamie Smith, Daniel Worrall, i bezbroj drugih u Alphabet i ECMWF za savjete i povratne informacije o našem radu. Također zahvaljujemo ECMWF za pružanje neprocjenjivih skupova podataka istraživačkoj zajednici. Stil otvaranja stavka inspiriran je D. Fan et al., Science R Referencije [1] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Relativne induktivne predrasude, duboko učenje i grafičke mreže. arXiv preprint arXiv:1806.01261, 2018. [2] P. Bauer, A. Thorpe, i G Brunet. Tiha revolucija numeričke vremenske prognoze. priroda, 525, 2015. [3] Stanley G Benjamin, John M Brown, Gilbert Brunet, Peter Lynch, Kazuo Saito i Thomas W Schlatter. 100 godina napretka u predviđanju i NWP aplikacijama. [4] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu i Qi Tian. Pangu-Vrijeme: 3D model visoke rezolucije za brzu i točnu globalnu vremensku prognozu. arXiv preprint arXiv:2211.02556, 2022. [5] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. The THORPEX interactive grand global ensemble. Bulletin of the American Meteorological Society, 91(8):1059–1072, 2010. [6] WE Chapman, AC Subramanian, L Delle Monache, SP Xie, i FM Ralph. Poboljšanje prognoza atmosferske rijeke pomoću strojnog učenja. Geophysical Research Letters, 46(17-18):10627-10635, 2019. [7] Thomas W Corringham, F Martin Ralph, Alexander Gershunov, Daniel R Cayan, i Cary A Talbot. Atmosferske rijeke dovode do oštećenja od poplava u zapadnim Sjedinjenim Državama. Nauka napreduje, 5(12):eaax4631, 2019. [8] Lasse Espeholt, Shreya Agrawal, Casper Sønderby, Manoj Kumar, Jonathan Heek, Carla Bromberg, Cenk Gazen, Rob Carver, Marcin Andrychowicz, Jason Hickey, et al. Duboko učenje za dvanaest sati predviđanja padavina. Priroda komunikacije, 13(1):1–10, 2022. [9] T Haiden, Martin Janousek, J Bidlot, R Buizza, Laura Ferranti, F Prates i F Vitart. Evaluacija prognoza ECMWF-a, uključujući nadogradnju za 2018. godinu. [10] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. Globalna reanaliza ERA5. kvartalni časopis Kraljevskog meteorološkog društva, 146(730):1999–2049, 2020. [11] Ryan Keisler. Forecasting global weather with graph neural networks. arXiv preprint arXiv:2202.07575, 2022. [12] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. Međunarodni najbolji arhiv za upravljanje klimom (IBTrACS) projekt, verzija 4. https: //doi.org/10.25921/82ty-9e16, 2018. [13] Kenneth R Knapp, Michael C Kruk, David H Levinson, Howard J Diamond, i Charles J Neumann. Međunarodni najbolji arhiv za upravljanje klimatskim promjenama (IBTrACS) koji ujedinjuje podatke o tropskim ciklonima. [14] Thorsten Kurth, Shashank Subramanian, Peter Harrington, Jaideep Pathak, Morteza Mardani, David Hall, Andrea Miele, Karthik Kashinath, i Animashree Anandkumar. FourCastNet: Ubrzanje globalne visoke rezolucije vremenske prognoze pomoću adaptivnih četvoro neuronskih operatora. arXiv preprint arXiv:2208.05419, 2022. [15] David A Lavers, Adrian Simmons, Freja Vamborg, i Mark J Rodwell. Procjena padavina ERA5 za praćenje klime. kvartalni časopis Kraljevskog meteorološkog društva, 148(748):3152–3165, 2022. [16] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal i Jason Hickey. Globalne ekstremne vrućine predviđanje pomoću neuralnih vremenskih modela. Umjetna inteligencija za Zemljine sisteme, stranice 1-41, 2022. [17] Carsten Maass i Esperanza Cuartero. MARS korisnička dokumentacija. https://confluence. ecmwf.int/display/UDOC/MARS+user+documentation, 2022. [18] Linus Magnusson. 202208 - toplinski talas - uk. https://confluence.ecmwf.int/display/ FCST/202208+-+Heatwave+-+UK, 2022. [19] Linus Magnusson, Thomas Haiden, i David Richardson. Verifikacija ekstremnih vremenskih događaja: Diskretni predviđanja. [20] Linus Magnusson, Sharanya Majumdar, Rebecca Emerton, David Richardson, Magdalena Alonso-Balmaseda, Calum Baugh, Peter Bechtold, Jean Bidlot, Antonino Bonanni, Massimo Bonavita, et al. Tropske aktivnosti ciklona na ECMWF. [21] Andrew B Martinez. Predviđanje tačnosti je bitno za štetu od uragana. Ekonometrija, 8(2):18, 2020. [22] Benjamin J Moore, Paul J Neiman, F Martin Ralph, and Faye E Barthold. Physical processes associated with heavy flooding rainfall in Nashville, Tennessee, and vicinity during 1–2 May 2010: The role of an atmospheric river and mesoscale convective systems. Monthly Weather Review, 140(2):358–378, 2012. [23] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist, i Michael D Dettinger. Meteorološke karakteristike i učinci padavina na kopnu atmosferskih rijeka koje utječu na zapadnu obalu Sjeverne Amerike na osnovu osam godina satelitskih promatranja ssm/i. [24] Tung Nguyen, Johannes Brandstetter, Ashish Kapoor, Jayesh K Gupta, i Aditya Grover. ClimaX: osnovni model za vrijeme i klimu. arXiv preprint arXiv:2301.10343, 2023. [25] Jaideep Pathak, Shashank Subramanian, Peter Harrington, Sanjeev Raja, Ashesh Chattopad-hyay, Morteza Mardani, Thorsten Kurth, David Hall, Zongyi Li, Kamyar Azizzadenesheli, et al. Fourcastnet: Globalni model vremena visoke rezolucije zasnovan na podacima pomoću adaptivnih četvornih neuronskih operatora. arXiv preprint arXiv:2202.11214, 2022. [26] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez, i Peter Battaglia. Učenje mrežne simulacije s grafičkim mrežama. [27] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid, i Nils Thuerey. WeatherBench: referentni skup podataka za vremenske prognoze zasnovane na podacima. Časopis za napredak u modeliranju Zemljinih sustava, 12(11):e2020MS002203, 2020. [28] Stephan Rasp i Nils Thuerey. podaci-driven srednjeg dometa vremenska prognoza sa resnet pretreniran na klimatske simulacije: Novi model za meteorološki stol. [29] Suman Ravuri, Karel Lenc, Matthew Willson, Dmitry Kangin, Remi Lam, Piotr Mirowski, Megan Fitzsimons, Maria Athanassiadou, Sheleem Kashem, Sam Madge, et al. Skilful padavina sadacasting koristeći duboke generativne modele radara. Priroda, 597(7878):672–677, 2021. [30] Takaya Saito i Marc Rehmsmeier. Zaplet preciznog podsjećanja je informativniji od zapleta ROC kada se procjenjuju binarni klasifikatori na neuravnoteženim skupovima podataka. PloS jedan, 10(3):e0118432, 2015. [31] Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec i Peter Battaglia. Učenje simulacije kompleksne fizike pomoću grafičkih mreža. U Međunarodnoj konferenciji o strojnom učenju, stranice 8459–8468. [32] Xingjian Shi, Zhihan Gao, Leonard Lausen, Hao Wang, Dit-Yan Yeung, Wai-kin Wong, i Wang-chun Woo. Duboko učenje za padavine nowcasting: referent i novi model. Napredak u neuralnim sistemima za obradu informacija, 30, 2017. [33] Casper Kaae Sønderby, Lasse Espeholt, Jonathan Heek, Mostafa Dehghani, Avital Oliver, Tim Salimans, Shreya Agrawal, Jason Hickey i Nal Kalchbrenner. Metnet: Neuralni vremenski model za predviđanje padavina. arXiv preprint arXiv:2003.12140, 2020. [34] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson, i Munehiko Yamaguchi. Projekat TIGGE i njegovi postignuća. Bulletin of the American Meteorological Society, 97(1):49 – 67, 2016. [35] Jonathan A Weyn, Dale R Durran, i Rich Caruana. Može li mašine naučiti da predviđaju vremenske prilike? Upotrebom dubokog učenja predviđaju mrežnu geopotencijalnu visinu od 500 hPa iz povijesnih vremenskih podataka. Journal of Advances in Modeling Earth Systems, 11(8):2680-2693, 2019. [36] Jonathan A Weyn, Dale R Durran, i Rich Caruana. Poboljšanje globalnog vremenskog predviđanja zasnovanog na podacima pomoću dubokih konvolucionih neuronskih mreža na kubnoj sferi. 1. podaci U ovom odjeljku, dajemo pregled podataka koje smo koristili za obuku i evaluaciju GraphCast (Suplementi odjeljak 1.1), podaci definiraju predviđanja NWP bazne HRES, kao i HRES-fc0, koje koristimo kao zemaljsku istinu za HRES (Suplementi odjeljak 1.2). Mi smo izgradili više skupova podataka za obuku i evaluaciju, koji se sastoje od podskupova arhiva podataka ECMWF-a i IBTrACS [29, 28]. Općenito razlikujemo izvorne podatke, koje nazivamo „arhivskim“ ili „arhiviranim podacima“, od skupova podataka koje smo izgradili iz tih arhiva, koje nazivamo „datasetima“. 1.1 ERA5 Za obuku i evaluaciju GraphCasta, izgradili smo naše skupove podataka iz podskupine ERA5 [24]1 arhiva ECMWF-a, koji je veliki korpus podataka koji predstavlja globalno vreme od 1959. do sadašnjosti, na rezoluciji od 0,25° širine/dužine, i 1 sat povećanja, za stotine statičkih, površinskih i atmosferskih varijabilnih. ERA5 arhiv je zasnovan na reanalizi, koja koristi ECMWF-ov model HRES (ciklus 42r1) koji je bio operativan za većinu 2016. (vidi Tablicu 3), unutar ECMWF-ovog 4D-Var sistema asimilacije podataka. Naš ERA5 podatkovni set sadrži podskupinu dostupnih varijabilnih u ECMWF-ovom ERA5 arhivu (Tabela 2), na 37 nivoa pritiska: 1, 2, 3, 5, 7, 10, 20, 30, 50, 70, 100, 125, 150, 175, 200, 225, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 775, 800, 825, 850, 875, 900, 925, 950, 975, 1000 hPa. Raspon uključenih godina bio je 1979-01-01 do 2022-01-10, koji su uzeti u uzorkovanje u vremenskim intervalima od 6 sati (koji odgovaraju 00z, 06z, 12z i 18z svaki dan). 1.2 Uslovi Evaluacija osnovne linije modela HRES zahtijeva dva odvojena skupa podataka, a to su podaci o prognozi i podaci o temeljnoj istini, koji su sažeti u narednim pododjeljcima. HRES se općenito smatra najtočnijim deterministskim vremenskim modelom zasnovanim na NWP-u na svijetu, pa smo za procjenu HRES bazne linije izgradili skup podataka arhiviranih povijesnih predviđanja HRES-a. HRES redovno ažurira ECMWF, tako da ove predviđanja predstavljaju najnoviji HRES model u trenutku kada su predviđanja napravljena. Predviđanja su preuzeta na njihovoj nativnoj reprezentaciji (koja koristi sferičnu harmoniku i oktaedralno smanjenu Gausijsku mrežu, TCo1279 [36]), i otprilike odgovara rezoluciji 0,1° širine/dužine. HRES operational forecasts Zatim smo prostorno donosili uzorke predviđanja na mrežu od 0,25° širine/dužine (da bi se uskladila sa rezolucijom ERA5) koristeći ECMWF-ovu Metview biblioteku, sa podrazumevanim regridnim parametrima. Vremenski smo ih donosili na 6 časovnih intervala. Postoje dvije grupe HRES predviđanja: one inicijalizovane na 00z/12z koje se objavljuju za 10 dnevnih horizonta, i one inicijalizovane na 06z/18z koje se objavljuju za 3,75 dnevnih horizonta. For evaluating the skill of the HRES operational forecasts, we constructed a ground truth dataset, “HRES-fc0”, based on ECMWF’s HRES operational forecast archive. This dataset comprises the initial time step of each HRES forecast, at initialization times 00z, 06z, 12z, and 18z (see Figure 5). The HRES-fc0 data is similar to the ERA5 data, but it is assimilated using the latest ECMWF NWP model at the forecast time, and assimilates observations from ±3 hours around the corresponding date and time. Note, ECMWF also provides an archive of “HRES Analysis” data, which is distinct from our HRES-fc0 dataset. The HRES Analysis dataset includes both atmospheric and land surface analyses, but is not the input which is provided to the HRES forecasts, therefore we do not use it as ground truth because it would introduce discrepancies between HRES forecasts and ground truth, simply due to HRES using different inputs, which would be especially prominent at short lead times. HRES-fc0 Vrlo mali podskup vrijednosti iz arhive ECMWF HRES za varijabilni geopotencijal na 850hPa (z850) i 925hPa (z925) nisu brojevi (NaN). Ovi NaN-ovi izgledaju ravnomjerno raspodijeljeni u rasponu od 2016. do 2021. i kroz vremenske prognoze. To predstavlja oko 0,00001% piksela za z850 (1 piksel svakih deset 1440 x 721 okvira širine), 0,00000001% piksela za z925 (1 piksel svakih deset tisuća 1440 x 721 okvira širine širine) i nema mjerljivog utjecaja na performanse. Za lakše poređenje, ispunili smo ove rijetke vrednosti koje nedostaju ponderiranim prosjekom neposrednih susjednih piksela. Kor HRES NaN handling 1.3 Tropski cikloni Za našu analizu predviđanja tropskih ciklona, koristili smo arhivu IBTrACS [28, 29, 31, 30] kako bismo konstruisali bazu podataka o zemaljskoj istini. To uključuje povijesne ciklonske tragove iz oko desetak autoritetnih izvora. Svaka staza je vremenski niz, u intervalima od 6 sati (00z, 06z, 12z, 18z), gde svaki časovnik predstavlja oko ciklona u koordinatama širine/dužine, zajedno sa odgovarajućom kategorijom Saffir-Simpson i drugim relevantnim meteorološkim karakteristikama u tom trenutku. Za HRES osnovnu liniju koristili smo TIGGE arhiv, koji pruža tragove ciklona procijenjene pomoću operativnog tracker-a, iz HRES-ovih predviđanja na rezoluciji od 0,1° [8, 46]. Podaci se pohranjuju kao XML datoteke dostupne za preuzimanje pod https://confluence.ecmwf.int/display/TIGGE/Tools. Da bismo pretvorili podatke u format pogodan za daljnju post-obrađivanje i analizu, implementirali smo analizator koji izvlači tragove ciklona za godine interesa. Relevantni odjeljci (tagovi) u XML datotekama su odjeljci tipa „forecast”, koji obično sadrže više tragova koji odgovaraju različitim početnim vremenima predviđanja. S tim tagovima Pogledajte odjeljak 8.1 za detalje o algoritmu tracker i rezultatima. Notiranje i izjava o problemu U ovom odjeljku definišemo korisne vremenske notacije koje se koriste u celom dokumentu (odjeljak 2.1), formalizujemo opći problem predviđanja koji se bavi (odjeljak 2.2), i detaljno opisujemo kako modeliramo stanje vremena (odjeljak 2.3). 2.1 Vremenska notacija Vremenska notacija koja se koristi u predviđanju može biti zbunjujuća, uključujući niz različitih vremenskih simbola, npr. za označavanje početnog vremena predviđanja, vremena valjanosti, horizonta predviđanja itd. Stoga uvodimo neke standardizirane izraze i notacije radi jasnoće i jednostavnosti. Mi se odnosimo na određenu tačku u vremenu kao „datum-vreme“, označeno kalendarskim datumom i vremenom UTC. Na primjer, 2018-06-21_18:00:00 znači 21. jun 2018. u 18:00 UTC. Za kratko, ponekad koristimo i konvenciju Zulu, tj. 00z, 06z, 12z, 18z znači 00:00, 06:00, 12:00, 18:00 UTC, odnosno. Dalje definiramo sljedeće simbole: t: Indeks koraka predviđanja vremena, koji indeksira broj koraka od početka predviđanja. T: Horizont predviđanja, koji predstavlja ukupan broj koraka u prognozi. d: Vrijeme valjanosti, koje ukazuje na datum-vreme određenog vremenskog stanja. d0: Vreme inicijaliziranja predviđanja, što ukazuje na vrijeme valjanosti početnih ulazaka predviđanja. Δd: Predviđanje trajanja koraka, pokazujući koliko vremena prolazi tijekom jednog predviđanja koraka. τ: Predviđeno vreme vodjenja, koje predstavlja prošlo vrijeme u predviđanju (tj. τ = tΔd). 2.2. opšte prognoziranje problem izjava Neka Zd označava istinsko stanje globalnog vremena u vremenu d. Vremenska evolucija istinskog vremena može biti predstavljena osnovnom funkcijom diskretne vremenske dinamike, Φ, koja generira stanje u sledećem vremenskom koraku (Δd u budućnosti) na osnovu trenutnog, tj. Zd+Δd = Φ(Zd). Naš cilj je pronaći precizan i efikasan model, φ, prave dinamičke funkcije, Φ, koja može efikasno predvidjeti stanje vremena preko nekog predviđanja horizonta, TΔd. Pretpostavljamo da ne možemo direktno promatrati Zd, ali umjesto toga imamo samo delimično promatranje Xd, što je nepotpuna reprezentacija informacija o stanju potrebnih za savršeno predviđanje vremena. Xd−Δd , Xd−2Δd , ..., uz Xd. Model može onda, u principu, iskoristiti ove dodatne kontekstualne informacije kako bi približio Zd točnije. Analogno Jednadžbi (1), predviđanje X ̈d+Δd može se vratiti u φ kako bi se autoregresivno napravila potpuna predviđanja, Mi procjenjujemo kvalitetu predviđanja, ili sposobnost, φ kvantificirajući koliko dobro predviđena trajektorija, X ̈d+Δd:d+T Δd , odgovara trajektoriji temeljne istine, Xd+Δd:d+TΔd . Međutim, važno je ponovno istaknuti da Xd+Δd:d+TΔd sadrži samo naša opažanja Zd+Δd:d+TΔd , koja je sama neprimetna. Mjerimo dosljednost između predviđanja i temeljne istine s objektivnom funkcijom, koji je izričito opisan u odjeljku 5. U našem radu, vremenska rezolucija podataka i predviđanja bila je uvek Δd = 6 sati sa maksimalnim horizontom predviđanja od 10 dana, što odgovara ukupnom T = 40 koraka. Budući da je Δd konstanta u celom ovom dokumentu, možemo pojednostaviti notaciju koristeći (Xt, Xt+1, . . , Xt+T ) umesto (Xd, Xd+Δd , . . , Xd+TΔd ), da indeksiramo vrijeme sa čitavim brojem umesto određenog datuma-vreme. 2.3. Modeling ECMWF weather data Za obuku i evaluaciju modela, mi tretiramo naš ERA5 skup podataka kao zemaljsku istinu o površini i atmosferskom vremenskom stanju. Kao što je opisano u Odjeljku 1.2, mi smo koristili HRES-fc0 skup podataka kao zemaljsku istinu za evaluaciju HRES veštine. In our dataset, an ERA5 weather state 𝑋𝑡 comprises all variables in Table 2, at a 0.25° horizontal latitude-longitude resolution with a total of 721 × 1440 = 1, 038, 240 grid points and 37 vertical pressure levels. The atmospheric variables are defined at all pressure levels and the set of (horizontal) grid points is given by 𝐺0.25◦ = {−90.0, −89.75, . . . , 90.0} × {−179.75, −179.5, . . . , 180.0}. These variables are uniquely identified by their short name (and the pressure level, for atmospheric variables). For example, the surface variable “2 metre temperature” is denoted 2 T; the atmospheric variable “Geopotential” at pressure level 500 hPa is denoted z500. Note, only the “predicted” variables are output by our model, because the “input”-only variables are forcings that are known apriori, and simply appended to the state on each time-step. We ignore them in the description for simplicity, so in total there are 5 surface variables and 6 atmospheric variables. Od svih ovih varijabilnih, naš model predviđa 5 površinskih varijabilnih i 6 atmosferskih varijabilnih za ukupno 227 ciljanih varijabilnih. Nekoliko drugih statičkih i/ili spoljnih varijabilnih takođe je pruženo kao ulazni kontekst za naš model. Te varijabilne su prikazane u Tablici 1 i Tablici 2. Mi se odnosimo na podskup varijabilnih u Xt koji odgovaraju određenoj mrežnoj točki i (1,038,240 ukupno) kao xt, a na svaku varijabilnu j od 227 ciljnih varijabilnih kao xt. Cijela državna reprezentacija Xtii, j stoga sadrži ukupno 721 × 1440 × (5 + 6 × 37) = 235, 680, 480 vrednosti. Napomena, na polovima, 1440 tačke dužine su jednake, tako da je stvarni broj različitih mrežnih točaka nešto manji. GraphCast model Ovaj odjeljak pruža detaljan opis GraphCast, počevši od autoregresivne generacije predviđanja (odjeljak 3.1), pregled arhitekture u jednostavnom jeziku (odjeljak 3.2), nakon čega slijedi tehnički opis svih grafikona koji definiraju GraphCast (odjeljak 3.3), njegov koder (odjeljak 3.4), procesor (odjeljak 3.5), i dekoder (odjeljak 3.6), kao i sve pojedinosti o normalizaciji i parametriziranju (odjeljak 3.7). 3.1. generisanje prognoze Our GraphCast model is defined as a one-step learned simulator that takes the role of 𝜙 in Equation (2) and predicts the next step based on two consecutive input states, As in Equation (3), we can apply GraphCast iteratively to produce a forecast To je ilustrirano u Slika 1b,c. Otkrili smo, u ranim eksperimentima, da dva ulazna stanja daju bolje performanse od jednog, i da tri nisu pomogle dovoljno da opravdaju povećani trag memorije. 4.2 Arhitektonski pregled The core architecture of GraphCast uses GNNs in an “encode-process-decode” configuration [6], as depicted in Figure 1d,e,f. GNN-based learned simulators are very effective at learning complex physical dynamics of fluids and other materials [43, 39], as the structure of their representations and computations are analogous to learned finite element solvers [1]. A key advantage of GNNs is that the input graph’s structure determines what parts of the representation interact with one another via learned message-passing, allowing arbitrary patterns of spatial interactions over any range. By contrast, a convolutional neural network (CNN) is restricted to computing interactions within local patches (or, in the case of dilated convolution, over regularly strided longer ranges). And while Transformers [48] can also compute arbitrarily long-range computations, they do not scale well with very large inputs (e.g., the 1 million-plus grid points in GraphCast’s global inputs) because of the quadratic memory complexity induced by computing all-to-all interactions. Contemporary extensions of Transformers often sparsify possible interactions to reduce the complexity, which in effect makes them analogous to GNNs (e.g., graph attention networks [49]). Način na koji iskoristimo sposobnost GNN-a da modelira arbitrarne rijetke interakcije je uvođenjem GraphCast-ove interne "multi-mesh" reprezentacije, koja omogućava interakcije dugog dometa unutar nekoliko koraka koje prenose poruke i općenito ima homogenu prostornu rezoluciju širom svijeta. Ovo je u kontrastu sa mrežom širine i dužine koja izaziva neujednačenu raspodjelu točaka mreže. Upotreba mreže širine i dužine nije preporučljiva reprezentacija zbog svoje prostorne nehomogenosti i visoke rezolucije na polovima koja zahtijeva nerazmjerne računalne resurse. Our multi-mesh is constructed by first dividing a regular icosahedron (12 nodes and 20 faces) iteratively 6 times to obtain a hierarchy of icosahedral meshes with a total of 40,962 nodes and 81,920 faces on the highest resolution. We leveraged the fact that the coarse-mesh nodes are subsets of the fine-mesh nodes, which allowed us to superimpose edges from all levels of the mesh hierarchy onto the finest-resolution mesh. This procedure yields a multi-scale set of meshes, with coarse edges bridging long distances at multiple scales, and fine edges capturing local interactions. Figure 1g shows each individual refined mesh, and Figure 1e shows the full multi-mesh. GraphCastov kodirnik (slika 1d) najprije mapira ulazne podatke, od izvorne mreže širine i dužine, u naučene značajke na multi-meshu, koristeći GNN sa usmjerenim rubovima od mrežnih točaka do multi-mesha. Procesor (slika 1e) zatim koristi GNN od 16 slojeva da izvede naučene poruke na multi-meshu, omogućujući efikasno širenje informacija kroz prostor zbog dugog dometa. Dekodirnik (slika 1f) zatim mapira konačnu multi-mesh reprezentaciju nazad na mrežu širine i dužine koristeći GNN sa usmjerenim rubovima, i kombinira ovu mrežnu reprezentaciju, Ytk+, sa ulaznim stanjem, Xt+k, da formira predviđanje izla Encoder i decoder ne zahtijevaju da se sirovi podaci rasporede u redovnoj pravokotnoj mreži, a može se primijeniti i na arbitrarne diskretizacije država poput mreže [1]. opšta arhitektura se temelji na raznim naučenim simulatorima koji se temelje na GNN-u koji su bili uspešni u mnogim složenim sistemima tečnosti i drugim fizičkim domenama [43, 39, 15]. On a single Cloud TPU v4 device, GraphCast can generate a 0.25° resolution, 10-day forecast (at 6-hour steps) in under 60 seconds. For comparison, ECMWF’s IFS system runs on a 11,664-core cluster, and generates a 0.1° resolution, 10-day forecast (released at 1-hour steps for the first 90 hours, 3-hour steps for hours 93-144, and 6-hour steps from 150-240 hours, in about an hour of com-pute time [41]. See the HRES release details here: https://www.ecmwf.int/en/forecasts/ datasets/set-i.. 3.3. GraphCast’s graph GraphCast se implementira pomoću GNN-a u konfiguraciji "kodiranje-proces-dekodiranje", gde koderi kartice (površina i atmosfera) funkcije na ulaznoj mreži širine i dužine na multi-mesh, procesor obavlja mnoge krugove poruka-prenos na multi-mesh, a dekoder mapira multi-mesh funkcije natrag na izlaznoj mreži širine i dužine (vidjeti sliku 1). Model radi na grafu G (VG, VM, EM, EG2M, EM2G), koji je detaljno definisan u narednim paragrafima. VG predstavlja skup koji sadrži svaku od mrežnih čvorova vG. Svaki mrežni čvor predstavlja vertikalni dio atmosfere na danoj latitudinsko-dužini tačke, i. karakteristike povezane sa svakim mrežnim čvorom vG su vG,features = [xt−1, xt, ft−1, ft, ft+1, ci], gde xt je vremenski zavisno stanje Xt koje odgovara mrežnom čvoru vG i uključuje sve predviđene varijable podataka za svih 37 atmosferskih nivoa, kao i površinske varijable. Termični čvorovi ft se sastoje od vremenski zavisnih karakteristika koje se mogu izračunati analitički, a ne moraju se predvidjeti GraphCastom. Oni uključuju ukupno incidentno sunčevo zračenje na vrhu Grid nodes VM predstavlja set koji sadrži svaku od mrežnih čvorova vM. Mesh čvorovi su jednako postavljeni širom svijeta u R-refiniranom icosahedral mrežnom MR. M0 odgovara jediničnom poluotoku icosahedron (12 čvorova i 20 trikotnih lica) sa licima paralelnim sa polovima (vidi Slika 1g). Mesh je iterativno rafiniran Mr → Mr+1 podijeljenjem svakog trokutskog lica na 4 manja lica, što rezultira dodatnim čvorom u sredini svakog ruba, i re-projekcijom novih čvorova natrag na jedinicu sfere.4 Funkcije vM,Funkcije povezane sa svakim mrežnim čvorom vM uključuju kosin širine, i ithe sine i kosin dužine. Gra Mesh nodes EM are bidirectional edges added between mesh nodes that are connected in the mesh. Crucially, mesh edges are added to EM for all levels of refinement, i.e., for the finest mesh, 𝑀6, as well as for 𝑀5, 𝑀4, 𝑀3, 𝑀2, 𝑀1 and 𝑀0. This is straightforward because of how the refinement process works: the nodes of 𝑀𝑟−1 are always a subset of the nodes in 𝑀𝑟. Therefore, nodes introduced at lower refinement levels serve as hubs for longer range communication, independent of the maximum level of refinement. The resulting graph that contains the joint set of edges from all of the levels of refinement is what we refer to as the “multi-mesh”. See Figure 1e,g for a depiction of all individual meshes in the refinement hierarchy, as well as the full multi-mesh. Mesh edges Za svaku rubu eM koja povezuje čvor za mrežnu mrežu vM sa čvorom za mrežnu mrežu vM, mi izgradimo funkcije vM→vM edge eM, funkcije koje koriste poziciju na jediničnoj sferi čvorova mreže. To uključuje dužinu vM→vM s r krajeva, i razliku vektora između 3d pozicija čvorova za mrežnu mrežu i čvorova za prijemnike izračunata u lokalnom koordinatnom sistemu prijemnika. Lokalni koordinatni sistem prijemnika izračunava se primjenom rotacije koja mijenja azimutalni kut dok taj čvor za prijemnike ne bude na dužini 0, a zatim rotacijom koja mijenja polarni kut dok prijemnik ne bude takođe na širini 0. Ovo rezultira ukupnim iznosom 327,6 EG2M su jednosmjerni rubovi koji povezuju čvorove mreže pošiljatelja sa čvorovima mreže prijemnika. Jedan rub eG2M vG→vM se dodaje ako je udaljenost između čvorova mreže i čvorova mreže manja od s r ili jednaka 0,6 puta5 dužine rubova u mreži M6 (vidjeti sliku 1) koji osigurava da je svaki čvor mreže povezan s najmanje jednim čvorom mreže. Funkcije eG2M, značajke su izgrađene na isti način kao i za rubove mreže vG→vM s r. To rezultira ukupno 1,618,746 rubova mreže 2Mesh, svaki sa 4 ulazne značajke. Grid2Mesh edges EM2G are unidirectional edges that connect sender mesh nodes to receiver grid nodes. For each grid point, we find the triangular face in the mesh 𝑀6 that contains it and add three Mesh2Grid edges of the form 𝑒M2G 𝑣M→𝑣G, to connect the grid node to the three mesh nodes adjacent s r to that face (see Figure 1). Features eM2G,features are built on the same way as those for the mesh 𝑣M→𝑣G s r edges. This results on a total of 3,114,720 Mesh2Grid edges (3 mesh nodes connected to each of the 721 × 1440 latitude-longitude grid points), each with four input features. Mesh2Grid edges 4.4 Kodiranje The purpose of the encoder is to prepare data into latent representations for the processor, which will run exclusively on the multi-mesh. Kao dio kodera, prvo ugradimo značajke svakog od mrežnih čvorova, mrežnih čvorova, mrežnih rubova, mrežnih rubova i mrežnih rubova u latentni prostor fiksne veličine pomoću pet višeslojnih perceptrona (MLP), Embedding the input features Zatim, kako bismo prenijeli informacije o stanju atmosfere sa mrežnih čvorova na mrežne čvorove, izvršavamo jednu poruku koja prelazi korak preko Grid2Mesh bipartitnog podgrafa GG2M(VG, VM, EG2M) povezujući mrežne čvorove sa mrežnim čvorovima. Ovo ažuriranje se izvodi pomoću interakcijske mreže [5, 6], povećano kako bi se moglo raditi sa više tipova čvorova [2]. Grid2Mesh GNN Zatim se svaki od mrežnih čvorova ažurira agregiranjem informacija sa svih rubova koji dolaze na taj mrežni čvor: Each of the grid nodes are also updated, but with no aggregation, because grid nodes are not receivers of any edges in the Grid2Mesh subgraph, Nakon ažuriranja sva tri elementa, model uključuje preostalu vezu, a radi jednostavnosti notacije, preusmjerava varijable, 5.3 Procesor The processor is a deep GNN that operates on the Mesh subgraph GM (VM, EM) which only contains the Mesh nodes and and the Mesh edges. Note the Mesh edges contain the full multi-mesh, with not only the edges of 𝑀6, but all of the edges of 𝑀5, 𝑀4, 𝑀3, 𝑀2, 𝑀1 and 𝑀0, which will enable long distance communication. Jedan sloj Mesh GNN je standardna interakcijska mreža [5, 6] koja prvo ažurira svaku od mrežnih rubova koristeći informacije susjednih čvorova: Multi-mesh GNN Zatim ažurira svaki od mrežnih čvorova, agregirajući informacije iz svih rubova koji dolaze na taj mrežni čvor: I nakon ažuriranja oba, reprezentacije su ažurirane sa preostalom vezom i za jednostavnost notacije, takođe preraspodijeljene na ulazne varijable: The previous paragraph describes a single layer of message passing, but following a similar approach to [43, 39], we applied this layer iteratively 16 times, using unshared neural network weights for the MLPs in each layer. 3.6. Decoder Uloga dekodera je vratiti informacije u mrežu i izvući izlaz. Analogno Grid2Mesh GNN-u, Mesh2Grid GNN izvodi jednu poruku koja prolazi preko Mesh2Grid bipartitnog podgrafa GM2G(VG, VM, EM2G). Grid2Mesh GNN je funkcionalno ekvivalent Mesh2Grid GNN-u, ali koristi Mesh2Grid rubove za slanje informacija u suprotnom smjeru. Mesh2Grid GNN Then it updates each of the grid nodes, aggregating information from all of the edges arriving at that grid node: U ovom slučaju ne ažuriramo mrežne čvorove, jer oni neće igrati nikakvu ulogu od ovog trenutka. Ovde opet dodajemo preostalu vezu, i za jednostavnost notacije, preraspodijeliti varijable, ovaj put samo za mrežne čvorove, koji su jedini potrebni od ove tačke: Finally the prediction yˆ𝑖 for each of the grid nodes is produced using another MLP, Output function koji sadrži sve 227 predviđenih varijabilnih za taj mrežni čvor. Slično [43, 39], sljedeće vremensko stanje, X ̈t + 1, izračunava se dodavanjem predviđanja po čvoru, Y ̈t , na ulazno stanje za sve mrežne čvorove, 3.7. Normalization and network parameterization Slično [43, 39], normalizovali smo sve ulaze. Za svaku fizičku promjenjivu, izračunali smo prosjek nivoa pritiska i standardno odstupanje u razdoblju od 1979. do 2015. godine i koristili smo to da ih normalizujemo na nulu prosjeka i jedinicu odstupanja. Za relativne udaljenosti i dužine rubova, normalizovali smo značajke na dužinu najdužeg rubova. Input normalization Budući da naš model ispušta razliku, Y ̈t , koja se tijekom zaključivanja dodaje Xt da bi se proizvela X ̈t + 1, normalizovali smo ishod modela izračunavanjem statistike standardnog odstupanja po nivou pritiska za vremensku razliku Yt = Xt+1 − Xt svake varijable6. Output normalization Neuralne mreže unutar GraphCast su sve MLPs, sa jednim skrivenim slojem, i sakriven i izlazni slojevi veličine 512 (osim konačnog sloja Decoder MLP, čija izlazna veličina je 227, što odgovara broju predviđenih varijabilnih za svaki čvor mreže). Neural network parameterizations 4. obuka detalji Ovaj odjeljak pruža detalje koje se odnose na obuku GraphCast, uključujući podjelu podataka koji se koristi za razvoj modela (odjeljak 4.1), potpunu definiciju objektivne funkcije s težinom povezanom sa svakom varijabilnom i vertikalnom razinom (odjeljak 4.2), autoregresivni pristup obuke (odjeljak 4.3), postavke optimizacije (odjeljak 4.4), obuku kurikula koji se koristi za smanjenje troškova obuke (odjeljak 4.5), tehničke detalje koji se koriste za smanjenje memorijskog otiska GraphCast-a (odjeljak 4.6), vremena obuke (odjeljak 4.7) i softvera koji smo koristili (odjeljak 4.8). 4.1 Obuka podijeljena Da bismo oponašali stvarne uvjete implementacije, u kojima prognoza ne može ovisiti o informacijama iz budućnosti, podijelili smo podatke koji se koriste za razvoj GraphCasta i podatke koji se koriste za testiranje njegovog performansi „ukazno“, u tome što je „razvojni set“ sadržavao samo datume ranije od onih u „test setu“. Razvojni set obuhvaća period 1979–2017, a test set sadrži godine 2018–2021. Ni istraživačima ni softveru za obuku modela nije bilo dozvoljeno da pregledaju podatke iz test set-a dok nismo završili fazu razvoja. U okviru našeg razvojnog skupa, dalje smo podijelili podatke u set obuke koji se sastoji od godina 1979-2015, i set validiranja koji uključuje 2016-2017. Koristili smo set obuke kao podatke o obuci za naše modele i set validiranja za hiperparametarsku optimizaciju i odabir modela, tj. da odlučimo o arhitekturi modela koja najbolje funkcionira. Zatim smo zamrzli arhitekturu modela i sve izbore obuke i prešli na fazu testiranja. U preliminarnom radu, istražili smo i obuku o ranijim podacima iz 1959-1978, ali smo otkrili da je imala malu korist u pogledu performansi, tako da smo u završnim fazama našeg rada isključili 1959-1978 zbog jednostavnosti. 4.2 Ciljevi obuke GraphCast was trained to minimize an objective function over 12-step forecasts (3 days) against ERA5 targets, using gradient descent. The training objective is defined as the mean square error (MSE) between the target output 𝑋 and predicted output 𝑋ˆ, where τ ∈ 1 : Ttrain su vodi vremena koja odgovaraju Ttrain autoregresivne korake. d0 ∈ Dbatch predstavlja datum inicializacije prognoze u seriji prognoza u setu obuke, j ∈ J indeksira promjenjivu, a za atmosferske promjenjive nivo pritiska. npr. J ={z1000, z850, . . . , 2 T, MsL}, i ∈ G0.25◦ su lokacije (latitude i longitude) koordinate u mreži, 𝑥ˆ𝑑0+𝜏 and 𝑥𝑑0+𝜏 are predicted and target values for some variable-level, location, and lead time,𝑗,𝑖 𝑗,𝑖 s j je obrnuta varijanta vremenskih razlika na razini varijable, wj je težina gubitka po varijabilnoj razini, ai je površina ćelije mreže širine i dužine, koja varira s širinom i normalizuje se na jedinicu prosjeka preko mreže. Kako bi se izgradio jedan skalar gubitak, uzeli smo prosjek preko širine-dužine, nivoa pritiska, varijabilnih, vremena vodenja i veličine serije. Mi smo prosjek preko širine-dužine osi, sa težinom proporcionalnom veličini ćelije širine-dužine (normalizovano da znači 1). Primijenili smo ujednačene prosječne vrijednosti preko vremena i serije. The quantities 𝑠 = 𝕍 h𝑥𝑡+1 − 𝑥𝑡 i −1 are per-variable-level inverse variance estimates of the time differences, which aim to standardize the targets (over consecutive steps) to unit variance. These were estimated from the training data. We then applied per-variable-level loss weights, 𝑤𝑗. For atmospheric variables, we averaged across levels, with a weight proportional to the pressure of the level (normalized to unit mean), as shown in Figure 6a. We use pressure here as a proxy for the density [26]. Note that the loss weight applied to pressure levels at or below 50 hPa, where HRES tends to perform better than GraphCast, is only 0.66% of the total loss weight across all variables and levels. We tuned the loss weights for the surface variables during model development, so as to produce roughly comparable validation performance across all variables: the weight on 2 T was 1.0, and the weights on 10 U, 10 v, MsL, and TP were each 0.1, as shown in Figure 6b. The loss weights across all variables sum to 7.4, i.e., (6 × 1.0 for the atmospheric variables, plus (1.0 + 0.1 + 0.1 + 0.1 + 0.1) for the surface variables listed above, respectively). Obuka o autoregresivnom cilju Kako bi se poboljšala sposobnost našeg modela da pravi precizne predviđanja u više od jednog koraka, koristili smo režim autoregresivnog treninga, u kojem je predviđeni sledeći korak modela bio vraćen nazad kao ulaz za predviđanje sledećeg koraka. Završna verzija GraphCast-a bila je obučena na 12 autoregresivnih koraka, nakon rasporeda obuke kurikula opisanog u nastavku. 4.4 Optimizovanje Funkcija objektiva treninga je minimizirana pomoću gradijentnog spuštanja, sa mini-batama. Mi smo uzimali uzorke trajektorija zemlje istine iz našeg ERA5 dataset treninga, sa zamjenom, za baterije veličine 32. Koristili smo AdamW optimizer [33, 27] sa parametrima (beta1 = 0,9, beta2 = 0,95). Koristili smo raspad težine od 0,1 na matricama težine. Koristili smo gradijentno (normalno) rezanje s maksimalnom normom od 32. 4.5. Curriculum training schedule Prva faza se sastojala od 1000 gradientnih ažuriranja, s jednim autoregresivnim korakom, i rasporeda stope učenja koji se linearno povećao sa 0 na 1e−3 (Slika 7a). Druga faza se sastojala od 299.000 gradientnih ažuriranja, opet s jednim autoregresivnim korakom, i rasporeda stope učenja koji se smanjio natrag na 0 sa funkcijom polukozinskog propadanja (Slika 7b). Treća faza se sastojala od 11.000 gradientnih ažuriranja, gdje se broj autoregresivnih koraka povećao sa 2 12, povećavajući se za 1 na svakih 1000 ažuriranja, i s fiksnom stopom učenja od 3e−7 (Slika 7c). 4.6. Reducing memory footprint Da bi se dugotrajne trajektorije (12 autoregresivnih koraka) uklopile u 32 GB uređaja Cloud TPU v4, koristimo nekoliko strategija za smanjenje tragova memorije našeg modela. Prvo, koristimo paralelizam serije za distribuciju podataka preko 32 TPU uređaja (tj. jedna tačka podataka po uređaju). Drugo, koristimo preciznost plutajuće tačke bfloat16 kako bismo smanjili trag memorije koji se uzima aktivacijama (napomena, koristimo punopravne numeričke podatke (tj. float32) za izračunavanje metrik performansi u vrijeme evaluacije). 4.7 Vremena obuke Nakon rasporeda obuke koji povećava broj autoregresivnih koraka, kao što je detaljno gore navedeno, obuka GraphCast je trajala oko četiri sedmice na 32 TPU uređaja. 4.8. softverski i hardverski stack Mi koristimo JAX [9], Haiku [23], Jraph [17], Optax, Jaxline [4] i xarray [25] za izgradnju i obuku naših modela. 5. metode verifikacije Ovaj odjeljak pruža detalje o našem protokolu evaluacije. Odjeljak 5.1 detaljno opisuje naš pristup razdvajanju podataka na kauzalni način, osiguravajući naše testove evaluacije za smislenu generalizaciju, tj. bez iskorištavanja informacija iz budućnosti. Odjeljak 5.2 detaljnije objašnjava naše izbore za evaluaciju HRES veštine i usporedbu s GraphCastom, počevši od potrebe za temeljnom istinom specifičnom za HRES kako bi se izbjeglo kažnjavanje u kratkim vremenima dovoda (Odjeljak 5.2.1), utjecaj ERA5 i HRES koristeći različite prozore asimilacije na lookahead svaka država uključuje (Odjeljak 5.2.2), rezultirajući izbor inicijacije za vreme GraphCast i HRES kako bi se osiguralo da sve metode 5.1. obuka, validacija i ispitivanje podjela U testnoj fazi, koristeći protokol zamrznut na kraju razvojne faze (odjeljak 4.1), obučavali smo četiri verzije GraphCasta, svaka u različitom razdoblju. 2018–2021, 2019–2021, 2020–2021 i 2021, odnosno. Opet, ove podjele su održale uzročno razdvajanje između podataka koji se koriste za obuku verzije modela i podataka koji se koriste za procjenu njegove performansi (vidjeti Slika 8). Većina naših rezultata je ocijenjena 2018. (tj. sa modelom obučavanim na 1979–2017), uz nekoliko izuzetaka. Za eksperimente praćenja ciklona, izveštavamo rezultate za 2018–2021, jer cikloni nisu tako uobičajeni, pa uključujući i više godina povećava veličinu uzorka. Koristimo najnoviju verziju GraphCasta da bismo napravili prognozu za određenu godinu: GraphCast <2018 za prognozu 2018, GraphCast <2019 za prognozu 2019 itd. Za eksperimente sa nedavnim 5.2. usporedba GraphCast sa HRES 5.2.1 Izbor niza podataka o zemaljskoj istini GraphCast je osposobljen da predvidi ERA5 podatke i da uzme ERA5 podatke kao ulaz; mi takođe koristimo ERA5 kao temeljnu istinu za procjenu našeg modela. HRES predviđanja, međutim, su inicijalizirana na osnovu HRES analize. Općenito, verifikacija modela protiv vlastite analize daje najbolje procjene vještina [45]. Dakle, umjesto da ocjenjujemo HRES predviđanja protiv ERA5 zemaljske istine, što bi značilo da čak i nula koraka HRES predviđanja ima ne-nula greške, izgradili smo „HRES predviđanje na koraku 0“ (HRES-fc0) dataset, koji sadrži početni korak HRES predviđanja na budućim inicijalizacijama (vidjeti Tabelu 3). 5.2.2 Osiguravanje jednakih očekivanja u prozorima asimilacije Kao što je opisano u odjeljku 1, svaki dan HRES asimilira promatranje pomoću četiri +/-3h prozora usredotočenih na 00z, 06z, 12z i 18z (gde 18z znači 18:00 UTC u konvenciji Zulu), dok ERA5 koristi dva +9h/-3h prozora usredotočena na 00z i 12z, ili ekvivalentno dva +3h/-9h prozora usredotočenih na 06z i 18z. Vidjeti sliku 9 za ilustraciju. Odabrali smo da procijenimo GraphCastove predviđanja iz 06z i 18z inicijalizacije, osiguravajući da njegovi ulazi nose informacije iz +3h budućih promatranja, usklađujući HRES-ove ulaze. Nismo procijenili GraphCastove 00z i 12z inicij Slika 10 prikazuje performanse GraphCast inicijaliziran od 06z/18z, i 00z/12z. Kada inicijaliziran iz države s većim lookahead, GraphCast dobija vidljivo poboljšanje koje traje na duže lead vremena, podržavajući naš izbor za inicijaliziranu evaluaciju od 06z/18z. Primijenili smo istu logiku prilikom odabira cilja na kojem će se ocijeniti: mi samo ocijeniti ciljeve koji uključuju 3h lookahead za oba HRES i ERA5. S obzirom na naš izbor inicijaliziranja atz 06z i 18z, to odgovara evaluaciji svakih 12h, na budućem 06z i 18z analize vremena. Kao praktičan primjer, ako bismo ocijenili GraphCast i HRES inicijalizirani na 06z, na vodi vrijeme 6h 5.2.3. Alignment of initialization and validity times-of-day Kao što je gore navedeno, pošteno poređenje sa HRES-om zahtijeva od nas da procijenimo GraphCast koristeći 06z i 18z inicijalizacije, i sa vremenima dovoda koji su višestruki od 12h, što znači da su vremena valjanosti također 06z i 18z. Za lead vremena do 3,75 dana postoje arhivirane HRES predviđanja dostupna koristeći 06z i 18z inicijaliziranje i valjanost vremena, a mi ih koristimo za izvršavanje sličan-za-sličan usporedbu sa GraphCast na ovim lead vremena. For lead times of 4 days and beyond, archived HRES forecasts are only available at 00z and 12z initializations, which given our 12-hour-multiple lead times means 00z and 12z validity times. At these lead times we have no choice but to compare GraphCast at 06z and 18z, with HRES at 00z and 12z. In these comparisons of globally-defined RMSEs, we expect the difference in time-of-day to give HRES a slight advantage. In Figure 11, we can see that up to 3.5 day lead times, HRES RMSEs tend to be smaller on average over 00z and 12z initialization/validity times than they are at the 06z and 18z times which GraphCast is evaluated on. We can also see that the difference decreases as lead time increases, and that the 06z/18z RMSEs generally appear to be tending towards an asymptote above the 00z/12z RMSE, but within 2% of it. We expect these differences to continue to favor HRES at longer lead times, and regardless to remain small, and so we do not believe that they compromise our conclusions in cases where GraphCast has greater skill than HRES. Whenever we plot RMSE and other evaluation metrics as a function of lead time, we indicate with a dotted line the 3.5 day changeover point where we switch from evaluating HRES on 06z/18z to evaluating on 00z/12z. At this changeover point, we plot both the 06z/18z and 00z/12z metrics, showing the discontinuity clearly. 5.2.4. Evaluation period Most of our main results are reported for the year 2018 (from our test set), for which the first forecast initialization time was 2018-01-01_06:00:00 UTC and the last 2018-12-31_18:00:00, or when evaluating HRES at longer lead times, 2018-01-01_00:00:00 and 2018-12-31_12:00:00. Additional results on cyclone tracking and the effect of data recency use years 2018–2021 and 2021 respectively. 5.3 Metrika procjene Kvantificiramo veštinu GraphCasta, drugih ML modela i HRES-a koristeći korensku srednju kvadratnu grešku (RMSE) i koeficijent korelacije anomalije (ACC), koji se oboje izračunavaju u odnosu na podatke o zemaljskoj istini modela. RMSE mjeri veličinu razlika između predviđanja i zemaljske istine za određenu varijantu indeksiranu po j i danom vodnom vremenu τ (vidjeti Jednjenje (20)). ACC, Lj,τ , definisan je u Jednjenju (29) i mjeri koliko su predviđanja razlika od klimatologije, tj. prosječno vreme za lokaciju i datum, korelirana s razlikama zemaljske istine od klimatologije. Za ocene veština koristimo normaliziranu razliku RMSE između mod Sve metrike su izračunane koristeći preciznost float32 i prijavljene koristeći prirodni dinamički raspon varijabilnih, bez normalizacije. Kvantificirali smo sposobnost predviđanja za određenu promjenjivu, x j, i vrijeme vodjenja, τ = tΔd, koristeći korijensku grešku (RMSE) podijeljenu po veličini širine Root mean square error (RMSE) gde • d0 ∈ Deval predstavlja datume inicijaliziranja prognoze u skupu podataka o evaluaciji, • j ∈ J indeksa varijable i razine, npr., J = {z1000, z850, . . . , 2 T, MsL}, • i ∈ G0.25◦ su lokacije (latitude i longitude) koordinate u mreži, • x ̈d0+τ i xd0+τ su predviđene i ciljane vrijednosti za određenu razinu varijable, lokaciju i vrijeme vodjenja, 𝑗,𝑖 𝑗,𝑖 • ai je površina ćelije mreže širine i dužine (normalizovana na jedinicu prosjeka preko mreže) koja varira s širinom. Uzimajući kvadratni korijen unutar prosjeka preko inicijalizacije predviđanja, slijedimo konvenciju WeatherBench [41]. Međutim, napominjemo da se to razlikuje od toga kako je RMSE definisan u mnogim drugim kontekstima, gde se kvadratni korijen primjenjuje samo na konačni prosjek, to jest, U svim usporedbama koje uključuju predviđanja koja su filtrirana, truncirana ili razgrađena u sferičnom harmonijskom domenu, radi pogodnosti izračunavamo RMSEs direktno u sferičnom harmonijskom domenu, sa svim sredstvima unutar kvadratnog korijena, Root mean square error (RMSE), spherical harmonic domain. Ovde se predviđaju i ciljaju koeficijenti sferičnih harmonika sa ukupnim brojem talasa j,l,m j,l,m 𝑙 and longitudinal wavenumber 𝑚. We compute these coefficients from grid-based data using a discrete spherical harmonic transform [13] with triangular truncation at wavenumber 719, which was chosen to resolve the 0.25° (28km) resolution of our grid at the equator. This means that 𝑙 ranges from 0 to 𝑙𝑚𝑎𝑥 = 719 and 𝑚 from −𝑙 to 𝑙. Ovaj RMSE usko približava mrežnu definiciju RMSE-a danu u Jednakoj (21), ali nije tačno usporediva, dijelom zato što trokut na talasnom broju 719 ne rešava dodatnu rezoluciju ravnokutne mreže u blizini polova. To se izračunava prema RMSE definiciji jednačine (21), ali za jednu lokaciju: Root mean square error (RMSE), per location. Takođe razdvojimo RMSE samo po širini: gde je bilion (G0.25◦) bilion = 1440 broj različitih dužina u našoj redovnoj 0.25° mreži. To se izračunava prema RMSE definiciji jednačine (21) ali ograničeno na određeni raspon površinskih visina, danih granicama zl ≤ zsurface < zu na površinskom geopotencijalu: Root mean square error (RMSE), by surface elevation. gde ll označava funkciju indikatora. Ova količina je definisana kao Mean bias error (MBE), per location. To kvantificira prosječnu veličinu predrasuda po lokaciji iz jednadžbe (26) i daje se Root-mean-square per-location mean bias error (RMS-MBE). Ovo kvantificira korelaciju između predrasuda po lokaciji (jednakost (26)) dva različita modela A i B. Koristimo nesredišnji koeficijent korelacije zbog značenja izvora nule u mjerenjima predrasuda, i izračunamo ovu količinu prema Correlation of per-location mean bias errors. Koeficijent korelacije anomalije (ACC). Također smo izračunali koeficijent korelacije anomalije za određenu varijabilu, x j, i vrijeme vodjenja, τ = tΔd, prema gde je Cd0+τ klimatološki prosjek za određenu promjenjivu, nivo, širinu i dužinu, a za dan godine koji sadrži vrijeme valjanosti d0 + τ. Klimatološka sredstva izračunata su pomoću podataka ERA5 između 1993. i 2016. 5.4 Statistička metodologija 5.4.1. Significance tests for difference in means Za svako vodno vreme τ i varijabilni nivo j, testiramo na razliku u sredini između RMSE-ova po inicijalizacijskom vremenu (definisanih u jednadžbi (30)) za GraphCast i HRES. Koristimo parirani dvosmerni t-test s korekcijom za auto-korelaciju, slijedeći metodologiju od [16]. Ovaj test pretpostavlja da su vremenske serije razlika u prognoznim rezultatima adekvatno modelirane kao stacionarni Gaussian AR(2) procesi. Ova pretpostavka nije tačna za nas, ali je motivirana kao adekvatna za verifikaciju vremenskih prognoza srednjeg raspona od strane ECMWF-a u [16]. The nominal sample size for our tests is 𝑛 = 730 at lead times under 4 days, consisting of two forecast initializations per day over the 365 days of 2018. (For lead times over 4 days we have 𝑛 = 729, see Section 5.4.2). However these data (differences in forecast RMSEs) are auto-correlated in time. Following [16] we estimate an inflation factor 𝑘 for the standard error which corrects for this. Values of 𝑘 range between 1.21 and 6.75, with the highest values generally seen at short lead times and at the lowest pressure levels. These correspond to reduced effective sample sizes 𝑛eff = 𝑛/𝑘2 in the range of 16 to 501. Pogledajte Tablicu 5 za detaljne rezultate naših testova značajnosti, uključujući p-vrednosti, vrednosti statistike t testa i neff. 5.4.2 Prognoza usklađivanja Za lead vremena τ manje od 4 dana, imamo predviđanja dostupna na 06z i 18z inicijacije i valjanosti vremena svaki dan za GraphCast i HRES, i možemo testirati za razlike u RMSEs između ovih pariranih predviđanja. Izračunavamo razlike koje koristimo za testiranje null hipoteze da E[diff-RMSE( j, τ, d0)] = 0 protiv dvostranog alterna-tive. As discussed in Section 5.2.3, at lead times of 4 days or more we only have HRES forecasts available at 00z and 12z initialization and validity times, while for the fairest comparison (Section 5.2.2) GraphCast forecasts must be evaluated using 06z and 18z initialization and validity times. In order to perform a paired test, we compare the RMSE of a GraphCast forecast with an interpolated RMSE of the two HRES forecasts either side of it: one initialized and valid 6 hours earlier, and the other initialized and valid 6 hours later, all with the same lead time. Specifically we compute differences: We can use these to test the null hypothesis 𝔼[diff-RMSEinterp( 𝑗, 𝜏, 𝑑0)] = 0, which again doesn’t depend on 𝑑0 by the stationarity assumption on the differences. If we further assume that the HRES RMSE time series itself is stationary (or at least close enough to stationary over a 6 hour window) then 𝔼[diff-RMSEinterp( 𝑗, 𝜏, 𝑑0)] = 𝔼[diff-RMSE( 𝑗, 𝜏, 𝑑0)] and the interpolated differences can also be used to test deviations from the original null hypothesis that 𝔼[diff-RMSE( 𝑗, 𝜏, 𝑑0)] = 0. This stronger stationarity assumption for HRES RMSEs is violated by diurnal periodicity, and in Section 5.2.3 we do see some systematic differences in HRES RMSEs between 00z/12z and 06z/18z validity times. However as discussed there, these systematic differences reduce substantially as lead time grows and they tend to favour HRES, and so we believe that a test of 𝔼[diff-RMSE( 𝑗, 𝜏, 𝑑0)] = 0 based on diff-RMSEinterp will be conservative in cases where GraphCast appears to have greater skill than HRES. 5.4.3. intervali pouzdanosti za RMSE Trake greške u našim RMSE pločama vještina odgovaraju odvojenim intervalima pouzdanosti za E[RMSEGC] i E[RMSEHRES] (eliding ili sada argumenti j, τ, d0). Ovi su proizvedeni iz dvostranog t-testa s korekcijom za autocorrelaciju koji je opisan gore, primijenjen odvojeno na GraphCast i HRES RMSE vremenske serije. These confidence intervals make a stationarity assumption for the separate GraphCast and HRES RMSE time series, which as stated above is a stronger assumption that stationarity of the differences and is violated somewhat. Thus these single-sample confidence intervals should be treated as approximate; we do not rely on them in our significance statements. 5.4.4. Confidence intervals for RMSE skill scores Iz t-testa opisanog u odjeljku 5.4.1 takođe možemo izvesti na standardni način intervale pouzdanosti za istinsku razliku u RMSEs, međutim, u našim pločama rezultata vještina želimo pokazati intervale pouzdanosti za istinsku RMSE ocjenu vještina, u kojoj je istinska razlika normalizovana istinskim RMSE HRES-a: Interval samopouzdanja za ovu količinu trebao bi uzeti u obzir neizvesnost naše procjene istinskog HRES RMSE. Neka [ldiff, udiff] bude naš 1 − α/2 interval samopouzdanja za numerator (razlika u RMSEs), a [lHRES, uHRES] naš 1 − α/2 interval samopouzdanja za denominator (HRES RMSE). S obzirom na to da 0 < lHRES u svakom slučaju za nas, koristeći aritmetiku intervala i uniju vezanu dobijamo konzervativni 1 − α interval samopouzdanja za RMSE-SStrue. Mi planiramo ove intervale pouzdanosti zajedno sa našim procjenama RMSE ocjene sposobnosti, ali imajte na umu da se ne oslanjamo na njih za testiranje značajnosti. 6. Comparison with previous machine learning baselines Da bismo utvrdili kako se GraphCast performanse uspoređuju s drugim ML metodama, fokusiramo se na Pangu-Weather [7], snažnu MLWP baznu liniju koja radi na rezoluciji od 0,25°. Da bismo napravili najizravnije poređenje, odlazimo od našeg protokola evaluacije i koristimo onaj koji je opisan u [7]. Budući da su objavljeni rezultati Pangu-Weather dobiveni od inicializacije 00z/12z, mi koristimo iste inicializacije za GraphCast, umjesto 06z/18z, kao u ostatku ovog papira. To omogućava da se oba modela inicijalizuju na istim ulazima, koji uključuju istu količinu lookahead (+9 sati, pogledajte odjeljke 5.2.2 i 5.2.3). Budući da HRES ini As shown in Figure 12, GraphCast (blue lines) outperforms Pangu-Weather [7] (red lines) on 99.2% of targets. For the surface variables (2 T, 10 U, 10 v, MsL), GraphCast’s error in the first several days is around 10-20% lower, and over the longer lead times plateaus to around 7-10% lower error. The only two (of the 252 total) metrics on which Pangu-Weather outperformed GraphCast was z500, at lead times 6 and 12 hours, where GraphCast had 1.7% higher average RMSE (Figure 12a,e). Dodatni rezultati verifikacije prognoza Ovaj odjeljak pruža dodatnu analizu performansi GraphCast-a, pružajući potpunu sliku njegovih prednosti i ograničenja. Odjeljak 7.1 dopunjuje glavne rezultate papira o dodatnim varijabilima i razinama izvan z500. Odjeljak 7.2 dalje analizira performanse GraphCast-a podijeljene po regijama, širini i nivoima pritiska (osobito razlikujući performanse ispod i iznad tropopause), ilustrira predrasude i RMSE po dužini i visini širine. Odjeljak 7.3 pokazuje da i multi-mesh i autoregresivni gubitak igraju važnu ulogu u performansi GraphCast-a. Odjeljak 7.4 detaljno opisuje pristup optimalnog zamagljivanja primijenjen na HRES i GraphCast, kako bi se osigur 7.1. Detailed results for additional variables 7.1.1. RMSE and ACC Slika 13 dopunjuje Slika 2a–b i prikazuje RMSE i normalizovanu RMSE razliku u odnosu na HRES za GraphCast i HRES na kombinaciji od 12 značajnih varijabilnih. Slika 14 prikazuje ACC i normalizovanu ACC razliku u odnosu na HRES za GraphCast i HRES na istoj kombinaciji od 12 varijabilnih i nadopunjuje Slika 2c. ACC Skill Score je normalizovana ACC razlika između modela A i osnovne linije B kao (ACCA − ACCB)/(1 − RMSEB). 7.1.2 Detaljni rezultati testa značajnosti za RMSE poređenja Tablica 5 pruža dodatne informacije o navodima o statističkoj značajnosti napravljenim u glavnom odjeljku o razlikama u RMSE između GraphCast i HRES. Detalji metodologije nalaze se u odjeljku 5.4. Ovde dajemo p-vrednosti, test statistike i efikasne veličine uzorka za sve varijable. Iz razloga prostora ograničavamo se na tri ključna vodna vremena (12 sati, 2 dana i 10 dana) i podskupinu 7 nivoa pritiska izabranih da uključe sve slučajeve u kojima je p > 0,05 u tim vodnim vremenima. 7.1.3. Uticaj nedavnih podataka na GraphCast Ovo, u principu, omogućuje im da modeliraju nedavne vremenske obrasce koji se mijenjaju s vremenom, kao što su ciklus ENSO i druge oscilacije, kao i učinci klimatskih promjena. Da bismo istražili kako nedavnost podataka o obuci utiče na GraphCast test performanse, obučavali smo četiri varijante GraphCasta, sa podacima o obuci koji su uvijek počeli 1979. godine, ali završili u 2017, 2018, 2019 i 2020., respektivno (označili smo varijantu koja se završava 2017. godine kao „GraphCast:<2018“, itd.). Slika 15 prikazuje rezultate vještina i vještina (u odnosu na HRES) četiri varijante GraphCast, za nekoliko varijabilnih i nadopunjuje Slika 4a. Postoji opći trend u kojem varijante obučene na godine bliže testnoj godini općenito su poboljšale rezultate u odnosu na HRES. Razlog za ovo poboljšanje nije u potpunosti shvaćen, iako spekulišemo da je to analogno dugoročnoj korekciji predrasuda, gdje se nedavne statističke predrasude u vremenu iskorištavaju kako bi se poboljšala točnost. Također je važno napomenuti da HRES nije jedan NWP kroz godine: ima tendenciju da se nadograđuje jednom ili dva puta godišnje, s općenito povećanom vještinom na z500 i drugim poljima [18, 22, 19, 20, 21]. To može pridonijeti i tome zašto GraphCast:<2018 i GraphCast:<2019, posebno, imaju niže rezultate u odnosu na HRES u ranim vodnim vremenima za evaluaciju testa 2021. napominjemo da za druge varijable, GraphCast:<2018 i GraphCast:<2019 i dalje imaju tendenciju da nadmašuju HRES. Ovi rezultati ističu ključnu značajku GraphCasta, u tome što omogućava automatsko poboljšanje performansi ponovnim obukom na nedavnim podacima. 7.2 Razdvojeni rezultati 7.2.1 RMSE po regionima Regijska procjena sposobnosti predviđanja pruža se na slikama 17 i 18, koristeći iste regije i konvenciju imenovanja kao u ECMWF rezultatnim karticama (https://sites.ecmwf.int/ifs/scorecards/ scorecards-47r3HRES.html). Dodali smo neke dodatne regije za bolju pokrivenost čitave planete. Ove regije su prikazane na slici 16. 7.2.2. RMSE ocjena sposobnosti po širini i nivou pritiska U Slika 19, planiramo normalizovane RMSE razlike između GraphCast i HRES, kao funkciju nivoa pritiska i širine. Planiramo samo 13 nivoa pritiska iz WeatherBench [41] na kojima smo procijenili HRES. Na ovim zemljištima, mi na svakoj širini pokazujemo prosečni pritisak tropopause, koji odvaja troposferu od stratosfere. Koristimo vrednosti izračunate za ERA-15 dataset (1979-1993), date na Slika 1 od [44]. Oni neće biti sasvim isti kao i za ERA5, ali su namijenjeni samo kao hrupa pomoć za tumačenje. Može se vidjeti iz karte rezultata na Slika 2 da GraphCast radi lošije od HRES-a na najnižim razinama pritiska ocijenjenima (50hPa). Slika 19 pokazuje da je razina pritiska na kojoj GraphCast počinje da se pogoršava često i ovisna o širini, u nekim slučajevima otprilike nakon prosječne razine tropopause. Koristimo nižu težinu gubitaka za niže razine pritiska i to može igrati neku ulogu; takođe je moguće da mogu postojati razlike između ERA5 i HRES-fc0 skupova podataka u predvidljivosti varijabilnih u stratosferi. 7.2.3. predrasude prema širini i dužini U slikama od 20 do 22, planiramo prosečnu pogrešku predrasuda (MBE, ili samo "predrasude", definisane u Jednakoj (26)) GraphCasta kao funkciju širine i dužine, na tri vodeća vremena: 12 sati, 2 dana i 10 dana. U pločama za varijable dane na nivoima pritiska, prikrili smo regije čija je površinska visina dovoljno visoka da je nivo pritiska ispod tla u prosjeku. Odlučujemo da je to slučaj kada površinski geopotencijali premašuju klimatološki prosječni geopotencijali na istoj lokaciji i nivou pritiska. To quantify the average magnitude of the per-location biases shown in Figures 20 to 22, we computed the root-mean-square of per-location mean bias errors (RMS-MBE, defined in Equation (26)). These are plotted in Figure 23 for GraphCast and HRES as a function of lead time. We can see that GraphCast’s biases are smaller on average than HRES’ for most variables up to 6 days. However they generally start to exceed HRES’ biases at longer lead times, and at 4 days in the case of 2m temperature. Takođe smo izračunali korelacijski koeficijent između GraphCast i HRES-ovih prosečnih grešaka predrasuda po lokaciji (definisano u Jednakoj (27)), koji je prikazan kao funkcija vremena predrasuda na Slika 24. 7.2.4. RMSE skill score by latitude and longitude U slikama od 25. do 27. isplaniramo normalizovanu razliku RMSE između GraphCasta i HRES-a po širini i dužini. Kao u odjeljku 7.2.3, za varijable dane po nivoima pritiska, prikrili smo regije čija je površinska visina dovoljno visoka da je nivo pritiska ispod tla u prosjeku. Značajna područja u kojima HRES nadmašuje GraphCast uključuju specifičnu vlagu u blizini polova (posebno južnog pola); geopotencijalni u blizini polova; 2m temperatura u blizini polova i na mnogim kopnenim površinama; i niz površinskih ili blisko-površinskih varijabilnih u regijama visoke površinske visine (vidi takođe Odjeljak 7.2.5). Na 12 sati i 2 dana vodi vremena i GraphCast i HRES se ocjenjuju na 06z/18z inicijaliziranja i valjanosti vremena, međutim na 10 dana vodi vremena moramo usporediti GraphCast na 06z/18z sa HRES na 00z/12z (vidjeti odjeljak 5). 7.2.5. RMSE skill score by surface elevation In Figure 25, we can see that GraphCast appears to have reduced skill in high-elevation regions for many variables at 12 hour lead time. To investigate this further we divided the earth surface into 32 bins by surface elevation (given in terms of geopotential height) and computed RMSEs within each bin according to Equation (24). These are plotted in Figure 28. At short lead times and especially at 6 hours, GraphCast’s skill relative to HRES tends to decrease with higher surface elevation, in most cases dropping below the skill of HRES at sufficiently high elevations. At longer lead times of 5 to 10 days this effect is less noticeable, however. We note that GraphCast is trained on variables defined using a mix of pressure-level coordinates (for atmospheric variables) and height above surface coordinates (for surface-level variables like 2m temperature or 10m wind). The relationship between these two coordinates systems depends on surface elevation. Despite GraphCast conditioning on surface elevation we conjecture that it may struggle to learn this relationship, and to extrapolate it well to the highest surface elevations. In further work we would propose to try training the model on a subset of ERA5’s native model levels instead of pressure levels; these use a hybrid coordinate system [14] which follows the land surface at the lowest levels, and this may make the relationship between surface and atmospheric variables easier to learn, especially at high surface elevations. Variables using pressure-level coordinates are interpolated below ground when the pressure level exceeds surface pressure. GraphCast is not given any explicit indication that this has happened and this may add to the challenge of learning to forecast at high surface elevations. In further work using pressure-level coordinates we propose to provide additional signal to the model indicating when this has happened. Konačno, naša težina gubitka je niža za atmosferske varijable na nižim nivoima pritiska, a to može uticati na veštinu na lokacijama veće visine. 7.3 GraphCast ablacije 7.3.1 Multi-mesh ablacija Da bismo bolje razumeli kako multi-mesh reprezentacija utiče na performanse GraphCast, uspoređujemo GraphCast performanse sa verzijom modela obučene bez multi-mesh reprezentacije. Arhitektura potonjeg modela je identična GraphCast (uključujući isti koder i dekoder, i isti broj čvorova), osim da u procesu blok, grafikon sadrži samo rubove iz najboljeg icosahedron mreže M6 (245,760 rubova, umjesto 327,660 za GraphCast). Kao rezultat, ablated model može samo propagirati informacije sa kratkog dometa rubova, dok GraphCast sadrži dodatne dugog dometa. GraphCast koristi od multi-mesh strukture za sve predviđene varijable, osim za lead vremena iznad 5 dana na 50 hPa. Poboljšanje je posebno izraženo za geopotencijalne na svim nivoima pritiska i za prosječan tlak na moru za lead vremena ispod 5 dana. Srednji panel prikazuje scorecard usporedbe ablated model na HRES, dok desni panel uspoređuje GraphCast na HRES, pokazujući da je multi-mesh je bitno za GraphCast da nadmaši HRES na geopotencijalne na lead vremena ispod 5 dana. 7.3.2 Učinak autoregresivnog treninga Analizirali smo performanse varijanti GraphCast koji su obučeni sa manje autoregresivne (AR) koraka7, što bi trebalo da ih ohrabriti da poboljšaju svoje kratko lead-time performanse na račun duže lead-time performanse. Kao što je prikazano u Slika 30 (s lakše plave linije koje odgovaraju obuci sa manje AR koraka) otkrili smo da modeli obučeni sa manje AR koraka imaju tendenciju da trguju duže za kraće lead-time preciznosti. Ovi rezultati sugeriraju potencijal za kombiniranje više modela s različitim brojevima AR koraka, npr, za kratko, srednje i dugo lead-time, da iskoriste svoje odgovarajuće prednosti širom horizontu predviđanja. Povezanost između broja autoregresivnih koraka i zamagljiv 7.4 Optimalno blurring 7.4.1. Effect on the comparison of skill between GraphCast and HRES In Figures 31 and 32 we compare the RMSE of HRES with GraphCast before and after optimal blurring has been applied to both models. We can see that optimal blurring rarely changes the ranking of the two models, however it does generally narrow the gap between them. 7.4.2 Metodologija filtriranja We chose filters which minimize RMSE within the class of linear, homogeneous (location invariant), isotropic (direction invariant) filters on the sphere. These filters can be applied easily in the spherical harmonic domain, where they correspond to multiplicative filter weights that depend on the total wavenumber, but not the longitudinal wavenumber [12]. Za svaku inicijalizaciju d0, vreme dovoda τ, varijable i nivo j, primijenili smo diskretnu sferičnu harmonsku transformaciju [13] na predviđanja x ̈d0+τ i ciljeve xd0+τ, dobivajući sferične harmonske koeficijente f ̈d0+τ j j j j,l,m i f d0+τ za svaki par ukupnog broja valova l i uzdužnog broja valova m. Da bismo riješili rezoluciju naše mreže na ekvatoru od 0,25° (28km), koristimo trokut na ukupnom broju valova 719, što znači da l varira od 0 do max l = 719, a za svaki l vrijednost m varira od −l do l. Zatim smo pomnožili svaki predviđeni koeficijent f ̈d0+τ sa težinom filtera bτ , koja je nezavisna od j,l,m j,l uzdužnog broja talasa m. Težine filtera su opremljene pomoću najmanjih kvadrata kako bi se smanjila prosječna kvadratna pogreška, kao što je izračunato u sferičnom harmoničnom domenu: Prilikom procjene filtriranih predviđanja, izračunali smo MSE u sferičnom harmoničnom domenu, kako je detaljno opisano u Ekvazija (22). By fitting different filters for each lead time, the degree of blurring was free to increase with increasing uncertainty at longer lead times. Iako je ova metoda prilično opšta, ona takođe ima ograničenja. Budući da su filteri homogeni, oni nisu u stanju da uzmu u obzir karakteristike specifične za lokaciju, kao što su orografija ili granice kopna i mora, i tako moraju birati između prekomernog zamagljivanja predvidljivih detalja visoke rezolucije na ovim lokacijama, ili prekomernog zamagljivanja nepredvidljivih detalja visoke rezolucije općenito. An alternative way to approximate a conditional expectation (and so improve RMSE) for our ECMWF forecast baseline would be to evaluate the ensemble mean of the ENS ensemble forecast system, instead of the deterministic HRES forecast. However the ENS ensemble is run at lower resolution than HRES, and because of this, it is unclear to us whether its ensemble mean will improve on the RMSE of a post-processed version of HRES. We leave an exploration of this for future work. 7.4.3.Funkcije prenosa optimalnih filtera Težine filtera su vizualizirane na slici 33, koja prikazuje omjer izlazne snage i ulazne snage za filter, na logaritmičkoj decibelskoj skali, kao funkciju valne dužine. (Sa upućivanjem na Jednadžba (35), to je jednako 20 log10(bτ ) za valnu dužinu Ce/l koja odgovara ukupnom broju talasa l.) Za HRES i GraphCast, vidimo da je optimalno za MSE da oslabi snagu preko nekih kratkih do srednjih valnih dužina. Kako se vrijeme vodenja povećava, količina oslabljenja se povećava, kao i valna dužina na kojoj je najveća. U optimizaciji za MSE, nastojimo da približimo uslovno očekivanje koje prosječi prediktivnu neizvjesnost. Tokom dužih vremena vodenja ova prediktivna neizvjesnost se povećava, kao i prostorna skala neizvjesnosti o lokaciji vremenskih pojava. Vjerujemo da to u velikoj meri objašnjava ove promene u optimalnom odgovoru filtera kao funkciju vremena vodenja. Vidimo da HRES općenito zahtijeva više zamagljivanja nego GraphCast, jer GraphCast predviđanja već zamagljuju u određenoj mjeri (vidi Odjeljak 7.5.3), dok HRES ne. Optimalni filtri su takođe u stanju da kompenziraju, u određenoj mjeri, za spektralne predrasude u predviđanjima GraphCasta i HRES-a. Na primjer, za mnoge varijable u našem regridiranom ERA5 skupu podataka, spektar se naglo prekida za valne dužine ispod 62km koje su neriješene na ERA5-ovoj nativnoj rezoluciji 0.28125◦. GraphCast nije naučio točno reproducirati ovaj rez, ali optimalni filteri su u stanju da ga implementiraju. Također primjećujemo da postoje primetni vrhovi u GraphCast filtra reakcije oko 100km valne dužine za z500, koji nisu prisutni za HRES. Verujemo da su to filtriranje male, lažne artefakte koje su uvedene GraphCast oko tih valnih dužina kao nuspojava mrežnih i mrežnih transformacija izvedenih unutar modela. 7.4.4 Odnos između autoregresivnog obzora treninga i zamagljivanja Na slici 34 koristimo rezultate optimalnog zamagljivanja kako bismo istražili vezu između autoregresivnog treninga i zamagljivanja predviđanja GraphCasta na dužim vremenima vodjenja. U prvom redu Slika 34, vidimo da modeli obučeni sa dužim autoregresivnim obzorima treninga imaju manje koristi od optimalnog zamagljivanja, a da se prednosti optimalnog zamagljivanja općenito počinju akumulirati tek nakon vremena vodjenja koje odgovara horizontu do kojeg su obučeni. Bilo bi prikladno da bismo mogli zamijeniti obuku na dužem horizontu jednostavnom strategijom postprocesiranja kao što je optimalno zamagljivanje, ali to se ne čini da je slučaj: u drugom redu Slika 34 vidimo da autoregresivna obuka na dužem horizontu i dalje rezultira nižim RMSEs, čak i nakon što je primijenjeno optimalno zamagljivanje. If one desires predictions which are in some sense minimally blurry, one could use a model trained to a small number of autoregressive steps. This would of course result in higher RMSEs at longer lead times, and our results here suggest that these higher RMSEs would not only be due to the lack of blurring; one would be compromising on other aspects of skill at longer lead times too. In some applications this may still be a worthwhile trade-off, however. 7.5. Spectral analysis 7.5.1. Spectral decomposition of mean squared error U slikama 35 i 36 uspoređujemo veštinu GraphCasta sa HRES-om na raznim prostornim ljestvicama, prije i nakon optimalnog filtriranja (vidjeti detalje u odjeljku 7.4). where 𝑙max = 719 as in Equation (22). Each total wavenumber 𝑙 corresponds approximately to a wavelength 𝐶𝑒/𝑙, where 𝐶𝑒 is the earth’s circumference. We plot power density histograms, where the area of each bar corresponds to 𝑆 𝑗,𝜏(𝑙), and the bars center around log10(1 + 𝑙) (since a log frequency scale allows for easier visual inspection, but we must also include wavenumber 𝑙 = 0). In these plots, the total area under the curve is the MSE. Na vodi vremena od 2 dana ili više, za većinu varijabilnih GraphCast poboljšava na veštini HRES jednako na svim valnim dužinama. (2m temperatura je primjetan izuzetak). Na kraćem vodi vremena od 12 sati do 1 dan, za niz varijabilnih (uključujući z500, T500, T850 i U500) HRES ima veću vještinu od GraphCast na skale u približnom rasponu od 200-2000km, sa GraphCast općenito imaju veću vještinu izvan ovog raspona. 7.5.2. RMSE as a function of horizontal resolution Na slici 37 uspoređujemo veštinu GraphCasta sa HRES-om kada se procjenjuje na nizu prostornih rezolucija. Konkretno, na svakom ukupnom broju talasa ltrunc, planiramo RMSEs između predviđanja i ciljeva koji su obojica truncirani na tom ukupnom broju talasa. The RMSEs between truncated predictions and targets can be obtained via cumulative sums of the mean error powers 𝑆 𝑗,𝜏(𝑙) defined in Equation (37), according to Slika 37 pokazuje da u većini slučajeva GraphCast ima niži RMSE od HRES-a na svim rezolucijama koje se obično koriste za provjeru predviđanja. Ovo se odnosi na prije i nakon optimalnog filtriranja (vidjeti odjeljak 7.4).Iznimke uključuju temperaturu od 2 metra na broju vremena vodenja i rezolucija, T 500 na 12 sati vremena vodenja i U 500 na 12 sati vremena vodenja, gdje GraphCast radi bolje na rezoluciji od 0,25°, ali HRES radi bolje na rezolucijama oko 0,5◦ do 2,5◦ (koji odgovara najkraćim valnim dužinama od oko 100 do 500 km). Posebno napominjemo da je nativna rezolucija ERA5 je 0.28125◦ što odgovara najkraćem talasnoj dužini od 62km, što je označeno vertikalnom linijom u parceli. HRES-fc0 ciljevi sadrže neki signal na talasnim dužinama kraćim od 62km, ali ERA5 ciljevi korišteni za procjenu GraphCast ne, nativno barem (vidi Odjeljak 7.5.3). 7.5.3 Spektar predviđanja i ciljeva Figure 38 compares the power spectra of GraphCast’s predictions, the ERA5 targets they were trained against, and HRES-fc0. A few phenomena are notable: Postoje primetne razlike u spektru ERA5 i HRES-fc0, posebno na kratkim valnim dužinama. Te razlike mogu biti djelomično uzrokovane metodama koje se koriste za regridiju od njihovih nativnih IFS rezolucija TL639 (0.28125◦) i TCo1279 (približno 0.1◦, [36]) do ravnokutne mreže od 0,25°. Međutim, čak i prije ovog regridiranja postoje razlike u IFS verzijama, postavkama, rezoluciji i metodologiji asimilacije podataka koja se koristi za HRES i ERA5, a ove razlike mogu utjecati i na spektar. Differences between HRES and ERA5 Vidimo smanjenu snagu na kratkim do srednjim valnim dužinama u GraphCast predviđanjima koje se dodatno smanjuju s vremenom vodenja. Verujemo da to odgovara zamagljivanju koje je GraphCast naučio da izvodi u optimizaciji za MSE. Blurring in GraphCast Ovi vrhovi su posebno vidljivi za z500; oni izgledaju da se povećavaju s vremenom vodenja. Verujemo da odgovaraju malim, lažnim artefaktima koji su uvedeni unutrašnjim transformacijama mreže do mreže i mreže do mreže koje izvodi GraphCast na svakom autoregresivnom koraku. Peaks for GraphCast around 100km wavelengths Naposljetku, napominjemo da, dok su ove razlike u snazi na kratkim valnim dužinama vrlo primetne u log skali i relativnim pločama, ove kratke valne dužine malo doprinose ukupnoj snazi signala. 8. Additional severe event forecasting results In this section, we provide additional details about our severe event forecasting analysis. We note that GraphCast is not specifically trained for those downstream tasks, which demonstrates that, beyond improved skills, GraphCast provides useful forecast for tasks with real-world impact such as tracking cyclones (Section 8.1), characterizing atmospheric rivers (Section 8.2), and classifying extreme temperature (Section 8.3). Each task can also be seen as evaluating the value of GraphCast on a different axis: spatial and temporal structure of high-resolution prediction (cyclone tracking task), ability to non-linearly combine GraphCast predictions to derive quantities of interest (atmospheric rivers task), and ability to characterize extreme and rare events (extreme temperatures). 8.1 Prognoza tropska ciklonska staza In this section, we detail the evaluation protocols we used for cyclone tracking (Supplements Sec-tion 8.1.1) and analyzing statistical significance (Supplements Section 8.1.2), provide additional results (Supplements Section 8.1.3), and describe our tracker and its differences with the one from ECMWF (Supplements Section 8.1.4). 8.1.1. Evaluation protocol The standard way of comparing two tropical cyclone prediction systems is to restrict the comparison to events where both models predict the existence of a cyclone. As detailed in Supplements Section 5.2.2, GraphCast is initialized from 06z and 18z, rather than 00z and 12z, to avoid giving it a lookahead advantage over HRES. However, the HRES cyclone tracks in the TIGGE archive [8] are only initialized at 00z and 12z. This discrepancy prevents us from selecting events where the initialization and lead time map to the same validity time for both methods, as there is always a 6h mismatch. Instead, to compare HRES and GraphCast on a set of similar events, we proceed as follows. We consider all the dates and times for which our ground truth dataset IBTrACS [29, 28] identified the presence of a cyclone. For each cyclone, if its time is 06z or 18z, we make a prediction with GraphCast starting from that date, apply our tracker and keep all the lead times for which our tracker detects a cyclone. Then, for each initialization time/lead time pairs kept for GraphCast, we consider the two valid times at +/-6h around the initialization time of GraphCast, and use those as initialization time to pick the corresponding HRES track from the TIGGE archive. If, for the same lead time as GraphCast, HRES detects a cyclone, we include both GraphCast and HRES initialization time/lead time pairs into the final set of events we use to compare them. For both methods, we only consider predictions up to 120 hours. Budući da izračunamo pogrešku u odnosu na istu osnovnu istinu (tj. IBTrACS), evaluacija nije podložna istim ograničenjima opisanima u odjeljku 5.2.2 dodataka, tj. ciljevi za oba modela sadrže istu količinu lookaheada.To je u kontrastu s većinom naših evaluacija u ovom dokumentu, gdje ciljevi za HRES (tj. HRES-fc0) sadrže +3h lookahead, a oni za GraphCast (od ERA5) sadrže +3h ili +9h, što nam dovodi do izvješćivanja o rezultatima samo za lead times sa odgovarajućim lookahead (multiple od 12h). Za određenu prognozu, greška između predviđenog centra ciklona i istinskog centra izračunava se pomoću geodetske udaljenosti. 8.1.2. Statistical methodology Computing statistical confidence in cyclone tracking requires particular attention in two aspects: 1. Postoje dva načina da se definira broj uzoraka. Prvi je broj događaja tropskih ciklona, koji se može pretpostaviti da su uglavnom nezavisni događaji. Drugi je broj podataka po vremenskim točkama koje se koriste, što je veće, ali računa o koreliranim točkama (za svaki događaj tropskih ciklona višestruke predviđanja su napravljena na interval od 6h). Odabrali smo da koristimo prvu definiciju koja pruža konzervativnije procjene statističkog značaja. Oba broja su prikazana za vrijeme vodjenja od 1 do 5 dana na x-osi Dodatka Slika 39. 2. greške praćenja po uzorku HRES i GraphCast su korelirane. Stoga je statistička varijacija u njihovoj razlici mnogo manja od njihove zajedničke varijacije. Dakle, prijavljujemo pouzdanost da je GraphCast bolji od HRES-a (vidjeti Dodatke Slika 39b) uz pouzdanost po modelu (vidjeti Dodatke Slika 39a). Uzimajući u obzir gore navedena dva razmatranja, radimo bootstrapping sa intervalima pouzdanosti od 95% na nivou ciklona. Za određeno vrijeme dovoda, uzimamo u obzir sve odgovarajuće pare vremena inicijacije / vremena dovoda i vodimo listu od kojih ciklona dolaze (bez duplikacije). Za procjenu bootstrap, izvlačimo uzorke s ove liste ciklona (s zamjenom) i primenjujemo medianu (ili prosjek) na odgovarajuće pare vremena inicijacije / vremena dovoda. Imajte na umu da nam to daje mnogo konzervativnije granice povjerenja nego što radimo bootstrapping na nivou vremena inicijacije / vremena dovoda, jer je to ekvivalent pretpostavci da su svi uzori bootstrap koji dolaze iz uzorka ciklona (obično u redosli Na primer, pretpostavimo da za određeno vrijeme vode imamo pogreške (50, 100, 150) za ciklon A, (300, 200) za ciklon B i (100, 100) za ciklon C, a A ima više uzoraka. 8.1 Rezultati U Dodatku Slika 3a-b, izabrali smo da pokažemo srednju grešku umjesto prosjeka. Ova odluka je donesena prije izračuna rezultata na test setu, na osnovu performansi na potvrđivanju set. U godinama 2016–2017, koristeći verziju GraphCast-a obučene u godinama 1979–2015, primijetili smo da, koristeći rane verzije našeg tracker-a, srednja greška staze bila je dominirana vrlo malo outliers i nije bila reprezentativna za ukupnu populaciju. Nadalje, znatan deo tih outliers bili su zbog grešaka u algoritmu praćenja umjesto samih predviđanja, što sugerira da je tracker bio suboptimalan za upotrebu s GraphCast-om. Budući da je naš cilj da procenimo vrijednost GraphC Dodatke Slika 39 nadopunjuje Slika 3a-b tako što pokazuje prosječnu grešku u traci i odgovarajuću pariranu analizu. Napominjemo da koristeći konačnu verziju našeg tracker (Dopunke odjeljak 8.1.4), GraphCast prosječni rezultati su slični srednjoj, s GraphCast značajno nadmašuje HRES za vrijeme vođenja između 2 i 5 dana. Zbog poznatih efekata zamagljivanja, koji imaju tendenciju da glatke krajnosti koje tracker koristi za otkrivanje prisutnosti ciklona, metode ML mogu da spuste postojeće ciklone češće nego NWPs. Spuštanje ciklona je vrlo korelirano sa velikom pogreškom pozicioniranja. Stoga, uklanjanje iz evaluacije takvih predviđanja, gdje bi model ML bio posebno loš, mogao bi mu dati nepravednu prednost. Kako bi se izbjegao ovaj problem, provjeravamo da naš tracker koji traži hiperparametre (vidi Dodatke odjeljak 8.1.4) propušta sličan broj ciklona kao HRES. Dodatke Slika 41 pokazuje da na test setu (2018-2021), GraphCast i HRES padaju sličan broj ciklona, osiguravajući da su naše usporedbe što fer moguće. Dodatke Slika 42 i 43 pokazuju srednju grešku i pariranu analizu kao funkciju vremena vodenja, podijeljenog po kategoriji ciklona, gde je kategorija definisana na Saffir-Simpson Hurricane Wind Scale [47], s kategorijom 5 koja predstavlja najjače i najštetnije oluje (napomena, koristimo kategoriju 0 za predstavljanje tropskih oluja). Otkrili smo da GraphCast ima jednake ili bolje performanse od HRES-a u svim kategorijama. Za kategoriju 2, a posebno za kategoriju 5 (najintenzivnije događaje), GraphCast je značajno bolji od HRES-a, kao što pokazuje parirana analiza po stazi. 8.1.4 Detaljnije o trackeru Tracker koji smo koristili za GraphCast zasnovan je na našoj ponovnoj implementaciji ECMWF-ovog trackera [35]. Budući da je dizajniran za 0.1° HRES, pronašli smo da je korisno dodati nekoliko modifikacija kako bi se smanjila količina pogrešnih ciklona kada se primenjuje na GraphCast predviđanja. Prvo dajemo sažetak na visokoj razini podrazumevanog trackera iz ECMWF-a, pre nego što objasnimo izmjene koje smo napravili i naš proces odlučivanja. Given a model’s predictions of the variables 10 U, 10 v, MsL as well as U, v and z at pressure levels 200, 500, 700, 850 and 1000 hPa over multiple time steps, the ECMWF tracker [35] sequentially processes each time step to iteratively predict the location of a cyclone over an entire trajectory. Each 6h prediction of the tracker has two main steps. In the first step, based on the current location of the cyclone, the tracker computes an estimate of the next location, 6h ahead. The second step consists in looking in the vicinity of that new estimate for locations that satisfy several conditions that are characteristic of cyclone centers. ECMWF tracker To compute the estimate of the next cyclone location, the tracker moves the current estimate using a displacement computed as the average of two vectors: 1) the displacement between the last two track locations (i.e., linear extrapolation) and 2) an estimate of the wind steering, averaging the wind speed U and v at the previous track position at pressure levels 200, 500, 700 and 850 hPa. Nakon što se izračuna procjena lokacije sledećeg ciklona, tracker gleda na sve lokalne minimume prosječnog tlaka na razini mora (MsL) unutar 445 km od ove procjene. 1. Vorticity check: the maximum vorticity at 850 hPa within 278 km of the local minima is larger than 5 · 10−5 s−1 for the Northern Hemisphere, or is smaller than −5 · 10−5s−1 for the Southern Hemisphere. Vorticity can be derived from horizontal wind (U and v). 2. Wind speed check: if the candidate is on land, the maximum 10m wind speed within 278 km is larger than 8 m/s. Provjera debljine: ako je ciklon ekstratropski, postoji maksimalna debljina između 850 hPa i 200 hPa unutar radijusa od 278 km, gdje je debljina definisana kao z850-z200. Ako nijedan minimum ne zadovoljava sve te uslove, tracker smatra da nema ciklona. ECMWF-ov tracker omogućava ciklonima da kratko nestanu pod nekim uvjetima ugla pre nego što se ponovo pojave. Analizirali smo greške na ciklonima iz naših godina validiranja (2016–2017), koristeći verziju GraphCasta obučene na 1979–2015, i izmijenili podrazumevanu ponovnu implementaciju ECMWF tracker kao što je opisano u nastavku. Our modified tracker Pronašli smo ovaj parametar kao kritičan i tražili bolju vrijednost među sledećim opcijama: 445 × f za f u 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (originalna vrijednost). Također smo otkrili da je ovaj parametar kritičan i tražili bolju vrijednost među sljedećim opcijama: 278 × f za f u 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (originalna vrijednost). 3. procjena sledećeg koraka ECMWF koristi 50-50 ponder između linearne ekstrapolacije i vetora upravljanja vjetrom. U našem slučaju, kada se vjetar predviđa na rezoluciji od 0,25 °, pronašli smo da se upravljanje vjetrom ponekad pretvara u prepreke. To nije iznenađujuće jer vjetar nije prostorno glatko polje, a tracker je verovatno prilagođen za iskorištavanje predviđanja rezolucije od 0,1 °. Dakle, mi smo hyper-parameter pretražili ponder između sledećih opcija: 0.0, 0.1, 0.33, 0.5 (originalna vrijednost). Primijetili smo da je došlo do višestrukih pogrešaka kada je staza oštro preokrenula kurs, krećući se protiv svog prethodnog pravca.Na taj način, uzimamo u obzir samo kandidate koji stvaraju kut između prethodnog i novog pravca ispod d stupnjeva, gde je d pretraživao među ovim vrijednostima: 90, 135, 150, 165, 175, 180 (tj. nema filtera, izvorna vrijednost). 5. primijetili smo da su višestruki nesporazumi napravili velike skokove, zbog kombinacije bučnog upravljanja vjetrom i karakteristika koje su bile teške za razlikovanje za slabe ciklone. Tako smo istražili skidanje procjene od kretanja izvan x kilometara (preusmjeravanjem delta s poslednjim centrom), pretražujući sledeće vrednosti za x: 445 × f za f u 0.25, 0.5, 1.0, 2.0, 4.0, ∞ (tj. nema skidanja, izvorna vrijednost). Tokom pretrage hiperparametara, takođe smo provjerili na podacima o validaciji da je tracker koji se primjenjuje na GraphCast pao sličan broj ciklona kao i HRES. 8.2 Atmosferne reke Vertikalno integrisani transport vodene pare (IvT) se obično koristi za karakterizaciju intenziteta atmosferskih rijeka [38, 37]. Iako GraphCast ne predviđa direktno IvT i nije posebno obučena za predviđanje atmosferskih rijeka, možemo izvući ovu količinu iz predviđenih atmosferskih varijabilnih specifičnih za vlagu, Q i horizontalni vetar, (U, v), putem odnosa [38]: gde g = 9.80665 m/s2 je ubrzanje zbog gravitacije na površini Zemlje, pb = 1000 hPa je donji pritisak, a pt = 300 hPa je gornji pritisak. GraphCast ima vertikalnu rezoluciju od 37 nivoa pritiska koja je viša od rezolucije dostupnih HRES trajektorija sa samo 25 nivoa pritiska. Za dosljednu i fer poređenje oba modela, mi stoga koristimo samo zajednički podskup nivoa pritiska, koji su takođe uključeni u WeatherBench referentni indeks, kada se ocjenjuje IvT 8, odnosno [300, 400, 500, 600, 700, 850, 925, 1000] hPa. U skladu sa ostatkom našeg protokola evaluacije, svaki model se ocjenjuje prema vlastitoj „analizi“. Za GraphCast, izračunavamo IvT na osnovu njegovih predviđanja i uspoređujemo ga sa IvT izračunanim analogno iz ERA5. Slično tome, koristimo HRES predviđanja da izračunamo IvT za HRES i usporedimo ga sa IvT izračunanim iz HRES-fc0. Slično prethodnom radu [10], Slika 44 izvještava RMSE o prosečnoj ocjeni vještina i vještina preko obalne Severne Amerike i Istočnog Pacifika (od 180°W do 110°W dužine i 10°N do 60°N širine) tokom hladne sezone (januar-april i oktobar-decembar 2018), što odgovara regiji i periodu s čestim atmosferskim rijekama. 8.3 Ekstremne vrućine i hladnoća Proučavamo predviđanje ekstremne topline i hladnoće kao problem binarne klasifikacije [35, 32] uspoređivanjem da li određeni model predviđanja može ispravno predvidjeti da li će vrijednost za određenu varijantu biti iznad (ili ispod) određenog percentila raspodjele referentne istorijske klimatologije (na primjer iznad 98% percentila za ekstremnu toplinu, a ispod 2% percentila za ekstremnu hladnoću). Nakon prethodnog rada [35], referentna klimatologija se dobija odvojeno za (1) svaku varijantu (2) svaki mesec godine, (3) svako doba dana, (4) svaku koordinatu širine/dužine i (5) svaku razinu tlaka (ako je primjenjivo). To čini otkrivanje ekstremnih više kontrastno uklanjanjem učinka dnevnih i sezonskih c Budući da je ekstremna predviđanja po definiciji neravnoteženi problem klasifikacije, baziramo našu analizu na precizno-povratnim plotovima koji su dobro pogodni za ovaj slučaj [42]. Precizna-povratna krivulja dobiva se promjenom slobodnog parametara „dobitka“ koji se sastoji od faktora skaliranja u odnosu na srednju vrednost klimatologije, tj. skalirana predviđanja = dobitak × (predviđanje − srednja klimatologija) + srednja klimatologija. To ima efekat pomicanja granice odluke i omogućava proučavanje različitih trgovinskih razmjena između lažnih negativnih i lažnih pozitivnih. Intuitivno, 0 dobitak će proizvesti nula pozitivnih predviđanja (npr. nula lažnih pozitivnih), a beskona Fokusiramo našu analizu na varijable koje su relevantne za ekstremne temperature, posebno 2 T [35, 32], a takođe T 850, z500 koje ECMWF često koristi za karakterizaciju toplinskih talasa [34]. Nakon prethodnog rada[32], za ekstremnu toplinu prosječno smo u junu, srpnju i avgustu na kopnu u sjevernoj hemisferi (širina > 20◦) i u prosincu, siječnju i februaru na kopnu u južnoj hemisferi (širina < -20◦). Za ekstremnu hladnoću, razmijenili smo mesece za sjevernu i južnu hemisfere. Vidjeti potpune rezultate u Slika 45. Predviđanje vizualizacije U ovom završnom odjeljku pružamo nekoliko prikaza predviđanja koje je GraphCast napravio za varijable 2 T (slika 47), 10 U (slika 48), MsL (slika 49), z500 (slika 50), T 850 (slika 51), v 500 (slika 52), Q 700 (slika 53). Referencije [1] Ferran Alet, Adarsh Keshav Jeewajee, Maria Bauza Villalonga, Alberto Rodriguez, Tomas Lozano-Perez i Leslie Kaelbling. Graph element mreže: adaptivno, strukturirano računanje i memorija. U Međunarodnoj konferenciji o strojnom učenju, stranice 212-222 PMLR, 2019. [2] Kelsey R Allen, Yulia Rubanova, Tatiana Lopez-Guevara, William Whitney, Alvaro Sanchez-Gonzalez, Peter Battaglia, i Tobias Pfaff. Učenje rigidne dinamike s grafičkim mrežama za interakciju lica. arXiv preprint arXiv:2212.03574, 2022. [3] Jimmy Lei Ba, Jamie Ryan Kiros, i Geoffrey E. Hinton. sloj normalizacija. arXiv, 2016. [4] Igor Babuschkin, Kate Baumli, Alison Bell, Surya Bhupatiraju, Jake Bruce, Peter Buchlovsky, David Budden, Trevor Cai, Aidan Clark, Ivo Danihelka, Claudio Fantacci, Jonathan Godwin, Chris Jones, Ross Hemsley, Tom Hennigan, Matteo Hessel, Shaobo Hou, Steven Kapturowski, Thomas Keck, Iurii Kemaev, Michael King, Markus Kunesch, Lena Martens, Hamza Merzic, Vladimir Mikulik, Tamara Norman, John Quan, George Papamakarios, Roman Ring, Francisco Ruiz, Alvaro Sanchez, Rosalia Schneider, Eren Sezener, Stephen Spencer, Srivatsan Srinivasan, Luyu, Wangciech Wojciech Stokowiec i Fabio Viola. //github.com/deepmind, 2020. [5] Peter Battaglia, Razvan Pascanu, Matthew Lai, Danilo Jimenez Rezende, et al. Interakcijske mreže za učenje o objektima, odnosima i fiziki. [6] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Relativne induktivne predrasude, duboko učenje i grafičke mreže. arXiv preprint arXiv:1806.01261, 2018. [7] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu i Qi Tian. Pangu-Vrijeme: 3D model visoke rezolucije za brzu i točnu globalnu vremensku prognozu. arXiv preprint arXiv:2211.02556, 2022. [8] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. The THORPEX interactive grand global ensemble. [9] James Bradbury, Roy Frostig, Peter Hawkins, Matthew James Johnson, Chris Leary, Dougal Maclaurin, George Necula, Adam Paszke, Jake VanderPlas, Skye Wanderman-Milne i Qiao Zhang. JAX: kompostabilne transformacije programa Python+NumPy. http://github. com/google/jax, 2018. [10] WE Chapman, AC Subramanian, L Delle Monache, SP Xie, i FM Ralph. Poboljšanje prognoza atmosferske rijeke pomoću strojnog učenja. Geophysical Research Letters, 46(17-18):10627–10635, 2019. [11] Tianqi Chen, Bing Xu, Chiyuan Zhang i Carlos Guestrin. Obuka duboke mreže sa troškovima sublinearne memorije. arXiv preprint arXiv:1604.06174, 2016. [12] Balaji Devaraju. Razumevanje filtriranja na sferi: Iskustva iz filtriranja GRACE podataka. doktorska disertacija, Univerzitet u Štutgartu, 2015. [13] J R Driscoll i D M Healy. Computing fourier transforms i convolutions na 2-sferu. Appl. Mat., 15(2):202–250, jun 1994. [14] ECMWF. IFS dokumentacija CY41R2 - dio III: Dinamika i numeričke procedure. https: //www.ecmwf.int/node/16647, 2016. godine [15] Meire Fortunato, Tobias Pfaff, Peter Wirnsberger, Alexander Pritzel, i Peter Battaglia. Multi-skale meshgraphnets. arXiv preprint arXiv:2210.00612, 2022. [16] Alan J Geer. Značaj promjena u rezultatima srednjeg dometa predviđanja. Tellus A: Dinamička meteorologija i oceanografija, 68(1):30229, 2016. [17] Jonathan Godwin, Thomas Keck, Peter Battaglia, Victor Bapst, Thomas Kipf, Yujia Li, Kimberly Stachenfeld, Petar Veličković, i Alvaro Sanchez-Gonzalez. Jraph: Knjižnica za grafne neuronske mreže u JAX. http://github.com/deepmind/jraph, 2020. [18] T. Haiden, Martin Janousek, Jean-Raymond Bidlot, R. Buizza, L. Ferranti, F. Prates i Frédéric Vitart. Evaluacija prognoza ECMWF-a, uključujući ažuriranje 2018. https://www.ecmwf. int/node/18746, 10/2018 2018. [19] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, Crtistina Prates, and David Richardson. Evaluation of ECMWF forecasts, including the 2020 upgrade. https://www.ecmwf.int/node/19879, 01/2021 2021. [20] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti i Fernando Prates. Evaluacija prognoza ECMWF-a, uključujući nadogradnju 2021. https://www. ecmwf.int/node/20142, 09/2021 2021. [21] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, Fernando Prates, i David Richardson. Evaluacija prognoza ECMWF-a, uključujući nadogradnju 2021. https://www.ecmwf.int/node/20469, 09/2022 2022. [22] Thomas Haiden, Martin Janousek, Frédéric Vitart, Laura Ferranti i Fernando Prates. Evaluacija predviđanja ECMWF-a, uključujući nadogradnju za 2019. https://www.ecmwf.int/node/ 19277, 11/2019 2019. Tom Hennigan, Trevor Cai, Tamara Norman i Igor Babuschkin. Haiku: Sonet za JAX. http://github.com/deepmind/dm-haiku, 2020. [24] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. Globalna reanaliza ERA5. kvartalni časopis Kraljevskog meteorološkog društva, 146(730):1999–2049, 2020. [25] S. Hoyer i J. Hamman. xarray: N-D označene serije i skupovi podataka u Python. časopis otvorenog istraživačkog softvera, 5(1), 2017. [26] Ryan Keisler. Predviđanje globalnog vremena pomoću grafnih neuronskih mreža. arXiv preprint arXiv:2202.07575, 2022. [27] Diederik P Kingma i Jimmy Ba Adam: Metoda stohastičke optimizacije. arXiv preprint arXiv:1412.6980, 2014. [28] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. Međunarodni najbolji arhiv za upravljanje klimatskim promjenama (IBTrACS) projekt, verzija 4. https://doi.org/10.25921/82ty-9e16, 2018. [29] Kenneth R Knapp, Michael C Kruk, David H Levinson, Howard J Diamond, i Charles J Neumann. Međunarodni najbolji arhiv za upravljanje klimatskim promjenama (IBTrACS) koji ujedinjuje podatke o tropskim ciklonima. [30] Michael C Kruk, Kenneth R Knapp, i David H Levinson. Tehnika za kombiniranje globalnih tropska ciklona najbolje trag podataka. [31] David H Levinson, Howard J Diamond, Kenneth R Knapp, Michael C Kruk, i Ethan J Gibney. Ka homogenom globalnom tropskom ciklonu best-track dataset. Bulletin of American Meteorological Society, 91(3):377-380, 2010. [32] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal i Jason Hickey. Predviđanje globalne ekstremne vrućine pomoću neuralnih vremenskih modela. [33] Ilya Loshchilov i Frank Hutter. Odvojena regulacija propadanja težine. arXiv preprint arXiv:1711.05101, 2017. 202208 - toplinski talas - uk. https://confluence.ecmwf.int/display/ FCST/202208+-+Heatwave+-+UK, 2022. [35] Linus Magnusson, Thomas Haiden, i David Richardson. Verifikacija ekstremnih vremenskih događaja: Diskretni predviđanja. [36] S. Malardel, Nils Wedi, Willem Deconinck, Michail Diamantakis, Christian Kuehnlein, G. Mozdzynski, M. Hamrud i Piotr Smolarkiewicz. Nova mreža za IFS. https: //www.ecmwf.int/node/17262, 2016. godine [37] Benjamin J Moore, Paul J Neiman, F Martin Ralph, i Faye E Barthold. Fizički procesi povezani s teškim poplavnim padavinama u Nashvilleu, Tennessee, i okolini u periodu od 1. do 2. maja 2010. godine: Uloga atmosferske rijeke i mesoskala konvektivnih sistema. Mjesečni vremenski pregled, 140(2):358-378, 2012. [38] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist, i Michael D Dettinger. Meteorološke karakteristike i učinci padavina na kopnu atmosferskih rijeka koje utječu na zapadnu obalu Sjeverne Amerike na osnovu osam godina satelitskih promatranja. [39] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez, and Peter Battaglia. Learning mesh-based simulation with graph networks. In International Conference on Learning Representations, 2021. [40] Prajit Ramachandran, Barret Zoph, i Quoc V Le. Traženje funkcija aktivacije. arXiv preprint arXiv:1710.05941, 2017. [41] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid, i Nils Thuerey. WeatherBench: referentni skup podataka za vremenske prognoze zasnovane na podacima. Časopis za napredak u modeliranju Zemljinih sustava, 12(11):e2020MS002203, 2020. [42] Takaya Saito i Marc Rehmsmeier. Zaplet preciznog podsjećanja je informativniji od zapleta ROC kada se procjenjuju binarni klasifikatori na neuravnoteženim skupovima podataka. PloS jedan, 10(3):e0118432, 2015. [43] Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec i Peter Battaglia. Učenje da simulira kompleksnu fiziku pomoću grafičkih mreža. [44] B. D. Santer, R. Sausen, T. M. L. Wigley, J. S. Boyle, K. AchutaRao, C. Doutriaux, J. E. Hansen, G. A. Meehl, E. Roeckner, R. Ruedy, G. Schmidt, i K. E. Taylor. ponašanje tropopauze visine i atmosferske temperature u modelima, reanaliza i promatranja: Decadal promjena. [45] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M Hamill, Tim D Hewson, Julia H Keller, Mio Matsueda, John Methven, Florian Pappenberger i drugi. [46] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson, i Munehiko Yamaguchi. Projekt TIGGE i njegovi dostignuća. Bulletin of the American Meteorological Society, 97(1):49 – 67, 2016. [47] Harvey Thurm Taylor, Bill Ward, Mark Willis, i Walt Zaleski. Skala vjetra uragana Saffir-Simpson. Atmosferna administracija: Washington, DC, SAD, 2010. [48] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser i Illia Polosukhin. Pozornost je sve što vam je potrebno. Napredak u neuralnim sistemima za obradu informacija, 30, 2017. [49] Petar Veličković, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio, i Yoshua Bengio. Graph attention networks. arXiv preprint arXiv:1710.10903, 2017. Ovaj dokument je dostupan na arhivu pod licencom CC by 4.0 Deed (Attribution 4.0 International). Ovaj dokument je dostupan na arhivu pod licencom CC by 4.0 Deed (Attribution 4.0 International).