DeepMindov GraphCast pobijedio najbolji sustav za vremensku prognozu na svijetu

Autori : Remi Lam (Google DeepMind) Alvaro Sanchez-Gonzalez (Google DeepMind) Matthew Willson (Google DeepMind) Peter Wirnsberger (Google DeepMind) Meire Fortunato (Google DeepMind) Ferran Alet (Google DeepMind) Suman Ravuri (Google DeepMind) Timo Ewalds (Google DeepMind) Zach Eaton-Rosen (Google DeepMind) Weihua Hu (Google DeepMind) Alexander Merose (Google Research) Stephan Hoyer (Google Research) George Holland (Google DeepMind) Oriol Vinyals (Google DeepMind) Jacklynn Stott (Google DeepMind) Alexander Pritzel (Google DeepMind) Shakir Mohamed (Google DeepMind) Peter Battaglia (Google DeepMind) Autori : Remi Lam (Google DeepMind) Alvaro Sanchez-Gonzalez (Google DeepMind) Matthew Willson (Google DeepMind) Peter Wirnsberger – Google DeepMind Meire Fortunato (Google DeepMind) Ferran Alet (Google DeepMind) Suman Ravuri (Google DeepMind) Timo Ewalds (Google DeepMind) Zach Eaton-Rosen za Google DeepMind Weihua Hu (Google DeepMind) Alexander Merose (Google istraživanje) Stephan Hoyer (Google istraživanje) George Holland (Google DeepMind) Sljedeći Članak Oriol Vinyals (Google DeepMind) Jacklynn Stott (Google DeepMind) Aleksandar Pritzel (Google DeepMind) Šakir Mohamed (Google DeepMind) Peter Battaglia (Google DeepMind) Tradicionalna numerička vremenska prognoza koristi povećane računalne resurse za poboljšanje točnosti prognoze, ali ne može izravno koristiti povijesne vremenske podatke za poboljšanje osnovnog modela. Uvodimo metodu temeljenu na strojnom učenju pod nazivom "GraphCast", koja se može obučiti izravno iz podataka o ponovnoj analizi. Ona predviđa stotine vremenskih varijabilnih, tijekom 10 dana pri rezoluciji od 0,25° globalno, u manje od minute. Pokazujemo da GraphCast značajno nadmašuje najtočnije operativne deterministske sustave na 90% od 1380 verifikacijskih ciljeva, a njegove prognoze bolje podržavaju ozbiljnije predviđanje događaja, uključujući tropske ciklone, atmosferske rijeke i ekstremne temperature. GraphCast je Keywords: Weather forecasting, ECMWF, ERA5, HRES, learning simulation, graph neural networks Uvod U sredini listopada 2022. u Bologni, u Italiji, je 05:45 UTC, a novi High-Performance Computing Facility Europskog centra za srednjoročne vremenske prognoze (ECMWF) upravo je počeo raditi. U posljednjih nekoliko sati, Integrirani sustav za prognozu (IFS) provodi sofisticirane izračune kako bi predvidio Zemljino vrijeme u narednim danima i tjednima, a prve prognoze su tek počele širenje korisnicima. IFS, i suvremena vremenska prognoza općenito, su trijumfi znanosti i inženjerstva. Dinamika vremenskih sustava su među najsloženijim fizičkim fenomenima na Zemlji, a svaki dan, bezbroj odluka koje donose pojedinci, industrije i tvorci politika ovise o točnim vremenskim prognozama, od odlučivanja hoće li nositi jaknu ili pobjeći od opasne oluje. Dominantan pristup za vremenska prognoza danas je „numeric meteorological predviđanje“ (NWP), što uključuje rješavanje upravljačkih jednadžbe vremena pomoću superračunala. Uspjeh NWP leži u strogim i kontinuiranim istraživačkim praksama koje pružaju sve detaljnije opise vremenskih fenomena, i kako dobro NWP skale na veću točnost s većim Postoje ogromni arhivi vremenskih i klimatskih podataka, npr. ECMWF-ov MARS [17], ali do nedavno je bilo malo praktičnih načina za korištenje takvih podataka za izravno poboljšanje kvalitete predviđanja modela. MLWP nudi alternativu tradicionalnom NWP-u, gdje se modeli predviđanja treniraju izravno iz povijesnih podataka. To ima potencijal za poboljšanje točnosti predviđanja tako što će se u podacima uhvatiti obrasci i ljestvice koje se ne predstavljaju lako u eksplicitnim jednadžbama. MLWP također nudi mogućnosti za veću učinkovitost iskorištavanjem modernog hardvera za duboko učenje, a ne superračunala, i postizanjem povoljnijih kompromisa brzine i točnosti. Nedavno je MLWP pomogao poboljšati predviđanje na temelju NWP-a u režimima u kojima je tradicionalni NWP relativno slab, na primjer, predviđanje subsezonskih toplinskih valova [16] i padavina koje se sada emitiraju U srednjoročnom vremenskom predviđanju, tj. predviđanju atmosferskih varijabilnosti do 10 dana unaprijed, NWP-osnovani sustavi poput IFS-a i dalje su najtočniji. Najviši deterministski operativni sustav na svijetu je ECMWF-ova predviđanja visoke rezolucije (HRES), komponenta IFS-a koja proizvodi globalne 10-dnevne predviđanja na rezoluciji od 0,1° širine/dužine, za oko sat [27]. Međutim, tijekom proteklih nekoliko godina, MLWP metode za predviđanje srednjeg dometa stalno su napredovale, olakšane referentnim vrijednostima kao što su WeatherBench [27]. Arhitekture dubokog učenja zasnovane na konvolucionalnim neuronskim mrežama [35, Grafički Ovdje predstavljamo novi MLWP pristup za globalnu srednjoročnu vremensku prognozu nazvanu "GraphCast", koja proizvodi točnu 10-dnevnu prognozu za manje od minute na jednom uređaju Google Cloud TPU v4 i podržava aplikacije uključujući predviđanje tropskih ciklonskih staza, atmosferskih rijeka i ekstremnih temperatura. GraphCast uzima kao ulaz dva najnovija stanja Zemljinog vremena – trenutačno vrijeme i šest sati ranije – i predviđa sljedeće stanje vremena šest sati unaprijed. Jedno vremensko stanje predstavlja mreža od 0,25° širine/dužine (721 × 1440), što odgovara otprilike 28 × 28 kilometara rezoluciji na ekvatoru (slika 1a), gdje svaka točka mreže predstavlja skup površinskih i atmosferskih varijabilnih (navedenih u tablici 1). GraphCast je implementiran kao arhitektura neuronske mreže, na temelju GNN-a u konfiguraciji "kodiranje-proces-dekodiranje" [1], s ukupno 36,7 milijuna parametara. Encoder (slika 1d) koristi jedan GNN sloj za mapiranje varijabilnih (normaliziranih na nultom prosjeku jedinica-variance) predstavljen kao atributi čvorova na ulaznoj mreži na naučene atribute čvorova na unutarnjem "multi-mesh" predstavljanje. Multi-mesh (slika 1g) je graf koji je prostorno homogen, s visokom prostornom rezolucijom diljem svijeta. To je definirano rafiniranjem redovite icosahedron (12 čvorova, 20 lica, 30 rubova) iterativno šest puta, gdje svaki rafiniranje dijeli svaki trokut u četiri manje (što dovodi do četiri puta više lica i rubova), i reproduciranje čvorova na sferi. Multi-mesh sadrži 40,962 čvorova iz najviše rezolucije mreže, i ujedinjenje svih rubova stvorenih u srednjim grafima, formirajući ravnu hijerarhiju rubova s varirajućim dužinama. Procesor (slika 1e) koristi 16 nezaštićenih slojeva GNN-a za izvođenje naučene prijenosa poruka na multi-mesh, omogućujući učinkovito lokalno i dugotrajno širenje informacija s nekoliko koraka prijenosa poruka. Dekoder (slika 1f) mapira naučene značajke konačnog sloja procesora iz multi-mesh reprezentacije natrag u mrežu širine i dužine. koristi jedan GNN sloj i predviđa izlazak kao preostalu ažuriranje na najnovije stanje unosa (s normalizacijom izlaza kako bi se postigla jedinična varijacija na ostatku cilja). Tijekom razvoja modela koristili smo 39 godina (1979-2017) povijesnih podataka iz ECMWF-ovog arhiva za reanalizu ERA5 [10]. Kao cilj obuke, prosječili smo prosječnu kvadratnu pogrešku (MSE) ponderiranu na vertikalnoj razini. Pogreška je izračunana između predviđenog stanja GraphCasta i korrespondentnog stanja ERA5 preko N autoregresivnih koraka. Vrijednost N je povećana postupno s 1 na 12 (tj. šest sati do tri dana) tijekom obuke. GraphCast je osposobljen za minimiziranje cilja obuke koristeći gradijentni pad i backpropagation. Obuka GraphCast je trajala otprilike četiri tjedna na uređajima Cloud 32 TPU v4 koristeći U skladu s stvarnim scenarijima implementacije, gdje buduće informacije nisu dostupne za razvoj modela, ocijenili smo GraphCast na podacima iz 2018. godine (vidi Dodatke odjeljak 5.1). Metode provjere Sveobuhvatno provjeravamo GraphCastovu sposobnost predviđanja uspoređivanjem njezine točnosti s HRES-om na velikom broju promjenjivih, razina i prolaznih vremena. kvantificiramo odgovarajuće vještine GraphCasta, HRES-a i ML-a s dvjema metrikama vještina: korijenskom srednjom kvadratnom pogreškom (RMSE) i koeficijentom korelacije anomalija (ACC). Od 227 varijabilnih i kombinacija razina koje je GraphCast predvidio na svakoj točki mreže, ocijenili smo njihovu vještinu u odnosu na HRES na 69 od njih, što odgovara 13 razina WeatherBench[27] i varijabilima iz ECMWF Scorecard [9]; vidjeti boldface varijable i razine u Tablici 1 i Dodatcima odjeljku 1.2 za koje je HRES ciklus bio operativan tijekom evaluacijskog razdoblja. Pri izradi tih usporedbi, postoje dva ključna izbora na temelju kojih je uspostavljena vještina: (1) odabir temeljne istine za usporedbu i (2) pažljivo računanje prozora asimilacije podataka koji se koriste za temeljne podatke s promatranjima. Koristimo ERA5 kao temeljnu istinu za procjenu GraphCasta, budući da je osposobljen za uzimanje ERA5 podataka kao ulaza i predviđanje ERA5 podataka kao izlaza. Međutim, ocjenjivanje HRES predviđanja u odnosu na ERA5 rezultiralo bi ne-zero pogreškom na početnom koraku predviđanja. Umjesto toga, izgradili smo „HRES predviđanje na koraku 0” (HRES-fc0) skup podataka koji će se koristiti kao temeljna istina za HRES. HRES-f Zbog prirode podataka o vremenskoj prognozi, to zahtijeva pažljivu kontrolu razlika između ERA5 i HRES prozora asimilacije podataka. Svakog dana, HRES asimilira opažanja koristeći četiri +/-3h prozora usredotočenih na 00z, 06z, 12z i 18z (gdje 18z znači 18:00 UTC), dok ERA5 koristi dva +9h/-3h prozora usredotočenih na 00z i 12z, ili ekvivalentno dva +3h/-9h prozora usredotočenih na 06z i 18z. Odabrali smo da procijenimo GraphCastove predviđanja od 06z i 18z inicijalizacije, osiguravajući da njegovi ulazi nose informacije od +3h budućih promatranja, usklađujući iste HRESove ulaze. Nismo procijen HRES-ove predviđanja inicijalizirana na 06z i 18z rade samo za horizont od 3,75 dana (HRES-ove inicijalizirane 00z i 12z rade 10 dana). stoga će naši brojevi ukazivati na prijelaz s prijelaznom linijom, gdje su 3.5 dana prije linije usporedbe s HRES-om inicijaliziranim na 06z i 18z, a nakon linije usporedbe s inicijaliziranjem na 00z i 12z. Prognoza rezultata provjere Otkrivamo da GraphCast ima veću sposobnost predviđanja vremena od HRES-a kada se ocjenjuje na 10-dnevnim predviđanjima u vodoravnoj rezoluciji od 0,25° za širinu/dužinu i na 13 vertikalnih razina. Slika 2a–c prikazuje kako GraphCast (plave linije) nadmašuje HRES (crne linije) na polju z500 (geopotencijalno na 500 hPa) „glavne linije” u smislu RMSE vještine, RMSE vještine (tj. normalizirana RMSE razlika između modela A i osnovne linije B definirana kao (RMSEA − RMSEB)/RMSEB), i ACC vještine. Upotreba z500, koja kodira raspodjelu tlaka na sinoptičkoj ljestvici, uobičajena je u literaturi, jer ima jaku meteorološku važnost [27]. Plotovi pokazuju da GraphCast ima bolje vještine u svim vodećim vremenima, s poboljšanjem vještine oko 7–14%. Plotovi za dodatne glavne varijable nalaze Slika 2d sažima rezultate vještine RMSE-a za sve 1380 procijenjenih varijabilnih i razina tlaka, tijekom 10-dnevnih prognoza, u formatu analognom ECMWF Scorecard. Boje stanica su proporcionalne ocjeni vještine, gdje plava označava da je GraphCast imao bolju vještinu, a crvena označava da je HRES imao veću vještinu. GraphCast je nadmašio HRES na 90.3% od 1380 ciljeva i značajno (p ≤ 0.05, nominalna veličina uzorka n ∈ {729, 730}) nadmašio HRES na 89.9% ciljeva. vidjeti Dodatke odjeljak 5.4 za metodologiju i Dodatke Tablica 5 za p-vrijednosti, test statistike i učinkovite veličine uzorka. Regije atmosfere u kojima je HRES imao bolju izvedbu od GraphCasta (gornji redovi u crvenom u rezultatnim kartama) bili su nesrazmjerno lokalizirani u stratosferi i imali su najnižu težinu gubitka treninga (vidi Dodatke Odjeljak 7.2.2). Kada se isključi razina 50 hPa, GraphCast značajno nadmašuje HRES na 96,9% preostalih 1280 ciljeva. Kada se isključi razine 50 i 100 hPa, GraphCast značajno nadmašuje HRES na 99,7% preostalih 1180 ciljeva. Otkrili smo da povećanje broja auto-regressivnih koraka u gubitku MSE-a poboljšava GraphCast performanse u dužem vremenskom razdoblju (vidjeti odjeljak 7.3.2 dodataka) i potiče ga da izrazi svoju neizvjesnost predviđanjem prostorno glatkih rezultata, što dovodi do zamagljivanja predviđanja u dužim vremenskim razdobljima (vidjeti odjeljak 7.5. dodataka). Međutim, HRES-ove temeljne fizičke jednadžbe ne dovode do zamagljenih predviđanja. Da bismo procijenili je li GraphCastova relativna prednost nad HRES-om na RMSE vještini održana ako je HRES-u također dopušteno da zamagli svoje predviđanja, prilagodili smo filtre za zamagljivanje Graph Također smo uspoređivali performanse GraphCasta s vrhunskim natjecateljskim ML-based vremenskim modelom, Pangu-Weather [4], i otkrili da ga GraphCast nadmašuje na 99,2% od 252 ciljeva koje su predstavili (vidjeti dodatke odjeljak 6 za detalje). Teški rezultati predviđanja događaja Osim ocjenjivanja GraphCastove sposobnosti predviđanja u odnosu na HRES-ove na širokom rasponu varijabilnih i vodi vremena, također ocjenjujemo kako njegove predviđanja podržavaju predviđanje teških događaja, uključujući tropske ciklone, atmosferske rijeke i ekstremne temperature. Tropska ciklonska staza Improving the accuracy of tropical cyclone forecasts can help avoid injury and loss of life, as well as reducing economic harm [21]. A cyclone’s existence, strength, and trajectory is predicted by applying a tracking algorithm to forecasts of geopotential (z), horizontal wind (10 U/10 v, U/v), and mean sea-level pressure (MsL). We implemented a tracking algorithm based on ECMWF’s published protocols [20] and applied it to GraphCast’s forecasts, to produce cyclone track predictions (see Supplements Section 8.1). As a baseline for comparison, we used the operational tracks obtained from HRES’s 0.1° forecasts, stored in the TIGGE archive [5, 34], and measured errors for both models against the tracks from IBTrACS [13, 12], a separate reanalysis dataset of cyclone tracks aggregated from various analysis and observational sources. Consistent with established evaluation of tropical cyclone prediction [20], we evaluate all tracks when both GraphCast and HRES detect a cyclone, ensuring that both models are evaluated on the same events, and verify that each model’s true-positive rates are similar. Kao što su greške po stazi za HRES i GraphCast su korelirane, mi smo također izmjerili razliku po stazi parova pogreške između dva modela i otkrili da GraphCast je znatno bolji od HRES za vrijeme vodjenja od 18 sati do 4,75 dana, kao što je prikazano u Slika 3b. atmosferske rijeke Atmosferne rijeke su uske regije atmosfere koje su odgovorne za većinu polu-povratnog prijevoza vodene pare na srednjim širinama i generiraju 30%-65% godišnje padavine na zapadnoj obali SAD-a [6]. Njihovu snagu može karakterizirati vertikalno integrirani prijevoz vodene pare IvT [23, 22], što ukazuje na to hoće li događaj pružiti korisne padavine ili biti povezan s katastrofalnim oštećenjem [7]. IvT se može izračunati iz nelinearne kombinacije horizontalne brzine vjetra (U i v) i specifične vlažnosti (Q), što GraphCast predviđa. Mi procjenjujemo GraphCastove predviđanja za obalne regije Sjeverne Amerike i Istočnog Pacifika tijekom hladnih mjeseci ( Ekstremna vrućina i hladnoća Extreme heat and cold are characterized by large anomalies with respect to typical climatology [19, 16, 18], which can be dangerous and disrupt human activities. We evaluate the skill of HRES and GraphCast in predicting events above the top 2% climatology across location, time of day, and month of the year, for 2 T at 12-hour, 5-day, and 10-day lead times, for land regions across northern and southern hemisphere over summer months. We plot precision-recall curves [30] to reflect different possible trade-offs between reducing false positives (high precision) and reducing false negatives (high recall). For each forecast, we obtain the curve by varying a “gain” parameter that scales the 2 T forecast’s deviations with respect to the median climatology. Slika 3d pokazuje da su krivulje preciznog podsjećanja GraphCasta iznad HRES-a za 5 i 10 dana, što sugerira da su prognoze GraphCasta općenito superiorne od HRES-a na ekstremnoj klasifikaciji na dužim horizontima.U suprotnosti s tim, HRES ima bolju preciznost podsjećanja na 12-satno vrijeme, što je u skladu s rezultatom vještine 2 T GraphCasta u odnosu na HRES koji je blizu nule, kao što je prikazano na Slika 2d. Učinak nedavnih podataka o osposobljavanju GraphCast se može redovito obučavati s najnovijim podacima, što mu u načelu omogućuje snimanje vremenskih uzoraka koji se mijenjaju tijekom vremena, kao što su ENSO ciklus i druge oscilacije, kao i učinci klimatskih promjena. Obučavali smo četiri varijante GraphCasta s podacima koji su uvijek počeli 1979. godine, ali završili 2017. godine, 2019. godine i 2020. godine, odnosno (označili smo varijantu koja se završava 2017. godine kao "GraphCast:<2018", itd.). Figure 4 shows the skill scores (normalized by GraphCast:<2018) of the four variants and HRES, for z500. We found that while GraphCast’s performance when trained up to before 2018 is still competitive with HRES in 2021, training it up to before 2021 further improves its skill scores (see Supplements Section 7.1.3). We speculate this recency effect allows recent weather trends to be captured to improve accuracy. This shows that GraphCast’s performance can be improved by re-training on more recent data. zaključci GraphCastova vještina predviđanja i učinkovitost u usporedbi s HRES-om pokazuju da su MLWP metode sada konkurentne s tradicionalnim metodama predviđanja vremena. Osim toga, GraphCastova učinkovitost u predviđanju ozbiljnih događaja, za koju nije bio izravno osposobljen, pokazuje svoju robusnost i potencijal za daljnju vrijednost. S 36,7 milijuna parametara, GraphCast je relativno mali model prema modernim ML standardima, odabran za održavanje pamćenja otisaka otisaka. I dok je HRES objavljen na 0,1 ° rezolucije, 137 razina, i do 1 sat vremena koraka, GraphCast je radio na 0,25 ° rezolucije širine-dužine, 37 vertikalnih razina, i 6 sati koraka vremena, zbog ERA5 obrazovnih podataka native 0,25 ° rezolucije, i inženjerske izazove u prilagođavanju više rezolucije podataka na hardveru. Općenito, GraphCast treba gledati kao obitelj modela, s trenutnom verzijom je najveća možemo praktički uklopiti pod trenutačnim inženjerskim ograničenjima, ali koji imaju potencijal da se proširi mnogo dalje u buduć Jedno ključno ograničenje našeg pristupa je u tome kako se nesigurnost rješava. Usredotočili smo se na deterministske predviđanja i u usporedbi s HRES-om, ali drugi stup ECMWF-ovog IFS-a, sustav ansambla predviđanja, ENS, posebno je važan za 10+ dnevne predviđanja. Ne-linearnost vremenske dinamike znači da postoji povećana nesigurnost u dužim vremenskim uvjetima, što nije dobro uhvaćeno jednim determinističkim predviđanjem. ENS to rješava generiranjem višestrukih, stohastičkih predviđanja, koja modeliraju empirijsku raspodjelu budućeg vremena, ali generiranje višestrukih predviđanja je skupo. Važno je naglasiti da MLWP temeljen na podacima kritički ovisi o velikim količinama visokokvalitetnih podataka, asimiliranih putem NWP-a, te da su bogati izvori podataka poput ECMWF-ovog MARS arhiva neprocjenjivi. stoga se naš pristup ne bi trebao smatrati zamjenom za tradicionalne metode vremenske prognoze, koje su razvijene desetljećima, strogo testirane u mnogim realnim kontekstima i nude mnoge značajke koje još nismo istražili. Pored vremenskih predviđanja, GraphCast može otvoriti nove smjernice za druge važne geospatiotemporalne probleme predviđanja, uključujući klimu i ekologiju, energiju, poljoprivredu i ljudsku i biološku aktivnost, kao i druge složene dinamičke sustave. Dostupnost podataka i materijala GraphCastov kod i osposobljene težine javno su dostupni na github https://github.com/ deepmind/graphcast. Ovaj rad koristi javno dostupne podatke Europskog centra za predviđanje srednjeg dometa (ECMWF). Koristimo ECMWF arhive (izostale u stvarnom vremenu) proizvode za ERA5, HRES i TIGGE proizvode, čije korištenje uređuje Creative Commons Attribution 4.0 International (CC BY 4.0). Koristimo IBTrACS verziju 4 iz https://www.ncei.noaa.gov/ products/international-best-track-archive and reference [13, 12] kao što je potrebno. Zemljina tekstura na slici 1 se koristi pod CC BY 4.0 iz https://www.solarsystemscope.com/ textures/. Priznanja U abecednom redu, zahvaljujemo Kelsey Allen, Charles Blundell, Matt Botvinick, Zied Ben Bouallegue, Michael Brenner, Rob Carver, Matthew Chantry, Marc Deisenroth, Peter Deuben, Marta Garnelo, Ryan Keisler, Dmitrii Kochkov, Christopher Mattern, Piotr Mirowski, Peter Norgaard, Ilan Price, Chongli Qin, Sébastien Racanière, Stephan Rasp, Yulia Rubanova, Kunal Shah, Jamie Smith, Daniel Worrall i bezbroj drugih u Alphabet i ECMWF za savjete i povratne informacije o našem radu. Također zahvaljujemo ECMWF za pružanje neprocjenjivih skupova podataka istraživačkoj zajednici. Stil otvaranja stavka inspiriran je D. Fan et al., Science Robotics, 4 (3 referenciji [1] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Relativne induktivne predrasude, duboko učenje i grafičke mreže. arXiv preprint arXiv:1806.01261, 2018. [2] P. Bauer, A. Thorpe i G. Brunet. Tiha revolucija numeričke vremenske prognoze. priroda, 525, 2015. [3] Stanley G Benjamin, John M Brown, Gilbert Brunet, Peter Lynch, Kazuo Saito i Thomas W Schlatter. 100 godina napretka u predviđanju i NWP aplikacijama. [4] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu i Qi Tian. Pangu-Vrijeme: 3D model visoke rezolucije za brzu i točnu globalnu vremensku prognozu. arXiv preprint arXiv:2211.02556, 2022. [5] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. The THORPEX interactive grand global ensemble. [6] WE Chapman, AC Subramanian, L Delle Monache, SP Xie i FM Ralph. Poboljšanje atmosferskih predviđanja rijeke pomoću strojnog učenja. [7] Thomas W Corringham, F Martin Ralph, Alexander Gershunov, Daniel R Cayan, and Cary A Talbot. Atmospheric rivers drive flood damages in the western United States. Science advances, 5(12):eaax4631, 2019. [8] Lasse Espeholt, Shreya Agrawal, Casper Sønderby, Manoj Kumar, Jonathan Heek, Carla Bromberg, Cenk Gazen, Rob Carver, Marcin Andrychowicz, Jason Hickey, et al. Duboko učenje za dvanaest sati predviđanja padavina. Priroda komunikacije, 13(1):1–10, 2022. [9] T Haiden, Martin Janousek, J Bidlot, R Buizza, Laura Ferranti, F Prates i F Vitart. Procjena prognoza ECMWF-a, uključujući nadogradnju za 2018. [10] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. Globalna reanaliza ERA5. kvartalni časopis Kraljevskog meteorološkog društva, 146(730):1999–2049, 2020. [11] Ryan Keisler. Predviđanje globalnog vremena s grafičkim neuronskim mrežama. arXiv preprint arXiv:2202.07575, 2022. [12] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. Međunarodni najbolji arhiv za upravljanje klimatskim promjenama (IBTrACS) projekt, verzija 4. https: //doi.org/10.25921/82ty-9e16, 2018. [13] Kenneth R. Knapp, Michael C. Kruk, David H. Levinson, Howard J. Diamond i Charles J. Neumann. Međunarodni najbolji arhiv za upravljanje klimatskim promjenama (IBTrACS) koji ujedinjuje podatke o tropskim ciklonima. [14] Thorsten Kurth, Shashank Subramanian, Peter Harrington, Jaideep Pathak, Morteza Mardani, David Hall, Andrea Miele, Karthik Kashinath i Animashree Anandkumar. FourCastNet: Ubrzanje globalne vremenske prognoze visoke rezolucije pomoću adaptivnih četverostrukih neuronskih operatora. arXiv preprint arXiv:2208.05419, 2022. [15] David A. Lavers, Adrian Simmons, Freja Vamborg i Mark J. Rodwell. Procjena padavina ERA5 za praćenje klime. kvartalni list Kraljevskog meteorološkog društva, 148(748):3152–3165, 2022. [16] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal i Jason Hickey. Globalne ekstremne vrućine predviđanje pomoću neuralnih vremenskih modela. Umjetna inteligencija za Zemljine sustave, stranice 1-41, 2022. [17] Carsten Maass i Esperanza Cuartero. MARS korisnička dokumentacija. https://confluence. ecmwf.int/display/UDOC/MARS+user+documentation, 2022. [18] Linus Magnusson. 202208 - toplinski val - uk. https://confluence.ecmwf.int/display/ FCST/202208+-+Heatwave+-+UK, 2022. [19] Linus Magnusson, Thomas Haiden i David Richardson. Provjera ekstremnih vremenskih događaja: diskretni predviđanja. [20] Linus Magnusson, Sharanya Majumdar, Rebecca Emerton, David Richardson, Magdalena Alonso-Balmaseda, Calum Baugh, Peter Bechtold, Jean Bidlot, Antonino Bonanni, Massimo Bonavita i drugi. [21] Andrew B Martinez. Forecast accuracy matters for hurricane damage. Econometrics, 8(2):18, 2020. [22] Benjamin J. Moore, Paul J. Neiman, F. Martin Ralph i Faye E. Barthold. Fizički procesi povezani s teškim poplavnim oborinama u Nashvilleu, Tennesseeju i okolini u razdoblju od 1. do 2. svibnja 2010.: Uloga atmosferske rijeke i mesoskala konvektivnih sustava. [23] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist, i Michael D Dettinger. Meteorološke karakteristike i učinci padavina na kopnu atmosferskih rijeka koje utječu na zapadnu obalu Sjeverne Amerike na temelju osam godina satelitskih promatranja ssm/i. [24] Tung Nguyen, Johannes Brandstetter, Ashish Kapoor, Jayesh K Gupta i Aditya Grover. ClimaX: temeljni model za vrijeme i klimu. arXiv preprint arXiv:2301.10343, 2023. [25] Jaideep Pathak, Shashank Subramanian, Peter Harrington, Sanjeev Raja, Ashesh Chattopad-hyay, Morteza Mardani, Thorsten Kurth, David Hall, Zongyi Li, Kamyar Azizzadenesheli, et al. Fourcastnet: Globalni model vremena visoke rezolucije koji se temelji na podacima pomoću adaptivnih neuronskih operatora. arXiv preprint arXiv:2202.11214, 2022. [26] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez i Peter Battaglia. Učenje simulacije na bazi mreže s grafičkim mrežama. [27] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid i Nils Thuerey. WeatherBench: referentni skup podataka za vremenske prognoze utemeljene na podacima. Časopis za napredak u modeliranju sustava Zemlje, 12(11):e2020MS002203, 2020. [28] Stephan Rasp i Nils Thuerey. predviđanje vremena srednjeg dometa na temelju podataka s resnetom predtreniranim na klimatskim simulacijama: novi model za meteorološku ploču. [29] Suman Ravuri, Karel Lenc, Matthew Willson, Dmitry Kangin, Remi Lam, Piotr Mirowski, Megan Fitzsimons, Maria Athanassiadou, Sheleem Kashem, Sam Madge, et al. Skilful padavina sadacasting koristeći duboke generativne modele radara. Priroda, 597(7878):672–677, 2021. [30] Takaya Saito i Marc Rehmsmeier. Zaplet preciznog podsjećanja je informativniji od zapleta ROC-a prilikom evaluacije binarnih klasifikatora na neuravnoteženim skupovima podataka. PloS one, 10(3):e0118432, 2015. [31] Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec i Peter Battaglia. Učenje simulacije složene fizike pomoću grafičkih mreža. [32] Xingjian Shi, Zhihan Gao, Leonard Lausen, Hao Wang, Dit-Yan Yeung, Wai-kin Wong i Wang-chun Woo. Duboko učenje za sadnju: referentna točka i novi model. Napredak u neuralnim sustavima za obradu informacija, 30. [33] Casper Kaae Sønderby, Lasse Espeholt, Jonathan Heek, Mostafa Dehghani, Avital Oliver, Tim Salimans, Shreya Agrawal, Jason Hickey i Nal Kalchbrenner. Metnet: Neuralni model vremena za predviđanje padavina. arXiv preprint arXiv:2003.12140, 2020. [34] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson i Munehiko Yamaguchi. Projekt TIGGE i njegova postignuća. Bjelica Američkog meteorološkog društva, 97(1):49 – 67, 2016. [35] Jonathan A Weyn, Dale R Durran, and Rich Caruana. Can machines learn to predict weather? Using deep learning to predict gridded 500-hPa geopotential height from historical weather data. Journal of Advances in Modeling Earth Systems, 11(8):2680–2693, 2019. [36] Jonathan A Weyn, Dale R Durran i Rich Caruana. Poboljšanje globalne vremenske prognoze na temelju podataka pomoću dubokih konvolucijskih neuronskih mreža na kubičnoj sferi. 1. podaci U ovom odjeljku pružamo pregled podataka koje smo koristili za osposobljavanje i evaluaciju GraphCasta (Odjeljak o dodatcima 1.1), podataka koji definiraju predviđanja NWP bazne linije HRES, kao i HRES-fc0, koje koristimo kao temeljnu istinu za HRES (Odjeljak o dodatcima 1.2). Izgradili smo nekoliko skupova podataka za obuku i evaluaciju, koji se sastoje od podskupova ECMWF-ovih arhiva podataka i IBTrACS-a [29, 28]. Općenito razlikujemo izvorne podatke, koje nazivamo „arhivskim” ili „arhiviranim podacima”, od skupova podataka koje smo izgrađivali iz tih arhiva, koje nazivamo „datasetima”. 1.1 Vrijeme 5 Za obuku i evaluaciju GraphCasta, izgradili smo naše skupove podataka iz podskupine ERA5 [24]1 arhiva ECMWF-a, koji je veliki korpus podataka koji predstavlja globalno vrijeme od 1959. do sadašnjosti, pri rezoluciji od 0,25° širine/dužine, i 1 sat povećanja, za stotine statičkih, površinskih i atmosferskih varijabilnih. ERA5 arhiv se temelji na ponovnoj analizi, koja koristi ECMWF-ov model HRES (ciklus 42r1) koji je bio operativan za većinu 2016. (vidi Tablicu 3), unutar ECMWF-ovog sustava asimilacije podataka 4D-Var. Naš skup podataka ERA5 sadrži podskupinu dostupnih varijabilnih u ECMWF-ovoj arhivi ERA5 (Tabela 2), na 37 razina tlaka: 1, 2, 3, 5, 7, 10, 20, 30, 50, 70, 100, 125, 150, 175, 200, 225, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 775, 800, 825, 850, 875, 900, 925, 950, 975, 1000 hPa. Raspon uključenih godina bio je 1979-01-01 do 2022-01-10, koji su uzorkovani u vremenskim intervalima od 6 sati (odgovarajući 00z, 06z, 12z i 18z svaki dan). 1.2 Vrijeme Za procjenu osnovne linije modela HRES potrebni su dva zasebna skupa podataka, odnosno podaci o predviđanjima i podaci o temeljnoj istini, koji su sažeti u sljedećim pododjeljcima. HRES se općenito smatra najtočnijim deterministskim vremenskim modelom zasnovanim na NWP-u na svijetu, pa smo za procjenu HRES-ove bazne linije izgradili skup podataka arhiviranih povijesnih predviđanja HRES-a. HRES redovito ažurira ECMWF, tako da te predviđanja predstavljaju najnoviji HRES model u vrijeme kada su predviđanja napravljena. HRES operational forecasts Zatim smo prostorno uzorkovali predviđanja na mrežu od 0,25° širine/dužine (kako bi se uskladila s rezolucijom ERA5) koristeći ECMWF-ovu knjižnicu Metview, s podrazumijevanim regridnim parametrima. Za procjenu vještine HRES operativnih predviđanja, izgradili smo skup podataka temeljne istine, "HRES-fc0", na temelju arhiva HRES operativnih predviđanja ECMWF-a. Ovaj skup podataka sastoji se od početnog vremenskog koraka svake HRES predviđanja, na inicijalizacijskim vremenima 00z, 06z, 12z i 18z (vidjeti sliku 5). HRES-fc0 podaci su slični podacima ERA5, ali se asimilira pomoću najnovijeg ECMWF NWP modela u vrijeme predviđanja, i asimilira promatranje od ±3 sata oko odgovarajućeg datuma i vremena. Napomena: ECMWF također pruža arhiv podataka "HRES Analysis" podataka, koji se razlikuje od našeg HRES- HRES-fc0 Vrlo mali podskup vrijednosti iz arhiva ECMWF HRES-a za varijabilni geopotencijal na 850hPa (z850) i 925hPa (z925) nisu brojevi (NaN). Ti NaN-ovi izgledaju ravnomjerno raspodijeljeni u rasponu od 2016. do 2021. i tijekom predviđenog vremena. To predstavlja oko 0,00001% piksela za z850 (1 piksel svakih deset 1440 x 721 okvira širine), 0,00000001% piksela za z925 (1 piksel svakih deset tisuća 1440 x 721 okvira širine) i nema mjerljivog utjecaja na performanse. Za lakše usporedbu, ispunili smo ove rijetke vrijednosti koje nedostaju ponderiranim prosjekom neposrednih susjednih piksela. HRES NaN handling 1.3 Tropski cikloni Za našu analizu predviđanja tropskih ciklona, koristili smo arhivu IBTrACS [28, 29, 31, 30] kako bismo izgradili skup podataka o temeljnoj istini. Ovo uključuje povijesne ciklonske staze iz oko desetak autoritetnih izvora. Svaka staza je vremenski niz, u intervalima od 6 sati (00z, 06z, 12z, 18z), gdje svaki vremenski stupanj predstavlja oko ciklona u koordinatama širine/dužine, zajedno s odgovarajućom kategorijom Saffir-Simpson i drugim relevantnim meteorološkim značajkama u tom trenutku. Za HRES osnovnu liniju koristili smo TIGGE arhiv, koji pruža tragove ciklona procijenjene s operativnim trackerom, iz HRES-ovih predviđanja na rezoluciji od 0,1° [8, 46]. Podaci se pohranjuju kao XML datoteke dostupne za preuzimanje pod https://confluence.ecmwf.int/display/TIGGE/Tools. Kako bi se podaci pretvorili u format prikladan za daljnju postprocesiju i analizu, implementirali smo analizator koji izvlači tragove ciklona za godine interesa. Relevantni odjeljci (tags) u XML datotekama su odjeljci tipa "forecast", koji obično sadrže više tragova koji odgovaraju različitim početnim vremenskim predviđanjima. S tim tagovima, zatim Pogledajte odjeljak 8.1 za pojedinosti o algoritmu trackera i rezultatima. Notiranje i izjava o problemu U ovom odjeljku definiramo korisne vremenske notacije koje se koriste u cijelom dokumentu (odjeljak 2.1), formaliziramo opći problem predviđanja koji se rješava (odjeljak 2.2) i detaljno opisujemo kako modeliramo stanje vremena (odjeljak 2.3). 2.1 Vrijeme ocjenjivanja Vremenska oznaka koja se koristi u predviđanju može biti zbunjujuća, uključujući niz različitih vremenskih simbola, npr. za označavanje početnog vremena predviđanja, vremena valjanosti, horizonta predviđanja itd. Stoga uvodimo neke standardizirane izraze i oznake za jasnoću i jednostavnost. Mi se odnosimo na određenu točku u vremenu kao „datum-vremenu“, označenu kalendarskim datumom i vremenom UTC. Na primjer, 2018-06-21_18:00:00 znači 21. lipnja 2018, u 18:00 UTC. Za kratko, ponekad koristimo i konvenciju Zulu, tj. 00z, 06z, 12z, 18z znači 00:00, 06:00, 12:00, 18:00 UTC, odnosno. Nadalje definiramo sljedeće simbole: t: Indeks koraka predviđanja vremena, koji indeksira broj koraka od početka predviđanja. T: horizont predviđanja, koji predstavlja ukupni broj koraka u prognozi. d: Vrijeme valjanosti, koje označava datum i vrijeme određenog vremenskog stanja. d0: Vrijeme inicijaliziranja predviđanja, što ukazuje na vrijeme valjanosti početnih ulazaka predviđanja. Δd: Trajanje predviđenog koraka, što ukazuje na to koliko vremena prolazi tijekom jednog predviđenog koraka. τ: Vrijeme predviđanja, koje predstavlja prošlo vrijeme u prognozi (tj. τ = tΔd). 2.2 Opća prognoza problema Neka Zd označava istinsko stanje globalnog vremena u vrijeme d. Vrijeme evolucije istinskog vremena može se predstaviti temeljnom funkcijom diskretne vremenske dinamike, Φ, koja generira stanje u sljedećem koraku vremena (Δd u budućnosti) na temelju trenutnog, tj. Zd+Δd = Φ(Zd). Naš je cilj pronaći točan i učinkovit model, φ, prave dinamičke funkcije, Φ, koja može učinkovito predvidjeti stanje vremena preko nekog predviđanja horizonta, TΔd. pretpostavljamo da ne možemo promatrati Zd izravno, ali umjesto toga imamo samo djelomično promatranje Xd, što je nepotpuna reprezentacija informacija o stanju potrebnih za predviđanje vremena savršeno. Xd−Δd , Xd−2Δd , ..., osim Xd. Model može tada, u načelu, iskoristiti ove dodatne kontekstualne informacije kako bi približio Zd točnije. Analogno jednadžbi (1), predviđanje X ̈d+Δd može se vratiti u φ kako bi se autoregresivno napravila potpuna predviđanja, Procjenjujemo kvalitetu predviđanja ili vještinu φ kvantificirajući koliko se predviđena trajektorija, X ̈d+Δd:d+T Δd , podudara s trajektorijom temeljne istine, Xd+Δd:d+TΔd. Međutim, važno je ponovno istaknuti da Xd+Δd:d+TΔd sadrži samo naša promatranja Zd+Δd:d+TΔd, koja sama nije promatrana. što je izričito opisano u odjeljku 5. U našem radu, vremenska rezolucija podataka i predviđanja uvijek je bila Δd = 6 sati s maksimalnim horizontom predviđanja od 10 dana, što odgovara ukupnom T = 40 koraka. budući da je Δd konstanta u cijelom ovom dokumentu, možemo pojednostaviti označivanje pomoću (Xt, Xt+1, . . , Xt+T ) umjesto (Xd, Xd+Δd , . . , Xd+TΔd ), da indeksiramo vrijeme sa cijelim brojem umjesto s određenim datum-vremenom. 2.3. Modeling ECMWF weather data For training and evaluating models, we treat our ERA5 dataset as the ground truth representation of the surface and atmospheric weather state. As described in Section 1.2, we used the HRES-fc0 dataset as ground truth for evaluating the skill of HRES. In our dataset, an ERA5 weather state 𝑋𝑡 comprises all variables in Table 2, at a 0.25° horizontal latitude-longitude resolution with a total of 721 × 1440 = 1, 038, 240 grid points and 37 vertical pressure levels. The atmospheric variables are defined at all pressure levels and the set of (horizontal) grid points is given by 𝐺0.25◦ = {−90.0, −89.75, . . . , 90.0} × {−179.75, −179.5, . . . , 180.0}. These variables are uniquely identified by their short name (and the pressure level, for atmospheric variables). For example, the surface variable “2 metre temperature” is denoted 2 T; the atmospheric variable “Geopotential” at pressure level 500 hPa is denoted z500. Note, only the “predicted” variables are output by our model, because the “input”-only variables are forcings that are known apriori, and simply appended to the state on each time-step. We ignore them in the description for simplicity, so in total there are 5 surface variables and 6 atmospheric variables. Iz svih ovih varijabilnih, naš model predviđa 5 površinskih varijabilnih i 6 atmosferskih varijabilnih za ukupno 227 ciljanih varijabilnih. Nekoliko drugih statičkih i/ili vanjskih varijabilnih također je pruženo kao ulazni kontekst za naš model. Te varijabilne su prikazane u Tablici 1 i Tablici 2. Mi se odnosimo na podskup varijabilnih u Xt koji odgovaraju određenoj točki mreže i (1,038,240 ukupno) kao xt, a na svaku varijabilnu j od 227 ciljanih varijabilnih kao xt. Cijela državna reprezentacija Xtii, j stoga sadrži ukupno 721 × 1440 × (5 + 6 × 37) = 235, 680, 480 vrijednosti. GraphCast model Ovaj odjeljak pruža detaljan opis GraphCasta, počevši od autoregresivne generacije predviđanja (odjeljak 3.1), pregled arhitekture u jednostavnom jeziku (odjeljak 3.2), nakon čega slijedi tehnički opis svih grafikona koji definiraju GraphCast (odjeljak 3.3), njegov koder (odjeljak 3.4), procesor (odjeljak 3.5), i dekoder (odjeljak 3.6), kao i sve pojedinosti o normalizaciji i parametriziranju (odjeljak 3.7). 3.1 Stvaranje predviđanja Naš GraphCast model definiran je kao simulator učenja u jednom koraku koji preuzima ulogu φ u jednadžbi (2) i predviđa sljedeći korak na temelju dva uzastopna ulazna stanja, Kao i u jednadžbi (3), možemo iterativno primijeniti GraphCast kako bismo napravili prognozu To je ilustrirano na slici 1b,c. U ranim eksperimentima, otkrili smo da su dva ulazna stanja donijela bolje performanse od jednog, a da tri nisu pomogle dovoljno da opravdaju povećani otisak pamćenja. 3.2 Arhitektonski pregled The core architecture of GraphCast uses GNNs in an “encode-process-decode” configuration [6], as depicted in Figure 1d,e,f. GNN-based learned simulators are very effective at learning complex physical dynamics of fluids and other materials [43, 39], as the structure of their representations and computations are analogous to learned finite element solvers [1]. A key advantage of GNNs is that the input graph’s structure determines what parts of the representation interact with one another via learned message-passing, allowing arbitrary patterns of spatial interactions over any range. By contrast, a convolutional neural network (CNN) is restricted to computing interactions within local patches (or, in the case of dilated convolution, over regularly strided longer ranges). And while Transformers [48] can also compute arbitrarily long-range computations, they do not scale well with very large inputs (e.g., the 1 million-plus grid points in GraphCast’s global inputs) because of the quadratic memory complexity induced by computing all-to-all interactions. Contemporary extensions of Transformers often sparsify possible interactions to reduce the complexity, which in effect makes them analogous to GNNs (e.g., graph attention networks [49]). Način na koji koristimo sposobnost GNN-a za modeliranje arbitrarnih rijetkih interakcija je uvođenjem GraphCastove interne "multi-mesh" reprezentacije, koja omogućuje interakcije dugog dometa unutar nekoliko koraka prijenosa poruka i općenito ima homogenu prostornu rezoluciju diljem svijeta. Our multi-mesh is constructed by first dividing a regular icosahedron (12 nodes and 20 faces) iteratively 6 times to obtain a hierarchy of icosahedral meshes with a total of 40,962 nodes and 81,920 faces on the highest resolution. We leveraged the fact that the coarse-mesh nodes are subsets of the fine-mesh nodes, which allowed us to superimpose edges from all levels of the mesh hierarchy onto the finest-resolution mesh. This procedure yields a multi-scale set of meshes, with coarse edges bridging long distances at multiple scales, and fine edges capturing local interactions. Figure 1g shows each individual refined mesh, and Figure 1e shows the full multi-mesh. GraphCast’s encoder (Figure 1d) first maps the input data, from the original latitude-longitude grid, into learned features on the multi-mesh, using a GNN with directed edges from the grid points to the multi-mesh. The processor (Figure 1e) then uses a 16-layer deep GNN to perform learned message-passing on the multi-mesh, allowing efficient propagation of information across space due to the long-range edges. The decoder (Figure 1f) then maps the final multi-mesh representation back to the latitude-longitude grid using a GNN with directed edges, and combines this grid representation, 𝑌ˆ𝑡+𝑘, with the input state, 𝑋ˆ𝑡+𝑘, to form the output prediction, 𝑋ˆ𝑡+𝑘+1 = 𝑋ˆ𝑡+𝑘 + 𝑌ˆ𝑡+𝑘. Encoder i decoder ne zahtijevaju da se sirovi podaci raspoređuju u redovnoj pravokotnoj mreži, a mogu se primijeniti i na arbitrarne diskretizacije država poput mreže [1]. Na jednom uređaju Cloud TPU v4, GraphCast može generirati 0,25° rezoluciju, 10-dnevnu prognozu (na koracima od 6 sati) u manje od 60 sekundi. Za usporedbu, ECMWF-ov IFS sustav radi na 11.664-core klasteru i generira 0,1° rezoluciju, 10-dnevnu prognozu (izdana u koracima od 1 sata za prve 90 sati, 3-satne korake za sata 93-144, i 6-satne korake od 150-240 sati, u oko sat vremena računanja [41]. Pogledajte detalje o izdanju HRES-a ovdje: https://www.ecmwf.int/en/forecasts/ datasets/set-i. 3.3 GraphCastov grafikon GraphCast se implementira pomoću GNN-a u konfiguraciji "kodiranje-proces-dekodiranje", gdje koderi (površina i atmosfera) kartice na ulaznoj latitude-longitude mreži na multi-mesh, procesor izvodi mnoge krugove poruke-prolaz na multi-mesh, a decoder mapira multi-mesh značajke natrag na izlazne latitude-longitude mreže (vidi sliku 1). The model operates on a graph G(VG, VM, EM, EG2M, EM2G), defined in detail in the subsequent paragraphs. VG predstavlja skup koji sadrži svaku od mrežnih čvorova vG. Svaki mrežni čvor predstavlja vertikalni dio atmosfere na određenoj točki širine i dužine, i. karakteristike povezane s svakim mrežnim čvorom vG su vG,features = [xt−1, xt, ft−1, ft, ft+1, ci], gdje xt je vremensko stanje koje ovisi o vremenu Xt koje odgovara mrežnom čvoru vG i uključuje sve predviđene podatkovne varijable za sve 37 atmosferskih razina, kao i površinske varijable. Termični uvjeti ft sastoje se od vremenski ovisnih značajki koje se mogu izračunati analitički, a ne moraju se predvidjeti GraphCastom. Oni uključuju ukupno događajno sunčevo zračenje na Grid nodes VM predstavlja skup koji sadrži svaku od mrežnih čvorova vM. Mesh čvorovi su jednako smješteni diljem svijeta u R-rafiniranom icosahedral mrežnom MR. M0 odgovara jediničnom radijusu icosahedron (12 čvorova i 20 trokutastih lica) s licima paralelnim s polovima (vidjeti sliku 1g). Mesh je iterativno rafiniran Mr → Mr+1 podijeljenjem svakog trokutastog lica na 4 manja lica, što rezultira dodatnim čvorom u sredini svakog ruba i ponovno projekcijom novih čvorova natrag na jediničnu sferu.4 Funkcije vM,Features associated with each mesh node vM include the cosine of the latitude, i ithe sine and cosine of the longitude. Graph Mesh nodes EM su dvosmjerni rubovi dodani između mrežnih čvorova koji su povezani u mrežu. Ključno je da se mrežni rubovi dodaju EM-u za sve razine rafiniranja, tj. za najfiniju mrežu, M6, kao i za M5, M4, M3, M2, M1 i M0. To je jednostavno zbog načina na koji djeluje proces rafiniranja: čvorovi Mr−1 su uvijek podskup čvorova u Mr. Stoga čvorovi uvedeni na nižim razinama rafiniranja služe kao čvorovi za komunikaciju dužeg raspona, neovisno o maksimalnoj razini rafiniranja. Rezultirajući grafikon koji sadrži zajednički skup rubova iz svih razina rafiniranja je ono što nazivamo "multi-mesh". Vidjeti sliku 1e,g za prikaz svih pojedin Mesh edges For each edge 𝑒M connecting a sender mesh node 𝑣M to a receiver mesh node 𝑣M, we build 𝑣M→𝑣M edge features eM, features using the position on the unit sphere of the mesh nodes. This includes the 𝑣M→𝑣M s r length of the edge, and the vector difference between the 3d positions of the sender node and the receiver node computed in a local coordinate system of the receiver. The local coordinate system of the receiver is computed by applying a rotation that changes the azimuthal angle until that receiver node lies at longitude 0, followed by a rotation that changes the polar angle until the receiver also lies at latitude 0. This results in a total of 327,660 mesh edges (See Table 4), each with 4 input features. EG2M su jednosmjerni rubovi koji povezuju čvorove mreže pošiljatelja s čvorovima mreže primatelja. Jedan rub eG2M vG→vM se dodaje ako je udaljenost između čvorova mreže i čvorova mreže manja od s r ili jednaka 0,6 puta5 duljine rubova u mreži M6 (vidjeti sliku 1) koji osigurava da je svaki čvor mreže povezan s barem jednim čvorom mreže. Grid2Mesh edges EM2G are unidirectional edges that connect sender mesh nodes to receiver grid nodes. For each grid point, we find the triangular face in the mesh 𝑀6 that contains it and add three Mesh2Grid edges of the form 𝑒M2G 𝑣M→𝑣G, to connect the grid node to the three mesh nodes adjacent s r to that face (see Figure 1). Features eM2G,features are built on the same way as those for the mesh 𝑣M→𝑣G s r edges. This results on a total of 3,114,720 Mesh2Grid edges (3 mesh nodes connected to each of the 721 × 1440 latitude-longitude grid points), each with four input features. Mesh2Grid edges 3.4 Kodiranje Svrha kodera je pripremiti podatke u latentne reprezentacije za procesor, koji će se pokrenuti isključivo na multi-mesh. Kao dio kodera, prvo ugrađujemo značajke svakog od mrežnih čvorova, mrežnih čvorova, mrežnih rubova, mrežnih rubova i mrežnih rubova u latentni prostor fiksne veličine pomoću pet višeslojnih perceptrona (MLP), Embedding the input features Zatim, kako bismo prenijeli informacije o stanju atmosfere od mrežnih čvorova do mrežnih čvorova, obavljamo jednu poruku koja prolazi korak preko Grid2Mesh bipartitnog podgrafa GG2M(VG, VM, EG2M) povezujući mrežne čvorove s mrežnim čvorovima. Ovo ažuriranje se izvodi pomoću interakcijske mreže [5, 6], povećano kako bi se moglo raditi s višestrukim tipovima čvorova [2]. Grid2Mesh GNN Zatim se svaki od mrežnih čvorova ažurira agregiranjem informacija iz svih rubova koji dolaze na taj mrežni čvor: Svaki od mrežnih čvorova također se ažurira, ali bez agregiranja, jer mrežni čvorovi nisu primatelji bilo kakvih rubova u podgrafu Grid2Mesh, After updating all three elements, the model includes a residual connection, and for simplicity of the notation, reassigns the variables, 5.3 Procesor The processor is a deep GNN that operates on the Mesh subgraph GM (VM, EM) which only contains the Mesh nodes and and the Mesh edges. Note the Mesh edges contain the full multi-mesh, with not only the edges of 𝑀6, but all of the edges of 𝑀5, 𝑀4, 𝑀3, 𝑀2, 𝑀1 and 𝑀0, which will enable long distance communication. A single layer of the Mesh GNN is a standard interaction network [5, 6] which first updates each of the mesh edges using information of the adjacent nodes: Multi-mesh GNN Zatim ažurira svaki od mrežnih čvorova, agregirajući informacije iz svih rubova koji dolaze do tog mrežnog čvorova: I nakon ažuriranja oboje, reprezentacije su ažurirane sa preostalom vezom i za jednostavnost notacije, također preraspodijeljene na ulazne varijable: The previous paragraph describes a single layer of message passing, but following a similar approach to [43, 39], we applied this layer iteratively 16 times, using unshared neural network weights for the MLPs in each layer. 3.6 Dekodiranje The role of the decoder is to bring back information to the grid, and extract an output. Analogno Grid2Mesh GNN-u, Mesh2Grid GNN izvodi jednu poruku koja prolazi preko Mesh2Grid bipartitnog podgrafa GM2G(VG, VM, EM2G). Grid2Mesh GNN je funkcionalno ekvivalent Mesh2Grid GNN-u, ali koristi Mesh2Grid rubove za slanje informacija u suprotnom smjeru. Mesh2Grid GNN Zatim ažurira svaki od mrežnih čvorova, agregirajući informacije iz svih rubova koji dolaze na taj mrežni čvor: In this case we do not update the mesh nodes, as they won’t play any role from this point on. Here again we add a residual connection, and for simplicity of the notation, reassign the variables, this time only for the grid nodes, which are the only ones required from this point on: Naposljetku, predviđanje yi za svaki od mrežnih čvorova proizvodi se pomoću drugog MLP-a, Output function koja sadrži sve 227 predviđenih varijabilnih za taj mrežni čvor. slično [43, 39], sljedeće vremensko stanje, X ̈t + 1, izračunava se dodavanjem predviđanja po čvoru, Y ̈t , na ulazno stanje za sve mrežne čvorove, 3.7. Normalization and network parameterization Slično [43, 39], normalizirali smo sve ulaze. Za svaku fizičku promjenjivu, izračunali smo prosječnu razinu tlaka i standardno odstupanje u razdoblju od 1979. do 2015. i koristili smo to da ih normaliziramo na nultu prosječnu razinu i jediničnu odstupanje. Input normalization Because our model outputs a difference, 𝑌ˆ𝑡 , which, during inference, is added to 𝑋𝑡 to produce 𝑋ˆ𝑡+1, we normalized the output of the model by computing per-pressure level standard deviation statistics for the time difference 𝑌𝑡 = 𝑋𝑡+1 − 𝑋𝑡 of each variable6. When the GNN produces an output, we multiply this output by this standard deviation to obtain 𝑌ˆ𝑡 before computing 𝑋ˆ𝑡+1, as in Equation (18). For simplicity, we omit this output normalization from the notation. Output normalization Neuralne mreže unutar GraphCasta su sve MLP-ovi, s jednim skrivenim slojem i veličinama skrivenih i izlaznih slojeva od 512 (osim konačnog sloja Decoderove MLP-a, čija je veličina izlaza 227, što odgovara broju predviđenih varijabilnih za svaki čvor mreže). Neural network parameterizations 4. Training details Ovaj odjeljak pruža pojedinosti koje se odnose na osposobljavanje GraphCasta, uključujući podjelu podataka koji se koristi za razvoj modela (odjeljak 4.1), potpunu definiciju objektivne funkcije s težinom povezanom s svakom varijabilnom i vertikalnom razinom (odjeljak 4.2), autoregresivni pristup osposobljavanju (odjeljak 4.3), postavke optimizacije (odjeljak 4.4), program osposobljavanja koji se koristi za smanjenje troškova osposobljavanja (odjeljak 4.5), tehničke pojedinosti koje se koriste za smanjenje pamćenja otiska GraphCasta (odjeljak 4.6), vrijeme osposobljavanja (odjeljak 4.7) i softver koji smo upotrijebili (odjeljak 4.8). 4.1 Podijeljena obuka Da bismo oponašali stvarne uvjete implementacije, u kojima prognoza ne može ovisiti o informacijama iz budućnosti, podijelili smo podatke koji su korišteni za razvoj GraphCasta i podatke koji su korišteni za testiranje njegove izvedbe "uzročno", u tome što je "razvojni set" sadržavao samo datume ranije od onih u "test setu". U okviru našeg razvojnog skupa, dalje smo podijelili podatke u skup obuke koji se sastoji od godina 1979. – 2015. i skup validacije koji uključuje 2016. – 2017. Koristili smo skup obuke kao podatke o obuci za naše modele i skup validacije za optimizaciju hiperparametra i odabir modela, tj. da odlučimo o arhitekturi modela s najboljim rezultatima. Zatim smo zamrzli arhitekturu modela i sve izbore obuke i prešli na fazu testiranja. 4.2. Training objective GraphCast je osposobljen za minimiziranje objektivne funkcije tijekom 12 koraka predviđanja (3 dana) u odnosu na ERA5 ciljeve, koristeći gradientni pad. where τ ∈ 1 : Ttrain su vrijeme vođenja koje odgovara Ttrain autoregresivnim koracima. d0 ∈ Dbatch predstavlja datum inicijaliziranja predviđanja u seriji predviđanja u skupu obuke, j ∈ J indeksira promjenjivu, a za atmosferske promjenjive razinu tlaka. npr. J ={z1000, z850, . . . , 2 T, MsL}, i ∈ G0.25◦ su lokacije (latitude i longitude) koordinate u mreži, x ̈d0+τ i xd0+τ su predviđene i ciljane vrijednosti za određenu razinu varijable, lokaciju i vrijeme vođenja,j,i j,i 𝑠 𝑗 is the per-variable-level inverse variance of time differences, wj je težina gubitka po varijabilnoj razini, ai je područje latitude-longitude mrežne ćelije, koja varira s latitudom i normalizira se na srednju jedinicu preko mreže. Da bismo izgradili jedan skalarni gubitak, uzeli smo prosjek širine dužine, razine tlaka, varijable, vrijeme vodenja i veličinu serije. The quantities 𝑠 = 𝕍 h𝑥𝑡+1 − 𝑥𝑡 i −1 are per-variable-level inverse variance estimates of the time differences, which aim to standardize the targets (over consecutive steps) to unit variance. These were estimated from the training data. We then applied per-variable-level loss weights, 𝑤𝑗. For atmospheric variables, we averaged across levels, with a weight proportional to the pressure of the level (normalized to unit mean), as shown in Figure 6a. We use pressure here as a proxy for the density [26]. Note that the loss weight applied to pressure levels at or below 50 hPa, where HRES tends to perform better than GraphCast, is only 0.66% of the total loss weight across all variables and levels. We tuned the loss weights for the surface variables during model development, so as to produce roughly comparable validation performance across all variables: the weight on 2 T was 1.0, and the weights on 10 U, 10 v, MsL, and TP were each 0.1, as shown in Figure 6b. The loss weights across all variables sum to 7.4, i.e., (6 × 1.0 for the atmospheric variables, plus (1.0 + 0.1 + 0.1 + 0.1 + 0.1) for the surface variables listed above, respectively). 4.3 Obuka o autoregresivnom cilju Kako bi se poboljšala sposobnost našeg modela da izradi točne predviđanja tijekom više od jednog koraka, koristili smo režim autoregresivnog treninga, u kojem je predviđeni sljedeći korak modela bio vraćen kao ulaz za predviđanje sljedećeg koraka.Konačna verzija GraphCasta bila je obučena na 12 autoregresivnih koraka, nakon rasporeda treninga kurikula opisanog u nastavku. 4.4 Optimizacija The training objective function was minimized using gradient descent, with mini-batches. We sampled ground truth trajectories from our ERA5 training dataset, with replacement, for batches of size 32. We used the AdamW optimizer [33, 27] with parameters (beta1 = 0.9, beta2 = 0.95). We used weight decay of 0.1 on the weight matrices. We used gradient (norm) clipping with a maximum norm value of 32. 5.4 Program osposobljavanja Prva faza sastojala se od 1000 gradientnih ažuriranja, s jednim autoregresivnim korakom, i rasporeda stope učenja koji se linearno povećao s 0 na 1e−3 (Slika 7a). Druga faza sastojala se od 299.000 gradientnih ažuriranja, opet s jednim autoregresivnim korakom, i rasporeda stope učenja koja se smanjila natrag na 0 s funkcijom polukozinskog propadanja (Slika 7b). Treća faza sastojala se od 11.000 gradientnih ažuriranja, gdje se broj autoregresivnih koraka povećao s 2 12, povećavajući se za 1 na svakih 1000 ažuriranja, i s fiksnom stopom učenja od 3e−7 (Slika 7c). 4.6 Smanjenje pamćenja Da bismo uklopili duge putanje (12 autoregresivnih koraka) u 32 GB uređaja Cloud TPU v4, koristimo nekoliko strategija kako bismo smanjili otisak memorije našeg modela. Prvo, koristimo paralelizam serije kako bismo distribuirali podatke na 32 TPU uređaja (tj. jedna točka podataka po uređaju). Drugo, koristimo preciznost plutajuće točke bfloat16 kako bismo smanjili pamćenje koje se uzima aktiviranjem (napomena, koristimo punopravne numeričke podatke (tj. float32) kako bismo izračunali metrike performansi u vrijeme evaluacije). 4.7. Training time Nakon rasporeda treninga koji povećava broj autoregresivnih koraka, kao što je detaljno gore navedeno, GraphCast trening je trajao oko četiri tjedna na 32 TPU uređaja. 4.8 Softver i hardver stack Mi koristimo JAX [9], Haiku [23], Jraph [17], Optax, Jaxline [4] i xarray [25] za izgradnju i obuku naših modela. 5. metode provjere This section provides details on our evaluation protocol. Section 5.1 details our approach to splitting data in a causal way, ensuring our evaluation tests for meaningful generalization, i.e., without leveraging information from the future. Section 5.2 explains in further details our choices to evaluate HRES skill and compare it to GraphCast, starting from the need for a ground truth specific to HRES to avoid penalizing it at short lead times (Section 5.2.1), the impact of ERA5 and HRES using different assimilation windows on the lookahead each state incorporates (Section 5.2.2), the resulting choice of initialization time for GraphCast and HRES to ensure that all methods benefit from the same lookahead in their inputs as well as in their targets (Section 5.2.3), and finally the evaluation period we used to report performance on 2018 (Section 5.2.4). Section 5.3 provides the definition of the metrics used to measure skill in our main results, as well as metrics used in complementary results in the Supplements. Finally, Section 5.4 details our statistical testing methodology. 5.1. Training, validation, and test splits U testnoj fazi, koristeći protokol zamrznut na kraju razvojne faze (odjeljak 4.1), obučavali smo četiri verzije GraphCasta, svaka u različitom razdoblju. 2018–2021, 2019–2021, 2020–2021 i 2021, odnosno. Opet, ove podjele održavale su uzročno razdvajanje između podataka koji se koriste za obuku verzije modela i podataka koji se koriste za procjenu njegove izvedbe (vidi Slika 8). Većina naših rezultata ocijenjena je 2018. (tj. s modelom obučavanim u razdoblju od 1979–2017), uz nekoliko iznimaka. Za eksperimente praćenja ciklona, izvješćujemo rezultate u razdoblju 2018–2021 jer cikloni nisu tako uobičajeni, pa uključujući i više godina povećava veličinu uzorka. Koristimo najnoviju verziju GraphCasta kako bismo napravili prognozu za određenu godinu: GraphCast <2018 za prognozu 2018., GraphCast <2019 za prognozu 2019., itd. Za Usporedba GraphCasta s HRES-om 5.2.1 Odabir baze podataka o temeljnoj istini GraphCast was trained to predict ERA5 data, and to take ERA5 data as input; we also use ERA5 as ground truth for evaluating our model. HRES forecasts, however, are initialized based on HRES analysis. Generally, verifying a model against its own analysis gives the best skill estimates [45]. So rather than evaluating HRES forecasts against ERA5 ground truth, which would mean that even the zeroth step of HRES forecasts would have non-zero error, we constructed an “HRES forecast at step 0” (HRES-fc0) dataset, which contains the initial time step of HRES forecasts at future initializations (see Table 3). We use HRES-fc0 as ground truth for evaluating HRES forecasts. 5.2.2 Osiguravanje jednake perspektive u prozorima asimilacije Kada smo usporedili vještine GraphCasta i HRES-a, napravili smo nekoliko izbora kako bismo kontrolirali razlike između ERA5 i HRES-fc0 prozora za asimilaciju podataka. Kao što je opisano u Odjeljku 1, svaki dan HRES asimilira promatranja koristeći četiri +/-3h prozora usredotočena na 00z, 06z, 12z i 18z (gdje 18z znači 18:00 UTC u konvenciji Zulu), dok ERA5 koristi dva +9h/-3h prozora usredotočena na 00z i 12z, ili ekvivalentno dva +3h/-9h prozora usredotočena na 06z i 18z. Vidjeti sliku 9 za ilustraciju. Odabrali smo ocijeniti GraphCastove predviđanja od 06z i 18z inicijacijacija, osiguravaju Na slici 10 prikazuje se performanse GraphCasta inicijalizirane od 06z/18z i 00z/12z. Kada se inicijalizira iz stanja s većim pogledom, GraphCast dobiva vidljivo poboljšanje koje traje u dužim vremenima predviđanja, podržavajući naš izbor za inicijaliziranu evaluaciju od 06z/18z. Primijenili smo istu logiku prilikom odabira cilja na kojem će se ocijeniti: ocjenjujemo samo ciljeve koji uključuju 3h predviđanja za HRES i ERA5. S obzirom na naš izbor inicijaliziranja atz i 18z, to odgovara evaluaciji svakih 12h, na budućim 06z i 18z analiznim vremenima. Kao praktičan primjer, ako bismo ocijenili GraphCast i HRES inicijalizirani na 06z, u 5.2.3. Alignment of initialization and validity times-of-day Kao što je gore navedeno, pošteno usporedba s HRES-om zahtijeva od nas da procijenimo GraphCast koristeći 06z i 18z inicijalizacije, a s vremenima prijelaza koji su višestruki od 12h, što znači da su vremena valjanosti također 06z i 18z. For lead times up to 3.75 days there are archived HRES forecasts available using 06z and 18z initialization and validity times, and we use these to perform a like-for-like comparison with GraphCast at these lead times. Note, because we evaluate only on 12 hour lead time increments, this means the final lead time is 3.5 days. Za vrijeme predviđanja od 4 dana i dalje, arhivirane HRES predviđanja su dostupna samo na inicializacijama 00z i 12z, što s obzirom na naše 12-satno višekratno vrijeme predviđanja znači vrijeme valjanosti 00z i 12z. U tim usporedbama globalno definiranih RMSE-a, očekujemo da će razlika u vremenu dana dati HRES-u malu prednost. Na slici 11 možemo vidjeti da do 3.5 dana vodi vrijeme, HRES RMSE-ovi imaju tendenciju da budu manji u prosjeku preko 00z i 12z inicijacije / valjanosti vremena nego što su na 06z i 18z puta na kojima se GraphCast ocjenjuje. Također možemo vidjeti da se razlika smanjuje kako vodi vrijeme raste, a da 06z/18z RMSE-ovi općenito izgledaju kao da imaju tendenciju prema asimptoti iznad 00z/12z RMSE-a, ali unutar 2% od toga. Whenever we plot RMSE and other evaluation metrics as a function of lead time, we indicate with a dotted line the 3.5 day changeover point where we switch from evaluating HRES on 06z/18z to evaluating on 00z/12z. At this changeover point, we plot both the 06z/18z and 00z/12z metrics, showing the discontinuity clearly. 5.2.4 Razdoblje evaluacije Većina naših glavnih rezultata izvješćuje se za 2018. godinu (iz našeg testnog skupa), za koje je prvo vrijeme inicijaliziranja predviđanja bilo 2018-01_06:00:00 UTC i posljednje 2018-12-31_18:00:00, ili prilikom evaluacije HRES-a u dužim vodnim vremenima, 2018-01_00:00:00 i 2018-12-31_12:00:00. 5.3 Metode procjene We quantify the skillfulness of GraphCast, other ML models, and HRES using the root mean square error (RMSE) and the anomaly correlation coefficient (ACC), which are both computed against the models’ respective ground truth data. The RMSE measures the magnitude of the differences between forecasts and ground truth for a given variable indexed by 𝑗 and a given lead time 𝜏 (see Equation (20)). The ACC, L𝑗,𝜏 , is defined in Equation (29) and measures how well forecasts’ differences from climatology, i.e., the average weather for a location and date, correlate with the ground truth’s differences from climatology. For skill scores we use the normalized RMSE difference between model 𝐴 and baseline 𝐵 as (RMSE𝐴 − RMSE𝐵)/RMSE𝐵, and the normalized ACC difference as (ACC𝐴 − ACC𝐵)/(1 − ACC𝐵). Sve su mjerice izračunane pomoću preciznosti float32 i prijavljene pomoću nativnog dinamičkog raspona promjenjivih, bez normalizacije. . We quantified forecast skill for a given variable, 𝑥 𝑗, and lead time, 𝜏 = 𝑡Δ𝑑, using a latitude-weighted root mean square error (RMSE) given by Root mean square error (RMSE) Gdje • d0 ∈ Deval predstavlja datume inicijaliziranja predviđanja u skupu podataka o evaluaciji, • 𝑗 ∈ 𝐽 index variables and levels, e.g., 𝐽 = {z1000, z850, . . . , 2 T, MsL}, • i ∈ G0.25◦ su lokacije (latitude i longitude) koordinate u mreži, • x ̈d0+τ i xd0+τ su predviđene i ciljane vrijednosti za određenu razinu varijable, lokaciju i vrijeme vođenja, j, i j, i • ai je područje latitude-longitude mrežne ćelije (normalizirano na jedinicu prosjeka preko mreže) koje varira s latitudom. Uzimajući kvadratni korijen unutar prosjeka preko inicijalizacije predviđanja slijedimo konvenciju WeatherBench [41]. međutim, napominjemo da se to razlikuje od toga kako je RMSE definiran u mnogim drugim kontekstima, gdje se kvadratni korijen primjenjuje samo na konačni prosjek, to jest, U svim usporedbama koje uključuju predviđanja koja su filtrirana, truncirana ili razgrađena u sferičnom harmonijskom domenu, radi pogodnosti izračunavamo RMSEs izravno u sferičnom harmonijskom domenu, sa svim sredstvima unutar kvadratnog korijena, Root mean square error (RMSE), spherical harmonic domain. Ovdje se predviđaju i ciljaju koeficijenti sferičnih harmonika s ukupnim brojem valova j,l,m j,l,m Izračunavamo ove koeficijente iz mrežnih podataka koristeći diskretnu sferičnu harmoničnu transformaciju [13] s trokutom na valnom broju 719, koji je odabran kako bi se riješila rezolucija 0,25° (28km) naše mreže na ekvatoru. Ovaj RMSE usko približava mrežnu definiciju RMSE-a danu u jednadžbi (21), ali nije točno usporediva, dijelom zato što trokut na valnom broju 719 ne rješava dodatnu rezoluciju ravnokutne mreže u blizini polova. This is computed following the RMSE definition of Equation (21), but for a single location: Root mean square error (RMSE), per location. Također podijelimo RMSE samo po širini: where |lon(𝐺0.25◦ ) | = 1440 is the number of distinct longitudes in our regular 0.25° grid. To se izračunava prema RMSE definiciji Jednadžbe (21), ali ograničeno na određeni raspon površinskih visina, danih granicama zl ≤ zsurface < zu na površinskom geopotencijalu: Root mean square error (RMSE), by surface elevation. gdje ll označava funkciju indikatora. This quantity is defined as Mean bias error (MBE), per location. To kvantificira prosječnu veličinu predrasuda po lokaciji iz jednadžbe (26) i daje se Root-mean-square per-location mean bias error (RMS-MBE). To kvantificira korelaciju između predrasuda po lokaciji (jednakost (26)) dva različita modela A i B. Koristimo nesredišnji koeficijent korelacije zbog značenja izvora nule u mjerenjima predrasuda i izračunavamo ovu količinu prema Correlation of per-location mean bias errors. Također smo izračunali koeficijent korelacije anomalije za određenu promjenjivu, x j, i vrijeme vođenja, τ = tΔd, prema gdje je Cd0+τ klimatološki prosjek za određenu promjenjivu, razinu, širinu i dužinu te za dan godine koji sadrži vrijeme valjanosti d0 + τ. Klimatološka sredstva izračunata su pomoću podataka ERA5 između 1993. i 2016. godine. 5.4. Statistical methodology 5.4.1 Testiranje značajnosti za razliku u sredstvima For each lead time 𝜏 and variable-level 𝑗, we test for a difference in means between per-initialization-time RMSEs (defined in Equation (30)) for GraphCast and HRES. We use a paired two-sided 𝑡-test with correction for auto-correlation, following the methodology of [16]. This test assumes that time series of differences in forecast scores are adequately modelled as stationary Gaussian AR(2) processes. This assumption does not hold exactly for us, but is motivated as adequate for verification of medium range weather forecasts by the ECMWF in [16]. Nominalna veličina uzorka za naše testove je n = 730 na vrijeme dovoda ispod 4 dana, koja se sastoji od dvije inicijalizacije predviđanja dnevno tijekom 365 dana 2018. (Za vrijeme dovoda tijekom 4 dana imamo n = 729, vidjeti Odjeljak 5.4.2). Međutim, ti podaci (razlike u RMSE predviđanjima) su automatski korelirani u vremenu. Nakon [16] procjenjujemo faktor inflacije k za standardnu pogrešku koja to ispravlja. Vrijednosti k variraju između 1.21 i 6.75, s najvišim vrijednostima koje se obično vide na kratkom vremenu dovoda i na najnižim razinama tlaka. Vidjeti Tablicu 5 za detaljne rezultate naših testova značajnosti, uključujući p-vrijednosti, vrijednosti t test statistike i neff. 5.4.2 Prognoza usklađivanja Za vrijeme dovršetka τ manje od 4 dana, imamo predviđanja dostupna na 06z i 18z inicijaliziranje i valjanosti vremena svaki dan za GraphCast i HRES, i možemo testirati za razlike u RMSEs između tih pariranih predviđanja. Izračunavamo razlike koje koristimo za testiranje null hipoteze da E[diff-RMSE( j, τ, d0)] = 0 protiv dvosmjernog alterna-tive. As discussed in Section 5.2.3, at lead times of 4 days or more we only have HRES forecasts available at 00z and 12z initialization and validity times, while for the fairest comparison (Section 5.2.2) GraphCast forecasts must be evaluated using 06z and 18z initialization and validity times. In order to perform a paired test, we compare the RMSE of a GraphCast forecast with an interpolated RMSE of the two HRES forecasts either side of it: one initialized and valid 6 hours earlier, and the other initialized and valid 6 hours later, all with the same lead time. Specifically we compute differences: We can use these to test the null hypothesis 𝔼[diff-RMSEinterp( 𝑗, 𝜏, 𝑑0)] = 0, which again doesn’t depend on 𝑑0 by the stationarity assumption on the differences. If we further assume that the HRES RMSE time series itself is stationary (or at least close enough to stationary over a 6 hour window) then 𝔼[diff-RMSEinterp( 𝑗, 𝜏, 𝑑0)] = 𝔼[diff-RMSE( 𝑗, 𝜏, 𝑑0)] and the interpolated differences can also be used to test deviations from the original null hypothesis that 𝔼[diff-RMSE( 𝑗, 𝜏, 𝑑0)] = 0. This stronger stationarity assumption for HRES RMSEs is violated by diurnal periodicity, and in Section 5.2.3 we do see some systematic differences in HRES RMSEs between 00z/12z and 06z/18z validity times. However as discussed there, these systematic differences reduce substantially as lead time grows and they tend to favour HRES, and so we believe that a test of 𝔼[diff-RMSE( 𝑗, 𝜏, 𝑑0)] = 0 based on diff-RMSEinterp will be conservative in cases where GraphCast appears to have greater skill than HRES. 5.4.3 Intervali pouzdanosti za RMSE Trake pogreške u našim RMSE pločama vještina odgovaraju odvojenim intervalima pouzdanosti za E[RMSEGC] i E[RMSEHRES] (eliding ili sada argumenti j, τ, d0). Oni su proizvedeni iz dvostranog t-testa s korekcijom za autocorrelaciju koji je opisan gore, primijenjen odvojeno na GraphCast i HRES RMSE vremenske serije. Ti intervali povjerenja čine pretpostavku o stacionarnosti za zasebne vremenske serije GraphCast i HRES RMSE, što je, kao što je gore navedeno, snažnija pretpostavka da je stacionarnost razlika i nešto je prekršena. 5.4.4 Intervali povjerenja za RMSE ocjene vještina Iz t-testa opisanog u odjeljku 5.4.1 također možemo izvesti na standardni način intervale pouzdanosti za istinsku razliku u RMSEs, međutim, u našim pločama rezultata vještina želimo pokazati intervale pouzdanosti za istinsku RMSE ocjenu vještina, u kojoj je istinska razlika normalizirana istinskim RMSE HRES-a: Interval pouzdanosti za ovu količinu trebao bi uzeti u obzir neizvjesnost naše procjene istinskog HRES RMSE. Neka [ldiff, udiff] bude naš 1 − α/2 interval pouzdanosti za numerator (razlika u RMSEs), a [lHRES, uHRES] naš 1 − α/2 interval pouzdanosti za denominator (HRES RMSE). S obzirom na to da 0 < lHRES u svakom slučaju za nas, koristeći aritmetiku intervala i uniju vezanu dobivamo konzervativni 1 − α interval pouzdanosti Ove intervale pouzdanosti planiramo zajedno s našim procjenama RMSE ocjene vještina, ali imajte na umu da se ne oslanjamo na njih za testiranje značajnosti. Usporedba s prethodnim osnovnim linijama strojnog učenja Da bismo utvrdili kako se GraphCastova izvedba usporedila s drugim metodama ML, usredotočili smo se na Pangu-Weather [7], snažnu MLWP osnovnu liniju koja djeluje na rezoluciji od 0,25 °. Da bismo napravili najprije usporedbu, odlazimo od našeg protokola evaluacije i koristimo onaj opisan u [7]. Budući da su objavljeni rezultati Pangu-Weather dobiveni od inicijalizacije 00z/12z, koristimo iste inicijalizacije za GraphCast, umjesto 06z/18z, kao u ostatku ovog papira. To omogućuje da se oba modela inicijaliziraju na istim ulazima, koji uključuju istu količinu lookahead (+9 sati, vidjeti odjeljke 5.2.2 i 5.2). Budući da HR As shown in Figure 12, GraphCast (blue lines) outperforms Pangu-Weather [7] (red lines) on 99.2% of targets. For the surface variables (2 T, 10 U, 10 v, MsL), GraphCast’s error in the first several days is around 10-20% lower, and over the longer lead times plateaus to around 7-10% lower error. The only two (of the 252 total) metrics on which Pangu-Weather outperformed GraphCast was z500, at lead times 6 and 12 hours, where GraphCast had 1.7% higher average RMSE (Figure 12a,e). Dodatni rezultati provjere predviđanja Ovaj odjeljak pruža dodatnu analizu GraphCast performansi, dajući puniju sliku svojih prednosti i ograničenja. Odjeljak 7.1 nadopunjuje glavne rezultate papira na dodatne varijable i razine izvan z500. Odjeljak 7.2 dodatno analizira GraphCast performanse podijeljene po regijama, širine i tlaka razine (osobito razlikujući performanse ispod i iznad tropopause), ilustrira predrasude i RMSE po širini dužine i visine. Odjeljak 7.3 pokazuje da i multi-mesh i autoregresivni gubitak igraju važnu ulogu u performansi GraphCast. Odjeljak 7.4 detalji pristup optimalnog zamagljivanja primijenjen na HRES i GraphCast, kako bi se osiguralo da GraphCast poboljšan performan 7.1 Detaljni rezultati za dodatne varijable 7.1.1 RMSE i ACC Slika 13 dopunjuje Slika 2a–b i prikazuje RMSE i normaliziranu RMSE razliku u odnosu na HRES za GraphCast i HRES na kombinaciji 12 značajnih varijabilnih. Slika 14 prikazuje ACC i normaliziranu ACC razliku u odnosu na HRES za GraphCast i HRES na istoj kombinaciji 12 varijabilnih i nadopunjuje Slika 2c. ACC vještina je normalizirana ACC razlika između modela A i osnovne linije B kao (ACCA − ACCB)/(1 − RMSEB). 7.1.2 Detaljni rezultati testa značajnosti za RMSE usporedbe Table 5 provides further information about the statistical significance claims made in the main section about differences in RMSE between GraphCast and HRES. Details of the methodology are in Section 5.4. Here we give 𝑝-values, test statistics and effective sample sizes for all variables. For reasons of space we limit ourselves to three key lead times (12 hours, 2 days and 10 days) and a subset of 7 pressure levels chosen to include all cases where 𝑝 > 0.05 at these lead times. 7.1.3. Učinak nedavnih podataka na GraphCast An important feature of MLWP methods is they can be retrained periodically with the most recent data. This, in principle, allows them to model recent weather patterns that change over time, such as the ENSO cycle and other oscillations, as well as the effects of climate change. To explore how the recency of the training data influences GraphCast’s test performance, we trained four variants of GraphCast, with training data that always began in 1979, but ended in 2017, 2018, 2019, and 2020, respectively (we label the variant ending in 2017 as “GraphCast:<2018”, etc). We evaluated the variants, and HRES, on 2021 test data. Figure 15 shows the skill and skill scores (with respect to HRES) of the four variants of GraphCast, for several variables and complements Figure 4a. There is a general trend where variants trained to years closer to the test year have generally improved skill score against HRES. The reason for this improvement is not fully understood, though we speculate it is analogous to long-term bias correction, where recent statistical biases in the weather are being exploited to improve accuracy. It is also important to note that HRES is not a single NWP across years: it tends to be upgraded once or twice a year, with generally increasing skill on z500 and other fields [18, 22, 19, 20, 21]. To također može pridonijeti tome zašto GraphCast:<2018 i GraphCast:<2019, posebno, imaju niže ocjene vještina u odnosu na HRES u ranim prelivnim vremenima za evaluaciju testa 2021. primjećujemo da za druge varijable GraphCast:<2018 i GraphCast:<2019 i dalje imaju tendenciju da nadmašuju HRES. Ovi rezultati ističu ključnu značajku GraphCasta, u tome što omogućuje automatsko poboljšanje performansi ponovnim obučavanjem na nedavnim podacima. 7.2 Razdvojeni rezultati 7.2.1. RMSE by region Per-region evaluation of forecast skill is provided in Figures 17 and 18, using the same regions and naming convention as in the ECMWF scorecards (https://sites.ecmwf.int/ifs/scorecards/ scorecards-47r3HRES.html). We added some additional regions for better coverage of the entire planet. These regions are shown in Figure 16. 7.2.2. RMSE ocjena vještina prema širini i razini tlaka Na slici 19 planiramo normalizirane RMSE razlike između GraphCasta i HRES-a, kao funkciju razine tlaka i širine. On these plots, we indicate at each latitude the mean pressure of the tropopause, which separates the troposphere from the stratosphere. We use values computed for the ERA-15 dataset (1979-1993), given in Figure 1 of [44]. These will not be quite the same as for ERA5 but are intended only as a rough aid to interpretation. We can see from the scorecard in Figure 2 that GraphCast performs worse than HRES at the lowest pressure levels evaluated (50hPa). Figure 19 shows that the pressure level at which GraphCast starts to get worse is often latitude-dependent too, in some cases roughly following the mean level of the tropopause. The reasons for GraphCast’s reduced skill in the stratosphere are currently poorly understood. We use a lower loss weighting for lower pressure levels and this may be playing some role; it is also possible that there may be differences between the ERA5 and HRES-fc0 datasets in the predictability of variables in the stratosphere. 7.2.3. Biases by latitude and longitude In Figures 20 to 22, we plot the mean bias error (MBE, or just ‘bias’, defined in Equation (26)) of GraphCast as a function of latitude and longitude, at three lead times: 12 hours, 2 days and 10 days. In the plots for variables given on pressure levels, we have masked out regions whose surface elevation is high enough that the pressure level is below ground on average. We determine this to be the case when the surface geopotential exceeds a climatological mean geopotential at the same location and pressure level. In these regions the variable will typically have been interpolated below ground and will not represent a true atmospheric value. Da bismo kvantificirali prosječnu veličinu predrasuda po lokaciji prikazanih na slikama od 20 do 22, izračunali smo korijenski prosječni kvadrat grešaka prosječnih predrasuda po lokaciji (RMS-MBE, definiran u jednadžbi (26)). Ovi su prikazani na slici 23 za GraphCast i HRES kao funkciju vremena dovoda. možemo vidjeti da su predrasude GraphCasta u prosjeku manje od HRES-a za većinu varijabilnih do 6 dana. Također smo izračunali korelacijski koeficijent između GraphCast-a i HRES-ovih srednjih pogrešaka predrasuda po lokaciji (definirano u Jednakoj (27)), koji je prikazan kao funkcija vremena predrasuda na Slika 24. 7.2.4. RMSE ocjena vještina prema širini i dužini Kao u odjeljku 7.2.3, za varijable dane na razinama tlaka, prikrili smo regije čija je površinska visina dovoljno visoka da je razina tlaka ispod tla u prosjeku. Notable areas where HRES outperforms GraphCast include specific humidity near the poles (particularly the south pole); geopotential near the poles; 2m temperature near the poles and over many land areas; and a number of surface or near-surface variables in regions of high surface elevation (see also Section 7.2.5). GraphCast’s skill in these areas generally improves over longer lead times. However HRES outperforms GraphCast on geopotential in some tropical regions at longer lead times. At 12 hour and 2 day lead times both GraphCast and HRES are evaluated at 06z/18z initialization and validity times, however at 10 day lead times we must compare GraphCast at 06z/18z with HRES at 00z/12z (see Section 5). This difference in time-of-day may confound comparisons at specific locations for variables like 2m temperature (2 T) with a strong diurnal cycle. 7.2.5. RMSE skill score by surface elevation Na slici 25 vidimo da GraphCast čini se da je smanjio vještinu u regijama visoke visine za mnoge varijable u 12 sati vodećeg vremena.Da bismo to dodatno istražili, podijelili smo površinu zemlje na 32 bina po visini površine (dat u smislu geopotencijalne visine) i izračunali RMSEs unutar svakog bin prema jednadžbi (24). U kratkim vremenima vode, a posebno na 6 sati, GraphCastova vještina u odnosu na HRES smanjuje se s većom visinom površine, u većini slučajeva ispod vještine HRES-a na dovoljno visokim visinama. We note that GraphCast is trained on variables defined using a mix of pressure-level coordinates (for atmospheric variables) and height above surface coordinates (for surface-level variables like 2m temperature or 10m wind). The relationship between these two coordinates systems depends on surface elevation. Despite GraphCast conditioning on surface elevation we conjecture that it may struggle to learn this relationship, and to extrapolate it well to the highest surface elevations. In further work we would propose to try training the model on a subset of ERA5’s native model levels instead of pressure levels; these use a hybrid coordinate system [14] which follows the land surface at the lowest levels, and this may make the relationship between surface and atmospheric variables easier to learn, especially at high surface elevations. Promjenjive koje koriste koordinate na razini tlaka interpoliraju se ispod tla kada razina tlaka premašuje površinski tlak. GraphCast ne daje nikakvu eksplicitnu indikaciju da se to dogodilo i to može pridonijeti izazovu učenja predviđanja na visokim površinskim visinama. Finally, our loss weighting is lower for atmospheric variables at lower pressure levels, and this may affect skill at higher-elevation locations. Future work might consider taking surface elevation into account in this weighting. 7.3. GraphCast ablations 7.3.1 Multi-mesh ablacija Da bismo bolje razumjeli kako multi-mesh reprezentacija utječe na performanse GraphCast, usporedimo GraphCast performanse s verzijom modela obučene bez multi-mesh reprezentacije. Arhitektura potonjeg modela je identična s GraphCast (uključujući isti koder i dekoder, i isti broj čvorova), osim da u procesu blok, grafikon sadrži samo rubove iz najboljeg icosahedron mreže M6 (245,760 rubova, umjesto 327,660 za GraphCast). Kao rezultat, ablated model može samo propagirati informacije s krajevima kratkog dometa, dok GraphCast sadrži dodatne rubove dugog dometa. GraphCast koristi od multi-mesh strukture za sve predviđene varijable, osim za vrijeme dovoda iznad 5 dana na 50 hPa. Poboljšanje je posebno izraženo za geopotencijalne na svim razinama tlaka i za prosječni tlak na razini mora za vrijeme dovoda ispod 5 dana. Srednja ploča prikazuje karticu rezultata koji uspoređuje model dovoda na HRES, dok desna ploča uspoređuje GraphCast na HRES, pokazujući da je multi-mesh ključan za GraphCast da nadmaši HRES na geopotencijalne na vrijeme dovoda ispod 5 dana. 7.3.2 Učinak autoregresivnog treninga Analizirali smo performanse varijacija GraphCasta koje su trenirane s manje autoregresivnih (AR) koraka7, što bi ih trebalo ohrabriti da poboljšaju svoje kratko vrijeme dovršetka na štetu dužeg vremena dovršetka. Kao što je prikazano na Slika 30 (s svjetlijim plavim linijama koje odgovaraju obuci s manje AR koraka) otkrili smo da modeli obučeni s manje AR koraka imaju tendenciju da trgovaju duže za kraće vrijeme dovršetka točnosti. Ovi rezultati sugeriraju potencijal za kombiniranje više modela s različitim brojevima AR koraka, npr. za kratko, srednje i dugo vrijeme dovršetka, kako bi iskoristili svoje odgovarajuće prednosti u cijelom horizontu predviđanja. 7.4 Optimalno blurring 7.4.1. Effect on the comparison of skill between GraphCast and HRES U slikama 31 i 32 uspoređujemo RMSE HRES-a s GraphCastom prije i nakon što je optimalno zamagljivanje primijenjeno na oba modela. 7.4.2. Filtering methodology We chose filters which minimize RMSE within the class of linear, homogeneous (location invariant), isotropic (direction invariant) filters on the sphere. These filters can be applied easily in the spherical harmonic domain, where they correspond to multiplicative filter weights that depend on the total wavenumber, but not the longitudinal wavenumber [12]. For each initialization 𝑑0, lead time 𝜏, variable and level 𝑗, we applied a discrete spherical harmonic transform [13] to predictions 𝑥ˆ𝑑0+𝜏 and targets 𝑥𝑑0+𝜏, obtaining spherical harmonic coefficients 𝑓ˆ𝑑0+𝜏 𝑗 𝑗 𝑗,𝑙,𝑚 and 𝑓 𝑑0+𝜏 for each pair of total wavenumber 𝑙 and longitudinal wavenumber 𝑚. To resolve the 0.25° (28km) resolution of our grid at the equator, we use a triangular truncation at total wavenumber 719, which means that 𝑙 ranges from 0 to 𝑙𝑚𝑎𝑥 = 719, and for each 𝑙 the value of 𝑚 ranges from −𝑙 to 𝑙. Zatim smo pomnožili svaki predviđeni koeficijent f ̈d0+τ s težinom filtera bτ , koja je neovisna o j,l,m j,l uzdužnom broju valova m. Težine filtera bile su opremljene pomoću najmanjih kvadrata kako bi se smanjila prosječna kvadratna pogreška, kako je izračunato u sferičnom harmoničnom domenu: Prilikom evaluacije filtriranih predviđanja, izračunali smo MSE u sferičnom harmonijskom domenu, kako je detaljno opisano u Jednadžbi (22). Postavljanjem različitih filtera za svako vrijeme vodenja, stupanj zamagljivanja bio je slobodan povećati s povećanjem neizvjesnosti na duže vrijeme vodenja. While this method is fairly general, it also has limitations. Because the filters are homogeneous, they are unable to take into account location-specific features, such as orography or land-sea boundaries, and so they must choose between over-blurring predictable high-resolution details in these locations, or under-blurring unpredictable high-resolution details more generally. This makes them less effective for some surface variables like 2 T, which contain many such predictable details. Future work may consider more complex post-processing schemes. Alternativni način približavanja uvjetovanog očekivanja (a time i poboljšanja RMSE-a) za baznu liniju predviđanja ECMWF-a bio bi procjena ukupnog prosjeka sustava predviđanja ENS-a, umjesto deterministske HRES-ove prognoze. 7.4.3. Transfer functions of the optimal filters Težine filtera su vizualizirane na slici 33, koja prikazuje omjer izlazne snage za ulaznu snagu filtera, na logaritmičkoj decibelskoj ljestvici, kao funkciju valne duljine. (S upućivanjem na Jednadžba (35), to je jednako 20 log10(bτ ) za valnu duljinu Ce/l koja odgovara ukupnom broju valova l.) For both HRES and GraphCast, we see that it is optimal for MSE to attenuate power over some short-to-mid wavelengths. As lead times increase, the amount of attenuation increases, as does the wavelength at which it is greatest. In optimizing for MSE, we seek to approximate a conditional expectation which averages over predictive uncertainty. Over longer lead times this predictive uncertainty increases, as does the spatial scale of uncertainty about the location of weather phenomena. We believe that this largely explains these changes in optimal filter response as a function of lead time. Vidimo da HRES općenito zahtijeva više zamagljivanja od GraphCasta, jer GraphCastove predviđanja već zamagljuju u određenoj mjeri (vidi Odjeljak 7.5.3), dok HRES ne. The optimal filters are also able to compensate, to some extent, for spectral biases in the predictions of GraphCast and HRES. For example, for many variables in our regridded ERA5 dataset, the spectrum cuts off abruptly for wavelengths below 62km that are unresolved at ERA5’s native 0.28125◦ resolution. GraphCast has not learned to replicate this cutoff exactly, but the optimal filters are able to implement it. Također primjećujemo da postoje primjetni vrhovi u GraphCast filtra reakcije oko 100 km valne duljine za z500, koji nisu prisutni za HRES. vjerujemo da su ti filtriraju male, lažne artefakte koje su uvedene GraphCast oko tih valnih duljina kao nuspojava mrežnih i mrežnih transformacija izvedenih unutar modela. 7.4.4 Odnos između autoregresivnog obzora treninga i zamagljivanja In Figure 34 we use the results of optimal blurring to investigate the connection between autoregressive training and the blurring of GraphCast’s predictions at longer lead times. U prvom redu Slika 34, vidimo da modeli obučeni s dužim autoregresivnim obzorima treninga imaju manje koristi od optimalnog zamagljivanja, a da se prednosti optimalnog zamagljivanja općenito počinju akumulirati tek nakon što se vodilo vrijeme koje odgovara horizontu do kojeg su obučeni. Bilo bi prikladno ako bismo mogli zamijeniti obuku na dužem horizontu jednostavnom strategijom nakon obrade kao što je optimalno zamagljivanje, ali to se ne čini da je slučaj: u drugom redu Slika 34 vidimo da autoregresivna obuka na dužem horizontu i dalje rezultira nižim RMSE, čak i nakon što je primijenjeno optimalno zamagljivanje. Ako netko želi predviđanja koja su u nekom smislu minimalno zamagljena, mogao bi koristiti model osposobljen za mali broj autoregresivnih koraka. To bi, naravno, rezultiralo višim RMSEs u dužim vremenima vode, a naši rezultati ovdje sugeriraju da ti viši RMSEs ne bi samo zbog nedostatka zamagljivanja; jedan bi kompromitirao na drugim aspektima vještine u dužim vremenima vode također. 5.6 Spektralna analiza 7.5.1 Spektralna dekompozicija prosječne kvadratne pogreške In Figures 35 and 36 we compare the skill of GraphCast with HRES over a range of spatial scales, before and after optimal filtering (see details in Section 7.4). The MSE, via its spectral formulation (Equation (22)) can be decomposed as a sum of mean error powers at different total wavenumbers: gdje lmax = 719 kao u Jednadžbi (22). svaki ukupni broj valova l odgovara otprilike valnoj duljini Ce/l, gdje Ce je obim Zemlje. We plot power density histograms, where the area of each bar corresponds to 𝑆 𝑗,𝜏(𝑙), and the bars center around log10(1 + 𝑙) (since a log frequency scale allows for easier visual inspection, but we must also include wavenumber 𝑙 = 0). In these plots, the total area under the curve is the MSE. Na vrijeme dovoda od 2 dana ili više, za većinu varijabilnih GraphCast poboljšava sposobnost HRES-a ujednačeno na svim valnim duljinama. (2m temperatura je primjetna iznimka). At shorter lead times of 12 hours to 1 day, for a number of variables (including z500, T500, T850 and U500) HRES has greater skill than GraphCast at scales in the approximate range of 200-2000km, with GraphCast generally having greater skill outside this range. 7.5.2. RMSE as a function of horizontal resolution In Figure 37, we compare the skill of GraphCast with HRES when evaluated at a range of spatial resolutions. Specifically, at each total wavenumber 𝑙trunc, we plot RMSEs between predictions and targets which are both truncated at that total wavenumber. This is approximately equivalent to a wavelength 𝐶𝑒/𝑙trunc where 𝐶𝑒 is the earth’s circumference. RMSEs između trunciranih predviđanja i ciljeva mogu se dobiti pomoću kumulativnih suma prosječnih pogrešnih snaga S j,τ(l) definiranih u jednadžbi (37), prema: Figure 37 shows that in most cases GraphCast has lower RMSE than HRES at all resolutions typically used for forecast verification. This applies before and after optimal filtering (see Section 7.4). Exceptions include 2 meter temperature at a number of lead times and resolutions, T 500 at 12 hour lead times, and U 500 at 12 hour lead times, where GraphCast does better at 0.25° resolution but HRES does better at resolutions around 0.5◦ to 2.5◦ (corresponding to shortest wavelengths of around 100 to 500 km). In particular we note that the native resolution of ERA5 is 0.28125◦ corresponding to a shortest wavelength of 62km, indicated by a vertical line in the plots. HRES-fc0 targets contain some signal at wavelengths shorter than 62km, but the ERA5 targets used to evaluate GraphCast do not, natively at least (see Section 7.5.3). In Figure 37 we can see that evaluating at 0.28125◦ resolution instead of 0.25° does not significantly affect the comparison of skill between GraphCast and HRES. 7.5.3. Spectra of predictions and targets Slika 38 uspoređuje spektar snage predviđanja GraphCasta, ERA5 ciljeve protiv kojih su obučeni, i HRES-fc0. There are noticeable differences in the spectra of ERA5 and HRES-fc0, especially at short wavelengths. These differences may in part be caused by the methods used to regrid them from their respective native IFS resolutions of TL639 (0.28125◦) and TCo1279 (approx. 0.1◦, [36]) to a 0.25° equiangular grid. However even before this regridding is done there are differences in IFS versions, settings, resolution and data assimilation methodology used for HRES and ERA5, and these differences may also affect the spectra. Since we evaluate GraphCast against ERA5 and HRES against HRES-fc0, this domain gap remains an important caveat to attach to our conclusions. Differences between HRES and ERA5 Vidimo smanjenu snagu na kratkim i srednjim valnim duljinama u GraphCastovim predviđanjima koja se dodatno smanjuje s vremenom vodenja. vjerujemo da to odgovara zamagljivanju koje je GraphCast naučio izvršiti u optimizaciji za MSE. Blurring in GraphCast Vjerujemo da odgovaraju malim, lažnim artefaktima koji su uvedeni unutarnjim transformacijama mreže do mreže i mreže do mreže koje je GraphCast obavio na svakom autoregresivnom koraku. Peaks for GraphCast around 100km wavelengths Naposljetku, napominjemo da, dok su ove razlike u snazi na kratkim valnim duljinama vrlo primjetne u log skali i relativnim pločama, ove kratke valne duljine malo pridonose ukupnoj snazi signala. Dodatni rezultati predviđanja teških događaja In this section, we provide additional details about our severe event forecasting analysis. We note that GraphCast is not specifically trained for those downstream tasks, which demonstrates that, beyond improved skills, GraphCast provides useful forecast for tasks with real-world impact such as tracking cyclones (Section 8.1), characterizing atmospheric rivers (Section 8.2), and classifying extreme temperature (Section 8.3). Each task can also be seen as evaluating the value of GraphCast on a different axis: spatial and temporal structure of high-resolution prediction (cyclone tracking task), ability to non-linearly combine GraphCast predictions to derive quantities of interest (atmospheric rivers task), and ability to characterize extreme and rare events (extreme temperatures). 8.1 Prognoza tropskih ciklona U ovom odjeljku detaljno opisujemo protokole procjene koje smo koristili za praćenje ciklona (Odjeljak 8.1.1 o dodatcima) i analizu statističke značajnosti (Odjeljak 8.1.2 o dodatcima), pružamo dodatne rezultate (Odjeljak 8.1.3 o dodatcima) i opisujemo naš tracker i njegove razlike s onim iz ECMWF-a (Odjeljak 8.1.4 o dodatcima). 8.1.1 Protokol o ocjenjivanju Kao što je detaljno navedeno u Dodatku odjeljku 5.2.2, GraphCast je inicijaliziran od 06z i 18z, umjesto 00z i 12z, kako bi se izbjeglo dajući mu prednost u pogledu predviđanja u odnosu na HRES. Međutim, HRES ciklonske staze u arhivu TIGGE [8] su samo inicijalizirane na 00z i 12z. Ova razlika nas sprječava od odabira događaja u kojima inicijaliziranje i vodi vremensku mapu na isto vrijeme valjanosti za obje metode, jer uvijek postoji 6h nesukladnost. Umjesto toga, za usporedbu HRES i GraphCast na skupu sličnih događaja, nastavljamo kako slijedi. Mi uzimamo u obzir sve datume i vrijeme za koje je naša baza HRACS [29, 28] identificirala prisutnost Budući da računamo pogrešku u odnosu na istu temeljnu istinu (tj. IBTrACS), evaluacija nije podložna istim ograničenjima opisanima u odjeljku 5.2.2 dodataka, tj. ciljevi za oba modela uključuju istu količinu predviđanja. Ovo je u suprotnosti s većinom naših evaluacija u ovom dokumentu, gdje ciljevi za HRES (tj. HRES-fc0) uključuju +3h predviđanja, a oni za GraphCast (od ERA5) uključuju +3h ili +9h, što nam dovodi do izvješćivanja o rezultatima samo za predviđanja s odgovarajućim predviđanjem (multiple od 12h). Za određenu prognozu, pogreška između predviđenog centra ciklona i istinskog centra izračunava se pomoću geodetske udaljenosti. 8.1.2. Statistical methodology Izračunavanje statističke pouzdanosti u praćenju ciklona zahtijeva posebnu pozornost u dva aspekta: 1. Postoje dva načina za određivanje broja uzoraka. Prvi je broj tropskih događaja ciklona, koji se može pretpostaviti da su uglavnom neovisni događaji. Drugi je broj podatkovnih točaka korištenih po vodi, koji je veći, ali računa za povezane točke (za svaki tropski događaj ciklona višestruke predviđanja su napravljena na interval od 6h). Odabrali smo koristiti prvu definiciju koja pruža konzervativnije procjene statističkog značaja. Oba broja su prikazana za vrijeme vodjenja od 1 do 5 dana na x-osi Dodatka Slika 39. Greške praćenja po primjeru HRES-a i GraphCasta su korelirane. Stoga je statistička varijancija u njihovoj razlici mnogo manja od njihove zajedničke varijancije. Tako izvješćujemo o povjerenju da je GraphCast bolji od HRES-a (vidi Dodatke Slika 39b) uz povjerenje po modelu (vidi Dodatke Slika 39a). S obzirom na gore navedena dva razmatranja, radimo bootstrapping s intervalima pouzdanosti od 95% na razini ciklona. Za određeno vrijeme vođenja, uzimamo u obzir sve odgovarajuće parove vremena inicijaliziranja / vremena vođenja i održavamo popis od kojeg ciklona dolaze (bez dupliranja). Za procjenu bootstrap, uzorke iz ove liste ciklona (s zamjenom) i primjenjujemo medianu (ili prosjek) na odgovarajuće parove vremena inicijaliziranja / vremena vođenja. Imajte na umu da nam to daje mnogo konzervativnije granice povjerenja nego što je bootstrapping na razini parova vremena inicijaliziranja / vremena vođenja, jer je to ekvivalent pretpostavci da su svi uzorci bootstrap koji dolaze iz uzorka ciklona (obično u Na primjer, pretpostavimo da za određeno vrijeme vode imamo pogreške (50, 100, 150) za ciklon A, (300, 200) za ciklon B i (100, 100) za ciklon C, a A ima više uzoraka. 8.1.3. Results In Supplements Figure 3a-b, we chose to show the median error rather than the mean. This decision was made before computing the results on the test set, based on the performance on the validation set. On the years 2016–2017, using the version of GraphCast trained on 1979–2015, we observed that, using early versions of our tracker, the mean track error was dominated by very few outliers and was not representative of the overall population. Furthermore, a sizable fraction of these outliers were due to errors in the tracking algorithm rather than the predictions themselves, suggesting that the tracker was suboptimal for use with GraphCast. Because our goal is to assess the value of GraphCast forecast, rather than a specific tracker, we show median values, which are also affected by tracking errors, but to a lesser extent. In figure Figure 40 we show how that the distribution of both HRES and GraphCast track errors for the test years 2018–2021 are non-gaussian with many outliers. This suggests the median is a better summary statistic than the mean. Dodatke Slika 39 nadopunjuje Slika 3a-b prikazivanjem prosječne pogreške u traci i odgovarajuće parirane analize. napominjemo da koristeći konačnu verziju našeg tracker (Dodatke odjeljak 8.1.4), GraphCast prosječni rezultati su slični srednjoj, s GraphCast značajno nadmašuje HRES za vrijeme vođenja između 2 i 5 dana. Zbog poznatih efekata zamagljivanja, koji imaju tendenciju da glatke krajnosti koje tracker koristi za otkrivanje prisutnosti ciklona, metode ML mogu spustiti postojeće ciklone češće nego NWPs. Spuštanje ciklona vrlo je povezano s velikom pogreškom pozicije. Stoga, uklanjanje takvih predviđanja iz evaluacije, gdje bi model ML bio posebno loš, moglo bi mu dati nepoštenu prednost. Da bismo izbjegli ovaj problem, provjeravamo da naš tracker koji traži hiperparamete (vidi Dodatke odjeljak 8.1.4) propusti sličan broj ciklona kao HRES. Dodatke Slika 41 pokazuje da na test setu (2018-2021), GraphCast i HRES pada sličan broj ciklona, osiguravajući da su naše usporedbe što pravednije. Dodatke Slika 42 i 43 prikazuju srednju pogrešku i pariranu analizu kao funkciju vremena vodenja, podijeljenog po kategoriji ciklona, gdje je kategorija definirana na ljestvici Saffir-Simpson Hurricane Wind Scale [47], s kategorijom 5 koja predstavlja najjače i najštetnije oluje (napomena, koristimo kategoriju 0 za predstavljanje tropskih oluja). Otkrili smo da GraphCast ima jednake ili bolje performanse od HRES-a u svim kategorijama. Za kategoriju 2, a posebno za kategoriju 5 (najintenzivnije događaje), GraphCast je znatno bolji od HRES-a, kao što pokazuje parirana analiza po stazi. 8.1.4 Tracker detalji The tracker we used for GraphCast is based on our reimplementation of ECMWF’s tracker [35]. Because it is designed for 0.1° HRES, we found it helpful to add several modifications to reduce the amount of mistracked cyclones when applied to GraphCast predictions. However, tracking errors still occur, which is expected from tracking cyclone from 0.25° predictions instead of 0.1°. We note that we do not use our tracker for the HRES baseline, as its tracks are directly recovered from the TIGGE archives [8]. Prvo dajemo sažetak na visokoj razini podrazumijevanja od ECMWF, prije objašnjenja izmjena koje smo napravili i naš postupak donošenja odluka. S obzirom na predviđanja modela varijabilnih 10 U, 10 V, MsL, kao i U, v i z na razinama tlaka 200, 500, 700, 850 i 1000 hPa tijekom višestrukih vremenskih koraka, ECMWF tracker [35] postupno obrađuje svaki korak kako bi iterativno predvidio lokaciju ciklona na cijeloj trajektoriji. Svakih 6 sati predviđanje tracker ima dva glavna koraka. U prvom koraku, na temelju trenutne lokacije ciklona, tracker izračunava procjenu sljedeće lokacije, 6 sati unaprijed. ECMWF tracker Da bi se izračunala procjena lokacije sljedećeg ciklona, tracker pomiče trenutnu procjenu pomoću pomicanja izračunanog kao prosjek dva vektorja: 1) pomicanje između posljednje dvije lokacije staze (tj. linearna ekstrapolacija) i 2) procjenu upravljanja vjetrom, prosječnošću brzine vjetra U i v na prethodnoj poziciji staze na razinama tlaka 200, 500, 700 i 850 hPa. Nakon što se izračuna procjena lokacije sljedećeg ciklona, tracker pregledava sve lokalne minima prosječnog tlaka na razini mora (MsL) unutar 445 km od ove procjene. Provjera vrtoglavice: maksimalna vrtoglavica na 850 hPa unutar 278 km od lokalnih minima je veća od 5 · 10−5 s−1 za sjevernu hemisferu, ili je manja od −5 · 10−5s−1 za južnu hemisferu. Provjera brzine vjetra: ako je kandidat na kopnu, maksimalna brzina vjetra od 10 m unutar 278 km je veća od 8 m/s. 3. Thickness check: if the cyclone is extratropical, there is a maximum of thickness between 850 hPa and 200 hPa within a radius of 278 km, where the thickness is defined as z850-z200. Ako nijedan minimum ne zadovoljava sve te uvjete, tracker smatra da nema ciklona. ECMWF-ov tracker omogućuje ciklonima da kratko nestanu pod nekim uvjetima ugla prije nego što se ponovno pojave. Analizirali smo pogreške na ciklonima iz naših godina validiranja (2016–2017), koristeći verziju GraphCasta osposobljenu na 1979–2015, i izmijenili podrazumevanu ponovnu implementaciju ECMWF trackera kako je opisano u nastavku. Our modified tracker Nalazili smo ovaj parametar kritičnim i tražili bolju vrijednost među sljedećim opcijama: 445 × f za f u 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (originalna vrijednost). 2. The next step vicinity radius determines how strict multiple checks are. We also found this parameter to be critical and searched a better value among the following options: 278 × 𝑓 for f in 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (original value). 3. sljedeći korak procjena ECMWF koristi 50-50 težina između linearne ekstrapolacije i vjetro upravljanje vektorima. U našem slučaju gdje vjetar je predviđen na 0,25 ° rezolucije, pronašli smo vjetro upravljanje na ponekad prepreka procjene. To nije iznenađujuće jer vjetar nije prostorno glatko polje, a tracker je vjerojatno prilagođen za iskorištavanje 0,1 ° rezolucije predviđanja. Tako smo hiper-parametar pretražio težinu među sljedećim opcijama: 0.0, 0.1, 0.33, 0.5 (originalna vrijednost). Primijetili smo da je došlo do višestrukih pogrešaka kada je staza oštro preokrenula smjer, odlazeći protiv svog prethodnog smjera.Na taj način, uzimamo u obzir samo kandidate koji stvaraju kut između prethodnog i novog smjera ispod d stupnjeva, gdje je d pretraživana među tim vrijednostima: 90, 135, 150, 165, 175, 180 (tj. nema filtera, izvorna vrijednost). Primijetili smo da su višestruke mistične staze napravile velike skokove, zbog kombinacije bučnog upravljanja vjetrom i značajki koje su bile teške za razlučivanje za slabe ciklone.Na taj način, istražili smo procjenu kretanja izvan x kilometara (preusmjeravanjem delta s posljednjim središtem), tražeći sljedeće vrijednosti za x: 445 × f za f u 0.25, 0.5, 1.0, 2.0, 4.0, ∞ (tj. bez klipanja, izvorna vrijednost). During the hyper-parameter search, we also verified on validation data that the tracker applied to GraphCast dropped a similar number of cyclones as HRES. 8.2 Atmosferne rijeke The vertically integrated water vapor transport (IvT) is commonly used to characterize the intensity of atmospheric rivers [38, 37]. Although GraphCast does not directly predict IvT and is not specifically trained to predict atmospheric rivers, we can derive this quantity from the predicted atmospheric variables specific humidity, Q, and horizontal wind, (U, v), via the relation [38]: gdje je g = 9.80665 m/s2 ubrzanje zbog gravitacije na površini Zemlje, pb = 1000 hPa je donji tlak, a pt = 300 hPa je gornji tlak. Evaluation of IvT using the above relation requires numerical integration and the result therefore depends on the vertical resolution of the prediction. GraphCast has a vertical resolution of 37 pressure levels which is higher than the resolution of the available HRES trajectories with only 25 pressure levels. For a consistent and fair comparison of both models, we therefore only use a common subset of pressure levels, which are also included in the WeatherBench benchmark, when evaluating IvT 8, namely [300, 400, 500, 600, 700, 850, 925, 1000] hPa. U skladu s ostatkom našeg protokola evaluacije, svaki model se ocjenjuje prema vlastitoj "analizi". Za GraphCast, izračunavamo IvT na temelju njegovih predviđanja i uspoređujemo ga s IvT-om izračunanim analogno iz ERA5. Slično prethodnom radu [10], slika 44 izvještava o RMSE-ovoj srednjoj ocjeni vještina i vještina u obalnoj Sjevernoj Americi i Istočnom Pacifiku (od 180°W do 110°W dužine i 10°N do 60°N širine) tijekom hladne sezone (januar-april i listopad-december 2018), što odgovara regiji i razdoblju s čestim atmosferskim rijekama. 8.3 Ekstremna vrućina i hladnoća Proučavamo predviđanje ekstremne topline i hladnoće kao problem binarne klasifikacije [35, 32] usporedbom može li određeni model predviđanja točno predvidjeti hoće li vrijednost za određenu promjenjivu biti iznad (ili ispod) određenog percentila raspodjele referentne povijesne klimatologije (na primjer iznad 98% percentila za ekstremnu toplinu, a ispod 2% percentila za ekstremnu hladnoću). Nakon prethodnog rada [35], referentna klimatologija dobiva se odvojeno za (1) svaku promjenjivu (2) svaki mjesec godine, (3) svako vrijeme dana, (4) svaku koordinatu širine/dužine i (5) svaku razinu tlaka (ako je primjenjivo). To čini otkrivanje ekstremnih vrijednosti kontrastnijim uklanjanjem učinka dnevnih i sezonskih cikl Budući da je krajnje predviđanje, po definiciji, neravnoteženi problem klasifikacije, baziramo našu analizu na precizno-povratnim plotovima koji su dobro prikladni za ovaj slučaj [42]. Preciznost-povratna krivulja dobiva se promjenom slobodnog parametra „dobitka“ koji se sastoji od faktora razmjera u odnosu na prosječnu vrijednost klimatologije, tj. skalirana prognoza = dobitak × (prognoza − prosječna klimatologija) + prosječna klimatologija. To ima učinak pomicanja granice odluke i omogućuje proučavanje različitih trgovinskih razmjena između lažnih negativnih i lažnih pozitivnih. Intuitivno, 0 dobitka će proizvesti nula pozitivnih predviđanja (npr. nula lažnih Svoje analize usredotočavamo na varijable koje su relevantne za ekstremne temperaturne uvjete, posebno 2 T [35, 32], te također T 850, z500 koje ECMWF često koristi za karakterizaciju toplinskih valova [34]. Nakon prethodnog rada[32], za ekstremnu toplinu prosječno smo u lipnju, srpnju i kolovozu na kopnu u sjevernoj hemisferi (širina > 20◦) i u prosincu, siječnju i veljači na kopnu u južnoj hemisferi (širina < -20◦). Za ekstremnu hladnoću razmijenili smo mjeseca za sjevernu i južnu hemisfere. Vidjeti potpune rezultate u Slika 45. Predviđanje vizualizacije U ovom završnom odjeljku pružamo nekoliko vizualizacijskih primjera predviđanja koje je GraphCast napravio za varijable 2 T (slika 47), 10 U (slika 48), MsL (slika 49), z500 (slika 50), T 850 (slika 51), v 500 (slika 52), Q 700 (slika 53). References [1] Ferran Alet, Adarsh Keshav Jeewajee, Maria Bauza Villalonga, Alberto Rodriguez, Tomas Lozano-Perez i Leslie Kaelbling. Graph elements networks: adaptive, structured computing and memory. In International Conference on Machine Learning, pages 212–222. [2] Kelsey R Allen, Yulia Rubanova, Tatiana Lopez-Guevara, William Whitney, Alvaro Sanchez-Gonzalez, Peter Battaglia i Tobias Pfaff. učenje rigidne dinamike s grafičkim mrežama interakcije lica. arXiv preprint arXiv:2212.03574, 2022. [3] Jimmy Lei Ba, Jamie Ryan Kiros i Geoffrey E. Hinton. standardizacija sloja. arXiv, 2016. [4] Igor Babuschkin, Kate Baumli, Alison Bell, Surya Bhupatiraju, Jake Bruce, Peter Buchlovsky, David Budden, Trevor Cai, Aidan Clark, Ivo Danihelka, Claudio Fantacci, Jonathan Godwin, Chris Jones, Ross Hemsley, Tom Hennigan, Matteo Hessel, Shaobo Hou, Steven Kapturowski, Thomas Keck, Iurii Kemaev, Michael King, Markus Kunesch, Lena Martens, Hamza Merzic, Vladimir Mikulik, Tamara Norman, John Quan, George Papamakarios, Roman Ring, Francisco Ruiz, Alvaro Sanchez, Rosalia Schneider, Eren Sezener, Stephen Spencer, Srivatsan Srinivasan, Luyu, Wangciech Wojciech Stokowiec i Fabio Viola. // github.com/Deepmind, 2020. godine [5] Peter Battaglia, Razvan Pascanu, Matthew Lai, Danilo Jimenez Rezende, et al. Interakcijske mreže za učenje o objektima, odnosima i fiziki. [6] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Relativne induktivne predrasude, duboko učenje i grafičke mreže. arXiv preprint arXiv:1806.01261, 2018. [7] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu i Qi Tian. Pangu-Vrijeme: 3D model visoke rezolucije za brzu i točnu globalnu vremensku prognozu. arXiv preprint arXiv:2211.02556, 2022. [8] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. The THORPEX interactive grand global ensemble. Bulletin of the American Meteorological Society, 91(8):1059–1072, 2010. [9] James Bradbury, Roy Frostig, Peter Hawkins, Matthew James Johnson, Chris Leary, Dougal Maclaurin, George Necula, Adam Paszke, Jake VanderPlas, Skye Wanderman-Milne i Qiao Zhang. JAX: komposabilne transformacije programa Python+NumPy. http://github. com/google/jax, 2018. [10] WE Chapman, AC Subramanian, L Delle Monache, SP Xie i FM Ralph. Poboljšanje prognoza atmosferskih rijeka pomoću strojnog učenja. Geophysical Research Letters, 46(17-18):10627-10635, 2019. [11] Tianqi Chen, Bing Xu, Chiyuan Zhang i Carlos Guestrin. Obuka duboke mreže s troškovima sublinearne memorije. arXiv preprint arXiv:1604.06174, 2016. [12] Balaji Devaraju. Razumijevanje filtriranja na sferi: Iskustva iz filtriranja GRACE podataka. doktorska disertacija, Sveučilište u Stuttgartu, 2015. [13] J R Driscoll and D M Healy. Computing fourier transforms and convolutions on the 2-sphere. Matematika 15(2):202–250, lipanj 1994. [14] ECMWF. IFS dokumentacija CY41R2 - dio III: Dinamika i numerički postupci. https: //www.ecmwf.int/node/16647, 2016. [15] Meire Fortunato, Tobias Pfaff, Peter Wirnsberger, Alexander Pritzel i Peter Battaglia. multi-scale meshgraphnets. arXiv preprint arXiv:2210.00612, 2022. [16] Alan J Geer. značaj promjena u rezultatima srednjeg dometa predviđanja. Tellus A: Dinamička meteorologija i oceanografija, 68(1):30229, 2016. [17] Jonathan Godwin, Thomas Keck, Peter Battaglia, Victor Bapst, Thomas Kipf, Yujia Li, Kimberly Stachenfeld, Petar Veličković i Alvaro Sanchez-Gonzalez. [18] T. Haiden, Martin Janousek, Jean-Raymond Bidlot, R. Buizza, L. Ferranti, F. Prates i Frédéric Vitart. Procjena predviđanja ECMWF-a, uključujući ažuriranje 2018. https://www.ecmwf. int/node/18746, 10/2018 2018. [19] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, Crtistina Prates, i David Richardson. Procjena predviđanja ECMWF-a, uključujući ažuriranje 2020. https://www.ecmwf.int/node/19879, 01/2021 2021. [20] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti i Fernando Prates. Procjena predviđanja ECMWF-a, uključujući nadogradnju 2021. https://www. ecmwf.int/node/20142, 09/2021 2021. [21] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, Fernando Prates i David Richardson. Procjena predviđanja ECMWF-a, uključujući nadogradnju 2021. https://www.ecmwf.int/node/20469, 09/2022 2022. [22] Thomas Haiden, Martin Janousek, Frédéric Vitart, Laura Ferranti i Fernando Prates. Procjena predviđanja ECMWF-a, uključujući nadogradnju za 2019. https://www.ecmwf.int/node/ 19277, 11/2019 2019. Tom Hennigan, Trevor Cai, Tamara Norman i Igor Babuschkin. Haiku: Sonet za JAX. http://github.com/deepmind/dm-haiku, 2020. [24] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. Globalna reanaliza ERA5. kvartalni časopis Kraljevskog meteorološkog društva, 146(730):1999–2049, 2020. [25] S. Hoyer i J. Hamman. xarray: N-D označene serije i skupovi podataka u Pythonu. Journal of Open Research Software, 5(1), 2017. [26] Ryan Keisler. Predviđanje globalnog vremena s grafičkim neuralnim mrežama. arXiv preprint arXiv:2202.07575, 2022. [27] Diederik P Kingma i Jimmy Ba. Adam: Metoda stohastičke optimizacije. arXiv preprint arXiv:1412.6980, 2014. [28] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. International best track archive for climate stewardship (IBTrACS) projekt, verzija 4. https://doi.org/10.25921/82ty-9e16, 2018. [29] Kenneth R. Knapp, Michael C. Kruk, David H. Levinson, Howard J. Diamond i Charles J. Neumann. Međunarodni najbolji arhiv za upravljanje klimatskim promjenama (IBTrACS) koji ujedinjuje podatke o tropskim ciklonima. [30] Michael C Kruk, Kenneth R Knapp, i David H Levinson. Tehnika za kombiniranje globalnih tropska ciklona najbolje trag podataka. [31] David H. Levinson, Howard J Diamond, Kenneth R. Knapp, Michael C. Kruk i Ethan J. Gibney. U smjeru homogenog globalnog tropskog ciklona. [32] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal i Jason Hickey. Globalne ekstremne vrućine predviđanje pomoću neuralnih vremenskih modela. [33] Ilya Loshchilov i Frank Hutter. Odvojena regulacija gubitka težine. arXiv preprint arXiv:1711.05101, 2017. 202208 - toplinski val - uk. https://confluence.ecmwf.int/display/ FCST/202208+-+Heatwave+-+UK, 2022. [35] Linus Magnusson, Thomas Haiden i David Richardson. Provjera ekstremnih vremenskih događaja: diskretni predviđanja. [36] S. Malardel, Nils Wedi, Willem Deconinck, Michail Diamantakis, Christian Kuehnlein, G. Mozdzynski, M. Hamrud i Piotr Smolarkiewicz. Nova mreža za IFS. https: //www.ecmwf.int/node/17262, 2016 2016. [37] Benjamin J Moore, Paul J Neiman, F Martin Ralph, i Faye E Barthold. Fizički procesi povezani s teškim poplavnim oborinama u Nashvilleu, Tennessee, i okolini tijekom 1. – 2. svibnja 2010.: Uloga atmosferske rijeke i mesoskala konvektivnih sustava. Mjesečni vremenski pregled, 140(2):358-378 2012. [38] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist, i Michael D Dettinger. Meteorološke karakteristike i učinci padavina na kopnu atmosferskih rijeka koje utječu na zapadnu obalu Sjeverne Amerike na temelju osam godina ssm / i satelitskih promatranja. [39] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez i Peter Battaglia. Učenje simulacije na bazi mreže s grafičkim mrežama. [40] Prajit Ramachandran, Barret Zoph, i Quoc V Le. Traženje funkcija aktivacije. arXiv preprint arXiv:1710.05941, 2017. [41] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid i Nils Thuerey. WeatherBench: referentni skup podataka za vremenske prognoze utemeljene na podacima. Journal of Advances in Modeling Earth Systems, 12(11):e2020MS002203, 2020. [42] Takaya Saito i Marc Rehmsmeier. Zaplet preciznog podsjećanja je informativniji od zapleta ROC-a prilikom evaluacije binarnih klasifikatora na neuravnoteženim skupovima podataka. PloS one, 10(3):e0118432, 2015. [43] Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec, and Peter Battaglia. Learning to simulate complex physics with graph networks. In International Conference on Machine Learning, pages 8459–8468. PMLR, 2020. [44] B. D. Santer, R. Sausen, T. M. L. Wigley, J. S. Boyle, K. AchutaRao, C. Doutriaux, J. E. Hansen, G. A. Meehl, E. Roeckner, R. Ruedy, G. Schmidt, i K. E. Taylor. ponašanje tropopauze visine i atmosferske temperature u modelima, ponovne analize i promatranja: Decadal promjene. [45] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M Hamill, Tim D Hewson, Julia H Keller, Mio Matsueda, John Methven, Florian Pappenberger i drugi. [46] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson i Munehiko Yamaguchi. Projekt TIGGE i njegovi postignuća. Bjelica Američkog meteorološkog društva, 97(1):49 – 67, 2016. [47] Harvey Thurm Taylor, Bill Ward, Mark Willis, i Walt Zaleski. Stupanj vjetra uragana Saffir-Simpson. Atmosferna administracija: Washington, DC, SAD, 2010. [48] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser i Illia Polosukhin. Pozornost je sve što vam je potrebno. Napredak u neuralnim sustavima za obradu informacija, 30, 2017. [49] Petar Veličković, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio i Yoshua Bengio. Graph attention networks. arXiv preprint arXiv:1710.10903, 2017. This paper is under CC by 4.0 Deed (Attribution 4.0 International) license. available on arxiv Ovaj papir je Licencija je CC by 4.0 Deed (Attribution 4.0 International). Dostupno u Arhivu