DeepMind's GraphCast verslaat 's werelds beste weersvoorspellingssysteem

De auteurs: Remi Lam (Google DeepMind) Alvaro Sanchez-Gonzalez (Google DeepMind) Matthew Willson (Google DeepMind) Peter Wirnsberger (Google DeepMind) Meire Fortunato (Google DeepMind) Ferran Alet (Google DeepMind) Suman Ravuri (Google DeepMind) Timo Ewalds (Google DeepMind) Zach Eaton-Rosen (Google DeepMind) Weihua Hu (Google DeepMind) Alexander Merose (Google Research) Stephan Hoyer (Google Research) George Holland (Google DeepMind) Oriol Vinyals (Google DeepMind) Jacklynn Stott (Google DeepMind) Alexander Pritzel (Google DeepMind) Shakir Mohamed (Google DeepMind) Peter Battaglia (Google DeepMind) De auteurs: Remi Lam van Google (DeepMind) Alvaro Sanchez-Gonzalez van Google DeepMind Matthew Willson (Google DeepMind) Peter Wirnsberger van Google DeepMind Meire Fortunato van Google (DeepMind) Ferran Alet van Google (DeepMind) Suman Ravuri (van Google DeepMind) Tim Ewalds van Google (DeepMind) Zach Eaton-Rosen voor Google DeepMind Weihua Hu van Google (DeepMind) Alexander Merose (Google Onderzoek) Stephan Hoyer (Google Onderzoek) George Holland van Google (DeepMind) Oriol Vinyals van Google (DeepMind) Jacklynn Stott (deepmind van Google) Alexander Pritzel (deepmind van Google) Shakir Mohamed van Google (DeepMind) Peter Battaglia van Google (DeepMind) Wereldwijde medium-range weersvoorspellingen zijn cruciaal voor de besluitvorming op veel sociale en economische gebieden. Traditionele numerieke weersvoorspellingen maken gebruik van verhoogde berekeningsmiddelen om de voorspellingsnauwkeurigheid te verbeteren, maar kunnen niet rechtstreeks gebruik maken van historische weersgegevens om het onderliggende model te verbeteren. We introduceren een machine-learning-gebaseerde methode genaamd "GraphCast", die rechtstreeks kan worden getraind uit heranalyse gegevens. Het voorspelt honderden weersvariabelen, over 10 dagen bij 0.25° resolutie wereldwijd, in minder dan een minuut. We tonen aan dat GraphCast de meest nauwkeurige operationele deterministische systemen aanzienlijk overtreft op 90% van Keywords: Weersverwachting, ECMWF, ERA5, HRES, leren simulatie, grafische neurale netwerken Introductie Het is 05:45 UTC in het midden van oktober 2022, in Bologna, Italië, en de nieuwe High-Performance Computing Facility van het Europees Centrum voor Weersvoorspellingen op middellange afstand (ECMWF) is net in gebruik genomen. In de afgelopen uren heeft het geïntegreerde voorspellingssysteem (IFS) geavanceerde berekeningen uitgevoerd om het klimaat van de aarde de komende dagen en weken te voorspellen, en zijn eerste voorspellingen zijn net begonnen aan gebruikers te worden verspreid. De IFS, en moderne weersvoorspellingen meer in het algemeen, zijn triomfen van wetenschap en engineering. De dynamiek van weersystemen behoren tot de meest complexe fysieke verschijnselen op Aarde, en elke dag, talloze beslissingen genomen door individuen, industrieën en beleidsmakers afhankelijk van nauwkeurige weersvoorspellingen, van het bepalen of een jas te dragen of te ontsnappen aan een gevaarlijke storm. De dominante benadering voor weersvoorspelling vandaag is "numerische weersvoorspelling" (NWP), die het oplossen van de regerende vergelijkingen van het weer met behulp van supercomputers. Het succes van NWP ligt in de rigoureuze en voortdurende onderzoekspraktijken die steeds meer gedetaille Er zijn grote archieven van weers- en klimatologische gegevens, bijvoorbeeld ECMWF's MARS [17], maar tot voor kort waren er weinig praktische middelen om dergelijke gegevens te gebruiken om de kwaliteit van voorspellingsmodellen rechtstreeks te verbeteren. Machine Learning-based Weather Prediction (MLWP) biedt een alternatief voor traditionele NWP, waar voorspellingsmodellen rechtstreeks worden getraind uit historische gegevens. Dit heeft het potentieel om de voorspellingsnauwkeurigheid te verbeteren door patronen en schalen in de gegevens vast te leggen die niet gemakkelijk in expliciete vergelijkingen worden weergegeven. MLWP biedt ook mogelijkheden voor grotere efficiëntie door gebruik te maken van moderne deep learning hardware, in plaats van supercomputers, en met gunstigere snelheids-nauwkeurigheidscompromissen. Onlangs heeft MLWP geholpen om NWP-gebaseerde voorspellingen te verbeteren in regimes waar traditionele NWP relatief zwak is, bijvoorbeeld sub-seasonale warmtegolfvoorspelling [16] en neers In mid-range weersvoorspelling, d.w.z. het voorspellen van atmosferische variabelen tot 10 dagen van tevoren, zijn NWP-gebaseerde systemen zoals de IFS nog steeds de meest nauwkeurige. Het toonaangevende deterministische besturingssysteem in de wereld is ECMWF's High Resolution Forecast (HRES), een onderdeel van IFS dat wereldwijde 10-daagse voorspellingen produceert bij 0,1° breedtegraad/lengtegraadresolutie, in ongeveer een uur [27]. Maar in de afgelopen jaren zijn MLWP-methoden voor mid-range voorspelling gestaag geavanceerd, vergemakkelijkt door benchmarks zoals WeatherBench [27]. Deep learning architecturen gebaseerd op convolutionaire neurale netwerken [35, Grafisch Hier introduceren we een nieuwe MLWP-benadering voor wereldwijde medium-range weersvoorspellingen genaamd "GraphCast", die een nauwkeurige 10-daagse voorspelling produceert in minder dan een minuut op een enkel Google Cloud TPU v4-apparaat en toepassingen ondersteunt, waaronder het voorspellen van tropische cyclonen, atmosferische rivieren en extreme temperaturen. GraphCast takes as input the two most recent states of Earth’s weather—the current time and six hours earlier—and predicts the next state of the weather six hours ahead. A single weather state is represented by a 0.25° latitude/longitude grid (721 × 1440), which corresponds to roughly 28 × 28 kilometer resolution at the equator (Figure 1a), where each grid point represents a set of surface and atmospheric variables (listed in Table 1). Like traditional NWP systems, GraphCast is autoregressive: it can be “rolled out” by feeding its own predictions back in as input, to generate an arbitrarily long trajectory of weather states (Figure 1b–c). GraphCast wordt geïmplementeerd als een neurale netwerkarchitectuur, gebaseerd op GNN's in een "code-proces-decode" configuratie [1], met een totaal van 36,7 miljoen parameters. eerdere GNN-gebaseerde geleerde simulatoren [31, 26] zijn zeer effectief geweest bij het leren van de complexe dynamiek van vloeistoffen en andere systemen gemodelleerd door gedeeltelijke differentiële vergelijkingen, wat hun geschiktheid ondersteunt voor het modelleren van weerdynamiek. De encoder (Figuur 1d) maakt gebruik van een enkele GNN-laag om variabelen (gestandaardiseerd tot nul-gemiddelde eenheidsvariantie) die worden weergegeven als knooppunten op het invoergrid naar geleerde knooppunten attributen op een interne "multi-mesh" weergave. De multi-mesh (Figuur 1g) is een grafiek die ruimtelijk homogeen is, met een hoge ruimtelijke resolutie over de hele wereld. Het wordt gedefinieerd door het verfijnen van een reguliere icosahedron (12 knooppunten, 20 gezichten, 30 randen) iteratief zes keer, waarbij elke verfijning elke driehoek verdeelt in vier kleinere (leidend tot vier keer meer gezichten en randen) en de knooppunten op de sfeer reproduceert. De multi-mesh bevat de 40,962 knooppunten van het hoogste resolutie mesh, en de unie van alle randen gemaakt in de tussenliggende grafieken, die een platte hiërarchie van randen met variabele lengtes vormen. De processor (Figuur 1e) maakt gebruik van 16 ongesplitste GNN-lagen om geleerde berichtoverdracht op de multi-mesh uit te voeren, waardoor efficiënte lokale en lange-range informatieproliferatie mogelijk is met weinig berichtoverdrachtstappen. De decoder (Figuur 1f) mapt de geleerde kenmerken van de eindlaag van de processor van de multi-mesh-representatie terug naar het breedtegraad.Het maakt gebruik van een enkele GNN-laag en voorspelt de output als een residuele update naar de meest recente input-toestand (met output-normalisatie om eenheidvariantie op het doelresidu te bereiken). Tijdens de modelontwikkeling gebruikten we 39 jaar (1979-2017) van historische gegevens uit ECMWF's ERA5 [10] heranalyse archief. Als trainingsdoel werd de gemiddelde vierkante fout (MSE) gewogen op verticaal niveau gemiddeld. Fout werd berekend tussen de voorspelde staat van GraphCast en de corresponderende ERA5 staat over N-autoregressieve stappen. De waarde van N werd geleidelijk verhoogd van 1 tot 12 (dat wil zeggen, zes uur tot drie dagen) gedurende de training. GraphCast werd getraind om het trainingsdoel te minimaliseren met behulp van gradiënt afdaling en backpropagatie. Training GraphCast duurde ongeveer vier weken op Cloud 32 TPU v4 apparaten met behulp van batchparallelisme. In overeenstemming met de werkelijke implementatie scenario's, waar toekomstige informatie niet beschikbaar is voor modelontwikkeling, hebben we GraphCast geëvalueerd op de uitgevoerde gegevens van de jaren 2018 en verder (zie Supplementen Sectie 5.1). Verificatiemethoden We verifiëren de voorspellingsvaardigheden van GraphCast uitgebreid door de nauwkeurigheid ervan te vergelijken met die van HRES op een groot aantal variabelen, niveaus en leads.We kwantificeren de respectieve vaardigheden van GraphCast, HRES en ML baseline met twee vaardigheidsmetricen: de wortelgemiddelde vierkantfout (RMSE) en de anomalie correlatiecoëfficiënt (ACC). Van de 227 variabele en niveaucombinaties die GraphCast op elk gridpunt voorspelde, evalueerden we zijn vaardigheden ten opzichte van HRES op 69 van hen, die overeenkomen met de 13 niveaus van WeatherBench[27] en variabelen uit de ECMWF Scorecard [9]; zie boldface variabelen en niveaus in Tabel 1 en Supplementen Sectie 1.2 waarvoor de HRES-cyclus tijdens de evaluatieperiode operationeel was. Opmerking: we sluiten totale neerslag uit van de evaluatie omdat ERA5 neerslaggegevens bekende vooroordelen hebben [15]. Naast de in de hoofdtekst gerapporteerde geaggregeerde prestaties biedt Supplementen Sectie 7 verdere gedetailleerde evaluaties, waaronder andere variabelen, regionale Bij het maken van deze vergelijkingen zijn twee belangrijke keuzes gebaseerd op hoe vaardigheid is vastgesteld: (1) de selectie van de grondwaarheid voor vergelijking, en (2) een zorgvuldige berekening van de gegevensassimilatievensters die worden gebruikt om gegevens met waarnemingen op de grond te leggen. We gebruiken ERA5 als grondwaarheid voor het evalueren van GraphCast, omdat het is getraind om ERA5-gegevens als input te nemen en ERA5-gegevens als outputs te voorspellen. Echter, het evalueren van HRES-voorspellingen tegenover ERA5 zou resulteren in een niet-nulfout op de oorspronkelijke voorspellingsstap. In plaats daarvan hebben we een "HRES-voorspelling op stap 0" (HRES-fc0) dataset gebouwd om Eerlijke vergelijkingen tussen methoden vereisen dat geen enkele methode bevoorrechte informatie moet hebben die niet beschikbaar is voor de andere. Vanwege de aard van weersvoorspellingsgegevens vereist dit een zorgvuldige controle van de verschillen tussen de ERA5- en HRES-gegevensassimilatievensters. Elke dag assimileert HRES waarnemingen met behulp van vier +/-3h-vensters gericht op 00z, 06z, 12z en 18z (waar 18z betekent 18:00 UTC), terwijl ERA5 twee +9h/-3h-vensters gebruikt gericht op 00z en 12z, of gelijkwaardig twee +3h/-9h-vensters gericht op 06z en 18z. We hebben ervoor gekozen om de voorspellingen van GraphCast te evalueren van de 06z en 18z-initialisaties, zodat de De voorspellingen van HRES geïnitieerd op 06z en 18z worden alleen uitgevoerd voor een horizon van 3,75 dagen (de initialisaties van HRES 00z en 12z worden uitgevoerd voor 10 dagen).Daarom geven onze cijfers een overgang aan met een dashed line, waarbij de 3,5 dagen voor de lijn vergelijkingen zijn met HRES geïnitieerd op 06z en 18z, en na de lijn vergelijkingen zijn met initialisaties op 00z en 12z. Voorspellingscontrole resultaten We vinden dat GraphCast een grotere weersvoorspellingskwaliteit heeft dan HRES wanneer deze wordt geëvalueerd op 10-daagse voorspellingen met een horizontale resolutie van 0,25° voor breedte/lengte en op 13 verticale niveaus. Figuur 2a-c toont hoe GraphCast (blauwe lijnen) HRES (zwarte lijnen) overtreft op het z500 (geopotentieel bij 500 hPa) “headline”-veld in termen van RMSE-vaardigheid, RMSE-vaardigheidsscore (d.w.z. het gestandaardiseerde RMSE-verschil tussen model A en baseline B gedefinieerd als (RMSEA − RMSEB)/RMSEB), en ACC-vaardigheid. Het gebruik van z500, dat de drukverdeling op synoptische schaal codeert, is gebruikelijk in de literatuur, omdat het een sterke meteorologische betekenis heeft [27]. De plotten tonen dat GraphCast betere vaardigheidsscores heeft over alle leadtijden, met een vaardigheidsscoreverbetering van ongeveer 7 Figuur 2d resumeert de RMSE vaardigheidsresultaten voor alle 1380 geëvalueerde variabelen en drukniveaus, over de 10-daagse voorspellingen, in een formaat dat analoog is aan de ECMWF Scorecard. De celkleuren zijn evenredig aan de vaardigheidsresultaten, waarbij blauw aangeeft dat GraphCast betere vaardigheden had en rood aangeeft dat HRES betere vaardigheden had. GraphCast overtrof HRES op 90,3% van de 1380 doelstellingen en significant (p ≤ 0,05, nominale steekproefgrootte n ∈ {729, 730}) overtrof HRES op 89,9% van de doelstellingen. De regio's van de atmosfeer waarin HRES betere prestaties had dan GraphCast (hoogste rijen in rood in de scorecards), waren disproportioneel gelokaliseerd in de stratosfeer en hadden het laagste training verlies gewicht (zie Supplementen Sectie 7.2.2). Bij uitsluiting van het niveau van 50 hPa, GraphCast significant overtreft HRES op 96,9% van de resterende 1280 doelen. Bij uitsluiting van niveaus 50 en 100 hPa, GraphCast significant overtreft HRES op 99,7% van de resterende 1180 doelen. We vonden dat het verhogen van het aantal auto-regressieve stappen in het MSE-verlies de prestaties van GraphCast verbetert bij langere leidingtijd (zie Supplementen Sectie 7.3.2) en het aanmoedigt om zijn onzekerheid uit te drukken door ruimtelijke gladde outputs te voorspellen, wat leidt tot verduisterende voorspellingen bij langere leidingtijden (zie Supplementen Sectie 7.5.3). De onderliggende fysische vergelijkingen van HRES leiden echter niet tot verduisterde voorspellingen. Om te beoordelen of het relatieve voordeel van GraphCast ten opzichte van HRES op RMSE-vaardigheden wordt gehandhaafd als HRES ook zijn voorspellingen mag verduisteren, passen we de verduisterende filters aan We vergeleken ook de prestaties van GraphCast met het topcompetitieve ML-gebaseerde weermodel, Pangu-Weather [4], en vonden dat GraphCast het op 99,2% van de 252 doelen overtreft (zie Supplements Section 6 voor details). Ernstige gebeurtenissen voorspellen resultaten Naast het evalueren van de voorspellingsvaardigheden van GraphCast tegen HRES op een breed scala aan variabelen en leads, evalueren we ook hoe de voorspellingen het voorspellen van ernstige gebeurtenissen, waaronder tropische cyclonen, atmosferische rivieren en extreme temperaturen ondersteunen. Tropical cyclone tracks Het verbeteren van de nauwkeurigheid van de voorspellingen van tropische cyclonen kan helpen bij het voorkomen van verwondingen en verliezen van levens, evenals het verminderen van economische schade [21]. Het bestaan, de sterkte en de trajectuur van een cyclon worden voorspeld door een tracking-algoritme toe te passen op voorspellingen van geopotentiële (z), horizontale wind (10 U/10 v, U/v) en gemiddelde zeespiegeldruk (MsL). We hebben een tracking-algoritme geïmplementeerd op basis van dezelfde gepubliceerde protocollen van ECMWF [20] en toegepast op de voorspellingen van GraphCast, om cyclone-trackvoorspellingen te produceren (zie Supplementen Sectie 8. Figuur 3a toont GraphCast heeft een lagere mediane track fout dan HRES over 2018-2021. Als per-track fouten voor HRES en GraphCast zijn gecorreleerd, we ook gemeten de per-track gepaarde fout verschil tussen de twee modellen en vond dat GraphCast is aanzienlijk beter dan HRES voor lead tijd 18 uur tot 4,75 dagen, zoals weergegeven in Figuur 3b. Atmosfeer rivieren Atmosferische rivieren zijn smalle gebieden van de atmosfeer die verantwoordelijk zijn voor de meerderheid van de polaire waterdamptransport over de middellange breedtegraden, en genereert 30%-65% van de jaarlijkse neerslag op de Westkust van de VS [6]. Hun sterkte kan worden gekenmerkt door de verticaal geïntegreerde waterdamptransport IvT [23, 22], wat aangeeft of een gebeurtenis gunstige neerslag zal bieden of wordt geassocieerd met catastrofale schade [7]. IvT kan worden berekend uit de niet-lineaire combinatie van de horizontale windsnelheid (U en v) en specifieke vochtigheid (Q), die GraphCast voorspelt. We beoordelen GraphCast voorspellingen over de kust van Noord-Amerika en de Oost Extreme hitte en kou Extreme hitte en kou worden gekenmerkt door grote anomalieën ten opzichte van typische klimatologie [19, 16, 18], die gevaarlijk kunnen zijn en menselijke activiteiten kunnen verstoren. We evalueren de vaardigheid van HRES en GraphCast bij het voorspellen van gebeurtenissen boven de top 2% klimatologie over de locatie, tijd van de dag en maand van het jaar, voor 2 T op 12-uur, 5-dag en 10-daagse leidtijden, voor landgebieden over de noordelijke en zuidelijke hemisfeer gedurende de zomermaanden. We plannen precisie-recall-curves [30] om verschillende mogelijke trade-offs te weerspiegelen tussen het verminderen van valse positieven (hoge precisie) en het verminderen van valse negatieven (hoge recall). Voor elke voorsp Figuur 3d toont GraphCast's precisie-recall curves zijn hoger dan HRES's voor 5- en 10-daagse lead times, wat suggereert dat de voorspellingen van GraphCast zijn over het algemeen beter dan HRES bij extreme classificatie over langere horizonten. In tegenstelling, HRES heeft een betere precisie-recall bij de 12-uur lead time, die consistent is met de 2 T vaardigheids score van GraphCast over HRES is dicht bij nul, zoals weergegeven in Figuur 2d. We vinden deze resultaten over het algemeen consistent over andere variabelen die relevant zijn voor extreme hitte, zoals T 850 en z500 [18], andere extreme drempels (5%, 2% en 0,5%), en extreme koude voorspellingen in de winter. Effect van recente trainingsgegevens GraphCast kan periodiek opnieuw worden getraind met recente gegevens, waardoor het in principe weerpatronen kan vastleggen die in de loop van de tijd veranderen, zoals de ENSO-cyclus en andere oscillaties, evenals de effecten van klimaatverandering.We trainen vier varianten van GraphCast met gegevens die altijd begonnen in 1979, maar eindigden in 2017, 2018, 2019 en 2020, respectievelijk (we labelen de variant die eindigt in 2017 als “GraphCast:<2018”, enz.). Figuur 4 toont de vaardigheidscores (gestandaardiseerd door GraphCast:<2018) van de vier varianten en HRES, voor z500. We ontdekten dat terwijl de prestaties van GraphCast bij training tot voor 2018 nog steeds concurrerend zijn met HRES in 2021, training tot voor 2021 de vaardigheidscores verder verbetert (zie Supplementen Sectie 7.1.3). Conclusies De voorspellingsvaardigheid en efficiëntie van GraphCast ten opzichte van HRES toont aan dat MLWP-methoden nu concurrerend zijn met traditionele weersvoorspellingsmethoden.Bovendien toont de prestaties van GraphCast op het gebied van ernstige gebeurtenisvoorspellingen, waarvoor het niet rechtstreeks is getraind, zijn robuustheid en het potentieel voor downstreamwaarde. Met 36,7 miljoen parameters is GraphCast een relatief klein model volgens moderne ML-normen, gekozen om de geheugenvoetafdruk traceerbaar te houden. En terwijl HRES wordt uitgebracht op 0.1° resolutie, 137 niveaus en tot 1 uur tijdstappen, GraphCast opereerde op 0.25° breedtegraad-lengte resolutie, 37 verticale niveaus en 6 uur tijdstappen, vanwege de native 0.25° resolutie van de ERA5 training gegevens, en technische uitdagingen in het passen van hogere resolutie gegevens op hardware. Over het algemeen moet GraphCast worden gezien als een familie van modellen, met de huidige versie de grootste die we praktisch kunnen passen onder de huidige technische beperkingen, maar die het potentieel hebben om in de toekomst veel verder te schalen met grotere computergebruiken Een belangrijke beperking van onze aanpak is hoe onzekerheid wordt behandeld. We hebben ons gericht op deterministische voorspellingen en vergeleken met HRES, maar de andere pijler van de IFS van ECMWF, het ensemble voorspellingssysteem, ENS, is vooral belangrijk voor 10+ dagvoorspellingen. De niet-lineaire dynamiek van de weersomstandigheden betekent dat er toenemende onzekerheid is bij langere leidingtijden, wat niet goed wordt vastgelegd door een enkele deterministische voorspelling. ENS behandelt dit door meerdere, stochastische voorspellingen te genereren, die de empirische verdeling van toekomstige weersomstandigheden modelleren, maar het genereren van meerdere voorspellingen is duur. In tegenstelling hiermee moedigt het MSE-trainingdoel van Gra Het is belangrijk te benadrukken dat data-driven MLWP kritisch afhankelijk is van grote hoeveelheden hoogwaardige gegevens, geassimileerd via NWP, en dat rijke gegevensbronnen zoals het MARS-archief van ECMWF van onschatbare waarde zijn. Naast weersvoorspellingen kan GraphCast nieuwe richtingen openen voor andere belangrijke geospatiotemporale voorspellingsproblemen, waaronder klimaat en ecologie, energie, landbouw en menselijke en biologische activiteit, evenals andere complexe dynamische systemen. Beschikbaarheid van gegevens en materialen GraphCast's code en getrainde gewichten zijn publiekelijk beschikbaar op github https://github.com/ deepmind/graphcast. Dit werk gebruikte publiekelijk beschikbare gegevens van het European Centre for Medium Range Forecasting (ECMWF). We gebruiken de ECMWF archief (verlopen real-time) producten voor ERA5, HRES en TIGGE producten, waarvan het gebruik wordt beheerst door de Creative Commons Attribution 4.0 International (CC BY 4.0). We gebruiken IBTrACS versie 4 van https://www.ncei.noaa.gov/ producten/international-best-track-archive en referentie [13, 12] als vereist. De Aarde textuur in figuur 1 wordt gebruikt onder CC BY 4.0 van https://www.solarsystemscope.com/ textures/. erkenningen In alfabetische volgorde danken we Kelsey Allen, Charles Blundell, Matt Botvinick, Zied Ben Bouallegue, Michael Brenner, Rob Carver, Matthew Chantry, Marc Deisenroth, Peter Deuben, Marta Garnelo, Ryan Keisler, Dmitrii Kochkov, Christopher Mattern, Piotr Mirowski, Peter Norgaard, Ilan Price, Chongli Qin, Sébastien Racanière, Stephan Rasp, Yulia Rubanova, Kunal Shah, Jamie Smith, Daniel Worrall en talloze anderen bij Alphabet en ECMWF voor advies en feedback over ons werk. We danken ook ECMWF voor het verstrekken van onschatbare datasets aan de onderzoeksgemeenschap. De stijl van de opening paragraaf werd geïnspireerd door D. Fan et al., Science R Referenties [1] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Relatieve inductieve vooroordelen, diep leren en grafische netwerken. arXiv preprint arXiv:1806.01261, 2018. [2] P. Bauer, A. Thorpe en G. Brunet. De stille revolutie van de numerieke weersvoorspelling. [3] Stanley G Benjamin, John M Brown, Gilbert Brunet, Peter Lynch, Kazuo Saito en Thomas W Schlatter. 100 jaar vooruitgang in voorspellingen en NWP-toepassingen. [4] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu en Qi Tian. Pangu-Weather: Een 3D-model met hoge resolutie voor snelle en nauwkeurige wereldwijde weersvoorspellingen. arXiv preprint arXiv:2211.02556, 2022. [5] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. The THORPEX interactive grand global ensemble. Bulletin of the American Meteorological Society, 91(8):1059–1072, 2010. [6] WE Chapman, AC Subramanian, L Delle Monache, SP Xie en FM Ralph. Verbetering van atmosferische riviervoorspellingen met machine learning. Geophysical Research Letters, 46(17-18):10627-10635, 2019. [7] Thomas W. Corringham, F. Martin Ralph, Alexander Gershunov, Daniel R. Cayan en Cary A Talbot. Atmosferische rivieren veroorzaken overstromingsschade in het westen van de Verenigde Staten. [8] Lasse Espeholt, Shreya Agrawal, Casper Sønderby, Manoj Kumar, Jonathan Heek, Carla Bromberg, Cenk Gazen, Rob Carver, Marcin Andrychowicz, Jason Hickey, et al. Diep leren voor twaalf uur neerslagvoorspellingen. [9] T Haiden, Martin Janousek, J Bidlot, R Buizza, Laura Ferranti, F Prates en F Vitart. Evaluatie van ECMWF-voorspellingen, met inbegrip van de upgrade van 2018. [10] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. De wereldwijde heranalyse van ERA5. Quarterly Journal of the Royal Meteorological Society, 146(730):1999–2049, 2020. [11] Ryan Keisler. Wereldwijde weersvoorspelling met grafische neurale netwerken. arXiv preprint arXiv:2202.07575, 2022. [12] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. International best track archive for climate stewardship (IBTrACS) project, versie 4. https: //doi.org/10.25921/82ty-9e16, 2018 [13] Kenneth R Knapp, Michael C Kruk, David H Levinson, Howard J Diamond en Charles J Neumann. Het internationale best track archief voor klimaatbeheer (IBTrACS) dat tropische cyclongegevens verenigt. [14] Thorsten Kurth, Shashank Subramanian, Peter Harrington, Jaideep Pathak, Morteza Mardani, David Hall, Andrea Miele, Karthik Kashinath en Animashree Anandkumar. FourCastNet: versnellen van wereldwijde weersvoorspellingen met hoge resolutie met behulp van adaptieve neurale operatoren. arXiv preprint arXiv:2208.05419, 2022. [15] David A Lavers, Adrian Simmons, Freja Vamborg, and Mark J Rodwell. An evaluation of ERA5 precipitation for climate monitoring. Quarterly Journal of the Royal Meteorological Society, 148(748):3152–3165, 2022. [16] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal en Jason Hickey. wereldwijde extreme hitte voorspelling met behulp van neurale weersmodellen. [17] Carsten Maass en Esperanza Cuartero. MARS gebruikersdocumentatie. https://confluence. ecmwf.int/display/UDOC/MARS+user+documentation, 2022. [18] Linus Magnusson. 202208 - Heatwave - uk. https://confluence.ecmwf.int/display/ FCST/202208+-+Heatwave+-+UK, 2022. [19] Linus Magnusson, Thomas Haiden en David Richardson. Verificatie van extreme weersomstandigheden: Discrete voorspellingen. [20] Linus Magnusson, Sharanya Majumdar, Rebecca Emerton, David Richardson, Magdalena Alonso-Balmaseda, Calum Baugh, Peter Bechtold, Jean Bidlot, Antonino Bonanni, Massimo Bonavita, et al. Tropische cyclonactiviteiten bij ECMWF. [21] Andrew B Martinez. Voorspellingsnauwkeurigheid is belangrijk voor orkaanschade. Econometrics, 8(2):18, 2020. [22] Benjamin J Moore, Paul J Neiman, F Martin Ralph, en Faye E Barthold. Fysieke processen geassocieerd met zware overstromingen neerslag in Nashville, Tennessee, en omgeving tijdens 1–2 mei 2010: De rol van een atmosferische rivier en mesoscale convectieve systemen. maandelijkse Weather Review, 140(2):358–378, 2012. [23] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist, en Michael D Dettinger. meteorologische kenmerken en overland neerslag effecten van atmosferische rivieren die de Westkust van Noord-Amerika beïnvloeden op basis van acht jaar van ssm/i satelliet waarnemingen. [24] Tung Nguyen, Johannes Brandstetter, Ashish Kapoor, Jayesh K Gupta en Aditya Grover. ClimaX: Een basismodel voor weer en klimaat. arXiv preprint arXiv:2301.10343, 2023. [25] Jaideep Pathak, Shashank Subramanian, Peter Harrington, Sanjeev Raja, Ashesh Chattopad-hyay, Morteza Mardani, Thorsten Kurth, David Hall, Zongyi Li, Kamyar Azizzadenesheli, et al. Fourcastnet: Een wereldwijd data-gedreven high-resolution weermodel met behulp van adaptieve fourier neurale operators. arXiv preprint arXiv:2202.11214, 2022. [26] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez en Peter Battaglia. Learning mesh-based simulatie met grafische netwerken. in International Conference on Learning Representations, 2021. [27] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid en Nils Thuerey. WeatherBench: een benchmark data set voor data-driven weersvoorspellingen. Journal of Advances in Modeling Earth Systems, 12(11):e2020MS002203, 2020. [28] Stephan Rasp en Nils Thuerey. gegevensgestuurde weersvoorspelling voor het midden van het bereik met een resnet vooraf getraind op klimaatsimulaties: een nieuw model voor weersbalken. [29] Suman Ravuri, Karel Lenc, Matthew Willson, Dmitry Kangin, Remi Lam, Piotr Mirowski, Megan Fitzsimons, Maria Athanassiadou, Sheleem Kashem, Sam Madge, et al. Skilful neerslag nucasting met behulp van diepe generatieve modellen van radar. Natuur, 597(7878):672–677, 2021. [30] Takaya Saito en Marc Rehmsmeier. De precisie-herinnering plot is meer informatief dan de ROC plot bij het evalueren van binaire classificers op onevenwichtige datasets. PloS één, 10(3):e0118432, 2015. [31] Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec en Peter Battaglia. Leren om complexe fysica te simuleren met grafische netwerken. [32] Xingjian Shi, Zhihan Gao, Leonard Lausen, Hao Wang, Dit-Yan Yeung, Wai-kin Wong en Wang-chun Woo. Diep leren voor neerslag nucasting: een benchmark en een nieuw model. Vooruitgang in neurale informatiesystemen, 30, 2017. [33] Casper Kaae Sønderby, Lasse Espeholt, Jonathan Heek, Mostafa Dehghani, Avital Oliver, Tim Salimans, Shreya Agrawal, Jason Hickey en Nal Kalchbrenner. Metnet: Een neurale weersmodel voor neerslagvoorspelling. arXiv preprint arXiv:2003.12140, 2020. [34] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson en Munehiko Yamaguchi. Het TIGGE-project en zijn prestaties. Bulletin of the American Meteorological Society, 97(1):49 – 67, 2016. [35] Jonathan A Weyn, Dale R Durran en Rich Caruana. Kunnen machines leren om het weer te voorspellen? Met behulp van diep leren om geopotentiële hoogte van 500 hPa te voorspellen uit historische weersgegevens. Journal of Advances in Modeling Earth Systems, 11(8):2680–2693, 2019. [36] Jonathan A Weyn, Dale R Durran, and Rich Caruana. Improving data-driven global weather prediction using deep convolutional neural networks on a cubed sphere. Journal of Advances in Modeling Earth Systems, 12(9):e2020MS002109, 2020. 1 Datasets In deze sectie geven we een overzicht van de gegevens die we hebben gebruikt om GraphCast te trainen en te evalueren (Supplements Section 1.1), de gegevens die de voorspellingen van de NWP baseline HRES definiëren, evenals HRES-fc0, die we gebruiken als grondwaarheid voor HRES (Supplements Section 1.2). We hebben meerdere datasets voor training en evaluatie gebouwd, bestaande uit subsets van de gegevensarchieven van ECMWF en IBTrACS [29, 28]. We onderscheiden over het algemeen tussen de brongegevens, die we noemen “archief” of “archiefgegevens”, versus de datasets die we uit deze archieven hebben gebouwd, die we noemen “datasets”. 1.1 Tijdperk 5 Voor het trainen en evalueren van GraphCast bouwden we onze datasets uit een subset van het ERA5 [24]1-archief van ECMWF, dat een groot corpus van gegevens is dat het wereldwijde weer van 1959 tot heden vertegenwoordigt, met een resolutie van 0,25° breedte/lengte, en 1 uurincrementen, voor honderden statische, oppervlakte- en atmosferische variabelen. Het ERA5-archief is gebaseerd op re-analyse, dat gebruik maakt van het HRES-model van ECMWF (cyclus 42r1) dat voor het grootste deel van 2016 operationeel was (zie Tabel 3), binnen het 4D-Var-gegevensassimilatiesysteem van ECMWF. Onze ERA5-dataset bevat een subset van beschikbare variabelen in het ECMWF's ERA5-archief (Tabel 2), op 37 drukniveaus: 1, 2, 3, 5, 7, 10, 20, 30, 50, 70, 100, 125, 150, 175, 200, 225, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 775, 800, 825, 850, 875, 900, 925, 950, 975, 1000 hPa. Het bereik van de inbegrepen jaren was 1979-01-01 tot 2022-01-10, die werden gedemonstreerd in tijdsintervallen van 6 uur (met betrekking tot 00z, 06z, 12z en 18z per dag). 1.2 Redenen Voor de beoordeling van de HRES-modelbasislijn zijn twee afzonderlijke datasets vereist, namelijk de prognosedata en de feitelijke gegevens, die in de volgende onderverdelingen worden samengevat. HRES wordt over het algemeen beschouwd als het meest nauwkeurige deterministische NWP-gebaseerde weermodel ter wereld, dus om de HRES-basislijn te evalueren, hebben we een dataset van de gearchiveerde historische voorspellingen van HRES opgebouwd. HRES wordt regelmatig bijgewerkt door ECMWF, dus deze voorspellingen vertegenwoordigen het nieuwste HRES-model op het moment dat de voorspellingen werden gemaakt. De voorspellingen werden gedownload op hun native representatie (die sferische harmonica en een octaedraal verlaagd Gaussian grid, TCo1279 [36] gebruikt) en grotendeels overeenkomt met een resolutie van 0,1° breedte/lengte. HRES operational forecasts Vervolgens hebben we de voorspellingen ruimtelijk gedownload naar een 0,25° breedtegraad/lengtegraad (om overeen te komen met de resolutie van ERA5) met behulp van de Metview-bibliotheek van ECMWF, met standaard regrideparameters. Voor de beoordeling van de vaardigheid van de HRES operationele voorspellingen, bouwden we een basiswaarheiddataset, “HRES-fc0”, gebaseerd op het HRES operationele voorspellingsarchief van ECMWF. Deze dataset omvat de eerste tijdstap van elke HRES-voorspelling, bij initialisatietijden 00z, 06z, 12z en 18z (zie Figuur 5). De HRES-fc0-gegevens zijn vergelijkbaar met de ERA5-gegevens, maar het wordt geassimileerd met behulp van het nieuwste ECMWF NWP-model op het moment van de voorspelling, en assimileert waarnemingen van ± 3 uur rond de overeenkomstige datum en tijd. Opmerking ECMWF biedt ook een archief van “HRES-analyse HRES-fc0 Een zeer kleine subset van de waarden uit het ECMWF HRES-archief voor de variabele geopotentieel bij 850hPa (z850) en 925hPa (z925) zijn geen getallen (NaN). Deze NaN's lijken gelijkmatig verspreid over het bereik 2016-2021 en over voorspelde tijden. Dit vertegenwoordigt ongeveer 0,00001% van de pixels voor z850 (1 pixel elke tien 1440 x 721 breedtegraad frames), 0,00000001% van de pixels voor z925 (1 pixel elke tienduizend 1440 x 721 breedtegraad frames) en heeft geen meetbare impact op de prestaties. Voor een gemakkelijker vergelijking, vullen we deze ontbrekende zeldzame waarden met het gewogen gemiddelde van de onmiddellijke naburige pixels. We gebruikten HRES NaN handling 3.3 Tropische cyclonen Voor onze analyse van de voorspelling van tropische cyclonen gebruikten we het IBTrACS-archief [28, 29, 31, 30] om de grondwaarheidsdataset te bouwen. Dit omvat historische cyclonsporen uit ongeveer een dozijn gezaghebbende bronnen. Elk spoor is een tijdreeks, op 6-uursintervallen (00z, 06z, 12z, 18z), waarbij elke tijdstap het oog van de cyclon in breedtegraad/lengtegraadcoördinaten vertegenwoordigt, samen met de overeenkomstige Saffir-Simpson-categorie en andere relevante meteorologische kenmerken op dat moment. Voor de HRES baseline gebruikten we het TIGGE-archief, dat cyclonsporen levert die met de operationele tracker zijn geschat, van HRES-voorspellingen met een resolutie van 0,1° [8, 46]. De gegevens worden opgeslagen als XML-bestanden die beschikbaar zijn om te downloaden onder https://confluence.ecmwf.int/display/TIGGE/Tools. Om de gegevens om te zetten in een formaat dat geschikt is voor verdere postverwerking en analyse, hebben we een parser geïmplementeerd die cyclonsporen voor de jaren van belang extrahert. De relevante secties (tags) in de XML-bestanden zijn die van het type "forecast", die meestal meerdere tracks bevatten die overeenkomen met verschillende oorspronkelijke voorspellingstijden. Met deze tags Zie sectie 8.1 voor details van het tracker-algoritme en de resultaten. Notatie en probleemverklaring In deze sectie definiëren we het gebruik van nuttige tijdnotaties in het hele document (sectie 2.1), formaliseren we het algemene voorspellingsprobleem dat we aanpakken (sectie 2.2), en details hoe we de toestand van het weer modellen (sectie 2.3). 2.1 Tijdsnotatie De tijdnotatie die in de voorspelling wordt gebruikt, kan verwarrend zijn, waarbij een aantal verschillende tijdsymbolen worden gebruikt, bijvoorbeeld om de oorspronkelijke voorspellingstijd, geldigheidstijd, voorspellingshorizon, etc. We introduceren daarom een aantal gestandaardiseerde termen en notaties voor duidelijkheid en eenvoud. We verwijzen naar een bepaald punt in de tijd als "datumtijd", aangeduid door kalenderdatum en UTC-tijd. Bijvoorbeeld, 2018-06-21_18:00:00 betekent 21 juni 2018, 18:00 UTC. Voor kort, we gebruiken soms ook de Zulu-conventie, dat wil zeggen 00z, 06z, 12z, 18z betekent 00:00, 06:00, 12:00, 18:00 UTC, respectievelijk. We definiëren verder de volgende symbolen: t: Voorspellingstijdstapindex, dat het aantal stappen indexert sinds de voorspelling is geïnitieerd. T: Voorspellingshorizon, dat het totale aantal stappen in een voorspelling weergeeft. d: Validiteitstijd, die de datum-tijd van een bepaalde weerstoestand aangeeft. d0: Voorspelling initialisatietijd, die de geldigheidstijd van de initiële inputs van een voorspelling aangeeft. Δd: Voorspellingsstapduur, die aangeeft hoeveel tijd er voorbijgaat tijdens een voorspellingsstap. τ: Voorspelde leidingtijd, die de verstreken tijd in de voorspelling weergeeft (dwz τ = tΔd). 2.2 Algemene voorspellingsprobleemverklaring Laat Zd de ware toestand van het wereldwijde weer op tijd d. De tijd evolutie van het werkelijke weer kan worden vertegenwoordigd door een onderliggende discrete-tijd dynamiek functie, Φ, die de toestand op de volgende tijd stap (Δd in de toekomst) op basis van de huidige, d.w.z., Zd+Δd = Φ(Zd) genereert. Ons doel is om een nauwkeurig en efficiënt model te vinden, φ, van de ware dynamische functie, Φ, dat de toestand van het weer efficiënt kan voorspellen over een bepaalde voorspellingshorizon, TΔd. We nemen aan dat we Zd niet direct kunnen observeren, maar in plaats daarvan slechts een gedeeltelijke waarneming Xd hebben, wat een onvolledige weergave is van de staatinformatie die nodig is om het weer perfect te voorspellen. Xd−Δd , Xd−2Δd , ..., naast Xd. Het model kan dan in principe gebruikmaken van deze extra contextinformatie om Zd nauwkeuriger te benaderen. Analoog aan de vergelijking (1), kan de voorspelling X ̈d+Δd terug in φ worden gevoerd om autoregressief een volledige voorspelling te produceren, We beoordelen de voorspellingskwaliteit, of vaardigheid, van φ door te kwantificeren hoe goed het voorspelde traject, X ̈d+Δd:d+T Δd , overeenkomt met het grondwaar-traject, Xd+Δd:d+TΔd . Het is echter belangrijk opnieuw te benadrukken dat Xd+Δd:d+TΔd alleen onze waarnemingen van Zd+Δd:d+TΔd bevat, die zelf niet wordt waargenomen. which is described explicitly in Section 5. In ons werk was de tijdresolutie van gegevens en voorspellingen altijd Δd = 6 uur met een maximale voorspellingshorizon van 10 dagen, wat overeenkomt met een totaal van T = 40 stappen. Omdat Δd een constante is in dit document, kunnen we de notatie vereenvoudigen met behulp van (Xt, Xt+1, . . , Xt+T ) in plaats van (Xd, Xd+Δd , . . , Xd+TΔd ), om tijd te indexeren met een integer in plaats van een specifieke datum-tijd. Modellering van ECMWF weersgegevens For training and evaluating models, we treat our ERA5 dataset as the ground truth representation of the surface and atmospheric weather state. As described in Section 1.2, we used the HRES-fc0 dataset as ground truth for evaluating the skill of HRES. In onze dataset omvat een ERA5 weerstoestand Xt alle variabelen in Tabel 2, met een 0,25° horizontale breedtegraad-lengteresolutie met een totaal van 721 × 1440 = 1, 038, 240 gridpunten en 37 verticale drukniveaus. De atmosferische variabelen worden op alle drukniveaus gedefinieerd en de set van (horizontale) gridpunten wordt gegeven door G0.25◦ = {−90.0, −89.75, . . . , 90.0} × {−179.75, −179.5, . . . , 180.0}. Deze variabelen worden uniek geïdentificeerd door hun korte naam (en het drukniveau, voor atmosferische variabelen). Bijvoorbeeld wordt de oppervlaktevariabele “2 meter” aangeduid met 2 T Uit al deze variabelen voorspelt ons model 5 oppervlaktevariabelen en 6 atmosferische variabelen voor een totaal van 227 doelvariabelen. Verschillende andere statische en/of externe variabelen werden ook verstrekt als input context voor ons model. Deze variabelen worden weergegeven in Tabel 1 en Tabel 2. We verwijzen naar de subset van variabelen in Xt die overeenkomen met een bepaald gridpunt i (1,038,240 in totaal) als xt, en naar elke variabele j van de 227 doelvariabelen als xt. De volledige staatrepresentatie Xtii, j bevat dus een totaal van 721 × 1440 × (5 + 6 × 37) = 235, 680, 480 waarden. 3. GraphCast model Deze sectie biedt een gedetailleerde beschrijving van GraphCast, te beginnen met de autoregressieve generatie van een voorspelling (Section 3.1), een overzicht van de architectuur in eenvoudige taal (Section 3.2), gevolgd door een technische beschrijving van alle grafieken die GraphCast definiëren (Section 3.3), de encoder (Section 3.4), de processor (Section 3.5), en de decoder (Section 3.6), evenals alle normalisatie en parameterisatie details (Section 3.7). 3.1 Een voorspelling maken Ons GraphCast-model wordt gedefinieerd als een eenstaps geleerde simulator die de rol van φ in de vergelijking (2) inneemt en de volgende stap voorspelt op basis van twee opeenvolgende invoerstaten, Zoals in vergelijking (3), kunnen we GraphCast iteratief toepassen om een voorspelling te produceren Dit is geïllustreerd in Figuur 1b,c. We vonden in vroege experimenten dat twee invoerstaten betere prestaties leverden dan één, en dat drie niet genoeg hielpen om de verhoogde geheugenvoetafdruk te rechtvaardigen. 3.2 Architectuur overzicht De kernarchitectuur van GraphCast maakt gebruik van GNN's in een "code-proces-decode" -configuratie [6], zoals weergegeven in Figuur 1d,e,f. GNN-gebaseerde geleerde simulatoren zijn zeer effectief bij het leren van complexe fysische dynamiek van vloeistoffen en andere materialen [43, 39], omdat de structuur van hun representaties en berekeningen analoge zijn aan geleerde eindige elementoplossers [1]. Een belangrijk voordeel van GNN's is dat de structuur van de inputgraaf bepaalt welke delen van de representatie met elkaar communiceren via geleerde boodschappen, waardoor willekeurige patronen van ruimtelijke interacties over elk bereik kunnen worden berekend. In tegenstelling hiermee is een convolutionair neurale netwerk (CNN) beper De manier waarop we profiteren van het vermogen van de GNN om willekeurige schaarse interacties te modelleren, is door de interne "multi-mesh" -representatie van GraphCast in te voeren, die langetermijninteracties mogelijk maakt binnen een paar boodschap-doorgaande stappen en over het algemeen een homogene ruimtelijke resolutie over de hele wereld heeft. Our multi-mesh is constructed by first dividing a regular icosahedron (12 nodes and 20 faces) iteratively 6 times to obtain a hierarchy of icosahedral meshes with a total of 40,962 nodes and 81,920 faces on the highest resolution. We leveraged the fact that the coarse-mesh nodes are subsets of the fine-mesh nodes, which allowed us to superimpose edges from all levels of the mesh hierarchy onto the finest-resolution mesh. This procedure yields a multi-scale set of meshes, with coarse edges bridging long distances at multiple scales, and fine edges capturing local interactions. Figure 1g shows each individual refined mesh, and Figure 1e shows the full multi-mesh. GraphCast’s encoder (Figure 1d) first maps the input data, from the original latitude-longitude grid, into learned features on the multi-mesh, using a GNN with directed edges from the grid points to the multi-mesh. The processor (Figure 1e) then uses a 16-layer deep GNN to perform learned message-passing on the multi-mesh, allowing efficient propagation of information across space due to the long-range edges. The decoder (Figure 1f) then maps the final multi-mesh representation back to the latitude-longitude grid using a GNN with directed edges, and combines this grid representation, 𝑌ˆ𝑡+𝑘, with the input state, 𝑋ˆ𝑡+𝑘, to form the output prediction, 𝑋ˆ𝑡+𝑘+1 = 𝑋ˆ𝑡+𝑘 + 𝑌ˆ𝑡+𝑘. De encoder en decoder vereisen niet dat de ruwe gegevens in een regelmatig rechtlijnig raster worden gerangschikt, en kan ook worden toegepast op willekeurige mesh-achtige staat discretisaties [1]. On a single Cloud TPU v4 device, GraphCast can generate a 0.25° resolution, 10-day forecast (at 6-hour steps) in under 60 seconds. For comparison, ECMWF’s IFS system runs on a 11,664-core cluster, and generates a 0.1° resolution, 10-day forecast (released at 1-hour steps for the first 90 hours, 3-hour steps for hours 93-144, and 6-hour steps from 150-240 hours, in about an hour of com-pute time [41]. See the HRES release details here: https://www.ecmwf.int/en/forecasts/ datasets/set-i.. 3.3 Grafiek van GraphCast GraphCast wordt geïmplementeerd met behulp van GNN's in een "codering-proces-decode" configuratie, waar de encoder kaarten (oppervlakte en atmosfeer) functies op de input breedtegraad-lengtegraad naar een multi-mesh, de processor voert vele ronden van bericht-passing op de multi-mesh, en de decoder kaarten de multi-mesh functies terug naar de output breedtegraad-lengtegraad (zie figuur 1). Het model werkt op een grafiek G (VG, VM, EM, EG2M, EM2G), gedefinieerd in detail in de volgende paragraaf. VG represents the set containing each of the grid nodes 𝑣G. Each grid node represents a vertical slice of the atmosphere at a given latitude-longitude point, 𝑖. The features associated with each grid node 𝑣G are vG,features = [x𝑡−1, x𝑡, f𝑡−1, f𝑡, f𝑡+1, c𝑖], where x𝑡 is the time-dependent weather state 𝑋𝑡 corresponding to grid node 𝑣G and includes all the predicted data variables for all 37 atmospheric levels as well as surface variables. The forcing terms f𝑡 consist of time-dependent features that can be computed analytically, and do not need to be predicted by GraphCast. They include the total incident solar radiation at the top of the atmosphere, accumulated over 1 hour, the sine and cosine of the local time of day (normalized to [0, 1)), and the sine and cosine of the of year progress (normalized to [0, 1)). The constants c𝑖 are static features: the binary land-sea mask, the geopotential at the surface, the cosine of the latitude, and the sine and cosine of the longitude. At 0.25° resolution, there is a total of 721 × 1440 = 1, 038, 240 grid nodes, each with (5 surface variables + 6 atmospheric variables × 37 levels) × 2 steps + 5 forcings × 3 steps + 5 constant = 474 input features. Grid nodes VM vertegenwoordigt de set met elk van de mesh knooppunten vM. Mesh knooppunten worden gelijkmatig over de hele wereld geplaatst in een R-verfijnd icosahedral mesh MR. M0 komt overeen met een unit-radius icosahedron (12 knooppunten en 20 driehoekige gezichten) met gezichten parallel aan de polen (zie figuur 1g). Het mesh wordt iteratief verfijnd Mr → Mr+1 door elk driehoekig gezicht te splitsen in 4 kleinere gezichten, wat resulteert in een extra knooppunt in het midden van elke rand, en het opnieuw projecteren van de nieuwe knooppunten terug naar de eenheid sfeer.4 Features vM,Features associated with each mesh node vM include the cosine of the latitude, and Mesh nodes Cruciaal, mesh randen worden toegevoegd aan EM voor alle niveaus van verfijning, dat wil zeggen, voor de fijnste mesh, M6, evenals voor M5, M4, M3, M2, M1 en M0. Dit is eenvoudig vanwege de manier waarop het verfijningsproces werkt: de knooppunten van Mr−1 zijn altijd een subset van de knooppunten in Mr. Daarom, knooppunten geïntroduceerd op lagere verfijning niveaus dienen als hubs voor langere bereik communicatie, onafhankelijk van het maximale niveau van verfijning. De resulterende grafiek die de gezamenlijke set van randen van alle niveaus van verfijning bevat is wat we noemen de "multi-mesh". Zie Figuur 1e,g voor een afbeelding Mesh edges For each edge 𝑒M connecting a sender mesh node 𝑣M to a receiver mesh node 𝑣M, we build 𝑣M→𝑣M edge features eM, features using the position on the unit sphere of the mesh nodes. This includes the 𝑣M→𝑣M s r length of the edge, and the vector difference between the 3d positions of the sender node and the receiver node computed in a local coordinate system of the receiver. The local coordinate system of the receiver is computed by applying a rotation that changes the azimuthal angle until that receiver node lies at longitude 0, followed by a rotation that changes the polar angle until the receiver also lies at latitude 0. This results in a total of 327,660 mesh edges (See Table 4), each with 4 input features. EG2M are unidirectional edges that connect sender grid nodes to receiver mesh nodes. An edge 𝑒G2M 𝑣G→𝑣M is added if the distance between the mesh node and the grid node is smaller s r or equal than 0.6 times5 the length of the edges in mesh 𝑀6 (see Figure 1) which ensures every grid node is connected to at least one mesh node. Features eG2M,features are built the same way as those for 𝑣G→𝑣M s r the mesh edges. This results on a total of 1,618,746 Grid2Mesh edges, each with 4 input features. Grid2Mesh edges EM2G zijn unidirectionele randen die zender mesh knooppunten verbinden met ontvanger grid knooppunten. Voor elk gridpunt, vinden we het driehoekige gezicht in het mesh M6 dat het bevat en voeg drie Mesh2Grid randen van de vorm eM2G vM→vG, om de grid knooppunten te verbinden met de drie mesh knooppunten aangrenzende s r aan dat gezicht (zie Figuur 1). Kenmerken eM2G,functies zijn gebouwd op dezelfde manier als die voor de mesh vM→vG s r r randen. Dit resulteert in een totaal van 3,114,720 Mesh2Grid randen (3 mesh knooppunten verbonden met elk van de 721 × 1440 breedtegraad-lengte-grid Mesh2Grid edges 3.4. Encoder Het doel van de encoder is om gegevens voor te bereiden in latente representaties voor de processor, die uitsluitend op de multi-mesh zal draaien. As part of the encoder, we first embed the features of each of the grid nodes, mesh nodes, mesh edges, grid to mesh edges, and mesh to grid edges into a latent space of fixed size using five multi-layer perceptrons (MLP), Embedding the input features Vervolgens, om informatie over de toestand van de atmosfeer van de grid knooppunten naar de mesh knooppunten over te brengen, voeren we een enkel bericht passeren stap over de Grid2Mesh bipartite subgraaf GG2M (VG, VM, EG2M) verbinding van de grid knooppunten met mesh knooppunten. Deze update wordt uitgevoerd met behulp van een interactie netwerk [5, 6], vergroot om te kunnen werken met meerdere knooppunten typen [2]. Grid2Mesh GNN Vervolgens wordt elk van de mesh knooppunten bijgewerkt door informatie te aggregeren van alle randen die bij die mesh knooppunten aankomen: Elk van de grid-nodes wordt ook bijgewerkt, maar zonder aggregatie, omdat grid-nodes geen ontvangers zijn van enige randen in de Grid2Mesh-subgraaf, Na het bijwerken van alle drie de elementen, het model bevat een residuele verbinding, en voor de eenvoud van de notatie, herverwijst de variabelen, 5.3 De verwerker De processor is een diepe GNN die werkt op de Mesh subgraph GM (VM, EM) die alleen de Mesh knooppunten en en de Mesh randen bevat. Merk op de Mesh randen bevatten de volledige multi-mesh, met niet alleen de randen van M6, maar alle randen van M5, M4, M3, M2, M1 en M0, die lange afstand communicatie mogelijk zal maken. Een enkele laag van de Mesh GNN is een standaard interactie netwerk [5, 6] dat eerst elke van de mesh randen bijwerkt met behulp van informatie van de aangrenzende knooppunten: Multi-mesh GNN Vervolgens wordt elk van de mesh knooppunten bijgewerkt, waarbij informatie wordt geaggregeerd van alle randen die bij die mesh knooppunten aankomen: And after updating both, the representations are updated with a residual connection and for simplicity of the notation, also reassigned to the input variables: De vorige paragraaf beschrijft een enkele laag van het bericht dat doorgaat, maar na een vergelijkbare benadering met [43, 39], hebben we deze laag iteratief 16 keer toegepast, met behulp van ongeëvenaarde neurale netwerkgewichten voor de MLPs in elke laag. 3.6 Decoderen The role of the decoder is to bring back information to the grid, and extract an output. Analogous to the Grid2Mesh GNN, the Mesh2Grid GNN performs a single message passing over the Mesh2Grid bipartite subgraph GM2G(VG, VM, EM2G). The Grid2Mesh GNN is functionally equivalent to the Mesh2Grid GNN, but using the Mesh2Grid edges to send information in the opposite direction. The GNN first updates each of the Grid2Mesh edges using information of the adjacent nodes: Mesh2Grid GNN Then it updates each of the grid nodes, aggregating information from all of the edges arriving at that grid node: In dit geval updaten we de mesh knooppunten niet, omdat ze vanaf dit punt geen rol zullen spelen. Hier voegen we opnieuw een residuele verbinding toe, en voor de eenvoud van de notatie, hertoewijzen we de variabelen, deze keer alleen voor de grid knooppunten, die de enige zijn die vanaf dit punt vereist zijn: Ten slotte wordt de voorspelling yi voor elk van de grid-nodes geproduceerd met behulp van een andere MLP, Output function die alle 227 voorspelde variabelen voor die gridnood bevat. Net als [43, 39], wordt de volgende weerstoestand, X ̈t + 1, berekend door de voorspelling per knoop, Y ̈t , toe te voegen aan de invoertoestand voor alle gridnooden, Normalisatie en netwerkparameterisatie Similar to [43, 39], we normalized all inputs. For each physical variable, we computed the per-pressure level mean and standard deviation over 1979–2015, and used that to normalize them to zero mean and unit variance. For relative edge distances and lengths, we normalized the features to the length of the longest edge. For simplicity, we omit this output normalization from the notation. Input normalization Omdat ons model een verschil produceert, Y ̈t , dat tijdens de inferentie aan Xt wordt toegevoegd om X ̈t + 1 te produceren, normaliseren we de output van het model door de standaard afwijkingsstatistieken per drukniveau te berekenen voor het tijdsverschil Yt = Xt+1 − Xt van elke variabele6. Output normalization The neural networks within GraphCast are all MLPs, with one hidden layer, and hidden and output layers sizes of 512 (except the final layer of the Decoder’s MLP, whose output size is 227, matching the number of predicted variables for each grid node). We chose the “swish” [40] activation function for all MLPs. All MLPs are followed by a LayerNorm [3] layer (except for the Decoder’s MLP). Neural network parameterizations 4. Training details Deze sectie biedt details met betrekking tot de training van GraphCast, waaronder de gegevens splitsing gebruikt om het model te ontwikkelen (Section 4.1), de volledige definitie van de objectieve functie met het gewicht geassocieerd met elke variabele en verticale niveau (Section 4.2), de autoregressieve training benadering (Section 4.3), optimalisatie instellingen (Section 4.4), curriculum training gebruikt om trainingskosten te verminderen (Section 4.5), technische details gebruikt om de geheugenvoetafdruk van GraphCast te verminderen (Section 4.6), training tijd (Section 4.7) en de software gestapeld we gebruikten (Section 4.8). 4.1 Onderwijssplitsing Om de werkelijke implementatieomstandigheden na te bootsen, waarin de voorspelling niet afhankelijk kan zijn van informatie uit de toekomst, splitsten we de gegevens die werden gebruikt om GraphCast te ontwikkelen en de gegevens die werden gebruikt om de prestaties van GraphCast "causal" te testen, in die zin dat de "ontwikkelingsset" alleen datums bevatte die eerder waren dan die in de "testset". Within our development set, we further split the data into a training set comprising the years 1979–2015, and a validation set that includes 2016–2017. We used the training set as training data for our models and the validation set for hyperparameter optimization and model selection, i.e., to decide on the best-performing model architecture. We then froze the model architecture and all the training choices and moved to the test phase. In preliminary work, we also explored training on earlier data from 1959–1978, but found it had little benefit on performance, so in the final phases of our work we excluded 1959–1978 for simplicity. 4.2 Opleidingsdoelstelling GraphCast was trained to minimize an objective function over 12-step forecasts (3 days) against ERA5 targets, using gradient descent. The training objective is defined as the mean square error (MSE) between the target output 𝑋 and predicted output 𝑋ˆ, Waar τ ∈ 1 : Ttrain zijn de leidtijden die overeenkomen met de Ttrain autoregressieve stappen. d0 ∈ Dbatch vertegenwoordigt voorspelling initialisatie datum-tijden in een reeks voorspellingen in de training set, j ∈ J indexeert de variabele en voor atmosferische variabelen het drukniveau. bv J ={z1000, z850, . . . , 2 T, MsL}, i ∈ G0.25◦ zijn de locatie (lengte- en breedtegraad) coördinaten in het raster, x ̈d0+τ en xd0+τ zijn voorspelde en doelwaarden voor een aantal variabele-niveau, locatie, en lead tijd,j,i j,i s j is de omgekeerde variantie van tijdsverschillen per variabelniveau, wj is het verliesgewicht per variabele niveau, 𝑎𝑖 is the area of the latitude-longitude grid cell, which varies with latitude, and is normalized to unit mean over the grid. In order to build a single scalar loss, we took the average across latitude-longitude, pressure levels, variables, lead times, and batch size. We averaged across latitude-longitude axes, with a weight proportional to the latitude-longitude cell size (normalized to mean 1). We applied uniform averages across time and batch. The quantities 𝑠 = 𝕍 h𝑥𝑡+1 − 𝑥𝑡 i −1 are per-variable-level inverse variance estimates of the time differences, which aim to standardize the targets (over consecutive steps) to unit variance. These were estimated from the training data. We then applied per-variable-level loss weights, 𝑤𝑗. For atmospheric variables, we averaged across levels, with a weight proportional to the pressure of the level (normalized to unit mean), as shown in Figure 6a. We use pressure here as a proxy for the density [26]. Note that the loss weight applied to pressure levels at or below 50 hPa, where HRES tends to perform better than GraphCast, is only 0.66% of the total loss weight across all variables and levels. We tuned the loss weights for the surface variables during model development, so as to produce roughly comparable validation performance across all variables: the weight on 2 T was 1.0, and the weights on 10 U, 10 v, MsL, and TP were each 0.1, as shown in Figure 6b. The loss weights across all variables sum to 7.4, i.e., (6 × 1.0 for the atmospheric variables, plus (1.0 + 0.1 + 0.1 + 0.1 + 0.1) for the surface variables listed above, respectively). Opleiding op het autoregressieve doel Om het vermogen van ons model om nauwkeurige voorspellingen te maken over meer dan één stap te verbeteren, gebruikten we een autoregressief trainingsregime, waarbij de voorspelde volgende stap van het model werd teruggevoerd als input voor het voorspellen van de volgende stap.De definitieve GraphCast-versie werd getraind op 12 autoregressieve stappen, na een curriculum trainingsschema hieronder beschreven.De optimalisatieprocedure berekende het verlies op elke stap van de voorspelling, met betrekking tot de overeenkomstige ground truth-stap, foutengradiënten met betrekking tot de modelparameters werden teruggedraaid door de volledige ongerolde reeks van model iteraties (d.w.z. met behulp van backpropagation-through-time). 4.4 Optimalisatie De trainingsobjectieffunctie werd geminimaliseerd met behulp van gradiëntdaling, met mini-batches. We bemonsterden waarheidstrajecties uit onze ERA5-trainingsdataset, met vervanging, voor batches van grootte 32. We gebruikten de AdamW optimizer [33, 27] met parameters (beta1 = 0,9, beta2 = 0,95). We gebruikten gewichtsverlies van 0,1 op de gewichtsmatrices. We gebruikten gradient (norm) clipping met een maximale normwaarde van 32. 5.3 Curriculum training schema De eerste fase bestond uit 1000 gradient afdalingsupdates, met één autoregressieve stap, en een leerpercentage schema dat lineair toeneemt van 0 tot 1e−3 (Figuur 7a). De tweede fase bestond uit 299.000 gradient afdalingsupdates, opnieuw met één autoregressieve stap, en een leerpercentage schema dat terugdaalde naar 0 met half-cosine afdalingsfunctie (Figuur 7b). De derde fase bestond uit 11.000 gradient afdalingsupdates, waarbij het aantal autoregressieve stappen toeneemt van 2 12, tot 1 per 1000 updates, en met een vaste leerpercentage van 3e−7 (Figuur 7c). 4.6 Vermindering van de geheugenvoetafdruk To fit long trajectories (12 autoregressive steps) into the 32GB of a Cloud TPU v4 device, we use several strategies to reduce the memory footprint of our model. First, we use batch parallelism to distribute data across 32 TPU devices (i.e., one data point per device). Second, we use bfloat16 floating point precision to decrease the memory taken by activations (note, we use full-precision numerics (i.e. float32) to compute performance metrics at evaluation time). Finally, we use gradient check-pointing [11] to further reduce memory footprint at the cost of a lower training speed. 4.7. Training time Following the training schedule that ramps up the number of autoregressive steps, as detailed above, training GraphCast took about four weeks on 32 TPU devices. 4.8. Software and hardware stack We gebruiken JAX [9], Haiku [23], Jraph [17], Optax, Jaxline [4] en xarray [25] om onze modellen te bouwen en te trainen. 5 Verificatiemethoden Deze sectie geeft details over ons evaluatieprotocol. sectie 5.1 beschrijft onze benadering van het splitsen van gegevens op een causale manier, waardoor onze evaluatietests voor betekenisvolle generalisatie worden gewaarborgd, d.w.z. zonder gebruik te maken van informatie uit de toekomst. sectie 5.2 legt in meer details onze keuzes uit om HRES-vaardigheid te evalueren en deze te vergelijken met GraphCast, te beginnen met de noodzaak voor een grondwaarheid die specifiek is voor HRES om te voorkomen dat het wordt gestraft op korte leadstijden (sectie 5.2.1), de impact van ERA5 en HRES met behulp van verschillende assimilatievensters op de lookahead die elke staat integreert (sectie 5.2.2), de resulterende keuze voor initialisatie voor tijd GraphC 5.1 Training, validatie en test splitsen In de testfase, met behulp van het protocol bevroren aan het einde van de ontwikkelingsfase (sectie 4.1), hebben we vier versies van GraphCast getraind, elk in een andere periode. 2018–2021, 2019–2021, 2020–2021 and 2021, respectively. Again, these splits maintained a causal separation between the data used to train a version of the model and the data used to evaluate its performance (see Figure 8). Most of our results were evaluated on 2018 (i.e., with the model trained on 1979–2017), with several exceptions. For cyclone tracking experiments, we report results on 2018–2021 because cyclones are not that common, so including more years increases the sample size. We use the most recent version of GraphCast to make forecast on a given year: GraphCast <2018 for 2018 forecast, GraphCast <2019 for 2019 forecast, etc. For training data recency experiments, we evaluated how different models trained up to different years compared on 2021 test performance. 5.2 Vergelijking van GraphCast met HRES 5.2.1 Keuze van ground truth datasets GraphCast was trained to predict ERA5 data, and to take ERA5 data as input; we also use ERA5 as ground truth for evaluating our model. HRES forecasts, however, are initialized based on HRES analysis. Generally, verifying a model against its own analysis gives the best skill estimates [45]. So rather than evaluating HRES forecasts against ERA5 ground truth, which would mean that even the zeroth step of HRES forecasts would have non-zero error, we constructed an “HRES forecast at step 0” (HRES-fc0) dataset, which contains the initial time step of HRES forecasts at future initializations (see Table 3). We use HRES-fc0 as ground truth for evaluating HRES forecasts. 5.2.2 Gelijke kijkhoek in assimilatievensters waarborgen Bij het vergelijken van de vaardigheden van GraphCast en HRES hebben we verschillende keuzes gemaakt om de verschillen tussen de ERA5- en HRES-fc0-gegevensassimilatievensters te controleren. Zoals beschreven in Sectie 1, assimileert HRES elke dag waarnemingen met vier +/-3h-vensters gecentreerd op 00z, 06z, 12z en 18z (waar 18z 18:00 UTC betekent in de Zulu-conventie), terwijl ERA5 twee +9h/-3h-vensters gebruikt gecentreerd op 00z en 12z, of gelijkwaardig twee +3h/-9h-vensters gecentreerd op 06z en 18z. Zie Figuur 9 voor een illustratie. We hebben ervoor gekozen om de voorspellingen van GraphCast te evalueren van de 06z en 18z-initi Figuur 10 toont de prestaties van GraphCast geïnitieerd van 06z/18z, en 00z/12z. Wanneer geïnitieerd van een staat met een grotere lookahead, GraphCast krijgt een zichtbare verbetering die aanhoudt bij langere lead tijden, ondersteuning van onze keuze voor geïnitieerde evaluatie van 06z/18z. We hebben dezelfde logica toegepast bij het kiezen van het doel om te evalueren: we evalueren alleen doelen die een 3h lookahead voor zowel HRES en ERA5 bevatten. Gezien onze keuze van initialisatie atz en 18z, dit komt overeen met het evalueren van elke 12h, op toekomstige 06z en 18z analysetijden. Als een praktisch voorbeeld, als we GraphCast en HRES geïnitieerd op 06z, 5.2.3. Alignment of initialization and validity times-of-day Zoals hierboven vermeld, vereist een eerlijke vergelijking met HRES dat we GraphCast evalueren met behulp van 06z en 18z initialisaties, en met leads die meervoudig zijn van 12h, wat betekent dat de geldigheidstijden ook 06z en 18z zijn. For lead times up to 3.75 days there are archived HRES forecasts available using 06z and 18z initialization and validity times, and we use these to perform a like-for-like comparison with GraphCast at these lead times. Note, because we evaluate only on 12 hour lead time increments, this means the final lead time is 3.5 days. Voor lead-tijden van 4 dagen en verder zijn gearchiveerde HRES-voorspellingen alleen beschikbaar bij 00z en 12z initialisaties, wat gezien onze 12-uur-multiple lead-tijden betekent 00z en 12z validiteitstijden. In deze vergelijkingen van wereldwijd gedefinieerde RMSEs verwachten we dat het verschil in de tijd van de dag HRES een licht voordeel geeft. In Figuur 11 kunnen we zien dat tot 3,5-daagse lead times, HRES RMSEs hebben de neiging om kleiner te zijn gemiddeld over 00z en 12z initialisatie/validiteit times dan ze zijn op 06z en 18z times waarop GraphCast wordt geëvalueerd. We kunnen ook zien dat het verschil afneemt als lead time toeneemt, en dat de 06z/18z RMSEs over het algemeen lijken te neigen naar een asymptotische boven de 00z/12z RMSE, maar binnen 2% daarvan. Wanneer we RMSE en andere evaluatiemeters plannen als een functie van leadtijd, wijzen we met een puntlijn op het veranderingspunt van 3,5 dagen waar we overschakelen van het evalueren van HRES op 06z/18z naar het evalueren op 00z/12z. 5.2 Beoordelingsperiode De meeste van onze belangrijkste resultaten worden gerapporteerd voor het jaar 2018 (van onze testset), waarvoor de eerste prognose-initialisatietijd 2018-01-01_06:00:00 UTC was en de laatste 2018-12-31_18:00:00, of bij het evalueren van HRES bij langere leads, 2018-01_00:00:00 en 2018-12-31_12:00:00. 5.3 Beoordelingsmetricen We quantify the skillfulness of GraphCast, other ML models, and HRES using the root mean square error (RMSE) and the anomaly correlation coefficient (ACC), which are both computed against the models’ respective ground truth data. The RMSE measures the magnitude of the differences between forecasts and ground truth for a given variable indexed by 𝑗 and a given lead time 𝜏 (see Equation (20)). The ACC, L𝑗,𝜏 , is defined in Equation (29) and measures how well forecasts’ differences from climatology, i.e., the average weather for a location and date, correlate with the ground truth’s differences from climatology. For skill scores we use the normalized RMSE difference between model 𝐴 and baseline 𝐵 as (RMSE𝐴 − RMSE𝐵)/RMSE𝐵, and the normalized ACC difference as (ACC𝐴 − ACC𝐵)/(1 − ACC𝐵). Alle metricen werden berekend met behulp van float32-nauwkeurigheid en gemeld met behulp van het native dynamic range van de variabelen, zonder normalisatie. We kwantificeren voorspelling vaardigheid voor een gegeven variabele, x j, en lead tijd, τ = tΔd, met behulp van een breedtegraad gewogen wortel gemiddelde vierkante fout (RMSE) gegeven door Root mean square error (RMSE) Waar • d0 ∈ Deval vertegenwoordigt de datum-tijden van de prognose-initialisatie in de evaluatiedataset, • j ∈ J index variabelen en niveaus, bijv. J = {z1000, z850, . . . , 2 T, MsL}, • i ∈ G0.25◦ zijn de locatie (lengte- en breedtegraad) coördinaten in het raster, • x ̈d0+τ en xd0+τ zijn voorspelde en doelwaarden voor een aantal variabele-niveau, locatie en lead tijd, 𝑗,𝑖 𝑗,𝑖 • ai is het gebied van de breedte-lengte-gridcel (gestandaardiseerd tot eenheid gemiddelde over het grid) dat varieert met de breedte. Door de vierkante wortel in het gemiddelde te nemen over voorspellingsinitialisaties volgen we de conventie van WeatherBench [41]. We merken echter op dat dit verschilt van hoe RMSE wordt gedefinieerd in vele andere contexten, waar de vierkante wortel alleen wordt toegepast op het uiteindelijke gemiddelde, dat wil zeggen, In alle vergelijkingen waarbij voorspellingen worden gefilterd, gesneden of afgebroken in het sferische harmonische domein, berekenen we voor het gemak RMSEs rechtstreeks in het sferische harmonische domein, met alle middelen genomen binnen de vierkante wortel, Root mean square error (RMSE), spherical harmonic domain. Hier f ̈d0+τ en f d0+τ zijn voorspelde en doelcoëfficiënten van bolvormige harmonieën met totale golvenummer j,l,m j,l,m We berekenen deze coëfficiënten uit grid-gebaseerde gegevens met behulp van een discrete bolvormige harmonische transformatie [13] met driehoekige truncatie bij golfnummer 719, die werd gekozen om de resolutie van 0,25° (28km) van ons grid op de evenaar op te lossen. Deze RMSE benadert nauw met de grid-gebaseerde definitie van RMSE gegeven in de vergelijking (21), maar het is niet precies vergelijkbaar, deels omdat de driehoekige truncatie bij golfnummer 719 de extra resolutie van het gelijkhoekige raster in de buurt van de polen niet oplost. Dit wordt berekend volgens de RMSE-definitie van de vergelijking (21), maar voor een enkele locatie: Root mean square error (RMSE), per location. We also break down RMSE by latitude only: waar Eclon(G0.25◦) Eclon = 1440 is het aantal verschillende lengtes in ons reguliere 0,25° raster. Dit wordt berekend volgens de RMSE-definitie van de vergelijking (21), maar beperkt tot een bepaald bereik van oppervlaktehoogtes, gegeven door grenzen zl ≤ zsurface < zu op het oppervlaktegepotentieel: Root mean square error (RMSE), by surface elevation. where ll denotes the indicator function. This quantity is defined as Mean bias error (MBE), per location. Dit kwantifieert de gemiddelde magnitude van de per-locatie biases uit de vergelijking (26) en wordt gegeven door Root-mean-square per-location mean bias error (RMS-MBE). Dit kwantifieert de correlatie tussen per-locatie vooroordelen (equatie (26)) van twee verschillende modellen A en B. We gebruiken een niet-gecentreerde correlatiecoëfficiënt vanwege de betekenis van de oorsprong nul in de metingen van vooroordelen, en berekenen deze hoeveelheid volgens Correlation of per-location mean bias errors. Anomaly correlation coefficient (ACC). We also computed the anomaly correlation coefficient for a given variable, 𝑥 𝑗, and lead time, 𝜏 = 𝑡Δ𝑑, according to waar Cd0+τ het klimatologische gemiddelde is voor een gegeven variabele, niveau, breedte en lengte, en voor de dag van het jaar met de geldigheidsduur d0 + τ. Klimatologische middelen werden berekend met behulp van ERA5-gegevens tussen 1993 en 2016. 5.4 Statistische methodologie 5.4.1. Significance tests for difference in means For each lead time 𝜏 and variable-level 𝑗, we test for a difference in means between per-initialization-time RMSEs (defined in Equation (30)) for GraphCast and HRES. We use a paired two-sided 𝑡-test with correction for auto-correlation, following the methodology of [16]. This test assumes that time series of differences in forecast scores are adequately modelled as stationary Gaussian AR(2) processes. This assumption does not hold exactly for us, but is motivated as adequate for verification of medium range weather forecasts by the ECMWF in [16]. The nominal sample size for our tests is 𝑛 = 730 at lead times under 4 days, consisting of two forecast initializations per day over the 365 days of 2018. (For lead times over 4 days we have 𝑛 = 729, see Section 5.4.2). However these data (differences in forecast RMSEs) are auto-correlated in time. Following [16] we estimate an inflation factor 𝑘 for the standard error which corrects for this. Values of 𝑘 range between 1.21 and 6.75, with the highest values generally seen at short lead times and at the lowest pressure levels. These correspond to reduced effective sample sizes 𝑛eff = 𝑛/𝑘2 in the range of 16 to 501. Zie tabel 5 voor gedetailleerde resultaten van onze significantietests, waaronder p-waarden, waarden van de t-teststatistiek en van neff. 5.4.2 Voorspelling van de afstemming Voor lead-tijden τ minder dan 4 dagen, hebben we voorspellingen beschikbaar op 06z en 18z initialisatie- en geldigheidstijden elke dag voor zowel GraphCast als HRES, en we kunnen testen op verschillen in RMSEs tussen deze gepaarde voorspellingen. We berekenen verschillen die we gebruiken om de null-hypothese te testen dat E[diff-RMSE( j, τ, d0)] = 0 tegen de tweezijdige alterna-tive. Zoals besproken in Sectie 5.2.3, hebben we bij lead-tijden van 4 dagen of meer alleen HRES-voorspellingen beschikbaar bij 00z en 12z initialisatie- en geldigheidstijden, terwijl voor de eerlijkste vergelijking (Sectie 5.2.2) GraphCast-voorspellingen moeten worden geëvalueerd met behulp van 06z en 18z initialisatie- en geldigheidstijden. We kunnen deze gebruiken om de null-hypothese E [diff-RMSEinterp( j, τ, d0)] = 0 te testen, die opnieuw niet afhankelijk is van d0 door de veronderstelling van stationariteit op de verschillen. Als we verder aannemen dat de HRES RMSE-tijdserie zelf stationair is (of tenminste dicht genoeg bij stationaire over een 6 uur venster) dan E[diff-RMSEinterp( j, τ, d0)] = E[diff-RMSE( j, τ, d0)] en de geïnterpoleerde verschillen kunnen ook worden gebruikt om afwijkingen van de oorspronkelijke null-hypothese te testen dat E[diff-RMSE( j, τ, d0)] = 0. This stronger stationarity assumption for HRES RMSEs is violated by diurnal periodicity, and in Section 5.2.3 we do see some systematic differences in HRES RMSEs between 00z/12z and 06z/18z validity times. However as discussed there, these systematic differences reduce substantially as lead time grows and they tend to favour HRES, and so we believe that a test of 𝔼[diff-RMSE( 𝑗, 𝜏, 𝑑0)] = 0 based on diff-RMSEinterp will be conservative in cases where GraphCast appears to have greater skill than HRES. 5.4.3 Vertrouwensintervallen voor RMSEs The error bars in our RMSE skill plots correspond to separate confidence intervals for 𝔼[RMSE𝐺𝐶] and 𝔼[RMSE𝐻𝑅𝐸𝑆] (eliding or now the arguments 𝑗, 𝜏, 𝑑0). These are derived from the two-sided 𝑡-test with correction for autocorrelation that is described above, applied separately to GraphCast and HRES RMSE time-series. Deze vertrouwensintervallen maken een stationariteitsveronderstelling voor de afzonderlijke GraphCast- en HRES-RMSE-tijdserie, die, zoals hierboven vermeld, een sterkere veronderstelling is dat de stationariteit van de verschillen enigszins wordt geschonden. 5.4.4 Vertrouwensintervallen voor RMSE vaardigheidscores From the 𝑡-test described in Section 5.4.1 we can also derive in the standard way confidence intervals for the true difference in RMSEs, however in our skill score plots we would like to show confidence intervals for the true RMSE skill score, in which the true difference is normalized by the true RMSE of HRES: Een vertrouwensinterval voor deze hoeveelheid moet rekening houden met de onzekerheid van onze schatting van de ware HRES RMSE. Laat [ldiff, udiff] ons 1 − α/2 vertrouwensinterval zijn voor de teler (verschil in RMSEs), en [lHRES, uHRES] ons 1 − α/2 vertrouwensinterval voor de noemer (HRES RMSE). Aangezien 0 < lHRES in elk geval voor ons, met behulp van intervalarithmetica en de verbinding, een conservatief 1 − α vertrouwensinterval verkrijgen We plannen deze vertrouwensintervallen naast onze schattingen van de RMSE-vaardigheidsscore, maar let op dat we niet op hen vertrouwen voor significantietests. Vergelijking met eerdere machine learning basislijnen Om te bepalen hoe de prestaties van GraphCast vergeleken met andere ML-methoden, richten we ons op Pangu-Weather [7], een sterke MLWP baseline die werkt bij 0.25° resolutie. Om de meest directe vergelijking te maken, we vertrekken van ons evaluatieprotocol, en gebruiken die beschreven in [7]. Omdat gepubliceerde Pangu-Weather-resultaten worden verkregen van de 00z/12z initialisaties, gebruiken we dezelfde initialisaties voor GraphCast, in plaats van 06z/18z, als in de rest van dit document. Dit stelt beide modellen in staat te worden geïnitieerd op dezelfde inputs, die dezelfde hoeveelheid lookahead bevatten (+9 uur, zie secties 5.2.2 en 5.2). Aangezien HRES-initialisaties dezelfde initialisaties voor Graph Zoals weergegeven in Figuur 12, overtreft GraphCast (blauwe lijnen) Pangu-Weather [7] (rode lijnen) op 99,2% van de doelen. Voor de oppervlaktevariabelen (2 T, 10 U, 10 v, MsL), is de fout van GraphCast in de eerste paar dagen ongeveer 10-20% lager, en over de langere leadtijden plateau tot ongeveer 7-10% lager fout. De enige twee (van de 252 totale) metricen waarop Pangu-Weather GraphCast overtref was z500, bij leadtijden 6 en 12 uur, waar GraphCast had 1,7% hoger gemiddeld RMSE (Figuur 12a,e). 7. Additional forecast verification results Deze sectie biedt een aanvullende analyse van de prestaties van GraphCast en geeft een vollediger beeld van de sterke punten en beperkingen. Sectie 7.1 vult de belangrijkste resultaten van het document aan op aanvullende variabelen en niveaus die verder gaan dan z500. Sectie 7.2 analyseert verder de prestaties van GraphCast afgebroken door regio's, breedtegraad en drukniveaus (in het bijzonder het onderscheiden van de prestaties onder en boven de tropopause), illustreert de vooroordelen en de RMSE door breedtegraad en hoogte. Sectie 7.3 toont aan dat zowel de multi-mesh als de autoregressieve verlies een belangrijke rol spelen in de prestaties van GraphCast. Sectie 7.4 beschrijft de benadering van optimale blurring toegepast op 7.1 Gedetailleerde resultaten voor aanvullende variabelen 7.1.1. RMSE and ACC Figuur 13 complementeert Figuur 2a-b en toont het RMSE en de genormaliseerde RMSE verschil ten opzichte van HRES voor GraphCast en HRES op een combinatie van 12 highlight variabelen. Figuur 14 toont het ACC en genormaliseerde ACC verschil ten opzichte van HRES voor GraphCast en HRES op dezelfde combinatie van 12 variabelen en aanvult Figuur 2c. De ACC skill score is het genormaliseerde ACC verschil tussen model A en baseline B als (ACCA − ACCB)/(1 − RMSEB). 7.1.2 Gedetailleerde significantietestresultaten voor RMSE-vergelijkingen Tabel 5 geeft nadere informatie over de statistische significantie-aanspraken die in het hoofdgedeelte worden gemaakt over verschillen in RMSE tussen GraphCast en HRES. Details van de methodologie zijn te vinden in sectie 5.4. Hier geven we p-waarden, teststatistieken en effectieve steekproefgroottes voor alle variabelen. Om redenen van ruimte beperken we onszelf tot drie belangrijke leadtijden (12 uur, 2 dagen en 10 dagen) en een subset van 7 drukniveaus gekozen om alle gevallen op te nemen waar p > 0,05 op deze leadtijden. 7.1.3 Effect van data recency op GraphCast An important feature of MLWP methods is they can be retrained periodically with the most recent data. This, in principle, allows them to model recent weather patterns that change over time, such as the ENSO cycle and other oscillations, as well as the effects of climate change. To explore how the recency of the training data influences GraphCast’s test performance, we trained four variants of GraphCast, with training data that always began in 1979, but ended in 2017, 2018, 2019, and 2020, respectively (we label the variant ending in 2017 as “GraphCast:<2018”, etc). We evaluated the variants, and HRES, on 2021 test data. Figure 15 shows the skill and skill scores (with respect to HRES) of the four variants of GraphCast, for several variables and complements Figure 4a. There is a general trend where variants trained to years closer to the test year have generally improved skill score against HRES. The reason for this improvement is not fully understood, though we speculate it is analogous to long-term bias correction, where recent statistical biases in the weather are being exploited to improve accuracy. It is also important to note that HRES is not a single NWP across years: it tends to be upgraded once or twice a year, with generally increasing skill on z500 and other fields [18, 22, 19, 20, 21]. Dit kan ook bijdragen aan de reden waarom GraphCast:<2018 en GraphCast:<2019, in het bijzonder, lagere vaardigheidscores hebben ten opzichte van HRES in de vroege leidingtijden voor de testbeoordeling van 2021. 7.2 Gedeaggregeerde resultaten 7.2.1 RMSE per regio Per regio evaluatie van voorspelling vaardigheden wordt verstrekt in Figuur 17 en 18, met behulp van dezelfde regio's en benaming conventie als in de ECMWF scorecards (https://sites.ecmwf.int/ifs/scorecards/ scorecards-47r3HRES.html). We voegden enkele extra regio's voor een betere dekking van de hele planeet. Deze regio's zijn weergegeven in Figuur 16. 7.2.2 RMSE vaardigheidsscore per breedtegraad en drukniveau In figuur 19 schetsen we de genormaliseerde RMSE-verschillen tussen GraphCast en HRES, als een functie van zowel drukniveau als breedtegraad. Op deze plots geven we op elke breedte de gemiddelde druk van de tropopause aan, die de troposfeer van de stratosfeer scheidt. We gebruiken waarden die zijn berekend voor de ERA-15 dataset (1979-1993), gegeven in Figuur 1 van [44]. Deze zullen niet helemaal hetzelfde zijn als voor ERA5, maar zijn alleen bedoeld als een ruwe hulp bij interpretatie. Uit de scorecard in Figuur 2 kunnen we zien dat GraphCast slechter presteren dan HRES bij de laagst beoordeelde drukniveaus (50hPa). Figuur 19 toont aan dat het drukniveau waarbij GraphCast begint erger te worden vaak ook breedteafhankelijk is, in sommige gevallen ongeveer het gemiddelde niveau van de tropopause volgt. We gebruiken een lagere verliesweeging voor lagere drukniveaus en dit kan een rol spelen; het is ook mogelijk dat er verschillen kunnen zijn tussen de ERA5 en HRES-fc0 datasets in de voorspelbaarheid van variabelen in de stratosfeer. 7.2.3. Biases by latitude and longitude In afbeeldingen 20 tot 22 planten we de gemiddelde bias fout (MBE, of gewoon ‘bias’, gedefinieerd in de vergelijking (26)) van GraphCast als een functie van breedte en lengte, bij drie leads: 12 uur, 2 dagen en 10 dagen. In de plots voor variabelen gegeven op drukniveaus hebben we gebieden gemaskeerd waarvan de oppervlaktehoogte hoog genoeg is dat het drukniveau gemiddeld onder de grond ligt. We bepalen dat dit het geval is wanneer het oppervlaktegepotentieel een klimatologisch gemiddeld geopotentieel op dezelfde locatie en drukniveau overschrijdt. Om de gemiddelde magnitude van de per-locatie vooroordelen weergegeven in Figuur 20 tot 22 te kwantificeren, berekenden we de wortel-gemiddelde vierkant van per-locatie gemiddelde vooroordelen fouten (RMS-MBE, gedefinieerd in de vergelijking (26)). Deze zijn gepland in Figuur 23 voor GraphCast en HRES als een functie van lead time.We kunnen zien dat de vooroordelen van GraphCast gemiddeld kleiner zijn dan HRES’ voor de meeste variabelen tot 6 dagen. We berekenden ook een correlatiecoëfficiënt tussen GraphCast en HRES' per-locatie gemiddelde vooroordelen fouten (definieerd in de vergelijking (27)), die is geplakt als een functie van lead tijd in Figuur 24. We kunnen zien dat GraphCast en HRES' vooroordelen zijn ongerelateerd of zwak gecorreleerd op de kortste lead tijden, maar de correlatiecoëfficiënt groeit over het algemeen met lead tijd, het bereiken van waarden zo hoog als 0,6 op 10 dagen. 7.2.4. RMSE skill score by latitude and longitude In Figures 25 to 27, we plot the normalized RMSE difference between GraphCast and HRES by latitude and longitude. As in Section 7.2.3, for variables given on pressure levels, we have masked out regions whose surface elevation is high enough that the pressure level is below ground on average. Notable areas where HRES outperforms GraphCast include specific humidity near the poles (particularly the south pole); geopotential near the poles; 2m temperature near the poles and over many land areas; and a number of surface or near-surface variables in regions of high surface elevation (see also Section 7.2.5). GraphCast’s skill in these areas generally improves over longer lead times. However HRES outperforms GraphCast on geopotential in some tropical regions at longer lead times. Bij 12 uur en 2 dagen leads worden zowel GraphCast als HRES geëvalueerd bij 06z/18z initialisatie- en geldigheidstijden, maar bij 10 dagen leads moeten we GraphCast bij 06z/18z vergelijken met HRES bij 00z/12z (zie sectie 5). 7.2.5. RMSE skill score by surface elevation In Figuur 25 kunnen we zien dat GraphCast lijkt te hebben verminderd vaardigheid in hooggelegen gebieden voor veel variabelen bij 12 uur leidtijd. om dit verder te onderzoeken hebben we de aardoppervlakte verdeeld in 32 bins door oppervlaktehoogte (gegeven in termen van geopotentiële hoogte) en berekend RMSEs binnen elke bin volgens de vergelijking (24). Bij korte leidtijden en vooral bij 6 uur neemt de vaardigheid van GraphCast ten opzichte van HRES af met een hogere oppervlaktehoogte, in de meeste gevallen onder de vaardigheid van HRES bij voldoende hoge hoogte. We merken op dat GraphCast wordt getraind op variabelen die worden gedefinieerd met behulp van een mix van coördinaten op drukniveau (voor atmosferische variabelen) en hoogte boven oppervlaktecoördinaten (voor oppervlakte-niveau variabelen zoals 2m temperatuur of 10m wind). De relatie tussen deze twee coördinatenystemen hangt af van oppervlaktehoogte. Ondanks GraphCast-conditioning op oppervlaktehoogte vermoeden we dat het moeilijk kan zijn om deze relatie te leren, en om het goed te extrapoleren naar de hoogste oppervlaktehoogtes. Variabelen met behulp van coördinaten op drukniveau worden onder de grond geïnterpoleerd wanneer het drukniveau de oppervlaktedruk overschrijdt. GraphCast geeft geen expliciete aanwijzing dat dit is gebeurd en dit kan bijdragen aan de uitdaging om te leren voorspellen bij hoge oppervlaktehoogtes. Ten slotte is onze verliesweeging lager voor atmosferische variabelen bij lagere drukniveaus, en dit kan invloed hebben op vaardigheden op hogere hoogtepunten. 7.3 GraphCast ablatie 7.3.1. Multi-mesh ablation Om beter te begrijpen hoe de multi-mesh representatie de prestaties van GraphCast beïnvloedt, vergelijken we de prestaties van GraphCast met een versie van het model dat is getraind zonder de multi-mesh representatie. De architectuur van het laatste model is identiek aan GraphCast (met inbegrip van dezelfde encoder en decoder, en hetzelfde aantal knooppunten), behalve dat in het procesblok, de grafiek alleen de randen bevat van de beste icosahedron mesh M6 (245,760 randen, in plaats van 327,660 voor GraphCast). GraphCast profiteert van de multi-mesh structuur voor alle voorspelde variabelen, behalve voor lead-tijden boven 5 dagen bij 50 hPa. De verbetering is vooral uitgesproken voor geopotentieel over alle drukniveaus en voor gemiddelde zeespiegeldruk voor lead-tijden onder 5 dagen. 7.3.2 Effecten van autoregressieve training We analyseerden de prestaties van varianten van GraphCast die werden getraind met minder autoregressieve (AR) stappen7, wat hen zou moeten aanmoedigen om hun korte lead-tijdprestaties te verbeteren ten koste van langere lead-tijdprestaties. Zoals we in Figuur 30 laten zien (met de lichtere blauwe lijnen die overeenkomen met training met minder AR-stappen) vonden we dat modellen die werden getraind met minder AR-stappen de neiging hadden om langer te handelen voor kortere lead-tijdnauwkeurigheid. Deze resultaten suggereren het potentieel voor het combineren van meerdere modellen met verschillende aantallen AR-stappen, bijvoorbeeld voor korte, middellange en lange lead-tijden, om te profiteren van hun respectieve voordelen over de hele voorspellingshorizon. 7.4. Optimal blurring 7.4.1 Effect op de vergelijking van vaardigheden tussen GraphCast en HRES In Figures 31 and 32 we compare the RMSE of HRES with GraphCast before and after optimal blurring has been applied to both models. We can see that optimal blurring rarely changes the ranking of the two models, however it does generally narrow the gap between them. 4.2 Filtermethodiek We kozen filters die RMSE minimaliseren binnen de klasse van lineaire, homogene (locatie invariant), isotrope (richting invariant) filters op de sfeer. Deze filters kunnen gemakkelijk worden toegepast in het sferische harmonische domein, waar ze overeenkomen met multiplicatieve filtergewichten die afhankelijk zijn van het totale golvenummer, maar niet het longitudinale golvenummer [12]. For each initialization 𝑑0, lead time 𝜏, variable and level 𝑗, we applied a discrete spherical harmonic transform [13] to predictions 𝑥ˆ𝑑0+𝜏 and targets 𝑥𝑑0+𝜏, obtaining spherical harmonic coefficients 𝑓ˆ𝑑0+𝜏 𝑗 𝑗 𝑗,𝑙,𝑚 and 𝑓 𝑑0+𝜏 for each pair of total wavenumber 𝑙 and longitudinal wavenumber 𝑚. To resolve the 0.25° (28km) resolution of our grid at the equator, we use a triangular truncation at total wavenumber 719, which means that 𝑙 ranges from 0 to 𝑙𝑚𝑎𝑥 = 719, and for each 𝑙 the value of 𝑚 ranges from −𝑙 to 𝑙. We then multiplied each predicted coefficient 𝑓ˆ𝑑0+𝜏 by a filter weight 𝑏𝜏 , which is independent of 𝑗,𝑙,𝑚 𝑗,𝑙 the longitudinal wavenumber 𝑚. The filter weights were fitted using least-squares to minimize mean squared error, as computed in the spherical harmonic domain: Bij het evalueren van de gefilterde voorspellingen berekenden we MSE in het sferische harmonische domein, zoals gedetailleerd in de vergelijking (22). Door verschillende filters te monteren voor elke leidingtijd, was de mate van vervagen vrij om te toenemen met toenemende onzekerheid bij langere leidingtijden. Hoewel deze methode vrij algemeen is, heeft het ook beperkingen. Omdat de filters homogeen zijn, kunnen ze geen rekening houden met locatie-specifieke kenmerken, zoals orografie of land-zeegrenzen, en dus moeten ze kiezen tussen over-blurring voorspelbare hoge resolutie details op deze locaties, of onder-blurring onvoorspelbare hoge resolutie details meer in het algemeen. Dit maakt ze minder effectief voor sommige oppervlakte variabelen zoals 2 T, die veel van dergelijke voorspelbare details bevatten. Een alternatieve manier om een voorwaardelijke verwachting te benaderen (en zo de RMSE te verbeteren) voor onze ECMWF-voorspelling baseline zou zijn om het ensemble gemiddelde van het ENS ensemble voorspellingssysteem te evalueren, in plaats van de deterministische HRES-voorspelling. 7.4.3 Transferfuncties van de optimale filters De filtergewichten worden weergegeven in Figuur 33, die de verhouding van de uitvoerkracht tot de invoerkracht voor het filter, op de logaritmische decibelschaal, als een functie van golflengte toont. Equation (35), this is equal to 20 log10(𝑏𝜏 ) for the wavelength 𝐶𝑒/𝑙 corresponding to total wavenumber 𝑙.) For both HRES and GraphCast, we see that it is optimal for MSE to attenuate power over some short-to-mid wavelengths. As lead times increase, the amount of attenuation increases, as does the wavelength at which it is greatest. In optimizing for MSE, we seek to approximate a conditional expectation which averages over predictive uncertainty. Over longer lead times this predictive uncertainty increases, as does the spatial scale of uncertainty about the location of weather phenomena. We believe that this largely explains these changes in optimal filter response as a function of lead time. We can see that HRES generally requires more blurring than GraphCast, because GraphCast’s predictions already blur to some extent (see Section 7.5.3), whereas HRES’ do not. De optimale filters zijn ook in staat om te compenseren, tot op zekere hoogte, voor spectrale vooroordelen in de voorspellingen van GraphCast en HRES. Bijvoorbeeld, voor veel variabelen in onze teruggekeerde ERA5 dataset, het spectrum snijdt abrupt voor golflengten onder 62km die onopgelost zijn bij de native 0.28125◦ resolutie van ERA5. GraphCast heeft niet geleerd om deze cutoff precies te repliceren, maar de optimale filters zijn in staat om het te implementeren. We merken ook op dat er merkbare piekken zijn in de GraphCast-filterrespons rond de 100km golflengte voor z500, die niet aanwezig zijn voor HRES.We geloven dat deze kleine, valse artefacten filteren die door GraphCast rond deze golflengten worden geïntroduceerd als een bijwerking van de grid-to-mesh en mesh-to-grid transformaties die in het model worden uitgevoerd. 7.4.4 Relatie tussen autoregressieve trainingshorizon en vervagen In Figuur 34 gebruiken we de resultaten van optimale verduistering om het verband tussen autoregressieve training en de verduistering van de voorspellingen van GraphCast bij langere leadstijden te onderzoeken. In the first row of Figure 34, we see that models trained with longer autoregressive training horizons benefit less from optimal blurring, and that the benefits of optimal blurring generally start to accrue only after the lead time corresponding to the horizon they were trained up to. This suggests that autoregressive training is effective in teaching the model to blur optimally up to the training horizon, but beyond this further blurring is required to minimize RMSE. Het zou handig zijn als we langerhorizonstraining zouden kunnen vervangen door een eenvoudige postprocessingstrategie zoals optimale verduistering, maar dit lijkt niet het geval te zijn: in de tweede rij van Figuur 34 zien we dat langerhorizon autoregressieve training nog steeds resulteert in lagere RMSEs, zelfs nadat optimale verduistering is toegepast. Als men voorspellingen wenst die in zekere zin minimaal onduidelijk zijn, zou men een model kunnen gebruiken dat is getraind op een klein aantal autoregressieve stappen. Dit zou natuurlijk resulteren in hogere RMSEs bij langere leadstijden, en onze resultaten hier suggereren dat deze hogere RMSEs niet alleen te wijten zouden zijn aan het gebrek aan onduidelijkheid; men zou ook andere aspecten van vaardigheid in langere leadstijden in gevaar brengen. 7.5. Spectral analysis 7.5.1 Spectrale afbraak van gemiddelde vierkante fout In Figuur 35 en 36 vergelijken we de vaardigheid van GraphCast met HRES over een reeks ruimtelijke schalen, voor en na optimale filtratie (zie details in Sectie 7.4). where 𝑙max = 719 as in Equation (22). Each total wavenumber 𝑙 corresponds approximately to a wavelength 𝐶𝑒/𝑙, where 𝐶𝑒 is the earth’s circumference. We plot power density histograms, where the area of each bar corresponds to 𝑆 𝑗,𝜏(𝑙), and the bars center around log10(1 + 𝑙) (since a log frequency scale allows for easier visual inspection, but we must also include wavenumber 𝑙 = 0). In these plots, the total area under the curve is the MSE. Bij leadtijden van 2 dagen of meer verbetert GraphCast voor de meeste variabelen de vaardigheid van HRES gelijkmatig over alle golflengten (2m temperatuur is een opvallende uitzondering). Bij kortere leads van 12 uur tot 1 dag, voor een aantal variabelen (waaronder z500, T500, T850 en U500) heeft HRES een grotere vaardigheid dan GraphCast op schaal in het geschatte bereik van 200-2000km, met GraphCast over het algemeen een grotere vaardigheid buiten dit bereik. 7.5.2 RMSE als functie van horizontale resolutie In Figure 37, we compare the skill of GraphCast with HRES when evaluated at a range of spatial resolutions. Specifically, at each total wavenumber 𝑙trunc, we plot RMSEs between predictions and targets which are both truncated at that total wavenumber. This is approximately equivalent to a wavelength 𝐶𝑒/𝑙trunc where 𝐶𝑒 is the earth’s circumference. The RMSEs between truncated predictions and targets can be obtained via cumulative sums of the mean error powers 𝑆 𝑗,𝜏(𝑙) defined in Equation (37), according to Figure 37 shows that in most cases GraphCast has lower RMSE than HRES at all resolutions typically used for forecast verification. This applies before and after optimal filtering (see Section 7.4). Exceptions include 2 meter temperature at a number of lead times and resolutions, T 500 at 12 hour lead times, and U 500 at 12 hour lead times, where GraphCast does better at 0.25° resolution but HRES does better at resolutions around 0.5◦ to 2.5◦ (corresponding to shortest wavelengths of around 100 to 500 km). In het bijzonder merken we op dat de native resolutie van ERA5 is 0.28125◦ die overeenkomt met een kortste golflengte van 62km, aangegeven door een verticale lijn in de plot. HRES-fc0 doelen bevatten een aantal signaal bij golflengten korter dan 62km, maar de ERA5 doelen gebruikt om GraphCast te evalueren niet, natief tenminste (zie Afdeling 7.5.3). 7.5.3. Spectra of predictions and targets Figuur 38 vergelijkt het vermogensspectrum van de voorspellingen van GraphCast, de ERA5-doelen waartegen ze werden getraind, en HRES-fc0. Er zijn merkbare verschillen in het spectrum van ERA5 en HRES-fc0, vooral bij korte golflengten. Deze verschillen kunnen gedeeltelijk worden veroorzaakt door de methoden die worden gebruikt om ze van hun respectieve native IFS-resoluties van TL639 (0.28125◦) en TCo1279 (ongeveer 0.1◦, [36]) terug te keren naar een 0,25° gelijkhoekig raster. Echter, zelfs voordat deze terugtrekking wordt gedaan, zijn er verschillen in IFS-versies, -instellingen, resolutie en gegevensassimilatiemethodologie die worden gebruikt voor HRES en ERA5, en deze verschillen kunnen ook het spectrum beïnvloeden. Aangezien we GraphCast tegen ERA5 en HRES tegen HRES-fc0 evalueren, blijft dit dome Differences between HRES and ERA5 We see reduced power at short-to-mid wavelengths in GraphCast’s predictions which reduces further with lead time. We believe this corresponds to blurring which GraphCast has learned to perform in optimizing for MSE. We discussed this further in Sections 7.4 and 7.4.4. Blurring in GraphCast We geloven dat ze overeenkomen met kleine, valse artefacten die worden geïntroduceerd door de interne grid-to-mesh en mesh-to-grid transformaties uitgevoerd door GraphCast bij elke autoregressieve stap. Peaks for GraphCast around 100km wavelengths Tot slot merken we op dat, hoewel deze verschillen in vermogen bij korte golflengten zeer merkbaar zijn in logschalen en relatieve plotten, deze korte golflengten weinig bijdragen aan de totale kracht van het signaal. 8. extra ernstige gebeurtenis voorspellingsresultaten We merken op dat GraphCast niet specifiek is opgeleid voor die downstream-taken, wat aantoont dat GraphCast, naast verbeterde vaardigheden, nuttige voorspelling biedt voor taken met real-world-impact zoals het volgen van cyclonen (Section 8.1), het karakteriseren van atmosferische rivieren (Section 8.2), en het classificeren van extreme temperaturen (Section 8.3). 8.1 Tropische cyclone track voorspelling In deze sectie geven we details over de evaluatieprotocollen die we hebben gebruikt voor cyclonentracking (Supplementen Sectie 8.1.1) en statistische significantieanalyse (Supplementen Sectie 8.1.2), bieden aanvullende resultaten (Supplementen Sectie 8.1.3), en beschrijven we onze tracker en zijn verschillen met die van ECMWF (Supplementen Sectie 8.1.4). 8.1.1 Het evaluatieprotocol De standaard manier om hetzelfde graphic cyclone voorspellingssysteem te vergelijken is om de vergelijking te beperken tot gebeurtenissen waar beide modellen het bestaan van een cyclone voorspellen. Zoals gedetailleerd in Supplements Section 5.2.2, GraphCast wordt geïnitieerd vanaf 06z en 18z, in plaats van 00z en 12z, om te voorkomen dat het een lookahead-voordeel heeft ten opzichte van HRES. In plaats daarvan worden de HRES cyclone tracks in het TIGGE-archief [8] alleen geïnitieerd op 00z en 12z. Deze discrepantie voorkomt dat we gebeurtenissen selecteren waar de initialisatie en de tijdkaart voor beide methoden dezelfde geldigheidstijd hebben, omdat er altijd een 6h mismatch is. In plaats daarvan gaan we Omdat we fouten berekenen met betrekking tot dezelfde fundamentele waarheid (d.w.z. IBTrACS), is de evaluatie niet onderworpen aan dezelfde beperkingen die worden beschreven in Supplementen Sectie 5.2.2, d.w.z. de doelen voor beide modellen bevatten dezelfde hoeveelheid lookahead. Dit is in tegenstelling tot de meeste van onze evaluaties in dit document, waar de doelen voor HRES (d.w.z. HRES-fc0) +3h lookahead bevat en die voor GraphCast (van ERA5) +3h of +9h bevatten, waardoor we alleen resultaten voor de lead times rapporteren met een overeenkomstige lookahead (multiples van 12h). For a given forecast, the error between the predicted center of the cyclone and the true center is computed using the geodesic distance. 8.1.2 Statistische methode Het berekenen van statistisch vertrouwen in cyclontracking vereist bijzondere aandacht in twee aspecten: Er zijn twee manieren om het aantal monsters te definiëren. De eerste is het aantal tropische cyclone gebeurtenissen, die kan worden aangenomen dat het meestal onafhankelijke gebeurtenissen zijn. De tweede is het aantal gegevenspunten per leidtijd gebruikt, die groter is, maar rekening houdt met gerelateerde punten (voor elke tropische cyclone gebeurtenis worden meerdere voorspellingen gemaakt op een interval van 6 uur). We hebben gekozen om de eerste definitie te gebruiken die meer conservatieve schattingen van statistische betekenis biedt. Beide cijfers worden getoond voor leidtijden 1 tot 5 dagen op de x-as van Supplements Figuur 39. 2. The per-example tracking errors of HRES and GraphCast are correlated. Therefore statistical variance in their difference is much smaller than their joint variance. Thus, we report the confidence that GraphCast is better than HRES (see Supplements Figure 39b) in addition to the per-model confidence (see Supplements Figure 39a). Given the two considerations above, we do bootstrapping with 95% confidence intervals at the level of cyclones. For a given lead time, we consider all the corresponding initialization time/lead time pairs and keep a list of which cyclone they come from (without duplication). For the bootstrap estimate, we draw samples from this cyclone list (with replacement) and apply the median (or the mean) to the corresponding initialization time/lead time pairs. Note that this gives us much more conservative confidence bounds than doing bootstrapping at the level of initialization time/lead time pairs, as it is equivalent to assuming all bootstrap samples coming from the sample cyclone (usually in the order of tens) are perfectly correlated. Stel bijvoorbeeld dat we voor een gegeven leadtijd fouten hebben van (50, 100, 150) voor cyclone A, (300, 200) voor cyclone B en (100, 100) voor cyclone C, waarbij A meer monsters heeft. Een bootstrappingmonster op cyclonenniveau monstert eerst gelijkmatig op willekeurige 3 cyclonen met vervanging (bijvoorbeeld A,A,B) en berekent vervolgens het gemiddelde boven de overeenkomstige monsters met multipliciteit: gemiddelde(50,100,150,50,100,150,200,300)=137.5. 8.1.3. Results In Supplements Figuur 3a-b hebben we ervoor gekozen om de gemiddelde fout in plaats van het gemiddelde te tonen. Deze beslissing werd genomen voordat de resultaten op de testset werden berekend, gebaseerd op de prestaties op de validatie set. In de jaren 2016-2017, met behulp van de versie van GraphCast getraind op 1979-2015, merkten we op dat, met behulp van vroege versies van onze tracker, de gemiddelde trackfout werd gedomineerd door zeer weinig outliers en niet representatief was voor de totale bevolking. Bovendien was een aanzienlijk deel van deze outliers te wijten aan fouten in het tracking-algoritme in plaats van de voorspellingen zelf, wat suggereert dat de tracker suboptimal was voor gebruik met GraphCast. Omdat We merken op dat met behulp van de definitieve versie van onze tracker (Supplements Section 8.1.4), GraphCast gemiddelde resultaten zijn vergelijkbaar met de mediane, met GraphCast aanzienlijk overtreft HRES voor leiding tijd tussen 2 en 5 dagen. Because of well-known blurring effects, which tend to smooth the extrema used by a tracker to detect the presence of a cyclone, ML methods can drop existing cyclones more often than NWPs. Dropping a cyclone is very correlated with having a large positional error. Therefore, removing from the evaluation such predictions, where a ML model would have performed particularly poorly, could give it an unfair advantage. Om dit probleem te voorkomen, controleren we of onze hyperparameter-gezochte tracker (zie Supplements Section 8.1.4) een vergelijkbaar aantal cyclonen mist als HRES. Supplements Figuur 41 toont aan dat op de testset (2018-2021), GraphCast en HRES een vergelijkbaar aantal cyclonen vallen, waardoor onze vergelijkingen zo eerlijk mogelijk zijn. Supplements Figures 42 and 43 show the median error and paired analysis as a function of lead time, broken down by cyclone category, where category is defined on the Saffir-Simpson Hurricane Wind Scale [47], with category 5 representing the strongest and most damaging storms (note, we use category 0 to represent tropical storms). We found that GraphCast has equal or better performance than HRES across all categories. For category 2, and especially for category 5 (the most intense events), GraphCast is significantly better that HRES, as demonstrated by the per-track paired analysis. We also obtain similar results when measuring mean performance instead of median. 8.1.4. Tracker details De tracker die we voor GraphCast gebruikten, is gebaseerd op onze herimplementatie van de tracker van ECMWF [35]. Omdat deze is ontworpen voor 0,1° HRES, vonden we het nuttig om verschillende wijzigingen toe te voegen om de hoeveelheid verkeerde cyclonen te verminderen wanneer deze worden toegepast op voorspellingen van GraphCast. We geven eerst een high-level samenvatting van de standaardtracker van ECMWF, voordat we de wijzigingen die we hebben gemaakt en ons besluitvormingsproces uitleggen. Gezien de voorspellingen van een model van de variabelen 10 U, 10 v, MsL evenals U, v en z bij drukniveaus van 200, 500, 700, 850 en 1000 hPa over meerdere tijdstappen, verwerkt de ECMWF-tracker [35] op sequentiële wijze elke tijdstap om iteratief de locatie van een cycloon over een heel traject te voorspellen. Elke 6 uur voorspelling van de tracker heeft twee hoofdstappen. In de eerste stap berekent de tracker op basis van de huidige locatie van de cycloon een schatting van de volgende locatie, 6 uur vooruit. ECMWF tracker To compute the estimate of the next cyclone location, the tracker moves the current estimate using a displacement computed as the average of two vectors: 1) the displacement between the last two track locations (i.e., linear extrapolation) and 2) an estimate of the wind steering, averaging the wind speed U and v at the previous track position at pressure levels 200, 500, 700 and 850 hPa. Zodra de schatting van de volgende cycloonlocatie is berekend, kijkt de tracker naar alle lokale minimumwaarden van gemiddelde zeespiegeldruk (MsL) binnen 445 km van deze schatting. Vorticiteit controleren: de maximale vorticiteit bij 850 hPa binnen 278 km van de lokale minimum is groter dan 5 · 10−5 s−1 voor het noordelijk halfrond, of is kleiner dan −5 · 10−5s−1 voor het zuidelijk halfrond. 2. Wind speed check: if the candidate is on land, the maximum 10m wind speed within 278 km is larger than 8 m/s. 3. diktecontrole: als de cycloon extratropisch is, is er een maximale dikte tussen 850 hPa en 200 hPa binnen een straal van 278 km, waarbij de dikte wordt gedefinieerd als z850-z200. Als geen minimum aan al die voorwaarden voldoet, beschouwt de tracker dat er geen cyclon is. De tracker van ECMWF stelt cyclonen in staat om kort te verdwijnen onder bepaalde hoek-case omstandigheden voordat ze opnieuw verschijnen. We analyseerden de mistracks op cyclonen uit onze validatie-setjaren (2016-2017), met behulp van een versie van GraphCast getraind op 1979-2015, en wijzigden de standaard herimplementatie van de ECMWF-tracker zoals hieronder beschreven. Our modified tracker We vonden deze parameter kritisch en zochten een betere waarde onder de volgende opties: 445 × f voor f in 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (oorspronkelijke waarde). 2. The next step vicinity radius determines how strict multiple checks are. We also found this parameter to be critical and searched a better value among the following options: 278 × 𝑓 for f in 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (original value). 3. De volgende stap schatting van ECMWF maakt gebruik van een 50-50 gewogen tussen lineaire extrapolatie en wind besturing vectoren. In ons geval waar de wind wordt voorspeld bij 0.25° resolutie, vonden we wind besturing om soms belemmering schattingen. Dit is niet verrassend omdat de wind is niet een ruimtelijk soepel veld, en de tracker is waarschijnlijk afgestemd op het benutten van 0.1° resolutie voorspellingen. We merkten op dat er meerdere mistracks plaatsvonden wanneer het spoor de koers scherp omdraaide, in tegenstelling tot zijn vorige richting.Dus beschouwen we alleen kandidaten die een hoek creëren tussen de vorige en de nieuwe richting onder d graden, waar d werd gezocht onder deze waarden: 90, 135, 150, 165, 175, 180 (d.w.z. geen filter, oorspronkelijke waarde). We merkten op dat meerdere mistracks grote sprongen maakten, vanwege een combinatie van lawaaierige windsturing en kenmerken die moeilijk te onderscheiden zijn voor zwakke cyclonen.Zo onderzochten we de schatting van het verplaatsen van verder dan x kilometer (door de delta te wijzigen met het laatste centrum), door de volgende waarden voor x te zoeken: 445 × f voor f in 0.25, 0.5, 1.0, 2.0, 4.0, ∞ (d.w.z. geen clipping, oorspronkelijke waarde). Tijdens het hyperparameterzoek hebben we ook op validatiegegevens gecontroleerd dat de tracker die werd toegepast op GraphCast een vergelijkbaar aantal cyclonen liet vallen als HRES. 8.2. Atmospheric rivers De verticaal geïntegreerde waterdamptransport (IvT) wordt meestal gebruikt om de intensiteit van atmosferische rivieren te karakteriseren [38, 37]. Hoewel GraphCast de IvT niet rechtstreeks voorspelt en niet specifiek is opgeleid om atmosferische rivieren te voorspellen, kunnen we deze hoeveelheid afleiden van de voorspelde atmosferische variabelen specifieke vochtigheid, Q, en horizontale wind, (U, v), via de relatie [38]: waar g = 9.80665 m/s2 de versnelling is vanwege de zwaartekracht op het aardoppervlak, pb = 1000 hPa is de onderdruk, en pt = 300 hPa is de bovenste druk. Evaluatie van IvT met behulp van de bovenstaande verhouding vereist numerieke integratie en het resultaat hangt dus af van de verticale resolutie van de voorspelling. GraphCast heeft een verticale resolutie van 37 drukniveaus die hoger is dan de resolutie van de beschikbare HRES trajectories met slechts 25 drukniveaus. Voor een consistente en eerlijke vergelijking van beide modellen gebruiken we daarom alleen een gemeenschappelijke subset van drukniveaus, die ook in de WeatherBench benchmark zijn opgenomen, bij het evalueren van IvT 8, namelijk [300, 400, 500, 600, 700, 850, 925, 1000] hPa. In overeenstemming met de rest van ons evaluatieprotocol wordt elk model geëvalueerd op basis van zijn eigen “analyse”. Voor GraphCast berekenen we de IvT op basis van zijn voorspellingen en vergelijken we het met de IvT die op analoge wijze is berekend van ERA5. Evenals voorgaande werk [10], Figuur 44 rapporteert RMSE vaardigheden en vaardigheden score gemiddeld over de kust van Noord-Amerika en de Oost-Pacific (van 180°W tot 110°W lengte, en 10°N tot 60°N breedtegraden) tijdens het koude seizoen (januari-april en oktober-december 2018), die overeenkomt met een regio en een periode met frequente atmosferische rivieren. 8.3. Extreme heat and cold We bestuderen extreme hitte en kou voorspellingen als een binaire classificatie probleem [35, 32] door te vergelijken of een gegeven voorspellingsmodel correct kan voorspellen of de waarde voor een bepaalde variabele zal boven (of onder) een bepaald percentiel van de verdeling van een referentie historische climatologie (bijvoorbeeld boven 98% percentiel voor extreme hitte, en onder 2% percentiel voor extreme kou). Na eerdere werk [35], de referentie climatologie wordt afzonderlijk verkregen voor (1) elke variabele (2) elke maand van het jaar, (3) elke tijd van de dag, (4) elke breedte/lengte coördinaten, en (5) elk drukniveau (indien van toepassing). Dit maakt de detectie van extreme meer contrasterend door het verwijderen van het effect van de dagelijkse en seizoenscycli in elke Omdat extreme voorspelling per definitie een onevenwichtig classificatieprobleem is, baseren we onze analyse op precisie-recall-plots die goed geschikt zijn voor dit geval [42]. De precisie-recall-curve wordt verkregen door het variëren van een vrije parameter “win” bestaande uit een schaalfactor ten opzichte van de gemiddelde waarde van de klimatologie, d.w.z. geschaalde voorspelling = win × (voorspelling − gemiddelde klimatologie) + gemiddelde klimatologie. Dit heeft het effect van het verschuiven van de beslissingsgrens en maakt het mogelijk om verschillende handelsafwijkingen tussen valse negatieven en valse positieven te bestuderen. Intuïtief zal een 0 win nul voorspellingspositieve resultaten produceren (bijv. nul valse We richten onze analyse op variabelen die relevant zijn voor extreme temperatuuromstandigheden, specifiek 2 T [35, 32], en ook T 850, z500 die vaak worden gebruikt door ECMWF om hittegolven te karakteriseren [34]. Na eerdere werkzaamheden[32], voor extreme hitte we gemiddeld over land in juni, juli en augustus in de noordelijk halfrond (breedte > 20◦) en over land in december, januari en februari in de zuidelijk halfrond (breedte < -20◦). Voor extreme kou, we wisselden de maanden voor de noordelijke en zuidelijke hemisferen. Zie de volledige resultaten in Figuur 45. We bieden ook een meer fijngranuleerde lead-time vergelijking, door de precisie-recall-curves samen te voegen door het punt Voorspellende visualisaties In deze laatste sectie geven we een paar visualisatie voorbeelden van de voorspellingen gemaakt door GraphCast voor variabelen 2 T (Figuur 47), 10 U (Figuur 48), MsL (Figuur 49), z500 (Figuur 50), T 850 (Figuur 51), v 500 (Figuur 52), Q 700 (Figuur 53). Referenties [1] Ferran Alet, Adarsh Keshav Jeewajee, Maria Bauza Villalonga, Alberto Rodriguez, Tomas Lozano-Perez en Leslie Kaelbling. Graph element netwerken: adaptieve, gestructureerde berekening en geheugen. In International Conference on Machine Learning, pagina 212-222 PMLR, 2019. [2] Kelsey R Allen, Yulia Rubanova, Tatiana Lopez-Guevara, William Whitney, Alvaro Sanchez-Gonzalez, Peter Battaglia en Tobias Pfaff. Leer stijve dynamiek met grafische netwerken voor gezichtsinteractie. arXiv preprint arXiv:2212.03574, 2022. [3] Jimmy Lei Ba, Jamie Ryan Kiros en Geoffrey E. Hinton. layer normalization. arXiv, 2016. [4] Igor Babuschkin, Kate Baumli, Alison Bell, Surya Bhupatiraju, Jake Bruce, Peter Buchlovsky, David Budden, Trevor Cai, Aidan Clark, Ivo Danihelka, Claudio Fantacci, Jonathan Godwin, Chris Jones, Ross Hemsley, Tom Hennigan, Matteo Hessel, Shaobo Hou, Steven Kapturowski, Thomas Keck, Iurii Kemaev, Michael King, Markus Kunesch, Lena Martens, Hamza Merzic, Vladimir Mikulik, Tamara Norman, John Quan, George Papamakarios, Roman Ring, Francisco Ruiz, Alvaro Sanchez, Rosalia Schneider, Eren Sezener, Stephen Spencer, Srivatsan Srinivasan, Luyu Wang, Wojciech Stokowiec, and Fabio Viola. The DeepMind JAX Ecosystem. http: // github.com/deepmind voor 2020 [5] Peter Battaglia, Razvan Pascanu, Matthew Lai, Danilo Jimenez Rezende, et al. Interactienetwerken voor het leren over objecten, relaties en natuurkunde. [6] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Relatieve inductieve vooroordelen, diep leren en grafische netwerken. arXiv preprint arXiv:1806.01261, 2018. [7] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu en Qi Tian. Pangu-weer: een 3D-model met hoge resolutie voor snelle en nauwkeurige wereldwijde weersvoorspellingen. arXiv preprint arXiv:2211.02556, 2022. [8] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. The THORPEX interactive grand global ensemble. Bulletin of the American Meteorological Society, 91(8):1059–1072, 2010. [9] James Bradbury, Roy Frostig, Peter Hawkins, Matthew James Johnson, Chris Leary, Dougal Maclaurin, George Necula, Adam Paszke, Jake VanderPlas, Skye Wanderman-Milne en Qiao Zhang. JAX: composable transformations of Python+NumPy programs. http://github. com/google/jax, 2018. [10] WE Chapman, AC Subramanian, L Delle Monache, SP Xie en FM Ralph. Verbetering van atmosferische riviervoorspellingen met machine learning. Geophysical Research Letters, 46(17-18):10627-10635, 2019. [11] Tianqi Chen, Bing Xu, Chiyuan Zhang en Carlos Guestrin. Training diepe netten met sublineaire geheugen kosten. arXiv preprint arXiv:1604.06174, 2016. [12] Balaji Devaraju. begrip van het filteren op de sfeer: ervaringen uit het filteren van GRACE-gegevens. PhD-thesis, Universiteit van Stuttgart, 2015. [13] J. R. Driscoll en D. M. Healy. Computing fourier transforms en convolutions op de 2-sphere. Adv. Appl. Math., 15(2):202–250, juni 1994. [14] ECMWF. IFS documentatie CY41R2 - Deel III: Dynamica en numerieke procedures. https: //www.ecmwf.int/node/16647, 2016 [15] Meire Fortunato, Tobias Pfaff, Peter Wirnsberger, Alexander Pritzel en Peter Battaglia. multi-scale meshgraphnets. arXiv preprint arXiv:2210.00612, 2022. [16] Alan J Geer. Betekenis van veranderingen in voorspellingspunten op middellange termijn. Tellus A: Dynamic Meteorology and Oceanography, 68(1):30229, 2016. [17] Jonathan Godwin, Thomas Keck, Peter Battaglia, Victor Bapst, Thomas Kipf, Yujia Li, Kimberly Stachenfeld, Petar Veličković en Alvaro Sanchez-Gonzalez. Jraph: Een bibliotheek voor grafische neurale netwerken in JAX. http://github.com/deepmind/jraph, 2020. [18] T. Haiden, Martin Janousek, Jean-Raymond Bidlot, R. Buizza, L. Ferranti, F. Prates en Frédéric Vitart. Evaluatie van ECMWF-voorspellingen, inclusief de 2018 upgrade. https://www.ecmwf. int/node/18746, 10/2018 2018. [19] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, Crtistina Prates, en David Richardson. Evaluatie van ECMWF voorspellingen, met inbegrip van 2020 upgrade. https://www.ecmwf.int/node/19879, 01/2021 2021. [20] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti en Fernando Prates. Evaluatie van ECMWF-voorspellingen, inclusief de 2021-upgrade. https://www. ecmwf.int/node/20142, 09/2021 2021. [21] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, Fernando Prates en David Richardson. Evaluatie van ECMWF-voorspellingen, inclusief de 2021-upgrade. https://www.ecmwf.int/node/20469, 09/2022 2022. [22] Thomas Haiden, Martin Janousek, Frédéric Vitart, Laura Ferranti en Fernando Prates. Evaluatie van ECMWF-voorspellingen, inclusief de 2019-upgrade. https://www.ecmwf.int/node/ 19277, 11/2019 2019. [23] Tom Hennigan, Trevor Cai, Tamara Norman en Igor Babuschkin. http://github.com/deepmind/dm-haiku, 2020. [24] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. De wereldwijde heranalyse van ERA5. Quarterly Journal of the Royal Meteorological Society, 146(730):1999–2049, 2020. [25] S. Hoyer en J. Hamman. xarray: N-D labeled array en datasets in Python. Journal of Open Research Software, 5(1), 2017. [26] Ryan Keisler. Wereldwijde weersvoorspelling met grafische neurale netwerken. arXiv preprint arXiv:2202.07575, 2022. [27] Diederik P Kingma en Jimmy Ba. Adam: Een methode voor stochastische optimalisatie. arXiv preprint arXiv:1412.6980, 2014. [28] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. International best track archive for climate stewardship (IBTrACS) project, versie 4. https://doi.org/10.25921/82ty-9e16, 2018. [29] Kenneth R Knapp, Michael C Kruk, David H Levinson, Howard J Diamond en Charles J Neumann. Het internationale best track archief voor klimaatbeheer (IBTrACS) dat tropische cyclongegevens verenigt. [30] Michael C Kruk, Kenneth R Knapp, and David H Levinson. A technique for combining global tropical cyclone best track data. Journal of Atmospheric and Oceanic Technology, 27(4):680–692, 2010. [31] David H Levinson, Howard J Diamond, Kenneth R Knapp, Michael C Kruk en Ethan J Gibney. Naar een homogene wereldwijde tropische cycloon best-track dataset. Bulletin of the American Meteorological Society, 91(3):377-380, 2010. [32] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal en Jason Hickey. wereldwijde extreme hitte voorspelling met behulp van neurale weersmodellen. [33] Ilya Loshchilov en Frank Hutter. ontkoppelde gewichtsverliesregularisatie. arXiv preprint arXiv:1711.05101, 2017. [34] Linus Magnusson. 202208 - heatwave - uk. https://confluence.ecmwf.int/display/ FCST/202208+-+Heatwave+-+UK, 2022. [35] Linus Magnusson, Thomas Haiden en David Richardson. Verificatie van extreme weersomstandigheden: Discrete voorspellingen. [36] S. Malardel, Nils Wedi, Willem Deconinck, Michail Diamantakis, Christian Kuehnlein, G. Mozdzynski, M. Hamrud en Piotr Smolarkiewicz. Een nieuw grid voor de IFS. https: //www.ecmwf.int/node/17262, 2016 [37] Benjamin J Moore, Paul J Neiman, F Martin Ralph, en Faye E Barthold. Fysieke processen geassocieerd met zware overstromingen neerslag in Nashville, Tennessee, en omgeving tijdens 1-2 mei 2010: De rol van een atmosferische rivier en mesoscale convectieve systemen. maandelijkse Weather Review, 140(2):358-378, 2012. [38] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist, en Michael D Dettinger. Meteorologische kenmerken en oppervlakte neerslag effecten van atmosferische rivieren beïnvloeden de Westkust van Noord-Amerika op basis van acht jaar van ssm / i satelliet waarnemingen. [39] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez en Peter Battaglia. Learning mesh-based simulatie met grafische netwerken. in International Conference on Learning Representations, 2021. Prajit Ramachandran, Barret Zoph en Quoc V Le. Zoeken naar activeringsfuncties. arXiv preprint arXiv:1710.05941, 2017. [41] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid en Nils Thuerey. WeatherBench: een benchmark data set voor data-driven weersvoorspellingen. Journal of Advances in Modeling Earth Systems, 12(11):e2020MS002203, 2020. [42] Takaya Saito en Marc Rehmsmeier. De precisie-herinnering plot is meer informatief dan de ROC plot bij het evalueren van binaire classificers op onevenwichtige datasets. PloS één, 10(3):e0118432, 2015. [43] Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec en Peter Battaglia. Leren om complexe fysica te simuleren met grafische netwerken. [44] B. D. Santer, R. Sausen, T. M. L. Wigley, J. S. Boyle, K. AchutaRao, C. Doutriaux, J. E. Hansen, G. A. Meehl, E. Roeckner, R. Ruedy, G. Schmidt en K. E. Taylor. Gedrag van tropopause hoogte en atmosferische temperatuur in modellen, heranalyses en waarnemingen: Decadale veranderingen. [45] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M Hamill, Tim D Hewson, Julia H Keller, Mio Matsueda, John Methven, Florian Pappenberger, et al. Het TIGGE-project en zijn prestaties Bulletin of the American Meteorological Society, 97(1):49–67, 2016. [46] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson en Munehiko Yamaguchi. Het TIGGE-project en zijn prestaties. Bulletin of the American Meteorological Society, 97(1):49 – 67, 2016. [47] Harvey Thurm Taylor, Bill Ward, Mark Willis, en Walt Zaleski. De Saffir-Simpson orkaan windschaal. Atmosferische administratie: Washington, DC, VS, 2010. [48] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser en Illia Polosukhin. Aandacht is alles wat je nodig hebt. Vooruitgang in neurale informatiesystemen, 30, 2017. [49] Petar Veličković, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio en Yoshua Bengio. grafische aandacht netwerken. arXiv preprint arXiv:1710.10903, 2017. Dit document is verkrijgbaar onder CC by 4.0 Deed (Attribution 4.0 International) licentie. Dit document is verkrijgbaar onder CC by 4.0 Deed (Attribution 4.0 International) licentie.