Författare : Remi Lam (Google DeepMind) Alvaro Sanchez-Gonzalez (Google DeepMind) Matthew Willson (Google DeepMind) Peter Wirnsberger (Google DeepMind) Meire Fortunato (Google DeepMind) Ferran Alet (Google DeepMind) Suman Ravuri (Google DeepMind) Timo Ewalds (Google DeepMind) Zach Eaton-Rosen (Google DeepMind) Weihua Hu (Google DeepMind) Alexander Merose (Google Research) Stephan Hoyer (Google Research) George Holland (Google DeepMind) Oriol Vinyals (Google DeepMind) Jacklynn Stott (Google DeepMind) Alexander Pritzel (Google DeepMind) Shakir Mohamed (Google DeepMind) Peter Battaglia (Google DeepMind) Författare : Remi Lam från Google DeepMind Alvaro Sanchez-Gonzalez från Google DeepMind Följ Matthew Willson (Google DeepMind) Peter Wirnsberger från Google DeepMind Meire Fortunato från Google DeepMind Ferran Alet från Google DeepMind Suman Ravuri från Google DeepMind Tim Ewalds från Google DeepMind Zach Eaton-Rosen för Google DeepMind Weihua Hu från Google DeepMind Alexander Merose (Google Forskning) Stephan Hoyer från Google Research Följ George Holland (Google DeepMind) Vinyals från Oriol (Google DeepMind) Jacklynn Stott från Google DeepMind Alexander Pritzel från Google DeepMind Shakir Mohamed från Google (DeepMind) Peter Battaglia från Google DeepMind Den traditionella numeriska väderprognosen använder ökade beräkningsresurser för att förbättra prognosnoggrannheten, men kan inte direkt använda historiska väderdata för att förbättra den underliggande modellen. Vi introducerar en maskininlärningsbaserad metod som kallas "GraphCast", som kan utbildas direkt från reanalysdata. Den förutspår hundratals vädervariabler, över 10 dagar vid 0,25° upplösning globalt, på mindre än en minut. Vi visar att GraphCast väsentligt överträffar de mest exakta operativdeterministiska systemen på 90% av 1380 verifieringsmål, och dess prognoser stöder bättre svår händelseförutsägelse, inklusive tropiska cykloner, atmosfäriska floder och extrema temperaturer. GraphCast är Nyckelord: Väderprognos, ECMWF, ERA5, HRES, lärande simulering, graf neurala nätverk Introduction Det är 05:45 UTC i mitten av oktober 2022 i Bologna, Italien, och Europeiska centrumet för medelstora väderprognoser (ECMWF) har just börjat driva sin nya högpresterande datoranläggning. Under de senaste timmarna har det integrerade prognossystemet (IFS) utfört sofistikerade beräkningar för att förutsäga jordens väder under de kommande dagarna och veckorna, och dess första prognoser har precis börjat spridas till användarna. IFS, och moderna väderprognoser mer allmänt, är triumfer av vetenskap och teknik. Dynamik vädersystem är bland de mest komplexa fysiska fenomen på jorden, och varje dag, otaliga beslut som fattas av individer, industrier och beslutsfattare beror på exakta väderprognoser, från att bestämma om att bära en jacka eller fly en farlig storm. Den dominerande metod för väderprognoser idag är "numerisk väderprognos" (NWP), som innebär att lösa de styrande ekvationerna av väder med hjälp av superdatorer. Framgången för NWP ligger i den rigorösa och pågående forskningspraxis som ger allt mer detaljerade beskrivningar av väderfenomen, och hur väl NWP skalor till större noggrannhet med större beräkningsresurs Det finns stora arkiv av väder- och klimatdata, t.ex. ECMWF:s MARS [17], men fram till nyligen har det varit få praktiska sätt att använda sådana data för att direkt förbättra kvaliteten på prognosmodeller. Maskininlärningsbaserad väderprognos (MLWP) erbjuder ett alternativ till traditionell NWP, där prognosmodeller tränas direkt från historiska data. Detta har potential att förbättra prognosnoggrannheten genom att fånga mönster och skalor i data som inte är lätt representerade i explicita ekvationer. MLWP erbjuder också möjligheter till större effektivitet genom att utnyttja modern djupinlärningshårdvara, snarare än superdatorer, och slå mer gynnsamma hastighets-noggrannhetskompromisser. Nyligen har MLWP hjälpt till att förbättra NWP-baserad prognos i regimer där traditionell NWP är relativt svag, till exempel sub-säsongs värmeböljan förutsägelse [16] och nederbörd från radarbilder [32, 29, 33, 8 I medelstora väderprognoser, dvs. förutspår atmosfäriska variabler upp till 10 dagar framåt, är NWP-baserade system som IFS fortfarande de mest exakta. Världens främsta deterministiska operativsystem är ECMWF:s High Resolution Forecast (HRES), en del av IFS som producerar globala 10-dagarsprognoser vid 0,1° latitud/längdupplösning, på ungefär en timme [27]. Men under de senaste åren har MLWP-metoder för medelstora prognoser utvecklats stadigt, underlättade av riktmärken som WeatherBench [27]. Djupa inlärningsarkitekturer baserade på konvolutionära neurala nätverk [35, 36, 28] och Transformers [24] har visat lovande resultat vid latitud graffiti Här introducerar vi ett nytt MLWP-tillvägagångssätt för global väderprognos på medellång sikt som kallas "GraphCast", som producerar en exakt 10-dagarsprognos på mindre än en minut på en enda Google Cloud TPU v4-enhet och stöder applikationer som förutspår tropiska cyklonspår, atmosfäriska floder och extrema temperaturer. GraphCast tar som inmatning de två senaste tillstånden av jordens väder – den aktuella tiden och sex timmar tidigare – och förutsäger nästa tillstånd av vädret sex timmar framåt. Ett enda väderläge representeras av ett 0,25° bredd/längd grid (721 × 1440), vilket motsvarar ungefär 28 × 28 kilometer upplösning vid ekvatorn (figur 1a), där varje gridpunkt representerar en uppsättning yta och atmosfäriska variabler (listade i tabell 1). GraphCast implementeras som en neural nätverksarkitektur, baserad på GNNs i en "kod-process-dekod" -konfiguration [1], med totalt 36,7 miljoner parametrar. Tidigare GNN-baserade lärda simulatorer [31, 26] har varit mycket effektiva vid att lära sig den komplexa dynamiken hos vätska och andra system modellerade av partiella differentialekvationer, vilket stöder deras lämplighet för modellering av väderdynamik. Kodaren (Figur 1d) använder ett enda GNN-lager för att kartlägga variabler (normaliserade till noll-median-enhetsvarians) som representeras som nodattribut på ingångsnätet till inlärda nodattribut på en intern "multi-mesh" representation. Den multi-mesh (Figur 1g) är en graf som är rumsligt homogen, med hög rumslig upplösning över hela världen. Det definieras genom att förfina en vanlig icosahedron (12 noder, 20 ansikten, 30 kanter) iterativt sex gånger, där varje förfining delar varje triangel i fyra mindre (ledande till fyra gånger fler ansikten och kanter), och återspeglar noderna på sfären. Multi-mesh innehåller noderna 40,962 från den högsta upplösningen mesh, och föreningen av alla kanter som skapats i de mellanliggande graferna, bildar en platt hierarki av kanter med varierande längder. Processorn (figur 1e) använder 16 odelade GNN-lager för att utföra lärd meddelandepassning på multi-mesh, vilket möjliggör effektiv lokal och långdistans informationspredning med få meddelandepassningssteg. Dekodern (Figur 1f) kartlägger det slutliga processorskiktets inlärda egenskaper från multi-mesh-representationen tillbaka till bredd-längd-nätet.Den använder ett enda GNN-lager och förutsäger utgången som en restuppdatering till det senaste inmatningstillståndet (med utmatningsnormalisering för att uppnå enhetsvarians på målvärdet). Under modellutvecklingen använde vi 39 år (1979–2017) av historiska data från ECMWF:s ERA5-[10]-reanalysarkiv. Som ett träningsmål genomsnittade vi det genomsnittliga kvadratfelet (MSE) vägda på vertikal nivå. Felet beräknades mellan GraphCasts förutsedda tillstånd och det korresponderande ERA5-tillståndet över N-autoregressiva steg. Värdet av N ökade stegvis från 1 till 12 (dvs. sex timmar till tre dagar) under träningsperioden. GraphCast utbildades för att minimera träningsmålet med hjälp av gradientnedgång och backpropagation. I överensstämmelse med verkliga implementeringsscenarier, där framtida information inte är tillgänglig för modellutveckling, utvärderade vi GraphCast på de utlagda uppgifterna från åren 2018 och framåt (se tilläggsavsnitt 5.1). Verifikationsmetoder Vi verifierar GraphCasts förutsägelseförmåga på ett omfattande sätt genom att jämföra dess noggrannhet med HRES: s på ett stort antal variabler, nivåer och ledtider.Vi kvantifierar de respektive färdigheterna i GraphCast, HRES och ML baslinjer med två färdighetsmetrier: rotgenomsnittlig kvadratfel (RMSE) och anomali korrelationskoefficient (ACC). Av de 227 variabler och nivåkombinationer som förutspås av GraphCast vid varje gridpunkt utvärderade vi dess skicklighet jämfört med HRES på 69 av dem, motsvarande 13 nivåer av WeatherBench[27] och variabler från ECMWF Scorecard [9]; se boldface variabler och nivåer i tabell 1 och tillägg avsnitt 1.2 för vilka HRES-cykeln var i drift under utvärderingsperioden. Observera att vi utesluter total nederbörd från utvärderingen eftersom ERA5-nedbrytningsdata har kända bias [15]. Förutom den aggregerade prestanda som rapporteras i huvudtexten ger tillägg avsnitt 7 ytterligare detaljerade utvärderingar, inklusive andra variabler, regionala prestanda, latitud och trycknivåeffekter, sp Vid utförandet av dessa jämförelser ligger två viktiga val till grund för hur färdigheten är etablerad: (1) urvalet av den grundläggande sanningen för jämförelse, och (2) en noggrann redovisning av dataassimilationsfönstren som används för att grunda data med observationer. Vi använder ERA5 som grundläggande sanningen för att utvärdera GraphCast, eftersom det har utbildats för att ta ERA5-data som input och förutsäga ERA5-data som utgångar. Men utvärdering av HRES-prognoser mot ERA5 skulle resultera i ett fel som inte är noll i det ursprungliga prognossteget. Istället byggde vi en ”HRES-prognos vid steg 0” (HRES-fc0) dataset för att använda som grundläggande sanning för HRES. HRES-fc Jämförelser mellan metoder kräver att ingen metod ska ha privilegierad information som inte är tillgänglig för den andra. På grund av väderprognosdataens karaktär kräver detta noggrann kontroll av skillnaderna mellan ERA5- och HRES-dataassimileringsfönstren. Varje dag assimilerar HRES observationer med fyra +/-3h-fönster centrerade på 00z, 06z, 12z och 18z (där 18z betyder 18:00 UTC), medan ERA5 använder två +9h/-3h-fönster centrerade på 00z och 12z, eller motsvarande två +3h/-9h-fönster centrerade på 06z och 18z. Vi valde att utvärdera GraphCasts prognoser från 06z och 18z initialiseringarna, vilket säkerställer att dess ingångar bär information från HRES:s prognoser initialiserade vid 06z och 18z körs endast för en horisont på 3,75 dagar (HRES:s 00z och 12z initialisationer körs i 10 dagar).Därför kommer våra siffror att indikera en övergång med dashed line, där de 3,5 dagarna före linjen är jämförelser med HRES initialiserade vid 06z och 18z, och efter linjen är jämförelser med initialisationer vid 00z och 12z. Prognosverifieringsresultat Vi finner att GraphCast har större väderprognosförmåga än HRES när det utvärderas på 10-dagarsprognoser vid en horisontell upplösning av 0,25° för bredd/längd och vid 13 vertikala nivåer. Figur 2a–c visar hur GraphCast (blå linjer) överträffar HRES (svarta linjer) på z500 (geopotentiellt vid 500 hPa) "headline" -fältet när det gäller RMSE-färdighet, RMSE-färdighetspoäng (dvs. den normaliserade RMSE-skillnaden mellan modell A och baslinje B definierad som (RMSEA − RMSEB)/RMSEB) och ACC-färdighet. Använda z500, som kodar den synoptic-skala tryckfördelningen, är vanligt i litteraturen, eftersom det har stark meteorologisk betydelse [27]. Plottarna visar att GraphCast har bättre färdighetspoäng över alla ledtider, med en färdighetspoängförbättring på cirka 7–14%. Figur 2d sammanfattar RMSE-kompetenspoängen för alla 1380 utvärderade variabler och trycknivåer, över 10 dagars prognoser, i ett format som liknar ECMWF Scorecard. Cellfärgerna är proportionella mot kompetenspoängen, där blå indikerar att GraphCast hade bättre kompetens och rött indikerar att HRES hade högre kompetens. GraphCast överträffade HRES på 90.3% av 1380-målen och signifikant (p ≤ 0.05, nominell provstorlek n ∈ {729, 730}) överträffade HRES på 89.9% av målen. Se tillägg avsnitt 5.4 för metodik och tillägg Tabell 5 för p-värden, teststatistik och effektiva provstorlekar. De regioner i atmosfären där HRES hade bättre prestanda än GraphCast (topprader i rött i scorecards) var oproportionerligt lokaliserade i stratosfären och hade den lägsta träningsförlusten (se tillägg avsnitt 7.2.2). När man utesluter 50 hPa-nivån överträffar GraphCast signifikant HRES på 96,9% av de återstående 1280 målen. När man utesluter nivåerna 50 och 100 hPa överträffar GraphCast signifikant HRES på 99,7% av de återstående 1180 målen. Vi fann att öka antalet auto-regressiva steg i MSE-förlusten förbättrar GraphCast-prestanda vid längre ledtid (se avsnitt 7.3.2) och uppmuntrar den att uttrycka sin osäkerhet genom att förutsäga rumsligt jämna utgångar, vilket leder till blurrier prognoser vid längre ledtider (se avsnitt 7.5.3). HRES: s underliggande fysiska ekvationer leder emellertid inte till suddiga förutsägelser. För att bedöma om GraphCasts relativa fördel över HRES på RMSE-kompetens bibehålls om HRES också får sudda ut sina prognoser, anpassar vi blurring-filter till GraphCast och HRES till HRES, genom att minimera RMSE med avseende på modellernas respektive grundläggande sanningar. Vi fann Vi jämförde också GraphCasts prestanda med toppkonkurrerande ML-baserad vädermodell, Pangu-väder [4], och fann att GraphCast överträffade den på 99,2% av de 252 mål de presenterade (se tillägg avsnitt 6 för detaljer). Svåra händelser förutsäga resultat Utöver att utvärdera GraphCasts förutsägelseförmåga mot HRES på ett brett spektrum av variabler och ledtider utvärderar vi också hur dess förutsägelser stöder förutsägelse av svåra händelser, inklusive tropiska cykloner, atmosfäriska floder och extrema temperaturer. Tropiska cykloner spår Att förbättra noggrannheten hos tropiska cyklonprognoser kan bidra till att undvika skador och förlust av liv, samt minska ekonomisk skada [21]. En cyklons existens, styrka och bana förutsägs genom att tillämpa en spårningsalgoritm på prognoser om geopotentiell (z), horisontell vind (10 U/10 v, U/v) och genomsnittligt havsnivåtryck (MsL). Vi implementerade en spårningsalgoritm baserad på samma ECMWF:s publicerade protokoll [20] och tillämpade den på GraphCast:s prognoser, för att producera prognoser om cyklonspår (se tillägg avsnitt 8.1). Som en baslinje för jämförelse använde vi de operativa spåren som erhållits från HRES:s Figur 3a visar att GraphCast har lägre median spårfel än HRES över 2018–2021. Eftersom per spårfel för HRES och GraphCast är korrelerade, mätte vi också den per spår parade felskillnaden mellan de två modellerna och fann att GraphCast är betydligt bättre än HRES för ledtid 18 timmar till 4,75 dagar, som visas i figur 3b. Felfälten visar de bootstrapped 95% konfidensintervaller för medianen (se tillägg avsnitt 8.1 för detaljer). Atmosfäriska floder Atmosfäriska floder är smala regioner i atmosfären som är ansvariga för majoriteten av den polära vattenånga transporten över mitten av breddgraderna, och genererar 30%-65% av årliga nederbörd på den amerikanska västkusten [6]. Deras styrka kan kännetecknas av vertikalt integrerad vattenånga transport IvT [23, 22], vilket indikerar om en händelse kommer att ge fördelaktiga nederbörd eller vara förknippad med katastrofala skador [7]. IvT kan beräknas från den icke-linjära kombinationen av horisontell vindhastighet (U och v) och specifik fuktighet (Q), som GraphCast förutspår. Vi utvärderar GraphCast prognoser över kustnära Nordamerika och östra Stilla havet under kalla månader (okt Extrem värme och kyla Extrem värme och kyla kännetecknas av stora anomalier i förhållande till typisk klimatologi [19, 16, 18], vilket kan vara farligt och störa mänsklig verksamhet. Vi utvärderar HRES och GraphCast förmåga att förutsäga händelser över topp 2% klimatologi över plats, tid på dagen och månad av året, för 2 T vid 12-timmars, 5-dagars och 10-dagars ledtider, för landområden över norra och södra halvklotet under sommarmånaderna. Vi planerar precision-recall kurvor [30] för att återspegla olika möjliga kompromisser mellan att minska falska positiva (hög precision) och minska falska negativa (hög återkallelse). För varje prognos får vi kurvan genom att variera en "vinst" -parameter som 2 T Figur 3d visar GraphCasts precision-återkallningskurvor är över HRES för 5- och 10-dagars ledtider, vilket tyder på att GraphCasts prognoser är generellt överlägsna än HRES vid extrem klassificering över längre horisonter.I motsats till detta har HRES bättre precision-återkallning vid 12-timmars ledtid, vilket är förenligt med GraphCasts 2 T-färdighetsscore över HRES närmare noll, som visas i figur 2d. Vi finner generellt att dessa resultat är konsekventa över andra variabler som är relevanta för extrem värme, såsom T 850 och z500 [18], andra extrema trösklar (5%, 2% och 0,5%), och extrem kall prognos under vintern. Se tillägg avsnitt 8.3 för detaljer. Effekt av utbildningsdata recensens GraphCast kan omutbildas periodiskt med senaste data, vilket i princip gör det möjligt att fånga vädermönster som förändras över tiden, såsom ENSO-cykeln och andra oscillationer, samt effekterna av klimatförändringar.Vi tränade fyra varianter av GraphCast med data som alltid började 1979, men slutade 2017, 2018, 2019 och 2020, respektive (vi märker varianten som slutar 2017 som ”GraphCast:<2018”, etc.). Figur 4 visar färdighetspoängen (normaliserad av GraphCast:<2018) för de fyra varianterna och HRES, för z500. Vi fann att medan GraphCasts prestanda när den tränas fram till 2018 fortfarande är konkurrenskraftig med HRES 2021, förbättrar träningen fram till 2021 ytterligare sina färdighetspoäng (se tillägg avsnitt 7.1.3). Vi spekulerar att denna senaste effekt gör det möjligt att fånga senaste vädertrender för att förbättra noggrannheten. slutsatser GraphCasts prognosfärdighet och effektivitet jämfört med HRES visar att MLWP-metoder nu är konkurrenskraftiga med traditionella väderprognosmetoder.Dessutom visar GraphCasts prestanda på svåra händelseprognoser, för vilka den inte var direkt utbildad, dess robusthet och potential för nedströmsvärde.Vi tror att detta markerar en vändpunkt i väderprognoser, vilket hjälper till att öppna nya vägar för att stärka bredden av väderberoende beslutsfattande av individer och branscher, genom att göra billig prognos mer noggrann, mer tillgänglig och lämplig för specifika applikationer. Med 36,7 miljoner parametrar är GraphCast en relativt liten modell enligt moderna ML-standarder, som valts för att hålla minnesavtrycket hanterbart. Och medan HRES släpps på 0,1° upplösning, 137 nivåer och upp till 1 timmes tidssteg, fungerade GraphCast på 0,25° bredd-längdupplösning, 37 vertikala nivåer och 6 timmes tidssteg, på grund av ERA5-utbildningsdataens inhemska 0,25° upplösning och tekniska utmaningar i att passa högre upplösningsdata på hårdvara. En viktig begränsning av vårt tillvägagångssätt är hur osäkerhet hanteras. Vi fokuserade på deterministiska prognoser och jämförde dem med HRES, men den andra pelaren i ECMWF:s IFS, det samlade prognossystemet, ENS, är särskilt viktigt för 10+ dagars prognoser. Den icke-lineära väderdynamiken innebär att det finns ökad osäkerhet vid längre ledtider, vilket inte är väl fångat av en enda deterministisk prognos. ENS hanterar detta genom att generera flera, stochastiska prognoser, som modellerar den empiriska fördelningen av framtida väder, men generera flera prognoser är dyrt. Däremot uppmuntrar GraphCast:s MSE-utbildningsmål att uttrycka sin osäkerhet genom att Det är viktigt att betona att datadriven MLWP är kritiskt beroende av stora mängder högkvalitativa data, assimilerade via NWP, och att rika datakällor som ECMWF:s MARS-arkiv är ovärderliga. Därför bör vårt tillvägagångssätt inte ses som en ersättning för traditionella väderprognosmetoder, som har utvecklats i årtionden, testats noggrant i många verkliga sammanhang och erbjuder många funktioner som vi ännu inte har utforskat. Utöver väderprognoser kan GraphCast öppna nya riktningar för andra viktiga geospatiotemporala prognosproblem, inklusive klimat och ekologi, energi, jordbruk och mänsklig och biologisk aktivitet, liksom andra komplexa dynamiska system. Data och material tillgänglighet GraphCast’s code and trained weights are publicly available on github https://github.com/ deepmind/graphcast. This work used publicly available data from the European Centre for Medium Range Forecasting (ECMWF). We use the ECMWF archive (expired real-time) products for ERA5, HRES and TIGGE products, whose use is governed by the Creative Commons Attribution 4.0 International (CC BY 4.0). Vi använder IBTrACS Version 4 från https://www.ncei.noaa.gov/ products/international-best-track-archive and reference [13, 12] som krävs. Jordens textur i figur 1 används under CC BY 4.0 från https://www.solarsystemscope.com/ textures/. erkännanden I alfabetisk ordning tackar vi Kelsey Allen, Charles Blundell, Matt Botvinick, Zied Ben Bouallegue, Michael Brenner, Rob Carver, Matthew Chantry, Marc Deisenroth, Peter Deuben, Marta Garnelo, Ryan Keisler, Dmitrii Kochkov, Christopher Mattern, Piotr Mirowski, Peter Norgaard, Ilan Price, Chongli Qin, Sébastien Racanière, Stephan Rasp, Yulia Rubanova, Kunal Shah, Jamie Smith, Daniel Worrall och otaliga andra på Alphabet och ECMWF för råd och feedback om vårt arbete. Vi tackar också ECMWF för att tillhandahålla ovärderliga dataset till forskningsgemenskapen. Stilen i inledningsavsnittet inspirerades av D. Fan et al., Science Robotics, 4 Referenser [1] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Relationella induktiva fördomar, djup inlärning och grafnätverk. arXiv förtryck arXiv:1806.01261, 2018. [2] P. Bauer, A. Thorpe och G. Brunet. Den tysta revolutionen av numerisk väderprognos. natur, 525, 2015. [3] Stanley G Benjamin, John M Brown, Gilbert Brunet, Peter Lynch, Kazuo Saito och Thomas W Schlatter. 100 år av framsteg inom prognos och NWP-applikationer. [4] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu och Qi Tian. Pangu-väder: En 3D-modell med hög upplösning för snabb och noggrann global väderprognos. arXiv preprint arXiv:2211.02556, 2022. [5] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. The THORPEX interactive grand global ensemble. Bulletin of the American Meteorological Society, 91(8):1059–1072, 2010. [6] WE Chapman, AC Subramanian, L Delle Monache, SP Xie och FM Ralph. Förbättra atmosfäriska flodprognoser med maskininlärning. Geophysical Research Letters, 46(17-18):10627–10635, 2019. [7] Thomas W Corringham, F Martin Ralph, Alexander Gershunov, Daniel R Cayan och Cary A Talbot. Atmosfäriska floder driver översvämningsskador i västra USA. Science advances, 5(12):eaax4631, 2019. [8] Lasse Espeholt, Shreya Agrawal, Casper Sønderby, Manoj Kumar, Jonathan Heek, Carla Bromberg, Cenk Gazen, Rob Carver, Marcin Andrychowicz, Jason Hickey, et al. Djup inlärning för tolv timmars nederbördsprognoser. Naturkommunikation, 13(1):1–10, 2022. [9] T Haiden, Martin Janousek, J Bidlot, R Buizza, Laura Ferranti, F Prates och F Vitart. Utvärdering av ECMWF-prognoser, inklusive uppgraderingen 2018. [10] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. Den globala reanalysen av ERA5. Kvartalstidningen för Royal Meteorological Society, 146(730):1999–2049, 2020. [11] Ryan Keisler. Global väderprognos med graf neurala nätverk. arXiv förutskrift arXiv:2202.07575, 2022. [12] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. International best track archive for climate stewardship (IBTrACS) projekt, version 4. https: //doi.org/10.25921/82ty-9e16, 2018 [13] Kenneth R Knapp, Michael C Kruk, David H Levinson, Howard J Diamond och Charles J Neumann. Det internationella bästa spårarkivet för klimatstyrning (IBTrACS) som förenar tropiska cyklondata. Bulletin of the American Meteorological Society, 91(3):363–376, 2010. [14] Thorsten Kurth, Shashank Subramanian, Peter Harrington, Jaideep Pathak, Morteza Mardani, David Hall, Andrea Miele, Karthik Kashinath och Animashree Anandkumar. FourCastNet: Påskynda global väderprognos med hög upplösning med hjälp av adaptiva fjärde neurala operatörer. arXiv preprint arXiv:2208.05419, 2022. [15] David A Lavers, Adrian Simmons, Freja Vamborg och Mark J Rodwell. En utvärdering av ERA5 nederbörd för klimatövervakning. Quarterly Journal of the Royal Meteorological Society, 148(748):3152–3165, 2022. [16] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal och Jason Hickey. globala extrema värmeprognoser med hjälp av neurala vädermodeller. artificiell intelligens för jordens system, sidor 1–41, 2022. [17] Carsten Maass och Esperanza Cuartero. MARS användardokumentation. https://confluence. ecmwf.int/display/UDOC/MARS+user+documentation, 2022. [18] Linus Magnusson. 202208 - värmeböljan - uk. https://confluence.ecmwf.int/display/ FCST/202208+-+Heatwave+-+UK, 2022. [19] Linus Magnusson, Thomas Haiden och David Richardson. Verifiering av extrema väderhändelser: Diskreta förutsägelser. [20] Linus Magnusson, Sharanya Majumdar, Rebecca Emerton, David Richardson, Magdalena Alonso-Balmaseda, Calum Baugh, Peter Bechtold, Jean Bidlot, Antonino Bonanni, Massimo Bonavita, et al. Tropisk cyklonaktivitet vid ECMWF. [21] Andrew B Martinez. Prognos noggrannhet är viktigt för orkanskador. Econometrics, 8(2):18, 2020. [22] Benjamin J Moore, Paul J Neiman, F Martin Ralph, och Faye E Barthold. Fysiska processer i samband med kraftiga översvämningar nederbörd i Nashville, Tennessee, och omgivningen under 1–2 maj 2010: Rollen av en atmosfärisk flod och mesoskala konvektiva system. Månatlig väderöversikt, 140(2):358–378, 2012. [23] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist och Michael D Dettinger. Meteorologiska egenskaper och nederbördseffekter av atmosfäriska floder som påverkar Nordamerikas västkust baserat på åtta års satellitobservationer. [24] Tung Nguyen, Johannes Brandstetter, Ashish Kapoor, Jayesh K Gupta, and Aditya Grover. ClimaX: A foundation model for weather and climate. arXiv preprint arXiv:2301.10343, 2023. [25] Jaideep Pathak, Shashank Subramanian, Peter Harrington, Sanjeev Raja, Ashesh Chattopad-hyay, Morteza Mardani, Thorsten Kurth, David Hall, Zongyi Li, Kamyar Azizzadenesheli, et al. Fourcastnet: En global datadriven högupplöst vädermodell med hjälp av adaptiva fjärde neurala operatörer. arXiv preprint arXiv:2202.11214, 2022. [26] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez och Peter Battaglia. Lärande nätbaserad simulering med grafnätverk. I International Conference on Learning Representations, 2021. [27] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid och Nils Thuerey. WeatherBench: en dataset för datadriven väderprognos. Journal of Advances in Modeling Earth Systems, 12(11):e2020MS002203, 2020. [28] Stephan Rasp och Nils Thuerey. Data-driven medelstora väderprognos med en resnet förtränad på klimatsimuleringar: En ny modell för väderbänk. Journal of Advances in Modeling Earth Systems, 13(2):e2020MS002405, 2021. [29] Suman Ravuri, Karel Lenc, Matthew Willson, Dmitry Kangin, Remi Lam, Piotr Mirowski, Megan Fitzsimons, Maria Athanassiadou, Sheleem Kashem, Sam Madge, et al. Skicklig nederbörd nucasting med hjälp av djupa generativa modeller av radar. Natur, 597(7878):672–677, 2021. [30] Takaya Saito och Marc Rehmsmeier. Precision-recall plot är mer informativ än ROC plot när man utvärderar binära klassificerare på obalanserade datamängder. PloS en, 10(3):e0118432, 2015. [31] Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec och Peter Battaglia. Lär dig att simulera komplex fysik med grafnätverk. I International Conference on Machine Learning, sidorna 8459–8468. PMLR, 2020. [32] Xingjian Shi, Zhihan Gao, Leonard Lausen, Hao Wang, Dit-Yan Yeung, Wai-kin Wong och Wang-chun Woo. Djup inlärning för nederbörd nucasting: En benchmark och en ny modell. [33] Casper Kaae Sønderby, Lasse Espeholt, Jonathan Heek, Mostafa Dehghani, Avital Oliver, Tim Salimans, Shreya Agrawal, Jason Hickey och Nal Kalchbrenner. Metnet: En neural vädermodell för nederbördsprognos. arXiv förutskrift arXiv:2003.12140, 2020. [34] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson och Munehiko Yamaguchi. TIGGE-projektet och dess resultat. Bulletin of the American Meteorological Society, 97(1):49 – 67, 2016. [35] Jonathan A Weyn, Dale R Durran, och Rich Caruana. Kan maskiner lära sig att förutsäga vädret? Använda djup inlärning för att förutsäga geopotentiell höjd på 500 hPa från historiska väderdata. Journal of Advances in Modeling Earth Systems, 11(8):2680–2693, 2019. [36] Jonathan A Weyn, Dale R Durran, och Rich Caruana. Förbättra data-driven global väderprognos med hjälp av djupa konvolutionella neurala nätverk på en kubisk sfär. Journal of Advances in Modeling Earth Systems, 12(9):e2020MS002109, 2020. 1. Datasets I det här avsnittet ger vi en översikt över de data vi använde för att utbilda och utvärdera GraphCast (Tillskott avsnitt 1.1), de data som definierar prognoserna för NWP baslinje HRES, samt HRES-fc0, som vi använder som grund sanningen för HRES (Tillskott avsnitt 1.2). Vi har konstruerat flera dataset för utbildning och utvärdering, bestående av delset av ECMWF:s dataarkiv och IBTrACS [29, 28]. Vi skiljer i allmänhet mellan källdata, som vi refererar till som ”arkiv” eller ”arkivdata”, jämfört med de dataset vi har byggt från dessa arkiv, som vi refererar till som ”dataset”. 1.1 Ålder 5 For training and evaluating GraphCast, we built our datasets from a subset of ECMWF’s ERA5 [24]1 archive, which is a large corpus of data that represents the global weather from 1959 to the present, at 0.25° latitude/longitude resolution, and 1 hour increments, for hundreds of static, surface, and atmospheric variables. The ERA5 archive is based on reanalysis, which uses ECMWF’s HRES model (cycle 42r1) that was operational for most of 2016 (see Table 3), within ECMWF’s 4D-Var data assimilation system. ERA5 assimilated 12-hour windows of observations, from 21z-09z and 09z-21z, as well as previous forecasts, into a dense representation of the weather’s state, for each historical date and time. Vår ERA5-dataset innehåller en deluppsättning av tillgängliga variabler i ECMWF:s ERA5-arkiv (tabell 2), på 37 trycknivåer: 1, 2, 3, 5, 7, 10, 20, 30, 50, 70, 100, 125, 150, 175, 200, 225, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 775, 800, 825, 850, 875, 900, 925, 950, 975, 1000 hPa. Åldersintervallet som ingick var 1979-01-01 till 2022-01-10, vilka nedsamlades till 6 timmars tidsintervall (motsvarar 00z, 06z, 12z och 18z varje dag). Nedsamlingen utförs genom undersamling, med undantag för den totala nederbörden, som ackumuleras under de 6 timmar som leder fram till motsvarande nedsamlad tid. 1.2 Fröken Utvärderingen av HRES-modellens baslinje kräver två separata uppsättningar data, nämligen prognosdata och grundläggande sanningsdata, som sammanfattas i följande underavsnitt. HRES anses i allmänhet vara den mest exakta deterministiska NWP-baserade vädermodellen i världen, så för att utvärdera HRES baslinje har vi byggt en datasats av HRES arkiverade historiska prognoser. HRES uppdateras regelbundet av ECMWF, så dessa prognoser representerar den senaste HRES-modellen vid den tidpunkt då prognoserna gjordes. Prognoserna laddades ner i sin inhemska representation (som använder sfärisk harmonik och ett oktaedralt reducerat Gaussian grid, TCo1279 [36]), och motsvarar ungefär 0,1° latitud/längdupplösning. HRES operational forecasts Vi provade sedan spatialt ned prognoserna till ett 0,25° bredd/längdgrid (för att matcha ERA5-upplösningen) med hjälp av ECMWF: s Metview-bibliotek, med standard regridparametrar. Vi provade dem temporärt ned till 6 timmars intervall. För att utvärdera färdigheten hos HRES operativa prognoser konstruerade vi en grundläggande sanningsdatasats, ”HRES-fc0”, baserad på ECMWF:s HRES operativa prognosarkiv. Denna datasats omfattar det inledande tidsskedet för varje HRES-prognos vid initialiseringstiderna 00z, 06z, 12z och 18z (se figur 5). HRES-fc0-data är liknande ERA5-data, men den assimileras med den senaste ECMWF NWP-modellen vid prognostid och assimilerar observationer från ±3 timmar runt motsvarande datum och tid. Observera att ECMWF också tillhandahåller ett arkiv av ”HRES Analysis” data, som skiljer sig från vår HRES-fc0-datasats. HRES HRES-fc0 A very small subset of the values from the ECMWF HRES archive for the variable geopotential at 850hPa (z850) and 925hPa (z925) are not numbers (NaN). These NaN’s seem to be distributed uniformly across the 2016-2021 range and across forecast times. This represents about 0.00001% of the pixels for z850 (1 pixel every ten 1440 x 721 latitude-longitude frames), 0.00000001% of the pixels for z925 (1 pixel every ten thousand 1440 x 721 latitude-longitude frames) and has no measurable impact on performance. For easier comparison, we filled these rare missing values with the weighted average of the immediate neighboring pixels. We used a weight of 1 for side-to-side neighbors and 0.5 weights for diagonal neighbors3. HRES NaN handling 1.3 Tropiska cykloner Dataset För vår analys av tropiska cyklonprognoser använde vi IBTrACS-arkivet [28, 29, 31, 30] för att konstruera den grundläggande sanningsdataset. Detta inkluderar historiska cyklonspår från cirka ett dussin auktoritativa källor. Varje spår är en tidsserie, med 6-timmarsintervaller (00z, 06z, 12z, 18z), där varje tidssteg representerar cyklons öga i latitud/längdskoordinater, tillsammans med motsvarande Saffir-Simpson-kategori och andra relevanta meteorologiska egenskaper vid den tiden. För HRES baslinje använde vi TIGGE-arkivet, som tillhandahåller cyklonspår beräknade med den operativa spåraren, från HRES:s prognoser vid 0,1° upplösning [8, 46]. Data lagras som XML-filer tillgängliga för nedladdning under https://confluence.ecmwf.int/display/TIGGE/Tools. För att konvertera data till ett format som är lämpligt för vidare efterbearbetning och analys implementerade vi en undersökare som extraherar cyklonspår för år av intresse. De relevanta avsnitten (taggar) i XML-filerna är de av typen "forecast", som vanligtvis innehåller flera spår som motsvarar olika initiala prognostider. Med dessa taggar extraherar vi sedan cyklonnamnet (tag Se avsnitt 8.1 för detaljer om spårarens algoritm och resultat. Notering och problembeskrivning I det här avsnittet definierar vi användbara tidnotationer som används i hela papperet (avsnitt 2.1), formaliserar det allmänna prognosproblemet vi tar itu med (avsnitt 2.2), och detaljerar hur vi modellerar väderförhållandena (avsnitt 2.3). 2.1 Tidsnotering The time notation used in forecasting can be confusing, involving a number of different time symbols, e.g., to denote the initial forecast time, validity time, forecast horizon, etc. We therefore introduce some standardized terms and notation for clarity and simplicity. We refer to a particular point in time as “date-time”, indicated by calendar date and UTC time. For example, 2018-06-21_18:00:00 means June 21, 2018, at 18:00 UTC. For shorthand, we also sometimes use the Zulu convention, i.e., 00z, 06z, 12z, 18z mean 00:00, 06:00, 12:00, 18:00 UTC, respectively. We further define the following symbols: t: Prognostidstegindex, som indexerar antalet steg sedan prognosen initialiserades. T: prognoshorisont, som representerar det totala antalet steg i en prognos. d: giltighetstid, som anger datum-tiden för en viss väderstatus. d0: Tid för prognosinitialisering, som anger giltighetstiden för en prognoss initiala inmatningar. Δd: Prognos stegs varaktighet, som anger hur mycket tid som passerar under ett prognossteg. τ: prognostiserad ledtid, som representerar den förflutna tiden i prognosen (dvs. τ = tΔd). 2.2 Allmänt uttalande om prognosproblem Låt Zd beteckna det verkliga tillståndet för det globala vädret vid tid d. Tidsutvecklingen av det verkliga vädret kan representeras av en underliggande diskrettidsdynamikfunktion, Φ, som genererar tillståndet vid nästa tidssteg (Δd i framtiden) baserat på det nuvarande, dvs Zd+Δd = Φ(Zd). Vårt mål är att hitta en exakt och effektiv modell, φ, av den sanna dynamiska funktionen, Φ, som effektivt kan förutsäga vädret över en viss prognoshorisont, TΔd. Vi antar att vi inte kan observera Zd direkt, men istället bara har en del observation Xd, vilket är en ofullständig representation av den statliga information som krävs för att förutsäga vädret perfekt. Xd−Δd , Xd−2Δd , ..., förutom Xd. Modellen kan då i princip utnyttja denna ytterligare kontextinformation för att närma Zd mer exakt. Analogt med ekvationen (1), kan förutsägelsen X ̈d+Δd matas tillbaka till φ för att självregressivt producera en fullständig förutsägelse, We assess the forecast quality, or skill, of 𝜙 by quantifying how well the predicted trajectory, 𝑋ˆ𝑑+Δ𝑑:𝑑+𝑇 Δ𝑑 , matches the ground-truth trajectory, 𝑋𝑑+Δ𝑑:𝑑+𝑇Δ𝑑 . However, it is important to highlight again that 𝑋𝑑+Δ𝑑:𝑑+𝑇Δ𝑑 only comprises our observations of 𝑍𝑑+Δ𝑑:𝑑+𝑇Δ𝑑 , which itself is unobserved. We measure the consistency between forecasts and ground truth with an objective function, som uttryckligen beskrivs i avsnitt 5. I vårt arbete var tidsupplösningen av data och prognoser alltid Δd = 6 timmar med en maximal prognoshorisont på 10 dagar, vilket motsvarar totalt T = 40 steg. Eftersom Δd är en konstant i hela detta papper, kan vi förenkla notationen med hjälp av (Xt, Xt+1, . . . , Xt+T ) i stället för (Xd, Xd+Δd , . . , Xd+TΔd ), för att indexera tid med ett heltal i stället för en specifik datumtid. Modellering av ECMWF väderdata För utbildning och utvärdering av modeller behandlar vi vår ERA5-datasats som den grundläggande sanningsrepresentationen av ytan och atmosfäriska väderförhållanden.Som beskrivs i avsnitt 1.2 använde vi HRES-fc0-datasatsen som grundläggande sanningar för att utvärdera HRES-förmågan. I vår dataset innehåller en ERA5 väderstatus Xt alla variabler i Tabell 2 med en 0,25° horisontell latitud-längdupplösning med totalt 721 × 1440 = 1, 038, 240 nätpunkter och 37 vertikala trycknivåer. De atmosfäriska variablerna definieras vid alla trycknivåer och uppsättningen (horisontella) nätpunkter ges av G0.25◦ = {−90.0, −89.75, . . . . , 90.0} × {−179.75, −179.5, . . . , 180.0}. Dessa variabler är unikt identifierade med sitt korta namn (och trycknivån, för atmosfäriska variabler). Till exempel är yttemperaturvariabeln ”2 meter” betecknad med 2 T; den atmosfäriska ”Geop Av alla dessa variabler förutspår vår modell 5 ytvariabler och 6 atmosfäriska variabler för totalt 227 målvariabler. Flera andra statiska och/eller externa variabler tillhandahölls också som inmatningssammanhang för vår modell. Dessa variabler visas i tabell 1 och tabell 2. De statiska/externa variablerna inkluderar information som geometri av nätet/mesh, orografi (ytorpotensial), land-sjömasska och strålning på toppen av atmosfären. Vi hänvisar till delset av variabler i Xt som motsvarar en viss gridpunkt i (1,038,240 totalt) som xt, och till varje variabel j av de 227 målvariablerna som xt. Den fullständiga statliga representationen Xtii, j innehåller därför en total av 721 × 1440 × (5 + 6 × 37) = 235, 680, 480 värden. Observera att vid polerna är de 1440 längdpunkterna lika, så det faktiska antalet separata gridpunkter är något mindre. • GraphCast modell Detta avsnitt ger en detaljerad beskrivning av GraphCast, med början med den autoregressiva generationen av en prognos (avsnitt 3.1), en översikt av arkitekturen i enkelt språk (avsnitt 3.2), följt av en teknisk beskrivning av alla diagram som definierar GraphCast (avsnitt 3.3), dess kodare (avsnitt 3.4), processor (avsnitt 3.5), och avkodare (avsnitt 3.6), samt alla normalisering och parameterisering detaljer (avsnitt 3.7). 3.1 Skapa en prognos Vår GraphCast-modell definieras som en ett steg lärd simulator som tar rollen av φ i ekvation (2) och förutsäger nästa steg baserat på två på varandra följande inmatningstillstånd, Som i ekvation (3) kan vi tillämpa GraphCast iterativt för att producera en prognos. of arbitrary length, 𝑇. This is illustrated in Figure 1b,c. We found, in early experiments, that two input states yielded better performance than one, and that three did not help enough to justify the increased memory footprint. 3.2 Översikt över arkitekturen GraphCasts kärnarkitektur använder GNNs i en "kod-process-dekod" -konfiguration [6], som visas i figur 1d,e,f. GNN-baserade lärda simulatorer är mycket effektiva på att lära sig komplex fysisk dynamik av vätskor och andra material [43, 39], eftersom strukturen av deras representationer och beräkningar är analoga med inlärda finita elementlösare [1]. En viktig fördel med GNNs är att ingångsgrafens struktur bestämmer vilka delar av representationen interagerar med varandra via inlärd meddelandeöverföring, vilket tillåter godtyckliga mönster av rumsliga interaktioner över något intervall. Däremot är ett konvolutionellt neuralt nätverk (CNN) begränsat till att beräkna interaktioner inom lokala patcher (eller, Vi utnyttjar GNN:s förmåga att modellera godtyckliga sällsynta interaktioner genom att introducera GraphCasts interna "multi-mesh" representation, som möjliggör långdistansinteraktioner inom några meddelandepassande steg och har i allmänhet homogen rumslig upplösning över hela världen. Our multi-mesh is constructed by first dividing a regular icosahedron (12 nodes and 20 faces) iteratively 6 times to obtain a hierarchy of icosahedral meshes with a total of 40,962 nodes and 81,920 faces on the highest resolution. We leveraged the fact that the coarse-mesh nodes are subsets of the fine-mesh nodes, which allowed us to superimpose edges from all levels of the mesh hierarchy onto the finest-resolution mesh. This procedure yields a multi-scale set of meshes, with coarse edges bridging long distances at multiple scales, and fine edges capturing local interactions. Figure 1g shows each individual refined mesh, and Figure 1e shows the full multi-mesh. GraphCast’s encoder (Figure 1d) first maps the input data, from the original latitude-longitude grid, into learned features on the multi-mesh, using a GNN with directed edges from the grid points to the multi-mesh. The processor (Figure 1e) then uses a 16-layer deep GNN to perform learned message-passing on the multi-mesh, allowing efficient propagation of information across space due to the long-range edges. The decoder (Figure 1f) then maps the final multi-mesh representation back to the latitude-longitude grid using a GNN with directed edges, and combines this grid representation, 𝑌ˆ𝑡+𝑘, with the input state, 𝑋ˆ𝑡+𝑘, to form the output prediction, 𝑋ˆ𝑡+𝑘+1 = 𝑋ˆ𝑡+𝑘 + 𝑌ˆ𝑡+𝑘. Kodaren och dekodern kräver inte att rådata ska ordnas i ett regelbundet rektilinjärt nät, och kan också tillämpas på godtyckliga nätliknande statliga diskretiseringar [1]. Den allmänna arkitekturen bygger på olika GNN-baserade lärda simulatorer som har varit framgångsrika i många komplexa vätskesystem och andra fysiska domäner [43, 39, 15]. På en enda Cloud TPU v4-enhet kan GraphCast generera en 0,25°-upplösning, 10-dagarsprognos (i 6-timmarssteg) på mindre än 60 sekunder. För jämförelse kör ECMWF: s IFS-system på en 11,664-kärnkluster och genererar en 0,1°-upplösning, 10-dagarsprognos (utgiven vid 1-timmarssteg för de första 90 timmarna, 3-timmarssteg för timmarna 93-144, och 6-timmarssteg från 150-240 timmar, på ungefär en timme datatid [41]. Se HRES release detaljer här: https://www.ecmwf.int/en/forecasts/ datasets/set-i. 3.3 GraphCasts diagram GraphCast implementeras med hjälp av GNNs i en "kodningsprocess-dekod" -konfiguration, där kodaren kartlägger (ytor och atmosfär) på ingången bredd-längdgrid till en multi-mesh, processorn utför många omgångar av meddelande-pass på multi-mesh, och dekodern kartlägger multi-mesh-funktionerna tillbaka till utgången bredd-längdgrid (se figur 1). The model operates on a graph G(VG, VM, EM, EG2M, EM2G), defined in detail in the subsequent paragraphs. VG represents the set containing each of the grid nodes 𝑣G. Each grid node represents a vertical slice of the atmosphere at a given latitude-longitude point, 𝑖. The features associated with each grid node 𝑣G are vG,features = [x𝑡−1, x𝑡, f𝑡−1, f𝑡, f𝑡+1, c𝑖], where x𝑡 is the time-dependent weather state 𝑋𝑡 corresponding to grid node 𝑣G and includes all the predicted data variables for all 37 atmospheric levels as well as surface variables. The forcing terms f𝑡 consist of time-dependent features that can be computed analytically, and do not need to be predicted by GraphCast. They include the total incident solar radiation at the top of the atmosphere, accumulated over 1 hour, the sine and cosine of the local time of day (normalized to [0, 1)), and the sine and cosine of the of year progress (normalized to [0, 1)). The constants c𝑖 are static features: the binary land-sea mask, the geopotential at the surface, the cosine of the latitude, and the sine and cosine of the longitude. At 0.25° resolution, there is a total of 721 × 1440 = 1, 038, 240 grid nodes, each with (5 surface variables + 6 atmospheric variables × 37 levels) × 2 steps + 5 forcings × 3 steps + 5 constant = 474 input features. Grid nodes VM representerar den uppsättning som innehåller var och en av meshnoderna vM. Meshnoder placeras jämnt runt om i världen i en R-förfinad icosahedral mesh MR. M0 motsvarar en enhetsradie icosahedron (12 noder och 20 triangulära ansikten) med ansikten parallella med polerna (se figur 1g). Meshnoden är iterativt förfinad Mr → Mr+1 genom att dela varje triangulär ansikte i 4 mindre ansikten, vilket resulterar i en extra nod i mitten av varje kant, och omprojektera de nya noderna tillbaka till enhetssfären.4 Funktioner vM,Funktioner förknippade med varje meshnod vM inkluderar kosinen av bredd, och ihe sine och kosinen av längd. GraphCast fungerar med en Mesh nodes EM are bidirectional edges added between mesh nodes that are connected in the mesh. Crucially, mesh edges are added to EM for all levels of refinement, i.e., for the finest mesh, 𝑀6, as well as for 𝑀5, 𝑀4, 𝑀3, 𝑀2, 𝑀1 and 𝑀0. This is straightforward because of how the refinement process works: the nodes of 𝑀𝑟−1 are always a subset of the nodes in 𝑀𝑟. Therefore, nodes introduced at lower refinement levels serve as hubs for longer range communication, independent of the maximum level of refinement. The resulting graph that contains the joint set of edges from all of the levels of refinement is what we refer to as the “multi-mesh”. See Figure 1e,g for a depiction of all individual meshes in the refinement hierarchy, as well as the full multi-mesh. Mesh edges För varje edge eM som ansluter en sändare mesh nod vM till en mottagare mesh nod vM, bygger vi vM→vM edge funktioner eM, funktioner som använder positionen på enhetssfären av mesh noderna. Detta inkluderar vM→vM s r längd av kanten, och vektorskillnaden mellan de 3d positionerna för sändaren nod och mottagaren nod beräknas i ett lokalt koordinatsystem av mottagaren. Det lokala koordinatsystemet för mottagaren beräknas genom att tillämpa en rotation som ändrar azimuthvinkeln tills mottagaren nod ligger vid längd 0, följt av en rotation som ändrar polarvinkeln tills mottagaren också ligger vid bredd 0. Detta resulterar i totalt 327,660 mesh kanter (se tabell 4), var och en EG2M är unidirektionella kanter som ansluter sändare nät noder till mottagare nät noder. En kant eG2M vG→vM läggs till om avståndet mellan nät knut och nät knut är mindre s r eller lika med 0,6 gånger5 längden på kanterna i nät M6 (se figur 1) som säkerställer att varje nät knut är ansluten till minst en nät knut. Funktioner eG2M,funktioner är byggda på samma sätt som för vG→vM s r nät kanterna. Detta resulterar i totalt 1,618,746 Grid2Mesh kanter, var och en med 4 inmatningsfunktioner. Grid2Mesh edges EM2G are unidirectional edges that connect sender mesh nodes to receiver grid nodes. For each grid point, we find the triangular face in the mesh 𝑀6 that contains it and add three Mesh2Grid edges of the form 𝑒M2G 𝑣M→𝑣G, to connect the grid node to the three mesh nodes adjacent s r to that face (see Figure 1). Features eM2G,features are built on the same way as those for the mesh 𝑣M→𝑣G s r edges. This results on a total of 3,114,720 Mesh2Grid edges (3 mesh nodes connected to each of the 721 × 1440 latitude-longitude grid points), each with four input features. Mesh2Grid edges 3.4 Kodning Syftet med kodaren är att förbereda data till latenta representationer för processorn, som kommer att köras exklusivt på multi-mesh. Som en del av kodaren inbäddar vi först funktionerna i var och en av nätnoderna, nätnoderna, nätkanterna, nät till nätkanter och nät till nätkanter i ett latent utrymme av fast storlek med hjälp av fem multi-layer perceptrons (MLP). Embedding the input features Därefter, för att överföra information om atmosfärens tillstånd från nätnoderna till nätnoderna, utför vi ett enda meddelande som passerar steg över Grid2Mesh bipartit subgraph GG2M (VG, VM, EG2M) som ansluter nätnoder till nätnoder. Denna uppdatering utförs med hjälp av ett interaktionsnätverk [5, 6], förstärkt för att kunna arbeta med flera nodtyper [2]. Grid2Mesh GNN Sedan uppdateras var och en av meshnoderna genom att aggregera information från alla kanter som anländer till den meshnoden: Each of the grid nodes are also updated, but with no aggregation, because grid nodes are not receivers of any edges in the Grid2Mesh subgraph, After updating all three elements, the model includes a residual connection, and for simplicity of the notation, reassigns the variables, 5.3 Processor Processorn är en djup GNN som fungerar på Mesh subgraph GM (VM, EM) som bara innehåller Mesh noder och och Mesh kanter. Observera att Mesh kanter innehåller hela multi-mesh, med inte bara kanterna av M6, men alla kanterna av M5, M4, M3, M2, M1 och M0, vilket kommer att möjliggöra långdistans kommunikation. Ett enda lager av Mesh GNN är ett standardinteraktionsnätverk [5, 6] som först uppdaterar var och en av meshkanterna med information från de angränsande noderna: Multi-mesh GNN Sedan uppdaterar den var och en av meshnoderna och aggregerar information från alla kanter som anländer till den meshnoden: Och efter uppdatering av båda uppdateras representationerna med en återstående anslutning och för enkelhet av notationen, också omfördelas till ingångsvariablerna: Det föregående stycket beskriver ett enda lager av meddelande som passerar, men efter ett liknande tillvägagångssätt till [43, 39], tillämpade vi detta lager iterativt 16 gånger, med hjälp av odelade neurala nätverksvikter för MLPs i varje lager. 3.6. Decoder Dekoderns roll är att föra tillbaka information till nätet och extrahera en utgång. I likhet med Grid2Mesh GNN utför Mesh2Grid GNN ett enda meddelande som passerar över Mesh2Grid bipartitsubgrafen GM2G(VG, VM, EM2G). Grid2Mesh GNN är funktionellt likvärdigt med Mesh2Grid GNN, men använder Mesh2Grid-kanten för att skicka information i motsatt riktning. Mesh2Grid GNN Sedan uppdaterar den var och en av gridnoderna och aggregerar information från alla kanter som anländer till den gridnoden: In this case we do not update the mesh nodes, as they won’t play any role from this point on. Här igen lägger vi till en återstående anslutning, och för enkelhetens skull omfördela variablerna, den här gången endast för nätnoderna, som är de enda som krävs från denna punkt på: Slutligen framställs förutsägelsen yi för var och en av nätnoderna med hjälp av en annan MLP, Output function som innehåller alla 227 förutspådda variabler för den gridnoden. liknande [43, 39], beräknas nästa väderstatus, X ̈t + 1, genom att lägga till prognosen per nod, Y ̈t , till ingångstillståndet för alla gridnoder, Normalisering och nätverksparameterisering I likhet med [43, 39] normaliserade vi alla ingångar. För varje fysisk variabel beräknade vi medelvärdet per trycknivå och standardavvikelsen över 1979–2015 och använde det för att normalisera dem till noll medelvärde och enhetsvarians. För relativa kantavstånd och längder normaliserade vi funktionerna till längden på den längsta kanten. Input normalization Eftersom vår modell ger ut en skillnad, Y ̈t , som under inferensen läggs till Xt för att producera X ̈t + 1, normaliserade vi modellens utgång genom att beräkna standardavvikelsestatistiken per trycknivå för tidsskillnaden Yt = Xt+1 − Xt för varje variabel6. Output normalization De neurala nätverken inom GraphCast är alla MLPs, med ett dolt lager, och dolda och utdata lager storlekar av 512 (förutom det slutliga lagret av Decoder MLP, vars utdata storlek är 227, matchar antalet förutsedda variabler för varje grid nod).Vi valde ”swish” [40] aktiveringsfunktionen för alla MLPs. Alla MLPs följs av ett LayerNorm [3] lager (förutom Decoder MLP). Neural network parameterizations 4. Training details This section provides details pertaining to the training of GraphCast, including the data split used to develop the model (Section 4.1), the full definition of the objective function with the weight associated with each variable and vertical level (Section 4.2), the autoregressive training approach (Section 4.3), optimization settings (Section 4.4), curriculum training used to reduce training cost (Section 4.5), technical details used to reduce the memory footprint of GraphCast (Section 4.6), training time (Section 4.7) and the software stacked we used (Section 4.8). 4.1 Träningsdelning To mimic real deployment conditions, in which the forecast cannot depend on information from the future, we split the data used to develop GraphCast and data used to test its performance “causally”, in that the “development set” only contained dates earlier than those in the “test set”. The development set comprises the period 1979–2017, and the test set contains the years 2018–2021. Neither the researchers, nor the model training software, were allowed to view data from the test set until we had finished the development phase. This prevented our choices of model architecture and training protocol from being able to exploit any information from the future. Inom vår utvecklingssats delade vi vidare upp uppgifterna i en utbildningssats som omfattade åren 1979–2015 och en valideringssats som omfattade åren 2016–2017. Vi använde utbildningssatsen som träningsdata för våra modeller och valideringssatsen för hyperparameteroptimering och modellval, dvs. för att avgöra vilken modellarkitektur som fungerar bäst. Vi frös sedan modellarkitekturen och alla träningsval och flyttade till testfasen. 4.2. Training objective GraphCast har utbildats för att minimera en objektiv funktion över 12-stegsprognoser (3 dagar) mot ERA5-mål, med hjälp av gradientnedgång. where 𝜏 ∈ 1 : 𝑇train are the lead times that correspond to the 𝑇train autoregressive steps. d0 ∈ Dbatch representerar prognos initialisering datum-tider i en uppsättning prognoser i utbildningssatsen, j ∈ J indexerar variabeln och för atmosfäriska variabler trycknivån. t.ex. J ={z1000, z850, . . . , 2 T, MsL}, i ∈ G0.25◦ är placeringen (latitud och longitud) koordinater i nätet, x ̈d0+τ och xd0+τ är förutsägbara och målvärden för vissa variabelnivåer, plats och ledtid,j,i j,i s j är den inverse variansen av tidsskillnader per variabelnivå, 𝑤𝑗 is the per-variable-level loss weight, ai är området för bredd-längd-gittercellen, som varierar med bredd och normaliseras till enhetsmedel över nätet. In order to build a single scalar loss, we took the average across latitude-longitude, pressure levels, variables, lead times, and batch size. We averaged across latitude-longitude axes, with a weight proportional to the latitude-longitude cell size (normalized to mean 1). We applied uniform averages across time and batch. Mängderna s = V hxt+1 − xt i −1 är per-variabel-nivå inverse varians uppskattningar av tidsskillnaderna, som syftar till att standardisera målen (över på varandra följande steg) till enhetsvarians. Dessa uppskattades från utbildningsdata. Vi tillämpade sedan per-variabel-nivå förlustvikter, dvs. För atmosfäriska variabler, vi genomsnittliga över nivåer, med en vikt proportionell till trycket på nivån (normaliserad till enhetsgenomsnitt), som visas i figur 6a. Vi använder trycket här som en proxy för densiteten [26]. Observera att förlustvikten tillämpas på trycknivåer vid eller under 50 hPa, där HRES tenderar att prestera bättre än GraphCast, är endast 0,66% av den totala viktför 4.3. Training on autoregressive objective För att förbättra vår modells förmåga att göra noggranna prognoser över mer än ett steg använde vi ett autoregressivt träningsschema, där modells förutspådda nästa steg matades tillbaka som input för att förutsäga nästa steg. Den slutliga GraphCast-versionen tränades på 12 autoregressiva steg, enligt ett läroplanutbildningsschema som beskrivs nedan. 4.4 Optimering Träningsobjektivfunktionen minimerades med hjälp av gradientnedgång, med mini-batterier. Vi provade jordbaserade sanningsbanor från vår ERA5-träningsdataset, med ersättning, för batterier av storlek 32. Vi använde AdamW-optimeraren [33, 27] med parametrar (beta1 = 0,9, beta2 = 0,95). Vi använde viktnedbrytning på 0,1 på viktmatriserna. Vi använde gradient (norm) klippning med ett maximalt normvärde på 32. 5.3 Läroplan för utbildning Den första fasen bestod av 1000 gradient nedstigningsuppdateringar, med ett autoregressivt steg, och ett inlärningsfrekvensschema som ökade linjärt från 0 till 1e−3 (Figur 7a). Den andra fasen bestod av 299 000 gradient nedstigningsuppdateringar, igen med ett autoregressivt steg, och en inlärningsfrekvensschema som minskade tillbaka till 0 med halv-cosin nedbrytningsfunktion (Figur 7b). Den tredje fasen bestod av 11 000 gradient nedbrytningsuppdateringar, där antalet autoregressiva steg ökade från 2 12, ökade med 1 för varje 1000 uppdateringar, och med en fast inlärningsfrekvens på 3e−7 (Figur 7c). 4.6. Reducing memory footprint To fit long trajectories (12 autoregressive steps) into the 32GB of a Cloud TPU v4 device, we use several strategies to reduce the memory footprint of our model. First, we use batch parallelism to distribute data across 32 TPU devices (i.e., one data point per device). Second, we use bfloat16 floating point precision to decrease the memory taken by activations (note, we use full-precision numerics (i.e. float32) to compute performance metrics at evaluation time). Finally, we use gradient check-pointing [11] to further reduce memory footprint at the cost of a lower training speed. 4.7 Träningstid Efter träningsschemat som ökar antalet autoregressiva steg, som detaljerat ovan, tog träning GraphCast cirka fyra veckor på 32 TPU-enheter. 4.8 Programvara och hårdvara stack Vi använder JAX [9], Haiku [23], Jraph [17], Optax, Jaxline [4] och xarray [25] för att bygga och träna våra modeller. 5 Verifieringsmetoder Detta avsnitt ger detaljer om vårt utvärderingsprotokoll. Avsnitt 5.1 beskriver vårt tillvägagångssätt för att dela upp data på ett kausalt sätt, vilket säkerställer våra utvärderingstester för meningsfull generalisering, det vill säga utan att utnyttja information från framtiden. Avsnitt 5.2 förklarar i ytterligare detalj våra val för att utvärdera HRES-färdigheter och jämföra dem med GraphCast, från behovet av en grundläggande sanning som är specifik för HRES för att undvika att straffa den vid korta ledtider (Avsnitt 5.2.1), effekten av ERA5 och HRES med olika assimileringsfönster på den lookahead som varje stat införlivar (Avsnitt 5.2.2), det resulterande valet av initialisering för tid GraphCast och HRES för att säkerst 5.1. Training, validation, and test splits In the test phase, using protocol frozen at the end of the development phase (Section 4.1), we trained four versions of GraphCast, each of them on a different period. The models were trained on data from 1979–2017, 1979–2018, 1979–2019 and 1979–2020 for evaluation on the periods 2018–2021, 2019–2021, 2020–2021 och 2021 respektive. Återigen upprätthöll dessa splittringar en orsaksspridning mellan de data som användes för att utbilda en version av modellen och de data som användes för att utvärdera dess prestanda (se figur 8). De flesta av våra resultat utvärderades 2018 (dvs. med modellen utbildad 1979–2017), med flera undantag. För cyklonspårningsförsök rapporterar vi resultat 2018–2021 eftersom cykloner inte är så vanliga, så inklusive fler år ökar provstorleken. Vi använder den senaste versionen av GraphCast för att göra prognoser för ett givet år: GraphCast <2018 för 2018 prognos, GraphCast <2019 för 2019 prognos, etc. För utbildningsdata senaste experiment utvärderade vi hur olika modeller utbildades 5.2 Jämför GraphCast med HRES 5.2.1 Val av grundläggande sanningsdataset GraphCast utbildades för att förutsäga ERA5-data och ta ERA5-data som inmatning; vi använder också ERA5 som grundläggande sanning för att utvärdera vår modell. HRES-prognoser initialiseras emellertid baserat på HRES-analys. I allmänhet ger verifiering av en modell mot sin egen analys de bästa färdighetsberäkningarna [45]. Så i stället för att utvärdera HRES-prognoser mot ERA5-grundläggande sanning, vilket skulle innebära att även nollsteget av HRES-prognoser skulle ha ett icke-nollfel, konstruerade vi en ”HRES-prognos vid steg 0” (HRES-fc0) dataset, som innehåller det första steget av HRES-prognoser vid framtida initialiseringar (se tabell 5.2.2 Säkerställa lika utsikter i assimilationsfönster När vi jämför färdigheterna hos GraphCast och HRES gjorde vi flera val för att kontrollera skillnaderna mellan ERA5- och HRES-fc0-dataassimileringsfönstren. Som beskrivs i avsnitt 1 assimilerar HRES varje dag observationer med fyra +/-3h-fönster centrerade på 00z, 06z, 12z och 18z (där 18z betyder 18:00 UTC i Zulu-konventionen), medan ERA5 använder två +9h/-3h-fönster centrerade på 00z och 12z, eller motsvarande två +3h/-9h-fönster centrerade på 06z och 18z. Se figur 9 för en illustration. Vi valde att utvärdera GraphCasts prognoser från 06z och 18z-initialiseringarna, vilket säkerställer att dess ingångar bär information från Figur 10 visar prestandan hos GraphCast initialiserad från 06z/18z och 00z/12z. När GraphCast initialiseras från ett tillstånd med en större lookahead får GraphCast en synlig förbättring som kvarstår vid längre leadtider, vilket stöder vårt val till initialiserad utvärdering från 06z/18z. Vi tillämpade samma logik när vi valde målet att utvärdera: vi utvärderar endast mål som innehåller en 3h lookahead för både HRES och ERA5. Med tanke på vårt val av initialisering at 06z och 18z motsvarar detta utvärdering var 12:e, på framtida 06z och 18z analystider. Som ett praktiskt exempel, om vi skulle utvärdera GraphCast och HRES initialiserade vid 06z, vid ledtid 6h (dvs. 12), skulle 5.2.3 Justering av initialisering och giltighetstider As stated above, a fair comparison with HRES requires us to evaluate GraphCast using 06z and 18z initializations, and with lead times which are multiples of 12h, meaning validity times are also 06z and 18z. För ledtider upp till 3,75 dagar finns det arkiverade HRES-prognoser tillgängliga med 06z och 18z initialisering och giltighetstider, och vi använder dessa för att utföra en liknande jämförelse med GraphCast vid dessa ledtider. För ledtider på 4 dagar och längre finns arkiverade HRES-prognoser endast tillgängliga vid 00z och 12z initialiseringar, vilket med tanke på våra 12-timmars multipla ledtider innebär 00z och 12z giltighetstider. In these comparisons of globally-defined RMSEs, we expect the difference in time-of-day to give HRES a slight advantage. In Figure 11, we can see that up to 3.5 day lead times, HRES RMSEs tend to be smaller on average over 00z and 12z initialization/validity times than they are at the 06z and 18z times which GraphCast is evaluated on. We can also see that the difference decreases as lead time increases, and that the 06z/18z RMSEs generally appear to be tending towards an asymptote above the 00z/12z RMSE, but within 2% of it. We expect these differences to continue to favor HRES at longer lead times, and regardless to remain small, and so we do not believe that they compromise our conclusions in cases where GraphCast has greater skill than HRES. När vi planerar RMSE och andra utvärderingsmetoder som en funktion av ledtid, indikerar vi med en prickad linje den 3,5-dagars förändringspunkten där vi växlar från att utvärdera HRES på 06z/18z till att utvärdera på 00z/12z. 5.2 Utvärderingsperiod De flesta av våra huvudresultat rapporteras för år 2018 (från vår testuppsättning), för vilken den första prognosinitialiseringstiden var 2018-01-01_06:00:00 UTC och den sista 2018-12-31_18:00:00, eller vid utvärdering av HRES vid längre ledtider, 2018-01-01_00:00:00 och 2018-12-31_12:00:00. 5.3 Utvärderingsmetoder Vi kvantifierar färdigheten hos GraphCast, andra ML-modeller och HRES med hjälp av rotgenomsnittskvadratfelet (RMSE) och anomalikorrelationskoefficienten (ACC), som båda beräknas mot modellernas respektive markträttsdata. RMSE mäter storleken på skillnaderna mellan prognoser och markträtt för en given variabel indexerad med j och en given ledtid τ (se ekvation (20)). ACC, Lj,τ, definieras i ekvation (29) och mäter hur väl prognosernas skillnader från klimatologi, dvs. det genomsnittliga vädret för en plats och ett datum, korrelerar med markträttsskillnaderna från klimatologi. För färdighetspoäng använder vi den normaliserade RMSE-skillnaden mellan modell A och baslinje B som (R Alla mätvärden beräknades med hjälp av float32 precision och rapporterades med hjälp av variablernas inhemska dynamiska intervall, utan normalisering. Vi kvantifierade prognosfärdighet för en given variabel, x j, och ledtid, τ = tΔd, med hjälp av en breddvägd rotgenomsnittlig kvadratfel (RMSE) som ges av Root mean square error (RMSE) Vart • d0 ∈ Deval representerar prognos initialisering datum-tider i utvärderingsdataset, • j ∈ J index variabler och nivåer, t.ex. J = {z1000, z850, . . . , 2 T, MsL}, • i ∈ G0.25◦ är placeringen (latitud och longitud) koordinater i nätet, • 𝑥ˆ𝑑0+𝜏 and 𝑥𝑑0+𝜏 are predicted and target values for some variable-level, location, and lead time, J, J och I • ai är området i bredd-längdgridcellen (normaliserad till enhetsmedel över nätet) som varierar med bredd. Genom att ta kvadratroten inuti medelvärdet över prognosinitialiseringar följer vi konventionen av WeatherBench [41]. Vi noterar dock att detta skiljer sig från hur RMSE definieras i många andra sammanhang, där kvadratroten endast tillämpas på det slutliga medelvärdet, det vill säga, I alla jämförelser som involverar förutsägelser som filtreras, trunkeras eller bryts ned i den sfäriska harmoniska domänen, beräknar vi för bekvämlighet RMSEs direkt i den sfäriska harmoniska domänen, med alla medel som tas inuti kvadratroten, Root mean square error (RMSE), spherical harmonic domain. Här f ̈d0+τ och f d0+τ är förutsedda och målkoefficienter av sfäriska harmoniker med totala vågnummer j,l,m j,l,m Vi beräknar dessa koefficienter från nätbaserade data med hjälp av en diskret sfärisk harmonisk transformation [13] med triangulär trunkering vid vågnummer 719, som valdes för att lösa 0,25° (28km) upplösning av vårt nät vid ekvatorn. This RMSE closely approximates the grid-based definition of RMSE given in Equation (21), however it is not exactly comparable, in part because the triangular truncation at wavenumber 719 does not resolve the additional resolution of the equiangular grid near the poles. Detta beräknas enligt RMSE-definitionen av ekvation (21), men för en enda plats: Root mean square error (RMSE), per location. Vi delar också ner RMSE efter bredd endast: där Ecklon(G0.25◦) Ecklon = 1440 är antalet distinkta längder i vårt vanliga 0,25°-nät. This is computed following the RMSE definition of Equation (21) but restricted to a particular range of surface elevations, given by bounds 𝑧𝑙 ≤ 𝑧surface < 𝑧𝑢 on the surface geopotential: Root mean square error (RMSE), by surface elevation. where ll denotes the indicator function. Denna mängd definieras som Mean bias error (MBE), per location. This quantifies the average magni-tude of the per-location biases from Equation (26) and is given by Root-mean-square per-location mean bias error (RMS-MBE). Detta kvantifierar korrelationen mellan per-plats bias (ekvation (26)) av två olika modeller A och B. Vi använder en icke-centrerad korrelationskoefficient på grund av betydelsen av ursprung noll i mätningar av bias, och beräkna denna mängd enligt Correlation of per-location mean bias errors. Anomaly correlation coefficient (ACC). Vi beräknade också anomaly korrelation coefficient för en given variabel, x j, och ledtid, τ = tΔd, enligt där Cd0+τ är det klimatologiska medelvärdet för en given variabel, nivå, bredd och längd, och för dagen av året som innehåller giltighetstiden d0 + τ. Klimatologiska medel beräknades med hjälp av ERA5-data mellan 1993 och 2016. 5.4 Statistisk metodik 5.4.1 Betydelseprov för skillnad i medel For each lead time 𝜏 and variable-level 𝑗, we test for a difference in means between per-initialization-time RMSEs (defined in Equation (30)) for GraphCast and HRES. We use a paired two-sided 𝑡-test with correction for auto-correlation, following the methodology of [16]. This test assumes that time series of differences in forecast scores are adequately modelled as stationary Gaussian AR(2) processes. This assumption does not hold exactly for us, but is motivated as adequate for verification of medium range weather forecasts by the ECMWF in [16]. Den nominella provstorleken för våra tester är n = 730 vid leadtider under 4 dagar, bestående av två prognosinitialiseringar per dag under 365 dagar 2018. (För leadtider över 4 dagar har vi n = 729, se avsnitt 5.4.2). Men dessa data (skillnader i prognos RMSEs) är automatiskt korrelerade i tid. Efter [16] beräknar vi en inflationfaktor k för standardfelet som korrigerar för detta. Se Tabell 5 för detaljerade resultat av våra signifikanstest, inklusive p-värden, värden av t-teststatistik och av neff. 5.4.2 Prognos för anpassning För ledtider τ mindre än 4 dagar har vi prognoser tillgängliga vid 06z och 18z initialisering och giltighetstider varje dag för både GraphCast och HRES, och vi kan testa för skillnader i RMSEs mellan dessa parade prognoser. Vi räknar skillnaderna som vi använder för att testa nullhypotesen att E[diff-RMSE( j, τ, d0)] = 0 mot den tvåsidiga alterna-tive. Som diskuterats i avsnitt 5.2.3, vid ledtider på 4 dagar eller mer har vi endast HRES-prognoser tillgängliga vid 00z och 12z initialisering och giltighetstider, medan för den rättvisaste jämförelsen (avsnitt 5.2.2) GraphCast-prognoser måste utvärderas med 06z och 18z initialisering och giltighetstider. För att utföra ett parat test jämför vi RMSE av en GraphCast-prognos med en interpolerad RMSE av de två HRES-prognoserna på vardera sidan av den: en initialiserad och giltig 6 timmar tidigare, och den andra initialiserad och giltig 6 timmar senare, alla med samma ledtid. Vi kan använda dessa för att testa nollhypotesen E[diff-RMSEinterp( j, τ, d0)] = 0, som återigen inte är beroende av d0 genom den stationära antagandet på skillnaderna. Om vi vidare antar att HRES RMSE tidsserien själv är stationär (eller åtminstone tillräckligt nära stationär över ett 6-timmarsfönster) då E[diff-RMSEinterp( j, τ, d0)] = E[diff-RMSE( j, τ, d0)] och de interpolerade skillnaderna kan också användas för att testa avvikelser från den ursprungliga nollhypotesen att E[diff-RMSE( j, τ, d0)] = 0. Denna starkare stationära antagande för HRES RMSEs bryts av daglig periodicitet, och i avsnitt 5.2.3 ser vi vissa systematiska skillnader i HRES RMSEs mellan 00z/12z och 06z/18z giltighetstider. men som diskuterats där, dessa systematiska skillnader minskar väsentligt när ledtiden växer och de tenderar att gynna HRES, och så vi tror att ett test av E[diff-RMSE( j, τ, d0)] = 0 baserat på diff-RMSEinterp kommer att vara konservativ i fall där GraphCast verkar ha större skicklighet än HRES. 5.4.3 Konfidensintervall för RMSEs Felfälten i våra RMSE-kompetensplotter motsvarar separata konfidensintervall för E[RMSEGC] och E[RMSEHRES] (eliding eller nu argumenten j, τ, d0). Dessa härrör från det tvåsidiga t-testet med korrigering för självkorrelation som beskrivs ovan, som tillämpas separat på GraphCast och HRES RMSE-tidsserier. Dessa konfidensintervall gör ett stationärt antagande för de separata tidsserierna GraphCast och HRES RMSE, vilket som nämnts ovan är ett starkare antagande om att stationärt av skillnaderna och bryts något. 5.4.4 Konfidensintervall för RMSE-färdighetsresultat Från det t-test som beskrivs i avsnitt 5.4.1 kan vi också härleda tillförlitlighetsintervaller för den sanna skillnaden i RMSEs på standard sätt, men i våra färdighetspoäng vill vi visa tillförlitlighetsintervaller för den sanna RMSE färdighetspoängen, där den sanna skillnaden normaliseras av den sanna RMSE av HRES: Ett konfidensintervall för denna mängd bör ta hänsyn till osäkerheten i vår uppskattning av den sanna HRES RMSE. Låt [ldiff, udiff] vara vårt 1 − α/2 konfidensintervall för numratorn (skillnad i RMSEs), och [lHRES, uHRES] vårt 1 − α/2 konfidensintervall för nämnaren (HRES RMSE). Med tanke på att 0 < lHRES i varje fall för oss, med hjälp av intervallaritmetik och unionsbunden, får vi ett konservativt 1 − α konfidensintervall for RMSE-SStrue. We plot these confidence intervals alongside our estimates of the RMSE skill score, however note that we don’t rely on them for significance testing. 6. Comparison with previous machine learning baselines För att bestämma hur GraphCasts prestanda jämför med andra ML-metoder fokuserar vi på Pangu-Vädret [7], en stark MLWP-baslinje som fungerar vid 0,25° upplösning. För att göra den mest direkta jämförelsen, avgår vi från vårt utvärderingsprotokoll och använder det som beskrivs i [7]. Eftersom publicerade Pangu-Vädret resultat erhålls från 00z/12z initialiseringar, använder vi samma initialiseringar för GraphCast, i stället för 06z/18z, som i resten av detta papper. Detta tillåter båda modellerna att initialiseras på samma ingångar, som innehåller samma mängd lookahead (+9 timmar, se avsnitt 5.2.2 och 5.2). Eftersom HRES initialisering inkorporerar högst +3 timmars lookahead, även om initialis Som visas i figur 12 överträffar GraphCast (blå linjer) Pangu-väder [7] (röda linjer) på 99,2% av målen. För ytvariablerna (2 T, 10 U, 10 v, MsL) är GraphCasts fel under de första dagarna cirka 10-20% lägre, och över de längre ledtiderna platåer till cirka 7-10% lägre fel. De enda två (av de 252 totala) mätningarna på vilka Pangu-väder överträffade GraphCast var z500, vid ledtiderna 6 och 12 timmar, där GraphCast hade 1,7% högre genomsnittlig RMSE (figur 12a,e). Ytterligare prognosverifieringsresultat This section provides additional analysis of GraphCast’s performance, giving a fuller picture of its strengths and limitations. Section 7.1 complements the main results of the paper on additional variables and levels beyond z500. Section 7.2 further analyses GraphCast performance broken down by regions, latitude and pressure levels (in particular distinguishing the performance below and above the tropopause), illustrates the biases and the RMSE by latitude longitude and elevation. Section 7.3 demonstrates that both the multi-mesh and the autoregressive loss play an important role in the performance of GraphCast. Section 7.4 details the approach of optimal blurring applied to HRES and GraphCast, to ensure that GraphCast improved performance is not only due to its ability to blur its predictions. It also shows the connection between the number of autoregressive steps in the loss and blurring, demonstrating that autoregressive training does more than just optimally blur predictions. Finally, Section 7.5 shows various spectral analyses, demonstrating that in most cases GraphCast has improved performance over HRES across all horizontal length scales and resolutions. We also discuss the impact of differences in spectra between ERA5 and HRES. Together, those results show an extensive evaluation of GraphCast and a rigorous comparison to HRES. 7.1 Detaljerade resultat för ytterligare variabler 7.1.1 RMSE och ACC Figur 13 kompletterar figur 2a–b och visar RMSE och normaliserad RMSE-skillnad i förhållande till HRES för GraphCast och HRES på en kombination av 12 höjdpunktsvariabler. figur 14 visar ACC och normaliserad ACC-skillnad i förhållande till HRES för GraphCast och HRES på samma kombination av 12 variabler och kompletterar figur 2c. ACC-kompetenspoängen är den normaliserade ACC-skillnaden mellan modell A och baslinje B som (ACCA − ACCB)/(1 − RMSEB). 7.1.2 Detaljerade signifikanstestresultat för RMSE-jämförelser Table 5 provides further information about the statistical significance claims made in the main section about differences in RMSE between GraphCast and HRES. Details of the methodology are in Section 5.4. Here we give 𝑝-values, test statistics and effective sample sizes for all variables. For reasons of space we limit ourselves to three key lead times (12 hours, 2 days and 10 days) and a subset of 7 pressure levels chosen to include all cases where 𝑝 > 0.05 at these lead times. 7.1.3. Effect of data recency on GraphCast Detta gör det i princip möjligt för dem att modellera senaste vädermönster som förändras över tiden, såsom ENSO-cykeln och andra oscillationer, samt effekterna av klimatförändringar. För att utforska hur nyheten i utbildningsdata påverkar GraphCasts testprestanda, tränade vi fyra varianter av GraphCast, med utbildningsdata som alltid började 1979, men slutade 2017, 2018, 2019 och 2020, respektive (vi märkte varianten som slutade 2017 som ”GraphCast:<2018”, etc.). Figur 15 visar färdighets- och färdighetspoängen (i förhållande till HRES) hos de fyra varianterna av GraphCast, för flera variabler och kompletterar figur 4a. Det finns en allmän trend där varianter som utbildats till år närmare teståret generellt har förbättrat färdighetspoängen mot HRES. Anledningen till denna förbättring är inte helt förstådd, även om vi spekulerar att det är analogt med långsiktig biaskorrigering, där senaste statistiska bias i vädret utnyttjas för att förbättra noggrannheten. Det är också viktigt att notera att HRES inte är en enda NWP över åren: det tenderar att uppgraderas en eller två gånger om året, med generellt ökande färdigheter på z500 och andra områden [18, 22, 19, 20, 21]. Detta kan också bidra till varför GraphCast:<2018 och GraphCast:<2019, i synnerhet, har lägre färdighetsresultat jämfört med HRES vid tidiga ledtider för testutvärderingen 2021. 7.2. Disaggregated results 7.2.1 RMSE per region Regionutvärdering av prognosfärdigheter ges i figurerna 17 och 18, med hjälp av samma regioner och namngivningskonvention som i ECMWF scorecards (https://sites.ecmwf.int/ifs/scorecards/ scorecards-47r3HRES.html). Vi har lagt till några ytterligare regioner för bättre täckning av hela planeten. Dessa regioner visas i figur 16. 7.2.2 RMSE skicklighetsresultat per latitud och trycknivå I figur 19 skisserar vi normaliserade RMSE-skillnader mellan GraphCast och HRES, som en funktion av både trycknivå och bredd. Vi skisserar bara de 13 trycknivåerna från WeatherBench [41] på vilka vi har utvärderat HRES. På dessa tomter anger vi vid varje latitud det genomsnittliga trycket i tropopausen, som skiljer troposfären från stratosfären. Vi använder värden som beräknats för ERA-15-dataset (1979-1993), som ges i figur 1 av [44]. Dessa kommer inte att vara exakt samma som för ERA5, men är endast avsedda som ett grovt hjälpmedel för tolkning. Vi kan se från scorecard i figur 2 att GraphCast utför sämre än HRES vid de lägsta trycknivåerna som utvärderats (50hPa). Figur 19 visar att trycknivån vid vilken GraphCast börjar bli värre är ofta latitudberoende också, i vissa fall ungefär efter den genomsnittliga nivån i tropopausen. Vi använder en lägre förlustvägning för lägre trycknivåer och detta kan spela en roll; det är också möjligt att det kan finnas skillnader mellan ERA5 och HRES-fc0 dataset i förutsägbarheten av variabler i stratosfären. 7.2.3 Bias av latitud och longitud I figurerna 20 till 22 planerar vi den genomsnittliga biasfelet (MBE, eller bara "bias", definierat i ekvationen (26)) av GraphCast som en funktion av latitud och longitud, vid tre ledtider: 12 timmar, 2 dagar och 10 dagar. In the plots for variables given on pressure levels, we have masked out regions whose surface elevation is high enough that the pressure level is below ground on average. We determine this to be the case when the surface geopotential exceeds a climatological mean geopotential at the same location and pressure level. In these regions the variable will typically have been interpolated below ground and will not represent a true atmospheric value. To quantify the average magnitude of the per-location biases shown in Figures 20 to 22, we computed the root-mean-square of per-location mean bias errors (RMS-MBE, defined in Equation (26)). These are plotted in Figure 23 for GraphCast and HRES as a function of lead time. We can see that GraphCast’s biases are smaller on average than HRES’ for most variables up to 6 days. However they generally start to exceed HRES’ biases at longer lead times, and at 4 days in the case of 2m temperature. Vi beräknade också en korrelationskoefficient mellan GraphCast och HRES: s genomsnittliga biasfel per plats (definierat i ekvation (27)), som är utformad som en funktion av ledtid i figur 24. Vi kan se att GraphCast och HRES: s bias är orelaterade eller svagt korrelerade vid de kortaste ledtiderna, men korrelationskoefficienten växer i allmänhet med ledtiden och når värden så höga som 0,6 vid 10 dagar. 7.2.4. RMSE skill score by latitude and longitude In Figures 25 to 27, we plot the normalized RMSE difference between GraphCast and HRES by latitude and longitude. As in Section 7.2.3, for variables given on pressure levels, we have masked out regions whose surface elevation is high enough that the pressure level is below ground on average. Notable areas where HRES outperforms GraphCast include specific humidity near the poles (particularly the south pole); geopotential near the poles; 2m temperature near the poles and over many land areas; and a number of surface or near-surface variables in regions of high surface elevation (see also Section 7.2.5). GraphCast’s skill in these areas generally improves over longer lead times. However HRES outperforms GraphCast on geopotential in some tropical regions at longer lead times. Vid 12 timmars och 2 dagars ledtider utvärderas både GraphCast och HRES vid 06z/18z initialisering och giltighetstider, men vid 10 dagars ledtider måste vi jämföra GraphCast vid 06z/18z med HRES vid 00z/12z (se avsnitt 5). 7.2.5. RMSE färdighetsscore efter ythöjd I figur 25 kan vi se att GraphCast verkar ha minskat skicklighet i höga höjdregioner för många variabler vid 12 timmars ledtid. För att undersöka detta ytterligare delade vi jordytan i 32 bins av ythöjd (given i termer av geopotentiell höjd) och beräknade RMSEs inom varje bin enligt ekvation (24). Vid korta ledtider och särskilt vid 6 timmar tenderar GraphCasts färdighet i förhållande till HRES att minska med högre ythöjd, i de flesta fall faller under färdigheten hos HRES vid tillräckligt höga höjder. Vi noterar att GraphCast är utbildad på variabler definierade med hjälp av en blandning av trycknivåkoordinater (för atmosfäriska variabler) och höjd över ytan koordinater (för ytanivå variabler som 2m temperatur eller 10m vind). Förhållandet mellan dessa två koordinatsystem beror på ythöjd. Trots GraphCast konditionering på ytan höjd antar vi att det kan kämpa för att lära sig detta förhållande, och att extrapolera det väl till de högsta ytan höjder. I vidare arbete skulle vi föreslå att försöka träna modellen på en deluppsättning av ERA5s inhemska modellnivåer i stället för trycknivåer; dessa använder en hybrid koordinatsystem [14] som följer markytan på de lägsta nivåerna, och detta kan göra förhåll Variabler med hjälp av trycknivåkoordinater interpoleras under marken när trycknivån överstiger yttrycket. GraphCast ges inte någon explicit indikation på att detta har hänt och detta kan lägga till utmaningen att lära sig att förutsäga vid höga ythöjder. Slutligen är vår förlustvägning lägre för atmosfäriska variabler vid lägre trycknivåer, och detta kan påverka skicklighet vid högre höjdpunkter. 7.3 GraphCast ablationer 7.3.1 Multipel mesh ablation För att bättre förstå hur multi-mesh-representationen påverkar prestandan hos GraphCast jämför vi GraphCast-prestanda med en version av modellen som tränats utan multi-mesh-representationen. Den senare modells arkitektur är identisk med GraphCast (inklusive samma kodare och dekoder och samma antal noder), förutom att i processblocket innehåller grafen endast kanterna från den finaste icosahedron mesh M6 (245,760 kanter, istället för 327,660 för GraphCast). Som ett resultat kan den ablated modellen endast sprida information med kortare kanter, medan GraphCast innehåller ytterligare långdistans kanter. Figure 29 (left panel) shows the scorecard comparing GraphCast to the ablated model. GraphCast benefits from the multi-mesh structure for all predicted variables, except for lead times beyond 5 days at 50 hPa. The improvement is especially pronounced for geopotential across all pressure levels and for mean sea-level pressure for lead times under 5 days. The middle panel shows the scorecard comparing the ablated model to HRES, while the right panel compares GraphCast to HRES, demonstrating that the multi-mesh is essential for GraphCast to outperform HRES on geopotential at lead times under 5 days. 7.3.2 Effekten av autoregressiv träning Vi analyserade prestandan hos varianter av GraphCast som tränades med färre autoregressiva (AR) steg7, vilket bör uppmuntra dem att förbättra sin korta ledtidsprestanda på bekostnad av längre ledtidsprestanda. Som visas i figur 30 (med de ljusare blå linjerna som motsvarar träning med färre AR-steg) fann vi att modeller som tränades med färre AR-steg tenderade att handla längre för kortare ledtids noggrannhet. Dessa resultat tyder på potential för att kombinera flera modeller med olika antal AR-steg, t.ex. för korta, medelstora och långa ledtider, för att utnyttja sina respektive fördelar över hela prognoshorisonten. 7.4. Optimal blurring 7.4.1 Effekt på kompetensjämförelsen mellan GraphCast och HRES I figurerna 31 och 32 jämför vi RMSE för HRES med GraphCast innan och efter optimal blurring har tillämpats på båda modellerna. 4.2 Filtreringsmetoder We chose filters which minimize RMSE within the class of linear, homogeneous (location invariant), isotropic (direction invariant) filters on the sphere. These filters can be applied easily in the spherical harmonic domain, where they correspond to multiplicative filter weights that depend on the total wavenumber, but not the longitudinal wavenumber [12]. För varje initialisering d0, ledtid τ, variabel och nivå j, tillämpade vi en diskret sfärisk harmonisk transformation [13] till förutsägelser x ̈d0+τ och mål xd0+τ, vilket resulterade i sfäriska harmoniska koefficienter f ̈d0+τ j j j,l,m och f d0+τ för varje par av totalt vågnummer l och längsgående vågnummer m. För att lösa 0,25° (28km) upplösning av vårt nät vid ekvatorn, använder vi en triangulär trunkering vid totalt vågnummer 719, vilket innebär att l varierar från 0 till max l = 719, och för varje l värdet av m varierar från −l till l. Vi multiplicerade sedan varje förutsedd koefficient f ̈d0+τ med en filtervikt bτ , som är oberoende av j,l,m j,l den längsgående vågnumret m. Filtervikterna monterades med hjälp av minsta kvadrater för att minimera genomsnittliga kvadratfel, som beräknat i sfärisk harmonisk domän: We used data from 2017 to fit these weights, which does not overlap with the 2018 test set. When evaluating the filtered predictions, we computed MSE in the spherical harmonic domain, as detailed in Equation (22). Genom att montera olika filter för varje ledtid, var graden av suddning fri att öka med ökad osäkerhet vid längre ledtider. Medan denna metod är ganska allmän, har den också begränsningar. Eftersom filtren är homogena, kan de inte ta hänsyn till platsspecifika egenskaper, såsom orografi eller land-sjögränser, och därför måste de välja mellan att överblåsa förutsägbara högupplösta detaljer på dessa platser, eller underblåsa oförutsägbara högupplösta detaljer mer allmänt. Detta gör dem mindre effektiva för vissa ytvariabler som 2 T, som innehåller många sådana förutsägbara detaljer. Ett alternativt sätt att närma sig en villkorlig förväntan (och därmed förbättra RMSE) för vår ECMWF prognos baslinje skulle vara att utvärdera ensemble medelvärdet av ENS ensemble prognossystem, i stället för deterministiska HRES prognos. dock ENS ensemble körs vid lägre upplösning än HRES, och på grund av detta är det oklart för oss om dess ensemble medelvärde kommer att förbättra på RMSE av en post-bearbetad version av HRES. 7.4.3. Transfer functions of the optimal filters The filter weights are visualized in Figure 33, which shows the ratio of output power to input power for the filter, on the logarithmic decibel scale, as a function of wavelength. (With reference to Ekvation (35), detta är lika med 20 log10(bτ ) för våglängden Ce/l som motsvarar det totala vågnumret l.) För både HRES och GraphCast ser vi att det är optimalt för MSE att dämpa kraften över vissa kort-till-mellanvåglängder. När ledtiderna ökar ökar mängden dämpning, liksom den våglängd vid vilken den är störst. Vid optimering för MSE strävar vi efter att närma oss en villkorlig förväntan som är genomsnittlig över förutsägande osäkerhet. Under längre ledtider ökar denna förutsägande osäkerhet, liksom den rumsliga skalan av osäkerhet om platsen för väderfenomen. Vi tror att detta i stor utsträckning förklarar dessa förändringar i optimal filterrespons som en funktion av ledtid. Vi kan se att HRES i allmänhet kräver mer suddighet än GraphCast, eftersom GraphCasts förutsägelser redan suddar i viss utsträckning (se avsnitt 7.5.3), medan HRES inte gör det. De optimala filtren kan också i viss utsträckning kompensera för spektrala bias i förutsägelserna i GraphCast och HRES. Till exempel, för många variabler i vår regriderade ERA5-datasats, skär spektrumet av plötsligt för våglängder under 62km som är olösta vid ERA5: s inhemska upplösning 0.28125◦. We also note that there are noticeable peaks in the GraphCast filter response around 100km wavelength for z500, which are not present for HRES. We believe these are filtering out small, spurious artifacts which are introduced by GraphCast around these wavelengths as a side-effect of the grid-to-mesh and mesh-to-grid transformations performed inside the model. 7.4.4. Relationship between autoregressive training horizon and blurring In Figure 34 we use the results of optimal blurring to investigate the connection between autoregressive training and the blurring of GraphCast’s predictions at longer lead times. I den första raden av figur 34 ser vi att modeller som tränats med längre autoregressiva träningshorisonter drar mindre nytta av optimal dimning, och att fördelarna med optimal dimning i allmänhet börjar ackumuleras först efter ledtiden som motsvarar den horisont de tränades upp till. Det skulle vara bekvämt om vi kunde ersätta längre horisontell träning med en enkel efterbearbetningsstrategi som optimal blurring, men detta verkar inte vara fallet: i den andra raden av figur 34 ser vi att längre horisontell autoregressiv träning fortfarande resulterar i lägre RMSEs, även efter optimal blurring har tillämpats. Om man önskar förutsägelser som på något sätt är minimalt suddiga, kan man använda en modell som är utbildad till ett litet antal autoregressiva steg. Detta skulle naturligtvis resultera i högre RMSEs vid längre ledtider, och våra resultat här tyder på att dessa högre RMSEs inte bara skulle bero på bristen på suddighet; man skulle kompromissa på andra aspekter av skicklighet vid längre ledtider också. 7.5 Spektralanalys 7.5.1 Spektral nedbrytning av genomsnittlig kvadratisk fel I figurerna 35 och 36 jämför vi färdigheten hos GraphCast med HRES över en rad rumsliga skalor, före och efter optimal filtrering (se detaljer i avsnitt 7.4). where 𝑙max = 719 as in Equation (22). Each total wavenumber 𝑙 corresponds approximately to a wavelength 𝐶𝑒/𝑙, where 𝐶𝑒 is the earth’s circumference. Vi planerar effektdensitetshistogram, där området för varje bar motsvarar S j,τ(l), och barerna mitt runt log10(1 + l) (eftersom en logfrekvensskala tillåter enklare visuell inspektion, men vi måste också inkludera vågnummer l = 0). At lead times of 2 days or more, for the majority of variables GraphCast improves on the skill of HRES uniformly over all wavelengths. (2m temperature is a notable exception). Vid kortare ledtider på 12 timmar till 1 dag, för ett antal variabler (inklusive z500, T500, T850 och U500) har HRES större skicklighet än GraphCast på skalor i det ungefärliga intervallet 200-2000km, med GraphCast generellt har större skicklighet utanför detta intervall. 7.5.2. RMSE as a function of horizontal resolution I figur 37 jämför vi färdigheten hos GraphCast med HRES när den utvärderas i en rad rumsliga upplösningar. Specifikt, vid varje total våglängd ltrunc, vi planera RMSEs mellan förutsägelser och mål som båda är truncated vid det totala våglängden. The RMSEs between truncated predictions and targets can be obtained via cumulative sums of the mean error powers 𝑆 𝑗,𝜏(𝑙) defined in Equation (37), according to Figure 37 shows that in most cases GraphCast has lower RMSE than HRES at all resolutions typically used for forecast verification. This applies before and after optimal filtering (see Section 7.4). Exceptions include 2 meter temperature at a number of lead times and resolutions, T 500 at 12 hour lead times, and U 500 at 12 hour lead times, where GraphCast does better at 0.25° resolution but HRES does better at resolutions around 0.5◦ to 2.5◦ (corresponding to shortest wavelengths of around 100 to 500 km). In particular we note that the native resolution of ERA5 is 0.28125◦ corresponding to a shortest wavelength of 62km, indicated by a vertical line in the plots. HRES-fc0 targets contain some signal at wavelengths shorter than 62km, but the ERA5 targets used to evaluate GraphCast do not, natively at least (see Section 7.5.3). In Figure 37 we can see that evaluating at 0.28125◦ resolution instead of 0.25° does not significantly affect the comparison of skill between GraphCast and HRES. 7.5.3 Spektrum av prognoser och mål Figur 38 jämför kraftspektrumet i GraphCasts förutsägelser, de ERA5-mål som de utbildades mot och HRES-fc0. Det finns märkbara skillnader i spektrumet för ERA5 och HRES-fc0, särskilt vid korta våglängder. Dessa skillnader kan delvis orsakas av de metoder som används för att regridera dem från deras respektive inhemska IFS-upplösningar av TL639 (0.28125◦) och TCo1279 (ungefär 0.1◦, [36]) till ett 0,25° ekvatoriskt nätverk. Men även innan denna regridering görs finns det skillnader i IFS-versioner, inställningar, upplösning och dataassimileringsmetoder som används för HRES och ERA5, och dessa skillnader kan också påverka spektrumet. Differences between HRES and ERA5 Vi ser minskad effekt vid kort-till-mellan våglängder i GraphCasts förutsägelser som minskar ytterligare med ledtid. Vi tror att detta motsvarar blurring som GraphCast har lärt sig att utföra i optimering för MSE. Vi diskuterade detta ytterligare i avsnitt 7.4 och 7.4.4. Blurring in GraphCast These peaks are particularly visible for z500; they appear to increase with lead time. We believe they correspond to small, spurious artifacts introduced by the internal grid-to-mesh and mesh-to-grid transformations performed by GraphCast at each autoregressive step. In future work we hope to eliminate or reduce the effect of these artifacts, which were also observed by [26]. Peaks for GraphCast around 100km wavelengths Slutligen noterar vi att medan dessa skillnader i effekt vid korta våglängder är mycket märkbara i loggskala och relativa tomter, bidrar dessa korta våglängder lite till signalens totala effekt. Ytterligare svåra händelseprognosresultat Vi noterar att GraphCast inte är särskilt utbildad för dessa nedströmsuppgifter, vilket visar att, utöver förbättrade färdigheter, GraphCast ger användbar förutsägelse för uppgifter med verklig inverkan såsom spårning av cykloner (avsnitt 8.1), karakterisering av atmosfäriska floder (avsnitt 8.2), och klassificering av extrema temperaturer (avsnitt 8.3). 8.1 Tropisk cyklonspårprognos In this section, we detail the evaluation protocols we used for cyclone tracking (Supplements Sec-tion 8.1.1) and analyzing statistical significance (Supplements Section 8.1.2), provide additional results (Supplements Section 8.1.3), and describe our tracker and its differences with the one from ECMWF (Supplements Section 8.1.4). 8.1.1 Utvärderingsprotokoll Det vanliga sättet att inleda Graph runt samma spår Graphic Cyclone prediction system är att begränsa jämförelsen till händelser där båda modellerna förutsäga förekomsten av en cyklon. Som det beskrivs i tillägg avsnitt 5.2.2, GraphCast är initialiserad från 06z och 18z, snarare än 00z och 12z, för att undvika att ge det en lookahead fördel över HRES. Men för att jämföra HRES och GraphCast cyklon spår i TIGGE arkiv [8] är endast initialiserad vid 00z och 12z. Denna skillnad hindrar oss från att välja händelser där initialiseringen och led tidskartan till samma giltighetstid för båda metoderna, eftersom det alltid finns en 6h missmatch. Istället för att jämföra HRES och GraphCast på en upps Because we compute error with respect to the same ground truth (i.e., IBTrACS), the evaluation is not subject to the same restrictions described in Supplements Section 5.2.2, i.e., the targets for both models incorporate the same amount of lookahead. This is in contrast with most our evaluations in this paper, where the targets for HRES (i.e., HRES-fc0) incorporates +3h lookahead, and the ones for GraphCast (from ERA5) incorporate +3h or +9h, leading us to only report results for the lead times with a matching lookahead (multiples of 12h). Here, since the IBTrACS targets are the same for both models, we can report performance as a function of lead time by increments of 6h. For a given forecast, the error between the predicted center of the cyclone and the true center is computed using the geodesic distance. 8.1.2 Statistisk metodik Computing statistical confidence in cyclone tracking requires particular attention in two aspects: Det finns två sätt att definiera antalet prover. Den första är antalet tropiska cyklonhändelser, som kan antas vara mestadels oberoende händelser. Den andra är antalet datapunkter per ledtid som används, vilket är större, men räknar med korrelerade punkter (för varje tropiska cyklonhändelse multipla förutsägelser görs vid 6h intervall). Vi valde att använda den första definitionen som ger mer konservativa uppskattningar av statistisk betydelse. Båda siffrorna visas för ledtider 1 till 5 dagar på x-axeln av tillägg Figur 39. De per-exempel spårningsfel av HRES och GraphCast är korrelerade. Därför är statistisk varians i deras skillnad mycket mindre än deras gemensamma varians. Således rapporterar vi förtroendet att GraphCast är bättre än HRES (se tilläggsfigur 39b) utöver förtroendet per modell (se tilläggsfigur 39a). Med tanke på de två övervägandena ovan gör vi bootstrapping med 95% konfidensintervaller på cyklonnivå. För en given ledtid tar vi hänsyn till alla motsvarande initialiseringstid/ledtidspar och håller en lista över vilken cyklon de kommer från (utan duplicering). För bootstrap-beräkningen drar vi prover från denna cyklonlista (med ersättning) och tillämpar medianen (eller medelvärdet) på motsvarande initialiseringstid/ledtidspar. Observera att detta ger oss mycket mer konservativa förtroendegränser än att göra bootstrapping på nivån av initialiseringstid/ledtidspar, eftersom det motsvarar att anta att alla bootstrap-prover som kommer från provcyklonen (vanligtvis i ordning av tiotals) är perfekt korrelerade. Anta till exempel att vi för en given ledtid har fel (50, 100, 150) för cyklon A, (300, 200) för cyklon B och (100, 100) för cyklon C, med A som har fler prover. 8.1.3. Results In Supplements Figure 3a-b, we chose to show the median error rather than the mean. This decision was made before computing the results on the test set, based on the performance on the validation set. On the years 2016–2017, using the version of GraphCast trained on 1979–2015, we observed that, using early versions of our tracker, the mean track error was dominated by very few outliers and was not representative of the overall population. Furthermore, a sizable fraction of these outliers were due to errors in the tracking algorithm rather than the predictions themselves, suggesting that the tracker was suboptimal for use with GraphCast. Because our goal is to assess the value of GraphCast forecast, rather than a specific tracker, we show median values, which are also affected by tracking errors, but to a lesser extent. In figure Figure 40 we show how that the distribution of both HRES and GraphCast track errors for the test years 2018–2021 are non-gaussian with many outliers. This suggests the median is a better summary statistic than the mean. Supplements Figure 39 complements Figure 3a-b by showing the mean track error and the corresponding paired analysis. We note that using the final version of our tracker (Supplements Sec-tion 8.1.4), GraphCast mean results are similar to the median one, with GraphCast significantly outperforming HRES for lead time between 2 and 5 days. På grund av välkända dimningseffekter, som tenderar att jämna ut det extrema som används av en spårare för att upptäcka närvaron av en cyklon, kan ML-metoder släppa befintliga cykloner oftare än NWPs. Att släppa en cyklon är mycket korrelerat med att ha ett stort positioneringsfel. To avoid this issue, we verify that our hyper-parameter-searched tracker (see Supplements Sec-tion 8.1.4) misses a similar number of cyclones as HRES. Supplements Figure 41 shows that on the test set (2018–2021), GraphCast and HRES drop a similar number of cyclones, ensuring our comparisons are as fair as possible. Supplements Figures 42 and 43 show the median error and paired analysis as a function of lead time, broken down by cyclone category, where category is defined on the Saffir-Simpson Hurricane Wind Scale [47], with category 5 representing the strongest and most damaging storms (note, we use category 0 to represent tropical storms). We found that GraphCast has equal or better performance than HRES across all categories. For category 2, and especially for category 5 (the most intense events), GraphCast is significantly better that HRES, as demonstrated by the per-track paired analysis. We also obtain similar results when measuring mean performance instead of median. 8.1.4. Tracker details The tracker we used for GraphCast is based on our reimplementation of ECMWF’s tracker [35]. Because it is designed for 0.1° HRES, we found it helpful to add several modifications to reduce the amount of mistracked cyclones when applied to GraphCast predictions. However, tracking errors still occur, which is expected from tracking cyclone from 0.25° predictions instead of 0.1°. We note that we do not use our tracker for the HRES baseline, as its tracks are directly recovered from the TIGGE archives [8]. Vi ger först en högnivåöversikt av standardspåraren från ECMWF, innan vi förklarar de ändringar vi gjorde och vår beslutsprocess. Med tanke på en modell förutsägelser av variablerna 10 U, 10 v, MsL samt U, v och z vid trycknivåer 200, 500, 700, 850 och 1000 hPa över flera tidssteg, ECMWF tracker [35] sekventiellt bearbetar varje gång steg för att iterativt förutsäga platsen för en cyklon över en hel bana. Varje 6 timmars förutsägelse av tracker har två huvudsteg. I det första steget, baserat på den nuvarande platsen för cyklonen, tracker beräknar en uppskattning av nästa plats, 6 timmar framåt. ECMWF tracker För att beräkna uppskattningen av nästa cyklonplats flyttar spåraren den aktuella uppskattningen med hjälp av en förskjutning beräknad som medelvärdet av två vektorer: 1) förskjutningen mellan de två sista spårplatserna (dvs. linjär extrapolering) och 2) en uppskattning av vindstyrningen, medelvärdet av vindhastigheten U och v vid föregående spårposition vid trycknivåer 200, 500, 700 och 850 hPa. När beräkningen av nästa cyklons läge har beräknats tittar spåraren på alla lokala minima av genomsnittligt havsnivåtryck (MsL) inom 445 km av denna uppskattning. Vorticitetskontroll: den maximala vorticiteten vid 850 hPa inom 278 km av de lokala minima är större än 5 · 10−5 s−1 för norra halvklotet, eller är mindre än −5 · 10−5s−1 för södra halvklotet. Vindhastighetskontroll: Om kandidaten är på land, är den maximala vindhastigheten på 10 m inom 278 km större än 8 m/s. Tjocklekskontroll: Om cyklonen är extratropisk finns det en maximal tjocklek mellan 850 hPa och 200 hPa inom en radie av 278 km, där tjockleken definieras som z850-z200. Om ingen minima uppfyller alla dessa villkor anser spåraren att det inte finns någon cyklon. ECMWF:s spårare tillåter cykloner att kortvarigt försvinna under vissa hörnförhållanden innan de återkommer. Vi analyserade felspåren på cykloner från våra valideringssatsår (2016–2017), med hjälp av en version av GraphCast utbildad på 1979–2015, och modifierade standardreimplementeringen av ECMWF-spåraren som beskrivs nedan. Our modified tracker 1. The current step vicinity radius determines how far away from the estimate a new center candidate can be. We found this parameter to be critical and searched a better value among the following options: 445 × 𝑓 for f in 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (original value). Vi fann också att denna parameter var kritisk och sökte efter ett bättre värde bland följande alternativ: 278 × f för f i 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (ursprungligt värde). 3. nästa steg uppskattning av ECMWF använder en 50-50 vägning mellan linjär extrapolering och vindstyrningsvektorer. I vårt fall där vinden förutses vid 0,25° upplösning, fann vi vindstyrning till ibland hinder uppskattningar. Detta är inte förvånande eftersom vinden inte är ett rumsligt jämnt fält, och spåraren är sannolikt skräddarsydd för att dra nytta av 0,1° upplösning förutsägelser. Således sökte vi hyperparameter vägningen bland följande alternativ: 0,0, 0,1, 0,33, 0,5 (ursprungligt värde). Vi märkte att flera misslyckanden inträffade när spåret skarpt vände kursen mot sin tidigare riktning.Därför anser vi endast kandidater som skapar en vinkel mellan den tidigare och den nya riktningen under d grader, där d söktes bland dessa värden: 90, 135, 150, 165, 175, 180 (dvs. inget filter, ursprungligt värde). Vi märkte att flera misstracks gjorde stora hopp, på grund av en kombination av bullrig vindstyrning och funktioner som var svåra att urskilja för svaga cykloner. Således utforskade vi klippning uppskattningen av att flytta bortom x kilometer (genom att ändra delta med den sista mitten), sökning över följande värden för x: 445 × f för f i 0.25, 0.5, 1.0, 2.0, 4.0, ∞ (dvs. ingen klippning, ursprungligt värde). Under hyperparametersökningen verifierade vi också på valideringsdata att spåraren som applicerades på GraphCast släppte ett liknande antal cykloner som HRES. 8.2 Atmosfäriska floder Den vertikalt integrerade vattendamptransporten (IvT) används vanligen för att karakterisera intensiteten hos atmosfäriska floder [38, 37]. Även om GraphCast inte direkt förutsäger IvT och inte är speciellt utbildad för att förutsäga atmosfäriska floder, kan vi härleda denna mängd från de förutsedda atmosfäriska variablerna specifika fuktighet, Q och horisontell vind, (U, v), via förhållandet [38]: där g = 9,80665 m/s2 är accelerationen på grund av tyngdkraften på jordens yta, pb = 1000 hPa är bottentrycket, och pt = 300 hPa är topptrycket. Utvärdering av IvT med ovanstående förhållande kräver numerisk integration och resultatet beror därför på den vertikala upplösningen av förutsägelsen. GraphCast har en vertikal upplösning på 37 trycknivåer vilket är högre än upplösningen av de tillgängliga HRES-banorna med endast 25 trycknivåer.För en konsekvent och rättvis jämförelse av båda modellerna använder vi därför endast en gemensam deluppsättning av trycknivåer, som också ingår i WeatherBench-referensvärdet, när vi utvärderar IvT 8, nämligen [300, 400, 500, 600, 700, 850, 925, 1000] hPa. I enlighet med resten av vårt utvärderingsprotokoll utvärderas varje modell mot sin egen "analys". För GraphCast beräknar vi IvT baserat på dess förutsägelser och jämför det med IvT beräknat analogt från ERA5. I likhet med föregående arbete [10], rapporterar figur 44 RMSE färdighets- och färdighetsscore genomsnitt över kustnära Nordamerika och östra Stilla havet (från 180°W till 110°W längd och 10°N till 60°N bredd) under den kalla årstiden (januari-april och oktober-december 2018), vilket motsvarar en region och en period med frekventa atmosfäriska floder. 8.3 Extrem värme och kyla Vi studerar extrem värme och kall prognos som ett binärt klassificeringsproblem [35, 32] genom att jämföra huruvida en given prognosmodell korrekt kan förutsäga om värdet för en viss variabel kommer att vara över (eller under) en viss percentil av fördelningen av en referens historisk klimatologi (t.ex. över 98% percentil för extrem värme och under 2% percentil för extrem kyla). Efter tidigare arbete [35] erhålls referensklimatologin separat för (1) varje variabel (2) varje månad av året, (3) varje tid på dagen, (4) varje latitud/längdskoordinat, och (5) varje trycknivå (om tillämpligt). Detta gör detektering av extremer mer kontrasterande genom att ta bort effekten av den dagliga och säsongsmässiga cyklerna i varje rymdplats. För att hålla jämförelsen så Eftersom extrema prognoser är ett obalanserat klassificeringsproblem baserar vi vår analys på precision-recall-plotter som är väl lämpade för detta fall [42]. Precision-recall-kurvan erhålls genom att variera en fri parameter "vinst" som består av en skalningsfaktor i förhållande till klimatologins medelvärde, det vill säga skalad prognos = vinst × (prognos − medelvärde) + medelvärde. Detta har effekten av att flytta beslutsgränsen och gör det möjligt att studera olika handelsavvikelser mellan falska negativa och falska positiva. Intuitivt kommer en 0 vinst att producera noll prognos positiva (t.ex. noll falska positiva) och en oändlig vinst kommer att producera förstärkning av varje värde över med Vi fokuserar vår analys på variabler som är relevanta för extrema temperaturförhållanden, i synnerhet 2 T [35, 32], och även T 850, z500 som ofta används av ECMWF för att karakterisera värmeböljor [34]. Efter tidigare arbete [32], för extrem värme vi genomsnitt över land i norra halvklotet (latitud > 20◦) och över land i södra halvklotet (latitud < -20◦) under december, januari och februari. För extrem kyla bytte vi månaderna för norra och södra halvklotet. Se fullständiga resultat i figur 45. Vi tillhandahåller också en finare ledtid jämförelse, genom att sammanfatta precision-recall kurvor genom att välja den punkt med den högsta SEDI-poängen [35] och visa denna funktion som ledtid (figur 46). Förutspådda visualiseringar I det här sista avsnittet ger vi några visualiseringsexempel på de förutsägelser som gjorts av GraphCast för variablerna 2 T (figur 47), 10 U (figur 48), MsL (figur 49), z500 (figur 50), T 850 (figur 51), v 500 (figur 52), Q 700 (figur 53). References [1] Ferran Alet, Adarsh Keshav Jeewajee, Maria Bauza Villalonga, Alberto Rodriguez, Tomas Lozano-Perez och Leslie Kaelbling. Grafelementnätverk: adaptiv, strukturerad beräkning och minne. I International Conference on Machine Learning, sidorna 212–222. PMLR, 2019. [2] Kelsey R Allen, Yulia Rubanova, Tatiana Lopez-Guevara, William Whitney, Alvaro Sanchez-Gonzalez, Peter Battaglia och Tobias Pfaff. Lär dig styv dynamik med ansiktsinteraktion grafnätverk. arXiv förutskrift arXiv:2212.03574, 2022. [3] Jimmy Lei Ba, Jamie Ryan Kiros och Geoffrey E. Hinton. lager normalisering. arXiv, 2016. [4] Igor Babuschkin, Kate Baumli, Alison Bell, Surya Bhupatiraju, Jake Bruce, Peter Buchlovsky, David Budden, Trevor Cai, Aidan Clark, Ivo Danihelka, Claudio Fantacci, Jonathan Godwin, Chris Jones, Ross Hemsley, Tom Hennigan, Matteo Hessel, Shaobo Hou, Steven Kapturowski, Thomas Keck, Iurii Kemaev, Michael King, Markus Kunesch, Lena Martens, Hamza Merzic, Vladimir Mikulik, Tamara Norman, John Quan, George Papamakarios, Roman Ring, Francisco Ruiz, Alvaro Sanchez, Rosalia Schneider, Eren Sezener, Stephen Spencer, Srivatsan Srinivasan, Luyu, Wangciech Wojciech Stokowiec och Fabio Viola. // github.com/deepmind från och med 2020. [5] Peter Battaglia, Razvan Pascanu, Matthew Lai, Danilo Jimenez Rezende, et al. Interaktionsnätverk för att lära sig om föremål, relationer och fysik. [6] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Relationella induktiva fördomar, djup inlärning och grafnätverk. arXiv förtryck arXiv:1806.01261, 2018. [7] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu och Qi Tian. Pangu-väder: En 3D-modell med hög upplösning för snabb och noggrann global väderprognos. arXiv preprint arXiv:2211.02556, 2022. [8] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. The THORPEX interactive grand global ensemble. Bulletin of the American Meteorological Society, 91(8):1059–1072, 2010. [9] James Bradbury, Roy Frostig, Peter Hawkins, Matthew James Johnson, Chris Leary, Dougal Maclaurin, George Necula, Adam Paszke, Jake VanderPlas, Skye Wanderman-Milne och Qiao Zhang. JAX: komposterbara transformationer av Python+NumPy-program. http://github. com/google/jax, 2018. [10] WE Chapman, AC Subramanian, L Delle Monache, SP Xie och FM Ralph. Förbättra atmosfäriska flodprognoser med maskininlärning. Geophysical Research Letters, 46(17-18):10627–10635, 2019. [11] Tianqi Chen, Bing Xu, Chiyuan Zhang och Carlos Guestrin. Träning djupa nät med sublineär minne kostnad. arXiv förtryck arXiv:1604.06174, 2016. [12] Balaji Devaraju. Förstå filtrering på sfären: Erfarenheter från filtrering av GRACE-data. doktorsavhandling, University of Stuttgart, 2015. [13] J R Driscoll och D M Healy. Computing fourier transforms och convolutions på 2-sphere. Adv. Appl. Matteus 15(2):202–250, juni 1994. [14] ECMWF. IFS dokumentation CY41R2 - Del III: Dynamik och numeriska förfaranden. https: //www.ecmwf.int/node/16647, 2016 och 2016. [15] Meire Fortunato, Tobias Pfaff, Peter Wirnsberger, Alexander Pritzel och Peter Battaglia. Multi-scale meshgraphnets. arXiv förtryck arXiv:2210.00612, 2022. [16] Alan J Geer. Betydelsen av förändringar i medelstora prognospoäng. Tellus A: Dynamic Meteorology and Oceanography, 68(1):30229, 2016. [17] Jonathan Godwin, Thomas Keck, Peter Battaglia, Victor Bapst, Thomas Kipf, Yujia Li, Kimberly Stachenfeld, Petar Veličković och Alvaro Sanchez-Gonzalez. Jraph: Ett bibliotek för graf neurala nätverk i JAX. http://github.com/deepmind/jraph, 2020. [18] T. Haiden, Martin Janousek, Jean-Raymond Bidlot, R. Buizza, L. Ferranti, F. Prates och Frédéric Vitart. Utvärdering av ECMWF-prognoser, inklusive uppgraderingen 2018. https://www.ecmwf. int/node/18746, 10/2018 2018. [19] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, Crtistina Prates, och David Richardson. Utvärdering av ECMWF prognoser, inklusive 2020 uppgradering. https://www.ecmwf.int/node/19879, 01/2021 2021. [20] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti och Fernando Prates. Utvärdering av ECMWF-prognoser, inklusive uppgraderingen 2021. https://www. ecmwf.int/node/20142, 09/2021 2021. [21] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, Fernando Prates och David Richardson. Utvärdering av ECMWF prognoser, inklusive uppgraderingen 2021. https://www.ecmwf.int/node/20469, 09/2022 2022. [22] Thomas Haiden, Martin Janousek, Frédéric Vitart, Laura Ferranti och Fernando Prates. Utvärdering av ECMWF-prognoser, inklusive uppgraderingen 2019. https://www.ecmwf.int/node/ 19277, 11/2019 2019. Tom Hennigan, Trevor Cai, Tamara Norman och Igor Babuschkin. Haiku: Sonnet för JAX. http://github.com/deepmind/dm-haiku, 2020. [24] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. Den globala reanalysen av ERA5. Kvartalstidningen för Royal Meteorological Society, 146(730):1999–2049, 2020. [25] S. Hoyer och J. Hamman. xarray: N-D märkta array och dataset i Python. Journal of Open Research Software, 5(1), 2017. [26] Ryan Keisler. Global väderprognos med graf neurala nätverk. arXiv förutskrift arXiv:2202.07575, 2022. [27] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014. [28] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. International best track archive for climate stewardship (IBTrACS) projekt, version 4. https://doi.org/10.25921/82ty-9e16, 2018. [29] Kenneth R Knapp, Michael C Kruk, David H Levinson, Howard J Diamond och Charles J Neumann. Det internationella bästa spårarkivet för klimatförvaltning (IBTrACS) som förenar tropiska cyklondata. Bulletin of American Meteorological Society, 91(3):363–376, 2010. [30] Michael C Kruk, Kenneth R Knapp, och David H Levinson. En teknik för att kombinera globala tropiska cykloner bästa spårdata. Journal of Atmospheric and Oceanic Technology, 27(4):680–692, 2010. [31] David H Levinson, Howard J Diamond, Kenneth R Knapp, Michael C Kruk, och Ethan J Gibney. Mot en homogen global tropiska cyklon bästa spår dataset. Bulletin of American Meteorological Society, 91(3):377–380, 2010. [32] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal och Jason Hickey. globala extrema värmeprognoser med hjälp av neurala vädermodeller. artificiell intelligens för jordens system, sidor 1–41, 2022. [33] Ilya Loshchilov och Frank Hutter. avkopplad viktnedbrytning reglering. arXiv preprint arXiv:1711.05101, 2017. [34] Linus Magnusson. 202208 - värmeböljan - uk. https://confluence.ecmwf.int/display/ FCST/202208+-+Heatwave+-+UK, 2022. [35] Linus Magnusson, Thomas Haiden och David Richardson. Verifiering av extrema väderhändelser: Diskreta förutsägelser. [36] S. Malardel, Nils Wedi, Willem Deconinck, Michail Diamantakis, Christian Kuehnlein, G. Mozdzynski, M. Hamrud och Piotr Smolarkiewicz. Ett nytt nät för IFS. https: //www.ecmwf.int/node/17262, 2016 och 2016. [37] Benjamin J Moore, Paul J Neiman, F Martin Ralph, och Faye E Barthold. Fysiska processer förknippade med kraftiga översvämningar nederbörd i Nashville, Tennessee, och omgivningen under 1–2 maj 2010: Rollen av en atmosfärisk flod och mesoskala konvektiva system. Monthly Weather Review, 140(2):358–378, 2012. [38] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist, och Michael D Dettinger. Meteorologiska egenskaper och överjordiska nederbördseffekter av atmosfäriska floder som påverkar västkusten i Nordamerika baserat på åtta års ssm / i satellitobservationer. [39] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez och Peter Battaglia. Lärande nätbaserad simulering med grafnätverk. I International Conference on Learning Representations, 2021. [40] Prajit Ramachandran, Barret Zoph, och Quoc V Le. Sökning efter aktiveringsfunktioner. arXiv preprint arXiv:1710.05941, 2017. [41] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid och Nils Thuerey. WeatherBench: en dataset för datadriven väderprognos. Journal of Advances in Modeling Earth Systems, 12(11):e2020MS002203, 2020. [42] Takaya Saito och Marc Rehmsmeier. Precision-recall plot är mer informativ än ROC plot när man utvärderar binära klassificerare på obalanserade datamängder. PloS en, 10(3):e0118432, 2015. [43] Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec och Peter Battaglia. Lär dig att simulera komplex fysik med grafnätverk. I International Conference on Machine Learning, sidorna 8459–8468. PMLR, 2020. [44] B. D. Santer, R. Sausen, T. M. L. Wigley, J. S. Boyle, K. AchutaRao, C. Doutriaux, J. E. Hansen, G. A. Meehl, E. Roeckner, R. Ruedy, G. Schmidt och K. E. Taylor. Beteende av tropopaushöjd och atmosfärstemperatur i modeller, reanalyser och observationer: Decadal förändringar. Journal of Geophysical Research: Atmospheres, 108(D1):ACL 1–1–ACL 1–22, 2003. [45] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M Hamill, Tim D Hewson, Julia H Keller, Mio Matsueda, John Methven, Florian Pappenberger, et al. TIGGE-projektet och dess resultat Bulletin of the American Meteorological Society, 97(1):49–67, 2016. [46] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson och Munehiko Yamaguchi. TIGGE-projektet och dess resultat. Bulletin of the American Meteorological Society, 97(1):49 – 67, 2016. [47] Harvey Thurm Taylor, Bill Ward, Mark Willis och Walt Zaleski. Orkanen Saffir-Simpson vindskala. Atmosfäriska Administration: Washington, DC, USA, 2010. [48] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser och Illia Polosukhin. Uppmärksamhet är allt du behöver. [49] Petar Veličković, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio och Yoshua Bengio. Graf uppmärksamhet nätverk. arXiv förtryck arXiv:1710.10903, 2017. Den här artikeln finns tillgänglig på arkiv under CC by 4.0 Deed (Attribution 4.0 International) licens. Detta papper är licens enligt CC by 4.0 Deed (Attribution 4.0 International). Tillgänglig i Arkiv