Författare : Remi Lam (Google DeepMind) Alvaro Sanchez-Gonzalez (Google DeepMind) Matthew Willson (Google DeepMind) Peter Wirnsberger (Google DeepMind) Meire Fortunato (Google DeepMind) Ferran Alet (Google DeepMind) Suman Ravuri (Google DeepMind) Timo Ewalds (Google DeepMind) Zach Eaton-Rosen (Google DeepMind) Weihua Hu (Google DeepMind) Alexander Merose (Google Research) Stephan Hoyer (Google Research) George Holland (Google DeepMind) Oriol Vinyals (Google DeepMind) Jacklynn Stott (Google DeepMind) Alexander Pritzel (Google DeepMind) Shakir Mohamed (Google DeepMind) Peter Battaglia (Google DeepMind) Författare : Remi Lam från Google DeepMind Alvaro Sanchez-Gonzalez från Google DeepMind Följ Matthew Willson (Google DeepMind) Peter Wirnsberger från Google DeepMind Meire Fortunato från Google DeepMind Ferran Alet från Google DeepMind Suman Ravuri från Google DeepMind Tim Ewalds från Google DeepMind Zach Eaton-Rosen för Google DeepMind Weihua Hu från Google DeepMind Alexander Merose (Google Forskning) Stephan Hoyer från Google Research Följ George Holland (Google DeepMind) Vinyals från Oriol (Google DeepMind) Jacklynn Stott från Google DeepMind Alexander Pritzel från Google DeepMind Shakir Mohamed från Google (DeepMind) Peter Battaglia från Google DeepMind Den traditionella numeriska väderprognosen använder ökade beräkningsresurser för att förbättra prognosnoggrannheten, men kan inte direkt använda historiska väderdata för att förbättra den underliggande modellen. Vi introducerar en maskininlärningsbaserad metod som kallas "GraphCast", som kan utbildas direkt från reanalysdata. Den förutspår hundratals vädervariabler, över 10 dagar vid 0,25° upplösning globalt, på mindre än en minut. Vi visar att GraphCast väsentligt överträffar de mest exakta operativdeterministiska systemen på 90% av 1380 verifieringsmål, och dess prognoser stöder bättre svår händelseförutsägelse, inklusive tropiska cykloner, atmosfäriska floder och extrema temperaturer. GraphCast är Nyckelord: Väderprognos, ECMWF, ERA5, HRES, lärande simulering, graf neurala nätverk Introduktion Det är 05:45 UTC i mitten av oktober 2022 i Bologna, Italien, och Europeiska centrumet för medelstora väderprognoser (ECMWF) har just börjat driva sin nya högpresterande datoranläggning. Under de senaste timmarna har det integrerade prognossystemet (IFS) utfört sofistikerade beräkningar för att förutsäga jordens väder under de kommande dagarna och veckorna, och dess första prognoser har precis börjat spridas till användarna. IFS, och moderna väderprognoser mer allmänt, är triumfer av vetenskap och teknik. Dynamik vädersystem är bland de mest komplexa fysiska fenomen på jorden, och varje dag, otaliga beslut som fattas av individer, industrier och beslutsfattare beror på exakta väderprognoser, från att bestämma om att bära en jacka eller fly en farlig storm. Den dominerande metod för väderprognoser idag är "numerisk väderprognos" (NWP), som innebär att lösa de styrande ekvationerna av väder med hjälp av superdatorer. Framgången för NWP ligger i den rigorösa och pågående forskningspraxis som ger allt mer detaljerade beskrivningar av väderfenomen, och hur väl NWP skalor till större noggrannhet med större beräkningsresurs Det finns stora arkiv av väder- och klimatdata, t.ex. ECMWF:s MARS [17], men fram till nyligen har det varit få praktiska sätt att använda sådana data för att direkt förbättra kvaliteten på prognosmodeller. Maskininlärningsbaserad väderprognos (MLWP) erbjuder ett alternativ till traditionell NWP, där prognosmodeller tränas direkt från historiska data. Detta har potential att förbättra prognosnoggrannheten genom att fånga mönster och skalor i data som inte är lätt representerade i explicita ekvationer. MLWP erbjuder också möjligheter till större effektivitet genom att utnyttja modern djupinlärningshårdvara, snarare än superdatorer, och slå mer gynnsamma hastighets-noggrannhetskompromisser. Nyligen har MLWP hjälpt till att förbättra NWP-baserad prognos i regimer där traditionell NWP är relativt svag, till exempel sub-säsongs värmeböljan förutsägelse [16] och nederbörd från radarbilder [32, 29, 33, 8 I medelstora väderprognoser, dvs. förutspår atmosfäriska variabler upp till 10 dagar framåt, är NWP-baserade system som IFS fortfarande de mest exakta. Världens främsta deterministiska operativsystem är ECMWF:s High Resolution Forecast (HRES), en del av IFS som producerar globala 10-dagarsprognoser vid 0,1° latitud/längdupplösning, på ungefär en timme [27]. Men under de senaste åren har MLWP-metoder för medelstora prognoser utvecklats stadigt, underlättade av riktmärken som WeatherBench [27]. Djupa inlärningsarkitekturer baserade på konvolutionära neurala nätverk [35, 36, 28] och Transformers [24] har visat lovande resultat vid latitud GraphCast Här introducerar vi ett nytt MLWP-tillvägagångssätt för global väderprognos på medellång sikt som kallas "GraphCast", som producerar en exakt 10-dagarsprognos på mindre än en minut på en enda Google Cloud TPU v4-enhet och stöder applikationer som förutspår tropiska cyklonspår, atmosfäriska floder och extrema temperaturer. GraphCast tar som inmatning de två senaste tillstånden av jordens väder – den aktuella tiden och sex timmar tidigare – och förutsäger nästa tillstånd av vädret sex timmar framåt. Ett enda väderläge representeras av ett 0,25° bredd/längd grid (721 × 1440), vilket motsvarar ungefär 28 × 28 kilometer upplösning vid ekvatorn (figur 1a), där varje gridpunkt representerar en uppsättning yta och atmosfäriska variabler (listade i tabell 1). GraphCast implementeras som en neural nätverksarkitektur, baserad på GNNs i en "kod-process-dekod" -konfiguration [1], med totalt 36,7 miljoner parametrar. Tidigare GNN-baserade lärda simulatorer [31, 26] har varit mycket effektiva vid att lära sig den komplexa dynamiken hos vätska och andra system modellerade av partiella differentialekvationer, vilket stöder deras lämplighet för modellering av väderdynamik. Kodaren (Figur 1d) använder ett enda GNN-lager för att kartlägga variabler (normaliserade till noll-median-enhetsvarians) som representeras som nodattribut på ingångsnätet till inlärda nodattribut på en intern "multi-mesh" representation. The multi-mesh (Figure 1g) is a graph which is spatially homogeneous, with high spatial resolution over the globe. It is defined by refining a regular icosahedron (12 nodes, 20 faces, 30 edges) iteratively six times, where each refinement divides each triangle into four smaller ones (leading to four times more faces and edges), and reprojecting the nodes onto the sphere. The multi-mesh contains the 40,962 nodes from the highest resolution mesh, and the union of all the edges created in the intermediate graphs, forming a flat hierarchy of edges with varying lengths. Processorn (figur 1e) använder 16 odelade GNN-lager för att utföra lärd meddelandepassning på multi-mesh, vilket möjliggör effektiv lokal och långdistans informationspredning med få meddelandepassningssteg. Dekodern (Figur 1f) kartlägger det slutliga processorskiktets inlärda egenskaper från multi-mesh-representationen tillbaka till bredd-längd-nätet.Den använder ett enda GNN-lager och förutsäger utgången som en restuppdatering till det senaste inmatningstillståndet (med utmatningsnormalisering för att uppnå enhetsvarians på målvärdet). Under modellutvecklingen använde vi 39 år (1979–2017) av historiska data från ECMWF:s ERA5-[10]-reanalysarkiv. Som ett träningsmål genomsnittade vi det genomsnittliga kvadratfelet (MSE) vägda på vertikal nivå. Felet beräknades mellan GraphCasts förutsedda tillstånd och det korresponderande ERA5-tillståndet över N-autoregressiva steg. Värdet av N ökade stegvis från 1 till 12 (dvs. sex timmar till tre dagar) under träningsperioden. GraphCast utbildades för att minimera träningsmålet med hjälp av gradientnedgång och backpropagation. I överensstämmelse med verkliga implementeringsscenarier, där framtida information inte är tillgänglig för modellutveckling, utvärderade vi GraphCast på de utlagda uppgifterna från åren 2018 och framåt (se tilläggsavsnitt 5.1). Verifikationsmetoder Vi verifierar GraphCasts förutsägelseförmåga på ett omfattande sätt genom att jämföra dess noggrannhet med HRES: s på ett stort antal variabler, nivåer och ledtider.Vi kvantifierar de respektive färdigheterna i GraphCast, HRES och ML baslinjer med två färdighetsmetrier: rotgenomsnittlig kvadratfel (RMSE) och anomali korrelationskoefficient (ACC). Av de 227 variabler och nivåkombinationer som förutspås av GraphCast vid varje gridpunkt utvärderade vi dess skicklighet jämfört med HRES på 69 av dem, motsvarande 13 nivåer av WeatherBench[27] och variabler från ECMWF Scorecard [9]; se boldface variabler och nivåer i tabell 1 och tillägg avsnitt 1.2 för vilka HRES-cykeln var i drift under utvärderingsperioden. Observera att vi utesluter total nederbörd från utvärderingen eftersom ERA5-nedbrytningsdata har kända bias [15]. Förutom den aggregerade prestanda som rapporteras i huvudtexten ger tillägg avsnitt 7 ytterligare detaljerade utvärderingar, inklusive andra variabler, regionala prestanda, latitud och trycknivåeffekter, sp Vid utförandet av dessa jämförelser ligger två viktiga val till grund för hur färdigheten är etablerad: (1) urvalet av den grundläggande sanningen för jämförelse, och (2) en noggrann redovisning av dataassimilationsfönstren som används för att grunda data med observationer. Vi använder ERA5 som grundläggande sanningen för att utvärdera GraphCast, eftersom det har utbildats för att ta ERA5-data som input och förutsäga ERA5-data som utgångar. Men utvärdering av HRES-prognoser mot ERA5 skulle resultera i ett fel som inte är noll i det ursprungliga prognossteget. Istället byggde vi en ”HRES-prognos vid steg 0” (HRES-fc0) dataset för att använda som grundläggande sanning för HRES. HRES-fc Jämförelser mellan metoder kräver att ingen metod ska ha privilegierad information som inte är tillgänglig för den andra. På grund av väderprognosdataens karaktär kräver detta noggrann kontroll av skillnaderna mellan ERA5- och HRES-dataassimileringsfönstren. Varje dag assimilerar HRES observationer med fyra +/-3h-fönster centrerade på 00z, 06z, 12z och 18z (där 18z betyder 18:00 UTC), medan ERA5 använder två +9h/-3h-fönster centrerade på 00z och 12z, eller motsvarande två +3h/-9h-fönster centrerade på 06z och 18z. Vi valde att utvärdera GraphCasts prognoser från 06z och 18z initialiseringarna, vilket säkerställer att dess ingångar bär information från HRES:s prognoser initialiserade vid 06z och 18z körs endast för en horisont på 3,75 dagar (HRES:s 00z och 12z initialisationer körs i 10 dagar).Därför kommer våra siffror att indikera en övergång med dashed line, där de 3,5 dagarna före linjen är jämförelser med HRES initialiserade vid 06z och 18z, och efter linjen är jämförelser med initialisationer vid 00z och 12z. Prognosverifieringsresultat Vi finner att GraphCast har större väderprognosförmåga än HRES när det utvärderas på 10-dagarsprognoser vid en horisontell upplösning av 0,25° för bredd/längd och vid 13 vertikala nivåer. Figur 2a–c visar hur GraphCast (blå linjer) överträffar HRES (svarta linjer) på z500 (geopotentiellt vid 500 hPa) "headline" -fältet när det gäller RMSE-färdighet, RMSE-färdighetspoäng (dvs. den normaliserade RMSE-skillnaden mellan modell A och baslinje B definierad som (RMSEA − RMSEB)/RMSEB) och ACC-färdighet. Använda z500, som kodar den synoptic-skala tryckfördelningen, är vanligt i litteraturen, eftersom det har stark meteorologisk betydelse [27]. Plottarna visar att GraphCast har bättre färdighetspoäng över alla ledtider, med en färdighetspoängförbättring på cirka 7–14%. Figur 2d sammanfattar RMSE-kompetenspoängen för alla 1380 utvärderade variabler och trycknivåer, över 10 dagars prognoser, i ett format som liknar ECMWF Scorecard. Cellfärgerna är proportionella mot kompetenspoängen, där blå indikerar att GraphCast hade bättre kompetens och rött indikerar att HRES hade högre kompetens. GraphCast överträffade HRES på 90.3% av 1380-målen och signifikant (p ≤ 0.05, nominell provstorlek n ∈ {729, 730}) överträffade HRES på 89.9% av målen. Se tillägg avsnitt 5.4 för metodik och tillägg Tabell 5 för p-värden, teststatistik och effektiva provstorlekar. De regioner i atmosfären där HRES hade bättre prestanda än GraphCast (topprader i rött i scorecards) var oproportionerligt lokaliserade i stratosfären och hade den lägsta träningsförlusten (se tillägg avsnitt 7.2.2). När man utesluter 50 hPa-nivån överträffar GraphCast signifikant HRES på 96,9% av de återstående 1280 målen. När man utesluter nivåerna 50 och 100 hPa överträffar GraphCast signifikant HRES på 99,7% av de återstående 1180 målen. Vi fann att öka antalet auto-regressiva steg i MSE-förlusten förbättrar GraphCast-prestanda vid längre ledtid (se avsnitt 7.3.2) och uppmuntrar den att uttrycka sin osäkerhet genom att förutsäga rumsligt jämna utgångar, vilket leder till blurrier prognoser vid längre ledtider (se avsnitt 7.5.3). HRES: s underliggande fysiska ekvationer leder emellertid inte till suddiga förutsägelser. För att bedöma om GraphCasts relativa fördel över HRES på RMSE-kompetens bibehålls om HRES också får sudda ut sina prognoser, anpassar vi blurring-filter till GraphCast och HRES till HRES, genom att minimera RMSE med avseende på modellernas respektive grundläggande sanningar. Vi fann Vi jämförde också GraphCasts prestanda med toppkonkurrerande ML-baserad vädermodell, Pangu-väder [4], och fann att GraphCast överträffade den på 99,2% av de 252 mål de presenterade (se tillägg avsnitt 6 för detaljer). Svåra händelser förutsäga resultat Utöver att utvärdera GraphCasts förutsägelseförmåga mot HRES på ett brett spektrum av variabler och ledtider utvärderar vi också hur dess förutsägelser stöder förutsägelse av svåra händelser, inklusive tropiska cykloner, atmosfäriska floder och extrema temperaturer. Tropiska cykloner spår Att förbättra noggrannheten hos tropiska cyklonprognoser kan bidra till att undvika skador och förlust av liv, samt minska ekonomisk skada [21]. En cyklons existens, styrka och bana förutsägs genom att tillämpa en spårningsalgoritm på prognoser om geopotentiell (z), horisontell vind (10 U/10 v, U/v) och genomsnittligt havsnivåtryck (MsL). Vi implementerade en spårningsalgoritm baserad på samma ECMWF:s publicerade protokoll [20] och tillämpade den på GraphCast:s prognoser, för att producera prognoser om cyklonspår (se tillägg avsnitt 8.1). Som en baslinje för jämförelse använde vi de operativa spåren som erhållits från HRES:s Figur 3a visar att GraphCast har lägre median spårfel än HRES över 2018–2021. Eftersom per spårfel för HRES och GraphCast är korrelerade, mätte vi också den per spår parade felskillnaden mellan de två modellerna och fann att GraphCast är betydligt bättre än HRES för ledtid 18 timmar till 4,75 dagar, som visas i figur 3b. Felfälten visar de bootstrapped 95% konfidensintervaller för medianen (se tillägg avsnitt 8.1 för detaljer). Atmosfäriska floder Atmosfäriska floder är smala regioner i atmosfären som är ansvariga för majoriteten av den polära vattenånga transporten över mitten av breddgraderna, och genererar 30%-65% av årliga nederbörd på den amerikanska västkusten [6]. Deras styrka kan kännetecknas av vertikalt integrerad vattenånga transport IvT [23, 22], vilket indikerar om en händelse kommer att ge fördelaktiga nederbörd eller vara förknippad med katastrofala skador [7]. IvT kan beräknas från den icke-linjära kombinationen av horisontell vindhastighet (U och v) och specifik fuktighet (Q), som GraphCast förutspår. Vi utvärderar GraphCast prognoser över kustnära Nordamerika och östra Stilla havet under kalla månader (okt Extrem värme och kyla Extrem värme och kyla kännetecknas av stora anomalier i förhållande till typisk klimatologi [19, 16, 18], vilket kan vara farligt och störa mänsklig verksamhet. Vi utvärderar HRES och GraphCast förmåga att förutsäga händelser över topp 2% klimatologi över plats, tid på dagen och månad av året, för 2 T vid 12-timmars, 5-dagars och 10-dagars ledtider, för landområden över norra och södra halvklotet under sommarmånaderna. Vi planerar precision-recall kurvor [30] för att återspegla olika möjliga kompromisser mellan att minska falska positiva (hög precision) och minska falska negativa (hög återkallelse). För varje prognos får vi kurvan genom att variera en "vinst" -parameter som 2 T Figur 3d visar GraphCasts precision-återkallningskurvor är över HRES för 5- och 10-dagars ledtider, vilket tyder på att GraphCasts prognoser är generellt överlägsna än HRES vid extrem klassificering över längre horisonter.I motsats till detta har HRES bättre precision-återkallning vid 12-timmars ledtid, vilket är förenligt med GraphCasts 2 T-färdighetsscore över HRES närmare noll, som visas i figur 2d. Vi finner generellt att dessa resultat är konsekventa över andra variabler som är relevanta för extrem värme, såsom T 850 och z500 [18], andra extrema trösklar (5%, 2% och 0,5%), och extrem kall prognos under vintern. Se tillägg avsnitt 8.3 för detaljer. Effekt av utbildningsdata recensens GraphCast kan omutbildas periodiskt med senaste data, vilket i princip gör det möjligt att fånga vädermönster som förändras över tiden, såsom ENSO-cykeln och andra oscillationer, samt effekterna av klimatförändringar.Vi tränade fyra varianter av GraphCast med data som alltid började 1979, men slutade 2017, 2018, 2019 och 2020, respektive (vi märker varianten som slutar 2017 som ”GraphCast:<2018”, etc.). Figur 4 visar färdighetspoängen (normaliserad av GraphCast:<2018) för de fyra varianterna och HRES, för z500. Vi fann att medan GraphCasts prestanda när den tränas fram till 2018 fortfarande är konkurrenskraftig med HRES 2021, förbättrar träningen fram till 2021 ytterligare sina färdighetspoäng (se tillägg avsnitt 7.1.3). Vi spekulerar att denna senaste effekt gör det möjligt att fånga senaste vädertrender för att förbättra noggrannheten. slutsatser GraphCasts prognosfärdighet och effektivitet jämfört med HRES visar att MLWP-metoder nu är konkurrenskraftiga med traditionella väderprognosmetoder.Dessutom visar GraphCasts prestanda på svåra händelseprognoser, för vilka den inte var direkt utbildad, dess robusthet och potential för nedströmsvärde.Vi tror att detta markerar en vändpunkt i väderprognoser, vilket hjälper till att öppna nya vägar för att stärka bredden av väderberoende beslutsfattande av individer och branscher, genom att göra billig prognos mer noggrann, mer tillgänglig och lämplig för specifika applikationer. Med 36,7 miljoner parametrar är GraphCast en relativt liten modell enligt moderna ML-standarder, som valts för att hålla minnesavtrycket hanterbart. Och medan HRES släpps på 0,1° upplösning, 137 nivåer och upp till 1 timmes tidssteg, fungerade GraphCast på 0,25° bredd-längdupplösning, 37 vertikala nivåer och 6 timmes tidssteg, på grund av ERA5-utbildningsdataens inhemska 0,25° upplösning och tekniska utmaningar i att passa högre upplösningsdata på hårdvara. En viktig begränsning av vårt tillvägagångssätt är hur osäkerhet hanteras. Vi fokuserade på deterministiska prognoser och jämförde dem med HRES, men den andra pelaren i ECMWF:s IFS, det samlade prognossystemet, ENS, är särskilt viktigt för 10+ dagars prognoser. Den icke-lineära väderdynamiken innebär att det finns ökad osäkerhet vid längre ledtider, vilket inte är väl fångat av en enda deterministisk prognos. ENS hanterar detta genom att generera flera, stochastiska prognoser, som modellerar den empiriska fördelningen av framtida väder, men generera flera prognoser är dyrt. Däremot uppmuntrar GraphCast:s MSE-utbildningsmål att uttrycka sin osäkerhet genom att Det är viktigt att betona att datadriven MLWP är kritiskt beroende av stora mängder högkvalitativa data, assimilerade via NWP, och att rika datakällor som ECMWF:s MARS-arkiv är ovärderliga. Därför bör vårt tillvägagångssätt inte ses som en ersättning för traditionella väderprognosmetoder, som har utvecklats i årtionden, testats noggrant i många verkliga sammanhang och erbjuder många funktioner som vi ännu inte har utforskat. Utöver väderprognoser kan GraphCast öppna nya riktningar för andra viktiga geospatiotemporala prognosproblem, inklusive klimat och ekologi, energi, jordbruk och mänsklig och biologisk aktivitet, liksom andra komplexa dynamiska system. Data och material tillgänglighet GraphCasts kod och tränade vikter är offentligt tillgängliga på github https://github.com/ deepmind/graphcast. Detta arbete använde offentligt tillgängliga data från European Centre for Medium Range Forecasting (ECMWF). Vi använder ECMWF-arkivet (existerande realtid) produkter för ERA5, HRES och TIGGE produkter, vars användning regleras av Creative Commons Attribution 4.0 International (CC BY 4.0). Vi använder IBTrACS Version 4 från https://www.ncei.noaa.gov/ products/international-best-track-archive and reference [13, 12] som krävs. Jordens textur i figur 1 används under CC BY 4.0 från https://www.solarsystemscope.com/ textures/. erkännanden I alfabetisk ordning tackar vi Kelsey Allen, Charles Blundell, Matt Botvinick, Zied Ben Bouallegue, Michael Brenner, Rob Carver, Matthew Chantry, Marc Deisenroth, Peter Deuben, Marta Garnelo, Ryan Keisler, Dmitrii Kochkov, Christopher Mattern, Piotr Mirowski, Peter Norgaard, Ilan Price, Chongli Qin, Sébastien Racanière, Stephan Rasp, Yulia Rubanova, Kunal Shah, Jamie Smith, Daniel Worrall och otaliga andra på Alphabet och ECMWF för råd och feedback om vårt arbete. Vi tackar också ECMWF för att tillhandahålla ovärderliga dataset till forskningsgemenskapen. Stilen i inledningsavsnittet inspirerades av D. Fan et al., Science Robotics, 4 Referenser [1] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Relationella induktiva fördomar, djup inlärning och grafnätverk. arXiv förtryck arXiv:1806.01261, 2018. [2] P. Bauer, A. Thorpe och G. Brunet. Den tysta revolutionen av numerisk väderprognos. natur, 525, 2015. [3] Stanley G Benjamin, John M Brown, Gilbert Brunet, Peter Lynch, Kazuo Saito och Thomas W Schlatter. 100 år av framsteg inom prognos och NWP-applikationer. [4] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu och Qi Tian. Pangu-väder: En 3D-modell med hög upplösning för snabb och noggrann global väderprognos. arXiv preprint arXiv:2211.02556, 2022. [5] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. The THORPEX interactive grand global ensemble. Bulletin of the American Meteorological Society, 91(8):1059–1072, 2010. [6] WE Chapman, AC Subramanian, L Delle Monache, SP Xie och FM Ralph. Förbättra atmosfäriska flodprognoser med maskininlärning. Geophysical Research Letters, 46(17-18):10627–10635, 2019. [7] Thomas W Corringham, F Martin Ralph, Alexander Gershunov, Daniel R Cayan och Cary A Talbot. Atmosfäriska floder driver översvämningsskador i västra USA. Science advances, 5(12):eaax4631, 2019. [8] Lasse Espeholt, Shreya Agrawal, Casper Sønderby, Manoj Kumar, Jonathan Heek, Carla Bromberg, Cenk Gazen, Rob Carver, Marcin Andrychowicz, Jason Hickey, et al. Djup inlärning för tolv timmars nederbördsprognoser. Naturkommunikation, 13(1):1–10, 2022. [9] T Haiden, Martin Janousek, J Bidlot, R Buizza, Laura Ferranti, F Prates, and F Vitart. Evaluation of ECMWF forecasts, including the 2018 upgrade. European Centre for Medium Range Weather Forecasts Reading, UK, 2018. [10] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. Den globala reanalysen av ERA5. Kvartalstidningen för Royal Meteorological Society, 146(730):1999–2049, 2020. [11] Ryan Keisler. Global väderprognos med graf neurala nätverk. arXiv förutskrift arXiv:2202.07575, 2022. [12] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. International best track archive for climate stewardship (IBTrACS) projekt, version 4. https: //doi.org/10.25921/82ty-9e16, 2018 [13] Kenneth R Knapp, Michael C Kruk, David H Levinson, Howard J Diamond och Charles J Neumann. Det internationella bästa spårarkivet för klimatstyrning (IBTrACS) som förenar tropiska cyklondata. Bulletin of the American Meteorological Society, 91(3):363–376, 2010. [14] Thorsten Kurth, Shashank Subramanian, Peter Harrington, Jaideep Pathak, Morteza Mardani, David Hall, Andrea Miele, Karthik Kashinath och Animashree Anandkumar. FourCastNet: Påskynda global väderprognos med hög upplösning med hjälp av adaptiva fjärde neurala operatörer. arXiv preprint arXiv:2208.05419, 2022. [15] David A Lavers, Adrian Simmons, Freja Vamborg och Mark J Rodwell. En utvärdering av ERA5 nederbörd för klimatövervakning. Quarterly Journal of the Royal Meteorological Society, 148(748):3152–3165, 2022. [16] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal och Jason Hickey. globala extrema värmeprognoser med hjälp av neurala vädermodeller. artificiell intelligens för jordens system, sidor 1–41, 2022. [17] Carsten Maass och Esperanza Cuartero. MARS användardokumentation. https://confluence. ecmwf.int/display/UDOC/MARS+user+documentation, 2022. [18] Linus Magnusson. 202208 - värmeböljan - uk. https://confluence.ecmwf.int/display/ FCST/202208+-+Heatwave+-+UK, 2022. [19] Linus Magnusson, Thomas Haiden och David Richardson. Verifiering av extrema väderhändelser: Diskreta förutsägelser. [20] Linus Magnusson, Sharanya Majumdar, Rebecca Emerton, David Richardson, Magdalena Alonso-Balmaseda, Calum Baugh, Peter Bechtold, Jean Bidlot, Antonino Bonanni, Massimo Bonavita, et al. Tropisk cyklonaktivitet vid ECMWF. [21] Andrew B Martinez. Forecast accuracy matters for hurricane damage. Econometrics, 8(2):18, 2020. [22] Benjamin J Moore, Paul J Neiman, F Martin Ralph, och Faye E Barthold. Fysiska processer i samband med kraftiga översvämningar nederbörd i Nashville, Tennessee, och omgivningen under 1–2 maj 2010: Rollen av en atmosfärisk flod och mesoskala konvektiva system. Månatlig väderöversikt, 140(2):358–378, 2012. [23] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist och Michael D Dettinger. Meteorologiska egenskaper och nederbördseffekter av atmosfäriska floder som påverkar Nordamerikas västkust baserat på åtta års satellitobservationer. [24] Tung Nguyen, Johannes Brandstetter, Ashish Kapoor, Jayesh K Gupta och Aditya Grover. ClimaX: En grundmodell för väder och klimat. arXiv preprint arXiv:2301.10343, 2023. [25] Jaideep Pathak, Shashank Subramanian, Peter Harrington, Sanjeev Raja, Ashesh Chattopad-hyay, Morteza Mardani, Thorsten Kurth, David Hall, Zongyi Li, Kamyar Azizzadenesheli, et al. Fourcastnet: En global datadriven högupplöst vädermodell med hjälp av adaptiva fjärde neurala operatörer. arXiv preprint arXiv:2202.11214, 2022. [26] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez och Peter Battaglia. Lärande nätbaserad simulering med grafnätverk. I International Conference on Learning Representations, 2021. [27] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid och Nils Thuerey. WeatherBench: en dataset för datadriven väderprognos. Journal of Advances in Modeling Earth Systems, 12(11):e2020MS002203, 2020. [28] Stephan Rasp och Nils Thuerey. Data-driven medelstora väderprognos med en resnet förtränad på klimatsimuleringar: En ny modell för väderbänk. Journal of Advances in Modeling Earth Systems, 13(2):e2020MS002405, 2021. [29] Suman Ravuri, Karel Lenc, Matthew Willson, Dmitry Kangin, Remi Lam, Piotr Mirowski, Megan Fitzsimons, Maria Athanassiadou, Sheleem Kashem, Sam Madge, et al. Skicklig nederbörd nucasting med hjälp av djupa generativa modeller av radar. Natur, 597(7878):672–677, 2021. [30] Takaya Saito och Marc Rehmsmeier. Precision-recall plot är mer informativ än ROC plot när man utvärderar binära klassificerare på obalanserade datamängder. PloS en, 10(3):e0118432, 2015. [31] Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec och Peter Battaglia. Lär dig att simulera komplex fysik med grafnätverk. I International Conference on Machine Learning, sidorna 8459–8468. PMLR, 2020. [32] Xingjian Shi, Zhihan Gao, Leonard Lausen, Hao Wang, Dit-Yan Yeung, Wai-kin Wong och Wang-chun Woo. Djup inlärning för nederbörd nucasting: En benchmark och en ny modell. [33] Casper Kaae Sønderby, Lasse Espeholt, Jonathan Heek, Mostafa Dehghani, Avital Oliver, Tim Salimans, Shreya Agrawal, Jason Hickey och Nal Kalchbrenner. Metnet: En neural vädermodell för nederbördsprognos. arXiv förutskrift arXiv:2003.12140, 2020. [34] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson och Munehiko Yamaguchi. TIGGE-projektet och dess resultat. Bulletin of the American Meteorological Society, 97(1):49 – 67, 2016. [35] Jonathan A Weyn, Dale R Durran, och Rich Caruana. Kan maskiner lära sig att förutsäga vädret? Använda djup inlärning för att förutsäga geopotentiell höjd på 500 hPa från historiska väderdata. Journal of Advances in Modeling Earth Systems, 11(8):2680–2693, 2019. [36] Jonathan A Weyn, Dale R Durran, och Rich Caruana. Förbättra data-driven global väderprognos med hjälp av djupa konvolutionella neurala nätverk på en kubisk sfär. Journal of Advances in Modeling Earth Systems, 12(9):e2020MS002109, 2020. 1. datasatser I det här avsnittet ger vi en översikt över de data vi använde för att utbilda och utvärdera GraphCast (Tillskott avsnitt 1.1), de data som definierar prognoserna för NWP baslinje HRES, samt HRES-fc0, som vi använder som grund sanningen för HRES (Tillskott avsnitt 1.2). Vi har konstruerat flera dataset för utbildning och utvärdering, bestående av delset av ECMWF:s dataarkiv och IBTrACS [29, 28]. Vi skiljer i allmänhet mellan källdata, som vi refererar till som ”arkiv” eller ”arkivdata”, jämfört med de dataset vi har byggt från dessa arkiv, som vi refererar till som ”dataset”. 1.1 Ålder 5 För att utbilda och utvärdera GraphCast byggde vi våra dataset från en deluppsättning av ECMWF:s ERA5 [24]1-arkiv, som är en stor datakropp som representerar det globala vädret från 1959 till nutid, vid 0,25° latitud/längdupplösning, och 1 timmes incrementer, för hundratals statiska, ytliga och atmosfäriska variabler. ERA5-arkivet är baserat på reanalys, som använder ECMWF:s HRES-modell (cykel 42r1) som var i drift under större delen av 2016 (se Tabell 3), inom ECMWF:s 4D-Var-dataassimileringssystem. Vår ERA5-dataset innehåller en deluppsättning av tillgängliga variabler i ECMWF:s ERA5-arkiv (tabell 2), på 37 trycknivåer: 1, 2, 3, 5, 7, 10, 20, 30, 50, 70, 100, 125, 150, 175, 200, 225, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 775, 800, 825, 850, 875, 900, 925, 950, 975, 1000 hPa. Åldersintervallet som ingick var 1979-01-01 till 2022-01-10, vilka nedsamlades till 6 timmars tidsintervall (motsvarar 00z, 06z, 12z och 18z varje dag). Nedsamlingen utförs genom undersamling, med undantag för den totala nederbörden, som ackumuleras under de 6 timmar som leder fram till motsvarande nedsamlad tid. 1.2 Fröken Utvärderingen av HRES-modellens baslinje kräver två separata uppsättningar data, nämligen prognosdata och grundläggande sanningsdata, som sammanfattas i följande underavsnitt. HRES anses i allmänhet vara den mest exakta deterministiska NWP-baserade vädermodellen i världen, så för att utvärdera HRES baslinje har vi byggt en datasats av HRES arkiverade historiska prognoser. HRES uppdateras regelbundet av ECMWF, så dessa prognoser representerar den senaste HRES-modellen vid den tidpunkt då prognoserna gjordes. Prognoserna laddades ner i sin inhemska representation (som använder sfärisk harmonik och ett oktaedralt reducerat Gaussian grid, TCo1279 [36]), och motsvarar ungefär 0,1° latitud/längdupplösning. HRES operational forecasts Vi provade sedan spatialt ned prognoserna till ett 0,25° bredd/längdgrid (för att matcha ERA5-upplösningen) med hjälp av ECMWF: s Metview-bibliotek, med standard regridparametrar. Vi provade dem temporärt ned till 6 timmars intervall. För att utvärdera färdigheten hos HRES operativa prognoser konstruerade vi en grundläggande sanningsdatasats, ”HRES-fc0”, baserad på ECMWF:s HRES operativa prognosarkiv. Denna datasats omfattar det inledande tidsskedet för varje HRES-prognos vid initialiseringstiderna 00z, 06z, 12z och 18z (se figur 5). HRES-fc0-data är liknande ERA5-data, men den assimileras med den senaste ECMWF NWP-modellen vid prognostid och assimilerar observationer från ±3 timmar runt motsvarande datum och tid. Observera att ECMWF också tillhandahåller ett arkiv av ”HRES Analysis” data, som skiljer sig från vår HRES-fc0-datasats. HRES HRES-fc0 En mycket liten delmängd av värdena från ECMWF HRES-arkivet för den variabla geopotensialen vid 850hPa (z850) och 925hPa (z925) är inte siffror (NaN). Dessa NaN-värden verkar vara jämnt fördelade över intervallet 2016-2021 och över prognostider. Detta representerar cirka 0,00001% av pixlarna för z850 (1 pixel var tionde 1440 x 721 breddgrader), 0,00000001% av pixlarna för z925 (1 pixel var tionde 1440 x 721 breddgrader) och har ingen mätbar effekt på prestanda. För en enklare jämförelse fyllde vi dessa saknade sällsynta värden med det vägda genomsnittet av de närliggande pixlarna. Vi använde en vikt på 1 för sida- HRES NaN handling 1.3 Tropiska cykloner Dataset För vår analys av tropiska cyklonprognoser använde vi IBTrACS-arkivet [28, 29, 31, 30] för att konstruera den grundläggande sanningsdataset. Detta inkluderar historiska cyklonspår från cirka ett dussin auktoritativa källor. Varje spår är en tidsserie, med 6-timmarsintervaller (00z, 06z, 12z, 18z), där varje tidssteg representerar cyklons öga i latitud/längdskoordinater, tillsammans med motsvarande Saffir-Simpson-kategori och andra relevanta meteorologiska egenskaper vid den tiden. För HRES baslinje använde vi TIGGE-arkivet, som tillhandahåller cyklonspår beräknade med den operativa spåraren, från HRES:s prognoser vid 0,1° upplösning [8, 46]. Data lagras som XML-filer tillgängliga för nedladdning under https://confluence.ecmwf.int/display/TIGGE/Tools. För att konvertera data till ett format som är lämpligt för vidare efterbearbetning och analys implementerade vi en undersökare som extraherar cyklonspår för år av intresse. De relevanta avsnitten (taggar) i XML-filerna är de av typen "forecast", som vanligtvis innehåller flera spår som motsvarar olika initiala prognostider. Med dessa taggar extraherar vi sedan cyklonnamnet (tag Se avsnitt 8.1 för detaljer om spårarens algoritm och resultat. Notering och problembeskrivning I det här avsnittet definierar vi användbara tidnotationer som används i hela papperet (avsnitt 2.1), formaliserar det allmänna prognosproblemet vi tar itu med (avsnitt 2.2), och detaljerar hur vi modellerar väderförhållandena (avsnitt 2.3). 2.1 Tidsnotering Tidsnoteringen som används i prognos kan vara förvirrande, med ett antal olika tidssymboler, t.ex. för att beteckna den ursprungliga prognostiden, giltighetstiden, prognoshorisonten etc. Vi introducerar därför några standardiserade termer och noteringar för tydlighet och enkelhet. Vi hänvisar till en viss punkt i tiden som ”datumtid”, angivet av kalenderdatum och UTC-tid. Till exempel betyder 2018-06-21_18:00:00 juni 21, 2018, kl. 18:00 UTC. För kortfattning använder vi också ibland Zulu-konventionen, dvs. 00z, 06z, 12z, 18z betyder 00:00, 06:00, 12:00, 18:00 UTC, respektive. Vi definierar ytterligare följande symboler: t: Prognostidstegindex, som indexerar antalet steg sedan prognosen initialiserades. T: prognoshorisont, som representerar det totala antalet steg i en prognos. d: giltighetstid, som anger datum-tiden för en viss väderstatus. d0: Tid för prognosinitialisering, som anger giltighetstiden för en prognoss initiala inmatningar. Δd: Prognos stegs varaktighet, som anger hur mycket tid som passerar under ett prognossteg. τ: prognostiserad ledtid, som representerar den förflutna tiden i prognosen (dvs. τ = tΔd). 2.2 Allmänt uttalande om prognosproblem Låt Zd beteckna det verkliga tillståndet för det globala vädret vid tid d. Tidsutvecklingen av det verkliga vädret kan representeras av en underliggande diskrettidsdynamikfunktion, Φ, som genererar tillståndet vid nästa tidssteg (Δd i framtiden) baserat på det nuvarande, dvs Zd+Δd = Φ(Zd). Vårt mål är att hitta en exakt och effektiv modell, φ, av den sanna dynamiska funktionen, Φ, som effektivt kan förutsäga vädret över en viss prognoshorisont, TΔd. Vi antar att vi inte kan observera Zd direkt, men istället bara har en del observation Xd, vilket är en ofullständig representation av den statliga information som krävs för att förutsäga vädret perfekt. Xd−Δd , Xd−2Δd , ..., förutom Xd. Modellen kan då i princip utnyttja denna ytterligare kontextinformation för att närma Zd mer exakt. Analogt med ekvationen (1), kan förutsägelsen X ̈d+Δd matas tillbaka till φ för att självregressivt producera en fullständig förutsägelse, Vi bedömer prognoskvaliteten, eller färdigheten, för φ genom att kvantifiera hur väl den förutsagda trajektorin, X ̈d+Δd:d+T Δd, matchar den grundläggande sanningen, Xd+Δd:d+TΔd. Det är emellertid viktigt att återigen framhäva att Xd+Δd:d+TΔd endast omfattar våra observationer av Zd+Δd:d+TΔd, som själv är obemärkt. som uttryckligen beskrivs i avsnitt 5. I vårt arbete var tidsupplösningen av data och prognoser alltid Δd = 6 timmar med en maximal prognoshorisont på 10 dagar, vilket motsvarar totalt T = 40 steg. Eftersom Δd är en konstant i hela detta papper, kan vi förenkla notationen med hjälp av (Xt, Xt+1, . . . , Xt+T ) i stället för (Xd, Xd+Δd , . . , Xd+TΔd ), för att indexera tid med ett heltal i stället för en specifik datumtid. Modellering av ECMWF väderdata För utbildning och utvärdering av modeller behandlar vi vår ERA5-datasats som den grundläggande sanningsrepresentationen av ytan och atmosfäriska väderförhållanden.Som beskrivs i avsnitt 1.2 använde vi HRES-fc0-datasatsen som grundläggande sanningar för att utvärdera HRES-förmågan. I vår dataset innehåller en ERA5 väderstatus Xt alla variabler i Tabell 2 med en 0,25° horisontell latitud-längdupplösning med totalt 721 × 1440 = 1, 038, 240 nätpunkter och 37 vertikala trycknivåer. De atmosfäriska variablerna definieras vid alla trycknivåer och uppsättningen (horisontella) nätpunkter ges av G0.25◦ = {−90.0, −89.75, . . . . , 90.0} × {−179.75, −179.5, . . . , 180.0}. Dessa variabler är unikt identifierade med sitt korta namn (och trycknivån, för atmosfäriska variabler). Till exempel är yttemperaturvariabeln ”2 meter” betecknad med 2 T; den atmosfäriska ”Geop From all these variables, our model predicts 5 surface variables and 6 atmospheric variables for a total of 227 target variables. Several other static and/or external variables were also provided as input context for our model. These variables are shown in Table 1 and Table 2. The static/external variables include information such as the geometry of the grid/mesh, orography (surface geopotential), land-sea mask and radiation at the top of the atmosphere. Vi hänvisar till delset av variabler i Xt som motsvarar en viss gridpunkt i (1,038,240 totalt) som xt, och till varje variabel j av de 227 målvariablerna som xt. Den fullständiga statliga representationen Xtii, j innehåller därför en total av 721 × 1440 × (5 + 6 × 37) = 235, 680, 480 värden. Observera att vid polerna är de 1440 längdpunkterna lika, så det faktiska antalet separata gridpunkter är något mindre. • GraphCast modell Detta avsnitt ger en detaljerad beskrivning av GraphCast, med början med den autoregressiva generationen av en prognos (avsnitt 3.1), en översikt av arkitekturen i enkelt språk (avsnitt 3.2), följt av en teknisk beskrivning av alla diagram som definierar GraphCast (avsnitt 3.3), dess kodare (avsnitt 3.4), processor (avsnitt 3.5), och avkodare (avsnitt 3.6), samt alla normalisering och parameterisering detaljer (avsnitt 3.7). 3.1 Skapa en prognos Our GraphCast model is defined as a one-step learned simulator that takes the role of 𝜙 in Equation (2) and predicts the next step based on two consecutive input states, Som i ekvation (3) kan vi tillämpa GraphCast iterativt för att producera en prognos. Detta illustreras i figur 1b,c. Vi fann, i tidiga experiment, att två inmatningsstater gav bättre prestanda än en, och att tre inte hjälpte tillräckligt för att motivera det ökade minnesavtrycket. 3.2 Översikt över arkitekturen GraphCasts kärnarkitektur använder GNNs i en "kod-process-dekod" -konfiguration [6], som visas i figur 1d,e,f. GNN-baserade lärda simulatorer är mycket effektiva på att lära sig komplex fysisk dynamik av vätskor och andra material [43, 39], eftersom strukturen av deras representationer och beräkningar är analoga med inlärda finita elementlösare [1]. En viktig fördel med GNNs är att ingångsgrafens struktur bestämmer vilka delar av representationen interagerar med varandra via inlärd meddelandeöverföring, vilket tillåter godtyckliga mönster av rumsliga interaktioner över något intervall. Däremot är ett konvolutionellt neuralt nätverk (CNN) begränsat till att beräkna interaktioner inom lokala patcher (eller, Vi utnyttjar GNN:s förmåga att modellera godtyckliga sällsynta interaktioner genom att introducera GraphCasts interna "multi-mesh" representation, som möjliggör långdistansinteraktioner inom några meddelandepassande steg och har i allmänhet homogen rumslig upplösning över hela världen. Vår multi-mesh är konstruerad genom att först dela en vanlig icosahedron (12 noder och 20 ansikten) iterativt 6 gånger för att få en hierarki av icosahedral mesh med totalt 40,962 noder och 81,920 ansikten på högsta upplösning. Vi utnyttjade det faktum att de grova-mesh noderna är delsatser av de fina-mesh noderna, vilket gjorde det möjligt för oss att överbelasta kanter från alla nivåer av meshhierarkin på den finaste upplösningen. Denna procedur ger en multi-scale uppsättning av mesh, med grova kanter som överbryggar långa avstånd på flera skalor, och fina kanter som fångar lokala interaktioner. Figur 1g visar varje enskild raffinerad mesh, och figur 1e visar GraphCasts kodare (figur 1d) kartlägger först inmatningsdata, från det ursprungliga bredd-längd-nätet, till inlärda funktioner på multi-mesh, med hjälp av en GNN med riktade kanter från gridpunkterna till multi-mesh. Processorn (figur 1e) använder sedan en 16-lagers djup GNN för att utföra inlärd meddelandepassning på multi-mesh, vilket möjliggör effektiv spridning av information över rymden på grund av de långa kanterna. Dekodern (figur 1f) kartlägger sedan den slutliga multi-mesh-representationen tillbaka till bredd-längd-nätet med hjälp av en GNN med riktade kanter, och kombinerar denna nätrepresentation, Ytk+, med inmatningsstaten Kodaren och dekodern kräver inte att rådata ska ordnas i ett regelbundet rektilinjärt nät, och kan också tillämpas på godtyckliga nätliknande statliga diskretiseringar [1]. Den allmänna arkitekturen bygger på olika GNN-baserade lärda simulatorer som har varit framgångsrika i många komplexa vätskesystem och andra fysiska domäner [43, 39, 15]. På en enda Cloud TPU v4-enhet kan GraphCast generera en 0,25°-upplösning, 10-dagarsprognos (i 6-timmarssteg) på mindre än 60 sekunder. För jämförelse kör ECMWF: s IFS-system på en 11,664-kärnkluster och genererar en 0,1°-upplösning, 10-dagarsprognos (utgiven vid 1-timmarssteg för de första 90 timmarna, 3-timmarssteg för timmarna 93-144, och 6-timmarssteg från 150-240 timmar, på ungefär en timme datatid [41]. Se HRES release detaljer här: https://www.ecmwf.int/en/forecasts/ datasets/set-i. 3.3 GraphCasts diagram GraphCast implementeras med hjälp av GNNs i en "kodningsprocess-dekod" -konfiguration, där kodaren kartlägger (ytor och atmosfär) på ingången bredd-längdgrid till en multi-mesh, processorn utför många omgångar av meddelande-pass på multi-mesh, och dekodern kartlägger multi-mesh-funktionerna tillbaka till utgången bredd-längdgrid (se figur 1). Modellen fungerar på ett diagram G (VG, VM, EM, EG2M, EM2G), som definieras i detalj i följande punkter. VG representerar den uppsättning som innehåller var och en av gridnoderna vG. Varje gridnod representerar en vertikal skiva av atmosfären vid en given bredd-längdpunkt, dvs. De egenskaper som är förknippade med varje gridnod vG är vG,funktioner = [xt−1, xt, ft−1, ft, ft+1, ci], där xt är det tidberoende väderläget Xt som motsvarar gridnoden vG och innehåller alla förutsagda datavariabler för alla 37 atmosfäriska nivåer samt ytvariabler. De tvingande termerna ft består av tidberoende egenskaper som kan beräknas analytiskt, och behöver inte förutsägas av GraphCast. De inkluderar den totala incidentella solstrålningen på toppen av atmosfären, ackumulerad Grid nodes VM representerar den uppsättning som innehåller var och en av meshnoderna vM. Meshnoder placeras jämnt runt om i världen i en R-förfinad icosahedral mesh MR. M0 motsvarar en enhetsradie icosahedron (12 noder och 20 triangulära ansikten) med ansikten parallella med polerna (se figur 1g). Meshnoden är iterativt förfinad Mr → Mr+1 genom att dela varje triangulär ansikte i 4 mindre ansikten, vilket resulterar i en extra nod i mitten av varje kant, och omprojektera de nya noderna tillbaka till enhetssfären.4 Funktioner vM,Funktioner förknippade med varje meshnod vM inkluderar kosinen av bredd, och ihe sine och kosinen av längd. GraphCast fungerar med en Mesh nodes EM är bidirektionella kanter som läggs till mellan nätnoder som är anslutna i nätverket. Avgörande är att nätkanter läggs till EM för alla nivåer av raffinering, dvs. för det finaste nätverket, M6, liksom för M5, M4, M3, M2, M1 och M0. Detta är enkelt på grund av hur raffineringsprocessen fungerar: noderna i Mr−1 är alltid en deluppsättning av noderna i Mr. Därför fungerar noder som inletts på lägre raffineringsnivåer som hubbar för längre räckviddskommunikation, oberoende av den maximala nivån av raffinering. Det resulterande diagrammet som innehåller den gemensamma uppsättningen av kanter från alla nivåer av raffinering är vad vi kallar "multi-mesh". Se Mesh edges För varje edge eM som ansluter en sändare mesh nod vM till en mottagare mesh nod vM, bygger vi vM→vM edge funktioner eM, funktioner som använder positionen på enhetssfären av mesh noderna. Detta inkluderar vM→vM s r längd av kanten, och vektorskillnaden mellan de 3d positionerna för sändaren nod och mottagaren nod beräknas i ett lokalt koordinatsystem av mottagaren. Det lokala koordinatsystemet för mottagaren beräknas genom att tillämpa en rotation som ändrar azimuthvinkeln tills mottagaren nod ligger vid längd 0, följt av en rotation som ändrar polarvinkeln tills mottagaren också ligger vid bredd 0. Detta resulterar i totalt 327,660 mesh kanter (se tabell 4), var och en EG2M är unidirektionella kanter som ansluter sändare nät noder till mottagare nät noder. En kant eG2M vG→vM läggs till om avståndet mellan nät knut och nät knut är mindre s r eller lika med 0,6 gånger5 längden på kanterna i nät M6 (se figur 1) som säkerställer att varje nät knut är ansluten till minst en nät knut. Funktioner eG2M,funktioner är byggda på samma sätt som för vG→vM s r nät kanterna. Detta resulterar i totalt 1,618,746 Grid2Mesh kanter, var och en med 4 inmatningsfunktioner. Grid2Mesh edges EM2G är ensidiga kanter som ansluter sändare mesh noder till mottagare nät noder. För varje nätpunkt hittar vi den triangulära ansiktet i mesh M6 som innehåller den och lägger till tre Mesh2Grid kanter av formen eM2G vM→vG, för att ansluta nätnoden till de tre mesh noder intill s r till det ansiktet (se figur 1). Funktioner eM2G,funktioner är byggda på samma sätt som för mesh vM→vG s r kanter. Detta resulterar i totalt 3,114,720 Mesh2Grid kanter (3 mesh noder anslutna till var och en av 721 × 1440 bredd-längd-gridpunkter), var och en med fyra ingångsfunktioner. Mesh2Grid edges 3.4 Kodning Syftet med kodaren är att förbereda data till latenta representationer för processorn, som kommer att köras exklusivt på multi-mesh. Som en del av kodaren inbäddar vi först funktionerna i var och en av nätnoderna, nätnoderna, nätkanterna, nät till nätkanter och nät till nätkanter i ett latent utrymme av fast storlek med hjälp av fem multi-layer perceptrons (MLP). Embedding the input features Därefter, för att överföra information om atmosfärens tillstånd från nätnoderna till nätnoderna, utför vi ett enda meddelande som passerar steg över Grid2Mesh bipartit subgraph GG2M (VG, VM, EG2M) som ansluter nätnoder till nätnoder. Denna uppdatering utförs med hjälp av ett interaktionsnätverk [5, 6], förstärkt för att kunna arbeta med flera nodtyper [2]. Grid2Mesh GNN Sedan uppdateras var och en av meshnoderna genom att aggregera information från alla kanter som anländer till den meshnoden: Var och en av gridnoderna uppdateras också, men utan aggregering, eftersom gridnoder inte är mottagare av några kanter i Grid2Mesh-subgrafen. Efter att ha uppdaterat alla tre elementen inkluderar modellen en återstående anslutning och för enkelhetens skull omfördelar variablerna, 5.3 Processor Processorn är en djup GNN som fungerar på Mesh subgraph GM (VM, EM) som bara innehåller Mesh noder och och Mesh kanter. Observera att Mesh kanter innehåller hela multi-mesh, med inte bara kanterna av M6, men alla kanterna av M5, M4, M3, M2, M1 och M0, vilket kommer att möjliggöra långdistans kommunikation. Ett enda lager av Mesh GNN är ett standardinteraktionsnätverk [5, 6] som först uppdaterar var och en av meshkanterna med information från de angränsande noderna: Multi-mesh GNN Sedan uppdaterar den var och en av meshnoderna och aggregerar information från alla kanter som anländer till den meshnoden: Och efter uppdatering av båda uppdateras representationerna med en återstående anslutning och för enkelhet av notationen, också omfördelas till ingångsvariablerna: Det föregående stycket beskriver ett enda lager av meddelande som passerar, men efter ett liknande tillvägagångssätt till [43, 39], tillämpade vi detta lager iterativt 16 gånger, med hjälp av odelade neurala nätverksvikter för MLPs i varje lager. 6.3 Dekodera Dekoderns roll är att föra tillbaka information till nätet och extrahera en utgång. I likhet med Grid2Mesh GNN utför Mesh2Grid GNN ett enda meddelande som passerar över Mesh2Grid bipartitsubgrafen GM2G(VG, VM, EM2G). Grid2Mesh GNN är funktionellt likvärdigt med Mesh2Grid GNN, men använder Mesh2Grid-kanten för att skicka information i motsatt riktning. Mesh2Grid GNN Then it updates each of the grid nodes, aggregating information from all of the edges arriving at that grid node: I det här fallet uppdaterar vi inte nätnoderna, eftersom de inte kommer att spela någon roll från och med nu. Här igen lägger vi till en återstående anslutning, och för enkelhetens skull omfördela variablerna, den här gången endast för nätnoderna, som är de enda som krävs från denna punkt på: Slutligen framställs förutsägelsen yi för var och en av nätnoderna med hjälp av en annan MLP, Output function som innehåller alla 227 förutspådda variabler för den gridnoden. liknande [43, 39], beräknas nästa väderstatus, X ̈t + 1, genom att lägga till prognosen per nod, Y ̈t , till ingångstillståndet för alla gridnoder, Normalisering och nätverksparameterisering I likhet med [43, 39] normaliserade vi alla ingångar. För varje fysisk variabel beräknade vi medelvärdet per trycknivå och standardavvikelsen över 1979–2015 och använde det för att normalisera dem till noll medelvärde och enhetsvarians. För relativa kantavstånd och längder normaliserade vi funktionerna till längden på den längsta kanten. Input normalization Eftersom vår modell ger ut en skillnad, Y ̈t , som under inferensen läggs till Xt för att producera X ̈t + 1, normaliserade vi modellens utgång genom att beräkna standardavvikelsestatistiken per trycknivå för tidsskillnaden Yt = Xt+1 − Xt för varje variabel6. Output normalization De neurala nätverken inom GraphCast är alla MLPs, med ett dolt lager, och dolda och utdata lager storlekar av 512 (förutom det slutliga lagret av Decoder MLP, vars utdata storlek är 227, matchar antalet förutsedda variabler för varje grid nod).Vi valde ”swish” [40] aktiveringsfunktionen för alla MLPs. Alla MLPs följs av ett LayerNorm [3] lager (förutom Decoder MLP). Neural network parameterizations 4 Träningsdetaljer This section provides details pertaining to the training of GraphCast, including the data split used to develop the model (Section 4.1), the full definition of the objective function with the weight associated with each variable and vertical level (Section 4.2), the autoregressive training approach (Section 4.3), optimization settings (Section 4.4), curriculum training used to reduce training cost (Section 4.5), technical details used to reduce the memory footprint of GraphCast (Section 4.6), training time (Section 4.7) and the software stacked we used (Section 4.8). 4.1. Training split För att efterlikna verkliga utbyggnadsförhållanden, där prognosen inte kan bero på information från framtiden, delade vi upp de data som användes för att utveckla GraphCast och de data som användes för att testa dess prestanda "causal", i det att "utvecklingsuppsättningen" endast innehöll datum tidigare än de i "testuppsättningen". Inom vår utvecklingssats delade vi vidare upp uppgifterna i en utbildningssats som omfattade åren 1979–2015 och en valideringssats som omfattade åren 2016–2017. Vi använde utbildningssatsen som träningsdata för våra modeller och valideringssatsen för hyperparameteroptimering och modellval, dvs. för att avgöra vilken modellarkitektur som fungerar bäst. Vi frös sedan modellarkitekturen och alla träningsval och flyttade till testfasen. 4.2 Utbildningens mål GraphCast har utbildats för att minimera en objektiv funktion över 12-stegsprognoser (3 dagar) mot ERA5-mål, med hjälp av gradientnedgång. Vart τ ∈ 1 : Ttrain är ledtiderna som motsvarar Ttrains autoregressiva steg. d0 ∈ Dbatch representerar prognos initialisering datum-tider i en uppsättning prognoser i utbildningssatsen, j ∈ J indexerar variabeln och för atmosfäriska variabler trycknivån. t.ex. J ={z1000, z850, . . . , 2 T, MsL}, i ∈ G0.25◦ är placeringen (latitud och longitud) koordinater i nätet, x ̈d0+τ och xd0+τ är förutsägbara och målvärden för vissa variabelnivåer, plats och ledtid,j,i j,i s j är den inverse variansen av tidsskillnader per variabelnivå, wj är förlustvikten per variabelnivå, ai är området för bredd-längd-gittercellen, som varierar med bredd och normaliseras till enhetsmedel över nätet. För att bygga en enda skalär förlust tog vi genomsnittet över bredd-längd, trycknivåer, variabler, ledtider och batchstorlek.Vi genomsnittade över bredd-längd axlar, med en vikt proportionell till bredd-längd cellstorlek (normaliserad till 1). Mängderna s = V hxt+1 − xt i −1 är per-variabel-nivå inverse varians uppskattningar av tidsskillnaderna, som syftar till att standardisera målen (över på varandra följande steg) till enhetsvarians. Dessa uppskattades från utbildningsdata. Vi tillämpade sedan per-variabel-nivå förlustvikter, dvs. För atmosfäriska variabler, vi genomsnittliga över nivåer, med en vikt proportionell till trycket på nivån (normaliserad till enhetsgenomsnitt), som visas i figur 6a. Vi använder trycket här som en proxy för densiteten [26]. Observera att förlustvikten tillämpas på trycknivåer vid eller under 50 hPa, där HRES tenderar att prestera bättre än GraphCast, är endast 0,66% av den totala viktför 4.3 Träning på det autoregressiva målet För att förbättra vår modells förmåga att göra noggranna prognoser över mer än ett steg använde vi ett autoregressivt träningsschema, där modells förutspådda nästa steg matades tillbaka som input för att förutsäga nästa steg. Den slutliga GraphCast-versionen tränades på 12 autoregressiva steg, enligt ett läroplanutbildningsschema som beskrivs nedan. 4.4 Optimering Träningsobjektivfunktionen minimerades med hjälp av gradientnedgång, med mini-batterier. Vi provade jordbaserade sanningsbanor från vår ERA5-träningsdataset, med ersättning, för batterier av storlek 32. Vi använde AdamW-optimeraren [33, 27] med parametrar (beta1 = 0,9, beta2 = 0,95). Vi använde viktnedbrytning på 0,1 på viktmatriserna. Vi använde gradient (norm) klippning med ett maximalt normvärde på 32. 5.3 Läroplan för utbildning Training the model was conducted using a curriculum of three phases, which varied the learning rates and number of autoregressive steps. The first phase consisted of 1000 gradient descent updates, with one autoregressive step, and a learning rate schedule that increased linearly from 0 to 1e−3 (Figure 7a). The second phase consisted of 299,000 gradient descent updates, again with one autoregressive step, and a learning rate schedule that decreased back to 0 with half-cosine decay function (Figure 7b). The third phase consisted of 11,000 gradient descent updates, where the number of autoregressive steps increased from 2 to 12, increasing by 1 every 1000 updates, and with a fixed learning rate of 3e−7 (Figure 7c). 4.6 Minska minnesavtrycket För att passa långa trajektorier (12 autoregressiva steg) i 32 GB av en Cloud TPU v4-enhet använder vi flera strategier för att minska minnesavtrycket på vår modell. För det första använder vi batchparallellism för att distribuera data över 32 TPU-enheter (dvs. en datapunkt per enhet). För det andra använder vi bfloat16 flytande punkt precision för att minska minnet som tas av aktiveringar (notera, vi använder full precision numerics (dvs. float32) för att beräkna prestandametrar vid utvärderingstidpunkten). Slutligen använder vi gradient check-pointing [11] för att ytterligare minska minnesavtrycket på bekostnad av en lägre träningshastighet. 4.7 Träningstid Efter träningsschemat som ökar antalet autoregressiva steg, som detaljerat ovan, tog träning GraphCast cirka fyra veckor på 32 TPU-enheter. 4.8 Programvara och hårdvara stack Vi använder JAX [9], Haiku [23], Jraph [17], Optax, Jaxline [4] och xarray [25] för att bygga och träna våra modeller. 5 Verifieringsmetoder Detta avsnitt ger detaljer om vårt utvärderingsprotokoll. Avsnitt 5.1 beskriver vårt tillvägagångssätt för att dela upp data på ett kausalt sätt, vilket säkerställer våra utvärderingstester för meningsfull generalisering, det vill säga utan att utnyttja information från framtiden. Avsnitt 5.2 förklarar i ytterligare detalj våra val för att utvärdera HRES-färdigheter och jämföra dem med GraphCast, från behovet av en grundläggande sanning som är specifik för HRES för att undvika att straffa den vid korta ledtider (Avsnitt 5.2.1), effekten av ERA5 och HRES med olika assimileringsfönster på den lookahead som varje stat införlivar (Avsnitt 5.2.2), det resulterande valet av initialisering för tid GraphCast och HRES för att säkerst 5.1 Utbildning, validering och testdelar I testfasen, med hjälp av protokollet fryst i slutet av utvecklingsfasen (avsnitt 4.1), tränade vi fyra versioner av GraphCast, var och en av dem under en annan period. 2018–2021, 2019–2021, 2020–2021 and 2021, respectively. Again, these splits maintained a causal separation between the data used to train a version of the model and the data used to evaluate its performance (see Figure 8). Most of our results were evaluated on 2018 (i.e., with the model trained on 1979–2017), with several exceptions. For cyclone tracking experiments, we report results on 2018–2021 because cyclones are not that common, so including more years increases the sample size. We use the most recent version of GraphCast to make forecast on a given year: GraphCast <2018 for 2018 forecast, GraphCast <2019 for 2019 forecast, etc. For training data recency experiments, we evaluated how different models trained up to different years compared on 2021 test performance. 5.2 Jämför GraphCast med HRES 5.2.1 Val av grundläggande sanningsdataset GraphCast utbildades för att förutsäga ERA5-data och ta ERA5-data som inmatning; vi använder också ERA5 som grundläggande sanning för att utvärdera vår modell. HRES-prognoser initialiseras emellertid baserat på HRES-analys. I allmänhet ger verifiering av en modell mot sin egen analys de bästa färdighetsberäkningarna [45]. Så i stället för att utvärdera HRES-prognoser mot ERA5-grundläggande sanning, vilket skulle innebära att även nollsteget av HRES-prognoser skulle ha ett icke-nollfel, konstruerade vi en ”HRES-prognos vid steg 0” (HRES-fc0) dataset, som innehåller det första steget av HRES-prognoser vid framtida initialiseringar (se tabell 5.2.2 Säkerställa lika utsikter i assimilationsfönster When comparing the skills of GraphCast and HRES, we made several choices to control for differences between the ERA5 and HRES-fc0 data assimilation windows. As described in Section 1, each day HRES assimilates observations using four +/-3h windows centered on 00z, 06z, 12z and 18z (where 18z means 18:00 UTC in Zulu convention), while ERA5 uses two +9h/-3h windows centered on 00z and 12z, or equivalently two +3h/-9h windows centered on 06z and 18z. See Figure 9 for an illustration. We chose to evaluate GraphCast’s forecasts from the 06z and 18z initializations, ensuring its inputs carry information from +3h of future observations, matching HRES’s inputs. We did not evaluate GraphCast’s 00z and 12z initializations, to avoid a mismatch between having a +9h lookahead in ERA5 inputs versus +3h lookahead for HRES inputs. Figur 10 visar prestandan hos GraphCast initialiserad från 06z/18z och 00z/12z. När GraphCast initialiseras från ett tillstånd med en större lookahead får GraphCast en synlig förbättring som kvarstår vid längre leadtider, vilket stöder vårt val till initialiserad utvärdering från 06z/18z. Vi tillämpade samma logik när vi valde målet att utvärdera: vi utvärderar endast mål som innehåller en 3h lookahead för både HRES och ERA5. Med tanke på vårt val av initialisering at 06z och 18z motsvarar detta utvärdering var 12:e, på framtida 06z och 18z analystider. Som ett praktiskt exempel, om vi skulle utvärdera GraphCast och HRES initialiserade vid 06z, vid ledtid 6h (dvs. 12), skulle 5.2.3 Justering av initialisering och giltighetstider As stated above, a fair comparison with HRES requires us to evaluate GraphCast using 06z and 18z initializations, and with lead times which are multiples of 12h, meaning validity times are also 06z and 18z. För ledtider upp till 3,75 dagar finns det arkiverade HRES-prognoser tillgängliga med 06z och 18z initialisering och giltighetstider, och vi använder dessa för att utföra en liknande jämförelse med GraphCast vid dessa ledtider. För ledtider på 4 dagar och längre finns arkiverade HRES-prognoser endast tillgängliga vid 00z och 12z initialiseringar, vilket med tanke på våra 12-timmars multipla ledtider innebär 00z och 12z giltighetstider. I dessa jämförelser av globalt definierade RMSEs förväntar vi oss skillnaden i tid-of-day att ge HRES en liten fördel. I figur 11 kan vi se att upp till 3,5 dagars ledtider, HRES RMSEs tenderar att vara mindre i genomsnitt över 00z och 12z initialisering / giltighetstid än de är vid 06z och 18z gånger som GraphCast utvärderas på. Vi kan också se att skillnaden minskar när ledtiden ökar, och att 06z/18z RMSEs i allmänhet verkar tenderar att vara i riktning mot en asymptot över 00z/12z RMSE, men inom 2% av det. Vi förväntar oss att dessa skillnader fortsätter att gynna HRES vid längre ledtider, och trots att de förblir små, och så tror vi inte att de äventyrar våra slutsatser När vi planerar RMSE och andra utvärderingsmetoder som en funktion av ledtid, indikerar vi med en prickad linje den 3,5-dagars förändringspunkten där vi växlar från att utvärdera HRES på 06z/18z till att utvärdera på 00z/12z. 5.2 Utvärderingsperiod De flesta av våra huvudresultat rapporteras för år 2018 (från vår testuppsättning), för vilken den första prognosinitialiseringstiden var 2018-01-01_06:00:00 UTC och den sista 2018-12-31_18:00:00, eller vid utvärdering av HRES vid längre ledtider, 2018-01-01_00:00:00 och 2018-12-31_12:00:00. 5.3. Evaluation metrics We quantify the skillfulness of GraphCast, other ML models, and HRES using the root mean square error (RMSE) and the anomaly correlation coefficient (ACC), which are both computed against the models’ respective ground truth data. The RMSE measures the magnitude of the differences between forecasts and ground truth for a given variable indexed by 𝑗 and a given lead time 𝜏 (see Equation (20)). The ACC, L𝑗,𝜏 , is defined in Equation (29) and measures how well forecasts’ differences from climatology, i.e., the average weather for a location and date, correlate with the ground truth’s differences from climatology. For skill scores we use the normalized RMSE difference between model 𝐴 and baseline 𝐵 as (RMSE𝐴 − RMSE𝐵)/RMSE𝐵, and the normalized ACC difference as (ACC𝐴 − ACC𝐵)/(1 − ACC𝐵). Alla mätvärden beräknades med hjälp av float32 precision och rapporterades med hjälp av variablernas inhemska dynamiska intervall, utan normalisering. Vi kvantifierade prognosfärdighet för en given variabel, x j, och ledtid, τ = tΔd, med hjälp av en breddvägd rotgenomsnittlig kvadratfel (RMSE) som ges av Root mean square error (RMSE) where • 𝑑0 ∈ 𝐷eval represent forecast initialization date-times in the evaluation dataset, • j ∈ J index variabler och nivåer, t.ex. J = {z1000, z850, . . . , 2 T, MsL}, • i ∈ G0.25◦ är placeringen (latitud och longitud) koordinater i nätet, • 𝑥ˆ𝑑0+𝜏 and 𝑥𝑑0+𝜏 are predicted and target values for some variable-level, location, and lead time, 𝑗,𝑖 𝑗,𝑖 • 𝑎𝑖 is the area of the latitude-longitude grid cell (normalized to unit mean over the grid) which varies with latitude. By taking the square root inside the mean over forecast initializations we follow the convention of WeatherBench [41]. However we note that this differs from how RMSE is defined in many other contexts, where the square root is only applied to the final mean, that is, I alla jämförelser som involverar förutsägelser som filtreras, trunkeras eller bryts ned i den sfäriska harmoniska domänen, beräknar vi för bekvämlighet RMSEs direkt i den sfäriska harmoniska domänen, med alla medel som tas inuti kvadratroten, Root mean square error (RMSE), spherical harmonic domain. Här f ̈d0+τ och f d0+τ är förutsedda och målkoefficienter av sfäriska harmoniker med totala vågnummer j,l,m j,l,m Vi beräknar dessa koefficienter från nätbaserade data med hjälp av en diskret sfärisk harmonisk transformation [13] med triangulär trunkering vid vågnummer 719, som valdes för att lösa 0,25° (28km) upplösning av vårt nät vid ekvatorn. Denna RMSE närmar sig den nätbaserade definitionen av RMSE som ges i ekvationen (21), men den är inte exakt jämförbar, delvis eftersom den triangulära trunkeringen vid vågnummer 719 inte löser den ytterligare upplösningen av det ekvatoriska nätet nära polerna. This is computed following the RMSE definition of Equation (21), but for a single location: Root mean square error (RMSE), per location. Vi delar också ner RMSE efter bredd endast: där Ecklon(G0.25◦) Ecklon = 1440 är antalet distinkta längder i vårt vanliga 0,25°-nät. Detta beräknas enligt RMSE-definitionen av ekvation (21) men begränsat till ett visst område av ythöjder, givet av gränser zl ≤ zsurface < zu på yttre geopotentialen: Root mean square error (RMSE), by surface elevation. where ll denotes the indicator function. Denna mängd definieras som Mean bias error (MBE), per location. Detta kvantifierar den genomsnittliga magnituden för per-plats biaserna från ekvationen (26) och ges av Root-mean-square per-location mean bias error (RMS-MBE). Detta kvantifierar korrelationen mellan per-plats bias (ekvation (26)) av två olika modeller A och B. Vi använder en icke-centrerad korrelationskoefficient på grund av betydelsen av ursprung noll i mätningar av bias, och beräkna denna mängd enligt Correlation of per-location mean bias errors. Anomaly correlation coefficient (ACC). Vi beräknade också anomaly korrelation coefficient för en given variabel, x j, och ledtid, τ = tΔd, enligt där Cd0+τ är det klimatologiska medelvärdet för en given variabel, nivå, bredd och längd, och för dagen av året som innehåller giltighetstiden d0 + τ. Klimatologiska medel beräknades med hjälp av ERA5-data mellan 1993 och 2016. 5.4 Statistisk metodik 5.4.1. Significance tests for difference in means För varje ledtid τ och variabel-nivå j testar vi för en skillnad i medelvärde mellan per-initialisering-tid RMSEs (definierat i ekvation (30)) för GraphCast och HRES. Vi använder ett parat tvåsidigt t-test med korrigering för auto-korrelation, enligt metodologin för [16]. Detta test förutsätter att tidsserier av skillnader i prognospoäng är adekvat modellerade som stationära Gaussian AR(2) processer. Den nominella provstorleken för våra tester är n = 730 vid leadtider under 4 dagar, bestående av två prognosinitialiseringar per dag under 365 dagar 2018. (För leadtider över 4 dagar har vi n = 729, se avsnitt 5.4.2). Men dessa data (skillnader i prognos RMSEs) är automatiskt korrelerade i tid. Efter [16] beräknar vi en inflationfaktor k för standardfelet som korrigerar för detta. See Table 5 for detailed results of our significance tests, including 𝑝-values, values of the 𝑡 test statistic and of 𝑛eff. 5.4.2 Prognos för anpassning For lead times 𝜏 less than 4 days, we have forecasts available at 06z and 18z initialization and validity times each day for both GraphCast and HRES, and we can test for differences in RMSEs between these paired forecasts. Defining the per-initialization-time RMSE as: Vi räknar skillnaderna som vi använder för att testa nullhypotesen att E[diff-RMSE( j, τ, d0)] = 0 mot den tvåsidiga alterna-tive. Som diskuterats i avsnitt 5.2.3, vid ledtider på 4 dagar eller mer har vi endast HRES-prognoser tillgängliga vid 00z och 12z initialisering och giltighetstider, medan för den rättvisaste jämförelsen (avsnitt 5.2.2) GraphCast-prognoser måste utvärderas med 06z och 18z initialisering och giltighetstider. För att utföra ett parat test jämför vi RMSE av en GraphCast-prognos med en interpolerad RMSE av de två HRES-prognoserna på vardera sidan av den: en initialiserad och giltig 6 timmar tidigare, och den andra initialiserad och giltig 6 timmar senare, alla med samma ledtid. Vi kan använda dessa för att testa nollhypotesen E[diff-RMSEinterp( j, τ, d0)] = 0, som återigen inte är beroende av d0 genom den stationära antagandet på skillnaderna. Om vi vidare antar att HRES RMSE tidsserien själv är stationär (eller åtminstone tillräckligt nära stationär över ett 6-timmarsfönster) då E[diff-RMSEinterp( j, τ, d0)] = E[diff-RMSE( j, τ, d0)] och de interpolerade skillnaderna kan också användas för att testa avvikelser från den ursprungliga nollhypotesen att E[diff-RMSE( j, τ, d0)] = 0. This stronger stationarity assumption for HRES RMSEs is violated by diurnal periodicity, and in Section 5.2.3 we do see some systematic differences in HRES RMSEs between 00z/12z and 06z/18z validity times. However as discussed there, these systematic differences reduce substantially as lead time grows and they tend to favour HRES, and so we believe that a test of 𝔼[diff-RMSE( 𝑗, 𝜏, 𝑑0)] = 0 based on diff-RMSEinterp will be conservative in cases where GraphCast appears to have greater skill than HRES. 5.4.3 Konfidensintervall för RMSEs Felfälten i våra RMSE-kompetensplotter motsvarar separata konfidensintervall för E[RMSEGC] och E[RMSEHRES] (eliding eller nu argumenten j, τ, d0). Dessa härrör från det tvåsidiga t-testet med korrigering för självkorrelation som beskrivs ovan, som tillämpas separat på GraphCast och HRES RMSE-tidsserier. Dessa konfidensintervall gör ett stationärt antagande för de separata tidsserierna GraphCast och HRES RMSE, vilket som nämnts ovan är ett starkare antagande om att stationärt av skillnaderna och bryts något. 5.4.4 Konfidensintervall för RMSE-färdighetsresultat From the 𝑡-test described in Section 5.4.1 we can also derive in the standard way confidence intervals for the true difference in RMSEs, however in our skill score plots we would like to show confidence intervals for the true RMSE skill score, in which the true difference is normalized by the true RMSE of HRES: A confidence interval for this quantity should take into account the uncertainty of our estimate of the true HRES RMSE. Let [𝑙diff, 𝑢diff] be our 1 − 𝛼/2 confidence interval for the numerator (difference in RMSEs), and [𝑙HRES, 𝑢HRES] our 1 − 𝛼/2 confidence interval for the denominator (HRES RMSE). Given that 0 < 𝑙𝐻𝑅𝐸𝑆 in every case for us, using interval arithmetic and the union bound we obtain a conservative 1 − 𝛼 confidence interval for RMSE-SStrue. We plot these confidence intervals alongside our estimates of the RMSE skill score, however note that we don’t rely on them for significance testing. Jämförelse med tidigare maskininlärningsbaslinjer To determine how GraphCast’s performance compares to other ML methods, we focus on Pangu-Weather [7], a strong MLWP baseline that operates at 0.25° resolution. To make the most direct comparison, we depart from our evaluation protocol, and use the one described in [7]. Because published Pangu-Weather results are obtained from the 00z/12z initializations, we use those same initializations for GraphCast, instead of 06z/18z, as in the rest of this paper. This allows both models to be initialized on the same inputs, which incorporate the same amount of lookahead (+9 hours, see Sections 5.2.2 and 5.2.3). As HRES initialization incorporates at most +3 hours lookahead, even if initialized from 00z/12z, we do not show the evaluation of HRES (against ERA5 or against HRES-fc0) in this comparison as it would disadvantage it. The second difference with our protocol is to report performance every 6 hours, rather than every 12 hours. Since both models are evaluated against ERA5, their targets are identical, in particular, for a given lead time, the target incorporates +3 hours or +9 hours of lookahead for both GraphCast and Pangu-Weather, allowing for a fair comparison. Pangu-Weather[7] reports its 7-day forecast accuracy (RMSE and ACC) on: z500, T 500, T 850, Q 500, U 500, v 500, 2 T, 10 U, 10 v, and MsL. Som visas i figur 12 överträffar GraphCast (blå linjer) Pangu-väder [7] (röda linjer) på 99,2% av målen. För ytvariablerna (2 T, 10 U, 10 v, MsL) är GraphCasts fel under de första dagarna cirka 10-20% lägre, och över de längre ledtiderna platåer till cirka 7-10% lägre fel. De enda två (av de 252 totala) mätningarna på vilka Pangu-väder överträffade GraphCast var z500, vid ledtiderna 6 och 12 timmar, där GraphCast hade 1,7% högre genomsnittlig RMSE (figur 12a,e). Ytterligare prognosverifieringsresultat Detta avsnitt ger ytterligare analys av GraphCasts prestanda, vilket ger en mer fullständig bild av dess styrkor och begränsningar. Avsnitt 7.1 kompletterar papperets huvudresultat på ytterligare variabler och nivåer bortom z500. Avsnitt 7.2 analyserar ytterligare GraphCasts prestanda uppdelad efter regioner, bredd och trycknivåer (särskilt genom att särskilja prestanda under och över tropopausen), illustrerar fördomarna och RMSE genom bredd och höjd. Avsnitt 7.3 visar att både multi-mesh och autoregressiv förlust spelar en viktig roll i GraphCasts prestanda. Avsnitt 7.4 beskriver tillvägagångssättet för optimal blurring som tillämpas på HRES och GraphCast, för att säkerställa att GraphCasts förbättrade prestanda inte 7.1. Detailed results for additional variables 7.1.1 RMSE och ACC Figur 13 kompletterar figur 2a–b och visar RMSE och normaliserad RMSE-skillnad i förhållande till HRES för GraphCast och HRES på en kombination av 12 höjdpunktsvariabler. figur 14 visar ACC och normaliserad ACC-skillnad i förhållande till HRES för GraphCast och HRES på samma kombination av 12 variabler och kompletterar figur 2c. ACC-kompetenspoängen är den normaliserade ACC-skillnaden mellan modell A och baslinje B som (ACCA − ACCB)/(1 − RMSEB). 7.1.2 Detaljerade signifikanstestresultat för RMSE-jämförelser Tabell 5 ger ytterligare information om de statistiska signifikansförklaringar som görs i huvudavsnittet om skillnader i RMSE mellan GraphCast och HRES. Detaljer om metodiken finns i avsnitt 5.4. Här ger vi p-värden, teststatistik och effektiva provstorlekar för alla variabler. Av rumsliga skäl begränsar vi oss till tre viktiga ledtider (12 timmar, 2 dagar och 10 dagar) och en deluppsättning av 7 trycknivåer valda för att inkludera alla fall där p > 0,05 vid dessa ledtider. 7.1.3. Effect of data recency on GraphCast An important feature of MLWP methods is they can be retrained periodically with the most recent data. This, in principle, allows them to model recent weather patterns that change over time, such as the ENSO cycle and other oscillations, as well as the effects of climate change. To explore how the recency of the training data influences GraphCast’s test performance, we trained four variants of GraphCast, with training data that always began in 1979, but ended in 2017, 2018, 2019, and 2020, respectively (we label the variant ending in 2017 as “GraphCast:<2018”, etc). We evaluated the variants, and HRES, on 2021 test data. Figure 15 shows the skill and skill scores (with respect to HRES) of the four variants of GraphCast, for several variables and complements Figure 4a. There is a general trend where variants trained to years closer to the test year have generally improved skill score against HRES. The reason for this improvement is not fully understood, though we speculate it is analogous to long-term bias correction, where recent statistical biases in the weather are being exploited to improve accuracy. It is also important to note that HRES is not a single NWP across years: it tends to be upgraded once or twice a year, with generally increasing skill on z500 and other fields [18, 22, 19, 20, 21]. This may also contribute to why GraphCast:<2018 and GraphCast:<2019, in particular, have lower skill scores against HRES at early lead times for the 2021 test evaluation. We note that for other variables, GraphCast:<2018 and GraphCast:<2019 tend to still outperform HRES. These results highlight a key feature of GraphCast, in allowing performance to be automatically improved by re-training on recent data. 7.2 Disaggregerade resultat 7.2.1 RMSE per region Per-region evaluation of forecast skill is provided in Figures 17 and 18, using the same regions and naming convention as in the ECMWF scorecards (https://sites.ecmwf.int/ifs/scorecards/ scorecards-47r3HRES.html). We added some additional regions for better coverage of the entire planet. These regions are shown in Figure 16. 7.2.2. RMSE skill score by latitude and pressure level I figur 19 skisserar vi normaliserade RMSE-skillnader mellan GraphCast och HRES, som en funktion av både trycknivå och bredd. Vi skisserar bara de 13 trycknivåerna från WeatherBench [41] på vilka vi har utvärderat HRES. On these plots, we indicate at each latitude the mean pressure of the tropopause, which separates the troposphere from the stratosphere. We use values computed for the ERA-15 dataset (1979-1993), given in Figure 1 of [44]. These will not be quite the same as for ERA5 but are intended only as a rough aid to interpretation. We can see from the scorecard in Figure 2 that GraphCast performs worse than HRES at the lowest pressure levels evaluated (50hPa). Figure 19 shows that the pressure level at which GraphCast starts to get worse is often latitude-dependent too, in some cases roughly following the mean level of the tropopause. Vi använder en lägre förlustvägning för lägre trycknivåer och detta kan spela en roll; det är också möjligt att det kan finnas skillnader mellan ERA5 och HRES-fc0 dataset i förutsägbarheten av variabler i stratosfären. 7.2.3 Bias av latitud och longitud I figurerna 20 till 22 planerar vi den genomsnittliga biasfelet (MBE, eller bara "bias", definierat i ekvationen (26)) av GraphCast som en funktion av latitud och longitud, vid tre ledtider: 12 timmar, 2 dagar och 10 dagar. I tomterna för variabler som ges på trycknivåer har vi maskerat ut regioner vars ythöjd är tillräckligt högt för att trycknivån är under marken i genomsnitt.Vi bestämmer att detta är fallet när yttre geopotentialen överstiger en klimatologisk genomsnittlig geopotential på samma plats och trycknivå. För att kvantifiera den genomsnittliga storleken på de bias per plats som visas i figurerna 20 till 22 beräknade vi rotgenomsnittskvadraten för per plats genomsnittliga biasfel (RMS-MBE, definierat i ekvationen (26)). Dessa är plottade i figur 23 för GraphCast och HRES som en funktion av ledtid. Vi kan se att GraphCasts bias är mindre i genomsnitt än HRES för de flesta variabler upp till 6 dagar. Vi beräknade också en korrelationskoefficient mellan GraphCast och HRES: s genomsnittliga biasfel per plats (definierat i ekvation (27)), som är utformad som en funktion av ledtid i figur 24. Vi kan se att GraphCast och HRES: s bias är orelaterade eller svagt korrelerade vid de kortaste ledtiderna, men korrelationskoefficienten växer i allmänhet med ledtiden och når värden så höga som 0,6 vid 10 dagar. 7.2.4. RMSE färdighetspoäng efter latitud och longitud I figurerna 25–27 skisserar vi den normaliserade RMSE-skillnaden mellan GraphCast och HRES efter bredd och längd. Som i avsnitt 7.2.3 har vi för variabler som ges på trycknivåer maskerat ut regioner vars ythöjd är tillräckligt hög att trycknivån är under marken i genomsnitt. Notable areas where HRES outperforms GraphCast include specific humidity near the poles (particularly the south pole); geopotential near the poles; 2m temperature near the poles and over many land areas; and a number of surface or near-surface variables in regions of high surface elevation (see also Section 7.2.5). GraphCast’s skill in these areas generally improves over longer lead times. However HRES outperforms GraphCast on geopotential in some tropical regions at longer lead times. At 12 hour and 2 day lead times both GraphCast and HRES are evaluated at 06z/18z initialization and validity times, however at 10 day lead times we must compare GraphCast at 06z/18z with HRES at 00z/12z (see Section 5). This difference in time-of-day may confound comparisons at specific locations for variables like 2m temperature (2 T) with a strong diurnal cycle. 7.2.5. RMSE skill score by surface elevation I figur 25 kan vi se att GraphCast verkar ha minskat skicklighet i höga höjdregioner för många variabler vid 12 timmars ledtid. För att undersöka detta ytterligare delade vi jordytan i 32 bins av ythöjd (given i termer av geopotentiell höjd) och beräknade RMSEs inom varje bin enligt ekvation (24). Vid korta ledtider och särskilt vid 6 timmar tenderar GraphCasts färdighet i förhållande till HRES att minska med högre ythöjd, i de flesta fall faller under färdigheten hos HRES vid tillräckligt höga höjder. We note that GraphCast is trained on variables defined using a mix of pressure-level coordinates (for atmospheric variables) and height above surface coordinates (for surface-level variables like 2m temperature or 10m wind). The relationship between these two coordinates systems depends on surface elevation. Despite GraphCast conditioning on surface elevation we conjecture that it may struggle to learn this relationship, and to extrapolate it well to the highest surface elevations. In further work we would propose to try training the model on a subset of ERA5’s native model levels instead of pressure levels; these use a hybrid coordinate system [14] which follows the land surface at the lowest levels, and this may make the relationship between surface and atmospheric variables easier to learn, especially at high surface elevations. Variabler med hjälp av trycknivåkoordinater interpoleras under marken när trycknivån överstiger yttrycket. GraphCast ges inte någon explicit indikation på att detta har hänt och detta kan lägga till utmaningen att lära sig att förutsäga vid höga ythöjder. Finally, our loss weighting is lower for atmospheric variables at lower pressure levels, and this may affect skill at higher-elevation locations. Future work might consider taking surface elevation into account in this weighting. 7.3 GraphCast ablationer 7.3.1 Multipel mesh ablation För att bättre förstå hur multi-mesh-representationen påverkar prestandan hos GraphCast jämför vi GraphCast-prestanda med en version av modellen som tränats utan multi-mesh-representationen. Den senare modells arkitektur är identisk med GraphCast (inklusive samma kodare och dekoder och samma antal noder), förutom att i processblocket innehåller grafen endast kanterna från den finaste icosahedron mesh M6 (245,760 kanter, istället för 327,660 för GraphCast). Som ett resultat kan den ablated modellen endast sprida information med kortare kanter, medan GraphCast innehåller ytterligare långdistans kanter. Figur 29 (vänster panel) visar resultatkortet som jämför GraphCast med den avlagda modellen. GraphCast drar nytta av multi-mesh-strukturen för alla förutsagda variabler, med undantag för ledtider utöver 5 dagar vid 50 hPa. Förbättringen är särskilt uttalad för geopotentiell över alla trycknivåer och för genomsnittligt havsnivåtryck för ledtider under 5 dagar. Mellanpanelen visar resultatkortet som jämför den avlagda modellen med HRES, medan högerpanelen jämför GraphCast med HRES, vilket visar att multi-mesh är nödvändigt för GraphCast att överträffa HRES på geopotentiell vid ledtider under 5 dagar. 7.3.2 Effekten av autoregressiv träning Vi analyserade prestandan hos varianter av GraphCast som tränades med färre autoregressiva (AR) steg7, vilket bör uppmuntra dem att förbättra sin korta ledtidsprestanda på bekostnad av längre ledtidsprestanda. Som visas i figur 30 (med de ljusare blå linjerna som motsvarar träning med färre AR-steg) fann vi att modeller som tränades med färre AR-steg tenderade att handla längre för kortare ledtids noggrannhet. Dessa resultat tyder på potential för att kombinera flera modeller med olika antal AR-steg, t.ex. för korta, medelstora och långa ledtider, för att utnyttja sina respektive fördelar över hela prognoshorisonten. 7.4 Optimal blurring 7.4.1 Effekt på kompetensjämförelsen mellan GraphCast och HRES I figurerna 31 och 32 jämför vi RMSE för HRES med GraphCast innan och efter optimal blurring har tillämpats på båda modellerna. 4.2 Filtreringsmetoder We chose filters which minimize RMSE within the class of linear, homogeneous (location invariant), isotropic (direction invariant) filters on the sphere. These filters can be applied easily in the spherical harmonic domain, where they correspond to multiplicative filter weights that depend on the total wavenumber, but not the longitudinal wavenumber [12]. För varje initialisering d0, ledtid τ, variabel och nivå j, tillämpade vi en diskret sfärisk harmonisk transformation [13] till förutsägelser x ̈d0+τ och mål xd0+τ, vilket resulterade i sfäriska harmoniska koefficienter f ̈d0+τ j j j,l,m och f d0+τ för varje par av totalt vågnummer l och längsgående vågnummer m. För att lösa 0,25° (28km) upplösning av vårt nät vid ekvatorn, använder vi en triangulär trunkering vid totalt vågnummer 719, vilket innebär att l varierar från 0 till max l = 719, och för varje l värdet av m varierar från −l till l. Vi multiplicerade sedan varje förutsedd koefficient f ̈d0+τ med en filtervikt bτ , som är oberoende av j,l,m j,l den längsgående vågnumret m. Filtervikterna monterades med hjälp av minsta kvadrater för att minimera genomsnittliga kvadratfel, som beräknat i sfärisk harmonisk domän: Vi använde data från 2017 för att matcha dessa vikter, vilket inte överlappar 2018 testuppsättningen.När vi utvärderade de filtrerade förutsägelserna beräknade vi MSE i den sfäriska harmoniska domänen, som det beskrivs i Ekvation (22). Genom att montera olika filter för varje ledtid, var graden av suddning fri att öka med ökad osäkerhet vid längre ledtider. While this method is fairly general, it also has limitations. Because the filters are homogeneous, they are unable to take into account location-specific features, such as orography or land-sea boundaries, and so they must choose between over-blurring predictable high-resolution details in these locations, or under-blurring unpredictable high-resolution details more generally. This makes them less effective for some surface variables like 2 T, which contain many such predictable details. Future work may consider more complex post-processing schemes. Ett alternativt sätt att närma sig en villkorlig förväntan (och därmed förbättra RMSE) för vår ECMWF prognos baslinje skulle vara att utvärdera ensemble medelvärdet av ENS ensemble prognossystem, i stället för deterministiska HRES prognos. dock ENS ensemble körs vid lägre upplösning än HRES, och på grund av detta är det oklart för oss om dess ensemble medelvärde kommer att förbättra på RMSE av en post-bearbetad version av HRES. 7.4.3 Överföringsfunktioner för optimala filter Filtervikterna visualiseras i figur 33, som visar förhållandet mellan utmatningskraft och inmatningskraft för filtret, på den logaritmiska decibelskalan, som en funktion av våglängd. Equation (35), this is equal to 20 log10(𝑏𝜏 ) for the wavelength 𝐶𝑒/𝑙 corresponding to total wavenumber 𝑙.) For both HRES and GraphCast, we see that it is optimal for MSE to attenuate power over some short-to-mid wavelengths. As lead times increase, the amount of attenuation increases, as does the wavelength at which it is greatest. In optimizing for MSE, we seek to approximate a conditional expectation which averages over predictive uncertainty. Over longer lead times this predictive uncertainty increases, as does the spatial scale of uncertainty about the location of weather phenomena. We believe that this largely explains these changes in optimal filter response as a function of lead time. Vi kan se att HRES i allmänhet kräver mer suddighet än GraphCast, eftersom GraphCasts förutsägelser redan suddar i viss utsträckning (se avsnitt 7.5.3), medan HRES inte gör det. De optimala filtren kan också i viss utsträckning kompensera för spektrala bias i förutsägelserna i GraphCast och HRES. Till exempel, för många variabler i vår regriderade ERA5-datasats, skär spektrumet av plötsligt för våglängder under 62km som är olösta vid ERA5: s inhemska upplösning 0.28125◦. Vi noterar också att det finns märkbara toppar i GraphCast-filterresponsen runt 100km våglängd för z500, som inte är närvarande för HRES. Vi tror att dessa filtrerar ut små, falska artefakter som introduceras av GraphCast runt dessa våglängder som en bieffekt av nät-till-nät-omvandlingar som utförs inuti modellen. 7.4.4 Förhållandet mellan autoregressiv träning horisont och suddighet In Figure 34 we use the results of optimal blurring to investigate the connection between autoregressive training and the blurring of GraphCast’s predictions at longer lead times. I den första raden av figur 34 ser vi att modeller som tränats med längre autoregressiva träningshorisonter drar mindre nytta av optimal dimning, och att fördelarna med optimal dimning i allmänhet börjar ackumuleras först efter ledtiden som motsvarar den horisont de tränades upp till. It would be convenient if we could replace longer-horizon training with a simple post-processing strategy like optimal blurring, but this does not appear to be the case: in the second row of Figure 34 we see that longer-horizon autoregressive training still results in lower RMSEs, even after optimal blurring has been applied. Om man önskar förutsägelser som på något sätt är minimalt suddiga, kan man använda en modell som är utbildad till ett litet antal autoregressiva steg. Detta skulle naturligtvis resultera i högre RMSEs vid längre ledtider, och våra resultat här tyder på att dessa högre RMSEs inte bara skulle bero på bristen på suddighet; man skulle kompromissa på andra aspekter av skicklighet vid längre ledtider också. 7.5. Spectral analysis 7.5.1 Spektral nedbrytning av genomsnittlig kvadratisk fel In Figures 35 and 36 we compare the skill of GraphCast with HRES over a range of spatial scales, before and after optimal filtering (see details in Section 7.4). The MSE, via its spectral formulation (Equation (22)) can be decomposed as a sum of mean error powers at different total wavenumbers: där lmax = 719 som i Ekvation (22). Varje totalt vågnummer l motsvarar ungefär en våglängd Ce/l, där Ce är jordens omkrets. Vi planerar effektdensitetshistogram, där området för varje bar motsvarar S j,τ(l), och barerna mitt runt log10(1 + l) (eftersom en logfrekvensskala tillåter enklare visuell inspektion, men vi måste också inkludera vågnummer l = 0). At lead times of 2 days or more, for the majority of variables GraphCast improves on the skill of HRES uniformly over all wavelengths. (2m temperature is a notable exception). Vid kortare ledtider på 12 timmar till 1 dag, för ett antal variabler (inklusive z500, T500, T850 och U500) har HRES större skicklighet än GraphCast på skalor i det ungefärliga intervallet 200-2000km, med GraphCast generellt har större skicklighet utanför detta intervall. 7.5.2. RMSE as a function of horizontal resolution I figur 37 jämför vi färdigheten hos GraphCast med HRES när den utvärderas i en rad rumsliga upplösningar. Specifikt, vid varje total våglängd ltrunc, vi planera RMSEs mellan förutsägelser och mål som båda är truncated vid det totala våglängden. The RMSEs between truncated predictions and targets can be obtained via cumulative sums of the mean error powers 𝑆 𝑗,𝜏(𝑙) defined in Equation (37), according to Figur 37 visar att i de flesta fall har GraphCast lägre RMSE än HRES vid alla upplösningar som vanligtvis används för prognosverifiering. Detta gäller före och efter optimal filtrering (se avsnitt 7.4). Undantag inkluderar 2 meter temperatur vid ett antal ledtider och upplösningar, T 500 vid 12 timmars ledtider och U 500 vid 12 timmars ledtider, där GraphCast gör bättre vid 0,25° upplösning men HRES gör bättre vid upplösningar runt 0,5◦ till 2,5◦ (motsvarande kortaste våglängder på cirka 100 till 500 km). I synnerhet noterar vi att den inhemska upplösningen av ERA5 är 0,28125◦ som motsvarar en kortaste våglängd på 62km, som indikeras av en vertikal linje i tomterna. HRES-fc0 mål innehåller vissa signaler vid våglängder kortare än 62km, men de ERA5 mål som används för att utvärdera GraphCast inte, inhemska åtminstone (se avsnitt 7.5.3). 7.5.3 Spektrum av prognoser och mål Figur 38 jämför kraftspektrumet i GraphCasts förutsägelser, de ERA5-mål som de utbildades mot och HRES-fc0. There are noticeable differences in the spectra of ERA5 and HRES-fc0, especially at short wavelengths. These differences may in part be caused by the methods used to regrid them from their respective native IFS resolutions of TL639 (0.28125◦) and TCo1279 (approx. 0.1◦, [36]) to a 0.25° equiangular grid. However even before this regridding is done there are differences in IFS versions, settings, resolution and data assimilation methodology used for HRES and ERA5, and these differences may also affect the spectra. Since we evaluate GraphCast against ERA5 and HRES against HRES-fc0, this domain gap remains an important caveat to attach to our conclusions. Differences between HRES and ERA5 Vi ser minskad effekt vid kort-till-mellan våglängder i GraphCasts förutsägelser som minskar ytterligare med ledtid. Vi tror att detta motsvarar blurring som GraphCast har lärt sig att utföra i optimering för MSE. Vi diskuterade detta ytterligare i avsnitt 7.4 och 7.4.4. Blurring in GraphCast Dessa toppar är särskilt synliga för z500; de verkar öka med ledtiden.Vi tror att de motsvarar små, falsk artefakter som införs av de interna grid-to-mesh och mesh-to-grid-transformationer som utförs av GraphCast vid varje autoregressivt steg. Peaks for GraphCast around 100km wavelengths Slutligen noterar vi att medan dessa skillnader i effekt vid korta våglängder är mycket märkbara i loggskala och relativa tomter, bidrar dessa korta våglängder lite till signalens totala effekt. Ytterligare svåra händelseprognosresultat In this section, we provide additional details about our severe event forecasting analysis. We note that GraphCast is not specifically trained for those downstream tasks, which demonstrates that, beyond improved skills, GraphCast provides useful forecast for tasks with real-world impact such as tracking cyclones (Section 8.1), characterizing atmospheric rivers (Section 8.2), and classifying extreme temperature (Section 8.3). Each task can also be seen as evaluating the value of GraphCast on a different axis: spatial and temporal structure of high-resolution prediction (cyclone tracking task), ability to non-linearly combine GraphCast predictions to derive quantities of interest (atmospheric rivers task), and ability to characterize extreme and rare events (extreme temperatures). 8.1 Tropisk cyklonspårprognos I det här avsnittet detaljerar vi de utvärderingsprotokoll vi använde för cyklonspårning (Supplements Section 8.1.1) och analys av statistisk betydelse (Supplements Section 8.1.2), ger ytterligare resultat (Supplements Section 8.1.3), och beskriver vår tracker och dess skillnader med en från ECMWF (Supplements Section 8.1.4). 8.1.1 Utvärderingsprotokoll Det vanliga sättet att inleda Graph runt samma spår Graphic Cyclone prediction system är att begränsa jämförelsen till händelser där båda modellerna förutsäga förekomsten av en cyklon. Som det beskrivs i tillägg avsnitt 5.2.2, GraphCast är initialiserad från 06z och 18z, snarare än 00z och 12z, för att undvika att ge det en lookahead fördel över HRES. Men för att jämföra HRES och GraphCast cyklon spår i TIGGE arkiv [8] är endast initialiserad vid 00z och 12z. Denna skillnad hindrar oss från att välja händelser där initialiseringen och led tidskartan till samma giltighetstid för båda metoderna, eftersom det alltid finns en 6h missmatch. Istället för att jämföra HRES och GraphCast på en upps Eftersom vi beräknar fel med avseende på samma grundläggande sanning (dvs. IBTrACS) är utvärderingen inte föremål för samma begränsningar som beskrivs i avsnitt 5.2.2 i tillägg, dvs. målen för båda modellerna innehåller samma mängd lookahead. Detta är i motsats till de flesta av våra utvärderingar i detta papper, där målen för HRES (dvs. HRES-fc0) innehåller +3h lookahead, och de för GraphCast (från ERA5) innehåller +3h eller +9h, vilket leder till att vi bara rapporterar resultat för ledtiderna med en matchande lookahead (multiples av 12h). För en given prognos beräknas felet mellan det förutsedda centrumet av cyklonen och det sanna centrumet med hjälp av det geodetiska avståndet. 8.1.2. Statistical methodology Beräkning statistisk förtroende i cyklon spårning kräver särskild uppmärksamhet i två aspekter: 1. There are two ways to define the number of samples. The first one is the number of tropical cyclone events, which can be assumed to be mostly independent events. The second one is the number of per-lead time data points used, which is larger, but accounts for correlated points (for each tropical cyclone event multiple predictions are made at 6h interval). We chose to use the first definition which provides more conservative estimates of statistical significance. Both numbers are shown for lead times 1 to 5 days on the x-axis of Supplements Figure 39. 2. The per-example tracking errors of HRES and GraphCast are correlated. Therefore statistical variance in their difference is much smaller than their joint variance. Thus, we report the confidence that GraphCast is better than HRES (see Supplements Figure 39b) in addition to the per-model confidence (see Supplements Figure 39a). Med tanke på de två övervägandena ovan gör vi bootstrapping med 95% konfidensintervaller på cyklonnivå. För en given ledtid tar vi hänsyn till alla motsvarande initialiseringstid/ledtidspar och håller en lista över vilken cyklon de kommer från (utan duplicering). För bootstrap-beräkningen drar vi prover från denna cyklonlista (med ersättning) och tillämpar medianen (eller medelvärdet) på motsvarande initialiseringstid/ledtidspar. Observera att detta ger oss mycket mer konservativa förtroendegränser än att göra bootstrapping på nivån av initialiseringstid/ledtidspar, eftersom det motsvarar att anta att alla bootstrap-prover som kommer från provcyklonen (vanligtvis i ordning av tiotals) är perfekt korrelerade. Anta till exempel att vi för en given ledtid har fel (50, 100, 150) för cyklon A, (300, 200) för cyklon B och (100, 100) för cyklon C, med A som har fler prover. 8.1.3. Results In Supplements Figure 3a-b, we chose to show the median error rather than the mean. This decision was made before computing the results on the test set, based on the performance on the validation set. On the years 2016–2017, using the version of GraphCast trained on 1979–2015, we observed that, using early versions of our tracker, the mean track error was dominated by very few outliers and was not representative of the overall population. Furthermore, a sizable fraction of these outliers were due to errors in the tracking algorithm rather than the predictions themselves, suggesting that the tracker was suboptimal for use with GraphCast. Because our goal is to assess the value of GraphCast forecast, rather than a specific tracker, we show median values, which are also affected by tracking errors, but to a lesser extent. In figure Figure 40 we show how that the distribution of both HRES and GraphCast track errors for the test years 2018–2021 are non-gaussian with many outliers. This suggests the median is a better summary statistic than the mean. Supplements Figure 39 complements Figure 3a-b by showing the mean track error and the corresponding paired analysis. We note that using the final version of our tracker (Supplements Sec-tion 8.1.4), GraphCast mean results are similar to the median one, with GraphCast significantly outperforming HRES for lead time between 2 and 5 days. På grund av välkända dimningseffekter, som tenderar att jämna ut det extrema som används av en spårare för att upptäcka närvaron av en cyklon, kan ML-metoder släppa befintliga cykloner oftare än NWPs. Att släppa en cyklon är mycket korrelerat med att ha ett stort positioneringsfel. För att undvika detta problem verifierar vi att vår hyperparameter-sökta tracker (se tillägg avsnitt 8.1.4) saknar ett liknande antal cykloner som HRES. Supplements Figures 42 and 43 show the median error and paired analysis as a function of lead time, broken down by cyclone category, where category is defined on the Saffir-Simpson Hurricane Wind Scale [47], with category 5 representing the strongest and most damaging storms (note, we use category 0 to represent tropical storms). We found that GraphCast has equal or better performance than HRES across all categories. For category 2, and especially for category 5 (the most intense events), GraphCast is significantly better that HRES, as demonstrated by the per-track paired analysis. We also obtain similar results when measuring mean performance instead of median. 8.1.4 Spårningsdetaljer Den tracker vi använde för GraphCast är baserad på vår omimplementering av ECMWF: s tracker [35]. Eftersom den är utformad för 0,1° HRES, fann vi det användbart att lägga till flera modifieringar för att minska mängden misslyckade cykloner när den tillämpas på GraphCast-prognoser. We first give a high-level summary of the default tracker from ECMWF, before explaining the modifications we made and our decision process. Med tanke på en modell förutsägelser av variablerna 10 U, 10 v, MsL samt U, v och z vid trycknivåer 200, 500, 700, 850 och 1000 hPa över flera tidssteg, ECMWF tracker [35] sekventiellt bearbetar varje gång steg för att iterativt förutsäga platsen för en cyklon över en hel bana. Varje 6 timmars förutsägelse av tracker har två huvudsteg. I det första steget, baserat på den nuvarande platsen för cyklonen, tracker beräknar en uppskattning av nästa plats, 6 timmar framåt. ECMWF tracker För att beräkna uppskattningen av nästa cyklonplats flyttar spåraren den aktuella uppskattningen med hjälp av en förskjutning beräknad som medelvärdet av två vektorer: 1) förskjutningen mellan de två sista spårplatserna (dvs. linjär extrapolering) och 2) en uppskattning av vindstyrningen, medelvärdet av vindhastigheten U och v vid föregående spårposition vid trycknivåer 200, 500, 700 och 850 hPa. Once the estimate of the next cyclone location is computed, the tracker looks at all local minima of mean sea-level pressure (MsL) within 445 km of this estimate. It then searches for the candidate minima closest to the current estimate that satisfies the following three conditions: Vorticitetskontroll: den maximala vorticiteten vid 850 hPa inom 278 km av de lokala minima är större än 5 · 10−5 s−1 för norra halvklotet, eller är mindre än −5 · 10−5s−1 för södra halvklotet. Vindhastighetskontroll: Om kandidaten är på land, är den maximala vindhastigheten på 10 m inom 278 km större än 8 m/s. 3. Thickness check: if the cyclone is extratropical, there is a maximum of thickness between 850 hPa and 200 hPa within a radius of 278 km, where the thickness is defined as z850-z200. If no minima satisfies all those conditions, the tracker considers that there is no cyclone. ECMWF’s tracker allows cyclones to briefly disappear under some corner-case conditions before reappearing. In our experiment with GraphCast, however, when a cyclone disappear, we stop the tracking. Vi analyserade felspåren på cykloner från våra valideringssatsår (2016–2017), med hjälp av en version av GraphCast utbildad på 1979–2015, och modifierade standardreimplementeringen av ECMWF-spåraren som beskrivs nedan. Our modified tracker Vi fann att denna parameter var kritisk och sökte efter ett bättre värde bland följande alternativ: 445 × f för f i 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (ursprungligt värde). Vi fann också att denna parameter var kritisk och sökte efter ett bättre värde bland följande alternativ: 278 × f för f i 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (ursprungligt värde). 3. nästa steg uppskattning av ECMWF använder en 50-50 vägning mellan linjär extrapolering och vindstyrningsvektorer. I vårt fall där vinden förutses vid 0,25° upplösning, fann vi vindstyrning till ibland hinder uppskattningar. Detta är inte förvånande eftersom vinden inte är ett rumsligt jämnt fält, och spåraren är sannolikt skräddarsydd för att dra nytta av 0,1° upplösning förutsägelser. Således sökte vi hyperparameter vägningen bland följande alternativ: 0,0, 0,1, 0,33, 0,5 (ursprungligt värde). 4. We noticed multiple misstracks happened when the track sharply reversed course, going against its previous direction. Thus, we only consider candidates that creates an angle between the previous and new direction below 𝑑 degrees, where 𝑑 was searched among these values: 90, 135, 150, 165, 175, 180 (i.e. no filter, original value). Vi märkte att flera misstracks gjorde stora hopp, på grund av en kombination av bullrig vindstyrning och funktioner som var svåra att urskilja för svaga cykloner. Således utforskade vi klippning uppskattningen av att flytta bortom x kilometer (genom att ändra delta med den sista mitten), sökning över följande värden för x: 445 × f för f i 0.25, 0.5, 1.0, 2.0, 4.0, ∞ (dvs. ingen klippning, ursprungligt värde). Under hyperparametersökningen verifierade vi också på valideringsdata att spåraren som applicerades på GraphCast släppte ett liknande antal cykloner som HRES. 8.2 Atmosfäriska floder Den vertikalt integrerade vattendamptransporten (IvT) används vanligen för att karakterisera intensiteten hos atmosfäriska floder [38, 37]. Även om GraphCast inte direkt förutsäger IvT och inte är speciellt utbildad för att förutsäga atmosfäriska floder, kan vi härleda denna mängd från de förutsedda atmosfäriska variablerna specifika fuktighet, Q och horisontell vind, (U, v), via förhållandet [38]: där g = 9,80665 m/s2 är accelerationen på grund av tyngdkraften på jordens yta, pb = 1000 hPa är bottentrycket, och pt = 300 hPa är topptrycket. Utvärdering av IvT med ovanstående förhållande kräver numerisk integration och resultatet beror därför på den vertikala upplösningen av förutsägelsen. GraphCast har en vertikal upplösning på 37 trycknivåer vilket är högre än upplösningen av de tillgängliga HRES-banorna med endast 25 trycknivåer.För en konsekvent och rättvis jämförelse av båda modellerna använder vi därför endast en gemensam deluppsättning av trycknivåer, som också ingår i WeatherBench-referensvärdet, när vi utvärderar IvT 8, nämligen [300, 400, 500, 600, 700, 850, 925, 1000] hPa. I enlighet med resten av vårt utvärderingsprotokoll utvärderas varje modell mot sin egen "analys". För GraphCast beräknar vi IvT baserat på dess förutsägelser och jämför det med IvT beräknat analogt från ERA5. I likhet med föregående arbete [10], rapporterar figur 44 RMSE färdighets- och färdighetsscore genomsnitt över kustnära Nordamerika och östra Stilla havet (från 180°W till 110°W längd och 10°N till 60°N bredd) under den kalla årstiden (januari-april och oktober-december 2018), vilket motsvarar en region och en period med frekventa atmosfäriska floder. 8.3 Extrem värme och kyla Vi studerar extrem värme och kall prognos som ett binärt klassificeringsproblem [35, 32] genom att jämföra huruvida en given prognosmodell korrekt kan förutsäga om värdet för en viss variabel kommer att vara över (eller under) en viss percentil av fördelningen av en referens historisk klimatologi (t.ex. över 98% percentil för extrem värme och under 2% percentil för extrem kyla). Efter tidigare arbete [35] erhålls referensklimatologin separat för (1) varje variabel (2) varje månad av året, (3) varje tid på dagen, (4) varje latitud/längdskoordinat, och (5) varje trycknivå (om tillämpligt). Detta gör detektering av extremer mer kontrasterande genom att ta bort effekten av den dagliga och säsongsmässiga cyklerna i varje rymdplats. För att hålla jämförelsen så Eftersom extrema prognoser är ett obalanserat klassificeringsproblem baserar vi vår analys på precision-recall-plotter som är väl lämpade för detta fall [42]. Precision-recall-kurvan erhålls genom att variera en fri parameter "vinst" som består av en skalningsfaktor i förhållande till klimatologins medelvärde, det vill säga skalad prognos = vinst × (prognos − medelvärde) + medelvärde. Detta har effekten av att flytta beslutsgränsen och gör det möjligt att studera olika handelsavvikelser mellan falska negativa och falska positiva. Intuitivt kommer en 0 vinst att producera noll prognos positiva (t.ex. noll falska positiva) och en oändlig vinst kommer att producera förstärkning av varje värde över med Vi fokuserar vår analys på variabler som är relevanta för extrema temperaturförhållanden, i synnerhet 2 T [35, 32], och även T 850, z500 som ofta används av ECMWF för att karakterisera värmeböljor [34]. Efter tidigare arbete [32], för extrem värme vi genomsnitt över land i norra halvklotet (latitud > 20◦) och över land i södra halvklotet (latitud < -20◦) under december, januari och februari. För extrem kyla bytte vi månaderna för norra och södra halvklotet. Se fullständiga resultat i figur 45. Vi tillhandahåller också en finare ledtid jämförelse, genom att sammanfatta precision-recall kurvor genom att välja den punkt med den högsta SEDI-poängen [35] och visa denna funktion som ledtid (figur 46). Förutspådda visualiseringar I det här sista avsnittet ger vi några visualiseringsexempel på de förutsägelser som gjorts av GraphCast för variablerna 2 T (figur 47), 10 U (figur 48), MsL (figur 49), z500 (figur 50), T 850 (figur 51), v 500 (figur 52), Q 700 (figur 53). Referenser [1] Ferran Alet, Adarsh Keshav Jeewajee, Maria Bauza Villalonga, Alberto Rodriguez, Tomas Lozano-Perez och Leslie Kaelbling. Grafelementnätverk: adaptiv, strukturerad beräkning och minne. I International Conference on Machine Learning, sidorna 212–222. PMLR, 2019. [2] Kelsey R Allen, Yulia Rubanova, Tatiana Lopez-Guevara, William Whitney, Alvaro Sanchez-Gonzalez, Peter Battaglia och Tobias Pfaff. Lär dig styv dynamik med ansiktsinteraktion grafnätverk. arXiv förutskrift arXiv:2212.03574, 2022. [3] Jimmy Lei Ba, Jamie Ryan Kiros och Geoffrey E. Hinton. lager normalisering. arXiv, 2016. [4] Igor Babuschkin, Kate Baumli, Alison Bell, Surya Bhupatiraju, Jake Bruce, Peter Buchlovsky, David Budden, Trevor Cai, Aidan Clark, Ivo Danihelka, Claudio Fantacci, Jonathan Godwin, Chris Jones, Ross Hemsley, Tom Hennigan, Matteo Hessel, Shaobo Hou, Steven Kapturowski, Thomas Keck, Iurii Kemaev, Michael King, Markus Kunesch, Lena Martens, Hamza Merzic, Vladimir Mikulik, Tamara Norman, John Quan, George Papamakarios, Roman Ring, Francisco Ruiz, Alvaro Sanchez, Rosalia Schneider, Eren Sezener, Stephen Spencer, Srivatsan Srinivasan, Luyu, Wangciech Wojciech Stokowiec och Fabio Viola. // github.com/deepmind från och med 2020. [5] Peter Battaglia, Razvan Pascanu, Matthew Lai, Danilo Jimenez Rezende, et al. Interaktionsnätverk för att lära sig om föremål, relationer och fysik. [6] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Relational inductive biases, deep learning, and graph networks. arXiv preprint arXiv:1806.01261, 2018. [7] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu och Qi Tian. Pangu-väder: En 3D-modell med hög upplösning för snabb och noggrann global väderprognos. arXiv preprint arXiv:2211.02556, 2022. [8] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. The THORPEX interactive grand global ensemble. Bulletin of the American Meteorological Society, 91(8):1059–1072, 2010. [9] James Bradbury, Roy Frostig, Peter Hawkins, Matthew James Johnson, Chris Leary, Dougal Maclaurin, George Necula, Adam Paszke, Jake VanderPlas, Skye Wanderman-Milne och Qiao Zhang. JAX: komposterbara transformationer av Python+NumPy-program. http://github. com/google/jax, 2018. [10] WE Chapman, AC Subramanian, L Delle Monache, SP Xie och FM Ralph. Förbättra atmosfäriska flodprognoser med maskininlärning. Geophysical Research Letters, 46(17-18):10627–10635, 2019. [11] Tianqi Chen, Bing Xu, Chiyuan Zhang och Carlos Guestrin. Träning djupa nät med sublineär minne kostnad. arXiv förtryck arXiv:1604.06174, 2016. [12] Balaji Devaraju. Förstå filtrering på sfären: Erfarenheter från filtrering av GRACE-data. doktorsavhandling, University of Stuttgart, 2015. [13] J R Driscoll och D M Healy. Computing fourier transforms och convolutions på 2-sphere. Adv. Appl. Matteus 15(2):202–250, juni 1994. [14] ECMWF. IFS documentation CY41R2 - part III: Dynamics and numerical procedures. https: //www.ecmwf.int/node/16647, 2016 och 2016. [15] Meire Fortunato, Tobias Pfaff, Peter Wirnsberger, Alexander Pritzel och Peter Battaglia. Multi-scale meshgraphnets. arXiv förtryck arXiv:2210.00612, 2022. [16] Alan J Geer. Betydelsen av förändringar i medelstora prognospoäng. Tellus A: Dynamic Meteorology and Oceanography, 68(1):30229, 2016. [17] Jonathan Godwin, Thomas Keck, Peter Battaglia, Victor Bapst, Thomas Kipf, Yujia Li, Kimberly Stachenfeld, Petar Veličković och Alvaro Sanchez-Gonzalez. Jraph: Ett bibliotek för graf neurala nätverk i JAX. http://github.com/deepmind/jraph, 2020. [18] T. Haiden, Martin Janousek, Jean-Raymond Bidlot, R. Buizza, L. Ferranti, F. Prates och Frédéric Vitart. Utvärdering av ECMWF-prognoser, inklusive uppgraderingen 2018. https://www.ecmwf. int/node/18746, 10/2018 2018. [19] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, Crtistina Prates, och David Richardson. Utvärdering av ECMWF prognoser, inklusive 2020 uppgradering. https://www.ecmwf.int/node/19879, 01/2021 2021. [20] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti och Fernando Prates. Utvärdering av ECMWF-prognoser, inklusive uppgraderingen 2021. https://www. ecmwf.int/node/20142, 09/2021 2021. [21] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, Fernando Prates och David Richardson. Utvärdering av ECMWF prognoser, inklusive uppgraderingen 2021. https://www.ecmwf.int/node/20469, 09/2022 2022. [22] Thomas Haiden, Martin Janousek, Frédéric Vitart, Laura Ferranti och Fernando Prates. Utvärdering av ECMWF-prognoser, inklusive uppgraderingen 2019. https://www.ecmwf.int/node/ 19277, 11/2019 2019. Tom Hennigan, Trevor Cai, Tamara Norman och Igor Babuschkin. Haiku: Sonnet för JAX. http://github.com/deepmind/dm-haiku, 2020. [24] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. Den globala reanalysen av ERA5. Kvartalstidningen för Royal Meteorological Society, 146(730):1999–2049, 2020. [25] S. Hoyer och J. Hamman. xarray: N-D märkta array och dataset i Python. Journal of Open Research Software, 5(1), 2017. [26] Ryan Keisler. Global väderprognos med graf neurala nätverk. arXiv förutskrift arXiv:2202.07575, 2022. [27] Diederik P Kingma och Jimmy Ba. Adam: En metod för stochastisk optimering. arXiv preprint arXiv:1412.6980, 2014. [28] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. International best track archive for climate stewardship (IBTrACS) project, version 4. https://doi.org/10.25921/82ty-9e16, 2018. [29] Kenneth R Knapp, Michael C Kruk, David H Levinson, Howard J Diamond och Charles J Neumann. Det internationella bästa spårarkivet för klimatförvaltning (IBTrACS) som förenar tropiska cyklondata. Bulletin of American Meteorological Society, 91(3):363–376, 2010. [30] Michael C Kruk, Kenneth R Knapp, och David H Levinson. En teknik för att kombinera globala tropiska cykloner bästa spårdata. Journal of Atmospheric and Oceanic Technology, 27(4):680–692, 2010. [31] David H Levinson, Howard J Diamond, Kenneth R Knapp, Michael C Kruk, och Ethan J Gibney. Mot en homogen global tropiska cyklon bästa spår dataset. Bulletin of American Meteorological Society, 91(3):377–380, 2010. [32] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal och Jason Hickey. globala extrema värmeprognoser med hjälp av neurala vädermodeller. artificiell intelligens för jordens system, sidor 1–41, 2022. [33] Ilya Loshchilov och Frank Hutter. avkopplad viktnedbrytning reglering. arXiv preprint arXiv:1711.05101, 2017. [34] Linus Magnusson. 202208 - värmeböljan - uk. https://confluence.ecmwf.int/display/ FCST/202208+-+Heatwave+-+UK, 2022. [35] Linus Magnusson, Thomas Haiden och David Richardson. Verifiering av extrema väderhändelser: Diskreta förutsägelser. [36] S. Malardel, Nils Wedi, Willem Deconinck, Michail Diamantakis, Christian Kuehnlein, G. Mozdzynski, M. Hamrud och Piotr Smolarkiewicz. Ett nytt nät för IFS. https: //www.ecmwf.int/node/17262, 2016 och 2016. [37] Benjamin J Moore, Paul J Neiman, F Martin Ralph, och Faye E Barthold. Fysiska processer förknippade med kraftiga översvämningar nederbörd i Nashville, Tennessee, och omgivningen under 1–2 maj 2010: Rollen av en atmosfärisk flod och mesoskala konvektiva system. Monthly Weather Review, 140(2):358–378, 2012. [38] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist, och Michael D Dettinger. Meteorologiska egenskaper och överjordiska nederbördseffekter av atmosfäriska floder som påverkar västkusten i Nordamerika baserat på åtta års ssm / i satellitobservationer. [39] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez och Peter Battaglia. Lärande nätbaserad simulering med grafnätverk. I International Conference on Learning Representations, 2021. [40] Prajit Ramachandran, Barret Zoph, och Quoc V Le. Sökning efter aktiveringsfunktioner. arXiv preprint arXiv:1710.05941, 2017. [41] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid och Nils Thuerey. WeatherBench: en dataset för datadriven väderprognos. Journal of Advances in Modeling Earth Systems, 12(11):e2020MS002203, 2020. [42] Takaya Saito och Marc Rehmsmeier. Precision-recall plot är mer informativ än ROC plot när man utvärderar binära klassificerare på obalanserade datamängder. PloS en, 10(3):e0118432, 2015. [43] Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec och Peter Battaglia. Lär dig att simulera komplex fysik med grafnätverk. I International Conference on Machine Learning, sidorna 8459–8468. PMLR, 2020. [44] B. D. Santer, R. Sausen, T. M. L. Wigley, J. S. Boyle, K. AchutaRao, C. Doutriaux, J. E. Hansen, G. A. Meehl, E. Roeckner, R. Ruedy, G. Schmidt och K. E. Taylor. Beteende av tropopaushöjd och atmosfärstemperatur i modeller, reanalyser och observationer: Decadal förändringar. Journal of Geophysical Research: Atmospheres, 108(D1):ACL 1–1–ACL 1–22, 2003. [45] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M Hamill, Tim D Hewson, Julia H Keller, Mio Matsueda, John Methven, Florian Pappenberger, et al. TIGGE-projektet och dess resultat Bulletin of the American Meteorological Society, 97(1):49–67, 2016. [46] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson och Munehiko Yamaguchi. TIGGE-projektet och dess resultat. Bulletin of the American Meteorological Society, 97(1):49 – 67, 2016. [47] Harvey Thurm Taylor, Bill Ward, Mark Willis och Walt Zaleski. Orkanen Saffir-Simpson vindskala. Atmosfäriska Administration: Washington, DC, USA, 2010. [48] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser och Illia Polosukhin. Uppmärksamhet är allt du behöver. [49] Petar Veličković, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio och Yoshua Bengio. Graf uppmärksamhet nätverk. arXiv förtryck arXiv:1710.10903, 2017. Den här artikeln finns tillgänglig på arkiv under CC by 4.0 Deed (Attribution 4.0 International) licens. Den här artikeln finns tillgänglig på arkiv under CC by 4.0 Deed (Attribution 4.0 International) licens.