DeepMind's GraphCast pārspēj pasaules labāko laika prognozes sistēmu

Autori : Remi Lam (Google DeepMind) Alvaro Sanchez-Gonzalez (Google DeepMind) Matthew Willson (Google DeepMind) Peter Wirnsberger (Google DeepMind) Meire Fortunato (Google DeepMind) Ferran Alet (Google DeepMind) Suman Ravuri (Google DeepMind) Timo Ewalds (Google DeepMind) Zach Eaton-Rosen (Google DeepMind) Weihua Hu (Google DeepMind) Alexander Merose (Google Research) Stephan Hoyer (Google Research) George Holland (Google DeepMind) Oriol Vinyals (Google DeepMind) Jacklynn Stott (Google DeepMind) Alexander Pritzel (Google DeepMind) Shakir Mohamed (Google DeepMind) Peter Battaglia (Google DeepMind) Autori : Remi Lāma (Google DeepMind) Alvaro Sančess-Gonzalez (Google DeepMind tīmekļa vietne) Matīss Vilsons (Google DeepMind) Pēteris Vērnsbergs (Google DeepMind) Meirē Fortunato (Google DeepMind) Ferran Alet no Google DeepMind Suman Ravuri no Google DeepMind Timo Evalds (Google DeepMind) Zach Eaton-Rosen (Google DeepMind rīcībā) Mārtiņš Vītoliņš (Google DeepMind) Aleksandrs Merozs (Google pētījumi) Stephan Hoyer (Google pētījumi) Džordžs Holandes (Google DeepMind) Oriol Vinyals (Google DeepMind) izmantošana Džeikls Stots (Google DeepMind) Aleksandrs Pritsels (Google DeepMind) Šahirs Mohameds (Google DeepMind) Pīters Battaglija (Google DeepMind) Globālā vidēja diapazona laika prognoze ir svarīga lēmumu pieņemšanai daudzās sociālajās un ekonomiskajās jomās. Tradicionālā skaitliskā laika prognoze izmanto palielinātos aprēķina resursus, lai uzlabotu prognozes precizitāti, bet nevar tieši izmantot vēsturiskos laika apstākļu datus, lai uzlabotu pamatmodelu. Mēs ieviesām mašīntulkošanas metodi, ko sauc par "GraphCast", ko var apmācīt tieši no atkārtotas analīzes datiem. Tā 10 dienu laikā ar 0,25° izšķirtspēju visā pasaulē, mazāk nekā minūtē prognozē simtiem laika mainīgo. Mēs parādām, ka GraphCast ievērojami pārsniedz visprecīzākās operatīvās deterministiskās sistēmas par 90% no 1380 verifikācijas mērķiem, un tās prognozes labāk atbalsta Atslēgvārdi: laika prognoze, ECMWF, ERA5, HRES, mācīšanās simulācija, grafisko neironu tīkli Ievads Tas ir 05:45 UTC 2022. gada oktobra vidū Bolonijā, Itālijā, un Eiropas Centrs vidēja ranga laika prognožu (ECMWF) jaunā augstas veiktspējas datortehnikas iekārta ir tikko uzsākusi darbību.Pēdējo vairāku stundu laikā Integrētā prognožu sistēma (IFS) ir veikusi sarežģītus aprēķinus, lai prognozētu Zemes laika apstākļus nākamajās dienās un nedēļās, un tās pirmās prognozes ir tikko sākušas izplatīties lietotājiem. IFS un mūsdienu laika prognozēšana vispārīgāk ir zinātnes un inženierzinātņu triumfi. Laika sistēmu dinamika ir viena no sarežģītākajām fiziskajām parādībām uz Zemes, un katru dienu neskaitāmi lēmumi, ko pieņem indivīdi, nozares un politikas veidotāji, ir atkarīgi no precīzas laika prognozēšanas, no lēmuma par to, vai valkāt jaku vai aizbēgt no bīstamas vētras. Dominējošā pieeja laika prognozēšanai šodien ir "numeriskā laika prognozēšana" (NWP), kas ietver laika noteikšanas vienādojumu atrisināšanu, izmantojot superkomputerus. NWP panākumi ir stingrā un nepārtrauktā pētniecības praksē, kas nodrošina arvien detalizētāku laika parādību aprakstu, un to, cik labi Bet, lai gan tradicionālā NWP labi mēra ar aprēķiniem, tās precizitāte nepalielinās ar pieaugošiem vēsturisko datu apjomiem.Ir lieli laika un klimatoloģisko datu arhīvi, piemēram, ECMWF MARS [17], bet līdz nesenam laikam ir bijuši daži praktiski veidi, kā izmantot šādus datus, lai tieši uzlabotu prognozēšanas modeļu kvalitāti. Mašīnzinātnes balstīta laika prognoze (MLWP) piedāvā alternatīvu tradicionālajai NWP, kur prognozēšanas modeļi tiek apmācīti tieši no vēsturiskiem datiem. Tam ir potenciāls uzlabot prognozēšanas precizitāti, uztverot modeļus un skalas datos, kas nav viegli pārstāvēti skaidros vienādojumos. MLWP piedāvā arī iespējas lielākai efektivitātei, izmantojot modernu dziļās mācīšanās aparatūru, nevis superkomputerus, un panākot labvēlīgāku ātruma precizitātes kompromisu. Nesen MLWP ir palīdzējis uzlabot NWP balstītu prognozēšanu režīmos, kuros tradicionālā NWP ir salīdzinoši vāja, piemēram, apakšsezonas siltuma viļņu prognoze [16] un nokrišņi, kas Vidēja diapazona laika prognozēšanā, t.i., atmosfēras mainīgo prognozēšanā līdz 10 dienām uz priekšu, NWP bāzes sistēmas, piemēram, IFS, joprojām ir visprecīzākās. Vislabākā deterministiskā operētājsistēma pasaulē ir ECMWF Augstas izšķirtspējas prognozēšana (HRES), kas ir IFS sastāvdaļa, kas rada globālas 10 dienu prognozes ar 0,1° platuma/ilguma izšķirtspēju aptuveni stundā [27]. Tomēr pēdējos gados MLWP metodes vidēja diapazona prognozēšanai ir nepārtraukti attīstījušās, ko veicina tādi kritēriji kā laika benchmarks, piemēram, WeatherBench [27]. Dziļās mācīšanās arhitektūras, kuru pamatā ir konvolucionālie ne Grafika Šeit mēs iepazīstinām ar jaunu MLWP pieeju globālajai vidēja diapazona laika prognozei, ko sauc par "GraphCast", kas sniedz precīzu 10 dienu prognozi mazāk nekā minūtē vienā Google Cloud TPU v4 ierīcē un atbalsta lietojumprogrammas, tostarp tropu ciklonu, atmosfēras upju un ekstremālo temperatūru prognozēšanu. GraphCast kā ievadi ņem divus pēdējos Zemes laika apstākļus – pašreizējo laiku un sešas stundas agrāk – un paredz nākamo laika apstākļu stāvokli sešas stundas uz priekšu. Vienu laika stāvokli pārstāv 0,25° platuma/ilguma režģis (721 × 1440), kas atbilst aptuveni 28 × 28 kilometru izšķirtspējai ekvatorā (1.a attēls), kur katrs režģa punkts pārstāv virsmas un atmosfēras mainīgo elementu kopumu (uzskaitīts 1. tabulā). Tāpat kā tradicionālās NWP sistēmas, GraphCast ir autoregresīva: to var “izvilkt”, ievadot atpakaļ savas prognozes, lai radītu patvaļīgi garu laika apstākļu trajektoriju (1.b–c attēls). GraphCast tiek īstenots kā neirālo tīklu arhitektūra, pamatojoties uz GNNs "kodēšanas-procesa-dekodēšanas" konfigurācijā [1], ar kopējo 36,7 miljoniem parametru. Kodētājs (attēls 1d) izmanto vienu GNN slāni, lai kartētu mainīgos (normalizētos līdz nulles vidējās vienības variācijai), kas attēloti kā mezglu atribūti uz ievades tīkla, lai iemācītos mezglu atribūtus iekšējā "multi-mesh" pārstāvībā. Multi-mesh (attēls 1g) ir grafiks, kas ir telpā viendabīgs, ar augstu telpisko izšķirtspēju visā pasaulē. Tas ir definēts, rafinējot regulāru icosahedronu (12 mezgli, 20 sejas, 30 malas) iteratīvi sešas reizes, kur katrs rafinējums sadala katru trijstūri četrās mazākajās (kas noved pie četras reizes vairāk sejas un malām), un nodalot mezglus uz sfēru. Multi-mesh satur 40,962 mezgli no augstākās izšķirtspējas masas, un visu malu savienojums, kas izveidots starpposma grafos, veidojot plakanu malu hierarhiju ar svārstīgiem garumiem. Procesors (attēlā 1e) izmanto 16 nedalītus GNN slāņus, lai veiktu iemācītu ziņojumu pārsūtīšanu uz multi-mesh, kas ļauj efektīvi izplatīt vietējo un ilgtermiņa informāciju ar dažiem ziņojumu pārsūtīšanas soļiem. Dekodētājs (attēls 1f) pārskata gala procesora slāņa iemācītās iezīmes no multi-mesh pārstāvības atpakaļ uz platuma garuma režģi.Tas izmanto vienu GNN slāni un prognozē izeju kā atlikuma atjauninājumu līdz jaunākajai ievades stāvoklim (ar izejas normalizāciju, lai sasniegtu vienības variāciju uz mērķa atlikuma). Modelu izstrādes laikā mēs izmantojām 39 gadus (1979–2017) vēsturiskos datus no ECMWF ERA5 [10] atkārtotas analīzes arhīva. Kā apmācības mērķis mēs vidēji svērām kvadrātveida kļūdu (MSE) vertikālā līmenī. Kļūdas tika aprēķinātas starp GraphCast prognozēto stāvokli un korrespondējošo ERA5 stāvokli N autoregresīvos soļos. N vērtība apmācības gaitā palielinājās no 1 līdz 12 (t.i., sešas stundas līdz trīs dienām). GraphCast tika apmācīts, lai samazinātu apmācības mērķi, izmantojot gradientu lejupslīdi un atpakaļizplatīšanu. Apmācība GraphCast ilga aptuveni četras nedēļ Saskaņā ar reāliem izvietošanas scenārijiem, kur nākotnes informācija nav pieejama modeļu izstrādei, mēs izvērtējām GraphCast, pamatojoties uz datiem no 2018. gada (skatīt papildinājumus 5.1. iedaļā). Pārbaudes metodes Mēs visaptveroši pārbaudām GraphCast prognozēšanas prasmes, salīdzinot tās precizitāti ar HRES lielā skaitā mainīgo, līmeņu un vadīšanas laiku.Mēs kvantitatīvi aprēķinām attiecīgās prasmes GraphCast, HRES un ML bāzes līnijas ar divām prasmju metrikām: sakņu vidējo kvadrātveida kļūdu (RMSE) un anomāliju korelācijas koeficientu (ACC). No 227 mainīgajām un līmeņu kombinācijām, ko prognozēja GraphCast katrā tīkla punktā, mēs novērtējām tās prasmes salīdzinājumā ar HRES 69 no tām, kas atbilst 13 WeatherBench[27] līmeņiem un mainīgajiem no ECMWF rezultātu kartes [9]; skatīt boldface mainīgos un līmeņus 1. tabulā un papildinājumos 1.2. sadaļā, par kuriem HRES cikls bija operatīvs novērtēšanas periodā. Piezīme, mēs izslēdzam kopējo nokrišņu daudzumu no novērtējuma, jo ERA5 nokrišņu datiem ir zināmas aizspriedumi [15] . Veicot šos salīdzinājumus, divas galvenās izvēles balstās uz to, kā ir izveidota prasme: (1) pamata patiesības izvēle salīdzināšanai un (2) rūpīgs aprēķins par datu asimilācijas logiem, ko izmanto, lai pamata datus ar novērojumiem. Mēs izmantojam ERA5 kā pamata patiesību GraphCast novērtēšanai, jo tas tika apmācīts, lai ņemtu ERA5 datus kā ievadi un prognozētu ERA5 datus kā izeju. Tomēr, novērtējot HRES prognozes pret ERA5, sākotnējā prognozēšanas posmā radītu ne-nulles kļūdu. Tā vietā mēs izveidojām “HRES prognozēšanu 0 posmā” (HRES-fc0) datu kopu, lai to izmantotu kā pamata patiesību HRES. HRES-fc0 satur Tas prasa rūpīgu kontroli pār atšķirībām starp ERA5 un HRES datu asimilācijas logiem. Katru dienu HRES asimilē novērojumus, izmantojot četrus +/-3h logus, kas vērsti uz 00z, 06z, 12z un 18z (kur 18z nozīmē 18:00 UTC), bet ERA5 izmanto divus +9h/-3h logus, kas vērsti uz 00z un 12z, vai līdzvērtīgi divus +3h/-9h logus, kas vērsti uz 06z un 18z. Mēs izvēlējāmies novērtēt GraphCast prognozes no 06z un 18z inicializācijām, nodrošinot, ka tā ieejas nes informāciju no +3h nākotnes novērojumiem, kas atbilst tiem pašiem HRES ieejām. Mēs neesam novērtējuši GraphCast no 00z un 12z inicializācij HRES prognozes, kas ir inicializētas 06z un 18z, darbojas tikai 3,75 dienu horizontā (HRES inicializācijas 00z un 12z darbojas 10 dienas).Tāpēc mūsu skaitļi norāda uz pāreju ar daļēju līniju, kur 3.5 dienas pirms līnijas ir salīdzinājumi ar HRES, kas inicializēti 06z un 18z, un pēc līnijas ir salīdzinājumi ar inicializācijām 00z un 12z. Prognozes pārbaudes rezultāti Mēs konstatējam, ka GraphCast ir lielākas laika prognozes prasmes nekā HRES, kad novērtēts uz 10 dienu prognozes ar horizontālu izšķirtspēju 0,25 ° platuma / garuma un 13 vertikāliem līmeņiem. 2.a–c attēls parāda, kā GraphCast (zilas līnijas) pārspēj HRES (melnās līnijas) z500 (ģeopotenciālā 500 hPa) “galveno līniju” jomā RMSE prasmju, RMSE prasmju rezultātu (t.i., normalizēto RMSE atšķirību starp modeli A un bāzes līniju B, kas definēta kā (RMSEA − RMSEB)/RMSEB) un ACC prasmju ziņā. Izmantojot z500, kas kodē sinoptisko mēroga spiediena sadalījumu, literatūrā ir izplatīta, jo tai ir spēcīga meteoroloģiska nozīme [27]. Plots parāda, ka GraphCast ir labāki prasmju rezultāti visos vadošajos laikos, ar prasmju rezultātu uzlabo 2.d attēls apkopo RMSE prasmju rezultātus visām 1380 novērtētajām mainīgajām un spiediena līmeņiem, 10 dienu prognozēs, formātā, kas ir līdzīgs ECMWF rezultātu kartei. Šūnu krāsas ir proporcionālas prasmju rezultātam, kur zilā norāda, ka GraphCast bija labāka prasme, un sarkanā norāda, ka HRES bija augstākas prasmes. GraphCast pārsniedza HRES par 90.3% no 1380 mērķiem, un ievērojami (p ≤ 0.05, nominālais parauga izmērs n ∈ {729, 730}) pārsniedza HRES par 89,9% mērķu. skatīt papildinājumus sadaļu 5.4 par metodoloģiju un papildinājumus Tabula 5 par p-vērtībām, testēšanas statistiku Atmosfēras reģioni, kur HRES bija labāks nekā GraphCast (augšējās rindas sarkanā krāsā rezultātu kartēs), bija nesamērīgi lokalizēti stratosfērā un bija zemākais apmācības zaudējumu svars (skatīt papildinājumus sadaļu 7.2.2). Izņemot 50 hPa līmeni, GraphCast ievērojami pārsniedza HRES par 96,9% no atlikušajiem 1280 mērķiem. Izņemot līmeņus 50 un 100 hPa, GraphCast ievērojami pārsniedza HRES par 99,7% no atlikušajiem 1180 mērķiem. Mēs atklājām, ka, palielinot automātisko regresīvo soļu skaitu MSE zudumā, uzlabojas GraphCast veiktspēja ilgākā vadīšanas laikā (skatīt papildinājumus 7.3.2. iedaļu) un mudina to izteikt savu nenoteiktību, prognozējot telpiski gludinātus iznākumus, kas noved pie neskaidrākām prognozēm ilgākā vadīšanas laikā (skatīt papildinājumus 7.5.3. iedaļu). HRES pamatā esošās fiziskās vienības tomēr nerada neskaidras prognozes. Lai novērtētu, vai GraphCast relatīvais ieguvums salīdzinājumā ar HRES RMSE prasmēm tiek saglabāts, ja HRES ir atļauts arī neskaidrināt savas prognozes, mēs pielāgojam neskaidrības filtrus GraphCast un HRES, samazinot Mēs arī salīdzinājām GraphCast sniegumu ar vadošo konkurējošo ML balstīto laika modeli, Pangu-Weather [4], un konstatējām, ka GraphCast to pārspēja par 99,2% no 252 mērķiem, kurus viņi prezentēja (sīkāku informāciju skatiet papildinājumos 6. iedaļā). Nopietnas notikumu prognozēšanas rezultāti Papildus GraphCast prognozēšanas prasmju novērtēšanai salīdzinājumā ar HRES par plašu mainīgo un vadošo laiku klāstu, mēs arī izvērtējam, kā tās prognozes atbalsta nopietnu notikumu, tostarp tropu ciklonu, atmosfēras upju un ekstremālo temperatūru, prognozēšanu. Tropiskā ciklona takas Uzlabojot tropu ciklona prognožu precizitāti, grafiks var palīdzēt novērst ievainojumus un dzīvības zaudējumus, kā arī samazināt ekonomisko kaitējumu [21]. Ciklona esamību, spēku un trajektoriju paredz, piemērojot izsekošanas algoritmu ģeopotenciālo (z), horizontālo vēju (10 U/10 v, U/v) un vidējo jūras līmeņa spiedienu (MsL) prognozēm. Mēs īstenojām izsekošanas algoritmu, pamatojoties uz tiem pašiem ECMWF publicētajiem protokoliem [20] un pielietojām to GraphCast prognozēs, lai ražotu ciklona ceļa prognozes (skatīt papildinājumus 8.1 sadaļā). Kā pamatlīniju salīdzinājumam, mēs izmantojām HRES 0.1°ec prognoz Attēlā 3a parādīts, ka GraphCast ir zemāka vidējā trajektorijas kļūda nekā HRES 2018.–2021. gadā.Kā HRES un GraphCast per-track kļūdas ir korelētas, mēs arī izmērījām per-track pāriet kļūdas atšķirību starp diviem modeļiem un konstatēja, ka GraphCast ir ievērojami labāka nekā HRES par vadošo laiku no 18 stundām līdz 4,75 dienām, kā parādīts 3.b attēlā. Atmosfēras upes Atmosfēras upes ir šauri atmosfēras apgabali, kas ir atbildīgi par lielāko daļu polārā ūdens tvaika transporta pa vidējām platībām, un rada 30%-65% no gada nokrišņiem ASV Rietumu krasta [6]. To stiprumu var raksturot vertikāli integrēta ūdens tvaika transporta IvT [23, 22], kas norāda, vai notikums sniegs labvēlīgu nokrišņu daudzumu vai būs saistīts ar katastrofāliem bojājumiem [7]. IvT var aprēķināt no horizontālās vēja ātruma (U un v) un specifiskās mitruma (Q) nelineārās kombinācijas, ko prognozē GraphCast. Mēs novērtējam GraphCast prognozes par piekrastes Ziemeļameriku un Austrumu Klusā okeāna aukstajiem mēnešiem ( Extreme karstums un aukstums Ekstremālos karstumus un aukstumu raksturo lielas anomālijas attiecībā uz tipisko klimatoloģiju [19, 16, 18], kas var būt bīstamas un traucēt cilvēka darbību. Mēs novērtējam HRES un GraphCast prasmi prognozēt notikumus virs top 2% klimatoloģijā visā atrašanās vietā, dienas laikā un gada mēnesī, par 2 T 12 stundu, 5 dienu un 10 dienu vadošos laikos, sauszemes reģionos visā ziemeļu un dienvidu puslodē vasaras mēnešos. Mēs izveidojam precizitātes atgādināšanas līknes [30] lai atspoguļotu dažādus iespējamos kompromisu starp nepatiesu pozitīvu (augstas precizitātes) un nepatiesu negatīvu (augstas atsauksmes) samazināšanu. Par katru prognozi mēs iegūstam līkni, Grafiks 3d parāda, ka GraphCast precizitātes atpakaļatdošanas līknes ir augstākas par HRES 5 un 10 dienu vadošajiem laikiem, kas liecina, ka GraphCast prognozes parasti ir augstākas nekā HRES ekstremālajā klasifikācijā garākos horizontos. Atšķirībā no tā, HRES ir labāka precizitāte atpakaļatdošanā 12 stundu vadošajā laikā, kas ir saskaņā ar GraphCast 2 T prasmju punktu pār HRES, kas ir tuvu nullei, kā parādīts 2.d attēlā. Apmācību datu nesenuma ietekme GraphCast var periodiski atkārtoti apmācīt ar jaunākajiem datiem, kas principā ļauj uztvert laika apstākļu modeļus, kas laika gaitā mainās, piemēram, ENSO ciklu un citas svārstības, kā arī klimata pārmaiņu ietekmi. Mēs apmācījāmies četrus GraphCast variantus ar datiem, kas vienmēr sākās 1979. gadā, bet beidzās attiecīgi 2017. gadā, 2018. gadā un 2020. gadā (mēs marķējām variantu, kas beidzās 2017. gadā kā “GraphCast:<2018”, utt.). 4. attēlā ir parādīti četru variantu prasmju rezultāti (normalizēti ar GraphCast:<2018) un HRES, z500. Mēs atklājām, ka, lai gan GraphCast sniegums, kas apmācīts līdz 2018. gadam, joprojām ir konkurētspējīgs ar HRES 2021. gadā, apmācība līdz 2021. gadam vēl vairāk uzlabo prasmju rezultātus (skatīt papildinājumus 7.1.3. sadaļu). Secinājumi GraphCast prognozēšanas prasmes un efektivitāte salīdzinājumā ar HRES liecina, ka MLWP metodes tagad ir konkurētspējīgas ar tradicionālajām laika prognozēšanas metodēm.Turklāt GraphCast veiktspēja nopietnu notikumu prognozēšanā, kurai tā netika tieši apmācīta, demonstrē tās izturību un potenciālu turpmākai vērtībai. Ar 36,7 miljoniem parametru, GraphCast ir salīdzinoši mazs modelis saskaņā ar mūsdienu ML standartiem, kas izvēlēti, lai saglabātu atmiņas pēdas nospiedumu. Un, kamēr HRES tiek izlaists ar 0,1° izšķirtspēju, 137 līmeņiem un līdz 1 stundu laika posmiem, GraphCast darbojās ar 0,25° platuma garuma izšķirtspēju, 37 vertikāliem līmeņiem un 6 stundu laika posmiem, jo ERA5 apmācības datiem ir natīvs 0,25° izšķirtspēja, un inženierijas problēmas, kas saistītas ar augstākas izšķirtspējas datu uzstādīšanu aparatūrā. Viens no mūsu pieejas galvenajiem ierobežojumiem ir tas, kā tiek risināta nenoteiktība. Mēs koncentrējamies uz deterministiskām prognozēm un salīdzinām to ar HRES, bet otrais ECMWF IFS pīlārs, ansambļa prognozēšanas sistēma, ENS, ir īpaši svarīgs 10+ dienu prognozēm. Laika dinamikas nelinearitāte nozīmē, ka pieaug nenoteiktība garākajos vadošajos laikos, kas nav labi uztverti ar vienu deterministisku prognozi. ENS risina šo problēmu, ģenerējot vairākas, stohastiskas prognozes, kas modelē nākotnes laika empīrisko sadalījumu, tomēr vairāku prognožu ģenerēšana ir dārga. Pretēji tam GraphCast MSE apmācības mērķis mudina to izteikt savu nenoteiktību Ir svarīgi uzsvērt, ka datu vadīta MLWP ir kritiski atkarīga no lieliem augstas kvalitātes datu apjomiem, kas asimilēti, izmantojot NWP, un ka tādi bagāti datu avoti kā ECMWF MARS arhīvs ir nenovērtējami.Tāpēc mūsu pieeju nevajadzētu uzskatīt par aizstājēju tradicionālajām laika prognozes metodēm, kuras ir izstrādātas gadu desmitiem, stingri pārbaudītas daudzos reālos kontekstos un piedāvā daudzas funkcijas, kuras mēs vēl neesam izpētījuši. Papildus laika prognozei, GraphCast var atvērt jaunus virzienus citām svarīgām ģeospazijas un laika prognozes problēmām, tostarp klimatu un ekoloģiju, enerģētiku, lauksaimniecību un cilvēka un bioloģisko aktivitāti, kā arī citas sarežģītas dinamiskas sistēmas. Datu un materiālu pieejamība GraphCast kods un apmācītie svari ir publiski pieejami vietnē github https://github.com/ deepmind/graphcast. Šajā darbā izmantoti publiski pieejamie dati no Eiropas Vidēja diapazona prognozēšanas centra (ECMWF). Mēs izmantojam ERA5, HRES un TIGGE produktiem ECMWF arhīvu (izbeigtā reālā laika) produktus, kuru izmantošanu regulē Creative Commons Attribution 4.0 International (CC BY 4.0). Mēs izmantojam IBTrACS Version 4 no https://www.ncei.noaa.gov/ products/international-best-track-archive and reference [13, 12] kā nepieciešams. Zemes tekstūra attēlā 1 tiek izmantota saskaņā ar CC BY 4.0 no https://www.solarsystemscope.com/ textures/. Atzinības Alfabētiskā secībā mēs pateicamies Kelsey Allen, Charles Blundell, Matt Botvinick, Zied Ben Bouallegue, Michael Brenner, Rob Carver, Matthew Chantry, Marc Deisenroth, Peter Deuben, Marta Garnelo, Ryan Keisler, Dmitrii Kochkov, Christopher Mattern, Piotr Mirowski, Peter Norgaard, Ilan Price, Chongli Qin, Sébastien Racanière, Stephan Rasp, Yulia Rubanova, Kunal Shah, Jamie Smith, Daniel Worrall un neskaitāmiem citiem Alphabet un ECMWF par padomu un atgriezenisko saiti par mūsu darbu. Mēs arī pateicamies ECMWF par nenovērtējamu datu kopumu nodrošināšanu pētniecības kopienai. Atvēršanas punkta stilu iedvesmoja D. Fan et al., References [1] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Relatīvās indukcijas aizspriedumi, dziļa mācīšanās un grafikas tīkli. arXiv preprint arXiv:1806.01261, 2018. [2] P. Bauer, A. Thorpe, and G Brunet. The quiet revolution of numerical weather prediction. Nature, 525, 2015. [3] Stanley G Benjamin, John M Brown, Gilbert Brunet, Peter Lynch, Kazuo Saito un Thomas W Schlatter. 100 gadu progresa prognozēšanā un NWP lietojumprogrammās. [4] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu un Qi Tian. Pangu-Laika apstākļi: 3D augstas izšķirtspējas modelis ātrai un precīzai globālai laika prognozei. arXiv sagatavots arXiv:2211.02556, 2022. [5] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. THORPEX interaktīvais lielais globālais ansamblis. [6] WE Chapman, AC Subramanian, L Delle Monache, SP Xie un FM Ralph. Atmosfēras upju prognožu uzlabošana, izmantojot mašīnu mācīšanos. [7] Thomas W Corringham, F Martin Ralph, Alexander Gershunov, Daniel R Cayan un Cary A Talbot. Atmosfēras upes rada plūdu bojājumus Amerikas Savienoto Valstu rietumos. Zinātnes progresi, 5(12):eaax4631, 2019. [8] Lasse Espeholt, Shreya Agrawal, Casper Sønderby, Manoj Kumar, Jonathan Heek, Carla Bromberg, Cenk Gazen, Rob Carver, Marcin Andrychowicz, Jason Hickey, et al. Dziļa mācīšanās divpadsmit stundu nokrišņu prognozēm. Dabas komunikācijas, 13(1):1–10, 2022. [9] T Haiden, Martin Janousek, J Bidlot, R Buizza, Laura Ferranti, F Prates un F Vitart. ECMWF prognožu novērtējums, tostarp 2018. gada atjauninājums. [10] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. ERA5 globālā reanalīze. Karaliskās meteoroloģijas biedrības ceturkšņa žurnāls, 146(730):1999–2049, 2020. [11] Ryan Keisler. Globālā laika prognoze ar grafu neironu tīkliem. arXiv priekšizdrukā arXiv:2202.07575, 2022. [12] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. Starptautiskais best track archive for climate stewardship (IBTrACS) projekts, versija 4. https: //doi.org/10.25921/82ty-9e16, 2018. [13] Kenneth R Knapp, Michael C Kruk, David H Levinson, Howard J Diamond, un Charles J Neumann. Starptautiskais labākais arhīvs par klimata pārvaldību (IBTrACS), kas apvieno tropu ciklona datus. [14] Thorsten Kurth, Shashank Subramanian, Peter Harrington, Jaideep Pathak, Morteza Mardani, David Hall, Andrea Miele, Karthik Kashinath un Animashree Anandkumar. FourCastNet: Globālās augstas izšķirtspējas laika prognozes paātrināšana, izmantojot adaptīvus četrkājainus neironu operatorus. arXiv preprint arXiv:2208.05419, 2022. [15] David A Lavers, Adrian Simmons, Freja Vamborg un Mark J Rodwell. ERA5 nokrišņu novērtējums klimata uzraudzībai. Karaliskās meteoroloģijas biedrības ceturkšņa žurnāls, 148(748):3152–3165, 2022. [16] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal un Jason Hickey. globālās ekstremālās karstuma prognoze, izmantojot neironu laika modeļus. Mākslīgais intelekts Zemes sistēmām, lapas 1–41, 2022. [17] Carsten Maass un Esperanza Cuartero. MARS lietotāja dokumentācija. https://confluence. ecmwf.int/display/UDOC/MARS+user+documentation, 2022. [18] Linuss Magnusson. 202208 - karstuma viļņi - uk. https://confluence.ecmwf.int/display/ FCST/202208+-+karstuma viļņi+-+UK, 2022. [19] Linus Magnusson, Thomas Haiden, un David Richardson. pārbaude ekstrēmiem laika apstākļiem: Diskrētus prognozes. Eiropas Centrs vidēja diapazona laika prognozes, 2014. [20] Linus Magnusson, Sharanya Majumdar, Rebecca Emerton, David Richardson, Magdalena Alonso-Balmaseda, Calum Baugh, Peter Bechtold, Jean Bidlot, Antonino Bonanni, Massimo Bonavita, et al. Tropiskās ciklona aktivitātes ECMWF. ECMWF Tehniskais memorands, 2021. [21] Andrew B Martinez. Prognozes precizitāte ir svarīga viesuļvētru bojājumiem. Ekonometrika, 8(2):18, 2020. [22] Benjamin J Moore, Paul J Neiman, F Martin Ralph un Faye E Barthold. Fizikālie procesi, kas saistīti ar smagiem plūdiem Nashville, Tennessee un apkārtnē 2010. gada 1.–2. maijā: atmosfēras upes un mezoskala konvekcijas sistēmu loma. [23] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist, un Michael D Dettinger. meteoroloģiskās īpašības un virszemes nokrišņu ietekmi atmosfēras upēm, kas ietekmē Rietumkrasta Ziemeļamerikā, pamatojoties uz astoņiem gadiem ssm / i satelīta novērojumiem. [24] Tung Nguyen, Johannes Brandstetter, Ashish Kapoor, Jayesh K Gupta, un Aditya Grover. ClimaX: pamats modelis laika un klimata. arXiv preprint arXiv:2301.10343, 2023. [25] Jaideep Pathak, Shashank Subramanian, Peter Harrington, Sanjeev Raja, Ashesh Chattopad-hyay, Morteza Mardani, Thorsten Kurth, David Hall, Zongyi Li, Kamyar Azizzadenesheli, et al. Fourcastnet: globāls datu vadīts augstas izšķirtspējas laika modelis, izmantojot adaptīvus četrkājainus neironu operatorus. arXiv preprint arXiv:2202.11214, 2022. [26] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez un Peter Battaglia. Mācīšanās tīkla simulācija ar grafikas tīkliem. Starptautiskajā konferencē par mācīšanās pārstāvniecību, 2021. [27] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid, un Nils Thuerey. WeatherBench: atsauces datu kopums datu vadītai laika prognozei. Journal of Advances in Modeling Earth Systems, 12(11):e2020MS002203, 2020. [28] Stephan Rasp un Nils Thuerey. datu vadīta vidēja diapazona laika prognoze ar resnet, kas sagatavots klimata simulācijām: jauns modelis laika apstākļu pārbaudēm. [29] Suman Ravuri, Karel Lenc, Matthew Willson, Dmitrijs Kangins, Remi Lam, Piotr Mirowski, Megan Fitzsimons, Maria Athanassiadou, Sheleem Kashem, Sam Madge, et al. Skilful nokrišņi tagadcasting izmantojot dziļu radara modeļus. Daba, 597(7878):672–677, 2021. [30] Takaya Saito un Marc Rehmsmeier. Precizitātes atgādināšanas gabals ir informatīvāks nekā ROC gabals, novērtējot bināros klasifikatorus nelīdzsvarotos datu kopos. PloS viens, 10(3):e0118432, 2015. [31] Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec un Peter Battaglia. Mācīties simulēt sarežģītu fiziku ar grafisko tīklu palīdzību. Starptautiskajā konferencē par mašīntulkošanu, lapas 8459–8468. [32] Xingjian Shi, Zhihan Gao, Leonard Lausen, Hao Wang, Dit-Yan Yeung, Wai-kin Wong, un Wang-chun Woo. Dziļa mācīšanās nokrišņu nowcasting: etalons un jauns modelis. [33] Casper Kaae Sønderby, Lasse Espeholt, Jonathan Heek, Mostafa Dehghani, Avital Oliver, Tim Salimans, Shreya Agrawal, Jason Hickey un Nal Kalchbrenner. Metnet: neironu laika modelis nokrišņu prognozēšanai. arXiv preprint arXiv:2003.12140, 2020. [34] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson un Munehiko Yamaguchi. TIGGE projekts un tā sasniegumi. American Meteorological Society Bulletin, 97(1):49 – 67, 2016. [35] Jonathan A Weyn, Dale R Durran, un Rich Caruana. Vai mašīnas var iemācīties prognozēt laika apstākļus? Izmantojot dziļu mācīšanos, lai prognozētu 500 hPa ģeopotenciālo augstumu no vēsturiskiem laika datiem. Journal of Advances in Modeling Earth Systems, 11(8):2680–2693, 2019. [36] Jonathan A Weyn, Dale R Durran un Rich Caruana. Datu vadītas globālās laika prognozes uzlabošana, izmantojot dziļi konvolucionālos neironu tīklus kubiskā sfērā. Journal of Advances in Modeling Earth Systems, 12(9):e2020MS002109, 2020. 1. datubāze Šajā sadaļā mēs sniedzam pārskatu par datiem, kurus mēs izmantojām, lai apmācītu un novērtētu GraphCast (Papildinājumi 1.1. iedaļa), dati, kas definē NWP bāzes HRES prognozes, kā arī HRES-fc0, ko mēs izmantojam kā pamata patiesību HRES (Papildinājumi 1.2. iedaļa). Mēs esam izveidojuši vairākus datu kopumus apmācībai un izvērtēšanai, kas sastāv no ECMWF datu arhīvu apakškopām un IBTrACS [29, 28]. Mēs parasti nošķiram avota datus, kurus mēs saucam par “arhīvu” vai “arhivētajiem datiem”, pret datu kopumiem, kurus mēs esam izveidojuši no šiem arhīviem, kurus mēs saucam par “datu kopumiem”. 1.1 Dzīve 5 Lai apmācītu un novērtētu GraphCast, mēs izveidojām mūsu datu kopas no ECMWF ERA5 [24]1 arhīva apakšsadaļas, kas ir liels datu korpuss, kas atspoguļo globālo laika apstākļus no 1959. gada līdz mūsdienām ar 0,25° platuma / garuma izšķirtspēju un 1 stundu palielinājumiem simtiem statisko, virsmas un atmosfēras mainīgo. ERA5 arhīvs ir balstīts uz atkārtotu analīzi, kas izmanto ECMWF HRES modeli (cikls 42r1), kas darbojās lielāko daļu 2016. gada (skatīt 3. tabulu), ECMWF 4D-Var datu asimilācijas sistēmas ietvaros. Mūsu ERA5 datu kopumā ir pieejamu mainīgo apakšsadaļa ECMWF ERA5 arhīvā (2. tabula) 37 spiediena līmeņos: 1, 2, 3, 5, 7, 10, 20, 30, 50, 70, 100, 125, 150, 175, 200, 225, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 775, 800, 825, 850, 875, 900, 925, 950, 975, 1000 hPa. Iekļauto gadu diapazons bija 1979-01-01 līdz 2022-01-10, kas tika samazināti līdz 6 stundu intervāliem (atbilstoši 00z, 06z, 12z un 18z katru dienu). 1.2 Rēzeknes HRES modeļa bāzes līnijas novērtēšanai nepieciešami divi atsevišķi datu kopumi, proti, prognozēšanas dati un pamata patiesības dati, kas ir apkopoti turpmākajās apakšiedaļās. HRES parasti tiek uzskatīts par visprecīzāko deterministisku NWP balstītu laika modeli pasaulē, tāpēc, lai novērtētu HRES bāzes līniju, mēs izveidojām datu kopu no HRES arhivētajām vēsturiskajām prognozēm. HRES regulāri atjaunina ECMWF, tāpēc šīs prognozes atspoguļo jaunāko HRES modeli prognožu veikšanas brīdī. Prognozes tika lejupielādētas to dzimtajā pārstāvībā (kas izmanto sfērisko harmoniku un oktādrāli samazinātu Gausijas režģi, TCo1279 [36]), un aptuveni atbilst 0,1° platuma / garuma izšķirtspējai. HRES operational forecasts Pēc tam, izmantojot ECMWF Metview bibliotēku, mēs telpiski samazinājām prognozes līdz 0,25° platuma/ilguma režīmam (lai atbilstu ERA5 izšķirtspējai), izmantojot noklusējuma regrīda parametrus. Mēs tos īslaicīgi samazinājām līdz 6 stundu intervāliem. Ir divas HRES prognožu grupas: tās, kas ir inicializētas 00z/12z, kuras tiek atbrīvotas 10 dienu horizontos, un tās, kas ir inicializētas 06z/18z, kuras tiek atbrīvotas 3,75 dienu horizontos. Lai novērtētu HRES darbības prognožu prasmi, mēs izveidojām pamatpatiesības datu kopu, “HRES-fc0”, pamatojoties uz ECMWF HRES darbības prognožu arhīvu. Šis datu kopums ietver katras HRES prognozes sākotnējo laika posmu, sākotnējo laiku 00z, 06z, 12z un 18z (sk. 5. attēlu). HRES-fc0 dati ir līdzīgi ERA5 datiem, bet tas tiek asimilēts, izmantojot jaunāko ECMWF NWP modeli prognozēšanas laikā, un asimilē novērojumus no ±3 stundām ap attiecīgo datumu un laiku. Piezīme, ECMWF arī nodrošina “HRES Analīzes” datu arhīvu, kas atšķiras no mūsu HRES-fc0 datu kopuma. HRES Analīzes datu kopums HRES-fc0 Ļoti neliels daudzums vērtību no ECMWF HRES arhīva mainīgajam ģeopotenciālam pie 850hPa (z850) un 925hPa (z925) nav skaitļi (NaN). Šie NaN šķietami ir vienmērīgi sadalīti pa 2016-2021 diapazonu un visās prognozētajās reizēs. Tas ir aptuveni 0,00001% no pikseļiem z850 (1 pikseļu katram desmit 1440 x 721 platuma rāmjiem), 0,00000001% no pikseļiem z925 (1 pikseļu katram desmit tūkstošiem 1440 x 721 platuma rāmjiem) un tam nav izmērāmas ietekmes uz veiktspēju. Vieglākai salīdzināšanai mēs aizpildījām šīs trūkstošās vērtības ar tuvāko kaimiņu pikseļu svērto vidējo HRES NaN handling 1.3 Tropisko ciklonu datu kopas Lai analizētu tropu ciklonu prognozes, mēs izmantojām IBTrACS [28, 29, 31, 30] arhīvu, lai izveidotu zemes patiesības datu kopumu. Tas ietver vēsturiskos ciklona ceļus no aptuveni desmit autoritatīviem avotiem. Katrs ceļš ir laika sērija, ar 6 stundu intervāliem (00z, 06z, 12z, 18z), kur katrs laika posms pārstāv ciklona aci platuma / garuma koordinātes, kopā ar atbilstošo Saffir-Simpson kategoriju un citām attiecīgām meteoroloģiskām iezīmēm šajā laikā. HRES bāzes līnijai mēs izmantojām TIGGE arhīvu, kas nodrošina ar operatīvo trackeru aplēstus ciklona takas no HRES prognozēm ar 0,1° izšķirtspēju [8, 46]. Dati tiek glabāti kā XML faili, kas pieejami lejupielādei sadaļā https://confluence.ecmwf.int/display/TIGGE/Tools. Lai pārvērstu datus formātā, kas piemērots turpmākai pēcapstrādei un analīzei, mēs ieviesām analīzi, kas iegūst ciklona takas par interesējošiem gadiem. XML failu attiecīgās sadaļas (tag) ir “forecast” tipa faili, kas parasti satur vairākus takas, kas atbilst dažādām sākotnējām prognozēm. Ar šīm tagām mēs pēc Skatiet sadaļu 8.1 par detalizētu informāciju par izsekotāju algoritmu un rezultātiem. Notācija un problēmu deklarācija Šajā sadaļā mēs definējam noderīgas laika piezīmes, ko izmantojam visā papīrā (2.1. iedaļa), formalizējam vispārējo prognozēšanas problēmu, ko risinām (2.2. iedaļa), un detalizēti izklāstām, kā mēs modelējam laika apstākļus (2.3. iedaļa). 2.1 Laika notēšana Laika apzīmējums, ko izmanto prognozēšanā, var būt mulsinošs, ietverot vairākus dažādus laika simbolus, piemēram, norāda sākotnējo prognozēšanas laiku, derīguma laiku, prognozēšanas horizontu utt. Tāpēc mēs ieviešam dažus standartizētus terminus un apzīmējumus skaidrības un vienkāršības labad. Mēs attiecinām konkrētu laika punktu kā “datuma laiku”, kas norādīts ar kalendāra datumu un UTC laiku. Piemēram, 2018-06-21_18:00:00 nozīmē 2018. gada 21. jūnijs 18:00 UTC. Īsumā mēs dažreiz izmantojam arī Zulu konvenciju, t.i., 00z, 06z, 12z, 18z nozīmē 00:00, 06:00, 12:00, 18:00 UTC, attiecīgi. t: Prognozes laika posma indekss, kas indeksē posmu skaitu kopš prognozes sākuma. T: prognozēšanas horizonts, kas atspoguļo kopējo soļu skaitu prognozē. d: derīguma laiks, kas norāda konkrēta laika apstākļa datuma laiku. d0: Prognozes inicializācijas laiks, kas norāda prognozes sākotnējo ievadījumu derīguma laiku. Δd: Prognozes posma ilgums, kas norāda, cik daudz laika pagājis viena prognozes posma laikā. τ: paredzamais vadošais laiks, kas atspoguļo pagājušo laiku prognozē (t.i., τ = tΔd). 2.2 Vispārīgas prognozēšanas problēmu deklarācija Laika evolūciju var pārstāvēt pamata diskrēta laika dinamikas funkcija, Φ, kas rada stāvokli nākamajā laika posmā (Δd nākotnē), pamatojoties uz pašreizējo, t.i., Zd+Δd = Φ(Zd). Mūsu mērķis ir atrast precīzu un efektīvu modeli, φ, par patieso dinamikas funkciju, Φ, kas var efektīvi prognozēt laika stāvokli pār kādu prognozēšanas horizontu, TΔd. Mēs pieņemam, ka mēs nevaram novērot Zd tieši, bet tā vietā ir tikai daļēja novērošana Xd, kas ir nepilnīga stāvokļa informācijas pārstāvība, kas nepieciešama, lai prognozētu laiku perfekti. Xd−Δd , Xd−2Δd , ..., papildus Xd. Modelis pēc tam principā var izmantot šo papildu kontekstuālo informāciju, lai aptuveni Zd precīzāk. Analogi ar vienādojumu (1), prognozi X ̈d+Δd var ievadīt atpakaļ φ, lai autoregresīvi iegūtu pilnīgu prognozi, Mēs novērtējam φ prognozēšanas kvalitāti vai prasmi, kvantitatīvi novērtējot, cik labi prognozētā trajektorija, X ̈d+Δd:d+T Δd, atbilst pamattiesību trajektorijai, Xd+Δd:d+TΔd. Tomēr ir svarīgi vēlreiz uzsvērt, ka Xd+Δd:d+TΔd ietver tikai mūsu novērojumus par Zd+Δd:d+TΔd, kas pats par sevi nav novērots. which is described explicitly in Section 5. Mūsu darbā datu un prognožu laika izšķirtspēja vienmēr bija Δd = 6 stundas ar maksimālo prognozes horizontu 10 dienas, kas atbilst T = 40 soļiem.Tā kā Δd ir konstante visā šajā dokumentā, mēs varam vienkāršot notāciju, izmantojot (Xt, Xt+1, . . , Xt+T ) nevis (Xd, Xd+Δd , . . , Xd+TΔd ), lai indeksētu laiku ar veselu skaitli, nevis ar noteiktu datuma laiku. ECMWF laika apstākļu datu modelēšana For training and evaluating models, we treat our ERA5 dataset as the ground truth representation of the surface and atmospheric weather state. As described in Section 1.2, we used the HRES-fc0 dataset as ground truth for evaluating the skill of HRES. In our dataset, an ERA5 weather state 𝑋𝑡 comprises all variables in Table 2, at a 0.25° horizontal latitude-longitude resolution with a total of 721 × 1440 = 1, 038, 240 grid points and 37 vertical pressure levels. The atmospheric variables are defined at all pressure levels and the set of (horizontal) grid points is given by 𝐺0.25◦ = {−90.0, −89.75, . . . , 90.0} × {−179.75, −179.5, . . . , 180.0}. These variables are uniquely identified by their short name (and the pressure level, for atmospheric variables). For example, the surface variable “2 metre temperature” is denoted 2 T; the atmospheric variable “Geopotential” at pressure level 500 hPa is denoted z500. Note, only the “predicted” variables are output by our model, because the “input”-only variables are forcings that are known apriori, and simply appended to the state on each time-step. We ignore them in the description for simplicity, so in total there are 5 surface variables and 6 atmospheric variables. No visām šīm mainīgajām, mūsu modelis prognozē 5 virsmas mainīgās un 6 atmosfēras mainīgās kopumā 227 mērķa mainīgās. Vairāki citi statisko un / vai ārējo mainīgo tika arī sniegta kā ievades kontekstu mūsu modeli. Šie mainīgie ir parādīti 1. tabulā un 2. tabulā. We refer to the subset of variables in 𝑋𝑡 that correspond to a particular grid point 𝑖 (1,038,240 in total) as x𝑡, and to each variable 𝑗 of the 227 target variables as 𝑥𝑡 . The full state representation 𝑋𝑡𝑖𝑖, 𝑗 therefore contains a total of 721 × 1440 × (5 + 6 × 37) = 235, 680, 480 values. Note, at the poles, the 1440 longitude points are equal, so the actual number of distinct grid points is slightly smaller. 3. GraphCast model This section provides a detailed description of GraphCast, starting with the autoregressive gener-ation of a forecast (Section 3.1), an overview of the architecture in plain language (Section 3.2), followed by a technical description the all the graphs defining GraphCast (Section 3.3), its encoder (Section 3.4), processor (Section 3.5), and decoder (Section 3.6), as well as all the normalization and parameterization details (Section 3.7). 3.1. Generating a forecast Mūsu GraphCast modelis ir definēts kā vienpakāpju mācījies simulators, kas aizņem φ lomu vienādojumā (2) un paredz nākamo soli, pamatojoties uz diviem secīgiem ievades stāvokļiem, As in Equation (3), we can apply GraphCast iteratively to produce a forecast of arbitrary length, 𝑇. This is illustrated in Figure 1b,c. We found, in early experiments, that two input states yielded better performance than one, and that three did not help enough to justify the increased memory footprint. 4.2 Arhitektūras pārskats The core architecture of GraphCast uses GNNs in an “encode-process-decode” configuration [6], as depicted in Figure 1d,e,f. GNN-based learned simulators are very effective at learning complex physical dynamics of fluids and other materials [43, 39], as the structure of their representations and computations are analogous to learned finite element solvers [1]. A key advantage of GNNs is that the input graph’s structure determines what parts of the representation interact with one another via learned message-passing, allowing arbitrary patterns of spatial interactions over any range. By contrast, a convolutional neural network (CNN) is restricted to computing interactions within local patches (or, in the case of dilated convolution, over regularly strided longer ranges). And while Transformers [48] can also compute arbitrarily long-range computations, they do not scale well with very large inputs (e.g., the 1 million-plus grid points in GraphCast’s global inputs) because of the quadratic memory complexity induced by computing all-to-all interactions. Contemporary extensions of Transformers often sparsify possible interactions to reduce the complexity, which in effect makes them analogous to GNNs (e.g., graph attention networks [49]). Veids, kā mēs izmantojam GNN spēju modelēt patvaļīgas retas mijiedarbības, ir ieviešot GraphCast iekšējo "multi-mesh" pārstāvību, kas ļauj ilgtermiņa mijiedarbību dažu ziņojumu pārsūtīšanas soļu laikā un parasti ir viendabīga telpiskā izšķirtspēja visā pasaulē. Mūsu multi-mesh ir izveidots, vispirms sadalot regulāru icosahedron (12 mezgli un 20 sejas) iteratīvi 6 reizes, lai iegūtu hierarhiju icosahedral tīkliem ar kopējo skaitu 40,962 mezgliem un 81,920 sejas ar visaugstāko izšķirtspēju. Mēs izmantojām to, ka rupjmaizes mezgli ir apakšgrupas no smalkas tīkla mezgliem, kas ļāva mums pārspēt malām no visiem līmeņiem tīkla hierarhijas uz smalkas izšķirtspējas tīklu. Šī procedūra rada daudzveidīgu kopumu tīkliem, ar rupjmaizes malām, kas savieno garas distances vairākās skalās, un smalkas malas, kas uztver vietējās miji GraphCast kodētājs (attēls 1d) vispirms pārraida ievades datus no sākotnējā platuma-garuma režīma uz iemācītām funkcijām multi-mesh, izmantojot GNN ar virzītajām malām no tīkla punktiem uz multi-mesh. Procesors (attēls 1e) pēc tam izmanto 16 slāņu dziļu GNN, lai veiktu iemācītu ziņojumu nodošanu multi-mesh, ļaujot efektīvi izplatīt informāciju visā telpā, pateicoties garuma malām. Dekodētājs (attēls 1f) pēc tam pārraida galīgo multi-mesh pārstāvību atpakaļ uz platuma-garuma režīmu, izmantojot GNN ar virzītajām malām, un apvieno šo tīkla pārstāvību, Ytk+, ar ievades stāvokli, Kodētājs un dekodētājs neprasa, lai neapstrādātie dati tiktu sakārtoti parastajā taisnstūrveida tīklā, un tos var piemērot arī patvaļīgai tīkla tipa stāvokļa diskretizācijai [1]. Salīdzinājumam, ECMWF IFS sistēma darbojas uz 11,664 kodola klastera un rada 0,1° izšķirtspēju, 10 dienu prognozi (izlaists 1 stundu posmos pirmajās 90 stundās, 3 stundu posmos stundās 93-144, un 6 stundu posmos no 150-240 stundām, aptuveni stundas laikā [41]. Skatīt HRES izlaišanas informāciju šeit: https://www.ecmwf.int/en/forecasts/datasets/set-i. 3.3 GraphCast grafiks GraphCast is implemented using GNNs in an “encode-process-decode” configuration, where the encoder maps (surface and atmospheric) features on the input latitude-longitude grid to a multi-mesh, the processor performs many rounds of message-passing on the multi-mesh, and the decoder maps the multi-mesh features back to the output latitude-longitude grid (see Figure 1). Modelis darbojas pēc grafika G (VG, VM, EM, EG2M, EM2G), kas detalizēti definēts turpmākajos punktos. VG pārstāv komplektu, kas satur katru no tīkla mezgliem vG. Katrs tīkla mezgls pārstāv vertikālu atmosfēras gabalu noteiktā platuma-garuma punktā, t.i. ar katru tīkla mezglu vG saistītās iezīmes ir vG,funkcijas = [xt−1, xt, ft−1, ft, ft+1, ci], kur xt ir laika atkarīgs laika stāvoklis Xt, kas atbilst tīkla mezgliem vG, un ietver visus prognozētos datu mainīgos par visiem 37 atmosfēras līmeņiem, kā arī virsmas mainīgos. Piespiedu termini ft sastāv no laika atkarīgām iezīmēm, kuras var aprēķināt analītiski, un tām nav nepieciešams prognozēt ar GraphCast. Tie ietver kopējo incidentu saules starojumu Grid nodes VM pārstāv komplektu, kurā ir katrs no tīkla mezgliem vM. Tīkla mezgli tiek vienmērīgi novietoti visā pasaulē R-apstrādātajā icosahedral tīkla MR. M0 atbilst vienības rādiusa icosahedronam (12 mezgli un 20 trijstūra sejas) ar sejas paralēli poliem (skatīt 1.g attēlu). Tīklu iteratīvi attīsta Mr → Mr+1, sadalot katru trijstūra seju 4 mazākās sejas, tādējādi radot papildu mezglu katras malas vidū un atkārtoti projektējot jaunos mezglus atpakaļ uz vienības sfēru.4 Funkcijas vM,Funkcijas, kas saistītas ar katru tīkla mezglu vM, ietver platuma kosīnu, un ithe sine un garuma kosī Mesh nodes EM ir divvirzienu malas, kas pievienotas starp tīkla mezgliem, kas ir savienoti tīkla iekšienē. Galvenais, tīkla malas tiek pievienotas EM visiem attīrīšanas līmeņiem, t.i., vislabākajam tīklam, M6, kā arī M5, M4, M3, M2, M1 un M0. Tas ir vienkāršs, jo, kā darbojas attīrīšanas process: Mr−1 mezgli vienmēr ir mezglu apakšsadaļa Mr. Tādēļ mezgli, kas ieviesti zemākajos attīrīšanas līmeņos, kalpo kā mezgli ilgāka diapazona komunikācijai, neatkarīgi no maksimālā attīrīšanas līmeņa. Iegūtais grafiks, kas satur kopīgo malu kopumu no visiem attīrīšanas līmeņiem, ir tas, ko mēs saucam par "multi Mesh edges Par katru malā eM savienojot sūtītāja tīkla mezglu vM uz uztvērēja tīkla mezglu vM, mēs izveidojam vM→vM malā funkcijas eM, funkcijas, izmantojot pozīciju uz vienības sfēras tīkla mezglu. Tas ietver vM→vM s r garumu malā, un vektora atšķirību starp 3d pozīcijām sūtītāja mezglu un uztvērēja mezglu, kas aprēķināti uztvērēja vietējā koordinātas sistēmā. uztvērēja vietējā koordinātu sistēma tiek aprēķināta, piemērojot rotāciju, kas maina azimutālo leņķi, līdz uztvērēja mezgls atrodas garumā 0, kam seko rotācija, kas maina polāro leņķi, līdz uztvērējs atrodas arī platumā 0. EG2M are unidirectional edges that connect sender grid nodes to receiver mesh nodes. An edge 𝑒G2M 𝑣G→𝑣M is added if the distance between the mesh node and the grid node is smaller s r or equal than 0.6 times5 the length of the edges in mesh 𝑀6 (see Figure 1) which ensures every grid node is connected to at least one mesh node. Features eG2M,features are built the same way as those for 𝑣G→𝑣M s r the mesh edges. This results on a total of 1,618,746 Grid2Mesh edges, each with 4 input features. Grid2Mesh edges EM2G are unidirectional edges that connect sender mesh nodes to receiver grid nodes. For each grid point, we find the triangular face in the mesh 𝑀6 that contains it and add three Mesh2Grid edges of the form 𝑒M2G 𝑣M→𝑣G, to connect the grid node to the three mesh nodes adjacent s r to that face (see Figure 1). Features eM2G,features are built on the same way as those for the mesh 𝑣M→𝑣G s r edges. This results on a total of 3,114,720 Mesh2Grid edges (3 mesh nodes connected to each of the 721 × 1440 latitude-longitude grid points), each with four input features. Mesh2Grid edges 3.4. Encoder Encoder mērķis ir sagatavot datus procesoram latentās pārstāvniecībās, kas darbosies tikai uz multi-mesh. Kā daļu no kodētāja, mēs vispirms iebūvējam katra no tīkla mezgliem, tīkla mezgliem, tīkla malām, tīkla malām un tīkla malām iebūvētās iezīmes fiksēta izmēra latentā telpā, izmantojot piecus daudzslāņu perceptronus (MLP), Embedding the input features Next, in order to transfer information of the state of atmosphere from the grid nodes to the mesh nodes, we perform a single message passing step over the Grid2Mesh bipartite subgraph GG2M(VG, VM, EG2M) connecting grid nodes to mesh nodes. This update is performed using an interaction network [5, 6], augmented to be able to work with multiple node types [2]. First, each of the Grid2Mesh edges are updated using information from the adjacent nodes, Grid2Mesh GNN Tad katrs no tīkla mezgliem tiek atjaunināts, apkopojot informāciju no visām malām, kas nonāk pie šī tīkla mezgla: Katrs no tīkla mezgliem tiek arī atjaunināts, bet bez agregācijas, jo tīkla mezgli nav nevienas malas uztvērēji Grid2Mesh apakšgrāmatā, Pēc visu trīs elementu atjaunināšanas modelis ietver atlikušo savienojumu un, lai vienkāršotu notāciju, atkārtoti piešķir mainīgos, 5.3 Apstrādātājs The processor is a deep GNN that operates on the Mesh subgraph GM (VM, EM) which only contains the Mesh nodes and and the Mesh edges. Note the Mesh edges contain the full multi-mesh, with not only the edges of 𝑀6, but all of the edges of 𝑀5, 𝑀4, 𝑀3, 𝑀2, 𝑀1 and 𝑀0, which will enable long distance communication. Mesh GNN viens slānis ir standarta mijiedarbības tīkls [5, 6], kas vispirms atjaunina katru no tīkla malām, izmantojot informāciju no blakus esošajiem mezgliem: Multi-mesh GNN Then it updates each of the mesh nodes, aggregating information from all of the edges arriving at that mesh node: Un pēc abu atjaunināšanas pārstāvības tiek atjauninātas ar atlikušo savienojumu un, lai vienkāršotu notāciju, arī pārvietoti uz ievades mainīgajiem: Iepriekšējā paragrāfā aprakstīts viens ziņojuma slānis, bet pēc līdzīgas pieejas [43, 39], mēs pielietojām šo slāni iteratīvi 16 reizes, izmantojot nedalītus neironu tīkla svaru MLPs katrā slānī. 3.6 Dekodēšana Dekodera loma ir atvest informāciju atpakaļ uz tīklu un iegūt izeju. Analogous to the Grid2Mesh GNN, the Mesh2Grid GNN performs a single message passing over the Mesh2Grid bipartite subgraph GM2G(VG, VM, EM2G). The Grid2Mesh GNN is functionally equivalent to the Mesh2Grid GNN, but using the Mesh2Grid edges to send information in the opposite direction. The GNN first updates each of the Grid2Mesh edges using information of the adjacent nodes: Mesh2Grid GNN Tad tas atjaunina katru no tīkla mezgliem, apkopojot informāciju no visām malām, kas nonāk pie šī tīkla mezgla: Šajā gadījumā mēs neatjaunojam tīkla mezglus, jo no šī brīža tiem nebūs nozīmes. Here again we add a residual connection, and for simplicity of the notation, reassign the variables, this time only for the grid nodes, which are the only ones required from this point on: Visbeidzot, prognoze yi katram no tīkla mezgliem tiek ražota, izmantojot citu MLP, Output function kas satur visas 227 prognozētās mainīgās attiecībā uz šo tīkla mezglu. līdzīgi [43, 39], nākamais laika stāvoklis, X ̈t + 1, tiek aprēķināts, pievienojot katra mezgla prognozi, Y ̈t , visu tīkla mezglu ievades stāvoklim, Tīkla normalizācija un parametrizācija Līdzīgi kā [43, 39], mēs normalizējām visus ieņēmumus. par katru fizisko mainīgo, mēs aprēķinājām vidējo un standarta novirzi uz spiediena līmeni 1979-2015, un izmantojām to, lai normalizētu tos līdz nullei vidējā un vienības novirzes. Input normalization Tā kā mūsu modelis rada starpību, Y ̈t , kas secinājuma laikā tiek pievienota Xt, lai ražotu X ̈t + 1, mēs normalizējām modeļa iznākumu, aprēķinot standarta novirzes statistiku uz spiediena līmeni par laika starpību Yt = Xt+1 − Xt katram mainīgajam6. Output normalization Neirālie tīkli GraphCast ietvaros ir visi MLPs, ar vienu slēpto slāni, un slēpto un izejas slāņu izmēri ir 512 (izņemot Decoder MLP galīgo slāni, kuras izejas izmērs ir 227, kas atbilst prognozēto mainīgo skaitam katram tīkla mezglam). Neural network parameterizations Apmācību detaļas This section provides details pertaining to the training of GraphCast, including the data split used to develop the model (Section 4.1), the full definition of the objective function with the weight associated with each variable and vertical level (Section 4.2), the autoregressive training approach (Section 4.3), optimization settings (Section 4.4), curriculum training used to reduce training cost (Section 4.5), technical details used to reduce the memory footprint of GraphCast (Section 4.6), training time (Section 4.7) and the software stacked we used (Section 4.8). 4.1 Apmācību sadalījums To mimic real deployment conditions, in which the forecast cannot depend on information from the future, we split the data used to develop GraphCast and data used to test its performance “causally”, in that the “development set” only contained dates earlier than those in the “test set”. The development set comprises the period 1979–2017, and the test set contains the years 2018–2021. Neither the researchers, nor the model training software, were allowed to view data from the test set until we had finished the development phase. This prevented our choices of model architecture and training protocol from being able to exploit any information from the future. Mūsu izstrādes komplektā mēs tālāk sadalījām datus apmācības komplektā, kas sastāv no gadiem 1979–2015, un validācijas komplektā, kas ietver 2016–2017. Mēs izmantojām apmācības komplektu kā apmācības datus mūsu modeļiem un validācijas komplektu hiperparametru optimizācijai un modeļu izvēlei, t.i., lai izlemtu vislabāk funkcionējošo modeļu arhitektūru. Pēc tam mēs iesaldējām modeļa arhitektūru un visas apmācības izvēles un pārcēlāmies uz testa posmu. 4.2 Apmācības mērķi GraphCast tika apmācīts, lai minimalizētu objektīvu funkciju 12 soļu prognozēs (3 dienas) pret ERA5 mērķiem, izmantojot gradientu lejupslīdi. Kur 𝜏 ∈ 1 : 𝑇train are the lead times that correspond to the 𝑇train autoregressive steps. 𝑑0 ∈ 𝐷batch represent forecast initialization date-times in a batch of forecasts in the training set, j ∈ J indeksē mainīgo un atmosfēras mainīgo spiediena līmeni. piemēram, J ={z1000, z850, . . . , 2 T, MsL}, i ∈ G0.25◦ ir atrašanās vietas (platuma un garuma) koordinātas tīklā, x ̈d0+τ un xd0+τ ir prognozētas un mērķvērtības dažiem mainīgajiem līmeņiem, atrašanās vietai un vadošajam laikam, j, i j, i s j ir laika atšķirību atgriezeniskā variance katrā mainīgajā līmenī, 𝑤𝑗 is the per-variable-level loss weight, ai ir platuma un garuma režģa šūnas platums, kas mainās ar platumu un tiek normalizēts līdz vidējam vienībai visā režģī. Lai izveidotu vienu skalaru zudumu, mēs paņēmām vidējo platuma garumu, spiediena līmeni, mainīgos, vadīšanas laiku un partijas izmēru.Mēs vidējām pa platuma garuma asiem, ar svaru, kas ir proporcionāls platuma garuma šūnu izmēram (normalizēts, lai nozīmētu 1). The quantities 𝑠 = 𝕍 h𝑥𝑡+1 − 𝑥𝑡 i −1 are per-variable-level inverse variance estimates of the time differences, which aim to standardize the targets (over consecutive steps) to unit variance. These were estimated from the training data. We then applied per-variable-level loss weights, 𝑤𝑗. For atmospheric variables, we averaged across levels, with a weight proportional to the pressure of the level (normalized to unit mean), as shown in Figure 6a. We use pressure here as a proxy for the density [26]. Note that the loss weight applied to pressure levels at or below 50 hPa, where HRES tends to perform better than GraphCast, is only 0.66% of the total loss weight across all variables and levels. We tuned the loss weights for the surface variables during model development, so as to produce roughly comparable validation performance across all variables: the weight on 2 T was 1.0, and the weights on 10 U, 10 v, MsL, and TP were each 0.1, as shown in Figure 6b. The loss weights across all variables sum to 7.4, i.e., (6 × 1.0 for the atmospheric variables, plus (1.0 + 0.1 + 0.1 + 0.1 + 0.1) for the surface variables listed above, respectively). 4.3. Training on autoregressive objective Lai uzlabotu mūsu modeļa spēju veikt precīzas prognozes vairāk nekā vienā solī, mēs izmantojām autoregresīvās apmācības režīmu, kurā modeļa prognozētais nākamais solis tika ievadīts atpakaļ kā ieguldījums nākamā posma prognozēšanai. 4.4 Optimizācija The training objective function was minimized using gradient descent, with mini-batches. We sampled ground truth trajectories from our ERA5 training dataset, with replacement, for batches of size 32. We used the AdamW optimizer [33, 27] with parameters (beta1 = 0.9, beta2 = 0.95). We used weight decay of 0.1 on the weight matrices. We used gradient (norm) clipping with a maximum norm value of 32. 4.5. Curriculum training schedule Pirmā fāze sastāv no 1000 gradientu lejupslīdes atjauninājumiem, ar vienu autoregresīvo soli, un mācīšanās ātruma grafiku, kas palielinājās lineāri no 0 līdz 1e−3 (7.a attēls). Otrā fāze sastāv no 299.000 gradientu lejupslīdes atjauninājumiem, atkal ar vienu autoregresīvo soli, un mācīšanās ātruma grafiku, kas samazinājās atpakaļ uz 0 ar pusi-cosine degradācijas funkciju (7.b attēls). Trešā fāze sastāv no 11 000 gradientu lejupslīdes atjauninājumiem, kur autoregresīvu soli skaits palielinājās no 2 12, palielinot par 1 katram 1000 atjauninājumiem, un ar fiksētu mācīšanās ātrumu 3e−7 (7.c attēls). 4.6 Atmiņas pēdas nospieduma samazināšana To fit long trajectories (12 autoregressive steps) into the 32GB of a Cloud TPU v4 device, we use several strategies to reduce the memory footprint of our model. First, we use batch parallelism to distribute data across 32 TPU devices (i.e., one data point per device). Second, we use bfloat16 floating point precision to decrease the memory taken by activations (note, we use full-precision numerics (i.e. float32) to compute performance metrics at evaluation time). Finally, we use gradient check-pointing [11] to further reduce memory footprint at the cost of a lower training speed. 4.7 Apmācību laiks Following the training schedule that ramps up the number of autoregressive steps, as detailed above, training GraphCast took about four weeks on 32 TPU devices. 4.8. programmatūras un aparatūras stacks Mēs izmantojam JAX [9], Haiku [23], Jraph [17], Optax, Jaxline [4] un xarray [25], lai veidotu un apmācītu mūsu modeļus. 5. Verification methods Šī sadaļa sniedz detalizētu informāciju par mūsu novērtēšanas protokolu. 5.1. iedaļa detalizēti izklāsta mūsu pieeju datu sadalīšanai cēloņsakarīgā veidā, nodrošinot mūsu novērtēšanas testus nozīmīgai vispārināšanai, t.i., neizmantojot informāciju no nākotnes. 5.2. iedaļa sīkāk izskaidro mūsu izvēles iespējas novērtēt HRES prasmi un salīdzināt to ar GraphCast, sākot ar nepieciešamību pēc HRES specifiskas pamata patiesības, lai izvairītos no tā sodīšanas īsā vadošajā laikā (5.2.1. iedaļa), ERA5 un HRES ietekmi, izmantojot dažādus asimilācijas logus uz katras valsts iekļautajiem skatpunktiem (5.2.2. iedaļa), izrietošo sākotnējo izvēli par laiku GraphCast 5.1 Apmācība, validācija un testa sadalījumi Testēšanas fāzē, izmantojot protokolu, kas tika iesaldēts attīstības fāzes beigās (4.1. iedaļa), mēs apmācījāmies četras GraphCast versijas, katra no tām dažādos periodos. 2018–2021, 2019–2021, 2020–2021 un 2021, attiecīgi. Atkal šie sadalījumi saglabāja cēloņsakarību starp datiem, ko izmanto, lai apmācītu modeļa versiju, un datiem, ko izmanto, lai novērtētu tā veiktspēju (skatīt 8. attēlu). Lielākā daļa mūsu rezultātu tika novērtēti 2018. gadā (t.i., ar modeli, kas apmācīts no 1979. līdz 2017. gadam), ar vairākiem izņēmumiem. Par ciklona izsekošanas eksperimentiem mēs ziņojam par rezultātiem 2018.–2021. gadā, jo cikloni nav tik izplatīti, tāpēc arī vairāk gadu palielina parauga lielumu. Mēs izmantojam jaunāko GraphCast versiju, lai prognozētu konkrētu gadu: GraphCast <2018 2018. gada prognozei, GraphCast <2019 2019. gada 5.2 GraphCast salīdzināšana ar HRES 5.2.1. Choice of ground truth datasets GraphCast was trained to predict ERA5 data, and to take ERA5 data as input; we also use ERA5 as ground truth for evaluating our model. HRES forecasts, however, are initialized based on HRES analysis. Generally, verifying a model against its own analysis gives the best skill estimates [45]. So rather than evaluating HRES forecasts against ERA5 ground truth, which would mean that even the zeroth step of HRES forecasts would have non-zero error, we constructed an “HRES forecast at step 0” (HRES-fc0) dataset, which contains the initial time step of HRES forecasts at future initializations (see Table 3). We use HRES-fc0 as ground truth for evaluating HRES forecasts. 5.2.2. Ensuring equal lookahead in assimilation windows When comparing the skills of GraphCast and HRES, we made several choices to control for differences between the ERA5 and HRES-fc0 data assimilation windows. As described in Section 1, each day HRES assimilates observations using four +/-3h windows centered on 00z, 06z, 12z and 18z (where 18z means 18:00 UTC in Zulu convention), while ERA5 uses two +9h/-3h windows centered on 00z and 12z, or equivalently two +3h/-9h windows centered on 06z and 18z. See Figure 9 for an illustration. We chose to evaluate GraphCast’s forecasts from the 06z and 18z initializations, ensuring its inputs carry information from +3h of future observations, matching HRES’s inputs. We did not evaluate GraphCast’s 00z and 12z initializations, to avoid a mismatch between having a +9h lookahead in ERA5 inputs versus +3h lookahead for HRES inputs. Figure 10 show the performance of GraphCast initialized from 06z/18z, and 00z/12z. When initialized from a state with a larger lookahead, GraphCast gets a visible improvement that persists at longer lead times, supporting our choice to initialized evaluation from 06z/18z. We applied the same logic when choosing the target on which to evaluate: we only evaluate targets which incorporate a 3h lookahead for both HRES and ERA5. Given our choice of initialization at 06z and 18z, this corresponds to evaluating every 12h, on future 06z and 18z analysis times. As a practical example, if we were to evaluate GraphCast and HRES initialized at 06z, at lead time 6h (i.e., 12z), the target for GraphCast would integrate a +9h lookahead, while the target for HRES would only incorporate +3h lookahead. At equal lead time, this could result in a harder task for GraphCast. 5.2.3. Initializācijas un derīguma termiņu saskaņošana Kā minēts iepriekš, godīga salīdzināšana ar HRES prasa, lai mēs novērtētu GraphCast, izmantojot 06z un 18z inicializācijas, un ar plūsmas laikiem, kas ir 12h reizes, kas nozīmē, ka derīguma laiki ir arī 06z un 18z. Arhivētas HRES prognozes ir pieejamas, izmantojot 06z un 18z inicializācijas un derīguma laiku, un mēs tos izmantojam, lai veiktu līdzīgu salīdzinājumu ar GraphCast šajos vadošajos laikos. For lead times of 4 days and beyond, archived HRES forecasts are only available at 00z and 12z initializations, which given our 12-hour-multiple lead times means 00z and 12z validity times. At these lead times we have no choice but to compare GraphCast at 06z and 18z, with HRES at 00z and 12z. Šajos globāli definētu RMSEs salīdzinājumos mēs sagaidām, ka atšķirība laika posmā dod HRES nelielu priekšrocību. 11. attēlā mēs varam redzēt, ka līdz 3,5 dienu vadošajiem laikiem, HRES RMSEs mēdz būt mazāki vidēji par 00z un 12z inicializācijas / derīguma laikiem, nekā tie ir 06z un 18z reizes, kurās tiek novērtēts GraphCast. Mēs varam arī redzēt, ka atšķirība samazinās, jo vadošais laiks palielinās, un ka 06z/18z RMSEs parasti šķiet, ka tie ir tendēti uz asimptomu virs 00z/12z RMSE, bet 2% no tā. Whenever we plot RMSE and other evaluation metrics as a function of lead time, we indicate with a dotted line the 3.5 day changeover point where we switch from evaluating HRES on 06z/18z to evaluating on 00z/12z. At this changeover point, we plot both the 06z/18z and 00z/12z metrics, showing the discontinuity clearly. 5.2 Vērtēšanas periods Lielākā daļa mūsu galveno rezultātu tiek ziņoti par 2018. gadu (no mūsu testēšanas kopuma), kuram pirmais prognozēšanas inicializācijas laiks bija 2018-01-01_06:00:00 UTC un pēdējais 2018-12-31_18:00:00, vai, izvērtējot HRES ilgākos vadošos laikos, 2018-01-01_00:00:00 un 2018-12-31_12:00:00. 5.3 Vērtēšanas metrikas Mēs kvantitatīvi aprēķinām GraphCast, citu ML modeļu un HRES prasmīgumu, izmantojot sakņu vidējo kvadrātu kļūdu (RMSE) un anomāliju korelācijas koeficientu (ACC), kas abi tiek aprēķināti attiecībā pret modeļu attiecīgajiem zemes patiesības datiem. RMSE mēra atšķirību lielumu starp prognozēm un zemes patiesību attiecībā uz noteiktu mainīgo, kas indeksēts ar j un noteiktu vadošo laiku τ (skatīt vienādojumu (20)). ACC, Lj,τ , ir definēts vienādojumā (29) un mēra, cik labi prognozē atšķirības no klimatoloģijas, t.i., vidējais laiks attiecībā uz atrašanās vietu un datumu, korelē ar zemes patiesības atšķirībām no klimatoloģijas. Visas metrikas tika aprēķinātas, izmantojot float32 precizitāti un ziņoja, izmantojot mainīgo native dinamisko diapazonu, bez normalizācijas. Mēs kvantificējām prognozēšanas prasmi attiecībā uz noteiktu mainīgo, x j, un vadošo laiku, τ = tΔd, izmantojot platuma svērto sakņu vidējo kvadrātu kļūdu (RMSE), ko sniedz: Root mean square error (RMSE) Kur • d0 ∈ Deval atspoguļo prognozēto inicializācijas datumu datumu vērtēšanas datu kopā, • 𝑗 ∈ 𝐽 index variables and levels, e.g., 𝐽 = {z1000, z850, . . . , 2 T, MsL}, • i ∈ G0.25◦ ir atrašanās vietas (platuma un garuma) koordinātas tīklā, • x ̈d0+τ un xd0+τ ir prognozētas un mērķvērtības dažiem mainīgajiem līmeņiem, atrašanās vietai un vadošajam laikam, J, I J, I • ai ir platuma un garuma režģa šūna platums (normalizēts uz vienības vidējo virs režģa), kas mainās ar platumu. Ņemot kvadrātveida saknes vidējā virs prognozēšanas inicializācijas mēs sekojam konvencijas WeatherBench [41]. Tomēr mēs atzīmējam, ka tas atšķiras no tā, kā RMSE ir definēts daudzos citos kontekstos, kur kvadrātveida sakne tiek piemērota tikai galīgajam vidējam, tas ir, Visos salīdzinājumos, kas ietver prognozes, kas tiek filtrētas, sagrieztas vai sadalītas sfēriskajā harmoniskajā domēnā, ērtības labad mēs aprēķinām RMSEs tieši sfēriskajā harmoniskajā domēnā, ar visiem līdzekļiem, kas ņemti kvadrātveida saknes iekšpusē, Root mean square error (RMSE), spherical harmonic domain. Šeit f0+τ un f d0+τ ir prognozēti un mērķtiecīgi koeficienti sfēriskajām harmonikām ar kopējo viļņu skaitu j,l,m j,l,m Mēs aprēķinām šos koeficientus no tīkla datiem, izmantojot diskrētu sfērisku harmonisko transformāciju [13] ar trīsstūrveida trunkāciju uz viļņa numuru 719, kas tika izvēlēts, lai atrisinātu mūsu tīkla 0,25° (28km) izšķirtspēju ekvatorā. This RMSE closely approximates the grid-based definition of RMSE given in Equation (21), however it is not exactly comparable, in part because the triangular truncation at wavenumber 719 does not resolve the additional resolution of the equiangular grid near the poles. Tas tiek aprēķināts saskaņā ar RMSE definīciju vienādojums (21), bet par vienu atrašanās vietu: Root mean square error (RMSE), per location. We also break down RMSE by latitude only: kur glicerīns (G0.25◦) glicerīns = 1440 ir atšķirīgo garumu skaits mūsu regulārajā 0,25° režīmā. Tas tiek aprēķināts saskaņā ar RMSE definīciju Equation (21), bet tas ir ierobežots ar konkrētu virsmas augstuma diapazonu, ko nosaka robežas zl ≤ zsurface < zu uz virsmas ģeopotenciāla: Root mean square error (RMSE), by surface elevation. kur ll norāda indikatora funkciju. Šis daudzums ir definēts kā Mean bias error (MBE), per location. This quantifies the average magni-tude of the per-location biases from Equation (26) and is given by Root-mean-square per-location mean bias error (RMS-MBE). Tas kvantificē korelāciju starp diviem dažādiem modeļiem A un B. Mēs izmantojam nesentrētu korelācijas koeficientu sakarā ar izcelsmes nulles nozīmi bias mērījumos un aprēķinām šo daudzumu saskaņā ar Correlation of per-location mean bias errors. Anomālijas korelācijas koeficients (ACC). Mēs arī aprēķinājām anomālijas korelācijas koeficientu attiecībā uz noteiktu mainīgo, x j, un vadīšanas laiku, τ = tΔd, saskaņā ar where 𝐶𝑑0+𝜏 is the climatological mean for a given variable, level, latitude and longitude, and for the day-of-year containing the validity time 𝑑0 + 𝜏. Climatological means were computed using ERA5 data between 1993 and 2016. All other variables are defined as above. 5.4. Statistical methodology 5.4.1. nozīmīguma pārbaudes par starpību starp līdzekļiem Par katru vadošo laiku τ un mainīgo līmeni j, mēs pārbaudām vidējo atšķirību starp per-inicializācijas laika RMSEs (definēts vienādojumā (30)) GraphCast un HRES. Mēs izmantojam pāru divpusējo t-testu ar korekciju auto korelācijai, ievērojot metodoloģiju [16]. Šis tests pieņem, ka laika sērijas atšķirības prognozēšanas rezultātos ir pienācīgi modelētas kā stacionārie Gaussian AR(2) procesi. Šis pieņēmums mums nav precīzi piemērots, bet ir motivēts kā pietiekams, lai ECMWF varētu pārbaudīt vidēja diapazona laika prognozes [16]. Mūsu testu nominālais parauga izmērs ir n = 730 ar vadošajiem laikiem, kas ir mazāki par 4 dienām, kas sastāv no divām prognozētām inicializācijām dienā 2018. gada 365 dienās (par vadošajiem laikiem, kas ir lielāki par 4 dienām, mums ir n = 729, sk. 5.4.2. iedaļu). Tomēr šie dati (prognozētos RMSEs atšķirības) ir automātiski korelēti laikā. Skatīt 5. tabulu, lai iegūtu detalizētus rezultātus no mūsu nozīmīguma testiem, tostarp p-vērtības, vērtības t testa statistikas un neff. 5.4.2 Prognozes saskaņošana Par vadošajiem laikiem τ mazāk nekā 4 dienas, mums ir pieejamas prognozes 06z un 18z inicializācijas un derīguma laikiem katru dienu gan GraphCast un HRES, un mēs varam pārbaudīt atšķirības RMSEs starp šiem pāri prognozēm. Mēs aprēķinām atšķirības which we use to test the null hypothesis that 𝔼[diff-RMSE( 𝑗, 𝜏, 𝑑0)] = 0 against the two-sided alterna-tive. Note that by our stationarity assumption this expectation does not depend on 𝑑0. Kā aprakstīts 5.2.3. iedaļā, ar vadošajiem laikiem 4 dienas vai ilgāk, mums ir pieejamas tikai HRES prognozes ar 00z un 12z inicializācijas un derīguma laikiem, savukārt godīgākajam salīdzinājumam (5.2.2. iedaļa) GraphCast prognozes ir jānovērtē, izmantojot 06z un 18z inicializācijas un derīguma laiki. Lai veiktu pāroto testu, mēs salīdzinām GraphCast prognozes RMSE ar interpolētu RMSE no abām HRES prognozes abās pusēs: viens ir inicializēts un derīgs 6 stundas agrāk, bet otrs ir inicializēts un derīgs 6 stundas vēlāk, visi ar to pašu vadošo laiku. Mēs varam tos izmantot, lai pārbaudītu null hipotēzi E[diff-RMSEinterp( j, τ, d0)] = 0, kas atkal nav atkarīga no d0 ar stacionāruma pieņēmumu par atšķirībām. Ja mēs turpmāk pieņemam, ka HRES RMSE laika sērija pati ir stacionāra (vai vismaz pietiekami tuvu stacionāram 6 stundu logā), tad E[diff-RMSEinterp( j, τ, d0)] = E[diff-RMSE( j, τ, d0)] un interpolētās atšķirības var izmantot arī, lai pārbaudītu novirzes no sākotnējās nulles hipotēzes, ka E[diff-RMSE( j, τ, d0)] = 0. This stronger stationarity assumption for HRES RMSEs is violated by diurnal periodicity, and in Section 5.2.3 we do see some systematic differences in HRES RMSEs between 00z/12z and 06z/18z validity times. However as discussed there, these systematic differences reduce substantially as lead time grows and they tend to favour HRES, and so we believe that a test of 𝔼[diff-RMSE( 𝑗, 𝜏, 𝑑0)] = 0 based on diff-RMSEinterp will be conservative in cases where GraphCast appears to have greater skill than HRES. 5.4.3. RMSE uzticamības intervāli Mūsu RMSE prasmju gabalu kļūdu joslas atbilst atsevišķiem ticamības intervāliem E[RMSEGC] un E[RMSEHRES] (eliding vai tagad argumenti j, τ, d0). Tie ir iegūti no iepriekš aprakstītā divpusējā t-testa ar korekciju autokorelācijai, ko atsevišķi piemēro GraphCast un HRES RMSE laika sērijām. Šie uzticamības intervāli rada stacionāruma pieņēmumu atsevišķai GraphCast un HRES RMSE laika sērijai, kas, kā minēts iepriekš, ir spēcīgāks pieņēmums, ka atšķirību stacionārums ir nedaudz pārkāpts. 5.4.4. RMSE prasmju rezultātu uzticības intervāli No t-testa, kas aprakstīts 5.4.1. iedaļā, mēs varam arī standarta veidā iegūt pārliecības intervālus par patieso atšķirību RMSEs, tomēr mūsu prasmju rezultātu plānos mēs vēlētos parādīt pārliecības intervālus par patieso RMSE prasmju rezultātu, kurā patieso atšķirību normalizē patiesais HRES RMSE: Uzticības intervāls šim daudzumam būtu jāņem vērā mūsu patiesā HRES RMSE aplēses nenoteiktība. Ļaujiet [ldiff, udiff] būt mūsu 1 − α/2 uzticības intervāls skaitītājam (starpība RMSEs), un [lHRES, uHRES] mūsu 1 − α/2 uzticības intervāls nosaukumam (HRES RMSE). Ņemot vērā, ka 0 < lHRES katrā gadījumā mums, izmantojot intervālu aritmētiku un savienojumu, mēs iegūstam konservatīvu 1 − α uzticības intervālu Mēs izklāstām šos uzticības intervālus kopā ar mūsu aprēķiniem par RMSE prasmju rezultātiem, tomēr ņemiet vērā, ka mēs neuzticamies tiem nozīmīguma testēšanai. Salīdzinājums ar iepriekšējām mašīntulkošanas bāzes līnijām Lai noteiktu, kā GraphCast veiktspēja salīdzina ar citām ML metodēm, mēs koncentrējamies uz Pangu-Weather [7], spēcīgu MLWP bāzes līniju, kas darbojas ar 0,25° izšķirtspēju. Lai veiktu vistiešāko salīdzinājumu, mēs izietam no mūsu novērtēšanas protokola un izmantojam to, kas aprakstīts [7]. Tā kā publicētie Pangu-Weather rezultāti ir iegūti no 00z/12z inicializācijām, mēs izmantojam tādas pašas inicializācijas GraphCast, nevis 06z/18z, kā šajā papīra pārējā daļā. Tas ļauj abiem modeļiem tikt inicializēti uz tiem pašiem ievadiem, kas ietver tādu pašu daudzumu lookahead (+9 stundas, sk. 5.2.2 un 5.2. apakšpunktu). Tā As shown in Figure 12, GraphCast (blue lines) outperforms Pangu-Weather [7] (red lines) on 99.2% of targets. For the surface variables (2 T, 10 U, 10 v, MsL), GraphCast’s error in the first several days is around 10-20% lower, and over the longer lead times plateaus to around 7-10% lower error. The only two (of the 252 total) metrics on which Pangu-Weather outperformed GraphCast was z500, at lead times 6 and 12 hours, where GraphCast had 1.7% higher average RMSE (Figure 12a,e). Papildu prognozēšanas verifikācijas rezultāti Šī sadaļa sniedz papildu analīzi par GraphCast veiktspēju, sniedzot pilnīgu priekšstatu par tā stiprībām un ierobežojumiem. 7.1. iedaļa papildina papīra galvenos rezultātus par papildu mainīgajiem un līmeņiem, kas pārsniedz z500. 7.2. iedaļa tālāk analizē GraphCast veiktspēju, kas sadalīta pēc reģioniem, platuma un spiediena līmeņiem (jo īpaši atšķirot veiktspēju zem tropopausa un virs tā), ilustrē aizspriedumus un RMSE pēc platuma garuma un augstuma. 7.3. iedaļa demonstrē, ka gan multi-mesh, gan autoregresīvais zudums spēlē svarīgu lomu GraphCast veiktspējā. 7.4. iedaļa detalizē pieeju optimālai izsmelšanai, ko piemēro 7.1 Detalizēti rezultāti par papildu mainīgajiem 7.1.1 RMSE un ACC Figure 13 complements Figure 2a–b and shows the RMSE and normalized RMSE difference with respect to HRES for GraphCast and HRES on a combination of 12 highlight variables. Figure 14 shows the ACC and normalized ACC difference with respect to HRES for GraphCast and HRES on the same a combination of 12 variables and complements Figure 2c. The ACC skill score is the normalized ACC difference between model 𝐴 and baseline 𝐵 as (ACC𝐴 − ACC𝐵)/(1 − RMSE𝐵). 7.1.2. Detailed significance test results for RMSE comparisons Table 5 provides further information about the statistical significance claims made in the main section about differences in RMSE between GraphCast and HRES. Details of the methodology are in Section 5.4. Here we give 𝑝-values, test statistics and effective sample sizes for all variables. For reasons of space we limit ourselves to three key lead times (12 hours, 2 days and 10 days) and a subset of 7 pressure levels chosen to include all cases where 𝑝 > 0.05 at these lead times. 7.1.3. datu nesenuma ietekme uz GraphCast Svarīga MLWP metožu iezīme ir tāda, ka tos var periodiski pārtrenēt, izmantojot jaunākos datus. Tas principā ļauj viņiem modelēt nesenos laika apstākļus, kas laika gaitā mainās, piemēram, ENSO ciklu un citas svārstības, kā arī klimata pārmaiņu ietekmi. Lai izpētītu, kā apmācību datu nesenums ietekmē GraphCast testa sniegumu, mēs apmācījāmies četrus GraphCast variantus, ar apmācības datiem, kas vienmēr sākās 1979. gadā, bet beidzās attiecīgi 2017. gadā, 2018. gadā un 2020. gadā (mēs marķējām variantu, kas beidzas 2017. gadā kā “GraphCast:<2018”, utt.). Figure 15 shows the skill and skill scores (with respect to HRES) of the four variants of GraphCast, for several variables and complements Figure 4a. There is a general trend where variants trained to years closer to the test year have generally improved skill score against HRES. The reason for this improvement is not fully understood, though we speculate it is analogous to long-term bias correction, where recent statistical biases in the weather are being exploited to improve accuracy. It is also important to note that HRES is not a single NWP across years: it tends to be upgraded once or twice a year, with generally increasing skill on z500 and other fields [18, 22, 19, 20, 21]. This may also contribute to why GraphCast:<2018 and GraphCast:<2019, in particular, have lower skill scores against HRES at early lead times for the 2021 test evaluation. We note that for other variables, GraphCast:<2018 and GraphCast:<2019 tend to still outperform HRES. These results highlight a key feature of GraphCast, in allowing performance to be automatically improved by re-training on recent data. 7.2. Disaggregated results 7.2.1 RMSE pēc reģiona Prognozes prasmju reģionālā novērtēšana ir sniegta 17. un 18. attēlā, izmantojot tos pašus reģionus un nosaukumu konvenciju kā ECMWF rezultātu kartēs (https://sites.ecmwf.int/ifs/scorecards/ scorecards-47r3HRES.html). Mēs pievienojām dažus papildu reģionus, lai labāk aptvertu visu planētu. Šie reģioni ir parādīti 16. attēlā. 7.2.2. RMSE prasmju vērtējums pēc platuma un spiediena līmeņa 19. attēlā mēs izklāstām normalizētās RMSE atšķirības starp GraphCast un HRES, kā gan spiediena līmeņa, gan platuma funkciju. Šajos gabalos mēs katrā platumā norādām troposfēras vidējo spiedienu, kas atdala troposfēru no stratosfēras. Mēs izmantojam vērtības, kas aprēķinātas ERA-15 datu kopai (1979-1993), kas sniegta 1. attēlā no [44]. Tie nebūs gluži tādi paši kā ERA5, bet ir paredzēti tikai kā rupja palīdzība interpretācijai. Mēs varam redzēt no 2. attēlā redzamās rezultātu kartes, ka GraphCast darbojas sliktāk nekā HRES zemākajos novērtētajos spiediena līmeņos (50hPa). 19. attēlā parādīts, ka spiediena līmenis, kurā GraphCast sāk pasliktināties, bieži vien ir arī atkarīgs no platuma, dažos gadījumos aptuveni pēc troposfēras Mēs izmantojam zemāku zaudējumu svēršanu zemākiem spiediena līmeņiem, un tam var būt nozīme; tas ir arī iespējams, ka var būt atšķirības starp ERA5 un HRES-fc0 datu kopām stratosfēras mainīgo prognozējamībā. 7.2.3 Priekšrocības pēc platuma un garuma In Figures 20 to 22, we plot the mean bias error (MBE, or just ‘bias’, defined in Equation (26)) of GraphCast as a function of latitude and longitude, at three lead times: 12 hours, 2 days and 10 days. Plātnēs par mainīgajiem, kas sniegti par spiediena līmeņiem, mēs esam maskējuši reģionus, kuru virsmas augstums ir pietiekami augsts, lai spiediena līmenis būtu zemāks par zemi vidēji. Mēs nosakām, ka tas ir gadījums, kad virsmas ģeopotenciāls pārsniedz klimatisko vidējo ģeopotenciālu tajā pašā vietā un spiediena līmenī. Lai kvantitatīvi aprēķinātu vidējo lokalizācijas noviržu lielumu, kas parādīts 20. līdz 22. attēlā, mēs aprēķinājām lokalizācijas vidējo noviržu kļūdu saknes vidējo kvadrātu (RMS-MBE, kas definēts vienādojumā (26)). Šie ir attēloti 23. attēlā GraphCast un HRES kā vadīšanas laika funkciju. Mēs varam redzēt, ka GraphCast novirzes ir vidēji mazākas nekā HRES lielākajai daļai mainīgo līdz 6 dienām. Mēs arī aprēķinājām korelācijas koeficientu starp GraphCast un HRES per-location vidējām bias kļūdām (definēts vienādojumā (27)), kas attēlota kā vadīšanas laika funkcija 24. attēlā. mēs varam redzēt, ka GraphCast un HRES biases nav korelētas vai ir vāji korelētas īsākajos vadīšanas laikos, bet korelācijas koeficients parasti pieaug ar vadīšanas laiku, sasniedzot vērtības, kas ir tikpat augstas kā 0,6 10 dienas. 7.2.4. RMSE prasmju vērtējums pēc platuma un garuma 25. līdz 27. attēlā mēs izklāstām normalizēto RMSE atšķirību starp GraphCast un HRES pēc platuma un garuma. Kā 7.2.3. iedaļā, attiecībā uz mainīgajiem, kas norādīti spiediena līmeņos, mēs esam maskējuši reģionus, kuru virsmas augstums ir pietiekami augsts, lai spiediena līmenis būtu zem zemes vidēji. Notable areas where HRES outperforms GraphCast include specific humidity near the poles (particularly the south pole); geopotential near the poles; 2m temperature near the poles and over many land areas; and a number of surface or near-surface variables in regions of high surface elevation (see also Section 7.2.5). GraphCast’s skill in these areas generally improves over longer lead times. However HRES outperforms GraphCast on geopotential in some tropical regions at longer lead times. At 12 hour and 2 day lead times both GraphCast and HRES are evaluated at 06z/18z initialization and validity times, however at 10 day lead times we must compare GraphCast at 06z/18z with HRES at 00z/12z (see Section 5). This difference in time-of-day may confound comparisons at specific locations for variables like 2m temperature (2 T) with a strong diurnal cycle. 7.2.5. RMSE prasmju vērtējums pēc virsmas augstuma 25. attēlā mēs varam redzēt, ka GraphCast, šķiet, ir samazinātas prasmes augsta augstuma reģionos daudziem mainīgajiem ar 12 stundu vadošo laiku. lai izmeklētu šo tālāk mēs sadalīja zemes virsmu 32 bins pēc virsmas augstuma (dots attiecībā uz ģeopotenciālo augstumu) un aprēķināja RMSEs katrā bin saskaņā ar vienādojumu (24). Īsā vadīšanas laikā un it īpaši 6 stundu laikā GraphCast prasmes attiecībā pret HRES mēdz samazināties ar augstāku virsmas augstumu, vairumā gadījumu nokrītot zem HRES prasmes pietiekami augstā augstumā. We note that GraphCast is trained on variables defined using a mix of pressure-level coordinates (for atmospheric variables) and height above surface coordinates (for surface-level variables like 2m temperature or 10m wind). The relationship between these two coordinates systems depends on surface elevation. Despite GraphCast conditioning on surface elevation we conjecture that it may struggle to learn this relationship, and to extrapolate it well to the highest surface elevations. In further work we would propose to try training the model on a subset of ERA5’s native model levels instead of pressure levels; these use a hybrid coordinate system [14] which follows the land surface at the lowest levels, and this may make the relationship between surface and atmospheric variables easier to learn, especially at high surface elevations. Mainīgie, izmantojot spiediena līmeņa koordinātas, tiek interpolēti zem zemes, kad spiediena līmenis pārsniedz virsmas spiedienu. GraphCast nesniedz nekādas skaidras norādes par to, ka tas ir noticis, un tas var palielināt izaicinājumu mācīties prognozēt augstā virsmas augstumā. turpmākajā darbā, izmantojot spiediena līmeņa koordinātas, mēs ierosinām modelim sniegt papildu signālu, norādot, kad tas ir noticis. Visbeidzot, mūsu zaudējumu svēršana ir zemāka atmosfēras mainīgajām vērtībām zemākā spiediena līmenī, un tas var ietekmēt prasmi augstākā augstuma vietās. 7.3. GraphCast ablations 7.3.1 Daudzslāņu ablācija Lai labāk saprastu, kā multi-mesh attēlojums ietekmē GraphCast veiktspēju, mēs salīdzinām GraphCast veiktspēju ar modeļa versiju, kas apmācīta bez multi-mesh attēlojuma. Pēdējā modeļa arhitektūra ir identiska GraphCast (ieskaitot to pašu kodētāju un dekoderi un to pašu mezglu skaitu), izņemot to, ka procesa blokā grafiks satur tikai labākās icosahedron mesh M6 (245,760 malas, nevis 327,660 GraphCast). Figure 29 (left panel) shows the scorecard comparing GraphCast to the ablated model. GraphCast benefits from the multi-mesh structure for all predicted variables, except for lead times beyond 5 days at 50 hPa. The improvement is especially pronounced for geopotential across all pressure levels and for mean sea-level pressure for lead times under 5 days. The middle panel shows the scorecard comparing the ablated model to HRES, while the right panel compares GraphCast to HRES, demonstrating that the multi-mesh is essential for GraphCast to outperform HRES on geopotential at lead times under 5 days. 7.3.2 Autoreģresīvās apmācības ietekme Mēs analizējām GraphCast variantu veiktspēju, kas tika apmācīti ar mazāk autoregresīvu (AR) soļiem7, kas mudinātu tos uzlabot savu īso vadošo laiku sniegumu ilgāka vadošā laika snieguma dēļ. Kā parādīts 30. attēlā (ar gaišākām zilajām līnijām, kas atbilst apmācībai ar mazākām AR soļiem), mēs atklājām, ka modeļi, kas apmācīti ar mazākām AR soļiem, mēdz tirgot ilgāk, lai iegūtu īsāku vadošo laiku precizitāti. Šie rezultāti liecina par iespēju apvienot vairākus modeļus ar dažādiem AR soļiem, piemēram, īsiem, vidējiem un garajiem vadošajiem laikiem, lai izmantotu savas attiecīgās priekšrocības visā prognozes horizontā. Saikne starp autoregresīvo 7.4 Optimālais blurring 7.4.1.Ietekme uz prasmju salīdzināšanu starp GraphCast un HRES 31. un 32. attēlā mēs salīdzinām HRES RMSE ar GraphCast pirms un pēc tam, kad abiem modeļiem ir piemērots optimālais izsmelšana. 4.2 Filtrēšanas metodoloģija Mēs izvēlējāmies filtrus, kas samazina RMSE lineāro, homogēno (vietne nemainīga), izotropisko (virziena nemainīga) filtru klasē sfērā. šos filtrus var viegli pielietot sfēriskajā harmoniskajā domēnā, kur tie atbilst multiplikatīviem filtra svariem, kas ir atkarīgi no kopējā viļņu skaita, bet ne no garuma viļņu skaita [12]. Katrai inicializācijai d0, vadošajam laikam τ, mainīgajam un līmenim j mēs piemērojām diskrētu sfērisko harmonisko transformāciju [13] prognozēm x ̈d0+τ un mērķiem xd0+τ, iegūstot sfēriskos harmoniskos koeficientus f ̈d0+τ j j j j,l,m un f d0+τ katram pāriem kopējā viļņu skaita l un garuma viļņu skaita m. Lai atrisinātu mūsu tīkla 0,25° (28km) izšķirtspēju ekvatorā, mēs izmantojam trīsstūrveida trunkāciju pie kopējā viļņu skaita 719, kas nozīmē, ka l svārstās no 0 līdz max l = 719, un katram l m vērtība svārstās no −l līdz l. Tad mēs reizinājām katru prognozēto koeficientu f ̈d0+τ ar filtra svaru bτ , kas ir neatkarīgs no j,l,m j,l garuma viļņu skaita m. Filtra svari tika uzstādīti, izmantojot vismazākos kvadrātus, lai samazinātu vidējo kvadrātveida kļūdu, kā aprēķināts sfēriskajā harmoniskajā jomā: Mēs izmantojām datus no 2017. gada, lai atbilstu šiem svariem, kas nav pārklāti ar 2018. gada testu kopumu. Ievietojot dažādus filtrus katram vadošajam laikam, neskaidrības pakāpe brīvi palielinājās, palielinot nenoteiktību ilgākos vadošajos laikos. Kaut arī šī metode ir diezgan vispārīga, tai ir arī ierobežojumi. Tā kā filtri ir viendabīgi, tie nespēj ņemt vērā atrašanās vietas specifiskās iezīmes, piemēram, orogrāfijas vai sauszemes-jūras robežas, un tāpēc viņiem ir jāizvēlas starp pārmērīgu paredzamo augstas izšķirtspējas detaļu pārklāšanu šajās vietās vai pārmērīgu neparedzamo augstas izšķirtspējas detaļu pārklāšanu vispārīgāk. Alternatīvs veids, kā pielāgot nosacītu cerību (un tādējādi uzlabot RMSE) mūsu ECMWF prognozes bāzes līnijai, būtu izvērtēt ENS ansambļa prognozes sistēmas ansambļa vidējo rādītāju, nevis deterministisko HRES prognozi. 7.4.3. optimālo filtru pārneses funkcijas The filter weights are visualized in Figure 33, which shows the ratio of output power to input power for the filter, on the logarithmic decibel scale, as a function of wavelength. (With reference to Vienādojums (35), tas ir vienāds ar 20 log10(bτ ) viļņu garumam Ce/l, kas atbilst kopējam viļņu skaitam l.) For both HRES and GraphCast, we see that it is optimal for MSE to attenuate power over some short-to-mid wavelengths. As lead times increase, the amount of attenuation increases, as does the wavelength at which it is greatest. In optimizing for MSE, we seek to approximate a conditional expectation which averages over predictive uncertainty. Over longer lead times this predictive uncertainty increases, as does the spatial scale of uncertainty about the location of weather phenomena. We believe that this largely explains these changes in optimal filter response as a function of lead time. Mēs varam redzēt, ka HRES parasti prasa vairāk neskaidrību nekā GraphCast, jo GraphCast prognozes jau kaut kādā mērā neskaidrības (skatīt sadaļu 7.5.3), bet HRES nav. Piemēram, daudziem mainīgajiem mūsu regridētā ERA5 datubāzē, spektrs pēkšņi izslēdzas par viļņu garumiem zem 62km, kas nav atrisināti ERA5 dzimtajā 0,28125◦ izšķirtspējā. Mēs arī atzīmējam, ka GraphCast filtra reakcijā ir ievērojami augstumi aptuveni 100 km viļņu garumā z500, kas nav klāt HRES. Mēs uzskatām, ka tie filtrē mazus, viltus artefaktus, kurus GraphCast ieviesa ap šiem viļņu garumiem kā blakusparādību no tīkla uz tīklu un tīkla uz tīklu transformācijām, kas veiktas modeļa iekšpusē. 7.4.4 Attiecības starp autoregresīvo apmācības horizontu un neskaidrību In Figure 34 we use the results of optimal blurring to investigate the connection between autoregressive training and the blurring of GraphCast’s predictions at longer lead times. In the first row of Figure 34, we see that models trained with longer autoregressive training horizons benefit less from optimal blurring, and that the benefits of optimal blurring generally start to accrue only after the lead time corresponding to the horizon they were trained up to. This suggests that autoregressive training is effective in teaching the model to blur optimally up to the training horizon, but beyond this further blurring is required to minimize RMSE. Būtu ērti, ja mēs varētu aizstāt garāku horizontu apmācību ar vienkāršu pēcapstrādes stratēģiju, piemēram, optimālu neskaidrību, bet tas nešķiet: 34. attēla otrajā rindā mēs redzam, ka garāku horizontu autoregresīvā apmācība joprojām rada zemākas RMSEs, pat pēc tam, kad ir piemērota optimāla neskaidrība. Ja kāds vēlas prognozes, kas ir zināmā mērā minimāli neskaidrs, var izmantot modeli, kas apmācīts nelielam skaitam autoregresīvu soļu. tas, protams, izraisītu augstāku RMSEs ar ilgāku vadošo laiku, un mūsu rezultāti šeit liecina, ka šie augstāki RMSEs nebūtu tikai tāpēc, ka trūkst neskaidrības; viens apdraudētu citus prasmju aspektus ar ilgāku vadošo laiku, kā arī. 5.6 Spektrālā analīze 7.5.1. vidējās kvadrātveida kļūdas spektrālā dekompozīcija Attēlā 35 un 36 mēs salīdzinām GraphCast prasmi ar HRES dažādās telpiskajās skalās, pirms un pēc optimālas filtrēšanas (skatīt detalizētu informāciju sadaļā 7.4). kur lmax = 719 kā vienādojumā (22). katrs kopējais viļņu skaits l atbilst aptuveni viļņu garumam Ce/l, kur Ce ir Zemes apkārtmērs. We plot power density histograms, where the area of each bar corresponds to 𝑆 𝑗,𝜏(𝑙), and the bars center around log10(1 + 𝑙) (since a log frequency scale allows for easier visual inspection, but we must also include wavenumber 𝑙 = 0). In these plots, the total area under the curve is the MSE. Ar vadošajiem laikiem 2 dienas vai vairāk, lielākajai daļai mainīgo GraphCast uzlabo HRES prasmi vienmērīgi visās viļņu garumos. (2m temperatūra ir ievērojams izņēmums). At shorter lead times of 12 hours to 1 day, for a number of variables (including z500, T500, T850 and U500) HRES has greater skill than GraphCast at scales in the approximate range of 200-2000km, with GraphCast generally having greater skill outside this range. 7.5.2 RMSE kā horizontālās rezolūcijas funkcija In Figure 37, we compare the skill of GraphCast with HRES when evaluated at a range of spatial resolutions. Specifically, at each total wavenumber 𝑙trunc, we plot RMSEs between predictions and targets which are both truncated at that total wavenumber. This is approximately equivalent to a wavelength 𝐶𝑒/𝑙trunc where 𝐶𝑒 is the earth’s circumference. RMSEs starp sagrieztām prognozēm un mērķiem var iegūt, izmantojot S j,τ (l) vidējo kļūdu spēku kumulatīvās summas, kas definētas vienādojumā (37), saskaņā ar Figure 37 shows that in most cases GraphCast has lower RMSE than HRES at all resolutions typically used for forecast verification. This applies before and after optimal filtering (see Section 7.4). Exceptions include 2 meter temperature at a number of lead times and resolutions, T 500 at 12 hour lead times, and U 500 at 12 hour lead times, where GraphCast does better at 0.25° resolution but HRES does better at resolutions around 0.5◦ to 2.5◦ (corresponding to shortest wavelengths of around 100 to 500 km). In particular we note that the native resolution of ERA5 is 0.28125◦ corresponding to a shortest wavelength of 62km, indicated by a vertical line in the plots. HRES-fc0 targets contain some signal at wavelengths shorter than 62km, but the ERA5 targets used to evaluate GraphCast do not, natively at least (see Section 7.5.3). In Figure 37 we can see that evaluating at 0.28125◦ resolution instead of 0.25° does not significantly affect the comparison of skill between GraphCast and HRES. 7.5.3. Spectra of predictions and targets 38. attēls salīdzina GraphCast prognožu jaudas spektru, ERA5 mērķus, pret kuriem tie tika apmācīti, un HRES-fc0. Pastāv ievērojamas atšķirības ERA5 un HRES-fc0 spektrā, it īpaši īsā viļņu garumā. Šīs atšķirības daļēji var izraisīt metodes, ko izmanto, lai tos regridētu no attiecīgajām IFS rezolūcijām TL639 (0.28125◦) un TCo1279 (aptuveni 0.1◦, [36]) līdz 0,25° taisnstūra režģim. Tomēr pat pirms šīs regridēšanas tiek veikta atšķirības IFS versijās, iestatījumos, izšķirtspējā un datu asimilācijas metodoloģijā, ko izmanto HRES un ERA5, un šīs atšķirības var ietekmēt arī spektru. Differences between HRES and ERA5 We see reduced power at short-to-mid wavelengths in GraphCast’s predictions which reduces further with lead time. We believe this corresponds to blurring which GraphCast has learned to perform in optimizing for MSE. We discussed this further in Sections 7.4 and 7.4.4. Blurring in GraphCast Šie virsotnes ir īpaši redzami z500; tie, šķiet, palielinās ar vadošo laiku.Mēs uzskatām, ka tie atbilst maziem, viltīgiem artefaktiem, kurus ieviesa iekšējās tīkla un tīkla transformācijas, ko veica GraphCast katrā autoregresīvajā posmā. Peaks for GraphCast around 100km wavelengths Visbeidzot, mēs atzīmējam, ka, lai gan šīs jaudas atšķirības īsās viļņu garumos ir ļoti pamanāmas log skalā un relatīvajos gabalos, šie īstie viļņu garumi nedaudz veicina kopējo signāla jaudu. Papildu nopietnu notikumu prognozēšanas rezultāti Šajā sadaļā mēs sniedzam papildu informāciju par mūsu smago notikumu prognozēšanas analīzi. mēs atzīmējam, ka GraphCast nav speciāli apmācīts šiem lejupslīdes uzdevumiem, kas parāda, ka, papildus uzlabotām prasmēm, GraphCast sniedz noderīgu prognozi uzdevumiem ar reālo ietekmi, piemēram, ciklonu izsekošanu (8.1. iedaļa), atmosfēras upju raksturojumu (8.2. iedaļa), un ekstremālo temperatūru klasifikāciju (8.3. iedaļa). 8.1 Tropiskā ciklona ceļa prognozēšana In this section, we detail the evaluation protocols we used for cyclone tracking (Supplements Sec-tion 8.1.1) and analyzing statistical significance (Supplements Section 8.1.2), provide additional results (Supplements Section 8.1.3), and describe our tracker and its differences with the one from ECMWF (Supplements Section 8.1.4). 8.1.1 Vērtēšanas protokols The standard way of comparing two tropical cyclone prediction systems is to restrict the comparison to events where both models predict the existence of a cyclone. As detailed in Supplements Section 5.2.2, GraphCast is initialized from 06z and 18z, rather than 00z and 12z, to avoid giving it a lookahead advantage over HRES. However, the HRES cyclone tracks in the TIGGE archive [8] are only initialized at 00z and 12z. This discrepancy prevents us from selecting events where the initialization and lead time map to the same validity time for both methods, as there is always a 6h mismatch. Instead, to compare HRES and GraphCast on a set of similar events, we proceed as follows. We consider all the dates and times for which our ground truth dataset IBTrACS [29, 28] identified the presence of a cyclone. For each cyclone, if its time is 06z or 18z, we make a prediction with GraphCast starting from that date, apply our tracker and keep all the lead times for which our tracker detects a cyclone. Then, for each initialization time/lead time pairs kept for GraphCast, we consider the two valid times at +/-6h around the initialization time of GraphCast, and use those as initialization time to pick the corresponding HRES track from the TIGGE archive. If, for the same lead time as GraphCast, HRES detects a cyclone, we include both GraphCast and HRES initialization time/lead time pairs into the final set of events we use to compare them. For both methods, we only consider predictions up to 120 hours. Tā kā mēs aprēķinām kļūdas attiecībā uz to pašu pamata patiesību (t.i., IBTrACS), novērtējumam nav piemēroti tie paši ierobežojumi, kas aprakstīti papildinājumu 5.2.2. iedaļā, t.i., abu modeļu mērķi ietver tādu pašu skatīšanās ātrumu. Tas ir kontrasts ar lielāko daļu mūsu novērtējumu šajā dokumentā, kur HRES mērķi (t.i., HRES-fc0) ietver +3h skatīšanās ātrumu, un GraphCast mērķi (no ERA5) ietver +3h vai +9h, kas noved pie tā, ka mēs ziņojam par rezultātiem tikai par vadošajiem laikiem ar atbilstīgu skatīšanās ātrumu (vairāk nekā 12h). For a given forecast, the error between the predicted center of the cyclone and the true center is computed using the geodesic distance. 8.1.2. Statistical methodology Aprēķinot statistikas uzticamību ciklona izsekošanai, īpaša uzmanība jāpievērš diviem aspektiem: 1. There are two ways to define the number of samples. The first one is the number of tropical cyclone events, which can be assumed to be mostly independent events. The second one is the number of per-lead time data points used, which is larger, but accounts for correlated points (for each tropical cyclone event multiple predictions are made at 6h interval). We chose to use the first definition which provides more conservative estimates of statistical significance. Both numbers are shown for lead times 1 to 5 days on the x-axis of Supplements Figure 39. 2. The per-example tracking errors of HRES and GraphCast are correlated. Therefore statistical variance in their difference is much smaller than their joint variance. Thus, we report the confidence that GraphCast is better than HRES (see Supplements Figure 39b) in addition to the per-model confidence (see Supplements Figure 39a). Given the two considerations above, we do bootstrapping with 95% confidence intervals at the level of cyclones. For a given lead time, we consider all the corresponding initialization time/lead time pairs and keep a list of which cyclone they come from (without duplication). For the bootstrap estimate, we draw samples from this cyclone list (with replacement) and apply the median (or the mean) to the corresponding initialization time/lead time pairs. Note that this gives us much more conservative confidence bounds than doing bootstrapping at the level of initialization time/lead time pairs, as it is equivalent to assuming all bootstrap samples coming from the sample cyclone (usually in the order of tens) are perfectly correlated. Piemēram, pieņemsim, ka noteiktam vadošajam laikam mums ir kļūdas (50, 100, 150) ciklonam A, (300, 200) ciklonam B un (100, 100) ciklonam C, kur A ir vairāk paraugu. 8.1.3. Results Papildinājumi Sarakstā 3a-b mēs izvēlējāmies parādīt vidējo kļūdu, nevis vidējo. Šis lēmums tika pieņemts pirms testa kopuma rezultātu aprēķināšanas, pamatojoties uz validācijas kopuma veiktspēju. 2016.–2017. gadā, izmantojot 1979.–2015. gadā apmācītās GraphCast versijas, mēs novērojām, ka, izmantojot agrīnās mūsu tracker versijas, vidējo trackeru kļūdu dominēja ļoti maz outliers un tas nebija reprezentatīvs kopējai populācijai. Turklāt ievērojama daļa no šiem outliers bija saistīta ar kļūdām izsekošanas algoritmā, nevis pašu prognozēm, kas liecina, ka trackeris bija suboptimāls lietošanai ar GraphCast. Tā kā mūsu mērķis ir novērtēt GraphCast prognozēšanas vērtību, nevis konkrētu tra Mēs atzīmējam, ka, izmantojot mūsu izsekotāju galīgo versiju (Papildinājumi sadaļa 8.1.4), GraphCast vidējie rezultāti ir līdzīgi vidējam, ar GraphCast ievērojami pārsniedz HRES par vadīšanas laiku starp 2 un 5 dienām. Sakarā ar labi zināmiem izsmidzināšanas efektiem, kas mēdz izlīdzināt trackeru izmantoto ekstremitāti, lai atklātu ciklona klātbūtni, ML metodes var samazināt esošos ciklonus biežāk nekā NWPs. Ciklona samazināšana ir ļoti saistīta ar lielu pozicionēšanas kļūdu. To avoid this issue, we verify that our hyper-parameter-searched tracker (see Supplements Sec-tion 8.1.4) misses a similar number of cyclones as HRES. Supplements Figure 41 shows that on the test set (2018–2021), GraphCast and HRES drop a similar number of cyclones, ensuring our comparisons are as fair as possible. Papildinājumi Attēli 42 un 43 parāda vidējo kļūdu un pāroto analīzi kā vadošā laika funkciju, sadalot pēc ciklona kategorijas, kur kategorija ir definēta pēc Saffir-Simpson Hurricane Wind Scale [47], ar kategoriju 5, kas pārstāv spēcīgākās un kaitīgākās vētras (piezīme, mēs izmantojam kategoriju 0, lai pārstāvētu tropu vētras). Mēs konstatējām, ka GraphCast ir vienāds vai labāks nekā HRES visās kategorijās. 8.1.4 Tracker detaļas The tracker we used for GraphCast is based on our reimplementation of ECMWF’s tracker [35]. Because it is designed for 0.1° HRES, we found it helpful to add several modifications to reduce the amount of mistracked cyclones when applied to GraphCast predictions. However, tracking errors still occur, which is expected from tracking cyclone from 0.25° predictions instead of 0.1°. We note that we do not use our tracker for the HRES baseline, as its tracks are directly recovered from the TIGGE archives [8]. We first give a high-level summary of the default tracker from ECMWF, before explaining the modifications we made and our decision process. Ņemot vērā modeļa prognozes par mainīgajiem 10 U, 10 v, MsL, kā arī U, v un z spiediena līmeņiem 200, 500, 700, 850 un 1000 hPa vairākos laika posmos, ECMWF trackeris [35] secīgi apstrādā katru posmu, lai iteratīvi prognozētu ciklona atrašanās vietu visā trajektorijā. Katrā 6 stundu prognozes posmā ir divi galvenie soļi. Pirmajā posmā, pamatojoties uz ciklona pašreizējo atrašanās vietu, trackeris aprēķina nākamās atrašanās vietas aprēķinu, 6 stundu laikā. ECMWF tracker Lai aprēķinātu nākamā ciklona atrašanās vietas aplēsi, trackeris pārvietos pašreizējo aplēsi, izmantojot pārvietošanos, kas aprēķināta kā divu vektoru vidējais: 1) pārvietošanās starp pēdējām divām trases atrašanās vietām (t.i., lineāra ekstrapolācija) un 2) vēja virziena aplēse, vidēji vēja ātrums U un v iepriekšējā trases stāvoklī spiediena līmenī 200, 500, 700 un 850 hPa. Pēc tam, kad ir aprēķināts nākamā ciklona atrašanās vietas aprēķins, trackeris skatās uz visiem vietējiem vidējā jūras līmeņa spiediena (MsL) minimumiem, kas atrodas 445 km attālumā no šā aprēķina. Vertikalitātes pārbaude: maksimālā vertikalitāte 850 hPa robežās 278 km no vietējā minimuma ir lielāka par 5 · 10−5 s−1 Ziemeļu puslodē, vai ir mazāka par −5 · 10−5s−1 Dienvidu puslodē. 2. Wind speed check: if the candidate is on land, the maximum 10m wind speed within 278 km is larger than 8 m/s. Biezuma pārbaude: ja ciklons ir ekstratropisks, maksimālais biezums ir no 850 hPa līdz 200 hPa 278 km rādiusā, kur biezums ir definēts kā z850-z200. Ja neviens minimums neatbilst visiem šiem nosacījumiem, trackeris uzskata, ka nav ciklona. ECMWF tracker ļauj cikloniem īslaicīgi izzust dažos stūra apstākļos, pirms tie atkal parādās. We analysed the mistracks on cyclones from our validation set years (2016–2017), using a version of GraphCast trained on 1979–2015, and modified the default re-implementation of the ECMWF tracker as described below. When we conducted a hyperparameter search over the value of a parameter, we marked in bold the values we selected. Our modified tracker Mēs atradām šo parametru kritisku un meklējām labāku vērtību starp šādām iespējām: 445 × f f 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (izcelsmes vērtība). Mēs arī atradām šo parametru kritisku un meklējām labāku vērtību starp šādām iespējām: 278 × f f 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (izcelsmes vērtība). 3. nākamā posma aprēķins ECMWF izmanto 50-50 svēršanu starp lineāro ekstrapolāciju un vēja vadības vektorus. Mūsu gadījumā, kad vējš tiek prognozēts ar 0,25° izšķirtspēju, mēs atradām vēja vadīšanu dažkārt šķēršļu aprēķiniem. Tas nav pārsteidzoši, jo vējš nav telpiski gluds lauks, un izsekotājs, iespējams, ir pielāgots, lai izmantotu 0,1° izšķirtspējas prognozes. Tādējādi mēs hiperparametrs meklēja svēršanu starp šādām iespējām: 0,0, 0,1, 0,33, 0,5 (originālvērtība). Tādējādi mēs uzskatām tikai kandidātus, kas rada leņķi starp iepriekšējo un jauno virzienu zem d grādiem, kur d tika meklēts starp šīm vērtībām: 90, 135, 150, 165, 175, 180 (t.i., nav filtra, sākotnējā vērtība). Mēs pamanījām, ka vairāki nepareizi braucieni veica lielus lēcienus, pateicoties trokšņaina vēja vadības kombinācijai un iezīmēm, kuras ir grūti atšķirt vājiem cikloniem.Tādējādi mēs izpētījām, kā noņemt aprēķinu par pārvietošanos tālāk par x kilometriem (pārveidojot delta ar pēdējo centru), meklējot šādas x vērtības: 445 × f f f 0.25, 0.5, 1.0, 2.0, 4.0, ∞ (t.i., nav noņemšanas, sākotnējā vērtība). During the hyper-parameter search, we also verified on validation data that the tracker applied to GraphCast dropped a similar number of cyclones as HRES. 8.2 Atmosfēras upes Vertikāli integrēts ūdens tvaika transports (IvT) parasti tiek izmantots, lai raksturotu atmosfēras upju intensitāti [38, 37]. Lai gan GraphCast tieši neparedz IvT un nav īpaši apmācīts, lai prognozētu atmosfēras upes, mēs varam iegūt šo daudzumu no prognozētajām atmosfēras mainīgajām specifiskajām mitruma, Q un horizontālā vēja (U, v) attiecībām [38]: kur g = 9,80665 m/s2 ir gravitācijas paātrinājums uz Zemes virsmas, pb = 1000 hPa ir apakšējais spiediens, un pt = 300 hPa ir augšējais spiediens. Lai novērtētu IvT, izmantojot iepriekš minēto attiecību, ir nepieciešama skaitliska integrācija, un rezultāts tādēļ ir atkarīgs no prognozes vertikālās izšķirtspējas. GraphCast ir vertikāla izšķirtspēja 37 spiediena līmeņiem, kas ir augstāks nekā pieejamo HRES trajektoriju izšķirtspēja ar tikai 25 spiediena līmeņiem. Lai nodrošinātu konsekventu un taisnīgu abu modeļu salīdzinājumu, mēs izmantojam tikai kopēju spiediena līmeņu apakšsistēmu, kas ir iekļauta arī WeatherBench kritērijā, novērtējot IvT 8, proti [300, 400, 500, 600, 700, 850, 925, 1000] hPa. Attiecībā uz GraphCast mēs aprēķinām IvT, pamatojoties uz tās prognozēm, un mēs to salīdzinām ar IvT, kas aprēķināts analogi no ERA5. Līdzīgi, mēs izmantojam HRES prognozes, lai aprēķinātu IvT HRES un salīdzinātu to ar IvT, kas aprēķināts no HRES-fc0. Similarly to previous work [10], Figure 44 reports RMSE skill and skill score averaged over coastal North America and the Eastern Pacific (from 180°W to 110°W longitude, and 10°N to 60°N latitude) during the cold season (Jan-April and Oct-Dec 2018), which corresponds to a region and a period with frequent atmospheric rivers. 8.3. Extreme heat and cold We study extreme heat and cold forecasting as a binary classification problem [35, 32] by comparing whether a given forecasting model can correctly predict whether the value for a certain variable will be above (or below) a certain percentile of the distribution of a reference historical climatology (for example above 98% percentile for extreme heat, and below 2% percentile for extreme cold). Following previous work [35], the reference climatology is obtained separately for (1) each variable (2) each month of the year, (3) each time of the day, (4) each latitude/longitude coordinate, and (5) each pressure level (if applicable). This makes the detection of extremes more contrasted by removing the effect of the diurnal and seasonal cycles in each spatial location. To keep the comparison as fair as possible between HRES and GraphCast, we compute this climatology from HRES-fc0 and ERA5 respectively, for years 2016-2021. We experimented with other ways to compute climatology (2016-2017 as well as using ERA5 climatology 1993-2016 for both models), and found that results hold generally. Tā kā galējā prognozēšana pēc definīcijas ir nelīdzsvarota klasifikācijas problēma, mēs pamatojam savu analīzi uz precizitātes atgādinājuma gabaliem, kas ir piemēroti šim gadījumam [42]. Precizitātes atgādinājuma līkne tiek iegūta, mainot brīvu parametru “ieguvumu”, kas sastāv no skalēšanas faktora attiecībā uz klimata vidējo vērtību, t.i., skalēta prognozēšana = ieguvums × (prognozēšana − vidējā klimata) + vidējā klimata. Tas ietekmē lēmumu robežas maiņu un ļauj izpētīt dažādus tirdzniecības atšķirības starp viltus negatīviem un viltus pozitīviem. Intuitīvi, 0 ieguvums radīs nulle pozitīvas prognozes (piemēram, nulle viltus pozitīvas), un bez Mēs koncentrējam savu analīzi uz mainīgajiem, kas attiecas uz ekstremāliem temperatūras apstākļiem, īpaši 2 T [35, 32], un arī T 850, z500, kurus ECMWF bieži izmanto, lai raksturotu karstuma viļņus [34]. Pēc iepriekšējiem darbiem[32], par ekstremālu karstumu mēs vidēji jūnijā, jūlijā un augustā virs zemes ziemeļu puslodē (platums > 20◦) un decembrī, janvārī un februārī virs zemes dienvidu puslodē (platums < -20◦). Par ekstremālu aukstumu mēs apmainījāmies ar mēnešiem ziemeļu un dienvidu puslodēs. Skatīt pilnus rezultātus 45. attēlā. Prognozes vizualizācijas In this final section, we provide a few visualization examples of the predictions made by GraphCast for variables 2 T (Figure 47), 10 U (Figure 48), MsL (Figure 49), z500 (Figure 50), T 850 (Figure 51), v 500 (Figure 52), Q 700 (Figure 53). For each variable, we show a representative prediction from GraphCast by choosing the example with the median performance on 2018. References [1] Ferran Alet, Adarsh Keshav Jeewajee, Maria Bauza Villalonga, Alberto Rodriguez, Tomas Lozano-Perez un Leslie Kaelbling. Grafu elementu tīkli: pielāgojams, strukturēts aprēķins un atmiņa. [2] Kelsey R Allen, Yulia Rubanova, Tatiana Lopez-Guevara, William Whitney, Alvaro Sanchez-Gonzalez, Peter Battaglia, un Tobias Pfaff. mācīties stingru dinamiku ar sejas mijiedarbības grafiku tīkliem. arXiv preprint arXiv:2212.03574, 2022. [3] Jimmy Lei Ba, Jamie Ryan Kiros un Geoffrey E. Hinton. slāņa normalizācija. arXiv, 2016. [4] Igor Babuschkin, Kate Baumli, Alison Bell, Surya Bhupatiraju, Jake Bruce, Peter Buchlovsky, David Budden, Trevor Cai, Aidan Clark, Ivo Danihelka, Claudio Fantacci, Jonathan Godwin, Chris Jones, Ross Hemsley, Tom Hennigan, Matteo Hessel, Shaobo Hou, Steven Kapturowski, Thomas Keck, Iurii Kemaev, Michael King, Markus Kunesch, Lena Martens, Hamza Merzic, Vladimir Mikulik, Tamara Norman, John Quan, George Papamakarios, Roman Ring, Francisco Ruiz, Alvaro Sanchez, Rosalia Schneider, Eren Sezener, Stephen Spencer, Srivatsan Srinivasan, Luyu, Wangciech Wojciech Stokowiec un Fabio Viola. // github.com/deepmind no 2020. gada [5] Peter Battaglia, Razvan Pascanu, Matthew Lai, Danilo Jimenez Rezende, et al. Mijiedarbības tīkli, lai mācītos par objektiem, attiecībām un fiziku. [6] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Relatīvās indukcijas aizspriedumi, dziļa mācīšanās un grafikas tīkli. arXiv preprint arXiv:1806.01261, 2018. [7] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu un Qi Tian. Pangu-Laika apstākļi: 3D augstas izšķirtspējas modelis ātrai un precīzai globālai laika prognozei. arXiv preprint arXiv:2211.02556, 2022. [8] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. THORPEX interaktīvais lielais globālais ansamblis. [9] James Bradbury, Roy Frostig, Peter Hawkins, Matthew James Johnson, Chris Leary, Dougal Maclaurin, George Necula, Adam Paszke, Jake VanderPlas, Skye Wanderman-Milne un Qiao Zhang. [10] WE Chapman, AC Subramanian, L Delle Monache, SP Xie un FM Ralph. Atmosfēras upju prognožu uzlabošana, izmantojot mašīnu mācīšanos. [11] Tianqi Chen, Bing Xu, Chiyuan Zhang un Carlos Guestrin. Apmācības dziļi tīkli ar sublineāro atmiņas izmaksām. arXiv preprint arXiv:1604.06174, 2016. [12] Balaji Devaraju. izpratne par sfēras filtrēšanu: pieredze no GRACE datu filtrēšanas. doktora disertācija, Štutgartes universitāte, 2015. [13] J. R. Driscoll un D. M. Healy. skaitļošanas četrinieku transformācijas un konvolūcijas uz 2-sphere. Mateja 15 (2):202–250, 1994. gada jūnijs [14] ECMWF. IFS dokumentācija CY41R2 - III daļa: dinamika un numeriskās procedūras. https: //www.ecmwf.int/node/16647, 2016. gads [15] Meire Fortunato, Tobias Pfaff, Peter Wirnsberger, Alexander Pritzel, and Peter Battaglia. Multi-scale meshgraphnets. arXiv preprint arXiv:2210.00612, 2022. [16] Alan J Geer. izmaiņu nozīme vidēja diapazona prognozēšanas rezultātos. Tellus A: Dinamiskā meteoroloģija un okeanogrāfija, 68(1):30229, 2016. [17] Jonathan Godwin, Thomas Keck, Peter Battaglia, Victor Bapst, Thomas Kipf, Yujia Li, Kimberly Stachenfeld, Petar Veličković, un Alvaro Sanchez-Gonzalez. Jraph: bibliotēka grafiskā neironu tīkliem JAX. http://github.com/deepmind/jraph, 2020. [18] T. Haiden, Martin Janousek, Jean-Raymond Bidlot, R. Buizza, L. Ferranti, F. Prates un Frédéric Vitart. ECMWF prognožu novērtējums, tostarp 2018. gada atjauninājums. https://www.ecmwf. int/node/18746, 10/2018 2018. [19] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, Crtistina Prates, un David Richardson. ECMWF prognožu novērtējums, ieskaitot 2020. gada atjauninājumu. https://www.ecmwf.int/node/19879, 01/2021 2021. [20] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti un Fernando Prates. ECMWF prognožu novērtējums, tostarp 2021. gada atjauninājums. https://www. ecmwf.int/node/20142, 09/2021 2021. [21] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, Fernando Prates, un David Richardson. ECMWF prognožu novērtējums, tostarp 2021. gada atjauninājums. https://www.ecmwf.int/node/20469, 09/2022 2022. [22] Thomas Haiden, Martin Janousek, Frédéric Vitart, Laura Ferranti un Fernando Prates. ECMWF prognožu novērtējums, ieskaitot 2019. gada atjauninājumu. https://www.ecmwf.int/node/ 19277, 11/2019 2019. [23] Tom Hennigan, Trevor Cai, Tamara Norman un Igor Babuschkin. Haiku: Sonete par JAX. http://github.com/deepmind/dm-haiku, 2020. [24] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. ERA5 globālā reanalīze. Karaliskās meteoroloģijas biedrības ceturkšņa žurnāls, 146(730):1999–2049, 2020. [25] S. Hoyer un J. Hamman. xarray: N-D marķēti diapazoni un datu kopas Python. Journal of Open Research Software, 5(1), 2017. [26] Ryan Keisler. globālās laika prognoze ar grafu neironu tīkliem. arXiv priekšizdrukā arXiv:2202.07575, 2022. [27] Diederik P Kingma un Jimmy Ba. Adam: metode stokastikas optimizācijai. arXiv preprint arXiv:1412.6980, 2014. [28] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. International best track archive for climate stewardship (IBTrACS) projekts, versija 4. https://doi.org/10.25921/82ty-9e16, 2018. [29] Kenneth R Knapp, Michael C Kruk, David H Levinson, Howard J Diamond, un Charles J Neumann. Starptautiskais labākais arhīvs par klimata pārvaldību (IBTrACS), kas apvieno tropu ciklona datus. [30] Michael C Kruk, Kenneth R Knapp, un David H Levinson. Tehnika, lai apvienotu globālo tropu ciklona labāko izsekot datu. Journal of Atmospheric un okeāna tehnoloģijas, 27(4):680-692, 2010. [31] David H Levinson, Howard J Diamond, Kenneth R Knapp, Michael C Kruk, un Ethan J Gibney. Uz homogēnu globālu tropu ciklona best-track datu kopumu. Bulletin of American Meteorological Society, 91(3):377-380, 2010. [32] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal un Jason Hickey. globālās ekstremālās karstuma prognoze, izmantojot neironu laika modeļus. Mākslīgais intelekts Zemes sistēmām, lapas 1–41, 2022. [33] Ilya Loshchilov un Frank Hutter. atvienots svara zudums normalizācija. arXiv preprint arXiv:1711.05101, 2017. [34] Linuss Magnusson. 202208 - karstuma viļņi - uk. https://confluence.ecmwf.int/display/ FCST/202208+-+karstuma viļņi+-+UK, 2022. [35] Linus Magnusson, Thomas Haiden un David Richardson. ekstremālo laika apstākļu pārbaude: diskrēti prognozētāji. [36] S. Malardel, Nils Wedi, Willem Deconinck, Michail Diamantakis, Christian Kuehnlein, G. Mozdzynski, M. Hamrud un Piotr Smolarkiewicz. jauns tīkls IFS. https: //www.ecmwf.int/node/17262, 2016. gads [37] Benjamin J Moore, Paul J Neiman, F Martin Ralph un Faye E Barthold. Fizikālie procesi, kas saistīti ar smagiem plūdiem Nashville, Tennessee un apkārtnē 2010. gada 1.–2. maijā: atmosfēras upes un mezoskala konvekcijas sistēmu loma. [38] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist, un Michael D Dettinger. meteoroloģiskās īpašības un virsmas nokrišņu ietekmi atmosfēras upēm, kas ietekmē Rietumkrasta Ziemeļamerikā, pamatojoties uz astoņiem gadiem ssm / i satelīta novērojumiem. [39] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez un Peter Battaglia. Mācīšanās tīkla simulācija ar grafikas tīkliem. Starptautiskajā konferencē par mācīšanās pārstāvniecību, 2021. [40] Prajit Ramachandran, Barret Zoph, un Quoc V Le. Meklējot aktivācijas funkcijas. arXiv preprint arXiv:1710.05941, 2017. [41] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid, un Nils Thuerey. WeatherBench: atsauces datu kopums datu vadītas laika prognozes. Journal of Advances in Modeling Earth Systems, 12(11):e2020MS002203, 2020. [42] Takaya Saito un Marc Rehmsmeier. Precizitātes atgādināšanas gabals ir informatīvāks nekā ROC gabals, novērtējot bināros klasifikatorus nelīdzsvarotos datu kopos. PloS viens, 10(3):e0118432, 2015. [43] Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec, un Peter Battaglia. Mācīties simulēt sarežģītu fiziku ar grafisko tīkliem. Starptautiskajā konferencē par mašīntulkošanu, lapas 8459–8468. PMLR, 2020. [44] B. D. Santer, R. Sausen, T. M. L. Wigley, J. S. Boyle, K. AchutaRao, C. Doutriaux, J. E. Hansen, G. A. Meehl, E. Roeckner, R. Ruedy, G. Schmidt un K. E. Taylor. Tropopausa augstuma un atmosfēras temperatūras uzvedība modeļos, atkārtotajās analīzēs un novērojumos: desmitgades izmaiņas Journal of Geophysical Research: Atmospheres, 108(D1):ACL 1–1–ACL 1–22, 2003. [45] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M Hamill, Tim D Hewson, Julia H Keller, Mio Matsueda, John Methven, Florian Pappenberger, et al. TIGGE projekts un tā sasniegumi. [46] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson un Munehiko Yamaguchi. Projekts TIGGE un tā sasniegumi. American Meteorological Society Bulletin, 97(1):49 – 67, 2016. [47] Harvey Thurm Taylor, Bill Ward, Mark Willis un Walt Zaleski. Saffir-Simpson viesuļvētru vēja skala. Atmosfēras administrācija: Vašingtona, DC, ASV, 2010. [48] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser un Illia Polosukhin. Uzmanība ir viss, kas jums nepieciešams. [49] Petar Veličković, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio, un Yoshua Bengio. Grafu uzmanības tīkli. arXiv preprint arXiv:1710.10903, 2017. Šis dokuments ir pieejams arhīvā saskaņā ar CC by 4.0 Deed (attribution 4.0 International) licenci. Šis dokuments ir Attiecības ir licencētas saskaņā ar CC by 4.0 Deed (Attribution 4.0 International) licenci. Pieejams arhīvā