Os autores: Remi Lam (Google DeepMind) Alvaro Sanchez-Gonzalez (Google DeepMind) Matthew Willson (Google DeepMind) Peter Wirnsberger (Google DeepMind) Meire Fortunato (Google DeepMind) Ferran Alet (Google DeepMind) Suman Ravuri (Google DeepMind) Timo Ewalds (Google DeepMind) Zach Eaton-Rosen (Google DeepMind) Weihua Hu (Google DeepMind) Alexander Merose (Google Research) Stephan Hoyer (Google Research) George Holland (Google DeepMind) Oriol Vinyals (Google DeepMind) Jacklynn Stott (Google DeepMind) Alexander Pritzel (Google DeepMind) Shakir Mohamed (Google DeepMind) Peter Battaglia (Google DeepMind) Os autores: Remi Lam (Google DeepMind) en liña Álvaro Sánchez-Gonzalez (Google DeepMind) Xogo en liña (Google DeepMind) Peter Wirnsberger (máis coñecido como Google DeepMind) Meire Fortunato (Google DeepMind) en liña Ferran Alet (Google DeepMind en galego) Suman Ravuri (Google DeepMind en galego) Timo Ewalds (Google DeepMind en galego) Zach Eaton-Rosen (en galego) Xogo en liña (Google DeepMind) Alexander Merose (Investigación de Google) Stephan Hoyer (Reseño de Google) George Holland (Google DeepMind en galego) Páxinas que ligan con "Google DeepMind" Jacklynn Stott (Google DeepMind en galego) Alexander Pritzel (Google DeepMind) en liña Xogo en liña (Google DeepMind) Peter Battaglia (en galego) A previsión meteorolóxica global de alcance medio é crucial para a toma de decisións en moitos ámbitos sociais e económicos. A previsión meteorolóxica numérica tradicional utiliza recursos de computación aumentados para mellorar a precisión da previsión, pero non pode utilizar directamente os datos meteorolóxicos históricos para mellorar o modelo subxacente. Introducimos un método baseado no aprendizaxe de máquina chamado "GraphCast", que pode ser adestrado directamente a partir de datos de reanálise. Prevén centos de variables meteorolóxicas, durante 10 días a unha resolución de 0,25 ° C en todo o mundo, en menos dun minuto. Demostramos que o GraphCast supera significativamente os sistemas operativos deterministicos máis precisos no 90% dos obxectivos de verificación de 1380, e as súas previsións soportan mellor a previsión de eventos Palabras clave: predición do tempo, ECMWF, ERA5, HRES, simulación de aprendizaxe, redes neurais gráficas Introdución É 05:45 UTC a mediados de outubro de 2022, en Bolonia, Italia, e o novo Centro Europeo de Previsións Meteorolóxicas de Intermedio Rango (ECMWF) acaba de comezar a operar. Durante as últimas horas, o Sistema Integrado de Previsión (IFS) realizou cálculos sofisticados para predecir o tempo da Terra nos próximos días e semanas, e as súas primeiras previsións comezaron a ser difundidas aos usuarios. A dinámica dos sistemas meteorolóxicos está entre os fenómenos físicos máis complexos da Terra, e cada día, innumerables decisións tomadas por individuos, industrias e formuladores de políticas dependen de previsións meteorolóxicas precisas, de decidir se usar unha chaqueta ou fuxir dunha tormenta perigosa. O enfoque dominante para a previsión meteorolóxica hoxe é a "predición meteorolóxica numérica" (NWP), que implica a resolución das ecuacións gobernantes do tempo usando supercomputadores. O éxito da NWP radica nas prácticas de investigación rigorosas e continuas que proporcionan descricións cada vez máis detalladas dos fenómenos meteorolóxicos, e como as escalas NWP alcanzan unha maior precisión con maiores recursos computacionais [3, 2]. Como resultado, a precisión das previsións meteorolóxicas But while traditional NWP scales well with compute, its accuracy does not improve with increasing amounts of historical data. There are vast archives of weather and climatological data, e.g. ECMWF’s MARS [17], but until recently there have been few practical means for using such data to directly improve the quality of forecast models. Rather, NWP methods are improved by highly trained experts innovating better models, algorithms, and approximations, which can be a time-consuming and costly process. A predición meteorolóxica baseada no aprendizaxe automático (MLWP) ofrece unha alternativa á tradicional NWP, onde os modelos de predición son adestrados directamente a partir de datos históricos. Isto ten o potencial de mellorar a precisión da predición ao capturar patróns e escalas nos datos que non se representan facilmente en ecuacións explícitas. MLWP tamén ofrece oportunidades para unha maior eficiencia aproveitando o hardware de aprendizaxe profunda moderno, en vez de supercomputadores, e alcanzando máis favorables compromisos de precisión de velocidade. Recentemente, MLWP axudou a mellorar a predición baseada en NWP en réximes onde o NWP tradicional é relativamente débil, por exemplo, a predición de ondas de calor subseisonais [16] e a precipitación agora emitida a partir En previsións meteorolóxicas de alcance medio, é dicir, previsións de variables atmosféricas ata 10 días antes, os sistemas baseados en NWP como o IFS seguen sendo os máis precisos. O sistema operativo determinista máis importante do mundo é o ECMWF High Resolution Forecast (HRES), un compoñente do IFS que produce previsións globais de 10 días con resolución de latitude / lonxitude 0,1 °, en aproximadamente unha hora [27]. Con todo, nos últimos anos, os métodos de MLWP para a previsión de alcance medio foron progresando constantemente, facilitado por benchmarks como o WeatherBench [27]. Arquitecturas de aprendizaxe profunda baseadas en redes neurais convolucionais [35, 36, 28] e Transformers [24] mostraron resultados prometedores en resolucións de latitude / lon Gráficos Aquí introducimos un novo enfoque MLWP para a previsión meteorolóxica global de medio alcance chamado "GraphCast", que produce unha previsión precisa de 10 días en menos dun minuto nun único dispositivo Google Cloud TPU v4, e soporta aplicacións incluíndo a previsión de pistas de ciclóns tropicais, ríos atmosféricos e temperaturas extremas. GraphCast toma como entrada os dous estados máis recentes do tempo da Terra -a hora actual e seis horas antes- e prevé o seguinte estado do tempo seis horas antes. Un único estado meteorolóxico é representado por unha grella de 0,25 ° latitude / lonxitude (721 × 1440), que corresponde a aproximadamente 28 × 28 quilómetros de resolución no ecuador (Figura 1a), onde cada punto da grella representa un conxunto de variables de superficie e atmosfera (enumeradas na Táboa 1). GraphCast é implementado como unha arquitectura de rede neural, baseada en GNNs nunha configuración de "código-proceso-decodificación" [1], cun total de 36,7 millóns de parámetros. simuladores aprendidos baseados en GNNs anteriores [31, 26] foron moi eficaces na aprendizaxe da dinámica complexa de fluídos e outros sistemas modelados por ecuacións diferenciais parciais, o que apoia a súa idoneidade para modelar a dinámica do tempo. O codificador (Figura 1d) usa unha única capa GNN para mapear as variables (normalizadas a varianza de unidade media cero) representadas como atributos de nodo na grella de entrada a atributos de nodo aprendidos nunha representación interna de "multi-mesh". O multi-mesh (Figura 1g) é un gráfico que é espacialmente homoxéneo, con alta resolución espacial en todo o globo. Defínese refinando un icosahedron regular (12 nodos, 20 caras, 30 bordas) iterativamente seis veces, onde cada refinamento divide cada triángulo en catro menores (levando a catro veces máis caras e bordas), e reproxectando os nodos na esfera. O multi-mesh contén os nodos 40,962 da más alta resolución mesh, e a unión de todas as bordas creadas nos gráficos intermedios, formando unha xerarquía plana de bordos con lonxitudes variables. O procesador (Figura 1e) utiliza 16 capas de GNN non compartidas para realizar a transmisión de mensaxes aprendidas na multi-mesh, permitindo unha propagación eficiente de información local e de longo alcance con poucos pasos de transmisión de mensaxes. O decodificador (Figura 1f) mapea as características aprendidas da capa final do procesador desde a representación multi-mesh de volta á grella de latitude-longitude. Utiliza unha única capa GNN, e prevé a saída como unha actualización residual ao estado de entrada máis recente (con normalización de saída para alcanzar a unidade-varianza no residuo obxectivo). Durante o desenvolvemento do modelo, utilizamos 39 anos (1979-2017) de datos históricos do arquivo de reanálise ERA5 [10] de ECMWF. Como obxectivo de adestramento, medimos o erro medio cadrado (MSE) ponderado por nivel vertical. O erro foi calculado entre o estado predito de GraphCast e o estado ERA5 correspondente a N pasos autorregresivos. O valor de N aumentou incrementalmente de 1 a 12 (é dicir, seis horas a tres días) ao longo do curso de adestramento. GraphCast foi adestrado para minimizar o obxectivo de adestramento usando descenso gradiente e retropropagación. O GraphCast de adestramento levou aproximadamente catro semanas en dispositivos Cloud 32 TPU v4 usando paralelismo de lote. En consonancia cos escenarios de implantación reais, onde a información futura non está dispoñible para o desenvolvemento de modelos, avaliamos GraphCast sobre os datos expostos dos anos 2018 a partir (ver Suplementos Sección 5.1). Métodos de verificación Verificamos a habilidade de predición de GraphCast de forma exhaustiva comparando a súa exactitude cos HRES nun gran número de variables, niveis e tempos de condución. cuantificamos as respectivas habilidades das liñas de base de GraphCast, HRES e ML con dúas métricas de habilidade: o erro medio cadrado raíz (RMSE) e o coeficiente de correlación de anomalías (ACC). Das 227 combinacións de variables e niveis preditas por GraphCast en cada punto da rede, avaliamos a súa habilidade fronte a HRES en 69 deles, correspondentes aos 13 niveis de WeatherBench[27] e variables do ECMWF Scorecard [9]; véxase as variables e niveis de boldface na Táboa 1 e na Sección 1.2 dos Suplementos para os que o ciclo HRES estaba operativo durante o período de avaliación. Nota, excluímos a precipitación total da avaliación porque os datos de precipitación ERA5 teñen prexuízos coñecidos [15]. Ademais do rendemento agregado informado no texto principal, a Sección 7 dos Suplementos proporciona avaliacións máis detalladas, incluíndo outras variables, rendemento rexional, efectos de latitude e nivel de presión, propiedades espec Ao facer estas comparacións, dúas opcións clave baséanse en como se establece a habilidade: (1) a selección da verdade fundamental para a comparación, e (2) unha contabilización coidadosa das fiestras de asimilación de datos utilizadas para fundamentar datos con observacións. Usamos o ERA5 como verdade fundamental para avaliar o GraphCast, xa que foi adestrado para tomar os datos do ERA5 como entrada e predicir os datos do ERA5 como saídas. Con todo, avaliar as previsións do HRES contra o ERA5 resultaría nun erro non cero no paso de previsión inicial. En lugar diso, construímos un conxunto de datos "previsión do HRES no paso 0" (HRES-fc0) para usar como verdade fundamental para o HRES. O HRES-fc0 contén as entradas Debido á natureza dos datos de previsión meteorolóxica, isto require un control coidadoso das diferenzas entre as fiestras de asimilación de datos ERA5 e HRES. Cada día, HRES asimila observacións usando catro fiestras de +/-3h centradas en 00z, 06z, 12z e 18z (onde 18z significa 18:00 UTC), mentres que ERA5 usa dúas fiestras de +9h/-3h centradas en 00z e 12z, ou equivalente a dúas fiestras de +3h/-9h centradas en 06z e 18z. Escolleron avaliar as previsións de GraphCast das inicializacións 06z e 18z, asegurando que as súas entradas levan información de +3h de observacións futuras, coincidindo coas mesmas entradas de HRES. Non avaliamos GraphC As previsións de HRES inicializadas en 06z e 18z só se executan por un horizonte de 3,75 días (as inicializacións de HRES 00z e 12z se executan durante 10 días). Polo tanto, os nosos números indicarán unha transición con liña dashed, onde os 3,5 días antes da liña son comparacións con HRES inicializadas en 06z e 18z, e despois da liña son comparacións con inicializacións en 00z e 12z. Resultados das verificacións previstas Descubrimos que GraphCast ten maior capacidade de predición do tempo que HRES cando se avalía en previsións de 10 días a unha resolución horizontal de 0,25 ° para latitude / lonxitude e a 13 niveis verticais. A Figura 2a-c mostra como GraphCast (liñas azuis) supera HRES (liñas negras) no campo z500 (xeopotencial a 500 hPa) "headline" en termos de habilidade RMSE, puntuación de habilidade RMSE (é dicir, a diferenza de RMSE normalizada entre o modelo A e a liña de base B definida como (RMSEA − RMSEB)/RMSEB), e habilidade ACC. Usando z500, que codifica a distribución de presión na escala sinóptica, é común na literatura, xa que ten unha forte importancia meteorolóxica [27]. As parcelas mostran que GraphCast ten mellores puntuacións de habilidade en todos os tempos de condución, cunha mellora de puntuación de habilidade dun 7% a 14%. A Figura 2d resume as puntuacións de habilidade do RMSE para todas as variables e niveis de presión avaliados de 1380 durante as previsións de 10 días, nun formato análogo ao ECMWF Scorecard. As cores das células son proporcionais á puntuación de habilidade, onde o azul indica que o GraphCast tiña unha habilidade mellor e o vermello indica que o HRES tiña unha habilidade superior. O GraphCast superou o HRES no 90,3% dos obxectivos de 1380 e superou significativamente (p ≤ 0,05, tamaño da mostra nominal n ∈ {729, 730}) o HRES no 89,9% dos obxectivos. As rexións da atmosfera nas que o HRES tivo un mellor rendemento que o GraphCast (as primeiras liñas en vermello nas tarxetas de puntuación) estaban desproporcionadamente localizadas na estratosfera e tiñan o peso de perda de adestramento máis baixo (ver Suplementos Sección 7.2.2). Cando se exclúe o nivel de 50 hPa, o GraphCast supera significativamente o HRES no 96,9% dos 1280 obxectivos restantes. Cando se exclúe os niveis de 50 e 100 hPa, o GraphCast supera significativamente o HRES no 99,7% dos 1180 obxectivos restantes. Descubrimos que aumentar o número de pasos auto-regresivos na perda de MSE mellora o rendemento de GraphCast en tempos de condución máis longos (ver Suplementos Sección 7.3.2) e incentiva a expresar a súa incerteza mediante a predición de saídas espacialmente suaves, o que leva a previsións máis borrosas en tempos de condución máis longos (ver Suplementos Sección 7.5.3). As ecuacións físicas subxacentes de HRES, con todo, non conducen a predicións borradas. Para avaliar se se mantén a vantaxe relativa de GraphCast sobre HRES en RMSE se HRES tamén se permite borrar as súas previsións, adaptamos os filtros de borrador a GraphCast e HRES, minimizando a RMSE con respecto ás verdades Tamén comparamos o rendemento de GraphCast co modelo meteorolóxico baseado en ML máis competitivo, Pangu-Weather [4], e atopamos que o GraphCast superou o 99,2% dos 252 obxectivos que presentaron (ver Suplementos Sección 6 para máis detalles). Resultados graves eventos previsións Ademais de avaliar a habilidade de predición de GraphCast fronte a HRES nunha ampla gama de variables e tempos de condución, tamén avaliamos como as súas previsións soportan a predición de eventos severos, incluíndo ciclóns tropicais, ríos atmosféricos e temperaturas extremas. Rutas de ciclóns tropicais A mellora da precisión das previsións de ciclóns tropicais pode axudar a evitar lesións e perdas de vidas, así como reducir os danos económicos [21]. A existencia, a forza e a traxectoria dun ciclón predixéronse aplicando un algoritmo de seguimento ás previsións de traxectoria do ciclón (z), o vento horizontal (10 U/10 v, U/v) e a presión media do nivel do mar (MsL). Implementamos un algoritmo de seguimento baseado nos mesmos protocolos publicados por ECMWF [20] e aplicámolo ás previsións de GraphCast, para producir previsións de traxectoria do ciclón (ver Suplementos Sección 8.1). Como liña de base para a comparación, usamos as traxectorias operativas obtidas a partir das previsións A Figura 3a mostra que GraphCast ten un erro mediano de rastrexo máis baixo que HRES durante 2018-2021. Como os erros por pista para HRES e GraphCast están correlacionados, tamén medimos a diferenza de erro asociado por pista entre os dous modelos e descubrimos que GraphCast é significativamente mellor que HRES para o tempo de condución de 18 horas a 4,75 días, como se mostra na Figura 3b. Ríos atmosféricos Os ríos atmosféricos son rexións estreitas da atmosfera que son responsables da maioría do transporte de vapor de auga polarizado a través das latitudes medias, e xeran 30%-65% das precipitacións anuais na costa oeste dos Estados Unidos [6]. A súa forza pode caracterizarse polo transporte de vapor de auga verticalmente integrado IvT [23, 22], indicando se un evento proporcionará precipitacións beneficiosas ou estar asociado a danos catastróficos [7]. O IvT pode ser calculado a partir da combinación non lineal da velocidade do vento horizontal (U e v) e a humidade específica (Q), que GraphCast prevé. Avaliamos as previsións de GraphCast sobre o transporte de vapor de auga costeiro en Norteamérica e no Pacífico Oriental durante os meses fríos (outubro-abril), cando os Calor extremo e frío O calor extremo e o frío caracterízanse por grandes anomalías con respecto á climatoloxía típica [19, 16, 18], que poden ser perigosas e perturbar as actividades humanas. Avaliamos a habilidade de HRES e GraphCast en predicir eventos por encima do top 2% de climatoloxía en todas as localizacións, horas do día e meses do ano, para 2 T en 12 horas, 5 días e 10 días, para rexións terrestres en todo o hemisferio norte e sur durante os meses de verán. Planificamos curvas de recall de precisión [30] para reflectir os diferentes compromisos posibles entre a redución de falsos positivos (alta precisión) e a redución de falsos negativos (alta recall). A figura 3d mostra que as curvas de recall de precisión de GraphCast están por riba das de HRES para os tempos de condución de 5 e 10 días, o que suxire que as previsións de GraphCast son xeralmente superiores ás de HRES en clasificación extrema sobre horizontes máis longos. En contraste, HRES ten mellor recall de precisión no tempo de condución de 12 horas, o que é consistente coa puntuación de habilidade de 2 T de GraphCast sobre HRES que está preto de cero, como se mostra na Figura 2d. En xeral, atopamos que estes resultados son consistentes entre outras variables relevantes para o calor extremo, como T 850 e z500 [18], outros limiares extremos (5%, 2% e 0,5%), e previsións de frío extremo no inverno. Efecto dos datos de formación recente GraphCast pode ser re-treinado periodicamente con datos recentes, o que en principio permite capturar patróns meteorolóxicos que cambian co tempo, como o ciclo ENSO e outras oscilacións, así como os efectos do cambio climático. adestramos catro variantes de GraphCast con datos que sempre comezaron en 1979, pero remataron en 2017, 2018, 2019 e 2020, respectivamente (marcamos a variante que remata en 2017 como "GraphCast:<2018", etc). A figura 4 mostra as puntuacións de habilidade (normalizadas por GraphCast:<2018) das catro variantes e HRES, para z500. Descubrimos que mentres o rendemento de GraphCast cando se adestrou ata antes de 2018 aínda é competitivo con HRES en 2021, adestrar ata antes de 2021 mellora aínda máis as súas puntuacións de habilidade (ver Suplementos Sección 7.1.3). Especulamos que este efecto recente permite capturar tendencias meteorolóxicas recentes para mellorar a precisión. Conclusións A habilidade e eficiencia de predición de GraphCast en comparación con HRES demostra que os métodos MLWP son agora competitivos cos métodos tradicionais de predición do tempo.Ademais, o desempeño de GraphCast sobre a predición de eventos severos, para o que non foi directamente adestrado, demostra a súa robustez e potencial para o valor a continuación.Cremos que isto marca un punto de inflexión na predición do tempo, que axuda a abrir novas vías para reforzar a amplitude da toma de decisións dependentes do tempo por individuos e industrias, facendo a predición barata máis precisa, máis accesible e adecuada para aplicacións específicas. Con 36,7 millóns de parámetros, GraphCast é un modelo relativamente pequeno segundo os estándares modernos ML, elixido para manter a pegada de memoria tractable. E mentres HRES é lanzado en resolución 0,1 °, 137 niveis, e ata 1 hora de pasos de tempo, GraphCast operado en resolución de latitude-longitude 0,25 °, 37 niveis verticais, e 6 horas de pasos de tempo, debido á resolución nativa de 0,25 ° dos datos de formación ERA5, e os retos de enxeñaría en incorporar datos de maior resolución no hardware. En xeral, GraphCast debe ser visto como unha familia de modelos, coa versión actual sendo o maior que practicamente podemos encaixar baixo as limitacións de enxeñaría actuais, pero que teñen potencial para escalar moito máis no futuro con maiores recursos de computación e datos Unha limitación clave do noso enfoque é a forma en que se xestiona a incerteza. Concentrámonos nas previsións deterministas e en comparación con HRES, pero o outro pilar do IFS do ECMWF, o sistema de previsión conxunta, ENS, é especialmente importante para as previsións de 10 días. A non linearidade da dinámica do tempo significa que hai un aumento da incerteza nos tempos de condución máis longos, o que non é ben capturado por unha única previsión determinista. ENS resolve isto xerando múltiples previsións estocásticas, que modelan a distribución empírica do tempo futuro, pero a xeración de múltiples previsións é caro. Pola contra, o obxectivo de adestramento do MSE de GraphCast anima a expresar a súa incerteza espazando as súas previsións, o que pode É importante salientar que o MLWP baseado en datos depende criticamente de grandes cantidades de datos de alta calidade, asimilados a través do NWP, e que as fontes de datos ricas como o arquivo MARS do ECMWF son inestimables. Polo tanto, o noso enfoque non debe ser considerado como un substituto para os métodos tradicionais de previsión meteorolóxica, que foron desenvolvidos durante décadas, probados rigorosamente en moitos contextos do mundo real, e ofrecen moitas características que aínda non exploramos. Ademais da previsión do tempo, GraphCast pode abrir novas direccións para outros importantes problemas de previsión xeoespacial-temporal, incluíndo o clima e a ecoloxía, a enerxía, a agricultura e a actividade humana e biolóxica, así como outros sistemas dinámicos complexos. Dispoñibilidade de datos e materiais O código de GraphCast e os pesos adestrados están dispoñibles publicamente en github https://github.com/ deepmind/graphcast. Este traballo utilizou datos dispoñibles publicamente do Centro Europeo para a Predición de Rango Medio (ECMWF). Usamos os produtos do arquivo ECMWF (expirado en tempo real) para os produtos ERA5, HRES e TIGGE, cuxo uso está rexido pola Atribución Creative Commons 4.0 Internacional (CC BY 4.0). Usamos IBTrACS versión 4 de https://www.ncei.noaa.gov/ produtos/internacional-best-track-archive e referencia [13, 12] como se require. A textura da Terra na figura 1 é usada baixo CC BY 4.0 de https://www.solarsystemscope.com/ textures/. Recoñecemento En orde alfabética, agradecemos a Kelsey Allen, Charles Blundell, Matt Botvinick, Zied Ben Bouallegue, Michael Brenner, Rob Carver, Matthew Chantry, Marc Deisenroth, Peter Deuben, Marta Garnelo, Ryan Keisler, Dmitrii Kochkov, Christopher Mattern, Piotr Mirowski, Peter Norgaard, Ilan Price, Chongli Qin, Sébastien Racanière, Stephan Rasp, Yulia Rubanova, Kunal Shah, Jamie Smith, Daniel Worrall e innumerables outros en Alphabet e ECMWF polos consellos e os comentarios sobre o noso traballo. Tamén agradecemos a ECMWF por proporcionar conxuntos de datos inestimables á comunidade de investigación. O estilo do parágrafo de apertura foi inspirado por D. Fan et al., Science Robotics Referencias [1] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Biases inductivas relacionais, aprendizaxe profunda e redes gráficas. arXiv preprint arXiv:1806.01261, 2018. [2] P. Bauer, A. Thorpe, e G Brunet. A revolución silenciosa da predición meteorolóxica numérica. Nature, 525, 2015. [3] Stanley G Benjamin, John M Brown, Gilbert Brunet, Peter Lynch, Kazuo Saito, e Thomas W Schlatter. 100 anos de progreso na previsión e aplicacións NWP. Monografías meteorolóxicas, 59:13-1, 2019. [4] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu e Qi Tian. Pangu-Weather: Un modelo 3D de alta resolución para unha previsión global de tempo rápida e precisa. arXiv preprint arXiv:2211.02556, 2022. [5] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. The THORPEX interactive grand global ensemble. [6] WE Chapman, AC Subramanian, L Delle Monache, SP Xie, e FM Ralph. Mellorar as previsións do río atmosférico con aprendizaxe automática. Geophysical Research Letters, 46(17-18):10627-10635, 2019. [7] Thomas W Corringham, F Martin Ralph, Alexander Gershunov, Daniel R Cayan e Cary A Talbot. Os ríos atmosféricos provocan danos por inundacións no oeste dos Estados Unidos. Avances científicos, 5(12):eaax4631, 2019. [8] Lasse Espeholt, Shreya Agrawal, Casper Sønderby, Manoj Kumar, Jonathan Heek, Carla Bromberg, Cenk Gazen, Rob Carver, Marcin Andrychowicz, Jason Hickey, et al. Aprendizaxe profunda para predicións de precipitacións de doce horas. Comunicacións da natureza, 13(1):1-10, 2022. [9] T Haiden, Martin Janousek, J Bidlot, R Buizza, Laura Ferranti, F Prates e F Vitart. Avaliación das previsións do ECMWF, incluída a actualización de 2018. [10] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. A reanálise global do ERA5. [11] Ryan Keisler. Predición do tempo global con redes neurais de gráficos. arXiv preprint arXiv:2202.07575, 2022. [12] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. International best track archive for climate stewardship (IBTrACS) proxecto, versión 4. https: //doi.org/10.25921/82ty-9e16, 2018 [13] Kenneth R Knapp, Michael C Kruk, David H Levinson, Howard J Diamond, e Charles J Neumann. O mellor arquivo internacional para a xestión do clima (IBTrACS) unificando datos de ciclóns tropicais. [14] Thorsten Kurth, Shashank Subramanian, Peter Harrington, Jaideep Pathak, Morteza Mardani, David Hall, Andrea Miele, Karthik Kashinath, e Animashree Anandkumar. FourCastNet: Acelerar a previsión climática global de alta resolución utilizando os operadores neurais adaptativos de catro dimensións. arXiv preprint arXiv:2208.05419, 2022. [15] David A Lavers, Adrian Simmons, Freja Vamborg, e Mark J Rodwell. Unha avaliación da precipitación ERA5 para o seguimento do clima. Journal trimestral da Royal Meteorological Society, 148(748):3152–3165, 2022. [16] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal e Jason Hickey. previsión global de calor extremo usando modelos meteorolóxicos neurais. Intelixencia artificial para os sistemas da Terra, páxinas 1-41, 2022. [17] Carsten Maass e Esperanza Cuartero. documentación do usuario MARS. https://confluence. ecmwf.int/display/UDOC/MARS+user+documentation, 2022. [18] Linus Magnusson. 202208 - onda de calor - uk. https://confluence.ecmwf.int/display/ FCST/202208+-+Heatwave+-+UK, 2022. [19] Linus Magnusson, Thomas Haiden, e David Richardson. Verificación de eventos meteorolóxicos extremos: predictores discretos. [20] Linus Magnusson, Sharanya Majumdar, Rebecca Emerton, David Richardson, Magdalena Alonso-Balmaseda, Calum Baugh, Peter Bechtold, Jean Bidlot, Antonino Bonanni, Massimo Bonavita, et al. Actividades do ciclón tropical no ECMWF. [21] Andrew B Martinez. Predición exactitude importa para os danos dos furacáns. Econometrics, 8(2):18, 2020. [22] Benjamin J Moore, Paul J Neiman, F Martin Ralph, e Faye E Barthold. Procesos físicos asociados con precipitacións de inundacións fortes en Nashville, Tennessee, e os seus arredores durante o 1–2 de maio de 2010: O papel dun río atmosférico e sistemas convectivos mesocalóricos. [23] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist, e Michael D Dettinger. características meteorolóxicas e impactos de precipitación terrestre dos ríos atmosféricos que afectan á costa oeste de Norteamérica baseados en oito anos de observacións por satélite. [24] Tung Nguyen, Johannes Brandstetter, Ashish Kapoor, Jayesh K Gupta, e Aditya Grover. ClimaX: Un modelo de fundación para o tempo e o clima. arXiv preprint arXiv:2301.10343, 2023. [25] Jaideep Pathak, Shashank Subramanian, Peter Harrington, Sanjeev Raja, Ashesh Chattopad-hyay, Morteza Mardani, Thorsten Kurth, David Hall, Zongyi Li, Kamyar Azizzadenesheli, et al. Fourcastnet: Un modelo meteorolóxico global de alta resolución baseado en datos usando operadores neurais adaptativos de catro dimensións. arXiv preprint arXiv:2202.11214, 2022. [26] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez e Peter Battaglia. Aprendizaxe de simulación baseada na rede con redes de gráficos. Na Conferencia Internacional sobre Representacións de Aprendizaxe, 2021. [27] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid, e Nils Thuerey. WeatherBench: un conxunto de datos de referencia para a previsión meteorolóxica baseada en datos. Journal of Advances in Modeling Earth Systems, 12(11):e2020MS002203, 2020. [28] Stephan Rasp e Nils Thuerey. predición meteorolóxica de mediano alcance baseada en datos cun resnet preparado para simulacións climáticas: un novo modelo para o banco meteorolóxico. [29] Suman Ravuri, Karel Lenc, Matthew Willson, Dmitry Kangin, Remi Lam, Piotr Mirowski, Megan Fitzsimons, Maria Athanassiadou, Sheleem Kashem, Sam Madge, et al. Precipitación habilidosa agoracasting usando modelos xerativos profundos de radar. Natureza, 597(7878):672–677, 2021. [30] Takaya Saito e Marc Rehmsmeier. A trama de recall de precisión é máis informativa que a trama ROC ao avaliar os clasificadores binarios en conxuntos de datos desequilibrados. PloS one, 10(3):e0118432, 2015. [31] Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec, e Peter Battaglia. Aprender a simular física complexa con redes de gráficos. Na Conferencia Internacional sobre Aprendizaxe Máquina, páxinas 8459–8468. PMLR, 2020. [32] Xingjian Shi, Zhihan Gao, Leonard Lausen, Hao Wang, Dit-Yan Yeung, Wai-kin Wong e Wang-chun Woo. Aprendizaxe profunda para a acumulación de precipitacións: unha referencia e un novo modelo. Avances en sistemas de procesamento de información neural, 30, 2017. [33] Casper Kaae Sønderby, Lasse Espeholt, Jonathan Heek, Mostafa Dehghani, Avital Oliver, Tim Salimans, Shreya Agrawal, Jason Hickey e Nal Kalchbrenner. Metnet: Un modelo meteorolóxico neural para a predición de precipitacións. arXiv preprint arXiv:2003.12140, 2020. [34] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson e Munehiko Yamaguchi. O proxecto TIGGE e os seus logros. Boletín da Sociedade Meteorolóxica Americana, 97(1):49 – 67, 2016. [35] Jonathan A Weyn, Dale R Durran, e Rich Caruana. ¿Poden as máquinas aprender a predicir o tempo? Usando o aprendizaxe profundo para predicir a altura xeopotencial da rede de 500 hPa a partir de datos históricos meteorolóxicos. [36] Jonathan A Weyn, Dale R Durran, e Rich Caruana. Mellorar a previsión climática global baseada en datos usando redes neurais profundas convolucionais nunha esfera cúbica. 1 Datos Nesta sección, damos unha visión xeral dos datos que usamos para adestrar e avaliar GraphCast (Sección de Suplementos 1.1), os datos que definen as previsións da liña de base de NWP HRES, así como HRES-fc0, que usamos como verdade de terra para HRES (Sección de Suplementos 1.2). Construímos múltiples conxuntos de datos para a formación e avaliación, compostos por subconxuntos dos arquivos de datos de ECMWF e IBTrACS [29, 28]. Xeralmente distinguimos entre os datos de orixe, que chamamos "arquivo" ou "datos arquivados", versus os conxuntos de datos que construímos a partir destes arquivos, que chamamos "datasets". 1.1 Xeración 5 Para a formación e avaliación de GraphCast, construímos os nosos conxuntos de datos a partir dun subconxunto do arquivo ERA5 [24]1 de ECMWF, que é un gran corpus de datos que representa o clima global desde 1959 ata o presente, a 0,25 ° latitude / lonxitude resolución, e incrementos de 1 hora, para centos de variables estáticas, superficiais e atmosféricas. O arquivo ERA5 está baseado na reanálise, que usa o modelo HRES de ECMWF (ciclo 42r1) que funcionou durante a maior parte de 2016 (ver Táboa 3), dentro do sistema de asimilación de datos 4D-Var de ECMWF. O noso conxunto de datos ERA5 contén un subconxunto de variables dispoñibles no arquivo ERA5 de ECMWF (Táboa 2), en 37 niveis de presión: 1, 2, 3, 5, 7, 10, 20, 30, 50, 70, 100, 125, 150, 175, 200, 225, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 775, 800, 825, 850, 875, 900, 925, 950, 975, 1000 hPa. O intervalo de anos incluídos foi 1979-01-01 a 2022-01-10, que foron baixando a intervalos de tempo de 6 horas (correspondentes a 00z, 06z, 12z e 18z cada día). 1.2 Xerais A avaliación da liña de base do modelo HRES require dous conxuntos de datos separados, a saber, os datos de previsión e os datos de verdade de fondo, que son resumidos nas subseccións seguintes. HRES considérase xeralmente como o modelo meteorolóxico determinista baseado en NWP máis preciso do mundo, polo que para avaliar a liña de partida de HRES construímos un conxunto de datos das previsións históricas arquivadas de HRES. HRES é actualizado regularmente por ECMWF, polo que estas previsións representan o último modelo de HRES no momento en que se fixeron as previsións. As previsións foron descargadas na súa representación nativa (que usa harmónica esférica e unha rede de Gauss reducida octaedral, TCo1279 [36]), e aproximadamente corresponde a unha resolución de 0,1 ° latitude / lonxitude. HRES operational forecasts A continuación, baixamos as probas espacialmente a unha grella de 0,25 ° latitude / lonxitude (para coincidir coa resolución de ERA5) usando a biblioteca Metview de ECMWF, con parámetros de regresión por defecto. Temporalmente baixamos as probas a intervalos de 6 horas. Hai dous grupos de previsións HRES: aqueles inicializados en 00z/12z que son liberados para horizontes de 10 días, e aqueles inicializados en 06z/18z que son liberados para horizontes de 3,75 días. Para avaliar a habilidade das previsións de operacións HRES, construímos un conxunto de datos de verdade de base, "HRES-fc0", baseado no arquivo de previsións de operacións HRES de ECMWF. Este conxunto de datos comprende a etapa inicial de cada previsión HRES, nos tempos de iniciación 00z, 06z, 12z e 18z (ver Figura 5). Os datos HRES-fc0 son similares aos datos ERA5, pero é asimilado usando o último modelo ECMWF NWP no momento da previsión, e asimila observacións de ±3 horas ao redor da data e hora correspondentes. Nota, ECMWF tamén proporciona un arquivo de datos de "Análise HRES" que é distinto do noso conxunto de datos HRES-fc0. O conxunto de datos HRES-fc0 Un subconxunto moi pequeno dos valores do arquivo ECMWF HRES para o geopotencial variable en 850hPa (z850) e 925hPa (z925) non son números (NaN). Estes NaN parecen estar distribuídos uniformemente ao longo do rango de 2016-2021 e en tempos de previsión. Isto representa aproximadamente o 0,00001% dos píxeles para z850 (1 píxel cada dez 1440 x 721 marcos de lonxitude), o 0,00000001% dos píxeles para z925 (1 píxel cada dez mil 1440 x 721 marcos de lonxitude) e non ten un impacto mensurable no rendemento. Para unha comparación máis fácil, cubrimos estes raros valores perdidos coa media ponderada dos píxeles veciños inmediatos. Usamos un peso de 1 para veciños de lado a lado e 0,5 pesos para veciños HRES NaN handling 1.3 Datos sobre ciclóns tropicais Para a nosa análise das previsións de ciclóns tropicais, usamos o arquivo IBTrACS [28, 29, 31, 30] para construír o conxunto de datos de verdade do terreo. Isto inclúe pistas históricas de ciclóns de preto dunha ducia de fontes autorizadas. Cada pista é unha serie de tempos, a intervalos de 6 horas (00z, 06z, 12z, 18z), onde cada etapa do tempo representa o ollo do ciclón en coordenadas de latitude / lonxitude, xunto coa categoría de Saffir-Simpson correspondente e outras características meteorolóxicas relevantes nese momento. Para a liña de base do HRES, usamos o arquivo TIGGE, que proporciona pistas de ciclóns estimadas co rastreador operativo, a partir das previsións do HRES a 0,1 ° de resolución [8, 46]. Os datos almacénanse como ficheiros XML dispoñibles para descarga baixo https://confluence.ecmwf.int/display/TIGGE/Tools. Para converter os datos nun formato adecuado para o posterior procesamento e análise, implementamos un analizador que extrae pistas de ciclóns para os anos de interese. As seccións (tags) relevantes nos ficheiros XML son as de tipo "forecast", que normalmente conteñen múltiples pistas correspondentes a diferentes tempos de previsión inicial. Con estas tags, extraemos o nome do ciclón (tag "cycloneName"), os valores de latitude (tag Vexa Sección 8.1 para os detalles do algoritmo do rastreador e os resultados. Notación e declaración de problemas Nesta sección, definimos o uso de notas de tempo útiles en todo o papel (Sección 2.1), formalizamos o problema xeral de previsión que abordamos (Sección 2.2), e detallamos como modelamos o estado do tempo (Sección 2.3). 2.1 Notas de tempo A notación do tempo utilizada na predición pode ser confusa, implicando un número de símbolos de tempo diferentes, por exemplo, para denotar o tempo de predición inicial, o tempo de validez, o horizonte de predición, etc. Por tanto, introducimos algúns termos e notacións estandarizados para a claridade e a sinxeleza. Referímonos a un punto específico do tempo como "hora da data", indicado pola data do calendario e a hora UTC. Por exemplo, 2018-06-21_18:00:00 significa 21 de xuño de 2018, ás 18:00 UTC. Para abreviar, tamén ás veces usamos a convención de Zulu, é dicir, 00z, 06z, 12z, 18z significa 00:00, 06:00, 12:00, 18:00 UTC, respectivamente. t: Índice de pasos de tempo de previsión, que indexa o número de pasos desde que se iniciou a previsión. T: Horizonte de previsión, que representa o número total de pasos nunha previsión. d: tempo de validez, que indica a data-hora dun estado meteorolóxico particular. d0: Tempo de iniciación da previsión, indicando o tempo de validez das entradas iniciais dunha previsión. Δd: Duración do paso de predición, indicando canto tempo transcorre durante un paso de predición. τ: tempo de condución de previsión, que representa o tempo transcorrido na previsión (é dicir, τ = tΔd). 2.2 Declaración xeral de problemas de previsión A evolución temporal do tempo real pode ser representada por unha función dinámica de tempo discreto subxacente, Φ, que xera o estado no seguinte paso de tempo (Δd no futuro) baseado no actual, é dicir, Zd+Δd = Φ(Zd). O noso obxectivo é atopar un modelo preciso e eficiente, φ, da verdadeira función dinámica, Φ, que poida predecir eficientemente o estado do tempo sobre algún horizonte de previsión, TΔd. Supomos que non podemos observar Zd directamente, pero só temos algunha observación parcial Xd, que é unha representación incompleta da información do estado necesaria para predecir o tempo perfectamente. Xd−Δd , Xd−2Δd , ..., ademais de Xd. O modelo pode entón, en principio, aproveitar esta información de contexto adicional para aproximar Zd con máis precisión. Analogamente á ecuación (1), a predición X ̈d+Δd pode ser alimentada de volta en φ para producir autorregresivamente unha predición completa, Avaliamos a calidade de predición, ou habilidade, de φ cuantificando o quão ben a traxectoria predicionada, X ̈d+Δd:d+T Δd , coincide coa traxectoria de verdade base, Xd+Δd:d+TΔd . Con todo, é importante salientar de novo que Xd+Δd:d+TΔd só comprende as nosas observacións de Zd+Δd:d+TΔd , que en si é inobservado. que se describe explicitamente no apartado 5. No noso traballo, a resolución temporal de datos e previsións foi sempre Δd = 6 horas cun horizonte máximo de previsión de 10 días, correspondendo a un total de T = 40 pasos. Porque Δd é unha constante en todo este documento, podemos simplificar a notación usando (Xt, Xt+1, . . . , Xt+T ) en lugar de (Xd, Xd+Δd , . . , Xd+TΔd ), para indexar o tempo cun enteiro en lugar dunha data-hora específica. 2.3. Modeling ECMWF weather data For training and evaluating models, we treat our ERA5 dataset as the ground truth representation of the surface and atmospheric weather state. As described in Section 1.2, we used the HRES-fc0 dataset as ground truth for evaluating the skill of HRES. No noso conxunto de datos, un estado meteorolóxico ERA5 Xt comprende todas as variables na Táboa 2, a unha resolución de latitude-longitude horizontal de 0,25° cun total de 721 × 1440 = 1, 038, 240 puntos de rede e 37 niveis de presión verticais. As variables atmosféricas están definidas en todos os niveis de presión e o conxunto de puntos de rede (horizontal) é dado por G0.25◦ = {−90.0, −89.75, . . . . , 90.0} × {−179.75, −179.5, . . . . , 180.0}. Estas variables son identificadas de forma única polo seu nome curto (e o nivel de presión, para as variables atmosféricas). Por exemplo, a variable de superficie “2 metros” denomínase 2 T; a variable atmosférica “ A partir de todas estas variables, o noso modelo prevé 5 variables de superficie e 6 variables atmosféricas para un total de 227 variables obxectivo. Varias outras variables estáticas e/ou externas tamén foron proporcionadas como contexto de entrada para o noso modelo. Estas variables son mostradas na Táboa 1 e na Táboa 2. Referímonos ao subconxunto de variables en Xt que corresponden a un determinado punto de rede i (1,038,240 en total) como xt, e a cada variable j das 227 variables obxectivo como xt. A representación de estado completa Xtii, j contén, polo tanto, un total de 721 × 1440 × (5 + 6 × 37) = 235, 680, 480 valores. 3. GraphCast model Esta sección proporciona unha descrición detallada de GraphCast, comezando coa xeración autorregresiva dunha previsión (Sección 3.1), unha visión xeral da arquitectura en linguaxe sinxela (Sección 3.2), seguida dunha descrición técnica de todos os gráficos que definen GraphCast (Sección 3.3), o seu codificador (Sección 3.4), procesador (Sección 3.5), e decodificador (Sección 3.6), así como todos os detalles de normalización e parameterización (Sección 3.7). 3.1. Generating a forecast O noso modelo GraphCast defínese como un simulador aprendido dun paso que toma o papel de φ na ecuación (2) e predí o seguinte paso baseado en dous estados de entrada consecutivos, Como en Ecuación (3), podemos aplicar GraphCast iterativamente para producir unha predición of arbitrary length, 𝑇. This is illustrated in Figure 1b,c. We found, in early experiments, that two input states yielded better performance than one, and that three did not help enough to justify the increased memory footprint. 3.2 Arquitectura xeral A arquitectura central de GraphCast usa GNNs nunha configuración de "código-proceso-decodificación" [6], como se mostra na Figura 1d,e,f. Os simuladores aprendidos baseados en GNN son moi eficaces para aprender a dinámica física complexa de fluídos e outros materiais [43, 39], xa que a estrutura das súas representacións e cálculos son análogos aos aprendidos solucionadores de elementos finitos [1]. Unha vantaxe clave de GNNs é que a estrutura do gráfico de entrada determina que partes da representación interactúan entre si a través da transmisión de mensaxes aprendidas, permitindo patróns arbitrarios de interaccións espaciais en calquera rango. Por contrapartida, unha rede neural convolucional (CNN) está restrinxida a computar interaccións dentro de parches locais (ou, no caso The way we capitalize on the GNN’s ability to model arbitrary sparse interactions is by introducing GraphCast’s internal “multi-mesh” representation, which allows long-range interactions within few message-passing steps and has generally homogeneous spatial resolution over the globe. This is in contrast with a latitude-longitude grid which induce a non-uniform distribution of grid points. Using the latitude-longitude grid is not an advisable representation due to its spatial inhomogeneity, and high resolution at the poles which demands disproportionate compute resources. O noso multi-mesh está construído por primeira vez dividindo un icosahedron regular (12 nodos e 20 caras) iterativamente 6 veces para obter unha xerarquía de mesas icosahedrais cun total de 40,962 nodos e 81,920 caras na resolución máis alta. Aproveitamos o feito de que os nodos de mesha grosa son subconxuntos dos nodos de mesha fina, o que nos permitiu superimpoñer bordos de todos os niveis da xerarquía de mesha sobre a mesha de mellor resolución. Este procedemento produce un conxunto multi-escala de meshas, con bordos grosa ponte longas distancias en múltiples escalas, e bordos finos capturando interaccións locais. A Figura 1g mostra cada mesha refinada individual, e a Figura 1e mostra o multi-mes O codificador de GraphCast (Figura 1d) primeiro mapea os datos de entrada, a partir da grella de lonxitude orixinal, en características aprendidas na multi-mesh, usando un GNN con bordos dirixidos dos puntos da grella á multi-mesh. O procesador (Figura 1e) entón usa un GNN profundo de 16 capas para realizar a transmisión de mensaxes aprendidas na multi-mesh, permitindo unha propagación eficiente de información a través do espazo debido ás bordas de lonxitude. O decodificador (Figura 1f) logo mapea a representación multi-mesh final de volta á grella de lonxitude usando un GNN con bordos dirixidos, e combina esta representación de grella, Ytk+, co estado de entrada, Xtt+k, para formar a predición de saída, X O codificador e o decodificador non requiren que os datos brutos sexan arranxados nunha grella rectilinear regular, e tamén se pode aplicar a discretizacións de estado arbitrarias [1].A arquitectura xeral baséase en varios simuladores aprendidos baseados en GNN que foron exitosos en moitos sistemas de fluídos complexos e outros dominios físicos [43, 39, 15]. Nun único dispositivo Cloud TPU v4, GraphCast pode xerar unha resolución de 0,25 °, unha previsión de 10 días (a pasos de 6 horas) en menos de 60 segundos. Para a comparación, o sistema IFS de ECMWF é executado nun clúster de 11.664 núcleos, e xera unha resolución de 0,1 °, unha previsión de 10 días (lanzado en pasos de 1 hora para as primeiras 90 horas, pasos de 3 horas para as horas 93-144, e pasos de 6 horas a partir de 150-240 horas, en aproximadamente unha hora de tempo de computación [41]. Vexa os detalles do lanzamento de HRES aquí: https://www.ecmwf.int/en/forecasts/ datasets/set-i. 3.3. GraphCast’s graph GraphCast é implementado usando GNNs nunha configuración de "código-proceso-decodificación", onde os mapas do codificador (superficie e atmosfera) caracterízanse na grella de entrada latitude-longitude a unha multi-mesh, o procesador realiza moitas roldas de mensaxe-paso na multi-mesh, e o decodificador mapea as características multi-mesh de volta á grella de saída latitude-longitude (ver Figura 1). O modelo opera sobre un gráfico G (VG, VM, EM, EG2M, EM2G), definido en detalle nos seguintes parágrafos. VG represents the set containing each of the grid nodes 𝑣G. Each grid node represents a vertical slice of the atmosphere at a given latitude-longitude point, 𝑖. The features associated with each grid node 𝑣G are vG,features = [x𝑡−1, x𝑡, f𝑡−1, f𝑡, f𝑡+1, c𝑖], where x𝑡 is the time-dependent weather state 𝑋𝑡 corresponding to grid node 𝑣G and includes all the predicted data variables for all 37 atmospheric levels as well as surface variables. The forcing terms f𝑡 consist of time-dependent features that can be computed analytically, and do not need to be predicted by GraphCast. They include the total incident solar radiation at the top of the atmosphere, accumulated over 1 hour, the sine and cosine of the local time of day (normalized to [0, 1)), and the sine and cosine of the of year progress (normalized to [0, 1)). The constants c𝑖 are static features: the binary land-sea mask, the geopotential at the surface, the cosine of the latitude, and the sine and cosine of the longitude. At 0.25° resolution, there is a total of 721 × 1440 = 1, 038, 240 grid nodes, each with (5 surface variables + 6 atmospheric variables × 37 levels) × 2 steps + 5 forcings × 3 steps + 5 constant = 474 input features. Grid nodes VM represents the set containing each of the mesh nodes 𝑣M. Mesh nodes are placed uniformly around the globe in a R-refined icosahedral mesh 𝑀𝑅. 𝑀0 corresponds to a unit-radius icosahedron (12 nodes and 20 triangular faces) with faces parallel to the poles (see Figure 1g). The mesh is iteratively refined 𝑀𝑟 → 𝑀𝑟+1 by splitting each triangular face into 4 smaller faces, resulting in an extra node in the middle of each edge, and re-projecting the new nodes back onto the unit sphere.4 Features vM,features associated with each mesh node 𝑣M include the cosine of the latitude, and 𝑖 𝑖the sine and cosine of the longitude. GraphCast works with a mesh that has been refined 𝑅 = 6 times, 𝑀6, resulting in 40,962 mesh nodes (see Supplementary Table 4), each with the 3 input features. Mesh nodes EM son os bordos bidireccionais engadidos entre os nodos de malla que están conectados na malla. Crucialmente, os bordos de malla engádense a EM para todos os niveis de refinamento, é dicir, para a malla máis fina, M6, así como para M5, M4, M3, M2, M1 e M0. Isto é sinxelo debido a como funciona o proceso de refinamento: os nodos de Mr−1 son sempre un subconxunto dos nodos en Mr. Polo tanto, os nodos introducidos en niveis de refinamento máis baixos serven como hubs para a comunicación de rango máis longo, independentemente do nivel máximo de refinamento. O gráfico resultante que contén o conxunto de bordos de todos os niveis de refinamento é o que se denomina o "multi-mesh". Mesh edges Para cada bordo eM que conecta un nodo de mesh de remitente vM a un nodo de mesh de receptor vM, construímos os recursos do bordo vM→vM eM, que utilizan a posición na esfera da unidade dos nodos de mesh. Isto inclúe a lonxitude vM→vM s r do bordo, e a diferenza vector entre as posicións 3d do nodo de remitente e o nodo de receptor calculadas nun sistema de coordenadas local do receptor. O sistema de coordenadas locais do receptor calcúlase aplicando unha rotación que cambia o ángulo azimutal ata que ese nodo de receptor estea na lonxitude 0, seguida dunha rotación que cambia o ángulo polar ata que o receptor tamén estea na latitude 0. Isto resulta nun total de 327,660 bord EG2M son bordos unidireccionais que conectan os nodos de rede de remitente aos nodos de rede de receptor. Engádese un bordo eG2M vG→vM se a distancia entre o nodo de rede e o nodo de rede é menor que s r ou igual a 0,6 veces5 a lonxitude das bordas en mesh M6 (ver Figura 1) que asegura que cada nodo de rede estea conectado a polo menos un nodo de rede. Grid2Mesh edges EM2G son os bordos unidireccionais que conectan os nodos de rede de remitente aos nodos de rede de receptor. Para cada punto de rede, atopamos a cara triangular na rede M6 que a contén e engadimos tres bordos de Mesh2G da forma eM2G vM→vG, para conectar o nodo de rede aos tres nodos de rede adxacentes s r a esa cara (ver Figura 1). Características eM2G,as características están construídas do mesmo xeito que as para as bordas de rede vM→vG s r. Isto resulta nun total de bordos de Mesh2Grid 3.114.720 (3 nodos de rede conectados a cada un dos puntos de rede de lonxitude de latitude 721 × 1440), cada un con catro características de entrada. Mesh2Grid edges 3.4. Encoder O propósito do codificador é preparar os datos en representacións latentes para o procesador, que se executarán exclusivamente no multi-mesh. As part of the encoder, we first embed the features of each of the grid nodes, mesh nodes, mesh edges, grid to mesh edges, and mesh to grid edges into a latent space of fixed size using five multi-layer perceptrons (MLP), Embedding the input features Next, in order to transfer information of the state of atmosphere from the grid nodes to the mesh nodes, we perform a single message passing step over the Grid2Mesh bipartite subgraph GG2M(VG, VM, EG2M) connecting grid nodes to mesh nodes. This update is performed using an interaction network [5, 6], augmented to be able to work with multiple node types [2]. First, each of the Grid2Mesh edges are updated using information from the adjacent nodes, Grid2Mesh GNN A continuación, cada un dos nodos de rede actualízase agregando información de todas as bordas que chegan a ese nodo de rede: Cada un dos nodos de rede tamén son actualizados, pero sen agregación, porque os nodos de rede non son receptores de calquera bordos no subgráfico de Grid2Mesh, Despois de actualizar os tres elementos, o modelo inclúe unha conexión residual, e para a simplicidade da notación, reasigna as variables, 5.3 Procesador O procesador é un GNN profundo que opera no subgráfico de Mesh GM (VM, EM) que só contén os nodos de Mesh e os bordos de Mesh. Nota que os bordos de Mesh conteñen o multi-mesh completo, con non só os bordos de M6, senón todos os bordos de M5, M4, M3, M2, M1 e M0, o que permitirá a comunicación a longa distancia. A single layer of the Mesh GNN is a standard interaction network [5, 6] which first updates each of the mesh edges using information of the adjacent nodes: Multi-mesh GNN Then it updates each of the mesh nodes, aggregating information from all of the edges arriving at that mesh node: E despois de actualizar as dúas, as representacións actualízanse cunha conexión residual e, para a simplicidade da notación, tamén se reasignan ás variables de entrada: The previous paragraph describes a single layer of message passing, but following a similar approach to [43, 39], we applied this layer iteratively 16 times, using unshared neural network weights for the MLPs in each layer. 3.6 Decodificación A función do decodificador é traer información de volta á rede, e extraer unha saída. Analogamente ao Grid2Mesh GNN, o Mesh2Grid GNN realiza unha única mensaxe que pasa sobre o subgráfico bipartito Mesh2Grid GM2G(VG, VM, EM2G). O Grid2Mesh GNN é funcionalmente equivalente ao Mesh2Grid GNN, pero usa os bordos Mesh2Grid para enviar información na dirección oposta. Mesh2Grid GNN A continuación, actualiza cada un dos nodos de rede, agregando información de todas as bordas que chegan a ese nodo de rede: Neste caso, non actualizamos os nodos de malla, xa que non xogan ningún papel a partir deste momento. Aquí de novo engadimos unha conexión residual, e para a simplicidade da notación, reasignamos as variables, esta vez só para os nodos de rede, que son os únicos necesarios a partir deste punto: Por último, a predición yi para cada un dos nodos de rede é producida usando outro MLP, Output function semellante a [43, 39], o seguinte estado meteorolóxico, X ̈t + 1, calcúlase engadindo a predición por nodo, Y ̈t , ao estado de entrada para todos os nodos da rede, Normalización e parametrización da rede Similar to [43, 39], we normalized all inputs. For each physical variable, we computed the per-pressure level mean and standard deviation over 1979–2015, and used that to normalize them to zero mean and unit variance. For relative edge distances and lengths, we normalized the features to the length of the longest edge. For simplicity, we omit this output normalization from the notation. Input normalization Debido a que o noso modelo produce unha diferenza, Y ̈t , que, durante a inferencia, se engade a Xt para producir X ̈t + 1, normalizamos a saída do modelo calculando as estatísticas de desviación estándar por nivel de presión para a diferenza de tempo Yt = Xt+1 − Xt de cada variable6. Output normalization As redes neurais dentro de GraphCast son todas MLPs, cunha capa oculta, e tamaños de capas ocultas e de saída de 512 (agás a capa final do MLP do Decoder, cuxo tamaño de saída é 227, correspondendo ao número de variables preditas para cada nodo da grella). Neural network parameterizations Detalles da formación Esta sección proporciona detalles relativos ao adestramento de GraphCast, incluíndo a división de datos usada para desenvolver o modelo (Sección 4.1), a definición completa da función obxectiva co peso asociado a cada nivel variable e vertical (Sección 4.2), o enfoque de adestramento autorregresivo (Sección 4.3), as opcións de optimización (Sección 4.4), o adestramento curricular usado para reducir o custo de adestramento (Sección 4.5), os detalles técnicos usados para reducir a pegada de memoria de GraphCast (Sección 4.6), o tempo de adestramento (Sección 4.7) e o software apilado que usamos (Sección 4.8). 4.1. Training split Para imitar as condicións reais de implantación, nas que a previsión non pode depender da información do futuro, dividimos os datos usados para desenvolver GraphCast e os datos usados para probar o seu rendemento "causalmente", en que o "conxunto de desenvolvemento" só contiña datas anteriores ás do "conxunto de proba".O conxunto de desenvolvemento comprende o período 1979-2017, e o conxunto de probas contén os anos 2018-2021.Nin os investigadores nin o software de adestramento de modelos foron autorizados a ver os datos do conxunto de probas ata que rematamos a fase de desenvolvemento. Dentro do noso conxunto de desenvolvemento, adicionalmente dividimos os datos nun conxunto de adestramento que comprende os anos 1979-2015, e un conxunto de validación que inclúe 2016-2017. Usamos o conxunto de adestramento como datos de adestramento para os nosos modelos e o conxunto de validación para a optimización de hiperparámetros e selección de modelos, é dicir, para decidir a arquitectura do modelo de mellor rendemento. Despois conxelamos a arquitectura do modelo e todas as opcións de adestramento e pasamos á fase de probas. 4.2 Obxectivos da formación GraphCast foi adestrado para minimizar unha función obxectiva sobre as previsións de 12 pasos (3 días) fronte aos obxectivos de ERA5, utilizando o descenso de gradientes. onde τ ∈ 1 : Ttrain son os tempos de condución que corresponden aos pasos autoregresivos de Ttrain. d0 ∈ Dbatch representa a data de iniciación da previsión nun lote de previsións no conxunto de formación, j ∈ J indexa a variable, e para as variables atmosféricas o nivel de presión. Ex. J ={z1000, z850, . . . , 2 T, MsL}, i ∈ G0.25◦ son as coordenadas de localización (latitude e lonxitude) na grella, x ̈d0+τ e xd0+τ son valores de predición e obxectivo para algúns niveis de variables, localización e tempo de condución,j,i j,i s j é a variación inversa do tempo de variación. wj é a perda de peso por nivel variable, ai é a área da célula da grella de latitude-longitude, que varía coa latitude, e é normalizada a unidade media sobre a grella. Para construír unha única perda escalar, tomamos a media en latitude-longitude, niveis de presión, variables, tempos de condución e tamaño de lote. Mediamos en todos os eixos de latitude-longitude, cun peso proporcional ao tamaño da célula de latitude-longitude (normalizado para significar 1). aplicamos medias uniformes en todo o tempo e lote. As cantidades s = V hxt+1 − xt i −1 son estimacións de variación inversa por nivel variable das diferenzas de tempo, que teñen como obxectivo estandarizar os obxectivos (a través de pasos consecutivos) a variación de unidade. Estes foron estimados a partir dos datos de adestramento. A continuación, aplicamos os pesos de perda por nivel variable, é dicir, para as variables atmosféricas, medimos a través dos niveis, cun peso proporcional á presión do nivel (normalizado á media de unidade), como se mostra na Figura 6a. Usamos a presión aquí como un proxector para a densidade [26]. Tome nota de que o peso de perda aplicado aos niveis de presión en ou por baixo de 50 hPa, onde HRES tende a actuar mellor que o GraphCast, é só 0,66% da perda total de Formación sobre o obxectivo autorregresivo Para mellorar a capacidade do noso modelo de facer predicións precisas en máis dun paso, usamos un réxime de adestramento autorregresivo, onde o seguinte paso predito do modelo foi alimentado de volta como entrada para predicir o seguinte paso. A versión final de GraphCast foi adestrada en 12 pasos autorregresivos, seguindo un programa de adestramento do currículo descrito a continuación. O procedemento de optimización calculou a perda en cada paso da predición, con respecto ao paso de verdade do terreo correspondente, os gradientes de erro con respecto aos parámetros do modelo foron redistribuídos a través da secuencia completa de iteracións do modelo (é dicir, usando retropropagación a través do tempo). 4.4 Optimización A función de obxecto de adestramento foi minimizada usando descenso de gradientes, con mini-batches. Mostramos as traxectorias de verdade do chan do noso conxunto de datos de adestramento ERA5, con substitución, para batches de tamaño 32. Usamos o optimizador AdamW [33, 27] con parámetros (beta1 = 0,9, beta2 = 0,95). Usamos a decadencia de peso de 0,1 nas matrices de peso. Usamos o corte de gradientes (norma) cun valor máximo de norma de 32. 5.4 Calendario de formación A primeira fase consistía en 1000 actualizacións de gradiente descendente, cun paso autorregresivo, e un calendario de taxa de aprendizaxe que aumentou linealmente de 0 a 1e−3 (Figura 7a). A segunda fase consistía en 299.000 actualizacións de gradiente descendente, outra vez cun paso autorregresivo, e un calendario de taxa de aprendizaxe que diminuíu de volta a 0 con función de decadencia de metade-cosina (Figura 7b). A terceira fase consistía en 11.000 actualizacións de gradiente descendente, onde o número de pasos autorregresivos aumentou de 2 a 12, aumentando por 1 cada 1000 actualizacións, e cunha taxa de aprendizaxe fixa de 3e−7 (Figura 7c). Redución da pegada da memoria Para encaixar longas traxectorias (12 pasos autorregresivos) no 32GB dun dispositivo Cloud TPU v4, usamos varias estratexias para reducir a pegada de memoria do noso modelo. En primeiro lugar, usamos o paralelismo de lote para distribuír datos a través de 32 dispositivos TPU (é dicir, un punto de datos por dispositivo). En segundo lugar, usamos a precisión do punto flotante bfloat16 para diminuír a memoria tomada polas activacións (nota, usamos números de precisión completa (é dicir, float32) para calcular as métricas de rendemento no momento da avaliación). 4.7 Tempo de formación Despois do horario de adestramento que aumenta o número de pasos autorregresivos, como se detallou anteriormente, o adestramento GraphCast levou preto de catro semanas en 32 dispositivos TPU. 4.8 Software e hardware Stack Usamos JAX [9], Haiku [23], Jraph [17], Optax, Jaxline [4] e xarray [25] para construír e adestrar os nosos modelos. 5 Métodos de verificación Esta sección proporciona detalles sobre o noso protocolo de avaliación. Sección 5.1 detalla o noso enfoque para dividir os datos dun xeito causal, asegurando os nosos test de avaliación para unha xeneralización significativa, é dicir, sen aproveitar a información do futuro. Sección 5.2 explica con máis detalle as nosas opcións para avaliar a habilidade HRES e comparalo con GraphCast, comezando pola necesidade de ter unha verdade específica para HRES para evitar penalizalo en tempos de saída curtos (Sección 5.2.1), o impacto de ERA5 e HRES usando diferentes fiestras de asimilación no lookahead que cada estado incorpora (Sección 5.2.2), a elección resultante de inicialización para o tempo GraphCast e HRES para garantir que todos os métodos beneficien do mesmo lookahead nas súas entradas e nos seus obxectivos (S 5.1. Training, validation, and test splits In the test phase, using protocol frozen at the end of the development phase (Section 4.1), we trained four versions of GraphCast, each of them on a different period. The models were trained on data from 1979–2017, 1979–2018, 1979–2019 and 1979–2020 for evaluation on the periods 2018–2021, 2019–2021, 2020–2021 e 2021, respectivamente. De novo, estas divisións mantiveron unha separación causal entre os datos utilizados para adestrar unha versión do modelo e os datos utilizados para avaliar o seu rendemento (ver Figura 8). A maioría dos nosos resultados foron avaliados en 2018 (é dicir, co modelo adestrado en 1979–2017), con varias excepcións. Para experimentos de seguimento de ciclóns, informamos resultados en 2018–2021 porque os ciclóns non son tan comúns, polo que incluíndo máis anos aumenta o tamaño da mostra. Usamos a versión máis recente de GraphCast para facer unha previsión nun ano dado: GraphCast <2018 para a previsión de 2018, GraphCast <2019 para a previsión de 2019, etc. Para experimentos de datos recentes de adestramento, 5.2. Comparing GraphCast to HRES 5.2.1 Selección de conxuntos de datos de verdade do terreo GraphCast foi adestrado para predicir os datos ERA5, e para tomar os datos ERA5 como entrada; tamén usamos ERA5 como verdade de fondo para avaliar o noso modelo. As previsións HRES, con todo, están inicializadas en base á análise HRES. En xeral, a verificación dun modelo contra a súa propia análise dá as mellores estimacións de habilidade [45]. Entón, en vez de avaliar as previsións HRES contra a verdade de terra ERA5, o que significaría que mesmo o paso cero das previsións HRES tería un erro non cero, construímos un conxunto de datos "previsión HRES no paso 0" (HRES-fc0) que contén o paso inicial das previsións HRES en futuras iniciacións (ver táboa 3). Usamos HRES-fc0 como 5.2.2 Asegurar a igualdade de miradas nas fiestras de asimilación Ao comparar as habilidades de GraphCast e HRES, fixemos varias opcións para controlar as diferenzas entre as fiestras de asimilación de datos ERA5 e HRES-fc0. Como se describe na Sección 1, cada día HRES asimila observacións usando catro fiestras de +/-3h centradas en 00z, 06z, 12z e 18z (onde 18z significa 18:00 UTC na convención Zulu), mentres que ERA5 usa dúas fiestras de +9h/-3h centradas en 00z e 12z, ou equivalentemente dúas fiestras de +3h/-9h centradas en 06z e 18z. Vexa a Figura 9 para unha ilustración. Optamos por avaliar as previsións de GraphCast das inicializacións 06z e 18z, asegurando que as súas entradas levan información de +3h A figura 10 mostra o rendemento de GraphCast inicializado a partir de 06z/18z e 00z/12z. Cando inicializado a partir dun estado con un lookahead maior, GraphCast obtén unha mellora visible que persiste en tempos de lead máis longos, apoiando a nosa elección para a avaliación inicializada a partir de 06z/18z. Aplicamos a mesma lóxica ao escoller o obxectivo sobre o que avaliar: só avaliamos os obxectivos que incorporan un lookahead 3 para HRES e ERA5. Dada a nosa elección de iniciación at 06z e 18z, isto corresponde a avaliar cada 12h, en tempos de análise futuros 06z e 18z. Como exemplo práctico, se íamos avaliar GraphCast e HRES inicializados en 06z, no tempo de lead 6h (i.e., 12 5.2.3 Aliñamento da inicialización e a validez dos tempos do día Como se indicou anteriormente, unha comparación xusta con HRES require que avaliemos GraphCast usando inicializacións 06z e 18z, e con tempos de lead que son múltiplos de 12h, o que significa que os tempos de validez tamén son 06z e 18z. For lead times up to 3.75 days there are archived HRES forecasts available using 06z and 18z initialization and validity times, and we use these to perform a like-for-like comparison with GraphCast at these lead times. Note, because we evaluate only on 12 hour lead time increments, this means the final lead time is 3.5 days. Para tempos de lead de 4 días e máis, as previsións de HRES arquivadas só están dispoñibles en inicializacións de 00z e 12z, o que dado os nosos tempos de lead múltiplos de 12 horas significa tempos de validez de 00z e 12z. Nestes tempos de lead non temos outra opción que comparar GraphCast en 06z e 18z, con HRES en 00z e 12z. Nestas comparacións de RMSEs globalmente definidos, esperamos que a diferenza no tempo do día dea a HRES unha lixeira vantaxe. Na Figura 11, podemos ver que ata os tempos de condución de 3,5 días, os RMSEs de HRES tenden a ser menores en media sobre os tempos de iniciación / validez de 00z e 12z do que os tempos de 06z e 18z nos que GraphCast é avaliado. Tamén podemos ver que a diferenza diminúe a medida que o tempo de condución aumenta, e que os RMSEs de 06z/18z xeralmente parecen tender cara a unha asimptota por encima do 00z/12z RMSE, pero dentro do 2% dela. Esperamos que estas diferenzas continúen a favorecer HRES en tempos de condución máis longos, e a pesar de permanecer pequenos, e polo tanto non cremos Whenever we plot RMSE and other evaluation metrics as a function of lead time, we indicate with a dotted line the 3.5 day changeover point where we switch from evaluating HRES on 06z/18z to evaluating on 00z/12z. At this changeover point, we plot both the 06z/18z and 00z/12z metrics, showing the discontinuity clearly. 5.2.4 Período de avaliación A maioría dos nosos principais resultados son informados para o ano 2018 (do noso conxunto de probas), para o cal o primeiro tempo de iniciación da previsión foi 2018-01_06:00:00 UTC e o último 2018-12-31_18:00:00, ou cando se evalúa HRES en tempos de condución máis longos, 2018-01_00:00:00 e 2018-12-31_12:00:00. 5.3 Metroloxía de avaliación Quantificamos a habilidade de GraphCast, outros modelos ML, e HRES usando o erro medio cadrado raíz (RMSE) e o coeficiente de correlación de anomalías (ACC), que ambos son calculados con respecto aos datos de verdade do terreo respectivos dos modelos. O RMSE mide a magnitude das diferenzas entre as previsións e a verdade do terreo para unha variable dada indexada por j e un tempo de condución dado τ (ver ecuación (20)). O ACC, Lj,τ , está definido na ecuación (29) e mide como as diferenzas previstas da climatoloxía, é dicir, o tempo medio para unha localización e data, correlacionan coas diferenzas da verdade do terreo da climatoloxía. Para as puntuacións de habilidade usamos a diferenza RMSE normalizada entre o modelo A e a All metrics were computed using float32 precision and reported using the native dynamic range of the variables, without normalization. Cuantificamos a habilidade de predición para unha variable dada, x j, e o tempo de condución, τ = tΔd, usando un erro de raíz medio cadrado ponderado en latitude (RMSE) dado por Root mean square error (RMSE) onde • d0 ∈ Deval representa a data inicialización da previsión no conxunto de datos de avaliación, • variables e niveis do índice j ∈ J, por exemplo, J = {z1000, z850, . . . , 2 T, MsL}, • 𝑖 ∈ 𝐺0.25◦ are the location (latitude and longitude) coordinates in the grid, • 𝑥ˆ𝑑0+𝜏 and 𝑥𝑑0+𝜏 are predicted and target values for some variable-level, location, and lead time, X, X, I • 𝑎𝑖 is the area of the latitude-longitude grid cell (normalized to unit mean over the grid) which varies with latitude. Ao tomar a raíz cadrada dentro da media sobre inicializacións de previsións seguimos a convención de WeatherBench [41]. Con todo, notamos que isto difire de como se define RMSE en moitos outros contextos, onde a raíz cadrada só se aplica á media final, é dicir, En todas as comparacións que implican predicións que son filtradas, truncadas ou descompostas no dominio harmónico esférico, para a súa comodidade calculamos RMSEs directamente no dominio harmónico esférico, con todos os medios tomados dentro da raíz cadrada, Root mean square error (RMSE), spherical harmonic domain. Aquí f·d0+τ e f d0+τ son predicibles e coeficientes de obxectivo de harmónicas esféricas con número de onda total j,l,m j,l,m Calculamos estes coeficientes a partir de datos baseados na grella usando unha transformación harmónica esférica discreta [13] con truncado triangular no número de onda 719, que foi escollido para resolver a resolución de 0.25° (28km) da nosa grella no ecuador. Esta RMSE aproxima estreitamente a definición baseada na grella de RMSE dada na ecuación (21), pero non é exactamente comparable, en parte porque a truncción triangular no número de onda 719 non resolve a resolución adicional da grella equangular preto dos polos. This is computed following the RMSE definition of Equation (21), but for a single location: Root mean square error (RMSE), per location. Tamén dividimos RMSE por latitude só: onde G0.25 G0.25 G0.25 G0.25 G0.25 G0.25 G0.25 G0.25 G0.25 G0.25 G0.25 G0.25 G0.25 G0.25 G0.25 G.1440 é o número de lonxitudes distintas na nosa rede de 0.25 °. Isto calcúlase seguindo a definición RMSE de Ecuación (21), pero limitado a un rango particular de elevacións de superficie, dado por límites zl ≤ zsurface < zu na xeopotencial de superficie: Root mean square error (RMSE), by surface elevation. where ll denotes the indicator function. Esta cantidade está definida como Mean bias error (MBE), per location. Isto cuantifica a magnitude media dos prexuízos por localización da ecuación (26) e é dada por Root-mean-square per-location mean bias error (RMS-MBE). This quantifies the correlation between per-location biases (Equation (26)) of two different models A and B. We use an uncentered correlation coefficient because of the significance of the origin zero in measurements of bias, and compute this quantity according to Correlation of per-location mean bias errors. Coeficiente de correlación de anomalía (ACC). Tamén calculamos o coeficiente de correlación de anomalía para unha variable dada, x j, e tempo de condución, τ = tΔd, segundo onde Cd0+τ é a media climatolóxica para unha determinada variable, nivel, latitude e lonxitude, e para o día do ano que contén o tempo de validez d0 + τ. Os medios climatolóxicos foron calculados utilizando datos ERA5 entre 1993 e 2016. 5.4 Metodoloxía estatística 5.4.1 Probas de significatividade para a diferenza de medios Para cada tempo de condución τ e nivel de variable j, probamos unha diferenza de medios entre RMSEs de tempo de iniciación (definido en ecuación (30)) para GraphCast e HRES. Usamos unha proba t de dous lados conxunta con corrección de auto-correlación, seguindo a metodoloxía de [16]. Esta proba asume que as series de tempo de diferenzas nas puntuacións de predición son adecuadamente modeladas como procesos AR(2) de Gaussian estacionarios. Esta suposición non é exactamente válida para nós, pero está motivada como adecuada para a verificación de previsións meteorolóxicas de intervalo medio polo ECMWF en [16]. O tamaño da mostra nominal para os nosos ensaios é n = 730 en tempos de chumbo menores de 4 días, consistente en dúas iniciacións de previsión por día durante os 365 días de 2018. (Para tempos de chumbo máis de 4 días temos n = 729, véxase Sección 5.4.2). Con todo, estes datos (diferencias en RMSEs de previsión) están auto-correlados no tempo. Despois de [16] estimamos un factor de inflación k para o erro estándar que corrige para iso. Valores de k varían entre 1.21 e 6.75, cos valores máis altos xeralmente vistos en tempos de chumbo curtos e nos niveis de presión máis baixos. Vexa a Táboa 5 para os resultados detallados das nosas probas de significancia, incluíndo valores de p, valores da estatística de probas t e de neff. 5.4.2 Alineación da previsión Para os tempos de condución τ menos de 4 días, temos previsións dispoñibles en 06z e 18z inicialización e tempos de validez cada día para tanto GraphCast e HRES, e podemos probar as diferenzas en RMSEs entre estas previsións asociadas. Cálculo das diferenzas que usamos para probar a hipótese nula de que E[diff-RMSE( j, τ, d0)] = 0 contra a alterna-tive bidireccional. Como se discutiu na Sección 5.2.3, en tempos de condución de 4 días ou máis, só temos previsións HRES dispoñibles en tempos de iniciación e validez 00z e 12z, mentres que para a comparación máis xusta (Sección 5.2.2) as previsións GraphCast deben ser avaliadas usando tempos de iniciación e validez 06z e 18z. Para realizar unha proba asociada, comparamos a RMSE dunha previsión GraphCast cunha RMSE interpolada das dúas previsións HRES de ambos os dous lados: unha inicializada e válida 6 horas antes, e a outra inicializada e válida 6 horas despois, todo co mesmo tempo de condución. Podemos usar estes para probar a hipótese nula E[diff-RMSEinterp( j, τ, d0)] = 0, que, de novo, non depende de d0 pola suposición de estabilidade sobre as diferenzas. Se adicionalmente asumimos que a serie de tempo HRES RMSE en si é estacionaria (ou polo menos o suficientemente preto de estacionaria durante unha fiestra de 6 horas) entón E[diff-RMSEinterp( j, τ, d0)] = E[diff-RMSE( j, τ, d0)] e as diferenzas interpoladas tamén se poden usar para probar desviacións da hipótese nula orixinal que E[diff-RMSE( j, τ, d0)] = 0. This stronger stationarity assumption for HRES RMSEs is violated by diurnal periodicity, and in Section 5.2.3 we do see some systematic differences in HRES RMSEs between 00z/12z and 06z/18z validity times. However as discussed there, these systematic differences reduce substantially as lead time grows and they tend to favour HRES, and so we believe that a test of 𝔼[diff-RMSE( 𝑗, 𝜏, 𝑑0)] = 0 based on diff-RMSEinterp will be conservative in cases where GraphCast appears to have greater skill than HRES. 5.4.3 Intervalos de confianza para RMSEs As barras de erro nas nosas parcelas de habilidades RMSE corresponden a intervalos de confianza separados para E[RMSEGC] e E[RMSEHRES] (eliding ou agora os argumentos j, τ, d0). Estes son derivados da proba t de dous lados coa corrección de autocorrelación que se describe anteriormente, aplicada por separado ás series de tempo GraphCast e HRES RMSE. Estes intervalos de confianza fan unha suposición de estabilidade para as series de tempo separadas de GraphCast e HRES RMSE, o que, como se indicou anteriormente, é unha suposición máis forte de que a estabilidade das diferenzas e é violada un pouco. 5.4.4 Intervalos de confianza para as puntuacións de habilidade RMSE From the 𝑡-test described in Section 5.4.1 we can also derive in the standard way confidence intervals for the true difference in RMSEs, however in our skill score plots we would like to show confidence intervals for the true RMSE skill score, in which the true difference is normalized by the true RMSE of HRES: Un intervalo de confianza para esta cantidade debe ter en conta a incerteza da nosa estimación do verdadeiro HRES RMSE. Deixemos que [ldiff, udiff] sexa o noso intervalo de confianza de 1 − α/2 para o numerador (diferencia en RMSEs), e [lHRES, uHRES] o noso intervalo de confianza de 1 − α/2 para o denominador (HRES RMSE). Dado que 0 < lHRES en cada caso para nós, usando a aritmética do intervalo e a unión, obtemos un intervalo de confianza conservador de 1 − α Para RMSE-SStrue. Plotamos estes intervalos de confianza xunto coas nosas estimacións da puntuación de habilidade RMSE, con todo, teña en conta que non confiamos neles para probas de significancia. Comparación con bases de aprendizaxe automática anteriores Para determinar como o rendemento de GraphCast se compara con outros métodos ML, centrámonos en Pangu-Weather [7], unha forte liña de base MLWP que funciona a 0,25 ° de resolución. Para facer a comparación máis directa, saímos do noso protocolo de avaliación e usamos o descrito en [7]. Debido a que os resultados publicados de Pangu-Weather son obtidos a partir das inicializacións 00z/12z, usamos as mesmas inicializacións para GraphCast, en vez de 06z/18z, como no resto deste documento. Isto permite que ambos os modelos sexan inicializados nas mesmas entradas, que incorporan a mesma cantidade de lookahead (+9 horas, ver Seccións 5.2.2 e 5.2). Como a inicialización HRES incorpora a máis de +3 horas de lookahead, aínda que inicializado a partir de Como se mostra na Figura 12, GraphCast (liñas azuis) supera Pangu-Weather [7] (liñas vermellas) en 99.2% dos obxectivos. Para as variables de superficie (2 T, 10 U, 10 v, MsL), o erro de GraphCast nos primeiros días é de preto de 10-20% máis baixo, e sobre os prazos de condución máis longos ata uns erros máis baixos de 7-10%. As únicas dúas (do total de 252) métricas nas que Pangu-Weather superou a GraphCast foron z500, en tempos de condución 6 e 12 horas, onde GraphCast tiña un RMSE medio 1,7% máis alto (Figura 12a,e). Resultados de verificación adicionais de previsións Esta sección proporciona unha análise adicional do rendemento de GraphCast, dando unha imaxe máis completa dos seus puntos fortes e limitacións. Sección 7.1 complementa os principais resultados do documento sobre variables adicionais e niveis máis aló de z500. Sección 7.2 analiza o rendemento de GraphCast dividido por rexións, latitudes e niveis de presión (en particular distinguindo o rendemento óptimo aplicado a HRES e sobre a tropopausa), ilustra os prexuízos e o RMSE por lonxitude e elevación de latitude. Sección 7.3 demostra que tanto o multi-mesh como a perda autorregresiva xogan un papel importante no rendemento de GraphCast. Sección 7.4 detalla o enfoque do desvantaxe óptimo aplicado a HRES e a GraphCast, para garantir que o 7.1 Resultados detallados para variables adicionais 7.1.1 RMSE e ACC Figure 13 complements Figure 2a–b and shows the RMSE and normalized RMSE difference with respect to HRES for GraphCast and HRES on a combination of 12 highlight variables. Figure 14 shows the ACC and normalized ACC difference with respect to HRES for GraphCast and HRES on the same a combination of 12 variables and complements Figure 2c. The ACC skill score is the normalized ACC difference between model 𝐴 and baseline 𝐵 as (ACC𝐴 − ACC𝐵)/(1 − RMSE𝐵). 7.1.2 Resultados detallados de probas de significancia para comparacións RMSE A táboa 5 proporciona información adicional sobre as alegacións de significado estatístico feitas na sección principal sobre diferenzas en RMSE entre GraphCast e HRES. Detalles da metodoloxía están na sección 5.4. Aquí damos os valores de p, as estatísticas de probas e os tamaños de mostra efectiva para todas as variables. Por razóns de espazo limitámonos a tres tempos principais (12 horas, 2 días e 10 días) e un subconxunto de 7 niveis de presión elixidos para incluír todos os casos onde p > 0,05 nestes tempos principais. 7.1.3 Efecto da actualidade de datos en GraphCast Isto, en principio, permítelles modelar patróns meteorolóxicos recentes que cambian co tempo, como o ciclo ENSO e outras oscilacións, así como os efectos do cambio climático.Para explorar como a recenteidade dos datos de adestramento inflúe no rendemento do GraphCast, adestramos catro variantes de GraphCast, con datos de adestramento que sempre comezaron en 1979, pero remataron en 2017, 2018, 2019 e 2020, respectivamente (marcamos a variante que remata en 2017 como "GraphCast:<2018", etc.). A Figura 15 mostra as puntuacións de habilidade e habilidade (en relación con HRES) das catro variantes de GraphCast, para varias variables e complementa a Figura 4a. Hai unha tendencia xeral onde as variantes adestradas a anos máis próximos ao ano de proba xeralmente melloraron as puntuacións de habilidade fronte a HRES. A razón para esta mellora non se entende plenamente, aínda que especulamos que é análoga á corrección de prexuízos a longo prazo, onde se explotan os prexuízos estatísticos recentes no tempo para mellorar a precisión. Tamén é importante notar que HRES non é un único NWP ao longo dos anos: tende a ser actualizado unha ou dúas veces ao ano, xeralmente aumentando a habilidade en z500 e outros campos [18, 22, 19, 20, 21]. Isto tamén pode contribuír a que GraphCast:<2018 e GraphCast:<2019, en particular, teñan puntuacións de habilidade máis baixas en comparación con HRES nos primeiros tempos de referencia para a avaliación de probas de 2021. Observamos que para outras variables, GraphCast:<2018 e GraphCast:<2019 tenden a superar aínda HRES. 7.2 Resultados desagregados 7.2.1. RMSE by region Per-region evaluation of forecast skill is provided in Figures 17 and 18, using the same regions and naming convention as in the ECMWF scorecards (https://sites.ecmwf.int/ifs/scorecards/ scorecards-47r3HRES.html). We added some additional regions for better coverage of the entire planet. These regions are shown in Figure 16. 7.2.2. RMSE puntuación de habilidade por latitude e nivel de presión Na Figura 19, proxectamos as diferenzas normalizadas de RMSE entre GraphCast e HRES, como unha función tanto do nivel de presión como da latitude. Nestas parcelas, indicamos en cada latitude a presión media da tropopausa, que separa a troposfera da estratosfera. Usamos valores calculados para o conxunto de datos ERA-15 (1979-1993), dado na Figura 1 de [44]. Estes non serán exactamente os mesmos que para a ERA5, pero están destinados só como unha axuda bruta para a interpretación. Podemos ver da tarxeta de puntuación na Figura 2 que GraphCast realiza peor que HRES nos niveis de presión máis baixos avaliados (50hPa). A Figura 19 mostra que o nivel de presión no que GraphCast comeza a empeorar é a miúdo tamén dependente da latitude, nalgúns casos aproximadamente seguindo o nivel medio da tropopausa. The reasons for GraphCast’s reduced skill in the stratosphere are currently poorly understood. We use a lower loss weighting for lower pressure levels and this may be playing some role; it is also possible that there may be differences between the ERA5 and HRES-fc0 datasets in the predictability of variables in the stratosphere. 7.2.3 Bias por latitude e lonxitude Nas figuras 20 a 22, proxectamos o erro medio de bias (MBE, ou simplemente "bias", definido na ecuación (26)) de GraphCast como unha función de latitude e lonxitude, en tres tempos de condución: 12 horas, 2 días e 10 días. Nas parcelas para variables dadas sobre os niveis de presión, mascaramos rexións cuxa elevación superficial é o suficientemente alta que o nivel de presión está por baixo do chan en media. Determinamos que isto é o caso cando o xeopotencial superficial supera un xeopotencial medio climatolóxico na mesma localización e nivel de presión. Para cuantificar a magnitude media dos prexuízos por localización mostrados nas Figuras 20 a 22, calculamos o cadrado raíz-medio dos erros de prexuízos medios por localización (RMS-MBE, definido na ecuación (26)). Estes son retratados na Figura 23 para GraphCast e HRES como unha función do tempo de condución. Podemos ver que os prexuízos de GraphCast son menores en media que os de HRES para a maioría das variables ata 6 días. Tamén calculamos un coeficiente de correlación entre o GraphCast e os erros de prexuízo medio de HRES por localización (definidos na ecuación (27)), que se representa como unha función do tempo de condución na Figura 24. 7.2.4. RMSE puntuación de habilidade por latitude e lonxitude Nas figuras 25 a 27, proxectamos a diferenza de RMSE normalizada entre GraphCast e HRES por latitude e lonxitude. Como na Sección 7.2.3, para as variables dadas sobre os niveis de presión, mascaramos rexións cuxa elevación superficial é suficiente para que o nivel de presión estea por baixo do chan en media. Notable areas where HRES outperforms GraphCast include specific humidity near the poles (particularly the south pole); geopotential near the poles; 2m temperature near the poles and over many land areas; and a number of surface or near-surface variables in regions of high surface elevation (see also Section 7.2.5). GraphCast’s skill in these areas generally improves over longer lead times. However HRES outperforms GraphCast on geopotential in some tropical regions at longer lead times. En 12 horas e 2 días, tanto GraphCast como HRES son avaliados en 06z/18z iniciación e tempos de validez, pero en 10 días, temos que comparar GraphCast en 06z/18z con HRES en 00z/12z (ver Sección 5). 7.2.5. RMSE puntuación de habilidade por elevación da superficie Na Figura 25, podemos ver que GraphCast parece ter reducido a habilidade en rexións de alta elevación para moitas variables en tempo de condución de 12 horas. Para investigar isto máis adiante dividimos a superficie da Terra en 32 bins por elevación da superficie (dado en termos de altura xeopotencial) e calculou RMSEs dentro de cada bin segundo a ecuación (24). En tempos de condución curtos e especialmente a 6 horas, a habilidade de GraphCast relativa a HRES tende a diminuír con maior elevación da superficie, na maioría dos casos caendo por baixo da habilidade de HRES en elevacións suficientemente altas. Observamos que o GraphCast está adestrado en variables definidas usando unha mestura de coordenadas de nivel de presión (para variables atmosféricas) e coordenadas de altura sobre a superficie (para variables de nivel de superficie como a temperatura de 2m ou o vento de 10m). A relación entre estes dous sistemas de coordenadas depende da elevación da superficie. A pesar de que o GraphCast condiciona a elevación da superficie, especulamos que pode ter dificultades para aprender esta relación e extrapolala ben ás altitudes de superficie máis altas. No traballo posterior, propoñeríamos tentar adestrar o modelo nun subconxunto dos nativos niveis do modelo ERA5 en lugar dos niveis de presión; estes usan un sistema de coordenadas híbridas [14] que segue a superficie da terra nos niveis máis baixos, e As variables que utilizan coordenadas de nivel de presión son interpoladas baixo o chan cando o nivel de presión supera a presión superficial. GraphCast non dá ningunha indicación explícita de que isto ocorreu e isto pode engadir ao reto de aprender a predicir en altitudes de superficie altas. Finalmente, a nosa ponderación de perdas é menor para as variables atmosféricas a niveis de presión máis baixos, e isto pode afectar a habilidade en lugares de maior elevación. 7.3 Ablacións GraphCast 7.3.1 Ablación multi-mesh Para entender mellor como a representación multi-mesh afecta o rendemento de GraphCast, comparamos o rendemento de GraphCast cunha versión do modelo adestrado sen a representación multi-mesh. A arquitectura do último modelo é idéntica a GraphCast (incluíndo o mesmo codificador e decodificador, e o mesmo número de nodos), agás que no bloque de proceso, o gráfico só contén os bordos da mellor mesh icosahedron M6 (245,760 bordos, en lugar de 327,660 para GraphCast). Como resultado, o modelo ablatado só pode propagar información con bordos de curto alcance, mentres que GraphCast contén bordos adicionais de longo alcance. A Figura 29 (panel esquerdo) mostra a tarxeta de puntuación comparando GraphCast co modelo ablatado. GraphCast beneficia da estrutura multi-mesh para todas as variables preditas, excepto para tempos de condución máis aló de 5 días a 50 hPa. A mellora é especialmente pronunciada para o xeopotencial en todos os niveis de presión e para a presión media no nivel do mar para tempos de condución menores de 5 días. O panel medio mostra a tarxeta de puntuación comparando o modelo ablatado con HRES, mentres que o panel dereito compara o GraphCast con HRES, demostrando que o multi-mesh é esencial para que GraphCast supere o HRES sobre o xeopotencial en tempos de condución menores de 5 días. 7.3.2. Effect of autoregressive training Analizamos o rendemento de variantes de GraphCast que foron adestrados con menos pasos autorregresivos (AR)7, o que debería animalos a mellorar o seu rendemento de tempo de condución curto en detrimento do rendemento de tempo de condución máis longo. Como se mostra na Figura 30 (coas liñas azuis máis lixeiras correspondentes ao adestramento con menos pasos de AR) descubrimos que os modelos adestrados con menos pasos de AR tiñan a tendencia a comerciar máis tempo para unha precisión de tempo de condución máis curto. Estes resultados suxiren o potencial para combinar varios modelos con diferentes números de pasos de AR, por exemplo, para tempos de condución curtos, medianos e longos, para capitalizar as súas respectivas vantaxes en todo o horizonte de previsión. A conexión entre o número de pasos autorregr 7.4 Blurring óptimo 7.4.1 Efecto sobre a comparación de habilidades entre GraphCast e HRES Nas figuras 31 e 32 comparamos a RMSE de HRES con GraphCast antes e despois de que se aplicase o borrador óptimo a ambos os modelos. 7.4.2 Metodoloxía de filtración Seleccionamos filtros que minimizan RMSE dentro da clase de filtros lineais, homoxéneos (invariantes de localización), isotrópicos (invariantes de dirección) na esfera. Estes filtros poden ser facilmente aplicados no dominio harmónico esférico, onde corresponden aos pesos de filtros multiplicativos que dependen do número total de ondas, pero non do número de ondas lonxitudinais [12]. Para cada inicialización d0, tempo de condución τ, variable e nivel j, aplicamos unha transformación harmónica esférica discreta [13] ás predicións x ̈d0+τ e obxectivos xd0+τ, obtendo coeficientes harmónicos esféricos f ̈d0+τ j j j,l,m e f d0+τ para cada par de número de onda total l e número de onda lonxitudinal m. Para resolver a resolución de 0,25° (28km) da nosa rede no ecuador, usamos unha truncción triangular ao número de onda total 719, o que significa que l varía de 0 a max l = 719, e para cada l o valor de m varía de −l a l. We then multiplied each predicted coefficient 𝑓ˆ𝑑0+𝜏 by a filter weight 𝑏𝜏 , which is independent of 𝑗,𝑙,𝑚 𝑗,𝑙 the longitudinal wavenumber 𝑚. The filter weights were fitted using least-squares to minimize mean squared error, as computed in the spherical harmonic domain: We used data from 2017 to fit these weights, which does not overlap with the 2018 test set. When evaluating the filtered predictions, we computed MSE in the spherical harmonic domain, as detailed in Equation (22). Ao montar diferentes filtros para cada tempo de condución, o grao de borrador era libre de aumentar coa incerteza crecente en tempos de condución máis longos. While this method is fairly general, it also has limitations. Because the filters are homogeneous, they are unable to take into account location-specific features, such as orography or land-sea boundaries, and so they must choose between over-blurring predictable high-resolution details in these locations, or under-blurring unpredictable high-resolution details more generally. This makes them less effective for some surface variables like 2 T, which contain many such predictable details. Future work may consider more complex post-processing schemes. An alternative way to approximate a conditional expectation (and so improve RMSE) for our ECMWF forecast baseline would be to evaluate the ensemble mean of the ENS ensemble forecast system, instead of the deterministic HRES forecast. However the ENS ensemble is run at lower resolution than HRES, and because of this, it is unclear to us whether its ensemble mean will improve on the RMSE of a post-processed version of HRES. We leave an exploration of this for future work. 7.4.3 Funcións de transferencia dos filtros óptimos Os pesos do filtro son visualizados na Figura 33, que mostra a relación da potencia de saída á potencia de entrada para o filtro, na escala de decibel logarítmica, como unha función de lonxitude de onda. Equation (35), this is equal to 20 log10(𝑏𝜏 ) for the wavelength 𝐶𝑒/𝑙 corresponding to total wavenumber 𝑙.) Para tanto HRES como GraphCast, vemos que é óptimo para MSE atenuar a potencia sobre algunhas lonxitudes de onda de curto a medio. A medida que os tempos de condución aumentan, a cantidade de atenuación aumenta, así como a lonxitude de onda na que é maior. Na optimización para MSE, buscamos aproximar unha expectativa condicional que media sobre a incerteza predictiva. Durante os tempos de condución máis longos esta incerteza predictiva aumenta, así como a escala espacial de incerteza sobre a localización dos fenómenos meteorolóxicos. Cremos que isto explica en gran medida estes cambios na resposta óptima do filtro como unha función do tempo de condución. Podemos ver que HRES xeralmente require máis borrador que GraphCast, porque as previsións de GraphCast xa borran en certa medida (ver Sección 7.5.3), mentres que HRES non. Os filtros óptimos tamén son capaces de compensar, en certa medida, os prexuízos espectrales nas predicións de GraphCast e HRES. Por exemplo, para moitas variables no noso conxunto de datos ERA5 regridido, o espectro corta abruptamente para lonxitudes de onda por baixo de 62km que non se resolven na resolución nativa de 0.28125◦ de ERA5. Tamén notamos que hai picos notables na resposta do filtro GraphCast ao redor de 100 km de lonxitude de onda para z500, que non están presentes para HRES. Cremos que estes están filtrando pequenos artefactos falsos que son introducidos por GraphCast ao redor destas lonxitudes de onda como un efecto secundario das transformacións de rede a rede e rede a rede realizadas dentro do modelo. 7.4.4 Relación entre o horizonte de adestramento autorregresivo e o borrador In Figure 34 we use the results of optimal blurring to investigate the connection between autoregressive training and the blurring of GraphCast’s predictions at longer lead times. Na primeira liña da Figura 34, vemos que os modelos adestrados con horizontes de adestramento autorregresivos máis longos benefician menos do borrador óptimo, e que os beneficios do borrador óptimo xeralmente comezan a acumularse só despois do tempo de condución correspondente ao horizonte ao que foron adestrados. It would be convenient if we could replace longer-horizon training with a simple post-processing strategy like optimal blurring, but this does not appear to be the case: in the second row of Figure 34 we see that longer-horizon autoregressive training still results in lower RMSEs, even after optimal blurring has been applied. Se alguén desexa predicións que son nalgún sentido minimamente borrosas, podería usar un modelo adestrado a un pequeno número de pasos autorregresivos. Isto, por suposto, resultaría en RMSEs máis altos en tempos de condución máis longos, e os nosos resultados aquí suxiren que estes RMSEs máis altos non só estarían debido á falta de borrador; un estaría comprometendo outros aspectos da habilidade en tempos de condución máis longos tamén. 5.3 Análise espectral 7.5.1. Spectral decomposition of mean squared error Nas figuras 35 e 36 comparamos a habilidade de GraphCast con HRES sobre unha variedade de escalas espaciais, antes e despois da filtración óptima (ver detalles na Sección 7.4). onde lmax = 719 como na ecuación (22).Cada número total de ondas l corresponde aproximadamente a unha lonxitude de onda Ce/l, onde Ce é a circunferencia da Terra. Plotamos histogramas de densidade de enerxía, onde a área de cada barra corresponde a S j,τ(l), e as barras centro ao redor de log10(1 + l) (xa que unha escala de frecuencia de rexistro permite unha inspección visual máis fácil, pero tamén debemos incluír o número de onda l = 0). En tempos de lead de 2 días ou máis, para a maioría das variables GraphCast mellora a habilidade de HRES uniformemente en todas as lonxitudes de onda. (2m temperatura é unha notable excepción). En tempos de condución máis curtos de 12 horas a 1 día, para unha serie de variables (incluíndo z500, T500, T850 e U500) HRES ten maior habilidade que GraphCast en escalas no rango aproximado de 200-2000km, con GraphCast xeralmente tendo maior habilidade fóra deste rango. 7.5.2 RMSE como función de resolución horizontal Na Figura 37, comparamos a habilidade de GraphCast con HRES cando se avalía nunha variedade de resolucións espaciais. Especificamente, en cada trunc de número de onda total, planificamos RMSEs entre as predicións e os obxectivos que están truncados a ese número de onda total. Os RMSEs entre as previsións truncadas e os obxectivos poden obterse a través de sumas acumulativas das potencias medias de erro S j,τ(l) definidas na ecuación (37), segundo Figure 37 shows that in most cases GraphCast has lower RMSE than HRES at all resolutions typically used for forecast verification. This applies before and after optimal filtering (see Section 7.4). Exceptions include 2 meter temperature at a number of lead times and resolutions, T 500 at 12 hour lead times, and U 500 at 12 hour lead times, where GraphCast does better at 0.25° resolution but HRES does better at resolutions around 0.5◦ to 2.5◦ (corresponding to shortest wavelengths of around 100 to 500 km). En particular, observamos que a resolución nativa de ERA5 é 0.28125◦ correspondendo a unha lonxitude de onda máis curta de 62km, indicado por unha liña vertical nas parcelas. obxectivos HRES-fc0 conteñen algún sinal a lonxitudes de onda menores que 62km, pero os obxectivos ERA5 usados para avaliar GraphCast non, nativamente polo menos (ver Sección 7.5.3). 7.5.3. Spectra of predictions and targets Figure 38 compares the power spectra of GraphCast’s predictions, the ERA5 targets they were trained against, and HRES-fc0. A few phenomena are notable: Existen diferenzas notables nos espectros de ERA5 e HRES-fc0, especialmente en lonxitudes de onda curtas. Estas diferenzas poden ser causadas en parte polos métodos utilizados para regrigui-los das súas respectivas resolucións nativas de IFS de TL639 (0.28125◦) e TCo1279 (aproximadamente 0.1◦, [36]) a unha grella equangular de 0,25°. Con todo, mesmo antes de que se realice esta regresión, existen diferenzas nas versións de IFS, configuracións, resolución e metodoloxía de asimilación de datos usadas para HRES e ERA5, e estas diferenzas tamén poden afectar o espectro. Differences between HRES and ERA5 Vemos unha redución de potencia en lonxitudes de onda de curto a medio nas previsións de GraphCast que se reduce aínda máis co tempo de condución.Cremos que isto corresponde ao borrador que GraphCast aprendeu a realizar na optimización para MSE. Blurring in GraphCast These peaks are particularly visible for z500; they appear to increase with lead time. We believe they correspond to small, spurious artifacts introduced by the internal grid-to-mesh and mesh-to-grid transformations performed by GraphCast at each autoregressive step. In future work we hope to eliminate or reduce the effect of these artifacts, which were also observed by [26]. Peaks for GraphCast around 100km wavelengths Finally we note that, while these differences in power at short wavelengths are very noticeable in log scale and relative plots, these short wavelengths contribute little to the total power of the signal. Resultados adicionais de predición de eventos graves Neste apartado, proporcionamos detalles adicionais sobre a nosa análise de previsión de eventos severa. Observamos que GraphCast non está especialmente adestrado para esas tarefas subxacentes, o que demostra que, ademais de mellorar as habilidades, GraphCast proporciona previsións útiles para tarefas con impacto do mundo real, como o seguimento de ciclóns (Sección 8.1), caracterización de ríos atmosféricos (Sección 8.2), e clasificación de temperaturas extremas (Sección 8.3). 8.1 Predición da pista do ciclón tropical Nesta sección, detallamos os protocolos de avaliación que usamos para o seguimento de ciclóns (Sección de Suplementos 8.1.1) e a análise de significado estatístico (Sección de Suplementos 8.1.2), proporcionan resultados adicionais (Sección de Suplementos 8.1.3), e describen o noso rastreador e as súas diferenzas co de ECMWF (Sección de Suplementos 8.1.4). 8.1.1 Protocolo de avaliación A forma estándar de iniciar o graffiti ao redor de dous sistemas de predición de ciclóns tropicais é restrinxir a comparación a eventos onde ambos os modelos predixen a existencia dun ciclón. Como se detalla na Sección 5.2.2 dos Suplementos, GraphCast está iniciado a partir de 06z e 18z, en vez de 00z e 12z, para evitar darlle unha vantaxe de lookahead sobre HRES. Non obstante, as pistas de ciclóns HRES no arquivo TIGGE [8] son inicializadas só a 00z e 12z. Esta discrepancia impide que seleccionemos eventos onde a iniciación e o mapa de tempo conducen á mesma validez para ambos os métodos, xa que sempre hai un desacordo de 6h. No canto de comparar HRES e GraphCast nun conxunto de Debido a que calculamos erros con respecto á mesma verdade básica (i.e., IBTrACS), a avaliación non está suxeita ás mesmas restricións descritas na Sección 5.2.2 dos Suplementos, é dicir, os obxectivos para ambos os modelos incorporan a mesma cantidade de lookahead. Isto é en contraste coa maioría das nosas avaliacións neste documento, onde os obxectivos para HRES (i.e., HRES-fc0) incorporan +3h lookahead, e os obxectivos para GraphCast (de ERA5) incorporan +3h ou +9h, o que nos leva a informar só os resultados para os tempos de referencia cun lookahead correspondente (múltiples de 12h). Para unha predición dada, o erro entre o centro predito do ciclón e o centro verdadeiro calcúlase utilizando a distancia xeodésica. 8.1.2 Metodoloxía estatística A computación da confianza estatística no seguimento de ciclóns require unha atención especial en dous aspectos: 1. Hai dúas formas de definir o número de mostras. O primeiro é o número de eventos de ciclón tropical, que se pode asumir como eventos maioritariamente independentes. O segundo é o número de puntos de datos por tempo de condución usado, que é maior, pero conta para puntos relacionados (para cada evento de ciclón tropical múltiples previsións son feitas no intervalo de 6h). Escolleron usar a primeira definición que proporciona estimacións máis conservadoras de significado estatístico. Ambos os números aparecen para tempos de condución de 1 a 5 días no eixo x de Suplementos Figura 39. Os erros de seguimento por exemplo de HRES e GraphCast están correlacionados. Polo tanto, a varianza estatística na súa diferenza é moito menor que a súa varianza conxunta. Así, informamos a confianza de que GraphCast é mellor que HRES (ver Suplementos Figura 39b) ademais da confianza por modelo (ver Suplementos Figura 39a). Dadas as dúas consideracións anteriores, facemos bootstrapping con intervalos de confianza do 95% ao nivel de ciclóns. Para un tempo de condución dado, consideramos todos os pares de tempo de iniciación / tempo de condución correspondentes e mantemos unha lista de cal ciclón proceden (sen duplicación). Para a estimación de bootstrap, extraemos mostras desta lista de ciclóns (con substitución) e aplicamos a mediana (ou a media) aos pares de tempo de iniciación / tempo de condución correspondentes. Teña en conta que isto nos dá límites de confianza moito máis conservadores que facer bootstrapping ao nivel de tempo de iniciación / tempo de condución, xa que é equivalente a asumir que todas as mostras de bootstrap procedentes do ciclón de mostra (xeralmente en orde de decenas) están perfectamente correlacionadas. Por exemplo, supoñamos que para un tempo de condución dado temos erros de (50, 100, 150) para o ciclón A, (300, 200) para o ciclón B e (100, 100) para o ciclón C, con A tendo máis mostras.Unha mostra de arranque no nivel dos ciclóns primeiro mostra uniformemente en 3 ciclóns aleatorios con substitución (por exemplo, A,A,B) e entón calcula a media sobre as mostras correspondentes con multiplicidade: media(50,100,150,50,100,150,200,300)=137.5. 8.1 Resultados In Supplements Figure 3a-b, we chose to show the median error rather than the mean. This decision was made before computing the results on the test set, based on the performance on the validation set. On the years 2016–2017, using the version of GraphCast trained on 1979–2015, we observed that, using early versions of our tracker, the mean track error was dominated by very few outliers and was not representative of the overall population. Furthermore, a sizable fraction of these outliers were due to errors in the tracking algorithm rather than the predictions themselves, suggesting that the tracker was suboptimal for use with GraphCast. Because our goal is to assess the value of GraphCast forecast, rather than a specific tracker, we show median values, which are also affected by tracking errors, but to a lesser extent. In figure Figure 40 we show how that the distribution of both HRES and GraphCast track errors for the test years 2018–2021 are non-gaussian with many outliers. This suggests the median is a better summary statistic than the mean. A Figura 39 complementa a Figura 3a-b mostrando o erro medio de seguimento e a análise asociada correspondente. Observamos que usando a versión final do noso rastreador (Sección 8.1.4 de Suplementos), os resultados medios de GraphCast son similares ao mediano, con GraphCast superando significativamente os HRES durante o tempo de condución entre 2 e 5 días. Debido aos coñecidos efectos de desvantaxe, que tenden a suavizar o extremo utilizado por un rastreador para detectar a presenza dun ciclón, os métodos ML poden caer ciclóns existentes con máis frecuencia que os NWPs. A caída dun ciclón está moi correlacionada con ter un gran erro de posición. Para evitar este problema, verificamos que o noso rastreador buscado por hiperparámetros (ver Suplemento Sección 8.1.4) perde un número similar de ciclóns como HRES. Suplemento Figura 41 mostra que no conxunto de probas (2018-2021), GraphCast e HRES caen un número similar de ciclóns, garantindo que as nosas comparacións sexan o máis xustas posible. Os suplementos Figuras 42 e 43 mostran o erro mediano e a análise asociada como unha función do tempo de condución, dividido por categoría de ciclóns, onde a categoría está definida na escala de vento de furacáns Saffir-Simpson [47], coa categoría 5 representando as tormentas máis fortes e máis daniñas (nota, usamos a categoría 0 para representar as tormentas tropicais). Descubrimos que GraphCast ten un rendemento igual ou mellor que HRES en todas as categorías. Para a categoría 2, e especialmente para a categoría 5 (os eventos máis intensos), GraphCast é significativamente mellor que HRES, como demostra a análise asociada por pista. Tamén obtemos resultados similares ao medir o rendemento medio en lugar do mediano. 8.1.4. Tracker details O rastreador que usamos para GraphCast baséase na nosa reimplantación do rastreador de ECMWF [35]. Debido a que está deseñado para 0.1° HRES, atopamos útil engadir varias modificacións para reducir a cantidade de ciclóns falidos cando se aplica ás previsións de GraphCast. Con todo, aínda se producen erros de rastrexo, que se espera de rastrexar o ciclón desde as previsións de 0.25° en lugar de 0.1°. We first give a high-level summary of the default tracker from ECMWF, before explaining the modifications we made and our decision process. Given a model’s predictions of the variables 10 U, 10 v, MsL as well as U, v and z at pressure levels 200, 500, 700, 850 and 1000 hPa over multiple time steps, the ECMWF tracker [35] sequentially processes each time step to iteratively predict the location of a cyclone over an entire trajectory. Each 6h prediction of the tracker has two main steps. In the first step, based on the current location of the cyclone, the tracker computes an estimate of the next location, 6h ahead. The second step consists in looking in the vicinity of that new estimate for locations that satisfy several conditions that are characteristic of cyclone centers. ECMWF tracker Para calcular a estimación da localización do próximo ciclón, o rastreador move a estimación actual usando un desprazamento calculado como a media de dous vectores: 1) o desprazamento entre os dous últimos lugares da pista (é dicir, extrapolación lineal) e 2) unha estimación da dirección do vento, medindo a velocidade do vento U e v na posición da pista anterior a niveis de presión 200, 500, 700 e 850 hPa. Unha vez calculada a estimación da localización do próximo ciclón, o rastreador mira a todos os mínimos locais de presión media ao nivel do mar (MsL) dentro de 445 km desta estimación. Verificación da vorticidade: a vorticidade máxima a 850 hPa dentro de 278 km dos mínimos locais é maior que 5 · 10−5 s−1 para o Hemisferio Norte, ou é menor que −5 · 10−5s−1 para o Hemisferio Sur. Verificación da velocidade do vento: se o candidato está en terra, a velocidade máxima do vento de 10 m dentro de 278 km é maior que 8 m/s. Control de espesura: se o ciclón é extratropical, hai unha espesura máxima entre 850 hPa e 200 hPa dentro dun radio de 278 km, onde a espesura está definida como z850-z200. Se ningún mínimo satisfai todas esas condicións, o rastreador considera que non hai ciclón. O rastreador de ECMWF permite que os ciclóns desaparezan brevemente baixo algunhas condicións de caso antes de reaparecer. Analizamos os erros en ciclóns do noso conxunto de anos de validación (2016-2017), utilizando unha versión de GraphCast adestrada en 1979-2015, e modificamos a reimplantación predeterminada do rastreador ECMWF como se describe a continuación. Our modified tracker Descubrimos que este parámetro é crítico e buscamos un valor mellor entre as seguintes opcións: 445 × f para f en 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (valor orixinal). Tamén atopamos este parámetro como crítico e buscamos un mellor valor entre as seguintes opcións: 278 × f para f en 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (valor orixinal). A estimación do seguinte paso de ECMWF usa unha ponderación de 50-50 entre a extrapolación linear e os vectores de dirección do vento. No noso caso, onde o vento está previsto a unha resolución de 0,25 °, atopamos que o vento está dirixido ás veces a estimacións de obstáculos. Isto non é sorprendente porque o vento non é un campo espacialmente suave, e o rastreador probablemente está adaptado para aproveitar as previsións de resolución de 0,1 °. Así, buscamos o hiperparámetro a ponderación entre as seguintes opcións: 0,0, 0,1, 0,33, 0,5 (valor orixinal). 4. We noticed multiple misstracks happened when the track sharply reversed course, going against its previous direction. Thus, we only consider candidates that creates an angle between the previous and new direction below 𝑑 degrees, where 𝑑 was searched among these values: 90, 135, 150, 165, 175, 180 (i.e. no filter, original value). Observamos múltiples mistracks que fixeron grandes saltos, debido a unha combinación de dirección de vento ruidoso e características que son difíciles de discernir para os ciclóns débiles. Así, exploramos a estimación do corte de moverse máis aló de x quilómetros (por cambiar o delta co último centro), buscando os seguintes valores para x: 445 × f para f en 0.25, 0.5, 1.0, 2.0, 4.0, ∞ (é dicir, sen cortar, valor orixinal). Durante a busca de hiperparámetros, tamén verificamos nos datos de validación que o rastreador aplicado a GraphCast deixou caer un número similar de ciclóns como HRES. 8.2 Ríos atmosféricos O transporte de vapor de auga verticalmente integrado (IvT) utilízase comunmente para caracterizar a intensidade dos ríos atmosféricos [38, 37]. Aínda que GraphCast non predique directamente o IvT e non está especialmente adestrado para predecir os ríos atmosféricos, podemos derivar esta cantidade das variables atmosféricas prediciadas específicas de humidade, Q e vento horizontal, (U, v), a través da relación [38]: onde g = 9,80665 m/s2 é a aceleración debida á gravidade na superficie da Terra, pb = 1000 hPa é a presión inferior, e pt = 300 hPa é a presión máxima. A avaliación de IvT usando a relación anterior require integración numérica e, polo tanto, o resultado depende da resolución vertical da predición. GraphCast ten unha resolución vertical de 37 niveis de presión que é maior que a resolución das traxectorias HRES dispoñibles con só 25 niveis de presión. Para unha comparación consistente e xusta de ambos os modelos, só usamos un subconxunto común de niveis de presión, que tamén están incluídos no índice de referencia WeatherBench, ao avaliar IvT 8, é dicir [300, 400, 500, 600, 700, 850, 925, 1000] hPa. Consistentemente co resto do noso protocolo de avaliación, cada modelo é avaliado contra a súa propia "análise". Para GraphCast, calculamos o IVT baseado nas súas predicións e comparámolo co IVT calculado de forma análoga a partir de ERA5. Do mesmo xeito que o traballo anterior [10], a Figura 44 reporta a puntuación media de habilidade e habilidade RMSE sobre a costa de Norteamérica e o Pacífico Oriental (de 180 ° W a 110 ° W de lonxitude e 10 ° N a 60 ° N de latitude) durante a tempada fría (xaneiro-abril e outubro-decembro de 2018), que corresponde a unha rexión e un período con frecuentes ríos atmosféricos. 8.3 Calor e frío extremo Estudamos a predicción de calor extremo e frío como un problema de clasificación binario [35, 32] comparando se un modelo de predicción dado pode predicir correctamente se o valor para unha variable determinada será por riba (ou por baixo) dun determinado percentil da distribución dunha climatoloxía histórica de referencia (por exemplo, por riba do percentil 98% para o calor extremo e por baixo do percentil 2% para o frío extremo). Despois do traballo anterior [35], a climatoloxía de referencia obtense por separado para (1) cada variable (2) cada mes do ano, (3) cada vez do día, (4) cada latitude / lonxitude coordenadas, e (5) cada nivel de presión (se é aplicable). Isto fai a detección de extremos máis contrastado eliminando o efecto dos ciclos estacionais e estacionais en cada localización espacial. Para manter a comparación o máis Debido a que a predición extrema é por definición un problema de clasificación desequilibrada, baseamos a nosa análise en parcelas de recall de precisión que son ben axeitadas para este caso [42]. A curva de recall de precisión obtense variando un parámetro libre "gain" consistente nun factor de escala con respecto ao valor mediano da climatoloxía, é dicir, predición escalada = ganancia × (predición − climatoloxía mediana) + climatoloxía mediana. Isto ten o efecto de mover o límite de decisión e permite estudar diferentes comercios entre falsos negativos e falsos positivos. Intuitivamente, un 0 gaña producirá positivos positivos de predición cero (por exemplo, positivos falsos cero), e un gaño infinito producirá un valor amplificado por riba do mediano Centramos a nosa análise en variables que son relevantes para as condicións de temperatura extrema, en particular 2 T [35, 32], e tamén T 850, z500 que son frecuentemente usados por ECMWF para caracterizar ondas de calor [34]. Despois do traballo anterior[32], para o calor extremo medimos en xuño, xullo e agosto sobre terra no hemisferio norte (latitude > 20◦) e en decembro, xaneiro e febreiro sobre terra no hemisferio sur (latitude < -20◦). Para o frío extremo, intercambiamos os meses para os hemisferios norte e sur. Ver resultados completos na Figura 45. Tamén proporcionamos unha comparación de tempo de condución máis fino, sumando as curvas de precisión seleccionando o punto coa maior puntuación SEDI[35] e mostrando esta función como función de condución do tempo (Figura Predición de visualizacións Nesta sección final, proporcionamos algúns exemplos de visualización das predicións feitas por GraphCast para as variables 2 T (Figura 47), 10 U (Figura 48), MsL (Figura 49), z500 (Figura 50), T 850 (Figura 51), v 500 (Figura 52), Q 700 (Figura 53). Referencias [1] Ferran Alet, Adarsh Keshav Jeewajee, Maria Bauza Villalonga, Alberto Rodriguez, Tomas Lozano-Perez e Leslie Kaelbling. Redes de elementos gráficos: computación adaptativa, estruturada e memoria. [2] Kelsey R Allen, Yulia Rubanova, Tatiana Lopez-Guevara, William Whitney, Alvaro Sanchez-Gonzalez, Peter Battaglia e Tobias Pfaff. Aprendendo dinámica ríxida con redes de gráficos de interacción cara. arXiv preprint arXiv:2212.03574, 2022. [3] Jimmy Lei Ba, Jamie Ryan Kiros e Geoffrey E. Hinton. normalización da capa. arXiv, 2016. [4] Igor Babuschkin, Kate Baumli, Alison Bell, Surya Bhupatiraju, Jake Bruce, Peter Buchlovsky, David Budden, Trevor Cai, Aidan Clark, Ivo Danihelka, Claudio Fantacci, Jonathan Godwin, Chris Jones, Ross Hemsley, Tom Hennigan, Matteo Hessel, Shaobo Hou, Steven Kapturowski, Thomas Keck, Iurii Kemaev, Michael King, Markus Kunesch, Lena Martens, Hamza Merzic, Vladimir Mikulik, Tamara Norman, John Quan, George Papamakarios, Roman Ring, Francisco Ruiz, Alvaro Sanchez, Rosalia Schneider, Eren Sezener, Stephen Spencer, Srivatsan Srinivasan, Luyu, Wangciech Wojciech Stokowiec e Fabio Viola. // github.com/deepmind en galego, 2020. [5] Peter Battaglia, Razvan Pascanu, Matthew Lai, Danilo Jimenez Rezende, et al. Interaction networks for learning about objects, relations and physics. Advances in neural information processing systems, 29, 2016. [6] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Biases inductivas relacionais, aprendizaxe profunda e redes de gráficos. arXiv preprint arXiv:1806.01261, 2018. [7] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu, and Qi Tian. Pangu-Weather: A 3D high-resolution model for fast and accurate global weather forecast. arXiv preprint arXiv:2211.02556, 2022. [8] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. The THORPEX interactive grand global ensemble. [9] James Bradbury, Roy Frostig, Peter Hawkins, Matthew James Johnson, Chris Leary, Dougal Maclaurin, George Necula, Adam Paszke, Jake VanderPlas, Skye Wanderman-Milne, e Qiao Zhang. JAX: transformacións compostables de programas Python+NumPy. http://github. com/google/jax, 2018. [10] WE Chapman, AC Subramanian, L Delle Monache, SP Xie, e FM Ralph. Mellorar as previsións do río atmosférico con aprendizaxe automática. Geophysical Research Letters, 46(17-18):10627-10635, 2019. [11] Tianqi Chen, Bing Xu, Chiyuan Zhang, e Carlos Guestrin. Formación de redes profundas con custo de memoria sublinear. arXiv preprint arXiv:1604.06174, 2016. [12] Balaji Devaraju. comprensión da filtración na esfera: experiencias da filtración de datos GRACE. tese de doutoramento, Universidade de Stuttgart, 2015. [13] J. R. Driscoll e D. M. Healy. Computing fourier transforma e convolucións na esfera 2. Adv. Appl. Math., 15(2):202–250, June 1994. Documentación IFS CY41R2 - Parte III: Dinámica e procedementos numéricos. //www.ecmwf.int/node/16647, 2016 [15] Meire Fortunato, Tobias Pfaff, Peter Wirnsberger, Alexander Pritzel, e Peter Battaglia. meshgraphnets multiescala. arXiv preprint arXiv:2210.00612, 2022. [16] Alan J Geer. Significado dos cambios nas puntuacións de previsión a mediano alcance. Tellus A: Meteoroloxía dinámica e Oceanografía, 68(1):30229, 2016. [17] Jonathan Godwin, Thomas Keck, Peter Battaglia, Victor Bapst, Thomas Kipf, Yujia Li, Kimberly Stachenfeld, Petar Veličković, e Alvaro Sanchez-Gonzalez. Jraph: Unha biblioteca para redes neurais gráficas en JAX. http://github.com/deepmind/jraph, 2020. [18] T. Haiden, Martin Janousek, Jean-Raymond Bidlot, R. Buizza, L. Ferranti, F. Prates, and Frédéric Vitart. Evaluation of ECMWF forecasts, including the 2018 upgrade. https://www.ecmwf. int/node/18746, 10/2018 2018. [19] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, Crtistina Prates, e David Richardson. Avaliación das previsións ECMWF, incluíndo a actualización de 2020. https://www.ecmwf.int/node/19879, 01/2021 2021. [20] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti e Fernando Prates. Avaliación das previsións do ECMWF, incluíndo a actualización de 2021. https://www. ecmwf.int/node/20142, 09/2021 2021. [21] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, Fernando Prates, e David Richardson. Avaliación das previsións ECMWF, incluíndo a actualización de 2021. https://www.ecmwf.int/node/20469, 09/2022 2022. [22] Thomas Haiden, Martin Janousek, Frédéric Vitart, Laura Ferranti e Fernando Prates. Avaliación das previsións do ECMWF, incluída a actualización de 2019. https://www.ecmwf.int/node/ 19277, 11/2019 2019. Tom Hennigan, Trevor Cai, Tamara Norman e Igor Babuschkin. Haiku: Sonnet para JAX. http://github.com/deepmind/dm-haiku, 2020. [24] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. A reanálise global do ERA5. Xornal trimestral da Royal Meteorological Society, 146(730):1999–2049, 2020. [25] S. Hoyer e J. Hamman. xarray: Array e conxuntos de datos etiquetados N-D en Python. Journal of Open Research Software, 5(1), 2017. [26] Ryan Keisler. Predición do tempo global con redes neurais de gráficos. arXiv preprint arXiv:2202.07575, 2022. [27] Diederik P Kingma e Jimmy Ba. Adam: Un método para a optimización estocástica. arXiv preprint arXiv:1412.6980, 2014. [28] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. International best track archive for climate stewardship (IBTrACS) proxecto, versión 4. https://doi.org/10.25921/82ty-9e16, 2018. [29] Kenneth R Knapp, Michael C Kruk, David H Levinson, Howard J Diamond, e Charles J Neumann. O mellor arquivo internacional para a xestión do clima (IBTrACS) unificando datos de ciclóns tropicais. [30] Michael C Kruk, Kenneth R Knapp, e David H Levinson. Unha técnica para combinar datos de mellor rastrexo do ciclón tropical global. [31] David H. Levinson, Howard J Diamond, Kenneth R. Knapp, Michael C. Kruk e Ethan J. Gibney. Cara a un ciclón tropical global homoxéneo. Bulletin of the American Meteorological Society, 91(3):377-380, 2010. [32] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal e Jason Hickey. previsión global de calor extremo usando modelos meteorolóxicos neurais. Intelixencia artificial para os sistemas terrestres, páxinas 1-41, 2022. [33] Ilya Loshchilov e Frank Hutter. regularización da perda de peso desconectada. arXiv preprint arXiv:1711.05101, 2017. [34] Linus Magnusson. 202208 - onda de calor - uk. https://confluence.ecmwf.int/display/ FCST/202208+-+Heatwave+-+UK, 2022. Linus Magnusson, Thomas Haiden e David Richardson. Verificación de eventos meteorolóxicos extremos: predictores discretos. [36] S. Malardel, Nils Wedi, Willem Deconinck, Michail Diamantakis, Christian Kuehnlein, G. Mozdzynski, M. Hamrud, e Piotr Smolarkiewicz. Unha nova grella para o IFS. https: //www.ecmwf.int/node/17262, 2016 [37] Benjamin J Moore, Paul J Neiman, F Martin Ralph, e Faye E Barthold. Procesos físicos asociados con precipitacións de inundacións pesadas en Nashville, Tennessee, e os seus arredores durante o 1–2 de maio de 2010: O papel dun río atmosférico e sistemas convectivos de mesocaloría. [38] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist, e Michael D Dettinger. características meteorolóxicas e impactos de precipitación terrestre dos ríos atmosféricos que afectan á costa oeste de Norteamérica baseados en oito anos de observacións por satélite. [39] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez e Peter Battaglia. Aprendizaxe de simulación baseada na rede con redes de gráficos. Prajit Ramachandran, Barret Zoph, e Quoc V Le. Buscando funcións de activación. arXiv preprint arXiv:1710.05941, 2017. [41] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid, e Nils Thuerey. WeatherBench: un conxunto de datos de referencia para a previsión meteorolóxica baseada en datos. Journal of Advances in Modeling Earth Systems, 12(11):e2020MS002203, 2020. [42] Takaya Saito e Marc Rehmsmeier. A trama de recall de precisión é máis informativa que a trama ROC ao avaliar os clasificadores binarios en conxuntos de datos desequilibrados. [43] Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec, e Peter Battaglia. Aprender a simular a física complexa con redes de gráficos. [44] B. D. Santer, R. Sausen, T. M. L. Wigley, J. S. Boyle, K. AchutaRao, C. Doutriaux, J. E. Hansen, G. A. Meehl, E. Roeckner, R. Ruedy, G. Schmidt e K. E. Taylor. Comportamento da altura tropopáusica e da temperatura atmosférica en modelos, reanálises e observacións: cambios decaduais. [45] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M Hamill, Tim D Hewson, Julia H Keller, Mio Matsueda, John Methven, Florian Pappenberger, et al. O proxecto TIGGE e os seus logros. [46] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson, e Munehiko Yamaguchi. O proxecto TIGGE e os seus logros. Boletín da Sociedade Meteorolóxica Americana, 97(1):49 – 67, 2016. [47] Harvey Thurm Taylor, Bill Ward, Mark Willis, e Walt Zaleski. A escala do vento do furacán Saffir-Simpson. Administración atmosférica: Washington, DC, EUA, 2010. [48] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, e Illia Polosukhin. Atención é todo o que necesitas. Avances en sistemas de procesamento de información neural, 30, 2017. [49] Petar Veličković, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio, e Yoshua Bengio. Redes de atención gráfica. arXiv preprint arXiv:1710.10903, 2017. Este artigo está dispoñible en arquivo baixo a licenza CC by 4.0 Deed (Attribution 4.0 International). Este artigo está dispoñible en arquivo baixo a licenza CC by 4.0 Deed (Attribution 4.0 International).