Los autores: Remi Lam (Google DeepMind) Alvaro Sanchez-Gonzalez (Google DeepMind) Matthew Willson (Google DeepMind) Peter Wirnsberger (Google DeepMind) Meire Fortunato (Google DeepMind) Ferran Alet (Google DeepMind) Suman Ravuri (Google DeepMind) Timo Ewalds (Google DeepMind) Zach Eaton-Rosen (Google DeepMind) Weihua Hu (Google DeepMind) Alexander Merose (Google Research) Stephan Hoyer (Google Research) George Holland (Google DeepMind) Oriol Vinyals (Google DeepMind) Jacklynn Stott (Google DeepMind) Alexander Pritzel (Google DeepMind) Shakir Mohamed (Google DeepMind) Peter Battaglia (Google DeepMind) Los autores: Remi Lam (Google DeepMind) Álvaro Sánchez-Gonzalez (Google DeepMind) Matthew Willson (DeepMind de Google) Peter Wirnsberger (en Google DeepMind) Más sobre Meire Fortunato (Google DeepMind) Ferran Alet (Google DeepMind) Suman Ravuri (Google DeepMind) Timo Ewalds (Google DeepMind) Zach Eaton-Rosen por Google DeepMind Guaidó (Google DeepMind) Alexander Merose (Investigación de Google) Stephan Hoyer (Investigación de Google) George Holland (Google DeepMind) Vínculos de Oriol (Google DeepMind) Jacklynn Stott (DeepMind de Google) Alexander Pritzel (Google DeepMind) (en inglés) Shakir Mohamed (Google DeepMind) Peter Battaglia (Google DeepMind) La predicción meteorológica numérica tradicional utiliza mayores recursos computacionales para mejorar la precisión de las previsiones, pero no puede utilizar directamente los datos meteorológicos históricos para mejorar el modelo subyacente. Introducimos un método basado en el aprendizaje automático llamado “GraphCast”, que puede ser entrenado directamente a partir de los datos de reanálisis. Predice cientos de variables meteorológicas, durante 10 días a una resolución de 0,25° en todo el mundo, en menos de un minuto. Mostramos que GraphCast supera significativamente los sistemas determinísticos operativos más precisos en el 90% de los objetivos de verificación de 1380, y sus previsiones apoyan mejor la predicción de eventos severos, incluyendo ciclones tropicales, ríos atmosféricos y temperaturas extremas. Palabras clave: predicción del tiempo, ECMWF, ERA5, HRES, simulación de aprendizaje, redes neuronales gráficas Introducción Es 05:45 UTC a mediados de octubre de 2022, en Bolonia, Italia, y la nueva instalación de computación de alto rendimiento del Centro Europeo de Previsión del Tiempo de Mediano Rango (ECMWF) acaba de comenzar a funcionar. Durante las últimas horas, el Sistema Integrado de Previsión (IFS) ha estado ejecutando cálculos sofisticados para predecir el clima de la Tierra en los próximos días y semanas, y sus primeras predicciones han comenzado a ser difundidas a los usuarios. La dinámica de los sistemas meteorológicos se encuentra entre los fenómenos físicos más complejos de la Tierra, y cada día, innumerables decisiones tomadas por individuos, industrias y responsables políticos dependen de previsiones meteorológicas precisas, de decidir si usar una chaqueta o escapar de una tormenta peligrosa. El enfoque dominante para la predicción del tiempo hoy en día es la “predicción del tiempo numérico” (NWP), que implica resolver las ecuaciones gobernantes del tiempo utilizando superordenadores. El éxito de la NWP radica en las prácticas de investigación rigurosas y continuas que proporcionan descripciones cada vez más detalladas de los fenómenos meteorológicos, y cómo las escalas NWP alcanzan una mayor precisión con mayores recursos computacionales [3, 2]. Como resultado, la precisión de las previsiones meteor Pero mientras que el NWP tradicional escala bien con la computación, su precisión no mejora con el aumento de cantidades de datos históricos.Existen vastos archivos de datos meteorológicos y climatológicos, por ejemplo, el MARS del ECMWF [17], pero hasta hace poco hay pocos medios prácticos para utilizar tales datos para mejorar directamente la calidad de los modelos de predicción. La predicción del tiempo basada en el aprendizaje automático (MLWP) ofrece una alternativa a la NWP tradicional, donde los modelos de predicción se entrenan directamente a partir de datos históricos. Esto tiene el potencial de mejorar la exactitud de la predicción al capturar patrones y escalas en los datos que no se representan fácilmente en ecuaciones explícitas. MLWP también ofrece oportunidades para una mayor eficiencia al explotar el hardware de aprendizaje profundo moderno, en lugar de los superordenadores, y alcanzar compromisos de precisión de velocidad más favorables. Recientemente, MLWP ha ayudado a mejorar la predicción basada en NWP en regímenes donde el NWP tradicional es relativamente débil, por ejemplo, la predicción de ondas de calor subseñales [16] y las precipitaciones ahora En la predicción del tiempo a mediano alcance, es decir, la predicción de las variables atmosféricas hasta 10 días antes, los sistemas basados en NWP como el IFS siguen siendo los más precisos. El sistema operativo determinista más importante en el mundo es la predicción de alta resolución (HRES) de ECMWF, un componente de IFS que produce predicciones globales de 10 días a una resolución de 0,1° latitud/longitud, en alrededor de una hora [27]. Sin embargo, durante los últimos años, los métodos de MLWP para la predicción a mediano alcance han avanzado constantemente, facilitado por benchmarks como el WeatherBench [27]. Las arquitecturas de aprendizaje profundo basadas en redes neuronales convolucionales [35, 36, 28] y Transformers [24] han mostrado resultados promet Gráfico Aquí presentamos un nuevo enfoque MLWP para la previsión meteorológica global de mediano alcance llamado “GraphCast”, que produce una previsión precisa de 10 días en menos de un minuto en un solo dispositivo Google Cloud TPU v4, y soporta aplicaciones incluyendo la predicción de las pistas de ciclones tropicales, ríos atmosféricos y temperaturas extremas. GraphCast toma como entrada los dos estados más recientes del clima de la Tierra —la hora actual y seis horas antes— y predice el próximo estado del clima seis horas antes. Un estado meteorológico único es representado por una red de 0,25° latitud/longitud (721 × 1440), que corresponde a aproximadamente la resolución de 28 × 28 kilómetros en el ecuador (Figura 1a), donde cada punto de la red representa un conjunto de variables de superficie y atmósfera (enumeradas en la Tabla 1). Al igual que los sistemas NWP tradicionales, GraphCast es autorregresivo: se puede “rollar” alimentando sus propias predicciones como entrada, para generar una trayectoria arbitrariamente larga de estados meteorológicos (Figura 1b–c). GraphCast se implementa como una arquitectura de red neural, basada en GNNs en una configuración de "código-proceso-decodificación" [1], con un total de 36,7 millones de parámetros. simuladores aprendidos previos basados en GNN [31, 26] han sido muy eficaces en el aprendizaje de la dinámica compleja de fluidos y otros sistemas modelados por ecuaciones diferenciales parciales, lo que apoya su idoneidad para modelar la dinámica del tiempo. El codificador (Figura 1d) utiliza una única capa de GNN para mapear las variables (normalizadas a varianza de unidad media cero) representadas como atributos de nodo en la red de entrada a los atributos de nodo aprendidos en una representación interna de "multi-mesh". El multi-mesh (Figura 1g) es un gráfico que es espacialmente homogéneo, con alta resolución espacial en todo el globo. Se define refinando un icosahedron regular (12 nodos, 20 caras, 30 bordes) iterativamente seis veces, donde cada refinamiento divide cada triángulo en cuatro más pequeños (conducido a cuatro veces más caras y bordes), y reproyectando los nodos en la esfera. El multi-mesh contiene los nodos 40,962 de la más alta resolución de la malla, y la unión de todos los bordes creados en los gráficos intermedios, formando una jerarquía plana de bordes con longitudes variables. El procesador (Figura 1e) utiliza 16 capas de GNN no compartidas para realizar mensajes aprendidos en la multi-mesh, permitiendo una propagación eficiente de información local y de largo alcance con pocos pasos de mensajes. El decodificador (Figura 1f) mapea las características aprendidas de la capa del procesador final desde la representación multi-mesh de vuelta a la red de latitud-longitud. utiliza una única capa GNN, y predice la salida como una actualización residual al estado de entrada más reciente (con normalización de la salida para alcanzar la unidad-varianza en el residuo objetivo). Durante el desarrollo del modelo, utilizamos 39 años (1979-2017) de datos históricos del archivo de reanálisis ERA5 [10] de la ECMWF. Como objetivo de entrenamiento, medimos el error medio cuadrado (MSE) ponderado por nivel vertical. El error fue calculado entre el estado predicado de GraphCast y el estado ERA5 correspondiendo a los pasos autorregresivos N. El valor de N se incrementó incrementalmente de 1 a 12 (es decir, seis horas a tres días) durante el curso de entrenamiento. GraphCast se formó para minimizar el objetivo de entrenamiento utilizando descenso gradiente y retropropagación. El entrenamiento de GraphCast tomó aproximadamente cuatro semanas en dispositivos de Cloud 32 TPU v4 utilizando paralelismo de batch. En consonancia con los escenarios de implementación reales, donde la información futura no está disponible para el desarrollo de modelos, evaluamos GraphCast sobre los datos expuestos a partir de los años 2018 a partir (ver Suplemento Sección 5.1). Métodos de verificación Verificamos la habilidad de predicción de GraphCast de forma exhaustiva comparando su exactitud con la de HRES en un gran número de variables, niveles y tiempos de paso. Cuantificamos las respectivas habilidades de las líneas de base de GraphCast, HRES y ML con dos métricas de habilidad: el error medio cuadrado raíz (RMSE) y el coeficiente de correlación de anomalías (ACC). De las 227 combinaciones de variables y niveles predichas por GraphCast en cada punto de la red, evaluamos su habilidad frente a HRES en 69 de ellas, correspondientes a los 13 niveles de WeatherBench[27] y variables de la ECMWF Scorecard [9]; véase las variables y niveles de boldface en la Tabla 1 y la Sección 1.2 de Suplementos para las que el ciclo HRES estaba operativo durante el período de evaluación. Nota, excluimos la precipitación total de la evaluación porque los datos de precipitación de ERA5 tienen bias conocidas [15]. Además del rendimiento agregado reportado en el texto principal, la Sección 7 de Suplementos proporciona evaluaciones más detalladas, incluyendo otras variables, rendimiento regional, efectos de latitud y nivel de presión, propiedades espectrales, des Al hacer estas comparaciones, dos opciones clave se basan en cómo se establece la habilidad: (1) la selección de la verdad de fondo para la comparación, y (2) una cuidadosa contabilización de las ventanas de asimilación de datos utilizadas para fundir datos con observaciones. Utilizamos ERA5 como verdad de fondo para evaluar GraphCast, ya que fue entrenado para tomar los datos de ERA5 como entrada y predecir los datos de ERA5 como salida. Sin embargo, la evaluación de las predicciones de HRES contra ERA5 resultaría en un error no cero en el paso de predicción inicial. En su lugar, construimos un conjunto de datos “PREGNACIÓN DE HRES en el paso 0” (HRES-fc0) para usar como verdad de fondo para HRES. HRES-fc0 contiene las entradas a las previsiones Debido a la naturaleza de los datos de previsiones meteorológicas, esto requiere un control cuidadoso de las diferencias entre las ventanas de asimilación de datos ERA5 y HRES. Cada día, HRES asimila observaciones utilizando cuatro ventanas +/-3h centradas en 00z, 06z, 12z y 18z (donde 18z significa 18:00 UTC), mientras que ERA5 utiliza dos ventanas +9h/-3h centradas en 00z y 12z, o equivalente a dos ventanas +3h/-9h centradas en 06z y 18z. Elegimos evaluar las previsiones de GraphCast de las inicializaciones 06z y 18z, asegurando que sus entradas lleven información de +3h de observaciones futuras, coincidiendo con las mismas entradas de HRES. No evaluamos GraphCast de las inicializaciones Las predicciones de HRES inicializadas en 06z y 18z solo se ejecutan durante un horizonte de 3,75 días (las inicializaciones de HRES 00z y 12z se ejecutan durante 10 días). por lo tanto, nuestras cifras indicarán una transición con línea dashed, donde los 3,5 días antes de la línea son comparaciones con HRES inicializadas en 06z y 18z, y después de la línea son comparaciones con inicializaciones en 00z y 12z. Resultados de la verificación de previsiones Descubrimos que GraphCast tiene mayor capacidad de predicción del tiempo que HRES cuando se evalúa en pronósticos de 10 días a una resolución horizontal de 0,25° para latitud/longitud y a 13 niveles verticales. La Figura 2a-c muestra cómo GraphCast (líneas azules) supera HRES (líneas negras) en el campo z500 (geopotencia a 500 hPa) “headline” en términos de habilidad RMSE, puntuación de habilidad RMSE (es decir, la diferencia de RMSE normalizada entre el modelo A y la línea de base B definida como (RMSEA − RMSEB)/RMSEB), y habilidad de ACC. El uso de z500, que codifica la distribución de presión a escala sinóptica, es común en la literatura, ya que tiene una fuerte importancia meteorológica [27]. Las parcelas muestran que GraphCast tiene mejores puntuaciones de habilidad en todos los tiempos de conducción, con una mejora de puntuación de habilidad de alrededor del 7-14%. La Figura 2d resume las puntuaciones de habilidad RMSE para todas las 1380 variables evaluadas y los niveles de presión, a lo largo de las previsiones de 10 días, en un formato análogo al ECMWF Scorecard. Los colores de las células son proporcionales a la puntuación de habilidad, donde el azul indica que GraphCast tenía mejor habilidad y el rojo indica que HRES tenía mayor habilidad. GraphCast superó HRES en el 90,3% de los objetivos de 1380, y significativamente (p ≤ 0,05, tamaño de muestra nominal n ∈ {729, 730}) superó HRES en el 89,9% de los objetivos. Las regiones de la atmósfera en las que HRES tuvo un mejor desempeño que GraphCast (las filas superiores en rojo en las tarjetas de puntuación), se localizaron desproporcionadamente en la estratosfera, y tenían el peso de pérdida de entrenamiento más bajo (ver Suplemento Sección 7.2.2). Cuando se excluye el nivel de 50 hPa, GraphCast supera significativamente HRES en el 96,9% de los objetivos restantes de 1280. Cuando se excluye los niveles de 50 y 100 hPa, GraphCast supera significativamente HRES en el 99,7% de los objetivos restantes de 1180. Descubrimos que aumentar el número de pasos auto-regresivos en la pérdida de MSE mejora el rendimiento de GraphCast en tiempos de conducción más largos (véase la Sección 7.3.2) y lo anima a expresar su incertidumbre mediante la predicción de salidas suavizadas espacialmente, lo que conduce a predicciones más borrosas en tiempos de conducción más largos (véase la Sección 7.5.3 de los Suplementos). Las ecuaciones físicas subyacentes de HRES, sin embargo, no conducen a predicciones borrosas. Para evaluar si se mantiene la ventaja relativa de GraphCast sobre HRES en RMSE si HRES también está autorizado a borrar sus predicciones, ajustamos los filtros borrosos a GraphCast y HRES, minimizando También comparamos el rendimiento de GraphCast con el modelo meteorológico más competitivo basado en ML, Pangu-Weather [4], y encontramos que GraphCast lo superó en el 99,2% de los 252 objetivos que presentaron (ver Suplementos Sección 6 para más detalles). Resultados de la previsión de eventos severos Además de evaluar la capacidad de predicción de GraphCast frente a HRES en una amplia gama de variables y tiempos de conducción, también evaluamos cómo sus predicciones apoyan la predicción de eventos severos, incluyendo ciclones tropicales, ríos atmosféricos y temperaturas extremas. Rutas de ciclones tropicales La mejora de la exactitud de las predicciones de ciclones tropicales puede ayudar a evitar lesiones y pérdidas de vidas, así como reducir el daño económico [21]. La existencia, fuerza y trayectoria de un ciclón se predijo aplicando un algoritmo de seguimiento a las predicciones de la trayectoria del ciclón (z), el viento horizontal (10 U/10 v, U/v) y la presión media en el nivel del mar (MsL). Implementamos un algoritmo de seguimiento basado en los mismos protocolos publicados por la ECMWF [20] y lo aplicamos a las predicciones de GraphCast, para producir predicciones de la trayectoria del ciclón (ver Suplementos Sección 8.1). Como línea de base para la comparación, utilizamos las pistas operativas obtenidas La Figura 3a muestra que GraphCast tiene un error de seguimiento mediano más bajo que HRES durante 2018-2021. Como los errores por pista para HRES y GraphCast están correlacionados, también medimos la diferencia de error parido por pista entre los dos modelos y encontramos que GraphCast es significativamente mejor que HRES para el tiempo de conducción de 18 horas a 4,75 días, como se muestra en la Figura 3b. Los ríos atmosféricos Los ríos atmosféricos son regiones estrechas de la atmósfera que son responsables de la mayoría del transporte de vapor de agua polarizado a través de las latitudes medias, y generan el 30%-65% de precipitaciones anuales en la costa oeste de Estados Unidos [6]. Su fuerza puede caracterizarse por el transporte de vapor de agua verticalmente integrado IvT [23, 22], indicando si un evento proporcionará precipitaciones beneficiosas o estar asociado con daños catastróficos [7]. El IvT se puede calcular a partir de la combinación no lineal de la velocidad del viento horizontal (U y v) y la humedad específica (Q), que predice GraphCast. Evaluamos las previsiones de GraphCast sobre el transporte de vapor de agua costero en Norteamérica y el Pacífico oriental durante los meses fríos ( Calor extremo y frío El calor extremo y el frío se caracterizan por grandes anomalías con respecto a la climatología típica [19, 16, 18], que pueden ser peligrosas y interrumpir las actividades humanas. Valoramos la habilidad de HRES y GraphCast en predecir eventos por encima del top 2% de la climatología en toda la ubicación, hora del día y mes del año, para 2 T en tiempos de 12 horas, 5 días y 10 días, para regiones terrestres en el hemisferio norte y sur durante los meses de verano. Planificamos curvas de recuerdo de precisión [30] para reflejar posibles diferentes compromisos entre la reducción de falsos positivos (alta precisión) y la reducción de falsos negativos (alta recogida). Para cada predicción, obtenemos la curva por una escala variable de parámetros La figura 3d muestra que las curvas de recogida de precisión de GraphCast están por encima de las de HRES para los tiempos de conducción de 5 y 10 días, lo que sugiere que las predicciones de GraphCast son generalmente superiores a las de HRES en la clasificación extrema sobre horizontes más largos. Por el contrario, HRES tiene mejor recogida de precisión en el tiempo de conducción de 12 horas, lo que es consistente con la puntuación de habilidad de 2 T de GraphCast sobre HRES que está cerca de cero, como se muestra en la Figura 2d. En general, encontramos que estos resultados son consistentes en otras variables relacionadas con el calor extremo, como T 850 y z500 [18], otros umbrales extremos (5%, 2% y 0,5%), y las previsiones de frío extremo Efecto de los datos de formación reciente GraphCast puede ser re-entrenado periódicamente con datos recientes, lo que en principio le permite capturar patrones meteorológicos que cambian con el tiempo, como el ciclo ENSO y otras oscilaciones, así como los efectos del cambio climático. Hemos entrenado cuatro variantes de GraphCast con datos que siempre comenzaron en 1979, pero terminaron en 2017, 2018, 2019 y 2020, respectivamente (marcamos la variante que termina en 2017 como “GraphCast:<2018”, etc.). La Figura 4 muestra las puntuaciones de habilidad (normalizadas por GraphCast:<2018) de las cuatro variantes y HRES, para z500. encontramos que mientras que el rendimiento de GraphCast cuando se entrenó hasta antes de 2018 sigue siendo competitivo con HRES en 2021, entrenarlo hasta antes de 2021 mejora aún más sus puntuaciones de habilidad (ver Suplementos Sección 7.1.3). Especulamos que este efecto reciente permite capturar tendencias meteorológicas recientes para mejorar la precisión. Conclusiones La habilidad y la eficiencia de la predicción de GraphCast en comparación con HRES demuestran que los métodos MLWP son ahora competitivos con los métodos tradicionales de predicción del tiempo. Además, el rendimiento de GraphCast en la predicción de eventos severos, para la cual no se ha entrenado directamente, demuestra su robustez y el potencial para el valor descendente. Creemos que esto marca un punto de inflexión en la predicción del tiempo, que ayuda a abrir nuevas vías para reforzar la amplitud de la toma de decisiones dependiente del clima por parte de individuos y industrias, haciendo la predicción barata más precisa, más accesible y adecuada para aplicaciones específicas. Con 36,7 millones de parámetros, GraphCast es un modelo relativamente pequeño por los estándares modernos de ML, elegido para mantener la huella de memoria tractable. Y mientras que HRES se lanza en resolución de 0,1 °, 137 niveles, y hasta 1 hora de pasos de tiempo, GraphCast operó en resolución de latitud-longitud de 0,25 °, 37 niveles verticales y 6 horas de pasos de tiempo, debido a la resolución nativa de 0,25 ° de los datos de entrenamiento de ERA5, y los desafíos de ingeniería en el ajuste de datos de mayor resolución en el hardware. En general, GraphCast debe ser visto como una familia de modelos, con la versión actual siendo la mayor que podemos practicamente encajar bajo las restricciones de ingeniería actuales, pero que tienen el potencial de escalar mucho más en el futuro con mayores recursos Una limitación clave de nuestro enfoque es la forma en que se maneja la incertidumbre. Nos enfocamos en las predicciones deterministas y en comparación con HRES, pero el otro pilar del IFS de ECMWF, el sistema de predicción de conjunto, ENS, es especialmente importante para las predicciones de 10+ días. La no linealidad de la dinámica del tiempo significa que hay un aumento de la incertidumbre en los tiempos de conducción más largos, lo que no es bien capturado por una única predicción determinista. ENS aborda esto generando predicciones estocásticas múltiples, que modelan la distribución empírica del clima futuro, pero la generación de predicciones múltiples es costosa. Por el contrario, el objetivo de formación MSE de GraphCast lo alienta a expresar su incertidumbre des Es importante subrayar que el MLWP basado en datos depende críticamente de grandes cantidades de datos de alta calidad, asimilados a través del NWP, y que las fuentes de datos ricas como el archivo MARS de ECMWF son inestimables. Por lo tanto, nuestro enfoque no debe ser considerado como un sustituto para los métodos tradicionales de predicción del tiempo, que se han desarrollado durante décadas, se han probado rigurosamente en muchos contextos del mundo real, y ofrecen muchas características que aún no hemos explorado. Beyond weather forecasting, GraphCast can open new directions for other important geo-spatiotemporal forecasting problems, including climate and ecology, energy, agriculture, and human and biological activity, as well as other complex dynamical systems. We believe that learned simulators, trained on rich, real-world data, will be crucial in advancing the role of machine learning in the physical sciences. Disponibilidad de datos y materiales El código de GraphCast y los pesos entrenados están disponibles públicamente en github https://github.com/ deepmind/graphcast. Este trabajo utilizó datos disponibles públicamente del Centro Europeo para la Predición de Rango Medio (ECMWF). Utilizamos los productos de archivo ECMWF (expirado en tiempo real) para productos ERA5, HRES y TIGGE, cuyo uso se rige por la Creative Commons Attribution 4.0 Internacional (CC BY 4.0). Utilizamos IBTrACS versión 4 de https://www.ncei.noaa.gov/ productos/internacional-best-track-archive y referencia [13, 12] como se requiere. La textura de la Tierra en la figura 1 se utiliza bajo CC BY 4.0 de https://www.solarsystemscope.com/ textures/. Reconocimientos En orden alfabético, agradecemos a Kelsey Allen, Charles Blundell, Matt Botvinick, Zied Ben Bouallegue, Michael Brenner, Rob Carver, Matthew Chantry, Marc Deisenroth, Peter Deuben, Marta Garnelo, Ryan Keisler, Dmitrii Kochkov, Christopher Mattern, Piotr Mirowski, Peter Norgaard, Ilan Price, Chongli Qin, Sébastien Racanière, Stephan Rasp, Yulia Rubanova, Kunal Shah, Jamie Smith, Daniel Worrall, y a innumerables otros en Alphabet y ECMWF por sus consejos y comentarios sobre nuestro trabajo. También agradecemos a ECMWF por proporcionar conjuntos de datos invaluables a la comunidad de investigación. El estilo del párrafo de apertura fue inspirado por D. Fan et al., Science Robotics Referencias [1] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Preprint arXiv:1806.01261, 2018. [2] P. Bauer, A. Thorpe, y G. Brunet. La revolución silenciosa de la predicción climática numérica. [3] Stanley G Benjamin, John M Brown, Gilbert Brunet, Peter Lynch, Kazuo Saito, y Thomas W Schlatter. 100 años de progreso en la predicción y aplicaciones de NWP. Monografías meteorológicas, 59:13–1, 2019. [4] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu y Qi Tian. Pangu-Weather: Un modelo 3D de alta resolución para una previsión climática global rápida y precisa. arXiv preprint arXiv:2211.02556, 2022. [5] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. The THORPEX interactive grand global ensemble. [6] WE Chapman, AC Subramanian, L Delle Monache, SP Xie, y FM Ralph. Mejorar las predicciones del río atmosférico con el aprendizaje automático. Geophysical Research Letters, 46(17-18):10627–10635, 2019. [7] Thomas W Corringham, F Martin Ralph, Alexander Gershunov, Daniel R Cayan, y Cary A Talbot. Los ríos atmosféricos provocan daños por inundaciones en el oeste de Estados Unidos. Avances científicos, 5(12):eaax4631, 2019. [8] Lasse Espeholt, Shreya Agrawal, Casper Sønderby, Manoj Kumar, Jonathan Heek, Carla Bromberg, Cenk Gazen, Rob Carver, Marcin Andrychowicz, Jason Hickey, et al. Aprendizaje profundo para predicciones de precipitaciones de doce horas. Comunicaciones de la naturaleza, 13(1):1–10, 2022. [9] T Haiden, Martin Janousek, J Bidlot, R Buizza, Laura Ferranti, F Prates y F Vitart. Evaluación de las previsiones del ECMWF, incluida la actualización de 2018. [10] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. El reanálisis global de la ERA5. Revista trimestral de la Royal Meteorological Society, 146(730):1999–2049, 2020. [11] Ryan Keisler. Predicción del tiempo global con redes neuronales de gráficos. arXiv preprint arXiv:2202.07575, 2022. [12] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. International best track archive for climate stewardship (IBTrACS) proyecto, versión 4. https: //doi.org/10.25921/82ty-9e16, 2018. [13] Kenneth R Knapp, Michael C Kruk, David H Levinson, Howard J Diamond, y Charles J Neumann. El mejor archivo internacional para la gestión del clima (IBTrACS) unificando datos de ciclones tropicales. [14] Thorsten Kurth, Shashank Subramanian, Peter Harrington, Jaideep Pathak, Morteza Mardani, David Hall, Andrea Miele, Karthik Kashinath, y Animashree Anandkumar. FourCastNet: Acelerar la previsión climática global de alta resolución utilizando operadores neuronales adaptativos de cuatro dimensiones. arXiv preprint arXiv:2208.05419, 2022. [15] David A Lavers, Adrian Simmons, Freja Vamborg, y Mark J Rodwell. Una evaluación de la precipitación ERA5 para el monitoreo del clima. Revista trimestral de la Royal Meteorological Society, 148(748):3152–3165, 2022. [16] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal y Jason Hickey. predicción de calor extremo global utilizando modelos meteorológicos neuronales. Inteligencia artificial para los sistemas terrestres, páginas 1-41, 2022. [17] Carsten Maass y Esperanza Cuartero. documentación de usuario de MARS. https://confluence. ecmwf.int/display/UDOC/MARS+user+documentation, 2022. [18] Linus Magnusson. 202208 - onda de calor - uk. https://confluence.ecmwf.int/display/ FCST/202208+-+Heatwave+-+UK, 2022. [19] Linus Magnusson, Thomas Haiden, y David Richardson. Verificación de eventos meteorológicos extremos: predictores discretos. [20] Linus Magnusson, Sharanya Majumdar, Rebecca Emerton, David Richardson, Magdalena Alonso-Balmaseda, Calum Baugh, Peter Bechtold, Jean Bidlot, Antonino Bonanni, Massimo Bonavita, et al. Actividades del ciclón tropical en el ECMWF. Memorándum Técnico del ECMWF, 2021. [21] Andrew B Martinez. Precisión exactitud importa para el daño huracán. Econometrics, 8(2):18, 2020. [22] Benjamin J Moore, Paul J Neiman, F Martin Ralph, y Faye E Barthold. Procesos físicos asociados con precipitaciones de inundaciones pesadas en Nashville, Tennessee, y sus alrededores durante el 1–2 de mayo de 2010: El papel de un río atmosférico y sistemas convectivos de mesoscala. [23] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist, y Michael D Dettinger. Características meteorológicas y impactos de precipitación en la superficie de los ríos atmosféricos que afectan a la costa oeste de América del Norte basados en ocho años de observaciones por satélite ssm/i. Journal of Hydrometeorology, 9(1):22-47, 2008. [24] Tung Nguyen, Johannes Brandstetter, Ashish Kapoor, Jayesh K Gupta, y Aditya Grover. ClimaX: Un modelo de fundación para el clima y el clima. arXiv preprint arXiv:2301.10343, 2023. [25] Jaideep Pathak, Shashank Subramanian, Peter Harrington, Sanjeev Raja, Ashesh Chattopad-hyay, Morteza Mardani, Thorsten Kurth, David Hall, Zongyi Li, Kamyar Azizzadenesheli, et al. Fourcastnet: Un modelo climático global de alta resolución basado en datos utilizando operadores neuronales adaptativos de cuatro dimensiones. arXiv preprint arXiv:2202.11214, 2022. [26] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez, y Peter Battaglia. Aprendizaje de simulación basada en redes de gráficos. En la Conferencia Internacional sobre Representaciones de Aprendizaje, 2021. [27] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid, y Nils Thuerey. WeatherBench: un conjunto de datos de referencia para las previsiones meteorológicas basadas en datos. Journal of Advances in Modeling Earth Systems, 12(11):e2020MS002203, 2020. [28] Stephan Rasp y Nils Thuerey. predicción meteorológica de alcance medio basada en datos con un resnet pre-entrenado en simulaciones climáticas: un nuevo modelo para el banco meteorológico. Journal of Advances in Modeling Earth Systems, 13(2):e2020MS002405, 2021. [29] Suman Ravuri, Karel Lenc, Matthew Willson, Dmitry Kangin, Remi Lam, Piotr Mirowski, Megan Fitzsimons, Maria Athanassiadou, Sheleem Kashem, Sam Madge, et al. Precipitación habilidosa ahoracasting utilizando modelos generativos profundos de radar. Nature, 597(7878):672–677, 2021. [30] Takaya Saito y Marc Rehmsmeier. La trama de recogida de precisión es más informativa que la trama ROC cuando se evalúan los clasificadores binarios en conjuntos de datos desequilibrados. PloS uno, 10(3):e0118432, 2015. [31] Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec, y Peter Battaglia. Aprender a simular física compleja con redes de gráficos. En la Conferencia Internacional sobre Aprendizaje de Máquinas, páginas 8459-8468. PMLR, 2020. [32] Xingjian Shi, Zhihan Gao, Leonard Lausen, Hao Wang, Dit-Yan Yeung, Wai-kin Wong, y Wang-chun Woo. Aprendizaje profundo para la acumulación de precipitaciones: un punto de referencia y un nuevo modelo. Avances en sistemas de procesamiento de información neural, 30, 2017. [33] Casper Kaae Sønderby, Lasse Espeholt, Jonathan Heek, Mostafa Dehghani, Avital Oliver, Tim Salimans, Shreya Agrawal, Jason Hickey, y Nal Kalchbrenner. Metnet: Un modelo climático neural para la predicción de precipitaciones. arXiv preprint arXiv:2003.12140, 2020. [34] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson, y Munehiko Yamaguchi. El proyecto TIGGE y sus logros. Boletín de la Sociedad Meteorológica Americana, 97(1):49 – 67, 2016. [35] Jonathan A Weyn, Dale R Durran, y Rich Caruana. ¿Pueden las máquinas aprender a predecir el tiempo? Usando el aprendizaje profundo para predecir la altura geo-potencial de 500 hPa a partir de datos meteorológicos históricos. [36] Jonathan A Weyn, Dale R Durran, y Rich Caruana. Mejorar la predicción climática global basada en datos utilizando redes neuronales profundas convolucionales en una esfera cúbica. 1 Datos En esta sección, damos una visión general de los datos que utilizamos para entrenar y evaluar GraphCast (Sección de Suplementos 1.1), los datos que definen las predicciones de la línea de base de NWP HRES, así como HRES-fc0, que utilizamos como verdad de terreno para HRES (Sección de Suplementos 1.2). Hemos construido múltiples conjuntos de datos para la formación y la evaluación, compuestos por subconjuntos de archivos de datos de ECMWF e IBTrACS [29, 28]. Generalmente distinguimos entre los datos de origen, a los que nos referimos como “archivo” o “datos archivados”, y los conjuntos de datos que hemos construido a partir de estos archivos, a los que nos referimos como “datasets”. 1.1 Edad 5 Para la formación y evaluación de GraphCast, construimos nuestros conjuntos de datos a partir de un subconjunto del archivo ERA5 [24]1 de ECMWF, que es un gran corpus de datos que representa el clima global desde 1959 hasta el presente, a 0,25° latitud/longitud resolución, y incrementos de 1 hora, para cientos de variables estáticas, superficiales y atmosféricas. El archivo ERA5 se basa en el reanálisis, que utiliza el modelo HRES de ECMWF (ciclo 42r1) que fue operativo durante la mayor parte de 2016 (ver Tabla 3), dentro del sistema de asimilación de datos 4D-Var de ECMWF. ERA5 asimiló ventanas de 12 horas de observaciones, desde 21z-09z y 09z-21z, así como previsiones anteriores, en una Nuestro conjunto de datos ERA5 contiene un subconjunto de variables disponibles en el archivo ERA5 de la ECMWF (Tabla 2), en 37 niveles de presión: 1, 2, 3, 5, 7, 10, 20, 30, 50, 70, 100, 125, 150, 175, 200, 225, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 775, 800, 825, 850, 875, 900, 925, 950, 975, 1000 hPa. El rango de años incluidos fue 1979-01-01 a 2022-01-10, que fueron desmontables a intervalos de tiempo de 6 horas (correspondentes a 00z, 06z, 12z y 18z cada día). 1.2 Los gritos La evaluación de la línea de base del modelo HRES requiere dos conjuntos de datos separados, a saber, los datos de pronóstico y los datos de verdad en el terreno, que se resumen en las subsecciones siguientes. HRES es generalmente considerado como el modelo meteorológico determinista más preciso basado en NWP en el mundo, por lo que para evaluar la línea de partida de HRES, construimos un conjunto de datos de las previsiones históricas archivadas de HRES. HRES es actualizado regularmente por ECMWF, por lo que estas previsiones representan el modelo HRES más reciente en el momento en que se hicieron las previsiones. Las previsiones se descargaron en su representación nativa (que utiliza armonías esféricas y una red octaedral reducida de Gauss, TCo1279 [36]), y aproximadamente corresponde a una resolución de 0,1° latitud/longitud. HRES operational forecasts Luego, redujeron las muestras espaciales a una red de 0,25° latitud/longitud (para coincidir con la resolución de ERA5) utilizando la biblioteca Metview de ECMWF, con los parámetros de regresión predeterminados. las redujeron temporalmente a intervalos de 6 horas. Hay dos grupos de predicciones HRES: las inicializadas a 00z/12z que se liberan para horizontes de 10 días, y las inicializadas a 06z/18z que se liberan para horizontes de 3,75 días. Para evaluar la habilidad de las predicciones operativas de HRES, construimos un conjunto de datos de verdad de fondo, “HRES-fc0”, basado en el archivo de predicciones operativas de HRES de ECMWF. Este conjunto de datos comprende el paso de tiempo inicial de cada predicción de HRES, a los tiempos de iniciación 00z, 06z, 12z y 18z (véase la Figura 5). Los datos de HRES-fc0 son similares a los datos de ERA5, pero se asimila utilizando el último modelo ECMWF NWP en el momento de la predicción, y asimila observaciones de ±3 horas alrededor de la fecha y la hora correspondientes. Nota, ECMWF también proporciona un archivo de datos de “Análisis de HRES” que es distinto de nuestro conjunto de datos HRES HRES-fc0 Un subconjunto muy pequeño de los valores del archivo ECMWF HRES para el geopotencial variable en 850hPa (z850) y 925hPa (z925) no son números (NaN). Estos NaN parecen estar distribuidos uniformemente en el rango 2016-2021 y en los tiempos de predicción. Esto representa aproximadamente el 0,00001% de los píxeles para z850 (1 píxel cada diez marcos de latitud 1440 x 721), el 0,00000001% de los píxeles para z925 (1 píxel cada diez mil marcos de latitud 1440 x 721) y no tiene un impacto mensurable en el rendimiento. Para una comparación más fácil, llenamos estos raros valores con la media ponderada de los píxeles vecinos inmediatos. Usamos un peso de 1 para los vecinos laterales y 0,5 para los HRES NaN handling 1.3 Datos sobre ciclones tropicales Para nuestro análisis de la predicción de ciclones tropicales, usamos el archivo IBTrACS [28, 29, 31, 30] para construir el conjunto de datos de la verdad del suelo. Esto incluye las pistas históricas de ciclones de alrededor de una docena de fuentes autorizadas. Cada pista es una serie de tiempo, a intervalos de 6 horas (00z, 06z, 12z, 18z), donde cada etapa del tiempo representa el ojo del ciclón en coordenadas de latitud/longitud, junto con la categoría Saffir-Simpson correspondiente y otras características meteorológicas relevantes en ese momento. Para la base de HRES, usamos el archivo TIGGE, que proporciona las pistas de ciclones estimadas con el rastreador operativo, a partir de las predicciones de HRES a 0,1° de resolución [8, 46]. Los datos se almacenan como archivos XML disponibles para descarga en https://confluence.ecmwf.int/display/TIGGE/Tools. Para convertir los datos en un formato adecuado para el posterior procesamiento y análisis, implementamos un parser que extrae las pistas de ciclones para los años de interés. Las secciones (tags) pertinentes en los archivos XML son las de tipo “forecast”, que normalmente contienen múltiples pistas correspondientes a diferentes tiempos de predicción inicial. Con estas etiquetas, extraemos luego el nombre del ciclón (tag “cycloneName”), los See Section 8.1 for details of the tracker algorithm and results. Notación y declaración de problemas En esta sección, definimos el uso de notas de tiempo útiles en todo el papel (Sección 2.1), formalizamos el problema general de predicción que abordamos (Sección 2.2), y detallamos cómo modelamos el estado del tiempo (Sección 2.3). 2.1 Notas de tiempo La notación de tiempo utilizada en la predicción puede ser confusa, involucrando una serie de símbolos de tiempo diferentes, por ejemplo, para denotar el tiempo de predicción inicial, el tiempo de validez, el horizonte de predicción, etc. Por lo tanto, introducimos algunos términos y notaciones estandarizadas para la claridad y la simplicidad. Nos referimos a un punto en el tiempo como “hora de fecha”, indicado por la fecha del calendario y la hora UTC. Por ejemplo, 2018-06-21_18:00:00 significa 21 de junio de 2018, a las 18:00 UTC. Para abreviar, también a veces usamos la convención de Zulu, es decir, 00z, 06z, 12z, 18z significa 00:00, 06:00, 12:00, 18:00 UTC, respectivamente. t: Índice de pasos de tiempo de previsión, que indexa el número de pasos desde que se inició la previsión. T: Horizonte de predicción, que representa el número total de pasos en una predicción. d: tiempo de validez, que indica la fecha-hora de un estado meteorológico en particular. d0: tiempo de inicialización de la predicción, indicando el tiempo de validez de las entradas iniciales de una predicción. Δd: Duración del paso de predicción, indicando cuánto tiempo pasa durante un paso de predicción. τ: tiempo de conducción previo, que representa el tiempo transcurrido en la previsión (es decir, τ = tΔd). 2.2 Declaración general de problemas de pronóstico La evolución temporal del tiempo real puede ser representada por una función dinámica de tiempo discreto subyacente, Φ, que genera el estado en el siguiente paso de tiempo (Δd en el futuro) basado en el actual, es decir, Zd+Δd = Φ(Zd). Nuestro objetivo es encontrar un modelo preciso y eficiente, φ, de la verdadera función dinámica, Φ, que pueda predecir eficientemente el estado del tiempo a lo largo de algún horizonte de predicción, TΔd. Asumimos que no podemos observar Zd directamente, sino que solo tenemos alguna observación parcial Xd, que es una representación incompleta de la información del estado necesaria para predecir el tiempo perfectamente. Xd−Δd , Xd−2Δd , ..., además de Xd. El modelo puede entonces, en principio, aprovechar esta información de contexto adicional para aproximar Zd con más precisión. Analogamente a la ecuación (1), la predicción X ̈d+Δd puede ser alimentada de nuevo en φ para producir autoregresivamente una predicción completa, Valoramos la calidad de predicción, o habilidad, de φ cuantificando cuán bien la trayectoria predictiva, X ̈d+Δd:d+T Δd, coincide con la trayectoria de la verdad subyacente, Xd+Δd:d+TΔd. Sin embargo, es importante subrayar de nuevo que Xd+Δd:d+TΔd sólo comprende nuestras observaciones de Zd+Δd:d+TΔd, que en sí misma no se observa. Medimos la coherencia entre las predicciones y la verdad subyacente con una función objetiva, que se describe explícitamente en el apartado 5. En nuestro trabajo, la resolución temporal de los datos y las predicciones siempre fue Δd = 6 horas con un horizonte de predicción máximo de 10 días, correspondiendo a un total de T = 40 pasos. Debido a que Δd es una constante en todo este documento, podemos simplificar la notación usando (Xt, Xt+1, . . . , Xt+T ) en lugar de (Xd, Xd+Δd , . . , Xd+TΔd ), para indexar el tiempo con un número entero en lugar de una fecha-hora específica. Modelo de datos meteorológicos ECMWF Para la formación y evaluación de modelos, tratamos nuestro conjunto de datos ERA5 como la representación de la verdad de la superficie y el estado meteorológico atmosférico.Como se describe en la Sección 1.2, utilizamos el conjunto de datos HRES-fc0 como verdad de la tierra para evaluar la habilidad de HRES. En nuestro conjunto de datos, un estado meteorológico ERA5 Xt comprende todas las variables en la Tabla 2, a una resolución de latitud-longitud horizontal de 0,25° con un total de 721 × 1440 = 1, 038, 240 puntos de red y 37 niveles de presión vertical. Las variables atmosféricas se definen a todos los niveles de presión y el conjunto de puntos de red (horizontal) se da por G0.25◦ = {−90.0, −89.75, . . . , 90.0} × {−179.75, −179.5, . . . , 180.0}. Estas variables se identifican de manera única por su nombre corto (y el nivel de presión, para las variables atmosféricas). Por ejemplo, la variable de superficie “2 metros” se denomina 2 T; la variable atmosférica “Geopotencia” a nivel de De todas estas variables, nuestro modelo predice 5 variables de superficie y 6 variables atmosféricas para un total de 227 variables objetivo. También se proporcionaron varias otras variables estáticas y/o externas como contexto de entrada para nuestro modelo. Estas variables se muestran en la Tabla 1 y la Tabla 2. Nos referimos al subconjunto de variables en Xt que corresponden a un punto de red particular i (1,038,240 en total) como xt, y a cada variable j de las variables objetivo 227 como xt. La representación completa de estado Xtii, j, por lo tanto, contiene un total de 721 × 1440 × (5 + 6 × 37) = 235, 680, 480 valores. Nota, en los polos, los puntos de longitud 1440 son iguales, por lo que el número real de puntos de red distintos es ligeramente menor. Modelo de GraphCast This section provides a detailed description of GraphCast, starting with the autoregressive gener-ation of a forecast (Section 3.1), an overview of the architecture in plain language (Section 3.2), followed by a technical description the all the graphs defining GraphCast (Section 3.3), its encoder (Section 3.4), processor (Section 3.5), and decoder (Section 3.6), as well as all the normalization and parameterization details (Section 3.7). 4.1 Creación de una predicción Nuestro modelo GraphCast se define como un simulador aprendido de un paso que toma el papel de φ en la ecuación (2) y predice el siguiente paso basado en dos estados de entrada consecutivos, Como en la ecuación (3), podemos aplicar GraphCast iterativamente para producir una predicción of arbitrary length, 𝑇. This is illustrated in Figure 1b,c. We found, in early experiments, that two input states yielded better performance than one, and that three did not help enough to justify the increased memory footprint. 3.2 Vista general de la arquitectura The core architecture of GraphCast uses GNNs in an “encode-process-decode” configuration [6], as depicted in Figure 1d,e,f. GNN-based learned simulators are very effective at learning complex physical dynamics of fluids and other materials [43, 39], as the structure of their representations and computations are analogous to learned finite element solvers [1]. A key advantage of GNNs is that the input graph’s structure determines what parts of the representation interact with one another via learned message-passing, allowing arbitrary patterns of spatial interactions over any range. By contrast, a convolutional neural network (CNN) is restricted to computing interactions within local patches (or, in the case of dilated convolution, over regularly strided longer ranges). And while Transformers [48] can also compute arbitrarily long-range computations, they do not scale well with very large inputs (e.g., the 1 million-plus grid points in GraphCast’s global inputs) because of the quadratic memory complexity induced by computing all-to-all interactions. Contemporary extensions of Transformers often sparsify possible interactions to reduce the complexity, which in effect makes them analogous to GNNs (e.g., graph attention networks [49]). La forma en que aprovechamos la capacidad de la GNN para modelar interacciones escasas arbitrarias es mediante la introducción de la representación "multi-mesh" interna de GraphCast, que permite interacciones de largo alcance dentro de unos pocos pasos de transmisión de mensajes y tiene generalmente una resolución espacial homogénea en todo el globo. Esto es en contraste con una red de latitud-longitud que induce una distribución no uniforme de puntos de red. El uso de la red de latitud-longitud no es una representación aconsejable debido a su inhomogeneidad espacial, y la alta resolución en los polos que requiere recursos de computación desproporcionados. Nuestro multimesh se construye mediante la primera división de un icosahedron regular (12 nodos y 20 caras) iterativamente 6 veces para obtener una jerarquía de mesas icosahedrálicas con un total de 40,962 nodos y 81,920 caras en la resolución más alta. Aprovechamos el hecho de que los nodos de mesas gruesas son subconjuntos de los nodos de mesas finas, lo que nos permitió superimponer bordes de todos los niveles de la jerarquía de mesas en la más fina resolución de mesas. Este procedimiento produce un conjunto multiescalado de mesas, con bordes gruesos que conectan largas distancias en múltiples escalas, y bordes finos que capturan interacciones locales. El codificador de GraphCast (Figura 1d) primero mapea los datos de entrada, desde la red original de latitud-longitud, en características aprendidas en la multi-mesh, utilizando un GNN con bordes dirigidos desde los puntos de la red a la multi-mesh. El procesador (Figura 1e) luego utiliza una GNN profunda de 16 capas para realizar mensajes aprendidos en la multi-mesh, permitiendo una propagación eficiente de la información a través del espacio debido a los bordes de largo alcance. El decodificador (Figura 1f) luego mapea la representación multi-mesh final de vuelta a la red de latitud-longitud usando una GNN con bordes dirigidos, y combina esta representación de la red, Ytk+, con el estado de entrada, Xt+tk, para formar la predic El codificador y el decodificador no requieren que los datos brutos se arreglen en una red rectilínea regular, y también se puede aplicar a discretizaciones arbitrarias de estado similares a las redes [1].La arquitectura general se basa en varios simuladores aprendidos basados en GNN que han sido exitosos en muchos sistemas de fluidos complejos y otros dominios físicos [43, 39, 15]. En un solo dispositivo de Cloud TPU v4, GraphCast puede generar una resolución de 0,25 °, pronóstico de 10 días (en pasos de 6 horas) en menos de 60 segundos. Para comparación, el sistema IFS de ECMWF se ejecuta en un clúster de 11,664 núcleos, y genera una resolución de 0,1 °, pronóstico de 10 días (lanzado en pasos de 1 hora para las primeras 90 horas, pasos de 3 horas para las horas 93-144, y pasos de 6 horas desde 150-240 horas, en aproximadamente una hora de tiempo de computación [41]. Ver los detalles de la versión de HRES aquí: https://www.ecmwf.int/en/forecasts/ datasets/set-i. 3.3 El gráfico de GraphCast GraphCast se implementa utilizando GNNs en una configuración de "código-proceso-decodificación", donde los mapas del codificador (superficie y atmósfera) se muestran en la red de latitud-longitud de entrada a una multi-mesh, el procesador realiza muchas rondas de mensaje-paso en la multi-mesh, y el decodificador mapea las características de multi-mesh de vuelta a la red de latitud-longitud de salida (ver Figura 1). El modelo opera en un gráfico G (VG, VM, EM, EG2M, EM2G), definido en detalle en los párrafos siguientes. VG representa el conjunto que contiene cada uno de los nodos de la red vG. Cada nodo de la red representa una fracción vertical de la atmósfera en un dado punto de latitud-longitud, i.e. Las características asociadas con cada nodo de la red vG son vG,features = [xt−1, xt, ft−1, ft, ft+1, ci], donde xt es el estado de tiempo dependiente Xt correspondiente al nodo de la red vG y incluye todas las variables de datos predichas para todos los 37 niveles atmosféricos, así como las variables de superficie. Los términos forzados ft consisten en características dependientes del tiempo que pueden ser calculadas analíticamente, y no necesitan ser predichas por GraphCast. Incluyen la radiación solar incidente total en la parte superior de la atmós Grid nodes VM representa el conjunto que contiene cada uno de los nodos de la red vM. Los nodos de la red se colocan uniformemente alrededor del globo en una red icosahedral refinada en R MR. M0 corresponde a un icosahedron de radio unitario (12 nodos y 20 caras triangulares) con caras paralelas a los polos (ver Figura 1g). La red es refinada iterativamente Mr → Mr+1 dividiendo cada cara triangular en 4 caras más pequeñas, resultando en un nodo adicional en el medio de cada borde, y re-proyectando los nuevos nodos de vuelta a la esfera de la unidad.4 Características vM,Funciones asociadas con cada nodo de la red vM incluyen la cosina de la latitud, y ihe sine y cosina de la longitud. Mesh nodes EM son bordes bidireccionales añadidos entre los nodos de malla que están conectados en la malla. Crucialmente, los bordes de malla se añaden a EM para todos los niveles de refinamiento, es decir, para la más fina malla, M6, así como para M5, M4, M3, M2, M1 y M0. Esto es sencillo debido a cómo funciona el proceso de refinamiento: los nodos de Mr−1 son siempre un subconjunto de los nodos en Mr. Por lo tanto, los nodos introducidos en los niveles de refinamiento más bajos sirven como nodos para la comunicación de rango más largo, independiente del nivel máximo de refinamiento. El gráfico resultante que contiene el conjunto conjunto conjunto de bordes de todos los niveles de refinamiento es lo que llamamos el "multi-mesh". Mesh edges Para cada borde eM que conecta un nodo de mesh emisor vM a un nodo de mesh receptor vM, construimos vM→vM edge features eM, características que utilizan la posición en la esfera de unidad de los nodos de mesh. Esto incluye la longitud vM→vM s r del borde, y la diferencia vectorial entre las posiciones 3d del nodo de emisor y el nodo de receptor calculado en un sistema de coordenadas local del receptor. El sistema de coordenadas locales del receptor se calcula aplicando una rotación que cambia el ángulo azimutal hasta que ese nodo de receptor se encuentra en longitud 0, seguida de una rotación que cambia el ángulo polar hasta que el receptor también se encuentra en latitud 0. Esto resulta en un total de 327,660 bordes de EG2M son bordes unidireccionales que conectan los nodos de la red del remitente a los nodos de la red del receptor. Se añade un borde eG2M vG→vM si la distancia entre el nodo de la red y el nodo de la red es menor o igual a 0,6 veces5 la longitud de los bordes en la red M6 (ver Figura 1) que asegura que cada nodo de la red está conectado a al menos un nodo de la red. Grid2Mesh edges EM2G son bordes unidireccionales que conectan los nodos de la red del remitente a los nodos de la red del receptor. Para cada punto de la red, encontramos la cara triangular en la M6 de la red que la contiene y agregamos tres bordes de Mesh2G de la forma eM2G vM→vG, para conectar el nodo de la red a los tres nodos de la red adyacentes s r a esa cara (ver Figura 1). Características eM2G,las características se construyen de la misma manera que las de las bordes de la red vM→vG s r. Esto resulta en un total de 3,114,720 bordes de Mesh2Grid (3 nodos de la red conectados a cada uno de los puntos de la red de 721 × 1440 latitud), cada uno con cuatro características Mesh2Grid edges 3.4 Codificación El propósito del codificador es preparar los datos en representaciones latentes para el procesador, que se ejecutarán exclusivamente en el multi-mesh. As part of the encoder, we first embed the features of each of the grid nodes, mesh nodes, mesh edges, grid to mesh edges, and mesh to grid edges into a latent space of fixed size using five multi-layer perceptrons (MLP), Embedding the input features A continuación, con el fin de transferir información del estado de la atmósfera de los nodos de la red a los nodos de la red, realizamos un mensaje único que pasa paso sobre el subgrafo bipartito Grid2M GG2M (VG, VM, EG2M) conectando los nodos de la red a los nodos de la red. Esta actualización se realiza utilizando una red de interacción [5, 6], aumentada para poder trabajar con varios tipos de nodos [2]. Grid2Mesh GNN Luego, cada uno de los nodos de la red se actualiza agregando información de todos los bordes que llegan a ese nodo de la red: Each of the grid nodes are also updated, but with no aggregation, because grid nodes are not receivers of any edges in the Grid2Mesh subgraph, After updating all three elements, the model includes a residual connection, and for simplicity of the notation, reassigns the variables, 5.3 Procesador El procesador es un GNN profundo que opera en el subgrafo de la Mesh GM (VM, EM) que contiene sólo los nodos de la Mesh y los bordes de la Mesh. Nota que los bordes de la Mesh contienen el multi-mesh completo, con no sólo los bordes de M6, sino todos los bordes de M5, M4, M3, M2, M1 y M0, lo que permitirá la comunicación a larga distancia. A single layer of the Mesh GNN is a standard interaction network [5, 6] which first updates each of the mesh edges using information of the adjacent nodes: Multi-mesh GNN Then it updates each of the mesh nodes, aggregating information from all of the edges arriving at that mesh node: Y después de actualizar ambas, las representaciones se actualizan con una conexión residual y para la simplicidad de la notación, también se reasignan a las variables de entrada: El párrafo anterior describe una sola capa de mensaje que pasa, pero siguiendo un enfoque similar a [43, 39], aplicamos esta capa iterativamente 16 veces, utilizando pesos de red neural no compartidos para los MLPs en cada capa. 3.6 Decodificación La función del decodificador es devolver la información a la red, y extraer una salida. Analogous to the Grid2Mesh GNN, the Mesh2Grid GNN performs a single message passing over the Mesh2Grid bipartite subgraph GM2G(VG, VM, EM2G). The Grid2Mesh GNN is functionally equivalent to the Mesh2Grid GNN, but using the Mesh2Grid edges to send information in the opposite direction. The GNN first updates each of the Grid2Mesh edges using information of the adjacent nodes: Mesh2Grid GNN Then it updates each of the grid nodes, aggregating information from all of the edges arriving at that grid node: En este caso, no actualizamos los nodos de la red, ya que no jugarán ningún papel a partir de este punto. Aquí de nuevo añadimos una conexión residual, y para la simplicidad de la notación, reasignamos las variables, esta vez sólo para los nodos de la red, que son los únicos requeridos desde este punto: Por último, la predicción yi para cada uno de los nodos de la red se produce utilizando otro MLP, Output function que contiene todas las 227 variables preditas para ese nodo de la red. Similar a [43, 39], el siguiente estado meteorológico, X ̈t + 1, se calcula agregando la predicción por nodo, Y ̈t , al estado de entrada para todos los nodos de la red, Normalización y parametrización de la red Similar a [43, 39], normalizamos todas las entradas. Para cada variable física, calculamos la media y la desviación estándar por nivel de presión durante 1979-2015, y usamos eso para normalizarlas a media y varianza de unidad cero. Para distancias y longitudes de borde relativas, normalizamos las características a la longitud del borde más largo. Input normalization Debido a que nuestro modelo emite una diferencia, Y ̈t , que, durante la inferencia, se agrega a Xt para producir X ̈t + 1, normalizamos la salida del modelo calculando las estadísticas de desviación estándar por nivel de presión para la diferencia de tiempo Yt = Xt+1 − Xt de cada variable6.Cuando el GNN produce una salida, multiplicamos esta salida por esta desviación estándar para obtener Y ̈t antes de calcular X ̈t +1, como en la ecuación (18). Output normalization Las redes neuronales dentro de GraphCast son todos los MLPs, con una capa oculta, y los tamaños de capas ocultas y de salida de 512 (excepto la capa final del MLP del Decoder, cuyo tamaño de salida es 227, coincidiendo con el número de variables predichas para cada nodo de la red). Neural network parameterizations 4. Training details Esta sección proporciona detalles relativos a la capacitación de GraphCast, incluyendo la división de datos utilizada para desarrollar el modelo (Sección 4.1), la definición completa de la función objetivo con el peso asociado con cada nivel variable y vertical (Sección 4.2), el enfoque de capacitación autorregresiva (Sección 4.3), las configuraciones de optimización (Sección 4.4), la capacitación curricular utilizada para reducir el coste de capacitación (Sección 4.5), los detalles técnicos utilizados para reducir la huella de memoria de GraphCast (Sección 4.6), el tiempo de capacitación (Sección 4.7) y el software empacado que utilizamos (Sección 4.8). 4.1. Training split Para imitar las condiciones de despliegue reales, en las que la predicción no puede depender de la información del futuro, dividimos los datos utilizados para desarrollar GraphCast y los datos utilizados para probar su rendimiento “causalmente”, en que el “conjunto de desarrollo” sólo contenía fechas anteriores a las del “conjunto de pruebas”.El conjunto de desarrollo comprende el período 1979-2017, y el conjunto de pruebas contiene los años 2018-2021.Ni los investigadores ni el software de formación de modelos pudieron ver los datos del conjunto de pruebas hasta que terminamos la fase de desarrollo. Dentro de nuestro conjunto de desarrollo, hemos dividido los datos en un conjunto de capacitación que comprende los años 1979-2015, y un conjunto de validación que incluye los años 2016-2017. Utilizamos el conjunto de capacitación como datos de capacitación para nuestros modelos y el conjunto de validación para la optimización de hiperparámetros y la selección de modelos, es decir, para decidir la arquitectura del modelo con el mejor rendimiento. Luego congelamos la arquitectura del modelo y todas las opciones de capacitación y pasamos a la fase de pruebas. En el trabajo preliminar, también exploramos la capacitación sobre datos anteriores de 1959-1978, pero encontramos que tenía poco beneficio en el rendimiento, por lo que en las fases finales de nuestro trabajo excluimos 1959-1978 por sencillez. 4.2. Training objective GraphCast fue entrenado para minimizar una función objetiva durante las predicciones de 12 pasos (3 días) frente a los objetivos de ERA5, utilizando descenso de gradientes.El objetivo de entrenamiento se define como el error medio cuadrado (MSE) entre la salida objetivo X y la salida predicida X ̈, dónde 𝜏 ∈ 1 : 𝑇train are the lead times that correspond to the 𝑇train autoregressive steps. d0 ∈ Dbatch representa la fecha de iniciación de la predicción en un lote de predicciones en el conjunto de entrenamiento, j ∈ J indexa la variable, y para las variables atmosféricas el nivel de presión. E.g. J ={z1000, z850, . . . , 2 T, MsL}, i ∈ G0.25◦ son las coordenadas de ubicación (latitud y longitud) en la red, x ̈d0+τ y xd0+τ son valores predictivos y objetivos para algunos niveles de variables, ubicación y tiempo de conducción,j,i j,i 𝑠 𝑗 is the per-variable-level inverse variance of time differences, wj es la pérdida de peso por nivel variable, ai es el área de la celda de la red de latitud-longitud, que varía con la latitud, y se normaliza a unidad media sobre la red. Para construir una única pérdida escalar, tomamos la media a través de la latitud-longitud, los niveles de presión, las variables, los tiempos de conducción y el tamaño del lote. aplicamos medias a través de los ejes de latitud-longitud, con un peso proporcional al tamaño de la célula de latitud-longitud (normalizado a 1). Las cantidades s = V hxt+1 − xt i −1 son estimaciones de variación inversa por nivel variable de las diferencias de tiempo, que tienen como objetivo estandarizar las metas (en pasos consecutivos) a la variación de la unidad. Estas fueron estimadas a partir de los datos de entrenamiento. A continuación, aplicamos los pesos de pérdida por nivel variable, es decir, para las variables atmosféricas, medimos a través de los niveles, con un peso proporcional a la presión del nivel (normalizado a la media unitaria), como se muestra en la Figura 6a. Utilizamos la presión aquí como un proxy para la densidad [26]. Tenga en cuenta que el peso de pérdida aplicado a los niveles de presión en o por debajo de 50 hPa, donde HRES tiende a desempeñar mejor que GraphCast, es 4.3 Formación en el objetivo autorregresivo In order to improve our model’s ability to make accurate forecasts over more than one step, we used an autoregressive training regime, where the model’s predicted next step was fed back in as input for predicting the next step. The final GraphCast version was trained on 12 autoregressive steps, following a curriculum training schedule described below. The optimization procedure computed the loss on each step of the forecast, with respect to the corresponding ground truth step, error gradients with respect to the model parameters were backpropagated through the full unrolled sequence of model iterations (i.e., using backpropagation-through-time). 4.4 Optimización La función de objetivo de entrenamiento se minimizó utilizando descenso de gradientes, con mini-batch. Samplamos las trayectorias de verdad del suelo de nuestro conjunto de datos de entrenamiento ERA5, con reemplazo, para batches de tamaño 32. Utilizamos el optimizador AdamW [33, 27] con parámetros (beta1 = 0,9, beta2 = 0,95). Utilizamos la decadencia de peso de 0,1 en las matrices de peso. Utilizamos el corte de gradientes (norma) con un valor máximo de norma de 32. 5.4 Calendario de formación El entrenamiento del modelo se llevó a cabo utilizando un currículo de tres fases, que varió las tasas de aprendizaje y el número de pasos autorregresivos. La primera fase consistía en 1000 actualizaciones de descenso de gradientes, con un paso autorregresivo, y un calendario de tasa de aprendizaje que aumentó linealmente de 0 a 1e−3 (Figura 7a). La segunda fase consistía en 299.000 actualizaciones de descenso de gradientes, otra vez con un paso autorregresivo, y un calendario de tasa de aprendizaje que disminuyó de nuevo a 0 con función de decadencia de mitad-cosina (Figura 7b). La tercera fase consistía en 11.000 actualizaciones de descenso de gradientes, donde el número de pasos autorregresivos aumentó de 2 a 12, aumentando Reducción de la huella de la memoria Para encajar largas trayectorias (12 pasos autoregresivos) en el 32GB de un dispositivo Cloud TPU v4, utilizamos varias estrategias para reducir la huella de memoria de nuestro modelo. En primer lugar, utilizamos el paralelismo de lotes para distribuir datos a través de 32 dispositivos TPU (es decir, un punto de datos por dispositivo). En segundo lugar, utilizamos la precisión del punto flotante bfloat16 para disminuir la memoria tomada por las activaciones (nota, utilizamos numéricos de precisión completa (es decir, float32) para calcular las métricas de rendimiento en el momento de la evaluación). 4.7 Tiempo de entrenamiento Después del horario de entrenamiento que incrementa el número de pasos autorregresivos, como se detalló anteriormente, el entrenamiento de GraphCast tomó aproximadamente cuatro semanas en 32 dispositivos TPU. 4.8 Software y hardware Stack Utilizamos JAX [9], Haiku [23], Jraph [17], Optax, Jaxline [4] y xarray [25] para construir y entrenar nuestros modelos. 5 Métodos de verificación Esta sección proporciona detalles sobre nuestro protocolo de evaluación. Sección 5.1 detalla nuestro enfoque para dividir los datos de una manera causal, asegurando nuestras pruebas de evaluación para una generalización significativa, es decir, sin aprovechar la información del futuro. Sección 5.2 explica más detalladamente nuestras opciones para evaluar la habilidad HRES y compararla con GraphCast, comenzando por la necesidad de una verdad del terreno específica para HRES para evitar penalizarlo en tiempos de paso cortos (Sección 5.2.1), el impacto de ERA5 y HRES utilizando diferentes ventanas de asimilación en el lookahead que cada estado incorpora (Sección 5.2.2), la elección resultante de la inicialización para el tiempo GraphCast y HRES para garantizar que todos los métodos beneficien del mismo lookahead en sus entradas y en sus objetivos (Sección 5. 5.1. Training, validation, and test splits En la fase de prueba, utilizando el protocolo congelado al final de la fase de desarrollo (Sección 4.1), entrenamos cuatro versiones de GraphCast, cada una de ellas en un período diferente. 2018–2021, 2019–2021, 2020–2021 y 2021, respectivamente. De nuevo, estas divisiones mantuvieron una separación causal entre los datos utilizados para entrenar una versión del modelo y los datos utilizados para evaluar su rendimiento (ver Figura 8). La mayoría de nuestros resultados fueron evaluados en 2018 (es decir, con el modelo entrenado en 1979–2017), con varias excepciones. Para los experimentos de seguimiento de ciclones, reportamos resultados en 2018–2021 porque los ciclones no son tan comunes, por lo que incluir más años aumenta el tamaño de la muestra. Utilizamos la versión más reciente de GraphCast para hacer una predicción sobre un año dado: GraphCast <2018 para la predicción de 2018, GraphCast <2019 para la predicción de 2019, etc. Para los experimentos de datos recientes de 5.2 Comparación de GraphCast con HRES 5.2.1 Elección de conjuntos de datos de verdad del terreno GraphCast was trained to predict ERA5 data, and to take ERA5 data as input; we also use ERA5 as ground truth for evaluating our model. HRES forecasts, however, are initialized based on HRES analysis. Generally, verifying a model against its own analysis gives the best skill estimates [45]. So rather than evaluating HRES forecasts against ERA5 ground truth, which would mean that even the zeroth step of HRES forecasts would have non-zero error, we constructed an “HRES forecast at step 0” (HRES-fc0) dataset, which contains the initial time step of HRES forecasts at future initializations (see Table 3). We use HRES-fc0 as ground truth for evaluating HRES forecasts. 5.2.2. Ensuring equal lookahead in assimilation windows When comparing the skills of GraphCast and HRES, we made several choices to control for differences between the ERA5 and HRES-fc0 data assimilation windows. As described in Section 1, each day HRES assimilates observations using four +/-3h windows centered on 00z, 06z, 12z and 18z (where 18z means 18:00 UTC in Zulu convention), while ERA5 uses two +9h/-3h windows centered on 00z and 12z, or equivalently two +3h/-9h windows centered on 06z and 18z. See Figure 9 for an illustration. We chose to evaluate GraphCast’s forecasts from the 06z and 18z initializations, ensuring its inputs carry information from +3h of future observations, matching HRES’s inputs. We did not evaluate GraphCast’s 00z and 12z initializations, to avoid a mismatch between having a +9h lookahead in ERA5 inputs versus +3h lookahead for HRES inputs. La Figura 10 muestra el rendimiento de GraphCast inicializado a partir de 06z/18z y 00z/12z. Cuando inicializado a partir de un estado con un lookahead mayor, GraphCast obtiene una mejora visible que persiste en tiempos de lead más largos, apoyando nuestra elección a la evaluación inicializada a partir de 06z/18z. Aplicamos la misma lógica al elegir el objetivo en el que evaluar: sólo evaluamos los objetivos que incorporan un lookahead 3 para HRES y ERA5. Dada nuestra elección de la inicialización a 06z y 18z, esto corresponde a evaluar cada 12h, en los tiempos de análisis futuros 06z y 18z. Como ejemplo práctico, si estuvimos evaluando GraphCast y HRES inicializados a 06z, en el tiempo de lead 6h (i.e., 12 5.2.3 Alineamiento de la inicialización y los tiempos de validez del día Como se indicó anteriormente, una comparación justa con HRES requiere evaluar GraphCast utilizando inicializaciones 06z y 18z, y con tiempos de lead que son múltiplos de 12h, lo que significa que los tiempos de validez también son 06z y 18z. For lead times up to 3.75 days there are archived HRES forecasts available using 06z and 18z initialization and validity times, and we use these to perform a like-for-like comparison with GraphCast at these lead times. Note, because we evaluate only on 12 hour lead time increments, this means the final lead time is 3.5 days. For lead times of 4 days and beyond, archived HRES forecasts are only available at 00z and 12z initializations, which given our 12-hour-multiple lead times means 00z and 12z validity times. At these lead times we have no choice but to compare GraphCast at 06z and 18z, with HRES at 00z and 12z. En estas comparaciones de RMSEs globalmente definidos, esperamos que la diferencia en el tiempo del día brinde a HRES una ligera ventaja. En la Figura 11, podemos ver que hasta los tiempos de conducción de 3,5 días, los RMSEs de HRES tienden a ser más pequeños en promedio sobre los tiempos de inicialización/validez de 00z y 12z que en los tiempos de 06z y 18z en los que se evalúa GraphCast. También podemos ver que la diferencia disminuye a medida que aumenta el tiempo de conducción, y que los RMSEs de 06z/18z generalmente parecen tender hacia un asintoto por encima del 00z/12z RMSE, pero dentro del 2% de él. Esperamos que estas diferencias continúen favoreciendo a HRES en tiempos de conducción más largos, y a pesar de permanecer pequeños, y por lo tanto Whenever we plot RMSE and other evaluation metrics as a function of lead time, we indicate with a dotted line the 3.5 day changeover point where we switch from evaluating HRES on 06z/18z to evaluating on 00z/12z. At this changeover point, we plot both the 06z/18z and 00z/12z metrics, showing the discontinuity clearly. 5.2.4 Período de evaluación La mayoría de nuestros principales resultados se reportan para el año 2018 (de nuestro conjunto de pruebas), para el cual el primer tiempo de iniciación de predicción fue 2018-01_06:00:00 UTC y el último 2018-12-31_18:00:00, o cuando se evalúa HRES en tiempos de conducción más largos, 2018-01_00:00:00 y 2018-12-31_12:00:00. resultados adicionales sobre el seguimiento de ciclones y el efecto del uso reciente de datos años 2018-2021 y 2021 respectivamente. 5.3. Evaluation metrics Cuantificamos la habilidad de GraphCast, otros modelos ML, y HRES utilizando el error medio cuadrado raíz (RMSE) y el coeficiente de correlación de anomalías (ACC), que ambos se calculan en relación con los datos de verdad del terreno respectivos de los modelos. El RMSE mide la magnitud de las diferencias entre las predicciones y la verdad del terreno para una variable dada indexada por j y un tiempo de conducción dado τ (ver ecuación (20)). El ACC, Lj,τ , se define en la ecuación (29) y mide cuán bien las diferencias de predicción de la climatología, es decir, el clima medio para una ubicación y fecha, se correlaciona con las diferencias de verdad del terreno de la climatología. Para las puntuaciones de habilidad utilizamos la diferencia RMSE normalizada entre el modelo Todas las métricas fueron calculadas utilizando la precisión float32 y reportadas utilizando el rango dinámico nativo de las variables, sin normalización. Hemos cuantificado la habilidad de predicción para una variable dada, x j, y el tiempo de conducción, τ = tΔd, utilizando un error de cuadrado medio de raíz ponderado por latitud (RMSE) dado por Root mean square error (RMSE) dónde • d0 ∈ Deval representa la fecha de inicialización de la predicción en el conjunto de datos de evaluación, • variables y niveles de índice j ∈ J, por ejemplo, J = {z1000, z850, . . . , 2 T, MsL}, • i ∈ G0.25◦ son las coordenadas de ubicación (latitud y longitud) en la red, • 𝑥ˆ𝑑0+𝜏 and 𝑥𝑑0+𝜏 are predicted and target values for some variable-level, location, and lead time, 𝑗,𝑖 𝑗,𝑖 • ai es el área de la celda de la red de latitud-longitud (normalizada a unidad media sobre la red) que varía con la latitud. Al tomar la raíz cuadrada dentro de la media sobre las inicializaciones de la previsión, seguimos la convención de WeatherBench [41]. Sin embargo, observamos que esto difiere de cómo se define RMSE en muchos otros contextos, donde la raíz cuadrada se aplica sólo a la media final, es decir, En todas las comparaciones que involucran predicciones que son filtradas, truncadas o descompuestas en el dominio armónico esférico, por conveniencia calculamos RMSEs directamente en el dominio armónico esférico, con todos los medios tomados dentro de la raíz cuadrada, Root mean square error (RMSE), spherical harmonic domain. Aquí f·d0+τ y f d0+τ son predichos y coeficientes de meta de armonías esféricas con el número de onda total j,l,m j,l,m l y el número de onda longitudinal m. Calculamos estos coeficientes a partir de datos basados en la red utilizando una transformación armónica esférica discreta [13] con truncamiento triangular en el número de onda 719, que fue elegido para resolver la resolución de 0.25° (28km) de nuestra red en el ecuador. This RMSE closely approximates the grid-based definition of RMSE given in Equation (21), however it is not exactly comparable, in part because the triangular truncation at wavenumber 719 does not resolve the additional resolution of the equiangular grid near the poles. This is computed following the RMSE definition of Equation (21), but for a single location: Root mean square error (RMSE), per location. También dividimos RMSE por latitud sólo: donde la longitud (G0.25◦) es el número de longitudes distintas en nuestra red regular de 0.25°. This is computed following the RMSE definition of Equation (21) but restricted to a particular range of surface elevations, given by bounds 𝑧𝑙 ≤ 𝑧surface < 𝑧𝑢 on the surface geopotential: Root mean square error (RMSE), by surface elevation. donde ll denota la función de indicador. Esta cantidad se define como Mean bias error (MBE), per location. This quantifies the average magni-tude of the per-location biases from Equation (26) and is given by Root-mean-square per-location mean bias error (RMS-MBE). Esto cuantifica la correlación entre los vicios por ubicación (Equación (26)) de dos modelos diferentes A y B. Utilizamos un coeficiente de correlación no centrado debido a la importancia del origen cero en las mediciones de los vicios, y calculamos esta cantidad de acuerdo con Correlation of per-location mean bias errors. Anomaly correlation coefficient (ACC). We also computed the anomaly correlation coefficient for a given variable, 𝑥 𝑗, and lead time, 𝜏 = 𝑡Δ𝑑, according to donde Cd0+τ es la media climatológica para una determinada variable, nivel, latitud y longitud, y para el día del año que contiene el tiempo de validez d0 + τ. Los medios climatológicos fueron calculados utilizando datos ERA5 entre 1993 y 2016. 5.4. Statistical methodology 5.4.1. Significance tests for difference in means Para cada tiempo de conducción τ y nivel de variable j, probamos una diferencia de medios entre los RMSEs de tiempo de iniciación (definidos en la ecuación (30)) para GraphCast y HRES. Utilizamos una prueba t de dos lados emparejada con corrección para la auto-correlación, siguiendo la metodología de [16]. Esta prueba asume que las series de tiempo de diferencias en las puntuaciones de predicción están adecuadamente modeladas como procesos AR(2) de Gaussian estacionarios. Esta suposición no nos corresponde exactamente, pero está motivada como adecuada para la verificación de las previsiones meteorológicas de rango medio por el ECMWF en [16]. El tamaño de muestra nominal para nuestras pruebas es n = 730 en tiempos de lead inferior a 4 días, consistente en dos inicializaciones de predicción por día durante los 365 días de 2018. (Para tiempos de lead superior a 4 días tenemos n = 729, véase Sección 5.4.2). Sin embargo, estos datos (diferencias en RMSEs de predicción) se correlacionan automáticamente en el tiempo. Después de [16] estimamos un factor de inflación k para el error estándar que corrige para esto. Valores de k varían entre 1.21 y 6.75, con los valores más altos generalmente vistos en tiempos de lead corto y en los niveles de presión más bajos. See Table 5 for detailed results of our significance tests, including 𝑝-values, values of the 𝑡 test statistic and of 𝑛eff. 5.4.2. Forecast alignment Para tiempos de conducción τ menos de 4 días, tenemos previsiones disponibles en 06z y 18z inicialización y tiempos de validez cada día para tanto GraphCast y HRES, y podemos probar las diferencias en RMSEs entre estas previsiones emparejadas. Calcular las diferencias que usamos para probar la hipótesis nula de que E[diff-RMSE( j, τ, d0)] = 0 contra la alterna-tive bidireccional. Como se discutió en la Sección 5.2.3, en tiempos de lead de 4 días o más sólo tenemos predicciones HRES disponibles en tiempos de inicialización y validez 00z y 12z, mientras que para la comparación más justa (Sección 5.2.2) las predicciones de GraphCast deben evaluarse utilizando tiempos de inicialización y validez 06z y 18z. Para realizar una prueba en pareja, comparamos la RMSE de una predicción de GraphCast con una RMSE interpolada de las dos predicciones de HRES de ambos lados: una inicializada y válida 6 horas antes, y la otra inicializada y válida 6 horas después, todas con el mismo tiempo de lead. Podemos usar estos para probar la hipótesis nula E[diff-RMSEinterp( j, τ, d0)] = 0, que de nuevo no depende de d0 por la suposición de estabilidad en las diferencias. Si más adelante asumimos que la serie de tiempo HRES RMSE en sí es estacionaria (o al menos lo suficientemente cerca de estacionaria en una ventana de 6 horas) entonces E[diff-RMSEinterp( j, τ, d0)] = E[diff-RMSE( j, τ, d0)] y las diferencias interpoladas también se pueden utilizar para probar desviaciones de la hipótesis nula original que E[diff-RMSE( j, τ, d0)] = 0. Esta suposición de estabilidad más fuerte para HRES RMSEs es violada por la periodicidad diurna, y en la Sección 5.2.3 vemos algunas diferencias sistemáticas en HRES RMSEs entre los tiempos de validez 00z/12z y 06z/18z. Sin embargo, como se discutió allí, estas diferencias sistemáticas se reducen sustancialmente a medida que el tiempo de conducción crece y tienden a favorecer a HRES, y por lo tanto creemos que una prueba de E[diff-RMSE( j, τ, d0)] = 0 basada en diff-RMSEinterp será conservadora en los casos en que GraphCast parece tener mayor habilidad que HRES. 5.4.3. Confidence intervals for RMSEs The error bars in our RMSE skill plots correspond to separate confidence intervals for 𝔼[RMSE𝐺𝐶] and 𝔼[RMSE𝐻𝑅𝐸𝑆] (eliding or now the arguments 𝑗, 𝜏, 𝑑0). These are derived from the two-sided 𝑡-test with correction for autocorrelation that is described above, applied separately to GraphCast and HRES RMSE time-series. These confidence intervals make a stationarity assumption for the separate GraphCast and HRES RMSE time series, which as stated above is a stronger assumption that stationarity of the differences and is violated somewhat. Thus these single-sample confidence intervals should be treated as approximate; we do not rely on them in our significance statements. 5.4.4. Confidence intervals for RMSE skill scores From the 𝑡-test described in Section 5.4.1 we can also derive in the standard way confidence intervals for the true difference in RMSEs, however in our skill score plots we would like to show confidence intervals for the true RMSE skill score, in which the true difference is normalized by the true RMSE of HRES: A confidence interval for this quantity should take into account the uncertainty of our estimate of the true HRES RMSE. Let [𝑙diff, 𝑢diff] be our 1 − 𝛼/2 confidence interval for the numerator (difference in RMSEs), and [𝑙HRES, 𝑢HRES] our 1 − 𝛼/2 confidence interval for the denominator (HRES RMSE). Given that 0 < 𝑙𝐻𝑅𝐸𝑆 in every case for us, using interval arithmetic and the union bound we obtain a conservative 1 − 𝛼 confidence interval Para RMSE-SStrue. Plotamos estos intervalos de confianza junto a nuestras estimaciones de la calificación RMSE, sin embargo, tenga en cuenta que no nos basamos en ellos para las pruebas de significancia. Comparación con las bases de aprendizaje automático anteriores Para determinar cómo el rendimiento de GraphCast se compara con otros métodos ML, nos centramos en Pangu-Weather [7], una base MLWP fuerte que opera a la resolución de 0.25°. Para hacer la comparación más directa, nos separamos de nuestro protocolo de evaluación, y utilizamos el descrito en [7]. Debido a que los resultados publicados de Pangu-Weather se obtienen de las inicializaciones 00z/12z, utilizamos las mismas inicializaciones para GraphCast, en lugar de 06z/18z, como en el resto de este documento. Esto permite que ambos modelos se inicien en las mismas entradas, que incorporan la misma cantidad de lookahead (+9 horas, véase Secciones 5.2.2 y 5.2). Como la inicialización HRES incorpora a más de +3 horas lookahead, incluso si se inicia desde 00 As shown in Figure 12, GraphCast (blue lines) outperforms Pangu-Weather [7] (red lines) on 99.2% of targets. For the surface variables (2 T, 10 U, 10 v, MsL), GraphCast’s error in the first several days is around 10-20% lower, and over the longer lead times plateaus to around 7-10% lower error. The only two (of the 252 total) metrics on which Pangu-Weather outperformed GraphCast was z500, at lead times 6 and 12 hours, where GraphCast had 1.7% higher average RMSE (Figure 12a,e). 7. Additional forecast verification results Esta sección proporciona un análisis adicional del desempeño de GraphCast, proporcionando una imagen más completa de sus fortalezas y limitaciones. La sección 7.1 complementa los principales resultados del documento sobre variables adicionales y niveles más allá de z500. La sección 7.2 analiza aún más el desempeño de GraphCast dividido por regiones, latitud y niveles de presión (en particular distinguiendo el desempeño óptimo aplicado a HRES y por encima de la tropopausa), ilustra los vicios y el RMSE por longitud y elevación de la latitud. La sección 7.3 demuestra que tanto la multi-mesh como la pérdida autorregresiva juegan un papel importante en el desempeño de GraphCast. La sección 7.4 detalla el enfoque del desplazamiento óptimo aplicado a HRES y a GraphC 7.1. Detailed results for additional variables 7.1.1 RMSE y ACC Figure 13 complements Figure 2a–b and shows the RMSE and normalized RMSE difference with respect to HRES for GraphCast and HRES on a combination of 12 highlight variables. Figure 14 shows the ACC and normalized ACC difference with respect to HRES for GraphCast and HRES on the same a combination of 12 variables and complements Figure 2c. The ACC skill score is the normalized ACC difference between model 𝐴 and baseline 𝐵 as (ACC𝐴 − ACC𝐵)/(1 − RMSE𝐵). 7.1.2 Resultados detallados de pruebas de significancia para comparaciones RMSE La Tabla 5 proporciona información adicional sobre las afirmaciones de significancia estadística hechas en la sección principal sobre las diferencias en RMSE entre GraphCast y HRES. Los detalles de la metodología se encuentran en la Sección 5.4. Aquí damos los valores p, las estadísticas de ensayo y los tamaños de muestra efectivos para todas las variables. Por razones de espacio nos limitamos a tres tiempos clave (12 horas, 2 días y 10 días) y un subconjunto de 7 niveles de presión elegidos para incluir todos los casos donde p > 0,05 en estos tiempos clave. 7.1.3 Efecto de la actualidad de los datos en GraphCast Esto, en principio, les permite modelar patrones meteorológicos recientes que cambian con el tiempo, como el ciclo ENSO y otras oscilaciones, así como los efectos del cambio climático. Para explorar cómo la reciente evolución de los datos de entrenamiento influye en el rendimiento de GraphCast, entrenamos cuatro variantes de GraphCast, con datos de entrenamiento que siempre comenzaron en 1979, pero terminaron en 2017, 2018, 2019 y 2020, respectivamente (marcamos la variante que termina en 2017 como “GraphCast:<2018”, etc.). La Figura 15 muestra las calificaciones y calificaciones (en relación con HRES) de las cuatro variantes de GraphCast, para varias variables y complementa la Figura 4a. Hay una tendencia general donde las variantes entrenadas a años más cercanos al año de prueba han mejorado generalmente las calificaciones frente a HRES. La razón de esta mejora no se comprende plenamente, aunque especulamos que es análoga a la corrección de vicios a largo plazo, donde se explotan los vicios estadísticos recientes en el clima para mejorar la precisión. También es importante notar que HRES no es un único NWP a lo largo de los años: tiende a ser actualizado una o dos veces al año, con un aumento general de habilidades en z500 y otros campos [18, 22, 19, 20, 21]. This may also contribute to why GraphCast:<2018 and GraphCast:<2019, in particular, have lower skill scores against HRES at early lead times for the 2021 test evaluation. We note that for other variables, GraphCast:<2018 and GraphCast:<2019 tend to still outperform HRES. These results highlight a key feature of GraphCast, in allowing performance to be automatically improved by re-training on recent data. 7.2 Resultados desagregados 7.2.1. RMSE by region La evaluación por región de la habilidad de predicción se proporciona en las Figuras 17 y 18, utilizando las mismas regiones y convención de nombramiento que en las tarjetas de puntuación ECMWF (https://sites.ecmwf.int/ifs/scorecards/ scorecards-47r3HRES.html). Hemos añadido algunas regiones adicionales para una mejor cobertura de todo el planeta. Estas regiones se muestran en la Figura 16. 7.2.2. RMSE calificación por latitud y nivel de presión En la Figura 19, dibujamos diferencias RMSE normalizadas entre GraphCast y HRES, como una función tanto del nivel de presión como de la latitud. En estas parcelas, indicamos en cada latitud la presión media de la tropopausa, que separa la troposfera de la estratosfera. Utilizamos valores calculados para el conjunto de datos ERA-15 (1979-1993), dado en la Figura 1 de [44]. Estos no serán exactamente los mismos que para la ERA5, pero están destinados sólo como una ayuda bruta para la interpretación. Podemos ver de la tabla de puntuación en la Figura 2 que GraphCast realiza peores resultados que HRES en los niveles de presión más bajos evaluados (50hPa). La Figura 19 muestra que el nivel de presión en el que GraphCast comienza a empeorar a menudo también depende de la latitud, en algunos casos aproximadamente siguiendo el nivel medio de la tropopausa. Utilizamos una ponderación de pérdidas más baja para niveles de presión más bajos y esto puede estar jugando algún papel; también es posible que haya diferencias entre los conjuntos de datos ERA5 y HRES-fc0 en la predictibilidad de las variables en la estratosfera. 7.2.3 Bias por latitud y longitud En las figuras 20 a 22, plotamos el error medio de bias (MBE, o simplemente ‘bias’, definido en la ecuación (26)) de GraphCast como una función de latitud y longitud, en tres tiempos de conducción: 12 horas, 2 días y 10 días. En las parcelas para las variables dadas en los niveles de presión, hemos mascarado regiones cuya elevación superficial es lo suficientemente alta para que el nivel de presión esté por debajo del suelo en promedio. Determinamos que esto es el caso cuando el geopotencial superficial excede un geopotencial medio climatológico en la misma ubicación y nivel de presión. Para cuantificar la magnitud media de los prejuicios por ubicación que se muestran en las Figuras 20 a 22, calculamos el cuadrado raíz-medio de los errores de prejuicios medios por ubicación (RMS-MBE, definido en la Ecuación (26)).Estos son dibujados en la Figura 23 para GraphCast y HRES como una función del tiempo de conducción.Podemos ver que los prejuicios de GraphCast son menores en promedio que los de HRES para la mayoría de las variables hasta 6 días. También calculamos un coeficiente de correlación entre los errores de bias medianos de GraphCast y HRES por ubicación (definido en la ecuación (27)), que se esboza como una función del tiempo de conducción en la Figura 24. 7.2.4. calificación RMSE por latitud y longitud En las figuras 25 a 27, dibujamos la diferencia de RMSE normalizada entre GraphCast y HRES por latitud y longitud. Como en la Sección 7.2.3, para las variables dadas en los niveles de presión, hemos enmascarado regiones cuya elevación superficial es lo suficientemente alta que el nivel de presión esté por debajo del suelo en promedio. Las áreas notables en las que HRES supera a GraphCast incluyen humedad específica cerca de los polos (especialmente el polo sur); geopotencial cerca de los polos; temperatura de 2 m cerca de los polos y en muchas áreas terrestres; y una serie de variables de superficie o cerca de superficie en regiones de alta elevación de la superficie (ver también Sección 7.2.5). A 12 horas y 2 días, tanto GraphCast como HRES se evalúan a los tiempos de iniciación y validez de 06z/18z, sin embargo, a los tiempos de conducción de 10 días debemos comparar GraphCast a 06z/18z con HRES a 00z/12z (ver sección 5). 7.2.5. calificación RMSE por elevación de la superficie En la Figura 25, podemos ver que GraphCast parece haber reducido la habilidad en regiones de alta elevación para muchas variables en el tiempo de 12 horas.Para investigar esto más hemos dividido la superficie de la Tierra en 32 bins por elevación de la superficie (dado en términos de altura geopotencial) y calculado RMSEs dentro de cada bin según la ecuación (24). En tiempos de conducción cortos y especialmente a las 6 horas, la habilidad de GraphCast en relación con HRES tiende a disminuir con la elevación de la superficie más alta, en la mayoría de los casos bajando por debajo de la habilidad de HRES en elevaciones suficientemente altas. Observamos que GraphCast está entrenado en variables definidas utilizando una mezcla de coordenadas de nivel de presión (para variables atmosféricas) y coordenadas de altura por encima de la superficie (para variables de nivel de superficie como la temperatura de 2m o el viento de 10m). La relación entre estos dos sistemas de coordenadas depende de la elevación de la superficie. A pesar de que GraphCast condiciona la elevación de la superficie, conjeturamos que puede luchar para aprender esta relación, y extrapolarla bien a las elevaciones de la superficie más altas. En el trabajo posterior sugeriríamos intentar entrenar el modelo en un subconjunto de los niveles de modelo nativos de ERA5 en lugar de los niveles de presión; estos usan un sistema de coordenadas híbridas [14] que sigue la superficie de la tierra en los Las variables que utilizan coordenadas de nivel de presión se interpolan debajo del suelo cuando el nivel de presión supera la presión superficial. GraphCast no se da ninguna indicación explícita de que esto ha ocurrido y esto puede agregar al desafío de aprender a predecir en altitudes de superficie altas. Por último, nuestra ponderación de pérdidas es menor para las variables atmosféricas a niveles de presión más bajos, y esto puede afectar la habilidad en lugares de elevación más alta. 7.3 Ablaciones de GraphCast 7.3.1. Multi-mesh ablation Para comprender mejor cómo la representación multi-mesh afecta al rendimiento de GraphCast, comparamos el rendimiento de GraphCast con una versión del modelo entrenado sin la representación multi-mesh. La arquitectura del último modelo es idéntica a GraphCast (incluyendo el mismo codificador y decodificador, y el mismo número de nodos), excepto que en el bloque de proceso, el gráfico sólo contiene los bordes de la más fina mesh icosahedron M6 (245,760 bordes, en lugar de 327,660 para GraphCast). Como resultado, el modelo ablatado sólo puede propagar información con bordes de rango corto, mientras que GraphCast contiene bordes adicionales de rango largo. Figure 29 (left panel) shows the scorecard comparing GraphCast to the ablated model. GraphCast benefits from the multi-mesh structure for all predicted variables, except for lead times beyond 5 days at 50 hPa. The improvement is especially pronounced for geopotential across all pressure levels and for mean sea-level pressure for lead times under 5 days. The middle panel shows the scorecard comparing the ablated model to HRES, while the right panel compares GraphCast to HRES, demonstrating that the multi-mesh is essential for GraphCast to outperform HRES on geopotential at lead times under 5 days. 7.3.2 Efectos del entrenamiento autorregresivo We analyzed the performance of variants of GraphCast that were trained with fewer autoregressive (AR) steps7, which should encourage them to improve their short lead time performance at the expense of longer lead time performance. As shown in Figure 30 (with the lighter blue lines corresponding to training with fewer AR steps) we found that models trained with fewer AR steps tended to trade longer for shorter lead time accuracy. These results suggest potential for combining multiple models with varying numbers of AR steps, e.g., for short, medium and long lead times, to capitalize on their respective advantages across the entire forecast horizon. The connection between number of autoregressive steps and blurring is discussed in Supplements Section 7.4.4. 7.4. Optimal blurring 7.4.1.Efecto en la comparación de habilidades entre GraphCast y HRES In Figures 31 and 32 we compare the RMSE of HRES with GraphCast before and after optimal blurring has been applied to both models. We can see that optimal blurring rarely changes the ranking of the two models, however it does generally narrow the gap between them. 7.4.2. Filtering methodology Elegimos filtros que minimizan RMSE dentro de la clase de filtros lineales, homogéneos (invariante de ubicación), isotrópicos (invariante de dirección) en la esfera. Estos filtros se pueden aplicar fácilmente en el dominio armónico esférico, donde corresponden a los pesos de filtros multiplicativos que dependen del número total de ondas, pero no del número de ondas longitudinales [12]. Para cada inicialización d0, tiempo de conducción τ, variable y nivel j, aplicamos una transformación armónica esférica discreta [13] a las predicciones x ̈d0+τ y objetivos xd0+τ, obteniendo coeficientes armónicos esféricos f ̈d0+τ j j j,l,m y f d0+τ para cada par de número de onda total l y número de onda longitudinal m. Para resolver la resolución de 0.25° (28km) de nuestra red en el ecuador, utilizamos una truncción triangular en el número de onda total 719, lo que significa que l varía de 0 a lmax = 719, y para cada l el valor de m varía de −l a l. Luego multiplicamos cada coeficiente predicho f ̈d0+τ por un peso del filtro bτ , que es independiente de j,l,m j,l el número de onda longitudinal m. Los pesos del filtro se montaron utilizando los cuadrados mínimos para minimizar el error cuadrado medio, como se calcula en el dominio armónico esférico: We used data from 2017 to fit these weights, which does not overlap with the 2018 test set. When evaluating the filtered predictions, we computed MSE in the spherical harmonic domain, as detailed in Equation (22). Al montar diferentes filtros para cada tiempo de conducción, el grado de desvanecimiento era libre de aumentar con la mayor incertidumbre en tiempos de conducción más largos. Aunque este método es bastante general, también tiene limitaciones. Debido a que los filtros son homogéneos, no son capaces de tener en cuenta las características específicas de la ubicación, como la orografía o los límites terrestres-marinos, y por lo tanto tienen que elegir entre el abismo de detalles de alta resolución predecibles en estos lugares, o el abismo de detalles de alta resolución impredecibles en general. Esto los hace menos eficaces para algunas variables de superficie como 2 T, que contienen muchos de estos detalles predecibles. Una forma alternativa de aproximar una expectativa condicional (y por lo tanto mejorar RMSE) para nuestra base de predicción de ECMWF sería evaluar la media de conjunto del sistema de predicción de conjunto de ENS, en lugar de la predicción determinista de HRES. Sin embargo, el conjunto de ENS se ejecuta a una resolución más baja que HRES, y debido a esto, no está claro para nosotros si su media de conjunto mejorará en la RMSE de una versión post-procesada de HRES. 7.4.3 Funciones de transferencia de los filtros óptimos Los pesos del filtro se visualizan en la Figura 33, que muestra la relación de la potencia de salida a la potencia de entrada para el filtro, en la escala de decibelios logarítmicos, como una función de longitud de onda. (Con referencia a Equation (35), this is equal to 20 log10(𝑏𝜏 ) for the wavelength 𝐶𝑒/𝑙 corresponding to total wavenumber 𝑙.) For both HRES and GraphCast, we see that it is optimal for MSE to attenuate power over some short-to-mid wavelengths. As lead times increase, the amount of attenuation increases, as does the wavelength at which it is greatest. In optimizing for MSE, we seek to approximate a conditional expectation which averages over predictive uncertainty. Over longer lead times this predictive uncertainty increases, as does the spatial scale of uncertainty about the location of weather phenomena. We believe that this largely explains these changes in optimal filter response as a function of lead time. Podemos ver que HRES generalmente requiere más desvanecimiento que GraphCast, porque las predicciones de GraphCast ya desvanecen en cierta medida (ver Sección 7.5.3), mientras que HRES no lo hace. The optimal filters are also able to compensate, to some extent, for spectral biases in the predictions of GraphCast and HRES. For example, for many variables in our regridded ERA5 dataset, the spectrum cuts off abruptly for wavelengths below 62km that are unresolved at ERA5’s native 0.28125◦ resolution. GraphCast has not learned to replicate this cutoff exactly, but the optimal filters are able to implement it. También notamos que hay picos notables en la respuesta del filtro de GraphCast alrededor de la longitud de onda de 100 km para z500, que no están presentes para HRES. Creemos que estos están filtrando pequeños artefactos falsos que son introducidos por GraphCast alrededor de estas longitudes de onda como un efecto secundario de las transformaciones de red a red y de red a red realizadas dentro del modelo. 7.4.4 Relación entre el horizonte de entrenamiento autoregresivo y el borrador In Figure 34 we use the results of optimal blurring to investigate the connection between autoregressive training and the blurring of GraphCast’s predictions at longer lead times. En la primera fila de la Figura 34, vemos que los modelos entrenados con horizontes de entrenamiento autoregresivos más largos se benefician menos de la borrosa óptima, y que los beneficios de la borrosa óptima generalmente comienzan a acumularse sólo después del tiempo de conducción correspondiente al horizonte al que fueron entrenados. Sería conveniente si pudiéramos reemplazar el entrenamiento de horizonte más largo con una estrategia de postprocesamiento simple como el borrador óptimo, pero esto no parece ser el caso: en la segunda fila de la Figura 34 vemos que el entrenamiento autoregresivo de horizonte más largo todavía resulta en RMSEs más bajos, incluso después de que se haya aplicado el borrador óptimo. Si uno desea predicciones que en cierto sentido son mínimamente borrosas, uno podría usar un modelo entrenado para un pequeño número de pasos autorregresivos. Esto, por supuesto, resultaría en RMSEs más altos en tiempos de conducción más largos, y nuestros resultados aquí sugieren que estos RMSEs más altos no sólo se debían a la falta de borrador; uno estaría comprometiendo otros aspectos de la habilidad en tiempos de conducción más largos también. 7.5. Spectral analysis 7.5.1. Spectral decomposition of mean squared error En las Figuras 35 y 36 comparamos la habilidad de GraphCast con HRES en una variedad de escalas espaciales, antes y después de la filtración óptima (ver detalles en la Sección 7.4). donde lmax = 719 como en la ecuación (22). cada número de onda total l corresponde aproximadamente a una longitud de onda Ce/l, donde Ce es la circunferencia de la Tierra. Plotamos histogramas de densidad de potencia, donde la superficie de cada barra corresponde a S j,τ(l), y las barras se centran alrededor de log10(1 + l) (puesto que una escala de frecuencia de log permite una inspección visual más fácil, pero también debemos incluir el número de onda l = 0). En tiempos de lead de 2 días o más, para la mayoría de las variables GraphCast mejora la habilidad de HRES uniformemente en todas las longitudes de onda. (2m temperatura es una notable excepción). En tiempos de conducción más cortos de 12 horas a 1 día, para una serie de variables (incluyendo z500, T500, T850 y U500) HRES tiene mayor habilidad que GraphCast en escalas en el rango aproximado de 200-2000km, con GraphCast generalmente teniendo mayor habilidad fuera de este rango. 7.5.2 RMSE como función de resolución horizontal In Figure 37, we compare the skill of GraphCast with HRES when evaluated at a range of spatial resolutions. Specifically, at each total wavenumber 𝑙trunc, we plot RMSEs between predictions and targets which are both truncated at that total wavenumber. This is approximately equivalent to a wavelength 𝐶𝑒/𝑙trunc where 𝐶𝑒 is the earth’s circumference. Los RMSEs entre las predicciones truncadas y los objetivos se pueden obtener a través de sumas acumulativas de las fuerzas de error medias S j,τ(l) definidas en la ecuación (37), según: La Figura 37 muestra que en la mayoría de los casos GraphCast tiene RMSE más bajo que HRES en todas las resoluciones típicamente utilizadas para la verificación de predicciones. Esto se aplica antes y después de la filtración óptima (ver Sección 7.4). Las excepciones incluyen la temperatura de 2 metros en un número de tiempos de lead y resoluciones, T 500 en tiempos de lead de 12 horas, y U 500 en tiempos de lead de 12 horas, donde GraphCast hace mejor en una resolución de 0.25 ° pero HRES hace mejor en resoluciones de alrededor de 0.5◦ a 2.5◦ (correspondiendo a longitudes de onda más cortas de alrededor de 100 a 500 km). En particular, notamos que la resolución nativa de ERA5 es 0.28125◦ correspondiente a una longitud de onda más corta de 62km, indicado por una línea vertical en las parcelas. objetivos HRES-fc0 contienen algún señal a longitudes de onda más cortas que 62km, pero los objetivos ERA5 utilizados para evaluar GraphCast no, al menos nativamente (ver Sección 7.5.3). En la Figura 37 podemos ver que la evaluación en 0.28125◦ resolución en lugar de 0.25° no afecta significativamente la comparación de habilidades entre GraphCast y HRES. 7.5.3 Espectro de predicciones y objetivos Figure 38 compares the power spectra of GraphCast’s predictions, the ERA5 targets they were trained against, and HRES-fc0. A few phenomena are notable: There are noticeable differences in the spectra of ERA5 and HRES-fc0, especially at short wavelengths. These differences may in part be caused by the methods used to regrid them from their respective native IFS resolutions of TL639 (0.28125◦) and TCo1279 (approx. 0.1◦, [36]) to a 0.25° equiangular grid. However even before this regridding is done there are differences in IFS versions, settings, resolution and data assimilation methodology used for HRES and ERA5, and these differences may also affect the spectra. Since we evaluate GraphCast against ERA5 and HRES against HRES-fc0, this domain gap remains an important caveat to attach to our conclusions. Differences between HRES and ERA5 Vemos una reducción de la potencia en longitudes de onda de corto a medio en las predicciones de GraphCast, que se reduce aún más con el tiempo de conducción. Creemos que esto corresponde al desvanecimiento que GraphCast ha aprendido a realizar en la optimización para MSE. Blurring in GraphCast Estos picos son particularmente visibles para el z500; parecen aumentar con el tiempo de conducción. creemos que corresponden a pequeños artefactos falsos introducidos por las transformaciones internas de la red a la red y de la red a la red realizadas por GraphCast en cada paso autorregresivo. Peaks for GraphCast around 100km wavelengths Finally we note that, while these differences in power at short wavelengths are very noticeable in log scale and relative plots, these short wavelengths contribute little to the total power of the signal. Resultados adicionales de la predicción de eventos graves Observamos que GraphCast no está específicamente entrenado para esas tareas en adelante, lo que demuestra que, más allá de las habilidades mejoradas, GraphCast proporciona una predicción útil para tareas con impacto en el mundo real como el seguimiento de ciclones (Sección 8.1), la caracterización de ríos atmosféricos (Sección 8.2), y la clasificación de temperaturas extremas (Sección 8.3). 8.1 Previsión de ciclones tropicales In this section, we detail the evaluation protocols we used for cyclone tracking (Supplements Sec-tion 8.1.1) and analyzing statistical significance (Supplements Section 8.1.2), provide additional results (Supplements Section 8.1.3), and describe our tracker and its differences with the one from ECMWF (Supplements Section 8.1.4). 8.1.1. Evaluation protocol La forma estándar de iniciar el Graph en torno a dos sistemas de predicción de ciclones tropicales es limitar la comparación a eventos donde ambos modelos predicen la existencia de un ciclón. Como se detalla en la Sección de Suplementos 5.2.2, GraphCast se inicia a partir de 06z y 18z, en lugar de 00z y 12z, para evitar darle una ventaja de lookahead sobre HRES. Sin embargo, las pistas de ciclones HRES en el archivo TIGGE [8] sólo se inician a 00z y 12z. Esta discrepancia nos impide seleccionar eventos donde la iniciación y el mapa del tiempo conducen a la misma validez para ambos métodos, ya que siempre hay un mal ajuste de 6h. En lugar de comparar HRES y GraphCast en un conjunto de eventos similares, seguimos Debido a que calculamos errores con respecto a la misma verdad básica (es decir, IBTrACS), la evaluación no está sujeta a las mismas restricciones descritas en la Sección 5.2.2 de los Suplementos, es decir, los objetivos para ambos modelos incorporan la misma cantidad de lookahead. Esto es en contraste con la mayoría de nuestras evaluaciones en este documento, donde los objetivos para HRES (es decir, HRES-fc0) incorporan +3h lookahead, y los objetivos para GraphCast (de ERA5) incorporan +3h o +9h, lo que nos lleva a informar sólo los resultados para los tiempos de referencia con un lookahead correspondiente (múltiples de 12h). For a given forecast, the error between the predicted center of the cyclone and the true center is computed using the geodesic distance. 8.1.2 Metodología estadística Calcular la confianza estadística en el seguimiento de ciclones requiere una atención especial en dos aspectos: Hay dos maneras de definir el número de muestras. El primero es el número de eventos de ciclones tropicales, que se puede asumir que son en su mayoría eventos independientes. El segundo es el número de puntos de datos por tiempo de conducción utilizado, que es mayor, pero cuenta con puntos correlacionados (para cada evento de ciclones tropicales se hacen predicciones múltiples en el intervalo de 6h). Nosotros elegimos utilizar la primera definición que proporciona estimaciones más conservadoras de importancia estadística. Ambos números se muestran para tiempos de conducción de 1 a 5 días en el eje x de la Figura 39 de los Suplementos. 2. The per-example tracking errors of HRES and GraphCast are correlated. Therefore statistical variance in their difference is much smaller than their joint variance. Thus, we report the confidence that GraphCast is better than HRES (see Supplements Figure 39b) in addition to the per-model confidence (see Supplements Figure 39a). Given the two considerations above, we do bootstrapping with 95% confidence intervals at the level of cyclones. For a given lead time, we consider all the corresponding initialization time/lead time pairs and keep a list of which cyclone they come from (without duplication). For the bootstrap estimate, we draw samples from this cyclone list (with replacement) and apply the median (or the mean) to the corresponding initialization time/lead time pairs. Note that this gives us much more conservative confidence bounds than doing bootstrapping at the level of initialization time/lead time pairs, as it is equivalent to assuming all bootstrap samples coming from the sample cyclone (usually in the order of tens) are perfectly correlated. Por ejemplo, supongamos que para un tiempo de conducción dado tenemos errores de (50, 100, 150) para el ciclón A, (300, 200) para el ciclón B y (100, 100) para el ciclón C, con A teniendo más muestras. 8.1.3. Results In Supplements Figure 3a-b, we chose to show the median error rather than the mean. This decision was made before computing the results on the test set, based on the performance on the validation set. On the years 2016–2017, using the version of GraphCast trained on 1979–2015, we observed that, using early versions of our tracker, the mean track error was dominated by very few outliers and was not representative of the overall population. Furthermore, a sizable fraction of these outliers were due to errors in the tracking algorithm rather than the predictions themselves, suggesting that the tracker was suboptimal for use with GraphCast. Because our goal is to assess the value of GraphCast forecast, rather than a specific tracker, we show median values, which are also affected by tracking errors, but to a lesser extent. In figure Figure 40 we show how that the distribution of both HRES and GraphCast track errors for the test years 2018–2021 are non-gaussian with many outliers. This suggests the median is a better summary statistic than the mean. Supplements Figure 39 complements Figure 3a-b by showing the mean track error and the corresponding paired analysis. We note that using the final version of our tracker (Supplements Sec-tion 8.1.4), GraphCast mean results are similar to the median one, with GraphCast significantly outperforming HRES for lead time between 2 and 5 days. Debido a los conocidos efectos de desvanecimiento, que tienden a suavizar el extremo utilizado por un rastreador para detectar la presencia de un ciclón, los métodos ML pueden caer ciclones existentes con más frecuencia que los NWPs. Caer un ciclón está muy correlacionado con tener un gran error de posición. Por lo tanto, eliminar de la evaluación tales predicciones, donde un modelo ML habría desempeñado particularmente mal, podría darle una ventaja injusta. Para evitar este problema, verificamos que nuestro rastreador buscado por hiperparámetros (ver Suplementos Sección 8.1.4) pierde un número similar de ciclones como HRES. Suplementos Figura 41 muestra que en el conjunto de pruebas (2018-2021), GraphCast y HRES caen un número similar de ciclones, asegurando que nuestras comparaciones sean lo más justas posible. Los suplementos Figuras 42 y 43 muestran el error mediano y el análisis en pareja como una función del tiempo de liderazgo, dividido por la categoría de ciclones, donde la categoría se define en la Escala del Viento Huracán Saffir-Simpson [47], con la categoría 5 representando las tormentas más fuertes y más dañinas (nota, usamos la categoría 0 para representar las tormentas tropicales). Descubrimos que GraphCast tiene un rendimiento igual o mejor que HRES en todas las categorías. Para la categoría 2, y especialmente para la categoría 5 (los eventos más intensos), GraphCast es significativamente mejor que HRES, como se demuestra por el análisis en pareja por pista. También obtenemos resultados similares cuando medimos el rendimiento medio en lugar del mediano. 8.1.4 Detalles del rastreo El rastreador que usamos para GraphCast se basa en nuestra reimplantación del rastreador de ECMWF [35]. Debido a que está diseñado para 0.1° HRES, encontramos que es útil agregar varias modificaciones para reducir la cantidad de ciclones fallidos cuando se aplica a las predicciones de GraphCast. Sin embargo, siguen ocurriendo errores de rastreo, que se espera de rastrear el ciclón desde las predicciones de 0.25° en lugar de 0.1°. Observamos que no utilizamos nuestro rastreador para la línea de partida de HRES, ya que sus rastros se recuperan directamente de los archivos TIGGE [8]. We first give a high-level summary of the default tracker from ECMWF, before explaining the modifications we made and our decision process. Given a model’s predictions of the variables 10 U, 10 v, MsL as well as U, v and z at pressure levels 200, 500, 700, 850 and 1000 hPa over multiple time steps, the ECMWF tracker [35] sequentially processes each time step to iteratively predict the location of a cyclone over an entire trajectory. Each 6h prediction of the tracker has two main steps. In the first step, based on the current location of the cyclone, the tracker computes an estimate of the next location, 6h ahead. The second step consists in looking in the vicinity of that new estimate for locations that satisfy several conditions that are characteristic of cyclone centers. ECMWF tracker To compute the estimate of the next cyclone location, the tracker moves the current estimate using a displacement computed as the average of two vectors: 1) the displacement between the last two track locations (i.e., linear extrapolation) and 2) an estimate of the wind steering, averaging the wind speed U and v at the previous track position at pressure levels 200, 500, 700 and 850 hPa. Una vez calculada la estimación de la ubicación del próximo ciclón, el rastreador mira a todos los mínimos locales de presión media en el nivel del mar (MsL) dentro de 445 km de esta estimación. Verificación de la vorticidad: la vorticidad máxima a 850 hPa dentro de 278 km de los mínimos locales es mayor que 5 · 10−5 s−1 para el Hemisferio Norte, o es menor que −5 · 10−5s−1 para el Hemisferio Sur. Verificación de la velocidad del viento: si el candidato está en tierra, la velocidad máxima del viento de 10 m dentro de 278 km es mayor que 8 m/s. 3. Thickness check: if the cyclone is extratropical, there is a maximum of thickness between 850 hPa and 200 hPa within a radius of 278 km, where the thickness is defined as z850-z200. Si ningún mínimo satisface todas esas condiciones, el rastreador considera que no hay ciclón. El rastreador de ECMWF permite que los ciclones desaparezcan brevemente bajo algunas condiciones de caso angular antes de reaparecer. Analizamos los errores en los ciclones de nuestros años de validación (2016-2017), utilizando una versión de GraphCast entrenada en 1979-2015, y modificamos la reimplantación predeterminada del rastreador ECMWF como se describe a continuación. Our modified tracker Encontramos este parámetro como crítico y buscamos un mejor valor entre las siguientes opciones: 445 × f para f en 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (valor original). 2. The next step vicinity radius determines how strict multiple checks are. We also found this parameter to be critical and searched a better value among the following options: 278 × 𝑓 for f in 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (original value). 3. La estimación del siguiente paso de ECMWF utiliza una ponderación de 50-50 entre la extrapolación lineal y los vectores de dirección del viento. En nuestro caso, donde el viento se predijo a una resolución de 0.25 °, encontramos que la dirección del viento a veces es una estimación de obstáculos. Esto no es sorprendente porque el viento no es un campo espacialmente liso, y el rastreador es probablemente adaptado para aprovechar las predicciones de resolución de 0.1 °. Así, buscamos el hiperparámetro la ponderación entre las siguientes opciones: 0.0, 0.1, 0.33, 0.5 (valor original). Observamos que se produjeron múltiples mistracks cuando la pista revertió de forma aguda su curso, indo contra su dirección anterior.Por lo tanto, sólo consideramos candidatos que crean un ángulo entre la dirección anterior y la nueva por debajo de los grados d, donde d fue buscado entre estos valores: 90, 135, 150, 165, 175, 180 (es decir, sin filtro, valor original). Observamos múltiples misotracks que hicieron grandes saltos, debido a una combinación de ruidosas direcciones del viento y características que son difíciles de discernir para los ciclones débiles. Así, exploramos el corte de la estimación de moverse más allá de x kilómetros (al cambiar el delta con el último centro), buscando los siguientes valores para x: 445 × f para f en 0.25, 0.5, 1.0, 2.0, 4.0, ∞ (es decir, sin corte, valor original). Durante la búsqueda de hiperparámetros, también verificamos en los datos de validación que el rastreador aplicado a GraphCast dejó caer un número similar de ciclones como HRES. 8.2 Ríos atmosféricos El transporte de vapor de agua integrado verticalmente (IvT) se utiliza comúnmente para caracterizar la intensidad de los ríos atmosféricos [38, 37]. Aunque GraphCast no predice directamente el IvT y no está específicamente entrenado para predecir los ríos atmosféricos, podemos derivar esta cantidad de las variables atmosféricas predichas específicas de humedad, Q, y viento horizontal, (U, v), a través de la relación [38]: where 𝑔 = 9.80665 m/s2 is the acceleration due to gravity at the surface of the Earth, 𝑝𝑏 = 1000 hPa is the bottom pressure, and 𝑝𝑡 = 300 hPa is the top pressure. Evaluation of IvT using the above relation requires numerical integration and the result therefore depends on the vertical resolution of the prediction. GraphCast has a vertical resolution of 37 pressure levels which is higher than the resolution of the available HRES trajectories with only 25 pressure levels. For a consistent and fair comparison of both models, we therefore only use a common subset of pressure levels, which are also included in the WeatherBench benchmark, when evaluating IvT 8, namely [300, 400, 500, 600, 700, 850, 925, 1000] hPa. De acuerdo con el resto de nuestro protocolo de evaluación, cada modelo se evalúa con su propio "análisis". Para GraphCast, calculamos el IvT basado en sus predicciones y lo comparamos con el IvT calculado de forma análoga desde ERA5. Al igual que el trabajo anterior [10], la Figura 44 informa de la calificación y calificación promedio de RMSE en las costas de Norteamérica y el Pacífico Oriental (de 180°W a 110°W longitud, y 10°N a 60°N latitud) durante la temporada fría (jan-abril y octubre-diciembre de 2018), que corresponde a una región y un período con frecuentes ríos atmosféricos. 8.3 Calor extremo y frío Estudiamos la predicción de calor extremo y frío como un problema de clasificación binario [35, 32] comparando si un modelo de predicción dado puede predecir correctamente si el valor de una variable determinada estará por encima (o por debajo) de un determinado porcentaje de la distribución de una climatología histórica de referencia (por ejemplo, por encima del 98% del porcentaje para el calor extremo y por debajo del 2% del porcentaje para el frío extremo). Después del trabajo anterior [35], la climatología de referencia se obtiene por separado para (1) cada variable (2) cada mes del año, (3) cada vez del día, (4) cada coordenada de latitud/longitud, y (5) cada nivel de presión (si es aplicable). Esto hace que la detección de extremos sea más contrastante al eliminar el efecto de los ciclos estacionales y di Debido a que la predicción extrema es por definición un problema de clasificación desequilibrada, basamos nuestro análisis en parcelas de recogida de precisión que son bien adecuadas para este caso [42]. La curva de recogida de precisión se obtiene al variar un parámetro libre “ganar” consistente en un factor de escala con respecto al valor mediano de la climatología, es decir, predicción escalada = ganancia × (predicción − climatología mediana) + climatología mediana. Esto tiene el efecto de desplazar el límite de decisión y permite estudiar diferentes intercambios entre falsos negativos y falsos positivos. Intuitivamente, un ganancia 0 producirá positivos positivos de predicción cero (por ejemplo, positivos falsos cero), y un ganancia infinita producirá amplificar cada valor por enc Centramos nuestro análisis en variables que son relevantes para las condiciones de temperatura extrema, específicamente 2 T [35, 32], y también T 850, z500 que a menudo se utilizan por ECMWF para caracterizar ondas de calor [34]. Después de un trabajo anterior[32], para el calor extremo medimos a lo largo de junio, julio y agosto sobre tierra en el hemisferio norte (latitud > 20◦) y a lo largo de diciembre, enero y febrero sobre tierra en el hemisferio sur (latitud < -20◦). Para el frío extremo, intercambiamos los meses para los hemisferios norte y sur. Ver los resultados completos en la Figura 45. También proporcionamos una comparación de tiempo de conducción más fina, sumando las curvas de precisión seleccionando el punto con la mayor puntuación SEDI[35] y most 9. Forecast visualizations En esta sección final, proporcionamos algunos ejemplos de visualización de las predicciones realizadas por GraphCast para las variables 2 T (Figura 47), 10 U (Figura 48), MsL (Figura 49), z500 (Figura 50), T 850 (Figura 51), v 500 (Figura 52), Q 700 (Figura 53). Referencias [1] Ferran Alet, Adarsh Keshav Jeewajee, Maria Bauza Villalonga, Alberto Rodriguez, Tomas Lozano-Perez y Leslie Kaelbling. Redes de elementos gráficos: computación estructurada y memoria adaptativa. En la Conferencia Internacional sobre Aprendizaje de Máquinas, páginas 212-222 PMLR, 2019. [2] Kelsey R Allen, Yulia Rubanova, Tatiana Lopez-Guevara, William Whitney, Alvaro Sanchez-Gonzalez, Peter Battaglia, y Tobias Pfaff. Aprender dinámica rígida con redes de gráficos de interacción facial. arXiv preprint arXiv:2212.03574, 2022. [3] Jimmy Lei Ba, Jamie Ryan Kiros y Geoffrey E. Hinton. normalización de la capa. arXiv, 2016. [4] Igor Babuschkin, Kate Baumli, Alison Bell, Surya Bhupatiraju, Jake Bruce, Peter Buchlovsky, David Budden, Trevor Cai, Aidan Clark, Ivo Danihelka, Claudio Fantacci, Jonathan Godwin, Chris Jones, Ross Hemsley, Tom Hennigan, Matteo Hessel, Shaobo Hou, Steven Kapturowski, Thomas Keck, Iurii Kemaev, Michael King, Markus Kunesch, Lena Martens, Hamza Merzic, Vladimir Mikulik, Tamara Norman, John Quan, George Papamakarios, Roman Ring, Francisco Ruiz, Alvaro Sanchez, Rosalia Schneider, Eren Sezener, Stephen Spencer, Srivatsan Srinivasan, Luyu, Wangciech Wojciech Stokowiec y Fabio Viola. // github.com/deepmind en el año 2020. [5] Peter Battaglia, Razvan Pascanu, Matthew Lai, Danilo Jimenez Rezende, et al. Redes de interacción para el aprendizaje de objetos, relaciones y física. [6] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Biases inductivas relativas, aprendizaje profundo y redes de gráficos. arXiv preprint arXiv:1806.01261, 2018. [7] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu y Qi Tian. Pangu-Weather: Un modelo 3D de alta resolución para una previsión climática global rápida y precisa. arXiv preprint arXiv:2211.02556, 2022. [8] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. The THORPEX interactive grand global ensemble. [9] James Bradbury, Roy Frostig, Peter Hawkins, Matthew James Johnson, Chris Leary, Dougal Maclaurin, George Necula, Adam Paszke, Jake VanderPlas, Skye Wanderman-Milne, y Qiao Zhang. JAX: transformaciones compostables de programas Python+NumPy. http://github. com/google/jax, 2018. [10] WE Chapman, AC Subramanian, L Delle Monache, SP Xie, y FM Ralph. Mejorar las predicciones del río atmosférico con el aprendizaje automático. Geophysical Research Letters, 46(17-18):10627-10635, 2019. [11] Tianqi Chen, Bing Xu, Chiyuan Zhang, y Carlos Guestrin. Redes profundas de entrenamiento con costo de memoria sublineal. arXiv preprint arXiv:1604.06174, 2016. [12] Balaji Devaraju. comprensión de la filtración en la esfera: experiencias de la filtración de datos GRACE. tesis de doctorado, Universidad de Stuttgart, 2015. [13] J. R. Driscoll y D. M. Healy. Computing fourier transforma y convoluciones en la esfera 2. Appl. de Mateo, 15(2):202–250, junio de 1994. [14] ECMWF. IFS documentation CY41R2 - part III: Dynamics and numerical procedures. https: //www.ecmwf.int/node/16647, 2016 2016. [15] Meire Fortunato, Tobias Pfaff, Peter Wirnsberger, Alexander Pritzel, y Peter Battaglia. meshgraphnets multiescala. arXiv preprint arXiv:2210.00612, 2022. [16] Alan J Geer. Significado de los cambios en las puntuaciones de pronóstico a mediano alcance. Tellus A: Meteorología Dinámica y Oceanografía, 68(1):30229, 2016. [17] Jonathan Godwin, Thomas Keck, Peter Battaglia, Victor Bapst, Thomas Kipf, Yujia Li, Kimberly Stachenfeld, Petar Veličković, y Alvaro Sanchez-Gonzalez. Jraph: Una biblioteca para redes neuronales gráficas en JAX. http://github.com/deepmind/jraph, 2020. [18] T. Haiden, Martin Janousek, Jean-Raymond Bidlot, R. Buizza, L. Ferranti, F. Prates y Frédéric Vitart. Evaluación de las previsiones del ECMWF, incluida la actualización de 2018. https://www.ecmwf. int/node/18746, 10/2018 2018. [19] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, Crtistina Prates, y David Richardson. Evaluación de las previsiones ECMWF, incluida la actualización de 2020. https://www.ecmwf.int/node/19879, 01/2021 2021. [20] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, y Fernando Prates. Evaluación de las previsiones del ECMWF, incluida la actualización de 2021. https://www. ecmwf.int/node/20142, 09/2021 2021. [21] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, Fernando Prates, y David Richardson. Evaluación de las previsiones del ECMWF, incluida la actualización de 2021. https://www.ecmwf.int/node/20469, 09/2022 2022. [22] Thomas Haiden, Martin Janousek, Frédéric Vitart, Laura Ferranti y Fernando Prates. Evaluación de las previsiones del ECMWF, incluida la actualización de 2019. https://www.ecmwf.int/node/ 19277, 11/2019 2019. [23] Tom Hennigan, Trevor Cai, Tamara Norman, e Igor Babuschkin. Haiku: Sonnet para JAX. http://github.com/deepmind/dm-haiku, 2020. [24] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. El reanálisis global de la ERA5. Revista trimestral de la Royal Meteorological Society, 146(730):1999–2049, 2020. [25] S. Hoyer y J. Hamman. xarray: Array y conjuntos de datos etiquetados con N-D en Python. Journal of Open Research Software, 5(1), 2017. [26] Ryan Keisler. Predicción del tiempo global con redes neuronales de gráficos. arXiv preprint arXiv:2202.07575, 2022. [27] Diederik P Kingma y Jimmy Ba. Adam: Un método para la optimización estocástica. arXiv preprint arXiv:1412.6980, 2014. [28] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. International best track archive for climate stewardship (IBTrACS) proyecto, versión 4. https://doi.org/10.25921/82ty-9e16, 2018. [29] Kenneth R Knapp, Michael C Kruk, David H Levinson, Howard J Diamond, y Charles J Neumann. El mejor archivo internacional para la gestión del clima (IBTrACS) unificando datos de ciclones tropicales. [30] Michael C Kruk, Kenneth R Knapp, y David H Levinson. Una técnica para combinar los mejores datos de rastreo de ciclones tropicales globales. [31] David H Levinson, Howard J Diamond, Kenneth R Knapp, Michael C Kruk, y Ethan J Gibney. hacia un conjunto de datos de ciclones tropicales globales homogéneos. Bulletin of the American Meteorological Society, 91(3):377-380, 2010. [32] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal y Jason Hickey. predicción de calor extremo global utilizando modelos meteorológicos neuronales. [33] Ilya Loshchilov y Frank Hutter. regularización de la decadencia de peso desconocida. arXiv preprint arXiv:1711.05101, 2017. [34] Linus Magnusson. 202208 - onda de calor - uk. https://confluence.ecmwf.int/display/ FCST/202208+-+Heatwave+-+UK, 2022. [35] Linus Magnusson, Thomas Haiden, y David Richardson. Verificación de eventos meteorológicos extremos: predictores discretos. [36] S. Malardel, Nils Wedi, Willem Deconinck, Michail Diamantakis, Christian Kuehnlein, G. Mozdzynski, M. Hamrud, y Piotr Smolarkiewicz. Una nueva red para la IFS. https: //www.ecmwf.int/node/17262, 2016 [37] Benjamin J Moore, Paul J Neiman, F Martin Ralph, y Faye E Barthold. Procesos físicos asociados con precipitaciones de inundaciones pesadas en Nashville, Tennessee, y sus alrededores durante el 1–2 de mayo de 2010: El papel de un río atmosférico y sistemas convectivos de mesoscala. [38] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist, y Michael D Dettinger. Características meteorológicas y impactos de precipitación en la superficie de los ríos atmosféricos que afectan a la costa oeste de América del Norte basados en ocho años de observaciones por satélite. [39] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez, y Peter Battaglia. Aprendizaje de simulación basada en redes de gráficos. En la Conferencia Internacional sobre Representaciones de Aprendizaje, 2021. [40] Prajit Ramachandran, Barret Zoph y Quoc V Le. Buscando funciones de activación. arXiv preprint arXiv:1710.05941, 2017. [41] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid, y Nils Thuerey. WeatherBench: un conjunto de datos de referencia para las previsiones meteorológicas basadas en datos. Journal of Advances in Modeling Earth Systems, 12(11):e2020MS002203, 2020. [42] Takaya Saito y Marc Rehmsmeier. La trama de recogida de precisión es más informativa que la trama ROC cuando se evalúan los clasificadores binarios en conjuntos de datos desequilibrados. PloS uno, 10(3):e0118432, 2015. [43] Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec, y Peter Battaglia. Aprender a simular física compleja con redes de gráficos. En la Conferencia Internacional sobre Aprendizaje de Máquinas, páginas 8459–8468. PMLR, 2020. [44] B. D. Santer, R. Sausen, T. M. L. Wigley, J. S. Boyle, K. AchutaRao, C. Doutriaux, J. E. Hansen, G. A. Meehl, E. Roeckner, R. Ruedy, G. Schmidt, y K. E. Taylor. Comportamiento de la altura tropopáusica y la temperatura atmosférica en modelos, reanálisis y observaciones: cambios decadentales. [45] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M Hamill, Tim D Hewson, Julia H Keller, Mio Matsueda, John Methven, Florian Pappenberger, et al. El proyecto TIGGE y sus logros. [46] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson, y Munehiko Yamaguchi. El proyecto TIGGE y sus logros. Boletín de la Sociedad Meteorológica Americana, 97(1):49 – 67, 2016. [47] Harvey Thurm Taylor, Bill Ward, Mark Willis, y Walt Zaleski. La escala de viento de huracán Saffir-Simpson. Administración atmosférica: Washington, DC, Estados Unidos, 2010. [48] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, e Illia Polosukhin. Atención es todo lo que necesitas. Avances en sistemas de procesamiento de información neural, 30, 2017. [49] Petar Veličković, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio, y Yoshua Bengio. Redes de atención gráfica. arXiv preprint arXiv:1710.10903, 2017. Este artículo está disponible en archivo bajo la licencia CC by 4.0 Deed (Attribution 4.0 International). Este artículo está disponible en archivo bajo la licencia CC by 4.0 Deed (Attribution 4.0 International).