Les auteurs : Remi Lam (Google DeepMind) Alvaro Sanchez-Gonzalez (Google DeepMind) Matthew Willson (Google DeepMind) Peter Wirnsberger (Google DeepMind) Meire Fortunato (Google DeepMind) Ferran Alet (Google DeepMind) Suman Ravuri (Google DeepMind) Timo Ewalds (Google DeepMind) Zach Eaton-Rosen (Google DeepMind) Weihua Hu (Google DeepMind) Alexander Merose (Google Research) Stephan Hoyer (Google Research) George Holland (Google DeepMind) Oriol Vinyals (Google DeepMind) Jacklynn Stott (Google DeepMind) Alexander Pritzel (Google DeepMind) Shakir Mohamed (Google DeepMind) Peter Battaglia (Google DeepMind) Les auteurs : Remi Lam (à propos de Google DeepMind) Alvaro Sanchez-Gonzalez sur Google DeepMind Matthew Willson (à propos de Google DeepMind) par Peter Wirnsberger (Google DeepMind) Meire Fortunato (Google DeepMind) Ferran Alet (Google DeepMind) Suman Ravuri (à propos de Google DeepMind) Tim Ewalds (à propos de Google DeepMind) Zach Eaton-Rosen pour Google DeepMind Mme Weihua Hu (Google DeepMind) Alexander Merose (Recherche sur Google) Stephan Hoyer (Recherche sur Google) George Holland (à partir de Google DeepMind) Les vignobles d’Oriol (Google DeepMind) Jacklynn Stott (Google DeepMind) Alexandre Pritzel (Google DeepMind) Shakir Mohamed (Google DeepMind) Peter Battaglia (à partir de Google DeepMind) La prévision météorologique numérique traditionnelle utilise des ressources de calcul accrues pour améliorer l'exactitude des prévisions, mais ne peut pas utiliser directement les données météorologiques historiques pour améliorer le modèle sous-jacent. Nous introduisons une méthode basée sur l'apprentissage automatique appelée "GraphCast", qui peut être formée directement à partir de données de réanalyse. Il prédit des centaines de variables météorologiques, sur 10 jours à une résolution de 0,25 °C dans le monde entier, en moins d'une minute. Nous montrons que GraphCast dépasse considérablement les systèmes déterministes opérationnels les plus précis sur 90% des objectifs de vérification de 1380, et ses prévisions prédisent mieux les événements Mots clés: prévision météo, ECMWF, ERA5, HRES, simulation d'apprentissage, réseaux neuronaux graphiques Introduction Il est 05h45 UTC à la mi-Octobre 2022, à Bologne, en Italie, et le nouveau Centre européen pour les prévisions météorologiques à moyenne portée (ECMWF) vient de commencer à fonctionner. Depuis plusieurs heures, le Système intégré de prévision (IFS) effectue des calculs sophistiqués pour prédire la météo de la Terre dans les prochains jours et semaines, et ses premières prévisions commencent à être diffusées aux utilisateurs. La dynamique des systèmes météorologiques est parmi les phénomènes physiques les plus complexes de la Terre, et chaque jour, d’innombrables décisions prises par des individus, des industries et des décideurs dépendent de prévisions météorologiques précises, de décider de porter une veste ou de fuir une tempête dangereuse. L’approche dominante de la prévision météorologique aujourd’hui est la « prévision météorologique numérique » (NWP), qui consiste à résoudre les équations régissant le temps à l’aide de superordinateurs. Le succès de la NWP réside dans les pratiques de recherche rigoureuses et en cours qui fournissent des des descriptions de plus en plus détaillées des phénomènes météor Mais alors que le NWP traditionnel échelle bien avec l'informatique, sa précision ne s'améliore pas avec l'augmentation des quantités de données historiques.Il existe de vastes archives de données météorologiques et climatologiques, par exemple le MARS de l'ECMWF [17], mais jusqu'à récemment, il y avait peu de moyens pratiques pour utiliser ces données pour améliorer directement la qualité des modèles de prévision. La prévision météorologique basée sur l'apprentissage automatique (MLWP) offre une alternative au NWP traditionnel, où les modèles de prévision sont formés directement à partir de données historiques. Cela a le potentiel d'améliorer l'exactitude des prévisions en capturant des schémas et des échelles dans les données qui ne sont pas facilement représentés dans des équations explicites. MLWP offre également des opportunités pour une plus grande efficacité en exploitant le matériel moderne d'apprentissage profond, plutôt que les superordinateurs, et en frappant des échanges de précision de vitesse plus favorables. Récemment, MLWP a contribué à améliorer les prévisions basées sur le NWP dans les régimes où le NWP traditionnel est relativ Dans la prévision météorologique à moyenne portée, c'est-à-dire la prévision des variables atmosphériques jusqu'à 10 jours à l'avance, les systèmes basés sur le NWP comme l'IFS sont toujours les plus précis. Le système d'exploitation déterministe le plus important au monde est la prévision à haute résolution (HRES) de l'ECMWF, un composant de l'IFS qui produit des prévisions mondiales de 10 jours à une résolution de 0,1° latitude/longitude, en environ une heure [27]. Cependant, au cours des dernières années, les méthodes de MLWP pour la prévision à moyenne portée ont progressé constamment, facilitées par des critères de référence tels que WeatherBench [27]. Les architectures d'ap Graphisme Ici, nous présentons une nouvelle approche MLWP pour les prévisions météorologiques mondiales à moyenne portée appelée "GraphCast", qui produit une prévision précise de 10 jours en moins d'une minute sur un seul appareil Google Cloud TPU v4, et prend en charge des applications telles que la prédiction des pistes de cyclones tropicaux, des rivières atmosphériques et des températures extrêmes. GraphCast prend pour entrée les deux derniers états météorologiques de la Terre – l’heure actuelle et six heures plus tôt – et prédit l’état météorologique suivant six heures à l’avance. Un seul état météorologique est représenté par une grille de 0,25° latitude/longitude (721 × 1440), qui correspond à une résolution d’environ 28 × 28 kilomètres à l’équateur (figure 1a), où chaque point de grille représente un ensemble de variables de surface et atmosphériques (listées dans le tableau 1). GraphCast est mis en œuvre comme une architecture de réseau neural, basée sur les GNN dans une configuration «codage-proces-décode» [1], avec un total de 36,7 millions de paramètres. précédents simulateurs appris basés sur le GNN [31, 26] ont été très efficaces pour apprendre la dynamique complexe des fluides et d'autres systèmes modélisés par des équations différentielles partielles, ce qui soutient leur aptitude à modéliser la dynamique météorologique. L'encodeur (figure 1d) utilise une seule couche GNN pour cartographier les variables (normalisées à la variance unitaire moyenne zéro) représentées sous forme d'attributs de nœud sur la grille d'entrée aux attributs de nœud appris sur une représentation interne "multi-mesh". Le multi-mesh (Figure 1g) est un graphique qui est spatialement homogène, avec une résolution spatiale élevée sur le globe. Il est défini par le raffinement d'un icosahédron régulier (12 nœuds, 20 faces, 30 bords) itérativement six fois, où chaque raffinement divise chaque triangle en quatre plus petits (conduisant à quatre fois plus de faces et bords), et reproduisant les nœuds sur la sphère. Le multi-mesh contient les 40 962 nœuds de la grille de résolution la plus élevée, et l'union de tous les bords créés dans les graphiques intermédiaires, formant une hiérarchie plate de bords avec des longueurs variables. Le processeur (figure 1e) utilise 16 couches GNN non partagées pour effectuer le message-passage appris sur le multi-mesh, permettant une propagation efficace des informations locales et à longue portée avec quelques étapes de message-passage. Le décodeur (figure 1f) cartographie les caractéristiques apprises de la couche du processeur final de la représentation multi-mesh à la grille latitude-longitude.Il utilise une seule couche GNN, et prédit la sortie comme une mise à jour résiduelle à l'état d'entrée le plus récent (avec la normalisation de la sortie pour atteindre la variance unitaire sur le résiduel cible). Au cours du développement du modèle, nous avons utilisé 39 années (1979-2017) de données historiques provenant de l'archive de réanalyse ERA5 [10] de l'ECMWF. En tant qu'objectif de formation, nous avons mesuré l'erreur moyenne carrée (MSE) pondérée par niveau vertical. L'erreur a été calculée entre l'état prédit de GraphCast et l'état ERA5 correspondant sur les étapes autorégressives N. La valeur de N a été augmentée progressivement de 1 à 12 (c'est-à-dire de six heures à trois jours) au cours de la formation. GraphCast a été formé pour minimiser l'objectif de formation en utilisant la descente gradient et la propagation arrière. GraphCast a pris environ quatre Conformément aux scénarios de déploiement réels, où les informations futures ne sont pas disponibles pour le développement de modèles, nous avons évalué GraphCast sur les données détenues à partir des années 2018 à venir (voir Suppléments Section 5.1). Méthodes de vérification Nous vérifions la capacité de prévision de GraphCast de manière exhaustive en comparant sa précision à celle de HRES sur un grand nombre de variables, de niveaux et de temps de levier. Nous quantifierons les compétences respectives des bases GraphCast, HRES et ML avec deux métriques de compétence: l'erreur moyenne du carré racine (RMSE) et le coefficient de corrélation d'anomalie (ACC). Parmi les 227 combinaisons de variables et de niveaux prédites par GraphCast à chaque point de grille, nous avons évalué ses compétences par rapport à HRES sur 69 d'entre elles, correspondant aux 13 niveaux de WeatherBench[27] et aux variables de la carte de résultats ECMWF [9]; voir les variables et niveaux boldface dans le Tableau 1 et la Section 1.2 des Suppléments pour lesquels le cycle HRES était opérationnel pendant la période d'évaluation. Remarque, nous excluons les précipitations totales de l'évaluation car les données de précipitations ERA5 ont des préjugés connus [15]. En plus des performances agrégées rapportées dans le texte principal, la Section 7 des Suppléments fournit En faisant ces comparaisons, deux choix clés sous-tendent la façon dont la compétence est établie: (1) la sélection de la vérité de fond pour la comparaison, et (2) un calcul minutieux des fenêtres d'assimilation des données utilisées pour fondre les données avec les observations. Nous utilisons ERA5 comme vérité de fond pour évaluer GraphCast, car il a été formé pour prendre les données ERA5 comme entrée et prédire les données ERA5 comme sorties. Cependant, l'évaluation des prévisions HRES contre ERA5 entraînerait une erreur non-zéro sur l'étape de prévision initiale. Au lieu de cela, nous avons construit un ensemble de données "PRÉVISION DE HRES à l'étape 0" (HRES-fc0) pour utiliser En raison de la nature des données de prévisions météorologiques, cela nécessite un contrôle minutieux des différences entre les fenêtres d'assimilation des données ERA5 et HRES. Chaque jour, HRES assimile les observations en utilisant quatre fenêtres +/-3h centrées sur 00z, 06z, 12z et 18z (où 18z signifie 18:00 UTC), tandis que ERA5 utilise deux fenêtres +9h/-3h centrées sur 00z et 12z, ou l'équivalent de deux fenêtres +3h/-9h centrées sur 06z et 18z. Nous avons choisi d'évaluer les prévisions de GraphCast à partir des initialisations 06z et 18z, en veillant à ce que ses entrées portent des informations à partir de +3h d Les prédictions de HRES initialisées à 06z et 18z ne fonctionnent que pour un horizon de 3,75 jours (les initialisations de HRES 00z et 12z fonctionnent pendant 10 jours).Par conséquent, nos chiffres indiqueront une transition avec une ligne découpée, où les 3,5 jours avant la ligne sont des comparaisons avec des HRES initialisées à 06z et 18z, et après la ligne sont des comparaisons avec des initialisations à 00z et 12z. Les résultats de la vérification prévisionnelle Nous constatons que GraphCast a une plus grande capacité de prévision météorologique que HRES lorsqu'il est évalué sur des prévisions de 10 jours à une résolution horizontale de 0,25° pour la latitude/longitude et à 13 niveaux verticaux. Les figures 2a-c montrent comment GraphCast (lignes bleues) dépasse HRES (lignes noires) sur le champ z500 (géopotentiel à 500 hPa) «headline» en termes de compétence RMSE, de score de compétence RMSE (c'est-à-dire la différence normalisée de RMSE entre le modèle A et la ligne de base B définie comme (RMSEA − RMSEB)/RMSEB), et de compétence ACC. L'utilisation de z500, qui encode la distribution de la pression à l'échelle synoptique, est courante dans la littérature, car elle a une forte importance météorologique [27]. Les parcelles montrent que GraphCast a de meilleurs scores de compétence dans tous les temps de lead, avec une amélioration La figure 2d résume les scores de compétence RMSE pour les 1380 variables évaluées et les niveaux de pression, sur les prévisions de 10 jours, dans un format analogue à celui de la carte de résultats ECMWF. Les couleurs des cellules sont proportionnées au score de compétence, où le bleu indique que GraphCast avait de meilleures compétences et le rouge indique que HRES avait de meilleures compétences. GraphCast a dépassé le HRES à 90,3% des objectifs de 1380 et a dépassé considérablement (p ≤ 0,05, taille d'échantillon nominale n ∈ {729, 730}) le HRES à 89,9% des objectifs. Les régions de l'atmosphère dans lesquelles HRES a eu de meilleures performances que GraphCast (lignes supérieures en rouge dans les cartes de score), ont été localisées de manière disproportionnée dans la stratosphère et ont eu le poids de perte d'entraînement le plus bas (voir Suppléments Section 7.2.2). Lorsque l'exclusion du niveau de 50 hPa, GraphCast dépasse considérablement HRES sur 96,9% des 1280 cibles restantes. Lorsque l'exclusion des niveaux 50 et 100 hPa, GraphCast dépasse considérablement HRES sur 99,7% des 1180 cibles restantes. Lors de l'exécution des évaluations par région, nous avons constaté que les résultats précédents ont généralement Nous avons constaté que l'augmentation du nombre de étapes auto-régressives dans la perte de MSE améliore les performances de GraphCast à un temps de conduite plus long (voir la section 7.3.2 des Suppléments) et l'encourage à exprimer son incertitude en prédisant des sorties glissées spatialement, ce qui conduit à des prévisions plus floues à des temps de conduite plus longs (voir la section 7.5.3 des Suppléments). Les équations physiques sous-jacentes de HRES, cependant, ne conduisent pas à des prédictions floues. Pour évaluer si l'avantage relatif de GraphCast par rapport à HRES sur la compétence RMSE est maintenu si HRES est également autorisé à flouer ses Nous avons également comparé les performances de GraphCast avec le modèle météorologique basé sur la ML le plus concurrentiel, Pangu-Weather [4], et avons constaté que GraphCast l'a dépassé sur 99,2% des 252 cibles qu'ils ont présentées (voir la section 6 des suppléments pour plus de détails). Résultats des événements prévisibles Au-delà de l'évaluation des compétences de prévision de GraphCast par rapport aux HRES sur un large éventail de variables et de temps de lead, nous évaluons également comment ses prévisions prédisent les événements graves, y compris les cyclones tropicaux, les rivières atmosphériques et les températures extrêmes. Les traces des cyclones tropicaux L’amélioration de l’existence, de la force et de la trajectoire d’un cyclone peut aider à éviter les blessures et les pertes de vies, ainsi qu’à réduire les dommages économiques [21]. L’existence, la force et la trajectoire d’un cyclone sont prédites en appliquant un algorithme de suivi aux prévisions de la trajectoire du cyclone géopotentiel (z), du vent horizontal (10 U/10 v, U/v) et de la pression moyenne au niveau de la mer (MsL). Nous avons mis en œuvre un algorithme de suivi basé sur les mêmes protocoles publiés par l’ECMWF [20] et nous l’avons appliqué aux prévisions de GraphCast pour produire Comme les erreurs par piste pour HRES et GraphCast sont corrélées, nous avons également mesuré la différence d'erreur par piste partagée entre les deux modèles et avons constaté que GraphCast est significativement meilleur que HRES pour le temps de conduite de 18 heures à 4,75 jours, comme montré dans la figure 3b. Les barres d'erreur montrent les intervalles de confiance de 95 % embarqués pour la médiane (voir la section 8.1 des Suppléments pour plus de détails). Rivières atmosphériques Les rivières atmosphériques sont des régions étroites de l'atmosphère qui sont responsables de la majorité du transport de vapeur d'eau polaire à travers les latitudes moyennes, et génèrent 30%-65% des précipitations annuelles sur la côte ouest des États-Unis [6]. Leur force peut être caractérisée par le transport verticalement intégré de vapeur d'eau IvT [23, 22], indiquant si un événement fournira des précipitations bénéfiques ou sera associé à des dommages catastrophiques [7]. IvT peut être calculé à partir de la combinaison non linéaire de la vitesse du vent horizontale (U et v) et de l'humidité spécifique (Q), que GraphCast prédit. Nous évaluons Chaleur extrême et froid La chaleur et le froid extrêmes sont caractérisés par de grandes anomalies par rapport à la climatologie typique [19, 16, 18], ce qui peut être dangereux et perturber les activités humaines. Nous évaluons l'habileté de HRES et de GraphCast dans la prévision des événements au-dessus des 2% les plus élevés de la climatologie à travers l'emplacement, l'heure du jour et le mois de l'année, pour 2 T à 12 heures, 5 jours et 10 jours, pour les régions terrestres à travers l'hémisphère nord et sud au cours des mois d'été. Nous planifions des courbes de rappel de précision [30] pour refléter les différents compromis possibles entre la réduction des faux positifs (haute précision La figure 3d montre que les courbes de rappel de précision de GraphCast sont supérieures à celles de HRES pour les temps de pointe de 5 et 10 jours, ce qui suggère que les prévisions de GraphCast sont généralement supérieures à celles de HRES à la classification extrême sur des horizons plus longs. En revanche, HRES a un meilleur rappel de précision au temps de pointe de 12 heures, ce qui est cohérent avec le score de compétence de 2 T de GraphCast sur HRES étant proche de zéro, comme le montre la figure 2d. Nous trouvons généralement que ces résultats sont cohérents avec d'autres variables pertinentes pour la chaleur extrême, telles que T 850 et z500 [18], d'autres seuils extrêmes (5%, 2% et Effet des données récentes de formation GraphCast peut être ré-entraîné périodiquement avec des données récentes, ce qui lui permet en principe de capturer des schémas météorologiques qui changent au fil du temps, tels que le cycle ENSO et d’autres oscillations, ainsi que les effets du changement climatique.Nous avons formé quatre variantes de GraphCast avec des données qui ont toujours commencé en 1979, mais se sont terminées en 2017, 2018, 2019 et 2020, respectivement (nous étiquetons la variante se terminant en 2017 comme « GraphCast:<2018 », etc.). La figure 4 montre les scores de compétence (normalisés par GraphCast:<2018) des quatre variantes et HRES, pour z500. Nous avons constaté que, bien que les performances de GraphCast lorsqu'elles sont formées avant 2018 soient encore compétitives avec HRES en 2021, la formation jusqu'à 2021 améliore encore ses scores de compétence (voir Supplements Section 7.1.3). Nous spéculons que cet effet récent permet de capturer les tendances météorologiques récentes pour améliorer la précision. Les conclusions La compétence et l'efficacité de la prévision de GraphCast par rapport à HRES montrent que les méthodes MLWP sont désormais compétitives avec les méthodes traditionnelles de prévision météorologique.En outre, les performances de GraphCast en matière de prévision d'événements graves, pour lesquelles elle n'a pas été directement formée, démontrent sa robustesse et son potentiel de valeur en aval.Nous croyons que cela marque un tournant dans la prévision météorologique, ce qui aide à ouvrir de nouvelles voies pour renforcer la largeur de la prise de décision dépendant des conditions météorologiques par les individus et les industries, en rendant la prévision à bas prix plus précise, plus accessible et plus adaptée à des applications spé Avec 36,7 millions de paramètres, GraphCast est un modèle relativement petit selon les normes ML modernes, choisi pour garder l'empreinte de mémoire traçable. Et alors que HRES est publié à la résolution de 0,1°, 137 niveaux, et jusqu'à 1 heure de temps, GraphCast a fonctionné à la résolution de 0,25° latitude-longitude, 37 niveaux verticaux, et 6 heures de temps, en raison de la résolution native de 0,25° des données de formation ERA5, et des défis d'ingénierie dans l'ajustement de données de résolution supérieure sur le matériel. En général, GraphCast devrait être considéré comme une famille de modèles, avec la version actuelle étant la plus grande que nous pouvons pratiquement adapter sous les contraintes de l' Une des limitations clés de notre approche est la façon dont l'incertitude est gérée. Nous nous sommes concentrés sur les prévisions déterministes et comparées à HRES, mais l'autre pilier de l'IFS de l'ECMWF, le système de prévision ensemble, ENS, est particulièrement important pour les prévisions de 10 jours. La non-linéarité de la dynamique météorologique signifie qu'il y a une incertitude croissante à des temps de conduite plus longs, ce qui n'est pas bien capturé par une seule prévision déterministe. ENS s'attaque à cela en générant des prévisions stochastiques multiples, qui modélisent la répartition empirique des conditions météorologiques futures, mais la génération de prévisions multi Il est important de souligner que le MLWP basé sur les données dépend de manière critique de grandes quantités de données de haute qualité, assimilées via le NWP, et que de riches sources de données telles que l'archive MARS de l'ECMWF sont inestimables.Par conséquent, notre approche ne devrait pas être considérée comme un substitut aux méthodes traditionnelles de prévision météorologique, qui ont été développées pendant des décennies, rigoureusement testées dans de nombreux contextes du monde réel, et offrent de nombreuses fonctionnalités que nous n'avons pas encore explorées. Au-delà de la prévision météorologique, GraphCast peut ouvrir de nouvelles directions pour d’autres problèmes de prévision géo-spatiotemporelle importants, y compris le climat et l’écologie, l’énergie, l’agriculture et l’activité humaine et biologique, ainsi que d’autres systèmes dynamiques complexes. Disponibilité des données et des matériaux Le code et les poids formés de GraphCast sont publiquement disponibles sur github https://github.com/ deepmind/graphcast. Ce travail utilise des données publiquement disponibles du Centre européen pour les prévisions de moyenne portée (ECMWF). Nous utilisons les produits de l'archive ECMWF (expiré en temps réel) pour les produits ERA5, HRES et TIGGE, dont l'utilisation est régie par l'attribution Creative Commons 4.0 International (CC BY 4.0). Nous utilisons IBTrACS Version 4 de https://www.ncei.noaa.gov/ produits/international-best-track-archive et référence [13, 12] comme requis. La texture de la Terre dans la figure 1 est utilisée sous CC BY 4.0 de https://www.solarsystemscope.com/ textures/. reconnaissances En ordre alphabétique, nous remercions Kelsey Allen, Charles Blundell, Matt Botvinick, Zied Ben Bouallegue, Michael Brenner, Rob Carver, Matthew Chantry, Marc Deisenroth, Peter Deuben, Marta Garnelo, Ryan Keisler, Dmitrii Kochkov, Christopher Mattern, Piotr Mirowski, Peter Norgaard, Ilan Price, Chongli Qin, Sébastien Racanière, Stephan Rasp, Yulia Rubanova, Kunal Shah, Jamie Smith, Daniel Worrall, et d'innombrables autres chez Alphabet et ECMWF pour leurs conseils et commentaires sur notre travail. Nous remercions également ECMWF pour avoir fourni des ensembles de données inestimables à la communauté de recherche. Le style du paragraphe d'ouverture a Références [1] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Pré-impression arXiv:1806.01261, 2018. [2] P. Bauer, A. Thorpe, et G. Brunet. La révolution silencieuse de la prévision météorologique numérique. Nature, 525, 2015. [3] Stanley G Benjamin, John M Brown, Gilbert Brunet, Peter Lynch, Kazuo Saito, and Thomas W Schlatter. 100 years of progress in forecasting and NWP applications. Meteorological Monographs, 59:13–1, 2019. [4] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu et Qi Tian. Pangu-Weather: Un modèle 3D haute résolution pour des prévisions météorologiques mondiales rapides et précises. arXiv préimpression arXiv:2211.02556, 2022. [5] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. The THORPEX interactive grand global ensemble. Bulletin of the American Meteorological Society, 91(8):1059–1072, 2010. [6] WE Chapman, AC Subramanian, L Delle Monache, SP Xie, et FM Ralph. Amélioration des prévisions de la rivière atmosphérique avec l’apprentissage automatique. Geophysical Research Letters, 46(17-18):10627-10635, 2019. [7] Thomas W Corringham, F Martin Ralph, Alexander Gershunov, Daniel R Cayan, et Cary A Talbot. Les rivières atmosphériques provoquent des dégâts d’inondation dans l’ouest des États-Unis. [8] Lasse Espeholt, Shreya Agrawal, Casper Sønderby, Manoj Kumar, Jonathan Heek, Carla Bromberg, Cenk Gazen, Rob Carver, Marcin Andrychowicz, Jason Hickey, et al. Apprentissage profond pour les prévisions de précipitations de douze heures. Communications de la nature, 13(1):1–10, 2022. [9] T Haiden, Martin Janousek, J Bidlot, R Buizza, Laura Ferranti, F Prates et F Vitart. Évaluation des prévisions ECMWF, y compris la mise à niveau 2018. [10] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. La réanalyse globale de l’ERA5. Journal trimestriel de la Royal Meteorological Society, 146(730):1999-2049, 2020. [11] Ryan Keisler. Prévisions météorologiques mondiales avec les réseaux neuronaux graphiques. arXiv préprint arXiv:2202.07575, 2022. [12] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. Projet International Best Track Archive for Climate Stewardship (IBTrACS), version 4. https: //doi.org/10.25921/82ty-9e16, 2018 [13] Kenneth R. Knapp, Michael C. Kruk, David H. Levinson, Howard J. Diamond et Charles J. Neumann. Les meilleurs archives internationales pour la gestion du climat (IBTrACS) unifiant les données sur les cyclones tropicaux. [14] Thorsten Kurth, Shashank Subramanian, Peter Harrington, Jaideep Pathak, Morteza Mardani, David Hall, Andrea Miele, Karthik Kashinath et Animashree Anandkumar. FourCastNet: Accélérer les prévisions météorologiques globales à haute résolution à l'aide d'opérateurs neuronaux adaptatifs à quatre niveaux. arXiv préprint arXiv:2208.05419, 2022. [15] David A Lavers, Adrian Simmons, Freja Vamborg, et Mark J Rodwell. Une évaluation de la précipitation ERA5 pour la surveillance du climat. Journal trimestriel de la Royal Meteorological Society, 148(748):3152–3165, 2022. [16] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal et Jason Hickey. prévision de la chaleur extrême mondiale en utilisant des modèles météorologiques neuronaux. Intelligence artificielle pour les systèmes terrestres, pages 1-41, 2022. [17] Carsten Maass et Esperanza Cuartero. documentation utilisateur MARS. https://confluence. ecmwf.int/display/UDOC/MARS+user+documentation, 2022. [18] Linus Magnusson. 202208 - vague de chaleur - uk. https://confluence.ecmwf.int/display/ FCST/202208+-+Heatwave+-+UK, 2022. [19] Linus Magnusson, Thomas Haiden, et David Richardson. Vérification des événements météorologiques extrêmes: prédicteurs discrets. Centre européen pour les prévisions météorologiques à moyenne portée, 2014. [20] Linus Magnusson, Sharanya Majumdar, Rebecca Emerton, David Richardson, Magdalena Alonso-Balmaseda, Calum Baugh, Peter Bechtold, Jean Bidlot, Antonino Bonanni, Massimo Bonavita, et al. Activités cycloniques tropicales à l’ECMWF. [21] Andrew B Martinez. Prévision de l'exactitude des dommages causés par les ouragans. Économétrie, 8(2):18, 2020. [22] Benjamin J Moore, Paul J Neiman, F Martin Ralph, et Faye E Barthold. Processus physiques associés à de fortes précipitations inondatoires à Nashville, Tennessee, et dans les environs au cours du 1er au 2 mai 2010: Le rôle d'une rivière atmosphérique et des systèmes convectifs à la plus grande échelle. [23] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist, and Michael D Dettinger. Meteorological characteristics and overland precipitation impacts of atmospheric rivers affecting the West Coast of North America based on eight years of ssm/i satellite observations. Journal of Hydrometeorology, 9(1):22–47, 2008. [24] Tung Nguyen, Johannes Brandstetter, Ashish Kapoor, Jayesh K Gupta, et Aditya Grover. ClimaX: Un modèle de fondation pour le temps et le climat. arXiv préprint arXiv:2301.10343, 2023. [25] Jaideep Pathak, Shashank Subramanian, Peter Harrington, Sanjeev Raja, Ashesh Chattopad-hyay, Morteza Mardani, Thorsten Kurth, David Hall, Zongyi Li, Kamyar Azizzadenesheli, et al. Fourcastnet: Un modèle météorologique à haute résolution global basé sur des données à l'aide d'opérateurs neuronaux adaptatifs à quatre niveaux. arXiv préprint arXiv:2202.11214, 2022. [26] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez, et Peter Battaglia. Apprentissage de la simulation basée sur le filet avec les réseaux graphiques. [27] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid, et Nils Thuerey. WeatherBench: un ensemble de données de référence pour les prévisions météorologiques basées sur les données. Journal of Advances in Modeling Earth Systems, 12(11):e2020MS002203, 2020. [28] Stephan Rasp et Nils Thuerey. prévision météorologique à moyenne portée basée sur les données avec un resnet prétrainé sur les simulations climatiques: Un nouveau modèle pour le comptoir météorologique. [29] Suman Ravuri, Karel Lenc, Matthew Willson, Dmitry Kangin, Remi Lam, Piotr Mirowski, Megan Fitzsimons, Maria Athanassiadou, Sheleem Kashem, Sam Madge, et al. Précipitation compétente maintenantcasting en utilisant des modèles génératifs profonds du radar. Nature, 597(7878):672–677, 2021. [30] Takaya Saito and Marc Rehmsmeier. The precision-recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PloS one, 10(3):e0118432, 2015. [31] Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec et Peter Battaglia. Apprendre à simuler la physique complexe avec des réseaux graphiques. Dans la Conférence internationale sur l'apprentissage automatique, pages 8459-8468. PMLR, 2020. [32] Xingjian Shi, Zhihan Gao, Leonard Lausen, Hao Wang, Dit-Yan Yeung, Wai-kin Wong et Wang-chun Woo. Apprentissage profond pour la précipitation nowcasting: Un benchmark et un nouveau modèle. [33] Casper Kaae Sønderby, Lasse Espeholt, Jonathan Heek, Mostafa Dehghani, Avital Oliver, Tim Salimans, Shreya Agrawal, Jason Hickey, et Nal Kalchbrenner. Metnet: Un modèle météorologique neuronal pour la prévision des précipitations. arXiv préprint arXiv:2003.12140, 2020. [34] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson, et Munehiko Yamaguchi. Le projet TIGGE et ses réalisations. Bulletin de l’American Meteorological Society, 97(1):49 – 67, 2016. [35] Jonathan A Weyn, Dale R Durran, et Rich Caruana. Les machines peuvent-elles apprendre à prédire le temps? Utiliser l’apprentissage profond pour prédire la hauteur géopotentielle de 500 hPa en grille à partir de données météorologiques historiques. Journal of Advances in Modeling Earth Systems, 11(8):2680–2693, 2019. [36] Jonathan A Weyn, Dale R Durran, et Rich Caruana. Amélioration de la prévision météorologique mondiale basée sur les données en utilisant des réseaux neuronaux convolutifs profonds sur une sphère cube. Journal of Advances in Modeling Earth Systems, 12(9):e2020MS002109, 2020. 1 Les données In this section, we give an overview of the data we used to train and evaluate GraphCast (Supplements Section 1.1), the data defining the forecasts of the NWP baseline HRES, as well as HRES-fc0, which we use as ground truth for HRES (Supplements Section 1.2). Finally, we describe the data used in the tropical cyclone analysis (Section 1.3). Nous avons construit plusieurs ensembles de données pour la formation et l’évaluation, composés de sous-ensembles des archives de données de l’ECMWF et de l’IBTrACS [29, 28]. Nous distinguons généralement entre les données source, que nous appelons « archives » ou « données archivées », et les ensembles de données que nous avons construits à partir de ces archives, que nous appelons « ensembles de données ». 1.1 Époque 5 Pour la formation et l’évaluation de GraphCast, nous avons construit nos ensembles de données à partir d’un sous-ensemble de l’archive ERA5 [24]1 de l’ECMWF, qui est un grand corpus de données représentant la météo mondiale de 1959 à nos jours, à une résolution de 0,25° latitude/longitude, et à des incréments d’une heure, pour des centaines de variables statiques, de surface et atmosphériques. L’archive ERA5 est basée sur la réanalyse, qui utilise le modèle HRES de l’ECMWF (cycle 42r1) qui a été opérationnel pour la plupart de 2016 (voir Tableau 3), dans le système d’assimilation de données 4D-Var de l’ECMWF. Notre ensemble de données ERA5 contient un sous-ensemble des variables disponibles dans l'archive ERA5 de l'ECMWF (Tableau 2), sur 37 niveaux de pression: 1, 2, 3, 5, 7, 10, 20, 30, 50, 70, 100, 125, 150, 175, 200, 225, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 775, 800, 825, 850, 875, 900, 925, 950, 975, 1000 hPa. La plage d'années incluse était 1979-01-01 à 2022-01-10, qui ont été abaissées à des intervalles de 6 heures (correspondant à 00z, 06z, 12z et 18z chaque jour). 1.2 Les lieux L'évaluation de la ligne de base du modèle HRES nécessite deux ensembles de données distincts, à savoir les données de prévision et les données de vérité de fond, qui sont résumées dans les sous-sections suivantes. HRES est généralement considéré comme le modèle météorologique déterministe le plus précis basé sur le NWP au monde, donc pour évaluer la ligne de départ de HRES, nous avons construit un ensemble de données des prévisions historiques archivées de HRES. HRES est régulièrement mis à jour par ECMWF, de sorte que ces prévisions représentent le dernier modèle de HRES au moment où les prévisions ont été faites. Les prévisions ont été téléchargées à leur représentation native (qui utilise l'harmonie sphérique et une grille octaédrale réduite de Gauss, TCo1279 [36]), et correspond à une résolution de 0,1° latitude/longitude. HRES operational forecasts Nous avons ensuite réduit spatialement les échantillons des prévisions à une grille de 0,25° latitude/longitude (pour correspondre à la résolution de l'ERA5) en utilisant la bibliothèque Metview de l'ECMWF, avec les paramètres de régression par défaut. Nous les avons réduits temporellement à des intervalles de 6 heures. Il existe deux groupes de prévisions HRES: celles initialisées à 00z/12z qui sont publiées pour les horizons de 10 jours, et celles initialisées à 06z/18z qui sont publiées pour les horizons de 3,75 jours. Pour évaluer l’habileté des prévisions opérationnelles HRES, nous avons construit un ensemble de données de vérité de fond, « HRES-fc0 », basé sur l’archive de prévisions opérationnelles HRES de l’ECMWF. Ce groupe de données comprend la phase initiale de chaque prévision HRES, aux heures d’initialisation 00z, 06z, 12z et 18z (voir Figure 5). Les données HRES-fc0 sont similaires aux données ERA5, mais sont assimilées à l’aide du dernier modèle ECMWF NWP au moment de la prévision, et assimilent les observations à partir de ± 3 heures autour de la date et de l’heure correspondantes. Remarque, l’ECMWF fournit également une archive de données « HRES HRES-fc0 Un très petit sous-ensemble des valeurs de l'archive ECMWF HRES pour le géopotentiel variable à 850hPa (z850) et 925hPa (z925) ne sont pas des nombres (NaN). Ces NaN semblent être réparties uniformément sur la gamme 2016-2021 et sur les périodes de prévision. Cela représente environ 0,00001% des pixels pour z850 (1 pixel toutes les dix 1440 x 721 longueurs de largeur), 0,00000001% des pixels pour z925 (1 pixel toutes les dix mille 1440 x 721 longueurs de largeur de largeur) et n'a pas d'impact mesurable sur la performance. Pour une comparaison plus facile, nous avons rempli ces valeurs rares manquantes avec la moyenne pondérée des pixels voisins immédi HRES NaN handling 1.3.3 Les cyclones tropicaux Pour notre analyse de la prévision des cyclones tropicaux, nous avons utilisé l'archive IBTrACS [28, 29, 31, 30] pour construire le ensemble de données de vérité au sol. Cela inclut les traces historiques des cyclones provenant d'une douzaine de sources autorisées. Chaque piste est une série de temps, à intervalles de 6 heures (00z, 06z, 12z, 18z), où chaque étape représente l'œil du cyclone dans les coordonnées latitude/longitude, ainsi que la catégorie Saffir-Simpson correspondante et d'autres caractéristiques météorologiques pertinentes à ce moment-là. Pour la ligne de départ de HRES, nous avons utilisé l’archive TIGGE, qui fournit des traces de cyclones estimées avec le tracker opérationnel, à partir des prévisions de HRES à la résolution de 0,1° [8, 46]. Les données sont stockées sous forme de fichiers XML disponibles à télécharger sous https://confluence.ecmwf.int/display/TIGGE/Tools. Pour convertir les données dans un format adapté à un traitement et à une analyse ultérieurs, nous avons mis en place un analyseur qui extrait les traces de cyclones pour les années d’intérêt. Les sections (tags) pertinentes dans les fichiers XML sont celles du type « forecast », qui contiennent généralement plusieurs traces correspondant à différents temps de prévision initiale. Avec ces tags, nous Consultez la section 8.1 pour plus de détails sur l'algorithme et les résultats du tracker. Notation et déclaration de problème Dans cette section, nous définissons l'utilisation de notes de temps utiles dans tout le document (Section 2.1), formalisons le problème général de prévision que nous abordons (Section 2.2), et détaillons comment nous modélisons l'état de la météo (Section 2.3). 2.1 Notation du temps La notation temporelle utilisée dans la prévision peut être confuse, impliquant un certain nombre de symboles de temps différents, par exemple pour désigner l'heure de prévision initiale, le temps de validité, l'horizon de prévision, etc. Par conséquent, nous introduisons quelques termes normalisés et une notation pour la clarté et la simplicité. Nous nous référons à un point particulier dans le temps comme « date-heure », indiqué par la date du calendrier et l'heure UTC. Par exemple, 2018-06-21_18:00:00 signifie le 21 juin 2018, à 18:00 UTC. En bref, nous utilisons également parfois la convention de Zulu, c'est-à-dire 00z, 06z, 12z, 18z signifie 00:00, 06:00, 12:00, 18:00 UTC, respectivement. Nous définissons davantage les symboles suivants t : Indice des étapes de prévision, qui indique le nombre d'étapes depuis que la prévision a été initialisée. T : Horizon de prévision, qui représente le nombre total d'étapes dans une prévision. d: Temps de validité, qui indique la date-heure d'un état météorologique particulier. d0 : temps d'initialisation prévisionnelle, indiquant le temps de validité des entrées initiales d'une prévision. Δd : Durée de l'étape de prévision, indiquant combien de temps passe au cours d'une étape de prévision. τ : temps de conduite prévisionnel, qui représente le temps passé dans la prévision (c'est-à-dire, τ = tΔd). 2.2 Statistiques générales de prévisions L'évolution temporelle de la météo réelle peut être représentée par une fonction de dynamique de temps discret sous-jacente, Φ, qui génère l'état à l'étape suivante (Δd dans le futur) basé sur le temps actuel, c'est-à-dire, Zd+Δd = Φ(Zd). Notre objectif est de trouver un modèle précis et efficace, φ, de la vraie fonction dynamique, Φ, qui peut prédire efficacement l'état de la météo sur un certain horizon de prévision, TΔd. Nous supposons que nous ne pouvons pas observer Zd directement, mais au lieu de cela nous n'avons qu'une observation partielle Xd, qui est une représentation incomplète des informations d'état nécessaires pour prédire la météo parfaitement. Xd−Δd , Xd−2Δd , ..., en plus de Xd. Le modèle peut alors, en principe, tirer parti de cette information contextuelle supplémentaire pour approximer Zd plus précisément. Analogiquement à l'équation (1), la prédiction X ̈d+Δd peut être renvoyée en φ pour produire autorégressivement une prédiction complète, Nous évaluons la qualité de prédiction, ou compétence, de φ en quantifier à quel point la trajectoire prédite, X ̈d+Δd:d+T Δd, correspond bien à la trajectoire de la vérité de fond, Xd+Δd:d+TΔd. Cependant, il est important de souligner à nouveau que Xd+Δd:d+TΔd ne comprend que nos observations de Zd+Δd:d+TΔd, qui est elle-même inobservée. Ce qui est explicitement décrit au paragraphe 5. In our work, the temporal resolution of data and forecasts was always Δ𝑑 = 6 hours with a maximum forecast horizon of 10 days, corresponding to a total of 𝑇 = 40 steps. Because Δ𝑑 is a constant throughout this paper, we can simplify the notation using (𝑋𝑡, 𝑋𝑡+1, . . . , 𝑋𝑡+𝑇 ) instead of (𝑋𝑑, 𝑋𝑑+Δ𝑑 , . . . , 𝑋𝑑+𝑇Δ𝑑 ), to index time with an integer instead of a specific date-time. 2.3. Modeling ECMWF weather data For training and evaluating models, we treat our ERA5 dataset as the ground truth representation of the surface and atmospheric weather state. As described in Section 1.2, we used the HRES-fc0 dataset as ground truth for evaluating the skill of HRES. Dans notre ensemble de données, un état météorologique ERA5 Xt comprend toutes les variables dans le Tableau 2, à une résolution de latitude-longueur horizontale de 0,25° avec un total de 721 × 1440 = 1, 038, 240 points de grille et 37 niveaux de pression verticaux. Les variables atmosphériques sont définies à tous les niveaux de pression et l'ensemble des points de grille (horizontale) est donné par G0.25◦ = {−90.0, −89.75, . . . , 90.0} × {−179.75, −179.5, . . . , 180.0}. Ces variables sont uniquement identifiées par leur nom court (et le niveau de pression, pour les variables atmosphériques). Par exemple, la variable de surface « 2 mètres » est désignée De toutes ces variables, notre modèle prédit 5 variables de surface et 6 variables atmosphériques pour un total de 227 variables cibles. Plusieurs autres variables statiques et/ou externes ont également été fournies comme contexte d'entrée pour notre modèle. Ces variables sont présentées dans les tableaux 1 et 2. Nous nous référons au sous-ensemble des variables dans Xt qui correspondent à un point de grille particulier i (1,038,240 au total) comme xt, et à chaque variable j des variables cibles 227 comme xt. La représentation complète de l'état Xtii, j contient donc un total de 721 × 1440 × (5 + 6 × 37) = 235, 680, 480 valeurs. Notez, aux pôles, les points de longitude 1440 sont égaux, de sorte que le nombre réel de points de grille distincts est légèrement inférieur. Modèle GraphCast Cette section fournit une description détaillée de GraphCast, en commençant par la génération autorégressive d'une prédiction (Section 3.1), une vue d'ensemble de l'architecture en langage simple (Section 3.2), suivie d'une description technique de tous les graphiques définissant GraphCast (Section 3.3), son encodeur (Section 3.4), le processeur (Section 3.5), et le décodeur (Section 3.6), ainsi que tous les détails de normalisation et de paramétrification (Section 3.7). 1.1 Créer une prévision Notre modèle GraphCast est défini comme un simulateur appris en un pas qui prend le rôle de φ dans l'équation (2) et prédit la prochaine étape basée sur deux états d'entrée consécutifs, Comme dans l'équation (3), nous pouvons appliquer GraphCast itérativement pour produire une prédiction de longueur arbitraire, T. Ceci est illustré dans la figure 1b, c. Nous avons constaté, dans les premières expériences, que deux états d'entrée ont donné une meilleure performance que l'un, et que trois n'ont pas aidé suffisamment pour justifier l'augmentation de l'empreinte mémoire. 3.2 Vue d'ensemble de l'architecture L'architecture de base de GraphCast utilise les GNN dans une configuration «code-proces-décode» [6], comme décrit dans la Figure 1d,e,f. Les simulateurs appris basés sur GNN sont très efficaces pour apprendre la dynamique physique complexe des fluides et d'autres matériaux [43, 39], car la structure de leurs représentations et calculs sont analogues aux résolveurs d'éléments finis appris [1]. Un avantage clé des GNN est que la structure du graphique d'entrée détermine quelles parties de la représentation interagissent les unes avec les autres par le biais du message appris, permettant des modèles arbitraires d'interactions spatiales sur n'importe quelle gamme. En revanche, un réseau neural convoluti La façon dont nous capitalisons sur la capacité du GNN à modéliser des interactions spares arbitraires est en introduisant la représentation interne « multi-mesh » de GraphCast, qui permet des interactions à longue portée dans quelques étapes de transmission de messages et a généralement une résolution spatiale homogène sur le globe. Ceci est en contraste avec une grille latitude-longitude qui induit une répartition non uniforme des points de grille. Our multi-mesh is constructed by first dividing a regular icosahedron (12 nodes and 20 faces) iteratively 6 times to obtain a hierarchy of icosahedral meshes with a total of 40,962 nodes and 81,920 faces on the highest resolution. We leveraged the fact that the coarse-mesh nodes are subsets of the fine-mesh nodes, which allowed us to superimpose edges from all levels of the mesh hierarchy onto the finest-resolution mesh. This procedure yields a multi-scale set of meshes, with coarse edges bridging long distances at multiple scales, and fine edges capturing local interactions. Figure 1g shows each individual refined mesh, and Figure 1e shows the full multi-mesh. GraphCast’s encoder (Figure 1d) first maps the input data, from the original latitude-longitude grid, into learned features on the multi-mesh, using a GNN with directed edges from the grid points to the multi-mesh. The processor (Figure 1e) then uses a 16-layer deep GNN to perform learned message-passing on the multi-mesh, allowing efficient propagation of information across space due to the long-range edges. The decoder (Figure 1f) then maps the final multi-mesh representation back to the latitude-longitude grid using a GNN with directed edges, and combines this grid representation, 𝑌ˆ𝑡+𝑘, with the input state, 𝑋ˆ𝑡+𝑘, to form the output prediction, 𝑋ˆ𝑡+𝑘+1 = 𝑋ˆ𝑡+𝑘 + 𝑌ˆ𝑡+𝑘. The encoder and decoder do not require the raw data to be arranged in a regular rectilinear grid, and can also be applied to arbitrary mesh-like state discretizations [1]. The general architecture builds on various GNN-based learned simulators which have been successful in many complex fluid systems and other physical domains [43, 39, 15]. Similar approaches were used in weather forecasting [26], with promising results. Sur un seul appareil Cloud TPU v4, GraphCast peut générer une résolution de 0,25°, une prévision de 10 jours (à des étapes de 6 heures) en moins de 60 secondes. Pour comparaison, le système IFS d'ECMWF fonctionne sur un cluster de 11,664 cœurs et génère une résolution de 0,1°, une prévision de 10 jours (liée à des étapes de 1 heure pour les premières 90 heures, des étapes de 3 heures pour les heures 93-144, et des étapes de 6 heures à partir de 150-240 heures, en environ une heure de temps de calcul [41]. Voir les détails de la sortie HRES ici: https://www.ecmwf.int/en/forecasts/datasets/set-i. 3.3. GraphCast’s graph GraphCast est mis en œuvre à l'aide de GNNs dans une configuration «codage-proces-décode», où les cartes de l'encodeur (surface et atmosphérique) fonctionnent sur le filet latitude-longitude d'entrée à un multi-mesh, le processeur effectue de nombreuses rounds de message-passage sur le multi-mesh, et le décodeur cartographie les caractéristiques multi-mesh de retour au filet latitude-longitude de sortie (voir Figure 1). Le modèle fonctionne sur un graphique G (VG, VM, EM, EG2M, EM2G), défini en détail dans les paragraphes suivants. VG représente l'ensemble contenant chacun des nœuds de grille vG. Chaque nœud de grille représente une tranche verticale de l'atmosphère à un point de latitude-longitude donné, i. Les caractéristiques associées à chaque nœud de grille vG sont vG,features = [xt−1, xt, ft−1, ft, ft+1, ci], où xt est l'état météorologique dépendant du temps Xt correspondant au nœud de grille vG et comprend toutes les variables de données prédites pour tous les 37 niveaux atmosphériques ainsi que les variables de surface. Les termes forcés ft consistent en caractéristiques dépendantes du temps qui peuvent être calculées de manière analytique, et n'ont pas besoin d'être prédites par Grid nodes VM représente l'ensemble contenant chacun des nœuds de mesh vM. Les nœuds de mesh sont placés uniformément dans le monde entier dans un réseau icosahédral R raffiné MR. M0 correspond à un icosahédron d'unité de rayon (12 nœuds et 20 faces triangulaires) avec des faces parallèles aux pôles (voir Figure 1g). Le réseau est itérativement raffiné Mr → Mr+1 en divisant chaque face triangulaire en 4 faces plus petites, ce qui entraîne un nœud supplémentaire au milieu de chaque bord, et en projetant de nouveau les nouveaux nœuds sur la sphère d'unité.4 Caractéristiques vM,Les caractéristiques associées à chaque nœud de mesh vM comprennent la cosine de Mesh nodes EM sont des bords bidirectionnels ajoutés entre les nœuds de filet qui sont connectés dans le filet. Crucialement, les bords de filet sont ajoutés à EM pour tous les niveaux de raffinement, c'est-à-dire pour le meilleur filet, M6, ainsi que pour M5, M4, M3, M2, M1 et M0. Ceci est simple en raison de la façon dont le processus de raffinage fonctionne: les nœuds de Mr−1 sont toujours un sous-ensemble des nœuds dans Mr. Par conséquent, les nœuds introduits à des niveaux de raffinement inférieurs servent de nœuds pour la communication de gamme plus longue, indépendamment du niveau maximal de raffinement. Le graphique résultant qui contient le ensemble commun de bords de tous les n Mesh edges Pour chaque extrémité eM connectant un nœud de mesh d'expéditeur vM à un nœud de mesh de récepteur vM, nous construisons des caractéristiques de vM→vM edge eM, caractéristiques utilisant la position sur la sphère de l'unité des nœuds de mesh. Cela inclut la longueur vM→vM s r de l'extrémité, et la différence vectorielle entre les positions 3d du nœud d'expéditeur et du nœud de récepteur calculée dans un système de coordonnées local du récepteur. Le système de coordonnées local du récepteur est calculé en appliquant une rotation qui change l'angle azimuth jusqu'à ce que ce nœud de récepteur soit à la longueur 0, EG2M sont des bords unidirectionnels qui relient les nœuds de grille d'expéditeur aux nœuds de grille de récepteur. Un bord eG2M vG→vM est ajouté si la distance entre le nœud de grille et le nœud de grille est inférieure ou égale à 0,6 fois5 la longueur des bords dans le M6 de grille (voir Figure 1) qui assure que chaque nœud de grille est connecté à au moins un nœud de grille. Grid2Mesh edges EM2G sont des bords unidirectionnels qui relient les nœuds de réseau d'expéditeur aux nœuds de réseau de récepteur. Pour chaque point de réseau, nous trouvons la face triangulaire dans le réseau M6 qui le contient et ajoutons trois bords de Mesh2G de la forme eM2G vM→vG, pour connecter le nœud de réseau aux trois nœuds de réseau adjacents s r à cette face (voir Figure 1). Caractéristiques eM2G,les caractéristiques sont construites de la même manière que celles pour les bords de réseau vM→vG s r. Ceci résulte en un total de 3,114,720 bords de Mesh2Grid (3 nœuds de réseau connectés à chacun des points de réseau de 721 × 1440 latitude-longitude Mesh2Grid edges 3.4. Encoder The purpose of the encoder is to prepare data into latent representations for the processor, which will run exclusively on the multi-mesh. As part of the encoder, we first embed the features of each of the grid nodes, mesh nodes, mesh edges, grid to mesh edges, and mesh to grid edges into a latent space of fixed size using five multi-layer perceptrons (MLP), Embedding the input features Ensuite, afin de transférer des informations sur l'état de l'atmosphère des nœuds de la grille aux nœuds de la grille, nous effectuons un message unique qui passe par-dessus le sous-graphique bipartite Grid2M GG2M (VG, VM, EG2M) reliant les nœuds de la grille aux nœuds de la grille. Cette mise à jour est effectuée à l'aide d'un réseau d'interaction [5, 6], augmenté pour pouvoir travailler avec plusieurs types de nœuds [2]. Grid2Mesh GNN Ensuite, chacun des nœuds de mesh est mis à jour en agrégant des informations de tous les bords arrivant à ce nœud de mesh: Chacun des nœuds de grille est également mis à jour, mais sans agrégation, car les nœuds de grille ne sont pas des récepteurs de bords dans le sous-graphique Grid2Mesh, After updating all three elements, the model includes a residual connection, and for simplicity of the notation, reassigns the variables, 3.5. Processor The processor is a deep GNN that operates on the Mesh subgraph GM (VM, EM) which only contains the Mesh nodes and and the Mesh edges. Note the Mesh edges contain the full multi-mesh, with not only the edges of 𝑀6, but all of the edges of 𝑀5, 𝑀4, 𝑀3, 𝑀2, 𝑀1 and 𝑀0, which will enable long distance communication. Une seule couche du Mesh GNN est un réseau d'interaction standard [5, 6] qui met d'abord à jour chacune des bords de la grille en utilisant les informations des nœuds adjacents : Multi-mesh GNN Ensuite, il met à jour chacun des nœuds de mesh, agrégant des informations de tous les bords arrivant à ce nœud de mesh: And after updating both, the representations are updated with a residual connection and for simplicity of the notation, also reassigned to the input variables: Le paragraphe précédent décrit une seule couche de message passant, mais suivant une approche similaire à [43, 39], nous avons appliqué cette couche itérativement 16 fois, en utilisant des poids de réseau neuronal non partagés pour les MLPs dans chaque couche. 3.6 Décryptage Le rôle du décodeur est de ramener des informations au réseau et d'extraire une sortie. Analogiquement au Grid2Mesh GNN, le Mesh2Grid GNN exécute un message unique qui passe sur le sous-graphe bipartite Mesh2Grid GM2G(VG, VM, EM2G). Le Grid2Mesh GNN est fonctionnellement équivalent au Mesh2Grid GNN, mais en utilisant les bords Mesh2Grid pour envoyer des informations dans la direction opposée. Mesh2Grid GNN Then it updates each of the grid nodes, aggregating information from all of the edges arriving at that grid node: In this case we do not update the mesh nodes, as they won’t play any role from this point on. Ici encore, nous ajoutons une connexion résiduelle, et pour la simplicité de la notation, réassigner les variables, cette fois seulement pour les nœuds de grille, qui sont les seuls nécessaires à partir de ce point: Enfin, la prédiction yi pour chacun des nœuds de grille est produite en utilisant un autre MLP, Output function qui contient toutes les 227 variables prédites pour ce nœud de grille. Similaire à [43, 39], l'état météorologique suivant, X ̈t + 1, est calculé en ajoutant la prédiction par nœud, Y ̈t , à l'état d'entrée pour tous les nœuds de grille, Normalisation et paramétrification du réseau Similaire à [43, 39], nous avons normalisé toutes les entrées. Pour chaque variable physique, nous avons calculé la moyenne du niveau de pression et la déviation standard sur 1979-2015, et utilisé cela pour les normaliser à la moyenne zéro et à la variance unitaire. Pour les distances et les longueurs relatives des bords, nous avons normalisé les caractéristiques à la longueur du bord le plus long. Input normalization Because our model outputs a difference, 𝑌ˆ𝑡 , which, during inference, is added to 𝑋𝑡 to produce 𝑋ˆ𝑡+1, we normalized the output of the model by computing per-pressure level standard deviation statistics for the time difference 𝑌𝑡 = 𝑋𝑡+1 − 𝑋𝑡 of each variable6. When the GNN produces an output, we multiply this output by this standard deviation to obtain 𝑌ˆ𝑡 before computing 𝑋ˆ𝑡+1, as in Equation (18). For simplicity, we omit this output normalization from the notation. Output normalization The neural networks within GraphCast are all MLPs, with one hidden layer, and hidden and output layers sizes of 512 (except the final layer of the Decoder’s MLP, whose output size is 227, matching the number of predicted variables for each grid node). We chose the “swish” [40] activation function for all MLPs. All MLPs are followed by a LayerNorm [3] layer (except for the Decoder’s MLP). Neural network parameterizations 4 - Détails de la formation Cette section fournit des détails relatifs à la formation de GraphCast, y compris le partage de données utilisé pour développer le modèle (Section 4.1), la définition complète de la fonction objective avec le poids associé à chaque niveau variable et vertical (Section 4.2), l'approche de formation autorégressive (Section 4.3), les paramètres d'optimisation (Section 4.4), le programme de formation utilisé pour réduire le coût de la formation (Section 4.5), les détails techniques utilisés pour réduire l'empreinte mémoire de GraphCast (Section 4.6), le temps de formation (Section 4.7) et le logiciel empilé que nous avons utilisé (Section 4.8). 4.1 Formation partagée Pour imiter les conditions réelles de déploiement, dans lesquelles la prévision ne peut pas dépendre des informations du futur, nous avons divisé les données utilisées pour développer GraphCast et les données utilisées pour tester ses performances « de façon causale », en ce que le « ensemble de développement » ne contenait que des dates antérieures à celles du « ensemble de test ».Le ensemble de développement comprend la période 1979-2017, et le groupe de tests contient les années 2018-2021. Ni les chercheurs, ni le logiciel de formation des modèles, n’ont pu consulter les données du groupe de test jusqu’à ce que nous ayons terminé la phase de développement. Dans notre ensemble de développement, nous avons ensuite divisé les données en un ensemble de formation comprenant les années 1979-2015, et un ensemble de validation comprenant 2016-2017. Nous avons utilisé le groupe de formation comme données de formation pour nos modèles et le groupe de validation pour l'optimisation des hyperparamètres et la sélection des modèles, c'est-à-dire pour décider de l'architecture du modèle qui fonctionne le mieux. Nous avons ensuite gelé l'architecture du modèle et toutes les options de formation et nous avons passé à la phase de test. 4.2 Objectifs de la formation GraphCast a été formé pour minimiser une fonction objective sur les prévisions en 12 étapes (3 jours) contre les cibles ERA5, en utilisant la descente de gradient.L'objectif de formation est défini comme l'erreur moyenne carré (MSE) entre la sortie cible X et la sortie prévue X ̈, où τ ∈ 1 : Ttrain sont les temps de conduite qui correspondent aux étapes autorégressives de Ttrain. d0 ∈ Dbatch représente la date-temps d'initialisation de la prévision dans un lot de prévisions dans l'ensemble de formation, j ∈ J indique la variable, et pour les variables atmosphériques le niveau de pression. Ex. J ={z1000, z850, . . . , 2 T, MsL}, i ∈ G0.25◦ sont les coordonnées de position (latitude et longitude) dans la grille, x ̈d0+τ et xd0+τ sont des valeurs prédites et cibles pour certains niveaux de variable, emplacement et temps de lead,j,i j,i s j est la variance inverse des différences de temps, wj est le poids de perte par niveau variable, ai est la zone de la cellule de grille latitude-longitude, qui varie avec la latitude, et est normalisée en unité moyenne sur le grille. Afin de construire une perte scalaire unique, nous avons pris la moyenne sur la latitude-longitude, les niveaux de pression, les variables, les temps de lead et la taille du lot. Nous avons mesuré la moyenne sur les axes de latitude-longitude, avec un poids proportionnel à la taille de la cellule de latitude-longitude (normalisé pour signifier 1). Les quantités s = V hxt+1 − xt i −1 sont des estimations de variance inverse par niveau variable des différences de temps, qui visent à normaliser les objectifs (sur des étapes consécutives) à la variance d'unité. Ceux-ci ont été estimés à partir des données d'entraînement. Nous avons ensuite appliqué des poids de perte par niveau variable, à savoir pour les variables atmosphériques, nous avons mesuré à travers les niveaux, avec un poids proportionnel à la pression du niveau (normalisé à la moyenne unitaire), comme indiqué dans la figure 6a. Nous utilisons ici la pression comme un proxy pour la densité [26]. Notez que le poids de perte appliqué aux niveaux de pression à ou en dessous de 50 h 4.3. Training on autoregressive objective Afin d’améliorer la capacité de notre modèle à faire des prévisions précises sur plus d’une étape, nous avons utilisé un régime de formation autorégressive, où la prochaine étape prédite du modèle a été renvoyée en tant qu’entrée pour prédire la prochaine étape.La version finale de GraphCast a été formée sur 12 étapes autorégressives, suivant un calendrier de formation du curriculum décrit ci-dessous.La procédure d’optimisation a calculé la perte sur chaque étape de la prévision, par rapport à la étape de vérité de terrain correspondante, les gradients d’erreur par rapport aux paramètres du modèle ont été renvoyés à travers la séquence complète d’itérations de modèle non enregistrées (c’est-à-dire en utilisant 4.4 Optimisation La fonction d'objectif d'entraînement a été minimisée en utilisant la descente de gradient, avec des mini-batches. Nous avons échantillonné les trajectoires de vérité du terrain à partir de notre ensemble de données d'entraînement ERA5, avec remplacement, pour les lots de taille 32. Nous avons utilisé l'optimisateur AdamW [33, 27] avec des paramètres (beta1 = 0,9, beta2 = 0,95). Nous avons utilisé une dégradation de poids de 0,1 sur les matrices de poids. Nous avons utilisé le gradient (norm) avec une valeur normale maximale de 32. 5.4 Calendrier des formations La première phase consistait en 1000 mises à jour de la descente de gradients, avec une étape autorégressive, et un calendrier du taux d'apprentissage qui augmentait linéairement de 0 à 1e−3 (figure 7a). La deuxième phase consistait en 299 000 mises à jour de la descente de gradients, à nouveau avec une étape autorégressive, et un calendrier du taux d'apprentissage qui baissait à 0 avec une fonction de décomposition de demi-cosine (figure 7b). La troisième phase consistait en 11 000 mises à jour de la descente de gradients, où le nombre de étapes autorégressives augmentait de 2 12, en augmentant de 1 pour chaque 1000 mises à jour, et avec un taux d'ap Réduction de l’empreinte mémoire Pour intégrer de longues trajectoires (12 étapes autorégressives) dans les 32 Go d’un périphérique Cloud TPU v4, nous utilisons plusieurs stratégies pour réduire l’empreinte mémoire de notre modèle. Tout d’abord, nous utilisons le parallélisme de lot pour distribuer des données sur 32 périphériques TPU (c’est-à-dire un point de données par périphérique). Deuxièmement, nous utilisons la précision du point flottant bfloat16 pour réduire la mémoire prise par les activations (note, nous utilisons des numéros de précision complète (c’est-à-dire float32) pour calculer les mesures de performance au moment de l’évaluation). 4.7 Temps de formation Suivant le calendrier d’entraînement qui augmente le nombre d’étapes autorégressives, comme détaillé ci-dessus, la formation GraphCast a pris environ quatre semaines sur 32 appareils TPU. 4.8 Stack logiciel et matériel Nous utilisons JAX [9], Haiku [23], Jraph [17], Optax, Jaxline [4] et xarray [25] pour construire et former nos modèles. 5 - Méthodes de vérification Cette section fournit des détails sur notre protocole d'évaluation. Section 5.1 détaille notre approche de la division des données de manière causale, en assurant nos tests d'évaluation pour une généralisation significative, c'est-à-dire sans tirer parti des informations provenant de l'avenir. Section 5.2 explique plus en détail nos choix pour évaluer la compétence HRES et la comparer à GraphCast, en commençant par la nécessité d'une vérité de terrain spécifique à HRES pour éviter de la pénaliser à des temps courts (Section 5.2.1), l'impact de l'ERA5 et du HRES en utilisant différentes fenêtres d'assimilation sur le lookahead que chaque état incorpore (Section 5.2.2), le choix résultant de l' 5.1 Formation, validation et divisions de test In the test phase, using protocol frozen at the end of the development phase (Section 4.1), we trained four versions of GraphCast, each of them on a different period. The models were trained on data from 1979–2017, 1979–2018, 1979–2019 and 1979–2020 for evaluation on the periods 2018–2021, 2019–2021, 2020–2021 et 2021 respectivement. Encore une fois, ces divisions ont maintenu une séparation causale entre les données utilisées pour former une version du modèle et les données utilisées pour évaluer ses performances (voir Figure 8). La plupart de nos résultats ont été évalués en 2018 (c'est-à-dire, avec le modèle formé en 1979–2017), à quelques exceptions. Pour les expériences de suivi des cyclones, nous rapportons les résultats en 2018–2021 car les cyclones ne sont pas si communs, donc y compris plus d'années augmente la taille de l'échantillon. Nous utilisons la dernière version de GraphCast pour faire une prévision sur une année donnée: GraphCast <2018 pour la prévision de 2018, GraphCast <2019 pour la 5.2. Comparing GraphCast to HRES 5.2.1 Choix des ensembles de données de vérité de terrain GraphCast a été formé pour prédire les données ERA5, et pour prendre les données ERA5 comme entrée; nous utilisons également ERA5 comme vérité de terrain pour évaluer notre modèle. Les prévisions HRES, cependant, sont initialisées sur la base de l'analyse HRES. En général, la vérification d'un modèle contre son propre analyse donne les meilleures estimations de compétence [45]. Donc, plutôt que d'évaluer les prévisions HRES contre la vérité de terrain ERA5, ce qui signifierait que même l'étape zéro des prévisions HRES aurait une erreur non-zéro, nous avons construit un ensemble de données "PRÉVISION HRES à l'étape 0" (HRES-fc0) qui contient l'étape initiale des prévisions HRES 5.2.2 Assurer un regard égal dans les fenêtres d’assimilation Lors de la comparaison des compétences de GraphCast et HRES, nous avons fait plusieurs choix pour contrôler les différences entre les fenêtres d'assimilation des données ERA5 et HRES-fc0. Comme décrit dans la Section 1, chaque jour HRES assimile des observations en utilisant quatre fenêtres +/-3h centrées sur 00z, 06z, 12z et 18z (où 18z signifie 18:00 UTC dans la convention Zulu), tandis que ERA5 utilise deux fenêtres +9h/-3h centrées sur 00z et 12z, ou l'équivalent de deux fenêtres +3h/-9h centrées sur 06z et 18z. Voir figure 9 pour une illustration. Nous avons choisi d'évaluer les prévisions de GraphCast à partir des initialisations 06z La Figure 10 montre les performances de GraphCast initialisées à partir de 06z/18z, et 00z/12z. Lorsqu'il est initialisé à partir d'un état avec un lookahead plus grand, GraphCast obtient une amélioration visible qui persiste à des temps de lead plus longs, soutenant notre choix à l'évaluation initialisée à partir de 06z/18z. Nous avons appliqué la même logique lors du choix de la cible sur laquelle évaluer: nous n'évaluons que les cibles qui incorporent un lookahead 3 pour les HRES et ERA5. Compte tenu de notre choix d'initialisation at 06z et 18z, cela correspond à évaluer toutes les 12h, sur les futurs temps d'analyse 06z et 18z. À titre d'exemple pratique, si 5.2.3. Alignment of initialization and validity times-of-day Comme indiqué ci-dessus, une comparaison équitable avec HRES nous oblige à évaluer GraphCast en utilisant les initialisations 06z et 18z, et avec des temps de lead qui sont multiples de 12h, ce qui signifie que les temps de validité sont également 06z et 18z. Pour les temps de lead jusqu'à 3,75 jours, des prévisions HRES archivées sont disponibles en utilisant les temps d'initialisation et de validité 06z et 18z, et nous les utilisons pour effectuer une comparaison similaire avec GraphCast à ces temps de lead. Pour les temps de lead de 4 jours et au-delà, les prévisions HRES archivées ne sont disponibles qu'aux initialisations 00z et 12z, ce qui, étant donné nos temps de lead multiples de 12 heures, signifie les temps de validité 00z et 12z. Dans ces comparaisons de RMSEs globalement définies, nous nous attendons à ce que la différence dans le temps-de-jour donne à HRES un léger avantage. Dans la figure 11, nous pouvons voir que jusqu'à 3,5 jours de temps de lead, HRES RMSEs ont tendance à être plus petits en moyenne au-dessus de 00z et 12z temps d'initialisation/validité qu'ils sont à 06z et 18z fois sur lesquels GraphCast est évalué. Nous pouvons également voir que la différence diminue à mesure que le temps de lead augmente, et que les 06z/18z RMSEs ont généralement l'air de tendance à une asymptote au-dessus de la 00z/12z RMSE, mais dans les 2% de celui-ci. Whenever we plot RMSE and other evaluation metrics as a function of lead time, we indicate with a dotted line the 3.5 day changeover point where we switch from evaluating HRES on 06z/18z to evaluating on 00z/12z. At this changeover point, we plot both the 06z/18z and 00z/12z metrics, showing the discontinuity clearly. 5.2 Période d’évaluation La plupart de nos principaux résultats sont rapportés pour l'année 2018 (de notre ensemble de tests), pour laquelle le premier temps d'initialisation des prévisions a été 2018-01-01_06:00:00 UTC et le dernier 2018-12-31_18:00:00, ou lors de l'évaluation des HRES à des temps de lead plus longs, 2018-01-01_00:00:00 et 2018-12-31_12:00:00. 5.3 Méthodes d’évaluation Nous quantifierons l'habileté de GraphCast, d'autres modèles ML, et HRES en utilisant l'erreur moyenne carré de racine (RMSE) et le coefficient de corrélation d'anomalie (ACC), qui sont tous deux calculés sur les données de vérité de terrain respectives des modèles. La RMSE mesure l'ampleur des différences entre les prévisions et la vérité de terrain pour une variable donnée indexée par j et un temps de conduite donné τ (voir équation (20)). L'ACC, Lj,τ , est défini dans l'équation (29) et mesure à quel point les différences de prévisions de la climatologie, c'est-à-dire la météo moyenne pour un emplacement et une date, sont corrélées avec les différences de vér Toutes les mesures ont été calculées en utilisant la précision float32 et rapportées en utilisant la plage dynamique native des variables, sans normalisation. Nous avons quantifié l'habileté de prévision pour une variable donnée, x j, et le temps de conduite, τ = tΔd, en utilisant une erreur d'erreur moyenne carré pondérée en latitude (RMSE) donnée par Root mean square error (RMSE) where • d0 ∈ Deval représente la date-temps d'initialisation prévisionnelle dans l'ensemble de données d'évaluation, • j ∈ J variables et niveaux d’index, par exemple, J = {z1000, z850, . . . , 2 T, MsL}, • i ∈ G0.25◦ sont les coordonnées de localisation (latitude et longitude) dans la grille, • 𝑥ˆ𝑑0+𝜏 and 𝑥𝑑0+𝜏 are predicted and target values for some variable-level, location, and lead time, J, J et J • ai est la zone de la cellule de la grille latitude-longitude (normalisée en unité moyenne sur la grille) qui varie avec la latitude. En prenant la racine carrée à l'intérieur de la moyenne sur les initialisations de prévision, nous suivons la convention de WeatherBench [41]. Cependant, nous notons que cela diffère de la façon dont RMSE est défini dans de nombreux autres contextes, où la racine carrée n'est appliquée qu'à la moyenne finale, c'est-à-dire, Dans toutes les comparaisons impliquant des prédictions qui sont filtrées, tranchées ou décomposées dans le domaine harmonique sphérique, pour la commodité, nous calculons les RMSEs directement dans le domaine harmonique sphérique, avec tous les moyens pris à l'intérieur de la racine carré, Root mean square error (RMSE), spherical harmonic domain. Ici f ̈d0+τ et f d0+τ sont prédits et coefficients cibles d'harmonics sphériques avec le nombre d'ondes total j,l,m j,l,m 𝑙 and longitudinal wavenumber 𝑚. We compute these coefficients from grid-based data using a discrete spherical harmonic transform [13] with triangular truncation at wavenumber 719, which was chosen to resolve the 0.25° (28km) resolution of our grid at the equator. This means that 𝑙 ranges from 0 to 𝑙𝑚𝑎𝑥 = 719 and 𝑚 from −𝑙 to 𝑙. This RMSE closely approximates the grid-based definition of RMSE given in Equation (21), however it is not exactly comparable, in part because the triangular truncation at wavenumber 719 does not resolve the additional resolution of the equiangular grid near the poles. This is computed following the RMSE definition of Equation (21), but for a single location: Root mean square error (RMSE), per location. Nous divisons également RMSE par latitude seulement: où la longueur (G0.25◦) de la grille = 1440 est le nombre de longueurs distinctes dans notre grille régulière de 0,25°. This is computed following the RMSE definition of Equation (21) but restricted to a particular range of surface elevations, given by bounds 𝑧𝑙 ≤ 𝑧surface < 𝑧𝑢 on the surface geopotential: Root mean square error (RMSE), by surface elevation. où ll désigne la fonction de l'indicateur. This quantity is defined as Mean bias error (MBE), per location. Ceci quantifie la magnitude moyenne des biais de localisation de l'équation (26) et est donnée par Root-mean-square per-location mean bias error (RMS-MBE). Cela quantifie la corrélation entre les biais de localisation (Équation (26)) de deux modèles différents A et B. Nous utilisons un coefficient de corrélation non centré en raison de la signification de l'origine zéro dans les mesures de biais, et nous calculons cette quantité selon Correlation of per-location mean bias errors. Coefficient de corrélation d'anomalie (ACC). Nous avons également calculé le coefficient de corrélation d'anomalie pour une variable donnée, x j, et le temps de lead, τ = tΔd, selon where 𝐶𝑑0+𝜏 is the climatological mean for a given variable, level, latitude and longitude, and for the day-of-year containing the validity time 𝑑0 + 𝜏. Climatological means were computed using ERA5 data between 1993 and 2016. All other variables are defined as above. 5.4 Méthodologie statistique 5.4.1 Tests de signification pour la différence de moyens Pour chaque temps d'avance τ et niveau variable j, nous testons une différence de moyenne entre les RMSEs de temps d'initialisation (définis dans l'équation (30)) pour GraphCast et HRES. Nous utilisons un test t à deux côtés avec correction pour la corrélation automatique, selon la méthodologie de [16]. Ce test suppose que les séries de temps de différences dans les scores de prévision sont suffisamment modélisées en tant que processus AR(2) de Gaussian stationnaire. Cette hypothèse ne nous convient pas exactement, mais est motivée comme suffisante pour la vérification des prévisions météorologiques de moyenne portée par l'ECMWF dans [16]. La taille de l'échantillon nominal pour nos tests est n = 730 aux temps de plomb inférieurs à 4 jours, consistant en deux initialisations de prévision par jour sur les 365 jours de 2018. (Pour les temps de plomb sur 4 jours, nous avons n = 729, voir Section 5.4.2). Toutefois, ces données (différences dans les RMSEs de prévision) sont automatiquement corrélées dans le temps. Après [16] nous estimons un facteur d'inflation k pour l'erreur standard qui corrige pour cela. See Table 5 for detailed results of our significance tests, including 𝑝-values, values of the 𝑡 test statistic and of 𝑛eff. 5.4.2 Alignement des prévisions Pour les temps de lead τ de moins de 4 jours, nous avons des prévisions disponibles à 06z et 18z temps d'initialisation et de validité chaque jour pour GraphCast et HRES, et nous pouvons tester pour les différences de RMSEs entre ces prévisions associées. Nous calculons les différences dont nous utilisons pour tester l'hypothèse nulle selon laquelle E[diff-RMSE( j, τ, d0)] = 0 contre l'alterna-tive bidirectionnelle. As discussed in Section 5.2.3, at lead times of 4 days or more we only have HRES forecasts available at 00z and 12z initialization and validity times, while for the fairest comparison (Section 5.2.2) GraphCast forecasts must be evaluated using 06z and 18z initialization and validity times. In order to perform a paired test, we compare the RMSE of a GraphCast forecast with an interpolated RMSE of the two HRES forecasts either side of it: one initialized and valid 6 hours earlier, and the other initialized and valid 6 hours later, all with the same lead time. Specifically we compute differences: Nous pouvons utiliser ces hypothèses pour tester l'hypothèse nulle E[diff-RMSEinterp( j, τ, d0)] = 0, qui, à son tour, ne dépend pas de d0 par l'hypothèse de stationnalité sur les différences. Si nous supposons en outre que la série de temps HRES RMSE elle-même est stationnaire (ou au moins assez proche de la stationnaire sur une fenêtre de 6 heures), alors E[diff-RMSEinterp( j, τ, d0)] = E[diff-RMSE( j, τ, d0)] et les différences interpolées peuvent également être utilisées pour tester les écarts de l'hypothèse nulle originale que E[diff-RMSE( j, τ, d0)] = 0. Cette supposition de stagnation plus forte pour les HRES RMSEs est violée par la périodicité diurne, et dans la Section 5.2.3 nous voyons certaines différences systématiques dans les HRES RMSEs entre les temps de validité 00z/12z et 06z/18z. Toutefois, comme il a été discuté là, ces différences systématiques diminuent considérablement à mesure que le temps de conduite augmente et ils ont tendance à favoriser les HRES, et nous pensons donc qu'un test d'E[diff-RMSE( j, τ, d0)] = 0 basé sur diff-RMSEinterp sera conservateur dans les cas où GraphCast semble avoir une plus grande compétence que les HRES. 5.4.3 Intervalle de confiance pour les RMSEs Les barres d'erreur dans nos parcelles de compétences RMSE correspondent à des intervalles de confiance séparés pour E[RMSEGC] et E[RMSEHRES] (élidant ou maintenant les arguments j, τ, d0). Ceux-ci sont dérivés du test t bidirectionnel avec correction pour l'autocorrélation décrit ci-dessus, appliqué séparément aux séries temps GraphCast et HRES RMSE. These confidence intervals make a stationarity assumption for the separate GraphCast and HRES RMSE time series, which as stated above is a stronger assumption that stationarity of the differences and is violated somewhat. Thus these single-sample confidence intervals should be treated as approximate; we do not rely on them in our significance statements. 5.4.4 Intervalle de confiance pour les scores de compétence RMSE À partir du test t décrit dans la section 5.4.1, nous pouvons également dériver de la manière standard des intervalles de confiance pour la différence vraie dans les RMSEs, mais dans nos parcelles de scores de compétences, nous aimerions montrer les intervalles de confiance pour le vrai score de compétence RMSE, dans lequel la différence vraie est normalisée par la vraie RMSE de HRES: Un intervalle de confiance pour cette quantité devrait tenir compte de l'incertitude de notre estimation du vrai HRES RMSE. Que [ldiff, udiff] soit notre intervalle de confiance 1 − α/2 pour le numérateur (différence en RMSEs), et [lHRES, uHRES] notre intervalle de confiance 1 − α/2 pour le dénominateur (HRES RMSE). Étant donné que 0 < lHRES dans chaque cas pour nous, en utilisant l'arithmétique de l'intervalle et l'union liée, nous obtenons un intervalle de confiance conservateur 1 − α for RMSE-SStrue. We plot these confidence intervals alongside our estimates of the RMSE skill score, however note that we don’t rely on them for significance testing. 6. Comparison with previous machine learning baselines Pour déterminer comment la performance de GraphCast se compare à d'autres méthodes ML, nous nous concentrons sur Pangu-Weather [7], une base MLWP forte qui fonctionne à la résolution de 0,25°. Pour faire la comparaison la plus directe, nous partons de notre protocole d'évaluation, et utilisons celui décrit dans [7]. Parce que les résultats Pangu-Weather publiés sont obtenus à partir des initialisations 00z/12z, nous utilisons les mêmes initialisations pour GraphCast, au lieu de 06z/18z, comme dans le reste de ce document. Cela permet aux deux modèles d'être initialisés sur les mêmes entrées, qui incorporent la même quantité de lookahead (+9 heures, voir sections 5.2.2 et 5.2). Comme l'initialisation HRES incorp Comme le montre la Figure 12, GraphCast (lignes bleues) dépasse Pangu-Weather [7] (lignes rouges) sur 99,2% des cibles. Pour les variables de surface (2 T, 10 U, 10 v, MsL), l'erreur de GraphCast dans les premiers jours est d'environ 10-20% plus faible, et sur les temps de lead plus longs plateaux à environ 7-10% moins d'erreur. Les deux seules (sur le total de 252) mesures sur lesquelles Pangu-Weather a dépassé GraphCast était z500, aux temps de lead 6 et 12 heures, où GraphCast avait un RMSE moyen supérieur de 1,7% (figure 12a, e). 7. Additional forecast verification results Cette section fournit une analyse supplémentaire des performances de GraphCast, donnant une image plus complète de ses forces et limites. La section 7.1 complète les principaux résultats du document sur des variables supplémentaires et des niveaux au-delà de z500. La section 7.2 analyse davantage les performances de GraphCast décomposées par les régions, la latitude et les niveaux de pression (en particulier en distinguant les performances optimales appliquées au-dessous et au-dessus de la tropopause), illustre les biais et la RMSE par la longitude et l'élévation de la latitude. La section 7.3 démontre que le multi-mesh et la perte autorégressive jouent un rôle important dans les performances de GraphCast. La section 7.4 détaille l'appro 7.1. Detailed results for additional variables 7.1.1. RMSE and ACC La figure 13 complète la figure 2a-b et montre la différence RMSE et RMSE normalisée par rapport aux HRES pour GraphCast et HRES sur une combinaison de 12 variables de pointe. la figure 14 montre la différence ACC et ACC normalisée par rapport aux HRES pour GraphCast et HRES sur la même combinaison de 12 variables et complète la figure 2c. Le score de compétence ACC est la différence ACC normalisée entre le modèle A et la ligne de base B comme (ACCA − ACCB)/(1 − RMSEB). 7.1.2 Résultats détaillés des tests de signification pour les comparaisons RMSE Le tableau 5 fournit des informations supplémentaires sur les revendications de signification statistique faites dans la section principale sur les différences de RMSE entre GraphCast et HRES. Les détails de la méthodologie se trouvent dans la section 5.4. Ici, nous donnons les valeurs p, les statistiques de test et les tailles d'échantillon efficaces pour toutes les variables. Pour des raisons d'espace, nous nous limitons à trois temps de conduite clés (12 heures, 2 jours et 10 jours) et un sous-ensemble de 7 niveaux de pression choisis pour inclure tous les cas où p > 0,05 à ces temps de conduite. 7.1.3 Effet de la récurrence des données sur GraphCast Ceci leur permet, en principe, de modéliser les schémas météorologiques récents qui changent au fil du temps, tels que le cycle ENSO et d’autres oscillations, ainsi que les effets du changement climatique.Pour explorer comment la récentité des données d’entraînement influence les performances des tests de GraphCast, nous avons formé quatre variantes de GraphCast, avec des données d’entraînement qui ont toujours commencé en 1979, mais se sont terminées respectivement en 2017, 2018, 2019 et 2020 (nous avons étiqueté la variante se terminant en 2017 comme “GraphCast:<2018”, etc.). La figure 15 montre les scores d'habileté et d'habileté (en ce qui concerne HRES) des quatre variantes de GraphCast, pour plusieurs variables et complète la figure 4a. Il y a une tendance générale où les variantes formées à des années plus proches de l'année d'essai ont généralement amélioré le score d'habileté par rapport à HRES. La raison de cette amélioration n'est pas entièrement comprise, bien que nous spéculions qu'il soit analogue à la correction des biais à long terme, où les biais statistiques récents dans la météo sont exploités pour améliorer la précision. Il est également important de noter que HRES n'est pas un seul NWP au fil des ans: il a tendance à être mis à niveau une ou deux fois par an Cela peut également contribuer à la raison pour laquelle GraphCast:<2018 et GraphCast:<2019, en particulier, ont des scores de compétence inférieurs par rapport à HRES au début des temps de prédilection pour l'évaluation du test 2021.Nous notons que pour d'autres variables, GraphCast:<2018 et GraphCast:<2019 ont tendance à encore dépasser HRES. Ces résultats mettent en évidence une caractéristique clé de GraphCast, en permettant l'amélioration automatique des performances en réformant les données récentes. 7.2. Disaggregated results 7.2.1. RMSE by region L'évaluation par région des compétences de prévision est fournie dans les Figures 17 et 18, en utilisant les mêmes régions et la convention de dénomination que dans les cartes de score ECMWF (https://sites.ecmwf.int/ifs/scorecards/ scorecards-47r3HRES.html). Nous avons ajouté quelques régions supplémentaires pour une meilleure couverture de la planète entière. Ces régions sont montrées dans la Figure 16. 7.2.2. score de compétence RMSE par latitude et niveau de pression Dans la figure 19, nous traçons les différences de RMSE normalisées entre GraphCast et HRES, en fonction du niveau de pression et de la latitude. Nous traçons seulement les 13 niveaux de pression de WeatherBench [41] sur lesquels nous avons évalué HRES. On these plots, we indicate at each latitude the mean pressure of the tropopause, which separates the troposphere from the stratosphere. We use values computed for the ERA-15 dataset (1979-1993), given in Figure 1 of [44]. These will not be quite the same as for ERA5 but are intended only as a rough aid to interpretation. We can see from the scorecard in Figure 2 that GraphCast performs worse than HRES at the lowest pressure levels evaluated (50hPa). Figure 19 shows that the pressure level at which GraphCast starts to get worse is often latitude-dependent too, in some cases roughly following the mean level of the tropopause. Nous utilisons un poids de perte plus faible pour les niveaux de pression plus bas et cela peut jouer un rôle; il est également possible qu'il puisse y avoir des différences entre les ensembles de données ERA5 et HRES-fc0 dans la prévisibilité des variables dans la stratosphère. 7.2.3 Biases par latitude et longitude Dans les figures 20 à 22, nous traçons l'erreur de biais moyenne (MBE, ou simplement "bias", défini dans l'équation (26)) de GraphCast comme une fonction de latitude et de longitude, à trois temps de lead: 12 heures, 2 jours et 10 jours. Dans les parcelles pour les variables données sur les niveaux de pression, nous avons masqué les régions dont l'altitude de surface est suffisamment élevée pour que le niveau de pression soit en dessous du sol en moyenne. Nous déterminons que c'est le cas lorsque le géopotentiel de surface dépasse un géopotentiel climatique moyen au même emplacement et niveau de pression. Pour quantifier la magnitude moyenne des biases par emplacement montrées dans les figures 20 à 22, nous avons calculé le carré moyen de racine des erreurs de biases moyennes par emplacement (RMS-MBE, défini dans l'équation (26)). Ceux-ci sont tracés dans la figure 23 pour GraphCast et HRES en fonction du temps de lead. Nous pouvons voir que les biases de GraphCast sont plus petites en moyenne que celles de HRES pour la plupart des variables jusqu'à 6 jours. Nous avons également calculé un coefficient de corrélation entre GraphCast et les erreurs de déviations moyennes de HRES par emplacement (définie dans l'Équation (27)), qui est tracé comme une fonction du temps de déviation dans la Figure 24. 7.2.4. score de compétence RMSE par latitude et longitude Dans les figures 25 à 27, nous traçons la différence de RMSE normalisée entre GraphCast et HRES par latitude et longitude. Comme dans la section 7.2.3, pour les variables données sur les niveaux de pression, nous avons masqué les régions dont l'altitude de surface est suffisamment élevée pour que le niveau de pression soit en dessous du sol en moyenne. Les zones notables où HRES dépasse GraphCast comprennent l'humidité spécifique près des pôles (notamment le pôle sud); géopotentiel près des pôles; température de 2 m près des pôles et sur de nombreuses zones terrestres; et un certain nombre de variables de surface ou près de surface dans les régions à haute altitude de surface (voir aussi la section 7.2.5). At 12 hour and 2 day lead times both GraphCast and HRES are evaluated at 06z/18z initialization and validity times, however at 10 day lead times we must compare GraphCast at 06z/18z with HRES at 00z/12z (see Section 5). This difference in time-of-day may confound comparisons at specific locations for variables like 2m temperature (2 T) with a strong diurnal cycle. 7.2.5. score de compétence RMSE par élévation de surface In Figure 25, we can see that GraphCast appears to have reduced skill in high-elevation regions for many variables at 12 hour lead time. To investigate this further we divided the earth surface into 32 bins by surface elevation (given in terms of geopotential height) and computed RMSEs within each bin according to Equation (24). These are plotted in Figure 28. At short lead times and especially at 6 hours, GraphCast’s skill relative to HRES tends to decrease with higher surface elevation, in most cases dropping below the skill of HRES at sufficiently high elevations. At longer lead times of 5 to 10 days this effect is less noticeable, however. Nous notons que GraphCast est formé sur des variables définies à l'aide d'un mélange de coordonnées de niveau de pression (pour les variables atmosphériques) et de hauteur au-dessus des coordonnées de surface (pour les variables de niveau de surface telles que la température de 2m ou le vent de 10m). La relation entre ces deux systèmes de coordonnées dépend de l'élévation de la surface. Malgré le conditionnement de GraphCast sur l'élévation de la surface, nous supposons qu'il peut avoir du mal à apprendre cette relation et à l'extrapoler bien aux plus hautes élévations de la surface. Dans le travail ultérieur, nous proposerions d'essayer de former le modèle sur un sous-ensemble des niveaux de modèle n Les variables utilisant des coordonnées de niveau de pression sont interpolées sous terre lorsque le niveau de pression dépasse la pression de surface. GraphCast ne donne aucune indication explicite que cela s'est produit et cela peut ajouter au défi d'apprendre à prédire à des altitudes de surface élevées. Finally, our loss weighting is lower for atmospheric variables at lower pressure levels, and this may affect skill at higher-elevation locations. Future work might consider taking surface elevation into account in this weighting. 7.3 Ablation des graphiques 7.3.1. Multi-mesh ablation Pour mieux comprendre comment la représentation multi-mesh affecte les performances de GraphCast, nous comparons les performances de GraphCast à une version du modèle formé sans la représentation multi-mesh. L'architecture de ce dernier modèle est identique à GraphCast (y compris le même encodeur et décodeur, et le même nombre de nœuds), sauf que dans le bloc de processus, le graphique ne contient que les bords de la meilleure mesh icosahédronique M6 (245,760 bords, au lieu de 327,660 pour GraphCast). En conséquence, le modèle ablaté ne peut propager que des informations avec des bords de courte portée, tandis que GraphCast contient des bords de longue portée supplémentaires. Figure 29 (left panel) shows the scorecard comparing GraphCast to the ablated model. GraphCast benefits from the multi-mesh structure for all predicted variables, except for lead times beyond 5 days at 50 hPa. The improvement is especially pronounced for geopotential across all pressure levels and for mean sea-level pressure for lead times under 5 days. The middle panel shows the scorecard comparing the ablated model to HRES, while the right panel compares GraphCast to HRES, demonstrating that the multi-mesh is essential for GraphCast to outperform HRES on geopotential at lead times under 5 days. 7.3.2 Effet de la formation autorégressive Nous avons analysé les performances des variantes de GraphCast qui ont été entraînés avec moins d'étapes autorégressives (AR)7, ce qui devrait les encourager à améliorer leur performance à court terme au détriment de la performance à long terme. Comme le montre la Figure 30 (avec les lignes bleues plus légères correspondant à la formation avec moins d'étapes AR), nous avons constaté que les modèles entraînés avec moins d'étapes AR ont tendance à négocier plus longtemps pour une précision de temps de lead plus court. Ces résultats suggèrent le potentiel de combiner plusieurs modèles avec des nombres variables d'étapes AR, par exemple, pour des temps de lead courts, moyens et longs, pour capitaliser sur leurs avantages respectifs à travers l'horizon de prévision. 7.4 Blurring optimal 7.4.1. Effect on the comparison of skill between GraphCast and HRES Dans les figures 31 et 32, nous comparons la RMSE de HRES avec GraphCast avant et après que le brouillage optimal ait été appliqué aux deux modèles. nous pouvons voir que le brouillage optimal change rarement le classement des deux modèles, mais cela réduit généralement l'écart entre eux. 7.4.2 Méthodologie de filtration We chose filters which minimize RMSE within the class of linear, homogeneous (location invariant), isotropic (direction invariant) filters on the sphere. These filters can be applied easily in the spherical harmonic domain, where they correspond to multiplicative filter weights that depend on the total wavenumber, but not the longitudinal wavenumber [12]. Pour chaque initialisation d0, temps de conduite τ, variable et niveau j, nous avons appliqué une transformation harmonique sphérique discrète [13] aux prédictions x ̈d0+τ et cibles xd0+τ, obtenant les coefficients harmoniques sphériques f ̈d0+τ j j j,l,m et f d0+τ pour chaque paire du nombre d'ondes total l et le nombre d'ondes longitudinales m. Pour résoudre la résolution de 0,25° (28km) de notre grille à l'équateur, nous utilisons une troncation triangulaire au nombre d'ondes total 719, ce qui signifie que l varie de 0 à max l = 719, et pour chaque l la valeur de m varie de −l à l. Nous avons ensuite multiplié chaque coefficient prédit f ̈d0+τ par un poids du filtre bτ , qui est indépendant de j,l,m j,l le nombre d'ondes longitudinale m. Les poids du filtre ont été montés en utilisant les plus petits carrés pour minimiser l'erreur moyenne carré, tel que calculé dans le domaine harmonique sphérique: Lors de l’évaluation des prédictions filtrées, nous avons calculé MSE dans le domaine harmonique sphérique, comme détaillé dans l’équation (22). En installant différents filtres pour chaque temps de plomb, le degré de brouillard était libre d'augmenter avec l'incertitude croissante à des temps de plomb plus longs. Bien que cette méthode soit assez générale, elle a également des limites.Parce que les filtres sont homogènes, ils ne sont pas en mesure de prendre en compte les caractéristiques spécifiques à l'emplacement, telles que l'orographie ou les frontières terrestres-marines, et donc ils doivent choisir entre la sur-blurring des détails prévisibles à haute résolution dans ces endroits, ou sous-blurring des détails imprévisibles à haute résolution plus généralement.Cela les rend moins efficaces pour certaines variables de surface telles que 2 T, qui contiennent beaucoup de tels détails prévisibles. An alternative way to approximate a conditional expectation (and so improve RMSE) for our ECMWF forecast baseline would be to evaluate the ensemble mean of the ENS ensemble forecast system, instead of the deterministic HRES forecast. However the ENS ensemble is run at lower resolution than HRES, and because of this, it is unclear to us whether its ensemble mean will improve on the RMSE of a post-processed version of HRES. We leave an exploration of this for future work. 7.4.3. Transfer functions of the optimal filters Les poids du filtre sont visualisés dans la Figure 33, qui montre le rapport de la puissance de sortie à la puissance d'entrée pour le filtre, sur l'échelle logarithmique des décibels, en fonction de la longueur d'onde. Équation (35), ceci est égal à 20 log10(bτ ) pour la longueur d'onde Ce/l correspondant au nombre d'ondes total l.) For both HRES and GraphCast, we see that it is optimal for MSE to attenuate power over some short-to-mid wavelengths. As lead times increase, the amount of attenuation increases, as does the wavelength at which it is greatest. In optimizing for MSE, we seek to approximate a conditional expectation which averages over predictive uncertainty. Over longer lead times this predictive uncertainty increases, as does the spatial scale of uncertainty about the location of weather phenomena. We believe that this largely explains these changes in optimal filter response as a function of lead time. We can see that HRES generally requires more blurring than GraphCast, because GraphCast’s predictions already blur to some extent (see Section 7.5.3), whereas HRES’ do not. Les filtres optimaux sont également capables de compenser, dans une certaine mesure, les biases spectrales dans les prédictions de GraphCast et HRES. Par exemple, pour de nombreuses variables de notre ensemble de données ERA5 régularisé, le spectre se coupe brusquement pour les longueurs d'onde inférieures à 62 km qui ne sont pas résolues à la résolution native de 0.28125◦ de l'ERA5. Nous notons également qu’il y a des pics notables dans la réponse du filtre GraphCast autour de la longueur d’onde de 100 km pour z500, qui ne sont pas présents pour HRES. Nous pensons qu’ils filtrent les petits artefacts malveillants qui sont introduits par GraphCast autour de ces longueurs d’onde comme un effet secondaire des transformations de grille à grille et de grille à grille effectuées à l’intérieur du modèle. 7.4.4 Relation entre l'horizon d'entraînement autorégressif et le brouillard In Figure 34 we use the results of optimal blurring to investigate the connection between autoregressive training and the blurring of GraphCast’s predictions at longer lead times. Dans la première ligne de la Figure 34, nous voyons que les modèles formés avec des horizons d'entraînement autorégressifs plus longs bénéficient moins d'un brouillage optimal, et que les avantages d'un brouillage optimal commencent généralement à s'accumuler seulement après le temps de lead correspondant à l'horizon auquel ils ont été formés. Il serait pratique si nous pouvions remplacer la formation à l'horizon plus long par une stratégie de post-traitement simple telle que le brouillage optimal, mais cela ne semble pas être le cas: dans la deuxième ligne de la Figure 34, nous voyons que la formation autorégressive à l'horizon plus long donne toujours lieu à des RMSEs plus faibles, même après que le brouillage optimal ait été appliqué. Si l’on souhaite des prédictions qui sont, en quelque sorte, minimalement floues, on pourrait utiliser un modèle formé à un petit nombre d’étapes autorégressives. Cela entraînerait bien sûr des RMSEs plus élevés à des temps de lead plus longs, et nos résultats suggèrent ici que ces RMSEs plus élevés ne seraient pas uniquement dû au manque de flou; on compromettrait également d’autres aspects de la compétence à des temps de lead plus longs. 5.3 Analyse spectrale 7.5.1 Décomposition spectrale de l'erreur carrée moyenne Dans les figures 35 et 36, nous comparons l'habileté de GraphCast avec HRES sur une gamme d'échelles spatiales, avant et après la filtration optimale (voir les détails de la section 7.4). where 𝑙max = 719 as in Equation (22). Each total wavenumber 𝑙 corresponds approximately to a wavelength 𝐶𝑒/𝑙, where 𝐶𝑒 is the earth’s circumference. We plot power density histograms, where the area of each bar corresponds to 𝑆 𝑗,𝜏(𝑙), and the bars center around log10(1 + 𝑙) (since a log frequency scale allows for easier visual inspection, but we must also include wavenumber 𝑙 = 0). In these plots, the total area under the curve is the MSE. A des temps de lead de 2 jours ou plus, pour la plupart des variables GraphCast améliore sur la compétence de HRES uniformément sur toutes les longueurs d'onde. (2m de température est une exception notable). À des temps de lead plus courts de 12 heures à 1 jour, pour un certain nombre de variables (y compris z500, T500, T850 et U500) HRES a plus de compétences que GraphCast à des échelles dans la gamme approximative de 200-2000km, avec GraphCast généralement avoir plus de compétences en dehors de cette gamme. 7.5.2 RMSE comme fonction de la résolution horizontale Dans la figure 37, nous comparons l'habileté de GraphCast avec HRES lorsqu'il est évalué à une gamme de résolutions spatiales. Spécifiquement, à chaque ltrunc d'onde totale, nous traçons des RMSEs entre des prédictions et des cibles qui sont à la fois tranchées à ce nombre d'onde totale. Les RMSEs entre les prédictions tranchées et les objectifs peuvent être obtenus par des sommes cumulatives des puissances d'erreur moyennes S j,τ (l) définies dans l'équation (37), selon La figure 37 montre que dans la plupart des cas, GraphCast a un RMSE inférieur à HRES à toutes les résolutions généralement utilisées pour la vérification des prévisions.Ceci s'applique avant et après le filtrage optimal (voir section 7.4).Les exceptions comprennent la température de 2 mètres à un certain nombre de temps et de résolutions de lead, T 500 à 12 heures de lead times, et U 500 à 12 heures de lead times, où GraphCast fait mieux à une résolution de 0,25° mais HRES fait mieux à des résolutions d'environ 0,5◦ à 2,5◦ (correspondant aux longueurs d'onde les plus courtes d'environ 100 à 500 km). In particular we note that the native resolution of ERA5 is 0.28125◦ corresponding to a shortest wavelength of 62km, indicated by a vertical line in the plots. HRES-fc0 targets contain some signal at wavelengths shorter than 62km, but the ERA5 targets used to evaluate GraphCast do not, natively at least (see Section 7.5.3). In Figure 37 we can see that evaluating at 0.28125◦ resolution instead of 0.25° does not significantly affect the comparison of skill between GraphCast and HRES. 7.5.3 Spectre des prévisions et des objectifs La figure 38 compare le spectre de puissance des prédictions de GraphCast, les cibles ERA5 contre lesquelles ils ont été formés, et HRES-fc0. There are noticeable differences in the spectra of ERA5 and HRES-fc0, especially at short wavelengths. These differences may in part be caused by the methods used to regrid them from their respective native IFS resolutions of TL639 (0.28125◦) and TCo1279 (approx. 0.1◦, [36]) to a 0.25° equiangular grid. However even before this regridding is done there are differences in IFS versions, settings, resolution and data assimilation methodology used for HRES and ERA5, and these differences may also affect the spectra. Since we evaluate GraphCast against ERA5 and HRES against HRES-fc0, this domain gap remains an important caveat to attach to our conclusions. Differences between HRES and ERA5 Nous voyons une réduction de la puissance à des longueurs d'onde de courte à moyenne dans les prédictions de GraphCast, qui se réduit encore plus avec le temps de lead.Nous pensons que cela correspond au brouillard que GraphCast a appris à effectuer dans l'optimisation pour MSE. Blurring in GraphCast These peaks are particularly visible for z500; they appear to increase with lead time. We believe they correspond to small, spurious artifacts introduced by the internal grid-to-mesh and mesh-to-grid transformations performed by GraphCast at each autoregressive step. In future work we hope to eliminate or reduce the effect of these artifacts, which were also observed by [26]. Peaks for GraphCast around 100km wavelengths Enfin, nous notons que, alors que ces différences de puissance à courtes longueurs d'onde sont très perceptibles dans l'échelle de journaux et les parcelles relatives, ces courtes longueurs d'onde contribuent peu à la puissance totale du signal. 8. Additional severe event forecasting results Nous notons que GraphCast n'est pas spécialement formé pour ces tâches en aval, ce qui démontre que, au-delà des compétences améliorées, GraphCast fournit des prévisions utiles pour les tâches ayant un impact réel telles que le suivi des cyclones (Section 8.1), la caractérisation des rivières atmosphériques (Section 8.2) et la classification des températures extrêmes (Section 8.3). Chaque tâche peut également être considérée comme évaluant la valeur de GraphCast sur un axe différent: la structure spatiale et temporelle de la prévision à haute résolution (tâche de suivi des cyclones), la capacité de combiner non linéairement les prévisions GraphCast pour dériver des quantités d'intérêt ( 8.1 Prévisions de cyclones tropicaux In this section, we detail the evaluation protocols we used for cyclone tracking (Supplements Sec-tion 8.1.1) and analyzing statistical significance (Supplements Section 8.1.2), provide additional results (Supplements Section 8.1.3), and describe our tracker and its differences with the one from ECMWF (Supplements Section 8.1.4). 8.1.1. Evaluation protocol La façon standard de comparer les deux systèmes de prédiction des cyclones graphiques est de limiter la comparaison aux événements où les deux modèles prédisent l'existence d'un cyclone. Comme détaillé dans la section 5.2.2 des Suppléments, GraphCast est initialisé à partir de 06z et 18z, au lieu de 00z et 12z, pour éviter de lui donner un avantage de lookahead par rapport à HRES. Cependant, pour comparer HRES et GraphCast sur un ensemble d'événements similaires, nous procédons uniquement à l'initialisation à 00z et 12z. Cette divergence nous empêche de sélectionner des événements où l'initialisation et la carte du temps conduisent à la même validité pour les deux méthodes, car il Because we compute error with respect to the same ground truth (i.e., IBTrACS), the evaluation is not subject to the same restrictions described in Supplements Section 5.2.2, i.e., the targets for both models incorporate the same amount of lookahead. This is in contrast with most our evaluations in this paper, where the targets for HRES (i.e., HRES-fc0) incorporates +3h lookahead, and the ones for GraphCast (from ERA5) incorporate +3h or +9h, leading us to only report results for the lead times with a matching lookahead (multiples of 12h). Here, since the IBTrACS targets are the same for both models, we can report performance as a function of lead time by increments of 6h. Pour une prédiction donnée, l'erreur entre le centre prédit du cyclone et le centre véritable est calculée en utilisant la distance géodésique. 8.1.2 Méthodologie statistique Le calcul de la confiance statistique dans le suivi des cyclones nécessite une attention particulière dans deux aspects: 1. There are two ways to define the number of samples. The first one is the number of tropical cyclone events, which can be assumed to be mostly independent events. The second one is the number of per-lead time data points used, which is larger, but accounts for correlated points (for each tropical cyclone event multiple predictions are made at 6h interval). We chose to use the first definition which provides more conservative estimates of statistical significance. Both numbers are shown for lead times 1 to 5 days on the x-axis of Supplements Figure 39. 2. The per-example tracking errors of HRES and GraphCast are correlated. Therefore statistical variance in their difference is much smaller than their joint variance. Thus, we report the confidence that GraphCast is better than HRES (see Supplements Figure 39b) in addition to the per-model confidence (see Supplements Figure 39a). Compte tenu des deux considérations ci-dessus, nous faisons le bootstrapping avec des intervalles de confiance de 95% au niveau des cyclones. Pour un temps de lead donné, nous prenons en compte toutes les paires de temps d'initialisation/lead correspondantes et conservons une liste du cyclone dont elles proviennent (sans duplication). Pour l'estimation du bootstrap, nous tirons des échantillons de cette liste de cyclones (avec remplacement) et appliquons la médiane (ou la moyenne) aux paires de temps d'initialisation/lead correspondantes. Notez que cela nous donne des limites de confiance beaucoup plus conservatrices que de faire le bootstrapping au niveau des paires de temps d'initialisation/lead, car cela équivaut à supposer que tous les é For instance, assume for a given lead time we have errors of (50, 100, 150) for cyclone A, (300, 200) for cyclone B and (100, 100) for cyclone C, with A having more samples. A bootstrapping sample at the level of cyclones first samples uniformly at random 3 cyclones with replacement (for instance A,A,B) and then computes the mean on top of the corresponding samples with multiplicity: mean(50,100,150,50,100,150,200,300)=137.5. 8.1.3. Results In Supplements Figure 3a-b, we chose to show the median error rather than the mean. This decision was made before computing the results on the test set, based on the performance on the validation set. On the years 2016–2017, using the version of GraphCast trained on 1979–2015, we observed that, using early versions of our tracker, the mean track error was dominated by very few outliers and was not representative of the overall population. Furthermore, a sizable fraction of these outliers were due to errors in the tracking algorithm rather than the predictions themselves, suggesting that the tracker was suboptimal for use with GraphCast. Because our goal is to assess the value of GraphCast forecast, rather than a specific tracker, we show median values, which are also affected by tracking errors, but to a lesser extent. In figure Figure 40 we show how that the distribution of both HRES and GraphCast track errors for the test years 2018–2021 are non-gaussian with many outliers. This suggests the median is a better summary statistic than the mean. Supplements Figure 39 complète la Figure 3a-b en montrant l'erreur moyenne de trace et l'analyse associée correspondante. Nous notons que l'utilisation de la version finale de notre tracker (Supplements Section 8.1.4), les résultats moyens de GraphCast sont similaires à la moyenne, avec GraphCast dépassant considérablement HRES pour le temps de conduite entre 2 et 5 jours. En raison des effets de brouillard bien connus, qui ont tendance à alléger les extrêmes utilisés par un tracker pour détecter la présence d'un cyclone, les méthodes ML peuvent laisser tomber les cyclones existants plus souvent que les NWPs. La chute d'un cyclone est très corrélée à avoir une grande erreur de positionnement. Par conséquent, en supprimant de l'évaluation de telles prédictions, où un modèle ML aurait été particulièrement mauvais, pourrait lui donner un avantage injuste. To avoid this issue, we verify that our hyper-parameter-searched tracker (see Supplements Sec-tion 8.1.4) misses a similar number of cyclones as HRES. Supplements Figure 41 shows that on the test set (2018–2021), GraphCast and HRES drop a similar number of cyclones, ensuring our comparisons are as fair as possible. Les suppléments Figures 42 et 43 montrent l'erreur médiane et l'analyse associée en tant que fonction du temps de plomb, décomposé par catégorie cyclone, où la catégorie est définie sur l'échelle du vent d'ouragan Saffir-Simpson [47], avec la catégorie 5 représentant les tempêtes les plus fortes et les plus dommageables (note, nous utilisons la catégorie 0 pour représenter les tempêtes tropicales). Nous avons constaté que GraphCast a des performances égales ou meilleures que HRES dans toutes les catégories. Pour la catégorie 2, et en particulier pour la catégorie 5 (les événements les plus intenses), GraphCast est nettement meilleur que HRES, comme le démontre l'analyse par paire par piste. 8.1.4 Détails du tracker Le tracker que nous avons utilisé pour GraphCast est basé sur notre réimplémentation du tracker de l'ECMWF [35]. Parce qu'il est conçu pour 0.1° HRES, nous avons trouvé utile d'ajouter plusieurs modifications pour réduire le nombre de cyclones en panne lorsqu'il est appliqué aux prédictions de GraphCast. Nous donnons d'abord un résumé de haut niveau du suivi par défaut d'ECMWF, avant d'expliquer les modifications que nous avons apportées et notre processus de décision. Compte tenu des prédictions d'un modèle des variables 10 U, 10 v, MsL ainsi que U, v et z à des niveaux de pression de 200, 500, 700, 850 et 1000 hPa sur plusieurs étapes de temps, le tracker ECMWF [35] traite séquentiellement chaque étape pour prédire itérativement l'emplacement d'un cyclone sur une trajectoire entière. Chaque prédiction de 6 heures du tracker a deux étapes principales. Dans la première étape, en fonction de l'emplacement actuel du cyclone, le tracker calcule une estimation de l'emplacement suivant, 6 heures à l'avance. ECMWF tracker To compute the estimate of the next cyclone location, the tracker moves the current estimate using a displacement computed as the average of two vectors: 1) the displacement between the last two track locations (i.e., linear extrapolation) and 2) an estimate of the wind steering, averaging the wind speed U and v at the previous track position at pressure levels 200, 500, 700 and 850 hPa. Une fois que l'estimation de l'emplacement du prochain cyclone est calculée, le tracker regarde tous les minima locaux de pression moyenne au niveau de la mer (MsL) dans les 445 km de cette estimation. Vérification de la vorticité : la vorticité maximale à 850 hPa dans les 278 km des minimes locales est supérieure à 5 · 10−5 s−1 pour l'hémisphère nord, ou est inférieure à −5 · 10−5s−1 pour l'hémisphère sud. Vérification de la vitesse du vent : si le candidat est sur terre, la vitesse maximale du vent de 10 m dans les 278 km est supérieure à 8 m/s. Vérification de l'épaisseur : si le cyclone est extratrophique, il y a une épaisseur maximale entre 850 hPa et 200 hPa dans un rayon de 278 km, où l'épaisseur est définie comme z850-z200. Si aucun minimum ne satisfait à toutes ces conditions, le tracker considère qu’il n’y a pas de cyclone. Le tracker de l’ECMWF permet aux cyclones de disparaître brièvement dans certaines conditions d’angle avant de réapparaître. Nous avons analysé les erreurs sur les cyclones de nos années de validation (2016-2017), en utilisant une version de GraphCast formée sur 1979-2015, et modifié la réimplémentation par défaut du tracker ECMWF comme décrit ci-dessous. Our modified tracker Nous avons trouvé ce paramètre critique et recherché une meilleure valeur parmi les options suivantes: 445 × f pour f dans 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (valeur initiale). Nous avons également trouvé ce paramètre critique et recherché une meilleure valeur parmi les options suivantes: 278 × f pour f dans 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (valeur initiale). 3. The next-step estimate of ECMWF uses a 50-50 weighting between linear extrapolation and wind steering vectors. In our case where wind is predicted at 0.25° resolution, we found wind steering to sometimes hinder estimates. This is not surprising because the wind is not a spatially smooth field, and the tracker is likely tailored to leverage 0.1° resolution predictions. Thus, we hyper-parameter searched the weighting among the following options: 0.0, 0.1, 0.33, 0.5 (original value). Ainsi, nous ne considérons que les candidats qui créent un angle entre la direction précédente et la nouvelle direction en-dessous des degrés d, où d a été recherché parmi ces valeurs: 90, 135, 150, 165, 175, 180 (c'est-à-dire pas de filtre, valeur initiale). 5. We noticed multiple misstracks made large jumps, due to a combination of noisy wind steering and features being hard to discern for weak cyclones. Thus, we explored clipping the estimate from moving beyond 𝑥 kilometers (by resizing the delta with the last center), searching over the following values for x: 445 × 𝑓 for f in 0.25, 0.5, 1.0, 2.0, 4.0, ∞ (i.e. no clipping, original value). Au cours de la recherche hyperparamétrique, nous avons également vérifié sur les données de validation que le tracker appliqué à GraphCast a laissé tomber un nombre de cyclones similaire à celui de HRES. 8.2 Rivières atmosphériques Le transport de vapeur d'eau intégré verticalement (IvT) est couramment utilisé pour caractériser l'intensité des rivières atmosphériques [38, 37]. Bien que GraphCast ne prédisse pas directement l'IvT et n'est pas spécialement formé pour prédire les rivières atmosphériques, nous pouvons dériver cette quantité des variables atmosphériques spécifiques prédites humidité, Q, et vent horizontal, (U, v), via la relation [38]: where 𝑔 = 9.80665 m/s2 is the acceleration due to gravity at the surface of the Earth, 𝑝𝑏 = 1000 hPa is the bottom pressure, and 𝑝𝑡 = 300 hPa is the top pressure. L'évaluation de l'IVT en utilisant la relation ci-dessus nécessite une intégration numérique et le résultat dépend donc de la résolution verticale de la prédiction. GraphCast a une résolution verticale de 37 niveaux de pression, ce qui est plus élevé que la résolution des trajectoires HRES disponibles avec seulement 25 niveaux de pression. Pour une comparaison cohérente et équitable des deux modèles, nous n'utilisons donc qu'un sous-ensemble commun de niveaux de pression, qui sont également inclus dans le critère de référence WeatherBench, lors de l'évaluation de l'IVT 8, à savoir [300, 400, 500, 600, 700, 850, 925, 1000] hPa. Consistently with the rest of our evaluation protocol, each model is evaluated against its own “analysis”. For GraphCast, we compute the IvT based on its predictions and we compare it to the IvT computed analogously from ERA5. Similarly, we use HRES predictions to compute the IvT for HRES and and compare it to the IvT computed from HRES-fc0. De même que le travail précédent [10], la Figure 44 rapporte le score moyen des compétences et des compétences de la RMSE sur les côtes de l'Amérique du Nord et du Pacifique oriental (de 180° W à 110° W de longitude et de 10° N à 60° N de latitude) pendant la saison froide (janvier-avril et octobre-décembre 2018), ce qui correspond à une région et à une période avec des rivières atmosphériques fréquentes. 8.3 Chaleur extrême et froid Nous étudions la prévision de la chaleur extrême et du froid en tant que problème de classification binaire [35, 32] en comparant si un modèle de prévision donné peut correctement prédire si la valeur d'une variable donnée sera supérieure (ou inférieure) à un certain percentile de la distribution d'une climatologie historique de référence (par exemple, au-dessus du percentile de 98% pour la chaleur extrême et au-dessous du percentile de 2% pour le froid extrême). Après le travail précédent [35], la climatologie de référence est obtenue séparément pour (1) chaque variable (2) chaque mois de l'année, (3) chaque fois de la journée, (4) chaque coordonnée latitude/longitude, et (5) chaque niveau de pression (si applicable). Cela rend la détection des extrêmes plus contrastée en sup Parce que la prédiction extrême est par définition un problème de classification déséquilibré, nous basons notre analyse sur des parcelles de rappel de précision qui conviennent bien à ce cas [42]. La courbe de rappel de précision est obtenue en variant un paramètre libre « gain » consistant en un facteur d’échelle par rapport à la valeur médiane de la climatologie, c’est-à-dire une prévision évoluée = gain × (prévision − climatologie médiane) + climatologie médiane. Cela a pour effet de déplacer la limite de décision et permet d’étudier les différents échanges entre les faux négatifs et les faux positifs. Intuitivement, un gain de 0 produira des résultats positifs de prévision zéro (par exemple, des faux positifs zéro Nous concentrons notre analyse sur les variables qui sont pertinentes pour les conditions de température extrême, en particulier 2 T [35, 32], et aussi T 850, z500 qui sont souvent utilisés par ECMWF pour caractériser les vagues de chaleur [34]. Après le travail précédent[32], pour la chaleur extrême, nous mesurons tout au long de juin, juillet et août sur terre dans l'hémisphère nord (latitude > 20◦) et tout au long de décembre, janvier et février sur terre dans l'hémisphère sud (latitude < -20◦). Pour le froid extrême, nous avons échangé les mois pour les hémisphères nord et sud. Voir les résultats complets dans la Figure 45. Nous fournissons également une comparaison de temps de conduite plus finement grainée Les visualisations prévisionnelles Dans cette dernière section, nous fournissons quelques exemples de visualisation des prédictions faites par GraphCast pour les variables 2 T (Figure 47), 10 U (Figure 48), MsL (Figure 49), z500 (Figure 50), T 850 (Figure 51), v 500 (Figure 52), Q 700 (Figure 53). References [1] Ferran Alet, Adarsh Keshav Jeewajee, Maria Bauza Villalonga, Alberto Rodriguez, Tomas Lozano-Perez et Leslie Kaelbling. Réseaux d'éléments graphiques: calcul structuré et adaptatif et mémoire. Dans la Conférence internationale sur l'apprentissage automatique, pages 212-222 PMLR, 2019. [2] Kelsey R Allen, Yulia Rubanova, Tatiana Lopez-Guevara, William Whitney, Alvaro Sanchez-Gonzalez, Peter Battaglia, et Tobias Pfaff. Apprendre la dynamique rigide avec les réseaux de graphiques d'interaction faciale. arXiv préimpression arXiv:2212.03574, 2022. [3] Jimmy Lei Ba, Jamie Ryan Kiros et Geoffrey E. Hinton. normalisation de la couche. arXiv, 2016. [4] Igor Babuschkin, Kate Baumli, Alison Bell, Surya Bhupatiraju, Jake Bruce, Peter Buchlovsky, David Budden, Trevor Cai, Aidan Clark, Ivo Danihelka, Claudio Fantacci, Jonathan Godwin, Chris Jones, Ross Hemsley, Tom Hennigan, Matteo Hessel, Shaobo Hou, Steven Kapturowski, Thomas Keck, Iurii Kemaev, Michael King, Markus Kunesch, Lena Martens, Hamza Merzic, Vladimir Mikulik, Tamara Norman, John Quan, George Papamakarios, Roman Ring, Francisco Ruiz, Alvaro Sanchez, Rosalia Schneider, Eren Sezener, Stephen Spencer, Srivatsan Srinivasan, Luyu, Wangciech Wojciech Stokowiec et Fabio Viola. // github.com/deepmind à partir de 2020. [5] Peter Battaglia, Razvan Pascanu, Matthew Lai, Danilo Jimenez Rezende, et al. Réseaux d’interaction pour l’apprentissage des objets, des relations et de la physique. [6] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Pré-impression arXiv:1806.01261, 2018. [7] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu et Qi Tian. Pangu-Weather: Un modèle 3D haute résolution pour des prévisions météorologiques mondiales rapides et précises. arXiv préimpression arXiv:2211.02556, 2022. [8] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. The THORPEX interactive grand global ensemble. Bulletin of the American Meteorological Society, 91(8):1059–1072, 2010. [9] James Bradbury, Roy Frostig, Peter Hawkins, Matthew James Johnson, Chris Leary, Dougal Maclaurin, George Necula, Adam Paszke, Jake VanderPlas, Skye Wanderman-Milne, et Qiao Zhang. JAX: transformations composables de programmes Python+NumPy. http://github. com/google/jax, 2018. [10] WE Chapman, AC Subramanian, L Delle Monache, SP Xie, et FM Ralph. Amélioration des prévisions de la rivière atmosphérique avec l'apprentissage automatique. Geophysical Research Letters, 46(17-18):10627–10635, 2019. [11] Tianqi Chen, Bing Xu, Chiyuan Zhang et Carlos Guestrin. Réseaux profonds de formation avec coût de mémoire sous-ligne. arXiv préprint arXiv:1604.06174, 2016. [12] Balaji Devaraju. Compréhension du filtrage sur la sphère: Expériences de la filtration des données GRACE. thèse de doctorat, Université de Stuttgart, 2015. [13] J. R. Driscoll et D. M. Healy. Computing fourier transformes et convolutions sur la 2e sphère. Matthieu 15 (2):202–250, juin 1994. [14] ECMWF. IFS documentation CY41R2 - part III: Dynamics and numerical procedures. https: //www.ecmwf.int/node/16647, 2016 et 2016. [15] Meire Fortunato, Tobias Pfaff, Peter Wirnsberger, Alexander Pritzel, et Peter Battaglia. multi-scale meshgraphnets. arXiv préprint arXiv:2210.00612, 2022. [16] Alan J Geer. Signification des changements dans les scores de prévision à moyenne portée. Tellus A: Météorologie dynamique et océanographie, 68(1):30229, 2016. [17] Jonathan Godwin, Thomas Keck, Peter Battaglia, Victor Bapst, Thomas Kipf, Yujia Li, Kimberly Stachenfeld, Petar Veličković, et Alvaro Sanchez-Gonzalez. Jraph: Une bibliothèque pour les réseaux neuronaux graphiques dans JAX. http://github.com/deepmind/jraph, 2020. [18] T. Haiden, Martin Janousek, Jean-Raymond Bidlot, R. Buizza, L. Ferranti, F. Prates et Frédéric Vitart. Évaluation des prévisions ECMWF, y compris la mise à niveau 2018. https://www.ecmwf. int/node/18746, 10/2018 2018. [19] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, Crtistina Prates, et David Richardson. Évaluation des prévisions ECMWF, y compris la mise à niveau 2020. https://www.ecmwf.int/node/19879, 01/2021 2021. [20] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, et Fernando Prates. Évaluation des prévisions ECMWF, y compris la mise à niveau 2021. https://www. ecmwf.int/node/20142, 09/2021 2021. [21] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, Fernando Prates, et David Richardson. Évaluation des prévisions ECMWF, y compris la mise à niveau 2021. https://www.ecmwf.int/node/20469, 09/2022 2022. [22] Thomas Haiden, Martin Janousek, Frédéric Vitart, Laura Ferranti et Fernando Prates. Évaluation des prévisions ECMWF, y compris la mise à niveau 2019. https://www.ecmwf.int/node/ 19277, 11/2019 2019. [23] Tom Hennigan, Trevor Cai, Tamara Norman et Igor Babuschkin. Haiku: Sonnet pour JAX. http://github.com/deepmind/dm-haiku, 2020. [24] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. La réanalyse globale de l’ERA5. Journal trimestriel de la Royal Meteorological Society, 146(730):1999–2049, 2020. [25] S. Hoyer et J. Hamman. xarray: N-D étiqueté agrégats et ensembles de données en Python. Journal of Open Research Software, 5(1), 2017. [26] Ryan Keisler. Prévisions météorologiques mondiales avec les réseaux neuronaux graphiques. arXiv préprint arXiv:2202.07575, 2022. [27] Diederik P. Kingma et Jimmy Ba. Adam: Une méthode d'optimisation stochastique. arXiv préprint arXiv:1412.6980, 2014. [28] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. International best track archive for climate stewardship (IBTrACS) project, version 4. https://doi.org/10.25921/82ty-9e16, 2018. [29] Kenneth R. Knapp, Michael C. Kruk, David H. Levinson, Howard J. Diamond et Charles J. Neumann. Les meilleurs archives internationales pour la gestion du climat (IBTrACS) unifiant les données sur les cyclones tropicaux. [30] Michael C Kruk, Kenneth R Knapp, et David H Levinson. Une technique pour combiner les meilleures données de trace des cyclones tropicaux mondiaux. Journal of Atmospheric and Oceanic Technology, 27(4):680-692, 2010. [31] David H. Levinson, Howard J Diamond, Kenneth R. Knapp, Michael C. Kruk et Ethan J. Gibney. Vers un cyclone tropical mondial homogène. Bulletin de la Société météorologique américaine, 91(3):377-380, 2010. [32] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal et Jason Hickey. prévision de la chaleur extrême mondiale en utilisant des modèles météorologiques neuronaux. Intelligence artificielle pour les systèmes terrestres, pages 1-41, 2022. [33] Ilya Loshchilov et Frank Hutter. régularisation de la dégradation du poids découpée. arXiv préprint arXiv:1711.05101, 2017. [34] Linus Magnusson. 202208 - vague de chaleur - uk. https://confluence.ecmwf.int/display/ FCST/202208+-+Wave de chaleur+-+UK, 2022. [35] Linus Magnusson, Thomas Haiden, et David Richardson. Vérification des événements météorologiques extrêmes: prédicteurs discrets. [36] S. Malardel, Nils Wedi, Willem Deconinck, Michail Diamantakis, Christian Kuehnlein, G. Mozdzynski, M. Hamrud, et Piotr Smolarkiewicz. Une nouvelle grille pour l’IFS. https: //www.ecmwf.int/node/17262, 2016 et 2016. [37] Benjamin J Moore, Paul J Neiman, F Martin Ralph, et Faye E Barthold. Processus physiques associés à de fortes précipitations inondatoires à Nashville, Tennessee, et dans les environs au cours du 1er au 2 mai 2010: Le rôle d'une rivière atmosphérique et des systèmes convectifs de mesoscale. [38] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist, et Michael D Dettinger. Caractéristiques météorologiques et impacts des précipitations terrestres des rivières atmosphériques affectant la côte ouest de l'Amérique du Nord sur la base de huit années d'observations satellites ssm/i. Journal of Hydrometeorology, 9(1):22-47, 2008. [39] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez, et Peter Battaglia. Apprentissage de la simulation basée sur le filet avec les réseaux graphiques. [40] Prajit Ramachandran, Barret Zoph, et Quoc V Le. Recherche de fonctions d'activation. arXiv préprint arXiv:1710.05941, 2017. [41] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid, et Nils Thuerey. WeatherBench: un ensemble de données de référence pour les prévisions météorologiques basées sur les données. Journal of Advances in Modeling Earth Systems, 12(11):e2020MS002203, 2020. [42] Takaya Saito et Marc Rehmsmeier. Le complot de rappel de précision est plus informatif que le complot ROC lors de l'évaluation des classificateurs binaires sur des ensembles de données déséquilibrés. PloS un, 10(3):e0118432, 2015. [43] Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec, et Peter Battaglia. Apprendre à simuler la physique complexe avec des réseaux graphiques. Dans la Conférence internationale sur l'apprentissage automatique, pages 8459-8468. PMLR, 2020. [44] B. D. Santer, R. Sausen, T. M. L. Wigley, J. S. Boyle, K. AchutaRao, C. Doutriaux, J. E. Hansen, G. A. Meehl, E. Roeckner, R. Ruedy, G. Schmidt, et K. E. Taylor. Comportement de la hauteur tropopausée et de la température atmosphérique dans les modèles, réanalyses et observations: changements décadiques. [45] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M Hamill, Tim D Hewson, Julia H Keller, Mio Matsueda, John Methven, Florian Pappenberger, et al. Le projet TIGGE et ses réalisations. [46] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson, et Munehiko Yamaguchi. Le projet TIGGE et ses réalisations. Bulletin de l’American Meteorological Society, 97(1):49 – 67, 2016. [47] Harvey Thurm Taylor, Bill Ward, Mark Willis, et Walt Zaleski. L'échelle du vent de l'ouragan Saffir-Simpson. Administration atmosphérique: Washington, DC, États-Unis, 2010. [48] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser et Illia Polosukhin. L’attention est tout ce dont vous avez besoin. [49] Petar Veličković, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio, et Yoshua Bengio. Réseaux d'attention graphique. arXiv préprint arXiv:1710.10903, 2017. Ce document est disponible sous la licence CC by 4.0 Deed (Attribution 4.0 International). Ce document est disponible sous la licence CC by 4.0 Deed (Attribution 4.0 International).