著者: Remi Lam (Google DeepMind) Alvaro Sanchez-Gonzalez (Google DeepMind) Matthew Willson (Google DeepMind) Peter Wirnsberger (Google DeepMind) Meire Fortunato (Google DeepMind) Ferran Alet (Google DeepMind) Suman Ravuri (Google DeepMind) Timo Ewalds (Google DeepMind) Zach Eaton-Rosen (Google DeepMind) Weihua Hu (Google DeepMind) Alexander Merose (Google Research) Stephan Hoyer (Google Research) George Holland (Google DeepMind) Oriol Vinyals (Google DeepMind) Jacklynn Stott (Google DeepMind) Alexander Pritzel (Google DeepMind) Shakir Mohamed (Google DeepMind) Peter Battaglia (Google DeepMind) 著者: レミ・ラム(Google DeepMind) アルバロ・サンチェス・ゴンザレス(Google DeepMind) マシュー・ウィルソン(Google DeepMind) ピーター・ウィーンズバーガー(Google DeepMind) Meire Fortunato (Google DeepMind) フェラン・アレット(Google DeepMind) スーマン・ラウリ(Google DeepMind) ティモ・エヴァルドス(Google DeepMind) Zach Eaton-Rosen (Google DeepMind) グーグル・ディープミンド(Google DeepMind) アレクサンダー・メロス(Google Research) ステファン・ホイヤー(Google Research) ジョージ・ホランド(Google DeepMind) オリオール・ヴィニアル(Google DeepMind) ジャックリン・ストット(Google DeepMind) アレクサンダー・プリッツェル(Google DeepMind) シャキール・モハメド(Google DeepMind) ピーター・バタグリア(Google DeepMind) 伝統的な数値天気予報は、予測の正確性を向上させるために増加したコンピューティングリソースを使用しますが、歴史的な天気データを直接使用してベースのモデルを改善することはできません。我々は「GraphCast」と呼ばれる機械学習ベースの方法を導入し、再分析データから直接訓練することができます。それは、10日間で0.25°の解像度で世界中で、1分以内に数百の天気変数を予測します。我々は、GraphCastが1380の検証目標の90%で最も正確な運用決定システムを大幅に上回ることを示し、その予測は、熱帯のサイクロン、大気の川、および極端な温度を含む深刻なイベントの予測をよりよくサポートします。 キーワード: Weather forecasting, ECMWF, ERA5, HRES, learning simulation, graph neural networks 導入 2022年10月中旬に5時45分、イタリアのボローニャで、ECMWF(European Centre for Medium-Range Weather Forecasts)の新ハイパフォーマンスコンピューティング施設が稼働を開始しました。過去数時間にわたり、統合予測システム(IFS)は、今後数日と数週間で地球の天候を予測するための高度な計算を実行し、最初の予測がユーザーに配信され始めたばかりです。 IFSと現代の天気予報は、より一般的に、科学とエンジニアリングの勝利です。天気システムのダイナミクスは、地球上で最も複雑な物理的現象の一つであり、毎日、個人、産業、および政策立案者によって行われる無数の決定は、正確な天気予報に依存し、ジャケットを着用するか危険な嵐を逃れるかどうかを決定することからです。今日の天気予報の主なアプローチは「数値天気予報」(NWP)であり、これはスーパーコンピュータを使用して天気の支配的方程式を解決することを含みます。 NWPの成功は、天気予報の正確さが年々増加し、表面、気温、または多くのハリケーンの しかし、伝統的なNWPはコンピュータでよくスケールするが、その正確さは歴史的データの量が増加するにつれて改善されない。ECMWFのMARSなど、天気や気候学的データの膨大なアーカイブがあるが、最近まで、予測モデルの品質を直接改善するためのそのようなデータを使用するための実用的な手段はほとんどなかった。 Machine learning-based weather prediction (MLWP) offers an alternative to traditional NWP, where forecast models are trained directly from historical data. This has potential to improve forecast accuracy by capturing patterns and scales in the data which are not easily represented in explicit equations. MLWP also offers opportunities for greater efficiency by exploiting modern deep learning hardware, rather than supercomputers, and striking more favorable speed-accuracy trade-offs. Recently MLWP has helped improve on NWP-based forecasting in regimes where traditional NWP is relatively weak, for example sub-seasonal heat wave prediction [16] and precipitation nowcasting from radar images [32, 33, 29, 8], where accurate equations and robust numerical methods are not as available. IFS のような NWP ベースのシステムは依然として最も正確である中間範囲の天候予測、すなわち、10 日以内に大気の変数を予測する、中間範囲の天候予測(High Resolution Forecast (HRES) ECMWF)のコンポーネントであり、過去数年間に、中間範囲の予測のための MLWP メソッドは、天候ベンチのようなベンチマークによって促進され、安定的に進歩してきた。 IFS に基づいたグローバル 10 日間の予測を約 1 時間以内に生成する IFS の構成要素です。 変換神経ネットワーク [35, 36, 28] および変換機 [24] は、 1.0 度より広い緯度/長 グラフィック ここでは、グローバルの中間範囲の天気予報のための新しいMLWPアプローチ「GraphCast」を導入し、Google Cloud TPU v4デバイスで1分未満で正確な10日間の天気予報を生成し、熱帯のサイクロン、大気の川、および極端な気温を予測するアプリケーションを含むアプリケーションをサポートします。 GraphCast は、地球の天気の 2 つの最新の状態 - 現在の時間と 6 時間前 - を入力として取っており、次の天気の状態を 6 時間前に予測します. 単一の天気状態は、0.25°緯度/長さグリッド(721 × 1440)によって表され、これは赤道で約 28 × 28 キロの解像度に対応します (図 1a) 、各グリッドポイントは表面および大気の変数のセットを表します (表 1 に記載されています)。 GraphCast は「コード・プロセス・デコード」構成の GNN に基づくニューラル・ネットワーク・アーキテクチャとして実装され、合計 36.7 百万のパラメータを備えています。以前の GNN ベースの学習シミュレータ [31, 26] は、部分差異方程式によってモデル化された液体およびその他のシステムの複雑なダイナミクスを学習する上で非常に効果的であり、天候ダイナミクスのモデリングに適していることをサポートしています。 エンコーダー(図1d)は、入力グリッド上のノード属性として表される変数(ゼロ平均単位変数に正常化)をマップするために、単一のGNN層を使用して、内部の「マルチメッシュ」表示上の学習ノード属性を表します。 マルチメッシュ(図1g)は、地球上の高空間解像度で空間的に均一であるグラフです。それは、定期的なイコサヘドロン(12ノード、20面、30エッジ)を6回繰り返し精製することによって定義され、それぞれの精製は、それぞれの三角を4つの小さなものに分割します(4倍の顔とエッジにつながります)、そしてノードを球に再現します。 マルチメッシュは、最高解像度のメッシュから40962ノードを含み、中間グラフで作成されたすべてのエッジの連合を形成し、長さが異なるエッジの平らな層を形成します。 プロセッサ(図1e)は、16の非共有のGNN層を使用して、マルチメッシュで学習したメッセージ転送を実行し、数少ないメッセージ転送ステップで効率的なローカルおよび長距離の情報伝播を可能にします。 デコード(図1f)は、最終プロセッサ層の学習された機能を、マルチメッシュ表示から幅長グリッドに戻します。それは単一のGNN層を使用し、出力を最新の入力状態への残留更新として予測します(出力の正常化により、目標残りの単位変数を達成します)。 ECMWF の ERA5 [10] 再分析アーカイブから39年間(1979~2017)の歴史データを使用したモデル開発の過程で、訓練目標として、垂直レベルで重ねられた平均平方エラー (MSE) を平均しました。エラーは、GraphCast の予測状態と、N 自動回帰ステップを超える Corresponding ERA5 状態の間で計算されました。 N の値は、訓練の過程で 1 から 12 (すなわち 6 時間から 3 日) に増加しました。 モデル開発のための将来の情報が利用できない実際の展開シナリオと一致して、2018年以降のデータに基づいて GraphCast を評価しました(補足項 5.1 を参照)。 検証方法 GraphCast の予測スキルは、幅広い数の変数、レベル、およびリードタイムで HRES の精度と比較することで、グラフCast の予測スキルを総合的に検証します。 GraphCast が各グリッドポイントで予測した 227 つの変数とレベルの組み合わせの中で、WeatherBench[27] の 13 レベルと ECMWF Scorecard からの変数[9] に対応する 69 のレベルで HRES のスキルとスキルを評価しました; テーブル 1 とサプリメント セクション 1.2 の boldface 変数とレベルを参照してください. 評価期間中に HRES サイクルが稼働していました. 注: ERA5 降水データが偏見を認識しているため、全体降水は評価から除外します。 [15] メインテキストで報告された総合的なパフォーマンスに加えて、サプリメント セクション 7 では、他の変数、地域のパフォーマンス、緯度および圧 これらの比較に基づく2つの重要な選択肢は、スキルがどのように確立されているかである:(1)比較のための基礎真理の選択、および(2)データアシミレーションウィンドウの慎重な計算を使用してデータを観測に基づく。 GraphCast を評価するための基礎真理として ERA5 を使用するため、それは入力として ERA5 データを取るために訓練され、出力として ERA5 データを予測するためである。しかし、ERA5 に対する HRES 予測の評価は、初期予測ステップでゼロエラーを生じるだろう。代わりに、我々は、HRES のための基礎真理として使用するための「ステップ 0 での HRES 予測」 (HRES-fc0) データセットを構築しました。HRES ERA5とHRESのデータアシミレーションウィンドウの違いを慎重にコントロールする必要があります。毎日、HRESは、00z、06z、12zおよび18z(18zは18:00 UTCを意味する)に集中する4つの+/-3hウィンドウを使用して観測をアシミレートするが、ERA5は00zと12zに集中する2つの+9h/-3hウィンドウを使用する一方で、HRESは、6zと18zに集中する4つの+/-3hウィンドウを使用して観測をアシミレートする。我々は、6zと18zの初期化からGraphCastの予測を評価することを選択し、その入力が将来の観測の+3hから情報を運ぶことを保証し、HR 06z と 18z で初期化された HRES の予測は 3.75 日間のみ実行されます(HRES の 00z と 12z の初期化は 10 日間実行されます)。 予測検証結果 We find that GraphCast has greater weather forecasting skill than HRES when evaluated on 10-day forecasts at a horizontal resolution of 0.25° for latitude/longitude and at 13 vertical levels. GraphCastは、10日間の予測で水平解像度で0.25°の緯度/長さで13の垂直レベルで評価されたときに、より大きな天候予測能力を持っていることを発見します。 図2a〜cは、GraphCast(ブルーライン)が、RMSEスキル、RMSEスキルスコア(すなわち(RMSEA − RMSEB)/RMSEBとして定義されたモデルAとベースラインB間の正常化されたRMSEスキルスコア)、およびACCスキルで、z500(地理的に500hPaで)の「ヘッドライン」フィールドで、HRES(ブラックライン)をどのように上回るかを示しています。 z500を使用して、シノプティックスケール圧力分布をコードすることは、文学に一般的であるため、強力な気象学的重要性がある(27)。スコアは、GraphCastがすべてのリーブタイムでより良いスキルスコアを持っていることを示し、スキル 図2dは、ECMWFスコアカードと同様の形式で、10日間の予測を通じて、すべての1380の評価された変数と圧力レベルのためのRMSEスキルスコアを概要します。細胞の色はスキルスコアに比例し、ブルーはGraphCastがより良いスキルを持っていたことを示し、赤はHRESがより高いスキルを持っていたことを示します。 GraphCastは1380のターゲットの90.3%でHRESを上回り、大幅に(p ≤ 0.05,名称サンプルサイズn ∈ {729,730})ターゲットの89.9%でHRESを上回りました。 HRESがGraphCastよりも優れたパフォーマンスを有する大気圏の地域(スコアカードの赤いトップライン)は、ストラトスーファーに不比例に位置づけられ、トレーニング損失重量が最も低かった(サプリメントセクション7.2.2を参照)。50hPaレベルを除けば、GraphCastは残りの1280のターゲットの96.9%でHRESを著しく上回る。レベル50と100hPaを除けば、GraphCastは残りの1180のターゲットの99.7%でHRESを著しく上回る。 私たちは、MSE損失における自動回帰ステップの数を増加させることにより、より長いリードタイムでGraphCastのパフォーマンスが向上することを発見しました(サプリメントセクション7.3.2を参照)そして、空間的に滑らかな出力を予測することによってその不確実性を表明することを奨励し、より長いリードタイムでその予測を滑らかにすることを引き起こす(サプリメントセクション7.5.3を参照)。HRESの基礎的な物理的方程式は、しかし、バラバラな予測につながりません。HRESがその予測をバラバラにすることも許可されている場合、RMSのRMSのRMSのRMSの相対的な現実を最小化することにより、RMSのフィルター また、GraphCastのパフォーマンスを競合するMLベースの天気モデル、Pangu-Weather(4)と比較し、GraphCastが提示した252のターゲットの99.2%でそれを上回ったことを発見しました(詳細についてはサプリメントセクション6を参照)。 厳しい予測結果 さまざまな変数およびリードタイムにおける HRES に対する GraphCast の予測スキルを評価するほか、我々はまた、その予測が熱帯のサイクロン、大気の川、および極端な温度を含む深刻なイベントの予測をどのようにサポートするかを評価する。 tropical cyclone tracks トロピカルサイクロン Graphiveは、熱帯サイクロン予測の精度を改善することで、ケガや命の損失を回避し、経済的損害を減らすのに役立ちます [21]. サイクロンの存在、強さ、および軌道は、地潜(z)、水平風(10 U/10 v, U/v)および平均海面圧(MsL)の予測に追跡アルゴリズムを適用して予測することにより予測されます。 私たちは、ECMWFの公表されたプロトコル(20)に基づいて追跡アルゴリズムを実装し、それらをGraphCastの予測に適用し、サイクロン軌道予測を生み出します(サブレンド 8.1を参照)。 比較のためのベースラインとして、我々は、 図 3a は、GraphCast が 2018–2021 年間に HRES より平均的なトラックエラーを下回っていることを示しています。HRES と GraphCast のトラックごとのエラーが相関しているため、我々 はまた、2 つのモデル間のトラックごとの並列エラーの違いを測定し、GraphCast が 18 時間から 4.75 日間の HRES よりも大幅に優れていることを発見しました。 大気の川 大気圏の河川は、中間緯度の水蒸気輸送の大部分を占める大気圏の狭い領域であり、米国西海岸で年間降水量の30%から65%を生成する。その強さは、垂直に統合された水蒸気輸送 IvT によって特徴づけられる(23、22)、イベントが有益な降水を提供するかどうかを示すか、災害的損害と関連付けられるかどうかを示す(7)。 IvT は、空気の河川が最も頻繁である時期(10月~4月)で、北米沿岸および東太平洋における GraphCast の予測を評価します。 IvT は、大気圏の河川を特徴づけるために特別に訓練されていないにもかかわらず、図3c は、 Gra 極端な暑さと寒さ 極端な暑さと寒さは、典型的な気候学に関して大きな異常が特徴である19、16、18、それは危険であり、人間の活動を妨げる可能性があります。我々は、場所、時間、および月のトップ2%の気候学上のイベントを予測するためのHRESとGraphCastのスキルを評価し、12時間、5日、および10日、北半球および南半球を越えた陸地地域のための2Tの間、夏の間に。我々は正確な回想曲線[30]を構想し、偽のポジティブ(高精度)を減らすことと偽のネガティブ(高回想)を減らすことの間の異なる妥協を反映します。各予測のために、我々は2Tecastの予 図3dは、GraphCastの正確なリコール曲線が5日間および10日間のリードタイムのためのHRESを上回っていることを示しているため、GraphCastの予測は、一般的に、より長い視野で極端な分類でHRESよりも優れていることを示しています。対照的に、HRESは12時間のリードタイムでより良い正確なリコールを持っており、これはHRESの2Tスキルスコアがほぼゼロであると一致しています。 トレーニングデータの最近の影響 GraphCast は、定期的に最新のデータで再トレーニングすることができ、原則として、ENSO サイクルやその他の変動、気候変動の影響など、時間とともに変化する気象パターンをキャプチャすることを可能にします。GraphCast の 4 つのバージョンは、1979 年に始まりましたが、それぞれ 2017 年、2018 年、2019 年、2020 年に終了しました(2017 年に終わるバージョンは「GraphCast:<2018」など)と比較しました。 図4は、4つのバージョンのスキルスコア(GraphCast:<2018)とZ500のHRESを示しています。我々は、2018年以前までトレーニングされたGraphCastのパフォーマンスは、2021年にHRESと競争する一方で、2021年以前までトレーニングは、そのスキルスコアをさらに向上させます(サプリメントセクション7.1.3を参照)。 結論 GraphCast の予測スキルと HRES に比べての効率性は、MLWP メソッドが従来の天気予測メソッドと競争力を持っていることを示しています。さらに、深刻なイベント予測における GraphCast のパフォーマンスは、直接に訓練されていないため、その強力さと下流価値の可能性を示しています。 3670万のパラメータで、GraphCastは、メモリの足跡を処理可能に保つために選ばれた近代的なML基準の比較的小型モデルです。HRESが0.1°解像度、137レベル、および最大1時間のタイムステップでリリースされている一方で、GraphCastは、0.25°緯度長度解像度、37垂直レベル、および6時間のタイムステップで動作しました、ERA5トレーニングデータのネイティブ0.25°解像度、およびハードウェアに高い解像度のデータを組み込むエンジニアリングの課題のために。一般的に、GraphCastは、現在のバージョンが現行のエンジニアリングの制約下で実質的に適合できる 我々のアプローチの重要な制限の一つは、不確実性がどのように処理されるかである。我々は、決定的な予測に焦点を当て、HRESと比較したが、ECMWFのIFSのもう一つの柱、アンチエントリ予測システム(ENS)は、10日間の予測のための特に重要である。天候動態の非線形性は、より長いリードタイムで不確実性が増加していることを意味し、単一の決定的な予測によってうまく捉えられていない。ENSは、将来の天候の実験的分布をモデリングする複数のストーカスティックな予測を生成することによってこれを解決するが、しかし、複数の予測を生成することは高価である。対照的に、GraphCastのM 重要なことは、データ主導のMLWPは、NWPを通じてアシミュレートされた高品質のデータの大量に大きく依存し、ECMWFのMARSアーカイブのような豊富なデータソースが貴重であることを強調することです。したがって、私たちのアプローチは、数十年にわたって開発され、多くの現実世界の文脈で厳密にテストされ、まだ探検していない多くの機能を提供してきた伝統的な天候予測方法の代替として見なすべきではありません。 天気予報を超えて、GraphCastは、気候と生態学、エネルギー、農業、人間および生物活動、その他の複雑なダイナミックシステムなどの他の重要な地理空間時間予測の問題に新しい方向性を開くことができます。 データおよび材料の可用性 GraphCast のコードと訓練された重量は github で公開されています https://github.com/ deepmind/graphcast. この作品は、European Centre for Medium Range Forecasting (ECMWF) から公開されたデータを使用しています。Creative Commons Attribution が規制する ERA5, HRES および TIGGE 製品のための ECMWF アーカイブ (実時終了) 製品を使用します。 4.0 International (CC BY 4.0). We use IBTrACS Version 4 from https://www.ncei.noaa.gov/ products/international-best-track-archive and reference [13, 12] as required. The Earth texture in figure 1 is used under CC BY 4.0 from https://www.solarsystemscope.com/ textures/. 認定 In alphabetical order, we thank Kelsey Allen, Charles Blundell, Matt Botvinick, Zied Ben Bouallegue, Michael Brenner, Rob Carver, Matthew Chantry, Marc Deisenroth, Peter Deuben, Marta Garnelo, Ryan Keisler, Dmitrii Kochkov, Christopher Mattern, Piotr Mirowski, Peter Norgaard, Ilan Price, Chongli Qin, Sébastien Racanière, Stephan Rasp, Yulia Rubanova, Kunal Shah, Jamie Smith, Daniel Worrall, and countless others at Alphabet and ECMWF for advice and feedback on our work. We also thank ECMWF for providing invaluable datasets to the research community. The style of the opening paragraph was inspired by D. Fan et al., Science Robotics, 4 (36), (2019). 参照 [1] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Relational inductive biases, deep learning, and graph networks. arXiv preprint arXiv:1806.01261, 2018. [2] P. Bauer, A. Thorpe, and G. Brunet. The Quiet Revolution of Numerical Weather Prediction. Nature, 525, 2015 [3] Stanley G Benjamin, John M Brown, Gilbert Brunet, Peter Lynch, Kazuo Saito, and Thomas W Schlatter. 100年もの予測とNWPアプリケーションの進歩。 [4] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu, and Qi Tian. Pangu-Weather: A 3D high-resolution model for fast and accurate global weather forecast. arXiv preprint arXiv:2211.02556, 2022. [5] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. The THORPEX interactive grand global ensemble. Bulletin of the American Meteorological Society, 91(8):1059–1072, 2010. [6] WE Chapman, AC Subramanian, L Delle Monache, SP Xie, and FM Ralph. 機械学習で大気の川の予測を改善する。 [7] Thomas W Corringham、F Martin Ralph、Alexander Gershunov、Daniel R Cayan、Cary A Talbot. 大気の川が米国の西部で洪水の被害を引き起こす。科学の進歩, 5(12):eaax4631, 2019. [8] Lasse Espeholt, Shreya Agrawal, Casper Sønderby, Manoj Kumar, Jonathan Heek, Carla Bromberg, Cenk Gazen, Rob Carver, Marcin Andrychowicz, Jason Hickey, et al. 十二時間の降水予測のための深い学習. 自然コミュニケーション, 13(1):1-10, 2022. [9] T Haiden, Martin Janousek, J Bidlot, R Buizza, Laura Ferranti, F Prates, and F Vitart. Evaluation of ECMWF forecasts, including the 2018 upgrade. European Centre for Medium Range Weather Forecasts Reading, UK, 2018. [10] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. The ERA5 global reanalysis. Quarterly Journal of the Royal Meteorological Society, 146(730):1999–2049, 2020。 [11] ライアン・ケイスラー.グローバル天気予報グラフニューラルネットワーク. arXiv preprint arXiv:2202.07575, 2022. [12] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. International best track archive for climate stewardship (IBTrACS) project, version 4. https: //doi.org/10.25921/82ty-9e16, 2018年 [13] Kenneth R Knapp, Michael C Kruk, David H Levinson, Howard J Diamond, and Charles J Neumann. The international best track archive for climate stewardship (IBTrACS) unifying tropical cyclone data. Bulletin of the American Meteorological Society, 91(3):363–376, 2010. [14] Thorsten Kurth, Shashank Subramanian, Peter Harrington, Jaideep Pathak, Morteza Mardani, David Hall, Andrea Miele, Karthik Kashinath, and Animashree Anandkumar. FourCastNet: Accelerating global high-resolution weather forecasting using adaptive fourier neural operators. arXiv preprint arXiv:2208.05419, 2022. [15] David A Lavers, Adrian Simmons, Freja Vamborg, and Mark J Rodwell. An evaluation of ERA5 precipitation for climate monitoring. Quarterly Journal of the Royal Meteorological Society, 148(748):3152–3165, 2022. [16] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal, and Jason Hickey. Global extreme heat forecasting using neural weather models. Artificial Intelligence for the Earth Systems, pages 1–41, 2022. [17] マッサン・マッサンとエスペランザ・クアーテロ. MARS ユーザ文書. https://confluence. ecmwf.int/display/UDOC/MARS+user+documentation, 2022. [18] リヌス・マグナソン. 202208 - 熱波 - イギリス. https://confluence.ecmwf.int/display/ FCST/202208+-+Heatwave+-+UK, 2022. [19] Linus Magnusson、Thomas Haiden、 and David Richardson. Verification of extreme weather events: Discrete predictands. European Centre for Medium-Range Weather Forecasts, 2014. [20] Linus Magnusson, Sharanya Majumdar, Rebecca Emerton, David Richardson, Magdalena Alonso-Balmaseda, Calum Baugh, Peter Bechtold, Jean Bidlot, Antonino Bonanni, Massimo Bonavita, et al. ECMWFにおける熱帯サイクロン活動. ECMWF 技術メモラル, 2021. [21] アンドリュー・B・マーティネス. ハリケーン被害の予測精度が重要です. エコノメトリック, 8(2):18, 2020. [22] Benjamin J Moore, Paul J Neiman, F Martin Ralph, and Faye E Barthold. Physical processes associated with heavy flooding rainfall in Nashville, Tennessee, and the vicinity during 1–2 May 2010: The role of an atmospheric river and mesoscale convective systems. Monthly Weather Review, 140(2):358-378、2012 [23] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist, and Michael D Dettinger. Meteorological characteristics and overland precipitation impacts of atmospheric rivers affecting the West Coast of North America based on eight years of ssm/i satellite observations. Journal of Hydrometeorology, 9(1):22-47, 2008. [24] Tung Nguyen, Johannes Brandstetter, Ashish Kapoor, Jayesh K Gupta, and Aditya Grover. ClimaX: A foundation model for weather and climate. arXiv preprint arXiv:2301.10343, 2023. [25] Jaideep Pathak, Shashank Subramanian, Peter Harrington, Sanjeev Raja, Ashesh Chattopad-hyay, Morteza Mardani, Thorsten Kurth, David Hall, Zongyi Li, Kamyar Azizzadenesheli, et al. Fourcastnet: A global data-driven high-resolution weather model using adaptive fourier neural operators. arXiv preprint arXiv:2202.11214, 2022. [26] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez, and Peter Battaglia. Learning mesh-based simulation with graph networks. In International Conference on Learning Representations, 2021. [27] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid, and Nils Thuerey. WeatherBench: a benchmark data set for data-driven weather forecasting. Journal of Advances in Modeling Earth Systems, 12(11):e2020MS002203, 2020 [28] Stephan Rasp and Nils Thuerey. Data-driven medium-range weather prediction with a resnet pretrained on climate simulations: A new model for weatherbench. Journal of Advances in Modeling Earth Systems, 13(2):e2020MS002405, 2021. [29] Suman Ravuri, Karel Lenc, Matthew Willson, Dmitry Kangin, Remi Lam, Piotr Mirowski, Megan Fitzsimons, Maria Athanassiadou, Sheleem Kashem, Sam Madge, et al. レーダーの深い生成モデルを使用して今、熟練した降水量。 Nature, 597(7878):672–677, 2021. [30] Takaya Saito and Marc Rehmsmeier. The precision-recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PloS one, 10(3):e0118432, 2015. [31] Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec, and Peter Battaglia. Learning to simulate complex physics with graph networks. In International Conference on Machine Learning, pages 8459–8468. PMLR, 2020. [32] Xingjian Shi, Zhihan Gao, Leonard Lausen, Hao Wang, Dit-Yan Yeung, Wai-kin Wong, and Wang-chun Woo. Deep learning for precipitation nowcasting: A benchmark and a new model. Advances in neural information processing systems, 30, 2017. [33] Casper Kaae Sønderby, Lasse Espeholt, Jonathan Heek, Mostafa Dehghani, Avital Oliver, Tim Salimans, Shreya Agrawal, Jason Hickey, and Nal Kalchbrenner. Metnet: precipitation forecasting for a neural weather model. arXiv preprint arXiv:2003.12140, 2020. [34] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson, and Munehiko Yamaguchi. The TIGGE project and its achievements. Bolletin of the American Meteorological Society, 97(1):49 – 67, 2016. [35] Jonathan A Weyn, Dale R Durran, and Rich Caruana. Machine can learn to predict weather? Using deep learning to predict gridded 500-hPa geopotential height from historical weather data. Journal of Advances in Modeling Earth Systems, 11(8):2680–2693, 2019. [36] Jonathan A Weyn, Dale R Durran, and Rich Caruana. Improving data-driven global weather prediction using deep convolutional neural networks on a cubic sphere. Journal of Advances in Modeling Earth Systems, 12(9):e2020MS002109, 2020. 1.データ このセクションでは、GraphCast(サプリメントセクション1.1)の訓練と評価に使用したデータ、NWP基準HRESの予測を定義するデータ、およびHRES-fc0の概要を紹介します(サプリメントセクション1.2)最後に、熱帯サイクロン分析(セクション1.3)で使用されるデータを説明します。 We constructed multiple datasets for training and evaluation, comprised of subsets of ECMWF’s data archives and IBTrACS [29, 28]. We generally distinguish between the source data, which we refer to as “archive” or “archived data”, versus the datasets we have built from these archives, which we refer to as “datasets”. 1.1 エラ5 GraphCast のトレーニングと評価のために、私たちは ECMWF の ERA5 [24]1 アーカイブのサブセットからデータセットを構築しました、これは、1959 年から現在まで、0.25° 緯度/長度解像度で、および1 時間の増加で世界的な天候を表す大きなデータのコルプスです。 ERA5 アーカイブは、再分析に基づいており、ECMWF の HRES モデル (サイクル 42r1) を使用して、 ECMWF の 4D-Var データアシミレーション システム内で、2016 年の大部分 (表 3 を参照してください) 運用されています。 当社のERA5データセットには、ECMWFのERA5アーカイブ(表2)に含まれる可用変数のサブセットが含まれています: 37の圧力レベル2: 1, 2, 3, 5, 7, 10, 20, 30, 50, 70, 100, 125, 150, 175, 200, 225, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 775, 800, 825, 850, 875, 900, 925, 950, 975, 1000 hPa. 含まれた年数は1979-01-01から2022-01-10までで、これらは6時間の間隔にサンプルされた(毎日の00z, 06z, 12zおよび 18zに対応する)。 1.2 ヒロイン HRESモデルベースラインを評価するには、2つの別々のデータセット、すなわち予測データと地上の真実データが必要であり、これらは次のサブセクションでまとめられています。 HRESは一般に、世界で最も正確なNWPベースの気象モデルと考えられていますので、HRESの基準を評価するために、私たちはHRESのアーカイブされた歴史的予測のデータセットを構築しました。HRESはECMWFによって定期的に更新されていますので、これらの予測は、予測が行われた時点で最新のHRESモデルを表しています。予測は、それらのネイティブな表現(球体調和と十八角縮小ガウシアグリッド、TCo1279 [36])を使用してダウンロードされ、およそ0.1°緯度/長さの解像度に対応しています。 HRES operational forecasts 次に、ECMWFのMetviewライブラリを使用して、0.25°の緯度/長さグリッド(ERA5の解像度に匹敵する)に予測を空間的にサンプルダウンしました。私たちは6時間の間隔にそれらを時間的にサンプルダウンしました。HRES予測の2つのグループがあります:00z/12zで初期化され、10日間の地平線でリリースされ、3.75日間の地平線でリリースされる06z/18zで初期化されたもの。 ECMWFのHRES運用予測アーカイブに基づいて「HRES-fc0」という地上の真実データセットを構築して、HRES運用予測のスキルを評価するために、このデータセットは、初期化時刻00z、06z、12z、および18zの各HRES予測の初期段階を含みます(図5を参照)。HRES-fc0データはERA5データと似ていますが、最新のECMWFNWPモデルを使用して予測時点でアシミュレートされますが、および当該日付および時刻の周囲に約3時間の観測をアシミュレートします。注:ECMWFはまた、HRES-fc0データセットと異なる「HRES分析」データの HRES-fc0 A very small subset of the values from the ECMWF HRES archive for the variable geopotential at 850hPa (z850) and 925hPa (z925) are not numbers (NaN). These NaN’s seem to be distributed uniformly across the 2016-2021 range and across forecast times. This represents about 0.00001% of the pixels for z850 (1 pixel every ten 1440 x 721 latitude-longitude frames), 0.00000001% of the pixels for z925 (1 pixel every ten thousand 1440 x 721 latitude-longitude frames) and has no measurable impact on performance. For easier comparison, we filled these rare missing values with the weighted average of the immediate neighboring pixels. We used a weight of 1 for side-to-side neighbors and 0.5 weights for diagonal neighbors3. HRES NaN handling 1.3 熱帯サイクロンデータセット 熱帯サイクロン予測の分析のために、我々はIBTrACS(28, 29, 31, 30)アーカイブを使用して地上の真実データセットを構築しました。これは、約12の権威ある情報源からの歴史的なサイクロンのトラックを含みます。それぞれのトラックは6時間の間隔(00z、06z、12z、18z)で、それぞれのタイムステップは、その時点で相応のサファイア・シンプソン・カテゴリとその他の関連する気象学的特徴と共に、緯度/長さの座標でサイクロンの目を表しています。 HRES ベースラインのために、私たちは TIGGE アーカイブを使用して、運用トラッカーで推定されたサイクロン トラックを HRES の 0.1 度の解像度 [8, 46] の予測から提供しました。データは、 https://confluence.ecmwf.int/display/TIGGE/Tools でダウンロード可能な XML ファイルとして保存されています。データを、さらなるプロセスおよび分析に適した形式に変換するために、私たちは、興味のある年のサイクロン トラックを抽出するパッサーを実装しました。 XML ファイルの関連するセクション (タグ) は「予測」のタイプのものですが、通常は、異なる初期予測時間に対応する複数のトラックが含まれています。これらのタグでは、サイクロン トラッカーアルゴリズムと結果の詳細については、セクション 8.1 を参照してください。 2. Notation と Problem Statement このセクションでは、紙全体で有用なタイムノートの使用を定義します(セクション2.1)、我々が取り扱う一般的な予測問題を公式化します(セクション2.2)、そして我々が天候の状態をモデルする方法を詳細に説明します(セクション2.3). 2.1 タイムノート 予測に使用される時刻表記は、いくつかの異なる時刻シンボルを含む混乱を引き起こす可能性があります、例えば、初期予測時間、有効時間、予測地平線などを表すため、我々は明確さとシンプルさのためにいくつかの標準化された用語および表記を導入します。我々は時間の特定の点を「日付時刻」として参照し、カレンダーの日付とUTC時間で表します。例えば、2018-06-21_18:00:00は2018年6月21日を意味します、18:00 UTCです。短い意味では、我々は時々、Zulu条約、すなわち00z、06z、12z、18zは00:00、6:00、 12:00、 18:00 UTCを意味します。 t: 予測時間ステップ指数は、予測が初期化されて以来のステップ数をインデックスします。 T:予測地平線は、予測段階の合計数を表します。 d: 有効時間は、特定の気象状態の日付時刻を示す。 d0: 予測の初期化時間、予測の初期入力の有効期限を示す。 Δ𝑑: Forecast step duration, indicating how much time elapses during one forecast step. τ: 予測の流れ時間を表す予測時間(すなわち、 τ = tΔd)。 2.一般予測問題の発言 現実の天気の時間の進化は、次の時段(未来のΔd)に基づく状態を生成する底にある差異的な時間ダイナミクス関数(Φ)によって表されることができ、すなわち、 Zd+Δd = Φ(Zd)です。 われわれの目標は、一定の予測地平線、TΔdを超える天気の状態を効率的に予測できる正確かつ効率的な動態機能のモデル、 φ を見つけることである。我々は、我々が直接 Zd を観測することはできないと仮定するが、代わりに一部の観測 Xd しか持たない、これは天気を完璧に予測するために必要な状態情報の不完全な表現である。 Xd−Δd , Xd−2Δd , ...、Xdに加えて、モデルは、原則として、この追加の文脈情報を活用して、Zdをより正確に近づけることができます。 方程式(1)と同様に、X ̈d+Δdの予測は、完全な予測を自動回帰的に生成するために φ に戻すことができます。 われわれは、予測された軌道、X ̈d+Δd:d+T Δd が、地上真理軌道、Xd+Δd:d+TΔd にどのように合致するかを定量化することで、 φ の予測の質、あるいはスキルを評価する。しかし、Xd+Δd:d+TΔd が、観測されていない Zd+Δd:d+TΔd 自身の観測にのみ含まれていることを再び強調することが重要である。 第5節で明確に述べられている。 われわれの研究では、データと予測の時間解像度は常に Δd = 6 時間であり、最大予測地平線は 10 日で、T = 40 段階の合計に対応するため、この論文全体で Δd が常数であるため、特定の日付時間の代わりに整数で時間をインデックスするために、(Xt, Xt+1, . . , Xt+T ) を使用して記述を簡素化することができます。 ECMWF天気データのモデリング モデルの訓練および評価のために、当社の ERA5 データセットは、表面および大気の気象状態の地上真実表示として扱います。 私たちのデータセットでは、ERA5気象状態Xtは、表2のすべての変数を含み、0.25°横幅長さ解像度で、合計721 × 1440 = 1.038, 240グリッドポイントと37垂直圧力レベルを含みます。大気変数はすべての圧力レベルで定義され、(水平)グリッドポイントのセットはG0.25◦ = {−90.0、 −89.75, . . . . , 90.0} × {−179.75, −179.5, . . . , 180.0}。これらの変数は、短い名前(および大気変数のための圧力レベル)によってユニークに識別されています。例えば、表面変数「2メートル」は2Tで示されます。500hPaレベルでの大気変数「 これらのすべての変数から、私たちのモデルは、合計227のターゲット変数のために5つの表面変数と6つの大気変数を予測します。私たちのモデルの入力コンテキストとして、いくつかの他の静的および/または外部変数も提供されました。これらの変数は、表1と表2に示されています。 Xt の変数のサブセットを xt として特定のグリッドポイント i (1,038,240 合計) に対応し、227 個のターゲット変数の各変数 j を xt として参照します。 したがって、完全な状態表示 Xtii, j には 721 × 1440 × (5 + 6 × 37) = 235, 680, 480 の値が含まれています。 3. GraphCast モデル This section provides a detailed description of GraphCast, starting with the autoregressive generation of a forecast (Section 3.1), an overview of the architecture in plain language (Section 3.2), followed by a technical description of all the graphs defining GraphCast (Section 3.3), its encoder (Section 3.4), processor (Section 3.5), and decoder (Section 3.6), as well as all the normalization and parameterization details (Section 3.7). 3.1 予測の作成 GraphCast モデルは、Equation (2) で φ の役割を担って、2 つの連続入力状態に基づいて次のステップを予測する 1 ステップの学習シミュレータとして定義されています。 方程式(3)と同様に、GraphCast を反復的に適用して予測を生成できます。 of arbitrary length, 𝑇. This is illustrated in Figure 1b,c. We found, in early experiments, that two input states yielded better performance than one, and that three did not help enough to justify the increased memory footprint. 3.2 建築概要 GraphCastのコアアーキテクチャは、GNNsを「コードプロセスデコード」構成(6)で使用しており、図1d、e、f. GNNベースの学習シミュレータは、液体や他の材料の複雑な物理的動力学を学習するのに非常に効果的であるため、その構造と計算は、学習した有限元素の解析者に類似している。GNNsの主要な利点は、入力グラフの構造が、学習されたメッセージを通じて表象のどの部分が相互作用するかを決定するものであり、任意の範囲での空間相互作用の任意のパターンを可能にします(43、39)。 GNNの任意の狭い相互作用をモデル化する能力を活用する方法は、GraphCastの内部の「マルチメッシュ」表示を導入することによって、メッセージを通過するいくつかのステップ内の長距離相互作用を可能にし、一般的に地球全体で均一な空間解像度を持っています。これは、グリッドポイントの不均一な分布を誘発する緯度長度グリッドと異なります。 私たちのマルチメッシュは、通常の icosahedron (12 ノードと 20 顔) を 6 回繰り返し分割して構築され、40962 ノードと最高解像度で 81,920 顔の icosahedral メッシュの等級を合計で取得しました。 私たちは、グロースメッシュ ノードがフィンメッシュ ノードのサブセットであるという事実を活用し、あらゆるレベルのマルチメッシュ イラストレーションのエッジを最高解像度のマルチメッシュに超えることを可能にしました。この手順は、複数のスケールで長い距離を橋渡しするグロースメッシュの複数のエッジを生み出し、地元の相互作用をキャプチャするフィンエッジ GraphCast’s encoder (Figure 1d) first maps the input data, from the original latitude-longitude grid, into learned features on the multi-mesh, using a GNN with directed edges from the grid points to the multi-mesh. The processor (Figure 1e) then uses a 16-layer deep GNN to perform learned message-passing on the multi-mesh, allowing efficient propagation of information across space due to the long-range edges. The decoder (Figure 1f) then maps the final multi-mesh representation back to the latitude-longitude grid using a GNN with directed edges, and combines this grid representation, 𝑌ˆ𝑡+𝑘, with the input state, 𝑋ˆ𝑡+𝑘, to form the output prediction, 𝑋ˆ𝑡+𝑘+1 = 𝑋ˆ𝑡+𝑘 + 𝑌ˆ𝑡+𝑘. The encoder and decoder do not require the raw data to be arranged in a regular rectilinear grid, and can also be applied to arbitrary mesh-like state discretizations [1]. The general architecture builds on various GNN-based learned simulators which have been successful in many complex fluid systems and other physical domains [43, 39, 15]. Similar approaches were used in weather forecasting [26], with promising results. 単一の Cloud TPU v4 デバイスでは、GraphCast は 0.25 度の解像度、10 日間の予測(6 時間のステップ)を 60 秒未満で生成できます。比較として、ECMWF の IFS システムは 11.664 コアクラスターで動作し、0.1 度の解像度、10 日間の予測(最初の 90 時間の 1 時間のステップでリリースされ、93 ~ 144 時間の 3 時間のステップ、および 150 ~ 240 時間の 6 時間のステップ、約 1 時間のコンプート タイム [41] を生成します。 HRES のリリース詳細はこちらをご覧ください: https://www.ecmwf.int/en/forecasts/ datas 3. GraphCastのグラフ GraphCast は、「コードプロセスデコード」構成で GNN を使用して実装され、エンコーダーのマップ (表面および大気) は入力緯度長度グリッドで複数のメッシュに機能し、プロセッサは複数のメッシュで多くのメッセージ転送を実行し、デコードは複数のメッシュの機能を出力緯度長度グリッドに戻します(図 1 を参照)。 モデルは、次の段落で詳細に定義されたグラフG(VG、VM、EM、EG2M、EM2G)で動作します。 VG は、グリッドノードのそれぞれを含むセットを表します. 各グリッドノードは、特定の緯度長度の点で大気の垂直部分を表します. i. 各グリッドノード vG に関連する特徴は vG,features = [xt−1, xt, ft−1, ft, ft+1, ci] で、xt は、グリッドノード vG に対応する時間依存の気象状態 Xt であり、すべての 37 つの大気レベルおよび表面変数のための予測データ変数を含みます. 強制的な用語 ft は、分析的に計算できる時間依存の特性で構成され、グラフカストによって予測する必要はありません. 彼らは、大気の頂部に蓄積された 1 時間 Grid nodes VM は、それぞれのメッシュノード vM を含むセットを表します。メッシュノードは、R に精製された icosahedral メッシュ MR. M0 は、単位半径 icosahedron (12 ノードと 20 三角形の顔) で、ポールに平行する顔(図 1g を参照)。 メッシュは、それぞれの三角形の顔を 4 つの小さな顔に分割し、それぞれのエッジの真ん中に追加のノードを生成し、新しいノードをユニット球に再プロジェクトします。 4 機能 vM 、各メッシュノード vM に関連する機能は、幅のコシナ、および長さのシニアおよびコシナを含みます。 GraphCast は、R Mesh nodes EM are bidirectional edges added between mesh nodes that are connected in the mesh. Crucially, mesh edges are added to EM for all levels of refinement, i.e., for the finest mesh, 𝑀6, as well as for 𝑀5, 𝑀4, 𝑀3, 𝑀2, 𝑀1 and 𝑀0. This is straightforward because of how the refinement process works: the nodes of 𝑀𝑟−1 are always a subset of the nodes in 𝑀𝑟. Therefore, nodes introduced at lower refinement levels serve as hubs for longer range communication, independent of the maximum level of refinement. The resulting graph that contains the joint set of edges from all of the levels of refinement is what we refer to as the “multi-mesh”. See Figure 1e,g for a depiction of all individual meshes in the refinement hierarchy, as well as the full multi-mesh. Mesh edges 送信メッシュノードvMを受信者メッシュノードvMに接続する各エッジ eMでは、vM→vMエッジ機能 eMを構築し、メッシュノードのユニット領域上の位置を用いて機能します。これには、エッジのvM→vMのr長さと、送信ノードの3dポジションと受信ノードの間のベクトル差が、受信者のローカル座標システムで計算されます。受信者のローカル座標システムは、その受信ノードが長さ0に位置するまで、アシミュート角度を変更する回転を適用して計算されます。受信者も緯度0に位置するまで、ポーラー角度を変更する回転が続きます。この結果は、合計327,660メッシュ EG2Mは、送信ネットワークノードを受信ネットワークノードに接続する単方向のエッジです。エッジ eG2M vG→vMは、メッシュノードとグリッドノードの間の距離が、メッシュM6のエッジの長さの0.6倍(図1)より小さい場合に追加されます(図1)、これは各ネットワークノードが少なくとも1つのメッシュノードに接続されていることを保証します。 Grid2Mesh edges EM2Gは、送信メッシュノードを受信機グリッドノードに接続する単方向のエッジです。各グリッドポイントについては、それを含むメッシュM6の三角形面を見つけ、Form eM2G vM→vGのメッシュ2グリッドエッジを3つ追加し、グリッドノードをその面に隣接する3つのメッシュノードに接続します(図1を参照)。 eM2Gの特徴、機能は、メッシュ vM→vGのRエッジと同様に構築されています。この結果は、入力4つの機能を有する3114,720 Mesh2Gridエッジ(721 × 1440の緯度長さのグリッドポイントのそれぞれに接続されている3つのメッシュノード)です。 Mesh2Grid edges 4.コード エンコーダーの目的は、プロセッサのためのデータを隠れた表示に準備することであり、これは独占的にマルチメッシュ上で実行されます。 エンコーダーの一部として、私たちは最初に、グリッドノード、グリッドノード、グリッドエッジ、グリッドからグリッドエッジ、およびグリッドエッジのグリッドエッジのそれぞれの機能を5つのマルチレイヤーセンセプトロン(MLP)を使用して固定サイズのラテンスペースに埋め込んでいます。 Embedding the input features 次に、グリッドノードからグリッドノードに大気状態の情報を転送するために、我々はグリッドノードをグリッドノードに接続するGG2M(VG, VM, EG2M)グリッド2M二角形サブグラフの上に単一のメッセージを転送し、グリッドノードをグリッドノードに接続する。 Grid2Mesh GNN 次に、それぞれのメッシュノードは、そのメッシュノードに到達するすべてのエッジから情報を合計することによって更新されます。 グリッドノードの各ノードも更新されますが、グリッドノードはGrid2Meshサブグラフのいかなるエッジの受信者でもないため、アグレージなしで、 すべての3つの要素を更新した後、モデルは残留接続を含み、ノターションのシンプルさのために、変数を再割り当て、 5.プロセッサ プロセッサは、メッシュノードとメッシュエッジのみを含むメッシュサブグラフGM(VM、EM)で動作する深いGNNです。メッシュエッジには、M6のエッジだけでなく、M5、M4、M3、M2、M1、M0のエッジのすべてが含まれています。 Mesh GNN の 1 つのレイヤーは、隣接するノードの情報を使用して、まずそれぞれのメッシュエッジを更新する標準的な相互作用ネットワーク [5, 6] です。 Multi-mesh GNN Then it updates each of the mesh nodes, aggregating information from all of the edges arriving at that mesh node: そして、両方を更新した後、表示は残留接続で更新され、記述のシンプルさのために、また入力変数に再割り当てられる。 前項では、メッセージの単一層が伝わることを記述していますが、[43,39]に似たアプローチに従って、私たちはこの層を16回繰り返し適用し、各層のMLPsの未分割ニューラルネットワーク重量を使用しました。 3.6 デコード デコードの役割は、情報をグリッドに戻し、出力を抽出することです。 Grid2Mesh GNN と同様に、Mesh2Grid GNN は Mesh2Grid bipartite subgraph GM2G(VG, VM, EM2G) を通過する単一のメッセージを実行します。 Grid2Mesh GNN は Mesh2Grid GNN に機能的に相当しますが、Mesh2Grid エッジを使用して情報を反対方向に送信します。 Mesh2Grid GNN Then it updates each of the grid nodes, aggregating information from all of the edges arriving at that grid node: この場合、メッシュノードはこの時点から役割を果たさないため、更新しません。 Here again we add a residual connection, and for simplicity of the notation, reassign the variables, this time only for the grid nodes, which are the only ones required from this point on: 最後に、グリッドノードのそれぞれのための予測 yi は、別の MLP を使用して生成されます。 Output function グリッドノードのすべての227の予測変数を含む。 [43, 39]と同様に、次の気象状態、X ̈t+1は、すべてのグリッドノードの入力状態にノードごとの予測、Y ̈tを加えると計算されます。 3.7 標準化とネットワークパラメータ化 同様に、我々はすべての入力を正常化した。各物理変数に対して、我々は1979年から2015年までの圧力レベルの平均と標準偏差を計算し、これをゼロの平均と単位偏差に正常化するために使用した。 Input normalization Because our model outputs a difference, 𝑌ˆ𝑡 , which, during inference, is added to 𝑋𝑡 to produce 𝑋ˆ𝑡+1, we normalized the output of the model by computing per-pressure level standard deviation statistics for the time difference 𝑌𝑡 = 𝑋𝑡+1 − 𝑋𝑡 of each variable6. When the GNN produces an output, we multiply this output by this standard deviation to obtain 𝑌ˆ𝑡 before computing 𝑋ˆ𝑡+1, as in Equation (18). For simplicity, we omit this output normalization from the notation. Output normalization GraphCast 内部のニューラル ネットワークはすべて MLP で、1 つの隠された層と 512 つの隠れた外出層のサイズ(出力サイズが 227 である Decoder's MLP の最終層を除く)で、各グリッドノードの予測変数の数に匹敵します。 Neural network parameterizations 4.トレーニング詳細 このセクションでは、モデルを開発するために使用されたデータ分割(セクション 4.1)、各変数および垂直レベルに関連する重量を含む客観機能の完全な定義(セクション 4.2)、トレーニングアプローチ(セクション 4.3)、最適化設定(セクション 4.4)、トレーニングコストを削減するために使用されたカリキュラムトレーニング(セクション 4.5)、GraphCastのメモリ足跡を削減するために使用された技術的詳細(セクション 4.6)、トレーニング時間(セクション 4.7)、および使用したソフトウェアの積み重ね(セクション 4.8)を含みます。 4.1. Training split 将来の情報に依存できない現実的な展開条件を模するために、我々はGraphCastの開発に使用されたデータと、そのパフォーマンスを「因果的に」テストするために使用されたデータを分割し、「開発セット」には「テストセット」のデータよりも早い日付が含まれていることから、「開発セット」には1979年から2017年までの期間が含まれており、テストセットには2018年から2021年が含まれている。 当社の開発セットでは、データをさらに1979~2015年を含むトレーニングセットと、2016~2017年を含む検証セットに分割し、トレーニングセットをモデルのトレーニングデータと、ハイパーパラメータ最適化とモデル選択のための検証セットとして使用し、最適なモデルアーキテクチャを決定しました。その後、モデルアーキテクチャとすべてのトレーニング選択肢を凍結し、テスト段階に移しました。 4.2 訓練の目的 GraphCast was trained to minimize an objective function over 12-step forecasts (3 days) against ERA5 targets, using gradient descent. The training objective is defined as the mean square error (MSE) between the target output 𝑋 and predicted output 𝑋ˆ, where τ ∈ 1 : Ttrain は、Ttrain の自動回帰段階に対応するリード タイムです。 d0 ∈ Dbatch は、トレーニングセット内の予測のバッチ内の予測初期化日時を表します。 j ∈ J は変数を指数し、大気変数は圧力レベルを指数します. E.g. J ={z1000, z850, . . . , 2 T, MsL}, i ∈ G0.25◦は、グリッド内の位置(緯度と長さ)の座標であり、 𝑥ˆ𝑑0+𝜏 and 𝑥𝑑0+𝜏 are predicted and target values for some variable-level, location, and lead time,𝑗,𝑖 𝑗,𝑖 s j は、時間差の変数レベルの逆変数、 wj は per-variable-level 損失重量です。 ai は、緯度とともに変化し、グリッド上の単位平均に正常化される、緯度と長さのグリッドセルの領域です。 単一のスカラル損失を構築するために、我々は、幅の長さ、圧力レベル、変数、 lead times、およびバッチサイズの平均を採取しました.We averaged across latitude-longitude axes, with a weight proportional to the latitude-longitude cell size (normalized to mean 1).We applied uniform averages across time and batch. 量 s = V hxt+1 − xt i −1 は、時間の差の変数値の変数値の逆変数推定であり、これらの量は、単位変数を単位変数に標準化することを目指しています。これらは、トレーニングデータから推定されました。その後、変数値の損失重量を適用しました、すなわち大気変数のために、我々は、レベル(単位平均に標準化)の圧力に比例した重量で、レベルを介して平均化しました。 図6aに示されているように、我々は密度のためのプロキシとしてここで圧力を使用しました [26]. 圧力レベルに適用される損失重量が50hPa以下であることに留意してください。 HRESは、グラフキャストよりも優れている傾向 4.3.Autoregressive objectiveについてのトレーニング 私たちのモデルの正確な予測を1ステップ以上にわたって行う能力を向上させるために、我々は、モデルの予測された次のステップが次のステップを予測するための入力として戻り込まれた自動回帰訓練体制を使用しました。 4. 最適化 トレーニング オブジェクト 機能は、グレディエント ダッシングを使用して、ミニ バッチで最小限に抑えられました。我々は、32 サイズのバッチのための ERA5 トレーニング データセットから、置き換えで、地上真実の軌道をサンプル化しました。我々は、パラメータ(beta1 = 0.9、beta2 = 0.95)で、AdamW 最適化器(33, 27)を使用しました。 4.5 トレーニングスケジュール トレーニングモデルは、3段階のカリキュラムを使用して実施され、学習率と自退的ステップの数が異なりました。最初の段階は1000段階の降下アップデートと、1段階の自退的ステップと線形的に0から1e−3に増加した学習率スケジュールで構成されていました(図7a)。第二段階は299,000段階の降下アップデートで構成され、再び1段階の自退的ステップと学習率スケジュールが0に戻って減少した(図7b)。第3段階は11,000段階の降下アップデートで構成され、自退的ステップの数は212から1000段階ごとに1に増加し、固定学習率は3e−7(図7 4.記憶の足跡を減らす To fit long trajectories (12 autoregressive steps) into the 32GB of a Cloud TPU v4 device, we use several strategies to reduce the memory footprint of our model. First, we use batch parallelism to distribute data across 32 TPU devices (i.e., one data point per device). Second, we use bfloat16 floating point precision to decrease the memory taken by activations (note, we use full-precision numerics (i.e. float32) to compute performance metrics at evaluation time). Finally, we use gradient check-pointing [11] to further reduce memory footprint at the cost of a lower training speed. 7.訓練時間 トレーニングスケジュールに従い、上記の通り、自動反応ステップの数を増やすことで、GraphCastのトレーニングは32台のTPUデバイスで約4週間かかりました。 4.8 ソフトウェアとハードウェアスタック JAX [9], Haiku [23], Jraph [17], Optax, Jaxline [4] と xarray [25] を使用して、私たちのモデルを構築し、訓練します。 5.検証方法 このセクションは、私たちの評価プロトコルについて詳細を提供します。セクション 5.1は、因果的方法でデータを分割するための私たちのアプローチを説明し、有意義な一般化のために、すなわち、将来からの情報を活用することなく、私たちの評価テストを確実にします。セクション 5.2は、より詳細に、私たちの選択を説明します HRES スキルを評価し、それを GraphCast と HRES に比較し、すべての方法が彼らの入力と彼らのターゲット(セクション 5.2.3)で同一の見直しの恩恵を受けることを避けるために HRES に特化する必要性から、各州が組み込む lookahead (セクション 5.2.2) に異なるアシミレーションウィンドウを使用する ERA 5.1. Training, validation, and test splits テスト段階では、開発段階の終了時に凍結されたプロトコル(セクション 4.1)を使用して、それぞれ異なる期間にわたる4つのバージョンのGraphCastをトレーニングしました。 2018–2021, 2019–2021, 2020–2021および2021、それぞれ. また、これらの分裂は、モデルのバージョンを訓練するために使用されたデータと、そのパフォーマンスを評価するために使用されたデータの間の因果的分離を維持しました (図 8 を参照)。 ほとんどの結果は2018年に評価されました (すなわち、モデルが1979–2017に訓練された場合)、いくつかの例外を除いて。 サイクロン追跡実験のために、我々は、サイクロンがそれほど一般的ではないので2018–2021の結果を報告し、さらに年を含むサンプルサイズを増加します。 我々は、特定の年に最新バージョンの GraphCastを使用して予測します: GraphCast <2018 for 2018 for forecast, GraphC 5.2 GraphCastとHRESの比較 5.2.1 地上の真実データセットの選択 GraphCast は ERA5 データを予測するために訓練され、ERA5 データを入力として取るためにも、私たちは ERA5 を地上真理としてモデルを評価するために使用します。 HRES 予測は、HRES 分析に基づいて初期化されています。一般的に、モデルを自己分析に基づいて検証することは、最高のスキル評価を提供します(45)。 したがって、ERA5 地上真理に対する HRES 予測を評価するのではなく、これは、HRES 予測のゼロステップでさえゼロエラーが含まれることを意味しますが、私たちは、将来の初期化における HRES 予測の初期ステップを含む「HRES 予測ステップ 0」(HRES-fc0)のデータセット 5.2.2 アシミレーションウィンドウにおける平等な見直しの確保 グラフキャストとHRESのスキルを比較すると、ERA5とHRES-fc0のデータアシミレーションウィンドウの違いを制御するためにいくつかの選択をしました。 セクション1で説明したように、HRESは毎日、00z、06z、12z、18z(Zulu convention では18zが18:00 UTCを意味する)の4つの+/-3hウィンドウを使用して観測をアシミレートしますが、ERA5は00zと12zを中心に2つの+9h/-3hウィンドウを使用します、または同等の2つの+3h/-9hウィンドウを06zと18zに中心にしています。 図9を参照してください。 GraphCastの予測を06zと18zの初期化から評価 GraphCast のパフォーマンスは 06z/18z から初期化され、00z/12z から初期化されると、GraphCast はより大きな lookahead を含む状態から初期化され、より長い lead タイムで持続する顕著な改善を実現し、06z/18z から初期化評価の選択をサポートします。我々は評価するターゲットを選択する際に同じ論理を適用しました:我々は HRES と ERA5 の両方に 3h lookahead を含むターゲットのみを評価します。 atz と 18z の初期化の選択を考慮して、これは将来の 06z と 18z の分析タイムで 12 時間ごとに評価することに匹敵します。 実用的な例として、06z で初期化された Graph 5.2.3 Initialization and validity times-of-day の調整 上記のように、HRESとの公平な比較では、GraphCast を 06z および 18z の初期化を使用して評価する必要があり、および 12h の複数であるリードタイムで、有効期限も 06z および 18z であることを意味します。 最大 3.75 日までのリードタイムでは、 06z および 18z の初期化および有効期限を使用してアーカイブされた HRES 予測が利用可能であり、これらのリードタイムで GraphCast と同様の比較を行うためにこれらのリードタイムを使用します。 4日以上のリードタイムでは、アーカイブされたHRES予測は00zと12zの初期化のみで利用可能であり、12時間の複数のリードタイムは00zと12zの有効期限を意味します。 これらのグローバルで定義された RMSEs の比較では、日時差が HRES にわずかな利点を与えることを期待します。 図 11 では、リードタイムが 3.5 日まで、HRES RMSEs は、GraphCast が評価する 06z 時間と 18z 時間よりも、平均的に 00z と 12z の初期化/有効期限を超えて小さい傾向にあり、リードタイムが増加するにつれて差が減少し、06z/18z RMSEs は一般的に、00z/12z RMSE を上回る傾向にあるように見えますが、その 2% 以内です。 これらの差異は、より長いリードタイムで HRES を引き続き好み、それにもかかわらず小さいと見ることができますので、GraphCast が RMSEおよびその他の評価メトリックをリード時間の関数として描くたびに、我々は、6z/18zでHRESを評価することから00z/12zで評価することから切り替える 3.5日間の変更点を、点線で示す。 5.2.4 評価期間 当社の主な結果のほとんどは、2018年(当社のテストセットから)に報告され、最初の予測初期化時間は2018-01-01_06:00:00 UTCで、最後の2018-12-31_18:00:00、または、より長いリードタイムでHRESを評価する場合、2018-01-01_00:00:00と2018-12-31_12:00:00。 5.3 評価メトリック We quantify the skillfulness of GraphCast, other ML models, and HRES using the root mean square error (RMSE) and the anomaly correlation coefficient (ACC), which are both computed against the models' respective ground truth data. The RMSE measures the magnitude of the differences between forecasts and ground truth for a given variable indexed by j and a given lead time τ (see Equation (20)). The ACC, Lj,τ , is defined in Equation (29) and measures how well predicts' differences from climatology, i.e., the average weather for a location and date, correlate with the ground truth's differences from climatology. For skill scores we use the normalized RMSE difference between model A and baseline B as (RMSEA − REB / RMSEB, and the normalized すべてのメトリクスは float32 精度を使用して計算され、変数のネイティブダイナミック範囲を使用して、正常化なしで報告されました。 We quantified prediction skill for a given variable, x j, and lead time, τ = tΔd, using a latitude-weighted root mean square error (RMSE) given by Root mean square error (RMSE) where • 𝑑0 ∈ 𝐷eval represent forecast initialization date-times in the evaluation dataset, j ∈ J インデックス変数とレベル、例えば J = {z1000, z850, . . . , 2 T, MsL}、 • 𝑖 ∈ 𝐺0.25◦ are the location (latitude and longitude) coordinates in the grid, • x ̈d0 +τ および xd0 +τ は、いくつかの変数レベル、場所、およびリードタイムの予測およびターゲット値です。 𝑗,𝑖 𝑗,𝑖 • 𝑎𝑖 is the area of the latitude-longitude grid cell (normalized to unit mean over the grid) which varies with latitude. WeatherBenchの条約に従うと、予測初期化に基づいて平均の中間の平方根を取り入れることによって、しかし、これは、平方根が最終平均にのみ適用される他の多くの文脈で、RMSEがどのように定義されているかとは異なっていることに注意します。 球体調和域内でフィルタリング、断片化、または分解される予測を含むすべての比較では、便利のために、我々はすべての手段を平方根の内部で取って、球体調和域内で直接RMSEsを計算します。 Root mean square error (RMSE), spherical harmonic domain. ここでf ̈d0 +τ と f ̈d0 +τ は、合計波数 j,l,m j,l,m を持つ球状調和子の予測およびターゲット コエフェクティブである。 𝑙 and longitudinal wavenumber 𝑚. We compute these coefficients from grid-based data using a discrete spherical harmonic transform [13] with triangular truncation at wavenumber 719, which was chosen to resolve the 0.25° (28km) resolution of our grid at the equator. This means that 𝑙 ranges from 0 to 𝑙𝑚𝑎𝑥 = 719 and 𝑚 from −𝑙 to 𝑙. この RMSE は、方程式 21 で与えられた RMSE のグリッドベースの定義に近づいていますが、部分的に波数 719 の三角形トランクションがポール近くの平角形グリッドの追加解像度を解決しないため、正確に比較可能ではありません。 This is computed following the RMSE definition of Equation (21), but for a single location: Root mean square error (RMSE), per location. We also break down RMSE by latitude only: また、私たちはRMSEを緯度のみで分割します。 G0.25◦ G0.25◦ G0.25◦ G0.25◦ G0.25◦ G0.25◦ G0.25◦ G0.25◦ G0.40 G0.25◦ G0.25◦ G0.25◦ G.1440 is the number of distinct longitudes in our regular 0.25° grid. G0.25◦ G.1440 is the number of distinct longitudes in our regular 0.25° grid. This is computed following the RMSE definition of Equation (21) but restricted to a particular range of surface elevations, given by bounds 𝑧𝑙 ≤ 𝑧surface < 𝑧𝑢 on the surface geopotential: Root mean square error (RMSE), by surface elevation. 指標関数を表します。 この量は、定義として、 Mean bias error (MBE), per location. This quantifies the average magnitude of the per-location biases from Equation (26) and is given by Root-mean-square per-location mean bias error (RMS-MBE). This quantifies the correlation between per-location biases (Equation (26)) of two different models A and B. We use an uncentered correlation coefficient because of the significance of the origin zero in measurements of bias, and compute this quantity according to Correlation of per-location mean bias errors. Anomaly correlation coefficient (ACC) We also calculated the anomaly correlation coefficient for a given variable, x j, and lead time, τ = tΔd, according to where 𝐶𝑑0+𝜏 is the climatological mean for a given variable, level, latitude and longitude, and for the day-of-year containing the validity time 𝑑0 + 𝜏. Climatological means were computed using ERA5 data between 1993 and 2016. All other variables are defined as above. 4. 統計的方法論 5.4.1 介質の差の重要性テスト 各リードタイム τ と変数レベルの j に対して、我々は、GraphCast と HRES のための初期化時間 RMSEs (Equation (30)) 間の平均差をテストします。我々は、[16] の方法論に従って、自動関連のための訂正を伴う並列の双側の t テストを使用します。このテストは、予測スコアにおける差異のタイムシリーズが静止の Gaussian AR(2) プロセスとして適切にモデル化されていると仮定します。この仮定は我々にとって正確ではありませんが、ECMWF によって中間範囲の天気予測を確認するのに適切であることを動機づけています。 われわれのテストのノミネートサンプルサイズは、4日間未満のリードタイムでn = 730で、2018年365日間にわたって1日あたり2回の予測初期化で構成されている(4日間のリードタイムではn = 729を参照)。しかし、これらのデータ(予測RMSEsの差異)は時間的に自動的に関連しています。次に(16)我々は、これを正す標準エラーのインフレ因子kを推定します。 k の値は 1.21 から 6.75 までの範囲で、最も高い値は短いリードタイムと最も低い圧力レベルで一般的に見られます。 表 5 を参照し、重要性テストの詳細な結果、p 値、t テスト統計および neff の値を含む。 5.4.2. Forecast alignment リードタイム τ が 4 日未満の場合、GraphCast および HRES の両方で毎日の 06z および 18z の初期化および有効期限で予測が利用可能であり、これらのペアリング予測間の RMSEs の違いをテストできます。 違いを計算する E[diff-RMSE( j, τ, d0)] = 0 が 2 面の alterna-tive に対して存在するという null 仮説をテストするために使用します。 セクション 5.2.3 で議論されたように、4 日間以上のリードタイムでは、00z と 12z の初期化および有効期にのみ HRES 予測が利用可能である一方、最も公正な比較(セクション 5.2.2)のために、GraphCast 予測は 06z と 18z の初期化および有効期を使用して評価されなければなりません。ペアテストを実行するためには、GraphCast 予測の RMSE を両側の両方の HRES 予測のインテルポールされた RMSE と比較します: 1 つは 6 時間前に初期化および有効で、もう一つは 6 時間後に初期化および有効です。 We can use these to test the null hypothesis 𝔼[diff-RMSEinterp( 𝑗, 𝜏, 𝑑0)] = 0, which again doesn’t depend on 𝑑0 by the stationarity assumption on the differences. If we further assume that the HRES RMSE time series itself is stationary (or at least close enough to stationary over a 6 hour window) then 𝔼[diff-RMSEinterp( 𝑗, 𝜏, 𝑑0)] = 𝔼[diff-RMSE( 𝑗, 𝜏, 𝑑0)] and the interpolated differences can also be used to test deviations from the original null hypothesis that 𝔼[diff-RMSE( 𝑗, 𝜏, 𝑑0)] = 0. この HRES RMSEs のより強力な停滞性の仮定は、昼間の周期性によって違反され、セクション 5.2.3 では、00z/12z と 06z/18z の有効時間の間の HRES RMSEs のいくつかの体系的な違いを見ることができます。しかし、そこで議論されたように、これらの体系的な違いは、リード時間が伸びるにつれて大幅に減少し、HRES を好む傾向にあり、したがって、diff-RMSE( j, τ, d0)] = 0 のテストは、diff-RMSEinterp に基づいて、GRAPHCAST が HRES よりも高いスキルを持っているように見える場合に保守的であると信じています。 5.4.3 RMSEsの信頼間隔 RMSE スキル プラットフォームのエラー バーは、E[RMSEGC]と E[RMSEHRES]の別々の信頼範囲に対応します(エリディングまたは現在の論点 j、 τ、d0)。これらは、上記の自動関連の修正を含む 2 面の t テストから得られ、GraphCast および HRES RMSE タイム シリーズに別々に適用されます。 これらの信頼間隔は、GraphCastとHRES RMSEの別々のタイムシリーズの静止性仮定を作り、上記のように、差異の静止性が少し違反しているというより強力な仮定です。 5.4.4. Confidence intervals for RMSE skill scores セクション 5.4.1 で説明された t テストから、RMSEs の真の違いの信頼範囲も標準的に導き出せるが、我々のスキルスコアスケジュールでは、真の RMSE スキルスケジュールの信頼範囲を示したいが、そこで真の差は HRES の真の RMSE によって正常化される。 この量のための信頼間隔は、真の HRES RMSE の私たちの推定の不確実性を考慮に入れるべきです。 [ldiff, udiff] は、数値のための私たちの 1 − α/2 信頼間隔(RMSEs の違い)であり、 [lHRES, uHRES] は、名称のための私たちの 1 − α/2 信頼間隔 (HRES RMSE) です。 RMSE-SStrue. We plot these confidence intervals alongside our estimates of the RMSE skill score, however note that we do not rely on them for significance testing. 私たちは、RMSEスキルスコアの私たちの推定とともに、これらの信頼範囲を計画しています。 6. Comparison with previous machine learning baselines GraphCast のパフォーマンスが他の ML メソッドと比較される方法を決定するために、我々は Pangu-Weather [7] に焦点を当て、0.25°解像度で動作する強力な MLWP ベースラインです。 最も直接的な比較をするために、我々は、我々の評価プロトコルから離れ、[7] で説明されたものを使います。 掲載された Pangu-Weather の結果は 00z/12z の初期化から得られているため、我々はこの論文の残りの部分のように、06z/18z を代わりに GraphCast に同一の初期化を使用します。 これにより、両方のモデルが同一の入力に初期化されることを可能にし、同一の lookahead (+9 時間、セクション 5.2. 図12に示すように、GraphCast(ブルーライン)はターゲットの99.2%でPangu-Weather(7)(レッドライン)を上回ります。表面変数(2T、10U、10V、MSL)の場合、最初の数日間のGraphCastのエラーは約10〜20%低く、より長いリードタイムの平面では約7〜10%低いエラーです。 7. Additional forecast verification results このセクションは、GraphCastのパフォーマンスの追加分析を提供し、その強みと限界のより完全なイメージを提供します。セクション7.1は、Z500を超える追加変数とレベルに関する論文の主な結果を補完します。セクション7.2は、GraphCastのパフォーマンスを地域、緯度および圧力レベルに分割して分析します(特にトロポアスの下部および上部に適用されるパフォーマンスを区別する)、GraphCastの偏差とRMSEを示す。セクション7.3は、Multi-meshとautoregressive lossの両方がGraphCastのパフォーマンスにおいて重要な役割を果たしていることを示しています。セクション7.4は、HRESおよび 7.1. Detailed results for additional variables 7.1.1 RMSEとACC 図 13 は図 2a-b を補完し、12 つのハイライト変数を組み合わせた GraphCast と HRES の HRES に対する RMSE と正常化された RMSE の違いを示します。 7.1.2. Detailed significance test results for RMSE comparisons Table 5 provides further information about the statistical significance claims made in the main section about differences in RMSE between GraphCast and HRES. Details of the methodology are in Section 5.4. Here we give 𝑝-values, test statistics and effective sample sizes for all variables. For reasons of space we limit ourselves to three key lead times (12 hours, 2 days and 10 days) and a subset of 7 pressure levels chosen to include all cases where 𝑝 > 0.05 at these lead times. 7.1.3. Effect of data recency on GraphCast MLWPの方法の重要な特徴は、これらが最新のデータで定期的にリトレーニングできることである。これは、原則として、ENSOサイクルやその他の変動、そして気候変動の影響などの時間とともに変化する最近の気象パターンをモデル化することを可能にします。トレーニングデータの最新性がGraphCastのテストパフォーマンスにどのように影響するかを探るために、我々はGraphCastの4つのバージョンをトレーニングし、トレーニングデータは常に1979年に始まったが、それぞれ2017年、2019年、2020年に終了した(我々は2017年に終わるバージョンを「GraphCast:<2018」などと標識しました)。 図15は、いくつかの変数のために、いくつかの変数のために、GraphCastの4つのバージョンのスキルとスキルスコア(HRESに関して)を示しています。図4aには、試験年に近い年まで訓練されたバージョンが一般的にHRESに対するスキルスコアを向上させた一般的な傾向があります。この改善の理由は完全に理解されていないが、我々は長期的な偏見の訂正と同様であると推測するが、最近の気象における統計的偏見が精度を向上させるために利用されている。また、HRESは年間を通して単一のNWPではないことに留意することが重要です:それは、一般的にZ500およびその他の分野でのスキルを増加させることによって、年に一度または2度アップグレード これは、特に、GraphCast:<2018 および GraphCast:<2019 が、2021 試験評価の初期のリードタイムで HRES に比べてスキルスコアが低い理由にも貢献する可能性があります。我々は、他の変数の場合、GraphCast:<2018 および GraphCast:<2019 は、まだ HRES を上回る傾向にあります。 7.2 解析結果 7.2.1 RMSE 地域別 予測スキルの地域ごとにの評価は、図17と18で示されています、ECMWFスコアカード(https://sites.ecmwf.int/ifs/scorecards/ scorecards-47r3HRES.html)と同じ地域と名前付け条約を使用して。 7.2.2 幅と圧力レベルによるRMSEスキルスコア 図19では、圧力レベルと緯度の両方の関数として、GraphCastとHRESの間の正常化されたRMSEの違いを図ります。We plot only the 13 pressure levels from WeatherBench [41] on which we have evaluated HRES. On these plots, we indicate at each latitude the mean pressure of the tropopause, which separates the troposphere from the stratosphere. We use values computed for the ERA-15 dataset (1979-1993), given in Figure 1 of [44]. These will not be quite the same as for ERA5 but are intended only as a rough aid to interpretation. We can see from the scorecard in Figure 2 that GraphCast performs worse than HRES at the lowest pressure levels evaluated (50hPa). Figure 19 shows that the pressure level at which GraphCast starts to get worse is often latitude-dependent too, in some cases roughly following the mean level of the tropopause. We use a lower loss weighing for lower pressure levels and this may be playing some role; it is also possible that there may be differences between the ERA5 and the HRES-fc0 data sets in the predictability of variables in the stratosphere. 我々は低い圧力レベルのために低い損失重量を使用し、これはいくつかの役割を果たしている可能性があります。 7.2.3 緯度と長さによる偏差 図20〜22では、グラフキャストの平均偏差誤差(MBE、あるいは単に「偏差」で定義される方程式(26))を、緯度と長さの関数として、12時間、2日間、10日間の3つのリードタイムで構成します。 圧力レベルで与えられた変数のスケッチでは、圧力レベルが平均より低いほど表面の高さが高い地域をマスクしました。この状況は、表面地質潜在力が同じ場所と圧力レベルにおける気候学的平均地質潜在力を超える場合です。 図 20 から 22 に示す場所ごとの偏差の平均的な大きさを定量化するために、我々 は場所ごとの平均偏差エラー (RMS-MBE, defined in Equation (26)) の root-median-square を計算しました。これらは、グラフキャストと HRES のための図 23 で、リードタイムの関数として構成されています。我々 は、グラフキャストの偏差が、6 日までのほとんどの変数の HRES の平均より小さいことを見ることができます。 We also calculated a correlation coefficient between GraphCast and HRES’ per-location mean bias errors (defined in Equation (27)), which is plotted as a function of lead time in Figure 24. GraphCast and HRES’ biases are uncorrelated or weakly correlated at the shortest lead times, but the correlation coefficient generally grows with lead time, reaching values as high as 0.6 at 10 days. GraphCast and HRES’s per-location average bias errors (Equation (27)で定義された) の間の相関関係因子も計算しました。 7.2.4. RMSEスキルスコア by latitude and longitude In Figures 25 to 27, we plot the normalized RMSE difference between GraphCast and HRES by latitude and longitude. As in Section 7.2.3, for variables given on pressure levels, we have masked out regions whose surface elevation is high enough that the pressure level is below ground on average. Notable areas where HRES outperforms GraphCast include specific humidity near the poles (particularly the south pole); geopotential near the poles; 2m temperature near the poles and over many land areas; and a number of surface or near-surface variables in regions of high surface elevation (see also Section 7.2.5). GraphCast’s skill in these areas generally improves over longer lead times. However HRES outperforms GraphCast on geopotential in some tropical regions at longer lead times. At 12 hour and 2 day lead times both GraphCast and HRES are evaluated at 06z/18z initialization and validity times, however at 10 day lead times we must compare GraphCast at 06z/18z with HRES at 00z/12z (see Section 5). This difference in time-of-day may confound comparisons at specific locations for variables like 2m temperature (2 T) with a strong diurnal cycle. 7.2.5. RMSEスキルスコア 表面の高さによる 図 25 で、我々 は GraphCast が 12 時間のリードタイムで多くの変数の高高度地域でスキルを減らしたように見えることがわかります。これをさらに調査するために、我々 は地表の高さ (地質潜在的な高さで与えられた) で 32 ビンに地球表面を分割し、方程式(24)に従って各ビン内の RMSEs を計算しました。 短いリードタイムで、特に6時間で、GraphCastのHRESに対するスキルは、より高い表面の高さとともに減少する傾向があり、ほとんどの場合、十分な高さでHRESのスキルを下回ります。 We note that GraphCast is trained on variables defined using a mix of pressure-level coordinates (for atmospheric variables) and height above surface coordinates (for surface-level variables such as 2m temperature or 10m wind). これらの2つの座標システムの関係は表面の高さに依存します。 表面の高さでGraphCastの調節にもかかわらず、我々はこの関係を学ぶのに苦労し、それを最も高い表面の高さに優先する可能性があると推測します。 さらなる作業では、圧力レベルではなくERA5のネイティブモデルレベルのサブセットでモデルを訓練しようと提案します。 これらは、最も低いレベルで土地の表面を追跡するハイブリッド座標システム[14]を使用し、これは Variables using pressure-level coordinates are interpolated below ground when the pressure level exceeds surface pressure. GraphCast is not given any explicit indication that this has happened and this may add to the challenge of learning to forecast at high surface elevations. In further work using pressure-level coordinates we propose to provide additional signal to the model indicating when this has happened. 最後に、我々の損失重量は、低い圧力レベルでの大気変数にとって低いものであり、これはより高い高度の場所でのスキルに影響を与える可能性があります。 7.3. GraphCast ablations 7.3.1 マルチメッシュ除去 マルチメッシュ表示が GraphCast のパフォーマンスにどのように影響するかをよりよく理解するために、我々は GraphCast のパフォーマンスをマルチメッシュ表示なしで訓練されたモデルのバージョンと比較する。 後者のモデルのアーキテクチャは GraphCast と同一である(同じエンコーダーとデコーダー、および同じノード数を含む)、プロセスブロックでは、グラフは最高の icosahedron メッシュ M6 (245,760 エッジ、GraphCast の 327,660 エッジの代わりに)のエッジのみを含みます。 図29(左パネル)は、グラフキャストとアブレットモデルを比較するスコアカードを示しています。グラフキャストは、5日間で50hPaで5日間を超えるスピードタイムを除く、すべての予測された変数に対してマルチメッシュ構造の利点を示しています。この改善は、すべての圧力レベルにおける地ポテンシャルおよび5日間未満のスピードタイムにおける平均海面レベルの圧力に特に顕著です。中間パネルは、スピードカードを示し、スピードモデルとHRESを比較し、右パネルは、グラフキャストとHRESを比較し、マルチメッシュが5日未満のスピードにおける地ポテンシャルにHRES 7.3.2. Effect of autoregressive training We analyzed the performance of variants of GraphCast that were trained with fewer autoregressive (AR) steps7, which should encourage them to improve their short lead time performance at the expense of longer lead time performance. As shown in Figure 30 (with the lighter blue lines corresponding to training with fewer AR steps) we found that models trained with fewer AR steps tended to trade longer for shorter lead time accuracy. These results suggest the potential for combining multiple models with varying numbers of AR steps, e.g., for short, medium and long lead times, to capitalize on their respective advantages across the entire forecast horizon. 自動レギュレーションのステップ数と曖昧さの間の関係は、サプリメントセクション 7.4.4 で議論されています。 4.Optimal Blurring 7.4.1 GraphCast と HRES のスキルの比較に及ぼす影響 図31と32では、両モデルに最適なバブルリングが適用される前と後、HRESのRMSEとGraphCastを比較します.We can see that optimal blurring rarely changes the ranking of the two models, however it does generally narrow the gap between them. 4.2 フィルタリング方法 We chose filters that minimize RMSE within the class of linear, homogeneous (location invariant), isotropic (direction invariant) filters on the sphere. These filters can be applied easily in the spherical harmonic domain, where they correspond to multiplicative filter weights that depend on the total wavenumber, but not the longitudinal wavenumber. これらのフィルターは、球の調和領域で簡単に適用することができ、それらは合計波数に依存する複数のフィルター重量に対応します。 各初期化 d0, lead time τ、変数およびレベル j に対して、我々は分離した球状調和変換 [13] を x ̈d0+τ と標的 xd0+τ の予測に適用し、球状調和因子 f ̈d0+τ j j j,l,m と f d0+τ を、合計波数 l と長波数 m のそれぞれのカップルに適用して、赤道の私たちの網の 0.25° (28km) の解像度を解決するために、我々は、合計波数 719 で三角形のトランクションを使用し、これは l が 0 から max l = 719 まで、および各 l の m の値が −l から l まで範囲することを意味する。 次に、我々は、それぞれの予測された係数f ̈d0+τを、j、l、m、j、l から独立したフィルターの重さ bτ に倍増した、長さの波数 m. フィルターの重量は、球体調和領域で計算されたように、平均の平方エラーを最小限に抑えるために最小の平方を使用して配置された: 私たちは、2018年のテストセットと重なり合わないこれらの重量に適合するために2017年のデータを使用しました. When evaluating the filtered predictions, we calculated MSE in the spherical harmonic domain, as detailed in Equation (22). By fitting different filters for each lead time, the degree of blurring was free to increase with increasing uncertainty at longer lead times. この方法はかなり一般的ですが、それにも限界があります。フィルターは均一であるため、オーログラフィックや陸海の境界などの場所特有の特徴を考慮することができないので、これらの場所で予測可能な高解像度の詳細を過剰に混ざり、またはより一般的に予測不能な高解像度の詳細を過剰に混ざりすることのどちらかを選択しなければなりません。 私たちのECMWF予測基準のための条件予測(およびしたがってRMSEを改善する)を近づける別の方法は、Deterministic HRES予測の代わりに、ENS ensemble予測システムの総合平均を評価することです。 7.4.3 最適なフィルターの転送機能 Filter weights are visualized in Figure 33, which shows the ratio of output power to input power for the filter, on the logarithmic decibel scale, as a function of wavelength. フィルターの出力パワーと入力パワーの比率を、波長の関数として、デシベルスケールで表示します。 Equation (35), this is equal to 20 log10(bτ ) for the wavelength Ce/l corresponding to total wavenumber l.) For both HRES and GraphCast, we see that it is optimal for MSE to attenuate power over some short-to-mid wavelengths. As lead times increase, the amount of attenuation increases, as does the wavelength at which it is greatest. In optimizing for MSE, we seek to approximate a conditional expectation which averages over predictive uncertainty. Over longer lead times this predictive uncertainty increases, as does the spatial scale of uncertainty about the location of weather phenomena. We believe that this largely explains these changes in optimal filter response as a function of lead time. HRES は、GraphCast の予測がすでにある程度(セクション 7.5.3 を参照)混ざっているため、GraphCast より多くの混ざりが必要であることがわかります。 最適なフィルターは、GraphCastおよびHRESの予測におけるスペクトル偏差を、ある程度、補償することもできます。例えば、私たちの再生されたERA5データセットの多くの変数の場合、スペクトルは、ERA5のネイティブ0.28125◦解像度で未解決の62km未満の波長に突然切断されます。 また、Z500 の GraphCast フィルター応答に 100km の波長にあたって顕著なピークがあり、これらは HRES には存在しません。これらは、この波長の周りに GraphCast が導入する小さな、不正なアーティファクトをフィルタリングしていると信じています。 7.4.4. Relationship between autoregressive training horizon and blurring In Figure 34 we use the results of optimal blurring to investigate the connection between autoregressive training and the blurring of GraphCast’s predictions at longer lead times. 図34の最初の行では、より長い自動反応訓練の地平線で訓練されたモデルは、最適なバラバラの利点が少なく、最適なバラバラの利点は、通常、彼らが訓練された地平線に匹敵するリードタイムの後にのみ蓄積し始めることがわかります。 より長い地平線のトレーニングを最適なバラバラ化のような単純なプロセス後の戦略に置き換えることは便利ですが、これはそうではないように見えます: 図34の2番目の行では、最適なバラバラ化が適用された後でも、より長い地平線の自動バラバラ化トレーニングは依然として低いRMSEsを引き起こすことがわかります。 ある意味では最小限に曖昧な予測を望むなら、少数の自動回帰ステップに訓練されたモデルを使用することもできます。これはもちろん、より長いリードタイムでより高いRMSEsを生み出し、ここでの私たちの結果は、これらのより高いRMSEsがバラバラの欠如のためだけでなく、より長いリードタイムでも他のスキルの側面に妥協することになることを示唆しています。 7.5. Spectral analysis 7.5.1. Spectral decomposition of mean squared error 図35と36では、最適なフィルタリングの前と後、さまざまな空間スケールでGraphCastとHRESのスキルを比較します(セクション7.4の詳細を参照)。 where lmax = 719 as in Equation (22) each total wavenumber l corresponds approximately to a wavelength Ce/l, where Ce is the earth's circumference. それぞれの合計波数lは、地球の周囲である。 We plot power density histograms, where the area of each bar corresponds to S j,τ(l), and the bars center around log10(1 + l) (since a log frequency scale allows for easier visual inspection, but we must also include wavenumber l = 0). In these plots, the total area under the curve is the MSE. パワー密度ヒストグラムは、それぞれのバーの面積がS j,τ(l)に対応し、およびバーの中心はlog10(1 + l) (ロゴの周波数スケールがより簡単な視覚的検査を可能にするので、私たちはまた波数l = 0を含めなければなりません。 2日以上のリーディタイムでは、ほとんどの変数の場合、GraphCastは、すべての波長で均一にHRESのスキルを向上させます(温度は2mの例外です)。 12時間から1日までの短いリードタイムでは、いくつかの変数(z500、T500、T850、U500を含む)で、HRESは約200〜2000kmの範囲内のスケールでGraphCastよりも優れたスキルを持っています。 7.5.2. RMSE as a function of horizontal resolution 図 37 では、空間解像度の範囲で評価された場合に GraphCast のスキルと HRES を比較します。 具体的には、それぞれの合計波数 ltrunc で、私たちは、その合計波数で割り当てられている予測とターゲットの間で RMSEs を構成します。 The RMSEs between truncated predictions and targets can be obtained via cumulative sums of the mean error powers 𝑆 𝑗,𝜏(𝑙) defined in Equation (37), according to 図 37 は、ほとんどの場合、GraphCast は、一般的に予測検証に使用されるすべての解像度で HRES より低い RMSE を有していることを示しています。 これは、最適なフィルタリングの前におよび後に適用されます(セクション 7.4 を参照してください)。例外には、2 メートルの温度がいくつかのリードタイムおよび解像度で、T 500 は 12 時間リードタイムで、および U 500 は 12 時間リードタイムで、GraphCast は 0.25 度の解像度でより優れているが、HRES は 0.5 ◦ ~ 2.5 ◦ の解像度でより優れている(約 100 ~ 500 km の最短波長に対応します)。 In particular we note that the native resolution of ERA5 is 0.28125◦ corresponding to a shortest wavelength of 62km, indicated by a vertical line in the plots. HRES-fc0 targets contain some signal at wavelengths shorter than 62km, but the ERA5 targets used to evaluate GraphCast do not, natively at least (see Section 7.5.3). In Figure 37 we can see that evaluating at 0.28125◦ resolution instead of 0.25° does not significantly affect the comparison of skill between GraphCast and HRES. 7.5.3 予測と目標のスペクトル 図 38 は、GraphCast の予測のパワースペクトル、それらが訓練された ERA5 ターゲット、および HRES-fc0 を比較します。 ERA5およびHRES-fc0のスペクトルには顕著な違いがありますが、特に短波長でこれらの違いは、部分的に、それぞれのネイティブ IFS 解像度 TL639 (0.28125◦) および TCo1279 (約 0.1◦、 [36]) から 0.25° 平角グリッドに再生するために使用される方法によって引き起こされる可能性があります。しかし、この再生の前に、HRES および ERA5 に使用される IFS バージョン、設定、解像度およびデータアシミレーション手法の違いがあり、これらの違いはまた、スペクトルに影響を与える可能性があります。 Differences between HRES and ERA5 We see reduced power at short-to-mid wavelengths in GraphCast’s predictions which reduces further with lead time. We believe this corresponds to blurring which GraphCast has learned to perform in optimizing for MSE. We discussed this further in Sections 7.4 and 7.4.4. Blurring in GraphCast これらのピークは、 z500 では特に目に見えますが、それらは lead time で増加しているように見えます. We believe that they correspond to small, false artifacts introduced by the internal grid-to-mesh and mesh-to-grid transformations performed by GraphCast at each autoregressive step. In future work we hope to eliminate or reduce the effect of these artifacts, which were also observed by [26]. Peaks for GraphCast around 100km wavelengths Finally we note that, while these differences in power at short wavelengths are very noticeable in log scale and relative plots, these short wavelengths contribute little to the total power of the signal. 8. 追加の厳しいイベント予測結果 In this section, we provide additional details about our severe event forecasting analysis. We note that GraphCast is not specifically trained for those downstream tasks, which demonstrates that, beyond improved skills, GraphCast provides useful forecast for tasks with real-world impact such as tracking cyclones (Section 8.1), characterizing atmospheric rivers (Section 8.2), and classifying extreme temperature (Section 8.3). Each task can also be seen as evaluating the value of GraphCast on a different axis: spatial and temporal structure of high-resolution prediction (cyclone tracking task), ability to non-linearly combine GraphCast predictions to derive quantities of interest (atmospheric rivers task), and ability to characterize extreme and rare events (extreme temperatures). 8.1 熱帯サイクロン予報 このセクションでは、サイクロン追跡(サプリメントセクション8.1.1)および統計的重要性を分析するために使用した評価プロトコル(サプリメントセクション8.1.2)を詳細に説明し、追加の結果を提供する(サプリメントセクション8.1.3)と、ECMWF(サプリメントセクション8.1.4)のトラッカーとその違いを説明します。 8.1.1 評価プロトコル 同じグラフサイクロン予測システムの2つのグラフサイクロンを比較するための標準的な方法は、両方のモデルが有効なサイクロンの存在を予測するイベントに比較を制限することです。 追加のセクション5.2.2で詳細に述べたように、グラフキャストは、00zと18zの代わりに00zと12zで初期化され、両方の方法の同一の有効期限に導くことを避けるためです。 HRESに比べて常に6hの誤差があります。 しかし、TIGGEアーカイブのHRESサイクロントラックは、同様のイベントのセットでHRESとGrafCastを比較する代わりに、次のように進めます。 この差異は、私たちが初期化のイベントを選択するのを妨げます 同一の真実(すなわち、IBTrACS)に関してエラーを計算しているため、評価はサプリメントセクション 5.2.2 で説明されている同じ制限に従わない、すなわち、両モデルのターゲットは同じ量の lookahead を含みます。これは、HRES (すなわち HRES-fc0)のターゲットは +3h lookahead を含み、GraphCast (ERA5 から)のターゲットは +3h または +9h を含みます。 特定の予測のために、サイクロンの予測された中心と真の中心の間のエラーは、地質距離を使用して計算されます。 8.1.2. Statistical methodology Computing statistical confidence in cyclone tracking requires particular attention in two aspects: 1. サンプルの数を定義する方法は2つあります。 最初の1つは、主に独立した出来事であると仮定することができる熱帯のサイクロンイベントの数です。 二つ目は、より大きいリードタイムデータポイントの数であるが、関連するポイントをカウントします(各熱帯のサイクロンイベントのための複数の予測は6h間隔で行われます)。 我々は、統計的意義のより保守的な推定を提供する最初の定義を使用することを選択しました。 両方の数字は、サプリメント図39のX軸で1〜5日間のリードタイムに示されています。 2. The per-example tracking errors of HRES and GraphCast are correlated. Therefore statistical variance in their difference is much smaller than their joint variance. Thus, we report the confidence that GraphCast is better than HRES (see Supplements Figure 39b) in addition to the per-model confidence (see Supplements Figure 39a). 上記の2つの考慮事項を考慮し、我々はサイクロンレベルで95%の信頼度の間隔でブートストラップを行います。 特定のリードタイムのために、我々はすべての相応の初期化時間/リードタイムのカップルを考慮し、彼らがどのサイクロンから来ているのかのリストを保持します(ダブルストラップなし)。 ブートストラップの推定のために、我々はこのサイクロンリストからサンプルを抽出します(置き換え)とサンプルサイクロンから来るすべてのブートストラップサンプル(通常は数十の順序で)が完全に相関していると仮定するに等しいので、これは、ブートストラップの初期化時間/リードタイムのカップ たとえば、特定のリードタイムでは、サイクロンA(50、100、150)、サイクロンB(300、200)、サイクロンC(100、100)のエラーがあると仮定すると、Aはより多くのサンプルを持っている。 8.1.3. Results サプリメント 図3a-bでは、平均的なエラーではなく平均的なエラーを表示することを選択しました。この決定は、検定セットのパフォーマンスに基づいて、テストセットの結果を計算する前に行われました。 2016年から2017年までには、1979年から2015年に訓練されたバージョンのGraphCastを使用して、我々は、トラッカーの初期バージョンを使用して、平均的なトラックエラーは非常に少ないエラーによって支配され、全体の人口を代表するものではなかったことに気付きました。さらに、これらのエラーのかなりの割合は、トラッキングアルゴリズムのエラーではなく、予測自体のエラーに起因し、トラッカーがGraphCastと一緒に使用するのに最適ではないことを示しました。我々の目標は、トラッカー Supplements Figure 39 は、平均トラックエラーと関連するペアリング分析を示すことにより、図 3a-b を補完します。我々は、我々のトラッカーの最終バージョン (Supplements Section 8.1.4) を使用して、GraphCast の平均結果はメディアに類似しており、GraphCast は 2 ~ 5 日間のリード時間の HRES を著しく上回っていることに注意します。 Because of well-known blurring effects, which tend to smooth the extrema used by a tracker to detect the presence of a cyclone, ML methods can drop existing cyclones more often than NWPs. Dropping a cyclone is very correlated with having a large positional error. Therefore, removing from the evaluation such predictions, where a ML model would have performed particularly poorly, could give it an unfair advantage. この問題を回避するために、我々のハイパーパラメータを検索したトラッカー(サプリメントセクション8.1.4を参照)がHRESと同様のサイクロン数を欠いていることを確認します。 サプリメント 図42と43は、サイクロンカテゴリによって分割されたリードタイムの機能として、メディアエラーとパレード解析を示し、カテゴリはサフィール・シンプソン・ハリケーン風のスケールで定義されている[47]、カテゴリ5は最も強力で最も有害な嵐を表す(注:我々はカテゴリ0を使用して熱帯の嵐を表します)。 8.1.4 トラッカーの詳細 The tracker we used for GraphCast is based on our reimplementation of ECMWF’s tracker [35]. Because it is designed for 0.1° HRES, we found it helpful to add several modifications to reduce the amount of mistracked cyclones when applied to GraphCast predictions. However, tracking errors still occur, which is expected from tracking cyclone from 0.25° predictions instead of 0.1°. We note that we do not use our tracker for the HRES baseline, as its tracks are directly recovered from the TIGGE archives [8]. まず、ECMWFのデフォルトトラッカーの高レベルの概要を提供し、私たちが行った変更や決定プロセスを説明します。 モデルの10 U、10 V、MSL、およびU、vおよびzの予測を複数の時間段階で200、500、700、850および1000 hPaの圧力レベルで考慮すると、ECMWFトラッカー(35)はそれぞれのタイムステップを順序的に処理し、全軌道を通じてサイクロンの位置を予測する。 トラッカーの6時間の予測には2つの主なステップがあります。 最初のステップでは、サイクロンの現在の位置に基づき、トラッカーは6時間前後の次の位置の推定を計算します。 第二のステップは、サイクロンセンターの特徴であるいくつかの条件を満たす場所の新しい推定の近くを見ることです。 ECMWF tracker 次のサイクロン位置の推定を計算するために、トラッカーは2つのベクターの平均として計算される移動を用いて現在の推定を移動します: 1)最後の2つのトラック位置の間の移動(すなわち、線形エストラポラーション)および 2)風の方向の推定、圧力レベル200、500、700および850hPaで前のトラック位置の風速Uとvの平均を計算します。 次のサイクロンの位置の推定が計算された後、トラッカーは、この推定の445km以内の平均海面圧力(MsL)のすべての地元最小値を調べ、次の3つの条件を満たす現在の推定に最も近い候補最小値を検索します。 1. Vorticity check: the maximum vorticity at 850 hPa within 278 km of the local minima is greater than 5 · 10−5 s−1 for the Northern Hemisphere, or is smaller than −5 · 10−5s−1 for the Southern Hemisphere. Vorticity can be derived from horizontal wind (U and v). 2.風速検査:候補者が陸上の場合、278km以内の最大10mの風速は8m/sを超える。 3.厚さチェック:サイクロンがエクストラトロピックである場合、最大厚さは850hPaから200hPaの範囲内で278kmで、厚さはz850-z200として定義されています。 すべての条件を満たす最小値がなければ、トラッカーはサイクロンが存在しないと考えます。ECMWFのトラッカーは、サイクロンが再現する前に、いくつかの角度の条件下で短期間に消えることを可能にします。 我々は、1979年から2015年にかけて訓練されたバージョンのGraphCastを使用して、我々の検証セットの年(2016~2017年)のサイクロンに関する誤差を分析し、以下のようにECMWFトラッカーのデフォルト再実装を修正しました。 Our modified tracker このパラメーターが重要であることが判明し、以下のオプションの中からより良い値を検索しました: 445 × f for f in 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (オリジナル値)。 また、このパラメータが重要であることが判明し、以下のオプションの中からより良い値を検索しました: 278 × f for f in 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (オリジナル値)。 3. ECMWFの次のステップの推定では、線形エクストラポレーションと風の制御ベクターの間の50〜50の重量を使用します。我々のケースでは、風が0.25°の解像度で予測されている場合、我々は時には障害の推定に風の制御を見つけました。これは驚くべきことではありません。風は空間的に滑らかなフィールドではありませんし、トラッカーは0.1°の解像度の予測を活用するためにカスタマイズされる可能性があります。したがって、我々は次のオプションの間で重量をハイパーパラメータで検索しました: 0.0、0.1, 0.33, 0.5 (オリジナル値)。 したがって、我々は、これらの値の間でdが検索された以前と新しい方向の間の角度を作成する候補者のみを考慮する: 90、135, 150、165, 175, 180 (すなわちフィルターなし、元の値)。 5.我々は、複数のミストラックが大きなジャンプを起こしたことに気付いた、騒々しい風の運転と弱いサイクロンの特徴を区別するのが困難な組み合わせのために。 したがって、我々は、 x キロメートルを超える移動の推定をクリッピング(デルタを最後の中心に変更することによって)を調査し、 x の次の値を検索しました: 445 × f for f in 0.25, 0.5, 1.0, 2.0, 4.0, ∞ (すなわち、クリッピングなし、オリジナル値)。 ハイパーパラメーターの検索では、GraphCastに適用されたトラッカーがHRESと同様の数のサイクロンを落としたことを検証しました。 8.2 大気の川 垂直に統合された水蒸気輸送(IvT)は、大気の川の強度を特徴づけるために一般的に用いられています [38, 37]. GraphCast は IvT を直接予測し、大気の川を予測するために特別に訓練されていませんが、この量は、予測された大気の変数、湿度、Q、および水平風(U、v)を経由して得ることができます。 g = 9.80665 m/s2 が地球表面における重力による加速であり、pb = 1000 hPa が底圧であり、pt = 300 hPa が上位圧力である。 上記の関係を使用して IvT を評価するには、数値統合が必要であり、結果は予測の垂直解像度に依存します。 GraphCast は、25 つの圧力レベルのみで利用可能な HRES 軌道の解像度を上回る 37 つの圧力レベルの垂直解像度を持っています。 他の評価プロトコルと一致して、各モデルは独自の「分析」に基づいて評価されます。 GraphCast では、その予測に基づいて IvT を計算し、ERA5 から同様に計算された IvT に比較します。 以前の研究と同様に、図44は、冷たい季節(2018年1月~4月および10月~12月)の間、沿岸北米および東太平洋地域(180°Wから110°Wの長さ、および10°Nから60°Nの緯度)で平均したRMSEスキルとスキルスコアを報告しています。 8.3 極端な暑さと寒さ 私たちは極端な熱と寒さの予測をバイナリ分類の問題として [35, 32] 比較して、ある特定の予測モデルが正確に特定の変数の値が基準の歴史的な気候学の分布の一定のパーセチル(例えば、98%パーセチルを超えて極端な熱、および極端な寒さのための2%パーセチルを下回る)の上に(または下)であるかどうかを予測することによって比較します。以前の作業 [35] 、参照気候学は1つの変数(2)毎月、 (3)毎日の時間、 (4)各緯度/長さの座標、および (5)各圧力レベル(適用される場合)。これは極端の検出をより対照的に、各スペースロケーションの昼間と季節サイクルの影響を除去 極端な予測は定義的に不均衡な分類問題であるため、我々はこの場合に適した正確な回復計画(42)に基づいて分析する。極端な予測曲線は、気候学のメディア値に関してスケーリング因子で構成される自由なパラメータ「利益」を変えることによって得られるのである、すなわち、スケーリング予測 = 利益 × (予測 − メディア気候学) + メディア気候学。これは決定限界を変える効果をもたらし、偽否定と偽否定の間の異なる貿易オフを研究することを可能にします。直感的に、0の利益はゼロの予測陽性(例えばゼロの偽否定)を生成し、無限の利益は 我々は、極端な温度条件に関連する変数に焦点を当て、特に2 T [35, 32]、およびT 850, z500は、頻繁にECMWFによって熱波を特徴づけるために使用される [34]. 以前の作業に従って[32]、極端な熱については、6月、7月、および8月の北半球の陸地(緯度>20◦)および南半球の南半球の陸地(緯度< -20◦)の12月、1月および2月の平均を平均します。 9. ビジュアル予測 この最後のセクションでは、変数 2 T ( 図 47 )、 10 U ( 図 48 )、 MsL ( 図 49 )、 z500 ( 図 50 )、 T 850 ( 図 51 )、 v 500 ( 図 52 )、 Q 700 ( 図 53 ) のための GraphCast による予測のいくつかの可視化例を提供します。 参照 [1] Ferran Alet, Adarsh Keshav Jeewajee, Maria Bauza Villalonga, Alberto Rodriguez, Tomas Lozano-Perez, and Leslie Kaelbling. Graph element networks: adaptive, structured computing and memory. In International Conference on Machine Learning, pages 212–222. PMLR, 2019. [2] Kelsey R Allen, Yulia Rubanova, Tatiana Lopez-Guevara, William Whitney, Alvaro Sanchez-Gonzalez, Peter Battaglia, and Tobias Pfaff. Learning rigid dynamics with face interaction graph networks. arXiv preprint arXiv:2212.03574, 2022. [3] Jimmy Lei Ba、Jamie Ryan Kiros、Geoffrey E. Hinton. Layer normalization. arXiv, 2016. [4] イゴール・バブシュキン、ケイト・バウムリ、アリソン・ベル、スーリャ・ブパチュア、ジェイク・ブルース、ピーター・ブックロフスキー、デヴィッド・バウデン、トレヴァー・カイ、アイダン・クラーク、イヴォ・ダニエルカ、クラウディオ・ファンタッチ、ジョナサン・ゴッドウィン、クリス・ジョーンズ、ロス・ヘムズリー、トム・ヘニガン、マテオ・ヘッスル、シャオブ・ホウ、スティーブン・カプターウスキー、トーマス・ケック、イウリウィ・ケマエフ、マイケル・キング、マルクス・クネ //github.com/deepmind、2020年 [5] Peter Battaglia, Razvan Pascanu, Matthew Lai, Danilo Jimenez Rezende, et al. 物体、関係、物理について学ぶための相互作用ネットワーク。 [6] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Relational inductive biases, deep learning, and graph networks. arXiv preprint arXiv:1806.01261, 2018. [7] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu, and Qi Tian. Pangu-Weather: A 3D high-resolution model for fast and accurate global weather forecast. arXiv preprint arXiv:2211.02556, 2022. [8] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. The THORPEX interactive grand global ensemble. Bulletin of the American Meteorological Society, 91(8):1059–1072, 2010. [9] James Bradbury, Roy Frostig, Peter Hawkins, Matthew James Johnson, Chris Leary, Dougal Maclaurin, George Necula, Adam Paszke, Jake VanderPlas, Skye Wanderman-Milne, and Qiao Zhang. JAX: composable transformations of Python+NumPy programs. http://github. com/google/jax, 2018. [10] WE Chapman, AC Subramanian, L Delle Monache, SP Xie, and FM Ralph. 機械学習で大気の川の予測を改善する。 [11] Tianqi Chen, Bing Xu, Chiyuan Zhang, and Carlos Guestrin. サブリニア・メモリコストで深いネットワークをトレーニングする. arXiv preprint arXiv:1604.06174, 2016. [12] Balaji Devaraju. Understanding filtering on the sphere: Experiences from filtering GRACE data. PhD thesis, University of Stuttgart, 2015. J. R. Driscoll and D. M. Healy. Computing fourier transforms and convolutions on the 2-sphere. コンピューティング・フォーイヤーの変換とコンボルチュエーション。 マタイ15(2):202-250、1994年6月。 [14] ECMWF. IFS文書 CY41R2 - Part III: Dynamics and numerical procedures. https: //www.ecmwf.int/node/16647, 2016年 [15] Meire Fortunato, Tobias Pfaff, Peter Wirnsberger, Alexander Pritzel, and Peter Battaglia. Multi-scale meshgraphnets. arXiv preprint arXiv:2210.00612, 2022. [16] Alan J Geer. 中間距離予測スコアにおける変化の重要性. Tellus A: Dynamic Meteorology and Oceanography, 68(1):30229, 2016. [17] Jonathan Godwin, Thomas Keck, Peter Battaglia, Victor Bapst, Thomas Kipf, Yujia Li, Kimberly Stachenfeld, Petar Veličković, and Alvaro Sanchez-Gonzalez. Jraph: A library for graph neural networks in JAX. http://github.com/deepmind/jraph, 2020. [18] T. Haiden, Martin Janousek, Jean-Raymond Bidlot, R. Buizza, L. Ferranti, F. Prates, and Frédéric Vitart. ECMWF予測の評価、2018年アップグレードを含む。 https://www.ecmwf. int/node/18746, 10/2018 2018. [19] トーマス・ハイデン、マーティン・ヤヌセック、フレデリック・ヴィタート、ジード・ベン・ボウアルレグ、ローラ・フェランティ、クリスティーナ・プラテス、デヴィッド・リチャードソン。2020年アップグレードを含むECMWF予測の評価。 https://www.ecmwf.int/node/19879, 01/2021 2021. [20] トーマス・ハイデン、マーティン・ヤヌセック、フレデリック・ヴィタート、ジード・ベン・ブアレグ、ローラ・フェランティ、フェルナンド・プラテス ECMWF予測の評価、2021年アップグレードを含む。 https://www. ecmwf.int/node/20142, 09/2021 2021. [21] トーマス・ハイデン、マーティン・ヤヌセック、フレデリック・ヴィタート、ジード・ベン・ボウアルレグ、ローラ・フェランティ、フェルナンド・プラツ、デヴィッド・リチャードソン。 2021年アップグレードを含むECMWF予測の評価。 https://www.ecmwf.int/node/20469, 09/2022 2022. [22] トーマス・ハイデン、マーティン・ヤヌセック、フレデリック・ヴィタート、ローラ・フェランティ、フェルナンド・プラッツ。2019年のアップグレードを含むECMWF予測の評価 https://www.ecmwf.int/node/ 19277, 11/2019 2019. [23] Tom Hennigan, Trevor Cai, Tamara Norman, and Igor Babuschkin. Haiku: Sonnet for JAX. http://github.com/deepmind/dm-haiku, 2020. [24] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. ERA5のグローバルな再分析. 王立気象学会の四半期誌, 146(730):1999–2049, 2020。 [25] S. Hoyer and J. Hamman. xarray: N-D labeled arrays and datasets in Python. Journal of Open Research Software, 5(1), 2017. [26] ライアン・ケイスラー.グローバル天気予報グラフニューラルネットワーク. arXiv preprint arXiv:2202.07575, 2022. [27] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014. [28] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. International best track archive for climate stewardship (IBTrACS) project, version 4. https://doi.org/10.25921/82ty-9e16, 2018. [29] Kenneth R Knapp, Michael C Kruk, David H Levinson, Howard J Diamond, and Charles J Neumann. The international best track archive for climate stewardship (IBTrACS) unifying tropical cyclone data. Bulletin of the American Meteorological Society, 91(3):363–376, 2010. [30] Michael C Kruk, Kenneth R Knapp, and David H Levinson. A technique for combining global tropical cyclone best track data. Journal of Atmospheric and Oceanic Technology, 27(4):680–692, 2010. [31] David H Levinson, Howard J Diamond, Kenneth R Knapp, Michael C Kruk, and Ethan J Gibney. Towards a homogeneous global tropical cyclone best-track dataset. Bulletin of the American Meteorological Society, 91(3):377-380, 2010. [32] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal, and Jason Hickey. Global extreme heat forecasting using neural weather models. Artificial Intelligence for the Earth Systems, pages 1–41, 2022. [33] イリア・ロシチロフとフランク・ハッター. 重量崩壊の規則化を切り離した. arXiv preprint arXiv:1711.05101, 2017. [34] Linus Magnusson. 202208 - heatwave - uk. https://confluence.ecmwf.int/display/ FCST/202208+-+Heatwave+-+UK, 2022. [35] Linus Magnusson、Thomas Haiden、 and David Richardson. Verification of extreme weather events: Discrete predictands. European Centre for Medium-Range Weather Forecasts, 2014. [36] S. Malardel、Nils Wedi、Willem Deconinck、Michail Diamantakis、Christian Kuehnlein、 G. Mozdzynski, M. Hamrud, and Piotr Smolarkiewicz. A new grid for the IFS. HTTPS: //www.ecmwf.int/node/17262 2016年 [37] Benjamin J Moore, Paul J Neiman, F Martin Ralph, and Faye E Barthold. Physical processes associated with heavy flooding rainfall in Nashville, Tennessee, and the vicinity during 1–2 May 2010: The role of an atmospheric river and mesoscale convective systems. Monthly Weather Review, 140(2):358–378, 2012. [38] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist, and Michael D Dettinger. Meteorological characteristics and overland precipitation impacts of atmospheric rivers affecting the West Coast of North America based on eight years of ssm/i satellite observations. Journal of Hydrometeorology, 9(1):22-47, 2008. [39] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez, and Peter Battaglia. Learning mesh-based simulation with graph networks. In International Conference on Learning Representations, 2021. [40] Prajit Ramachandran, Barret Zoph, and Quoc V Le. Searching for activation functions. arXiv preprint arXiv:1710.05941, 2017. [41] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid, and Nils Thuerey. WeatherBench: a benchmark data set for data-driven weather forecasting. Journal of Advances in Modeling Earth Systems, 12(11):e2020MS002203, 2020 [42] Takaya Saito and Marc Rehmsmeier. The precision-recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PloS one, 10(3):e0118432, 2015. [43] Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec, and Peter Battaglia. Learning to simulate complex physics with graph networks. In International Conference on Machine Learning, pages 8459–8468. PMLR, 2020. [44] B. D. Santer、R. Sausen、T. M. L. Wigley、J. S. Boyle、K. AchutaRao、C. Doutriaux、J. E. Hansen、 G. A. Meehl, E. Roeckner, R. Ruedy, G. Schmidt, and K. E. Taylor. Tropopause height and atmospheric temperature behavior in models, reanalyses, and observations: Decadal changes. Journal of Geophysical Research: Atmospheres, 108(D1):ACL 1–1–ACL 1–22, 2003. [45] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M Hamill, Tim D Hewson, Julia H Keller, Mio Matsueda, John Methven, Florian Pappenberger, et al. The TIGGE project and its achievements. Bulletin of the American Meteorological Society, 97(1):49–67, 2016. [46] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson, and Munehiko Yamaguchi. The TIGGE project and its achievements. 米国気象学会のニュース, 97(1):49 – 67, 2016. ハーヴェイ・トゥルム・テイラー、ビル・ウォード、マーク・ウィリス、ウォルト・ザレスキー ザフィール・シンプソン・ハリケーン風のスケール 大気管理:ワシントンDC、アメリカ、2010年 [48] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. 神経情報処理システムの進歩, 2017年30日 [49] Petar Veličković, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio, and Yoshua Bengio. Graph attention networks. arXiv preprint arXiv:1710.10903, 2017. この論文は、CC by 4.0 Deed (Attribution 4.0 International) ライセンスの下で archiv で利用できます。 この紙は CC by 4.0 Deed (Attribution 4.0 International) ライセンス ARCHIV で利用可能