著者: Remi Lam (Google DeepMind) Alvaro Sanchez-Gonzalez (Google DeepMind) Matthew Willson (Google DeepMind) Peter Wirnsberger (Google DeepMind) Meire Fortunato (Google DeepMind) Ferran Alet (Google DeepMind) Suman Ravuri (Google DeepMind) Timo Ewalds (Google DeepMind) Zach Eaton-Rosen (Google DeepMind) Weihua Hu (Google DeepMind) Alexander Merose (Google Research) Stephan Hoyer (Google Research) George Holland (Google DeepMind) Oriol Vinyals (Google DeepMind) Jacklynn Stott (Google DeepMind) Alexander Pritzel (Google DeepMind) Shakir Mohamed (Google DeepMind) Peter Battaglia (Google DeepMind) 著者: レミ・ラム(Google DeepMind) アルバロ・サンチェス・ゴンザレス(Google DeepMind) マシュー・ウィルソン(Google DeepMind) ピーター・ウィーンズバーガー(Google DeepMind) Meire Fortunato (Google DeepMind) フェラン・アレット(Google DeepMind) スーマン・ラウリ(Google DeepMind) ティモ・エヴァルドス(Google DeepMind) ザック・イーサン・ローゼン(Google DeepMind) グーグル・ディープミンド(Google DeepMind) アレクサンダー・メロス(Google Research) ステファン・ホイヤー(Google Research) ジョージ・ホランド(Google DeepMind) オリオール・ヴィニアル(Google DeepMind) ジャックリン・ストット(Google DeepMind) アレクサンダー・プリッツェル(Google DeepMind) シャキール・モハメド(Google DeepMind) ピーター・バタグリア(Google DeepMind) 伝統的な数値天気予報は、予測の正確性を向上させるために増加したコンピューティングリソースを使用しますが、歴史的な天気データを直接使用してベースのモデルを改善することはできません。我々は「GraphCast」と呼ばれる機械学習ベースの方法を導入し、再分析データから直接訓練することができます。それは、10日間で0.25°の解像度で世界中で、1分以内に数百の天気変数を予測します。我々は、GraphCastが1380の検証目標の90%で最も正確な運用決定システムを大幅に上回ることを示し、その予測は、熱帯のサイクロン、大気の川、および極端な温度を含む深刻なイベントの予測をよりよくサポートします。 キーワード: Weather forecasting, ECMWF, ERA5, HRES, learning simulation, graph neural networks 導入 2022年10月中旬に5時45分、イタリアのボローニャで、ECMWF(European Centre for Medium-Range Weather Forecasts)の新ハイパフォーマンスコンピューティング施設が稼働を開始しました。過去数時間にわたり、統合予測システム(IFS)は、今後数日と数週間で地球の天候を予測するための高度な計算を実行し、最初の予測がユーザーに配信され始めたばかりです。 IFSと現代の天気予報は、より一般的に、科学とエンジニアリングの勝利です。天気システムのダイナミクスは、地球上で最も複雑な物理的現象の一つであり、毎日、個人、産業、および政策立案者によって行われる無数の決定は、正確な天気予報に依存し、ジャケットを着用するか危険な嵐を逃れるかどうかを決定することからです。今日の天気予報の主なアプローチは「数値天気予報」(NWP)であり、これはスーパーコンピュータを使用して天気の支配的方程式を解決することを含みます。 NWPの成功は、天気予報の正確さが年々増加し、表面、気温、または多くのハリケーンの But while traditional NWP scales well with compute, its accuracy does not improve with increasing amounts of historical data. There are vast archives of weather and climatological data, e.g. ECMWF’s MARS [17], but until recently there have been few practical means for using such data to directly improve the quality of forecast models. Rather, NWP methods are improved by highly trained experts innovating better models, algorithms, and approximations, which can be a time-consuming and costly process. 機械学習ベースの天気予測(MLWP)は、予測モデルが歴史的データから直接訓練されている従来のNWPに代替を提供します。これは、明確な方程式で容易に表現されないデータのパターンやスケールをキャプチャすることによって予測の正確性を向上させる可能性があります。 MLWPはまた、現代の深層学習ハードウェアではなくスーパーコンピュータを利用して、より有利なスピード精度の交換を起こすことによって、より高い効率性の機会を提供しています。最近、MLWPは、従来のNWPが比較的弱いレギュラーなレギュレーション、例えばシーズンの下の熱波予測 [16]および現在レーダー画像から降水を放出し、正確な IFS のような NWP ベースのシステムは依然として最も正確である中間範囲の天候予測、すなわち、10 日以内に大気の変数を予測する、中間範囲の天候予測(High Resolution Forecast (HRES) ECMWF)のコンポーネントであり、過去数年間に、中間範囲の予測のための MLWP メソッドは、天候ベンチのようなベンチマークによって促進され、安定的に進歩してきた。 IFS に基づいたグローバル 10 日間の予測を約 1 時間以内に生成する IFS の構成要素です。 変換神経ネットワーク [35, 36, 28] および変換機 [24] は、 1.0 度より広い緯度/長 グラフィック ここでは、グローバルの中間範囲の天気予報のための新しいMLWPアプローチ「GraphCast」を導入し、Google Cloud TPU v4デバイスで1分未満で正確な10日間の天気予報を生成し、熱帯のサイクロン、大気の川、および極端な気温を予測するアプリケーションを含むアプリケーションをサポートします。 GraphCast は、地球の天気の 2 つの最新の状態 - 現在の時間と 6 時間前 - を入力として取っており、次の天気の状態を 6 時間前に予測します. 単一の天気状態は、0.25°緯度/長さグリッド(721 × 1440)によって表され、これは赤道で約 28 × 28 キロの解像度に対応します (図 1a) 、各グリッドポイントは表面および大気の変数のセットを表します (表 1 に記載されています)。 GraphCast は「コード・プロセス・デコード」構成の GNN に基づくニューラル・ネットワーク・アーキテクチャとして実装され、合計 36.7 百万のパラメータを備えています。以前の GNN ベースの学習シミュレータ [31, 26] は、部分差異方程式によってモデル化された液体およびその他のシステムの複雑なダイナミクスを学習する上で非常に効果的であり、天候ダイナミクスのモデリングに適していることをサポートしています。 エンコーダー(図1d)は、入力グリッド上のノード属性として表される変数(ゼロ平均単位変数に正常化)をマップするために、単一のGNN層を使用して、内部の「マルチメッシュ」表示上の学習ノード属性を表します。 マルチメッシュ(図1g)は、地球上の高空間解像度で空間的に均一であるグラフです。それは、定期的なイコサヘドロン(12ノード、20面、30エッジ)を6回繰り返し精製することによって定義され、それぞれの精製は、それぞれの三角を4つの小さなものに分割します(4倍の顔とエッジにつながります)、そしてノードを球に再現します。 マルチメッシュは、最高解像度のメッシュから40962ノードを含み、中間グラフで作成されたすべてのエッジの連合を形成し、長さが異なるエッジの平らな層を形成します。 プロセッサ(図1e)は、16の非共有のGNN層を使用して、マルチメッシュで学習したメッセージ転送を実行し、数少ないメッセージ転送ステップで効率的なローカルおよび長距離の情報伝播を可能にします。 デコード(図1f)は、最終プロセッサ層の学習された機能を、マルチメッシュ表示から幅長グリッドに戻します。それは単一のGNN層を使用し、出力を最新の入力状態への残留更新として予測します(出力の正常化により、目標残りの単位変数を達成します)。 ECMWF の ERA5 [10] 再分析アーカイブから39年間(1979~2017)の歴史データを使用したモデル開発の過程で、訓練目標として、垂直レベルで重ねられた平均平方エラー (MSE) を平均しました。エラーは、GraphCast の予測状態と、N 自動回帰ステップを超える Corresponding ERA5 状態の間で計算されました。 N の値は、訓練の過程で 1 から 12 (すなわち 6 時間から 3 日) に増加しました。 モデル開発のための将来の情報が利用できない実際の展開シナリオと一致して、2018年以降のデータに基づいて GraphCast を評価しました(補足項 5.1 を参照)。 検証方法 GraphCast の予測スキルは、幅広い数の変数、レベル、およびリードタイムで HRES の精度と比較することで、グラフCast の予測スキルを総合的に検証します。 GraphCast が各グリッドポイントで予測した 227 つの変数とレベルの組み合わせの中で、WeatherBench[27] の 13 レベルと ECMWF Scorecard からの変数[9] に対応する 69 のレベルで HRES のスキルとスキルを評価しました; テーブル 1 とサプリメント セクション 1.2 の boldface 変数とレベルを参照してください. 評価期間中に HRES サイクルが稼働していました. 注: ERA5 降水データが偏見を認識しているため、全体降水は評価から除外します。 [15] メインテキストで報告された総合的なパフォーマンスに加えて、サプリメント セクション 7 では、他の変数、地域のパフォーマンス、緯度および圧 これらの比較に基づく2つの重要な選択肢は、スキルがどのように確立されているかである:(1)比較のための基礎真理の選択、および(2)データアシミレーションウィンドウの慎重な計算を使用してデータを観測に基づく。 GraphCast を評価するための基礎真理として ERA5 を使用するため、それは入力として ERA5 データを取るために訓練され、出力として ERA5 データを予測するためである。しかし、ERA5 に対する HRES 予測の評価は、初期予測ステップでゼロエラーを生じるだろう。代わりに、我々は、HRES のための基礎真理として使用するための「ステップ 0 での HRES 予測」 (HRES-fc0) データセットを構築しました。HRES ERA5とHRESのデータアシミレーションウィンドウの違いを慎重にコントロールする必要があります。毎日、HRESは、00z、06z、12zおよび18z(18zは18:00 UTCを意味する)に集中する4つの+/-3hウィンドウを使用して観測をアシミレートするが、ERA5は00zと12zに集中する2つの+9h/-3hウィンドウを使用する一方で、HRESは、6zと18zに集中する4つの+/-3hウィンドウを使用して観測をアシミレートする。我々は、6zと18zの初期化からGraphCastの予測を評価することを選択し、その入力が将来の観測の+3hから情報を運ぶことを保証し、HR 06z と 18z で初期化された HRES の予測は 3.75 日間のみ実行されます(HRES の 00z と 12z の初期化は 10 日間実行されます)。 予測検証結果 We find that GraphCast has greater weather forecasting skill than HRES when evaluated on 10-day forecasts at a horizontal resolution of 0.25° for latitude/longitude and at 13 vertical levels. GraphCastは、10日間の予測で水平解像度で0.25°の緯度/長さで13の垂直レベルで評価されたときに、より大きな天候予測能力を持っていることを発見します。 図2a〜cは、GraphCast(ブルーライン)が、RMSEスキル、RMSEスキルスコア(すなわち(RMSEA − RMSEB)/RMSEBとして定義されたモデルAとベースラインB間の正常化されたRMSEスキルスコア)、およびACCスキルで、z500(地理的に500hPaで)の「ヘッドライン」フィールドで、HRES(ブラックライン)をどのように上回るかを示しています。 z500を使用して、シノプティックスケール圧力分布をコードすることは、文学に一般的であるため、強力な気象学的重要性がある(27)。スコアは、GraphCastがすべてのリーブタイムでより良いスキルスコアを持っていることを示し、スキル 図2dは、ECMWFスコアカードと同様の形式で、10日間の予測を通じて、すべての1380の評価された変数と圧力レベルのためのRMSEスキルスコアを概要します。細胞の色はスキルスコアに比例し、ブルーはGraphCastがより良いスキルを持っていたことを示し、赤はHRESがより高いスキルを持っていたことを示します。 GraphCastは1380のターゲットの90.3%でHRESを上回り、大幅に(p ≤ 0.05,名称サンプルサイズn ∈ {729,730})ターゲットの89.9%でHRESを上回りました。 HRESがGraphCastよりも優れたパフォーマンスを有する大気圏の地域(スコアカードの赤いトップライン)は、ストラトスーファーに不比例に位置づけられ、トレーニング損失重量が最も低かった(サプリメントセクション7.2.2を参照)。50hPaレベルを除けば、GraphCastは残りの1280のターゲットの96.9%でHRESを著しく上回る。レベル50と100hPaを除けば、GraphCastは残りの1180のターゲットの99.7%でHRESを著しく上回る。 私たちは、MSE損失における自動回帰ステップの数を増加させることにより、より長いリードタイムでGraphCastのパフォーマンスが向上することを発見しました(サプリメントセクション7.3.2を参照)そして、空間的に滑らかな出力を予測することによってその不確実性を表明することを奨励し、より長いリードタイムでその予測を滑らかにすることを引き起こす(サプリメントセクション7.5.3を参照)。HRESの基礎的な物理的方程式は、しかし、バラバラな予測につながりません。HRESがその予測をバラバラにすることも許可されている場合、RMSのRMSのRMSのRMSの相対的な現実を最小化することにより、RMSのフィルター また、GraphCastのパフォーマンスを競合するMLベースの天気モデル、Pangu-Weather(4)と比較し、GraphCastが提示した252のターゲットの99.2%でそれを上回ったことを発見しました(詳細についてはサプリメントセクション6を参照)。 厳しい予測結果 Beyond evaluating GraphCast’s forecast skill against HRES’s on a wide range of variables and lead times, we also evaluate how its forecasts support predicting severe events, including tropical cyclones, atmospheric rivers, and extreme temperature. These are key downstream applications for which GraphCast is not specifically trained, but which are very important for human activity. tropical cyclone tracks トロピカルサイクロン Graphiveは、熱帯サイクロン予測の精度を改善することで、ケガや命の損失を回避し、経済的損害を減らすのに役立ちます [21]. サイクロンの存在、強さ、および軌道は、地潜(z)、水平風(10 U/10 v, U/v)および平均海面圧(MsL)の予測に追跡アルゴリズムを適用して予測することにより予測されます。 私たちは、ECMWFの公表されたプロトコル(20)に基づいて追跡アルゴリズムを実装し、それらをGraphCastの予測に適用し、サイクロン軌道予測を生み出します(サブレンド 8.1を参照)。 比較のためのベースラインとして、我々は、 図 3a は、GraphCast が 2018–2021 年間に HRES より平均的なトラックエラーを下回っていることを示しています。HRES と GraphCast のトラックごとのエラーが相関しているため、我々 はまた、2 つのモデル間のトラックごとの並列エラーの違いを測定し、GraphCast が 18 時間から 4.75 日間の HRES よりも大幅に優れていることを発見しました。 大気の川 大気圏の河川は、中間緯度の水蒸気輸送の大部分を占める大気圏の狭い領域であり、米国西海岸で年間降水量の30%から65%を生成する。その強さは、垂直に統合された水蒸気輸送 IvT によって特徴づけられる(23、22)、イベントが有益な降水を提供するかどうかを示すか、災害的損害と関連付けられるかどうかを示す(7)。 IvT は、空気の河川が最も頻繁である時期(10月~4月)で、北米沿岸および東太平洋における GraphCast の予測を評価します。 IvT は、大気圏の河川を特徴づけるために特別に訓練されていないにもかかわらず、図3c は、 Gra 極端な暑さと寒さ 極端な暑さと寒さは、典型的な気候学に関して大きな異常が特徴である19、16、18、それは危険であり、人間の活動を妨げる可能性があります。我々は、場所、時間、および月のトップ2%の気候学上のイベントを予測するためのHRESとGraphCastのスキルを評価し、12時間、5日、および10日、北半球および南半球を越えた陸地地域のための2Tの間、夏の間に。我々は正確な回想曲線[30]を構想し、偽のポジティブ(高精度)を減らすことと偽のネガティブ(高回想)を減らすことの間の異なる妥協を反映します。各予測のために、我々は2Tecastの予 図3dは、GraphCastの正確なリコール曲線が5日間および10日間のリードタイムのためのHRESを上回っていることを示しているため、GraphCastの予測は、一般的に、より長い視野で極端な分類でHRESよりも優れていることを示しています。対照的に、HRESは12時間のリードタイムでより良い正確なリコールを持っており、これはHRESの2Tスキルスコアがほぼゼロであると一致しています。 トレーニングデータの最近の影響 GraphCast は、定期的に最新のデータで再トレーニングすることができ、原則として、ENSO サイクルやその他の変動、気候変動の影響など、時間とともに変化する気象パターンをキャプチャすることを可能にします。GraphCast の 4 つのバージョンは、1979 年に始まりましたが、それぞれ 2017 年、2018 年、2019 年、2020 年に終了しました(2017 年に終わるバージョンは「GraphCast:<2018」など)と比較しました。 図4は、4つのバージョンのスキルスコア(GraphCast:<2018)とZ500のHRESを示しています。我々は、2018年以前までトレーニングされたGraphCastのパフォーマンスは、2021年にHRESと競争する一方で、2021年以前までトレーニングは、そのスキルスコアをさらに向上させます(サプリメントセクション7.1.3を参照)。 結論 GraphCast の予測スキルと HRES に比べての効率性は、MLWP メソッドが従来の天気予測メソッドと競争力を持っていることを示しています。さらに、深刻なイベント予測における GraphCast のパフォーマンスは、直接に訓練されていないため、その強力さと下流価値の可能性を示しています。 3670万のパラメータで、GraphCastは、メモリの足跡を処理可能に保つために選ばれた近代的なML基準の比較的小型モデルです。HRESが0.1°解像度、137レベル、および最大1時間のタイムステップでリリースされている一方で、GraphCastは、0.25°緯度長度解像度、37垂直レベル、および6時間のタイムステップで動作しました、ERA5トレーニングデータのネイティブ0.25°解像度、およびハードウェアに高い解像度のデータを組み込むエンジニアリングの課題のために。一般的に、GraphCastは、現在のバージョンが現行のエンジニアリングの制約下で実質的に適合できる 我々のアプローチの重要な制限の一つは、不確実性がどのように処理されるかである。我々は、決定的な予測に焦点を当て、HRESと比較したが、ECMWFのIFSのもう一つの柱、アンチエントリ予測システム(ENS)は、10日間の予測のための特に重要である。天候動態の非線形性は、より長いリードタイムで不確実性が増加していることを意味し、単一の決定的な予測によってうまく捉えられていない。ENSは、将来の天候の実験的分布をモデリングする複数のストーカスティックな予測を生成することによってこれを解決するが、しかし、複数の予測を生成することは高価である。対照的に、GraphCastのM 重要なことは、データ主導のMLWPは、NWPを通じてアシミュレートされた高品質のデータの大量に大きく依存し、ECMWFのMARSアーカイブのような豊富なデータソースが貴重であることを強調することです。したがって、私たちのアプローチは、数十年にわたって開発され、多くの現実世界の文脈で厳密にテストされ、まだ探検していない多くの機能を提供してきた伝統的な天候予測方法の代替として見なすべきではありません。 天気予報を超えて、GraphCastは、気候と生態学、エネルギー、農業、人間および生物活動、その他の複雑なダイナミックシステムなどの他の重要な地理空間時間予測の問題に新しい方向性を開くことができます。 データおよび材料の可用性 GraphCast のコードと訓練された重量は github で公開されています https://github.com/ deepmind/graphcast. この作品は、European Centre for Medium Range Forecasting (ECMWF) から公開されたデータを使用しています。Creative Commons Attribution が規制する ERA5, HRES および TIGGE 製品のための ECMWF アーカイブ (実時終了) 製品を使用します。 4.0 International (CC BY 4.0). We use IBTrACS Version 4 from https://www.ncei.noaa.gov/ products/international-best-track-archive and reference [13, 12] as required. The Earth texture in figure 1 is used under CC BY 4.0 from https://www.solarsystemscope.com/ textures/. 認定 Kelsey Allen, Charles Blundell, Matt Botvinick, Zied Ben Bouallegue, Michael Brenner, Rob Carver, Matthew Chantry, Marc Deisenroth, Peter Deuben, Marta Garnelo, Ryan Keisler, Dmitrii Kochkov, Christopher Mattern, Piotr Mirowski, Peter Norgaard, Ilan Price, Chongli Qin, Sébastien Racanière, Stephan Rasp, Yulia Rubanova, Kunal Shah, Jamie Smith, Daniel Worrall, and countless others at Alphabet and ECMWF for advice and feedback on our work. We also thank ECMWF for providing invaluable datasets to the research community. The style of the opening paragraph was inspired by D. Fan et al., Science Robotics, 4 (36), (2019). 参照 [1] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Relational inductive biases, deep learning, and graph networks. arXiv preprint arXiv:1806.01261, 2018. [2] P. Bauer, A. Thorpe, and G. Brunet. The Quiet Revolution of Numerical Weather Prediction. Nature, 525, 2015 [3] Stanley G Benjamin, John M Brown, Gilbert Brunet, Peter Lynch, Kazuo Saito, and Thomas W Schlatter. 100年もの予測とNWPアプリケーションの進歩。 [4] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu, and Qi Tian. Pangu-Weather: A 3D high-resolution model for fast and accurate global weather forecast. arXiv preprint arXiv:2211.02556, 2022. [5] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. The THORPEX interactive grand global ensemble. Bulletin of the American Meteorological Society, 91(8):1059–1072, 2010. [6] WE Chapman, AC Subramanian, L Delle Monache, SP Xie, and FM Ralph. 機械学習で大気の川の予測を改善する。 [7] Thomas W Corringham、F Martin Ralph、Alexander Gershunov、Daniel R Cayan、Cary A Talbot. 大気の川が米国の西部で洪水の被害を引き起こす。科学の進歩, 5(12):eaax4631, 2019. [8] Lasse Espeholt, Shreya Agrawal, Casper Sønderby, Manoj Kumar, Jonathan Heek, Carla Bromberg, Cenk Gazen, Rob Carver, Marcin Andrychowicz, Jason Hickey, et al. 十二時間の降水予測のための深い学習. 自然コミュニケーション, 13(1):1-10, 2022. [9] T Haiden, Martin Janousek, J Bidlot, R Buizza, Laura Ferranti, F Prates, and F Vitart. Evaluation of ECMWF forecasts, including the 2018 upgrade. European Centre for Medium Range Weather Forecasts Reading, UK, 2018. [10] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. The ERA5 global reanalysis. Quarterly Journal of the Royal Meteorological Society, 146(730):1999–2049, 2020。 [11] ライアン・ケイスラー.グローバル天気予報グラフニューラルネットワーク. arXiv preprint arXiv:2202.07575, 2022. [12] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. International best track archive for climate stewardship (IBTrACS) project, version 4. https: //doi.org/10.25921/82ty-9e16, 2018年 [13] Kenneth R Knapp, Michael C Kruk, David H Levinson, Howard J Diamond, and Charles J Neumann. The international best track archive for climate stewardship (IBTrACS) unifying tropical cyclone data. Bulletin of the American Meteorological Society, 91(3):363–376, 2010. [14] Thorsten Kurth, Shashank Subramanian, Peter Harrington, Jaideep Pathak, Morteza Mardani, David Hall, Andrea Miele, Karthik Kashinath, and Animashree Anandkumar. FourCastNet: Adaptive fourier neural operators to accelerate global high-resolution weather forecasting. arXiv preprint arXiv:2208.05419, 2022. [15] David A Lavers, Adrian Simmons, Freja Vamborg, and Mark J Rodwell. An evaluation of ERA5 precipitation for climate monitoring. Quarterly Journal of the Royal Meteorological Society, 148(748):3152–3165, 2022. [16] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal, and Jason Hickey. Global extreme heat forecasting using neural weather models. Artificial Intelligence for the Earth Systems, pages 1–41, 2022. [17] マッサン・マッサンとエスペランザ・クアーテロ. MARS ユーザ文書. https://confluence. ecmwf.int/display/UDOC/MARS+user+documentation, 2022. [18] Linus Magnusson. 202208 - heatwave - uk. https://confluence.ecmwf.int/display/ FCST/202208+-+Heatwave+-+UK, 2022. [19] Linus Magnusson、Thomas Haiden、 and David Richardson. Verification of extreme weather events: Discrete predictands. European Centre for Medium-Range Weather Forecasts, 2014. [20] Linus Magnusson, Sharanya Majumdar, Rebecca Emerton, David Richardson, Magdalena Alonso-Balmaseda, Calum Baugh, Peter Bechtold, Jean Bidlot, Antonino Bonanni, Massimo Bonavita, et al. ECMWFにおける熱帯サイクロン活動. ECMWF 技術メモラル, 2021. [21] アンドリュー・B・マーティネス. ハリケーン被害の予測精度が重要です. エコノメトリック, 8(2):18, 2020. [22] Benjamin J Moore, Paul J Neiman, F Martin Ralph, and Faye E Barthold. Physical processes associated with heavy flooding rainfall in Nashville, Tennessee, and the vicinity during 1–2 May 2010: The role of an atmospheric river and mesoscale convective systems. Monthly Weather Review, 140(2):358-378、2012 [23] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist, and Michael D Dettinger. Meteorological characteristics and overland precipitation impacts of atmospheric rivers affecting the West Coast of North America based on eight years of ssm/i satellite observations. Journal of Hydrometeorology, 9(1):22-47, 2008. [24] Tung Nguyen, Johannes Brandstetter, Ashish Kapoor, Jayesh K Gupta, and Aditya Grover. ClimaX: A foundation model for weather and climate. arXiv preprint arXiv:2301.10343, 2023. [25] Jaideep Pathak, Shashank Subramanian, Peter Harrington, Sanjeev Raja, Ashesh Chattopad-hyay, Morteza Mardani, Thorsten Kurth, David Hall, Zongyi Li, Kamyar Azizzadenesheli, et al. Fourcastnet: A global data-driven high-resolution weather model using adaptive fourier neural operators. arXiv preprint arXiv:2202.11214, 2022. [26] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez, and Peter Battaglia. Learning mesh-based simulation with graph networks. In International Conference on Learning Representations, 2021. [27] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid, and Nils Thuerey. WeatherBench: a benchmark data set for data-driven weather forecasting. Journal of Advances in Modeling Earth Systems, 12(11):e2020MS002203, 2020 [28] Stephan Rasp and Nils Thuerey. Data-driven medium-range weather prediction with a resnet pretrained on climate simulations: A new model for weatherbench. Journal of Advances in Modeling Earth Systems, 13(2):e2020MS002405, 2021. [29] Suman Ravuri, Karel Lenc, Matthew Willson, Dmitry Kangin, Remi Lam, Piotr Mirowski, Megan Fitzsimons, Maria Athanassiadou, Sheleem Kashem, Sam Madge, et al. Skilful precipitation nowcasting using deep generative models of radar. Nature, 597(7878):672–677, 2021. [30] Takaya Saito and Marc Rehmsmeier. The precision-recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PloS one, 10(3):e0118432, 2015. [31] Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec, and Peter Battaglia. Learning to simulate complex physics with graph networks. In International Conference on Machine Learning, pages 8459–8468. PMLR, 2020. [32] Xingjian Shi, Zhihan Gao, Leonard Lausen, Hao Wang, Dit-Yan Yeung, Wai-kin Wong, and Wang-chun Woo. Deep learning for precipitation nowcasting: A benchmark and a new model. Advances in neural information processing systems, 30, 2017. [33] Casper Kaae Sønderby, Lasse Espeholt, Jonathan Heek, Mostafa Dehghani, Avital Oliver, Tim Salimans, Shreya Agrawal, Jason Hickey, and Nal Kalchbrenner. Metnet: precipitation forecasting for a neural weather model. arXiv preprint arXiv:2003.12140, 2020. [34] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson, and Munehiko Yamaguchi. The TIGGE project and its achievements. Bolletin of the American Meteorological Society, 97(1):49 – 67, 2016. [35] Jonathan A Weyn, Dale R Durran, and Rich Caruana. Machine can learn to predict weather? Using deep learning to predict gridded 500-hPa geopotential height from historical weather data. Journal of Advances in Modeling Earth Systems, 11(8):2680–2693, 2019. [36] Jonathan A Weyn, Dale R Durran, and Rich Caruana. Improving data-driven global weather prediction using deep convolutional neural networks on a cubic sphere. Journal of Advances in Modeling Earth Systems, 12(9):e2020MS002109, 2020. 1.データ このセクションでは、GraphCast(サプリメントセクション1.1)の訓練と評価に使用したデータ、NWP基準HRESの予測を定義するデータ、およびHRES-fc0の概要を紹介します(サプリメントセクション1.2)最後に、熱帯サイクロン分析(セクション1.3)で使用されるデータを説明します。 ECMWFのデータアーカイブとIBTrACSのサブセットからなる複数のデータセットを訓練および評価のために構築しました(29, 28)。我々は一般的に「アーカイブ」または「アーカイブデータ」と呼ばれるソースデータと、これらのアーカイブから構築したデータセットとを区別します。 1.1. ERA5 GraphCast のトレーニングと評価のために、私たちは ECMWF の ERA5 [24]1 アーカイブのサブセットからデータセットを構築しました、これは、1959 年から現在まで、0.25° 緯度/長度解像度で、および1 時間の増加で世界的な天候を表す大きなデータのコルプスです。 ERA5 アーカイブは、再分析に基づいており、ECMWF の HRES モデル (サイクル 42r1) を使用して、 ECMWF の 4D-Var データアシミレーション システム内で、2016 年の大部分 (表 3 を参照してください) 運用されています。 当社のERA5データセットには、ECMWFのERA5アーカイブ(表2)に含まれる可用変数のサブセットが含まれています: 37の圧力レベル2: 1, 2, 3, 5, 7, 10, 20, 30, 50, 70, 100, 125, 150, 175, 200, 225, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 775, 800, 825, 850, 875, 900, 925, 950, 975, 1000 hPa. 含まれた年数は1979-01-01から2022-01-10までで、これらは6時間の間隔にサンプルされた(毎日の00z, 06z, 12zおよび 18zに対応する)。 1.2 ヒロイン HRESモデルベースラインを評価するには、2つの別々のデータセット、すなわち予測データと地上の真実データが必要であり、これらは次のサブセクションでまとめられています。 HRESは一般に、世界で最も正確なNWPベースの気象モデルと考えられていますので、HRESの基準を評価するために、私たちはHRESのアーカイブされた歴史的予測のデータセットを構築しました。HRESはECMWFによって定期的に更新されていますので、これらの予測は、予測が行われた時点で最新のHRESモデルを表しています。予測は、それらのネイティブな表現(球体調和と十八角縮小ガウシアグリッド、TCo1279 [36])を使用してダウンロードされ、およそ0.1°緯度/長さの解像度に対応しています。 HRES operational forecasts 次に、ECMWFのMetviewライブラリを使用して、0.25°の緯度/長さグリッド(ERA5の解像度に匹敵する)に予測を空間的にサンプルダウンしました。私たちは6時間の間隔にそれらを時間的にサンプルダウンしました。HRES予測の2つのグループがあります:00z/12zで初期化され、10日間の地平線でリリースされ、3.75日間の地平線でリリースされる06z/18zで初期化されたもの。 ECMWFのHRES運用予測アーカイブに基づいて「HRES-fc0」という地上の真実データセットを構築して、HRES運用予測のスキルを評価するために、このデータセットは、初期化時刻00z、06z、12z、および18zの各HRES予測の初期段階を含みます(図5を参照)。HRES-fc0データはERA5データと似ていますが、最新のECMWFNWPモデルを使用して予測時点でアシミュレートされますが、および当該日付および時刻の周囲に約3時間の観測をアシミュレートします。注:ECMWFはまた、HRES-fc0データセットと異なる「HRES分析」データの HRES-fc0 850hPa(z850)と925hPa(z925)の変数地質潜在力に関するECMWF HRESアーカイブの値の非常に小さなサブセットは数値(NaN)ではありません。これらのNaNは、2016年から2021年までの範囲および予測時間にわたって均一に分布しているように見えます。 これは、z850のピクセルの約0.00001%を占めています(1ピクセルは10個1440 x 721の緯度フレーム毎に1ピクセル)、z925のピクセルの0.00000001%を占めています(1ピクセルは1万1440 x 721の緯度フレーム毎に1ピクセル)およびパフォーマンスに測定可能な影響はありません。比較を容易にするために、我々はこれらの HRES NaN handling 1.3 熱帯サイクロンデータセット 熱帯サイクロン予測の分析のために、我々はIBTrACS(28, 29, 31, 30)アーカイブを使用して地上の真実データセットを構築しました。これは、約12の権威ある情報源からの歴史的なサイクロンのトラックを含みます。それぞれのトラックは6時間の間隔(00z、06z、12z、18z)で、それぞれのタイムステップは、その時点で相応のサファイア・シンプソン・カテゴリとその他の関連する気象学的特徴と共に、緯度/長さの座標でサイクロンの目を表しています。 HRES ベースラインのために、私たちは TIGGE アーカイブを使用して、運用トラッカーで推定されたサイクロン トラックを HRES の 0.1 度の解像度 [8, 46] の予測から提供しました。データは、 https://confluence.ecmwf.int/display/TIGGE/Tools でダウンロード可能な XML ファイルとして保存されています。データを、さらなるプロセスおよび分析に適した形式に変換するために、私たちは、興味のある年のサイクロン トラックを抽出するパッサーを実装しました。 XML ファイルの関連するセクション (タグ) は「予測」のタイプのものですが、通常は、異なる初期予測時間に対応する複数のトラックが含まれています。これらのタグでは、サイクロン トラッカーアルゴリズムと結果の詳細については、セクション 8.1 を参照してください。 2. Notation と Problem Statement このセクションでは、紙全体で有用なタイムノートの使用を定義します(セクション2.1)、我々が取り扱う一般的な予測問題を公式化します(セクション2.2)、そして我々が天候の状態をモデルする方法を詳細に説明します(セクション2.3). 2.1 タイムノート 予測に使用される時刻表記は、いくつかの異なる時刻シンボルを含む混乱を引き起こす可能性があります、例えば、初期予測時間、有効時間、予測地平線などを表すため、我々は明確さとシンプルさのためにいくつかの標準化された用語および表記を導入します。我々は時間の特定の点を「日付時刻」として参照し、カレンダーの日付とUTC時間で表します。例えば、2018-06-21_18:00:00は2018年6月21日を意味します、18:00 UTCです。短い意味では、我々は時々、Zulu条約、すなわち00z、06z、12z、18zは00:00、6:00、 12:00、 18:00 UTCを意味します。 t: 予測時間ステップ指数は、予測が初期化されて以来のステップ数をインデックスします。 T:予測地平線は、予測段階の合計数を表します。 d: 有効時間は、特定の気象状態の日付時刻を示す。 d0: 予測の初期化時間、予測の初期入力の有効期限を示す。 Δd: 予測段階の期間、予測段階でどれだけの時間が経過するかを示す。 τ: 予測の流れ時間を表す予測時間(すなわち、 τ = tΔd)。 2.一般予測問題の発言 現実の天気の時間の進化は、次の時段(未来のΔd)に基づく状態を生成する底にある差異的な時間ダイナミクス関数(Φ)によって表されることができ、すなわち、 Zd+Δd = Φ(Zd)です。 われわれの目標は、一定の予測地平線、TΔdを超える天気の状態を効率的に予測できる正確かつ効率的な動態機能のモデル、 φ を見つけることである。我々は、我々が直接 Zd を観測することはできないと仮定するが、代わりに一部の観測 Xd しか持たない、これは天気を完璧に予測するために必要な状態情報の不完全な表現である。 Xd−Δd , Xd−2Δd , ...、Xdに加えて、モデルは、原則として、この追加の文脈情報を活用して、Zdをより正確に近づけることができます。 方程式(1)と同様に、X ̈d+Δdの予測は、完全な予測を自動回帰的に生成するために φ に戻すことができます。 われわれは、予測された軌道、X ̈d+Δd:d+T Δd が、地上真理軌道、Xd+Δd:d+TΔd にどのように合致するかを定量化することで、 φ の予測の質、あるいはスキルを評価する。しかし、Xd+Δd:d+TΔd が、観測されていない Zd+Δd:d+TΔd 自身の観測にのみ含まれていることを再び強調することが重要である。 第5節で明確に述べられている。 In our work, the temporal resolution of data and forecasts was always Δ𝑑 = 6 hours with a maximum forecast horizon of 10 days, corresponding to a total of 𝑇 = 40 steps. Because Δ𝑑 is a constant throughout this paper, we can simplify the notation using (𝑋𝑡, 𝑋𝑡+1, . . . , 𝑋𝑡+𝑇 ) instead of (𝑋𝑑, 𝑋𝑑+Δ𝑑 , . . . , 𝑋𝑑+𝑇Δ𝑑 ), to index time with an integer instead of a specific date-time. ECMWF天気データのモデリング モデルの訓練および評価のために、当社の ERA5 データセットは、表面および大気の気象状態の地上真実表示として扱います。 私たちのデータセットでは、ERA5気象状態Xtは、表2のすべての変数を含み、0.25°横幅長さ解像度で、合計721 × 1440 = 1.038, 240グリッドポイントと37垂直圧力レベルを含みます。大気変数はすべての圧力レベルで定義され、(水平)グリッドポイントのセットはG0.25◦ = {−90.0、 −89.75, . . . . , 90.0} × {−179.75, −179.5, . . . , 180.0}。これらの変数は、短い名前(および大気変数のための圧力レベル)によってユニークに識別されています。例えば、表面変数「2メートル」は2Tで示されます。500hPaレベルでの大気変数「 これらのすべての変数から、私たちのモデルは、合計227のターゲット変数のために5つの表面変数と6つの大気変数を予測します。私たちのモデルの入力コンテキストとして、いくつかの他の静的および/または外部変数も提供されました。これらの変数は、表1と表2に示されています。 Xt の変数のサブセットを xt として特定のグリッドポイント i (1,038,240 合計) に対応し、227 個のターゲット変数の各変数 j を xt として参照します。 したがって、完全な状態表示 Xtii, j には 721 × 1440 × (5 + 6 × 37) = 235, 680, 480 の値が含まれています。 3. GraphCast モデル This section provides a detailed description of GraphCast, starting with the autoregressive generation of a forecast (Section 3.1), an overview of the architecture in plain language (Section 3.2), followed by a technical description of all the graphs defining GraphCast (Section 3.3), its encoder (Section 3.4), processor (Section 3.5), and decoder (Section 3.6), as well as all the normalization and parameterization details (Section 3.7). 3.1. Generating a forecast GraphCast モデルは、Equation (2) で φ の役割を担って、2 つの連続入力状態に基づいて次のステップを予測する 1 ステップの学習シミュレータとして定義されています。 As in Equation (3), we can apply GraphCast iteratively to produce a forecast 任意の長さ、T. これは図1b、cで示されています 私たちは、初期の実験で、2つの入力状態が1より良いパフォーマンスを生み出し、そして3つが増加したメモリの足跡を正当化するのに十分に役立たなかったことを発見しました。 3.2. Architecture overview GraphCastのコアアーキテクチャは、GNNsを「コードプロセスデコード」構成(6)で使用しており、図1d、e、f. GNNベースの学習シミュレータは、液体や他の材料の複雑な物理的動力学を学習するのに非常に効果的であるため、その構造と計算は、学習した有限元素の解析者に類似している。GNNsの主要な利点は、入力グラフの構造が、学習されたメッセージを通じて表象のどの部分が相互作用するかを決定するものであり、任意の範囲での空間相互作用の任意のパターンを可能にします(43、39)。 GNNの任意の狭い相互作用をモデル化する能力を活用する方法は、GraphCastの内部の「マルチメッシュ」表示を導入することによって、メッセージを通過するいくつかのステップ内の長距離相互作用を可能にし、一般的に地球全体で均一な空間解像度を持っています。これは、グリッドポイントの不均一な分布を誘発する緯度長度グリッドと異なります。 私たちのマルチメッシュは、通常の icosahedron (12 ノードと 20 顔) を 6 回繰り返し分割して構築され、40962 ノードと最高解像度で 81,920 顔の icosahedral メッシュの等級を合計で取得しました。 私たちは、グロースメッシュ ノードがフィンメッシュ ノードのサブセットであるという事実を活用し、あらゆるレベルのマルチメッシュ イラストレーションのエッジを最高解像度のマルチメッシュに超えることを可能にしました。この手順は、複数のスケールで長い距離を橋渡しするグロースメッシュの複数のエッジを生み出し、地元の相互作用をキャプチャするフィンエッジ GraphCastのエンコーダー(図1d)は、最初の緯度長度グリッドから入力データを、マルチメッシュで学んだ機能にマッピングし、グリッドポイントからマルチメッシュに指向のエッジを持つGNNを使用します。プロセッサ(図1e)は、その後、16層深いGNNを使用して、マルチメッシュで学んだメッセージパッサングを実行し、長距離エッジによるスペース内の情報の効率的な拡散を可能にします。 エンコーダーとデコードは、原料データを正直線のグリッドで整理する必要はありませんし、任意のメッシュのような状態のディスクリテーションにも適用できます [1]. The general architecture builds on various GNN-based learned simulators which have been successful in many complex fluid systems and other physical domains [43, 39, 15]. Similar approaches were used in weather forecasting [26], with promising results. 単一の Cloud TPU v4 デバイスでは、GraphCast は 0.25 度の解像度、10 日間の予測(6 時間のステップ)を 60 秒未満で生成できます。比較として、ECMWF の IFS システムは 11.664 コアクラスターで動作し、0.1 度の解像度、10 日間の予測(最初の 90 時間の 1 時間のステップでリリースされ、93 ~ 144 時間の 3 時間のステップ、および 150 ~ 240 時間の 6 時間のステップ、約 1 時間のコンプート タイム [41] を生成します。 HRES のリリース詳細はこちらをご覧ください: https://www.ecmwf.int/en/forecasts/ datas 3. GraphCastのグラフ GraphCast は、「コードプロセスデコード」構成で GNN を使用して実装され、エンコーダーのマップ (表面および大気) は入力緯度長度グリッドで複数のメッシュに機能し、プロセッサは複数のメッシュで多くのメッセージ転送を実行し、デコードは複数のメッシュの機能を出力緯度長度グリッドに戻します(図 1 を参照)。 モデルは、次の段落で詳細に定義されたグラフG(VG、VM、EM、EG2M、EM2G)で動作します。 VG represents the set containing each of the grid nodes 𝑣G. Each grid node represents a vertical slice of the atmosphere at a given latitude-longitude point, 𝑖. The features associated with each grid node 𝑣G are vG,features = [x𝑡−1, x𝑡, f𝑡−1, f𝑡, f𝑡+1, c𝑖], where x𝑡 is the time-dependent weather state 𝑋𝑡 corresponding to grid node 𝑣G and includes all the predicted data variables for all 37 atmospheric levels as well as surface variables. The forcing terms f𝑡 consist of time-dependent features that can be computed analytically, and do not need to be predicted by GraphCast. They include the total incident solar radiation at the top of the atmosphere, accumulated over 1 hour, the sine and cosine of the local time of day (normalized to [0, 1)), and the sine and cosine of the of year progress (normalized to [0, 1)). The constants c𝑖 are static features: the binary land-sea mask, the geopotential at the surface, the cosine of the latitude, and the sine and cosine of the longitude. At 0.25° resolution, there is a total of 721 × 1440 = 1, 038, 240 grid nodes, each with (5 surface variables + 6 atmospheric variables × 37 levels) × 2 steps + 5 forcings × 3 steps + 5 constant = 474 input features. Grid nodes VM は、それぞれのメッシュノード vM を含むセットを表します。メッシュノードは、R に精製された icosahedral メッシュ MR. M0 は、単位半径 icosahedron (12 ノードと 20 三角形の顔) で、ポールに平行する顔(図 1g を参照)。 メッシュは、それぞれの三角形の顔を 4 つの小さな顔に分割し、それぞれのエッジの真ん中に追加のノードを生成し、新しいノードをユニット球に再プロジェクトします。 4 機能 vM 、各メッシュノード vM に関連する機能は、幅のコシナ、および長さのシニアおよびコシナを含みます。 GraphCast は、R Mesh nodes EMは、メッシュに接続されているメッシュノードの間で追加された二方向のエッジです。重要なことに、メッシュエッジは、すべてのレベルで、すなわち、最も優れたメッシュ、M6、およびM5、M4、M3、M2、M1およびM0のためのEMに追加されます。これは、精製プロセスがどのように機能するかによって単純です:Mr−1のノードは、常にMrのノードのサブセットです。したがって、より低い精製レベルで導入されたノードは、精製レベルにおけるすべての個々のメッシュの描写、および完全なマルチメッシュのためのグラフとして機能します。 Mesh edges 送信メッシュノードvMを受信者メッシュノードvMに接続する各エッジ eMでは、vM→vMエッジ機能 eMを構築し、メッシュノードのユニット領域上の位置を用いて機能します。これには、エッジのvM→vMのr長さと、送信ノードの3dポジションと受信ノードの間のベクトル差が、受信者のローカル座標システムで計算されます。受信者のローカル座標システムは、その受信ノードが長さ0に位置するまで、アシミュート角度を変更する回転を適用して計算されます。受信者も緯度0に位置するまで、ポーラー角度を変更する回転が続きます。この結果は、合計327,660メッシュ EG2Mは、送信ネットワークノードを受信ネットワークノードに接続する単方向のエッジです。エッジ eG2M vG→vMは、メッシュノードとグリッドノードの間の距離が、メッシュM6のエッジの長さの0.6倍(図1)より小さい場合に追加されます(図1)、これは各ネットワークノードが少なくとも1つのメッシュノードに接続されていることを保証します。 Grid2Mesh edges EM2Gは、送信メッシュノードを受信機グリッドノードに接続する単方向のエッジです。各グリッドポイントについては、それを含むメッシュM6の三角形面を見つけ、Form eM2G vM→vGのメッシュ2グリッドエッジを3つ追加し、グリッドノードをその面に隣接する3つのメッシュノードに接続します(図1を参照)。 eM2Gの特徴、機能は、メッシュ vM→vGのRエッジと同様に構築されています。この結果は、入力4つの機能を有する3114,720 Mesh2Gridエッジ(721 × 1440の緯度長さのグリッドポイントのそれぞれに接続されている3つのメッシュノード)です。 Mesh2Grid edges 4.コード エンコーダーの目的は、プロセッサのためのデータを隠れた表示に準備することであり、これは独占的にマルチメッシュ上で実行されます。 エンコーダーの一部として、私たちは最初に、グリッドノード、グリッドノード、グリッドエッジ、グリッドからグリッドエッジ、およびグリッドエッジのグリッドエッジのそれぞれの機能を5つのマルチレイヤーセンセプトロン(MLP)を使用して固定サイズのラテンスペースに埋め込んでいます。 Embedding the input features 次に、グリッドノードからグリッドノードに大気状態の情報を転送するために、我々はグリッドノードをグリッドノードに接続するGG2M(VG, VM, EG2M)グリッド2M二角形サブグラフの上に単一のメッセージを転送し、グリッドノードをグリッドノードに接続する。 Grid2Mesh GNN 次に、それぞれのメッシュノードは、そのメッシュノードに到達するすべてのエッジから情報を合計することによって更新されます。 グリッドノードの各ノードも更新されますが、グリッドノードはGrid2Meshサブグラフのいかなるエッジの受信者でもないため、アグレージなしで、 すべての3つの要素を更新した後、モデルは残留接続を含み、ノターションのシンプルさのために、変数を再割り当て、 5.プロセッサ The processor is a deep GNN that operates on the Mesh subgraph GM (VM, EM) which only contains the Mesh nodes and and the Mesh edges. Note the Mesh edges contain the full multi-mesh, with not only the edges of 𝑀6, but all of the edges of 𝑀5, 𝑀4, 𝑀3, 𝑀2, 𝑀1 and 𝑀0, which will enable long distance communication. Mesh GNN の 1 つのレイヤーは、隣接するノードの情報を使用して、まずそれぞれのメッシュエッジを更新する標準的な相互作用ネットワーク [5, 6] です。 Multi-mesh GNN 次に、それぞれのメッシュノードを更新し、そのメッシュノードに到達するすべてのエッジから情報を集計します。 そして、両方を更新した後、表示は残留接続で更新され、記述のシンプルさのために、また入力変数に再割り当てられる。 前項では、メッセージの単一層が伝わることを記述していますが、[43,39]に似たアプローチに従って、私たちはこの層を16回繰り返し適用し、各層のMLPsの未分割ニューラルネットワーク重量を使用しました。 3.6 デコード デコードの役割は、情報をグリッドに戻し、出力を抽出することです。 Grid2Mesh GNN と同様に、Mesh2Grid GNN は Mesh2Grid bipartite subgraph GM2G(VG, VM, EM2G) を通過する単一のメッセージを実行します。 Grid2Mesh GNN は Mesh2Grid GNN に機能的に相当しますが、Mesh2Grid エッジを使用して情報を反対方向に送信します。 Mesh2Grid GNN 次に、グリッドノードのそれぞれを更新し、そのグリッドノードに到達するすべてのエッジから情報を集計します。 この場合、メッシュノードはこの時点から役割を果たさないため、更新しません。 Here again we add a residual connection, and for simplicity of the notation, reassign the variables, this time only for the grid nodes, which are the only ones required from this point on: 最後に、グリッドノードのそれぞれのための予測 yi は、別の MLP を使用して生成されます。 Output function グリッドノードのすべての227の予測変数を含む。 [43, 39]と同様に、次の気象状態、X ̈t+1は、すべてのグリッドノードの入力状態にノードごとの予測、Y ̈tを加えると計算されます。 3.7 標準化とネットワークパラメータ化 Similar to [43, 39], we normalized all inputs. For each physical variable, we computed the per-pressure level mean and standard deviation over 1979–2015, and used that to normalize them to zero mean and unit variance. For relative edge distances and lengths, we normalized the features to the length of the longest edge. For simplicity, we omit this output normalization from the notation. Input normalization わたしたちのモデルが差を生成するため、Yt は、推論の過程で Xt に加え Xt+1 を生成するため、我々は、各変数の時間差 Yt = Xt+1 − Xt の圧力レベルの標準偏差統計を計算することによってモデルの出力を正常化しました。 Output normalization GraphCast 内部のニューラル ネットワークはすべて MLP で、1 つの隠された層と 512 つの隠れた外出層のサイズ(出力サイズが 227 である Decoder's MLP の最終層を除く)で、各グリッドノードの予測変数の数に匹敵します。 Neural network parameterizations 4.トレーニング詳細 This section provides details pertaining to the training of GraphCast, including the data split used to develop the model (Section 4.1), the full definition of the objective function with the weight associated with each variable and vertical level (Section 4.2), the autoregressive training approach (Section 4.3), optimization settings (Section 4.4), curriculum training used to reduce training cost (Section 4.5), technical details used to reduce the memory footprint of GraphCast (Section 4.6), training time (Section 4.7) and the software stacked we used (Section 4.8). 4.1 トレーニング分割 To mimic real deployment conditions, in which the forecast cannot depend on information from the future, we split the data used to develop GraphCast and data used to test its performance “causally”, in that the “development set” only contained dates earlier than those in the “test set”. The development set comprises the period 1979–2017, and the test set contains the years 2018–2021. Neither the researchers, nor the model training software, were allowed to view data from the test set until we had finished the development phase. This prevented our choices of model architecture and training protocol from being able to exploit any information from the future. Within our development set, we further split the data into a training set comprising the years 1979–2015, and a validation set that includes 2016–2017. We used the training set as training data for our models and the validation set for hyperparameter optimization and model selection, i.e., to decide on the best-performing model architecture. We then froze the model architecture and all the training choices and moved to the test phase. In preliminary work, we also explored training on earlier data from 1959–1978, but found it had little benefit on performance, so in the final phases of our work we excluded 1959–1978 for simplicity. 4.2 訓練の目的 GraphCast は、12 ステップの予測 (3 日間) で ERA5 ターゲットに対する客観的な機能を最小限に抑えるように訓練されました。 where τ ∈ 1 : Ttrain は、Ttrain の自動回帰段階に対応するリード タイムです。 d0 ∈ Dbatch は、トレーニングセット内の予測のバッチ内の予測初期化日時を表します。 j ∈ J は変数を指数し、大気変数は圧力レベルを指数します. E.g. J ={z1000, z850, . . . , 2 T, MsL}, i ∈ G0.25◦は、グリッド内の位置(緯度と長さ)の座標であり、 x ̈d0+τ および xd0+τ は、いくつかの変数レベル、場所、およびリードタイム、j、i j、i の予測およびターゲット値です。 s j は、時間差の変数レベルの逆変数、 wj は per-variable-level 損失重量です。 ai は、緯度とともに変化し、グリッド上の単位平均に正常化される、緯度と長さのグリッドセルの領域です。 単一のスカラル損失を構築するために、我々は、幅の長さ、圧力レベル、変数、 lead times、およびバッチサイズの平均を採取しました.We averaged across latitude-longitude axes, with a weight proportional to the latitude-longitude cell size (normalized to mean 1).We applied uniform averages across time and batch. 量 s = V hxt+1 − xt i −1 は、時間の差の変数値の変数値の逆変数推定であり、これらの量は、単位変数を単位変数に標準化することを目指しています。これらは、トレーニングデータから推定されました。その後、変数値の損失重量を適用しました、すなわち大気変数のために、我々は、レベル(単位平均に標準化)の圧力に比例した重量で、レベルを介して平均化しました。 図6aに示されているように、我々は密度のためのプロキシとしてここで圧力を使用しました [26]. 圧力レベルに適用される損失重量が50hPa以下であることに留意してください。 HRESは、グラフキャストよりも優れている傾向 4.3. Training on autoregressive objective 私たちのモデルの正確な予測を1ステップ以上にわたって行う能力を向上させるために、我々は、モデルの予測された次のステップが次のステップを予測するための入力として戻り込まれた自動回帰訓練体制を使用しました。 4. 最適化 トレーニング オブジェクト 機能は、グレディエント ダッシングを使用して、ミニ バッチで最小限に抑えられました。我々は、32 サイズのバッチのための ERA5 トレーニング データセットから、置き換えで、地上真実の軌道をサンプル化しました。我々は、パラメータ(beta1 = 0.9、beta2 = 0.95)で、AdamW 最適化器(33, 27)を使用しました。 4.5 トレーニングスケジュール トレーニングモデルは、3段階のカリキュラムを使用して実施され、学習率と自退的ステップの数が異なりました。最初の段階は1000段階の降下アップデートと、1段階の自退的ステップと線形的に0から1e−3に増加した学習率スケジュールで構成されていました(図7a)。第二段階は299,000段階の降下アップデートで構成され、再び1段階の自退的ステップと学習率スケジュールが0に戻って減少した(図7b)。第3段階は11,000段階の降下アップデートで構成され、自退的ステップの数は212から1000段階ごとに1に増加し、固定学習率は3e−7(図7 4.記憶の足跡を減らす クラウド TPU v4 デバイスの 32 GB に長い軌道 (12 つの自動回帰ステップ) を適合するために、私たちはモデルのメモリ足跡を減らすためにいくつかの戦略を使用します。第一に、我々はバッチパラレリズムを使用して、32 TPU デバイス(すなわち、デバイスごとに 1 つのデータポイント)にデータを配布します。第二に、我々は bfloat16 浮動ポイントの精度を使用して、アクティベーションによって取られるメモリを減らします(注:我々は、評価時にパフォーマンスメトリクスを計算するために完全精度の数値(すなわち float32)を使用します)。 4.7. Training time トレーニングスケジュールに従い、上記の通り、自動反応ステップの数を増やすことで、GraphCastのトレーニングは32台のTPUデバイスで約4週間かかりました。 4.8 ソフトウェアとハードウェアスタック JAX [9], Haiku [23], Jraph [17], Optax, Jaxline [4] と xarray [25] を使用して、私たちのモデルを構築し、訓練します。 5.検証方法 This section provides details on our evaluation protocol. Section 5.1 details our approach to splitting data in a causal way, ensuring our evaluation tests for meaningful generalization, i.e., without leveraging information from the future. Section 5.2 explains in further details our choices to evaluate HRES skill and compare it to GraphCast, starting from the need for a ground truth specific to HRES to avoid penalizing it at short lead times (Section 5.2.1), the impact of ERA5 and HRES using different assimilation windows on the lookahead each state incorporates (Section 5.2.2), the resulting choice of initialization time for GraphCast and HRES to ensure that all methods benefit from the same lookahead in their inputs as well as in their targets (Section 5.2.3), and finally the evaluation period we used to report performance on 2018 (Section 5.2.4). Section 5.3 provides the definition of the metrics used to measure skill in our main results, as well as metrics used in complementary results in the Supplements. Finally, Section 5.4 details our statistical testing methodology. 5.1 トレーニング、検証、テスト分割 テスト段階では、開発段階の終了時に凍結されたプロトコル(セクション 4.1)を使用して、それぞれ異なる期間にわたる4つのバージョンのGraphCastをトレーニングしました。 2018–2021, 2019–2021, 2020–2021および2021、それぞれ. また、これらの分裂は、モデルのバージョンを訓練するために使用されたデータと、そのパフォーマンスを評価するために使用されたデータの間の因果的分離を維持しました (図 8 を参照)。 ほとんどの結果は2018年に評価されました (すなわち、モデルが1979–2017に訓練された場合)、いくつかの例外を除いて。 サイクロン追跡実験のために、我々は、サイクロンがそれほど一般的ではないので2018–2021の結果を報告し、さらに年を含むサンプルサイズを増加します。 我々は、特定の年に最新バージョンの GraphCastを使用して予測します: GraphCast <2018 for 2018 for forecast, GraphC 5.2 GraphCastとHRESの比較 5.2.1 地上の真実データセットの選択 GraphCast は ERA5 データを予測するために訓練され、ERA5 データを入力として取るためにも、私たちは ERA5 を地上真理としてモデルを評価するために使用します。 HRES 予測は、HRES 分析に基づいて初期化されています。一般的に、モデルを自己分析に基づいて検証することは、最高のスキル評価を提供します(45)。 したがって、ERA5 地上真理に対する HRES 予測を評価するのではなく、これは、HRES 予測のゼロステップでさえゼロエラーが含まれることを意味しますが、私たちは、将来の初期化における HRES 予測の初期ステップを含む「HRES 予測ステップ 0」(HRES-fc0)のデータセット 5.2.2 アシミレーションウィンドウにおける平等な見直しの確保 グラフキャストとHRESのスキルを比較すると、ERA5とHRES-fc0のデータアシミレーションウィンドウの違いを制御するためにいくつかの選択をしました。 セクション1で説明したように、HRESは毎日、00z、06z、12z、18z(Zulu convention では18zが18:00 UTCを意味する)の4つの+/-3hウィンドウを使用して観測をアシミレートしますが、ERA5は00zと12zを中心に2つの+9h/-3hウィンドウを使用します、または同等の2つの+3h/-9hウィンドウを06zと18zに中心にしています。 図9を参照してください。 GraphCastの予測を06zと18zの初期化から評価 GraphCast のパフォーマンスは 06z/18z から初期化され、00z/12z から初期化されると、GraphCast はより大きな lookahead を含む状態から初期化され、より長い lead タイムで持続する顕著な改善を実現し、06z/18z から初期化評価の選択をサポートします。我々は評価するターゲットを選択する際に同じ論理を適用しました:我々は HRES と ERA5 の両方に 3h lookahead を含むターゲットのみを評価します。 atz と 18z の初期化の選択を考慮して、これは将来の 06z と 18z の分析タイムで 12 時間ごとに評価することに匹敵します。 実用的な例として、06z で初期化された Graph 5.2.3 Initialization and validity times-of-day の調整 上記のように、HRESとの公平な比較では、GraphCast を 06z および 18z の初期化を使用して評価する必要があり、および 12h の複数であるリードタイムで、有効期限も 06z および 18z であることを意味します。 最大 3.75 日までのリードタイムでは、 06z および 18z の初期化および有効期限を使用してアーカイブされた HRES 予測が利用可能であり、これらのリードタイムで GraphCast と同様の比較を行うためにこれらのリードタイムを使用します。 4日以上のリードタイムでは、アーカイブされたHRES予測は00zと12zの初期化のみで利用可能であり、12時間の複数のリードタイムは00zと12zの有効期限を意味します。 これらのグローバルで定義された RMSEs の比較では、日時差が HRES にわずかな利点を与えることを期待します。 図 11 では、リードタイムが 3.5 日まで、HRES RMSEs は、GraphCast が評価する 06z 時間と 18z 時間よりも、平均的に 00z と 12z の初期化/有効期限を超えて小さい傾向にあり、リードタイムが増加するにつれて差が減少し、06z/18z RMSEs は一般的に、00z/12z RMSE を上回る傾向にあるように見えますが、その 2% 以内です。 これらの差異は、より長いリードタイムで HRES を引き続き好み、それにもかかわらず小さいと見ることができますので、GraphCast が Whenever we plot RMSE and other evaluation metrics as a function of lead time, we indicate with a dotted line the 3.5 day changeover point where we switch from evaluating HRES on 06z/18z to evaluating on 00z/12z. At this changeover point, we plot both the 06z/18z and 00z/12z metrics, showing the discontinuity clearly. 5.2.4 評価期間 当社の主な結果のほとんどは、2018年(当社のテストセットから)に報告され、最初の予測初期化時間は2018-01-01_06:00:00 UTCで、最後の2018-12-31_18:00:00、または、より長いリードタイムでHRESを評価する場合、2018-01-01_00:00:00と2018-12-31_12:00:00。 5.3. Evaluation metrics We quantify the skillfulness of GraphCast, other ML models, and HRES using the root mean square error (RMSE) and the anomaly correlation coefficient (ACC), which are both computed against the models' respective ground truth data. The RMSE measures the magnitude of the differences between forecasts and ground truth for a given variable indexed by j and a given lead time τ (see Equation (20)). The ACC, Lj,τ , is defined in Equation (29) and measures how well predicts' differences from climatology, i.e., the average weather for a location and date, correlate with the ground truth's differences from climatology. For skill scores we use the normalized RMSE difference between model A and baseline B as (RMSEA − REB / RMSEB, and the normalized すべてのメトリクスは float32 精度を使用して計算され、変数のネイティブダイナミック範囲を使用して、正常化なしで報告されました。 . We quantified forecast skill for a given variable, 𝑥 𝑗, and lead time, 𝜏 = 𝑡Δ𝑑, using a latitude-weighted root mean square error (RMSE) given by Root mean square error (RMSE) どこ d0 ∈ Deval は、評価データセットの予測初期化日時を表します。 j ∈ J インデックス変数とレベル、例えば J = {z1000, z850, . . . , 2 T, MsL}、 • 𝑖 ∈ 𝐺0.25◦ are the location (latitude and longitude) coordinates in the grid, • x ̈d0 +τ および xd0 +τ は、いくつかの変数レベル、場所、およびリードタイムの予測およびターゲット値です。 J、I、I、I • ai は、緯度によって変化する緯度長度グリッド細胞の面積(グリッド上の単位平均に正常化)です。 WeatherBenchの条約に従うと、予測初期化に基づいて平均の中間の平方根を取り入れることによって、しかし、これは、平方根が最終平均にのみ適用される他の多くの文脈で、RMSEがどのように定義されているかとは異なっていることに注意します。 球体調和域内でフィルタリング、断片化、または分解される予測を含むすべての比較では、便利のために、我々はすべての手段を平方根の内部で取って、球体調和域内で直接RMSEsを計算します。 Root mean square error (RMSE), spherical harmonic domain. ここでf ̈d0 +τ と f ̈d0 +τ は、合計波数 j,l,m j,l,m を持つ球状調和子の予測およびターゲット コエフェクティブである。 𝑙 and longitudinal wavenumber 𝑚. We compute these coefficients from grid-based data using a discrete spherical harmonic transform [13] with triangular truncation at wavenumber 719, which was chosen to resolve the 0.25° (28km) resolution of our grid at the equator. This means that 𝑙 ranges from 0 to 𝑙𝑚𝑎𝑥 = 719 and 𝑚 from −𝑙 to 𝑙. この RMSE は、方程式 21 で与えられた RMSE のグリッドベースの定義に近づいていますが、部分的に波数 719 の三角形トランクションがポール近くの平角形グリッドの追加解像度を解決しないため、正確に比較可能ではありません。 これは、RmSEの方程式の定義(21)に従って計算されますが、単一の場所のために: Root mean square error (RMSE), per location. We also break down RMSE by latitude only: また、私たちはRMSEを緯度のみで分割します。 G0.25◦ G0.25◦ G0.25◦ G0.25◦ G0.25◦ G0.25◦ G0.25◦ G0.25◦ G0.40 G0.25◦ G0.25◦ G0.25◦ G.1440 is the number of distinct longitudes in our regular 0.25° grid. G0.25◦ G.1440 is the number of distinct longitudes in our regular 0.25° grid. これは、方程式(21)のRMSEの定義に従って計算されますが、表面高度の特定の範囲に限定されますが、表面地理潜在値上の限界 zl ≤ zsurface < zuによって与えられます。 Root mean square error (RMSE), by surface elevation. 指標関数を表します。 This quantity is defined as Mean bias error (MBE), per location. This quantifies the average magni-tude of the per-location biases from Equation (26) and is given by Root-mean-square per-location mean bias error (RMS-MBE). This quantifies the correlation between per-location biases (Equation (26)) of two different models A and B. We use an uncentered correlation coefficient because of the significance of the origin zero in measurements of bias, and compute this quantity according to Correlation of per-location mean bias errors. Anomaly correlation coefficient (ACC) We also calculated the anomaly correlation coefficient for a given variable, x j, and lead time, τ = tΔd, according to where Cd0+τ is the climatological mean for a given variable, level, latitude and longitude, and for the day-of-year containing the validity time d0 + τ. 気候学的 means were calculated using ERA5 data between 1993 and 2016. 他のすべての変数は上記のように定義されています。 5.4. Statistical methodology 5.4.1. Significance tests for difference in means 各リードタイム τ と変数レベルの j に対して、我々は、GraphCast と HRES のための初期化時間 RMSEs (Equation (30)) 間の平均差をテストします。我々は、[16] の方法論に従って、自動関連のための訂正を伴う並列の双側の t テストを使用します。このテストは、予測スコアにおける差異のタイムシリーズが静止の Gaussian AR(2) プロセスとして適切にモデル化されていると仮定します。この仮定は我々にとって正確ではありませんが、ECMWF によって中間範囲の天気予測を確認するのに適切であることを動機づけています。 われわれのテストのノミネートサンプルサイズは、4日間未満のリードタイムでn = 730で、2018年365日間にわたって1日あたり2回の予測初期化で構成されている(4日間のリードタイムではn = 729を参照)。しかし、これらのデータ(予測RMSEsの差異)は時間的に自動的に関連しています。次に(16)我々は、これを正す標準エラーのインフレ因子kを推定します。 k の値は 1.21 から 6.75 までの範囲で、最も高い値は短いリードタイムと最も低い圧力レベルで一般的に見られます。 表 5 を参照し、重要性テストの詳細な結果、p 値、t テスト統計および neff の値を含む。 5.4.2 予測の調和 リードタイム τ が 4 日未満の場合、GraphCast および HRES の両方で毎日の 06z および 18z の初期化および有効期限で予測が利用可能であり、これらのペアリング予測間の RMSEs の違いをテストできます。 違いを計算する E[diff-RMSE( j, τ, d0)] = 0 が 2 面の alterna-tive に対して存在するという null 仮説をテストするために使用します。 As discussed in Section 5.2.3, at lead times of 4 days or more we only have HRES forecasts available at 00z and 12z initialization and validity times, while for the fairest comparison (Section 5.2.2) GraphCast forecasts must be evaluated using 06z and 18z initialization and validity times. In order to perform a paired test, we compare the RMSE of a GraphCast forecast with an interpolated RMSE of the two HRES forecasts either side of it: one initialized and valid 6 hours earlier, and the other initialized and valid 6 hours later, all with the same lead time. Specifically we compute differences: これらを用いて、Null仮説E[diff-RMSEinterp( j, τ, d0)] = 0 をテストすることができるが、これはまた、差異の安定性の仮定によって d0 に依存しない。さらに、HRES RMSE 時間シリーズ自体が安定であると仮定するならば(または少なくとも 6 時間のウィンドウで安定性に十分に近い)その後、E[diff-RMSEinterp( j, τ, d0)] = E[diff-RMSE( j, τ, d0)]と、インターポレートした差異はまた、E[diff-RMSE( j, τ, d0)] = 0 というオリジナルのゼロ仮説からの偏差をテストするために使用することができる。 この HRES RMSEs のより強力な停滞性の仮定は、昼間の周期性によって違反され、セクション 5.2.3 では、00z/12z と 06z/18z の有効時間の間の HRES RMSEs のいくつかの体系的な違いを見ることができます。しかし、そこで議論されたように、これらの体系的な違いは、リード時間が伸びるにつれて大幅に減少し、HRES を好む傾向にあり、したがって、diff-RMSE( j, τ, d0)] = 0 のテストは、diff-RMSEinterp に基づいて、GRAPHCAST が HRES よりも高いスキルを持っているように見える場合に保守的であると信じています。 5.4.3. Confidence intervals for RMSEs RMSE スキル プラットフォームのエラー バーは、E[RMSEGC]と E[RMSEHRES]の別々の信頼範囲に対応します(エリディングまたは現在の論点 j、 τ、d0)。これらは、上記の自動関連の修正を含む 2 面の t テストから得られ、GraphCast および HRES RMSE タイム シリーズに別々に適用されます。 これらの信頼間隔は、GraphCastとHRES RMSEの別々のタイムシリーズの静止性仮定を作り、上記のように、差異の静止性が少し違反しているというより強力な仮定です。 5.4.4 RMSEスキルスコアの信頼間隔 セクション 5.4.1 で説明された t テストから、RMSEs の真の違いの信頼範囲も標準的に導き出せるが、我々のスキルスコアスケジュールでは、真の RMSE スキルスケジュールの信頼範囲を示したいが、そこで真の差は HRES の真の RMSE によって正常化される。 この量のための信頼間隔は、真の HRES RMSE の私たちの推定の不確実性を考慮に入れるべきです。 [ldiff, udiff] は、数値のための私たちの 1 − α/2 信頼間隔(RMSEs の違い)であり、 [lHRES, uHRES] は、名称のための私たちの 1 − α/2 信頼間隔 (HRES RMSE) です。 RMSE-SStrue. We plot these confidence intervals alongside our estimates of the RMSE skill score, however note that we do not rely on them for significance testing. 私たちは、RMSEスキルスコアの私たちの推定とともに、これらの信頼範囲を計画しています。 6. 以前の機械学習ベースラインとの比較 GraphCast のパフォーマンスが他の ML メソッドと比較される方法を決定するために、我々は Pangu-Weather [7] に焦点を当て、0.25°解像度で動作する強力な MLWP ベースラインです。 最も直接的な比較をするために、我々は、我々の評価プロトコルから離れ、[7] で説明されたものを使います。 掲載された Pangu-Weather の結果は 00z/12z の初期化から得られているため、我々はこの論文の残りの部分のように、06z/18z を代わりに GraphCast に同一の初期化を使用します。 これにより、両方のモデルが同一の入力に初期化されることを可能にし、同一の lookahead (+9 時間、セクション 5.2. As shown in Figure 12, GraphCast (blue lines) outperforms Pangu-Weather [7] (red lines) on 99.2% of targets. For the surface variables (2 T, 10 U, 10 v, MsL), GraphCast’s error in the first several days is around 10-20% lower, and over the longer lead times plateaus to around 7-10% lower error. The only two (of the 252 total) metrics on which Pangu-Weather outperformed GraphCast was z500, at lead times 6 and 12 hours, where GraphCast had 1.7% higher average RMSE (Figure 12a,e). 7. Additional forecast verification results このセクションは、GraphCastのパフォーマンスの追加分析を提供し、その強みと限界のより完全なイメージを提供します。セクション7.1は、Z500を超える追加変数とレベルに関する論文の主な結果を補完します。セクション7.2は、GraphCastのパフォーマンスを地域、緯度および圧力レベルに分割して分析します(特にトロポアスの下部および上部に適用されるパフォーマンスを区別する)、GraphCastの偏差とRMSEを示す。セクション7.3は、Multi-meshとautoregressive lossの両方がGraphCastのパフォーマンスにおいて重要な役割を果たしていることを示しています。セクション7.4は、HRESおよび 7.1 追加変数の詳細な結果 7.1.1 RMSEとACC 図 13 は図 2a-b を補完し、12 つのハイライト変数を組み合わせた GraphCast と HRES の HRES に対する RMSE と正常化された RMSE の違いを示します。 7.1.2 RMSE比較の詳細な重要性テスト結果 表 5 では、GraphCast と HRES の間の RMSE の違いについての主要セクションで作成された統計的重要性の主張についての詳細な情報を提供します。 方法論の詳細は、セクション 5.4 にあります。 ここでは、p 値、テスト統計、およびすべての変数の効果サンプルサイズを提供します。 スペースの理由のために、我々は3つの主要なリードタイム(12 時間、 2 日、10 日)と、これらのリードタイムで p > 0.05 のすべてのケースを含むために選択された 7 の圧力レベルのサブセットに自分自身を制限します。 7.1.3 GraphCastに対するデータの最近の影響 An important feature of MLWP methods is they can be retrained periodically with the most recent data. This, in principle, allows them to model recent weather patterns that change over time, such as the ENSO cycle and other oscillations, as well as the effects of climate change. To explore how the recency of the training data influences GraphCast’s test performance, we trained four variants of GraphCast, with training data that always began in 1979, but ended in 2017, 2018, 2019, and 2020, respectively (we label the variant ending in 2017 as “GraphCast:<2018”, etc). We evaluated the variants, and HRES, on 2021 test data. 図15は、いくつかの変数のために、いくつかの変数のために、GraphCastの4つのバージョンのスキルとスキルスコア(HRESに関して)を示しています。図4aには、試験年に近い年まで訓練されたバージョンが一般的にHRESに対するスキルスコアを向上させた一般的な傾向があります。この改善の理由は完全に理解されていないが、我々は長期的な偏見の訂正と同様であると推測するが、最近の気象における統計的偏見が精度を向上させるために利用されている。また、HRESは年間を通して単一のNWPではないことに留意することが重要です:それは、一般的にZ500およびその他の分野でのスキルを増加させることによって、年に一度または2度アップグレード This may also contribute to why GraphCast:<2018 and GraphCast:<2019, in particular, have lower skill scores against HRES at early lead times for the 2021 test evaluation. We note that for other variables, GraphCast:<2018 and GraphCast:<2019 tend to still outperform HRES. These results highlight a key feature of GraphCast, in allowing performance to be automatically improved by re-training on recent data. 7.2 解析結果 7.2.1 RMSE 地域別 Per-region evaluation of forecast skill is provided in Figures 17 and 18, using the same regions and naming convention as in the ECMWF scorecards (https://sites.ecmwf.int/ifs/scorecards/ scorecards-47r3HRES.html). We added some additional regions for better coverage of the entire planet. These regions are shown in Figure 16. 7.2.2 幅と圧力レベルによるRMSEスキルスコア 図19では、圧力レベルと緯度の両方の関数として、GraphCastとHRESの間の正常化されたRMSEの違いを図ります。We plot only the 13 pressure levels from WeatherBench [41] on which we have evaluated HRES. On these plots, we indicate at each latitude the mean pressure of the tropopause, which separates the troposphere from the stratosphere. We use values computed for the ERA-15 dataset (1979-1993), given in Figure 1 of [44]. These will not be quite the same as for ERA5 but are intended only as a rough aid to interpretation. We can see from the scorecard in Figure 2 that GraphCast performs worse than HRES at the lowest pressure levels evaluated (50hPa). Figure 19 shows that the pressure level at which GraphCast starts to get worse is often latitude-dependent too, in some cases roughly following the mean level of the tropopause. We use a lower loss weighing for lower pressure levels and this may be playing some role; it is also possible that there may be differences between the ERA5 and the HRES-fc0 data sets in the predictability of variables in the stratosphere. 我々は低い圧力レベルのために低い損失重量を使用し、これはいくつかの役割を果たしている可能性があります。 7.2.3. Biases by latitude and longitude 図20〜22では、グラフキャストの平均偏差誤差(MBE、あるいは単に「偏差」で定義される方程式(26))を、緯度と長さの関数として、12時間、2日間、10日間の3つのリードタイムで構成します。 圧力レベルで与えられた変数のスケッチでは、圧力レベルが平均より低いほど表面の高さが高い地域をマスクしました。この状況は、表面地質潜在力が同じ場所と圧力レベルにおける気候学的平均地質潜在力を超える場合です。 図 20 から 22 に示す場所ごとの偏差の平均的な大きさを定量化するために、我々 は場所ごとの平均偏差エラー (RMS-MBE, defined in Equation (26)) の root-median-square を計算しました。これらは、グラフキャストと HRES のための図 23 で、リードタイムの関数として構成されています。我々 は、グラフキャストの偏差が、6 日までのほとんどの変数の HRES の平均より小さいことを見ることができます。 We also calculated a correlation coefficient between GraphCast and HRES’ per-location mean bias errors (defined in Equation (27)), which is plotted as a function of lead time in Figure 24. GraphCast and HRES’ biases are uncorrelated or weakly correlated at the shortest lead times, but the correlation coefficient generally grows with lead time, reaching values as high as 0.6 at 10 days. GraphCast and HRES’s per-location average bias errors (Equation (27)で定義された) の間の相関関係因子も計算しました。 7.2.4. RMSEスキルスコア by latitude and longitude 図 25 から 27 に示すとおり、グラフキャストと HRES の間の標準化された RMSE 差は、緯度と長さで表されます。 セクション 7.2.3 に示すように、圧力レベルで与えられた変数については、圧力レベルが平均的に地面下であるほど高い表面の高さの領域をマスクしました。 HRESがGraphCastを上回る注目すべき領域には、極(特に南極)近くの特定湿度、極の近くの地ポテンシャル、極の近くの2mの温度、および多くの陸地上に及ぶ領域、および高高度の地域における表面または近面の変数が含まれます(また、セクション7.2.5を参照)。 12時間と2日間のリードタイムでは、GraphCast と HRES は 06z/18z の初期化および有効性タイムで評価されますが、10 日間のリードタイムでは、GraphCast を 06z/18z と HRES を 00z/12z で比較しなければなりません(セクション 5 を参照)。 7.2.5. RMSEスキルスコア 表面の高さによる 図 25 で、我々 は GraphCast が 12 時間のリードタイムで多くの変数の高高度地域でスキルを減らしたように見えることがわかります。これをさらに調査するために、我々 は地表の高さ (地質潜在的な高さで与えられた) で 32 ビンに地球表面を分割し、方程式(24)に従って各ビン内の RMSEs を計算しました。 短いリードタイムで、特に6時間で、GraphCastのHRESに対するスキルは、より高い表面の高さとともに減少する傾向があり、ほとんどの場合、十分な高さでHRESのスキルを下回ります。 We note that GraphCast is trained on variables defined using a mix of pressure-level coordinates (for atmospheric variables) and height above surface coordinates (for surface-level variables such as 2m temperature or 10m wind). これらの2つの座標システムの関係は表面の高さに依存します。 表面の高さでGraphCastの調節にもかかわらず、我々はこの関係を学ぶのに苦労し、それを最も高い表面の高さに優先する可能性があると推測します。 さらなる作業では、圧力レベルではなくERA5のネイティブモデルレベルのサブセットでモデルを訓練しようと提案します。 これらは、最も低いレベルで土地の表面を追跡するハイブリッド座標システム[14]を使用し、これは 圧力レベルの座標を使用する変数は、圧力レベルが表面圧力を上回ると地下にインターポールされます。GraphCastは、これが起こったことを明確に示しませんし、これは高表面高所で予測する学習の課題に加わる可能性があります。 最後に、我々の損失重量は、低い圧力レベルでの大気変数にとって低いものであり、これはより高い高度の場所でのスキルに影響を与える可能性があります。 7.3 GraphCast Ablations 7.3.1 マルチメッシュ除去 マルチメッシュ表示が GraphCast のパフォーマンスにどのように影響するかをよりよく理解するために、我々は GraphCast のパフォーマンスをマルチメッシュ表示なしで訓練されたモデルのバージョンと比較する。 後者のモデルのアーキテクチャは GraphCast と同一である(同じエンコーダーとデコーダー、および同じノード数を含む)、プロセスブロックでは、グラフは最高の icosahedron メッシュ M6 (245,760 エッジ、GraphCast の 327,660 エッジの代わりに)のエッジのみを含みます。 Figure 29 (left panel) shows the scorecard comparing GraphCast to the ablated model. GraphCast benefits from the multi-mesh structure for all predicted variables, except for lead times beyond 5 days at 50 hPa. The improvement is especially pronounced for geopotential across all pressure levels and for mean sea-level pressure for lead times under 5 days. The middle panel shows the scorecard comparing the ablated model to HRES, while the right panel compares GraphCast to HRES, demonstrating that the multi-mesh is essential for GraphCast to outperform HRES on geopotential at lead times under 5 days. 7.3.2 自己反応訓練の効果 We analyzed the performance of variants of GraphCast that were trained with fewer autoregressive (AR) steps7, which should encourage them to improve their short lead time performance at the expense of longer lead time performance. As shown in Figure 30 (with the lighter blue lines corresponding to training with fewer AR steps) we found that models trained with fewer AR steps tended to trade longer for shorter lead time accuracy. These results suggest potential for combining multiple models with varying numbers of AR steps, e.g., for short, medium and long lead times, to capitalize on their respective advantages across the entire forecast horizon. The connection between number of autoregressive steps and blurring is discussed in Supplements Section 7.4.4. 4.Optimal Blurring 7.4.1. Effect on the comparison of skill between GraphCast and HRES 図31と32では、両モデルに最適なバブルリングが適用される前と後、HRESのRMSEとGraphCastを比較します.We can see that optimal blurring rarely changes the ranking of the two models, however it does generally narrow the gap between them. 4.2 フィルタリング方法 We chose filters that minimize RMSE within the class of linear, homogeneous (location invariant), isotropic (direction invariant) filters on the sphere. These filters can be applied easily in the spherical harmonic domain, where they correspond to multiplicative filter weights that depend on the total wavenumber, but not the longitudinal wavenumber. これらのフィルターは、球の調和領域で簡単に適用することができ、それらは合計波数に依存する複数のフィルター重量に対応します。 For each initialization 𝑑0, lead time 𝜏, variable and level 𝑗, we applied a discrete spherical harmonic transform [13] to predictions 𝑥ˆ𝑑0+𝜏 and targets 𝑥𝑑0+𝜏, obtaining spherical harmonic coefficients 𝑓ˆ𝑑0+𝜏 𝑗 𝑗 𝑗,𝑙,𝑚 and 𝑓 𝑑0+𝜏 for each pair of total wavenumber 𝑙 and longitudinal wavenumber 𝑚. To resolve the 0.25° (28km) resolution of our grid at the equator, we use a triangular truncation at total wavenumber 719, which means that 𝑙 ranges from 0 to 𝑙𝑚𝑎𝑥 = 719, and for each 𝑙 the value of 𝑚 ranges from −𝑙 to 𝑙. 次に、我々は、それぞれの予測された係数f ̈d0+τを、j、l、m、j、l から独立したフィルターの重さ bτ に倍増した、長さの波数 m. フィルターの重量は、球体調和領域で計算されたように、平均の平方エラーを最小限に抑えるために最小の平方を使用して配置された: We used data from 2017 to fit these weights, which does not overlap with the 2018 test set. When evaluating the filtered predictions, we computed MSE in the spherical harmonic domain, as detailed in Equation (22). 各リードタイムに異なるフィルターを組み合わせることにより、バラバラの度合いは、より長いリードタイムで不確実性が増加するにつれて自由に増加することができました。 この方法はかなり一般的ですが、それにも限界があります。フィルターは均一であるため、オーログラフィックや陸海の境界などの場所特有の特徴を考慮することができないので、これらの場所で予測可能な高解像度の詳細を過剰に混ざり、またはより一般的に予測不能な高解像度の詳細を過剰に混ざりすることのどちらかを選択しなければなりません。 私たちのECMWF予測基準のための条件予測(およびしたがってRMSEを改善する)を近づける別の方法は、Deterministic HRES予測の代わりに、ENS ensemble予測システムの総合平均を評価することです。 7.4.3. Transfer functions of the optimal filters Filter weights are visualized in Figure 33, which shows the ratio of output power to input power for the filter, on the logarithmic decibel scale, as a function of wavelength. フィルターの出力パワーと入力パワーの比率を、波長の関数として、デシベルスケールで表示します。 Equation (35), this is equal to 20 log10(bτ ) for the wavelength Ce/l corresponding to total wavenumber l.) HRES と GraphCast の両方では、MSE がいくつかの短い波長から中間の波長にわたってパワーを減らすのに最適であることがわかります。 Lead タイムが増加するにつれて、減少の量は増加し、最大の波長も増加します。 MSE を最適化する際に、私たちは予測不確実性の上に平均する条件予測を近づけようとしています。 より長い波長では、この予測不確実性が増加し、天候現象の位置に関するスペーススケールの不確実性も増加します。 我々 は、これは最適なフィルター応答のこれらの変化を導き時間の機能として大きく説明していると信じています。 HRES は、GraphCast の予測がすでにある程度(セクション 7.5.3 を参照)混ざっているため、GraphCast より多くの混ざりが必要であることがわかります。 最適なフィルターは、GraphCastおよびHRESの予測におけるスペクトル偏差を、ある程度、補償することもできます。例えば、私たちの再生されたERA5データセットの多くの変数の場合、スペクトルは、ERA5のネイティブ0.28125◦解像度で未解決の62km未満の波長に突然切断されます。 また、Z500 の GraphCast フィルター応答に 100km の波長にあたって顕著なピークがあり、これらは HRES には存在しません。これらは、この波長の周りに GraphCast が導入する小さな、不正なアーティファクトをフィルタリングしていると信じています。 7.4.4.Autoregressive training horizon and blurringの関係 図 34 では、最適なバラバラの結果を使用して、オルトラレグレシブトレーニングとより長いリードタイムでの GraphCast の予測のバラバラの間の関連性を調査します。 図34の最初の行では、より長い自動反応訓練の地平線で訓練されたモデルは、最適なバラバラの利点が少なく、最適なバラバラの利点は、通常、彼らが訓練された地平線に匹敵するリードタイムの後にのみ蓄積し始めることがわかります。 It would be convenient if we could replace longer-horizon training with a simple post-processing strategy like optimal blurring, but this does not appear to be the case: in the second row of Figure 34 we see that longer-horizon autoregressive training still results in lower RMSEs, even after optimal blurring has been applied. If one desires predictions which are in some sense minimally blurry, one could use a model trained to a small number of autoregressive steps. This would of course result in higher RMSEs at longer lead times, and our results here suggest that these higher RMSEs would not only be due to the lack of blurring; one would be compromising on other aspects of skill at longer lead times too. In some applications this may still be a worthwhile trade-off, however. 5.スペクトル分析 7.5.1. Spectral decomposition of mean squared error In Figures 35 and 36 we compare the skill of GraphCast with HRES over a range of spatial scales, before and after optimal filtering (see details in Section 7.4). The MSE, via its spectral formulation (Equation (22)) can be decomposed as a sum of mean error powers at different total wavenumbers: where lmax = 719 as in Equation (22) each total wavenumber l corresponds approximately to a wavelength Ce/l, where Ce is the earth's circumference. それぞれの合計波数lは、地球の周囲である。 We plot power density histograms, where the area of each bar corresponds to S j,τ(l), and the bars center around log10(1 + l) (since a log frequency scale allows for easier visual inspection, but we must also include wavenumber l = 0). In these plots, the total area under the curve is the MSE. パワー密度ヒストグラムは、それぞれのバーの面積がS j,τ(l)に対応し、およびバーの中心はlog10(1 + l) (ロゴの周波数スケールがより簡単な視覚的検査を可能にするので、私たちはまた波数l = 0を含めなければなりません。 2日以上のリーディタイムでは、ほとんどの変数の場合、GraphCastは、すべての波長で均一にHRESのスキルを向上させます(温度は2mの例外です)。 At shorter lead times of 12 hours to 1 day, for a number of variables (including z500, T500, T850 and U500) HRES has greater skill than GraphCast at scales in the approximate range of 200-2000km, with GraphCast generally having greater skill outside this range. 7.5.2. RMSE as a function of horizontal resolution ホリゾート解析 In Figure 37, we compare the skill of GraphCast with HRES when evaluated at a range of spatial resolutions. Specifically, at each total wavenumber 𝑙trunc, we plot RMSEs between predictions and targets which are both truncated at that total wavenumber. This is approximately equivalent to a wavelength 𝐶𝑒/𝑙trunc where 𝐶𝑒 is the earth’s circumference. RMSEs between truncated predictions and targets can be obtained via cumulative sums of the mean error powers S j,τ(l) defined in Equation (37), according to 図 37 は、ほとんどの場合、GraphCast は、一般的に予測検証に使用されるすべての解像度で HRES より低い RMSE を有していることを示しています。 これは、最適なフィルタリングの前におよび後に適用されます(セクション 7.4 を参照してください)。例外には、2 メートルの温度がいくつかのリードタイムおよび解像度で、T 500 は 12 時間リードタイムで、および U 500 は 12 時間リードタイムで、GraphCast は 0.25 度の解像度でより優れているが、HRES は 0.5 ◦ ~ 2.5 ◦ の解像度でより優れている(約 100 ~ 500 km の最短波長に対応します)。 HRES-fc0 ターゲットは、波長が 62km より短い場合にいくつかの信号を含みますが、GraphCast を評価するために使用される ERA5 ターゲットは、少なくともネイティブではそうではありません(セクション 7.5.3 を参照)。 7.5.3 予測と目標のスペクトル Figure 38 compares the power spectra of GraphCast’s predictions, the ERA5 targets they were trained against, and HRES-fc0. A few phenomena are notable: ERA5およびHRES-fc0のスペクトルには顕著な違いがありますが、特に短波長でこれらの違いは、部分的に、それぞれのネイティブ IFS 解像度 TL639 (0.28125◦) および TCo1279 (約 0.1◦、 [36]) から 0.25° 平角グリッドに再生するために使用される方法によって引き起こされる可能性があります。しかし、この再生の前に、HRES および ERA5 に使用される IFS バージョン、設定、解像度およびデータアシミレーション手法の違いがあり、これらの違いはまた、スペクトルに影響を与える可能性があります。 Differences between HRES and ERA5 We see reduced power at short-to-middle wavelengths in GraphCast's predictions which reduces further with lead time. We believe this corresponds to blurring which GraphCast has learned to perform in optimizing for MSE. We discussed this further in Sections 7.4 and 7.4.4. Blurring in GraphCast これらのピークは、 z500 では特に目に見えますが、それらは lead time で増加しているように見えます. We believe that they correspond to small, false artifacts introduced by the internal grid-to-mesh and mesh-to-grid transformations performed by GraphCast at each autoregressive step. In future work we hope to eliminate or reduce the effect of these artifacts, which were also observed by [26]. Peaks for GraphCast around 100km wavelengths 最後に、短波長のパワーのこれらの違いは、ログスケールと相対的なスケールで非常に顕著であるが、これらの短波長は信号の合計パワーにほとんど貢献しないことに注目する。 8. 追加の厳しいイベント予測結果 このセクションでは、我々の厳しいイベント予測分析に関する追加の詳細を提供します。我々は、GraphCastは、これらの下流のタスクのために特別に訓練されていないことに留意し、これにより、改善されたスキルを超えて、GraphCastは、大気の川を特徴づけるサイクロン(セクション8.1)を追跡するなど、現実世界の影響を持つタスクのための有用な予測を提供します(セクション8.1)、極端な温度(セクション8.3)を分類します。 8.1 熱帯サイクロン予報 このセクションでは、サイクロン追跡(サプリメントセクション8.1.1)および統計的重要性を分析するために使用した評価プロトコル(サプリメントセクション8.1.2)を詳細に説明し、追加の結果を提供する(サプリメントセクション8.1.3)と、ECMWF(サプリメントセクション8.1.4)のトラッカーとその違いを説明します。 8.1.1 評価プロトコル 同じグラフサイクロン予測システムの2つのグラフサイクロンを比較するための標準的な方法は、両方のモデルが有効なサイクロンの存在を予測するイベントに比較を制限することです。 追加のセクション5.2.2で詳細に述べたように、グラフキャストは、00zと18zの代わりに00zと12zで初期化され、両方の方法の同一の有効期限に導くことを避けるためです。 HRESに比べて常に6hの誤差があります。 しかし、TIGGEアーカイブのHRESサイクロントラックは、同様のイベントのセットでHRESとGrafCastを比較する代わりに、次のように進めます。 この差異は、私たちが初期化のイベントを選択するのを妨げます Because we compute error with respect to the same ground truth (i.e., IBTrACS), the evaluation is not subject to the same restrictions described in Supplements Section 5.2.2, i.e., the targets for both models incorporate the same amount of lookahead. This is in contrast with most our evaluations in this paper, where the targets for HRES (i.e., HRES-fc0) incorporates +3h lookahead, and the ones for GraphCast (from ERA5) incorporate +3h or +9h, leading us to only report results for the lead times with a matching lookahead (multiples of 12h). Here, since the IBTrACS targets are the same for both models, we can report performance as a function of lead time by increments of 6h. 特定の予測のために、サイクロンの予測された中心と真の中心の間のエラーは、地質距離を使用して計算されます。 8.1.2. Statistical methodology サイクロン追跡における統計的信頼性を計算するには、以下の2つの側面に特別な注意が必要です。 1. サンプルの数を定義する方法は2つあります。 最初の1つは、主に独立した出来事であると仮定することができる熱帯のサイクロンイベントの数です。 二つ目は、より大きいリードタイムデータポイントの数であるが、関連するポイントをカウントします(各熱帯のサイクロンイベントのための複数の予測は6h間隔で行われます)。 我々は、統計的意義のより保守的な推定を提供する最初の定義を使用することを選択しました。 両方の数字は、サプリメント図39のX軸で1〜5日間のリードタイムに示されています。 2. HRES および GraphCast のサンプル追跡エラーは相関しています. したがって、それらの違いの統計的変数は、それらの共同変数よりもはるかに小さい。 したがって、我々は、GraphCast が HRES より優れているという信頼を報告します (サプリメント 図 39b を参照) モデルごとの信頼性 (サプリメント 図 39a を参照) に加えて。 Given the two considerations above, we do bootstrapping with 95% confidence intervals at the level of cyclones. For a given lead time, we consider all the corresponding initialization time/lead time pairs and keep a list of which cyclone they come from (without duplication). For the bootstrap estimate, we draw samples from this cyclone list (with replacement) and apply the median (or the mean) to the corresponding initialization time/lead time pairs. Note that this gives us much more conservative confidence bounds than doing bootstrapping at the level of initialization time/lead time pairs, as it is equivalent to assuming all bootstrap samples coming from the sample cyclone (usually in the order of tens) are perfectly correlated. たとえば、特定のリードタイムでは、サイクロンA(50、100、150)、サイクロンB(300、200)、サイクロンC(100、100)のエラーがあると仮定すると、Aはより多くのサンプルを持っている。 8.1.3. Results In Supplements Figure 3a-b, we chose to show the median error rather than the mean. This decision was made before computing the results on the test set, based on the performance on the validation set. On the years 2016–2017, using the version of GraphCast trained on 1979–2015, we observed that, using early versions of our tracker, the mean track error was dominated by very few outliers and was not representative of the overall population. Furthermore, a sizable fraction of these outliers were due to errors in the tracking algorithm rather than the predictions themselves, suggesting that the tracker was suboptimal for use with GraphCast. Because our goal is to assess the value of GraphCast forecast, rather than a specific tracker, we show median values, which are also affected by tracking errors, but to a lesser extent. In figure Figure 40 we show how that the distribution of both HRES and GraphCast track errors for the test years 2018–2021 are non-gaussian with many outliers. This suggests the median is a better summary statistic than the mean. Supplements Figure 39 は、平均トラックエラーと関連するペアリング分析を示すことにより、図 3a-b を補完します。我々は、我々のトラッカーの最終バージョン (Supplements Section 8.1.4) を使用して、GraphCast の平均結果はメディアに類似しており、GraphCast は 2 ~ 5 日間のリード時間の HRES を著しく上回っていることに注意します。 Because of well-known blurring effects, which tend to smooth the extrema used by a tracker to detect the presence of a cyclone, ML methods can drop existing cyclones more often than NWPs. Dropping a cyclone is very correlated with having a large positional error. Therefore, removing from the evaluation such predictions, where a ML model would have performed particularly poorly, could give it an unfair advantage. この問題を回避するために、我々のハイパーパラメータを検索したトラッカー(サプリメントセクション8.1.4を参照)がHRESと同様のサイクロン数を欠いていることを確認します。 Supplements Figures 42 and 43 show the median error and paired analysis as a function of lead time, broken down by cyclone category, where category is defined on the Saffir-Simpson Hurricane Wind Scale [47], with category 5 representing the strongest and most damaging storms (note, we use category 0 to represent tropical storms). We found that GraphCast has equal or better performance than HRES across all categories. For category 2, and especially for category 5 (the most intense events), GraphCast is significantly better that HRES, as demonstrated by the per-track paired analysis. We also obtain similar results when measuring mean performance instead of median. 8.1.4 トラッカーの詳細 GraphCast に使用したトラッカーは、ECMWF のトラッカーの再実装に基づいています [35]. それは 0.1° HRES に設計されているため、GraphCast の予測に適用された場合に間違ったサイクロンの数を減らすためにいくつかの修正を追加するのに役立ちました。 We first give a high-level summary of the default tracker from ECMWF, before explaining the modifications we made and our decision process. モデルの10 U、10 V、MSL、およびU、vおよびzの予測を複数の時間段階で200、500、700、850および1000 hPaの圧力レベルで考慮すると、ECMWFトラッカー(35)はそれぞれのタイムステップを順序的に処理し、全軌道を通じてサイクロンの位置を予測する。 トラッカーの6時間の予測には2つの主なステップがあります。 最初のステップでは、サイクロンの現在の位置に基づき、トラッカーは6時間前後の次の位置の推定を計算します。 第二のステップは、サイクロンセンターの特徴であるいくつかの条件を満たす場所の新しい推定の近くを見ることです。 ECMWF tracker 次のサイクロン位置の推定を計算するために、トラッカーは2つのベクターの平均として計算される移動を用いて現在の推定を移動します: 1)最後の2つのトラック位置の間の移動(すなわち、線形エストラポラーション)および 2)風の方向の推定、圧力レベル200、500、700および850hPaで前のトラック位置の風速Uとvの平均を計算します。 次のサイクロンの位置の推定が計算された後、トラッカーは、この推定の445km以内の平均海面圧力(MsL)のすべての地元最小値を調べ、次の3つの条件を満たす現在の推定に最も近い候補最小値を検索します。 1. Vorticity check: the maximum vorticity at 850 hPa within 278 km of the local minima is greater than 5 · 10−5 s−1 for the Northern Hemisphere, or is smaller than −5 · 10−5s−1 for the Southern Hemisphere. Vorticity can be derived from horizontal wind (U and v). 2.風速検査:候補者が陸上の場合、278km以内の最大10mの風速は8m/sを超える。 3. Thickness check: if the cyclone is extratropical, there is a maximum of thickness between 850 hPa and 200 hPa within a radius of 278 km, where the thickness is defined as z850-z200. すべての条件を満たす最小値がなければ、トラッカーはサイクロンが存在しないと考えます。ECMWFのトラッカーは、サイクロンが再現する前に、いくつかの角度の条件下で短期間に消えることを可能にします。 我々は、1979年から2015年にかけて訓練されたバージョンのGraphCastを使用して、我々の検証セットの年(2016~2017年)のサイクロンに関する誤差を分析し、以下のようにECMWFトラッカーのデフォルト再実装を修正しました。 Our modified tracker このパラメーターが重要であることが判明し、以下のオプションの中からより良い値を検索しました: 445 × f for f in 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (オリジナル値)。 2. The next step vicinity radius determines how strict multiple checks are. We also found this parameter to be critical and searched a better value among the following options: 278 × 𝑓 for f in 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (original value). 3. ECMWFの次のステップの推定では、線形エクストラポレーションと風の制御ベクターの間の50〜50の重量を使用します。我々のケースでは、風が0.25°の解像度で予測されている場合、我々は時には障害の推定に風の制御を見つけました。これは驚くべきことではありません。風は空間的に滑らかなフィールドではありませんし、トラッカーは0.1°の解像度の予測を活用するためにカスタマイズされる可能性があります。したがって、我々は次のオプションの間で重量をハイパーパラメータで検索しました: 0.0、0.1, 0.33, 0.5 (オリジナル値)。 したがって、我々は、これらの値の間でdが検索された以前と新しい方向の間の角度を作成する候補者のみを考慮する: 90、135, 150、165, 175, 180 (すなわちフィルターなし、元の値)。 5.我々は、複数のミストラックが大きなジャンプを起こしたことに気付いた、騒々しい風の運転と弱いサイクロンの特徴を区別するのが困難な組み合わせのために。 したがって、我々は、 x キロメートルを超える移動の推定をクリッピング(デルタを最後の中心に変更することによって)を調査し、 x の次の値を検索しました: 445 × f for f in 0.25, 0.5, 1.0, 2.0, 4.0, ∞ (すなわち、クリッピングなし、オリジナル値)。 ハイパーパラメーターの検索では、GraphCastに適用されたトラッカーがHRESと同様の数のサイクロンを落としたことを検証しました。 8.2 大気の川 垂直に統合された水蒸気輸送(IvT)は、大気の川の強度を特徴づけるために一般的に用いられています [38, 37]. GraphCast は IvT を直接予測し、大気の川を予測するために特別に訓練されていませんが、この量は、予測された大気の変数、湿度、Q、および水平風(U、v)を経由して得ることができます。 g = 9.80665 m/s2 が地球表面における重力による加速であり、pb = 1000 hPa が底圧であり、pt = 300 hPa が上位圧力である。 上記の関係を使用して IvT を評価するには、数値統合が必要であり、結果は予測の垂直解像度に依存します。 GraphCast は、25 つの圧力レベルのみで利用可能な HRES 軌道の解像度を上回る 37 つの圧力レベルの垂直解像度を持っています。 他の評価プロトコルと一致して、各モデルは独自の「分析」に基づいて評価されます。 GraphCast では、その予測に基づいて IvT を計算し、ERA5 から同様に計算された IvT に比較します。 以前の研究と同様に、図44は、冷たい季節(2018年1月~4月および10月~12月)の間、沿岸北米および東太平洋地域(180°Wから110°Wの長さ、および10°Nから60°Nの緯度)で平均したRMSEスキルとスキルスコアを報告しています。 8.3 極端な暑さと寒さ 私たちは極端な熱と寒さの予測をバイナリ分類の問題として [35, 32] 比較して、ある特定の予測モデルが正確に特定の変数の値が基準の歴史的な気候学の分布の一定のパーセチル(例えば、98%パーセチルを超えて極端な熱、および極端な寒さのための2%パーセチルを下回る)の上に(または下)であるかどうかを予測することによって比較します。以前の作業 [35] 、参照気候学は1つの変数(2)毎月、 (3)毎日の時間、 (4)各緯度/長さの座標、および (5)各圧力レベル(適用される場合)。これは極端の検出をより対照的に、各スペースロケーションの昼間と季節サイクルの影響を除去 極端な予測は定義的に不均衡な分類問題であるため、我々はこの場合に適した正確な回復計画(42)に基づいて分析する。極端な予測曲線は、気候学のメディア値に関してスケーリング因子で構成される自由なパラメータ「利益」を変えることによって得られるのである、すなわち、スケーリング予測 = 利益 × (予測 − メディア気候学) + メディア気候学。これは決定限界を変える効果をもたらし、偽否定と偽否定の間の異なる貿易オフを研究することを可能にします。直感的に、0の利益はゼロの予測陽性(例えばゼロの偽否定)を生成し、無限の利益は 我々は、極端な温度条件に関連する変数に焦点を当て、特に2 T [35, 32]、およびT 850, z500は、頻繁にECMWFによって熱波を特徴づけるために使用される [34]. 以前の作業に従って[32]、極端な熱については、6月、7月、および8月の北半球の陸地(緯度>20◦)および南半球の南半球の陸地(緯度< -20◦)の12月、1月および2月の平均を平均します。 9. ビジュアル予測 この最後のセクションでは、変数 2 T ( 図 47 )、 10 U ( 図 48 )、 MsL ( 図 49 )、 z500 ( 図 50 )、 T 850 ( 図 51 )、 v 500 ( 図 52 )、 Q 700 ( 図 53 ) のための GraphCast による予測のいくつかの可視化例を提供します。 参照 [1] Ferran Alet, Adarsh Keshav Jeewajee, Maria Bauza Villalonga, Alberto Rodriguez, Tomas Lozano-Perez, and Leslie Kaelbling. Graph element networks: adaptive, structured computing and memory. In International Conference on Machine Learning, pages 212–222. PMLR, 2019. [2] Kelsey R Allen, Yulia Rubanova, Tatiana Lopez-Guevara, William Whitney, Alvaro Sanchez-Gonzalez, Peter Battaglia, and Tobias Pfaff. Learning rigid dynamics with face interaction graph networks. arXiv preprint arXiv:2212.03574, 2022. [3] Jimmy Lei Ba、Jamie Ryan Kiros、Geoffrey E. Hinton. Layer normalization. arXiv, 2016. [4] イゴール・バブシュキン、ケイト・バウムリ、アリソン・ベル、スーリャ・ブパチュア、ジェイク・ブルース、ピーター・ブックロフスキー、デヴィッド・バウデン、トレヴァー・カイ、アイダン・クラーク、イヴォ・ダニエルカ、クラウディオ・ファンタッチ、ジョナサン・ゴッドウィン、クリス・ジョーンズ、ロス・ヘムズリー、トム・ヘニガン、マテオ・ヘッスル、シャオブ・ホウ、スティーブン・カプターウスキー、トーマス・ケック、イウリウィ・ケマエフ、マイケル・キング、マルクス・クネ //github.com/deepmind、2020年 [5] Peter Battaglia, Razvan Pascanu, Matthew Lai, Danilo Jimenez Rezende, et al. 物体、関係、物理について学ぶための相互作用ネットワーク。 [6] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Relational inductive biases, deep learning, and graph networks. arXiv preprint arXiv:1806.01261, 2018. [7] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu, and Qi Tian. Pangu-Weather: A 3D high-resolution model for fast and accurate global weather forecast. arXiv preprint arXiv:2211.02556, 2022. [8] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. The THORPEX interactive grand global ensemble. Bulletin of the American Meteorological Society, 91(8):1059–1072, 2010. [9] James Bradbury, Roy Frostig, Peter Hawkins, Matthew James Johnson, Chris Leary, Dougal Maclaurin, George Necula, Adam Paszke, Jake VanderPlas, Skye Wanderman-Milne, and Qiao Zhang. JAX: composable transformations of Python+NumPy programs. http://github. com/google/jax, 2018. [10] WE Chapman, AC Subramanian, L Delle Monache, SP Xie, and FM Ralph. 機械学習で大気の川の予測を改善する。 [11] Tianqi Chen, Bing Xu, Chiyuan Zhang, and Carlos Guestrin. サブリニア・メモリコストで深いネットワークをトレーニングする. arXiv preprint arXiv:1604.06174, 2016. [12] Balaji Devaraju. Understanding filtering on the sphere: Experiences from filtering GRACE data. PhD thesis, University of Stuttgart, 2015. J. R. Driscoll and D. M. Healy. Computing fourier transforms and convolutions on the 2-sphere. コンピューティング・フォーイヤーの変換とコンボルチュエーション。 マタイ15(2):202-250、1994年6月。 [14] ECMWF. IFS文書 CY41R2 - Part III: Dynamics and numerical procedures. https: //www.ecmwf.int/node/16647, 2016年 [15] Meire Fortunato, Tobias Pfaff, Peter Wirnsberger, Alexander Pritzel, and Peter Battaglia. Multi-scale meshgraphnets. arXiv preprint arXiv:2210.00612, 2022. [16] Alan J Geer. 中間距離予測スコアにおける変化の重要性. Tellus A: Dynamic Meteorology and Oceanography, 68(1):30229, 2016. [17] Jonathan Godwin, Thomas Keck, Peter Battaglia, Victor Bapst, Thomas Kipf, Yujia Li, Kimberly Stachenfeld, Petar Veličković, and Alvaro Sanchez-Gonzalez. Jraph: A library for graph neural networks in JAX. http://github.com/deepmind/jraph, 2020. [18] T. Haiden, Martin Janousek, Jean-Raymond Bidlot, R. Buizza, L. Ferranti, F. Prates, and Frédéric Vitart. ECMWF予測の評価、2018年アップグレードを含む。 https://www.ecmwf. int/node/18746, 10/2018 2018. [19] トーマス・ハイデン、マーティン・ヤヌセック、フレデリック・ヴィタート、ジード・ベン・ボウアルレグ、ローラ・フェランティ、クリスティーナ・プラテス、デヴィッド・リチャードソン。2020年アップグレードを含むECMWF予測の評価。 https://www.ecmwf.int/node/19879, 01/2021 2021. [20] トーマス・ハイデン、マーティン・ヤヌセック、フレデリック・ヴィタート、ジード・ベン・ブアレグ、ローラ・フェランティ、フェルナンド・プラテス ECMWF予測の評価、2021年アップグレードを含む。 https://www. ecmwf.int/node/20142, 09/2021 2021. [21] トーマス・ハイデン、マーティン・ヤヌセック、フレデリック・ヴィタート、ジード・ベン・ボウアルレグ、ローラ・フェランティ、フェルナンド・プラツ、デヴィッド・リチャードソン。 2021年アップグレードを含むECMWF予測の評価。 https://www.ecmwf.int/node/20469, 09/2022 2022. [22] トーマス・ハイデン、マーティン・ヤヌセック、フレデリック・ヴィタート、ローラ・フェランティ、フェルナンド・プラッツ。2019年のアップグレードを含むECMWF予測の評価 https://www.ecmwf.int/node/ 19277, 11/2019 2019. [23] Tom Hennigan, Trevor Cai, Tamara Norman, and Igor Babuschkin. Haiku: Sonnet for JAX. http://github.com/deepmind/dm-haiku, 2020. [24] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. ERA5のグローバルな再分析. 王立気象学会の四半期誌, 146(730):1999–2049, 2020。 [25] S. Hoyer and J. Hamman. xarray: N-D labeled arrays and datasets in Python. Journal of Open Research Software, 5(1), 2017. [26] ライアン・ケイスラー.グローバル天気予報グラフニューラルネットワーク. arXiv preprint arXiv:2202.07575, 2022. [27] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014. [28] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. International best track archive for climate stewardship (IBTrACS) project, version 4. https://doi.org/10.25921/82ty-9e16, 2018. [29] Kenneth R Knapp, Michael C Kruk, David H Levinson, Howard J Diamond, and Charles J Neumann. The international best track archive for climate stewardship (IBTrACS) unifying tropical cyclone data. Bulletin of the American Meteorological Society, 91(3):363–376, 2010. [30] Michael C Kruk, Kenneth R Knapp, and David H Levinson. A technique for combining global tropical cyclone best track data. Journal of Atmospheric and Oceanic Technology, 27(4):680–692, 2010. [31] David H Levinson, Howard J Diamond, Kenneth R Knapp, Michael C Kruk, and Ethan J Gibney. Towards a homogeneous global tropical cyclone best-track dataset. Bulletin of the American Meteorological Society, 91(3):377-380, 2010. [32] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal, and Jason Hickey. Global extreme heat forecasting using neural weather models. Artificial Intelligence for the Earth Systems, pages 1–41, 2022. [33] Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101, 2017. イギリス イギリス イギリス イギリス イギリス イギリス イギリス イギリス イギリス イギリス [35] Linus Magnusson、Thomas Haiden、 and David Richardson. Verification of extreme weather events: Discrete predictands. European Centre for Medium-Range Weather Forecasts, 2014. [36] S. Malardel、Nils Wedi、Willem Deconinck、Michail Diamantakis、Christian Kuehnlein、 G. Mozdzynski, M. Hamrud, and Piotr Smolarkiewicz. A new grid for the IFS. HTTPS: //www.ecmwf.int/node/17262 2016年 [37] Benjamin J Moore, Paul J Neiman, F Martin Ralph, and Faye E Barthold. Physical processes associated with heavy flooding rainfall in Nashville, Tennessee, and the vicinity during 1–2 May 2010: The role of an atmospheric river and mesoscale convective systems. Monthly Weather Review, 140(2):358–378, 2012. [38] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist, and Michael D Dettinger. Meteorological characteristics and overland precipitation impacts of atmospheric rivers affecting the West Coast of North America based on eight years of ssm/i satellite observations. Journal of Hydrometeorology, 9(1):22-47, 2008. [39] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez, and Peter Battaglia. Learning mesh-based simulation with graph networks. In International Conference on Learning Representations, 2021. [40] Prajit Ramachandran, Barret Zoph, and Quoc V Le. Searching for activation functions. arXiv preprint arXiv:1710.05941, 2017. [41] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid, and Nils Thuerey. WeatherBench: a benchmark data set for data-driven weather forecasting. Journal of Advances in Modeling Earth Systems, 12(11):e2020MS002203, 2020 [42] Takaya Saito and Marc Rehmsmeier. The precision-recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PloS one, 10(3):e0118432, 2015. [43] Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec, and Peter Battaglia. Learning to simulate complex physics with graph networks. In International Conference on Machine Learning, pages 8459–8468. PMLR, 2020. [44] B. D. Santer, R. Sausen, T. M. L. Wigley, J. S. Boyle, K. AchutaRao, C. Doutriaux, J. E. Hansen, G. A. Meehl, E. Roeckner, R. Ruedy, G. Schmidt, and K. E. Taylor. Tropopause height and atmospheric temperature behavior in models, reanalyses, and observations: Decadal changes. Journal of Geophysical Research: Atmospheres, 108(D1):ACL 1–1–ACL 1–22, 2003. [45] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M Hamill, Tim D Hewson, Julia H Keller, Mio Matsueda, John Methven, Florian Pappenberger, et al. The TIGGE project and its achievements. Bulletin of the American Meteorological Society, 97(1):49–67, 2016. [46] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson, and Munehiko Yamaguchi. The TIGGE project and its achievements. 米国気象学会のニュース, 97(1):49 – 67, 2016. ハーヴェイ・トゥルム・テイラー、ビル・ウォード、マーク・ウィリス、ウォルト・ザレスキー ザフィール・シンプソン・ハリケーン風のスケール 大気管理:ワシントンDC、アメリカ、2010年 [48] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. 神経情報処理システムの進歩, 2017年30日 [49] Petar Veličković, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio, and Yoshua Bengio. Graph attention networks. arXiv preprint arXiv:1710.10903, 2017. この論文は、CC by 4.0 Deed (Attribution 4.0 International) ライセンスの下で archiv で利用できます。 この論文は、CC by 4.0 Deed (Attribution 4.0 International) ライセンスの下で archiv で利用できます。