저자 : Remi Lam (Google DeepMind) Alvaro Sanchez-Gonzalez (Google DeepMind) Matthew Willson (Google DeepMind) Peter Wirnsberger (Google DeepMind) Meire Fortunato (Google DeepMind) Ferran Alet (Google DeepMind) Suman Ravuri (Google DeepMind) Timo Ewalds (Google DeepMind) Zach Eaton-Rosen (Google DeepMind) Weihua Hu (Google DeepMind) Alexander Merose (Google Research) Stephan Hoyer (Google Research) George Holland (Google DeepMind) Oriol Vinyals (Google DeepMind) Jacklynn Stott (Google DeepMind) Alexander Pritzel (Google DeepMind) Shakir Mohamed (Google DeepMind) Peter Battaglia (Google DeepMind) 저자 : 리미 람 (Google DeepMind) 알바로 산체스-곤살레스 (Google DeepMind) 마티우 윌슨 (Google DeepMind) 피터 윈스버거 (Google DeepMind) Meire Fortunato (Google DeepMind) 페란 알레트 (Google DeepMind) Suman Ravuri (Google DeepMind) Timo Ewalds (Google DeepMind)에 대한 리뷰 보기 Zach Eaton-Rosen (Google DeepMind에 대한 정보) Weihua Hu (Google DeepMind) Alexander Merose (Google Research) Stephan Hoyer (Google 연구) 조지 홀랜드 (Google DeepMind) 오리올 Vinyals (Google DeepMind) 잭클린 스토트 (Google DeepMind) 알렉산더 프리첼 (Google DeepMind) 샤키르 모하메드 (Google DeepMind) 피터 배타글리아 (Google DeepMind) 전통적인 숫자적 날씨 예측은 예측 정확도를 향상시키기 위해 증가한 컴퓨팅 자원을 사용하지만 기본 모델을 개선하기 위해 역사적인 날씨 데이터를 직접 사용하지는 못합니다. 우리는 "GraphCast"라는 기계 학습 기반 방법을 도입하여 재 분석 데이터에서 직접 훈련 할 수 있습니다. 전 세계적으로 0.25°의 해상도에서 10 일 동안 수백 개의 날씨 변수를 예측합니다. 우리는 GraphCast가 1380의 검증 목표의 90 %에서 가장 정확한 운영 결정적인 시스템을 상당히 뛰어넘고 있으며, 예측은 열대 사이클론, 대기 강 및 극단적 인 온도를 포함한 심각한 이벤트 예측을 더 잘 지원합니다. GraphCast는 정확하고 효율적인 날씨 예측의 열쇠이며 복잡한 동적 시스템을 위한 기 Keywords: 날씨 예측, ECMWF, ERA5, HRES, 학습 시뮬레이션, 그래프 신경 네트워크 소개 2022년 10월 중순 05시 45분 UTC로 이탈리아 볼로냐에서 유럽 중간 범위 기상 예측 센터(European Centre for Medium-Range Weather Forecasts, ECMWF)의 새로운 고성능 컴퓨팅 시설이 작동을 시작했습니다.지난 몇 시간 동안 통합 예측 시스템(Integrated Forecasting System, IFS)은 향후 며칠과 몇 주 동안 지구의 날씨를 예측하기 위해 정교한 계산을 실행해 왔으며, 최초의 예측이 사용자에게 전달되기 시작했습니다.이 과정은 매일 6시간마다 반복되어 세계에 가장 정확한 기상 예측을 제공합니다. IFS와 현대 기상 예측은 더 일반적으로 과학 및 엔지니어링의 승리이다. 기상 시스템의 역학은 지구상에서 가장 복잡한 물리적 현상 중 하나이며, 매일 개인, 산업 및 정책 입안자에 의해 내려진 수많은 결정은 정확한 기상 예측에 달려 있으며, 재킷을 착용하거나 위험한 폭풍을 피할지 여부를 결정합니다. 오늘날 기상 예측에 대한 지배적 접근 방식은 "수치 기상 예측" (NWP)이며, 이는 슈퍼컴퓨터를 사용하여 기상 예측의 지배적 균형을 해결하는 것을 포함합니다. NWP의 성공은 날씨 현상에 대한 엄격하고 지속적인 연구 관행에 달려 있으며, NWP의 규모가 얼마나 정확한지, 더 큰 계산 그러나 전통적인 NWP는 계산을 통해 잘 스케일을 할 수 있지만, 그 정확성은 역사적 데이터의 양이 증가함에 따라 향상되지 않습니다.예를 들어 ECMWF의 MARS [17]와 같은 기상 및 기상학적 데이터의 광범위한 아카이브가 있지만, 최근까지 예측 모델의 품질을 직접 향상시키기 위해 그러한 데이터를 사용하는 실용적인 방법은 거의 없었습니다.그러나 NWP 방법은 더 나은 모델, 알고리즘 및 접근법을 혁신하는 고도로 훈련된 전문가들에 의해 개선되며, 이는 시간과 비용이 많이 걸리는 과정이 될 수 있습니다. 기계 학습 기반 날씨 예측 (MLWP)은 전통적인 NWP에 대 한 대안을 제공 합니다, 예측 모델은 역사적인 데이터에서 직접 훈련 됩니다. 이것은 기계 학습 기반 날씨 예측 (MLWP)에 쉽게 표현되지 않는 데이터의 패턴과 규모를 캡처하여 예측 정확도를 향상시킬 수있는 잠재력을 가지고 있습니다. MLWP는 또한 현대 깊은 학습 하드웨어, 대신 슈퍼컴퓨터를 활용 하 여 더 큰 효율성을 제공 하 고 더 유리한 속도 정확도 거래를 일으킬 수 있습니다. 최근 MLWP는 전통적인 NWP는 상대적으로 약한 모드에서 NWP 기반 예측을 개선 하는 데 도움이 되었습니다, 예를 들어 계절 하반기 열파 예측 [16] 및 지금 레이더 이미지 [32, 29, 중간 범위의 날씨 예측에서, 즉 10 일 전까지 대기 변수를 예측하는 NWP 기반 시스템은 여전히 가장 정확합니다. 세계에서 최고의 결정적인 운영 체제는 ECMWF의 고해상도 예측 (HRES), IFS의 구성 요소입니다. NWP 기반 시스템은 여전히 가장 정확합니다. 지난 몇 년 동안 중간 범위의 예측을위한 MLWP 방법은 ECMWF의 고해상도 예측 (HRES) [27]과 같은 벤치마크에 의해 촉진되어 끊임없이 진보되었습니다. 전환 신경 네트워크를 기반으로하는 깊은 학습 아키텍처 [35, 36, 28] 및 변환기 [24]는 1.0 °보다 넓은 / 길이 해상도에서 유망한 결과를 보여주었으며 최근의 작업은 그래픽 GraphCast 여기서 우리는 "GraphCast"라는 글로벌 중간 범위 날씨 예측을위한 새로운 MLWP 접근법을 도입하여 단일 Google Cloud TPU v4 장치에서 1 분 이내에 정확한 10 일 예측을 제공하며 열대 사이클론 트랙, 대기 강 및 극단적 인 온도를 예측하는 응용 프로그램을 지원합니다. GraphCast는 현재 시간과 6시간 전의 지구 기상 상태의 두 가지 최신 상태를 입력하여 6시간 전의 다음 기상 상태를 예측합니다. 단일 기상 상태는 0.25° 위도 / 길이 그리드(721 × 1440)에 의해 표현되며, 이는 지평선에서 약 28×28킬로미터의 해상도에 해당합니다 (그림 1a), 각 그리드 지점은 표 1에 나열된 표면 및 대기 변수의 집합을 나타냅니다.전통적인 NWP 시스템과 마찬가지로 GraphCast는 기상 상태의 임의로 긴 경로 (그림 1b–c)를 생성하기 위해 자신의 예측을 입력으로 다시 공급함으로써 "발전"할 수 있습니다. GraphCast는 "코드 프로세스 - 디코드" 구성 [1]에서 GNN를 기반으로하는 신경 네트워크 아키텍처로 구현되며 총 36.7 백만 개의 매개 변수를 가지고 있습니다.GNN 기반의 이전 학습 시뮬레이터 [31, 26]는 부분 차별 방정식에 의해 모델링 된 액체 및 기타 시스템의 복잡한 역학을 배우는 데 매우 효과적이었으며, 이는 날씨 역학을 모델링하는 데 적합성을 지원합니다. 인코더(그림 1d)는 입력 그리드의 노드 특성으로 표현된 변수(0-mean unit-variance로 표준화)를 내부 “multi-mesh” 표현에 배운 노드 특성으로 매핑하기 위해 단일 GNN 계층을 사용한다. 다중 메쉬(그림 1g)는 지구상에서 높은 공간 해상도를 가진 공간적으로 동일한 그래프입니다. 그것은 규칙적인 icosahedron (12 노드, 20 얼굴, 30 가장자리)을 반복적으로 6 번 정화하여 정의되며, 각 정화는 각 삼각형을 4 개의 작은 삼각형으로 나누어줍니다 (더 많은 얼굴과 가장자리로 이어집니다), 그리고 노드를 구체로 재현합니다. 다중 메쉬는 가장 높은 해상도 메쉬에서 40962 노드를 포함하고 있으며, 중간 그래프에서 만들어진 모든 가장자리들의 합동은 변하는 길이를 가진 가장자리의 평평한 계층을 형성합니다. 프로세서(그림 1e)는 16개의 공유되지 않은 GNN 계층을 사용하여 멀티메쉬에서 배운 메시지 전달을 수행하여 몇 가지 메시지 전달 단계로 효율적인 로컬 및 장거리 정보 전파를 가능하게 한다. 디코더(그림 1f)는 최종 프로세서 레이어의 학습된 기능을 멀티 메쉬 표현에서 대역 길이 그리드로 다시 매핑합니다.It uses a single GNN layer, and predicts the output as a residual update to the most recent input state (with output normalization to unit-variance on the target residual).See Supplements Section 3 for further architectural details. During model development, we used 39 years (1979–2017) of historical data from ECMWF’s ERA5 [10] reanalysis archive. As a training objective, we averaged the mean squared error (MSE) weighted by vertical level. Error was computed between GraphCast’s predicted state and the corre-sponding ERA5 state over 𝑁 autoregressive steps. The value of 𝑁 was increased incrementally from 1 to 12 (i.e., six hours to three days) over the course of training. GraphCast was trained to minimize the training objective using gradient descent and backpropagation. Training GraphCast took roughly four weeks on 32 Cloud TPU v4 devices using batch parallelism. See Supplements Section 4 for further training details. 모델 개발을 위해 미래 정보가 제공되지 않는 실제 배포 시나리오와 일치하여 2018년부터 진행된 데이터에 따라 GraphCast를 평가했습니다(첨부 사항 섹션 5.1 참조). 검증 방법 우리는 많은 수의 변수, 레벨 및 리드 타임에서 HRES와의 정확성을 비교함으로써 포괄적으로 GraphCast의 예측 능력을 검증합니다.We quantify the respective skills of GraphCast, HRES, and ML baselines with two skill metrics: the root mean square error (RMSE) and the anomaly correlation coefficient (ACC). 각 그리드 지점에서 GraphCast가 예측한 227개의 변수와 레벨 조합 중, WeatherBench[27]의 13개의 레벨과 ECMWF Scorecard의 변수[9]에 해당하는 69개의 레벨에서 HRES에 비해 기술을 평가하였으며; 테이블 1과 보충제 1.2의 boldface 변수와 레벨을 참조하여 평가 기간 동안 HRES 사이클이 작동하고 있었습니다. 참고, 우리는 ERA5 precipitation 데이터가 알려진 편견을 가지고 있기 때문에 평가에서 총 강수량을 제외합니다. [15] 주요 텍스트에서 보고된 집계 성능 외에도 보충제 섹션 7은 다른 변수, 지역 성능, 경도 및 압력 레벨 효과, 스펙트럼 속성, 흐름, ML 기반 예측에 대한 비교 및 모델 디자인 선택 이러한 비교를 할 때, 두 가지 핵심 선택은 기술이 어떻게 설립되었는지에 기초한다: (1) 비교를 위한 기본 진실의 선택, 그리고 (2) 관측과 함께 데이터를 토지하는 데 사용되는 데이터 동화 창의의 신중한 계산. 우리는 GraphCast를 평가하기 위해 기본 진실로 ERA5를 사용했기 때문에 ERA5 데이터를 입력으로 사용하고 ERA5 데이터를 출력으로 예측하도록 훈련 받았습니다. 그러나, ERA5에 대한 HRES 예측을 평가하면 초기 예측 단계에서 제로 오류가 발생할 것입니다. 대신, 우리는 HRES에 대한 기본 진실로 사용할 “HRES 예측 단계 0” (HRES-fc0) 데이터 세트를 구축했습니다. HRES-fc0는 미래의 초기화에 대한 HRES 예측에 대한 ERA5 및 HRES 데이터 흡수 창 사이의 차이를 조심스럽게 제어해야합니다. 매일, HRES는 00z, 06z, 12z 및 18z에 중심의 4 개의 +/-3h 창을 사용하여 관찰을 동화합니다 (18z는 18:00 UTC를 의미합니다), ERA5는 00z와 12z에 중심의 2 개의 +9h/-3h 창을 사용하는 반면, 우리는 06z와 18z에 중심의 2 개의 +3h/-9h 창을 사용하여 GraphCast의 예측을 06z 및 18z 초기화에서 평가하기로 결정했으며, 18z는 미래의 관찰의 +3h에서 정보를 전달하고 HRES의 같은 입력과 일치합니다. 우리는 00z와 12z 초기화에서 GraphCast를 평가하지 않았으며, 각각의 +9h 06z와 18z로 초기화된 HRES 예측은 3.75일 동안만 실행됩니다(HRES의 00z와 12z 초기화는 10일 동안 실행됩니다).이러므로, 우리의 숫자는 조각된 라인으로의 전환을 나타내며, 라인 이전의 3.5일은 06z와 18z로 초기화된 HRES와의 비교이며, 라인 후에는 00z와 12z로의 초기화와의 비교입니다. 예측 검사 결과 We find that GraphCast has greater weather forecasting skill than HRES when evaluated on 10-day forecasts at a horizontal resolution of 0.25° for latitude/longitude and at 13 vertical levels. 그림 2a-c는 GraphCast (블루 라인)가 z500 (지대적 500 hPa에서) "headline" 필드에서 RMSE 기술, RMSE 기술 점수 (즉, 모델 A와 기본 B 사이의 표준화된 RMSE 차이 (RMSEA − RMSEB)/RMSEB로 정의)와 ACC 기술을 극대화하는 방법을 보여줍니다. synoptic-scale 압력 분포를 인코딩하는 z500을 사용하면 강한 기상학적 중요성이 있기 때문에 문서에서 일반적입니다 [27]. 플로트는 GraphCast가 모든 리드 타임에 걸쳐 더 나은 기술 점수를 보유하고 있으며 약 7%-14 %의 기술 점수 향상이 있습니다. 추가 헤드 라인 변수에 대한 플로트는 부록 7.1에 있습니다. 그림 2d는 ECMWF 점수 카드와 유사한 형식으로 10일 예측을 통해 평가된 1380개 변수 및 압력 수준의 RMSE 기술 점수를 요약합니다. 셀 색상은 기술 점수에 비례하며, 파란색은 GraphCast가 더 나은 기술을 갖고 빨간색은 HRES가 더 높은 기술을 갖고 있음을 나타냅니다. GraphCast는 1380 목표의 90.3%에서 HRES를 뛰어 넘었고, 표준 표본 크기 n ∈ {729, 730}의 89.9%에서 상당히 (p ≤ 0.05, 표준 표본 크기 n ∈ {729, 730}) HRES를 뛰어 넘었습니다. HRES가 GraphCast보다 더 나은 성능을 보였던 대기 영역 (스코어 카드에서 빨간색의 상단 행)은 스트라토스페라에서 비례적으로 지역화되었으며 가장 낮은 훈련 손실 무게를 보았습니다 (충분 7.2.2 참조). 50 hPa 수준을 제외하면 GraphCast는 나머지 1280 목표의 96.9 %에서 HRES를 상당히 뛰어넘었습니다. 50 및 100 hPa 수준을 제외하면 GraphCast는 나머지 1180 목표의 99.7 %에서 HRES를 상당히 뛰어넘었습니다. 지역별 평가를 수행 할 때, 우리는 보충 그림 16에서 18에 자세히 설명 된대로 전 세계적으로 이전 결과를 발견했습니다. 우리는 MSE 손실의 자동 반복 단계 수를 증가시키는 것이 더 긴 리드 타임에서 GraphCast 성능을 향상시킨다는 것을 발견했으며 (충분 7.3.2 참조) 공간적으로 부드러운 출력을 예측함으로써 불확실성을 표현하도록 격려함으로써 더 긴 리드 타임에서 HRES 예측을 부드럽게 만들 수 있음을 발견했습니다 (충분 7.5.3 참조). HRES의 근본적인 물리적 균형은 그러나 부드러운 예측으로 이어지지지 않습니다. HRES가 예측을 부드럽게 할 수 있다면 RMSE 기술에 대한 GraphCast의 상대적 이점이 유지되는지 여부를 평가하기 위해, 우리는 최적화된 부드러운 GraphCast가 우리의 1380 목표의 8.0%에 대한 최적화된 부 또한 GraphCast의 성능을 상위 경쟁 ML 기반 날씨 모델 인 Pangu-Weather [4]와 비교했으며 GraphCast가 제시 한 252 개 목표 중 99.2 % 이상의 성능을 보였습니다. 심각한 이벤트 예측 결과 광범위한 변수와 리드 타임에서 HRES에 비해 GraphCast의 예측 기술을 평가하는 것 외에도, 우리는 또한 그 예측이 열대 사이클론, 대기 강 및 극단적 인 온도를 포함하여 심각한 이벤트를 예측하는 것을 어떻게 지원하는지 평가합니다. Tropical Cyclone Track 근처 오락거리 그라크스의 열대 사이클론 예측의 정확성을 향상시키는 것은 부상과 생명 손실을 방지하고 경제적 피해를 줄이는 데 도움이 될 수 있습니다 [21]. 사이클론의 존재, 강도 및 경로를 예측함으로써 추적 알고리즘을 사용하여 지대 잠재력 (z), 수평 바람 (10 U/10 v, U/v) 및 평균 해상 압력 (MsL)의 예측에 적용됩니다. 우리는 같은 ECMWF의 게시된 프로토콜 [20]에 기초하여 추적 알고리즘을 구현하고 GraphCast의 예측에 적용하여 사이클론 경로 예측을 생성합니다 (제 8.1항의 보충 사항 참조). 비교를위한 기본 라인으로, 우리는 HRES의 0.1°ec 예측에서 얻은 작동 트랙을 사용 그림 3a는 GraphCast가 2018–2021 년 동안 HRES보다 중간 트랙 오류가 낮은 것을 보여줍니다. HRES와 GraphCast에 대한 트랙당 오류가 상호 연관되어 있기 때문에, 우리는 또한 두 모델 사이의 트랙당 병합 오류 차이를 측정하고 GraphCast가 18 시간에서 4.75 일까지 HRES보다 상당히 더 나은 것을 발견했습니다. 대기 강 대기 강은 중간 경도에 걸쳐 대기 증기 운송의 대부분을 담당하는 대기 대기의 좁은 지역이며, 미국 서부 해안에 연간 30 %-65 %의 강수량을 생성 [6]. 그 강도는 GraphCast가 예측하는 수직 통합 물 증기 운송 IvT [23, 22]에 의해 특징이 될 수 있습니다., 이벤트가 유익한 강수량을 제공하거나 재앙적인 손상과 관련이 있는지 여부를 나타냅니다 [7]. IvT는 지평선 풍속 (U 및 v)과 특정 습도 (Q)의 비선형 조합에서 계산할 수 있습니다. 우리는 대기 강이 가장 빈번 할 때 북아메리카 해안과 동태 태평양의 추운 달 동안 (Oct-Apr)에 대한 GraphCast 극단적 인 열과 차가운 극단적 인 열과 추위는 전형적인 기후학 [19, 16, 18]에 대한 대규모 비정상성이 특징이며, 이는 위험 할 수 있으며 인간 활동을 방해 할 수 있습니다. 우리는 HRES와 GraphCast가 위치, 시간 및 달의 상위 2% 기후학 위의 이벤트를 예측할 수있는 기술을 평가합니다. 12 시간, 5 일 및 10 일 리드 타임에서 2 T를 위해 북반구와 남반구의 육지 지역을 위해 여름 달 동안. 우리는 2 Tecast의 예측이 중간 기후학에 대한 차이를 반영하기 위해 정밀 추억 곡선을 계획합니다. 그림 3d는 GraphCast의 정밀 회전 곡선이 5 일 및 10 일 리드 타임에 대한 HRES보다 높으며, GraphCast의 예측은 일반적으로 더 긴 지평선에 대한 극단적 인 분류에서 HRES보다 우수합니다. 대조적으로, HRES는 12 시간 리드 타임에서 더 나은 정밀 회전을 가지고 있으며, 이는 HRES에 비해 GraphCast의 2T 기술 점수가 거의 0에 가까운 것으로 나타납니다. 우리는 일반적으로 T 850 및 z500 [18], 다른 극단적 인 경계 (5%, 2% 및 0.5%) 및 겨울에 극단적 인 추위 예측과 관련된 다른 변수들 사이에서 이러한 결과를 일관되게 찾습니다. 최근 데이터 훈련의 효과 GraphCast는 주기적으로 최근 데이터를 사용하여 재훈련 할 수 있으며, 원칙적으로 ENSO주기 및 기타 진동과 같은 시간에 따라 변화하는 기상 패턴을 캡처 할 수 있습니다.We trained four variants of GraphCast with data that always started in 1979, but ended in 2017, 2018, 2019, and 2020, respectively (we labeled the variant ending in 2017 as “GraphCast:<2018”, etc).We compared their performance to HRES on 2021 test data. 그림 4은 z500에 대한 4 가지 변형 및 HRES의 기술 점수를 보여줍니다. 우리는 2018 년 이전에 훈련되었을 때 GraphCast의 성능이 여전히 HRES와 2021 년에 경쟁하는 반면, 2021 년 이전에 훈련하는 것이 기술 점수를 향상시킵니다 (충분 7.1.3 참조). 결론 HRES에 비해 GraphCast의 예측 능력과 효율성은 MLWP 방법이 이제 전통적인 날씨 예측 방법과 경쟁력이 있음을 보여줍니다.또한 GraphCast의 심각한 이벤트 예측에 대한 성능은 직접적으로 훈련되지 않았으며, 저렴한 예측이 더 정확하고 더 접근 가능하며 특정 애플리케이션에 적합함으로써 개인 및 산업에 의한 날씨에 의존하는 의사 결정의 폭을 강화할 수 있는 새로운 경로를 열어주는 전환점이라고 믿습니다. 36.7 백만 개의 매개 변수로, GraphCast는 메모리 발자국을 처리할 수 있도록 선택한 현대 ML 표준에 따라 비교적 작은 모델입니다. 그리고 HRES가 0.1° 해상도, 137 레벨 및 최대 1 시간 시간 단계로 출시되었지만, GraphCast는 0.25° 대경도 해상도, 37 수직 레벨 및 6 시간 시간 단계로 작동했으며, ERA5 교육 데이터의 0.25° 원래 해상도와 하드웨어에 더 높은 해상도 데이터를 장착하는 엔지니어링 도전 때문에 일반적으로 GraphCast는 모델의 가족으로 간주되어야하며, 현재의 버전은 우리가 실제로 현재의 엔지니어링 제약에 맞을 수있는 가장 큰 버전이지만, 더 큰 컴퓨팅 자원과 더 높은 해상도 데이터 우리의 접근 방식의 한 가지 핵심 제한은 불확실성이 어떻게 처리되는지에 있습니다. 우리는 결정적 예측에 초점을 맞추고 HRES와 비교했지만, ECMWF의 IFS의 다른 기둥인 집합 예측 시스템 ENS는 10일 이상 예측에 특히 중요합니다. 날씨 역학의 비선형성은 더 긴 리드 타임에서 불확실성이 증가하고 있으며, 이는 단일 결정적 예측에 의해 잘 캡처되지 않습니다. ENS는 미래 날씨의 실험적 분포를 모델링하는 다중 스토하스틱 예측을 생성함으로써 이것을 해결합니다. 그러나 다중 예측을 생성하는 것은 비싸다. 대조적으로, GraphCast의 MSE 교육 목표는 예측을 공간적으로 무시함으로써 불확실성을 표현하도록 격려합니다. 데이터 기반 MLWP는 NWP를 통해 흡수되는 고품질 데이터의 대량에 중점을 두고 있으며 ECMWF의 MARS 아카이브와 같은 풍부한 데이터 소스가 소중하다고 강조하는 것이 중요합니다. 그러므로, 우리의 접근 방식은 수십 년 동안 개발되고, 많은 실제 환경에서 엄격하게 테스트되었으며, 우리가 아직 탐구하지 않은 많은 기능을 제공하는 전통적인 날씨 예측 방법을 대체하는 것으로 간주해서는 안됩니다. 기상 예측 외에도 GraphCast는 기후 및 생태학, 에너지, 농업, 인간 및 생물학적 활동뿐만 아니라 다른 복잡한 역동적 시스템을 포함한 다른 중요한 지리 공간과 시간 예측 문제에 대한 새로운 방향을 열 수 있다고 믿습니다. 데이터 및 자료의 이용 가능성 GraphCast의 코드와 훈련된 무게는 github https://github.com/ deepmind/graphcast에서 공개적으로 사용할 수 있습니다. 이 작품은 유럽 중간 범위 예측 센터 (ECMWF)의 공개적으로 사용할 수있는 데이터를 사용합니다. 우리는 ERA5, HRES 및 TIGGE 제품에 대한 ECMWF 아카이브 (실시간 만료) 제품을 사용하며, 사용은 Creative Commons Attribution에 의해 규정됩니다. 국제 4.0 (CC BY 4.0). 우리는 https://www.ncei.noaa.gov/ products/international-best-track-archive and reference [13, 12]에서 IBTrACS 버전 4를 사용합니다. 그림 1의 지구 텍스처는 https://www.solarsystemscope.com/ textures에서 CC BY 4.0 아래에 사용됩니다. 인식 알파벳 순서로, 우리는 Kelsey Allen, Charles Blundell, Matt Botvinick, Zied Ben Bouallegue, Michael Brenner, Rob Carver, Matthew Chantry, Marc Deisenroth, Peter Deuben, Marta Garnelo, Ryan Keisler, Dmitrii Kochkov, Christopher Mattern, Piotr Mirowski, Peter Norgaard, Ilan Price, Chongli Qin, Sébastien Racanière, Stephan Rasp, Yulia Rubanova, Kunal Shah, Jamie Smith, Daniel Worrall 및 우리의 작업에 대한 조언과 피드백을 위해 Alphabet 및 ECMWF의 수많은 다른 사람들에게 감사드립니다. 우리는 또한 연구 커뮤니티에 귀중한 데이터 세트를 제공 한 ECMWF에 감사드립니다. 개막 구절의 스타일은 D. Fan et al., Science Robotics, 참조 [1] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. 관계 유도적 편견, 깊은 학습 및 그래프 네트워크. arXiv 사전 프린트 arXiv:1806.01261, 2018. [2] P. 바우어, A. 토르프, G Brunet. 숫자적 날씨 예측의 조용한 혁명. 자연, 525, 2015. [3] Stanley G Benjamin, John M Brown, Gilbert Brunet, Peter Lynch, Kazuo Saito, and Thomas W Schlatter. 100 년 전망 및 NWP 응용 분야의 진보. [4] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu, Qi Tian. Pangu-Weather: 빠르고 정확한 글로벌 날씨 예측을 위한 3D 고해상도 모델. arXiv preprint arXiv:2211.02556, 2022. [5] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne 등. The THORPEX interactive grand global ensemble. Bulletin of the American Meteorological Society, 91(8):1059–1072, 2010. [6] WE Chapman, AC Subramanian, L Delle Monache, SP Xie, FM Ralph. 기계 학습을 통해 대기 강 예측을 개선합니다. Geophysical Research Letters, 46(17-18):10627-10635, 2019. [7] Thomas W Corringham, F Martin Ralph, Alexander Gershunov, Daniel R Cayan, and Cary A Talbot. Atmospheric rivers drive flood damage in the western United States. Science advances, 5(12):eaax4631, 2019. [8] Lasse Espeholt, Shreya Agrawal, Casper Sønderby, Manoj Kumar, Jonathan Heek, Carla Bromberg, Cenk Gazen, Rob Carver, Marcin Andrychowicz, Jason Hickey, et al. 12 시간 강수량 예측에 대한 깊은 학습. 자연 통신, 13(1):1–10, 2022. [9] T Haiden, Martin Janousek, J Bidlot, R Buizza, Laura Ferranti, F Prates, F Vitart. ECMWF 예측의 평가, 2018 업그레이드 포함. [10] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. ERA5 글로벌 재 분석. Royal Meteorological Society의 분기 저널, 146(730):1999–2049, 2020. [11] Ryan Keisler. graph neural networks를 사용하여 글로벌 날씨 예측. arXiv preprint arXiv:2202.07575, 2022. [12] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. 국제 최고의 트랙 아카이브 기후 관리 (IBTrACS) 프로젝트, 버전 4. https: //doi.org/10.25921/82ty-9e16, 2018 [13] Kenneth R Knapp, Michael C Kruk, David H Levinson, Howard J Diamond, and Charles J Neumann.The international best track archive for climate stewardship (IBTrACS) unifying tropical cyclone data.Bulletin of American Meteorological Society, 91(3):363–376, 2010. [14] Thorsten Kurth, Shashank Subramanian, Peter Harrington, Jaideep Pathak, Morteza Mardani, David Hall, Andrea Miele, Karthik Kashinath, and Animashree Anandkumar. FourCastNet: 적응성 네이버 신경 운영자를 사용하여 글로벌 고해상도 날씨 예측을 가속화. arXiv 사전 프린트 arXiv:2208.05419, 2022. [15] David A Lavers, Adrian Simmons, Freja Vamborg, Mark J Rodwell. 기후 모니터링을위한 ERA5 강수량의 평가. Royal Meteorological Society의 분기 저널, 148(748):3152-3165, 2022. [16] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal, Jason Hickey. 신경 기상 모델을 사용하여 글로벌 극단적 인 열 예측. 지구 시스템을위한 인공 지능, 페이지 1-41, 2022. [17] 카스틴 마사스와 에스페란자 쿠에테로. MARS 사용자 문서. https://confluence. ecmwf.int/display/UDOC/MARS+user+documentation, 2022. [18] 리누스 마그네슨. 202208 - 열파 - 영국 https://confluence.ecmwf.int/display/ FCST/202208+-+열파+-+UK, 2022. [19] Linus Magnusson, Thomas Haiden, and David Richardson. Verification of extreme weather events: Discrete predictands. European Centre for Medium-Range Weather Forecasts, 2014. [20] Linus Magnusson, Sharanya Majumdar, Rebecca Emerton, David Richardson, Magdalena Alonso-Balmaseda, Calum Baugh, Peter Bechtold, Jean Bidlot, Antonino Bonanni, Massimo Bonavita, et al. ECMWF에서 열대 사이클론 활동. [21] Andrew B Martinez. 예측 정확성은 허리케인 손상에 관한 것입니다. Econometrics, 8(2):18, 2020. [22] Benjamin J Moore, Paul J Neiman, F Martin Ralph, and Faye E Barthold. Physical processes associated with heavy flooding rainfall in Nashville, Tennessee, and vicinity during 1–2 May 2010: The role of an atmospheric river and mesoscale convective systems. Monthly Weather Review, 140(2):358–378, 2012. [23] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist, and Michael D Dettinger. Meteorological characteristics and overland precipitation impacts of atmospheric rivers affecting the West Coast of North America based on eight years of ssm/i satellite observations. Journal of Hydrometeorology, 9(1):22-47, 2008. [24] Tung Nguyen, Johannes Brandstetter, Ashish Kapoor, Jayesh K Gupta, 그리고 Aditya Grover. ClimaX : 날씨와 기후에 대한 기초 모델. arXiv 사전 프린트 arXiv:2301.10343, 2023. [25] Jaideep Pathak, Shashank Subramanian, Peter Harrington, Sanjeev Raja, Ashesh Chattopad-hyay, Morteza Mardani, Thorsten Kurth, David Hall, Zongyi Li, Kamyar Azizzadenesheli, et al. Fourcastnet: adaptive fourier neural operators를 사용하여 글로벌 데이터를 기반으로 한 고해상도 날씨 모델. arXiv 사전 프린트 arXiv:2202.11214, 2022. [26] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez, and Peter Battaglia. Learning mesh-based simulation with graph networks.In International Conference on Learning Representations, 2021. [27] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid, 그리고 Nils Thuerey. WeatherBench : 데이터 기반 날씨 예측을위한 기준 데이터 세트. 지구 시스템 모델링의 진보 저널, 12(11):e2020MS002203, 2020. [28] Stephan Rasp와 Nils Thuerey. data-driven medium-range weather prediction with a resnet pretrained on climate simulations: A new model for weatherbench. Journal of Advances in Modeling Earth Systems, 13(2):e2020MS002405, 2021. [29] Suman Ravuri, Karel Lenc, Matthew Willson, Dmitry Kangin, Remi Lam, Piotr Mirowski, Megan Fitzsimons, Maria Athanassiadou, Sheleem Kashem, Sam Madge, et al. 레이더의 깊은 생성 모델을 사용하여 재능있는 강수량을 탐구합니다. 자연, 597(7878):672–677, 2021. [30] Takaya Saito와 Marc Rehmsmeier.The precision-recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PloS one, 10(3):e0118432, 2015. [31] 알바로 산체스-곤살레스, 조나단 고드윈, 토비아스 프파프, 렉스 잉, 주레 레스코베츠, 그리고 피터 배타글리아. 그래프 네트워크를 사용하여 복잡한 물리학을 시뮬레이션하는 법을 배우기. 기계 학습에 관한 국제 회의, 페이지 8459-8468. PMLR, 2020. [32] Xingjian Shi, Zhihan Gao, Leonard Lausen, Hao Wang, Dit-Yan Yeung, Wai-kin Wong, 및 Wang-chun Woo. precipitation nowcasting에 대한 깊은 학습 : 벤치마크 및 새로운 모델. 신경 정보 처리 시스템의 진보, 30, 2017. [33] Casper Kaae Sønderby, Lasse Espeholt, Jonathan Heek, Mostafa Dehghani, Avital Oliver, Tim Salimans, Shreya Agrawal, Jason Hickey, Nal Kalchbrenner. Metnet : 강수량 예측을위한 신경 기상 모델. arXiv 사전 프린트 arXiv:2003.12140, 2020. [34] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson, Munehiko Yamaguchi. TIGGE 프로젝트와 그 성과. 미국 기상학 협회의 보도, 97(1):49 – 67, 2016. [35] Jonathan A Weyn, Dale R Durran, Rich Caruana. 기계가 날씨를 예측하는 법을 배울 수 있습니까? 깊은 학습을 사용하여 역사적인 날씨 데이터에서 그리드된 500hPa 지상 잠재 높이를 예측할 수 있습니다. [36] Jonathan A Weyn, Dale R Durran, and Rich Caruana. Data-driven global weather prediction using deep convolutional neural networks on a cubed sphere. Journal of Advances in Modeling Earth Systems, 12(9):e2020MS002109, 2020. 1) 데이터 이 섹션에서는 GraphCast를 훈련시키고 평가하는 데 사용된 데이터에 대한 개요를 제공합니다 (충분 섹션 1.1), NWP 기초 HRES의 예측을 정의하는 데이터뿐만 아니라 HRES-fc0는 HRES에 대한 지상 진리로 사용됩니다 (충분 섹션 1.2). 우리는 ECMWF의 데이터 아카이브와 IBTrACS(29, 28)의 하위 세트로 구성된 교육 및 평가를 위해 여러 데이터 세트를 구축했습니다.우리는 일반적으로 "아카이브"또는 "아카이브 데이터"라고 부르는 원본 데이터와 우리가 이러한 아카이브에서 구축한 데이터 세트를 "데이터 세트"라고 부릅니다. 1.1 시대5 GraphCast 훈련 및 평가를 위해, 우리는 ECMWF의 ERA5 [24]1 아카이브의 하위 세트를 사용하여 데이터 세트를 구축했으며, 이는 1959년부터 현재까지 0.25° 경도/경도 해상도 및 1시간 증가로 전 세계 날씨를 나타내는 대규모 데이터 집합입니다.ERA5 아카이브는 ECMWF의 4D-Var 데이터 흡수 시스템 내에서 2016년 대부분 (표 3 참조) 동안 작동했던 ECMWF의 HRES 모델(주기 42r1)을 사용하는 재 분석을 기반으로합니다. 우리의 ERA5 데이터 세트는 ECMWF의 ERA5 아카이브(표 2)에서 37개의 압력 수준에서 사용할 수 있는 변수의 하위 집합을 포함합니다2: 1, 2, 3, 5, 7, 10, 20, 30, 50, 70, 100, 125, 150, 175, 200, 225, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 775, 800, 825, 850, 875, 900, 925, 950, 975, 1000 hPa. 포함된 연도 범위는 1979-01-01에서 2022-01-10까지 6시간 간격으로 다운샘플링되었습니다(매일 00z, 06z, 12z 및 18z에 해당). 다운샘플링은 subsampling로 수행됩니다. 1.2 그리스도 HRES 모델 기준을 평가하는 데는 예측 데이터와 다음 하위 섹션에 요약된 기본 데이터라는 두 개의 별도의 데이터 세트가 필요합니다.The HRES versions that were operational during our test years are shown in Table 3. HRES는 일반적으로 세계에서 가장 정확한 결정적인 NWP 기반 날씨 모델로 간주되므로 HRES 기초를 평가하기 위해 HRES의 기록된 역사적 예측의 데이터 세트를 구축했습니다. HRES는 ECMWF에 의해 정기적으로 업데이트되므로 이러한 예측은 예측이 이루어졌을 때 최신 HRES 모델을 나타냅니다. 예측은 원래의 표현으로 다운로드되었습니다 (그것은 구체적 조화와 옥타헤드럴 감소된 Gaussian 그리드를 사용하여, TCo1279 [36]), 그리고 대략 0.1° 광도 / 길이 해상도와 일치합니다. HRES operational forecasts 그런 다음 ECMWF의 Metview 라이브러리를 사용하여 공간적으로 예측을 0.25° 넓이/ 길이 그리드 (ERA5의 해상도와 일치하기 위해)로 내 샘플링했습니다. 우리는 6 시간 간격으로 그들을 시간적으로 내 샘플링했습니다. HRES 예측의 두 그룹이 있습니다 : 10 일 지평선을 위해 발행되는 00z/12z에서 초기화된 것들, 그리고 3.75 일 지평선을 위해 발행되는 06z/18z에서 초기화된 것들. HRES 운영 예측의 기술을 평가하기 위해, 우리는 ECMWF의 HRES 운영 예측 아카이브에 기초한 지상 진실 데이터 세트, “HRES-fc0”를 구축했습니다. 이 데이터 세트는 각 HRES 예측의 초기 시간 단계를 포함하고, 초기화 시간 00z, 06z, 12z, 18z (그림 5 참조). HRES-fc0 데이터는 ERA5 데이터와 유사하지만 예측 시간에 최신 ECMWF NWP 모델을 사용하여 동화되며, 해당 날짜와 시간 주위에 ±3 시간부터의 관찰을 동화합니다. 참고, ECMWF는 또한 우리의 HRES-fc0 데이터 세트와 구별되는 “HRES 분석” 데이터의 아카이브를 제공합니다. HRES 분석 데이터 세트는 대 HRES-fc0 850hPa (z850) 및 925hPa (z925)의 변수 지대 잠재력에 대한 ECMWF HRES 아카이브의 값의 매우 작은 하위 집합은 숫자가 아닙니다 (NaN). 이 NaNs는 2016-2021 범위와 예측 시간에 걸쳐 균일하게 분포되는 것처럼 보입니다. 이것은 z850의 픽셀의 약 0.00001%를 나타냅니다 (1 픽셀은 10 개의 1440 x 721 경도 프레임마다 1 픽셀), z925의 픽셀의 0.00000001%를 나타냅니다 (1 픽셀은 10 천 개의 1440 x 721 경도 프레임마다 1 픽셀) 그리고 성능에 측정할 수있는 영향을 미치지 않습니다. 더 쉬운 비교를 위해, 우리는 이러한 잃 HRES NaN handling 1.3 트로피 사이클론 데이터 세트 For our analysis of tropical cyclone forecasting, we used the IBTrACS [28, 29, 31, 30] archive to construct the ground truth dataset. This includes historical cyclone tracks from around a dozen authoritative sources. Each track is a time series, at 6-hour intervals (00z, 06z, 12z, 18z), where each timestep represents the eye of the cyclone in latitude/longitude coordinates, along with the corresponding Saffir-Simpson category and other relevant meteorological features at that point in time. HRES 기초를 위해, 우리는 TIGGE 아카이브를 사용하여, HRES의 0.1° 해상도 [8, 46]의 예측에서 작동 추적기를 사용하여 추정되는 사이클론 트랙을 제공합니다. 데이터는 https://confluence.ecmwf.int/display/TIGGE/Tools에서 다운로드할 수 있는 XML 파일로 저장됩니다. 데이터를 추가 후 처리 및 분석에 적합한 형식으로 변환하기 위해, 우리는 관심의 년에 대한 사이클론 트랙을 추출하는 분석기를 구현했습니다. XML 파일의 관련 섹션 ( 태그)는 "예측" 형식이며, 이는 일반적으로 다른 초기 예측 시간에 해당하는 여러 트랙을 포함합니다. 이러한 태그와 함께, 우리는 사이클론 이름 ( 태그 "cycloneName"), 라티드 ( 태그 " 라티드") 및 추적기 알고리즘 및 결과에 대한 자세한 내용은 섹션 8.1을 참조하십시오. 2) Notation 및 Problem Statement 이 섹션에서 우리는 종이 전체에 걸쳐 유용한 시간 표기 사용을 정의합니다 ( 섹션 2.1), 우리가 다루는 일반적인 예측 문제를 공식화합니다 ( 섹션 2.2), 그리고 우리가 날씨의 상태를 모델링하는 방법을 자세히 설명합니다 ( 섹션 2.3). 2.1 시간표 예측에 사용되는 시간 지정은 여러 가지 시간 상징을 포함하여 혼란스러울 수 있으며, 예를 들어 초기 예측 시간, 유효 시간, 예측 지평등을 나타내기 위해 우리는 명확성과 단순성을 위해 일부 표준화된 용어와 지정을 도입합니다. 우리는 일정 날짜와 UTC 시간에 의해 표시된 특정 시점을 "일정 시간"으로 언급합니다. 예를 들어, 2018-06-21_18:00:00은 2018년 6월 21일을 의미합니다, 18:00 UTC입니다. 간단히 말해서, 우리는 때때로 00z, 06z, 12z, 18z는 00:00, 06:00, 12:00, 18:00 UTC를 의미합니다. t: 예측 시간 단계 지수, 예측이 초기화된 이후 단계 수를 인덱스합니다. t: Forecast time step index, which index the number of steps since the forecast was initialized. T: 예측 지평선, 예측 단계의 총 수를 나타냅니다.T is the total number of steps in a forecast. d: 유효 시간, 특정 날씨 상태의 날짜 시간을 나타냅니다. d0: 예측 초기화 시간, 예측의 초기 입력의 유효 시간을 나타냅니다. Δd: 예측 단계 기간, 예측 단계 중 얼마나 많은 시간을 경과하는지 나타냅니다. τ: 예측 시간을 나타내는 예측 시간 (즉, τ = tΔd). 2.2 일반적인 예측 문제 진술 진정한 날씨의 시간 진화는 현재의 상태를 기반으로 다음 시간 단계에서 상태를 생성하는 근본적인 분리 시간 역학 함수인 Φ (Δd in the future)에 의해 표현될 수 있습니다, 즉, Zd+Δd = Φ(Zd). 우리의 목표는 어떤 예측 지평선, TΔd에 걸쳐 날씨의 상태를 효율적으로 예측할 수있는 진정한 역학 기능, Φ의 정확하고 효율적인 모델, φ을 찾는 것입니다.우리는 Zd를 직접 관찰할 수 없다고 가정하지만 대신 일부 관찰 Xd, 즉 날씨를 완벽하게 예측하는 데 필요한 상태 정보의 불완전한 표현입니다. Xd−Δd , Xd−2Δd , ..., Xd 이외에도 모델은 원칙적으로 이 추가적인 컨텍스트 정보를 활용하여 Zd를 보다 정확하게 접근할 수 있다. 방정식(1)과 유사하게 X ̈d+Δd의 예측은 완전한 예측을 자동 반복적으로 생성하기 위해 φ로 되돌릴 수 있다. 우리는 예측된 경로, X ̈d+Δd:d+T Δd,가 토지 진리 경로, Xd+Δd:d+TΔd와 얼마나 잘 일치하는지 정량화함으로써 φ의 예측 품질 또는 기술을 평가합니다.그러나 Xd+Δd:d+TΔd는 오직 우리의 관찰을 포함한다는 것을 다시 한 번 강조하는 것이 중요합니다.우리는 예측과 토지 진리 사이의 일관성을 객관적인 기능으로 측정합니다. 제5항에 명시적으로 설명된 내용이다. 우리의 연구에서 데이터와 예측의 시간 해상도는 항상 Δd = 6 시간이며 최대 예측 지평선은 10 일이며, T = 40 단계의 총에 해당합니다. Δd는이 논문 전체에 걸쳐 일정이기 때문에, 우리는 지표를 단순화하여 (Xt, Xt+1, . . . , Xt+T ) 대신 (Xd, Xd+Δd , . . , Xd+TΔd )를 사용하여 특정 날짜 시간 대신 정수로 시간을 인덱스할 수 있습니다. ECMWF 날씨 데이터 모델링 모델 훈련 및 평가를 위해 우리는 ERA5 데이터 세트를 표면 및 대기 기상 상태의 지상 진실 표현으로 취급합니다. Section 1.2에서 설명한 대로 HRES-fc0 데이터 세트를 지상 진실로 사용하여 HRES의 기술을 평가했습니다. 우리의 데이터 세트에서, ERA5 기상 상태 Xt는 표 2의 모든 변수를 0.25° 지평선 길이 해상도에서 총 721 × 1440 = 1, 038, 240 그리드 포인트 및 37 수직 압력 수준으로 구성합니다. 대기 변수는 모든 압력 수준에서 정의되며 (수평) 그리드 포인트의 집합은 G0.25◦ = {−90.0, −89.75, . . . . , 90.0} × {−179.75, −179.5, . . . , 180.0}로 표시됩니다. 이러한 변수는 단기 이름 (그리고 대기 변수의 압력 수준)에 의해 고유하게 식별됩니다. 예를 들어, 표면 변수 "2 미터"는 2 T로 표시됩니다; 500 hPa 수준의 압력에서 대기 변수 "지형 가능성" From all these variables, our model predicts 5 surface variables and 6 atmospheric variables for a total of 227 target variables. Several other static and/or external variables were also provided as input context for our model. These variables are shown in Table 1 and Table 2. The static/external variables include information such as the geometry of the grid/mesh, orography (surface geopotential), land-sea mask and radiation at the top of the atmosphere. We refer to the subset of variables in 𝑋𝑡 that correspond to a particular grid point 𝑖 (1,038,240 in total) as x𝑡, and to each variable 𝑗 of the 227 target variables as 𝑥𝑡 . The full state representation 𝑋𝑡𝑖𝑖, 𝑗 therefore contains a total of 721 × 1440 × (5 + 6 × 37) = 235, 680, 480 values. Note, at the poles, the 1440 longitude points are equal, so the actual number of distinct grid points is slightly smaller. 제3장 GraphCast 모델 This section provides a detailed description of GraphCast, starting with the autoregressive gener-ation of a forecast (Section 3.1), an overview of the architecture in plain language (Section 3.2), followed by a technical description the all the graphs defining GraphCast (Section 3.3), its encoder (Section 3.4), processor (Section 3.5), and decoder (Section 3.6), as well as all the normalization and parameterization details (Section 3.7). 3.1 예측을 만드는 방법 우리의 GraphCast 모델은 균형 (2)에서 φ의 역할을 수행하고 두 개의 연속 입력 상태를 기반으로 다음 단계를 예측하는 단계 학습 시뮬레이터로 정의됩니다. 방정식(3)과 마찬가지로, 우리는 예측을 생성하기 위해 GraphCast를 반복적으로 적용할 수 있다. 임의의 길이, T. 이것은 그림 1b, c. 우리는 초기 실험에서 두 개의 입력 상태가 하나보다 더 나은 성능을 제공하고, 세 가지가 증가 된 메모리 발자국을 정당화하는 데 충분히 도움이되지 않는다는 것을 발견했습니다. 3.2 아키텍처 전망 The core architecture of GraphCast uses GNNs in an “encode-process-decode” configuration [6], as depicted in Figure 1d,e,f. GNN-based learned simulators are very effective at learning complex physical dynamics of fluids and other materials [43, 39], as the structure of their representations and computations are analogous to learned finite element solvers [1]. A key advantage of GNNs is that the input graph’s structure determines what parts of the representation interact with one another via learned message-passing, allowing arbitrary patterns of spatial interactions over any range. By contrast, a convolutional neural network (CNN) is restricted to computing interactions within local patches (or, in the case of dilated convolution, over regularly strided longer ranges). And while Transformers [48] can also compute arbitrarily long-range computations, they do not scale well with very large inputs (e.g., the 1 million-plus grid points in GraphCast’s global inputs) because of the quadratic memory complexity induced by computing all-to-all interactions. Contemporary extensions of Transformers often sparsify possible interactions to reduce the complexity, which in effect makes them analogous to GNNs (e.g., graph attention networks [49]). GNN의 자발적인 희귀 상호 작용을 모델링하는 능력을 활용하는 방법은 GraphCast의 내부 "multi-mesh" 대표 기능을 도입함으로써, 이는 몇 가지 메시지를 전달하는 단계 내에서 장거리 상호 작용을 허용하고 전 세계적으로 동일한 공간 해상도를 가지고 있습니다.이것은 경도 - 길이 그리드와는 달리 그리드 포인트의 불균형한 분포를 유도합니다. 우리의 다중 메쉬는 규칙적인 icosahedron (12 노드와 20 얼굴)을 6 번 반복적으로 분할하여 총 40,962 노드와 최고 해상도에서 81,920 얼굴을 가진 icosahedral 메쉬 계층을 얻을 수 있습니다. 우리는 거친 메쉬 노드가 미세 메쉬 노드의 하위 세트라는 사실을 활용하여 최상의 해상도 메쉬에 메쉬 계층의 모든 레벨에서 가장 높은 해상도를 가진 메쉬 계층을 초과 할 수있었습니다.이 절차는 다중 규모의 메쉬 세트를 제공합니다.이 절차는 다중 규모의 멀티 메쉬를 보여줍니다. GraphCast의 인코더(그림 1d)는 처음에는 원래의 넓이- 길이 그리드에서 입력 데이터를 멀티-메쉬에서 배운 기능으로 옮기며, 그리드 포인트에서 멀티-메쉬로 지정된 가장자리를 가진 GNN를 사용합니다. 프로세서(그림 1e)는 16층 깊이의 GNN를 사용하여 멀티-메쉬에서 배운 메시지 전달을 수행하여 멀티-메쉬 가장자리 때문에 공간을 통한 정보의 효율적인 전파를 허용합니다. 디코더(그림 1f)는 나중에 지정된 가장자리를 가진 GNN를 사용하여 마지막 멀티-메쉬 표현을 길이- 길이 그리드로 다시 매핑하고, 이 그리드 표현, Ytk+를 입력 상태, Xt 인코더와 디코더는 원시 데이터가 정규 직선 그리드에 배열되어야 할 필요가 없으며 임의의 메쉬-같은 상태 판단에도 적용될 수 있습니다 [1] 일반 아키텍처는 많은 복잡한 액체 시스템 및 기타 물리적 영역에서 성공한 다양한 GNN 기반 학습 시뮬레이터를 기반으로합니다 [43, 39, 15]. 단일 클라우드 TPU v4 장치에서 GraphCast는 0.25° 해상도, 10일 예측 (6시간 단계)을 60초 이내에 생성할 수 있습니다. 비교를 위해, ECMWF의 IFS 시스템은 11.664 코어 클러스터에서 실행하며 0.1° 해상도, 10일 예측 (첫 90시간 단계에서 1시간 단계로 발행, 93~144시간에서 3시간 단계, 150~240시간에서 6시간 단계)을 생성합니다. 3.3 GraphCast의 차트 GraphCast는 "코드 프로세스 - 디코드" 구성에서 GNN을 사용하여 구현되며, 인코더가 입력 위도 - 길이 그리드에서 여러 개의 메시지 전달을 수행하며, 프로세서는 여러 개의 메시지 - 길이 그리드로 여러 개의 메시지 - 길이 그리드를 다시 매핑합니다 (그림 1 참조). 모델은 다음 단락에서 상세하게 정의된 그래프 G(VG, VM, EM, EG2M, EM2G)에서 작동합니다. VG는 그리드 노드 vG 각각을 포함하는 집합을 나타냅니다. 각 그리드 노드 vG는 각 그리드 노드 vG와 관련된 특징은 vG,Features = [xt−1, xt, ft−1, ft, ft+1, ci]이며, 각 그리드 노드 vG에 해당하는 시간에 의존하는 기상 상태 Xt를 나타냅니다. 각 그리드 노드 vG와 관련된 특징은 모든 37 대기 수준과 표면 변수에 대한 모든 예측 데이터 변수를 포함합니다. 강제 용어 ft는 분석적으로 계산할 수 있는 시간에 의존하는 특징들로 구성되어 있으며 GraphCast에 의해 예측할 필요가 없습니다. 그들은 대기의 상단에 있는 총 사건 태양 방사선을 포함하며, 1 시간 동안 축적되며, 현지 시간 Grid nodes VM represents the set containing each of the mesh nodes 𝑣M. Mesh nodes are placed uniformly around the globe in a R-refined icosahedral mesh 𝑀𝑅. 𝑀0 corresponds to a unit-radius icosahedron (12 nodes and 20 triangular faces) with faces parallel to the poles (see Figure 1g). The mesh is iteratively refined 𝑀𝑟 → 𝑀𝑟+1 by splitting each triangular face into 4 smaller faces, resulting in an extra node in the middle of each edge, and re-projecting the new nodes back onto the unit sphere.4 Features vM,features associated with each mesh node 𝑣M include the cosine of the latitude, and 𝑖 𝑖the sine and cosine of the longitude. GraphCast works with a mesh that has been refined 𝑅 = 6 times, 𝑀6, resulting in 40,962 mesh nodes (see Supplementary Table 4), each with the 3 input features. Mesh nodes EM는 네트워크에 연결된 네트워크 노드 사이에 추가된 양방향 가장자리이다. 핵심적으로 네트워크 가장자리 EM는 모든 수준의 정화, 즉 최상의 네트워크, M6뿐만 아니라 M5, M4, M3, M2, M1 및 M0의 경우에 EM에 추가됩니다. 이것은 정화 프로세스가 작동하는 방식 때문에 간단합니다: Mr−1의 노드는 항상 Mr.의 노드의 하위 집합입니다. 따라서, 낮은 정화 수준에서 도입된 노드는 최대 정화 수준에 관계없이 더 긴 범위 통신을위한 허브 역할을합니다. 모든 수준의 정화의 가장자리 집합을 포함하는 결과적인 그래프는 우리가 "multi-mesh"라고 부르는 것입니다. Mesh edges 송신망 노드 vM을 수신망 노드 vM에 연결하는 각 edge eM의 경우, 우리는 vM→vM edge 기능 eM을 구축하고, 메쉬 노드의 단위 구체의 위치를 사용하여 기능을 구축합니다. 이것은 edge의 vM→vM s r 길이와 송신망 노드의 3d 위치와 수신망 노드 사이의 벡터 차이는 수신자의 로컬 좌표 시스템에서 계산됩니다. 수신자의 로컬 좌표 시스템은 수신망 노드가 길이 0에 위치할 때까지 azimuth 각도를 변경하는 회전을 적용하여 계산되며, 수신자가 넓이 0에 위치할 때까지 극 각도를 변경하는 회전이 따릅니다. 이 결과는 총 327,660 개의 메쉬 가장자 (표 4 참조), 각각 EG2M are unidirectional edges that connect sender grid nodes to receiver mesh nodes. An edge 𝑒G2M 𝑣G→𝑣M is added if the distance between the mesh node and the grid node is smaller s r or equal than 0.6 times5 the length of the edges in mesh 𝑀6 (see Figure 1) which ensures every grid node is connected to at least one mesh node. Features eG2M,features are built the same way as those for 𝑣G→𝑣M s r the mesh edges. This results on a total of 1,618,746 Grid2Mesh edges, each with 4 input features. Grid2Mesh edges EM2G are unidirectional edges that connect sender mesh nodes to receiver grid nodes. For each grid point, we find the triangular face in the mesh 𝑀6 that contains it and add three Mesh2Grid edges of the form 𝑒M2G 𝑣M→𝑣G, to connect the grid node to the three mesh nodes adjacent s r to that face (see Figure 1). Features eM2G,features are built on the same way as those for the mesh 𝑣M→𝑣G s r edges. This results on a total of 3,114,720 Mesh2Grid edges (3 mesh nodes connected to each of the 721 × 1440 latitude-longitude grid points), each with four input features. Mesh2Grid edges 4.4 코딩 인코더의 목적은 프로세서에 대한 데이터를 숨겨진 표현으로 준비하는 것입니다.The purpose of the encoder is to prepare data into latent representations for the processor, which will run exclusively on the multi-mesh. 인코더의 일환으로, 우리는 먼저 그리드 노드, 그리드 노드, 그리드 가장자리, 그리드에서 그리드 가장자리, 그리고 그리드 가장자리까지의 각각의 기능을 5 개의 다층 perceptrons (MLP)를 사용하여 고정 크기의 잠재 공간으로 삽입합니다. Embedding the input features 다음으로, 그리드 노드에서 그리드 노드에 대한 대기 상태 정보를 전송하기 위해, 우리는 그리드 노드와 그리드 노드를 연결하는 Grid2M(VG, VM, EG2M) 두 파티 서브그래프 GG2M(GG2M)를 통해 단일 메시지를 전달하는 단계를 수행합니다.This update is performed using an interaction network [5, 6], augmented to be able to work with multiple node types [2]. First, each of the Grid2Mesh edges are updated using information from the adjacent nodes, Grid2Mesh GNN 그런 다음 매시 노드의 각각은 그 매시 노드에 도착하는 모든 가장자리에서 정보를 집계하여 업데이트됩니다: 그리드 노드의 각각은 또한 업데이트되지만 그리드 노드가 Grid2Mesh 서브그라프의 어떤 가장자리도 수신하지 않기 때문에 집합이 없기 때문에, 세 요소 모두를 업데이트한 후에, 모델은 남은 연결을 포함하고, 간단함을 위해 변수를 재분배한다. 3.5 프로세서 프로세서는 Mesh 노드와 Mesh 가장자리만 포함하는 Mesh subgraph GM(VM, EM)에서 작동하는 깊은 GNN입니다.Mesh 가장자리는 M6, M5, M4, M3, M2, M1 및 M0의 모든 가장자리뿐만 아니라 긴 거리 통신을 가능하게 할 수 있는 전체 multi-mesh를 포함합니다. Mesh GNN의 단일 층은 각각의 mesh 가장자리들을 먼저 인접한 노드의 정보를 사용하여 업데이트하는 표준 상호 작용 네트워크 [5, 6]이다. Multi-mesh GNN Then it updates each of the mesh nodes, aggregating information from all of the edges arriving at that mesh node: And after updating both, the representations are updated with a residual connection and for simplicity of the notation, also reassigned to the input variables: 이전 구절은 단일 계층의 메시지를 전달하는 것을 설명하지만 [43, 39]에 비슷한 접근법을 따르면서, 우리는 각 계층의 MLPs에 대한 분할되지 않은 신경 네트워크 무게를 사용하여 이 계층을 반복적으로 16번 적용했습니다. 3.6 디스플레이 The role of the decoder is to bring back information to the grid, and extract an output. Analogous to the Grid2Mesh GNN, the Mesh2Grid GNN performs a single message passing over the Mesh2Grid bipartite subgraph GM2G(VG, VM, EM2G). The Grid2Mesh GNN is functionally equivalent to the Mesh2Grid GNN, but using the Mesh2Grid edges to send information in the opposite direction. The GNN first updates each of the Grid2Mesh edges using information of the adjacent nodes: Mesh2Grid GNN Then it updates each of the grid nodes, aggregating information from all of the edges arriving at that grid node: 이 경우 우리는 그들이이 시점에서 어떤 역할을하지 않을 것이기 때문에 mesh 노드를 업데이트하지 않습니다. Here again we add a residual connection, and for simplicity of the notation, reassign the variables, this time only for the grid nodes, which are the only ones required from this point on: 마지막으로, 그리드 노드 각각에 대한 예측 yi는 다른 MLP를 사용하여 생성됩니다. Output function 그 그리드 노드에 대한 모든 227개의 예측 변수를 포함한다. [43, 39]와 마찬가지로 다음 날씨 상태인 X ̈t+1은 모든 그리드 노드의 입력 상태에 각 노드 예측, Y ̈t를 추가함으로써 계산된다. 3.7 표준화 및 네트워크 매개 변수화 [43, 39]와 마찬가지로, 우리는 모든 입력을 정상화했습니다. 각 물리적 변수에 대해 1979년부터 2015년까지의 압력 수준 평균과 표준 편차를 계산하여 평균과 단위 편차를 0으로 정상화했습니다. 상대적인 가장자리 거리와 길이에 대해서는 가장 긴 가장자리의 길이로 특성을 정상화했습니다. Input normalization 왜냐하면 우리의 모델은 차이를 출력하기 때문에, Y ̈t, 이는 추론 중에 Xt에 X ̈t+1을 생산하기 위해 Xt에 추가되기 때문에, 우리는 각 변수의 시간 차이 Yt = Xt+1 − Xt에 대한 압력 수준 표준 deviation 통계를 계산함으로써 모델의 출력을 정규화했습니다.When the GNN produces an output, we multiply this output by this standard deviation to obtain Y ̈t before calculating X ̈t+1, as in Equation (18).For simplicity, we omit this output normalization from the notation. Output normalization GraphCast 내의 신경 네트워크는 하나의 숨겨진 레이어와 512의 숨겨진 및 출력 레이어 크기 (Decoder의 MLP의 최종 레이어를 제외하고, 출력 크기는 227이며, 각 그리드 노드에 대한 예측 변수 수를 일치합니다).We chose the “swish” [40] activation function for all MLPs.All MLPs are followed by a LayerNorm [3] layer (Decoder의 MLP를 제외하고). Neural network parameterizations 4) 훈련 세부사항 This section provides details pertaining to the training of GraphCast, including the data split used to develop the model (Section 4.1), the full definition of the objective function with the weight associated with each variable and vertical level (Section 4.2), the autoregressive training approach (Section 4.3), optimization settings (Section 4.4), curriculum training used to reduce training cost (Section 4.5), technical details used to reduce the memory footprint of GraphCast (Section 4.6), training time (Section 4.7) and the software stacked we used (Section 4.8). 4.1 훈련 분할 예측이 미래의 정보에 의존할 수 없는 실제 배포 조건을 모방하기 위해, 우리는 GraphCast를 개발하는 데 사용된 데이터와 그 성능을 "원인적으로" 테스트하는 데 사용된 데이터를 분할했으며, "개발 세트"는 "테스트 세트"에 포함된 날짜보다 이전 날짜에만 포함되어 있었습니다. 개발 세트는 1979~2017년, 테스트 세트는 2018~2021년을 포함합니다. 개발 세트 내에서 우리는 데이터를 1979~2015년을 포함한 훈련 세트와 2016~2017년을 포함하는 검증 세트로 나누었다.우리는 훈련 세트를 모델을 위한 훈련 데이터와 하이퍼 매개 변수 최적화 및 모델 선택을 위한 검증 세트로 사용하여 최적의 모델 아키텍처를 결정했습니다.우리는 모델 아키텍처와 모든 훈련 옵션을 냉동하고 테스트 단계로 옮겼습니다.처음 작업에서 1959~78년의 이전 데이터에 대한 훈련도 탐구했지만 성능에 약간의 이익이 있음을 발견했기 때문에 최종 단계에서 1959~78년을 단순함으로써 제외했습니다. 4.2 교육 목표 GraphCast는 gradient descent를 사용하여 ERA5 목표에 대한 12단계 예측 (3일)에 걸쳐 객관적인 기능을 최소화하도록 훈련되었습니다.The training objective is defined as the average square error (MSE) between the target output X and predicted output X ̈, where τ ∈ 1 : Ttrain은 Ttrain 자극 단계에 해당하는 리드타임이다. d0 ∈ Dbatch는 훈련 세트의 예측 배치의 예측 초기화 날짜 시간을 나타냅니다.Dbatch represents forecast initialization date-times in a batch of forecasts in the training set. 𝑗 ∈ 𝐽 indexes the variable, and for atmospheric variables the pressure level. E.g. 𝐽 ={z1000, z850, . . . , 2 T, MsL}, i ∈ G0.25◦는 그리드의 위치(위도와 길이) 좌표, x ̈d0+τ 및 xd0+τ는 일부 변수 수준, 위치 및 리드 시간,j,i j,i에 대한 예측 및 목표 값입니다. s j 는 시간 차이의 변수 수준 전환 변수입니다. s j is the per-variable-level inverse variance of time differences. wj는 per-variable-level 손실 무게, ai는 경도와 함께 변하는 경도 길이 그리드 셀의 영역이며, 그리드 위의 단위 평균으로 정상화된다. ai is the area of the latitude-longitude grid cell, which varies with latitude, and is normalized to unit mean over the grid. 단일 스칼라 손실을 구축하기 위해, 우리는 대역 길이, 압력 수준, 변수, 리드 타임 및 배치 크기의 평균을 가져 왔습니다.We averaged across latitude-longitude axes, with a weight proportional to the latitude-longitude cell size (normalized to mean 1).We applied uniform averages across time and batch. The quantities 𝑠 = 𝕍 h𝑥𝑡+1 − 𝑥𝑡 i −1 are per-variable-level inverse variance estimates of the time differences, which aim to standardize the targets (over consecutive steps) to unit variance. These were estimated from the training data. We then applied per-variable-level loss weights, 𝑤𝑗. For atmospheric variables, we averaged across levels, with a weight proportional to the pressure of the level (normalized to unit mean), as shown in Figure 6a. We use pressure here as a proxy for the density [26]. Note that the loss weight applied to pressure levels at or below 50 hPa, where HRES tends to perform better than GraphCast, is only 0.66% of the total loss weight across all variables and levels. We tuned the loss weights for the surface variables during model development, so as to produce roughly comparable validation performance across all variables: the weight on 2 T was 1.0, and the weights on 10 U, 10 v, MsL, and TP were each 0.1, as shown in Figure 6b. The loss weights across all variables sum to 7.4, i.e., (6 × 1.0 for the atmospheric variables, plus (1.0 + 0.1 + 0.1 + 0.1 + 0.1) for the surface variables listed above, respectively). 4.3 자극적 목표에 대한 훈련 한 단계 이상에 걸쳐 정확한 예측을 할 수 있는 모델의 능력을 향상시키기 위해, 우리는 모델의 예측된 다음 단계가 다음 단계를 예측하기 위한 입력으로 다시 공급되는 자극적 훈련 체계를 사용했습니다.GraphCast의 최종 버전은 아래에 설명된 커리큘럼 훈련 일정에 따라 12개의 자극적 훈련 단계를 통해 훈련되었습니다.최적화 절차는 예측의 각 단계에 대한 손실을 계산했습니다. 4.4 최적화 우리는 ERA5 훈련 데이터 세트에서 토양 진리 경로를 샘플링했으며, 대체로, 32 크기의 배치에 대해 AdamW 최적화기 [33, 27]를 사용하여 매개 변수 (beta1 = 0.9, beta2 = 0.95)를 사용했습니다. 4.5. Curriculum training schedule Training the model was conducted using a curriculum of three phases, which varied the learning rates and number of autoregressive steps. The first phase consisted of 1000 gradient descent updates, with one autoregressive step, and a learning rate schedule that increased linearly from 0 to 1e−3 (Figure 7a). The second phase consisted of 299,000 gradient descent updates, again with one autoregressive step, and a learning rate schedule that decreased back to 0 with half-cosine decay function (Figure 7b). The third phase consisted of 11,000 gradient descent updates, where the number of autoregressive steps increased from 2 to 12, increasing by 1 every 1000 updates, and with a fixed learning rate of 3e−7 (Figure 7c). 4.6. Reducing memory footprint To fit long trajectories (12 autoregressive steps) into the 32GB of a Cloud TPU v4 device, we use several strategies to reduce the memory footprint of our model. First, we use batch parallelism to distribute data across 32 TPU devices (i.e., one data point per device). Second, we use bfloat16 floating point precision to decrease the memory taken by activations (note, we use full-precision numerics (i.e. float32) to compute performance metrics at evaluation time). Finally, we use gradient check-pointing [11] to further reduce memory footprint at the cost of a lower training speed. 4.7. Training time 위에서 자세히 설명한 것처럼 자극적 단계 수를 증가시키는 훈련 일정에 따라 GraphCast 훈련은 32 TPU 장치에서 약 4 주가 걸렸습니다. 4.8 소프트웨어 및 하드웨어 스택 우리는 JAX [9], Haiku [23], Jraph [17], Optax, Jaxline [4] 및 xarray [25]를 사용하여 모델을 구축하고 훈련합니다. 5) 검증 방법 이 섹션은 우리의 평가 프로토콜에 대한 세부 사항을 제공합니다. 5.1 섹션은 원인적인 방식으로 데이터를 분할하는 우리의 접근 방식을 자세히 설명하여 의미있는 일반화, 즉 미래의 정보를 활용하지 않고, 우리의 평가 테스트를 보장합니다. 5.2 섹션은 더 자세히 HRES 기술을 평가하고 GraphCast와 비교하는 우리의 선택을 설명합니다, 짧은 리드 타임 (5.2.1 섹션)에서 그것을 처벌하는 것을 피하기 위해 HRES 특정 지상 진실의 필요성부터 시작, ERA5 및 HRES가 각 국가가 통합하는 lookahead에 다른 동화 창을 사용하여 (5.2.2 섹션), 결과적으로 시간 GraphCast 및 HRES에 대한 초기화 선택은 모든 방법이 그들의 입력과 그들의 목표 (5.2.3 섹션)에서 동일한 5.1 훈련, 검증 및 테스트 분할 테스트 단계에서 개발 단계의 끝에 냉동된 프로토콜을 사용하여 (4.1 섹션) GraphCast의 네 가지 버전을 훈련, 각각 다른 기간에. 2018–2021, 2019–2021, 2020–2021 및 2021 각각. 다시,이 분열은 모델 버전을 훈련하는 데 사용 된 데이터와 성능을 평가하는 데 사용 된 데이터 사이의 원인 분리를 유지했습니다 (그림 8 참조). 대부분의 결과는 2018 년에 평가되었습니다 (즉, 모델이 1979–2017 년에 훈련되었을 때), 몇 가지 예외가 있습니다. 사이클론 추적 실험을 위해, 우리는 사이클론이 그렇게 일반적이지 않기 때문에 2018–2021 년에 결과를보고합니다. 그래서 더 많은 년을 포함하여 샘플 크기가 증가합니다. 우리는 주어진 해에 대한 최신 버전의 GraphCast를 사용하여 예측합니다 : 2018 예측 GraphCast <2018, 2019 예측 GraphCast <2019 등 훈련 데이터 최근 실험을 위해, 우리는 5.2 GraphCast와 HRES를 비교하기 5.2.1 지상 진실 데이터 세트의 선택 GraphCast was trained to predict ERA5 data, and to take ERA5 data as input; we also use ERA5 as ground truth for evaluating our model. HRES forecasts, however, are initialized based on HRES analysis. Generally, verifying a model against its own analysis gives the best skill estimates [45]. So rather than evaluating HRES forecasts against ERA5 ground truth, which would mean that even the zeroth step of HRES forecasts would have non-zero error, we constructed an “HRES forecast at step 0” (HRES-fc0) dataset, which contains the initial time step of HRES forecasts at future initializations (see Table 3). We use HRES-fc0 as ground truth for evaluating HRES forecasts. 5.2.2. Ensuring equal lookahead in assimilation windows GraphCast와 HRES의 기술을 비교할 때, 우리는 ERA5 및 HRES-fc0 데이터 동화 창 간의 차이점을 제어하기 위해 여러 가지 선택을 했습니다. 섹션 1에서 설명한 바와 같이, HRES는 매일 00z, 06z, 12z 및 18z 중심의 4 개의 +/-3h 창을 사용하여 관찰을 동화시킵니다 (18z는 Zulu 협약에서 18:00 UTC를 의미합니다), ERA5는 00z 및 12z 중심의 2 개의 +9h/-3h 창을 사용하며, 또는 동등하게 06z 및 18z 중심의 2 개의 +3h/-9h 창을 사용합니다. 예를 들어 그림 9을 참조하십시오. 우리는 06z 및 18z 초기화에서 GraphCast의 예측을 평가하기로 결정했으며, 그 입력은 미래의 관 그림 10은 06z/18z에서 초기화 된 GraphCast의 성능을 보여줍니다, 그리고 00z/12z에서 초기화 된 상태에서, GraphCast는 더 큰 lookahead를 가진 상태에서 초기화 된 경우, 더 긴 리드 타임에 지속되는 눈에 띄는 개선을 얻고, 06z/18z에서 초기화 된 평가에 대한 우리의 선택을 지원합니다. 우리는 평가할 목표를 선택할 때 동일한 논리를 적용했습니다 : 우리는 HRES와 ERA5 모두에 대한 3h lookahead를 포함하는 목표를 평가합니다. atz 및 18z의 초기화 선택을 고려하면, 이것은 미래의 06z 및 18z 분석 시간에 대해 12h마다 평가하는 것과 일치합니다. 실용적인 예로, 06z에서 초기화 된 GraphCast와 HRES를 평가한다면, 6h 5.2.3 초기화 및 유효 시간의 일치 위에서 언급했듯이, HRES와의 공정한 비교는 06z 및 18z 초기화를 사용하여 GraphCast를 평가하고, 12h의 다수인 리드 타임을 사용하여 유효 시간을 06z 및 18z로 평가해야합니다. 최대 3.75 일까지의 리드 타임에는 06z 및 18z 초기화 및 유효 시간을 사용하여 아카이브 HRES 예측이 사용할 수 있으며, 이러한 리드 타임에서 GraphCast와 같은 비교를 수행하기 위해 이러한 리드 타임을 사용합니다. 4일 이상의 리드 타임의 경우, 아카이브 HRES 예측은 00z 및 12z 초기화에서만 사용할 수 있으며, 12시간의 다중 리드 타임을 고려하면 00z 및 12z 유효 시간을 의미합니다.이 리드 타임에서는 06z 및 18z의 GraphCast를 비교할 수 없으며, 00z 및 12z의 HRES를 비교할 수 있습니다. 이러한 세계적으로 정의된 RMSEs의 비교에서, 우리는 HRES에 약간의 이점을 줄일 하루의 시간 차이를 예상합니다. 그림 11에서, 우리는 3.5 일 리드 타임까지 HRES RMSEs가 평균적으로 00z 및 12z 초기화 / 유효 시간보다 06z 및 18z 시간보다 작을 것으로 보입니다. 우리는 리드 타임이 증가함에 따라 차이가 줄어들고, 06z/18z RMSEs는 일반적으로 00z/12z RMSE보다 높은 비합격을 향해 경향하는 것처럼 보이지만, 그 중 2% 이내에 있습니다. 우리는 이러한 차이들이 더 긴 리드 타임에서 HRES를 유리하게 유지하기를 기대하며, 작은 상태로 남아 있음에도 불구하고, 그래서 우리는 GraphCast가 HRES보다 더 능숙한 경우에 우리의 결론을 위협하지 않는 리드 타임의 함수로 RMSE 및 기타 평가 매개 변수를 프로그래밍할 때마다, 우리는 06z/18z에서 HRES를 평가하는 것에서 00z/12z로 전환하는 3.5일 변환점을 지정하여 06z/18z와 00z/12z의 변환점 모두를 프로그래밍하여 중단성을 명확하게 표시합니다. 5.2 평가기간 Most of our main results are reported for the year 2018 (from our test set), for which the first forecast initialization time was 2018-01-01_06:00:00 UTC and the last 2018-12-31_18:00:00, or when evaluating HRES at longer lead times, 2018-01-01_00:00:00 and 2018-12-31_12:00:00. Additional results on cyclone tracking and the effect of data recency use years 2018–2021 and 2021 respectively. 5.3. Evaluation metrics We quantify the skillfulness of GraphCast, other ML models, and HRES using the root mean square error (RMSE) and the anomaly correlation coefficient (ACC), which are both computed against the models’ respective ground truth data. The RMSE measures the magnitude of the differences between forecasts and ground truth for a given variable indexed by 𝑗 and a given lead time 𝜏 (see Equation (20)). The ACC, L𝑗,𝜏 , is defined in Equation (29) and measures how well forecasts’ differences from climatology, i.e., the average weather for a location and date, correlate with the ground truth’s differences from climatology. For skill scores we use the normalized RMSE difference between model 𝐴 and baseline 𝐵 as (RMSE𝐴 − RMSE𝐵)/RMSE𝐵, and the normalized ACC difference as (ACC𝐴 − ACC𝐵)/(1 − ACC𝐵). All metrics were computed using float32 precision and reported using the native dynamic range of the variables, without normalization. 우리는 주어진 변수, x j 및 리드 타임, τ = tΔd에 대한 예측 능력을 측정하여 대경계 중간 평방 오류 (RMSE)를 사용하여 Root mean square error (RMSE) 어디 d0 ∈ Deval은 평가 데이터 세트의 예측 초기화 날짜 시간을 나타냅니다. • j ∈ J 인덱스 변수 및 수준, 예를 들어, J = {z1000, z850, . . . , 2 T, MsL}, • i ∈ G0.25◦는 그리드의 위치(위도와 길이) 좌표, • 𝑥ˆ𝑑0+𝜏 and 𝑥𝑑0+𝜏 are predicted and target values for some variable-level, location, and lead time, J J I I I I I • ai는 넓이와 함께 변하는 넓이- 길이 그리드 셀의 영역입니다 (normalized to unit mean over the grid) which varies with latitude. 예측 초기화에 비해 평균 내의 사각형 뿌리를 취함으로써 WeatherBench의 협약[41]을 따릅니다.그러나 이것이 RMSE가 다른 많은 맥락에서 정의되는 방식과 다르다는 점을 알아봅니다. 구체적 조화 영역에서 필터링, 절단 또는 분해되는 예측을 포함하는 모든 비교에서, 편리함을 위해 우리는 구체적 조화 영역에서 직접 RMSEs를 계산하고, 모든 수단은 사각형 뿌리 내부에서 취한다. Root mean square error (RMSE), spherical harmonic domain. 여기서 f·d0+τ 및 f·d0+τ는 총파 숫자 j,l,m j,l,m를 가진 구상 조화학의 예측 및 타겟 요소입니다. l and longitudinal wavenumber m. We calculate these coefficients from grid-based data using a discrete spherical harmonic transform [13] with triangular truncation at wavenumber 719, which was chosen to resolve the 0.25° (28km) resolution of our grid at the equator.This means that l ranges from 0 to lmax = 719 and m from −l to l. 이 RMSE는 방정식(21)에서 주어진 RMSE의 그리드 기반 정의에 가까이 접근하지만, 부분적으로 719의 파수에서 삼각형 트론싱이 극 근처의 평각형 그리드의 추가 해상도를 해결하지 않기 때문에 정확하게 비교할 수 없습니다. This is computed following the RMSE definition of Equation (21), but for a single location: Root mean square error (RMSE), per location. We also break down RMSE by latitude only : 또한 넓이로 RMSE를 분할합니다. G0.25◦ G0.25◦ G0.25◦ G0.25◦ G0.25◦ G0.25◦ G0.25◦ G0.25◦ G0.25◦ G.1440 는 우리의 정규 0.25° 그리드의 분리된 길이의 숫자입니다. This is computed following the RMSE definition of Equation (21) but restricted to a particular range of surface elevations, given by bounds 𝑧𝑙 ≤ 𝑧surface < 𝑧𝑢 on the surface geopotential: Root mean square error (RMSE), by surface elevation. l 는 징후 기능을 나타냅니다. 이 금액은 정의된 Mean bias error (MBE), per location. 이것은 Equation (26)의 per-location biases의 평균 magnitude를 정량화하고, Root-mean-square per-location mean bias error (RMS-MBE). 이것은 두 개의 다른 모델 A와 B의 per-location biases (Equation (26)) 간의 상관 관계를 정량화합니다.We use a uncentred correlation coefficient because of the significance of the origin zero in measurements of bias, and calculate this quantity according to Correlation of per-location mean bias errors. Anomaly correlation coefficient (ACC) 또한 주어진 변수, x j, 및 리드 타임, τ = tΔd에 대한 anomaly correlation coefficient을 계산했습니다. where 𝐶𝑑0+𝜏 is the climatological mean for a given variable, level, latitude and longitude, and for the day-of-year containing the validity time 𝑑0 + 𝜏. Climatological means were computed using ERA5 data between 1993 and 2016. All other variables are defined as above. 5.4 통계적 방법론 5.4.1 중간 차이에 대한 중요성 테스트 각 리드 타임 τ 및 변수 수준 j에 대하여, 우리는 GraphCast 및 HRES에 대하여 초기화 시간 RMSEs 사이의 평균 차이를 테스트합니다. 우리는 [16]의 방법론에 따라 자동 연관성에 대한 교정이 있는 쌍방향 t 테스트를 사용합니다. 이 테스트는 예측 점수의 차이의 시간 시리즈가 정지된 Gaussian AR(2) 프로세스로서 적절하게 모델링되어 있다고 가정합니다. 이 가정은 우리에게 정확하게 적용되지 않지만 ECMWF가 [16]에서 중간 범위 날씨 예측을 검증하기에 적합하다고 동기를 부여합니다. 우리의 테스트에 대한 명시 샘플 크기는 n = 730 4 일 이하의 리드 타임에서, 2018 년 365 일 동안 하루에 두 개의 예측 초기화로 구성되어 있습니다 (4 일 이하의 리드 타임에서 우리는 n = 729, 5.4.2 섹션 참조). 그러나 이러한 데이터 (예측 RMSEs의 차이점)는 시간에 자동적으로 연관되어 있습니다. 다음 [16] 우리는 표준 오류에 대한 인플레이션 요소 k를 추정하여 이를 수정합니다. k 값은 1.21에서 6.75 사이의 범위이며, 가장 높은 값은 짧은 리드 타임과 가장 낮은 압력 수준에서 일반적으로 볼 수 있습니다. See Table 5 for detailed results of our significance tests, including 𝑝-values, values of the 𝑡 test statistic and of 𝑛eff. 5.4.2. Forecast alignment 리드 타임 τ 4 일 미만의 경우, 우리는 GraphCast와 HRES 모두에 대해 매일 06z 및 18z 초기화 및 유효 시간에 예측을 사용할 수 있으며, 이러한 쌍화된 예측 사이의 RMSEs 차이를 테스트 할 수 있습니다. 우리는 차이를 계산합니다 which we use to test the null hypothesis that 𝔼[diff-RMSE( 𝑗, 𝜏, 𝑑0)] = 0 against the two-sided alterna-tive. Note that by our stationarity assumption this expectation does not depend on 𝑑0. As discussed in Section 5.2.3, at lead times of 4 days or more we only have HRES forecasts available at 00z and 12z initialization and validity times, while for the fairest comparison (Section 5.2.2) GraphCast forecasts must be evaluated using 06z and 18z initialization and validity times. In order to perform a paired test, we compare the RMSE of a GraphCast forecast with an interpolated RMSE of the two HRES forecasts either side of it: one initialized and valid 6 hours earlier, and the other initialized and valid 6 hours later, all with the same lead time. Specifically we compute differences: 우리는 이러한 것을 사용하여 null 가설 E[diff-RMSEinterp( j, τ, d0)] = 0을 테스트할 수 있습니다.이 가설은 또다시 차이에 대한 정체성 가정에 의해 d0에 의존하지 않습니다. 우리가 HRES RMSE 시간 시리즈 자체가 정체적이라고 가정하면 (또는 적어도 6 시간 창에 걸쳐 정체성에 충분히 가까운 경우) E[diff-RMSEinterp( j, τ, d0)] = E[diff-RMSE( j, τ, d0)]와 인터폴레이션 된 차이점은 또한 E[diff-RMSE( j, τ, d0)] = 0이라는 원래 null 가설의 편차를 테스트하는 데 사용할 수 있습니다. HRES RMSEs에 대한 더 강한 안정성 가정은 일일 주기성에 의해 위반되며, 5.2.3 절에서 우리는 유효 시간의 00z/12z와 06z/18z 사이의 HRES RMSEs에서 일부 체계적인 차이를 볼 수 있습니다.그러나 거기에서 논의 된 바와 같이, 이러한 체계적인 차이는 리드 시간이 증가함에 따라 상당히 줄어들며 HRES를 선호하는 경향이 있으며, 따라서 우리는 diff-RMSE( j, τ, d0)] = 0의 테스트가 diff-RMSEinterp를 기반으로하는 경우 GraphCast가 HRES보다 더 많은 기술을 갖고있는 것처럼 보일 것이라고 믿습니다. 5.4.3 RMSEs에 대한 신뢰 간격 The error bars in our RMSE skill plots correspond to separate confidence intervals for 𝔼[RMSE𝐺𝐶] and 𝔼[RMSE𝐻𝑅𝐸𝑆] (eliding or now the arguments 𝑗, 𝜏, 𝑑0). These are derived from the two-sided 𝑡-test with correction for autocorrelation that is described above, applied separately to GraphCast and HRES RMSE time-series. 이러한 신뢰 간격은 분리 된 GraphCast 및 HRES RMSE 시간 시리즈의 안정성 가정을 만듭니다, 이는 위에서 언급했듯이 차이의 안정성이 약간 위반되고 있다는 강력한 가정입니다. 5.4.4 RMSE 기술 점수에 대한 신뢰 간격 섹션 5.4.1에 설명된 t-테스트에서 우리는 또한 RMSEs의 진정한 차이에 대한 확신 간격을 표준 방식으로 추출할 수 있지만, 우리의 기술 점수 플로트에서는 진정한 RMSE 기술 점수에 대한 확신 간격을 보여주고 싶습니다. 이 양의 신뢰 간격은 진정한 HRES RMSE에 대한 우리의 추정의 불확실성을 고려해야합니다. [ldiff, udiff]는 숫자에 대한 우리의 1 − α/2 신뢰 간격 (RMSEs의 차이), 그리고 [lHRES, uHRES]는 지칭자에 대한 우리의 1 − α/2 신뢰 간격 (HRES RMSE). 0 < lHRES는 각각의 경우에 우리를 위해, 간격 계산과 연합을 사용하여 보수적 인 1 − α 신뢰 간격을 얻습니다. 우리는 RMSE 기술 점수에 대한 우리의 추정과 함께 이러한 신뢰 간격을 계획하지만, 우리는 중요성 테스트를 위해 그들에게 의존하지 않는다는 점을 명심하십시오. 이전 기계 학습 기본 라인과 비교 GraphCast의 성능이 다른 ML 방법과 비교되는 방법을 결정하기 위해, 우리는 Pangu-Weather [7]에 초점을 맞추고, 0.25° 해상도에서 작동하는 강력한 MLWP 기본 라인입니다. 가장 직접적인 비교를 만들기 위해, 우리는 우리의 평가 프로토콜을 사용하여 [7]에 설명 된 것과 비교합니다. 발표 된 Pangu-Weather 결과는 00z/12z 초기화에서 얻을 수 있기 때문에, 우리는이 논문의 나머지 부분과 마찬가지로 06z/18z 대신 GraphCast에 대한 동일한 초기화를 사용합니다. 이것은 두 모델 모두가 동일한 입력에 초기화 될 수있게합니다. [7]에서 설명 된 것과 같은 양의 lookahead (+9 시간, 5.2.2 및 5.2 장 참조). HRES 초기화 그림 12에서 볼 수 있듯이, GraphCast (블루 라인)는 표적의 99.2 %에서 Pangu-Weather [7] (붉은 라인)를 뛰어넘습니다. 표면 변수 (2 T, 10 U, 10 v, MsL)의 경우, GraphCast의 오류는 처음 몇 일 동안 약 10-20 % 낮으며, 더 긴 리드 타임 플레이트에서 약 7-10 % 낮은 오류입니다. 7. Additional forecast verification results 이 섹션은 GraphCast의 성능에 대한 추가적인 분석을 제공하여 그 강점과 한계에 대한 더 완전한 그림을 제공합니다. 섹션 7.1은 추가 변수와 z500 이외의 수준에 대한 논문의 주요 결과를 보완합니다. 섹션 7.2는 GraphCast 성능을 지역, 경도 및 압력 수준으로 분할하여 분석합니다 (특히 tropopause 아래와 위의 HRES 및 GraphCast에 적용되는 최적의 방해 성능을 구별함), GraphCast의 편견과 경도와 상승에 의한 RMSE를 보여줍니다. 섹션 7.3은 멀티 메쉬와 자율 방해 손실이 GraphCast의 성능에 중요한 역할을한다는 것을 보여줍니다. 섹션 7.4은 HRC의 손실과 방해에 대한 자율 방해 7.1 추가 변수에 대한 자세한 결과 7.1.1. RMSE and ACC 그림 13은 그림 2a-b를 보완하고 12 개의 고급 변수 조합에서 GraphCast 및 HRES의 HRES와 관련하여 RMSE 및 표준화된 RMSE 차이를 보여줍니다. 그림 14은 12 개의 변수 조합에서 GraphCast 및 HRES의 HRES와 관련하여 ACC 및 표준화된 ACC 차이를 보여줍니다. 7.1.2 RMSE 비교에 대한 상세한 중요성 테스트 결과 표 5는 GraphCast와 HRES 사이의 RMSE 차이에 관한 주요 섹션에서 제시된 통계적 중요성 주장에 대한 추가 정보를 제공합니다. 방법론에 대한 자세한 내용은 섹션 5.4에 있습니다. 여기서 우리는 모든 변수에 대한 p-값, 테스트 통계 및 효과적인 샘플 크기를 제공합니다. 공간의 이유로 우리는 세 가지 핵심 리드 타임 (12 시간, 2 일 및 10 일)과 이러한 리드 타임에서 p > 0.05이있는 모든 경우를 포함하기 위해 선택된 7 압력 수준의 하위 세트로 우리 자신을 제한합니다. 7.1.3 GraphCast에 대한 데이터 최근의 영향 MLWP 방법의 중요한 특징은 그들이 최신 데이터로 정기적으로 재훈련 될 수 있다는 것입니다.이것은 원칙적으로 ENSO주기와 다른 진동과 기후 변화의 영향과 같은 시간에 따라 변화하는 최근 날씨 패턴을 모델링 할 수 있습니다.훈련 데이터의 최근이 GraphCast의 테스트 성능에 어떻게 영향을 미치는지를 탐구하기 위해 우리는 GraphCast의 네 가지 변형을 훈련했으며, 훈련 데이터는 항상 1979 년에 시작했지만 2017 년, 2018 년, 2019 년 및 2020 년에 끝났습니다. 그림 15은 여러 변수에 대한 GraphCast의 네 가지 변형의 기술 및 기술 점수 (HRES에 관해서)를 보여줍니다. 그림 4a. 테스트 년에 가까운 해에 훈련 된 변형이 일반적으로 HRES에 비해 기술 점수를 향상시켰을 때 일반적인 경향이 있습니다.이 개선의 이유는 완전히 이해되지 않지만, 우리는 최근 날씨에 대한 통계적 편견이 정확성을 향상시키기 위해 활용되는 장기 편견 교정과 유사하다고 추측합니다. 또한 HRES가 수년을 통하여 단일 NWP가 아니라는 점을 지적하는 것이 중요합니다 : 그것은 일년에 한 번 또는 두 번 업그레이드되는 경향이 있으며, 일반적으로 z500 및 기타 분야에 대한 기술이 증가합니다 [18, 22, 19, 20, 21]. 이는 GraphCast:<2018 및 GraphCast:<2019, 특히 2021 테스트 평가의 초기 리드 타임에서 HRES에 비해 기술 점수가 낮은 이유에도 기여할 수 있습니다. 우리는 다른 변수의 경우 GraphCast:<2018 및 GraphCast:<2019는 여전히 HRES를 뛰어넘는 경향이 있습니다.이 결과는 최근 데이터를 다시 훈련함으로써 성능을 자동으로 향상시킬 수있는 GraphCast의 핵심 기능을 강조합니다. 7.2 분할된 결과 7.2.1 지역별 RMSE 예측 능력에 대한 지역별 평가는 그림 17 및 18에서 제공되며, ECMWF 점수 카드 (https://sites.ecmwf.int/ifs/scorecards/ scorecards-47r3HRES.html)에서와 동일한 지역과 이름 조약을 사용합니다. 전체 행성에 대한 더 나은 커버를 위해 몇 개의 추가 지역을 추가했습니다. 7.2.2 RMSE 기술 점수 대경선 및 압력 수준 In Figure 19, we plot normalized RMSE differences between GraphCast and HRES, as a function of both pressure level and latitude. We plot only the 13 pressure levels from WeatherBench [41] on which we have evaluated HRES. 이러한 플롯에서 우리는 각 지대에서 트로포포포아스의 평균 압력을 나타내며, 이는 트로포포스페라와 스트로포스페라를 분리한다. 우리는 [44]의 그림 1에 제공된 ERA-15 데이터 세트 (1979-1993)에 대해 계산된 값을 사용합니다. 이러한 값은 ERA5와 동일하지는 않지만 해석에 대한 대략적인 도움으로만 의도됩니다. 우리는 그림 2의 스코어 카드에서 GraphCast가 평가된 가장 낮은 압력 수준 (50hPa)에서 HRES보다 더 나쁜 성능을 나타낼 수 있습니다. 그림 19은 GraphCast가 악화하기 시작하는 압력 수준이 종종 지대에 의존하는 것으로 나타납니다. The reasons for GraphCast’s reduced skill in the stratosphere are currently poorly understood. We use a lower loss weighting for lower pressure levels and this may be playing some role; it is also possible that there may be differences between the ERA5 and HRES-fc0 datasets in the predictability of variables in the stratosphere. 7.2.3 경도와 길이에 의한 편향 In Figures 20 to 22, we plot the mean bias error (MBE, or just ‘bias’, defined in Equation (26)) of GraphCast as a function of latitude and longitude, at three lead times: 12 hours, 2 days and 10 days. In the plots for variables given on pressure levels, we have masked out regions whose surface elevation is high enough that the pressure level is below ground on average. We determine this to be the case when the surface geopotential exceeds a climatological mean geopotential at the same location and pressure level. In these regions the variable will typically have been interpolated below ground and will not represent a true atmospheric value. 그림 20에서 22에 표시된 위치별 편향의 평균 규모를 정량화하기 위해, 우리는 위치별 평균 편향 오류 (RMS-MBE, Equation (26)에서 정의)의 뿌리 평균 사각형을 계산했습니다. 이들은 GraphCast 및 HRES에 대한 그림 23에서 리드 시간의 기능으로 묘사되어 있습니다. 우리는 GraphCast의 편향이 최대 6 일까지 대부분의 변수의 HRES보다 평균적으로 작다는 것을 볼 수 있습니다. We also computed a correlation coefficient between GraphCast and HRES’ per-location mean bias errors (defined in Equation (27)), which is plotted as a function of lead time in Figure 24. We can see that GraphCast and HRES’ biases are uncorrelated or weakly correlated at the shortest lead times, but the correlation coefficient generally grows with lead time, reaching values as high as 0.6 at 10 days. 7.2.4. RMSE skill score by latitude and longitude 그림 25에서 27에 보면 GraphCast와 HRES 사이의 표준화된 RMSE 차이를 넓이와 길이로 묘사합니다. 7.2.3의 경우, 압력 수준에 주어진 변수와 마찬가지로, 우리는 표면 높이가 압력 수준이 평균적으로 땅 아래에 있는 만큼 충분히 높은 지역을 가리켰습니다. HRES가 GraphCast를 뛰어넘는 주목할만한 영역에는 폴 (특히 남극) 근처의 특정 습도, 폴 근처의 지상 잠재력, 폴 근처의 2m 온도 및 많은 육지 영역을 넘어, 높은 표면 높이 지역의 표면 또는 가까운 표면 변수 (또한 7.2.5항 참조)가 포함됩니다. 12시간 및 2일 리드 타임에서 GraphCast와 HRES는 06z/18z 초기화 및 유효 시간으로 평가되지만, 10일 리드 타임에서는 06z/18z의 GraphCast와 00z/12z의 HRES를 비교해야 합니다(5항 참조). 7.2.5. RMSE 기술 점수는 표면 높이에 따라 In Figure 25, we can see that GraphCast appears to have reduced skill in high-elevation regions for many variables at 12 hour lead time. To investigate this further we divided the earth surface into 32 bins by surface elevation (given in terms of geopotential height) and computed RMSEs within each bin according to Equation (24). These are plotted in Figure 28. At short lead times and especially at 6 hours, GraphCast’s skill relative to HRES tends to decrease with higher surface elevation, in most cases dropping below the skill of HRES at sufficiently high elevations. At longer lead times of 5 to 10 days this effect is less noticeable, however. We note that GraphCast is trained on variables defined using a mix of pressure-level coordinates (for atmospheric variables) and height above surface coordinates (for surface-level variables like 2m temperature or 10m wind). The relationship between these two coordinates systems depends on surface elevation. Despite GraphCast conditioning on surface elevation we conjecture that it may struggle to learn this relationship, and to extrapolate it well to the highest surface elevations. In further work we would propose to try training the model on a subset of ERA5’s native model levels instead of pressure levels; these use a hybrid coordinate system [14] which follows the land surface at the lowest levels, and this may make the relationship between surface and atmospheric variables easier to learn, especially at high surface elevations. 압력 수준 좌표를 사용하는 변수는 압력 수준이 표면 압력을 초과할 때 지하에서 인터폴레이션됩니다. GraphCast는 이것이 발생했음을 명시적으로 나타내지 않으며 이것이 높은 표면 높이에서 예측하는 학습의 도전을 추가 할 수 있습니다. Finally, our loss weighting is lower for atmospheric variables at lower pressure levels, and this may affect skill at higher-elevation locations. Future work might consider taking surface elevation into account in this weighting. 7.3 GraphCast ablations에 관하여 7.3.1 다중 메쉬 낙태 To better understand how the multi-mesh representation affects the performance of GraphCast, we compare GraphCast performance to a version of the model trained without the multi-mesh representation. The architecture of the latter model is identical to GraphCast (including same encoder and decoder, and the same number of nodes), except that in the process block, the graph only contains the edges from the finest icosahedron mesh 𝑀6 (245,760 edges, instead of 327,660 for GraphCast). As a result, the ablated model can only propagate information with short-range edges, while GraphCast contains additional long-range edges. 그림 29(왼쪽 패널)은 GraphCast와 ablated 모델을 비교하는 스코어 카드를 보여줍니다. GraphCast는 5 hPa에서 5 일 이상의 리드 타임을 제외한 모든 예측 변수의 다중 메쉬 구조에서 혜택을 얻습니다.이 개선은 특히 모든 압력 수준에 걸쳐 지형 잠재력과 5 일 이하의 리드 타임에 대한 평균 해상 압력에 대해 강조됩니다.중간 패널은 HRES와 ablated 모델을 비교하는 스코어 카드를 보여줍니다. 7.3.2. Effect of autoregressive training 우리는 덜 자극적 인 (AR) 단계7로 훈련 된 GraphCast 변종의 성능을 분석했는데, 이는 더 긴 리드 타임 성능의 비용으로 짧은 리드 타임 성능을 향상시키는 것을 격려해야합니다. 그림 30에서 보여주는 바와 같이 (더 적은 AR 단계로 훈련에 해당하는 더 밝은 파란색 선으로) 우리는 AR 단계로 훈련받은 모델이 더 짧은 리드 타임 정확성을 위해 더 오래 거래하는 경향이 있음을 발견했습니다.이 결과는 첨가물 섹션 7.4.4에서 자극적 인 단계 수와 혼란 사이의 관계를 논의합니다. 7.4 최적의 블러링 7.4.1 GraphCast와 HRES 사이의 기술 비교에 미치는 영향 In Figures 31 and 32 we compare the RMSE of HRES with GraphCast before and after optimal blurring has been applied to both models. We can see that optimal blurring rarely changes the ranking of the two models, however it does generally narrow the gap between them. 7.4.2. Filtering methodology We chose filters which minimize RMSE within the class of linear, homogeneous (location invariant), isotropic (direction invariant) filters on the sphere. These filters can be applied easily in the spherical harmonic domain, where they correspond to multiplicative filter weights that depend on the total wavenumber, but not the longitudinal wavenumber [12]. For each initialization 𝑑0, lead time 𝜏, variable and level 𝑗, we applied a discrete spherical harmonic transform [13] to predictions 𝑥ˆ𝑑0+𝜏 and targets 𝑥𝑑0+𝜏, obtaining spherical harmonic coefficients 𝑓ˆ𝑑0+𝜏 𝑗 𝑗 𝑗,𝑙,𝑚 and 𝑓 𝑑0+𝜏 for each pair of total wavenumber 𝑙 and longitudinal wavenumber 𝑚. To resolve the 0.25° (28km) resolution of our grid at the equator, we use a triangular truncation at total wavenumber 719, which means that 𝑙 ranges from 0 to 𝑙𝑚𝑎𝑥 = 719, and for each 𝑙 the value of 𝑚 ranges from −𝑙 to 𝑙. 우리는 다음에 예측된 각 요소 f ̈d0+τ를 j,l,m j,l에 독립된 필터 무게 bτ로 곱했습니다.The filter weights were fitted using least-squares to minimize average square error, as computed in the spherical harmonic domain: We used data from 2017 to fit these weights, which does not overlap with the 2018 test set. When evaluating the filtered predictions, we computed MSE in the spherical harmonic domain, as detailed in Equation (22). 각 리드 타임에 대해 다른 필터를 조립함으로써, 혼란의 정도는 더 긴 리드 타임에서 불확실성이 증가함에 따라 자유롭게 증가했습니다. 이 방법은 상당히 일반적이지만, 그것은 또한 한계가 있습니다. 필터가 동일하기 때문에, 그들은 orography 또는 육지-해상 경계와 같은 위치 특정 기능을 고려할 수 없으며, 그래서 그들은 이러한 위치에서 예측 가능한 고해상도 세부 사항을 과도하게 혼란 또는 더 일반적으로 예측할 수없는 고해상도 세부 사항을 과도하게 혼란 사이에서 선택해야합니다. An alternative way to approximate a conditional expectation (and so improve RMSE) for our ECMWF forecast baseline would be to evaluate the ensemble mean of the ENS ensemble forecast system, instead of the deterministic HRES forecast. However the ENS ensemble is run at lower resolution than HRES, and because of this, it is unclear to us whether its ensemble mean will improve on the RMSE of a post-processed version of HRES. We leave an exploration of this for future work. 7.4.3 최적 필터의 전송 기능 필터 무게는 그림 33에서 시각화되며, 필터의 출력 전력과 입력 전력의 비율을 파장의 함수로, 로거티브 데시벨 규모에서 보여줍니다. 균형 (35), 이것은 20 log10(bτ )에 해당하는 전파 숫자 l에 해당하는 파장 Ce/l입니다. For both HRES and GraphCast, we see that it is optimal for MSE to attenuate power over some short-to-mid wavelengths. As lead times increase, the amount of attenuation increases, as does the wavelength at which it is greatest. In optimizing for MSE, we seek to approximate a conditional expectation which averages over predictive uncertainty. Over longer lead times this predictive uncertainty increases, as does the spatial scale of uncertainty about the location of weather phenomena. We believe that this largely explains these changes in optimal filter response as a function of lead time. We can see that HRES generally requires more blurring than GraphCast, because GraphCast’s predictions already blur to some extent (see Section 7.5.3), whereas HRES’ do not. 최적의 필터는 또한 GraphCast 및 HRES 예측의 스펙트럼 편향을 어느 정도 보상할 수 있습니다. 예를 들어, 우리의 복구된 ERA5 데이터 세트의 많은 변수의 경우, 스펙트럼은 ERA5의 원래 0.28125◦ 해상도에서 해결되지 않은 62km 이하의 파장에 대해 갑자기 끊어집니다. We also note that there are noticeable peaks in the GraphCast filter response around 100km wavelength for z500, which are not present for HRES. We believe these are filtering out small, spurious artifacts which are introduced by GraphCast around these wavelengths as a side-effect of the grid-to-mesh and mesh-to-grid transformations performed inside the model. 7.4.4. Relationship between autoregressive training horizon and blurring 그림 34에서 우리는 최적의 혼란의 결과를 사용하여 자극적 인 훈련과 더 긴 리드 타임에서 GraphCast의 예측의 혼란 사이의 연관성을 조사합니다. In the first row of Figure 34, we see that models trained with longer autoregressive training horizons benefit less from optimal blurring, and that the benefits of optimal blurring generally start to accrue only after the lead time corresponding to the horizon they were trained up to. This suggests that autoregressive training is effective in teaching the model to blur optimally up to the training horizon, but beyond this further blurring is required to minimize RMSE. 더 긴 지평선 훈련을 최적의 혼란과 같은 간단한 포스트 프로세싱 전략으로 대체할 수 있다면 편리한 일이지만, 이것은 사실이 아닙니다 : 그림 34의 두 번째 행에서 우리는 최적의 혼란이 적용 된 후에도 더 긴 지평선 자율 반응 훈련이 여전히 낮은 RMSEs를 가져옵니다. If one desires predictions which are in some sense minimally blurry, one could use a model trained to a small number of autoregressive steps. This would of course result in higher RMSEs at longer lead times, and our results here suggest that these higher RMSEs would not only be due to the lack of blurring; one would be compromising on other aspects of skill at longer lead times too. In some applications this may still be a worthwhile trade-off, however. 7.5. Spectral analysis 7.5.1. Spectral decomposition of mean squared error 그림 35 및 36에서 우리는 우수한 필터링 전에 및 후, 다양한 공간 규모에서 GraphCast와 HRES의 기술을 비교합니다 (Section 7.4의 세부 사항을 참조하십시오).The MSE, via its spectral formulation (Equation (22)) can be decomposed as a sum of mean error powers at different total wave numbers: where 𝑙max = 719 as in Equation (22). Each total wavenumber 𝑙 corresponds approximately to a wavelength 𝐶𝑒/𝑙, where 𝐶𝑒 is the earth’s circumference. 우리는 각 바의 영역이 S j,τ(l)에 해당하는 전력 밀도 히스토그램을 계획하고, 바는 log10(1 + l) 주위에 중심을 니다 (록 주파수 스케일이 더 쉬운 시각적 검사를 허용하기 때문에, 우리는 또한 파수 번호 l = 0를 포함해야합니다). At lead times of 2 days or more, for the majority of variables GraphCast improves on the skill of HRES uniformly over all wavelengths. (2m temperature is a notable exception). 12시간에서 1일 사이의 짧은 리드 타임에서 여러 변수(z500, T500, T850 및 U500 포함)의 경우 HRES는 대략적인 200~2000km 범위의 스케일에서 GraphCast보다 더 많은 기술을 갖추고 있으며, 일반적으로 GraphCast는 이 범위 밖에 더 많은 기술을 갖추고 있습니다. 7.5.2 수평 해상도의 기능으로서의 RMSE 그림 37에서 우리는 공간 해상도의 범위에서 평가할 때 GraphCast의 기술과 HRES를 비교합니다.특히, 각 총 파수 ltrunc에서, 우리는 예측과 목표 사이에 RMSEs를 프로그래밍합니다.이 전체 파수 숫자는 대략 Ce/ltrunc의 파장과 동일하며 Ce는 지구의 회로입니다. 조각된 예측과 목표 사이의 RMSEs는 Equation (37)에 정의된 평균 오류 능력 S j,τ(l)의 cumulative sums를 통해 얻을 수 있다. Figure 37 shows that in most cases GraphCast has lower RMSE than HRES at all resolutions typically used for forecast verification. This applies before and after optimal filtering (see Section 7.4). Exceptions include 2 meter temperature at a number of lead times and resolutions, T 500 at 12 hour lead times, and U 500 at 12 hour lead times, where GraphCast does better at 0.25° resolution but HRES does better at resolutions around 0.5◦ to 2.5◦ (corresponding to shortest wavelengths of around 100 to 500 km). 특히, 우리는 ERA5의 원래 해상도는 0.28125◦의 가장 짧은 파장 길이 62km에 해당한다는 것을 주목합니다. HRES-fc0 목표는 62km보다 짧은 파장 길이에서 어떤 신호를 포함하지만, GraphCast를 평가하는 데 사용되는 ERA5 목표는 적어도 원래는 그렇지 않습니다 (부문 7.5.3 참조). 7.5.3. Spectra of predictions and targets 그림 38은 GraphCast의 예측, 그들이 훈련받은 ERA5 목표 및 HRES-fc0의 전력 스펙트럼을 비교합니다. ERA5 및 HRES-fc0의 스펙트럼에는 특히 짧은 파장에서 눈에 띄는 차이가 있습니다. 이러한 차이점은 부분적으로 TL639 (0.28125◦) 및 TCo1279 (약 0.1◦, [36])의 원래 IFS 해상도에서 0.25° 평각형 그리드로 재현하는 방법에 의해 발생할 수 있습니다. 그러나 이 재현이 이루어지기 전에 HRES 및 ERA5에 사용되는 IFS 버전, 설정, 해상도 및 데이터 흡수 방법론에 차이가 있으며, 이러한 차이는 스펙트럼에도 영향을 미칠 수 있습니다. Differences between HRES and ERA5 We see reduced power at short-to-mid wavelengths in GraphCast’s predictions which reduces further with lead time. We believe this corresponds to blurring which GraphCast has learned to perform in optimizing for MSE. We discussed this further in Sections 7.4 and 7.4.4. Blurring in GraphCast 이러한 피크는 z500에서 특히 눈에 띄는 것으로 보인다; 그들은 리드 타임과 함께 증가하는 것으로 보인다.우리는 그들이 각자 자율 반응 단계에서 GraphCast가 수행 한 내부 그리드-to-메시 및 그리드-to-그리드 변환에 의해 도입 된 작은, 가짜 유물에 해당한다고 생각합니다. Peaks for GraphCast around 100km wavelengths Finally we note that, while these differences in power at short wavelengths are very noticeable in log scale and relative plots, these short wavelengths contribute little to the total power of the signal. 추가적인 심각한 이벤트 예측 결과 In this section, we provide additional details about our severe event forecasting analysis. We note that GraphCast is not specifically trained for those downstream tasks, which demonstrates that, beyond improved skills, GraphCast provides useful forecast for tasks with real-world impact such as tracking cyclones (Section 8.1), characterizing atmospheric rivers (Section 8.2), and classifying extreme temperature (Section 8.3). Each task can also be seen as evaluating the value of GraphCast on a different axis: spatial and temporal structure of high-resolution prediction (cyclone tracking task), ability to non-linearly combine GraphCast predictions to derive quantities of interest (atmospheric rivers task), and ability to characterize extreme and rare events (extreme temperatures). 8.1. Tropical cyclone track forecasting 이 섹션에서 우리는 사이클론 추적 (충분 8.1.1) 및 통계적 중요성 분석 (충분 8.1.2)에 사용 된 평가 프로토콜을 자세히 설명하고, 추가 결과를 제공합니다 (충분 8.1.3)와 ECMWF (충분 8.1.4)의 추적기와의 차이점을 설명합니다. 8.1.1 평가 프로토콜 동일한 Graphic Cyclone 예측 시스템을 비교하는 표준 방법은 두 가지 모델이 유효한 사이클론의 존재를 예측하는 이벤트에 비교를 제한하는 것입니다. 추가 섹션 5.2.2에서 자세히 설명한 바와 같이, GraphCast는 06z와 18z, 대신 00z와 12z에서 초기화되며, 항상 HRES에 비해 lookahead 이점을 제공하지 않도록합니다. 그러나, TIGGE 아카이브의 HRES 사이클론 트랙 [8]은 00z와 12z에만 초기화됩니다. 이 불일치는 초기화와 00z와 12z의 동일한 유효 시간을 가져오는 이벤트를 선택하는 것을 방지합니다. HRACS [29, 28]는 사이클론의 존재를 식별합니다. 모든 사이클론을 위해 TES 시간과 시간의 우리는 동일한 기본 진실 (즉, IBTrACS)에 대한 오류를 계산하기 때문에, 평가는 보충 5.2.2 섹션에 설명 된 동일한 제한에 적용되지 않습니다, 즉, 두 모델의 타겟은 동일한 양의 lookahead를 포함합니다. 이것은 HRES (즉, HRES-fc0)의 타겟은 +3h lookahead를 포함하고, GraphCast (ERA5에서)의 타겟은 +3h 또는 +9h를 포함한다는이 논문의 대부분의 평가와는 달리, 이것은 IBTrACS의 타겟은 모두 동일하기 때문에, 우리는 6h의 증가로 리드 타임의 기능으로 성능을보고 할 수 있습니다. For a given forecast, the error between the predicted center of the cyclone and the true center is computed using the geodesic distance. 8.1.2 통계적 방법론 Computing statistical confidence in cyclone tracking requires particular attention in two aspects: 샘플 수를 정의하는 두 가지 방법이 있습니다. 첫 번째 방법은 대부분 독립적 인 이벤트로 가정 될 수있는 열대 사이클론 이벤트의 수입니다. 두 번째 방법은 대기 시간 당 데이터 포인트의 수이며, 이는 더 크지만 연관 된 포인트를 계산합니다 (각 열대 사이클론 이벤트에 대한 다중 예측은 6h 간격에서 이루어집니다). 우리는 통계적 중요성에 대한 더 보수적 인 추정치를 제공하는 첫 번째 정의를 사용하기로 결정했습니다. 두 숫자는 보충 39의 X 축에 1 ~ 5 일간의 대기 시간에 표시됩니다. 2. The per-example tracking errors of HRES and GraphCast are correlated. Therefore statistical variance in their difference is much smaller than their joint variance. Thus, we report the confidence that GraphCast is better than HRES (see Supplements Figure 39b) in addition to the per-model confidence (see Supplements Figure 39a). 위의 두 가지 고려 사항을 감안할 때, 우리는 사이클론 수준에서 95 % 확신 간격으로 부트스트랩을 수행합니다. 주어진 리드 타임을 위해, 우리는 모든 일치하는 초기화 시간 / 리드 타임 쌍을 고려하고 그들이 오는 사이클론의 목록을 유지합니다 (복제없이). 부트스트랩 추정을 위해, 우리는이 사이클론 목록에서 샘플을 추출합니다 (대체와 함께) 그리고 중간 (또는 평균)을 해당 초기화 시간 / 리드 타임 쌍에 적용합니다. 이것은 우리가 초기화 시간 / 리드 타임 쌍 수준에서 부트스트랩을하는 것보다 훨씬 더 보수적 인 신뢰 경계를 제공한다는 점을 명심하십시오. 예를 들어, 주어진 리드 타임에 대해 우리는 사이클론 A의 경우 (50, 100, 150)의 오류를 가졌다고 가정하고, 사이클론 B의 경우 (300, 200)와 사이클론 C의 경우 (100, 100)의 오류를 가졌고, A가 더 많은 샘플을 가졌다고 가정합니다. a bootstrapping sample at the level of cyclones first samples uniformly at random 3 cyclones with replacement (for example A,A,B) and then calculates the average on top of the corresponding samples with multiplicity: average(50,100,150,50,100,150,150,200,300)=137.5. 8.1.3. Results 첨가물 그림 3a-b에서 우리는 평균 오류보다 중간 오류를 표시하기로 결정했습니다. 이 결정은 테스트 세트의 결과를 계산하기 전에, 검증 세트의 성능을 기반으로합니다. 2016–2017 년에, 1979–2015 년에 훈련 된 GraphCast 버전을 사용하여, 우리는 추적기의 초기 버전을 사용하여 평균 추적 오류가 극소수의 outliers에 의해 지배되었으며 전체 인구를 대표하지 않았다는 것을 관찰했습니다. 또한, 이러한 outliers의 상당 부분은 추적 알고리즘의 오류에 의해 영향을 받았습니다. 예측 자체보다, 우리는 추적기가 GraphCast와 함께 사용하기에 최소화되지 않았다고 제안했습니다. 우리의 목표는 추적기보다는 특정한 GraphCast 예측의 가치를 평가 Supplements Figure 39은 평균 트랙 오류와 해당 쌍 분석을 표시함으로써 Figure 3a-b를 보완합니다.We note that using the final version of our tracker (Supplements Section 8.1.4), GraphCast average results are similar to the median one, with GraphCast significantly outperforming HRES for lead time between 2 and 5 days. 추적기가 사이클론의 존재를 탐지하는 데 사용하는 극단을 부드럽게하는 경향이있는 잘 알려진 혼란 효과 때문에 ML 방법은 NWPs보다 기존 사이클론을 더 자주 떨어 뜨릴 수 있습니다. 사이클론을 떨어 뜨리는 것은 큰 위치 오류와 매우 관련이 있습니다. 그러므로 ML 모델이 특히 나쁘게 수행했을 때 이러한 예측을 평가에서 제거하면 불공정한 이점을 줄 수 있습니다. 이 문제를 피하기 위해 우리는 우리의 하이퍼 매개 변수 검색 추적기 (Supplements Section 8.1.4)가 HRES와 비슷한 사이클론 수를 놓치고 있음을 확인합니다.Supplements Figure 41는 테스트 세트 (2018-2021)에서 GraphCast와 HRES가 비슷한 사이클론 수를 떨어 뜨리므로 우리의 비교가 가능한 한 공정하다는 것을 보여줍니다. 첨가물 그림 42 및 43은 사이클론 카테고리로 분할된 리드 타임의 기능으로 중간 오류와 부합 분석을 보여줍니다. 카테고리는 Saffir-Simpson Hurricane Wind Scale [47]에 정의되어 있으며, 카테고리 5는 가장 강력하고 가장 해로운 폭풍을 나타냅니다 (참고, 우리는 열대 폭풍을 나타내기 위해 카테고리 0을 사용합니다). 우리는 GraphCast가 모든 카테고리에서 HRES보다 동일하거나 더 나은 성능을 가지고 있음을 발견했습니다. 카테고리 2, 특히 카테고리 5 (가장 강렬한 이벤트)의 경우, GraphCast는 HRES보다 상당히 좋습니다. 8.1.4 트랙터 세부 사항 GraphCast에 사용한 추적기는 ECMWF의 추적기의 재implement을 기반으로 합니다 [35]. 그것은 0.1° HRES를 위해 설계되었기 때문에, 우리는 GraphCast 예측에 적용될 때 실패 사이클론의 수를 줄이기 위해 몇 가지 수정을 추가하는 것이 유용하다고 생각했습니다.그러나 추적 오류는 여전히 발생합니다.이 추적은 0.25° 예측 대신 0.1°에서 사이클론을 추적하는 것으로 예상됩니다. 먼저 ECMWF의 기본 트래커에 대한 높은 수준의 요약을 제공하고, 우리가 만든 수정 사항과 우리의 의사 결정 과정을 설명합니다. 모델의 변수 10 U, 10 v, MsL뿐만 아니라 U, v 및 z의 예측을 고려하여, 여러 시간 단계에 걸쳐 200, 500, 700, 850 및 1000 hPa의 압력 수준에서, ECMWF 추적기 [35]는 각 시간 단계를 연속적으로 처리하여 전체 경로에 걸쳐 사이클론의 위치를 반복적으로 예측합니다. 각 6 시간 추적기의 예측에는 두 가지 주요 단계가 있습니다. 첫 번째 단계에서, 사이클론의 현재 위치에 따라 추적기는 6 시간 앞서 다음 위치의 추적을 계산합니다. 두 번째 단계는 사이클론 센터의 특징적인 여러 조건을 충족하는 위치에 대한 새로운 추적의 근처를 보는 것입니다. ECMWF tracker 다음 사이클론 위치의 추적을 계산하기 위해, 추적기는 2개의 벡터의 평균으로 계산된 움직임을 사용하여 현재 추적을 이동합니다: 1) 마지막 2개의 트랙 위치 간의 움직임 (즉, 선형 추적) 및 2) 바람 방향의 추적, 200, 500, 700 및 850 hPa의 압력 수준에서 이전 트랙 위치에서 U 및 v의 바람 속도를 평균. Once the estimate of the next cyclone location is computed, the tracker looks at all local minima of mean sea-level pressure (MsL) within 445 km of this estimate. It then searches for the candidate minima closest to the current estimate that satisfies the following three conditions: Vorticity check: The maximum vorticity at 850 hPa within 278 km of the local minima is greater than 5 · 10−5 s−1 for the Northern Hemisphere, or is smaller than −5 · 10−5s−1 for the Southern Hemisphere. 2) 바람속도 검사: 후보자가 육지에 있다면, 278km 내에서 최대 10m의 바람속도가 8m/s보다 크다. 두께 검사: 사이클론이 외식이라면, 최대 두께는 850 hPa와 200 hPa 사이에 278 km의 방사선 내에 있으며, 두께는 z850-z200로 정의됩니다. 모든 조건을 충족시키는 최소 조건이 없다면, 추적기는 사이클론이 없다고 생각합니다. ECMWF의 추적기는 사이클론이 일부 구석 상황에서 잠시 사라지기 전에 다시 나타나도록 허용합니다. 우리는 검증 세트 년 (2016-2017)에서 사이클론에 대한 오류 추적을 분석하여 1979-2015 년에 훈련 된 GraphCast 버전을 사용하여 아래에 설명된 대로 ECMWF 추적기의 기본 재implement을 수정했습니다. Our modified tracker 우리는이 매개 변수를 중요하다고 발견하고 다음 옵션 중에서 더 나은 값을 검색했습니다: 445 × f for f in 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (원래 값). 2. The next step vicinity radius determines how strict multiple checks are. We also found this parameter to be critical and searched a better value among the following options: 278 × 𝑓 for f in 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (original value). 3. ECMWF의 다음 단계 추정은 선형 추적 및 바람 방향 벡터 사이의 50-50 중량을 사용합니다. 바람이 0.25° 해상도에서 예측되는 우리의 경우에, 우리는 때때로 장애 추정에 바람 방향을 발견했습니다. 이것은 바람이 공간적으로 부드러운 필드가 아니기 때문에 놀라운 일이 아닙니다, 그리고 추적기는 0.1° 해상도 예측을 활용하기 위해 맞춤화 될 가능성이 있습니다. 따라서, 우리는 하이퍼 매개 변수 다음 옵션 사이의 중량을 검색했습니다 : 0.0, 0.1, 0.33, 0.5 (원래 값). 4. We noticed multiple misstracks happened when the track sharply reversed course, going against its previous direction. Thus, we only consider candidates that creates an angle between the previous and new direction below 𝑑 degrees, where 𝑑 was searched among these values: 90, 135, 150, 165, 175, 180 (i.e. no filter, original value). 우리는 소음이 많은 바람의 움직임과 약한 사이클론을 구별하기 어려운 특징의 조합으로 인해 여러 미트라크가 큰 점프를 보았습니다. 따라서 x 킬로미터를 넘어 움직이는 추정치를 추적하여 탐구했습니다 (최후의 중심으로 델타를 변경함으로써), x에 대한 다음 값을 검색했습니다 : 445 × f for f in 0.25, 0.5, 1.0, 2.0, 4.0, ∞ (즉, 절단이 없음, 원래 값). 하이퍼 매개 변수를 검색하는 동안, 우리는 또한 GraphCast에 적용된 추적기가 HRES와 비슷한 사이클론 수를 떨어 뜨렸음을 검증했습니다. 8.2 대기 강 수동 증기 운송(IvT)은 대기 강의 강도의 강도를 특징화하는 데 일반적으로 사용됩니다 [38, 37]. GraphCast는 IvT를 직접 예측하지 않으며 대기 강을 예측하기 위해 특별히 훈련받지 않지만, 우리는 예측된 대기 변수 특정 습도, Q, 그리고 수평 바람, (U, v), 관계를 통해이 양을 추출할 수 있습니다 [38]: g = 9,80665 m/s2는 지구 표면의 중력으로 인한 가속이며, pb = 1000 hPa는 바닥 압력이며, pt = 300 hPa는 최고 압력입니다. 위의 관계를 사용하여 IvT를 평가하는 것은 숫자 통합을 필요로 하므로 결과는 예측의 수직 해상도에 달려 있습니다. GraphCast는 37개의 압력 수준의 수직 해상도를 가지고 있으며, 이는 유효한 HRES 경로의 해상도보다 높습니다.이 두 모델의 일관되고 공정한 비교를 위해 우리는 또한 WeatherBench 벤치마크에 포함된 압력 수준의 공통적인 하위 세트, 즉 [300, 400, 500, 600, 700, 850, 925, 1000] hPa를 평가할 때 사용합니다. 우리의 평가 프로토콜의 나머지 부분과 일관되게, 각 모델은 자신의 " 분석"에 따라 평가됩니다. GraphCast의 경우, 우리는 예측에 근거하여 IvT를 계산하고 ERA5에서 비슷하게 계산된 IvT와 비교합니다. 이전 작업과 마찬가지로 [10], 그림 44은 추운 계절 (Jan-April 및 Oct-Dec 2018) 동안 해안 북아메리카 및 동태평양 지역 (180°W에서 110°W 길이, 10°N에서 60°N 위도)에 대한 RMSE 기술 및 기술 점수 평균을보고하며, 이는 대기 강이 자주 흐르는 지역과 기간에 해당합니다. 8.3 극단적 인 열과 추위 우리는 특정 변수의 값이 참조 역사 기후학의 분포의 특정 퍼센티일 위에 (또는 아래) 될지 여부를 정확하게 예측할 수 있는지 여부를 비교하여 극한 열의 98 % 퍼센티일 위에, 극한 추위의 2% 퍼센티일 아래 [35, 32] 바이너리 분류 문제를 연구합니다. 이전 작업 [35] 후, 참조 기후학은 (1) 매 변수 (2) 년의 매 달, (3) 매일의 각 시간, (4) 각 위도 / 길이 좌표, 및 (5) 각 압력 수준 (사용 가능한 경우). 이것은 극한의 감지에 더 대조를 제거하여 각 공간 위치에서 일일 및 계절 사이클의 효과를 제거합니다. HRES와 GraphCast 사이의 비교를 가능한 한 공정하게 유지하기 위해, 우리는 HRES- 극단적 예측은 정의로 불균형형 분류 문제이기 때문에, 우리는이 경우에 잘 적합한 정밀 회전 플롯에 우리의 분석을 기반으로합니다 [42]. 정밀 회전 곡선은 기후학의 중간 가치와 관련하여 스케일링 요소로 구성된 자유 매개 변수 "이익"을 변형하여 얻을 수 있습니다, 즉 스케일링 예측 = 이익 × (예측 − 중간 기후학) + 중간 기후학. 이것은 의사 결정 경계를 전환하는 효과가 있으며 거짓 부정과 거짓 긍정 사이의 다른 무역 오프를 연구 할 수 있습니다. 직관적으로, 0 이익은 0의 예측 긍정 (예를 들어, 0의 거짓 긍정), 그리고 무한 이익은 중간 위의 모든 값을 우리는 극단적 인 온도 조건에 관련된 변수, 특히 2 T [35, 32], 그리고 ECMWF에 의해 열파를 특징화하기 위해 종종 사용되는 T 850, z500에 우리의 분석을 초점을 맞추고 있습니다 [34]. 이전 작업에 따라 [32], 극단적 인 열에 대한 우리는 6 월, 7 월, 8 월 북반구의 땅 (대경 > 20◦)과 12 월, 1 월, 2 월 남반구의 땅 (대경 < -20◦)에 대한 평균을 평균합니다. 극단적 인 추위의 경우, 우리는 북반구와 남반구에 대한 달을 교환했습니다. 그림 45의 전체 결과를 참조하십시오. 예측 시각화 이 마지막 섹션에서는 변수 2 T (그림 47), 10 U (그림 48), MsL (그림 49), z500 (그림 50), T 850 (그림 51), v 500 (그림 52), Q 700 (그림 53)에 대한 GraphCast가 만든 예측의 몇 가지 시각화 예제를 제공합니다. 참조 [1] Ferran Alet, Adarsh Keshav Jeewajee, Maria Bauza Villalonga, Alberto Rodriguez, Tomas Lozano-Perez, and Leslie Kaelbling. Graph element networks: adaptive, structured computing and memory. In International Conference on Machine Learning, pages 212–222. PMLR, 2019. [2] Kelsey R Allen, Yulia Rubanova, Tatiana Lopez-Guevara, William Whitney, Alvaro Sanchez-Gonzalez, Peter Battaglia, 및 Tobias Pfaff. 얼굴 상호 작용 그래프 네트워크로 단단한 역학을 배우기 arXiv 프리프린트 arXiv:2212.03574, 2022. [3] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E. Hinton. Layer normalization. arXiv, 2016. [4] Igor Babuschkin, Kate Baumli, Alison Bell, Surya Bhupatiraju, Jake Bruce, Peter Buchlovsky, David Budden, Trevor Cai, Aidan Clark, Ivo Danihelka, Claudio Fantacci, Jonathan Godwin, Chris Jones, Ross Hemsley, Tom Hennigan, Matteo Hessel, Shaobo Hou, Steven Kapturowski, Thomas Keck, Iurii Kemaev, Michael King, Markus Kunesch, Lena Martens, Hamza Merzic, Vladimir Mikulik, Tamara Norman, John Quan, George Papamakarios, Roman Ring, Francisco Ruiz, Alvaro Sanchez, Rosalia Schneider, Eren Sezener, Stephen Spencer, Srivatsan Srinivasan, Luyu, Wangciech Wojciech Stokowiec, Fabio Viola. //github.com/이미지 오프닝, 2020 [5] Peter Battaglia, Razvan Pascanu, Matthew Lai, Danilo Jimenez Rezende, et al. Interaction networks for learning about objects, relations and physics. Advances in neural information processing systems, 29, 2016. [6] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. 관계 유도적 편견, 깊은 학습 및 그래프 네트워크. arXiv 프리 프린트 arXiv:1806.01261, 2018. [7] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu, Qi Tian. Pangu-Weather: 빠르고 정확한 글로벌 날씨 예측을 위한 3D 고해상도 모델. arXiv preprint arXiv:2211.02556, 2022. [8] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. The THORPEX interactive grand global ensemble. [9] James Bradbury, Roy Frostig, Peter Hawkins, Matthew James Johnson, Chris Leary, Dougal Maclaurin, George Necula, Adam Paszke, Jake VanderPlas, Skye Wanderman-Milne, Qiao Zhang. JAX: Python+NumPy 프로그램의 컴포지블 변환. http://github. com/google/jax, 2018. [10] WE Chapman, AC Subramanian, L Delle Monache, SP Xie, and FM Ralph. Improving atmospheric river forecasts with machine learning. Geophysical Research Letters, 46(17-18):10627–10635, 2019. [11] Tianqi Chen, Bing Xu, Chiyuan Zhang, 및 Carlos Guestrin. sublinear 메모리 비용으로 깊은 네트워크 훈련. arXiv 사전 프린트 arXiv:1604.06174, 2016. [12] Balaji Devaraju.Sphere Filtering Understanding: Experiences from Filtering GRACE data. 박사 학위 논문, Stuttgart University, 2015. [13] J. R. Driscoll 및 D. M. Healy. Computing fourier transforms and convolutions on the 2-sphere. 마태복음 15(2):202-250 1994년 6월 [14] ECMWF. IFS 문서 CY41R2 - Part III: Dynamics and numerical procedures. https: // www.ecmwf.int/node/16647, 2016년 [15] Meire Fortunato, Tobias Pfaff, Peter Wirnsberger, Alexander Pritzel, Peter Battaglia. 다중 규모의 meshgraphnets. arXiv 사전 프린트 arXiv:2210.00612, 2022. [16] Alan J Geer. Significance of changes in medium-range forecast scores. Tellus A: Dynamic Meteorology and Oceanography, 68(1):30229, 2016. [17] Jonathan Godwin, Thomas Keck, Peter Battaglia, Victor Bapst, Thomas Kipf, Yujia Li, Kimberly Stachenfeld, Petar Veličković, Alvaro Sanchez-Gonzalez. Jraph : JAX에서 그래프 신경 네트워크를위한 라이브러리. http://github.com/deepmind/jraph, 2020. [18] T. Haiden, Martin Janousek, Jean-Raymond Bidlot, R. Buizza, L. Ferranti, F. Prates 및 Frédéric Vitart. ECMWF 예측의 평가, 2018 업그레이드 포함. https://www.ecmwf. int/node/18746, 10/2018 2018. [19] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, Crtistina Prates, 그리고 David Richardson. ECMWF 예측의 평가, 2020 업그레이드 포함. https://www.ecmwf.int/node/19879, 01/2021 2021. [20] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, Fernando Prates. ECMWF 예측의 평가, 2021 업그레이드 포함. https://www. ecmwf.int/node/20142, 09/2021 2021. [21] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, Fernando Prates, and David Richardson. Evaluation of ECMWF forecasts, including the 2021 upgrade. https://www.ecmwf.int/node/20469, 09/2022 2022. [22] Thomas Haiden, Martin Janousek, Frédéric Vitart, Laura Ferranti, Fernando Prates. ECMWF 예측의 평가, 2019 업그레이드 포함. https://www.ecmwf.int/node/ 19277, 11/2019 2019. [23] Tom Hennigan, Trevor Cai, Tamara Norman, 그리고 Igor Babuschkin. Haiku : JAX 용 소네트. http://github.com/deepmind/dm-haiku, 2020. [24] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. ERA5 글로벌 재 분석. Royal Meteorological Society의 분기 저널, 146(730):1999–2049, 2020. [25] S. Hoyer 및 J. Hamman. xarray : Python에서 N-D 라벨 된 배열 및 데이터 세트. Journal of Open Research Software, 5(1), 2017. [26] Ryan Keisler. graph neural networks를 사용하여 글로벌 날씨 예측. arXiv preprint arXiv:2202.07575, 2022. [27] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014. [28] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. 국제 최고의 트랙 아카이브 기후 관리 (IBTrACS) 프로젝트, 버전 4. https://doi.org/10.25921/82ty-9e16, 2018. [29] Kenneth R Knapp, Michael C Kruk, David H Levinson, Howard J Diamond, and Charles J Neumann.The international best track archive for climate stewardship (IBTrACS) unifying tropical cyclone data.Bulletin of American Meteorological Society, 91(3):363–376, 2010. [30] Michael C Kruk, Kenneth R Knapp, and David H Levinson. A technique for combining global tropical cyclone best track data. Journal of Atmospheric and Oceanic Technology, 27(4):680–692, 2010. [31] 데이비드 H 레빈슨, 하워드 J 다이아몬드, 케네스 R Knapp, 마이클 C 크루크, 그리고 이단 J 지브니. 균일한 글로벌 열대 사이클론 베스트 트랙 데이터 세트를 향해. [32] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal, Jason Hickey. 신경 기상 모델을 사용하여 글로벌 극한 열 예측. 지구 시스템을위한 인공 지능, 페이지 1-41, 2022. [33] Ilya Loshchilov와 Frank Hutter. 분리 된 체중 붕괴 정규화. arXiv 사전 프린트 arXiv:1711.05101, 2017. [34] 리누스 마그네슨. 202208 - 열파 - 영국 https://confluence.ecmwf.int/display/ FCST/202208+-+열파+-+UK, 2022. [35] Linus Magnusson, Thomas Haiden, and David Richardson. Verification of extreme weather events: Discrete predictands. 유럽 중간 범위 날씨 예측 센터, 2014. [36] S. Malardel, Nils Wedi, Willem Deconinck, Michail Diamantakis, Christian Kuehnlein, G. Mozdzynski, M. Hamrud, Piotr Smolarkiewicz. IFS에 대한 새로운 그리드. https: //www.ecmwf.int/node/17262 2016년 [37] Benjamin J Moore, Paul J Neiman, F Martin Ralph, and Faye E Barthold. Nashville, Tennessee, and the vicinity during 1–2 May 2010: The role of an atmospheric river and mesoscale convective systems. Monthly Weather Review, 140(2):358–378, 2012. [38] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist, and Michael D Dettinger. Meteorological characteristics and overland precipitation impacts of atmospheric rivers affecting the West Coast of North America based on eight years of ssm/i satellite observations. Journal of Hydrometeorology, 9(1):22-47, 2008. [39] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez, and Peter Battaglia. Learning mesh-based simulation with graph networks. In International Conference on Learning Representations, 2021. [40] Prajit Ramachandran, Barret Zoph, 및 Quoc V Le. 활성화 기능을 검색. arXiv 사전 프린트 arXiv:1710.05941, 2017. [41] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid, 그리고 Nils Thuerey. WeatherBench : 데이터 기반 날씨 예측을위한 기준 데이터 세트. 지구 시스템 모델링의 진보 저널, 12(11):e2020MS002203, 2020. [42] Takaya Saito와 Marc Rehmsmeier. Precision-recall 플롯은 불균형 데이터 세트에 바이너리 분류기를 평가할 때 ROC 플롯보다 더 유익합니다. PloS one, 10(3):e0118432, 2015. [43] 알바로 산체스-곤살레스, 조나단 고드윈, 토비아스 파프, 렉스 잉, 주레 레스코베츠, 그리고 피터 배타글리아, 그래프 네트워크를 사용하여 복잡한 물리학을 시뮬레이션하는 법을 배웁니다.In International Conference on Machine Learning, pages 8459–8468. [44] B. D. Santer, R. Sausen, T. M. L. Wigley, J. S. Boyle, K. AchutaRao, C. Doutriaux, J. E. Hansen, G. A. Meehl, E. Roeckner, R. Ruedy, G. Schmidt, K. E. Taylor. 모델, 재 분석 및 관측에서 트로포포포우수 높이와 대기 온도의 행동 : 10년간의 변화. [45] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M Hamill, Tim D Hewson, Julia H Keller, Mio Matsueda, John Methven, Florian Pappenberger, et al. The TIGGE project and its achievements. Bulletin of the American Meteorological Society, 97(1):49–67, 2016. [46] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson, Munehiko Yamaguchi. TIGGE 프로젝트와 그 성과. 미국 기상학 협회의 보도, 97(1):49 – 67, 2016. [47] Harvey Thurm Taylor, Bill Ward, Mark Willis, 및 Walt Zaleski. Saffir-Simpson 허리케인 바람 규모. 대기 관리 : 워싱턴 DC, 미국, 2010. [48] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser 및 Illia Polosukhin. 관심은 당신이 필요로하는 모든 것입니다. 신경 정보 처리 시스템의 진보, 30, 2017. [49] Petar Veličković, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio, Yoshua Bengio. 그래프 관심 네트워크. arXiv 사전 프린트 arXiv:1710.10903, 2017. 이 논문은 CC by 4.0 Deed (Attribution 4.0 International) 라이선스 아래에 저장되어 있습니다. 이 논문은 CC by 4.0 Deed (Attribution 4.0 International) 라이선스 아래에 저장되어 있습니다.