Penulis : Remi Lam (Google DeepMind) Alvaro Sanchez-Gonzalez (Google DeepMind) Matthew Willson (Google DeepMind) Peter Wirnsberger (Google DeepMind) Meire Fortunato (Google DeepMind) Ferran Alet (Google DeepMind) Suman Ravuri (Google DeepMind) Timo Ewalds (Google DeepMind) Zach Eaton-Rosen (Google DeepMind) Weihua Hu (Google DeepMind) Alexander Merose (Google Research) Stephan Hoyer (Google Research) George Holland (Google DeepMind) Oriol Vinyals (Google DeepMind) Jacklynn Stott (Google DeepMind) Alexander Pritzel (Google DeepMind) Shakir Mohamed (Google DeepMind) Peter Battaglia (Google DeepMind) Penulis : Remi Lam daripada Google DeepMind Alvaro Sanchez-Gonzalez daripada Google DeepMind Matthew Willson daripada Google DeepMind Peter Wirnsberger daripada Google DeepMind Meire Fortunato daripada Google DeepMind Ferran Alet daripada Google DeepMind Suman Ravuri daripada Google DeepMind Timo Ewalds daripada Google DeepMind Zach Eaton-Rosen daripada Google DeepMind Pengarah Google (Google DeepMind) Alexander Merose (Penyelidikan Google) Stephan Hoyer (Penyelidikan Google) Inggeris kepada Melayu google deepmind Kumpulan Vinyals Oriol (Google DeepMind) Jacklynn Stott daripada Google DeepMind Alexander Pritzel daripada Google DeepMind Shakir Mohamed (Google DeepMind) dalam talian Peter Battaglia daripada Google DeepMind Prediksi cuaca jarak menengah global adalah penting untuk pengambilan keputusan di pelbagai bidang sosial dan ekonomi. Prediksi cuaca numerik tradisional menggunakan sumber-sumber pengiraan yang meningkat untuk meningkatkan ketepatan ramalan, tetapi tidak boleh menggunakan data cuaca bersejarah secara langsung untuk meningkatkan model yang mendasari. Kami memperkenalkan kaedah pembelajaran mesin yang dipanggil "GraphCast", yang boleh dilatih secara langsung daripada data reanalisa. Ia meramalkan beratus-ratus variabel cuaca, selama 10 hari pada resolusi 0.25° di seluruh dunia, dalam masa kurang daripada satu minit. Kami menunjukkan bahawa GraphCast secara signifikan melampaui sistem determinist operasi yang paling tepat pada 90% daripada matlamat pengesahan 1380, dan ramalannya menyokong ramalan peristiwa yang lebih baik, termasuk siklon tropika, sungai atmosfer, dan suhu ekstrem. Kata kunci: ramalan cuaca, ECMWF, ERA5, HRES, simulasi pembelajaran, rangkaian saraf graf Pengenalan Ia adalah 05:45 UTC pada pertengahan Oktober, 2022, di Bologna, Itali, dan Pusat Eropah untuk Perkiraan Cuaca Jangka Menengah (ECMWF) baru sahaja memulakan operasi. Selama beberapa jam yang lalu, Sistem Perkiraan Bersepadu (IFS) telah menjalankan perhitungan canggih untuk meramalkan cuaca Bumi dalam hari-hari dan minggu akan datang, dan ramalan pertama telah mula disebarkan kepada pengguna. IFS, dan ramalan cuaca moden lebih umum, adalah kemenangan sains dan kejuruteraan. Dinamika sistem cuaca adalah antara fenomena fizikal yang paling kompleks di Bumi, dan setiap hari, banyak keputusan yang dibuat oleh individu, industri, dan pembuat dasar bergantung kepada ramalan cuaca yang tepat, daripada memutuskan sama ada untuk memakai jaket atau untuk melarikan diri daripada badai yang berbahaya. Pendekatan yang dominan untuk ramalan cuaca hari ini adalah "perkiraan cuaca numerik" (NWP), yang melibatkan menyelesaikan persamaan pengurusan cuaca menggunakan superkomputer. Kejayaan NWP terletak pada amalan penyelidikan yang ketat dan berterusan yang menyediakan lebih terperinci deskripsi fenomena cuaca, dan bagaimana NWP skala untuk ketepatan yang lebih tinggi dengan sumber pengiraan yang lebih besar [3, 2]. Akibatnya, ketepatan Tetapi walaupun NWP tradisional mengukur dengan baik dengan pengiraan, ketepatannya tidak meningkat dengan meningkatnya jumlah data bersejarah.Terdapat arsip yang luas data cuaca dan iklim, contohnya ECMWF MARS [17], tetapi sehingga baru-baru ini terdapat beberapa cara praktikal untuk menggunakan data tersebut untuk secara langsung meningkatkan kualiti model ramalan.Sebaliknya, kaedah NWP ditingkatkan oleh pakar-pakar yang berlatih tinggi yang memperkenalkan model, algoritma dan pendekatan yang lebih baik, yang boleh menjadi proses yang memakan masa dan mahal. Prediksi cuaca berasaskan pembelajaran mesin (MLWP) menawarkan alternatif kepada NWP tradisional, di mana model ramalan dilatih secara langsung daripada data bersejarah. Ini mempunyai potensi untuk meningkatkan ketepatan ramalan dengan menangkap corak dan skala dalam data yang tidak mudah diwakili dalam persamaan eksplisit. MLWP juga menawarkan peluang untuk kecekapan yang lebih besar dengan memanfaatkan perkakasan pembelajaran mendalam moden, bukannya superkomputer, dan menjejaskan kompromi kelajuan yang lebih menguntungkan. Baru-baru ini, MLWP telah membantu meningkatkan ramalan berasaskan NWP dalam rejim di mana NWP tradisional agak lemah, contohnya ramalan gelombang haba sub-musim [16] dan curah hujan sekarang daripada imej radar [32, 29, 33, 8], di mana persamaan yang tepat dan kaedah numerikal yang kukuh tidak tersedia. Dalam ramalan cuaca jarak menengah, iaitu meramalkan variabel atmosfer sehingga 10 hari ke depan, sistem berasaskan NWP seperti IFS masih paling tepat. Sistem operasi deterministik teratas di dunia ialah ramalan Resolusi Tinggi ECMWF (HRES), komponen IFS yang menghasilkan ramalan global 10 hari pada resolusi 0,1° latitude/longitude, dalam kira-kira satu jam [27]. Walau bagaimanapun, dalam beberapa tahun kebelakangan ini, kaedah MLWP untuk ramalan jarak menengah telah terus maju, difasilitasi oleh benchmarks seperti WeatherBench [27]. Arsitektur pembelajaran mendalam berdasarkan rangkaian saraf konvolusioner [35, 36, 28] dan Transformers [24] telah menunjukkan hasil yang menjanjikan pada resolusi latitude/longitude coarser daripada 1,0°, dan kerja-kerja baru-baru ini – yang menggunakan rangkaian GraphCast Di sini, kami memperkenalkan pendekatan MLWP baru untuk ramalan cuaca menengah global yang dipanggil "GraphCast", yang menghasilkan ramalan 10 hari yang tepat dalam masa kurang daripada satu minit pada satu peranti Google Cloud TPU v4, dan menyokong aplikasi termasuk meramalkan jejak siklon tropika, sungai atmosfer, dan suhu ekstrem. GraphCast mengambil sebagai input dua keadaan cuaca Bumi yang paling baru – masa semasa dan enam jam lebih awal – dan meramalkan keadaan cuaca seterusnya enam jam ke hadapan. satu keadaan cuaca diwakili oleh rangkaian 0,25° latitude/longitude (721 × 1440), yang sepadan dengan kira-kira 28 × 28 kilometer resolusi di ekor (Gambar 1a), di mana setiap titik rangkaian mewakili satu set variabel permukaan dan atmosfer (disenaraikan dalam Jadual 1). GraphCast diimplementasikan sebagai seni bina rangkaian saraf, berdasarkan kepada GNNs dalam konfigurasi "kode-proses-dekod" [1], dengan jumlah 36.7 juta parameter. simulator belajar berasaskan GNN terdahulu [31, 26] telah sangat berkesan dalam mempelajari dinamik kompleks cecair dan sistem lain yang dimodelkan oleh persamaan diferensial parsial, yang menyokong kelayakan mereka untuk pemodelan dinamik cuaca. Encoder (Gambar 1d) menggunakan lapisan GNN tunggal untuk memaparkan variabel (normalised kepada unit-variance nol-media) yang diwakili sebagai atribut nod pada grid input kepada atribut nod yang dipelajari pada persembahan "multi-mesh" dalaman. Multi-mesh (Gambar 1g) adalah graf yang bersifat homogen secara spasial, dengan resolusi spasial yang tinggi di seluruh dunia. Ia ditakrifkan dengan melengkapkan icosahedron biasa (12 nodes, 20 muka, 30 tepi) secara berulang-ulang enam kali, di mana setiap melengkapkan membahagikan setiap segitiga kepada empat yang lebih kecil (mengarah kepada empat kali lebih banyak muka dan tepi), dan memutar semula nodes ke dalam bidang. Multi-mesh mengandungi nodes 40,962 dari mesh resolusi tertinggi, dan persatuan semua tepi yang dicipta dalam grafik menengah, membentuk hierarki rata tepi dengan panjang yang bervariasi. Pemproses (Gambar 1e) menggunakan 16 lapisan GNN yang tidak dibahagikan untuk melaksanakan penghapusan mesej yang dipelajari pada multi-mesh, membolehkan penyebaran maklumat tempatan dan jangka panjang yang cekap dengan beberapa langkah penghapusan mesej. Decoder (Gambar 1f) memetakan ciri-ciri yang dipelajari lapisan pemproses akhir dari perwakilan multi-mesh kembali ke grid latitude-longitude. ia menggunakan lapisan GNN tunggal, dan meramalkan output sebagai kemas kini sisa kepada keadaan input terkini (dengan normalisasi output untuk mencapai unit-variance pada sisa sasaran). Semasa pembangunan model, kami menggunakan 39 tahun (1979–2017) data bersejarah daripada arkib reanalisa ERA5 [10] ECMWF. Sebagai matlamat latihan, kami purata kesilapan persekitaran persegi (MSE) yang dipertaruhkan mengikut tahap vertikal. Kesilapan dikira antara keadaan yang diramalkan oleh GraphCast dan keadaan ERA5 yang bertindak balas terhadap langkah-langkah autoregressive N. Nilai N meningkat secara beransur-ansur dari 1 kepada 12 (iaitu, enam jam hingga tiga hari) semasa latihan. GraphCast dilatih untuk mengurangkan matlamat latihan menggunakan penurunan gradient dan penyebaran balik. Latihan GraphCast mengambil kira-kira empat minggu pada peranti Cloud 32 TPU v4 menggunakan parallelism batch. Sesuai dengan senario penyebaran sebenar, di mana maklumat masa depan tidak tersedia untuk pembangunan model, kami menilai GraphCast pada data yang disimpan dari tahun 2018 seterusnya (lihat Tambahan Seksyen 5.1). Kaedah Pengesahan Kami mengesahkan kemahiran ramalan GraphCast secara komprehensif dengan membandingkan ketepatannya dengan HRES pada bilangan yang besar variabel, tahap, dan masa lead. kami mengukur kuantiti kemahiran masing-masing GraphCast, HRES, dan ML baseline dengan dua metrik kemahiran: kesilapan purata persegi akar (RMSE) dan koefisien korelasi anomali (ACC). Daripada 227 kombinasi variabel dan tahap yang diramalkan oleh GraphCast pada setiap titik grid, kami menilai kemahiran mereka berbanding HRES pada 69 daripadanya, yang bersesuaian dengan 13 tahap WeatherBench[27] dan variabel dari ECMWF Scorecard [9]; lihat variabel dan tahap boldface dalam Jadual 1 dan Seksyen Tambahan 1.2 untuk mana kitaran HRES telah beroperasi semasa tempoh penilaian. Nota, kami mengecualikan curah hujan total daripada penilaian kerana data curah hujan ERA5 mempunyai bias yang diketahui [15]. Selain daripada prestasi agregat yang dilaporkan dalam teks utama, Seksyen Tambahan 7 menyediakan penilaian lebih terperinci, termasuk variabel lain, prestasi serantau, latitude dan kesan tekanan. Dalam membuat perbandingan ini, dua pilihan utama mendasari bagaimana kemahiran ditubuhkan: (1) pemilihan kebenaran asas untuk perbandingan, dan (2) perakaunan berhati-hati daripada tetingkap asimilasi data yang digunakan untuk menubuhkan data dengan pengamatan. Kami menggunakan ERA5 sebagai kebenaran asas untuk menilai GraphCast, kerana ia telah dilatih untuk mengambil data ERA5 sebagai input dan meramalkan data ERA5 sebagai output. Walau bagaimanapun, menilai ramalan HRES berbanding ERA5 akan mengakibatkan kesilapan bukan nol pada langkah ramalan awal. Sebaliknya, kami membina satu "ramalan HRES pada langkah 0" (HRES-fc0) dataset untuk digunakan sebagai kebenaran asas untuk HRES. HRES-fc0 mengandungi inputs kepada ramalan HRES pada inisialisasi masa depan (lihat Seksyen Tambahan 1.2 Perbandingan tarikh yang adil antara kaedah memerlukan bahawa tiada kaedah harus mempunyai maklumat istimewa yang tidak tersedia kepada yang lain. Oleh kerana sifat data ramalan cuaca, ini memerlukan kawalan berhati-hati terhadap perbezaan antara ERA5 dan HRES data asimilasi tetingkap. Setiap hari, HRES asimilasi pengamatan menggunakan empat +/-3h tetingkap yang berpusat pada 00z, 06z, 12z dan 18z (di mana 18z bermaksud 18:00 UTC), manakala ERA5 menggunakan dua +9h/-3h tetingkap yang berpusat pada 00z dan 12z, atau setara dengan dua +3h/-9h tetingkap yang berpusat pada 06z dan 18z. Kami memilih untuk menilai ramalan GraphCast dari 06z dan 18z inisialisasi, memastikan inputnya membawa maklumat dari +3h pengamatan masa depan, yang Prediksi HRES yang dimulakan pada 06z dan 18z hanya berjalan untuk cakrawala 3.75 hari (inialisasi HRES 00z dan 12z berjalan selama 10 hari). Oleh itu, angka-angka kami akan menunjukkan peralihan dengan garis terhad, di mana 3.5 hari sebelum baris adalah perbandingan dengan HRES yang dimulakan pada 06z dan 18z, dan selepas baris adalah perbandingan dengan inisialisasi pada 00z dan 12z. Tambahan Seksyen 5 mengandungi butiran pengesahan lanjut. Hasil pengesahan prediksi Kami mendapati bahawa GraphCast mempunyai kemahiran ramalan cuaca yang lebih besar daripada HRES apabila dinilai pada ramalan 10 hari pada resolusi horizontal 0.25° untuk latitude / longitude dan pada 13 tahap vertikal. Gambar 2a–c menunjukkan bagaimana GraphCast (garis biru) melebihi HRES (garis hitam) pada medan “headline” z500 (geopotential pada 500 hPa) dalam hal kemahiran RMSE, skor kemahiran RMSE (iaitu, perbezaan RMSE normal antara model A dan garis asas B yang ditakrifkan sebagai (RMSEA − RMSEB)/RMSEB), dan kemahiran ACC. Menggunakan z500, yang mengkodkan pengedaran tekanan skala sinoptik, adalah biasa dalam literatur, kerana ia mempunyai kepentingan meteorologi yang kuat [27]. Plot menunjukkan GraphCast mempunyai skor kemahiran yang lebih baik sepanjang masa utama, dengan peningkatan skor kemahiran kira-kira 7–14%. Plot untuk variabel tajuk tambahan terdapat dalam Supplements Seksyen 7.1. Gambar 2d meringkaskan skor kemahiran RMSE untuk semua 1380 variabel dan tahap tekanan yang dinilai, sepanjang ramalan 10 hari, dalam format yang serupa dengan ECMWF Scorecard. Warna sel proporsional dengan skor kemahiran, di mana biru menunjukkan GraphCast mempunyai kemahiran yang lebih baik dan merah menunjukkan HRES mempunyai kemahiran yang lebih tinggi. GraphCast melebihi HRES pada 90.3% daripada matlamat 1380, dan secara signifikan (p ≤ 0.05, saiz sampel nominal n ∈ {729, 730}) melebihi HRES pada 89.9% daripada matlamat. lihat Tambahan Seksyen 5.4 untuk metodologi dan Tambahan Jadual 5 untuk nilai-p, statistik ujian dan saiz sampel yang berkesan. Daerah-daerah atmosfer di mana HRES mempunyai prestasi yang lebih baik daripada GraphCast (garis teratas dalam merah dalam kad penilaian), terletak secara tidak proporsional di stratosfer, dan mempunyai berat kehilangan latihan yang paling rendah (lihat Seksyen Tambahan 7.2.2). Apabila mengecualikan tahap 50 hPa, GraphCast secara signifikan melebihi HRES pada 96.9% daripada 1280 sasaran yang tersisa. Apabila mengecualikan tahap 50 dan 100 hPa, GraphCast secara signifikan melebihi HRES pada 99.7% daripada 1180 sasaran yang tersisa. Kami mendapati bahawa meningkatkan bilangan langkah-langkah auto-regressive dalam kerugian MSE meningkatkan prestasi GraphCast pada masa lead yang lebih lama (lihat Seksyen Tambahan 7.3.2) dan menggalakkan ia untuk mengekspresikan ketidakpastian dengan meramalkan output yang licin secara spasial, yang membawa kepada ramalan yang lebih licin pada masa lead yang lebih lama (lihat Seksyen Tambahan 7.5.3). Walau bagaimanapun, persamaan fizikal yang mendasari HRES tidak membawa kepada ramalan yang licin. Untuk menilai sama ada kelebihan relatif GraphCast berbanding HRES pada kemahiran RMSE dikekalkan jika HRES juga dibenarkan untuk licin prediksi, kami menyesuaikan penapis licin kepada GraphCast dan HRES dengan HRES, dengan meminimalkan RMSE berbanding kebenaran dasar masing-masing model. Kami mend Kami juga membandingkan prestasi GraphCast dengan model cuaca berpusat ML yang paling kompetitif, Pangu-Weather [4], dan mendapati GraphCast melebihi prestasi pada 99.2% daripada 252 sasaran yang mereka sediakan (lihat Tambahan Seksyen 6 untuk butiran). Peristiwa-peristiwa teruk yang meramalkan hasil Selain menilai kemahiran ramalan GraphCast berbanding HRES pada pelbagai variabel dan masa laluan, kami juga menilai bagaimana ramalannya menyokong ramalan peristiwa yang teruk, termasuk siklon tropika, sungai atmosfer, dan suhu ekstrem. Laluan Cyclone Tropical Meningkatkan ketepatan ramalan siklon tropika boleh membantu mengelakkan kecederaan dan kehilangan nyawa, serta mengurangkan kerosakan ekonomi [21]. Kewujudan, kekuatan, dan laluan siklon diprediksi dengan menggunakan algoritma pelacakan untuk ramalan laluan geopotential (z), angin horisontal (10 U/10 v, U/v), dan tekanan permukaan laut purata (MsL). Kami melaksanakan algoritma pelacakan berdasarkan protokol yang sama yang diterbitkan oleh ECMWF [20] dan menerapkannya kepada ramalan GraphCast, untuk menghasilkan ramalan laluan siklon (lihat Tambahan Seksyen 8.1). Sebagai garis asas untuk perbandingan, kami menggunakan laluan operasi yang diperolehi daripada ramalan HRES 0.1°ec, disimpan dalam arsip TIGGE [5, 34], dan kami mengukur kesilapan yang sama untuk kedua-dua Gambar 3a menunjukkan bahawa GraphCast mempunyai kesilapan laluan purata yang lebih rendah daripada HRES selama 2018–2021. Sebagai kesilapan per laluan untuk HRES dan GraphCast berkorelasi, kami juga mengukur perbezaan kesilapan berpasangan per laluan antara kedua-dua model dan mendapati bahawa GraphCast jauh lebih baik daripada HRES untuk masa lead 18 jam hingga 4.75 hari, seperti yang ditunjukkan dalam Gambar 3b. Sungai Atmosferik Sungai-sungai atmosfer adalah kawasan yang sempit di atmosfer yang bertanggungjawab untuk majoriti pengangkutan uap air di tengah-lintang, dan menghasilkan 30%-65% daripada curah hujan tahunan di pantai barat AS [6]. Kekuatan mereka boleh ditandai oleh pengangkutan uap air yang terintegrasi secara vertikal IvT [23, 22], menunjukkan sama ada kejadian akan memberikan curah hujan yang menguntungkan atau dikaitkan dengan kerosakan bencana [7]. IvT boleh dikira daripada gabungan non-linear kelajuan angin horisontal (U dan v) dan kelembapan spesifik (Q), yang GraphCast meramalkan. Kami menilai ramalan GraphCast di atas pantai Amerika Utara dan Timur Pasifik semasa bulan sejuk (Oktober-April), apabila sungai atmosfer adalah yang paling kerap. Walaupun tidak dilatih secara khusus untuk menggambarkan sungai- Panas dan sejuk yang ekstrem Panas dan sejuk yang ekstrem ditandai dengan anomali yang besar berbanding dengan iklim biasa [19, 16, 18], yang boleh menjadi berbahaya dan mengganggu aktiviti manusia. Kami menilai kemahiran HRES dan GraphCast dalam meramalkan peristiwa di atas 2% meteorologi teratas di seluruh lokasi, masa hari, dan bulan tahun, untuk 2 T pada 12 jam, 5 hari, dan 10 hari masa utama, untuk kawasan daratan di seluruh hemisfer utara dan selatan selama bulan-bulan musim panas. Kami merancang kurva pengingatan ketepatan [30] untuk mencerminkan kompromi yang berbeza yang mungkin antara mengurangkan positif palsu (ketepatan tinggi) dan mengurangkan negatif palsu (pengingatan tinggi). Untuk setiap ramalan, kami mendapat kurva dengan skala yang bervariasi parameter "penghasilan" bahawa 2 Tecast ramalan terhadap iklim purata. Gambar 3d menunjukkan kurva pengingat ketepatan GraphCast lebih tinggi daripada HRES untuk masa lead 5 dan 10 hari, yang menunjukkan ramalan GraphCast umumnya lebih baik daripada HRES pada klasifikasi ekstrem pada cakrawala yang lebih panjang. Sebaliknya, HRES mempunyai pengingat ketepatan yang lebih baik pada masa lead 12 jam, yang konsisten dengan skor kemahiran 2 T GraphCast berbanding HRES yang berhampiran dengan nol, seperti yang ditunjukkan dalam Gambar 2d. Kami biasanya mendapati hasil ini konsisten di antara variabel lain yang berkaitan dengan haba ekstrem, seperti T 850 dan z500 [18], sempadan ekstrem lain (5%, 2% dan 0.5%), dan ramalan sejuk ekstrem pada musim sejuk. Kesan data latihan terkini GraphCast boleh dilatih semula secara berkala dengan data terkini, yang pada prinsipnya membolehkan ia menangkap corak cuaca yang berubah seiring dengan masa, seperti kitaran ENSO dan osilasi lain, serta kesan perubahan iklim.Kami melatih empat varian GraphCast dengan data yang sentiasa bermula pada tahun 1979, tetapi berakhir pada tahun 2017, 2018, 2019, dan 2020, masing-masing (kami menandakan varian yang berakhir pada 2017 sebagai "GraphCast:<2018", dan lain-lain). Gambar 4 menunjukkan skor kemahiran (normalisasi oleh GraphCast:<2018) daripada empat varian dan HRES, untuk z500. Kami mendapati bahawa walaupun prestasi GraphCast apabila dilatih sehingga sebelum 2018 masih kompetitif dengan HRES pada tahun 2021, latihan sehingga sebelum 2021 meningkatkan skor kemahiran lebih lanjut (lihat Tambahan Seksyen 7.1.3). Kesimpulan Kemahiran dan kecekapan prediksi GraphCast berbanding HRES menunjukkan kaedah MLWP kini bersaing dengan kaedah prediksi cuaca tradisional.Selain itu, prestasi GraphCast dalam prediksi peristiwa yang teruk, yang tidak dilatih secara langsung, menunjukkan ketahanan dan potensi untuk nilai turun.Kami percaya ini menandakan titik balik dalam prediksi cuaca, yang membantu membuka jalan baru untuk memperkuat lebar pengambilan keputusan bergantung kepada cuaca oleh individu dan industri, dengan menjadikan prediksi murah lebih tepat, lebih mudah diakses, dan sesuai untuk aplikasi tertentu. Dengan 36.7 juta parameter, GraphCast adalah model yang agak kecil mengikut piawaian ML moden, dipilih untuk mengekalkan ketidakpastian imej memori. Dan manakala HRES dikeluarkan pada resolusi 0.1°, 137 tahap, dan sehingga 1 jam langkah masa, GraphCast beroperasi pada resolusi 0.25° latitude-longitude, 37 tahap vertical, dan 6 jam langkah masa, kerana resolusi semula jadi 0.25° data latihan ERA5, dan cabaran kejuruteraan dalam memasang data resolusi yang lebih tinggi pada perkakasan. Salah satu batasan utama pendekatan kami ialah bagaimana ketidakpastian dikendalikan. Kami memberi tumpuan kepada ramalan deterministik dan berbanding dengan HRES, tetapi pilar lain IFS ECMWF, sistem ramalan ensemble, ENS, adalah terutamanya penting untuk ramalan 10+ hari. Ketidakpastian dinamik cuaca bermakna terdapat ketidakpastian yang semakin meningkat pada masa laluan yang lebih lama, yang tidak ditangkap dengan baik oleh ramalan deterministik tunggal. ENS menangani ini dengan menghasilkan ramalan banyak, stochastic, yang memodelkan pengedaran empiris cuaca masa depan, tetapi menghasilkan ramalan pelbagai adalah mahal. Sebaliknya, matlamat latihan MSE GraphCast menggalakkan ia untuk mengekspresikan ketidakpastiannya dengan membingungkan ramalannya secara spasial, yang boleh membatasi nilai bagi sesetengah aplikasi. It is important to emphasize that data-driven MLWP depends critically on large quantities of high-quality data, assimilated via NWP, and that rich data sources like ECMWF’s MARS archive are invaluable. Therefore, our approach should not be regarded as a replacement for traditional weather forecasting methods, which have been developed for decades, rigorously tested in many real-world contexts, and offer many features we have not yet explored. Rather our work should be interpreted as evidence that MLWP is able to meet the challenges of real-world forecasting problems, and has potential to complement and improve the current best methods. Di luar ramalan cuaca, GraphCast boleh membuka arah baru untuk masalah ramalan geospatiotemporal penting lain, termasuk iklim dan ekologi, tenaga, pertanian, dan aktiviti manusia dan biologi, serta sistem dinamik yang kompleks lain. Data dan ketersediaan bahan Kod GraphCast dan berat yang dilatih boleh didapati secara awam di github https://github.com/ deepmind/graphcast. Kerja ini menggunakan data yang tersedia secara awam dari Pusat Eropah untuk Perkiraan Jarak Menengah (ECMWF). Kami menggunakan produk arsip ECMWF (telah tamat tempoh real-time) untuk produk ERA5, HRES dan TIGGE, penggunaan yang dikawal oleh Pengiktirafan Creative Commons 4.0 Antarabangsa (CC BY 4.0). Kami menggunakan IBTrACS Versi 4 dari https://www.ncei.noaa.gov/ produk/international-best-track-archive dan rujukan [13, 12] seperti yang diperlukan. Tekstur Bumi dalam Gambar 1 digunakan di bawah CC BY 4.0 dari https://www.solarsystemscope.com/ textures/. Pengiktirafan Dalam urutan alfabet, kami berterima kasih kepada Kelsey Allen, Charles Blundell, Matt Botvinick, Zied Ben Bouallegue, Michael Brenner, Rob Carver, Matthew Chantry, Marc Deisenroth, Peter Deuben, Marta Garnelo, Ryan Keisler, Dmitrii Kochkov, Christopher Mattern, Piotr Mirowski, Peter Norgaard, Ilan Price, Chongli Qin, Sébastien Racanière, Stephan Rasp, Yulia Rubanova, Kunal Shah, Jamie Smith, Daniel Worrall, dan banyak orang lain di Alphabet dan ECMWF untuk nasihat dan maklum balas mengenai kerja kami. Kami juga berterima kasih kepada ECMWF untuk menyediakan set data yang tidak ternilai kepada komuniti penyelidikan. Gaya perengganan telah diilhamkan oleh D. Fan et al., Sains Referensi [1] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Bias induktif relasional, pembelajaran mendalam, dan rangkaian graf. arXiv praprint arXiv:1806.01261, 2018. [2] P. Bauer, A. Thorpe, dan G Brunet. Revolusi yang tenang dalam ramalan cuaca numerik. alam, 525, 2015. [3] Stanley G Benjamin, John M Brown, Gilbert Brunet, Peter Lynch, Kazuo Saito, dan Thomas W Schlatter. 100 tahun kemajuan dalam ramalan dan aplikasi NWP. [4] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu, dan Qi Tian. Cuaca Pangu: Model 3D resolusi tinggi untuk ramalan cuaca global yang cepat dan tepat. arXiv praprint arXiv:2211.02556, 2022. [5] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. The THORPEX interaktif grand global ensemble. Bulletin of the American Meteorological Society, 91(8):1059–1072, 2010. [6] WE Chapman, AC Subramanian, L Delle Monache, SP Xie, dan FM Ralph. Meningkatkan ramalan sungai atmosfer dengan pembelajaran mesin. Geophysical Research Letters, 46(17-18):10627–10635, 2019. [7] Thomas W Corringham, F Martin Ralph, Alexander Gershunov, Daniel R Cayan, dan Cary A Talbot. Sungai atmosfer mendorong kerosakan banjir di barat Amerika Syarikat. kemajuan sains, 5(12):eaax4631, 2019. [8] Lasse Espeholt, Shreya Agrawal, Casper Sønderby, Manoj Kumar, Jonathan Heek, Carla Bromberg, Cenk Gazen, Rob Carver, Marcin Andrychowicz, Jason Hickey, et al. Pembelajaran mendalam untuk ramalan curah hujan dua belas jam. Komunikasi Alam, 13(1):1–10, 2022. [9] T Haiden, Martin Janousek, J Bidlot, R Buizza, Laura Ferranti, F Prates, dan F Vitart. Penilaian ramalan ECMWF, termasuk peningkatan 2018. [10] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. Analisis semula global ERA5. Jurnal Tahunan Royal Meteorological Society, 146(730):1999–2049, 2020. [11] Ryan Keisler. Memprediksi cuaca global dengan rangkaian saraf graf. arXiv praprint arXiv:2202.07575, 2022. [12] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. Antarabangsa Best Track Archive for Climate Stewardship (IBTrACS) projek, versi 4. https: //doi.org/10.25921/82ty-9e16, 2018 [13] Kenneth R Knapp, Michael C Kruk, David H Levinson, Howard J Diamond, dan Charles J Neumann. Arsip peta terbaik antarabangsa untuk pengurusan iklim (IBTrACS) menyatukan data siklon tropika. [14] Thorsten Kurth, Shashank Subramanian, Peter Harrington, Jaideep Pathak, Morteza Mardani, David Hall, Andrea Miele, Karthik Kashinath, dan Animashree Anandkumar. FourCastNet: Mempercepatkan ramalan cuaca resolusi tinggi global menggunakan operator saraf fourier adaptif. arXiv praprint arXiv:2208.05419, 2022. [15] David A Lavers, Adrian Simmons, Freja Vamborg, dan Mark J Rodwell. Penilaian curah hujan ERA5 untuk pemantauan iklim. Journal Quarterly of the Royal Meteorological Society, 148(748):3152–3165, 2022. [16] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal, dan Jason Hickey. ramalan haba ekstrem global menggunakan model cuaca saraf. kecerdasan buatan untuk sistem Bumi, halaman 1-41, 2022. [17] Carsten Maass dan Esperanza Cuartero. dokumen pengguna MARS. https://confluence. ecmwf.int/display/UDOC/MARS+user+documentation, 2022. [18] Linus Magnusson. 202208 - gelombang panas - uk. https://confluence.ecmwf.int/display/ FCST/202208+-+Heatwave+-+UK, 2022. [19] Linus Magnusson, Thomas Haiden, dan David Richardson. Pengesahan peristiwa cuaca ekstrim: prediktoran diam. Pusat Eropah untuk ramalan cuaca jarak menengah, 2014. [20] Linus Magnusson, Sharanya Majumdar, Rebecca Emerton, David Richardson, Magdalena Alonso-Balmaseda, Calum Baugh, Peter Bechtold, Jean Bidlot, Antonino Bonanni, Massimo Bonavita, dan lain-lain Aktiviti Badai Tropikal di ECMWF. [21] Andrew B Martinez. Ketepatan ramalan penting untuk kerosakan badai. Econometrics, 8(2):18, 2020. [22] Benjamin J Moore, Paul J Neiman, F Martin Ralph, dan Faye E Barthold. proses fizikal yang berkaitan dengan hujan banjir berat di Nashville, Tennessee, dan kawasan sekitar selama 1–2 Mei 2010: Peranan sungai atmosfer dan sistem konveksi mesoskala. [23] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist, dan Michael D Dettinger. ciri-ciri meteorologi dan kesan curah hujan di permukaan sungai atmosfer yang menjejaskan pantai barat Amerika Utara berdasarkan lapan tahun pengamatan satelit ssm / i. Journal of Hydrometeorology, 9(1):22-47, 2008. [24] Tung Nguyen, Johannes Brandstetter, Ashish Kapoor, Jayesh K Gupta, dan Aditya Grover. ClimaX: Model asas untuk cuaca dan iklim. arXiv praprint arXiv:2301.10343, 2023. [25] Jaideep Pathak, Shashank Subramanian, Peter Harrington, Sanjeev Raja, Ashesh Chattopad-hyay, Morteza Mardani, Thorsten Kurth, David Hall, Zongyi Li, Kamyar Azizzadenesheli, et al. Fourcastnet: Model cuaca resolusi tinggi global yang didorong oleh data menggunakan operator saraf empat yang adaptif. arXiv praprint arXiv:2202.11214, 2022. [26] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez, dan Peter Battaglia. Pembelajaran simulasi berasaskan mesh dengan rangkaian graf. [27] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid, dan Nils Thuerey. WeatherBench: satu set data benchmark untuk ramalan cuaca berasaskan data. Jurnal Kemajuan dalam Pemodelan Sistem Bumi, 12(11):e2020MS002203, 2020. [28] Stephan Rasp dan Nils Thuerey. ramalan cuaca jarak menengah yang dipandu oleh data dengan resnet pra-latih pada simulasi iklim: Model baru untuk bench cuaca. [29] Suman Ravuri, Karel Lenc, Matthew Willson, Dmitry Kangin, Remi Lam, Piotr Mirowski, Megan Fitzsimons, Maria Athanassiadou, Sheleem Kashem, Sam Madge, et al. Pencemaran kecekapan sekarangcasting menggunakan model generatif mendalam radar. Alam, 597(7878):672–677, 2021. [30] Takaya Saito dan Marc Rehmsmeier. plot pengingat ketepatan adalah lebih informatif daripada plot ROC apabila menilai klasifikator binari pada set data yang tidak seimbang. [31] Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec, dan Peter Battaglia. Belajar untuk mensimulasikan fisika kompleks dengan rangkaian graf. Dalam Konferensi Antarabangsa tentang Pembelajaran Mesin, halaman 8459–8468. PMLR, 2020. [32] Xingjian Shi, Zhihan Gao, Leonard Lausen, Hao Wang, Dit-Yan Yeung, Wai-kin Wong, dan Wang-chun Woo. Pembelajaran mendalam untuk pemindahan curah hujan: Benchmark dan model baru. Kemajuan dalam sistem pemprosesan maklumat saraf, 30, 2017. [33] Casper Kaae Sønderby, Lasse Espeholt, Jonathan Heek, Mostafa Dehghani, Avital Oliver, Tim Salimans, Shreya Agrawal, Jason Hickey, dan Nal Kalchbrenner. Metnet: Model cuaca saraf untuk ramalan curah hujan. arXiv praprint arXiv:2003.12140, 2020. [34] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson, dan Munehiko Yamaguchi. Projek TIGGE dan pencapaiannya. Bulletin of the American Meteorological Society, 97(1):49 – 67, 2016. [35] Jonathan A Weyn, Dale R Durran, dan Rich Caruana. Bolehkah mesin belajar untuk meramalkan cuaca? Menggunakan pembelajaran mendalam untuk meramalkan ketinggian geopotential 500-hPa dari data cuaca bersejarah. [36] Jonathan A Weyn, Dale R Durran, dan Rich Caruana. Meningkatkan ramalan cuaca global yang dipandu oleh data menggunakan rangkaian saraf konvolusi dalam kubus. 1. data yang Dalam seksyen ini, kami memberikan gambaran keseluruhan data yang kami gunakan untuk melatih dan menilai GraphCast (Bahagian Tambahan 1.1), data yang menentukan ramalan baseline NWP HRES, serta HRES-fc0, yang kami gunakan sebagai kebenaran tanah untuk HRES (Bahagian Tambahan 1.2). Kami membina pelbagai set data untuk latihan dan penilaian, yang terdiri daripada subset arsip data ECMWF dan IBTrACS [29, 28]. Kami biasanya membezakan antara data sumber, yang kita sebut sebagai "arkib" atau "data arsip", berbanding dengan set data yang kita telah membina daripada arsip ini, yang kita sebut sebagai "datasets". 1.1 Eropah Untuk latihan dan penilaian GraphCast, kami membina dataset kami daripada subset arsip ERA5 [24]1 ECMWF, yang merupakan corpus besar data yang mewakili cuaca global dari 1959 hingga kini, pada resolusi 0,25° latitude/longitude, dan peningkatan 1 jam, untuk beratus-ratus variabel statik, permukaan, dan atmosfer. arsip ERA5 adalah berdasarkan reanalysis, yang menggunakan model HRES ECMWF (siklus 42r1) yang beroperasi untuk sebahagian besar 2016 (lihat Jadual 3), dalam sistem asimilasi data ECMWF 4D-Var. Dataset ERA5 kami mengandungi subset variabel yang tersedia dalam arkib ERA5 ECMWF (Jadual 2), pada 37 tahap tekanan: 1, 2, 3, 5, 7, 10, 20, 30, 50, 70, 100, 125, 150, 175, 200, 225, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 775, 800, 825, 850, 875, 900, 925, 950, 975, 1000 hPa. Jangkauan tahun yang dimasukkan ialah 1979-01-01 hingga 2022-01-10, yang telah dimasukkan ke dalam tempoh masa 6 jam (berkaitan dengan 00z, 06z, 12z dan 18z setiap hari). pemasangan sampel dilakukan dengan subsampling, kecuali untuk jumlah hujan, yang dikumpulkan selama 6 jam sebelum masa sampel yang sesuai. 1.2 Kelebihan Penilaian garis asas model HRES memerlukan dua set data berasingan, iaitu data ramalan dan data kebenaran tanah, yang disimpulkan dalam bahagian-bahagian berikut. HRES secara amnya dianggap sebagai model cuaca berdasarkan NWP yang paling tepat di dunia, jadi untuk menilai garis asas HRES, kami membina set data ramalan bersejarah HRES yang disimpan. HRES dikemas kini secara berkala oleh ECMWF, jadi ramalan ini mewakili model HRES terkini pada masa ramalan dibuat. Ramalan ini dimuat turun pada perwakilan asli mereka (yang menggunakan harmoni sferik dan rangkaian Gaussian yang dikurangkan oktahedral, TCo1279 [36]), dan kira-kira sepadan dengan resolusi 0.1° latitude/longitude. HRES operational forecasts Kami kemudian secara spasial menurunkan sampel ramalan kepada rangkaian 0.25° latitude/longitude (untuk mencocokkan resolusi ERA5) menggunakan Perpustakaan Metview ECMWF, dengan parameter regrid default. Kami secara sementara menurunkan sampel kepada interval 6 jam. Terdapat dua kumpulan ramalan HRES: yang dimulakan pada 00z/12z yang dikeluarkan untuk cakrawala 10 hari, dan yang dimulakan pada 06z/18z yang dikeluarkan untuk cakrawala 3.75 hari. Untuk mengevaluasi kemahiran ramalan operasi HRES, kami membina dataset kebenaran asas, “HRES-fc0”, berdasarkan arsip ramalan operasi HRES ECMWF. Dataset ini terdiri daripada langkah awal setiap ramalan HRES, pada masa inisialisasi 00z, 06z, 12z, dan 18z (lihat Gambar 5). Data HRES-fc0 serupa dengan data ERA5, tetapi ia disesuaikan menggunakan model ECMWF NWP terkini pada masa ramalan, dan menyatukan pengamatan dari ±3 jam di sekitar tarikh dan masa yang sesuai. Catatan, ECMWF juga menyediakan arsip data “Analisis HRES” yang berbeza daripada dataset HRES-fc0 kami. Dataset Analisis HRES termasuk analisis permukaan dan atmosfer, tetapi bukan input yang disediakan untuk HRES, oleh itu, tidak menggunakan promputs HRES-fc0 Satu subset yang sangat kecil daripada nilai-nilai dari arsip ECMWF HRES untuk variabel geopotensial pada 850hPa (z850) dan 925hPa (z925) bukan nombor (NaN). NaN ini kelihatan disebarkan secara seragam di seluruh julat 2016-2021 dan di seluruh masa ramalan. Ini mewakili kira-kira 0.00001% daripada piksel untuk z850 (1 piksel setiap sepuluh 1440 x 721 bingkai lebar), 0.00000001% daripada piksel untuk z925 (1 piksel setiap sepuluh ribu 1440 x 721 bingkai lebar) dan tidak mempunyai kesan yang boleh diukur pada prestasi. Untuk perbandingan yang lebih mudah, kami mengisi nilai-nilai langka yang hilang ini dengan purata yang dipertaruhkan piksel tetangga terdekat. HRES NaN handling 1.3 Dataset Cyclone Tropical Untuk analisis kami tentang ramalan siklon tropika, kami menggunakan arsip IBTrACS [28, 29, 31, 30] untuk membina dataset kebenaran tanah. Ini termasuk jejak siklon bersejarah dari kira-kira selusin sumber yang berkuasa. Setiap trek adalah siri masa, pada interval 6 jam (00z, 06z, 12z, 18z), di mana setiap peringkat masa mewakili mata siklon dalam koordinat lebar/panjang, bersama-sama dengan kategori Saffir-Simpson yang sesuai dan ciri-ciri meteorologi yang berkaitan pada masa itu. Untuk garis asas HRES, kami menggunakan arkib TIGGE, yang menyediakan jejak siklon yang dianggarkan dengan pelacak operasi, dari ramalan HRES pada resolusi 0.1° [8, 46]. Data disimpan sebagai fail XML yang boleh dimuat turun di bawah https://confluence.ecmwf.int/display/TIGGE/Tools. Untuk menukar data ke dalam format yang sesuai untuk pemprosesan dan analisis seterusnya, kami mengimplementasikan parser yang mengekstrak jejak siklon untuk tahun-tahun yang menarik minat. Bahagian yang berkaitan (tag) dalam fail XML adalah yang jenis “forecast”, yang biasanya mengandungi beberapa trek yang sesuai dengan masa ramalan awal yang berbeza. Dengan tag ini, kami kemudian mengekstrak nama siklon (tag “cycloneName”), latitude (tag “latitude”) dan longitude Lihat Seksyen 8.1 untuk butiran algoritma dan hasil pelacak. Notasi dan pernyataan masalah Dalam seksyen ini, kami mendefinisikan notasi masa yang berguna digunakan di seluruh kertas (Bahagian 2.1), memformalkan masalah ramalan umum yang kami menangani (Bahagian 2.2), dan terperinci bagaimana kami memodelan keadaan cuaca (Bahagian 2.3). 2.1 Notasi masa Notasi masa yang digunakan dalam ramalan boleh membingungkan, melibatkan beberapa simbol masa yang berbeza, contohnya, untuk menandakan masa ramalan awal, masa sah, cakrawala ramalan, dan lain-lain Oleh itu, kami memperkenalkan beberapa istilah standard dan notasi untuk kejelasan dan kesederhanaan. Kami merujuk kepada titik tertentu dalam masa sebagai "waktu tarikh", yang dinyatakan oleh tarikh kalendar dan masa UTC. Sebagai contoh, 2018-06-21_18:00:00 bermaksud 21 Jun 2018, pada 18:00 UTC. Untuk pendekatan, kami juga kadang-kadang menggunakan konvensi Zulu, iaitu 00z, 06z, 12z, 18z bermaksud 00:00, 06:00, 12:00, 18:00 UTC, masing-masing. t: Indeks langkah masa ramalan, yang mengindeks bilangan langkah sejak ramalan dimulakan. T: Horizon ramalan, yang mewakili jumlah langkah dalam ramalan. d: Waktu validiti, yang menunjukkan tarikh-waktu keadaan cuaca tertentu. d0: Masa inisialisasi ramalan, yang menunjukkan masa kelayakan input awal ramalan. Δd: Durasi langkah ramalan, menunjukkan berapa banyak masa yang akan berlalu dalam satu langkah ramalan. τ: Masa laluan ramalan, yang mewakili masa yang telah berlalu dalam ramalan (iaitu, τ = tΔd). 2.2 Pernyataan masalah prediksi umum Biarkan Zd menandakan keadaan sebenar cuaca global pada masa d. Evolusi masa cuaca sebenar boleh diwakili oleh fungsi dinamik masa terpisah yang mendasari, Φ, yang menghasilkan keadaan pada langkah masa seterusnya (Δd di masa depan) berdasarkan pada masa kini, iaitu, Zd+Δd = Φ(Zd). Matlamat kami adalah untuk mencari model yang tepat dan cekap, φ, fungsi dinamik sebenar, Φ, yang boleh secara cekap meramalkan keadaan cuaca di atas beberapa cakrawala ramalan, TΔd. Kami menganggap bahawa kita tidak boleh mengamati Zd secara langsung, tetapi sebaliknya hanya mempunyai beberapa pengamatan partial Xd, yang merupakan representasi yang tidak lengkap daripada maklumat keadaan yang diperlukan untuk meramalkan cuaca dengan sempurna. Xd−Δd , Xd−2Δd , ..., selain daripada Xd. Model boleh kemudian, pada prinsipnya, memanfaatkan maklumat konteks tambahan ini untuk mendekati Zd lebih tepat. Analog dengan Persamaan (1), ramalan X ̈d+Δd boleh dimasukkan kembali ke φ untuk menghasilkan ramalan penuh, Kami menilai kualiti ramalan, atau kemahiran, φ dengan mengukur seberapa baik laluan ramalan, X ̈d+Δd:d+T Δd , sepadan dengan laluan dasar kebenaran, Xd+Δd:d+TΔd . Walau bagaimanapun, penting untuk menekankan lagi bahawa Xd+Δd:d+TΔd hanya merangkumi pengamatan kami Zd+Δd:d+TΔd , yang sendiri tidak diamati. yang dinyatakan secara jelas dalam Seksyen 5. Dalam kerja kami, resolusi masa data dan ramalan sentiasa Δd = 6 jam dengan cakrawala ramalan maksimum 10 hari, yang sesuai dengan jumlah T = 40 langkah. Oleh kerana Δd adalah konstan sepanjang kertas ini, kita boleh menyederhanakan notasi menggunakan (Xt, Xt+1, . . . , Xt+T ) alih-alih (Xd, Xd+Δd , . . , Xd+TΔd ), untuk mengindeks masa dengan bilangan purata alih-alih masa tarikh tertentu. 2.3. Modeling ECMWF weather data Untuk latihan dan penilaian model, kami mengendalikan dataset ERA5 kami sebagai representasi kebenaran tanah permukaan dan keadaan cuaca atmosfer.Seperti yang diterangkan dalam Seksyen 1.2, kami menggunakan dataset HRES-fc0 sebagai kebenaran tanah untuk menilai kemahiran HRES. In our dataset, an ERA5 weather state 𝑋𝑡 comprises all variables in Table 2, at a 0.25° horizontal latitude-longitude resolution with a total of 721 × 1440 = 1, 038, 240 grid points and 37 vertical pressure levels. The atmospheric variables are defined at all pressure levels and the set of (horizontal) grid points is given by 𝐺0.25◦ = {−90.0, −89.75, . . . , 90.0} × {−179.75, −179.5, . . . , 180.0}. These variables are uniquely identified by their short name (and the pressure level, for atmospheric variables). For example, the surface variable “2 metre temperature” is denoted 2 T; the atmospheric variable “Geopotential” at pressure level 500 hPa is denoted z500. Note, only the “predicted” variables are output by our model, because the “input”-only variables are forcings that are known apriori, and simply appended to the state on each time-step. We ignore them in the description for simplicity, so in total there are 5 surface variables and 6 atmospheric variables. Daripada semua variabel ini, model kami meramalkan 5 variabel permukaan dan 6 variabel atmosfer untuk jumlah 227 variabel sasaran. Beberapa variabel statis dan / atau luaran lain juga disediakan sebagai konteks input untuk model kami. variabel ini ditunjukkan dalam Jadual 1 dan Jadual 2. variabel statis / luaran termasuk maklumat seperti geometri grid / mesh, orography (geopotential permukaan), masker darat-merah dan radiasi di bahagian atas atmosfer. Kami merujuk kepada subset variabel dalam Xt yang sesuai dengan titik grid tertentu i (1,038,240 secara keseluruhan) sebagai xt, dan kepada setiap variabel j daripada variabel sasaran 227 sebagai xt. Perwakilan keadaan penuh Xtii, j oleh itu mengandungi jumlah 721 × 1440 × (5 + 6 × 37) = 235, 680, 480 nilai. Tag: model grafis Seksyen ini menyediakan penerangan terperinci GraphCast, bermula dengan pengeluaran auto-regresif ramalan (Seksyen 3.1), gambaran keseluruhan seni bina dalam bahasa biasa (Seksyen 3.2), diikuti dengan penerangan teknikal semua grafik yang mendefinisikan GraphCast (Seksyen 3.3), encoder (Seksyen 3.4), prosesor (Seksyen 3.5), dan decoder (Seksyen 3.6), serta semua butiran normalisasi dan parameterisasi (Seksyen 3.7). 4.1 Mencipta ramalan Model GraphCast kami ditakrifkan sebagai simulator pembelajaran satu langkah yang mengambil peranan φ dalam Persamaan (2) dan meramalkan langkah seterusnya berdasarkan dua keadaan input berturut-turut, Seperti dalam Persamaan (3), kita boleh menggunakan GraphCast secara iteratif untuk menghasilkan ramalan Ini diilustrasikan dalam Gambar 1b,c. Kami mendapati, dalam eksperimen awal, bahawa dua keadaan input menghasilkan prestasi yang lebih baik daripada satu, dan bahawa tiga tidak cukup membantu untuk membenarkan ketinggian imej memori. 4.2 Pandangan Arsitektur Arsitektur teras GraphCast menggunakan GNNs dalam konfigurasi "kode-proses-dekod" [6], seperti yang digambarkan dalam Gambar 1d,e,f. Simulator belajar berasaskan GNN sangat berkesan dalam mempelajari dinamika fizikal kompleks cecair dan bahan lain [43, 39], kerana struktur representasi dan pengiraan mereka adalah analog dengan penyelesai elemen akhir yang dipelajari [1]. Satu kelebihan utama GNNs adalah bahawa struktur graf input menentukan bahagian-bahagian yang berinteraksi dengan satu sama lain melalui mesej yang dipelajari, membolehkan corak arbitrar interaksi ruang di mana-mana rentang. Sebaliknya, rangkaian saraf konvolusi (CNN) terhad kepada interaksi komputasi dalam patches tempatan (atau, dalam kes konvolusi diluaskan, rangkaian yang berinteraksi secara teratur lebih lama). Cara kami memanfaatkan keupayaan GNN untuk memodelkan interaksi yang jarang berlaku adalah dengan memperkenalkan persembahan "multi-mesh" dalaman GraphCast, yang membolehkan interaksi jarak jauh dalam beberapa langkah-langkah mesej dan biasanya mempunyai resolusi ruang yang homogen di seluruh dunia. Our multi-mesh is constructed by first dividing a regular icosahedron (12 nodes and 20 faces) iteratively 6 times to obtain a hierarchy of icosahedral meshes with a total of 40,962 nodes and 81,920 faces on the highest resolution. We leveraged the fact that the coarse-mesh nodes are subsets of the fine-mesh nodes, which allowed us to superimpose edges from all levels of the mesh hierarchy onto the finest-resolution mesh. This procedure yields a multi-scale set of meshes, with coarse edges bridging long distances at multiple scales, and fine edges capturing local interactions. Figure 1g shows each individual refined mesh, and Figure 1e shows the full multi-mesh. GraphCast’s encoder (Figure 1d) first maps the input data, from the original latitude-longitude grid, into learned features on the multi-mesh, using a GNN with directed edges from the grid points to the multi-mesh. The processor (Figure 1e) then uses a 16-layer deep GNN to perform learned message-passing on the multi-mesh, allowing efficient propagation of information across space due to the long-range edges. The decoder (Figure 1f) then maps the final multi-mesh representation back to the latitude-longitude grid using a GNN with directed edges, and combines this grid representation, 𝑌ˆ𝑡+𝑘, with the input state, 𝑋ˆ𝑡+𝑘, to form the output prediction, 𝑋ˆ𝑡+𝑘+1 = 𝑋ˆ𝑡+𝑘 + 𝑌ˆ𝑡+𝑘. Encoder dan decoder tidak memerlukan data mentah untuk disusun dalam rangkaian rectilinear biasa, dan juga boleh digunakan untuk diskretisasi keadaan mesh-like arbitrary [1]. arsitektur umum membina pada pelbagai simulator belajar berasaskan GNN yang telah berjaya dalam banyak sistem cecair yang kompleks dan domain fizikal lain [43, 39, 15]. pendekatan yang sama digunakan dalam ramalan cuaca [26], dengan hasil yang menjanjikan. On a single Cloud TPU v4 device, GraphCast can generate a 0.25° resolution, 10-day forecast (at 6-hour steps) in under 60 seconds. For comparison, ECMWF’s IFS system runs on a 11,664-core cluster, and generates a 0.1° resolution, 10-day forecast (released at 1-hour steps for the first 90 hours, 3-hour steps for hours 93-144, and 6-hour steps from 150-240 hours, in about an hour of com-pute time [41]. See the HRES release details here: https://www.ecmwf.int/en/forecasts/ datasets/set-i.. 3.3 GraphCast dalam graf GraphCast is implemented using GNNs in an “encode-process-decode” configuration, where the encoder maps (surface and atmospheric) features on the input latitude-longitude grid to a multi-mesh, the processor performs many rounds of message-passing on the multi-mesh, and the decoder maps the multi-mesh features back to the output latitude-longitude grid (see Figure 1). Model ini beroperasi pada grafik G (VG, VM, EM, EG2M, EM2G), yang ditakrifkan secara terperinci dalam perenggan berikut. VG mewakili set yang mengandungi setiap nod grid vG. Setiap nod grid mewakili satu bahagian vertikal atmosfer pada titik latitud-langit yang diberikan, i. Ciri-ciri yang dikaitkan dengan setiap nod grid vG adalah vG,features = [xt−1, xt, ft−1, ft, ft+1, ci], di mana xt adalah keadaan cuaca bergantung pada masa Xt yang bersesuaian dengan nod grid vG dan termasuk semua variabel data yang diramalkan untuk semua 37 tahap atmosfer serta variabel permukaan. Syarat-syarat memaksa ft terdiri daripada ciri-ciri bergantung pada masa yang boleh dikira secara analitik, dan tidak perlu diramalkan oleh GraphCast. Mereka termasuk keseluruhan radiasi matahari yang berlaku di atas nod grid vG, yang dikumpulkan selama 1 jam, sinus dan kosin masa tempatan hari ( Grid nodes VM represents the set containing each of the mesh nodes 𝑣M. Mesh nodes are placed uniformly around the globe in a R-refined icosahedral mesh 𝑀𝑅. 𝑀0 corresponds to a unit-radius icosahedron (12 nodes and 20 triangular faces) with faces parallel to the poles (see Figure 1g). The mesh is iteratively refined 𝑀𝑟 → 𝑀𝑟+1 by splitting each triangular face into 4 smaller faces, resulting in an extra node in the middle of each edge, and re-projecting the new nodes back onto the unit sphere.4 Features vM,features associated with each mesh node 𝑣M include the cosine of the latitude, and 𝑖 𝑖the sine and cosine of the longitude. GraphCast works with a mesh that has been refined 𝑅 = 6 times, 𝑀6, resulting in 40,962 mesh nodes (see Supplementary Table 4), each with the 3 input features. Mesh nodes EM adalah tepi bidirektif ditambah antara nodul mesh yang disambungkan dalam mesh. Yang penting, tepi mesh ditambah kepada EM untuk semua peringkat rafinement, iaitu, untuk mesh paling halus, M6, serta untuk M5, M4, M3, M2, M1 dan M0. Ini mudah kerana bagaimana proses rafinement berfungsi: nodul Mr−1 sentiasa merupakan subset nodul dalam Mr. Oleh itu, nodul yang dimasukkan pada tahap rafinement yang lebih rendah berfungsi sebagai hub untuk komunikasi rentang yang lebih panjang, bebas daripada tahap maksimum rafinement. Grafik yang dihasilkan yang mengandungi set gabungan tepi dari semua peringkat rafinement adalah apa yang kita sebut sebagai "multi-mesh". Mesh edges Untuk setiap edge eM yang menghubungkan nod mesh penghantar vM kepada nod mesh penerima vM, kami membina vM→vM edge ciri eM, ciri-ciri yang menggunakan kedudukan pada bidang unit nod mesh. Ini termasuk panjang vM→vM s r edge, dan perbezaan vektor antara kedudukan 3d nod penghantar dan nod penerima dikira dalam sistem koordinat tempatan penerima. Sistem koordinat tempatan penerima dikira dengan menggunakan rotasi yang mengubah sudut azimuth sehingga nod penerima itu terletak pada panjang 0, diikuti oleh rotasi yang mengubah sudut kutub sehingga penerima juga terletak pada lebar 0. Ini menghasilkan jumlah 327,660 edge mesh (Lihat Jadual 4), masing-masing dengan 4 ciri input. EG2M adalah tepi unidirektif yang menghubungkan nod grid penghantar kepada nod mesh penerima. Ejen eG2M vG→vM ditambah jika jarak antara nod mesh dan nod grid adalah lebih kecil s r atau sama dengan 0.6 kali5 panjang tepi dalam mesh M6 (lihat Gambar 1) yang memastikan setiap node grid disambungkan kepada sekurang-kurangnya satu node mesh. Ciri-ciri eG2M, ciri-ciri dibina dengan cara yang sama seperti untuk vG→vM s r tepi mesh. Ini menghasilkan jumlah 1,618,746 tepi Grid2Mesh, masing-masing dengan 4 ciri input. Grid2Mesh edges EM2G adalah tepi unidirektif yang menghubungkan nodus mesh penghantar kepada nodus rangkaian penerima. Untuk setiap titik rangkaian, kami mendapati muka segitiga dalam mesh M6 yang mengandungi ia dan menambah tiga tepi Mesh2G dari bentuk eM2G vM→vG, untuk menghubungkan nodus rangkaian kepada tiga nodus mesh yang bersebelahan s r kepada muka itu (lihat Gambar 1). Ciri-ciri eM2G, ciri-ciri dibina dengan cara yang sama seperti yang digunakan untuk tepi rangkaian vM→vG. Ini membawa kepada jumlah 3,114,720 tepi Mesh2Grid (3 nodus mesh yang disambungkan kepada masing-masing daripada 721 × 1440 titik rangkaian lebar), masing-masing dengan empat ciri input. Mesh2Grid edges 4.4 Pengkodean The purpose of the encoder is to prepare data into latent representations for the processor, which will run exclusively on the multi-mesh. As part of the encoder, we first embed the features of each of the grid nodes, mesh nodes, mesh edges, grid to mesh edges, and mesh to grid edges into a latent space of fixed size using five multi-layer perceptrons (MLP), Embedding the input features Seterusnya, untuk memindahkan maklumat mengenai keadaan atmosfer dari nodul grid kepada nodul mesh, kami menjalankan satu mesej yang melepasi langkah di atas Grid2Mesh bipartite subgraph GG2M (VG, VM, EG2M) yang menghubungkan nodul grid kepada nodul mesh. Kemas kini ini dilakukan menggunakan rangkaian interaksi [5, 6], diperluaskan untuk dapat bekerja dengan pelbagai jenis nodul [2]. Grid2Mesh GNN Kemudian setiap nod mesh dikemas kini dengan mengumpul maklumat daripada semua tepi yang tiba di nod mesh itu: Each of the grid nodes are also updated, but with no aggregation, because grid nodes are not receivers of any edges in the Grid2Mesh subgraph, After updating all three elements, the model includes a residual connection, and for simplicity of the notation, reassigns the variables, 5.3 Pemproses Prosesor ini adalah GNN yang mendalam yang beroperasi pada subgraph Mesh GM (VM, EM) yang hanya mengandungi nod Mesh dan dan tepi Mesh. Nota tepi Mesh mengandungi penuh multi-mesh, dengan bukan sahaja tepi M6, tetapi semua tepi M5, M4, M3, M2, M1 dan M0, yang akan membolehkan komunikasi jarak jauh. Satu lapisan Mesh GNN ialah rangkaian interaksi standard [5, 6] yang pertama kali mengemas kini setiap tepi mesh menggunakan maklumat nod yang berdekatan: Multi-mesh GNN Then it updates each of the mesh nodes, aggregating information from all of the edges arriving at that mesh node: Dan selepas mengemas kini kedua-duanya, perwakilan dikemas kini dengan sambungan residual dan untuk kesederhanaan notasi, juga ditugaskan semula kepada variabel input: Paragraf terdahulu menerangkan satu lapisan mesej yang berlalu, tetapi mengikut pendekatan yang sama kepada [43, 39], kami menerapkan lapisan ini secara iteratif 16 kali, menggunakan berat rangkaian saraf yang tidak dibahagikan untuk MLPs dalam setiap lapisan. 6.3 Dekoding Peranan decoder ialah untuk membawa maklumat kembali ke grid, dan mengekstrak output. Serupa dengan Grid2Mesh GNN, Mesh2Grid GNN menjalankan satu mesej yang melepasi subgraph Mesh2Grid bipartite GM2G(VG, VM, EM2G). Grid2Mesh GNN berfungsi sama dengan Mesh2Grid GNN, tetapi menggunakan tepi Mesh2Grid untuk menghantar maklumat ke arah yang berlawanan. Mesh2Grid GNN Then it updates each of the grid nodes, aggregating information from all of the edges arriving at that grid node: Dalam kes ini, kami tidak mengemas kini nod mesh, kerana mereka tidak akan memainkan apa-apa peranan dari sekarang. Di sini lagi kita menambah sambungan sisa, dan untuk kesederhanaan notasi, mengalokasikan semula variabel, kali ini hanya untuk nod grid, yang merupakan satu-satunya yang diperlukan dari titik ini pada: Finally the prediction yˆ𝑖 for each of the grid nodes is produced using another MLP, Output function yang mengandungi semua 227 variabel yang diramalkan untuk nod rangkaian itu. serupa dengan [43, 39], keadaan cuaca seterusnya, X ̈t + 1, dikira dengan menambah ramalan per nod, Y ̈t , kepada keadaan input untuk semua nod rangkaian, 3.7. normalisasi dan parameterisasi rangkaian Sama seperti [43, 39], kami menormalkan semua input. untuk setiap variabel fizikal, kami mengira purata dan penyimpangan standard per tekanan pada tahun 1979-2015, dan menggunakan ini untuk menormalkan mereka kepada purata nol dan penyimpangan unit. untuk jarak dan panjang tepi relatif, kami menormalkan ciri-ciri kepada panjang tepi terpanjang. Untuk kesederhanaan, kami melepaskan normalisasi output ini daripada notasi. Input normalization Oleh kerana model kami mengeluarkan perbezaan, Y ̈t , yang, semasa penyelesaian, ditambah kepada Xt untuk menghasilkan X ̈t + 1, kami menormalkan output model dengan mengira statistik penyelewengan standard per peringkat tekanan untuk perbezaan masa Yt = Xt+1 − Xt setiap variabel6. Output normalization Rangkaian saraf dalam GraphCast adalah semua MLP, dengan satu lapisan tersembunyi, dan saiz lapisan tersembunyi dan output 512 (kecuali lapisan akhir MLP Decoder, yang saiz output adalah 227, yang sepadan dengan bilangan variabel yang diramalkan untuk setiap nod grid). Neural network parameterizations 4. Training details Seksyen ini menyediakan butiran yang berkaitan dengan latihan GraphCast, termasuk pemisahan data yang digunakan untuk membangunkan model (Seksyen 4.1), definisi penuh fungsi objektif dengan berat yang berkaitan dengan setiap tahap variabel dan vertikal (Seksyen 4.2), pendekatan latihan autoregresif (Seksyen 4.3), tetapan optimisasi (Seksyen 4.4), latihan kurikulum yang digunakan untuk mengurangkan kos latihan (Seksyen 4.5), butiran teknikal yang digunakan untuk mengurangkan jejak memori GraphCast (Seksyen 4.6), masa latihan (Seksyen 4.7) dan perisian yang kami gunakan (Seksyen 4.8). 4.1 Pembahagian latihan To mimic real deployment conditions, in which the forecast cannot depend on information from the future, we split the data used to develop GraphCast and data used to test its performance “causally”, in that the “development set” only contained dates earlier than those in the “test set”. The development set comprises the period 1979–2017, and the test set contains the years 2018–2021. Neither the researchers, nor the model training software, were allowed to view data from the test set until we had finished the development phase. This prevented our choices of model architecture and training protocol from being able to exploit any information from the future. Within our development set, we further split the data into a training set comprising the years 1979–2015, and a validation set that includes 2016–2017. We used the training set as training data for our models and the validation set for hyperparameter optimization and model selection, i.e., to decide on the best-performing model architecture. We then froze the model architecture and all the training choices and moved to the test phase. In preliminary work, we also explored training on earlier data from 1959–1978, but found it had little benefit on performance, so in the final phases of our work we excluded 1959–1978 for simplicity. 4.2 Tujuan Latihan GraphCast was trained to minimize an objective function over 12-step forecasts (3 days) against ERA5 targets, using gradient descent. The training objective is defined as the mean square error (MSE) between the target output 𝑋 and predicted output 𝑋ˆ, di mana τ ∈ 1 : Ttrain ialah masa lead yang sesuai dengan langkah-langkah autoregressive Ttrain. d0 ∈ Dbatch mewakili tarikh-waktu permulaan ramalan dalam serangkaian ramalan dalam set latihan, 𝑗 ∈ 𝐽 indexes the variable, and for atmospheric variables the pressure level. E.g. 𝐽 ={z1000, z850, . . . , 2 T, MsL}, i ∈ G0.25◦ ialah koordinat lokasi (latitude dan longitude) dalam grid, x ̈d0+τ dan xd0+τ adalah nilai ramalan dan sasaran untuk beberapa tahap variabel, lokasi, dan masa lead,j,i j,i s j ialah per-variable-level inverse variance perbezaan masa, wj ialah per-variable-level kehilangan berat, 𝑎𝑖 is the area of the latitude-longitude grid cell, which varies with latitude, and is normalized to unit mean over the grid. In order to build a single scalar loss, we took the average across latitude-longitude, pressure levels, variables, lead times, and batch size. We averaged across latitude-longitude axes, with a weight proportional to the latitude-longitude cell size (normalized to mean 1). We applied uniform averages across time and batch. Jumlah s = V hxt+1 − xt i −1 adalah perkiraan per-variable-level inverse variance perbezaan masa, yang bertujuan untuk menyederhanakan sasaran (melalui langkah berturut-turut) kepada variance unit. Ini dianggarkan daripada data latihan. Kami kemudian menerapkan per-variable-level kehilangan berat, wj. Untuk variabel atmosfer, kami purata di seluruh peringkat, dengan berat proporsional kepada tekanan tahap (normalized kepada rata-rata unit), seperti yang ditunjukkan dalam Gambar 6a. Kami menggunakan tekanan di sini sebagai proxy untuk kepadatan [26]. Perhatikan bahawa berat kerugian yang diterapkan kepada tahap tekanan di atau di bawah 50 hPa, di mana HRES cenderung untuk melakukan lebih baik daripada GraphCast, hanya 0.66% daripada kehilangan berat keseluruhan di seluruh variabel dan peringkat. Kami tunjukkan berat kerugian untuk vari 4.3 Latihan pada matlamat autoregressive In order to improve our model’s ability to make accurate forecasts over more than one step, we used an autoregressive training regime, where the model’s predicted next step was fed back in as input for predicting the next step. The final GraphCast version was trained on 12 autoregressive steps, following a curriculum training schedule described below. The optimization procedure computed the loss on each step of the forecast, with respect to the corresponding ground truth step, error gradients with respect to the model parameters were backpropagated through the full unrolled sequence of model iterations (i.e., using backpropagation-through-time). 4.4. Optimization Fungsi objektif latihan dikurangkan menggunakan penurunan gradien, dengan mini-batch. Kami sampelkan laluan kebenaran tanah dari set data latihan ERA5 kami, dengan penggantian, untuk batch saiz 32. Kami menggunakan AdamW optimizer [33, 27] dengan parameter (beta1 = 0.9, beta2 = 0.95). Kami menggunakan penurunan berat badan 0.1 pada matriks berat. Kami menggunakan pemotongan gradien (norm) dengan nilai norma maksimum 32. 4.5. Curriculum training schedule Latihan model ini dijalankan menggunakan kurikulum tiga fasa, yang bervariasi kadar pembelajaran dan bilangan langkah-langkah autoregressive. Fasa pertama terdiri daripada 1000 pembaruan tahap bawah, dengan satu langkah autoregressive, dan jadual kadar pembelajaran yang meningkat secara linear dari 0 ke 1e−3 (Gambar 7a). Fasa kedua terdiri daripada 299,000 pembaruan tahap bawah, sekali lagi dengan satu langkah autoregressive, dan jadual kadar pembelajaran yang berkurangan semula kepada 0 dengan fungsi pecah separuh-cosine (Gambar 7b). Fasa ketiga terdiri daripada 11,000 pembaruan tahap bawah, di mana bilangan langkah-langkah autoregressive meningkat dari 2 12, meningkat dengan 1 setiap 1000 pembaruan, dan dengan kadar pembelajaran tetap 3e−7 (Gambar 7c). 4.6 Mengurangkan jejak memori Untuk menyesuaikan laluan panjang (12 langkah autoregressive) ke dalam 32GB peranti Cloud TPU v4, kami menggunakan beberapa strategi untuk mengurangkan jejak memori model kami. Pertama, kami menggunakan paralelism batch untuk mengedarkan data ke dalam 32 peranti TPU (iaitu, satu titik data per peranti). Kedua, kami menggunakan ketepatan titik melayang bfloat16 untuk mengurangkan memori yang diambil oleh aktivasi (ingat, kami menggunakan numerik ketepatan penuh (iaitu float32) untuk mengira metrik prestasi pada masa penilaian). Akhirnya, kami menggunakan pengesahan gradien [11] untuk mengurangkan lagi jejak memori dengan kos kelajuan latihan yang lebih rendah. 4.7 Masa Latihan Following the training schedule that ramps up the number of autoregressive steps, as detailed above, training GraphCast took about four weeks on 32 TPU devices. 4.8. Software and hardware stack Kami menggunakan JAX [9], Haiku [23], Jraph [17], Optax, Jaxline [4] dan xarray [25] untuk membina dan melatih model kami. 5. kaedah pengesahan Seksyen ini memberikan butiran mengenai protokol penilaian kami. Seksyen 5.1 menerangkan pendekatan kami untuk membahagikan data dengan cara kausal, memastikan ujian penilaian kami untuk generalisasi yang bermakna, iaitu, tanpa memanfaatkan maklumat dari masa hadapan. Seksyen 5.2 menerangkan lebih terperinci pilihan kami untuk menilai kemahiran HRES dan membandingkannya dengan GraphCast, bermula daripada keperluan untuk kebenaran tanah yang khusus untuk HRES untuk mengelakkan menghukumnya pada masa laluan yang singkat (Seksyen 5.2.1), kesan ERA5 dan HRES menggunakan tetingkap asimilasi yang berbeza pada lookahead yang mana setiap negeri menggabungkan (Seksyen 5.2.2), pilihan yang dihasilkan untuk inisialisasi untuk masa GraphCast dan HRES untuk memastikan bahawa semua kaedah mendapat manfaat daripada pandangan yang sama dalam input mereka serta dalam matlamat mereka (Seksyen 5.2. 5.1. Training, validation, and test splits Dalam fasa ujian, menggunakan protokol beku pada akhir fasa pembangunan (Bahagian 4.1), kami melatih empat versi GraphCast, masing-masing pada tempoh yang berbeza. 2018–2021, 2019–2021, 2020–2021 dan 2021, masing-masing. Sekali lagi, pemisahan ini mengekalkan pemisahan sebab antara data yang digunakan untuk melatih versi model dan data yang digunakan untuk menilai prestasi (lihat Gambar 8). Kebanyakan hasil kami dinilai pada 2018 (iaitu, dengan model dilatih pada 1979–2017), dengan beberapa pengecualian. Untuk percubaan pelacakan siklon, kami melaporkan hasil pada 2018–2021 kerana siklon tidak biasa, jadi termasuk lebih tahun meningkatkan saiz sampel. Kami menggunakan versi terkini GraphCast untuk membuat ramalan pada tahun yang diberikan: GraphCast <2018 untuk ramalan 2018, GraphCast <2019 untuk ramalan 2019, dan lain-lain Untuk percubaan data latihan baru-baru ini, kami menilai bagaimana model yang berbeza dilatih sehingga tahun yang berbeza berbanding dengan prestasi ujian 2021. 5.2. Comparing GraphCast to HRES 5.2.1 Pilihan dataset kebenaran tanah GraphCast telah dilatih untuk meramalkan data ERA5, dan mengambil data ERA5 sebagai input; kami juga menggunakan ERA5 sebagai kebenaran tanah untuk menilai model kami. Walau bagaimanapun, ramalan HRES dimulakan berdasarkan analisis HRES. Secara amnya, mengesahkan model terhadap analisis sendiri memberikan perkiraan kemahiran yang terbaik [45]. Oleh itu, bukannya menilai ramalan HRES berbanding kebenaran tanah ERA5, yang bermakna bahawa walaupun langkah nol ramalan HRES akan mempunyai kesilapan bukan nol, kami membina satu "ramalan HRES pada langkah 0" (HRES-fc0) dataset, yang mengandungi langkah awal ramalan HRES pada inisialisasi masa depan (lihat Jadual 3). Kami menggunakan ramalan HRES-fc0 sebagai kebenaran untuk menilai ramalan HRES. 5.2.2 Menjamin pandangan yang sama dalam tetingkap asimilasi Apabila membandingkan kemahiran GraphCast dan HRES, kami membuat beberapa pilihan untuk mengawal perbezaan antara ERA5 dan HRES-fc0 data asimilasi tingkap. Seperti yang diterangkan dalam Seksyen 1, setiap hari HRES asimilasi pengamatan menggunakan empat +/-3h tingkap yang berpusat pada 00z, 06z, 12z dan 18z (di mana 18z bermaksud 18:00 UTC dalam Konvensyen Zulu), manakala ERA5 menggunakan dua +9h/-3h tingkap yang berpusat pada 00z dan 12z, atau setara dengan dua +3h/-9h tingkap yang berpusat pada 06z dan 18z. Lihat Gambar 9 untuk ilustrasi. Kami memilih untuk menilai ramalan GraphCast dari 06z dan 18z inisialisasi, memastikan inputnya membawa maklumat dari +3h pengamatan masa depan, mematuhi input HRES Gambar 10 menunjukkan prestasi GraphCast dimulakan dari 06z/18z, dan 00z/12z. Apabila dimulakan dari keadaan dengan pandangan yang lebih besar, GraphCast mendapat peningkatan yang kelihatan yang berterusan pada masa lead yang lebih lama, menyokong pilihan kami untuk penilaian dimulakan dari 06z/18z. Kami menggunakan logik yang sama apabila memilih sasaran untuk menilai: kami hanya menilai sasaran yang memasukkan 3h lookahead untuk kedua-dua HRES dan ERA5. Mengikut pilihan kita untuk memulakan atz 06z dan 18z, ini sepadan dengan menilai setiap 12h, pada masa analisis 06z dan 18z yang akan datang. Sebagai contoh praktikal, jika kita menilai GraphCast dan HRES yang dimulakan pada 06z, pada masa lead 6h (i.e., 12), sasaran untuk GraphCast akan memasukkan +9 5.2.3 Penyelarasan pemulihan dan masa sah-hari Seperti yang dinyatakan di atas, perbandingan yang adil dengan HRES memerlukan kami untuk menilai GraphCast menggunakan inisialisasi 06z dan 18z, dan dengan masa lead yang merupakan kali ganda 12h, yang bermakna masa sah juga 06z dan 18z. Untuk masa lead sehingga 3.75 hari terdapat ramalan HRES yang disimpan yang tersedia menggunakan 06z dan 18z awal dan masa sah, dan kami menggunakan ini untuk melakukan perbandingan serupa dengan GraphCast pada masa lead ini. Nota, kerana kami menilai hanya pada peningkatan masa lead 12 jam, ini bermakna masa lead akhir ialah 3.5 hari. For lead times of 4 days and beyond, archived HRES forecasts are only available at 00z and 12z initializations, which given our 12-hour-multiple lead times means 00z and 12z validity times. At these lead times we have no choice but to compare GraphCast at 06z and 18z, with HRES at 00z and 12z. Dalam perbandingan ini RMSEs global-defined, kami mengharapkan perbezaan dalam waktu-of-day untuk memberikan HRES kelebihan kecil. Dalam Gambar 11, kita boleh melihat bahawa sehingga 3.5 hari lead times, HRES RMSEs cenderung lebih kecil rata-rata di atas 00z dan 12z initialization/validity times daripada mereka pada 06z dan 18z times yang GraphCast dinilai pada. Kami juga boleh melihat bahawa perbezaan berkurangan sebagai lead time meningkat, dan bahawa 06z/18z RMSEs umumnya kelihatan cenderung ke arah asymptote di atas 00z/12z RMSE, tetapi dalam 2% daripada itu. Setiap kali kami menggambarkan RMSE dan metrik penilaian lain sebagai fungsi masa laluan, kami menunjukkan dengan baris titik perubahan hari 3.5 di mana kami beralih dari menilai HRES pada 06z/18z kepada menilai pada 00z/12z. 5.2 Masa penilaian Most of our main results are reported for the year 2018 (from our test set), for which the first forecast initialization time was 2018-01-01_06:00:00 UTC and the last 2018-12-31_18:00:00, or when evaluating HRES at longer lead times, 2018-01-01_00:00:00 and 2018-12-31_12:00:00. Additional results on cyclone tracking and the effect of data recency use years 2018–2021 and 2021 respectively. 5.3 Metrik Penilaian Kami mengukur keahlian GraphCast, model ML lain, dan HRES menggunakan kesilapan rata-rata persegi akar (RMSE) dan koefisien korelasi anomali (ACC), yang kedua-duanya dikira terhadap data kebenaran tanah masing-masing model. RMSE mengukur saiz perbezaan antara ramalan dan kebenaran tanah untuk variabel yang diberikan yang diindeks oleh j dan masa laluan yang diberikan τ (lihat persamaan (20)). ACC, Lj,τ , ditakrifkan dalam persamaan (29) dan mengukur seberapa baik perbezaan ramalan dari klimatologi, iaitu cuaca purata untuk lokasi dan tarikh, berkorelasi dengan perbezaan kebenaran tanah daripada klimatologi. Semua metrik dikira menggunakan ketepatan float32 dan dilaporkan menggunakan julat dinamik asli variabel, tanpa normalisasi. . We quantified forecast skill for a given variable, 𝑥 𝑗, and lead time, 𝜏 = 𝑡Δ𝑑, using a latitude-weighted root mean square error (RMSE) given by Root mean square error (RMSE) di mana • d0 ∈ Deval mewakili tarikh awal ramalan dalam set data penilaian, • j ∈ J indeks variabel dan tahap, contohnya, J = {z1000, z850, . . . , 2 T, MsL}, • i ∈ G0.25◦ ialah koordinat lokasi (latitude dan longitude) dalam grid, • 𝑥ˆ𝑑0+𝜏 and 𝑥𝑑0+𝜏 are predicted and target values for some variable-level, location, and lead time, j j j j j j i • ai ialah kawasan sel grid latitude-longitude (normalised to unit mean over the grid) yang bervariasi dengan latitude. Dengan mengambil akar persegi di dalam purata di atas inisialisasi ramalan kita mengikuti konvensi WeatherBench [41]. Walau bagaimanapun, kita ambil perhatian bahawa ini berbeza daripada bagaimana RMSE ditakrifkan dalam banyak konteks lain, di mana akar persegi hanya digunakan kepada purata akhir, iaitu, In all comparisons involving predictions that are filtered, truncated or decomposed in the spherical harmonic domain, for convenience we compute RMSEs directly in the spherical harmonic domain, with all means taken inside the square root, Root mean square error (RMSE), spherical harmonic domain. Di sini fd0+τ dan f d0+τ adalah prediksi dan koefisien sasaran harmoni sferik dengan jumlah nombor gelombang j,l,m j,l,m l dan nombor gelombang longitudinal m. Kami mengira koefisien ini daripada data berasaskan rangkaian menggunakan transformasi harmoni sferik yang tertutup [13] dengan truncasi segitiga pada nombor gelombang 719, yang dipilih untuk menyelesaikan resolusi 0.25° (28km) rangkaian kita di ekor. RMSE ini mendekati definisi berasaskan grid RMSE yang diberikan dalam Persamaan (21), tetapi ia tidak betul-betul sebanding, sebahagiannya kerana truncasi segitiga pada nombor gelombang 719 tidak menyelesaikan resolusi tambahan grid persegi dekat kutub. Ini dikira mengikut definisi RMSE Equation (21), tetapi untuk satu lokasi: Root mean square error (RMSE), per location. Kami juga membahagikan RMSE mengikut latitude sahaja: where |lon(𝐺0.25◦ ) | = 1440 is the number of distinct longitudes in our regular 0.25° grid. Ini dikira mengikut definisi RMSE Equation (21) tetapi terhad kepada julat tertentu ketinggian permukaan, yang diberikan oleh sempadan zl ≤ zsurface < zu pada geopotensial permukaan: Root mean square error (RMSE), by surface elevation. dimana ll menandakan fungsi indikator. Jumlah ini ditakrifkan sebagai Mean bias error (MBE), per location. Ini mengukur magnitud purata bias per-lokasi daripada Persamaan (26) dan diberikan oleh Root-mean-square per-location mean bias error (RMS-MBE). This quantifies the correlation between per-location biases (Equation (26)) of two different models A and B. We use an uncentered correlation coefficient because of the significance of the origin zero in measurements of bias, and compute this quantity according to Correlation of per-location mean bias errors. Koefisien korelasi anomali (ACC) Kami juga mengira koefisien korelasi anomali untuk variabel yang diberikan, x j, dan masa lead, τ = tΔd, mengikut di mana Cd0+τ ialah purata klimatologi untuk variabel, tahap, lebar dan panjang yang diberikan, dan untuk hari-hari tahun yang mengandungi masa sah d0 + τ. Purata klimatologi dikira menggunakan data ERA5 antara tahun 1993 dan 2016. 5.3 Metodologi statistik 5.4.1. Significance tests for difference in means Untuk setiap masa laluan τ dan tahap variabel j, kami menguji untuk perbezaan dalam purata antara per-initialization-time RMSEs (ditakrifkan dalam Persamaan (30)) untuk GraphCast dan HRES. Kami menggunakan ujian t dua sisi berpasangan dengan koreksi untuk auto-korelasi, mengikut kaedah [16]. Ujian ini menganggap bahawa siri masa perbezaan dalam skor ramalan yang memodelkan dengan betul sebagai proses Gaussian AR(2) tetap. asumsi ini tidak tepat bagi kita, tetapi di motivasi sebagai mencukupi untuk pengesahan ramalan cuaca jarak menengah oleh ECMWF dalam [16]. Saiz sampel nominal untuk ujian kami ialah n = 730 pada masa lead kurang daripada 4 hari, yang terdiri daripada dua inisialisasi ramalan setiap hari selama 365 hari 2018. (Untuk masa lead lebih daripada 4 hari kita mempunyai n = 729, lihat Seksyen 5.4.2). Walau bagaimanapun, data ini (perbezaan dalam RMSEs ramalan) secara automatik berkorelasi dalam masa. Selepas [16] kita menganggarkan faktor inflasi k untuk kesilapan standard yang mengoreksi untuk ini. Nilai k berkisar antara 1.21 dan 6.75, dengan nilai tertinggi biasanya dilihat pada masa lead pendek dan pada tahap tekanan terendah. Lihat Jadual 5 untuk hasil terperinci ujian signifikansi kami, termasuk nilai p, nilai statistik ujian t dan neff. 5.4.2. Forecast alignment Untuk masa lead τ kurang daripada 4 hari, kami mempunyai ramalan yang tersedia pada 06z dan 18z permulaan dan masa sah setiap hari untuk kedua-dua GraphCast dan HRES, dan kami boleh menguji untuk perbezaan dalam RMSEs antara ramalan yang digabungkan ini. Kami mengira perbezaan yang kita gunakan untuk menguji hipotesis null bahawa E[diff-RMSE( j, τ, d0)] = 0 terhadap alterna-tive dua sisi. Seperti yang dibincangkan dalam Seksyen 5.2.3, pada masa lead 4 hari atau lebih, kami hanya mempunyai ramalan HRES boleh didapati pada 00z dan 12z permulaan dan masa sah, manakala untuk perbandingan yang paling adil (Seksyen 5.2.2) ramalan GraphCast mesti dinilai menggunakan 06z dan 18z permulaan dan masa sah. Untuk menjalankan ujian berpasangan, kami membandingkan RMSE ramalan GraphCast dengan RMSE interpolasi kedua-dua ramalan HRES di kedua-dua belah pihak: satu dimulakan dan sah 6 jam lebih awal, dan yang lain dimulakan dan sah 6 jam kemudian, semua dengan masa had yang sama. We can use these to test the null hypothesis 𝔼[diff-RMSEinterp( 𝑗, 𝜏, 𝑑0)] = 0, which again doesn’t depend on 𝑑0 by the stationarity assumption on the differences. If we further assume that the HRES RMSE time series itself is stationary (or at least close enough to stationary over a 6 hour window) then 𝔼[diff-RMSEinterp( 𝑗, 𝜏, 𝑑0)] = 𝔼[diff-RMSE( 𝑗, 𝜏, 𝑑0)] and the interpolated differences can also be used to test deviations from the original null hypothesis that 𝔼[diff-RMSE( 𝑗, 𝜏, 𝑑0)] = 0. Asumsi stabiliti yang lebih kuat untuk HRES RMSEs dilanggar oleh kerapuhan harian, dan dalam Seksyen 5.2.3 kita melihat beberapa perbezaan sistematik dalam HRES RMSEs antara 00z/12z dan 06z/18z masa sah. Walau bagaimanapun, seperti yang dibincangkan di sana, perbezaan sistematik ini berkurangan secara substansial apabila masa lead meningkat dan mereka cenderung untuk menguntungkan HRES, dan oleh itu kami percaya bahawa ujian E[diff-RMSE( j, τ, d0)] = 0 berdasarkan diff-RMSEinterp akan konservatif dalam kes-kes di mana GraphCast kelihatan mempunyai kemahiran yang lebih besar daripada HRES. 5.4.3. Confidence intervals for RMSEs The error bars in our RMSE skill plots correspond to separate confidence intervals for 𝔼[RMSE𝐺𝐶] and 𝔼[RMSE𝐻𝑅𝐸𝑆] (eliding or now the arguments 𝑗, 𝜏, 𝑑0). These are derived from the two-sided 𝑡-test with correction for autocorrelation that is described above, applied separately to GraphCast and HRES RMSE time-series. Interval keyakinan ini membuat asumsi keyakinan untuk siri masa yang berasingan GraphCast dan HRES RMSE, yang, seperti yang dinyatakan di atas, merupakan asumsi yang lebih kuat bahawa keyakinan keyakinan perbezaan dan agak dilanggar. 5.4.4. interval keyakinan untuk skor kemahiran RMSE Dari t-test yang diterangkan dalam Seksyen 5.4.1 kita juga boleh mengeluarkan dalam cara standard interval keyakinan untuk perbezaan sebenar dalam RMSEs, bagaimanapun, dalam plot skor kemahiran kita ingin menunjukkan interval keyakinan untuk skor kemahiran RMSE sebenar, di mana perbezaan sebenar diatur oleh RMSE sebenar HRES: A confidence interval for this quantity should take into account the uncertainty of our estimate of the true HRES RMSE. Let [𝑙diff, 𝑢diff] be our 1 − 𝛼/2 confidence interval for the numerator (difference in RMSEs), and [𝑙HRES, 𝑢HRES] our 1 − 𝛼/2 confidence interval for the denominator (HRES RMSE). Given that 0 < 𝑙𝐻𝑅𝐸𝑆 in every case for us, using interval arithmetic and the union bound we obtain a conservative 1 − 𝛼 confidence interval for RMSE-SStrue. We plot these confidence intervals alongside our estimates of the RMSE skill score, however note that we don’t rely on them for significance testing. Perbandingan dengan baseline pembelajaran mesin terdahulu To determine how GraphCast’s performance compares to other ML methods, we focus on Pangu-Weather [7], a strong MLWP baseline that operates at 0.25° resolution. To make the most direct comparison, we depart from our evaluation protocol, and use the one described in [7]. Because published Pangu-Weather results are obtained from the 00z/12z initializations, we use those same initializations for GraphCast, instead of 06z/18z, as in the rest of this paper. This allows both models to be initialized on the same inputs, which incorporate the same amount of lookahead (+9 hours, see Sections 5.2.2 and 5.2.3). As HRES initialization incorporates at most +3 hours lookahead, even if initialized from 00z/12z, we do not show the evaluation of HRES (against ERA5 or against HRES-fc0) in this comparison as it would disadvantage it. The second difference with our protocol is to report performance every 6 hours, rather than every 12 hours. Since both models are evaluated against ERA5, their targets are identical, in particular, for a given lead time, the target incorporates +3 hours or +9 hours of lookahead for both GraphCast and Pangu-Weather, allowing for a fair comparison. Pangu-Weather[7] reports its 7-day forecast accuracy (RMSE and ACC) on: z500, T 500, T 850, Q 500, U 500, v 500, 2 T, 10 U, 10 v, and MsL. Seperti yang ditunjukkan dalam Gambar 12, GraphCast (garis biru) melebihi Pangu-Weather [7] (garis merah) pada 99.2% daripada sasaran. Untuk variabel permukaan (2 T, 10 U, 10 v, MsL), kesilapan GraphCast dalam beberapa hari pertama adalah kira-kira 10-20% lebih rendah, dan di atas lapisan masa lead yang lebih lama kepada kira-kira 7-10% lebih rendah kesilapan. Satu-satunya dua (dari 252 jumlah) metrik di mana Pangu-Weather melebihi GraphCast ialah z500, pada masa lead 6 dan 12 jam, di mana GraphCast mempunyai RMSE purata yang lebih tinggi 1.7% (Gambar 12a,e). 7. hasil pengesahan ramalan tambahan Seksyen ini menyediakan analisis tambahan prestasi GraphCast, memberikan gambaran yang lebih lengkap tentang kelebihan dan kekurangan GraphCast. Seksyen 7.1 melengkapkan hasil utama kertas pada variabel tambahan dan tahap di luar z500. Seksyen 7.2 menganalisis prestasi GraphCast yang dibahagikan oleh kawasan, latitude dan tahap tekanan (terutamanya membezakan prestasi yang optimal di bawah dan di atas tropopause), menggambarkan bias dan RMSE oleh longitud dan ketinggian. Seksyen 7.3 menunjukkan bahawa kedua-dua multi-mesh dan kerugian autoregressive memainkan peranan penting dalam prestasi GraphCast. Seksyen 7.4 menerangkan pendekatan pengelasan optimal yang diterapkan kepada HRES dan GraphCast, untuk memastikan bahawa prestasi yang lebih baik GraphCast bukan sahaja disebabkan oleh keupayaan untuk mengelakkan prediksi 7.1 Hasil terperinci untuk variabel tambahan 7.1.1 RMSE dan ACC Jadual 13 melengkapkan Jadual 2a–b dan menunjukkan RMSE dan perbezaan RMSE normal dengan HRES untuk GraphCast dan HRES pada gabungan 12 variabel highlight. Jadual 14 menunjukkan ACC dan perbezaan ACC normal dengan HRES untuk GraphCast dan HRES pada gabungan 12 variabel yang sama dan melengkapkan Jadual 2c. skor kemahiran ACC adalah perbezaan ACC normal antara model A dan baseline B sebagai (ACCA − ACCB)/(1 − RMSEB). 7.1.2 Hasil ujian signifikansi terperinci untuk perbandingan RMSE Jadual 5 menyediakan maklumat lanjut mengenai tuntutan signifikansi statistik yang dibuat dalam seksyen utama mengenai perbezaan dalam RMSE antara GraphCast dan HRES. Rincian kaedah ini terdapat dalam Seksyen 5.4. Di sini kami memberikan nilai p, statistik ujian dan saiz sampel yang berkesan untuk semua variabel. Untuk alasan ruang, kami mengehadkan diri kepada tiga masa lead utama (12 jam, 2 hari dan 10 hari) dan subset 7 tahap tekanan yang dipilih untuk memasukkan semua kes di mana p > 0.05 pada masa lead ini. 7.1.3 Kesan data terkini pada GraphCast Ciri-ciri penting kaedah MLWP ialah mereka boleh dilatih semula secara berkala dengan data terkini.Ini, pada prinsipnya, membolehkan mereka untuk memodelkan corak cuaca baru-baru ini yang berubah seiring dengan masa, seperti kitaran ENSO dan osilasi lain, serta kesan perubahan iklim.Untuk meneroka bagaimana kebelakangan data latihan mempengaruhi prestasi ujian GraphCast, kami melatih empat varian GraphCast, dengan data latihan yang sentiasa bermula pada tahun 1979, tetapi berakhir pada tahun 2017, 2018, 2019, dan 2020, masing-masing (kami menandakan varian yang berakhir pada tahun 2017 sebagai "GraphCast:<2018", dan lain-lain). Figure 15 shows the skill and skill scores (with respect to HRES) of the four variants of GraphCast, for several variables and complements Figure 4a. There is a general trend where variants trained to years closer to the test year have generally improved skill score against HRES. The reason for this improvement is not fully understood, though we speculate it is analogous to long-term bias correction, where recent statistical biases in the weather are being exploited to improve accuracy. It is also important to note that HRES is not a single NWP across years: it tends to be upgraded once or twice a year, with generally increasing skill on z500 and other fields [18, 22, 19, 20, 21]. Ini juga boleh menyumbang kepada mengapa GraphCast:<2018 dan GraphCast:<2019, terutamanya, mempunyai skor kemahiran yang lebih rendah berbanding HRES pada masa utama untuk penilaian ujian 2021. 7.2. Disaggregated results 7.2.1 RMSE mengikut kawasan Penilaian per rantau kemahiran ramalan disediakan dalam Gambar 17 dan 18, menggunakan rantau yang sama dan konvensi nama seperti dalam kad skor ECMWF (https://sites.ecmwf.int/ifs/scorecards/ scorecards-47r3HRES.html). Kami menambah beberapa rantau tambahan untuk meliputi lebih baik seluruh planet. 7.2.2 Skor kemahiran RMSE mengikut latitude dan tekanan In Figure 19, we plot normalized RMSE differences between GraphCast and HRES, as a function of both pressure level and latitude. We plot only the 13 pressure levels from WeatherBench [41] on which we have evaluated HRES. Pada plot ini, kami menunjukkan pada setiap lebar tekanan purata tropopause, yang memisahkan troposfer daripada stratosfer. Kami menggunakan nilai yang dikira untuk set data ERA-15 (1979-1993), yang diberikan dalam Gambar 1 daripada [44]. Ini tidak akan sama dengan ERA5, tetapi hanya dimaksudkan sebagai bantuan kasar untuk interpretasi. Kita boleh melihat daripada kad skor dalam Gambar 2 bahawa GraphCast melakukan lebih buruk daripada HRES pada tahap tekanan terendah yang dinilai (50hPa). Gambar 19 menunjukkan bahawa tahap tekanan di mana GraphCast mula menjadi lebih buruk sering juga bergantung kepada lebar, dalam sesetengah kes kira-kira mengikut tahap purata tropopause. Kami menggunakan penilaian kerugian yang lebih rendah untuk tahap tekanan yang lebih rendah dan ini mungkin memainkan beberapa peranan; Ia juga mungkin bahawa mungkin terdapat perbezaan antara kumpulan data ERA5 dan HRES-fc0 dalam prediktabiliti variabel di stratosfer. 7.2.3. Biases by latitude and longitude Dalam Gambar 20 hingga 22, kami melukis kesilapan bias purata (MBE, atau hanya 'bias', yang didefinisikan dalam Persamaan (26)) daripada GraphCast sebagai fungsi latitude dan longitude, pada tiga masa lead: 12 jam, 2 hari dan 10 hari. In the plots for variables given on pressure levels, we have masked out regions whose surface elevation is high enough that the pressure level is below ground on average. We determine this to be the case when the surface geopotential exceeds a climatological mean geopotential at the same location and pressure level. In these regions the variable will typically have been interpolated below ground and will not represent a true atmospheric value. To quantify the average magnitude of the per-location biases shown in Figures 20 to 22, we computed the root-mean-square of per-location mean bias errors (RMS-MBE, defined in Equation (26)). These are plotted in Figure 23 for GraphCast and HRES as a function of lead time. We can see that GraphCast’s biases are smaller on average than HRES’ for most variables up to 6 days. However they generally start to exceed HRES’ biases at longer lead times, and at 4 days in the case of 2m temperature. Kami juga mengira koefisien korelasi antara GraphCast dan kesilapan bias purata HRES per-lokasi (ditakrifkan dalam Persamaan (27)), yang disusun sebagai fungsi masa lead dalam Gambar 24. kita boleh melihat bahawa bias GraphCast dan HRES tidak berkorelasi atau kurang berkorelasi pada masa lead terpendek, tetapi koefisien korelasi biasanya meningkat dengan masa lead, mencapai nilai yang tinggi sebanyak 0.6 pada 10 hari. 7.2.4. skor kemahiran RMSE mengikut latitude dan longitude In Figures 25 to 27, we plot the normalized RMSE difference between GraphCast and HRES by latitude and longitude. As in Section 7.2.3, for variables given on pressure levels, we have masked out regions whose surface elevation is high enough that the pressure level is below ground on average. Kawasan-kawasan penting di mana HRES melebihi GraphCast termasuk kelembapan tertentu berhampiran kutub (terutamanya kutub selatan); geopotential berhampiran kutub; suhu 2m berhampiran kutub dan di atas banyak kawasan tanah; dan beberapa variabel permukaan atau berhampiran permukaan di kawasan yang mempunyai ketinggian permukaan yang tinggi (lihat juga Seksyen 7.2.5). kemahiran GraphCast di kawasan ini biasanya meningkat pada masa lead yang lebih lama. Pada masa lead 12 jam dan 2 hari, kedua-dua GraphCast dan HRES dinilai pada 06z/18z permulaan dan masa sah, tetapi pada masa lead 10 hari kita mesti membandingkan GraphCast pada 06z/18z dengan HRES pada 00z/12z (lihat Seksyen 5). 7.2.5. skor kemahiran RMSE mengikut ketinggian permukaan Dalam Gambar 25, kita boleh melihat bahawa GraphCast kelihatan mempunyai kemahiran yang berkurangan dalam kawasan ketinggian tinggi untuk banyak variabel pada masa 12 jam. untuk menyiasat ini lebih lanjut, kami membahagikan permukaan bumi kepada 32 bins oleh ketinggian permukaan (yang diberikan dalam hal ketinggian geopotential) dan mengira RMSEs dalam setiap bin mengikut Persamaan (24). Pada masa lead pendek dan terutamanya pada 6 jam, kemahiran GraphCast berkaitan HRES cenderung berkurangan dengan ketinggian permukaan yang lebih tinggi, dalam kebanyakan kes jatuh di bawah kemahiran HRES pada ketinggian yang cukup tinggi. We note that GraphCast is trained on variables defined using a mix of pressure-level coordinates (for atmospheric variables) and height above surface coordinates (for surface-level variables like 2m temperature or 10m wind). The relationship between these two coordinates systems depends on surface elevation. Despite GraphCast conditioning on surface elevation we conjecture that it may struggle to learn this relationship, and to extrapolate it well to the highest surface elevations. In further work we would propose to try training the model on a subset of ERA5’s native model levels instead of pressure levels; these use a hybrid coordinate system [14] which follows the land surface at the lowest levels, and this may make the relationship between surface and atmospheric variables easier to learn, especially at high surface elevations. Variabel menggunakan koordinat tahap tekanan diinterpolasi di bawah tanah apabila tahap tekanan melebihi tekanan permukaan. GraphCast tidak diberikan apa-apa indikasi eksplisit bahawa ini telah berlaku dan ini boleh menambah cabaran belajar untuk meramalkan pada ketinggian permukaan yang tinggi. Dalam kerja lebih lanjut menggunakan koordinat peringkat tekanan kami mencadangkan untuk memberikan isyarat tambahan kepada model yang menunjukkan apabila ini telah berlaku. Akhirnya, berat kerugian kami lebih rendah untuk variabel atmosfer pada tahap tekanan yang lebih rendah, dan ini boleh menjejaskan kemahiran di lokasi ketinggian yang lebih tinggi. 7.3 Pembedahan grafis 7.3.1 Ablasi pelbagai mesh Untuk memahami lebih baik bagaimana representasi multi-mesh mempengaruhi prestasi GraphCast, kami membandingkan prestasi GraphCast dengan versi model yang dilatih tanpa representasi multi-mesh. Arsitektur model yang terakhir adalah identik dengan GraphCast (termasuk encoder dan decoder yang sama, dan bilangan nod yang sama), kecuali bahawa dalam blok proses, grafik hanya mengandungi tepi dari mesh icosahedron terbaik M6 (245,760 tepi, bukannya 327,660 untuk GraphCast). Hasilnya, model ablated hanya boleh menyebarkan maklumat dengan tepi jangka pendek, manakala GraphCast mengandungi tepi jangka panjang tambahan. Gambar 29 (panel kiri) menunjukkan kad skor yang membandingkan GraphCast dengan model ablated. GraphCast mendapat manfaat daripada struktur multi-mesh untuk semua variabel yang diramalkan, kecuali masa lead melebihi 5 hari pada 50 hPa. Peningkatan ini terutamanya jelas untuk geopotential di semua tahap tekanan dan untuk tekanan rata-rata di permukaan laut untuk masa lead di bawah 5 hari. Panel tengah menunjukkan kad skor yang membandingkan model ablated dengan HRES, manakala panel kanan membandingkan GraphCast dengan HRES, menunjukkan bahawa multi-mesh adalah penting bagi GraphCast untuk melampaui HRES pada geopotential pada masa lead di bawah 5 hari. 7.3.2. Effect of autoregressive training We analyzed the performance of variants of GraphCast that were trained with fewer autoregressive (AR) steps7, which should encourage them to improve their short lead time performance at the expense of longer lead time performance. As shown in Figure 30 (with the lighter blue lines corresponding to training with fewer AR steps) we found that models trained with fewer AR steps tended to trade longer for shorter lead time accuracy. These results suggest potential for combining multiple models with varying numbers of AR steps, e.g., for short, medium and long lead times, to capitalize on their respective advantages across the entire forecast horizon. The connection between number of autoregressive steps and blurring is discussed in Supplements Section 7.4.4. 7.4 Pengambilan optimum 7.4.1. kesan pada perbandingan kemahiran antara GraphCast dan HRES In Figures 31 and 32 we compare the RMSE of HRES with GraphCast before and after optimal blurring has been applied to both models. We can see that optimal blurring rarely changes the ranking of the two models, however it does generally narrow the gap between them. 4.2 Metodologi Filter We chose filters which minimize RMSE within the class of linear, homogeneous (location invariant), isotropic (direction invariant) filters on the sphere. These filters can be applied easily in the spherical harmonic domain, where they correspond to multiplicative filter weights that depend on the total wavenumber, but not the longitudinal wavenumber [12]. Untuk setiap inisialisasi d0, masa laluan τ, variabel dan tahap j, kami menerapkan transformasi harmoni sferik yang terpisah [13] kepada ramalan x ̈d0+τ dan matlamat xd0+τ, memperoleh koefisien harmoni sferik f ̈d0+τ j j j,l,m dan f d0+τ untuk setiap pasang bilangan gelombang total l dan bilangan gelombang longitudinal m. Untuk menyelesaikan resolusi 0.25° (28km) rangkaian kita di Ekuator, kita menggunakan penebat segitiga pada bilangan gelombang total 719, yang bermakna bahawa l berkisar dari 0 kepada max l = 719, dan untuk setiap l nilai m berkisar dari −l kepada l. We then multiplied each predicted coefficient 𝑓ˆ𝑑0+𝜏 by a filter weight 𝑏𝜏 , which is independent of 𝑗,𝑙,𝑚 𝑗,𝑙 the longitudinal wavenumber 𝑚. The filter weights were fitted using least-squares to minimize mean squared error, as computed in the spherical harmonic domain: Kami menggunakan data daripada 2017 untuk mencocokkan berat ini, yang tidak berlapis dengan set ujian 2018. apabila menilai ramalan yang difilter, kami mengira MSE dalam domain harmoni sferik, seperti yang terperinci dalam Persamaan (22). By fitting different filters for each lead time, the degree of blurring was free to increase with increasing uncertainty at longer lead times. While this method is fairly general, it also has limitations. Because the filters are homogeneous, they are unable to take into account location-specific features, such as orography or land-sea boundaries, and so they must choose between over-blurring predictable high-resolution details in these locations, or under-blurring unpredictable high-resolution details more generally. This makes them less effective for some surface variables like 2 T, which contain many such predictable details. Future work may consider more complex post-processing schemes. An alternative way to approximate a conditional expectation (and so improve RMSE) for our ECMWF forecast baseline would be to evaluate the ensemble mean of the ENS ensemble forecast system, instead of the deterministic HRES forecast. However the ENS ensemble is run at lower resolution than HRES, and because of this, it is unclear to us whether its ensemble mean will improve on the RMSE of a post-processed version of HRES. We leave an exploration of this for future work. 7.4.3. Transfer functions of the optimal filters Berat penapis dipaparkan dalam Gambar 33, yang menunjukkan rasio kuasa output kepada kuasa input untuk penapis, pada skala decibel logaritmik, sebagai fungsi panjang gelombang. (Dengan rujukan kepada Equation (35), this is equal to 20 log10(𝑏𝜏 ) for the wavelength 𝐶𝑒/𝑙 corresponding to total wavenumber 𝑙.) For both HRES and GraphCast, we see that it is optimal for MSE to attenuate power over some short-to-mid wavelengths. As lead times increase, the amount of attenuation increases, as does the wavelength at which it is greatest. In optimizing for MSE, we seek to approximate a conditional expectation which averages over predictive uncertainty. Over longer lead times this predictive uncertainty increases, as does the spatial scale of uncertainty about the location of weather phenomena. We believe that this largely explains these changes in optimal filter response as a function of lead time. Kita boleh melihat bahawa HRES biasanya memerlukan lebih membingungkan daripada GraphCast, kerana ramalan GraphCast sudah membingungkan dalam beberapa tahap (lihat Seksyen 7.5.3), manakala HRES tidak. Filter yang optimal juga boleh mengimbangi, dalam beberapa tahap, bias spektral dalam ramalan GraphCast dan HRES. Sebagai contoh, untuk banyak variabel dalam set data ERA5 kami yang dikurangkan, spektrum memotong secara tiba-tiba untuk panjang gelombang di bawah 62km yang tidak diselesaikan pada resolusi asli 0.28125◦ ERA5. Kami juga mencatat bahawa terdapat puncak yang ketara dalam respons filter GraphCast kira-kira 100km panjang gelombang untuk z500, yang tidak hadir untuk HRES. Kami percaya ini menyaring artifak kecil, palsu yang diperkenalkan oleh GraphCast di sekitar panjang gelombang ini sebagai kesan sampingan daripada transformasi grid-to-mesh dan mesh-to-grid yang dilakukan di dalam model. 7.4.4 Hubungan antara cakrawala latihan autoregresif dan membingungkan Dalam Gambar 34, kami menggunakan hasil pengelupasan optimal untuk menyiasat hubungan antara latihan autoregresif dan pengelupasan ramalan GraphCast pada masa lead yang lebih lama. Dalam baris pertama Gambar 34, kita melihat bahawa model yang dilatih dengan cakrawala latihan autoregresif yang lebih lama kurang mendapat manfaat daripada pengelupasan yang optimal, dan bahawa faedah pengelupasan yang optimal biasanya mula mengumpul hanya selepas masa lead yang sesuai dengan cakrawala yang mereka dilatih sehingga ini menunjukkan bahawa latihan autoregresif berkesan dalam mengajar model untuk mengelupuskan secara optimal sehingga cakrawala latihan, tetapi di luar pengelupasan lebih lanjut ini diperlukan untuk meminimalkan RMSE. Ia akan menjadi mudah jika kita boleh menggantikan latihan cakrawala yang lebih panjang dengan strategi selepas pemprosesan yang mudah seperti pengelupasan optimal, tetapi ini tidak kelihatan menjadi kes: dalam baris kedua Gambar 34 kita melihat bahawa latihan autoregressive cakrawala yang lebih panjang masih membawa kepada RMSEs yang lebih rendah, walaupun selepas pengelupasan optimal telah digunakan. Sekiranya seseorang mahu ramalan yang dalam beberapa cara minimally kabur, seseorang boleh menggunakan model yang dilatih untuk bilangan kecil langkah-langkah autoregressive.Ini tentu akan membawa kepada RMSEs yang lebih tinggi pada masa lead yang lebih lama, dan hasil kami di sini menunjukkan bahawa RMSEs yang lebih tinggi ini tidak hanya akan disebabkan oleh kurangnya pengelasan; seseorang akan merosakkan aspek lain kemahiran pada masa lead yang lebih lama juga. 5.3 Analisis Spektral 7.5.1 Pemecahan spektral kesilapan persegi purata Dalam Gambar 35 dan 36 kita membandingkan kemahiran GraphCast dengan HRES pada pelbagai skala ruang, sebelum dan selepas penapisan optimal (lihat butiran dalam Seksyen 7.4). di mana lmax = 719 seperti dalam Persamaan (22).Setiap bilangan gelombang total l bersesuaian kira-kira dengan panjang gelombang Ce / l, di mana Ce adalah lingkaran bumi. Kami melukis histogram kepadatan kuasa, di mana kawasan setiap bar sepadan dengan S j,τ(l), dan bar berpusat di sekitar log10(1 + l) (karena skala frekuensi log membolehkan pemeriksaan visual yang lebih mudah, tetapi kita juga mesti memasukkan nombor gelombang l = 0). Pada masa lead 2 hari atau lebih, untuk majoriti variabel GraphCast meningkatkan kemahiran HRES secara seragam di semua panjang gelombang. (2m suhu adalah pengecualian yang ketara). At shorter lead times of 12 hours to 1 day, for a number of variables (including z500, T500, T850 and U500) HRES has greater skill than GraphCast at scales in the approximate range of 200-2000km, with GraphCast generally having greater skill outside this range. 7.5.2 RMSE sebagai fungsi resolusi horisontal Dalam Gambar 37, kami membandingkan kemahiran GraphCast dengan HRES apabila dinilai pada pelbagai resolusi spasial. Secara khusus, pada setiap ltrunc nombor gelombang keseluruhan, kami merangkumi RMSEs antara ramalan dan sasaran yang kedua-duanya dipotong pada nombor gelombang keseluruhan itu. Ini kira-kira sama dengan Ce / ltrunc panjang gelombang di mana Ce adalah lingkaran bumi. RMSEs antara ramalan yang dipotong dan sasaran boleh diperolehi melalui jumlah kumulatif kuasa kesilapan purata S j,τ (l) yang ditakrifkan dalam Persamaan (37), mengikut: Gambar 37 menunjukkan bahawa dalam kebanyakan kes, GraphCast mempunyai RMSE yang lebih rendah daripada HRES pada semua resolusi yang biasanya digunakan untuk pengesahan ramalan. Ini berlaku sebelum dan selepas penapisan optimal (lihat Seksyen 7.4). pengecualian termasuk suhu 2 meter pada bilangan masa lead dan resolusi, T 500 pada masa lead 12 jam, dan U 500 pada masa lead 12 jam, di mana GraphCast melakukan lebih baik pada resolusi 0.25° tetapi HRES melakukan lebih baik pada resolusi kira-kira 0.5◦ hingga 2.5◦ (merujuk kepada panjang gelombang terpendek sekitar 100 hingga 500 km). Khususnya, kami memperhatikan bahawa resolusi asli ERA5 adalah 0.28125◦ yang merujuk kepada panjang gelombang terpendek 62km, dinyatakan oleh garis vertikal dalam plot. sasaran HRES-fc0 mengandungi beberapa isyarat pada panjang gelombang kurang daripada 62km, tetapi sasaran ERA5 yang digunakan untuk menilai GraphCast tidak, sekurang-kurangnya secara asli (lihat Seksyen 7.5.3). 7.5.3 Spektrum ramalan dan matlamat Gambar 38 membandingkan spektrum kuasa prediksi GraphCast, sasaran ERA5 yang mereka dilatih terhadap, dan HRES-fc0. There are noticeable differences in the spectra of ERA5 and HRES-fc0, especially at short wavelengths. These differences may in part be caused by the methods used to regrid them from their respective native IFS resolutions of TL639 (0.28125◦) and TCo1279 (approx. 0.1◦, [36]) to a 0.25° equiangular grid. However even before this regridding is done there are differences in IFS versions, settings, resolution and data assimilation methodology used for HRES and ERA5, and these differences may also affect the spectra. Since we evaluate GraphCast against ERA5 and HRES against HRES-fc0, this domain gap remains an important caveat to attach to our conclusions. Differences between HRES and ERA5 Kami melihat kuasa yang berkurangan pada panjang gelombang pendek ke tengah dalam ramalan GraphCast yang berkurangan lebih lanjut dengan masa lead. kami percaya ini sesuai dengan membingungkan yang telah GraphCast belajar untuk melakukan dalam mengoptimumkan untuk MSE. Blurring in GraphCast These peaks are particularly visible for z500; they appear to increase with lead time. We believe they correspond to small, spurious artifacts introduced by the internal grid-to-mesh and mesh-to-grid transformations performed by GraphCast at each autoregressive step. In future work we hope to eliminate or reduce the effect of these artifacts, which were also observed by [26]. Peaks for GraphCast around 100km wavelengths Akhirnya kita perhatikan bahawa, manakala perbezaan kuasa pada panjang gelombang pendek sangat kelihatan dalam skala log dan plot relatif, panjang gelombang pendek ini menyumbang sedikit kepada kuasa keseluruhan isyarat. 8. hasil ramalan kejadian yang teruk tambahan Dalam seksyen ini, kami memberikan butiran tambahan mengenai analisis prediksi peristiwa yang ketat kami.Kami mencatat bahawa GraphCast tidak dilatih secara khusus untuk tugas-tugas berikut, yang menunjukkan bahawa, di luar kemahiran yang lebih baik, GraphCast menyediakan ramalan yang berguna untuk tugas-tugas dengan kesan dunia sebenar seperti menjejaki siklon (Seksyen 8.1), menggambarkan sungai atmosfer (Seksyen 8.2), dan mengklasifikasikan suhu ekstrem (Seksyen 8.3). Setiap tugas juga boleh dilihat sebagai menilai nilai GraphCast pada axis yang berbeza: struktur ruang dan masa prediksi resolusi tinggi (tugas pelacakan siklon), keupayaan untuk menggabungkan prediksi GraphCast secara tidak linear untuk menghasilkan kuantiti minat (tugas sungai atmosfer), dan keupayaan untuk menggambarkan peristiwa yang sangat jarang dan jarang (temper 8.1. Tropical cyclone track forecasting Dalam seksyen ini, kami terperinci protokol penilaian yang kami gunakan untuk penjejakan siklon (Seksyen Suplemen 8.1.1) dan analisis signifikansi statistik (Seksyen Suplemen 8.1.2), memberikan hasil tambahan (Seksyen Suplemen 8.1.3), dan menerangkan pelacak kami dan perbezaannya dengan yang dari ECMWF (Seksyen Suplemen 8.1.4). 8.1.1 Protokol penilaian Cara utama untuk membandingkan dua sistem prediksi Graphic Cyclone yang sama adalah untuk membatasi perbandingan kepada peristiwa di mana kedua-dua model meramalkan kewujudan syklon yang sah. Seperti yang terperinci dalam Seksyen Tambahan 5.2.2, GraphCast dimulakan dari 06z dan 18z, bukannya 00z dan 12z, untuk mengelakkan ia daripada memberikan kelebihan lookahead berbanding HRES. Walau bagaimanapun, untuk membandingkan HRES dan GraphCast dalam senarai kejadian yang sama, kami hanya dimulakan pada 00z dan 12z. Perbezaan ini menghalang kami daripada memilih peristiwa di mana inisialisasi dan peta masa membawa kepada masa kewujudan yang sama untuk kedua-dua kaedah, kerana sentiasa terdapat kesilapan masa 6h. Sebagai gantinya, untuk membandingkan HRES dan GraphCast pada satu Oleh kerana kami mengira kesilapan berkenaan dengan kebenaran asas yang sama (iaitu, IBTrACS), penilaian tidak tertakluk kepada sekatan yang sama yang diterangkan dalam Seksyen Tambahan 5.2.2, iaitu, matlamat untuk kedua-dua model mengandungi jumlah yang sama lookahead.Ini bertentangan dengan kebanyakan penilaian kami dalam kertas ini, di mana matlamat untuk HRES (iaitu, HRES-fc0) mengandungi +3h lookahead, dan yang untuk GraphCast (dari ERA5) mengandungi +3h atau +9h, yang membawa kepada kami untuk melaporkan hasil untuk masa hadapan hanya dengan masa hadapan yang sesuai (banyak 12h). Di sini, kerana matlamat IBTrACS adalah sama untuk kedua-dua model, kita boleh melaporkan prestasi sebagai fungsi masa hadapan dengan peningkatan 6h. For a given forecast, the error between the predicted center of the cyclone and the true center is computed using the geodesic distance. 8.1 Metodologi statistik Mengkomputerkan keyakinan statistik dalam penjejakan siklon memerlukan perhatian khusus dalam dua aspek: 1. There are two ways to define the number of samples. The first one is the number of tropical cyclone events, which can be assumed to be mostly independent events. The second one is the number of per-lead time data points used, which is larger, but accounts for correlated points (for each tropical cyclone event multiple predictions are made at 6h interval). We chose to use the first definition which provides more conservative estimates of statistical significance. Both numbers are shown for lead times 1 to 5 days on the x-axis of Supplements Figure 39. Kesilapan pelacakan per contoh HRES dan GraphCast berkorelasi. Oleh itu, perbezaan statistik dalam perbezaan mereka jauh lebih kecil daripada perbezaan gabungan mereka. Oleh itu, kami melaporkan kepercayaan bahawa GraphCast adalah lebih baik daripada HRES (lihat Tambahan Gambar 39b) di samping kepercayaan per model (lihat Tambahan Gambar 39a). Given the two considerations above, we do bootstrapping with 95% confidence intervals at the level of cyclones. For a given lead time, we consider all the corresponding initialization time/lead time pairs and keep a list of which cyclone they come from (without duplication). For the bootstrap estimate, we draw samples from this cyclone list (with replacement) and apply the median (or the mean) to the corresponding initialization time/lead time pairs. Note that this gives us much more conservative confidence bounds than doing bootstrapping at the level of initialization time/lead time pairs, as it is equivalent to assuming all bootstrap samples coming from the sample cyclone (usually in the order of tens) are perfectly correlated. For instance, assume for a given lead time we have errors of (50, 100, 150) for cyclone A, (300, 200) for cyclone B and (100, 100) for cyclone C, with A having more samples. A bootstrapping sample at the level of cyclones first samples uniformly at random 3 cyclones with replacement (for instance A,A,B) and then computes the mean on top of the corresponding samples with multiplicity: mean(50,100,150,50,100,150,200,300)=137.5. 8.1.3. Results In Supplements Figure 3a-b, we chose to show the median error rather than the mean. This decision was made before computing the results on the test set, based on the performance on the validation set. On the years 2016–2017, using the version of GraphCast trained on 1979–2015, we observed that, using early versions of our tracker, the mean track error was dominated by very few outliers and was not representative of the overall population. Furthermore, a sizable fraction of these outliers were due to errors in the tracking algorithm rather than the predictions themselves, suggesting that the tracker was suboptimal for use with GraphCast. Because our goal is to assess the value of GraphCast forecast, rather than a specific tracker, we show median values, which are also affected by tracking errors, but to a lesser extent. In figure Figure 40 we show how that the distribution of both HRES and GraphCast track errors for the test years 2018–2021 are non-gaussian with many outliers. This suggests the median is a better summary statistic than the mean. Tambahan Gambar 39 melengkapkan Gambar 3a-b dengan menunjukkan kesilapan laluan purata dan analisis berpasangan yang sesuai.Kami ambil perhatian bahawa menggunakan versi akhir pelacak kami (Supplements Seksyen 8.1.4), hasil purata GraphCast serupa dengan yang purata, dengan GraphCast secara signifikan melebihi HRES untuk masa lead antara 2 dan 5 hari. Because of well-known blurring effects, which tend to smooth the extrema used by a tracker to detect the presence of a cyclone, ML methods can drop existing cyclones more often than NWPs. Dropping a cyclone is very correlated with having a large positional error. Therefore, removing from the evaluation such predictions, where a ML model would have performed particularly poorly, could give it an unfair advantage. To avoid this issue, we verify that our hyper-parameter-searched tracker (see Supplements Sec-tion 8.1.4) misses a similar number of cyclones as HRES. Supplements Figure 41 shows that on the test set (2018–2021), GraphCast and HRES drop a similar number of cyclones, ensuring our comparisons are as fair as possible. Tambahan Gambar 42 dan 43 menunjukkan kesilapan median dan analisis berpasangan sebagai fungsi masa lead, dibahagikan oleh kategori siklon, di mana kategori ditakrifkan pada Saffir-Simpson Hurricane Wind Scale [47], dengan kategori 5 mewakili badai yang paling kuat dan paling merosakkan (ingat, kami menggunakan kategori 0 untuk mewakili badai tropika). Kami mendapati bahawa GraphCast mempunyai prestasi yang sama atau lebih baik daripada HRES di semua kategori. Untuk kategori 2, dan terutamanya untuk kategori 5 (peristiwa yang paling intens), GraphCast jauh lebih baik daripada HRES, seperti yang ditunjukkan oleh analisis berpasangan per-track. 8.1.4 Maklumat lanjut Tracker Tracker yang kami gunakan untuk GraphCast adalah berdasarkan pemprosesan semula tracker ECMWF kami [35]. Oleh kerana ia direka untuk 0.1° HRES, kami mendapati ia berguna untuk menambah beberapa modifikasi untuk mengurangkan jumlah siklon yang terjejas apabila digunakan untuk ramalan GraphCast. Walau bagaimanapun, kesilapan penjejakan masih berlaku, yang dijangka daripada menjejaki siklon dari 0.25° ramalan bukannya 0.1°. Kami terlebih dahulu memberikan ringkasan peringkat tinggi pelacak lalai dari ECMWF, sebelum menerangkan perubahan yang kami buat dan proses keputusan kami. Mengikut prediksi model untuk variabel 10 U, 10 v, MsL serta U, v dan z pada tahap tekanan 200, 500, 700, 850 dan 1000 hPa dalam beberapa langkah masa, pelacak ECMWF [35] secara berurutan memproses setiap langkah untuk secara iteratif meramalkan lokasi siklon di seluruh laluan. Setiap 6 jam prediksi pelacak mempunyai dua langkah utama. Dalam langkah pertama, berdasarkan lokasi semasa siklon, pelacak mengira lokasi seterusnya, 6 jam ke hadapan. ECMWF tracker To compute the estimate of the next cyclone location, the tracker moves the current estimate using a displacement computed as the average of two vectors: 1) the displacement between the last two track locations (i.e., linear extrapolation) and 2) an estimate of the wind steering, averaging the wind speed U and v at the previous track position at pressure levels 200, 500, 700 and 850 hPa. Sebaik sahaja perkiraan lokasi siklon seterusnya dikira, tracker melihat semua minimum tempatan tekanan purata permukaan laut (MsL) dalam 445 km perkiraan ini. 1. Vorticity check: the maximum vorticity at 850 hPa within 278 km of the local minima is larger than 5 · 10−5 s−1 for the Northern Hemisphere, or is smaller than −5 · 10−5s−1 for the Southern Hemisphere. Vorticity can be derived from horizontal wind (U and v). Kawalan kelajuan angin: jika calon berada di darat, kelajuan angin maksimum 10m dalam 278 km adalah lebih besar daripada 8 m/s. 3. pemeriksaan ketebalan: jika siklon adalah ekstratropik, terdapat ketebalan maksimum antara 850 hPa dan 200 hPa dalam radius 278 km, di mana ketebalan ditakrifkan sebagai z850-z200. Sekiranya tiada minimum memenuhi semua syarat-syarat itu, pengesan menganggap bahawa tiada siklon. pengesan ECMWF membolehkan siklon untuk menghilang sebentar di bawah beberapa keadaan sudut sebelum muncul semula. Kami menganalisis kesilapan pada siklon dari set tahun pengesahan kami (2016–2017), menggunakan versi GraphCast yang dilatih pada 1979–2015, dan memodifikasi penyelesaian semula lalai pengesanan ECMWF seperti yang diterangkan di bawah. Our modified tracker Radius kedekatan langkah semasa menentukan seberapa jauh daripada perkiraan calon pusat baru boleh.Kami mendapati parameter ini kritikal dan mencari nilai yang lebih baik di antara pilihan-pilihan berikut: 445 × f untuk f dalam 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (nilai asal). Kami juga mendapati parameter ini sebagai kritikal dan mencari nilai yang lebih baik di antara pilihan-pilihan berikut: 278 × f untuk f dalam 0.25, 0.375, 0.5, 0.625, 0.75, 1.0 (nilai asal). 3. The next-step estimate of ECMWF uses a 50-50 weighting between linear extrapolation and wind steering vectors. In our case where wind is predicted at 0.25° resolution, we found wind steering to sometimes hinder estimates. This is not surprising because the wind is not a spatially smooth field, and the tracker is likely tailored to leverage 0.1° resolution predictions. Thus, we hyper-parameter searched the weighting among the following options: 0.0, 0.1, 0.33, 0.5 (original value). Oleh itu, kami hanya mempertimbangkan calon yang mewujudkan sudut antara arah sebelumnya dan arah baru di bawah d darjah, di mana d dicari di antara nilai-nilai ini: 90, 135, 150, 165, 175, 180 (iaitu tiada penapis, nilai asal). Kami memperhatikan beberapa mistrack membuat lompatan besar, disebabkan oleh gabungan arah angin berisik dan ciri-ciri yang sukar untuk dibezakan untuk siklon yang lemah. Oleh itu, kami mengkaji memotong perkiraan daripada bergerak melebihi x kilometer (dengan menukar delta dengan pusat terakhir), mencari nilai-nilai berikut untuk x: 445 × f untuk f dalam 0.25, 0.5, 1.0, 2.0, 4.0, ∞ (iaitu tiada memotong, nilai asal). Semasa carian hyper-parameter, kami juga mengesahkan pada data pengesahan bahawa pelacak yang diterapkan kepada GraphCast menjatuhkan bilangan siklon yang serupa dengan HRES. 8.2 Air sungai The vertically integrated water vapor transport (IvT) is commonly used to characterize the intensity of atmospheric rivers [38, 37]. Although GraphCast does not directly predict IvT and is not specifically trained to predict atmospheric rivers, we can derive this quantity from the predicted atmospheric variables specific humidity, Q, and horizontal wind, (U, v), via the relation [38]: di mana g = 9,80665 m/s2 ialah kelajuan disebabkan oleh graviti di permukaan Bumi, pb = 1000 hPa ialah tekanan bawah, dan pt = 300 hPa ialah tekanan atas. Penilaian IvT menggunakan hubungan di atas memerlukan integrasi numerik dan hasilnya bergantung kepada resolusi vertikal ramalan. GraphCast mempunyai resolusi vertikal 37 tahap tekanan yang lebih tinggi daripada resolusi trajektori HRES yang tersedia dengan hanya 25 tahap tekanan. Untuk perbandingan yang konsisten dan adil kedua-dua model, kami hanya menggunakan subset biasa tahap tekanan, yang juga dimasukkan ke dalam benchmark WeatherBench, apabila menilai IvT 8, iaitu [300, 400, 500, 600, 700, 850, 925, 1000] hPa. Consistently with the rest of our evaluation protocol, each model is evaluated against its own “analysis”. For GraphCast, we compute the IvT based on its predictions and we compare it to the IvT computed analogously from ERA5. Similarly, we use HRES predictions to compute the IvT for HRES and and compare it to the IvT computed from HRES-fc0. Serupa dengan kerja terdahulu [10], Gambar 44 melaporkan skor kemahiran dan kemahiran RMSE purata di seluruh pantai Amerika Utara dan Pasifik Timur (dari 180°W hingga 110°W longitud, dan 10°N hingga 60°N latitud) semasa musim sejuk (Januari-April dan Oktober-Desember 2018), yang sepadan dengan rantau dan tempoh dengan sungai atmosfer yang kerap. 8.3 Panas dan sejuk Kami mengkaji ramalan haba dan sejuk yang melampau sebagai masalah klasifikasi binari [35, 32] dengan membandingkan sama ada model ramalan yang diberikan boleh meramalkan dengan betul sama ada nilai untuk variabel tertentu akan berada di atas (atau di bawah) persentil tertentu pengedaran iklim bersejarah rujukan (contohnya di atas 98% persentil untuk haba yang melampau, dan di bawah 2% persentil untuk sejuk yang melampau). Selepas kerja terdahulu [35], klimatologi rujukan diperolehi secara berasingan untuk (1) setiap variabel (2) setiap bulan tahun, (3) setiap masa sehari, (4) setiap koordinat lebar / panjang, dan (5) setiap tahap tekanan (jika berkenaan). Ini menjadikan pengesanan ekstrem lebih bertentangan dengan menghapuskan kesan kitaran harian dan musim di setiap lokasi ruang. Untuk menjaga perbandingan seimbang mungkin antara HRES dan Gra Oleh kerana prediksi grafik ekstrem adalah oleh definisi masalah klasifikasi yang tidak seimbang, kami mengasaskan analisis kami pada plot-recall ketepatan yang sesuai untuk kes ini [42]. Curve-recall ketepatan diperolehi dengan mengubah parameter bebas "penghasilan" yang terdiri daripada faktor skala sehubungan dengan nilai median klimatologi, iaitu prediksi berskala = keuntungan × (prediksi − klimatologi median) + klimatologi median. Ini mempunyai kesan memindahkan sempadan keputusan dan membolehkan untuk mengkaji perdagangan yang berbeza antara negatif palsu dan positif palsu. Secara intuitif, keuntungan 0 akan menghasilkan positif prediksi nol (contohnya positif palsu nol), dan keuntungan tak terhingga akan menghasilkan peningkatan setiap nilai di atas nilai median menjadi positif (juga berpotensi sehingga 50% kadar positif palsu). "penghasilan" bervariasi dengan lancar dari 0.8 Kami memberi tumpuan kepada analisis kami pada variabel yang berkaitan dengan keadaan suhu ekstrem, khususnya 2 T [35, 32], dan juga T 850, z500 yang sering digunakan oleh ECMWF untuk menggambarkan gelombang panas [34]. Berikutan kerja terdahulu[32], untuk haba ekstrem, kami purata pada bulan Jun, Julai dan Ogos di atas tanah di belahan bumi utara (latitude > 20◦) dan pada bulan Disember, Januari dan Februari di atas tanah di belahan bumi selatan (latitude < -20◦). Untuk sejuk ekstrem, kami bertukar bulan untuk belahan bumi utara dan selatan. Lihat hasil penuh dalam Gambar 45. 9.Prediksi visualisasi Dalam seksyen terakhir ini, kami menyediakan beberapa contoh visualisasi prediksi yang dibuat oleh GraphCast untuk variabel 2 T (Gambar 47), 10 U (Gambar 48), MsL (Gambar 49), z500 (Gambar 50), T 850 (Gambar 51), v 500 (Gambar 52), Q 700 (Gambar 53). Referensi [1] Ferran Alet, Adarsh Keshav Jeewajee, Maria Bauza Villalonga, Alberto Rodriguez, Tomas Lozano-Perez, dan Leslie Kaelbling. Rangkaian elemen graf: pengiraan beradaptasi, berstruktur dan memori. Dalam Persidangan Antarabangsa tentang Pembelajaran Mesin, halaman 212-222 PMLR, 2019. [2] Kelsey R Allen, Yulia Rubanova, Tatiana Lopez-Guevara, William Whitney, Alvaro Sanchez-Gonzalez, Peter Battaglia, dan Tobias Pfaff. Belajar dinamik kaku dengan rangkaian grafik interaksi muka. arXiv praprint arXiv:2212.03574, 2022. [3] Jimmy Lei Ba, Jamie Ryan Kiros, dan Geoffrey E. Hinton. normalisasi lapisan. arXiv, 2016. [4] Igor Babuschkin, Kate Baumli, Alison Bell, Surya Bhupatiraju, Jake Bruce, Peter Buchlovsky, David Budden, Trevor Cai, Aidan Clark, Ivo Danihelka, Claudio Fantacci, Jonathan Godwin, Chris Jones, Ross Hemsley, Tom Hennigan, Matteo Hessel, Shaobo Hou, Steven Kapturowski, Thomas Keck, Iurii Kemaev, Michael King, Markus Kunesch, Lena Martens, Hamza Merzic, Vladimir Mikulik, Tamara Norman, John Quan, George Papamakarios, Roman Ring, Francisco Ruiz, Alvaro Sanchez, Rosalia Schneider, Eren Sezener, Stephen Spencer, Srivatsan Srinivasan, Luyu, Wangciech Stokowiec, dan Fabio Viola. //github.com/pembimbing yang kuat, 2020 [5] Peter Battaglia, Razvan Pascanu, Matthew Lai, Danilo Jimenez Rezende, et al. Rangkaian interaksi untuk belajar tentang objek, hubungan dan fizik. [6] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Bias induktif relasional, pembelajaran mendalam, dan rangkaian graf. arXiv praprint arXiv:1806.01261, 2018. [7] Kaifeng Bi, Lingxi Xie, Hengheng Zhang, Xin Chen, Xiaotao Gu, dan Qi Tian. Cuaca Pangu: Model 3D resolusi tinggi untuk ramalan cuaca global yang cepat dan tepat. arXiv praprint arXiv:2211.02556, 2022. [8] Philippe Bougeault, Zoltan Toth, Craig Bishop, Barbara Brown, David Burridge, De Hui Chen, Beth Ebert, Manuel Fuentes, Thomas M Hamill, Ken Mylne, et al. The THORPEX interaktif grand global ensemble. Bulletin of American Meteorological Society, 91(8):1059–1072, 2010. [9] James Bradbury, Roy Frostig, Peter Hawkins, Matthew James Johnson, Chris Leary, Dougal Maclaurin, George Necula, Adam Paszke, Jake VanderPlas, Skye Wanderman-Milne, dan Qiao Zhang. JAX: transformasi yang boleh disusun program Python+NumPy. http://github. com/google/jax, 2018. [10] WE Chapman, AC Subramanian, L Delle Monache, SP Xie, dan FM Ralph. Meningkatkan ramalan sungai atmosfer dengan pembelajaran mesin. Geophysical Research Letters, 46(17-18):10627–10635, 2019. [11] Tianqi Chen, Bing Xu, Chiyuan Zhang, dan Carlos Guestrin. Rangkaian mendalam latihan dengan kos memori sublinear. arXiv praprint arXiv:1604.06174, 2016. [12] Balaji Devaraju. pemahaman penapisan pada sfera: Pengalaman daripada penapisan data GRACE. tesis PhD, Universiti Stuttgart, 2015. [13] J R Driscoll and D M Healy. Computing fourier transforms and convolutions on the 2-sphere. Matius 15(2) :202–250, Jun 1994. [14] ECMWF. dokumen IFS CY41R2 - Bahagian III: Dinamik dan prosedur numerik. https: //www.ecmwf.int/node/16647, 2016 2016. [15] Meire Fortunato, Tobias Pfaff, Peter Wirnsberger, Alexander Pritzel, dan Peter Battaglia. meshgraphnets pelbagai skala. arXiv praprint arXiv:2210.00612, 2022. [16] Alan J Geer. Pentingnya perubahan dalam skor ramalan jarak menengah. Tellus A: Meteorologi Dinamis dan Oceanografi, 68(1):30229, 2016. [17] Jonathan Godwin, Thomas Keck, Peter Battaglia, Victor Bapst, Thomas Kipf, Yujia Li, Kimberly Stachenfeld, Petar Veličković, dan Alvaro Sanchez-Gonzalez. Jraph: Perpustakaan untuk rangkaian saraf graf dalam JAX. http://github.com/deepmind/jraph, 2020. [18] T. Haiden, Martin Janousek, Jean-Raymond Bidlot, R. Buizza, L. Ferranti, F. Prates, dan Frédéric Vitart. Penilaian ramalan ECMWF, termasuk peningkatan 2018. https://www.ecmwf. int/node/18746, 10/2018 2018. [19] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, Crtistina Prates, dan David Richardson. Penilaian ramalan ECMWF, termasuk peningkatan 2020. https://www.ecmwf.int/node/19879, 01/2021 2021. [20] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, and Fernando Prates. Evaluation of ECMWF forecasts, including the 2021 upgrade. https://www. ecmwf.int/node/20142, 09/2021 2021. [21] Thomas Haiden, Martin Janousek, Frédéric Vitart, Zied Ben-Bouallegue, Laura Ferranti, Fernando Prates, dan David Richardson. Penilaian ramalan ECMWF, termasuk peningkatan 2021. https://www.ecmwf.int/node/20469, 09/2022 2022. [22] Thomas Haiden, Martin Janousek, Frédéric Vitart, Laura Ferranti, dan Fernando Prates. Penilaian ramalan ECMWF, termasuk peningkatan 2019. https://www.ecmwf.int/node/ 19277, 11/2019 2019. Tom Hennigan, Trevor Cai, Tamara Norman, dan Igor Babuschkin. Haiku: Sonnet untuk JAX. http://github.com/deepmind/dm-haiku, 2020. [24] Hans Hersbach, Bill Bell, Paul Berrisford, Shoji Hirahara, András Horányi, Joaquín Muñoz-Sabater, Julien Nicolas, Carole Peubey, Raluca Radu, Dinand Schepers, et al. Analisis semula global ERA5. Jurnal Tahunan Royal Meteorological Society, 146(730):1999–2049, 2020. [25] S. Hoyer dan J. Hamman. xarray: N-D labeled array dan dataset dalam Python. [26] Ryan Keisler. Memprediksi cuaca global dengan rangkaian saraf graf. arXiv praprint arXiv:2202.07575, 2022. [27] Diederik P Kingma dan Jimmy Ba Adam: Kaedah untuk pengoptimuman stochastic. arXiv praprint arXiv:1412.6980, 2014. [28] Kenneth R Knapp, Howard J Diamond, James P Kossin, Michael C Kruk, Carl J Schreck, et al. Antarabangsa Best Track Archive for Climate Stewardship (IBTrACS) projek, versi 4. https://doi.org/10.25921/82ty-9e16, 2018. [29] Kenneth R Knapp, Michael C Kruk, David H Levinson, Howard J Diamond, dan Charles J Neumann. Arsip peta terbaik antarabangsa untuk pengurusan iklim (IBTrACS) menyatukan data siklon tropika. [30] Michael C Kruk, Kenneth R Knapp, dan David H Levinson. teknik untuk menggabungkan data trek terbaik siklon tropika global. [31] David H Levinson, Howard J Diamond, Kenneth R Knapp, Michael C Kruk, dan Ethan J Gibney. Ke arah siklon tropis global yang homogen. Bulletin of American Meteorological Society, 91(3):377-380, 2010. [32] Ignacio Lopez-Gomez, Amy McGovern, Shreya Agrawal, dan Jason Hickey. ramalan haba ekstrem global menggunakan model cuaca saraf. kecerdasan buatan untuk sistem Bumi, halaman 1-41, 2022. [33] Ilya Loshchilov dan Frank Hutter. mengecualikan pengaturan kerosakan berat badan. arXiv praprint arXiv:1711.05101, 2017. [34] Linus Magnusson. 202208 - gelombang panas - uk. https://confluence.ecmwf.int/display/ FCST/202208+-+Heatwave+-+UK, 2022. [35] Linus Magnusson, Thomas Haiden, dan David Richardson. Pengesahan peristiwa cuaca ekstrim: prediktoran diam. Pusat Eropah untuk ramalan cuaca jarak menengah, 2014. [36] S. Malardel, Nils Wedi, Willem Deconinck, Michail Diamantakis, Christian Kuehnlein, G. Mozdzynski, M. Hamrud, dan Piotr Smolarkiewicz. Grid baru untuk IFS. https: //www.ecmwf.int/node/17262, 2016 2016 [37] Benjamin J Moore, Paul J Neiman, F Martin Ralph, dan Faye E Barthold. proses fizikal yang berkaitan dengan hujan banjir berat di Nashville, Tennessee, dan kawasan sekitar selama 1–2 Mei 2010: Peranan sungai atmosfer dan sistem konveksi mesoskala. [38] Paul J Neiman, F Martin Ralph, Gary A Wick, Jessica D Lundquist, dan Michael D Dettinger. ciri-ciri meteorologi dan kesan curah hujan permukaan sungai atmosfer yang menjejaskan pantai barat Amerika Utara berdasarkan lapan tahun pengamatan satelit ssm / i. Journal of Hydrometeorology, 9(1):22-47, 2008. [39] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez, dan Peter Battaglia. Pembelajaran simulasi berasaskan mesh dengan rangkaian graf. [40] Prajit Ramachandran, Barret Zoph, dan Quoc V Le. Mencari fungsi pengaktifan. arXiv praprint arXiv:1710.05941, 2017. [41] Stephan Rasp, Peter D Dueben, Sebastian Scher, Jonathan A Weyn, Soukayna Mouatadid, dan Nils Thuerey. WeatherBench: satu set data benchmark untuk ramalan cuaca berasaskan data. Jurnal Kemajuan dalam Pemodelan Sistem Bumi, 12(11):e2020MS002203, 2020. [42] Takaya Saito dan Marc Rehmsmeier. plot pengingat ketepatan adalah lebih informatif daripada plot ROC apabila menilai klasifikator binari pada set data yang tidak seimbang. [43] Alvaro Sanchez-Gonzalez, Jonathan Godwin, Tobias Pfaff, Rex Ying, Jure Leskovec, dan Peter Battaglia. Belajar untuk mensimulasikan fisika kompleks dengan rangkaian graf. Dalam Konferensi Antarabangsa tentang Pembelajaran Mesin, halaman 8459–8468. PMLR, 2020. [44] B. D. Santer, R. Sausen, T. M. L. Wigley, J. S. Boyle, K. AchutaRao, C. Doutriaux, J. E. Hansen, G. A. Meehl, E. Roeckner, R. Ruedy, G. Schmidt, dan K. E. Taylor. tingkah laku ketinggian tropopause dan suhu atmosfer dalam model, reanalisa, dan pemerhatian: perubahan dekad. [45] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M Hamill, Tim D Hewson, Julia H Keller, Mio Matsueda, John Methven, Florian Pappenberger, et al. The TIGGE project and its achievements. Bulletin of the American Meteorological Society, 97(1):49–67, 2016. [46] Richard Swinbank, Masayuki Kyouda, Piers Buchanan, Lizzie Froude, Thomas M. Hamill, Tim D. Hewson, Julia H. Keller, Mio Matsueda, John Methven, Florian Pappenberger, Michael Scheuerer, Helen A. Titley, Laurence Wilson, dan Munehiko Yamaguchi. Projek TIGGE dan pencapaiannya. Bulletin of the American Meteorological Society, 97(1):49 – 67, 2016. [47] Harvey Thurm Taylor, Bill Ward, Mark Willis, dan Walt Zaleski. Skala angin badai Saffir-Simpson. Pentadbiran atmosfer: Washington, DC, Amerika Syarikat, 2010. [48] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, dan Illia Polosukhin. Perhatian adalah semua yang anda perlukan. Kemajuan dalam sistem pemprosesan maklumat saraf, 30, 2017. [49] Petar Veličković, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio, dan Yoshua Bengio. Rangkaian perhatian graf. arXiv praprint arXiv:1710.10903, 2017. Dokumen ini boleh didapati di archiv di bawah lesen CC by 4.0 Deed (Attribution 4.0 International). Dokumen ini ialah di bawah lesen CC by 4.0 Deed (Attribution 4.0 International). Tersedia dalam Archive