Penulis : Chengxuan Ying, yingchengsyuan@gmail.com (Dalian University of Technology) Tianle Cai, tianle.cai@princeton.edu (Princeton University) Shengjie Luo, luosj@stu.pku.edu.cn (Peking University) Shuxin Zheng, shuz@microsoft.com (Microsoft Research Asia) Guolin Ke, guoke@microsoft.com (Microsoft Research Asia) Di He, dihe@microsoft.com (Microsoft Research Asia) Yanming Shen, shen@dlut.edu.cn (Dalian University of Technology) Tie-Yan Liu, tyliu@microsoft.com dari Microsoft Research Asia Penulis : Chengxuan Ying, yingchengsyuan@gmail.com (Universitas Teknologi Dalian) Tianle Cai, tianle.cai@princeton.edu (Universitas Princeton) Shengjie Luo, luosj@stu.pku.edu.cn (Universitas Beijing) Shuxin Zheng, shuz@microsoft.com (Microsoft Research Asia) Guolin Ke, guoke@microsoft.com (Penelitian Microsoft Asia) Di He, dihe@microsoft.com (Microsoft Research Asia) Yanming Shen, shen@dlut.edu.cn (Universitas Teknologi Dalian) Tie-Yan Liu, tyliu@microsoft.com dari Microsoft Research Asia abstrak Arsitektur Transformer telah menjadi pilihan dominan dalam banyak bidang, seperti pemrosesan bahasa alami dan penglihatan komputer. Namun, itu belum mencapai kinerja kompetitif pada papan depan prediksi tingkat graf populer dibandingkan dengan varian GNN mainstream. Oleh karena itu, itu tetap menjadi misteri bagaimana Transformers bisa tampil baik untuk pembelajaran representasi graf. Dalam makalah ini, kami memecahkan misteri ini dengan menyajikan Graphormer, yang dibangun pada arsitektur Transformer standar, dan dapat mencapai hasil yang sangat baik pada berbagai macam tugas pembelajaran representasi graf, terutama pada tantangan skala besar OGB baru-baru ini. wawasan utama kami untuk menggunakan Transformer dalam grafik adalah kebutuhan untuk secara efektif mengkodekan informasi struktural dari graf ke dalam model. Untuk tujuan ini, kami mengusulkan beberapa metode pengkodean struktural yang sederhana namun efektif untuk membantu model Graphormer dengan data graf-struktur yang lebih baik. Selain itu . https://github.com/Microsoft/Graphormer 1 Pengantar Transformer adalah [ ] is well acknowledged as the most powerful neural network in modelling sequential data, such as natural language [ , yang , yang Dengan kata lain, ucapan ]. varian model yang dibangun pada Transformer juga telah menunjukkan kinerja yang sangat baik dalam penglihatan komputer [ , yang Bahasa pemrograman ( , yang , yang Namun, sejauh yang kita ketahui, Transformer masih belum menjadi standar de-facto pada leaderboards representasi graf publik. , yang , yang Ada banyak upaya untuk memanfaatkan Transformer ke dalam domain graf, tetapi satu-satunya cara efektif adalah menggantikan beberapa modul kunci (misalnya, agregasi fitur) dalam varian GNN klasik dengan perhatian softmax. , yang , yang , yang , yang , yang , yang Oleh karena itu, masih menjadi pertanyaan terbuka apakah arsitektur Transformer cocok untuk memodelkan graf dan bagaimana membuatnya bekerja dalam pembelajaran representasi graf. 49 11 35 6 17 12 36 19 63 44 22 14 21 50 7 23 51 61 46 13 Dalam makalah ini, kami memberikan jawaban afirmatif dengan mengembangkan Graphormer, yang dibangun langsung pada Transformer standar, dan mencapai kinerja state-of-the-art pada berbagai tugas prediksi tingkat graf, termasuk Open Graph Benchmark Large-Scale Challenge (OGB-LSC) yang sangat baru. [ ], dan beberapa leaderboards populer (misalnya, OGB [ ) , Benchmarking dan GNN [ Transformer pada awalnya dirancang untuk pemodelan urutan.Untuk memanfaatkan kekuatan dalam grafik, kami percaya kunci adalah dengan benar menggabungkan informasi struktural dari grafik ke dalam model. , perhatian diri hanya menghitung kesamaan semantik antara dan node lainnya, tanpa mempertimbangkan informasi struktur graf yang tercermin pada node dan hubungan antara pasangan node.Graphormer menggabungkan beberapa metode pengkodean struktural yang efektif untuk memanfaatkan informasi tersebut, yang dijelaskan di bawah ini. 21 22 14 i i Pertama, kami mengusulkan a Dalam Graphormer untuk menangkap pentingnya node dalam graf. Dalam graf, node yang berbeda mungkin memiliki pentingnya yang berbeda, misalnya, selebriti dianggap lebih berpengaruh daripada sebagian besar pengguna web dalam jaringan sosial. Namun, informasi tersebut tidak tercermin dalam modul perhatian diri karena menghitung kesamaan terutama menggunakan fitur semantik node. Untuk mengatasi masalah ini, kami mengusulkan untuk mengkodekan sentralitas node di Graphormer. untuk pengkodean sentralitas, di mana vektor yang dapat dipelajari ditugaskan ke setiap node sesuai dengan derajatnya dan ditambahkan ke karakteristik node dalam lapisan input. studi empiris menunjukkan bahwa pengkodean sentralitas sederhana efektif untuk Transformer dalam memodelkan data graf. Centralisasi Kodifikasi Tingkat Sentralisasi Kedua, kami mengusulkan sebuah novel Dalam Graphormer untuk menangkap hubungan struktural antara node. Salah satu sifat geometris yang luar biasa yang membedakan data graf-struktur dari data lain yang terstruktur, misalnya, bahasa, gambar, adalah bahwa tidak ada grid kanonik untuk menggabungkan graf. Pada kenyataannya, node hanya dapat terletak di ruang non-Euclidean dan terhubung dengan tepi. Untuk memodelkan informasi struktural tersebut, untuk setiap pasangan node, kami menetapkan embedding yang dapat dipelajari berdasarkan hubungan spasial mereka. Berbagai pengukuran dalam literatur dapat digunakan untuk memodelkan hubungan spasial. Untuk tujuan umum, kami menggunakan jarak jalur terpendek antara dua node apa pun sebagai demonstrasi, yang akan dikodekan sebagai istilah bias dalam perhatian softmax dan membantu model secara akurat menangkap ketergantungan spasial dalam graf dot. Selain itu, kadang-kadang ada informasi spasi Kode Spasial Dengan menggunakan kode yang diusulkan di atas, kami lebih lanjut secara matematis menunjukkan bahwa Graphormer memiliki ekspresivitas yang kuat karena banyak varian GNN populer hanya kasus khusus. kapasitas besar model mengarah ke kinerja state-of-the-art pada berbagai tugas dalam praktek. Dalam Open Graph Benchmark Large-Scale Challenge (OGB-LSC) ], Graphormer melampaui sebagian besar varian GNN mainstream dengan lebih dari 10% poin dalam hal kesalahan relatif. pada papan pemimpin populer lainnya dari pembelajaran representasi grafis (misalnya, MolHIV, MolPCBA, ZINC) [ , yang Graphormer juga melampaui hasil terbaik sebelumnya, menunjukkan potensi dan adaptabilitas arsitektur Transformer. 3 21 22 14 2 Preliminer Dalam bagian ini, kami merangkum preliminary dalam Graph Neural Networks dan Transformer. Biarlah G = (V, E) menandai grafik di mana V = {v1, v2, · · · , vn}, n = ÁthaV adalah jumlah node. Biarlah vektor fitur node vi menjadi xi . GNN bertujuan untuk mempelajari representasi node dan grafik. Biasanya, GNN modern mengikuti skema belajar yang secara iteratif memperbarui representasi node dengan mengagregasi representasi tetangganya yang pertama atau lebih tinggi. Kami menandai h (l) i sebagai representasi vi pada lapisan l-th dan mendefinisikan h (0) i = xi. Iterasi agregasi l-th dapat ditandai dengan langkah AGGREGATE-COMBINE sebagai Graph Neural Network (GNN). dimana N (vi) adalah seperangkat tetangga kelas pertama atau yang lebih tinggi dari vi. fungsi AGGREGATE digunakan untuk mengumpulkan informasi dari tetangga. fungsi agregasi umum meliputi MEAN, MAX, SUM, yang digunakan dalam arsitektur GNN yang berbeda [26, 18, 50, 54]. Tujuan dari fungsi COMBINE adalah untuk menggabungkan informasi dari tetangga ke dalam representasi node. Selain itu, untuk tugas representasi graf, fungsi READOUT dirancang untuk mengagregasi fitur node h (L) i dari iterasi akhir ke dalam representasi hG dari seluruh graf G: READOUT dapat diimplementasikan dengan fungsi invariant permutasi sederhana seperti summing [54] atau fungsi gabungan tingkat grafis yang lebih canggih [1]. Arsitektur Transformer terdiri dari komposisi lapisan Transformer [49]. Setiap lapisan Transformer memiliki dua bagian: modul self-attention dan jaringan feed-forward position-wise (FFN). Biarkan H = h > 1, · · , h> n > ∈ R n×d menandakan input dari modul self-attention di mana d adalah dimensi tersembunyi dan hi ∈ R 1×d adalah representasi tersembunyi di posisi i. input H diproyeksikan oleh tiga matriks WQ ∈ R d×dK , WK ∈ R d×dK dan WV ∈ R d×dV ke representasi yang sesuai Q, K, V. Self-attention kemudian dihitung sebagai: Transformer dimana adalah matriks yang menangkap kesamaan antara kueri dan kunci. untuk kesederhanaan ilustrasi, kita mempertimbangkan perhatian diri satu kepala dan mengasumsikan = yang = yang Perpanjangan ke perhatian multi-kepala adalah standar dan sederhana, dan kami melepaskan istilah bias untuk kesederhanaan. A dk dv d 3 Grafis Dalam bagian ini, kami memperkenalkan Graphormer kami untuk tugas-tugas graf. Pertama, kami menguraikan beberapa desain kunci di Graphormer, yang berfungsi sebagai bias induktif di jaringan saraf untuk mempelajari representasi graf. Kami juga menyediakan implementasi terperinci dari Graphormer. Akhirnya, kami menunjukkan bahwa Graphormer kami yang diusulkan lebih kuat karena model GNN populer [ , yang , yang adalah kasus-kasus khusus mereka. 26 54 18 3.1 Kode Struktural dalam Graphormer Seperti yang dibahas dalam pengantar, penting untuk mengembangkan cara untuk memanfaatkan informasi struktur grafis ke dalam model Transformer.Untuk tujuan ini, kami menyajikan tiga desain sederhana namun efektif dari pengkodean di Graphormer. Untuk ilustrasi 1 3.1.1 Sistem pengkodean pusat Dalam distribusi perhatian dihitung berdasarkan korelasi semantik antara node. Namun, centralitas node, yang mengukur seberapa penting node dalam grafik, biasanya merupakan sinyal yang kuat untuk pemahaman graf. misalnya, selebriti yang memiliki sejumlah besar pengikut adalah faktor penting dalam memprediksi tren jaringan sosial. , yang Informasi tersebut diabaikan dalam perhitungan perhatian saat ini, dan kami percaya itu harus menjadi sinyal berharga untuk model Transformer. Ekuitas 4, 40 39 Di Graphormer, kita menggunakan tingkat sentralitas, yang merupakan salah satu ukuran sentralitas standar dalam literatur, sebagai sinyal tambahan ke jaringan saraf. yang mengalokasikan setiap node dua vektor embedding bernilai nyata sesuai dengan indegree dan outdegree. karena pengkodean sentralitas diterapkan pada setiap node, kita hanya menambahkan ke fitur node sebagai input. Centralisasi Kodifikasi dimana z −, z+ ∈ R d adalah vektor embedding yang dapat dipelajari yang ditentukan oleh indegree deg−(vi) dan outdegree deg+(vi) masing-masing. Untuk grafik yang tidak diarahkan, deg−(vi) dan deg+(vi) dapat disatukan menjadi deg(vi). Dengan menggunakan pengkodean sentralitas dalam input, perhatian softmax dapat menangkap sinyal penting node dalam kueri dan kunci. 1.2 Kode Spasial Salah satu keuntungan dari Transformer adalah bidang penerimaan globalnya. Dalam setiap lapisan Transformer, setiap token dapat menghadiri informasi di posisi apa pun dan kemudian memproses representasinya. Tetapi operasi ini memiliki masalah produk sampingan bahwa model harus secara eksplisit menentukan posisi yang berbeda atau mengkodekan ketergantungan posisi (seperti lokasi) di lapisan. Untuk data sekuensial, seseorang dapat memberikan setiap posisi sebuah embedding (yaitu, kode posisi mutlak). ]) sebagai input atau kode jarak relatif dari dua posisi apa pun (yaitu, koding posisi relatif pada transformator layer. 49 [45] yang 47) yang Namun, untuk graf, node tidak diatur sebagai urutan. Mereka dapat terletak di ruang ruang multi-dimensi dan terhubung oleh tepi. Untuk mengkodifikasi informasi struktur graf dalam model, kami mengusulkan Novel Spatial Encoding. Secara khusus, untuk setiap graf G, kami mempertimbangkan fungsi φ (vi , vj ) : V × V → R yang mengukur hubungan ruang antara vi dan vj di graf G. Fungsi φ dapat didefinisikan oleh konektivitas antara node-node di graf. Dalam makalah ini, kami memilih φ(vi , vj ) untuk menjadi jarak dari jalur terpendek (SPD) antara vi dan vj jika dua node terhubung. Jika tidak, kami mengatur output φ menjadi nilai khusus, yaitu, -1. Kami menetapkan setiap (feasible) output nilai untuk belajar skalar yang akan berfungsi sebagai istilah bias dimana ( ) adalah skalar yang dapat dipelajari yang diindeks oleh ( dan dibagi-bagi di semua lapisan. bf dan vj φ yang vj Pertama, dibandingkan dengan GNN konvensional yang dijelaskan di Bagian 2, di mana bidang reseptif terbatas pada tetangga, kita dapat melihat bahwa di Eq. , lapisan Transformer memberikan informasi global bahwa setiap node dapat menghadiri semua node lainnya di grafik. ( ), setiap node dalam satu lapisan Transformer dapat secara adaptif menghadiri semua node lain sesuai dengan informasi struktur graf. ( ) adalah (6) yang bf dan vj bf dan vj belajar menjadi fungsi yang menurun sehubungan dengan ( ), untuk setiap node, model kemungkinan akan lebih memperhatikan node di dekatnya dan lebih sedikit memperhatikan node yang jauh darinya. φ yang vj 3.1.3 Edge Encoding dalam Perhatian Dalam banyak tugas graf, tepi juga memiliki fitur struktural, misalnya, dalam graf molekuler, pasangan atom mungkin memiliki fitur yang menggambarkan jenis ikatan antara mereka. Fitur-fitur seperti itu penting untuk representasi graf, dan mengkodekannya bersama dengan fitur node ke dalam jaringan sangat penting. Ada terutama dua metode pengkodekan tepi yang digunakan dalam pekerjaan sebelumnya. Dalam metode pertama, fitur tepi ditambahkan ke fitur node yang terkait. , yang Dalam metode kedua, untuk setiap node, fitur-fitur tepi yang terkait akan digunakan bersama dengan fitur node dalam agregasi [ , yang , yang Namun, cara-cara seperti itu menggunakan fitur edge hanya menyebarkan informasi edge ke node yang terkait, yang mungkin bukan cara yang efektif untuk memanfaatkan informasi edge dalam mewakili seluruh graf. 22 30 15 54 26 Untuk memudahkan pengambilan sampel dalam penelitian ini, ada beberapa cara yang dapat dilakukan untuk menghitung jumlah sampel dalam penelitian ini yaitu dengan menghitung jumlah sampel dalam penelitian ( Oleh karena itu, kami menghimbau kepada masyarakat agar selalu waspada terhadap permasalahan yang dihadapi. , yang ]. untuk setiap node pair yang diatur ( Kami menemukan salah satu jalur yang paling singkat SP · ( 1 * dan , ... , eN * ) dari Dua Berdasarkan hasil penelitian yang telah dilakukan, dapat disimpulkan bahwa variabel independen adalah variabel independen dan variabel independen, sedangkan variabel independen adalah variabel independen. ( (Elemen dari dengan Eq. Lebih lanjut dengan edge encoding sebagai : yang vj 34 51 yang vj IJ e 2 Vi yang vj yang j A (3) yang Cia yang di mana xen adalah fitur dari n-th edge en di SPij , w E n ∈ R dE adalah embedding berat n-th, dan dE adalah dimensi dari feature edge. 3.2 Detail implementasi dari Graphormer Graphormer dibangun pada implementasi asli Transformer encoder klasik yang dijelaskan di [ Selain itu, kami menerapkan layer normalization (LN) sebelum multi-head self-attention (MHA) dan feed-forward blocks (FFN) bukannya setelah [ ]. Modifikasi ini telah disetujui oleh semua implementasi Transformer saat ini karena mengarah pada optimasi yang lebih efektif [ Khususnya, untuk sub-layer FFN, kami mengatur dimensi input, output, dan lapisan dalam ke dimensi yang sama dengan Kami secara resmi karakterisasi lapisan Graphormer seperti di bawah ini: Graphormer Layer. 49 53 43 d Seperti yang disebutkan di bagian sebelumnya, berbagai fungsi gabungan graf diusulkan untuk mewakili graf embedding. Dalam Graphormer, kita menambahkan node khusus yang disebut [VNode] ke graf, dan membuat koneksi antara [VNode] dan setiap node secara individual. Dengan demikian, maka akan terjadi perpecahan yang signifikan dalam perpecahan tersebut, yaitu perpecahan yang terjadi dalam perpecahan. , yang ], ada token yang serupa, yaitu [CLS], yang merupakan token khusus yang ditempelkan pada awal setiap urutan, untuk mewakili fitur tingkat urutan pada tugas downstream. (Berdasarkan nama ) dan ( [VNode]), koneksi tidak fisik. Untuk membedakan koneksi fisik dan virtual, terinspirasi oleh [ ], kita reset semua kode spasial untuk (Berdasarkan nama ) dan ( Maka dari itu, sangat disarankan untuk melakukan pemeriksaan secara berkala. Special Node. 15 hg 11 35 φ dengan vj φ kita, 25 bf dengan VJ bf kita, 3.3 Seberapa kuat Graphormer? Dalam subbagian sebelumnya, kami memperkenalkan tiga koding struktural dan arsitektur Graphormer. Dalam subbagian ini, kami pertama memberikan jawaban afirmatif dengan menunjukkan bahwa Graphormer dapat mewakili langkah AGGREGATE dan COMBINE dalam model GNN populer: Apakah modifikasi ini membuat Graphormer lebih kuat daripada varian GNN lainnya? Fact 1. Dengan memilih berat yang tepat dan fungsi jarak φ, lapisan Graphormer dapat mewakili AGGREGATE dan COMBINE langkah-langkah model GNN populer seperti GIN, GCN, GraphSAGE. Sketch bukti untuk menghasilkan hasil ini adalah: 1) Encoding spasial memungkinkan modul self-attention untuk membedakan set tetangga N (vi) dari node vi sehingga fungsi softmax dapat menghitung statistik rata-rata atas N (vi); 2) Mengetahui derajat sebuah node, rata-rata atas tetangga dapat diterjemahkan menjadi jumlah atas tetangga; 3) Dengan banyak kepala dan FFN, representasi vi dan N (vi) dapat diproses secara terpisah dan dikombinasikan bersama-sama nanti. Selain itu, kami menunjukkan lebih lanjut bahwa dengan menggunakan pengkodean spasial kami, Graphormer dapat melampaui pesan klasik yang melewati GNN yang kekuatan ekspresifnya tidak lebih dari tes 1-Weisfeiler-Lehman (WL). Selain ekspresivitas yang lebih unggul daripada GNN populer, kita juga menemukan hubungan yang menarik antara menggunakan perhatian diri dan heuristik node virtual. , yang , yang , yang Seperti yang ditunjukkan dalam tabel leaderboard OGB [ ], trik node virtual, yang meningkatkan graf dengan supernode tambahan yang terhubung ke semua node dalam graf asli, dapat secara signifikan meningkatkan kinerja GNN yang ada. (seperti fungsi READOUT) dan kemudian menyebarkannya ke Namun, penambahan supernode yang naif ke grafik dapat berpotensi menyebabkan over-smooting informasi yang tidak disengaja. ]. Sebaliknya, kami menemukan bahwa operasi agregasi dan propagasi tingkat graf seperti itu dapat secara alami dipenuhi dengan perawatan diri vanilla tanpa kode tambahan. Connection between Self-attention and Virtual Node. 15 31 24 22 22 Seluruh graf Setiap node 24 Fact 2. Dengan memilih berat yang tepat, setiap representasi node dari output dari lapisan Graphormer tanpa kode tambahan dapat mewakili fungsi MEAN READOUT. Fakta ini mengambil keuntungan dari perhatian sendiri bahwa setiap node dapat menghadiri semua node lain. Dengan demikian, dapat mensimulasikan operasi READOUT tingkat graf untuk mengagregasi informasi dari seluruh graf. Selain alasan teoritis, kami secara empiris menemukan bahwa Graphormer tidak menghadapi masalah over-smoothing, yang membuat perbaikan dapat diperluas. Fakta ini juga menginspirasi kita untuk memperkenalkan node khusus untuk graph readout (lihat subbagian sebelumnya). 4 Eksperimen Kami pertama kali melakukan percobaan pada OGB-LSC terbaru [ Reaksi regresi kimia kuantum (yaitu, PCQM4M-LSC) tantangan, yang saat ini merupakan dataset prediksi tingkat graf terbesar dan berisi lebih dari 3,8M grafik total. dan benchmarking-GNN ( Pada akhirnya, kami membatalkan elemen desain yang penting dari Graphormer. deskripsi rinci set data dan strategi pelatihan dapat ditemukan di Lampiran B. 21 22 14 4.1 Tantangan skala besar OGB We benchmark the proposed Graphormer with GCN [ ] and GIN [ ], and their variants with virtual node (-VN) [ ]. They achieve the state-of-the-art valid and test mean absolute error (MAE) on the official leaderboard [ ]. In addition, we compare to GIN’s multi-hop variant [ ], and 12-layer deep graph network DeeperGCN [ ], which also show promising performance on other leaderboards. We further compare our Graphormer with the recent Transformer-based graph model GT Baselines. 26 54 15 4 21 5 30 [13]. We primarily report results on two model sizes: ( = 12*, d* = 768), and a smaller one (Dengan = 6*, d* = 512). baik jumlah kepala perhatian dalam modul perhatian dan dimensi karakteristik tepi are set to 32. We use AdamW as the optimizer, and set the hyper-parameter to 1e-8 and ( 1*, β*2) to (0.99,0.999). The peak learning rate is set to 2e-4 (3e-4 for ) with a 60k-step warm-up stage followed by a linear decay learning rate scheduler. The total training steps are 1M. The batch size is set to 1024. All models are trained on 8 NVIDIA V100 GPUS for about 2 days. Settings. Graphormer L GraphormerSMALL L dE ϵ β GraphormerSMALL Meja summarizes performance comparisons on PCQM4M-LSC dataset. From the table, GIN-VN achieves the previous state-of-the-art validate MAE of 0.1395. The original implementation of GT [ ] employs a hidden dimension of 64 to reduce the total number of parameters. For a fair comparison, we also report the result by enlarging the hidden dimension to 768, denoted by GT-Wide, which leads to a total number of parameters of 83.2M. While, both GT and GT-Wide do not outperform GIN-VN and DeeperGCN-VN. Especially, we do not observe a performance gain along with the growth of parameters of GT. Results. 1 13 Compared to the previous state-of-the-art GNN architecture, Graphormer noticeably surpasses GIN-VN by a large margin, e.g., 11.5% relative validate MAE decline. By using the ensemble with ExpC [ ], kami mendapatkan 0.1200 MAE pada set tes lengkap dan memenangkan tempat pertama dari track level graf di OGB Large-Scale Challenge[ , Seperti yang dinyatakan dalam bagian Kami juga menemukan bahwa Graphormer yang diusulkan tidak menghadapi masalah over-smoothing, yaitu, tren dan kesalahan validasi terus menurun bersama dengan pertumbuhan kedalaman dan lebar model. 55 21 58 3.3 yang 4.2 Graph Representation In this section, we further investigate the performance of Graphormer on commonly used graph-level prediction tasks of popular leaderboards, i.e., OGB [ [ ] (OGBG-MolPCBA, OGBG-MolHIV) dan benchmarking-GNN [ ] (ZINC). Since pre-training is encouraged by OGB, we mainly explore the transferable capability of a Graphormer model pre-trained on OGB-LSC (i.e., PCQM4M-LSC). Please note that the model configurations, hyper-parameters, and the pre-training performance of pre-trained Graphormers used for MolPCBA and MolHIV are different from the models used in the previous subsection. Please refer to Appendix B for detailed descriptions. For benchmarking-GNN, which does not encourage large pre-trained model, we train an additional GraphormerSLIM ( = 12*, d* = 80, total param.= 489 ) from scratch on ZINC. 22 14 L K We report performance of GNNs which achieve top-performance on the official leader-boards . Considering that the pre-trained Graphormer leverages external data, for a fair comparison on OGB datasets, we additionally report performance for fine-tuning GIN-VN pre-trained on PCQM4M-LSC dataset, which achieves the previous state-of-the-art valid and test MAE on that dataset. Baselines. 5 without additional domain-specific features We report detailed training strategies in Appendix B. In addition, Graphormer is more easily trapped in the over-fitting problem due to the large size of the model and the small size of the dataset. Therefore, we employ a widely used data augmentation for graph - FLAG [ , untuk mengurangi masalah over-fitting pada dataset OGB. Settings. 27 Table and mengumpulkan kinerja Graphormer dibandingkan dengan GNN lainnya pada MolHIV, MolPCBA dan ZINC dataset. ] and SAN [ ] in Table are recently proposed Transformer-based GNN models. Graphormer consistently and significantly outperforms previous state-of-the-art GNNs on all three datasets by a large margin. Specially, except Graphormer, the other pre-trained GNNs do not achieve competitive performance, which is in line with previous literature [ ]. In addition, we conduct more comparisons to fine-tuning the pre-trained GNNs, please refer to Appendix C. Results. 2 , 3 4 13 28 4 20 4.3 Ablation Studies We perform a series of ablation studies on the importance of designs in our proposed Graphormer, on PCQM4M-LSC dataset. The ablation results are included in Table To save the computation resources, the Transformer models in table have 12 layers, and are trained for 100K iterations. 5. 5 We compare previously used positional encoding (PE) to our proposed spatial encoding, which both aim to encode the information of distinct node relation to Transformers. There are various PEs employed by previous Transformer-based GNNs, e.g., Weisfeiler-Lehman-PE (WL-PE) [ (Baca juga: Cara Menghilangkan Jerawat dengan Cepat) , ]. We report the performance for Laplacian PE since it performs well comparing to a series of PEs for Graph Transformer in previous literature [ Arsitektur transformator dengan pengkodean spasial melampaui setara yang dibangun pada pengkodean posisi, yang menunjukkan efektivitas menggunakan pengkodean spasial untuk menangkap informasi spasial node. Node Relation Encoding. 61 3 14 13 Transformer architecture with degree-based centrality encoding yields a large margin performance boost in comparison to those without centrality information. This indicates that the centrality encoding is indispensable to Transformer architecture for modeling graph data. Centrality Encoding. We compare our proposed edge encoding (denoted as via attn bias) to two commonly used edge encodings described in Section to incorporate edge features into GNN, denoted as via node and via Aggr in Table Dari tabel, kesenjangan kinerja lebih kecil antara dua metode konvensional, tetapi pengkodean tepi kami yang diusulkan melakukan secara signifikan lebih baik, yang menunjukkan bahwa pengkodean tepi sebagai bias perhatian lebih efektif bagi Transformer untuk menangkap informasi spasial di tepi. Edge Encoding. 3.1.3 dari 5. 5 Related Work In this section, we highlight the most recent works which attempt to develop standard Transformer architecture-based GNN or graph structural encoding, but spend less effort on elaborating the works by adapting attention mechanism to GNNs [33, 60, 7, 23, 1, 50, 51, 61, yang 48]. 5.1 Graph Transformer Ada beberapa karya yang mempelajari kinerja arsitektur Transformer murni (ditumpuk oleh lapisan transformator) dengan modifikasi pada tugas representasi grafis, yang lebih terkait dengan Graphormer kami. ], including an additional GNN employed in attention sub-layer to produce vectors of , yang , and , long-range residual connection, and two branches of FFN to produce node and edge representations separately. They pre-train their model on 10 million unlabelled molecules and achieve excellent results by fine-tuning on downstream tasks. Attention module is modified to a soft adjacency matrix in [ ] dengan langsung menambahkan matriks adjacensi dan RDKit -Matrix jarak interatomik yang dihitung untuk probabilitas perhatian. [ ] revisit a series of works for Transformer-based GNNs, and suggest that the attention mechanism in Transformers on graph data should only aggregate the information from neighborhood (i.e., using adjacent matrix as attention mask) to ensure graph sparsity, and propose to use Laplacian eigenvector as positional encoding. Their model GT surpasses baseline GNNs on graph representation task. A concurrent work [ ] propose a novel full Laplacian spectrum to learn the position of each node in a graph, and empirically shows better results than GT. 46 Q K V 41 6 et al. 13 28 5.2 Structural Encodings in GNNs Information of path and distance is commonly used in GNNs. For example, an attention-based aggregation is proposed in [ ] where the node features, edge features, one-hot feature of the distance and ring flag feature are concatenated to calculate the attention probabilites; similar to path-based attention is leveraged in to model the influence between the center node and its higher-order neighbors; a distance-weighted aggregation scheme on graph is proposed in [ ]; it has been proved in [ Mengadopsi pengkodean jarak (yaitu, fitur satu-hot dari jarak sebagai atribut node tambahan) dapat menyebabkan kekuatan yang lebih ekspresif ketimbang tes 1-WL. Path and Distance in GNNs. 9 [9], [56] yang 59 32 Several works introduce positional encoding (PE) to Transformer-based GNNs to help the model capture the node position information. For example, Graph-BERT [ ] introduces three types of PE to embed the node position information to model, i.e., an absolute WL-PE which represents different nodes labeled by Weisfeiler-Lehman algorithm, an intimacy based PE and a hop based PE which are both variant to the sampled subgraphs. Absolute Laplacian PE is employed in [ ] and empircal study shows that its performance surpasses the absolute WL-PE used in Positional Encoding in Transformer on Graph. 61 13 [61]. Except the conventionally used methods to encode edge feature, which are described in previous section, there are several attempts that exploit how to better encode edge features: an attention-based GNN layer is developed in [ Untuk mengkodekan fitur edge, di mana fitur edge dibebankan dengan kesamaan fitur dari dua node; fitur edge telah dikodekan ke dalam GIN populer. ] in [ ]; in [ ], the authors propose to project edge features to an embedding vector, then multiply it by attention coefficients, and send the result to an additional FFN sub-layer to produce edge representations; Edge Feature. 16 54 5 13 6 Conclusion We have explored the direct application of Transformers to graph representation. With three novel graph structural encodings, the proposed Graphormer works surprisingly well on a wide range of popular benchmark datasets. While these initial results are encouraging, many challenges remain. For example, the quadratic complexity of the self-attention module restricts Graphormer’s application on large graphs. Therefore, future development of efficient Graphormer is necessary. Performance improvement could be expected by leveraging domain knowledge-powered encodings on particular graph datasets. Finally, an applicable graph sampling strategy is desired for node representation extraction with Graphormer. We leave them for future works. 7 Acknowledgement Kami ingin berterima kasih kepada Mingqi Yang dan Shanda Li atas diskusi yang cerdas. References [1] Jinheon Baek, Minki Kang, and Sung Ju Hwang. Accurate learning of graph representations with graph multiset pooling. , 2021. ICLR [2] Dominique Beaini, Saro Passaro, Vincent Létourneau, William L Hamilton, Gabriele Corso, dan Pietro Liò. Pada tahun 2021. Konferensi Internasional tentang Machine Learning [3] Mikhail Belkin and Partha Niyogi. Laplacian eigenmaps for dimensionality reduction and data representa-tion. , 15(6):1373–1396, 2003. Neural komputasi [4] Xavier Bresson dan Thomas Laurent. residual gated graph convnets. , 2017. arXiv preprint arXiv:1711.07553 [5] Rémy Brossard, Oriel Frigo, dan David Dehaene. konvolusi grafis yang akhirnya dapat memodelkan struktur lokal. , 2020. arXiv preprint arXiv:2011.15069 [6] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, dan Dario Amodei. Model bahasa adalah orang-orang yang sedikit belajar. Di H. Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan, dan H. Lin , volume 33, halaman 1877–1901. Curran Associates, Inc., 2020 Advances in Neural Information Processing Systems [7] Deng Cai dan Wai Lam. transformator graf untuk pembelajaran graf-ke-sekuensi. , volume 34, pages 7464–7471, 2020. Proceedings of the AAAI Conference on Artificial Intelligence [8] Tianle Cai, Shengjie Luo, Keyulu Xu, Di He, Tie-yan Liu, and Liwei Wang. Graphnorm: A principled approach to accelerating graph neural network training. In Pada tahun 2021. International Conference on Machine Learning [9] Benson Chen, Regina Barzilay, dan Tommi Jaakkola. jaringan transformator grafis yang ditingkatkan. , 2019. arXiv preprint arXiv:1905.12712 [10] Gabriele Corso, Luca Cavalleri, Dominique Beaini, Pietro Liò, dan Petar Velicˇkovic '. agregasi lingkungan utama untuk jaringan graf. , 33, 2020. Advances in Neural Information Processing Systems [11] Jacob Devlin, Ming-Wei Chang, Kenton Lee, dan Kristina Toutanova. Bert: Pre-training dari transformator bidi-rectional yang mendalam untuk pemahaman bahasa. , halaman 4171–4186, 2019. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers) [12] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, dan lainnya. Pada tahun 2020. arXiv Preprint arXiv:2010.11929 [13] Vijay Prakash Dwivedi dan Xavier Bresson. generalisasi jaringan transformator untuk grafik. , 2021. AAAI Workshop on Deep Learning on Graphs: Metode dan Aplikasi [14] Vijay Prakash Dwivedi, Chaitanya K Joshi, Thomas Laurent, Yoshua Bengio, dan Xavier Bresson. Pada tahun 2020. arXiv Preprint arXiv:2003.00982 [15] Justin Gilmer, Samuel S Schoenholz, Patrick F Riley, Oriol Vinyals, and George E Dahl. Neural message passing for quantum chemistry. In , pages 1263–1272. PMLR, 2017. International Conference on Machine Learning [16] Liyu Gong and Qiang Cheng. Exploiting edge features for graph neural networks. In , pages 9211–9219, 2019. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition [17] Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, et al. Conformer: Convolution-augmented transformer for speech recognition. , 2020. arXiv preprint arXiv:2005.08100 [18] William L Hamilton, Zhitao Ying, and Jure Leskovec. Inductive representation learning on large graphs. In , 2017. NIPS [19] Vincent J Hellendoorn, Charles Sutton, Rishabh Singh, Petros Maniatis, and David Bieber. Global relational models of source code. In , 2019. International conference on learning representations [20] W Hu, B Liu, J Gomes, M Zitnik, P Liang, V Pande, and J Leskovec. Strategies for pre-training graph neural networks. In , 2020. International Conference on Learning Representations (ICLR) [21] Weihua Hu, Matthias Fey, Hongyu Ren, Maho Nakata, Yuxiao Dong, and Jure Leskovec. Ogb-lsc: A large-scale challenge for machine learning on graphs. Pada tahun 2021. arXiv preprint arXiv:2103.09430 [22] Weihua Hu, Matthias Fey, Marinka Zitnik, Yuxiao Dong, Hongyu Ren, Bowen Liu, Michele Catasta, and Jure Leskovec. Open graph benchmark: Datasets for machine learning on graphs. , 2020. arXiv preprint arXiv:2005.00687 [23] Ziniu Hu, Yuxiao Dong, Kuansan Wang, and Yizhou Sun. Heterogeneous graph transformer. In , pages 2704–2710, 2020. Proceedings of The Web Conference 2020 [24] Katsuhiko Ishiguro, Shin-ichi Maeda, and Masanori Koyama. Graph warp module: an auxiliary module for boosting the power of graph neural networks in molecular graph analysis. , 2019. arXiv preprint arXiv:1902.01020 [25] Guolin Ke, Di He, and Tie-Yan Liu. Rethinking the positional encoding in language pre-training. , 2020. ICLR [26] Thomas N Kipf and Max Welling. Semi-supervised classification with graph convolutional networks. , 2016. arXiv preprint arXiv:1609.02907 [27] Kezhi Kong, Guohao Li, Mucong Ding, Zuxuan Wu, Chen Zhu, Bernard Ghanem, Gavin Taylor, and Tom Goldstein. Flag: Adversarial data augmentation for graph neural networks. Pada tahun 2020. arXiv preprint arXiv:2010.09891 [28] Devin Kreuzer, Dominique Beaini, William Hamilton, Vincent Létourneau, and Prudencio Tossou. Re-thinking graph transformers with spectral attention. , 2021. arXiv preprint arXiv:2106.03893 [29] Tuan Le, Marco Bertolini, Frank Noé, and Djork-Arné Clevert. Parameterized hypercomplex graph neural networks for graph classification. , 2021. arXiv preprint arXiv:2103.16584 [30] Guohao Li, Chenxin Xiong, Ali Thabet, and Bernard Ghanem. Deepergcn: All you need to train deeper gcns. , 2020. arXiv preprint arXiv:2006.07739 [31] Junying Li, Deng Cai, dan Xiaofei He. Belajar representasi tingkat graf untuk penemuan obat. Pada tahun 2017. arXiv preprint arXiv:1709.03741 [32] Pan Li, Yanbang Wang, Hongwei Wang, and Jure Leskovec. Distance encoding: Design provably more powerful neural networks for graph representation learning. , 33, 2020. Advances in Neural Information Processing Systems [33] Yuan Li, Xiaodan Liang, Zhiting Hu, Yinbo Chen, and Eric P. Xing. Graph transformer, 2019. [34] Xi Victoria Lin, Richard Socher, and Caiming Xiong. Multi-hop knowledge graph reasoning with reward shaping. , 2018. arXiv preprint arXiv:1808.10568 [35] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Roberta: A robustly optimized bert pretraining approach. , 2019. arXiv preprint arXiv:1907.11692 [36] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. , 2021. arXiv preprint arXiv:2103.14030 [37] Shengjie Luo, Shanda Li, Tianle Cai, Di He, Dinglan Peng, Shuxin Zheng, Guolin Ke, Liwei Wang, and Tie-Yan Liu. Stable, fast and accurate: Kernelized attention with relative positional encoding. , 2021. NeurIPS [38] Haggai Maron, Heli Ben-Hamu, Hadar Serviansky, and Yaron Lipman. Provably powerful graph networks. In H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alché-Buc, E. Fox, and R. Garnett, editors, , volume 32. Curran Associates, Inc., 2019 Advances in Neural Information Processing Systems [39] P David Marshall. The promotion and presentation of the self: celebrity as marker of presentational media. , 1(1):35–48, 2010. Studi selebriti [40] Alice Marwick and Danah Boyd. To see and be seen: Celebrity practice on twitter. , 17(2):139–158, 2011. Convergence [41] Łukasz Maziarka, Tomasz Danel, Sławomir Mucha, Krzysztof Rataj, Jacek Tabor, and Stanisław Jastrze˛bski. Molecule attention transformer. , 2020. arXiv preprint arXiv:2002.08264 [42] Maho Nakata and Tomomi Shimazaki. Pubchemqc project: a large-scale first-principles electronic structure database for data-driven chemistry. , 57(6):1300–1308, 2017. Journal of chemical information and modeling [43] Sharan Narang, Hyung Won Chung, Yi Tay, William Fedus, Thibault Fevry, Michael Matena, Karishma Malkan, Noah Fiedel, Noam Shazeer, Zhenzhong Lan, dan lainnya. , 2021. arXiv preprint arXiv:2102.11972 [44] Dinglan Peng, Shuxin Zheng, Yatao Li, Guolin Ke, Di He, and Tie-Yan Liu. How could neural networks understand programs? In . PMLR, 2021. Konferensi Internasional tentang Machine Learning [45] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. , 21(140):1–67, 2020. Journal of Machine Learning Research [46] Yu Rong, Yatao Bian, Tingyang Xu, Weiyang Xie, Ying Wei, Wenbing Huang, and Junzhou Huang. Self-supervised graph transformer on large-scale molecular data. , 33, 2020. Advances in Neural Information Processing Systems [47] Peter Shaw, Jakob Uszkoreit, and Ashish Vaswani. Self-attention with relative position representations. In , halaman 464–468, 2018. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers) [48] Yunsheng Shi, Zhengjie Huang, Wenjin Wang, Hui Zhong, Shikun Feng, and Yu Sun. Masked label predic-tion: Unified message passing model for semi-supervised classification. , 2020. arXiv preprint arXiv:2009.03509 [49] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In , 2017. NIPS [50] Petar Velicˇkovic´, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio, and Yoshua Bengio. Graph attention networks. , 2018. ICLR [51] Guangtao Wang, Rex Ying, Jing Huang, and Jure Leskovec. Direct multi-hop attention based graph neural network. , 2020. arXiv preprint arXiv:2009.14332 [52] Sinong Wang, Belinda Li, Madian Khabsa, Han Fang, and Hao Ma. Linformer: Self-attention with linear complexity. , 2020. arXiv preprint arXiv:2006.04768 [53] Ruibin Xiong, Yunchang Yang, Di He, Kai Zheng, Shuxin Zheng, Chen Xing, Huishuai Zhang, Yanyan Lan, Liwei Wang, and Tieyan Liu. On layer normalization in the transformer architecture. In , pages 10524–10533. PMLR, 2020. International Conference on Machine Learning [54] Keyulu Xu, Weihua Hu, Jure Leskovec, dan Stefanie Jegelka. Seberapa kuat jaringan saraf graf? , 2019. International Conference on Learning Representations [55] Mingqi Yang, Yanming Shen, Heng Qi, dan Baocai Yin. Memecahkan botol ekspresif dari jaringan saraf graf. Pada tahun 2020. arXiv preprint arXiv:2012.07219 [56] Yiding Yang, Xinchao Wang, Mingli Song, Junsong Yuan, and Dacheng Tao. Spagan: Shortest path graph attention network. , 2019. Perkembangan di IJCAI [57] Chengxuan Ying, Guolin Ke, Di He, and Tie-Yan Liu. Lazyformer: Self attention with lazy update. , 2021. arXiv preprint arXiv:2102.12702 [58] Chengxuan Ying, Mingqi Yang, Shuxin Zheng, Guolin Ke, Shengjie Luo, Tianle Cai, Chenglin Wu, Yuxin Wang, Yanming Shen, dan Di He. Pada tahun 2021. arXiv preprint arXiv:2106.08279 [59] Jiaxuan You, Rex Ying, dan Jure Leskovec. Jaringan saraf grafis sadar posisi. , pages 7134–7143. PMLR, 2019. International Conference on Machine Learning [60] Seongjun Yun, Minbyul Jeong, Raehyun Kim, Jaewoo Kang, and Hyunwoo J Kim. Graph transformer networks. Pada tanggal 32, 2019. Advances in Neural Information Processing Systems [61] Jiawei Zhang, Haopeng Zhang, Congying Xia, and Li Sun. Graph-bert: Only attention is needed for learning graph representations. , 2020. arXiv Preprint arXiv:2001.05140 [62] Chen Zhu, Yu Cheng, Zhe Gan, Siqi Sun, Tom Goldstein, dan Jingjing Liu. Freelb: Latihan lawan yang ditingkatkan untuk pemahaman bahasa alami. Pada tahun 2020. ICLR [63] Daniel Zügner, Tobias Kirschstein, Michele Catasta, Jure Leskovec, and Stephan Günnemann. Language-agnostic representation learning of source code from structure and context. In , 2020. International Conference on Learning Representations A Proofs A.1 SPD can Be Used to Improve WL-Test 1-WL-test fails in many cases [ , ], thus classic message passing GNNs also fail to distinguish many pairs of graphs. We show that SPD might help when 1-WL-test fails, for example, in Figure where 1-WL-test fails, the sets of SPD from all nodes to others successfully distinguish the two graphs. 38 32 2 A.2 Bukti dari fakta 1 1 We begin by showing that self-attention module with Spatial Encoding can repre-sent MEAN aggregation. This is achieved by in Eq. 1) Menetapkan = 0 if = 1 and = otherwise where is the SPD; 2) setting = 0 dan to be the identity matrix. Then softmax ( ) gives the average of representations of the neighbors. MEAN AGGREGATE. (6) bf φ bφ −∞ φ WQ WK WV A V Aggregasi SUM dapat dicapai dengan melakukan agregasi MEAN pertama dan kemudian melipatgandakan derajat node. Secara khusus, derajat node dapat diekstrak dari Centrality Encoding dengan kepala tambahan dan disatukan ke representasi setelah agregasi MEAN. Kemudian modul FFN di Graphormer dapat mewakili fungsi mengalikan derajat ke dimensi representasi rata-rata dengan teorema pendekatan universal dari FFN. SUM AGGREGATE. Representing the MAX aggregation is harder than MEAN and SUM. For each dimension of the representation vector, we need one head to select the maximal value over Dimensi di tetangga oleh dalam Eq. : 1) setting = 0 if = 1 and = otherwise where adalah SPD; 2) pengaturan = Apa yang menjadi -th standard basis; = 0 dan istilah bias (yang diabaikan dalam deskripsi sebelumnya untuk kesederhanaan) dari to be ; and = , where adalah suhu yang dapat dipilih untuk cukup besar sehingga fungsi softmax dapat mendekati hard max dan is the vector whose elements are all 1. MAX AGGREGATE. t t (6) bφ φ bf −∞ φ WK et t WQ Q T 1 WV dan T 1 The COMBINE step takes the result of AGGREGATE and the previous representation of current node as input. This can be achieved by the AGGREGATE operations described above together with an additional head which outputs the features of present nodes, i.e., in Eq. : 1) setting = 0 jika = 0 and = yang otherwise where adalah SPD; 2) pengaturan = 0 dan Kemudian modul FFN dapat mendekati fungsi COMBINE apa pun dengan teorema pendekatan universal FFN. COMBINE. (6) bφ φ bφ −∞ φ WQ yang WK wv A.3 Bukti dari fakta 2 2 This can be proved by setting = = 0, istilah bias dari to be , and untuk menjadi matriks identitas di mana should be much larger than the scale of so that 2 T mendominasi istilah Spatial Encoding. MEAN READOUT. WQ yang WK Q, K T 1 WV T bφ T 11 B Experiment Details B.1 Details of Datasets We summarize the datasets used in this work in Table PCQM4m-LSC is a quantum chemistry graph-level prediction task in recent OGB Large-Scale Challenge, originally curated under the PubChemQC project [ 6. 42 The task of PCQM4M-LSC is to predict DFT(density functional theory)-calculated HOMO-LUMO energy gap of molecules given their 2D molecular graphs, which is one of the most practically-relevant quantum chemical properties of molecule science. PCQM4M-LSC is unprecedentedly large in scale comparing to other labeled graph-level prediction datasets, which contains more than 3.8M graphs. Besides, we conduct experiments on two molecular graph datasets in popular OGB leaderboards, i.e., OGBG-MolPCBA and OGBG-MolHIV. They are two molecular property prediction datasets with different sizes. The pre-trained knowledge of molecular graph on PCQM4M-LSC could be easily leveraged on these two datasets. We adopt official scaffold split on three datasets following [ , yang ]. In addition, we employ another popular leaderboard, i.e., benchmarking-gnn [ ]. Kami menggunakan dataset ZINC, yang merupakan dataset molekuler dunia nyata yang paling populer untuk memprediksi regresi properti graf untuk solubilitas paksa, properti kimia penting untuk merancang GNN generatif untuk molekul. Berbeda dengan pemisahan rak di OGB, pengambilan sampel seragam diadopsi di ZINC untuk pemisahan data. 21 22 14 B.2 Detail Strategi Pelatihan B.2.1 PCQM4M-LSC We report the detailed hyper-parameter settings used for training Graphormer in Table We reduce the FFN inner-layer dimension of 4 Dalam [ ] to , which does not appreciably hurt the performance but significantly save the parameters. The embedding dropout ratio is set to 0.1 by default in many previous Transformer works [ , yang ]. Namun, kami secara empiris menemukan bahwa rasio drop-out embedding kecil (misalnya, 0,1) akan menyebabkan penurunan kinerja yang dapat diamati pada set validasi PCQM4M-LSC. Salah satu alasan yang mungkin adalah bahwa grafik molekuler relatif kecil (yaitu, median #atom dalam setiap molekul adalah sekitar 15), membuat sifat graf lebih sensitif terhadap embeddings dari setiap node. 7. d 49 d 11 35 B.2.2 OGBG-MolPCBA Kami pertama melaporkan konfigurasi model dan hyper-parameter dari Graphormer pra-latih pada PCQM4M-LSC. Empiris, kami menemukan bahwa kinerja pada MolPCBA mendapat manfaat dari ukuran model pra-latihan yang besar. Oleh karena itu, kami melatih Graphormer mendalam dengan 18 lapisan Transformer pada PCQM4M-LSC. Dimensi tersembunyi dan dimensi lapisan dalam FFN ditetapkan menjadi 1024. Pre-training. Graphormer. Selain itu, kami memperluas rasio drop-out perhatian dari 0,1 menjadi 0,3 di pre-training dan fine-tuning untuk mencegah model dari over-fit. Sisanya hyper-parameter tetap tidak berubah. Graphormer pra-trained yang digunakan untuk MolPCBA mencapai MAE yang valid dari 0,1253 pada PCQM4M-LSC, yang sedikit lebih buruk dari laporan di Tabel 1. Meja summarizes the hyper-parameters used for fine-tuning Graphormer on OGBG-MolPCBA. We conduct a grid search for several hyper-parameters to find the optimal configuration. The experimental results are reported by the mean of 10 independent runs with random seeds. We use FLAG [ ] with minor modifications for graph data augmentation. In particular, except the step size Jumlah langkah yang , kami juga menggunakan langkah proyeksi di [ Dengan gangguan maksimal Performa Graphormer pada MolPCBA cukup kuat untuk hyper-parameter FLAG. Fine-tuning. 8 27 α m 62 g B.2.3 OGBG MolHIV We use the Graphormer reported in Table sebagai model pra-latih untuk OGBG-MolHIV, di mana hyper-parameter pra-latihan disimpulkan dalam Tabel Pre-training. 1 7. The hyper-parameters for fine-tuning Graphormer on OGBG-MolHIV are presented in Table Empirically, we find that the different choices of hyper-parameters of FLAG (i.e., step size , number of steps , and maximum perturbation ) akan sangat mempengaruhi kinerja Graphormer pada OGBG-MolHiv. oleh karena itu, kami menghabiskan lebih banyak usaha untuk melakukan pencarian grid untuk hyper-parameter FLAG. Kami melaporkan hyper-parameter terbaik dengan rata-rata 10 berjalan independen dengan benih acak. Fine-tuning. 9. α m g 2.3 Zinc Untuk menjaga total parameter Graphormer kurang dari 500K per permintaan dari benchmarking-GNN leader-board [ ], kami melatih Graphormer 12-layer dengan dimensi tersembunyi 80, yang disebut GraphormerSLIM di Table dan memiliki sekitar 489K parameter yang dapat dipelajari. Jumlah kepala perhatian ditetapkan menjadi 8. meringkas hyper-parameter terperinci pada ZINC. Kami melatih 400K langkah pada dataset ini, dan menggunakan penurunan berat badan 0.01. 14 4, 10 B.3 Details of Hyper-parameters for Baseline Methods Dalam bagian ini, kami menyajikan rincian dari re-implementasi metode dasar kami. B.3.1 PCQM4M-LSC Repository GitHub resmi dari OGB-LSC menyediakan hyper-parameter dan kode untuk mereproduksi hasil pada leaderboard. hyper-parameter ini bekerja dengan baik pada hampir semua varian GNN populer, kecuali DeeperGCN-VN, yang mengakibatkan divergensi pelatihan. Oleh karena itu, untuk DeeperGCN-VN, kami mengikuti pengaturan hyper-parameter resmi Ditulis oleh penulis [ ]. For a fair comparison to Graphormer, we train a 12-layer DeeperGCN. The hidden dimension is set to 600. The batch size is set to 256. The learning rate is set to 1e-3, and a step learning rate scheduler is employed with the decaying step size and the decaying factor Sebagai 30 era dan 0.25. model ini dilatih untuk 100 era. 7 8 30 γ Dimensi default dari laplacian PE dari GT [ Namun, itu akan menyebabkan 2,91% molekul kecil (kurang dari 8 atom) untuk difilter. Oleh karena itu, untuk GT dan GT-Wide, kami menetapkan dimensi laplacian PE ke 4, yang menghasilkan hanya 0,08% penyaringan. Kami mengadopsi pengaturan hyper-parameter default yang dijelaskan di [ ], kecuali bahwa kita menurunkan tingkat pembelajaran menjadi 1e-4, yang mengarah pada konvergensi yang lebih baik pada PCQM4M-LSC. 13 13 B.3.2 OGBG-MolPCBA To fine-tune the pre-trained GIN-VN on MolPCBA, we follow the hyper-parameter settings provided in the original OGB paper [ ]. To be more concrete, we load the pre-trained checkpoint reported in Table Kami menggunakan pencarian grid pada hyper-parameter untuk kinerja finishing yang lebih baik. Khususnya, tingkat pembelajaran dipilih dari {1e − 5, 1e − 4, 1e − 3}; rasio drop-out dipilih dari {0.0, 0.1, 0.5}; ukuran batch dipilih dari {32, 64}. 22 1 B.3.3 OGBG-MolHIV Similarly, we fine-tune the pre-trained GIN-VN on MolHIV by following the hyper-parameter settings provided in the original OGB paper [ ]. Kami juga melakukan pencarian grid untuk mencari hyper-parameter optimal. rentang untuk setiap hyper-parameter pencarian grid sama dengan subseksinya sebelumnya. 22 C. Lebih banyak eksperimen Seperti yang dijelaskan dalam pekerjaan terkait, GROVER adalah GNN berbasis Transformer, yang memiliki 100 juta parameter dan dilatih sebelumnya pada 10 juta molekul yang tidak dilabel menggunakan 250 GPU Nvidia V100. Kami mengunduh model GROVER yang telah dilatih sebelumnya dari halaman web Github resmi Ikuti instruksi resmi dan menyesuaikan titik-titik kontrol yang telah dilatih sebelumnya dengan pencarian hyper-parameter yang hati-hati (dalam Tabel Kami menemukan bahwa GROVER dapat mencapai kinerja kompetitif pada MolHIV hanya jika menggunakan fitur molekuler tambahan, yaitu, sidik jari molekuler morgan dan fitur 2D Oleh karena itu, kami melaporkan skor GROVER dengan mengambil dua fitur molekuler tambahan ini. , kita bisa tahu fitur molekuler tambahan tersebut sangat efektif pada dataset MolHIV. 9 10 11 ) 11 12 Table dan summarize the performance of GROVER and GROVERLARGE comparing with Graphormer on MolHIV and MolPCBA. From the tables, we observe that Graphormer could consistently outperform GROVER even without any additional molecular features. 12 13 D Diskusi & Kerja Masa Depan Mirip dengan Transformer biasa, mekanisme perhatian di Graphormer berukuran persegi dengan jumlah node. dalam grafik input, yang mungkin sangat mahal untuk dan mencegah penggunaan dalam pengaturan dengan sumber daya komputasi terbatas. baru-baru ini, banyak solusi telah diusulkan untuk mengatasi masalah ini di Transformer [ , yang , yang , yang Masalah ini akan sangat bermanfaat dari pengembangan masa depan Graphormer yang efisien. Complexity. n n 25 52 57 37 Di Graphormer, ada banyak pilihan untuk sentralitas jaringan dan fungsi pengkodean spasial. ( Misalnya, seseorang dapat memanfaatkan 2 jarak dalam struktur 3D antara dua atom dalam molekul. dalam makalah ini, kita terutama mengevaluasi sentralitas umum dan metrik jarak dalam teori graf, yaitu, sentralitas derajat dan jalur terpendek. peningkatan kinerja dapat diharapkan dengan memanfaatkan pengkodean berbasis pengetahuan domain pada dataset graf tertentu. Choice of centrality and φ φ vi, vj L Ada berbagai macam tugas representasi node pada data terstruktur grafis, seperti keuangan, jaringan sosial, dan prediksi waktu. Graphormer dapat secara alami digunakan untuk ekstraksi representasi node dengan strategi sampling grafis yang berlaku. Node Representation. Dokumen ini tersedia di archiv di bawah lisensi CC by 4.0 Deed (Attribution 4.0 International). Dokumen ini tersedia di archiv di bawah lisensi CC by 4.0 Deed (Attribution 4.0 International).