Autorzy : Chengxuan Ying, yingchengsyuan@gmail.com (Dalian University of Technology) Tianle Cai, tianle.cai@princeton.edu (Princeton University) Shengjie Luo, luosj@stu.pku.edu.cn (Peking University) Shuxin Zheng, shuz@microsoft.com (Microsoft Research Asia) Guolin Ke, guoke@microsoft.com (Microsoft Research Asia) Di He, dihe@microsoft.com (Microsoft Research Asia) Yanming Shen, shen@dlut.edu.cn (Dalian University of Technology) Tie-Yan Liu, tyliu@microsoft.com (Microsoft Research Asia) Autorzy : Chengxuan Ying, yingchengsyuan@gmail.com (Dalian University of Technology) Tianle Cai, tianle.cai@princeton.edu (Uniwersytet Princeton) Shengjie Luo, luosj@stu.pku.edu.cn (Uniwersytet Pekiński) Shuxin Zheng, shuz@microsoft.com (Microsoft Research Asia) Guolin Ke, guoke@microsoft.com (Microsoft Research Asia) Di He, dihe@microsoft.com (Microsoft Research Asia) Yanming Shen, shen@dlut.edu.cn (Daliński Uniwersytet Technologiczny) Tie-Yan Liu, tyliu@microsoft.com (Microsoft Research Asia) abstrakcyjna Architektura Transformera stała się dominującym wyborem w wielu dziedzinach, takich jak przetwarzanie języka naturalnego i wizja komputerowa. Jednakże nie osiągnęła konkurencyjnej wydajności na popularnych tablicach prognozowania poziomu grafu w porównaniu do głównych wariantów GNN. Dlatego pozostaje tajemnicą, w jaki sposób Transformers mógłby dobrze działać w zakresie uczenia się reprezentowania grafu. W tym artykule rozwiązujemy tę zagadkę, przedstawiając Graphormer, który jest zbudowany na standardowej architekturze Transformera, i mógłby osiągnąć doskonałe wyniki w szerokim zakresie zadań uczenia się reprezentowania grafu, zwłaszcza w ostatnim OGB Large-Scale Challenge. Naszym kluczowym wglądem w wykorzystanie Transformera w grafie jest konieczność skutecznego . https://github.com/Microsoft/Graphormer 1 Introduction Przekształcanie się [ ] jest dobrze uznawana za najpotężniejszą sieć neuronalną w modelowaniu danych sekwencyjnych, takich jak język naturalny [ , , i wypowiedzi [ ]. Warianty modelu zbudowane na Transformerze wykazały również doskonałą wydajność w widzeniu komputerowym [ , Język programowania [ , , Niemniej jednak, w najlepszej formie, Transformer nie był jeszcze de facto standardem na publicznych tabliczkach graficznych [ , , Istnieje wiele prób wykorzystania Transformera w dziedzinie grafu, ale jedynym skutecznym sposobem jest zastąpienie niektórych kluczowych modułów (np. agregacji funkcji) w klasycznych wariantach GNN przez uwagę softmax. , , , , , , Dlatego nadal pozostaje otwarte pytanie, czy architektura Transformera nadaje się do modelowania wykresów i jak sprawić, by działała w procesie uczenia się reprezentowania wykresów. 49 11 35 6 17 12 36 19 63 44 22 14 21 50 7 23 51 61 46 13 W tym artykule udzielamy odpowiedzi twierdzącej, opracowując Graphormer, który jest zbudowany bezpośrednio na standardowym Transformerze i osiąga najnowocześniejsze wyniki w szerokim zakresie zadań prognozowania na poziomie grafu, w tym bardzo niedawne Open Graph Benchmark Large-Scale Challenge (OGB-LSC) [ ], a także kilka popularnych liderboardów (np. OGB [ ], Benchmarking GNN [ ]).Transformer został pierwotnie zaprojektowany do modelowania sekwencji. Aby wykorzystać jego moc w grafikach, uważamy, że kluczem jest właściwe włączenie informacji strukturalnych grafiki do modelu. , samoocena oblicza tylko semantyczne podobieństwo między i innych węzłów, bez uwzględniania informacji strukturalnych grafu odzwierciedlonych na węzłach i relacji między parami węzłów. Graphormer zawiera kilka skutecznych metod kodowania strukturalnego w celu wykorzystania takich informacji, które są opisane poniżej. 21 22 14 i i Po pierwsze proponujemy a w Graphormer, aby uchwycić znaczenie węzła w wykresie. W wykresie, różne węzły mogą mieć inne znaczenie, na przykład, gwiazdy są uważane za bardziej wpływowe niż większość użytkowników sieci internetowych w sieci społecznościowej. Jednak takie informacje nie są odzwierciedlone w module samooceny, ponieważ oblicza podobieństwa głównie przy użyciu cech semantycznych węzła. Aby rozwiązać problem, proponujemy kodowanie centralności węzła w Graphormer. dla kodowania centralności, gdzie do każdego wektoru przypisywany jest wektor do nauki w zależności od jego stopnia i dodaje się do funkcji węzłów w warstwie wejściowej. Centralizacja kodowania Stopień centralności Po drugie, proponujemy powieść w Graphormer, aby uchwycić strukturalną relację między węzłami. Jedną zauważalną właściwość geometryczną, która odróżnia dane strukturalne grafu od innych danych strukturalnych, np. Język, obrazy, jest to, że nie istnieje kanoniczna siatka do osadzenia grafu. W rzeczywistości węzły mogą leżeć tylko w przestrzeni nie-euklidesowej i są połączone krawędziami. Aby zmodelować takie informacje strukturalne, dla każdej pary węzłów przypisujemy uczenia się osadzenia w oparciu o ich relację przestrzenną. Wiele pomiarów w literaturze można wykorzystać do modelowania relacji przestrzennych. W ogólnym celu używamy odległości najkrótszej ścieżki między dwoma w Kodowanie przestrzenne Korzystając z zaproponowanych kodów powyżej, nadal matematycznie pokazujemy, że Graphormer ma silną ekspresyjność, ponieważ wiele popularnych wariantów GNN to tylko jego specjalne przypadki. W najnowszym Open Graph Benchmark Large-Scale Challenge (OGB-LSC) ], Graphormer wyprzedza większość głównych wariantów GNN o ponad 10% punktów pod względem względnego błędu. Na innych popularnych tabelach graficznych (np. MolHIV, MolPCBA, ZINC) [ , Graphormer również przewyższa poprzednie najlepsze wyniki, demonstrując potencjał i adaptacyjność architektury Transformer. 3 21 22 14 2 Preliminary W tej sekcji podsumowujemy preliminary w Graph Neural Networks i Transformer. Niech G = (V, E) wskazuje na wykres, w którym V = {v1, v2, · · · , vn}, n =annooV, jest liczbą węzłów. Niech wektor funkcji węzła vi będzie xi. GNN ma na celu poznanie reprezentacji węzłów i wykresów. Zazwyczaj nowoczesne GNN postępują zgodnie z schematem uczenia się, który iteracyjnie aktualizuje reprezentację węzła poprzez agregowanie reprezentacji jego sąsiadów pierwszego lub wyższego rzędu. Oznaczamy h (l) i jako reprezentację vi na l-tej warstwie i definiujemy h (0) i = xi. Iterację agregacji l-th można charakteryzować krokiem AGGREGATE-COMBINE jako Graph Neural Network (GNN). gdzie N (vi) jest zestawem sąsiadów pierwszego lub wyższego rzędu vi. Funkcja AGGREGATE jest używana do zbierania informacji od sąsiadów. Wspólne funkcje agregacji obejmują MEAN, MAX, SUM, które są używane w różnych architekturach GNN [26, 18, 50, 54]. Celem funkcji COMBINE jest połączenie informacji od sąsiadów w reprezentację węzła. Ponadto w przypadku zadań graficznych funkcja READOUT jest przeznaczona do agregowania funkcji węzłów h (L) i ostatecznej iteracji w reprezentację hG całego grafu G: READOUT można wdrożyć za pomocą prostej funkcji niezmiennej permutacji, takiej jak sumowanie [54] lub bardziej zaawansowanej funkcji łączenia na poziomie grafu [1]. Architektura transformatora składa się z kompozycji warstw transformatora [49]. Każda warstwa transformatora ma dwie części: moduł samooceny i sieć przesyłkowa w kierunku pozycji (FFN). Niech H = h > 1, · · , h> n > ∈ R n×d oznacza wejście modułu samooceny, gdzie d jest ukrytym wymiarem, a hi ∈ R 1×d jest ukrytym przedstawieniem w pozycji i. Wprowadzenie H jest wyświetlane przez trzy matryce WQ ∈ R d×dK , WK ∈ R d×dK i WV ∈ R d×dV do odpowiednich przedstawień Q, K, V. Samoocena jest następnie obliczana jako: Transformer gdzie jest matrycą rejestrującą podobieństwo między zapytaniami i kluczami. Dla prostoty ilustracji, rozważamy jednoosobową samoocenę i przyjmujemy = do = do Rozszerzenie na uwagę wielogłową jest standardowe i proste, a my pomijamy terminy uprzedzeń dla prostoty. A dk dV d 3 Grafika W tej sekcji przedstawiamy nasz Graphormer do zadań graficznych. Po pierwsze, opracowujemy kilka kluczowych projektów w Graphormer, które służą jako indukcyjny bias w sieci neuronowej, aby dowiedzieć się reprezentacja grafu. Dalej dostarczamy szczegółowe wdrożenia Graphormer. Wreszcie pokazujemy, że nasz proponowany Graphormer jest bardziej potężny od popularnych modeli GNN [ , , Są to jego szczególne przypadki. 26 54 18 3.1 Kodowanie strukturalne w Graphormerze Jak omówiono w wstępie, ważne jest opracowanie sposobów wykorzystania informacji strukturalnych wykresów w modelu Transformera.W tym celu przedstawiamy trzy proste, ale skuteczne projekty kodowania w Graphormer. Dla jakiejś ilustracji. 1 1.1 Kodowanie centralne w dystrybucja uwagi jest obliczana na podstawie semantycznej korelacji między węzłami. Jednak centralność węzła, która mierzy, jak ważny jest węzeł na wykresie, jest zwykle silnym sygnałem do zrozumienia wykresu. Na przykład gwiazdy, które mają ogromną liczbę obserwatorów, są ważnymi czynnikami w przewidywaniu trendu sieci społecznościowej [ , Takie informacje są zaniedbywane w bieżących obliczeniach uwagi i uważamy, że powinny być cennym sygnałem dla modeli Transformer. Wg. 4 , 40 39 W Graphormer wykorzystujemy stopień centralności, który jest jednym ze standardowych pomiarów centralności w literaturze, jako dodatkowy sygnał do sieci neuronowej. który przypisuje każdemu węzłowi dwa wektory osadzenia o wartości rzeczywistej zgodnie z jego indegree i outdegree. Centrality Encoding gdzie z −, z+ ∈ R d są wektorami wbudowanymi do nauki określonymi odpowiednio przez indegree deg−(vi) i outdegree deg+(vi). W przypadku wykresów bezprzewodowych, deg−(vi) i deg+(vi) mogą być ujednolicone do deg(vi). Korzystając z kodowania centralności w wejściu, uwaga softmax może złapać sygnał znaczenia węzła w zapytaniach i kluczach. 1.2 Kodowanie przestrzenne Zaletą transformatora jest jego globalne pole recepcyjne. W każdej warstwie transformatora każdy token może przyglądać się informacjom w dowolnej pozycji, a następnie przetwarzać ich reprezentację. Ale ta operacja ma problem z produktem ubocznym, że model musi wyraźnie określić różne pozycje lub kodować zależność pozycyjną (taką jak lokalizacja) w warstwach. ]) jako wprowadzenie lub kodowanie względnej odległości dowolnych dwóch pozycji (tj. względne kodowanie pozycyjne w warstwie transformatora. 49 [45 ] , 47) Jednak w przypadku wykresów węzły nie są ułożone w sekwencji. Mogą znajdować się w wielowymiarowej przestrzeni przestrzennej i są połączone krawędziami. Aby zakodować informacje strukturalne wykresu w modelu, proponujemy nową Kodowanie przestrzenne. W szczególności dla dowolnego wykresu G rozważamy funkcję φ (vi , vj ) : V × V → R, która mierzy stosunek przestrzenny między vi i vj w wykresie G. Funkcja φ może być zdefiniowana przez łączność między węzłami w wykresie. W tym dokumencie wybieramy φ(vi , vj ) jako odległość najkrótszej ścieżki (SPD) między vi i vj, jeśli dwa węzły są połączone. Jeśli nie, usta gdzie ( ) is a learnable scalar indexed by ( ) i dzielą się na wszystkie warstwy. bf Ty, VJ φ Ty, VJ Po pierwsze, w porównaniu z konwencjonalnymi GNN opisanymi w sekcji 2, gdzie pole recepcyjne jest ograniczone do sąsiadów, możemy zobaczyć, że w Eq. , warstwa Transformer zapewnia globalną informację, że każdy węzeł może dotrzeć do wszystkich innych węzłów na wykresie. ( ), każdy węzeł w pojedynczej warstwie transformatora może dostosować się do wszystkich innych węzłów zgodnie z informacjami strukturalnymi wykresu. ( ) jest (6) w tym bf Ty, VJ bf Ty, VJ Uczy się być funkcją zmniejszającą w stosunku do ( ), dla każdego węzła, model prawdopodobnie zwróci większą uwagę na węzły w pobliżu i zwróci mniejszą uwagę na węzły daleko od niego. φ Ty, VJ 3.1.3 Edge Kodowanie w uwadze W wielu zadaniach graficznych krawędzie mają również cechy strukturalne, np. w grafie molekularnym pary atomowe mogą mieć cechy opisujące rodzaj związku między nimi. Takie cechy są ważne dla reprezentacji grafu, a kodowanie ich wraz z cechami węzłów do sieci jest niezbędne. Istnieją głównie dwie metody kodowania krawędzi stosowane w poprzednich pracach. W pierwszej metodzie cechy krawędzi są dodawane do cech powiązanych węzłów. , ].W drugiej metodzie, dla każdego węzła, funkcje powiązanych krawędzi będą używane wraz z funkcjami węzłów w agregacji [ , , Jednak takie sposoby korzystania z funkcji krawędzi tylko rozpowszechniają informacje o krawędzi do powiązanych węzłów, co może nie być skutecznym sposobem wykorzystania informacji o krawędzi w reprezentacji całego wykresu. 22 30 15 54 26 Aby lepiej kodować funkcje krawędzi w warstwach uwagi, proponujemy nową metodę kodowania krawędzi w Graphormer. Mechanizm uwagi wymaga oszacowania korelacji dla każdej pary węzłów ( Myślimy, że to, co nas łączy, powinno być traktowane w relacji, jak w [...] , ]. dla każdego zamówionego węzła pary ( Znajdujemy (jedną z) najkrótszą drogę SP • ( 1 * i , ..., eN * ) od to Zmiana wskaźnika wskaźnika wskaźnika wskaźnika wskaźnika wskaźnika wskaźnika wskaźnika wskaźnika wskaźnika wskaźnika wskaźnika wskaźnika ( a) elementu w ramach EQ. Więcej na temat: edge coding jako : Ty, VJ 34 51 Ty, VJ IJ e 2 VI wj I, J A c) 3 Cia gdzie xen jest cechą n-tej krawędzi en w SPij , w E n ∈ R dE jest n-tej wagi wstawienia, a dE jest wymiarowością cechy krawędzi. 3.2 Szczegóły wdrożenia Graphormer Graphormer jest zbudowany na oryginalnej implementacji klasycznego kodera Transformer opisanego w [ ]. In addition, we apply the layer normalization (LN) before the multi-head self-attention (MHA) and the feed-forward blocks (FFN) instead of after [ Ta modyfikacja została jednogłośnie przyjęta przez wszystkie obecne wdrożenia Transformer, ponieważ prowadzi do bardziej efektywnej optymalizacji [ ].W szczególności dla podwarstwy FFN ustawiamy wymiarowość wejścia, wyjścia i warstwy wewnętrznej do tego samego wymiaru z Formalnie charakteryzujemy warstwę Graphormer jak poniżej: Graphormer Layer. 49 53 43 d Jak wspomniano w poprzedniej sekcji, różne funkcje łączenia grafów są proponowane do reprezentowania grafu osadzonego. ], w Graphormer dodajemy specjalny węzeł o nazwie [VNode] do wykresu i nawiążemy połączenie między [VNode] a każdym węzłem indywidualnie.W kroku AGGREGATE-COMBINE reprezentacja [VNode] została zaktualizowana jako normalne węzły w wykresie, a reprezentacja całego wykresu Będzie to ostateczny rozdział w rozdziale „Przedsiębiorczość w Polsce” [WIDEO] , ], istnieje podobny token, tj. [CLS], który jest specjalnym tokenem dołączonym na początku każdej sekwencji, aby reprezentować funkcję poziomu sekwencji na zadaniach w dół. [Nowy Wschód] ) oraz ( [VNode]), połączenie nie jest fizyczne. Aby odróżnić połączenie fizyczne i wirtualne, inspirowane przez [ ], resetujemy wszystkie kodowania przestrzenne dla ([VNode] ) oraz ( Wystarczy dowiedzieć się odrębnego skalaru. Special Node. 15 hg 11 35 φ wj φ i VI, 25 bf i VJ bf i VI, 3.3 Jak potężny jest Graphormer? W poprzednich podsekcjach wprowadzamy trzy kodowania strukturalne i architekturę Graphormer. W tej podsekcji najpierw udzielamy odpowiedzi twierdzącej, pokazując, że Graphormer może reprezentować kroki AGGREGATE i COMBINE w popularnych modelach GNN: Czy te modyfikacje sprawiają, że Graphormer jest bardziej wydajny niż inne warianty GNN? Fact 1. Wybierając odpowiednie wagi i funkcję odległości φ, warstwa Graphormer może reprezentować AGGREGATE i COMBINE kroki popularnych modeli GNN, takich jak GIN, GCN, GraphSAGE. Schemat dowodowy do uzyskania tego wyniku jest następujący: 1) Kodowanie przestrzenne umożliwia modułowi samooceny rozróżnienie zestawu sąsiadów N (vi) węzła vi, aby funkcja softmax mogła obliczyć średnie statystyki nad N (vi); 2) Znając stopień węzła, średnia nad sąsiadami może być przetłumaczona na sumę nad sąsiadami; 3) Z wieloma głowami i FFN, reprezentacje vi i N (vi) mogą być przetwarzane oddzielnie i połączone razem później. Ponadto pokazujemy, że wykorzystując nasze kodowanie przestrzenne, Graphormer może wykraczać poza klasyczne wiadomości przekazywane przez GNN, których moc ekspresyjna nie jest większa niż test 1-Weisfeiler-Lehman (WL). Oprócz wyższej wyrazistości niż popularne GNN, znajdujemy również interesujące powiązanie między użyciem samooceny a wirtualnym heurystycznym węzłem. , , , ]. Jak pokazano w tablicy liderów OGB [ Trik wirtualnego węzła, który powiększa wykresy dodatkowymi supernodami, które są połączone ze wszystkimi węzłami w oryginalnych wykresach, może znacznie poprawić wydajność istniejących GNN. (jak funkcja READOUT), a następnie rozpowszechniać go do Jednak naiwne dodanie supernodu do wykresu może potencjalnie prowadzić do nieumyślnego nadmiernego rozprzestrzeniania się informacji [ Zamiast tego stwierdzamy, że taka operacja agregacji i propagacji na poziomie grafu może być naturalnie spełniona przez samoocenę wanilii bez dodatkowych kodów. Connection between Self-attention and Virtual Node. 15 31 24 22 22 Cały graf Każdy węzeł 24 Fact 2. Wybierając odpowiednie wagi, każda reprezentacja węzła wyjścia warstwy Graphormer bez dodatkowych kodów może reprezentować funkcje MEAN READOUT. Fakt ten czerpie korzyści z samodzielnej uwagi, że każdy węzeł może uczestniczyć we wszystkich innych węzłach. W ten sposób może symulować operację READOUT na poziomie grafu, aby zgromadzić informacje z całego grafu. Oprócz teoretycznego uzasadnienia, empirycznie stwierdzamy, że Graphormer nie napotyka problemu nadmiernego wygładzania, co czyni poprawę skalowalną. Fakt inspiruje nas również do wprowadzenia specjalnego węzła do odczytu grafu (patrz poprzedni podsekcja). 4 Eksperymenty Najpierw przeprowadzamy eksperymenty na ostatnim OGB-LSC [ ] quantum chemistry regression (i.e., PCQM4M-LSC) challenge, which is currently the biggest graph-level prediction dataset and contains more than 3.8M graphs in total. Then, we report the results on the other three popular tasks: ogbg-molhiv, ogbg-molpcba and ZINC, which come from the OGB [ ] i benchmarking-GNN [ Wreszcie usuniemy ważne elementy projektowe Graphormer. Szczegółowy opis zbiorów danych i strategii szkoleniowych można znaleźć w załączniku B. 21 22 14 4.1 OGB Large-Scale Challenge We benchmark the proposed Graphormer with GCN [ ] and GIN [ ], and their variants with virtual node (-VN) [ ]. They achieve the state-of-the-art valid and test mean absolute error (MAE) on the official leaderboard [Nie ]. In addition, we compare to GIN’s multi-hop variant [ ], and 12-layer deep graph network DeeperGCN [ ], które również wykazują obiecującą wydajność na innych tabliczkach. Dalsze porównanie naszego Graphormer z ostatnim modelem graficznym GT opartym na Transformerze Baselines. 26 54 15 4 21 5 30 [13 ] » We primarily report results on two model sizes: ( = 12*, d* = 768), and a smaller one ( = 6*, d* = 512). Both the number of attention heads in the attention module and the dimensionality of edge features are set to 32. We use AdamW as the optimizer, and set the hyper-parameter to 1e-8 and ( 1*, β*2) do (0,99,0.999). Stopień maksymalnego uczenia się jest ustawiony na 2e-4 (3e-4 dla ) with a 60k-step warm-up stage followed by a linear decay learning rate scheduler. The total training steps are 1M. The batch size is set to 1024. All models are trained on 8 NVIDIA V100 GPUS for about 2 days. Settings. Graphormer L GraphormerSMALL L dE ϵ β GraphormerSMALL Stół summarizes performance comparisons on PCQM4M-LSC dataset. From the table, GIN-VN achieves the previous state-of-the-art validate MAE of 0.1395. The original implementation of GT [ ] employs a hidden dimension of 64 to reduce the total number of parameters. For a fair comparison, we also report the result by enlarging the hidden dimension to 768, denoted by GT-Wide, which leads to a total number of parameters of 83.2M. While, both GT and GT-Wide do not outperform GIN-VN and DeeperGCN-VN. Especially, we do not observe a performance gain along with the growth of parameters of GT. Results. 1 13 Compared to the previous state-of-the-art GNN architecture, Graphormer noticeably surpasses GIN-VN by a large margin, e.g., 11.5% relative validate MAE decline. By using the ensemble with ExpC [ ], uzyskaliśmy 0,1200 MAE na kompletnym zestawie testowym i zdobyliśmy pierwsze miejsce na torze na poziomie grafu w OGB Large-Scale Challenge[ , ]. As stated in Section we further find that the proposed Graphormer does not encounter the problem of over-smoothing, i.e., the train and validate error keep going down along with the growth of depth and width of models. 55 21 58 3.3, 4.2 Graph Representation In this section, we further investigate the performance of Graphormer on commonly used graph-level prediction tasks of popular leaderboards, i.e., OGB [ ] (OGBG-MolPCBA, OGBG-MolHIV), and benchmarking-GNN [ ] (ZINC). Since pre-training is encouraged by OGB, we mainly explore the transferable capability of a Graphormer model pre-trained on OGB-LSC (i.e., PCQM4M-LSC). Please note that the model configurations, hyper-parameters, and the pre-training performance of pre-trained Graphormers used for MolPCBA and MolHIV are different from the models used in the previous subsection. Please refer to Appendix B for detailed descriptions. For benchmarking-GNN, which does not encourage large pre-trained model, we train an additional GraphormerSLIM ( = 12*, d* = 80, total param.= 489 ) from scratch on ZINC. 22 14 L K We report performance of GNNs which achieve top-performance on the official leader-boards . Considering that the pre-trained Graphormer leverages external data, for a fair comparison on OGB datasets, we additionally report performance for fine-tuning GIN-VN pre-trained on PCQM4M-LSC dataset, which achieves the previous state-of-the-art valid and test MAE on that dataset. Baselines. 5 without additional domain-specific features We report detailed training strategies in Appendix B. In addition, Graphormer is more easily trapped in the over-fitting problem due to the large size of the model and the small size of the dataset. Therefore, we employ a widely used data augmentation for graph - FLAG [ ], to mitigate the over-fitting problem on OGB datasets. Settings. 27 Table and summarize performance of Graphormer comparing with other GNNs on MolHIV, MolPCBA and ZINC datasets. Especially, GT [ ] and SAN [ ] in Table Graphormer konsekwentnie i znacząco przewyższa poprzednie najnowocześniejsze GNN na wszystkich trzech zestawach danych o dużą marżę. W szczególności, z wyjątkiem Graphormer, inne wstępnie przeszkolone GNN nie osiągają wydajności konkurencyjnej, co jest zgodne z poprzednią literaturą [ ]. In addition, we conduct more comparisons to fine-tuning the pre-trained GNNs, please refer to Appendix C. Results. 2, 3 4 13 28 4 20 4.3 Ablation Studies We perform a series of ablation studies on the importance of designs in our proposed Graphormer, on PCQM4M-LSC dataset. The ablation results are included in Table To save the computation resources, the Transformer models in table have 12 layers, and are trained for 100K iterations. 5. 5 We compare previously used positional encoding (PE) to our proposed spatial encoding, which both aim to encode the information of distinct node relation to Transformers. There are various PEs employed by previous Transformer-based GNNs, e.g., Weisfeiler-Lehman-PE (WL-PE) [ [ ] i Laplacian PE [ , ]. We report the performance for Laplacian PE since it performs well comparing to a series of PEs for Graph Transformer in previous literature [ ]. Transformer architecture with the spatial encoding outperforms the counterpart built on the positional encoding, which demonstrates the effectiveness of using spatial encoding to capture the node spatial information. Node Relation Encoding. 61 3 14 13 Transformer architecture with degree-based centrality encoding yields a large margin performance boost in comparison to those without centrality information. This indicates that the centrality encoding is indispensable to Transformer architecture for modeling graph data. Centrality Encoding. We compare our proposed edge encoding (denoted as via attn bias) to two commonly used edge encodings described in Section to incorporate edge features into GNN, denoted as via node and via Aggr in Table From the table, the gap of performance is minor between the two conventional methods, but our proposed edge encoding performs significantly better, which indicates that edge encoding as attention bias is more effective for Transformer to capture spatial information on edges. Edge Encoding. 3.1.3 5. 5 Related Work In this section, we highlight the most recent works which attempt to develop standard Transformer architecture-based GNN or graph structural encoding, but spend less effort on elaborating the works by adapting attention mechanism to GNNs [33, 60, 7, 23, 1, 50 , 51, 61, 48]. 5.1 Graph Transformer There are several works that study the performance of pure Transformer architectures (stacked by transformer layers) with modifications on graph representation tasks, which are more related to our Graphormer. For example, several parts of the transformer layer are modified in [ ], including an additional GNN employed in attention sub-layer to produce vectors of , , and , long-range residual connection, and two branches of FFN to produce node and edge representations separately. They pre-train their model on 10 million unlabelled molecules and achieve excellent results by fine-tuning on downstream tasks. Attention module is modified to a soft adjacency matrix in [ ] by directly adding the adjacency matrix and RDKit -computed inter-atomic distance matrix to the attention probabilites. Very recently, Dwivedi [ ] revisit a series of works for Transformer-based GNNs, and suggest that the attention mechanism in Transformers on graph data should only aggregate the information from neighborhood (i.e., using adjacent matrix as attention mask) to ensure graph sparsity, and propose to use Laplacian eigenvector as positional encoding. Their model GT surpasses baseline GNNs on graph representation task. A concurrent work [ ] propose a novel full Laplacian spectrum to learn the position of each node in a graph, and empirically shows better results than GT. 46 Q K V 41 6 et al. 13 28 5.2 Structural Encodings in GNNs Information of path and distance is commonly used in GNNs. For example, an attention-based aggregation is proposed in [ ] where the node features, edge features, one-hot feature of the distance and ring flag feature are concatenated to calculate the attention probabilites; similar to path-based attention is leveraged in to model the influence between the center node and its higher-order neighbors; a distance-weighted aggregation scheme on graph is proposed in [ ]; it has been proved in [ ] that adopting distance encoding (i.e., one-hot feature of the distance as extra node attribute) could lead to a strictly more expressive power than the 1-WL test. Path and Distance in GNNs. 9 [9 ] , [56] 59 32 Several works introduce positional encoding (PE) to Transformer-based GNNs to help the model capture the node position information. For example, Graph-BERT [ ] wprowadza trzy rodzaje PE do wstawiania informacji o pozycji węzła do modelu, tj. absolutny WL-PE, który reprezentuje różne węzły oznaczone algorytmem Weisfeiler-Lehman, PE oparte na intymności i PE oparte na hopie, które są zarówno wariantami do próbek podgrafów. ] and empircal study shows that its performance surpasses the absolute WL-PE used in Positional Encoding in Transformer on Graph. 61 13 [61]. Except the conventionally used methods to encode edge feature, which are described in previous section, there are several attempts that exploit how to better encode edge features: an attention-based GNN layer is developed in [ ] to encode edge features, where the edge feature is weighted by the similarity of the features of its two nodes; edge feature has been encoded into the popular GIN [ ] in [ ]; in [ ], the authors propose to project edge features to an embedding vector, then multiply it by attention coefficients, and send the result to an additional FFN sub-layer to produce edge representations; Edge Feature. 16 54 5 13 6 Conclusion We have explored the direct application of Transformers to graph representation. With three novel graph structural encodings, the proposed Graphormer works surprisingly well on a wide range of popular benchmark datasets. While these initial results are encouraging, many challenges remain. For example, the quadratic complexity of the self-attention module restricts Graphormer’s application on large graphs. Therefore, future development of efficient Graphormer is necessary. Performance improvement could be expected by leveraging domain knowledge-powered encodings on particular graph datasets. Finally, an applicable graph sampling strategy is desired for node representation extraction with Graphormer. We leave them for future works. 7 Acknowledgement We would like to thank Mingqi Yang and Shanda Li for insightful discussions. References [1] Jinheon Baek, Minki Kang, and Sung Ju Hwang. Accurate learning of graph representations with graph multiset pooling. , 2021. ICLR [2] Dominique Beaini, Saro Passaro, Vincent Létourneau, William L Hamilton, Gabriele Corso, and Pietro Liò. Directional graph networks. In , 2021. Międzynarodowa konferencja na temat uczenia maszynowego [3] Mikhail Belkin and Partha Niyogi. Laplacian eigenmaps for dimensionality reduction and data representa-tion. , 15(6):1373–1396, 2003 r. Neural computation [4] Xavier Bresson and Thomas Laurent. Residual gated graph convnets. , 2017. arXiv preprint arXiv:1711.07553 [5] Rémy Brossard, Oriel Frigo, and David Dehaene. Graph convolutions that can finally model local structure. , 2020. arXiv preprint arXiv:2011.15069 [6] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners. In H. Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan, and H. Lin, editors, , volume 33, pages 1877–1901. Curran Associates, Inc., 2020. Advances in Neural Information Processing Systems [7] Deng Cai and Wai Lam. Graph transformer for graph-to-sequence learning. In , volume 34, pages 7464–7471, 2020. Proceedings of the AAAI Conference on Artificial Intelligence [8] Tianle Cai, Shengjie Luo, Keyulu Xu, Di He, Tie-yan Liu, and Liwei Wang. Graphnorm: A principled approach to accelerating graph neural network training. In , 2021. International Conference on Machine Learning [9] Benson Chen, Regina Barzilay, and Tommi Jaakkola. Path-augmented graph transformer network. , 2019. arXiv preprint arXiv:1905.12712 [10] Gabriele Corso, Luca Cavalleri, Dominique Beaini, Pietro Liò, and Petar Velicˇkovic´. Principal neighbour-hood aggregation for graph nets. , 33, 2020. Zaawansowane systemy przetwarzania informacji neuronowej [11] Jacob Devlin, Ming-Wei Chang, Kenton Lee i Kristina Toutanova. Bert: Pre-trening głębokich bidi-rectional transformatorów do zrozumienia języka. , pages 4171–4186, 2019. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers) [12] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. Obraz jest wart 16x16 słów: Transformatory do rozpoznawania obrazu w skali. w 2020 r. arXiv preprint arXiv:2010.11929 [13] Vijay Prakash Dwivedi i Xavier Bresson. uogólnienie sieci transformatorów do wykresów. , 2021. AAAI Workshop na temat głębokiego uczenia się na grafikach: metody i zastosowania [14] Vijay Prakash Dwivedi, Chaitanya K Joshi, Thomas Laurent, Yoshua Bengio, and Xavier Bresson. Bench-marking graph neural networks. w 2020 r. arXiv preprint arXiv:2003.00982 [15] Justin Gilmer, Samuel S Schoenholz, Patrick F Riley, Oriol Vinyals, and George E Dahl. Neural message passing for quantum chemistry. In , pages 1263–1272. PMLR, 2017. International Conference on Machine Learning [16] Liyu Gong and Qiang Cheng. Exploiting edge features for graph neural networks. In , pages 9211–9219, 2019. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition [17] Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, et al. Conformer: Convolution-augmented transformer for speech recognition. , 2020. arXiv preprint arXiv:2005.08100 [18] William L Hamilton, Zhitao Ying, and Jure Leskovec. Inductive representation learning on large graphs. In w 2017 r. NIPS [19] Vincent J Hellendoorn, Charles Sutton, Rishabh Singh, Petros Maniatis, and David Bieber. Global relational models of source code. In , 2019. International conference on learning representations [20] W Hu, B Liu, J Gomes, M Zitnik, P Liang, V Pande, and J Leskovec. Strategies for pre-training graph neural networks. In , 2020. Międzynarodowa Konferencja o Przedstawicielstwie Wychowania (ICLR) [21] Weihua Hu, Matthias Fey, Hongyu Ren, Maho Nakata, Yuxiao Dong, and Jure Leskovec. Ogb-lsc: A large-scale challenge for machine learning on graphs. w 2021 r. arXiv preprint arXiv:2103.09430 [22] Weihua Hu, Matthias Fey, Marinka Zitnik, Yuxiao Dong, Hongyu Ren, Bowen Liu, Michele Catasta i Jure Leskovec. Open graph benchmark: zestawy danych do uczenia maszynowego na grafikach. , 2020. arXiv preprint arXiv:2005.00687 [23] Ziniu Hu, Yuxiao Dong, Kuansan Wang, and Yizhou Sun. Heterogeneous graph transformer. In , pages 2704–2710, 2020. Proceedings of The Web Conference 2020 [24] Katsuhiko Ishiguro, Shin-ichi Maeda i Masanori Koyama. Graph warp moduł: moduł pomocniczy do zwiększenia mocy sieci neuronowych grafu w analizie molekularnej grafu. , 2019. arXiv preprint arXiv:1902.01020 [25] Guolin Ke, Di He, and Tie-Yan Liu. Rethinking the positional encoding in language pre-training. , 2020. ICLR [26] Thomas N Kipf and Max Welling. Semi-supervised classification with graph convolutional networks. , 2016. arXiv preprint arXiv:1609.02907 [27] Kezhi Kong, Guohao Li, Mucong Ding, Zuxuan Wu, Chen Zhu, Bernard Ghanem, Gavin Taylor, and Tom Goldstein. Flag: Adversarial data augmentation for graph neural networks. , 2020. arXiv preprint arXiv:2010.09891 [28] Devin Kreuzer, Dominique Beaini, William Hamilton, Vincent Létourneau, and Prudencio Tossou. Re-thinking graph transformers with spectral attention. , 2021. arXiv preprint arXiv:2106.03893 [29] Tuan Le, Marco Bertolini, Frank Noé, and Djork-Arné Clevert. Parameterized hypercomplex graph neural networks for graph classification. , 2021. arXiv preprint arXiv:2103.16584 [30] Guohao Li, Chenxin Xiong, Ali Thabet, and Bernard Ghanem. Deepergcn: All you need to train deeper gcns. , 2020. arXiv preprint arXiv:2006.07739 [31] Junying Li, Deng Cai, and Xiaofei He. Learning graph-level representation for drug discovery. , 2017. arXiv preprint arXiv:1709.03741 [32] Pan Li, Yanbang Wang, Hongwei Wang, and Jure Leskovec. Distance encoding: Design provably more powerful neural networks for graph representation learning. , 33, 2020. Advances in Neural Information Processing Systems [33] Yuan Li, Xiaodan Liang, Zhiting Hu, Yinbo Chen, and Eric P. Xing. Graph transformer, 2019. [34] Xi Victoria Lin, Richard Socher, and Caiming Xiong. Multi-hop knowledge graph reasoning with reward shaping. , 2018. arXiv preprint arXiv:1808.10568 [35] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer i Veselin Stoyanov. , 2019. arXiv preprint arXiv:1907.11692 [36] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. , 2021. arXiv preprint arXiv:2103.14030 [37] Shengjie Luo, Shanda Li, Tianle Cai, Di He, Dinglan Peng, Shuxin Zheng, Guolin Ke, Liwei Wang, and Tie-Yan Liu. Stable, fast and accurate: Kernelized attention with relative positional encoding. , 2021. NeurIPS [38] Haggai Maron, Heli Ben-Hamu, Hadar Serviansky, and Yaron Lipman. Provably powerful graph networks. In H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alché-Buc, E. Fox, and R. Garnett, editors, , volume 32. Curran Associates, Inc., 2019. Advances in Neural Information Processing Systems [39] P David Marshall. promocja i prezentacja siebie: celebrytka jako marker mediów prezentacyjnych. , 1(1):35–48, 2010. Celebrity studies [40] Alice Marwick and Danah Boyd. To see and be seen: Celebrity practice on twitter. , 17(2):139–158, 2011. Konwergencja [41] Łukasz Maziarka, Tomasz Danel, Sławomir Mucha, Krzysztof Rataj, Jacek Tabor, and Stanisław Jastrze˛bski. Molecule attention transformer. , 2020. arXiv preprint arXiv:2002.08264 [42] Maho Nakata and Tomomi Shimazaki. Pubchemqc project: a large-scale first-principles electronic structure database for data-driven chemistry. , 57(6):1300–1308, 2017. Journal of chemical information and modeling [43] Sharan Narang, Hyung Won Chung, Yi Tay, William Fedus, Thibault Fevry, Michael Matena, Karishma Malkan, Noah Fiedel, Noam Shazeer, Zhenzhong Lan, et al. Do transformer modifications transfer across implementations and applications? , 2021. arXiv preprint arXiv:2102.11972 [44] Dinglan Peng, Shuxin Zheng, Yatao Li, Guolin Ke, Di He, and Tie-Yan Liu. How could neural networks understand programs? In . PMLR, 2021. International Conference on Machine Learning [45] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. , 21(140):1–67, 2020. Journal of Machine Learning Research [46] Yu Rong, Yatao Bian, Tingyang Xu, Weiyang Xie, Ying Wei, Wenbing Huang i Junzhou Huang. samodzielnie nadzorowany transformator graficzny na dużych danych molekularnych. , 33, 2020. Advances in Neural Information Processing Systems [47] Peter Shaw, Jakob Uszkoreit i Ashish Vaswani. Samopoznanie z względnymi reprezentacjami pozycji. , pages 464–468, 2018. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers) [48] Yunsheng Shi, Zhengjie Huang, Wenjin Wang, Hui Zhong, Shikun Feng i Yu Sun. Maskowane etykiety przewidywania: Jednolity model przekazywania wiadomości dla półprzewidywanej klasyfikacji. , 2020. arXiv preprint arXiv:2009.03509 [49] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In , 2017. NIPS [50] Petar Velicˇkovic´, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio, and Yoshua Bengio. Graph attention networks. , 2018. ICLR [51] Guangtao Wang, Rex Ying, Jing Huang i Jure Leskovec. Bezpośrednia sieć neuronowa grafu oparta na uwadze wielokrotnej. , 2020. arXiv preprint arXiv:2009.14332 [52] Sinong Wang, Belinda Li, Madian Khabsa, Han Fang, and Hao Ma. Linformer: Self-attention with linear complexity. , 2020. arXiv preprint arXiv:2006.04768 [53] Ruibin Xiong, Yunchang Yang, Di He, Kai Zheng, Shuxin Zheng, Chen Xing, Huishuai Zhang, Yanyan Lan, Liwei Wang i Tieyan Liu. , pages 10524–10533. PMLR, 2020. International Conference on Machine Learning [54] Keyulu Xu, Weihua Hu, Jure Leskovec, and Stefanie Jegelka. How powerful are graph neural networks? In , 2019. International Conference on Learning Representations [55] Mingqi Yang, Yanming Shen, Heng Qi, and Baocai Yin. Breaking the expressive bottlenecks of graph neural networks. , 2020. arXiv preprint arXiv:2012.07219 [56] Yiding Yang, Xinchao Wang, Mingli Song, Junsong Yuan, and Dacheng Tao. Spagan: Shortest path graph attention network. , 2019. Advances in IJCAI [57] Chengxuan Ying, Guolin Ke, Di He i Tie-Yan Liu. Lazyformer: Samopoznanie z leniwą aktualizacją. , 2021. arXiv preprint arXiv:2102.12702 [58] Chengxuan Ying, Mingqi Yang, Shuxin Zheng, Guolin Ke, Shengjie Luo, Tianle Cai, Chenglin Wu, Yuxin Wang, Yanming Shen, and Di He. First place solution of kdd cup 2021 & ogb large-scale challenge graph-level track. , 2021. arXiv preprint arXiv:2106.08279 [59] Jiaxuan You, Rex Ying, and Jure Leskovec. Position-aware graph neural networks. In , pages 7134–7143. PMLR, 2019. International Conference on Machine Learning [60] Seongjun Yun, Minbyul Jeong, Raehyun Kim, Jaewoo Kang i Hyunwoo J Kim. Sieci transformatorów graficznych. , 32, 2019 r. Advances in Neural Information Processing Systems [61] Jiawei Zhang, Haopeng Zhang, Congying Xia, and Li Sun. Graph-bert: Only attention is needed for learning graph representations. , 2020. arXiv preprint arXiv:2001.05140 [62] Chen Zhu, Yu Cheng, Zhe Gan, Siqi Sun, Tom Goldstein, and Jingjing Liu. Freelb: Enhanced adversarial training for natural language understanding. In , 2020. ICLR [63] Daniel Zügner, Tobias Kirschstein, Michele Catasta, Jure Leskovec i Stephan Günnemann. język-agnostyczne reprezentowanie uczenia się kodu źródłowego z struktury i kontekstu. , 2020. International Conference on Learning Representations A Proofs A.1 SPD can Be Used to Improve WL-Test 1-WL-test nie powiodł się w wielu przypadkach [ , ], thus classic message passing GNNs also fail to distinguish many pairs of graphs. We show that SPD might help when 1-WL-test fails, for example, in Figure where 1-WL-test fails, the sets of SPD from all nodes to others successfully distinguish the two graphs. 38 32 2 A.2 Proof of Fact 1 1 We begin by showing that self-attention module with Spatial Encoding can repre-sent MEAN aggregation. This is achieved by in Eq. : 1) setting = 0 if = 1 and = otherwise where jest SPD; 2) ustawienie = = 0 and to be the identity matrix. Then softmax ( ) Oznacza średnią reprezentatywność sąsiadów. MEAN AGGREGATE. (6) bφ φ bφ −∞ φ WQ WK WV A V The SUM aggregation can be realized by first perform MEAN aggregation and then multiply the node degrees. Specifically, the node degrees can be extracted from Centrality Encoding by an additional head and be concatenated to the representations after MEAN aggregation. Then the FFN module in Graphormer can represent the function of multiplying the degree to the dimensions of averaged representations by the universal approximation theorem of FFN. SUM AGGREGATE. Representing the MAX aggregation is harder than MEAN and SUM. For each dimension of the representation vector, we need one head to select the maximal value over -th dimension in the neighbor by in Eq. : 1) setting = 0 if = 1 and = otherwise where is the SPD; 2) setting = which is the -th standard basis; = 0 and the bias term (which is ignored in the previous description for simplicity) of to be ; and = do , where is the temperature that can be chosen to be large enough so that the softmax function can approximate hard max and is the vector whose elements are all 1. MAX AGGREGATE. t t (6) bφ φ bφ −∞ φ WK et t WQ Q T 1 WV et T 1 The COMBINE step takes the result of AGGREGATE and the previous representation of current node as input. This can be achieved by the AGGREGATE operations described above together with an additional head which outputs the features of present nodes, i.e., in Eq. : 1) setting = 0 if = 0 and = otherwise where jest SPD; 2) ustawienie = = 0 i to be the identity matrix. Then the FFN module can approximate any COMBINE function by the universal approximation theorem of FFN. COMBINE. (6) bf φ bφ − ∞ φ WQ WK WV A.3 Proof of Fact 2 2 This can be proved by setting = do = 0, warunki biasowe to be , oraz to be the identity matrix where should be much larger than the scale of Tak więc to 2 T dominates the Spatial Encoding term. MEAN READOUT. WQ WK Q, K T 1 WV T bφ T 11 B Experiment Details B.1 Details of Datasets We summarize the datasets used in this work in Table PCQM4m-LSC is a quantum chemistry graph-level prediction task in recent OGB Large-Scale Challenge, originally curated under the PubChemQC project [ ]. 6. 42 The task of PCQM4M-LSC is to predict DFT(density functional theory)-calculated HOMO-LUMO energy gap of molecules given their 2D molecular graphs, which is one of the most practically-relevant quantum chemical properties of molecule science. PCQM4M-LSC is unprecedentedly large in scale comparing to other labeled graph-level prediction datasets, which contains more than 3.8M graphs. Besides, we conduct experiments on two molecular graph datasets in popular OGB leaderboards, i.e., OGBG-MolPCBA and OGBG-MolHIV. They are two molecular property prediction datasets with different sizes. The pre-trained knowledge of molecular graph on PCQM4M-LSC could be easily leveraged on these two datasets. We adopt official scaffold split on three datasets following [ , Ponadto wykorzystujemy inny popularny liderboard, tj. benchmarking-gnn [ ]. Używamy zbioru danych ZINC, który jest najpopularniejszym zbiorem danych molekularnych w świecie rzeczywistym, aby przewidzieć regresję właściwości grafu dla zmuszonej rozpuszczalności, ważnej właściwości chemicznej do projektowania generujących GNN dla cząsteczek. 21 22 14 B.2 Szczegóły strategii szkoleniowych B.2.1 PCQM4M-LSC We report the detailed hyper-parameter settings used for training Graphormer in Table Zmniejszamy wymiar wewnętrznej warstwy FFN o 4 in [ ] to , which does not appreciably hurt the performance but significantly save the parameters. The embedding dropout ratio is set to 0.1 by default in many previous Transformer works [ , ]. Jednak empirycznie stwierdzamy, że mały wbudowany stosunek dropout (np. 0,1) doprowadziłby do zauważalnego spadku wydajności na zestawie walidacji PCQM4M-LSC. Jednym z możliwych powodów jest to, że graf molekularny jest stosunkowo mały (tj. mediana atomów w każdej cząsteczce wynosi około 15), dzięki czemu właściwość grafu jest bardziej wrażliwa na wbudowane elementy każdego węzła. 7. d 49 d 11 35 B.2.2 OGBG-MolPCBA We first report the model configurations and hyper-parameters of the pre-trained Graphormer on PCQM4M-LSC. Empirically, we find that the performance on MolPCBA benefits from the large pre-training model size. Therefore, we train a deep Graphormer with 18 Transformer layers on PCQM4M-LSC. The hidden dimension and FFN inner-layer dimension are set to 1024. We set peak learning rate to 1e-4 for the deep Pre-training. Graphormer. Ponadto powiększamy współczynnik upadku uwagi z 0,1 do 0,3 zarówno w ramach szkolenia przedszkolnego, jak i fine-tuning, aby zapobiec nadmiernemu dopasowywaniu się modelu. Pozostałe parametry hiper pozostają niezmienione. Wstępnie przeszkolony Graphormer stosowany do MolPCBA osiąga ważny MAE 0,1253 na PCQM4M-LSC, który jest nieco gorszy niż raporty w tabeli 1. Stół summarizes the hyper-parameters used for fine-tuning Graphormer on OGBG-MolPCBA. We conduct a grid search for several hyper-parameters to find the optimal configuration. The experimental results are reported by the mean of 10 independent runs with random seeds. We use FLAG [ ] with minor modifications for graph data augmentation. In particular, except the step size and the number of steps , we also employ a projection step in [ przy maksymalnym zakłóceniu Wydajność Graphormer na MolPCBA jest dość solidna w stosunku do hiper-parametrów FLAG. Fine-tuning. 8 27 α m 62 g B.2.3 OGBG-MolHIV Wykorzystujemy Graphormer szczególnie w Stole as the pre-trained model for OGBG-MolHIV, where the pre-training hyper-parameters are summarized in Table Pre-training. 1 7. The hyper-parameters for fine-tuning Graphormer on OGBG-MolHIV are presented in Table Empirycznie stwierdzamy, że różne opcje hiper-parametry FLAG (tj. wielkość kroku Liczba kroków Maksymalne zakłócenia ) would greatly affect the performance of Graphormer on OGBG-MolHiv. Therefore, we spend more effort to conduct grid search for hyper-parameters of FLAG. We report the best hyper-parameters by the mean of 10 independent runs with random seeds. Fine-tuning. 9. α m g B.2.4 cynk Aby utrzymać całkowite parametry Graphormer poniżej 500K na żądanie od benchmarking-GNN lider-board [ ], trenujemy cienki 12-warstwowy Graphormer z ukrytym wymiarem 80, który nazywa się GraphormerSLIM w Tabeli and has about 489K learnable parameters. The number of attention heads is set to 8. Table Podsumowuje szczegółowe hiper-parametry na ZINC. Trenujemy 400K kroków na tym zbiorze danych i stosujemy rozpad masy 0.01. 14 4 , 10 B.3 Details of Hyper-parameters for Baseline Methods W tej sekcji przedstawiamy szczegóły naszego ponownego wdrożenia metod bazowych. B.3.1 PCQM4M-LSC jako The official Github repository of OGB-LSC zapewnia hiperparametry i kody do odtwarzania wyników na tablicy liderów. Te hiperparametry działają dobrze na prawie wszystkich popularnych wariantach GNN, z wyjątkiem DeeperGCN-VN, co prowadzi do rozbieżności szkoleniowej. Podane przez autorów [ ]. Dla uczciwego porównania z Graphormer, szkolimy 12-warstwowy DeeperGCN. Ukryty wymiar jest ustawiony na 600. Wielkość partii jest ustawiona na 256. Wskaźnik uczenia się jest ustawiony na 1e-3, a harmonogram stopnia uczenia się kroku jest zatrudniony z rozkładem wielkości kroku i współczynnikiem rozkładu 30 epok i 0,25. model jest szkolony na 100 epok. 7 8 30 γ Rozmiar domyślny laplacian PE z GT [ Jednak spowoduje to, że 2,91% małych cząsteczek (mniej niż 8 atomów) zostanie wyfiltrowanych. Dlatego dla GT i GT-Wide ustawiamy wymiar laplacian PE na 4, co skutkuje tylko 0,08% wyfiltrowaniem. ], except that we decrease the learning rate to 1e-4, which leads to a better convergence on PCQM4M-LSC. 13 13 B.3.2 OGBG-MolPCBA Aby dopasować wstępnie wyszkolony GIN-VN do MolPCBA, postępujemy zgodnie z ustawieniami hiperparametrów podanymi w oryginalnym dokumencie OGB [ Aby być bardziej konkretnym, ładujemy wstępnie przeszkolone punkty kontrolne w tabeli Wykorzystujemy wyszukiwanie siatki na hiperparametrach, aby uzyskać lepszą wydajność dostosowywania. W szczególności szybkość uczenia się jest wybierana z {1e − 5, 1e − 4, 1e − 3}; współczynnik upadku jest wybierany z {0.0, 0.1, 0.5}; rozmiar partii jest wybierany z {32, 64}. 22 1 B.3.3 OGBG-MolHIV Podobnie dostosowujemy wstępnie wyszkolony GIN-VN do MolHIV, postępując zgodnie z ustawieniami hiperparametrów podanymi w oryginalnym dokumencie OGB [ ]. Wykonujemy również wyszukiwanie sieci, aby znaleźć optymalne hiperparametry. Zakresy dla każdego hiperparametrów wyszukiwania sieci są takie same jak w poprzednim podsekcji. 22 C. Więcej eksperymentów Jak opisano w powiązanej pracy, GROVER to GNN oparty na Transformerze, który ma 100 milionów parametrów i został wstępnie przeszkolony na 10 milionach nieoznaczonych cząsteczek przy użyciu 250 GPU Nvidia V100. Pobieramy wstępnie przeszkolone modele GROVER z oficjalnej strony Github , follow the official instruc-tions i dopasować podane wstępnie przeszkolone punkty kontrolne z dokładnym wyszukiwaniem hiper-parametrów (w tabeli We find that GROVER could achieve competitive performance on MolHIV only if employing additional molecular features, i.e., morgan molecular finger prints and 2D features Dlatego zgłaszamy wyniki GROVER biorąc te dwie dodatkowe cechy molekularne. , możemy wiedzieć, że takie dodatkowe cechy molekularne są bardzo skuteczne w zbiorze danych MolHIV. 9 10 11 ) 11 12 Stół i Podsumuj wydajność GROVER i GROVERLARGE w porównaniu z Graphormer na MolHIV i MolPCBA. Z tabel zauważamy, że Graphormer mógłby konsekwentnie wyprzedzać GROVER nawet bez żadnych dodatkowych cech molekularnych. 12 13 D Discussion & Future Work Podobnie jak zwykły Transformer, mechanizm uwagi w Graphormer mierzy kwadratowo z liczbą węzłów. in the input graph, which may be prohibitively expensive for large i wyklucza jego użycie w ustawieniach z ograniczonymi zasobami obliczeniowymi. Ostatnio zaproponowano wiele rozwiązań w celu rozwiązania tego problemu w Transformerze [ , , , ]. This issue would be greatly benefit from the future development of efficient Graphormer. Complexity. n n 25 52 57 37 . In Graphormer, there are multiple choices for the network centrality and the spatial encoding function ( Na przykład, można skorzystać z 2 odległość w strukturze 3D między dwoma atomami w cząsteczce. W tym artykule oceniamy głównie ogólną centralność i odległość w teorii grafu, tj. stopień centralności i najkrótszą ścieżkę. Choice of centrality and φ φ vi, vj L Istnieje szeroki zakres zadań reprezentowania węzłów na danych strukturalnych wykresów, takich jak finanse, sieci społecznościowe i prognozowanie czasu. Graphormer może być naturalnie używany do ekstrakcji reprezentowania węzłów z odpowiednią strategią pobierania próbek wykresów. Node Representation. Niniejszy dokument jest dostępny w archiwum pod licencją CC by 4.0 Deed (Attribution 4.0 International). Niniejszy dokument jest dostępny w archiwum pod licencją CC by 4.0 Deed (Attribution 4.0 International).