Graphormer của Microsoft: Transformer cuối cùng đánh bại GNNs

Tác giả : Chengxuan Ying, yingchengsyuan@gmail.com (Dalian University of Technology) Tianle Cai, tianle.cai@princeton.edu (Princeton University) Shengjie Luo, luosj@stu.pku.edu.cn (Peking University) Shuxin Zheng, shuz@microsoft.com (Microsoft Research Asia) Guolin Ke, guoke@microsoft.com (Microsoft Research Asia) Di He, dihe@microsoft.com (Microsoft Research Asia) Yanming Shen, shen@dlut.edu.cn (Dalian University of Technology) Tie-Yan Liu, tyliu@microsoft.com (Microsoft Research Asia) Tác giả : Chengxuan Ying, yingchengsyuan@gmail.com (Đại học Công nghệ Dalian) Tianle Cai, tianle.cai@princeton.edu (Đại học Princeton) Shengjie Luo, luosj@stu.pku.edu.cn (Đại học Bắc Kinh) Shuxin Zheng, shuz@microsoft.com (Nghiên cứu Microsoft Châu Á) Guolin Ke, guoke@microsoft.com (Nghiên cứu Microsoft Châu Á) Di He, dihe@microsoft.com (Nghiên cứu Microsoft Châu Á) Yanming Shen, shen@dlut.edu.cn (Đại học Công nghệ Dalian) Tie-Yan Liu, tyliu@microsoft.com (Nghiên cứu Microsoft Châu Á) Abstracts Tranformer kiến trúc đã trở thành một sự lựa chọn thống trị trong nhiều lĩnh vực, chẳng hạn như xử lý ngôn ngữ tự nhiên và tầm nhìn máy tính. Tuy nhiên, nó đã không đạt được hiệu suất cạnh tranh trên các bảng xếp hạng phổ biến của dự đoán cấp độ graph so với các biến thể GNN chính thống. Do đó, nó vẫn còn là một bí ẩn làm thế nào Transformers có thể thực hiện tốt cho việc học biểu diễn graph. Trong bài báo này, chúng tôi giải quyết bí ẩn này bằng cách trình bày Graphormer, được xây dựng trên kiến trúc Transformer tiêu chuẩn, và có thể đạt được kết quả tuyệt vời trên một loạt các nhiệm vụ học tập biểu diễn graph, đặc biệt là trên thách thức quy mô lớn OGB gần đây. Nhận thức chính của chúng tôi về việc sử dụng Transformers trong biểu đồ là sự cần thiết để mã hóa hiệu quả thông tin cấu trúc của một biểu đồ vào . https://github.com/Microsoft/Graphormer 1 Giới thiệu Sự biến đổi [ ] được công nhận là mạng lưới thần kinh mạnh nhất trong việc mô hình hóa dữ liệu chuỗi, chẳng hạn như ngôn ngữ tự nhiên [ , , ] và bài phát biểu [ ]. Các biến thể mô hình được xây dựng trên Transformer cũng đã cho thấy hiệu suất tuyệt vời trong tầm nhìn máy tính [ , ] and programming language [ , , Tuy nhiên, theo kiến thức tốt nhất của chúng tôi, Transformer vẫn chưa phải là tiêu chuẩn thực tế trên bảng xếp hạng biểu đồ đại diện công cộng [ , , Có nhiều nỗ lực để khai thác Transformer vào lĩnh vực đồ thị, nhưng cách hiệu quả duy nhất là thay thế một số mô-đun chính (ví dụ, tổng hợp tính năng) trong các biến thể GNN cổ điển bằng sự chú ý softmax. , , , , , , Do đó, vẫn còn một câu hỏi mở liệu kiến trúc Transformer có phù hợp để mô hình đồ thị và làm thế nào để làm cho nó hoạt động trong việc học đại diện đồ thị. 49 11 35 6 17 12 36 19 63 44 22 14 21 50 7 23 51 61 46 13 Trong bài báo này, chúng tôi đưa ra câu trả lời khẳng định bằng cách phát triển Graphormer, được xây dựng trực tiếp trên Transformer tiêu chuẩn, và đạt được hiệu suất hiện đại trên một loạt các nhiệm vụ dự đoán cấp đồ thị, bao gồm cả Open Graph Benchmark Large-Scale Challenge (OGB-LSC) gần đây. ], và một số bảng xếp hạng phổ biến (ví dụ, OGB [ ], Benchmarking GNN [ ]).Transformer ban đầu được thiết kế cho mô hình chuỗi. Để sử dụng sức mạnh của nó trong biểu đồ, chúng tôi tin rằng chìa khóa là tích hợp thông tin cấu trúc của biểu đồ đúng cách vào mô hình. lưu ý rằng đối với mỗi nút , sự tự chú ý chỉ tính toán sự tương đồng ngữ nghĩa giữa và các nút khác, mà không tính đến thông tin cấu trúc của một biểu đồ được phản ánh trên các nút và mối quan hệ giữa các cặp nút. Graphormer kết hợp một số phương pháp mã hóa cấu trúc hiệu quả để tận dụng các thông tin như vậy, được mô tả dưới đây. 21 22 14 i i Đầu tiên, chúng tôi đề xuất a in Graphormer to capture the node importance in the graph. In a graph, different nodes may have different importance, e.g., celebrities are considered to be more influential than the majority of web users in a social network. However, such information isn’t reflected in the self-attention module as it calculates the similarities mainly using the node semantic features. To address the problem, we propose to encode the node centrality in Graphormer. In particular, we leverage the cho mã hóa trung tâm, nơi một vector có thể học được được được gán cho mỗi nút theo mức độ của nó và được thêm vào các tính năng nút trong lớp đầu vào. các nghiên cứu thực nghiệm cho thấy rằng mã hóa trung tâm đơn giản là hiệu quả cho Transformer trong việc mô hình hóa dữ liệu biểu đồ. Trung tâm mã hóa Mức độ trung tâm Thứ hai, đề xuất một cuốn tiểu thuyết Trong Graphormer để nắm bắt mối quan hệ cấu trúc giữa các nút. Một thuộc tính hình học đáng chú ý mà phân biệt dữ liệu cấu trúc graph từ các dữ liệu cấu trúc khác, ví dụ, ngôn ngữ, hình ảnh, là không có lưới canon để nhúng biểu đồ. Trên thực tế, các nút chỉ có thể nằm trong một không Euclidean không gian và được liên kết bởi các cạnh. Để mô hình hóa thông tin cấu trúc như vậy, đối với mỗi mối quan hệ nút, chúng tôi gán một nhúng có thể học dựa trên mối quan hệ không gian của họ. Nhiều phép đo trong văn học có thể được sử dụng để mô hình hóa các mối quan hệ không gian. Đối với một mục đích chung, chúng tôi sử dụng khoảng cách của con đường ngắn nhất giữa bất kỳ hai nút như một minh chứng, mà sẽ được mã hóa như một thuật ngữ thiên vị trong softmax chú ý và giúp mô hình Không gian Coding Bằng cách sử dụng các mã hóa được đề xuất ở trên, chúng tôi tiếp tục cho thấy toán học rằng Graphormer có tính biểu cảm mạnh mẽ vì nhiều biến thể GNN phổ biến chỉ là trường hợp đặc biệt của nó. Khả năng tuyệt vời của mô hình dẫn đến hiệu suất hiện đại trên một loạt các nhiệm vụ trong thực tế. Giải pháp Open Graph Benchmark Large-Scale Challenge (OGB-LSC) ], Graphormer vượt trội so với hầu hết các biến thể GNN chủ đạo hơn 10% điểm về lỗi tương đối. trên các bảng xếp hạng phổ biến khác của graph representation learning (ví dụ, MolHIV, MolPCBA, ZINC) [ , ], Graphormer cũng vượt qua kết quả tốt nhất trước đây, chứng minh tiềm năng và khả năng thích ứng của kiến trúc Transformer. 3 21 22 14 2 Ban đầu Trong phần này, chúng tôi thu thập lại các phần sơ bộ trong Graph Neural Networks và Transformers. Hãy để G = (V, E) biểu thị một biểu đồ trong đó V = {v1, v2, · · · , vn}, n = ÁthaVannoo là số nút. Hãy để vector tính năng của node vi là xi . GNN nhằm mục đích học đại diện của các nút và biểu đồ. Thông thường, GNN hiện đại theo một kế hoạch học tập mà lặp đi lặp lại cập nhật đại diện của một nút bằng cách tổng hợp đại diện của hàng xóm thứ nhất hoặc cao hơn của nó. Chúng tôi biểu thị h (l) i như đại diện của vi ở lớp l-th và xác định h (0) i = xi. L-th iteration của tổng hợp có thể được đặc trưng bởi AGGREGATE-COMBINE bước như Graph Neural Network (GNN). nơi N (vi) là tập hợp các hàng xóm thứ nhất hoặc cao hơn của vi. hàm AGGREGATE được sử dụng để thu thập thông tin từ hàng xóm. các hàm tổng hợp phổ biến bao gồm MEAN, MAX, SUM, được sử dụng trong các kiến trúc khác nhau của GNN [26, 18, 50, 54]. Mục đích của hàm COMBINE là hợp nhất thông tin từ hàng xóm vào đại diện nút. Ngoài ra, đối với các nhiệm vụ đại diện đồ thị, một hàm READOUT được thiết kế để tổng hợp các tính năng nút h (L) i của lần lặp cuối cùng vào hG đại diện của toàn bộ đồ thị G: READOUT có thể được thực hiện bằng một hàm bất biến permutation đơn giản như summation [54] hoặc một hàm tập hợp phức tạp hơn ở cấp độ graph [1]. . The Transformer architecture consists of a composition of Transformer layers [49]. Each Transformer layer has two parts: a self-attention module and a position-wise feed-forward network (FFN). Let H = h > 1 , · · · , h> n > ∈ R n×d denote the input of self-attention module where d is the hidden dimension and hi ∈ R 1×d is the hidden representation at position i. The input H is projected by three matrices WQ ∈ R d×dK , WK ∈ R d×dK and WV ∈ R d×dV to the corresponding representations Q, K, V . The self-attention is then calculated as: Transformer Nơi là một ma trận ghi lại sự tương đồng giữa các truy vấn và phím. Để đơn giản hóa minh họa, chúng tôi xem xét sự tự chú ý một đầu và giả định = Đánh giá = Đánh giá Việc mở rộng đến sự chú ý đa đầu là tiêu chuẩn và đơn giản, và chúng tôi bỏ qua các điều khoản thiên vị cho sự đơn giản. A dk dv d 3 Đồ họa Trong phần này, chúng tôi trình bày Graphormer của chúng tôi cho các nhiệm vụ đồ thị. Đầu tiên, chúng tôi làm rõ về một số thiết kế chính trong Graphormer, phục vụ như là một sự thiên vị dẫn đầu trong mạng thần kinh để tìm hiểu đại diện đồ thị. Chúng tôi tiếp tục cung cấp các ứng dụng chi tiết của Graphormer. Cuối cùng, chúng tôi cho thấy rằng Graphormer được đề xuất của chúng tôi là mạnh mẽ hơn kể từ khi các mô hình GNN phổ biến [ , , ] là trường hợp đặc biệt của nó. 26 54 18 3.1 Mã hóa cấu trúc trong Graphormer Như đã thảo luận trong giới thiệu, điều quan trọng là phải phát triển các cách để khai thác thông tin cấu trúc của đồ thị vào mô hình Transformer.Để làm điều này, chúng tôi trình bày ba thiết kế đơn giản nhưng hiệu quả của mã hóa trong Graphormer. Vì một minh họa. 1 1.1 Trung tâm mã hóa Trong phân phối sự chú ý được tính toán dựa trên mối tương quan ngữ nghĩa giữa các nút. Tuy nhiên, trung tâm nút, đo mức độ quan trọng của một nút trong biểu đồ, thường là một tín hiệu mạnh mẽ để hiểu biểu đồ. Ví dụ, những người nổi tiếng có số lượng người theo dõi rất lớn là những yếu tố quan trọng trong việc dự đoán xu hướng của một mạng xã hội [ , Những thông tin như vậy bị bỏ qua trong tính toán sự chú ý hiện tại, và chúng tôi tin rằng nó nên là một tín hiệu có giá trị cho các mô hình Transformer. TQ4 , 40 39 Trong Graphormer, chúng tôi sử dụng độ trung tâm, đó là một trong những thước đo trung tâm tiêu chuẩn trong văn học, như một tín hiệu bổ sung cho mạng lưới thần kinh. đó gán cho mỗi nút hai vector nhúng có giá trị thực theo indegree và outdegree của nó.Khi mã hóa trung tâm được áp dụng cho mỗi nút, chúng tôi chỉ đơn giản là thêm nó vào các tính năng nút như đầu vào. Trung tâm mã hóa nơi z −, z + ∈ R d là các vector nhúng có thể học được được được xác định bởi các indegree deg−(vi) và outdegree deg+(vi) tương ứng. Đối với các biểu đồ không định hướng, deg−(vi) và deg+(vi) có thể được thống nhất thành deg(vi). Bằng cách sử dụng mã hóa trung tâm trong đầu vào, chú ý softmax có thể nắm bắt tín hiệu tầm quan trọng nút trong các truy vấn và các phím. Do đó, mô hình có thể nắm bắt cả mối tương quan ngữ nghĩa và tầm quan trọng nút trong cơ chế chú ý. 1.2 Mã hóa không gian Một lợi thế của Transformer là trường tiếp nhận toàn cầu của nó. Trong mỗi lớp Transformer, mỗi token có thể truy cập thông tin ở bất kỳ vị trí nào và sau đó xử lý đại diện của nó. Nhưng hoạt động này có một vấn đề sản phẩm phụ mà mô hình phải xác định rõ các vị trí khác nhau hoặc mã hóa sự phụ thuộc vị trí (chẳng hạn như vị trí) trong các lớp. Đối với dữ liệu liên tiếp, người ta có thể cung cấp cho mỗi vị trí một nhúng (tức là, mã hóa vị trí tuyệt đối). ]) là đầu vào hoặc mã hóa khoảng cách tương đối của bất kỳ hai vị trí nào (tức là, mã hóa vị trí tương đối trong Transformer layer. 49 [ 45 ] 47) Tuy nhiên, đối với các biểu đồ, các nút không được sắp xếp như một chuỗi. Chúng có thể nằm trong một không gian không gian đa chiều và được liên kết bởi các cạnh. Để mã hóa thông tin cấu trúc của một biểu đồ trong mô hình, chúng tôi đề xuất một mã hóa không gian mới. Cụ thể, đối với bất kỳ biểu đồ G, chúng tôi xem xét một hàm φ (vi , vj ) : V × V → R đo mối quan hệ không gian giữa vi và vj trong biểu đồ G. hàm φ có thể được xác định bởi sự kết nối giữa các nút trong biểu đồ. Trong bài báo này, chúng tôi chọn φ(vi , vj ) để là khoảng cách của con đường ngắn nhất (SPD) giữa vi và vj nếu hai nút được kết nối. Nếu không, chúng tôi đặt đầu ra của φ để là một giá trị đặc biệt, tức là -1. Chúng tôi gán Nơi ( ) là một scalar có thể học được được indexed by ( ), và chia sẻ trên tất cả các lớp. BFF VĐV, VĐV φ VĐV, VĐV Ở đây chúng tôi thảo luận về một số lợi ích của phương pháp đề xuất của chúng tôi. Thứ nhất, so với các GNN thông thường được mô tả trong Phần 2, nơi mà lĩnh vực tiếp nhận được giới hạn ở các nước láng giềng, chúng ta có thể thấy rằng trong Eq. , the Transformer layer provides a global information that each node can attend to all other nodes in the graph. Second, by using ( ), mỗi nút trong một lớp Transformer duy nhất có thể thích ứng với tất cả các nút khác theo thông tin cấu trúc của biểu đồ. ( ) là (6) Đánh giá bφ VĐV, VĐV BFF VĐV, VĐV học được là một chức năng giảm đi liên quan đến ( Đối với mỗi nút, mô hình có thể sẽ chú ý nhiều hơn đến các nút gần nó và chú ý ít hơn đến các nút cách xa nó. φ VĐV, VĐV 3.1.3 Edge Coding trong sự chú ý Trong nhiều nhiệm vụ biểu đồ, các cạnh cũng có các tính năng cấu trúc, ví dụ, trong một biểu đồ phân tử, các cặp nguyên tử có thể có các tính năng mô tả loại liên kết giữa chúng. Các tính năng như vậy là quan trọng đối với đại diện biểu đồ, và mã hóa chúng cùng với các tính năng nút vào mạng là cần thiết. Có chủ yếu là hai phương pháp mã hóa cạnh được sử dụng trong các công việc trước đó. Trong phương pháp đầu tiên, các tính năng cạnh được thêm vào các tính năng của các nút liên quan. , Trong phương pháp thứ hai, đối với mỗi nút, các tính năng cạnh liên quan của nó sẽ được sử dụng cùng với các tính năng nút trong tổng hợp [ , , Tuy nhiên, những cách sử dụng tính năng Edge chỉ truyền thông tin Edge đến các nút liên quan, điều này có thể không phải là một cách hiệu quả để khai thác thông tin Edge trong việc đại diện cho toàn bộ biểu đồ. 22 30 15 54 26 Để có được kết quả tốt hơn, chúng tôi đề xuất một phương pháp mã hóa cạnh mới trong Graphormer. cơ chế chú ý cần phải ước tính mối tương quan cho mỗi cặp nút ( ) và chúng tôi tin rằng các cạnh kết nối chúng nên được xem xét trong mối tương quan như trong [ , (Đối với mỗi cặp node được sắp xếp) ), chúng tôi tìm thấy (một trong) con đường ngắn nhất SP Tác giả ( 1* và , ... , eN * ) từ hai Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: Chú ý: a) Các yếu tố trong EQ. Tiếp theo với Edge Encoding như : VĐV, VĐV 34 51 VĐV, VĐV Yến e 2 Vi VĐV Tôi, J A (3) Đánh giá Cái nơi xen là tính năng của n-th edge en trong SPij , w E n ∈ R dE là n-th trọng lượng nhúng, và dE là chiều kích của tính năng cạnh. 3.2 Chi tiết thực hiện của Graphormer Graphormer được xây dựng dựa trên việc thực hiện ban đầu của bộ mã hóa Transformer cổ điển được mô tả trong [ Ngoài ra, chúng tôi áp dụng bình thường hóa lớp (LN) trước sự tự chú ý đa đầu (MHA) và các khối chuyển tiếp (FFN) thay vì sau [ ]. Thay đổi này đã được chấp nhận nhất trí bởi tất cả các ứng dụng Transformer hiện tại vì nó dẫn đến tối ưu hóa hiệu quả hơn [ ]. Đặc biệt, đối với lớp phụ FFN, chúng tôi đặt kích thước của đầu vào, đầu ra và lớp bên trong vào cùng một kích thước với Chúng tôi chính thức đặc trưng lớp Graphormer như sau: Graphormer Layer. 49 53 43 d Như đã nêu trong phần trước, các chức năng tập hợp biểu đồ khác nhau được đề xuất để đại diện cho việc nhúng biểu đồ. ], trong Graphormer, chúng tôi thêm một nút đặc biệt được gọi là [VNode] vào biểu đồ, và kết nối giữa [VNode] và mỗi nút riêng lẻ. trong bước AGGREGATE-COMBINE, đại diện của [VNode] đã được cập nhật như các nút bình thường trong biểu đồ, và đại diện của toàn bộ biểu đồ sẽ là tính năng nút [VNode] trong lớp cuối cùng. trong mô hình BERT [ , ], có một token tương tự, tức là [CLS], đó là một token đặc biệt được gắn vào đầu mỗi chuỗi, để đại diện cho tính năng cấp chuỗi trên các nhiệm vụ tiếp theo. Trong khi [VNode] được kết nối với tất cả các nút khác trong biểu đồ, có nghĩa là khoảng cách của con đường ngắn nhất là 1 cho bất kỳ (Nhạc Chuông) ) và ( [VNode]), kết nối không phải là vật lý. Để phân biệt sự kết nối của vật lý và ảo, lấy cảm hứng từ [ ], chúng tôi đặt lại tất cả các mã hóa không gian cho (Nhạc Chuông) ) và ( [VNode] đến một scalar có thể học được khác nhau. Special Node. 15 hg 11 35 φ VĐV φ Anh Vi, 25 BFF VĐV BFF Anh Vi, 3.3 Làm thế nào mạnh mẽ là Graphormer? Trong các phân đoạn trước, chúng tôi giới thiệu ba mã hóa cấu trúc và kiến trúc của Graphormer. Trong phần này, chúng tôi đầu tiên đưa ra một câu trả lời khẳng định bằng cách cho thấy rằng Graphormer có thể đại diện cho các bước AGGREGATE và COMBINE trong các mô hình GNN phổ biến: Những thay đổi này có làm cho Graphormer mạnh hơn các biến thể GNN khác không? Fact 1. Bằng cách chọn trọng lượng thích hợp và chức năng khoảng cách φ, lớp Graphormer có thể đại diện cho các bước AGGREGATE và COMBINE của các mô hình GNN phổ biến như GIN, GCN, GraphSAGE. Bản phác thảo bằng chứng để rút ra kết quả này là: 1) Mã hóa không gian cho phép mô-đun tự chú ý để phân biệt các bộ hàng xóm N (vi) của nút vi để chức năng softmax có thể tính toán thống kê trung bình trên N (vi); 2) Biết mức độ của một nút, trung bình trên hàng xóm có thể được dịch thành tổng trên hàng xóm; 3) Với nhiều đầu và FFN, đại diện của vi và N (vi) có thể được xử lý riêng biệt và kết hợp với nhau sau đó. Hơn nữa, chúng tôi cho thấy thêm rằng bằng cách sử dụng mã hóa không gian của chúng tôi, Graphormer có thể đi xa hơn thông điệp cổ điển thông qua GNN có sức mạnh biểu cảm không nhiều hơn là thử nghiệm 1-Weisfeiler-Lehman (WL). Besides the superior expressiveness than popular GNNs, we also find an interesting connection between using self-attention and the virtual node heuristic [ , , , Như được thể hiện trong bảng xếp hạng của OGB [ ], the virtual node trick, which augments graphs with additional supernodes that are connected to all nodes in the original graphs, can significantly improve the performance of existing GNNs. Conceptually, the benefit of the virtual node is that it can aggregate the information of the (như chức năng READOUT) và sau đó truyền nó đến Tuy nhiên, một sự bổ sung ngây thơ của một supernode vào một biểu đồ có thể dẫn đến việc vô tình làm mờ quá mức sự lây lan của thông tin. Thay vào đó, chúng tôi thấy rằng một hoạt động tổng hợp và lây lan cấp độ đồ thị như vậy có thể được thực hiện tự nhiên bằng cách tự chú ý vanilla mà không cần mã hóa bổ sung. cụ thể, chúng tôi có thể chứng minh thực tế sau: Connection between Self-attention and Virtual Node. 15 31 24 22 22 Toàn bộ graph Mỗi node 24 Fact 2. By choosing proper weights, every node representation of the output of a Graphormer layer without additional encodings can represent MEAN READOUT functions. Thực tế này có lợi thế của sự tự chú ý rằng mỗi nút có thể tham gia vào tất cả các nút khác. Do đó, nó có thể mô phỏng hoạt động READOUT cấp đồ thị để tổng hợp thông tin từ toàn bộ đồ thị. Ngoài lý do lý thuyết, chúng tôi thực nghiệm thấy rằng Graphormer không phải đối mặt với vấn đề quá mịn, mà làm cho sự cải tiến có thể mở rộng. Thực tế cũng truyền cảm hứng cho chúng tôi để giới thiệu một nút đặc biệt để đọc đồ thị (xem phần phụ trước). 4 Thí nghiệm Chúng tôi lần đầu tiên tiến hành các thí nghiệm trên OGB-LSC gần đây [ Phản hồi hóa học lượng tử (tức là, PCQM4M-LSC) thách thức, hiện là tập hợp dữ liệu dự đoán lớn nhất ở cấp độ đồ thị và chứa hơn 3,8M đồ thị tổng cộng. ] và benchmarking-GNN [ ] bảng dẫn đầu. Cuối cùng, chúng tôi bóp méo các yếu tố thiết kế quan trọng của Graphormer. Một mô tả chi tiết về tập dữ liệu và chiến lược đào tạo có thể được tìm thấy trong Phụ lục B. 21 22 14 4.1 OGB Large-Scale Challenge We benchmark the proposed Graphormer with GCN [ ] và GIN [ ], và các biến thể của chúng với Virtual Node (-VN) [ ]. They achieve the state-of-the-art valid and test mean absolute error (MAE) on the official leaderboard [ ].Hơn nữa, chúng tôi so sánh với biến thể multi-hop của GIN [ ], and 12-layer deep graph network DeeperGCN [ ], which also show promising performance on other leaderboards. We further compare our Graphormer with the recent Transformer-based graph model GT Baselines. 26 54 15 4 21 5 30 [13]. Chúng tôi chủ yếu báo cáo kết quả trên hai kích thước mô hình: (Những = 12*, d* = 768), and a smaller one ( = 6*, d* = 512). Cả số đầu chú ý trong mô-đun chú ý và chiều kích của các tính năng cạnh are set to 32. We use AdamW as the optimizer, and set the hyper-parameter to 1e-8 and ( 1*, β*2) to (0.99,0.999). The peak learning rate is set to 2e-4 (3e-4 for ) with a 60k-step warm-up stage followed by a linear decay learning rate scheduler. The total training steps are 1M. The batch size is set to 1024. All models are trained on 8 NVIDIA V100 GPUS for about 2 days. Settings. Graphormer L GraphormerSMALL L dE ϵ β GraphormerSMALL Table summarizes performance comparisons on PCQM4M-LSC dataset. From the table, GIN-VN achieves the previous state-of-the-art validate MAE of 0.1395. The original implementation of GT [ ] employs a hidden dimension of 64 to reduce the total number of parameters. For a fair comparison, we also report the result by enlarging the hidden dimension to 768, denoted by GT-Wide, which leads to a total number of parameters of 83.2M. While, both GT and GT-Wide do not outperform GIN-VN and DeeperGCN-VN. Especially, we do not observe a performance gain along with the growth of parameters of GT. Results. 1 13 Compared to the previous state-of-the-art GNN architecture, Graphormer noticeably surpasses GIN-VN by a large margin, e.g., 11.5% relative validate MAE decline. By using the ensemble with ExpC [ ], we got a 0.1200 MAE on complete test set and won the first place of the graph-level track in OGB Large-Scale Challenge[ , ]. As stated in Section we further find that the proposed Graphormer does not encounter the problem of over-smoothing, i.e., the train and validate error keep going down along with the growth of depth and width of models. 55 21 58 3.3, 4.2 Graph Representation Trong phần này, chúng tôi tiếp tục điều tra hiệu suất của Graphormer trên các nhiệm vụ dự đoán mức đồ thị thường được sử dụng của bảng dẫn đầu phổ biến, tức là, OGB [ ] (OGBG-MolPCBA, OGBG-MolHIV), and benchmarking-GNN [ ] (ZINC). Since pre-training is encouraged by OGB, we mainly explore the transferable capability of a Graphormer model pre-trained on OGB-LSC (i.e., PCQM4M-LSC). Please note that the model configurations, hyper-parameters, and the pre-training performance of pre-trained Graphormers used for MolPCBA and MolHIV are different from the models used in the previous subsection. Please refer to Appendix B for detailed descriptions. For benchmarking-GNN, which does not encourage large pre-trained model, we train an additional GraphormerSLIM ( = 12*, d* = 80, total param.= 489 ) from scratch on ZINC. 22 14 L K We report performance of GNNs which achieve top-performance on the official leader-boards . Considering that the pre-trained Graphormer leverages external data, for a fair comparison on OGB datasets, we additionally report performance for fine-tuning GIN-VN pre-trained on PCQM4M-LSC dataset, which achieves the previous state-of-the-art valid and test MAE on that dataset. Baselines. 5 Không có thêm các tính năng cụ thể về miền Chúng tôi báo cáo các chiến lược đào tạo chi tiết trong Phụ lục B. Ngoài ra, Graphormer dễ bị mắc kẹt trong vấn đề quá phù hợp do kích thước lớn của mô hình và kích thước nhỏ của tập dữ liệu. ], để giảm thiểu vấn đề quá gắn trên bộ dữ liệu OGB. Settings. 27 Table and summarize performance of Graphormer comparing with other GNNs on MolHIV, MolPCBA and ZINC datasets. Especially, GT [ ] và SAN [ ] in Table Các mô hình GNN dựa trên Transformer được đề xuất gần đây. Graphormer liên tục và đáng kể vượt trội so với các GNN hiện đại trước đó trên cả ba bộ dữ liệu bằng một lợi thế lớn. Đặc biệt, ngoại trừ Graphormer, các GNN được đào tạo trước khác không đạt được hiệu suất cạnh tranh, phù hợp với văn học trước đó [ ]. In addition, we conduct more comparisons to fine-tuning the pre-trained GNNs, please refer to Appendix C. Results. 2, 3 4 13 28 4 20 4.3 Ablation Studies Chúng tôi thực hiện một loạt các nghiên cứu ablation về tầm quan trọng của các thiết kế trong Graphormer đề xuất của chúng tôi, trên bộ dữ liệu PCQM4M-LSC. To save the computation resources, the Transformer models in table have 12 layers, and are trained for 100K iterations. 5. 5 We compare previously used positional encoding (PE) to our proposed spatial encoding, which both aim to encode the information of distinct node relation to Transformers. There are various PEs employed by previous Transformer-based GNNs, e.g., Weisfeiler-Lehman-PE (WL-PE) [ ] and Laplacian PE [ , ]. We report the performance for Laplacian PE since it performs well comparing to a series of PEs for Graph Transformer in previous literature [ ]. Transformer architecture with the spatial encoding outperforms the counterpart built on the positional encoding, which demonstrates the effectiveness of using spatial encoding to capture the node spatial information. Node Relation Encoding. 61 3 14 13 Transformer architecture with degree-based centrality encoding yields a large margin performance boost in comparison to those without centrality information. This indicates that the centrality encoding is indispensable to Transformer architecture for modeling graph data. Centrality Encoding. We compare our proposed edge encoding (denoted as via attn bias) to two commonly used edge encodings described in Section to incorporate edge features into GNN, denoted as via node and via Aggr in Table From the table, the gap of performance is minor between the two conventional methods, but our proposed edge encoding performs significantly better, which indicates that edge encoding as attention bias is more effective for Transformer to capture spatial information on edges. Edge Encoding. 3.1.3 5. 5 Related Work In this section, we highlight the most recent works which attempt to develop standard Transformer architecture-based GNN or graph structural encoding, but spend less effort on elaborating the works by adapting attention mechanism to GNNs [33, 60, 7, 23, 1, 50 , 51, 61, 48]. 5.1 Graph Transformer There are several works that study the performance of pure Transformer architectures (stacked by transformer layers) with modifications on graph representation tasks, which are more related to our Graphormer. For example, several parts of the transformer layer are modified in [ ], including an additional GNN employed in attention sub-layer to produce vectors of , , and , long-range residual connection, and two branches of FFN to produce node and edge representations separately. They pre-train their model on 10 million unlabelled molecules and achieve excellent results by fine-tuning on downstream tasks. Attention module is modified to a soft adjacency matrix in [ ] bằng cách trực tiếp thêm ma trận lân cận và RDKit -computed inter-atomic distance matrix to the attention probabilites. Very recently, Dwivedi [ ] revisit a series of works for Transformer-based GNNs, and suggest that the attention mechanism in Transformers on graph data should only aggregate the information from neighborhood (i.e., using adjacent matrix as attention mask) to ensure graph sparsity, and propose to use Laplacian eigenvector as positional encoding. Their model GT surpasses baseline GNNs on graph representation task. A concurrent work [ ] propose a novel full Laplacian spectrum to learn the position of each node in a graph, and empirically shows better results than GT. 46 Q K V 41 6 et al. 13 28 5.2 Structural Encodings in GNNs Information of path and distance is commonly used in GNNs. For example, an attention-based aggregation is proposed in [ ] where the node features, edge features, one-hot feature of the distance and ring flag feature are concatenated to calculate the attention probabilites; similar to path-based attention is leveraged in để mô hình ảnh hưởng giữa các nút trung tâm và hàng xóm cao hơn của nó; một sơ đồ tổng hợp cân bằng khoảng cách trên biểu đồ được đề xuất trong [ ]; nó đã được chứng minh trong [ ] that adopting distance encoding (i.e., one-hot feature of the distance as extra node attribute) could lead to a strictly more expressive power than the 1-WL test. Path and Distance in GNNs. 9 [9], [56] 59 32 Một số tác phẩm giới thiệu mã hóa vị trí (PE) cho các GNN dựa trên Transformer để giúp mô hình thu thập thông tin vị trí nút. ] introduces three types of PE to embed the node position information to model, i.e., an absolute WL-PE which represents different nodes labeled by Weisfeiler-Lehman algorithm, an intimacy based PE and a hop based PE which are both variant to the sampled subgraphs. Absolute Laplacian PE is employed in [ ] and empircal study shows that its performance surpasses the absolute WL-PE used in Positional Encoding in Transformer on Graph. 61 13 [61]. Ngoại trừ các phương pháp thông thường được sử dụng để mã hóa tính năng cạnh, được mô tả trong phần trước, có một số nỗ lực khai thác làm thế nào để mã hóa các tính năng cạnh tốt hơn: một lớp GNN dựa trên sự chú ý được phát triển trong [...] ] to encode edge features, where the edge feature is weighted by the similarity of the features of its two nodes; edge feature has been encoded into the popular GIN [ ] in [ ]; in [ ], the authors propose to project edge features to an embedding vector, then multiply it by attention coefficients, and send the result to an additional FFN sub-layer to produce edge representations; Edge Feature. 16 54 5 13 6 Conclusion We have explored the direct application of Transformers to graph representation. With three novel graph structural encodings, the proposed Graphormer works surprisingly well on a wide range of popular benchmark datasets. While these initial results are encouraging, many challenges remain. For example, the quadratic complexity of the self-attention module restricts Graphormer’s application on large graphs. Therefore, future development of efficient Graphormer is necessary. Performance improvement could be expected by leveraging domain knowledge-powered encodings on particular graph datasets. Finally, an applicable graph sampling strategy is desired for node representation extraction with Graphormer. We leave them for future works. 7 Acknowledgement We would like to thank Mingqi Yang and Shanda Li for insightful discussions. References [1] Jinheon Baek, Minki Kang, and Sung Ju Hwang. Accurate learning of graph representations with graph multiset pooling. , 2021. ICLR [2] Dominique Beaini, Saro Passaro, Vincent Létourneau, William L Hamilton, Gabriele Corso, and Pietro Liò. Directional graph networks. In , 2021. International Conference on Machine Learning [3] Mikhail Belkin and Partha Niyogi. Laplacian eigenmaps for dimensionality reduction and data representa-tion. , 15(6):1373–1396, năm 2003. Neural computation [4] Xavier Bresson and Thomas Laurent. Residual gated graph convnets. năm 2017 arXiv preprint arXiv:1711.07553 [5] Rémy Brossard, Oriel Frigo, and David Dehaene. Graph convolutions that can finally model local structure. , 2020. arXiv preprint arXiv:2011.15069 [6] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, và Dario Amodei. Các mô hình ngôn ngữ là những người ít học. Trong H. Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan, và H. , volume 33, pages 1877–1901. Curran Associates, Inc., 2020. Advances in Neural Information Processing Systems [7] Deng Cai and Wai Lam. Graph transformer for graph-to-sequence learning. In , volume 34, pages 7464–7471, 2020. Chương trình của Hội nghị AAAI về Trí tuệ nhân tạo [8] Tianle Cai, Shengjie Luo, Keyulu Xu, Di He, Tie-yan Liu, and Liwei Wang. Graphnorm: A principled approach to accelerating graph neural network training. In , 2021. International Conference on Machine Learning [9] Benson Chen, Regina Barzilay, và Tommi Jaakkola. Mạng lưới chuyển đổi đồ thị tăng tốc. , 2019. arXiv preprint arXiv:1905.12712 [10] Gabriele Corso, Luca Cavalleri, Dominique Beaini, Pietro Liò, and Petar Velicˇkovic´. Principal neighbour-hood aggregation for graph nets. , 33, 2020. Advances in Neural Information Processing Systems [11] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidi-rectional transformers for language understanding. In , pages 4171–4186, 2019. Chương trình của Hội nghị năm 2019 của Chương Bắc Mỹ của Hiệp hội Ngôn ngữ học tính toán: Công nghệ ngôn ngữ con người, Tập 1 (Các bài báo dài và ngắn) [12] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. , 2020. arXiv preprint arXiv:2010.11929 [13] Vijay Prakash Dwivedi and Xavier Bresson. A generalization of transformer networks to graphs. năm 2021. AAAI Workshop on Deep Learning on Graphs: Phương pháp và ứng dụng [14] Vijay Prakash Dwivedi, Chaitanya K Joshi, Thomas Laurent, Yoshua Bengio, and Xavier Bresson. Bench-marking graph neural networks. năm 2020. arXiv bản in trước arXiv:2003.00982 [15] Justin Gilmer, Samuel S Schoenholz, Patrick F Riley, Oriol Vinyals, and George E Dahl. Neural message passing for quantum chemistry. In , pages 1263–1272. PMLR, 2017. International Conference on Machine Learning [16] Liyu Gong và Qiang Cheng. khai thác các tính năng cạnh cho các mạng thần kinh đồ thị. , pages 9211–9219, 2019. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition [17] Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, et al. Conformer: Convolution-augmented transformer for speech recognition. , 2020. arXiv preprint arXiv:2005.08100 [18] William L Hamilton, Zhitao Ying, and Jure Leskovec. Inductive representation learning on large graphs. In , 2017. NIPS [19] Vincent J Hellendoorn, Charles Sutton, Rishabh Singh, Petros Maniatis, and David Bieber. Global relational models of source code. In , 2019. International conference on learning representations [20] W Hu, B Liu, J Gomes, M Zitnik, P Liang, V Pande, and J Leskovec. Strategies for pre-training graph neural networks. In , 2020. Hội nghị quốc tế về đại diện học tập (ICLR) [21] Weihua Hu, Matthias Fey, Hongyu Ren, Maho Nakata, Yuxiao Dong, and Jure Leskovec. Ogb-lsc: A large-scale challenge for machine learning on graphs. , 2021. arXiv preprint arXiv:2103.09430 [22] Weihua Hu, Matthias Fey, Marinka Zitnik, Yuxiao Dong, Hongyu Ren, Bowen Liu, Michele Catasta, and Jure Leskovec. Open graph benchmark: Datasets for machine learning on graphs. năm 2020. arXiv preprint arXiv:2005.00687 [23] Ziniu Hu, Yuxiao Dong, Kuansan Wang, and Yizhou Sun. Heterogeneous graph transformer. In , pages 2704–2710, 2020. Proceedings of The Web Conference 2020 [24] Katsuhiko Ishiguro, Shin-ichi Maeda, and Masanori Koyama. Graph warp module: an auxiliary module for boosting the power of graph neural networks in molecular graph analysis. , 2019. arXiv preprint arXiv:1902.01020 [25] Guolin Ke, Di He, and Tie-Yan Liu. Rethinking the positional encoding in language pre-training. , 2020. ICLR [26] Thomas N Kipf and Max Welling. Semi-supervised classification with graph convolutional networks. , 2016. arXiv preprint arXiv:1609.02907 [27] Kezhi Kong, Guohao Li, Mucong Ding, Zuxuan Wu, Chen Zhu, Bernard Ghanem, Gavin Taylor, and Tom Goldstein. Flag: Adversarial data augmentation for graph neural networks. , 2020. arXiv preprint arXiv:2010.09891 [28] Devin Kreuzer, Dominique Beaini, William Hamilton, Vincent Létourneau, and Prudencio Tossou. Re-thinking graph transformers with spectral attention. , 2021. arXiv Preprint arXiv:2106.03893 [29] Tuan Le, Marco Bertolini, Frank Noé, and Djork-Arné Clevert. Parameterized hypercomplex graph neural networks for graph classification. , 2021. arXiv preprint arXiv:2103.16584 [30] Guohao Li, Chenxin Xiong, Ali Thabet, and Bernard Ghanem. Deepergcn: All you need to train deeper gcns. năm 2020. arXiv preprint arXiv:2006.07739 [31] Junying Li, Deng Cai, and Xiaofei He. Learning graph-level representation for drug discovery. , 2017. arXiv preprint arXiv:1709.03741 [32] Pan Li, Yanbang Wang, Hongwei Wang, and Jure Leskovec. Distance encoding: Design provably more powerful neural networks for graph representation learning. , 33, 2020. Advances in Neural Information Processing Systems [33] Yuan Li, Xiaodan Liang, Zhiting Hu, Yinbo Chen, and Eric P. Xing. Graph transformer, 2019. [34] Xi Victoria Lin, Richard Socher, and Caiming Xiong. Multi-hop knowledge graph reasoning with reward shaping. , 2018. arXiv preprint arXiv:1808.10568 [35] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Roberta: A robustly optimized bert pretraining approach. năm 2019. arXiv preprint arXiv:1907.11692 [36] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. năm 2021. arXiv preprint arXiv:2103.14030 [37] Shengjie Luo, Shanda Li, Tianle Cai, Di He, Dinglan Peng, Shuxin Zheng, Guolin Ke, Liwei Wang, và Tie-Yan Liu. ổn định, nhanh chóng và chính xác: Chú ý cốt lõi với mã hóa vị trí tương đối. , 2021. NeurIPS [38] Haggai Maron, Heli Ben-Hamu, Hadar Serviansky, và Yaron Lipman. Mạng lưới đồ họa có khả năng mạnh mẽ. Trong H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alché-Buc, E. Fox, và R. Garnett, biên tập viên, , tập 32.Curran Associates, Inc., 2019. Advances in Neural Information Processing Systems [39] P David Marshall. The promotion and presentation of the self: celebrity as marker of presentational media. , 1(1): 35–48, năm 2010. Celebrity studies [40] Alice Marwick and Danah Boyd. To see and be seen: Celebrity practice on twitter. , 17(2):139–158, năm 2011. Convergence [41] Łukasz Maziarka, Tomasz Danel, Sławomir Mucha, Krzysztof Rataj, Jacek Tabor, and Stanisław Jastrze˛bski. Molecule attention transformer. , 2020. arXiv preprint arXiv:2002.08264 [42] Maho Nakata và Tomomi Shimazaki. Pubchemqc dự án: một quy mô lớn cơ sở dữ liệu cấu trúc điện tử nguyên tắc đầu tiên cho hóa học dựa trên dữ liệu. , 57(6):1300–1308, 2017. Tạp chí thông tin và mô hình hóa học [43] Sharan Narang, Hyung Won Chung, Yi Tay, William Fedus, Thibault Fevry, Michael Matena, Karishma Malkan, Noah Fiedel, Noam Shazeer, Zhenzhong Lan, et al. Do transformer modifications transfer across implementations and applications? , 2021. arXiv preprint arXiv:2102.11972 [44] Dinglan Peng, Shuxin Zheng, Yatao Li, Guolin Ke, Di He, and Tie-Yan Liu. How could neural networks understand programs? In . PMLR, 2021. International Conference on Machine Learning [45] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. , 21(140):1–67, 2020. Journal of Machine Learning Research [46] Yu Rong, Yatao Bian, Tingyang Xu, Weiyang Xie, Ying Wei, Wenbing Huang, and Junzhou Huang. Self-supervised graph transformer on large-scale molecular data. , 33, 2020. Advances in Neural Information Processing Systems [47] Peter Shaw, Jakob Uszkoreit, và Ashish Vaswani. Tự chú ý với các đại diện vị trí tương đối. , pages 464–468, 2018. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers) [48] Yunsheng Shi, Zhengjie Huang, Wenjin Wang, Hui Zhong, Shikun Feng, và Yu Sun. masked label predic-tion: Unified message passing model for semi-supervised classification. , 2020. arXiv preprint arXiv:2009.03509 [49] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In , 2017. NIPS [50] Petar Velicˇkovic´, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Lio, and Yoshua Bengio. Graph attention networks. năm 2018. ICLR [51] Guangtao Wang, Rex Ying, Jing Huang, and Jure Leskovec. Direct multi-hop attention based graph neural network. , 2020. arXiv bản in trước arXiv:2009.14332 [52] Sinong Wang, Belinda Li, Madian Khabsa, Han Fang, and Hao Ma. Linformer: Self-attention with linear complexity. , 2020. arXiv preprint arXiv:2006.04768 [53] Ruibin Xiong, Yunchang Yang, Di He, Kai Zheng, Shuxin Zheng, Chen Xing, Huishuai Zhang, Yanyan Lan, Liwei Wang, and Tieyan Liu. On layer normalization in the transformer architecture. In , pages 10524–10533. PMLR, 2020. International Conference on Machine Learning [54] Keyulu Xu, Weihua Hu, Jure Leskovec, and Stefanie Jegelka. How powerful are graph neural networks? In , 2019. International Conference on Learning Representations [55] Mingqi Yang, Yanming Shen, Heng Qi, and Baocai Yin. Breaking the expressive bottlenecks of graph neural networks. , 2020. arXiv preprint arXiv:2012.07219 [56] Yiding Yang, Xinchao Wang, Mingli Song, Junsong Yuan, and Dacheng Tao. Spagan: Shortest path graph attention network. , 2019. Advances in IJCAI [57] Chengxuan Ying, Guolin Ke, Di He, and Tie-Yan Liu. Lazyformer: Self attention with lazy update. , 2021. arXiv preprint arXiv:2102.12702 [58] Chengxuan Ying, Mingqi Yang, Shuxin Zheng, Guolin Ke, Shengjie Luo, Tianle Cai, Chenglin Wu, Yuxin Wang, Yanming Shen, and Di He. First place solution of kdd cup 2021 & ogb large-scale challenge graph-level track. , 2021. arXiv preprint arXiv:2106.08279 [59] Jiaxuan You, Rex Ying, and Jure Leskovec. Position-aware graph neural networks. In , pages 7134–7143. PMLR, 2019. International Conference on Machine Learning [60] Seongjun Yun, Minbyul Jeong, Raehyun Kim, Jaewoo Kang, and Hyunwoo J Kim. Graph transformer networks. , 32, 2019. Advances in Neural Information Processing Systems [61] Jiawei Zhang, Haopeng Zhang, Congying Xia, and Li Sun. Graph-bert: Only attention is needed for learning graph representations. năm 2020. arXiv preprint arXiv:2001.05140 [62] Chen Zhu, Yu Cheng, Zhe Gan, Siqi Sun, Tom Goldstein, và Jingjing Liu. Freelb: Đào tạo đối đầu tăng cường để hiểu ngôn ngữ tự nhiên. , 2020. ICLR [63] Daniel Zügner, Tobias Kirschstein, Michele Catasta, Jure Leskovec, and Stephan Günnemann. Language-agnostic representation learning of source code from structure and context. In , 2020. International Conference on Learning Representations A Proofs A.1 SPD can Be Used to Improve WL-Test 1-WL-test fails in many cases [ , ], thus classic message passing GNNs also fail to distinguish many pairs of graphs. We show that SPD might help when 1-WL-test fails, for example, in Figure where 1-WL-test fails, the sets of SPD from all nodes to others successfully distinguish the two graphs. 38 32 2 A.2 Proof of Fact 1 1 We begin by showing that self-attention module with Spatial Encoding can repre-sent MEAN aggregation. This is achieved by in Eq. : 1) setting = 0 nếu = 1 and = otherwise where is the SPD; 2) setting = Đánh giá = 0 and to be the identity matrix. Then softmax ( ) gives the average of representations of the neighbors. MEAN AGGREGATE. (6) bφ φ bφ - φ WQ WK WV A V The SUM aggregation can be realized by first perform MEAN aggregation and then multiply the node degrees. Specifically, the node degrees can be extracted from Centrality Encoding by an additional head and be concatenated to the representations after MEAN aggregation. Then the FFN module in Graphormer can represent the function of multiplying the degree to the dimensions of averaged representations by the universal approximation theorem of FFN. SUM AGGREGATE. Representing the MAX aggregation is harder than MEAN and SUM. For each dimension of the representation vector, we need one head to select the maximal value over -th dimension in the neighbor by in Eq. : 1) setting = 0 nếu = 1 and = otherwise where là SPD; 2) thiết lập = Cái nào là - Cơ sở tiêu chuẩn; = 0 and the bias term (which is ignored in the previous description for simplicity) of to be ; and = , where is the temperature that can be chosen to be large enough so that the softmax function can approximate hard max and là vector có tất cả các yếu tố là 1. MAX AGGREGATE. t t (6) bφ φ bφ −∞ φ WK et t WQ Q T 1 WV và T 1 The COMBINE step takes the result of AGGREGATE and the previous representation of current node as input. This can be achieved by the AGGREGATE operations described above together with an additional head which outputs the features of present nodes, i.e., in Eq. 1) Thiết lập = 0 if = 0 and = Đánh giá Nếu không, nơi is the SPD; 2) setting = = 0 and to be the identity matrix. Then the FFN module can approximate any COMBINE function by the universal approximation theorem of FFN. COMBINE. (6) BFF φ BFF −∞ φ WQ WK WV A.3 Chứng minh thực tế 2 2 This can be proved by setting = Đánh giá = 0, the bias terms of to be , and to be the identity matrix where nên lớn hơn nhiều so với quy mô của so that 2 T dominates the Spatial Encoding term. MEAN READOUT. WQ WK Q, K T 1 WV T bφ T 11 B. Chi tiết thí nghiệm B.1 Details of Datasets We summarize the datasets used in this work in Table PCQM4m-LSC is a quantum chemistry graph-level prediction task in recent OGB Large-Scale Challenge, originally curated under the PubChemQC project [ ]. 6. 42 The task of PCQM4M-LSC is to predict DFT(density functional theory)-calculated HOMO-LUMO energy gap of molecules given their 2D molecular graphs, which is one of the most practically-relevant quantum chemical properties of molecule science. PCQM4M-LSC is unprecedentedly large in scale comparing to other labeled graph-level prediction datasets, which contains more than 3.8M graphs. Besides, we conduct experiments on two molecular graph datasets in popular OGB leaderboards, i.e., OGBG-MolPCBA and OGBG-MolHIV. They are two molecular property prediction datasets with different sizes. The pre-trained knowledge of molecular graph on PCQM4M-LSC could be easily leveraged on these two datasets. We adopt official scaffold split on three datasets following [ , Ngoài ra, chúng tôi sử dụng một bảng xếp hạng phổ biến khác, tức là, benchmarking-gnn [ ]. Chúng tôi sử dụng bộ dữ liệu ZINC, đó là bộ dữ liệu phân tử phổ biến nhất trong thế giới thực để dự đoán sự hồi quy thuộc tính đồ thị cho khả năng hòa tan bị ép buộc, một thuộc tính hóa học quan trọng để thiết kế GNN tạo ra cho các phân tử.Khác với sự chia tách ván trong OGB, lấy mẫu đồng đều được áp dụng trong ZINC để chia dữ liệu. 21 22 14 B.2 Details of Training Strategies B.2.1 PCQM4M-LSC We report the detailed hyper-parameter settings used for training Graphormer in Table Chúng tôi giảm kích thước lớp bên trong FFN của 4 Trong [ ] Tô , mà không làm tổn thương đáng kể hiệu suất nhưng đáng kể tiết kiệm các thông số. Tỷ lệ thả nhúng được đặt là 0,1 theo mặc định trong nhiều công việc Transformer trước đó [ , ]. However, we empirically find that a small embedding dropout ratio (e.g., 0.1) would lead to an observable performance drop on validation set of PCQM4M-LSC. One possible reason is that the molecular graph is relative small (i.e., the median of #atoms in each molecule is about 15), making graph property more sensitive to the embeddings of each node. Therefore, we set embedding dropout ratio to 0 on this dataset. 7. d 49 d 11 35 2.2 OGBG-MolPCBA Đầu tiên, chúng tôi báo cáo cấu hình mô hình và siêu tham số của Graphormer được đào tạo trước trên PCQM4M-LSC. Theo thực nghiệm, chúng tôi thấy rằng hiệu suất trên MolPCBA được hưởng lợi từ kích thước mô hình trước khi đào tạo lớn. Do đó, chúng tôi đào tạo một Graphormer sâu với 18 lớp Transformer trên PCQM4M-LSC. Kích thước ẩn và kích thước lớp bên trong FFN được đặt lên 1024. Pre-training. Graphormer. Ngoài ra, chúng tôi mở rộng tỷ lệ giảm chú ý từ 0,1 đến 0,3 trong cả hai quá trình đào tạo và điều chỉnh tốt để ngăn chặn mô hình quá phù hợp. Các thông số siêu còn lại vẫn không thay đổi. Graphormer được đào tạo trước được sử dụng cho MolPCBA đạt được MAE hợp lệ là 0,1253 trên PCQM4M-LSC, thấp hơn một chút so với các báo cáo trong Bảng 1. Bàn tóm tắt các siêu tham số được sử dụng để điều chỉnh tốt Graphormer trên OGBG-MolPCBA. Chúng tôi tiến hành tìm kiếm lưới cho một số siêu tham số để tìm cấu hình tối ưu. Kết quả thí nghiệm được báo cáo bằng trung bình 10 chạy độc lập với hạt ngẫu nhiên. chúng tôi sử dụng FLAG [ ] với những thay đổi nhỏ đối với việc tăng dữ liệu biểu đồ. Đặc biệt, ngoại trừ kích thước bước and the number of steps , chúng tôi cũng sử dụng một bước dự đoán trong [ ] with maximum perturbation Hiệu suất của Graphormer trên MolPCBA khá mạnh mẽ đối với các siêu tham số của FLAG. Fine-tuning. 8 27 α m 62 g B.2.3 OGBG-MolHIV Chúng tôi sử dụng Graphormer đặc biệt trong Table as the pre-trained model for OGBG-MolHIV, where the pre-training hyper-parameters are summarized in Table Pre-training. 1 7. Các hyper-parameters cho fine-tuning Graphormer trên OGBG-MolHIV được trình bày trong Bảng Thực nghiệm, chúng ta thấy rằng các lựa chọn khác nhau của siêu tham số của FLAG (tức là, kích thước bước Số lượng bước , and maximum perturbation ) would greatly affect the performance of Graphormer on OGBG-MolHiv. Therefore, we spend more effort to conduct grid search for hyper-parameters of FLAG. We report the best hyper-parameters by the mean of 10 independent runs with random seeds. Fine-tuning. 9. α m g B.2.4 Kẽm To keep the total parameters of Graphormer less than 500K per the request from benchmarking-GNN leader-board [ ], we train a slim 12-layer Graphormer with hidden dimension of 80, which is called GraphormerSLIM in Table và có khoảng 489K thông số có thể học được. Số lượng đầu chú ý được đặt thành 8. Bảng summarizes the detailed hyper-parameters on ZINC. We train 400K steps on this dataset, and employ a weight decay of 0.01. 14 4 , 10 B.3 Details of Hyper-parameters for Baseline Methods Trong phần này, chúng tôi trình bày chi tiết về việc thực hiện lại các phương pháp cơ bản của chúng tôi. B.3.1 PCQM4M-LSC Đánh giá The official Github repository of OGB-LSC provides hyper-parameters and codes to reproduce the results on leaderboard. These hyper-parameters work well on almost all popular GNN variants, except the DeeperGCN-VN, which results in a training divergence. Therefore, for DeeperGCN-VN, we follow the official hyper-parameter setting Được cung cấp bởi các tác giả [ ]. Để so sánh công bằng với Graphormer, chúng tôi đào tạo một DeeperGCN 12 lớp. Kích thước ẩn được đặt thành 600. Kích thước lô được đặt thành 256. Tỷ lệ học tập được đặt thành 1e-3, và một lập lịch tốc độ học tập bước được sử dụng với kích thước bước phân hủy và yếu tố phân hủy như 30 thời đại và 0.25. mô hình được đào tạo cho 100 thời đại. 7 8 30 γ The default dimension of laplacian PE of GT [ Tuy nhiên, nó sẽ gây ra 2,91% các phân tử nhỏ (ít hơn 8 nguyên tử) được lọc ra. Do đó, đối với GT và GT-Wide, chúng tôi đặt kích thước của laplacian PE đến 4, kết quả chỉ là 0.08% lọc ra. Chúng tôi áp dụng các thiết lập siêu tham số mặc định được mô tả trong [ ], except that we decrease the learning rate to 1e-4, which leads to a better convergence on PCQM4M-LSC. 13 13 B.3.2 OGBG-MolPCBA Để tinh chỉnh GIN-VN được đào tạo trước trên MolPCBA, chúng tôi làm theo các cài đặt siêu tham số được cung cấp trong giấy OGB gốc [ ]. To be more concrete, we load the pre-trained checkpoint reported in Table and fine-tune it on OGBG-MolPCBA dataset. We use the grid search on the hyper-parameters for better fine-tuning performance. In particular, the learning rate is selected from {1e − 5, 1e − 4, 1e − 3}; the dropout ratio is selected from {0.0, 0.1, 0.5}; the batch size is selected from {32, 64}. 22 1 B.3.3 OGBG-MolHIV Similarly, we fine-tune the pre-trained GIN-VN on MolHIV by following the hyper-parameter settings provided in the original OGB paper [ ]. Chúng tôi cũng tiến hành tìm kiếm lưới để tìm kiếm các siêu tham số tối ưu. Các phạm vi cho mỗi siêu tham số của tìm kiếm lưới là giống như các phân đoạn trước đó. 22 C. Thí nghiệm nhiều hơn Như được mô tả trong công việc liên quan, GROVER là một GNN dựa trên Transformer, có 100 triệu thông số và được đào tạo trước trên 10 triệu phân tử không có nhãn sử dụng 250 GPU Nvidia V100. Trong phần này, chúng tôi báo cáo điểm số điều chỉnh tốt của GROVER trên MolHIV và MolPCBA, và so sánh với Graphormer đề xuất. Chúng tôi tải về các mô hình GROVER được đào tạo trước từ trang web Github chính thức của nó , follow the official instruc-tions and fine-tune the provided pre-trained checkpoints with careful search of hyper-parameters (in Table We find that GROVER could achieve competitive performance on MolHIV only if employing additional molecular features, i.e., morgan molecular finger prints and 2D features Do đó, chúng tôi báo cáo điểm số của GROVER bằng cách lấy hai đặc điểm phân tử bổ sung này. Xin lưu ý rằng, từ bảng xếp hạng , chúng ta có thể biết các tính năng phân tử bổ sung như vậy rất hiệu quả trên tập dữ liệu MolHIV. 9 10 11 ) 11 12 Table và tóm tắt hiệu suất của GROVER và GROVERLARGE so với Graphormer trên MolHIV và MolPCBA. Từ các bảng, chúng tôi quan sát thấy rằng Graphormer có thể liên tục vượt qua GROVER ngay cả khi không có bất kỳ tính năng phân tử bổ sung nào. 12 13 D Discussion & Future Work Tương tự như Transformer thông thường, cơ chế chú ý trong Graphormer có quy mô vuông với số lượng các nút in the input graph, which may be prohibitively expensive for large và loại trừ việc sử dụng nó trong các thiết lập với các nguồn lực tính toán hạn chế. Gần đây, nhiều giải pháp đã được đề xuất để giải quyết vấn đề này trong Transformer [ , , , ]. vấn đề này sẽ được hưởng lợi rất nhiều từ sự phát triển trong tương lai của hiệu quả Graphormer. Complexity. n n 25 52 57 37 Trong Graphormer, có nhiều lựa chọn cho trung tâm mạng và chức năng mã hóa không gian ( ). For example, one can leverage the 2 khoảng cách trong cấu trúc 3D giữa hai nguyên tử trong một phân tử. Trong bài báo này, chúng tôi chủ yếu đánh giá tính trung tâm và đo khoảng cách chung trong lý thuyết đồ thị, tức là tính trung tâm độ và con đường ngắn nhất. Choice of centrality and φ φ vi, vj L Có một loạt các nhiệm vụ đại diện nút trên dữ liệu cấu trúc biểu đồ, chẳng hạn như tài chính, mạng xã hội và dự đoán thời gian. Graphormer có thể được sử dụng tự nhiên cho việc khai thác đại diện nút với một chiến lược lấy mẫu biểu đồ có thể áp dụng. Node Representation. This paper is under CC by 4.0 Deed (Attribution 4.0 International) license. available on arxiv Bài báo này là theo giấy phép CC by 4.0 Deed (Attribution 4.0 International). Có sẵn trong Archive