ディープ トランスフォーマーのシンプルな設計レシピは、同一のビルディング ブロックを構成することです。しかし、標準のトランスフォーマー ブロックは単純ではなく、アテンションと MLP サブブロックをスキップ接続と正規化レイヤーと精密な配置で織り交ぜています。この複雑さにより脆弱なアーキテクチャが生まれ、一見小さな変更でもトレーニング速度が大幅に低下したり、モデルをトレーニングできなくなったりすることがあります。この研究では、標準のトランスフォーマー ブロックをどの程度まで簡素化できるかを問います。信号伝播理論と経験的観察を組み合わせることで、スキップ接続、投影または値パラメーター、シーケンシャル サブブロック、正規化レイヤーなど、多くのブロック コンポーネントを削除してもトレーニング速度が損なわれないように変更を加えることを提案します。自己回帰デコーダーのみのモデルと BERT エンコーダーのみのモデルの両方での実験では、簡素化されたトランスフォーマーは、更新ごとのトレーニング速度と標準のトランスフォーマーのパフォーマンスをエミュレートしながら、トレーニング スループットが 15% 高速化し、パラメーターの使用量が 15% 少なくなっています。
トランスフォーマー アーキテクチャ (Vaswani 他、2017) は、最近のディープラーニングの成功の多くを支える原動力と言えるでしょう。ディープ トランスフォーマー アーキテクチャを構築する簡単な方法は、複数の同一のトランスフォーマー「ブロック」を次々に積み重ねることです。ただし、各ブロックはより複雑で、多くの異なるコンポーネントで構成されており、優れたパフォーマンスを実現するには、特定の配置で組み合わせる必要があります。驚くべきことに、多くの研究者の関心を集めているにもかかわらず、ベース トランスフォーマー ブロックは誕生以来ほとんど変わっていません。
この研究では、標準のトランスフォーマー ブロックを簡素化できるかどうかを調査します。具体的には、スキップ接続、投影/値行列、シーケンシャル サブブロック、正規化レイヤーなど、いくつかのブロック コンポーネントの必要性を調査します。検討対象の各コンポーネントについて、トレーニング速度 (更新ステップと実行時間の両方) を低下させることなく削除できるかどうか、また、削除するにはトランスフォーマー ブロックにどのようなアーキテクチャ変更を加える必要があるかを尋ねます。
トレーニング速度を犠牲にすることなくトランスフォーマーブロックを簡素化するという問題は、いくつかの理由から興味深い研究課題であると考えています。まず、現代のニューラルネットワーク (NN) アーキテクチャは多くのコンポーネントを備えた複雑な設計になっており、NN トレーニングダイナミクスにおけるこれらのさまざまなコンポーネントの役割や、それらが互いにどのように相互作用するかは明らかではありません。これは、ディープラーニングの理論と実践の間に存在するギャップを考えると特に重要です。ディープラーニングのメカニズムを理解しようとする理論家は、利便性のために単純化されたアーキテクチャのみを考慮することが多く、必ずしも実際に使用されている最新のアーキテクチャを反映しているわけではありません。実際に使用されている NN アーキテクチャを簡素化することは、このギャップを埋めるのに役立ちます。
関連する理論的な注意点として、私たちの研究は、信号伝播の長所と現在の限界の両方を浮き彫りにしています。信号伝播は、ディープ ニューラル ネットワーク アーキテクチャにおける実用的な設計上の選択を促す能力があるため、影響力があることが証明されている理論です。信号伝播 (Poole ら、2016 年、Schoenholz ら、2017 年、Hayou ら、2019 年) は、入力全体にわたるレイヤーごとの表現の内積を通じてキャプチャされた、初期化時のニューラル ネットワークの幾何学的情報の進化を研究し、ディープ ニューラル ネットワークのトレーニングにおいて多くの印象的な結果をもたらしました (Xiao ら、2018 年、Brock ら、2021 年、Martens ら、2021 年、Zaidi ら、2023 年)。ただし、現在の理論では、初期化時のモデルのみが考慮され、多くの場合、初期のフォワード パスのみが考慮されています。そのため、現時点での信号伝播では、スキップ接続によるトレーニング速度の向上など、ディープ ニューラル ネットワーク トレーニング ダイナミクスの複雑な部分の多くは解明されていません。信号伝播は変更の動機付けに重要ですが、理論だけでは簡素化されたトランスフォーマー ブロックにたどり着くことはできず、経験的な洞察にも頼らざるを得ませんでした。
最後に、実用的な面では、今日では大規模なトランスフォーマー モデルのトレーニングと展開にかかるコストが莫大であることを考えると、トランスフォーマー アーキテクチャのトレーニングおよび推論パイプラインの効率性の向上は、大きな節約につながる可能性があります。必須でないコンポーネントを削除してトランスフォーマー ブロックを簡素化すると、パラメーター数が減り、モデルのスループットが向上します。特に、スキップ接続、値パラメーター、投影パラメーター、およびシーケンシャル サブブロックを削除しながら、トレーニング速度と下流のタスク パフォーマンスの点で標準のトランスフォーマーと同等にできることを示しています。その結果、パラメーター数が最大 16% 削減され、トレーニング時と推論時の両方で 16% のスループット向上が見られます。
Transformer ブロックを簡素化するための出発点は He ら (2023) であり、彼らは信号伝播原理を尊重することでスキップ接続や正規化レイヤーなしでディープ Transformer をトレーニングできるが、パラメーター更新ごとの収束速度が大幅に低下することを示しています。まず、値と投影パラメーターの更新を調整する (セクション 4.1)、または実際にはそれらを完全に削除する (セクション 4.2) と、スキップレスの注意サブブロックのパフォーマンスが向上し、He ら (2023) によって報告された更新ごとのトレーニング速度の損失が回復することを示します。これにより、注意サブブロックのパラメーターと行列乗算の半分が削除されます。セクション 4.3 では、簡素化が並列サブブロック (Wang & Komatsuzaki、2021) と効果的に組み合わせられることを示します。これにより、残りのすべてのスキップ接続とシーケンシャル サブブロックを削除して、更新ごとのトレーニング速度を損なうことなく、実装でスループットの増加をさらに 16% まで高めることができます。最後に、セクション 4.4 では、スキップ接続とシーケンシャル サブブロックの削減が、スループットの大幅な向上につながることを示します。 5 節では、簡略化されたブロックは、より大きな深度にスケーリングすると改善され、エンコーダのみのアーキテクチャとデコーダのみのアーキテクチャの両方でうまく機能し、トレーニングの長さをスケーリングした場合にも結果が当てはまることを示します。最後に、6 節で制限事項と今後の課題について説明します。
この論文はCC 4.0ライセンスの下でarxivで公開されています。