Uniswap V3 の流動性プロビジョニングは、最大化するための明確に定義された効用関数を伴う確率的最適制御問題を提示します。この記事では、エージェントベースのモデリングと強化学習の組み合わせを利用した、インテリジェントな流動性プロビジョニングのための革新的なフレームワークを紹介します。当社のフレームワークは、流動性プロビジョニング戦略を最適化するための堅牢で適応性のあるソリューションを提供します。 Uniswap V3 モデルは現実世界の市況を模倣し、エージェントベース モデル (ABM) は Uniswap V3 プールとのエージェントの対話をシミュレートする環境を作成します。強化学習エージェントは、深い決定論的ポリシー勾配 (DDPG) を使用してトレーニングされ、最適な戦略を学習し、DeFi への参加を強化する機械学習の可能性を示します。このアプローチは、流動性プロバイダーの収益性と CFMM 市場への理解を向上させることを目的としています。
マーケットメイクに関する前回の記事[マーケットメイクの仕組みと戦略] では、従来の金融市場におけるマーケットメイクの仕組みと戦略について考察しました。これらの洞察に基づいて、この記事では、Uniswap V3 のコンテキストでインテリジェントな流動性プロビジョニングのための革新的なフレームワークを紹介します。以前の調査で述べたように、私たちの目標は、特にインテリジェント流動性プロビジョニング フレームワークの開発を通じて、分散型金融 ( DeFi)における市場力学と流動性管理についての理解を広げることでした。
分散型金融(DeFi)は目覚ましい成長を遂げ、世界中の人々がアクセスできる革新的な金融商品やサービスを導入しました。 Uniswap V3 は、このイノベーションの最前線にあり、集中流動性機能により流動性プロビジョニングに革命をもたらしました。しかし、この進歩は流動性プロバイダーに複雑な意思決定の課題をもたらします。この記事では、これらの課題に対処するために設計された包括的なフレームワークを紹介し、流動性プロビジョニング戦略を検討および最適化するためのシミュレート環境を提供します。
私たちのフレームワークは、Uniswap V3 モデル、エージェントベース モデル (ABM)、強化学習エージェントの 3 つの主要コンポーネントで構成されています。 Uniswap V3 モデルはプールの表現を提供し、トークンとプールの展開と対話を可能にします。 ABM は、エージェントの対話と市場のダイナミクスをシミュレートすることによって複雑さを導入し、戦略評価のための充実した環境を作成します。この環境内で動作する強化学習エージェントは、深い決定論的ポリシー勾配アプローチを採用して戦略を学習して適応させ、流動性プロビジョニングの最適なパフォーマンスを目指します。
この研究は、強化学習 (RL) を使用して、Uniswap V3 環境内で流動性を自律的に管理および最適化するインテリジェントな流動性プロビジョニング (ILP) メカニズムを開発することを目的としています。このメカニズムは、CFMM市場の複雑な力学に適応しながら、流動性プロバイダーの好みに基づいて獲得手数料、永久損失、その他の指標を考慮して、効用関数を最大化することを目指しています。
RL フレームワークでは、流動性供給問題はマルコフ決定プロセス (MDP) として定式化されます。 MDP は状態、アクション、報酬で構成されます。
州:州は、資産価格、取引量、その他の関連変数を含む現在の市場状況を表します。
アクション:アクションは、流動性配分の調整、ポートフォリオのリバランスなど、流動性プロバイダーによる決定に対応します。
報酬: 報酬は、流動性プロバイダーの目的関数、好み、制約に基づいて結果の望ましさを定量化します。報酬は、望ましい結果 (例: 高収益) の場合はプラスになり、望ましくない結果 (例: 高リスクまたはパフォーマンスの低下) の場合はマイナスになります。
目的関数:目的関数は、流動性プロバイダーの望ましい結果を表します。これは、収益の最大化、リスクの最小化、または 2 つの間の特定のトレードオフの達成などの要素の組み合わせです。制約には、流動性の割り当て、資本の利用、リスク許容レベル、または流動性プロバイダーによって定義されたその他の制限に関する制限が含まれる場合があります。
RL トレーニングは、エージェントがフィードバックに基づいてポリシーを継続的に更新する反復プロセスです。エージェントは経験から学び、時間の経過とともに意思決定を洗練させ、より最適な流動性プロビジョニング戦略に徐々に収束していきます。
RL エージェントのトレーニングが完了すると、履歴データまたはシミュレートされた環境を使用してテストおよび評価し、流動性プロバイダーの目的関数と制約に対するパフォーマンスを評価できます。エージェントのパフォーマンスは、リターン、リスク測定、またはその他の関連するパフォーマンス指標などの指標を使用して測定できます。
RL アルゴリズムを適用することで、流動性プロビジョニング メカニズムは変化する市場状況を学習して適応し、最適な流動性提供戦略を特定し、流動性プロバイダーによって指定された制約と好みのバランスをとることができます。 RL により、メカニズムはさまざまなトレードオフと制約を自律的かつ動的に考慮して、流動性プロバイダーの目的関数を最大化するソリューションを見つけることができます。
フレームワークは 3 つの主要なコンポーネントで構成されます。
Python で実装された Uniswap V3 モデルは、Uniswap V3 プロトコルの詳細かつ機能的なシミュレーションを提供し、その微妙な仕組みを捉え、プロトコルを操作するための包括的なツールセットをユーザーに提供します。 UniswapV3_Model クラスは、トークンとプールの展開を処理し、プールを初期化し、プール アクションとプール状態の取得のためのインターフェイスを提供します。
Uniswap モデルは、Intelligent Liquidity Provisioning Framework の基盤として機能し、Uniswap V3 のコアメカニズムをカプセル化します。 Uniswap の V3 コアからコンパイルされたスマート コントラクトを活用し、Brownie を使用してローカルのガナッシュ環境にデプロイされ、現実的でインタラクティブなシミュレーションを作成します。
このフレームワークは、スマート コントラクト用の Python ベースの開発およびテスト フレームワークである Brownie と統合され、Uniswap V3 スマート コントラクトをコンパイルおよび展開します。これらのコントラクトはローカルの Ganache 環境にデプロイされ、テストと開発のためのサンドボックスが提供されます。この設定により、ユーザーは実際の資産やネットワーク トランザクションを必要とせずに Uniswap 環境と対話できるようになり、安全で制御された実験スペースが促進されます。
Tokenspice エージェントベースのシミュレーターはUniswap V3 環境をシミュレートするために使用され、エージェント ポリシーは Uniswap 市場参加者のダイナミクスを組み込むように定義されます。動的な Uniswap 環境をシミュレートするためにさまざまなタイプのエージェントが使用されます
Tokenspice エージェントベース モデル (ABM) は、 Uniswap V3 エコシステム内の個々のエージェントのアクションと相互作用をシミュレートします。さまざまな参加者の複雑な動作をモデル化することで、ABM は Uniswap V3 動的環境の包括的なインターフェイスを提供し、流動性プロビジョニング戦略の分析と最適化を可能にします。
ABM にはさまざまなエージェント タイプが含まれており、それぞれが Uniswap V3 エコシステム内の特定の役割を表します。 2 つの主要なエージェントは流動性プロバイダー エージェントとスワッパー エージェントで、Uniswap プールと対話してそれぞれ流動性を提供し、トークン スワップを実行します。これらのエージェントの動作は、 agents_policies.py
ファイルで定義されたポリシーによって決定され、エージェントの動作が現実世界の戦略や市場状況と確実に一致するようにします。
流動性プロバイダー エージェント:このエージェントは、Uniswap プールに流動性を追加および削除します。市場の現在の状態とエージェントの好みに基づいて行動を指示する一連のポリシーに従います。
スワッパー エージェント:スワッパー エージェントは、価格の不一致と裁定取引の機会を利用して、Uniswap プール内でトークン スワップを実行します。その行動は、取引手数料とスリッページを考慮して、取引の潜在的な収益性を評価するポリシーによって導かれます。
netlist.py
ファイルは ABM の中心であり、エージェントが相互に対話する方法、および Uniswap プールと対話する方法を構成します。これは、エージェント、ポリシー、シミュレーション環境の間の関係を定義します。
SimEngine.py
、 SimStateBase.py
、およびSimStrategyBase.py
モジュールは、シミュレーションを実行するための基本要素を提供します。 SimEngine はシミュレーションを調整し、時間の流れとエージェントのアクションの実行を管理します。 SimStateBase はシミュレーションの現在の状態を維持し、エージェントの保有状況、プールの状態、その他の関連変数に関するデータを保存します。 SimStrategyBase は、シミュレーション全体を通じてエージェントの動作をガイドする包括的な戦略を定義します。
強化学習 (RL) エージェントは、Intelligent Liquidity Provisioning Framework の重要なコンポーネントであり、エージェントベースのモデルである Uniswap Model を通じて Uniswap V3 エコシステムと対話するように設計されています。このセクションでは、RL エージェント、その環境、トレーニングに使用される DDPG (Deep Deterministic Policy Gradient) アルゴリズムについて詳しく説明します。
RL エージェントはカスタム環境DiscreteSimpleEnv
で動作し、Uniswap モデルおよびエージェントベースのモデルと連携して DeFi 市場をシミュレートします。この環境により、エージェントと Uniswap プールとの対話が容易になり、流動性を追加および削除したり、アクションの結果を観察したりできるようになります。 RL エージェントは Uniswap モデルおよび ABM と対話して、Uniswap V3 での現実世界の流動性プロビジョニングをシミュレートします。 ABM で定義されたポリシーとシミュレーション構成を使用して、流動性の追加または削除をもたらすアクションを選択し、現実的な相互作用を保証します。
状態空間:環境の状態空間には、現在の価格、流動性、手数料の伸びなどのさまざまな市場指標が含まれます。これらのパラメーターは正規化され、各タイムステップでエージェントに提供されます。
アクション スペース:エージェントのアクション スペースは、Uniswap プールに流動性を追加するための価格境界を表す連続値で構成されます。これらのアクションは Uniswap プールとの対話に変換され、環境の状態に影響を与えます。
報酬関数:報酬関数は、RL エージェントをトレーニングするために重要です。手数料収入、一時的な損失、ポートフォリオの価値、潜在的なペナルティが考慮され、エージェントの学習プロセスを導くためのスカラー報酬信号が提供されます。
DDPG エージェントは、深層関数近似器を使用したモデルフリーのオフポリシーのアクタークリティカル アルゴリズムです。高次元の状態空間と連続アクション空間を処理できるため、Uniswap V3 環境に最適です。
RL エージェントは、Uniswap モデルとエージェントベースのモデルを活用して、Uniswap V3 での現実世界の流動性プロビジョニングをシミュレートします。これは、 DiscreteSimpleEnv
を通じて Uniswap プールと対話し、流動性の追加または削除をもたらすアクションを実行します。エージェントのポリシーとシミュレーション構成は ABM コンポーネントで定義され、現実的で一貫した動的環境が保証されます。
エージェントのトレーニングと評価:エージェントは、それぞれが異なる市場シナリオ (異なるプール) を表す一連のエピソードにわたってトレーニングされます。エージェントのパフォーマンスは、流動性プロビジョニングに関連するリスクを最小限に抑えながら収益を最大化する能力に基づいて評価されます。 Intelligent Liquidity Provisioning Framework の有効性は、強化学習 (RL) エージェントのパフォーマンスの評価を通じて評価されます。
環境セットアップ: RL エージェントを評価するために、基本環境DiscreteSimpleEnvEval
を拡張する特殊な評価環境DiscreteSimpleEnv
をセットアップしました。この環境は、エージェント ポリシーの評価用に調整されています。
ベースライン エージェント:評価設定では、RL エージェントのパフォーマンスをベースライン エージェントのパフォーマンスと比較します。ベースライン エージェントのアクションは、流動性プールの現在の状態に依存するベースライン ポリシーによって決定されます。このエージェントは、RL エージェントのパフォーマンスを評価するための基準点を提供することを目的としています。
トレーニング
評価
プールの同期:現在、フレームワークはプールのリアルタイム同期を完全にキャプチャしていないため、実際の Uniswap V3 ダイナミクスのモデリングに不一致が生じる可能性があります。今後の作業は、プール同期を改善するためのメカニズムを組み込むことに焦点を当て、場合によってはティック/位置データやイベントを利用して現実性を高める必要があります。
単純なエージェント ポリシー:現在のフレームワークで採用されているエージェント ポリシーは、比較的単純で単純です。より正確なシミュレーションを実現するには、今後の反復では、より包括的なエージェント ポリシーを定義することを目指す必要があります。これらのポリシーは、ノイズトレーダー、情報に基づいたトレーダー、個人流動性プロバイダー、機関流動性プロバイダーなど、さまざまなタイプの Uniswap エージェントをモデル化できます。あるいは、履歴プール データに基づいてトレーニングされた統計モデルを使用して、より現実的な動作をエージェント ポリシーに通知することもできます。
希薄な観察スペース:エージェントに提供される観察スペースには、プールの状態に関する包括的な情報が不足しています。意思決定機能を向上させるために、将来の機能強化には、エージェントがプールのステータスをより包括的に理解できるように設計された機能とともに、ティックと位置のデータが含まれる必要があります。
制限されたアクションスペース:エージェントのアクションスペースは現在制限されており、流動性の量が固定され、価格範囲の制限が制限されています。アクションスペースを拡大して流動性供給の柔軟性を高め、ステップごとに複数のポジションを考慮することで、シミュレーションの忠実度を高めることができます。
同期プール:ティック/位置データまたはイベントを使用してプールを同期するメカニズムを実装し、Uniswap V3 環境でより現実的なダイナミクスを作成します。
ハイパーパラメータ調整:アクター/クリティック ネットワーク アーキテクチャ、アルファ、ベータ、タウ、バッチ サイズ、ステップ、エピソード、スケーリング パラメーター (報酬、アクション、観察空間)
包括的なエージェント ポリシー:さまざまな Uniswap エージェントを正確にモデル化する、または履歴プール データでトレーニングされた統計モデルを利用してエージェントの動作を通知する、より高度な分析ポリシーを定義します。
有益な観察スペース:ティックと位置のデータを含めることで観察スペースを強化し、エージェントにプールの状態の包括的なビューを提供する機能を設計します。
改善された報酬関数:より効果的なエージェント トレーニングにつながる、より広範囲の要因を考慮した改善された報酬関数を開発します。
複数のポジション:各タイムステップで固定予算を持つ 1 つのポジションの代わりに、エージェントがシミュレーションの開始時に一度予算を割り当てられ、後続のステップでこの予算を最適に使用する方法を学習する、より包括的なメカニズムを実装します。
ベースライン ポリシー: RL エージェントのパフォーマンスを評価するための、より包括的なベースライン ポリシーを定義します。
ハイパーパラメータ調整:トレーニング パフォーマンスを向上させるために、強化学習エージェントのハイパーパラメータをさらに調整および最適化します。
他の RL エージェントの実験: Proximal Policy Optimization (PPO) や Soft Actor-Critic (SAC) などの代替 RL エージェント モデルを調査し、特定のシナリオで利点があるかどうかを判断します。
マルチエージェント RL (MARL):マルチエージェント強化学習技術の応用を調査します。これは、複数の流動性プロバイダーとスワッパー間の相互作用をモデル化するのに有益です。
オンライン学習:エージェントが変化する市場状況にリアルタイムで適応できるようにするオンライン学習戦略を実装し、より動的で適応性のある流動性プロビジョニング ソリューションを提供します。
急速に進化する分散型金融 (DeFi) の状況において、流動性プロビジョニングは効率的かつ安全な取引を可能にする上で極めて重要な役割を果たします。 Uniswap V3 は、革新的な集中流動性機能を備えており、DeFi 流動性管理で可能なことの限界を押し広げました。ただし、この動的なエコシステム内で流動性プロビジョニング戦略を最適化する複雑さには、革新的なソリューションが必要です。
当社のインテリジェント流動性プロビジョニング フレームワークは、これらの課題に対処する上での大きな前進となります。エージェントベースのモデリングと強化学習を組み合わせることで、流動性プロバイダーと市場参加者のための強力なツールキットを作成しました。このフレームワークは、獲得した手数料、一時的な損失の軽減、および個人の好みに合わせたその他の指標を含むユーティリティ機能の最大化に重点を置き、流動性プロビジョニング戦略を最適化するための堅牢で適応性のあるソリューションを提供します。
ここでも公開されています。