paint-brush
定量金融における取引を自動化する深層強化学習フレームワーク@reinforcement
1,944 測定値
1,944 測定値

定量金融における取引を自動化する深層強化学習フレームワーク

長すぎる; 読むには

FinRL は、定量金融における深層強化学習の使用を簡素化し、カスタマイズ可能で再現可能な取引戦略を備えたフルスタック ソリューションを提供するオープンソース フレームワークです。
featured image - 定量金融における取引を自動化する深層強化学習フレームワーク
Reinforcement Technology Advancements HackerNoon profile picture
0-item

著者:

(1)Xiao-Yang Liu、Hongyang Yang、コロンビア大学(xl2427、[email protected]

(2)バージニア大学のJiechao Gao氏([email protected]

(3)クリスティーナ・ダン・ワン(連絡先著者)、ニューヨーク大学上海校([email protected])。

リンク一覧

要約と1 はじめに

2 関連研究と2.1 深層強化学習アルゴリズム

2.2 深層強化学習ライブラリと 2.3 金融における深層強化学習

3 提案された FinRL フレームワークと 3.1 FinRL フレームワークの概要

3.2 アプリケーション層

3.3 エージェント層

3.4 環境レイヤー

3.5 トレーニング-テスト-トレーディングパイプライン

4 実践的なチュートリアルとベンチマークパフォーマンス、4.1 バックテストモジュール

4.2 ベースライン戦略と取引指標

4.3 実践チュートリアル

4.4 ユースケース I: 株式取引

4.5 ユースケース II: ポートフォリオ配分と 4.6 ユースケース III: 暗号通貨取引

5 FinRLのエコシステムと結論、参考文献

抽象的な

深層強化学習 (DRL) は、定量金融における競争上の優位性を持つと考えられてきました。しかし、エラーが発生しやすいプログラミングと困難なデバッグのため、定量トレーダーが市場で勝つために自動的にポジションを取るエージェント、つまりどこで、どの価格で、どのくらいの量を取引するかを決定するエージェントを取得するには、急な開発曲線があります。この論文では、定量トレーダーが急な学習曲線を克服するのに役立つ完全なパイプラインとして、最初のオープンソースフレームワーク FinRL を紹介します。FinRL は、主要原則、フルスタックフレームワーク、カスタマイズ、再現性、実践的な指導の下で、シンプルさ、適用性、拡張性を備えています。


モジュール構造の 3 層アーキテクチャとして具体化された FinRL は、デバッグ作業の負荷を軽減しながら、微調整された最先端の DRL アルゴリズムと共通の報酬関数を実装します。これにより、ユーザーが高い回転率で戦略設計をパイプライン化できるようになります。FinRL は、履歴データとライブ取引 API を使用して、複数の時間粒度レベルでさまざまな市場をトレーニング環境としてシミュレートします。拡張性が高いため、FinRL は一連のユーザー インポート インターフェイスを用意し、市場の摩擦、市場の流動性、投資家のリスク回避などの取引制約を組み込んでいます。さらに、実務家の足がかりとして、株式取引、ポートフォリオ配分、暗号通貨取引などの典型的な取引タスクがステップバイステップのチュートリアルとして提供されます。

1 はじめに

深層強化学習(DRL)は、(未知の領域の)探索と(現在の知識の)活用のバランスをとるもので、定量金融における取引を自動化する有望なアプローチです[50][51][47][54][21][13]。DRLアルゴリズムは、未知の環境との相互作用を通じて学習することで動的な意思決定問題を解決するのに強力であり、ポートフォリオのスケーラビリティと市場モデルの独立性という2つの大きな利点を提供します[6]。定量金融において、アルゴリズム取引は本質的に動的な決定、すなわち、高度に確率的で複雑な金融市場でどこで、どの価格で、どのくらいの量を取引するかを決定します。図1に示すように、多くの金融要因を組み込んで、DRL取引エージェントは、人間のトレーダーが達成するのが難しいマルチファクターモデルを構築して自動的に取引します[4、53]。そのため、DRLは定量金融において競争上の優位性を持つと考えられてきました。


既存の多くの研究では、DRL を定量的な金融タスクに適用しています。ディープ ニューラル ネットワークは、ある状態で特定のアクションを実行した場合の期待収益を推定するのに非常に強力であるため、研究者と業界の専門家の両方が、DRL を活用した取引戦略を積極的に設計しています。Moody と Saffell [33] は、株式取引にポリシー検索を利用しました。Deng ら [9] は、DRL が従来の方法よりも多くの利益を得ることができることを示しました。その他のアプリケーションには、株式取引 [35、47、51、54]、先物契約 [54]、代替データ (ニュース感情) [22、35]、高頻度取引 [15]、清算戦略分析 [3]、ヘッジ [6] などがあります。DRL は、自動取引、ポートフォリオ割り当て、マーケット メイキングなど、暗号通貨市場でも積極的に調査されています。


しかし、DRL 取引戦略の設計は簡単ではありません。プログラミングはエラーが発生しやすく、デバッグも面倒です。開発パイプラインには、市場データの前処理、トレーニング環境の構築、取引状態の管理、取引パフォーマンスのバックテストが含まれます。これらの手順は実装の標準ですが、特に初心者にとっては時間がかかります。そのため、研究者や定量的トレーダーが急な学習曲線を克服するのに役立つオープンソース ライブラリが緊急に求められています。


本稿では、トレーディング戦略の開発を自動的に合理化し、研究者や定量的トレーダーが高い回転率で戦略を反復できるようにする FinRL フレームワークを紹介します。ユーザーは、データ API や DRL アルゴリズムの選択などの構成を指定し、トレーディング結果のパフォーマンスを分析します。これを実現するために、FinRL は 3 層フレームワークを導入しています。最下部は、終値、株式、取引量、テクニカル指標などの実際の履歴データを使用して金融市場をシミュレートする環境層です。中間は、微調整された DRL アルゴリズムと一般的な報酬関数を実装するエージェント層です。エージェントは、状態空間とアクション空間で適切に定義された報酬関数を通じて環境と対話します。最上位層には自動トレーディングのアプリケーションが含まれており、株式取引、ポートフォリオ配分、暗号通貨取引など、いくつかのユースケースを示します。デバッグのワークロードを軽減するためのベースライン取引戦略を提供します。


図 1: 深層強化学習を使用した FinRL での自動取引の概要。


3 層フレームワークでは、FinRL は次の 3 つの主要原則に基づいて開発されます。


• フルスタック フレームワーク。市場データ API、データ前処理、DRL アルゴリズム、自動バックテストなど、金融指向の最適化を備えたフルスタック DRL フレームワークを提供します。ユーザーは、このような開発パイプラインを透過的に利用できます。


• カスタマイズ。最先端の DRL アルゴリズムを組み込み、新しいアルゴリズムの設計をサポートすることで、開発におけるモジュール性と拡張性を維持します。DRL アルゴリズムを使用すると、簡単な構成で取引戦略を構築できます。


• 再現性と実践的な指導。ステップバイステップの Jupyter ノートブックやユーザー ガイドなどのチュートリアルを提供して、ユーザーがパイプラインをたどり、ユース ケースを再現できるようにします。


これにより、開発者が高レベルの構成と仕様を通じてアイデアを効率的に検討し、要求に応じて独自の戦略をカスタマイズできる統一されたフレームワークが実現します。


私たちの貢献は次のように要約されます。


• FinRL は、定量的金融に DRL アルゴリズムを適用する大きな可能性を示す最初のオープンソース フレームワークです。私たちは FinRL フレームワークを中心にエコシステムを構築し、急速に成長する AI4Finance コミュニティの種をまいています。


• アプリケーション層は、ユーザーが FinRL を自分の取引タスクに合わせてカスタマイズするためのインターフェイスを提供します。自動バックテスト モジュールとパフォーマンス メトリックが提供され、定量的トレーダーが高回転率で取引戦略を反復するのに役立ちます。収益性の高い取引戦略は再現可能で、初心者に優しい実践的なチュートリアルが提供されます。トレーニングされたモデルを急速に変化する市場に合わせて調整することも可能です。


• エージェント レイヤーは、微調整されたハイパーパラメータを使用して金融に適応した最先端の DRL アルゴリズムを提供します。ユーザーは新しい DRL アルゴリズムを追加できます。


• 環境レイヤーには、履歴データAPIのコレクションだけでなく、ライブ取引APIも含まれています。これらは、標準的なOpenAIジムスタイルの環境[5]に再構成されています。さらに、市場の摩擦が組み込まれており、ユーザーは取引時間の粒度をカスタマイズできます。


この論文の残りの部分は、次のように構成されています。セクション 2 では、関連する研究をレビューします。セクション 3 では、FinRL フレームワークを紹介します。セクション 4 では、FinRL を使用したベンチマーク取引タスクを示します。セクション 5 でこの論文を締めくくります。


この論文は、CC BY 4.0 DEED ライセンスの下でarxiv で公開されています