tác giả:
(1) Xiao-Yang Liu, Hongyang Yang, Đại học Columbia (xl2427,[email protected]);
(2) Jiechao Gao, Đại học Virginia ([email protected]);
(3) Christina Dan Wang ( Tác giả tương ứng ), Đại học New York Thượng Hải ([email protected]).
2 công trình liên quan và 2.1 Thuật toán học tăng cường sâu
2.2 Thư viện Học tăng cường sâu và 2.3 Học tăng cường sâu trong tài chính
3 Khung FinRL được đề xuất và 3.1 Tổng quan về Khung FinRL
3.5 Quy trình đào tạo-kiểm tra-giao dịch
4 Hướng dẫn thực hành và Hiệu suất điểm chuẩn và Mô-đun kiểm tra lại 4.1
4.2 Chiến lược cơ bản và số liệu giao dịch
4.4 Trường hợp sử dụng I: Giao dịch chứng khoán
5 Hệ sinh thái FinRL và Kết luận, Tài liệu tham khảo
Học tăng cường sâu (DRL) đã được hình dung là có lợi thế cạnh tranh trong lĩnh vực tài chính định lượng. Tuy nhiên, có một đường cong phát triển dốc để các nhà giao dịch định lượng có được một tác nhân tự động định vị để giành chiến thắng trên thị trường, cụ thể là quyết định giao dịch ở đâu, ở mức giá nào và số lượng bao nhiêu, do lập trình dễ bị lỗi và khó gỡ lỗi. Trong bài viết này, chúng tôi trình bày khung mã nguồn mở FinRL đầu tiên như một hệ thống đầy đủ để giúp các nhà giao dịch định lượng vượt qua chặng đường học tập dốc. FinRL nổi bật với tính đơn giản, khả năng ứng dụng và khả năng mở rộng theo các nguyên tắc chính, khung toàn diện, khả năng tùy chỉnh, khả năng tái tạo và dạy kèm thực hành
Được thể hiện dưới dạng kiến trúc ba lớp với cấu trúc mô-đun, FinRL triển khai các thuật toán DRL tiên tiến được tinh chỉnh và các chức năng khen thưởng chung, đồng thời giảm bớt khối lượng công việc gỡ lỗi. Do đó, chúng tôi giúp người dùng thiết kế chiến lược với tỷ lệ luân chuyển cao. Ở nhiều cấp độ chi tiết về thời gian, FinRL mô phỏng các thị trường khác nhau dưới dạng môi trường đào tạo bằng cách sử dụng dữ liệu lịch sử và API giao dịch trực tiếp. Với khả năng mở rộng cao, FinRL bảo lưu một bộ giao diện nhập khẩu của người dùng và kết hợp các hạn chế giao dịch như ma sát thị trường, thanh khoản thị trường và tâm lý e ngại rủi ro của nhà đầu tư. Hơn nữa, đóng vai trò là bước đệm cho những người thực hành, các nhiệm vụ giao dịch điển hình được cung cấp dưới dạng hướng dẫn từng bước, ví dụ: giao dịch chứng khoán, phân bổ danh mục đầu tư, giao dịch tiền điện tử, v.v.
Học tăng cường sâu (DRL), cân bằng giữa việc khám phá (lãnh thổ chưa được khám phá) và khai thác (kiến thức hiện tại), là một cách tiếp cận đầy hứa hẹn để tự động hóa giao dịch trong tài chính định lượng [50] [51] [47] [54] [21] [13 ]. Thuật toán DRL rất mạnh mẽ trong việc giải quyết các vấn đề ra quyết định linh hoạt bằng cách học hỏi thông qua tương tác với môi trường chưa xác định và mang lại hai lợi thế chính về khả năng mở rộng danh mục đầu tư và tính độc lập của mô hình thị trường [6]. Trong tài chính định lượng, giao dịch thuật toán về cơ bản là đưa ra các quyết định năng động, cụ thể là quyết định giao dịch ở đâu, ở mức giá nào và số lượng bao nhiêu, trong một thị trường tài chính phức tạp và có tính ngẫu nhiên cao. Kết hợp nhiều yếu tố tài chính, như trong Hình 1, đại lý giao dịch DRL xây dựng mô hình đa yếu tố để giao dịch tự động, điều mà con người khó có thể thực hiện được [4, 53]. Do đó, DRL được cho là có lợi thế cạnh tranh trong lĩnh vực tài chính định lượng.
Nhiều công trình hiện có đã ứng dụng DRL trong các nhiệm vụ tài chính định lượng. Cả các nhà nghiên cứu và những người thực hành trong ngành đều đang tích cực thiết kế các chiến lược giao dịch được thúc đẩy bởi DRL, vì mạng lưới thần kinh sâu có khả năng ước tính lợi nhuận kỳ vọng khi thực hiện một hành động nhất định tại một trạng thái. Moody và Saffell [33] đã sử dụng việc tìm kiếm chính sách cho giao dịch chứng khoán; Đặng và cộng sự. [9] cho thấy DRL có thể thu được nhiều lợi nhuận hơn các phương pháp thông thường. Các ứng dụng khác bao gồm giao dịch chứng khoán [35, 47, 51, 54], hợp đồng tương lai [54], dữ liệu thay thế (tình cảm tin tức) [22, 35], giao dịch tần suất cao [15], phân tích chiến lược thanh lý [3] và phòng ngừa rủi ro [ 6]. DRL cũng đang được tích cực khám phá trong thị trường tiền điện tử, ví dụ: giao dịch tự động, phân bổ danh mục đầu tư và tạo lập thị trường.
Tuy nhiên, việc thiết kế chiến lược giao dịch DRL không hề dễ dàng. Việc lập trình dễ xảy ra lỗi với việc gỡ lỗi tẻ nhạt. Quy trình phát triển bao gồm tiền xử lý dữ liệu thị trường, xây dựng môi trường đào tạo, quản lý trạng thái giao dịch và kiểm tra lại hiệu suất giao dịch. Các bước này là tiêu chuẩn để thực hiện nhưng lại tốn thời gian, đặc biệt là đối với người mới bắt đầu. Do đó, nhu cầu cấp thiết về một thư viện nguồn mở để giúp các nhà nghiên cứu và nhà giao dịch định lượng vượt qua giai đoạn học tập dốc.
Trong bài viết này, chúng tôi trình bày một khuôn khổ FinRL tự động hợp lý hóa việc phát triển các chiến lược giao dịch, nhằm giúp các nhà nghiên cứu và nhà giao dịch định lượng lặp lại chiến lược của họ với tỷ lệ doanh thu cao. Người dùng chỉ định cấu hình, chẳng hạn như chọn API dữ liệu và thuật toán DRL, đồng thời phân tích hiệu suất của kết quả giao dịch. Để đạt được điều này, FinRL giới thiệu khung ba lớp. Ở dưới cùng là lớp môi trường mô phỏng thị trường tài chính bằng cách sử dụng dữ liệu lịch sử thực tế, chẳng hạn như giá đóng cửa, cổ phiếu, khối lượng giao dịch và các chỉ báo kỹ thuật. Ở giữa là lớp tác nhân thực hiện các thuật toán DRL được tinh chỉnh và các chức năng thưởng chung. Tác nhân tương tác với môi trường thông qua các hàm phần thưởng được xác định chính xác trên không gian trạng thái và không gian hành động. Lớp trên cùng bao gồm các ứng dụng trong giao dịch tự động, trong đó chúng tôi minh họa một số trường hợp sử dụng, cụ thể là giao dịch chứng khoán, phân bổ danh mục đầu tư, giao dịch tiền điện tử, v.v. Chúng tôi cung cấp các chiến lược giao dịch cơ bản để giảm bớt khối lượng công việc gỡ lỗi.
Trong khuôn khổ ba lớp, FinRL được phát triển với ba nguyên tắc chính:
• Khung toàn ngăn xếp. Để cung cấp khung DRL đầy đủ với các tối ưu hóa theo định hướng tài chính, bao gồm API dữ liệu thị trường, xử lý trước dữ liệu, thuật toán DRL và kiểm tra ngược tự động. Người dùng có thể sử dụng quy trình phát triển như vậy một cách minh bạch.
• Tùy chỉnh. Để duy trì tính mô-đun và khả năng mở rộng trong quá trình phát triển bằng cách đưa vào các thuật toán DRL tiên tiến nhất và hỗ trợ thiết kế các thuật toán mới. Thuật toán DRL có thể được sử dụng để xây dựng chiến lược giao dịch bằng các cấu hình đơn giản.
• Khả năng tái tạo và dạy kèm thực hành. Cung cấp các hướng dẫn như sổ tay Jupyter từng bước và hướng dẫn sử dụng để giúp người dùng thực hiện quy trình và tái tạo các trường hợp sử dụng.
Điều này dẫn đến một khuôn khổ thống nhất nơi các nhà phát triển có thể khám phá ý tưởng một cách hiệu quả thông qua các cấu hình và thông số kỹ thuật cấp cao cũng như tùy chỉnh các chiến lược của riêng họ theo yêu cầu.
Những đóng góp của chúng tôi được tóm tắt như sau:
• FinRL là khung nguồn mở đầu tiên thể hiện tiềm năng to lớn của việc áp dụng thuật toán DRL trong tài chính định lượng. Chúng tôi xây dựng một hệ sinh thái xung quanh khuôn khổ FinRL, nơi gieo mầm cho cộng đồng AI4Finance đang phát triển nhanh chóng.
• Lớp ứng dụng cung cấp giao diện để người dùng tùy chỉnh FinRL cho các nhiệm vụ giao dịch của riêng họ. Mô-đun kiểm tra ngược tự động và số liệu hiệu suất được cung cấp để giúp các nhà giao dịch định lượng lặp lại các chiến lược giao dịch với tỷ lệ doanh thu cao. Các chiến lược giao dịch có lợi nhuận có thể lặp lại và cung cấp các hướng dẫn thực hành theo cách thân thiện với người mới bắt đầu. Cũng có thể điều chỉnh các mô hình được đào tạo để phù hợp với thị trường đang thay đổi nhanh chóng.
• Lớp tác nhân cung cấp các thuật toán DRL tiên tiến được điều chỉnh phù hợp với nhu cầu tài chính với các siêu tham số được tinh chỉnh. Người dùng có thể thêm các thuật toán DRL mới.
• Lớp môi trường không chỉ bao gồm tập hợp các API dữ liệu lịch sử mà còn bao gồm các API giao dịch trực tiếp. Chúng được cấu hình lại thành môi trường kiểu phòng tập thể dục OpenAI tiêu chuẩn [5]. Hơn nữa, nó kết hợp các xung đột của thị trường và cho phép người dùng tùy chỉnh mức độ chi tiết của thời gian giao dịch.
Phần còn lại của bài viết này được tổ chức như sau. Phần 2 đánh giá các công việc liên quan. Phần 3 trình bày khuôn khổ FinRL. Phần 4 trình bày các nhiệm vụ giao dịch chuẩn bằng FinRL. Chúng tôi kết thúc bài viết này trong Phần 5.
Bài viết này có sẵn trên arxiv theo giấy phép CC BY 4.0 DEED.