paint-brush
Uniswap V3-এ বুদ্ধিমান তারল্য বিধানের জন্য একটি বিস্তারিত কাঠামোদ্বারা@idrees535
2,531 পড়া
2,531 পড়া

Uniswap V3-এ বুদ্ধিমান তারল্য বিধানের জন্য একটি বিস্তারিত কাঠামো

দ্বারা Idrees11m2023/12/21
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

Uniswap V3-এ বুদ্ধিমান তারল্য বিধানের জন্য এজেন্ট-ভিত্তিক মডেলিং এবং শক্তিবৃদ্ধি শিক্ষার সাহায্যে একটি উদ্ভাবনী কাঠামোর সাথে বিকেন্দ্রীভূত অর্থায়নের (DeFi) ভবিষ্যত আবিষ্কার করুন। এই বৈপ্লবিক পদ্ধতির লক্ষ্য হল তারল্য সরবরাহের কৌশলগুলিকে অপ্টিমাইজ করা, ইউটিলিটি ফাংশন সর্বাধিক করা এবং তারল্য প্রদানকারীদের লাভজনকতা বৃদ্ধি করা। ফ্রেমওয়ার্কের তিনটি মূল উপাদান, রিইনফোর্সমেন্ট লার্নিং এজেন্টের সূক্ষ্মতা এবং DeFi-এর সদা বিকশিত পরিমণ্ডলে তারল্য ব্যবস্থাপনার ল্যান্ডস্কেপকে পুনর্নির্মাণের জন্য এটির সম্ভাব্যতা অন্বেষণ করুন।
featured image - Uniswap V3-এ বুদ্ধিমান তারল্য বিধানের জন্য একটি বিস্তারিত কাঠামো
Idrees HackerNoon profile picture
0-item


Uniswap V3-এ তারল্য বিধান একটি ভাল-সংজ্ঞায়িত ইউটিলিটি ফাংশন সর্বাধিক করার জন্য একটি স্টোকাস্টিক সর্বোত্তম নিয়ন্ত্রণ সমস্যা উপস্থাপন করে। এই নিবন্ধটি এজেন্ট-ভিত্তিক মডেলিং এবং শক্তিবৃদ্ধি শিক্ষার সংমিশ্রণ ব্যবহার করে বুদ্ধিমান তারল্য বিধানের জন্য একটি উদ্ভাবনী কাঠামোর পরিচয় দেয়। আমাদের ফ্রেমওয়ার্ক তারল্য ব্যবস্থার কৌশলগুলি অপ্টিমাইজ করার জন্য একটি শক্তিশালী এবং অভিযোজিত সমাধান প্রদান করে। Uniswap V3 মডেল বাস্তব-বিশ্বের বাজারের অবস্থার অনুকরণ করে, যখন এজেন্ট-ভিত্তিক মডেল (ABM) Uniswap V3 পুলের সাথে এজেন্ট মিথস্ক্রিয়া অনুকরণ করার জন্য একটি পরিবেশ তৈরি করে। রিইনফোর্সমেন্ট লার্নিং এজেন্ট, ডিপ ডিটারমিনিস্টিক পলিসি গ্রেডিয়েন্ট (DDPG) ব্যবহার করে প্রশিক্ষিত, সর্বোত্তম কৌশল শিখে, DeFi অংশগ্রহণ বাড়ানোর ক্ষেত্রে মেশিন লার্নিংয়ের সম্ভাবনা প্রদর্শন করে। এই পদ্ধতির লক্ষ্য তারল্য প্রদানকারীদের লাভজনকতা এবং CFMM বাজার সম্পর্কে বোঝার উন্নতি করা।


বিষয়বস্তু ওভারভিউ

  • ভূমিকা
  • বুদ্ধিমান তারল্য বিধান কাঠামো
  • ইন্টেলিজেন্ট লিকুইডিটি প্রভিশনিং ফ্রেমওয়ার্কের উপাদান
  • এজেন্ট-ভিত্তিক সিমুলেটর
  • শক্তিবৃদ্ধি শেখার মডেল
  • সীমাবদ্ধতা
  • ভবিষ্যতে কাজ
  • উপসংহার
  • সম্পদ
  • তথ্যসূত্র


ভূমিকা

মার্কেট মেকিং [মার্কেট মেকিং মেকানিক্স অ্যান্ড স্ট্র্যাটেজিস] বিষয়ে আমার আগের প্রবন্ধে, আমরা প্রথাগত আর্থিক বাজারে বাজার তৈরির মেকানিক্স এবং কৌশলগুলি অন্বেষণ করেছি। সেই অন্তর্দৃষ্টিগুলির উপর ভিত্তি করে, এই নিবন্ধটি Uniswap V3 এর প্রেক্ষাপটে বুদ্ধিমান তারল্য বিধানের জন্য একটি উদ্ভাবনী কাঠামোর পরিচয় দেয়। আমাদের পূর্ববর্তী গবেষণায় উল্লিখিত হিসাবে, আমাদের লক্ষ্য ছিল বিকেন্দ্রীভূত অর্থায়নে ( DeFi) বাজারের গতিশীলতা এবং তারল্য ব্যবস্থাপনা সম্পর্কে আমাদের বোঝার প্রসারিত করা, বিশেষত ইন্টেলিজেন্ট লিকুইডিটি প্রভিশনিং ফ্রেমওয়ার্কের বিকাশের মাধ্যমে।


বিকেন্দ্রীভূত অর্থায়ন (DeFi) উল্লেখযোগ্য বৃদ্ধি পেয়েছে, বিশ্বব্যাপী দর্শকদের কাছে অ্যাক্সেসযোগ্য উদ্ভাবনী আর্থিক পণ্য এবং পরিষেবাগুলি প্রবর্তন করেছে। Uniswap V3, এই উদ্ভাবনের অগ্রভাগে, এর ঘনীভূত তরলতার বৈশিষ্ট্যের সাথে তারল্য ব্যবস্থায় বৈপ্লবিক পরিবর্তন এনেছে। যাইহোক, এই অগ্রগতি তারল্য প্রদানকারীদের জন্য জটিল সিদ্ধান্ত গ্রহণের চ্যালেঞ্জ নিয়ে আসে। এই নিবন্ধটি এই চ্যালেঞ্জগুলি মোকাবেলা করার জন্য ডিজাইন করা একটি বিস্তৃত কাঠামোর সাথে পরিচয় করিয়ে দেয়, অধ্যয়ন এবং তারল্য বিধানের কৌশলগুলি অপ্টিমাইজ করার জন্য একটি সিমুলেটেড পরিবেশ সরবরাহ করে।


আমাদের কাঠামোতে তিনটি মূল উপাদান রয়েছে: Uniswap V3 মডেল, একটি এজেন্ট-ভিত্তিক মডেল (ABM), এবং একটি শক্তিবৃদ্ধি শেখার এজেন্ট। Uniswap V3 মডেলটি পুলের একটি উপস্থাপনা প্রদান করে, টোকেন এবং পুলের সাথে স্থাপনা এবং মিথস্ক্রিয়া সক্ষম করে। ABM এজেন্ট মিথস্ক্রিয়া এবং বাজার গতিশীলতার অনুকরণ করে, কৌশল মূল্যায়নের জন্য একটি সমৃদ্ধ পরিবেশ তৈরি করে জটিলতার পরিচয় দেয়। রিইনফোর্সমেন্ট লার্নিং এজেন্ট, এই পরিবেশের মধ্যে কাজ করে, কৌশলগুলি শিখতে এবং মানিয়ে নেওয়ার জন্য একটি গভীর নির্ধারক নীতি গ্রেডিয়েন্ট পন্থা অবলম্বন করে, তারল্য বিধানে সর্বোত্তম কার্য সম্পাদনের লক্ষ্যে।



এই গবেষণার লক্ষ্য হল Uniswap V3 পরিবেশের মধ্যে স্বায়ত্তশাসিতভাবে তরলতা পরিচালনা এবং অপ্টিমাইজ করতে রিইনফোর্সমেন্ট লার্নিং (RL) ব্যবহার করে একটি বুদ্ধিমান লিকুইডিটি প্রভিশনিং (ILP) মেকানিজম তৈরি করা। CFMM বাজারের জটিল গতিশীলতার সাথে খাপ খাইয়ে নেওয়ার সময় তরলতা প্রদানকারীদের পছন্দের উপর ভিত্তি করে অর্জিত ফি, অস্থায়ী ক্ষতি এবং অন্যান্য মেট্রিক্স বিবেচনা করে প্রক্রিয়াটি ইউটিলিটি ফাংশনকে সর্বাধিক করার চেষ্টা করে।







ইন্টেলিজেন্ট লিকুইডিটি প্রভিশনিং ফ্রেমওয়ার্ক

আরএল ফ্রেমওয়ার্কের মধ্যে, তারল্য ব্যবস্থার সমস্যা একটি মার্কভ ডিসিশন প্রসেস (MDP) হিসাবে প্রণয়ন করা হয়। এমডিপি রাজ্য, কর্ম এবং পুরষ্কার নিয়ে গঠিত।



  • রাজ্য: রাজ্যগুলি সম্পদের দাম, ট্রেডিং ভলিউম এবং অন্যান্য প্রাসঙ্গিক ভেরিয়েবল সহ বর্তমান বাজারের অবস্থার প্রতিনিধিত্ব করে।


  • ক্রিয়া: ক্রিয়াগুলি তারল্য প্রদানকারীর দ্বারা নেওয়া সিদ্ধান্তগুলির সাথে সামঞ্জস্যপূর্ণ, যেমন তারল্য বরাদ্দ সামঞ্জস্য করা, পোর্টফোলিওগুলির ভারসাম্য বজায় রাখা ইত্যাদি।


  • পুরষ্কার: পুরষ্কারগুলি তারল্য প্রদানকারীর উদ্দেশ্যমূলক ফাংশন, পছন্দ এবং সীমাবদ্ধতার উপর ভিত্তি করে ফলাফলের আকাঙ্খিততাকে পরিমাপ করে। পুরষ্কারগুলি পছন্দসই ফলাফলের জন্য ইতিবাচক হতে পারে (যেমন, উচ্চ রিটার্ন) এবং অবাঞ্ছিত ফলাফলের জন্য নেতিবাচক হতে পারে (যেমন, উচ্চ ঝুঁকি বা নিম্ন কর্মক্ষমতা)।


  • উদ্দেশ্য ফাংশন: উদ্দেশ্য ফাংশন তারল্য প্রদানকারীর কাঙ্খিত ফলাফলের প্রতিনিধিত্ব করে, যা রিটার্ন সর্বাধিক করা, ঝুঁকি হ্রাস করা বা উভয়ের মধ্যে একটি নির্দিষ্ট ট্রেড-অফ অর্জনের মতো কারণগুলির সংমিশ্রণ হতে পারে। সীমাবদ্ধতার মধ্যে তারল্য বরাদ্দ, মূলধন ব্যবহার, ঝুঁকি সহনশীলতার মাত্রা বা তারল্য প্রদানকারী দ্বারা সংজ্ঞায়িত অন্যান্য সীমাবদ্ধতা অন্তর্ভুক্ত থাকতে পারে।


RL প্রশিক্ষণ হল একটি পুনরাবৃত্তিমূলক প্রক্রিয়া যেখানে এজেন্ট প্রতিক্রিয়ার উপর ভিত্তি করে ক্রমাগত তার নীতি আপডেট করে। এজেন্ট তার অভিজ্ঞতা থেকে শেখে এবং সময়ের সাথে সাথে তার সিদ্ধান্ত গ্রহণকে পরিমার্জিত করে, ধীরে ধীরে আরও সর্বোত্তম তারল্য ব্যবস্থার কৌশলগুলিতে রূপান্তরিত হয়।


একবার RL এজেন্ট প্রশিক্ষিত হয়ে গেলে, তারল্য প্রদানকারীর উদ্দেশ্যমূলক কার্যকারিতা এবং সীমাবদ্ধতার বিরুদ্ধে এর কার্যকারিতা মূল্যায়ন করতে ঐতিহাসিক ডেটা বা সিমুলেটেড পরিবেশ ব্যবহার করে এটি পরীক্ষা ও মূল্যায়ন করা যেতে পারে। এজেন্টের কর্মক্ষমতা রিটার্ন, ঝুঁকি পরিমাপ, বা অন্যান্য প্রাসঙ্গিক কর্মক্ষমতা সূচকের মতো মেট্রিক্স ব্যবহার করে পরিমাপ করা যেতে পারে।


RL অ্যালগরিদম প্রয়োগ করে, তরলতা বিধান পদ্ধতি শিখতে পারে এবং বাজারের অবস্থার পরিবর্তনের সাথে খাপ খাইয়ে নিতে পারে, সর্বোত্তম তারল্য বিধানের কৌশলগুলি সনাক্ত করতে পারে এবং তারল্য প্রদানকারীর দ্বারা নির্দিষ্ট করা ভারসাম্যের সীমাবদ্ধতা এবং পছন্দগুলি। স্বায়ত্তশাসিত এবং গতিশীলভাবে বিভিন্ন ট্রেড-অফ এবং সীমাবদ্ধতা বিবেচনা করে RL তারলতা প্রদানকারীর উদ্দেশ্যমূলক কার্যকারিতাকে সর্বাধিক করে তোলে এমন সমাধানগুলি খুঁজে পেতে প্রক্রিয়াটিকে সক্ষম করে।



ইন্টেলিজেন্ট লিকুইডিটি প্রভিশনিং ফ্রেমওয়ার্কের উপাদান

কাঠামোটি তিনটি প্রধান উপাদান নিয়ে গঠিত:

ফ্রেমওয়ার্ক উপাদান




UniswapV3 মডেল

পাইথনে বাস্তবায়িত Uniswap V3 মডেলটি Uniswap V3 প্রোটোকলের একটি বিশদ এবং কার্যকরী সিমুলেশন অফার করে, এর সূক্ষ্ম মেকানিক্স ক্যাপচার করে এবং ব্যবহারকারীদের প্রোটোকলের সাথে ইন্টারঅ্যাক্ট করার জন্য একটি ব্যাপক টুলসেট প্রদান করে। UniswapV3_Model ক্লাস টোকেন এবং পুলের স্থাপনা পরিচালনা করে, পুল শুরু করে এবং পুল অ্যাকশন এবং পুল স্টেট পুনরুদ্ধারের জন্য একটি ইন্টারফেস প্রদান করে।


ওভারভিউ

Uniswap মডেলটি ইন্টেলিজেন্ট লিকুইডিটি প্রভিশনিং ফ্রেমওয়ার্কের ভিত্তি হিসেবে কাজ করে, যা Uniswap V3 এর মূল মেকানিক্সকে অন্তর্ভুক্ত করে। এটি একটি বাস্তবসম্মত এবং ইন্টারেক্টিভ সিমুলেশন তৈরি করতে ব্রাউনি ব্যবহার করে স্থানীয় গণচে পরিবেশে স্থাপন করা Uniswap-এর V3-Core থেকে সংকলিত স্মার্ট চুক্তিগুলিকে কাজে লাগায়।


চুক্তি সংকলন এবং স্থাপনা

ফ্রেমওয়ার্ক ব্রাউনির সাথে একীভূত হয়, একটি পাইথন-ভিত্তিক ডেভেলপমেন্ট এবং স্মার্ট কন্ট্রাক্টের টেস্টিং ফ্রেমওয়ার্ক, ইউনিসওয়াপ V3 স্মার্ট কন্ট্রাক্ট কম্পাইল এবং ডিপ্লোয় করার জন্য। এই চুক্তিগুলি তারপরে স্থানীয় গণচে পরিবেশে স্থাপন করা হয়, পরীক্ষা এবং উন্নয়নের জন্য একটি স্যান্ডবক্স প্রদান করে। এই সেটআপ নিশ্চিত করে যে ব্যবহারকারীরা সত্যিকারের সম্পদ বা নেটওয়ার্ক লেনদেনের প্রয়োজন ছাড়াই ইউনিসঅ্যাপ পরিবেশের সাথে ইন্টারঅ্যাক্ট করতে পারে, একটি নিরাপদ এবং নিয়ন্ত্রিত পরীক্ষামূলক স্থান তৈরি করে।



এজেন্ট-ভিত্তিক সিমুলেটর

টোকেনস্পাইস এজেন্ট-ভিত্তিক সিমুলেটর ব্যবহার করা হয় Uniswap V3 পরিবেশ অনুকরণ করতে, এজেন্ট নীতিগুলি Uniswap বাজার অংশগ্রহণকারীদের গতিশীলতা অন্তর্ভুক্ত করার জন্য সংজ্ঞায়িত করা হয়। গতিশীল Uniswap পরিবেশ অনুকরণ করতে বিভিন্ন ধরনের এজেন্ট ব্যবহার করা হয়

ভূমিকা

টোকেনস্পাইস এজেন্ট-ভিত্তিক মডেল (ABM) Uniswap V3 ইকোসিস্টেমের মধ্যে পৃথক এজেন্টদের ক্রিয়া এবং মিথস্ক্রিয়া অনুকরণ করে। বিভিন্ন অংশগ্রহণকারীদের জটিল আচরণের মডেলিং করে, ABM Uniswap V3 গতিশীল পরিবেশের একটি বিস্তৃত ইন্টারফেস প্রদান করে, যা তরলতা বিধানের কৌশলগুলির বিশ্লেষণ এবং অপ্টিমাইজেশন সক্ষম করে।


এজেন্ট প্রকার এবং আচরণ

ABM-এ বিভিন্ন ধরনের এজেন্ট রয়েছে, প্রত্যেকটি Uniswap V3 ইকোসিস্টেমের মধ্যে একটি নির্দিষ্ট ভূমিকার প্রতিনিধিত্ব করে। দুটি প্রধান এজেন্ট হল লিকুইডিটি প্রোভাইডার এজেন্ট এবং সোয়াপার এজেন্ট, যা যথাক্রমে লিকুইডিটি প্রদান এবং টোকেন অদলবদল করতে ইউনিসঅ্যাপ পুলের সাথে যোগাযোগ করে। এই এজেন্টদের আচরণ agents_policies.py ফাইলে সংজ্ঞায়িত নীতির দ্বারা নির্দেশিত হয়, নিশ্চিত করে যে তাদের ক্রিয়াগুলি বাস্তব-বিশ্বের কৌশল এবং বাজারের অবস্থার সাথে সামঞ্জস্যপূর্ণ।


  • লিকুইডিটি প্রোভাইডার এজেন্ট: এই এজেন্ট Uniswap পুল থেকে তারল্য যোগ করে এবং সরিয়ে দেয়। এটি নীতির একটি সেট অনুসরণ করে যা বাজারের বর্তমান অবস্থা এবং এজেন্টের পছন্দের উপর ভিত্তি করে তার ক্রিয়াকলাপ নির্দেশ করে।


  • সোয়াপার এজেন্ট: সোয়াপার এজেন্ট দামের অসঙ্গতি এবং সালিশের সুযোগের সুবিধা নিয়ে ইউনিসোয়াপ পুলের মধ্যে টোকেন অদলবদল করে। লেনদেন ফি এবং স্লিপেজ বিবেচনা করে, এর আচরণ এমন নীতি দ্বারা পরিচালিত হয় যা ব্যবসার সম্ভাব্য লাভের মূল্যায়ন করে।


সিমুলেশন কনফিগারেশন এবং এক্সিকিউশন

netlist.py ফাইলটি ABM-এর কেন্দ্রবিন্দু, এজেন্টরা একে অপরের সাথে এবং Uniswap পুলের সাথে কীভাবে যোগাযোগ করে তা কনফিগার করে। এটি এজেন্ট, নীতি এবং সিমুলেশন পরিবেশের মধ্যে সম্পর্ক সংজ্ঞায়িত করে।


SimEngine.py , SimStateBase.py , এবং SimStrategyBase.py মডিউলগুলি সিমুলেশন চালানোর জন্য মৌলিক উপাদান প্রদান করে। SimEngine সিমুলেশন অর্কেস্ট্রেট করে, সময়ের প্রবাহ পরিচালনা করে এবং এজেন্টের ক্রিয়া সম্পাদন করে। SimStateBase সিমুলেশনের বর্তমান অবস্থা বজায় রাখে, এজেন্ট হোল্ডিং, পুল স্টেট এবং অন্যান্য প্রাসঙ্গিক ভেরিয়েবলের ডেটা সংরক্ষণ করে। SimStrategyBase অত্যধিক কৌশলগুলিকে সংজ্ঞায়িত করে যা সিমুলেশন জুড়ে এজেন্টের আচরণকে নির্দেশ করে।


শক্তিবৃদ্ধি শেখার মডেল

ভূমিকা

রিইনফোর্সমেন্ট লার্নিং (RL) এজেন্ট হল ইন্টেলিজেন্ট লিকুইডিটি প্রভিশনিং ফ্রেমওয়ার্কের একটি গুরুত্বপূর্ণ উপাদান, যা Uniswap মডেলের মাধ্যমে ইউনিসওয়াপ V3 ইকোসিস্টেমের সাথে ইন্টারঅ্যাক্ট করার জন্য ডিজাইন করা হয়েছে একটি এজেন্ট-ভিত্তিক মডেল। এই বিভাগটি RL এজেন্ট, এর পরিবেশ এবং প্রশিক্ষণের জন্য ব্যবহৃত DDPG (ডিপ ডিটারমিনিস্টিক পলিসি গ্রেডিয়েন্ট) অ্যালগরিদম নিয়ে আলোচনা করে।


আরএল এজেন্ট পরিবেশ

RL এজেন্ট একটি কাস্টম পরিবেশে কাজ করে, DiscreteSimpleEnv , যা DeFi বাজারকে অনুকরণ করতে Uniswap মডেল এবং এজেন্ট-ভিত্তিক মডেলের সাথে ইন্টারফেস করে। এই পরিবেশটি Uniswap পুলের সাথে এজেন্টের মিথস্ক্রিয়াকে সহজতর করে, এটি তরলতা যোগ করতে এবং অপসারণ করতে এবং এর কর্মের পরিণতি পর্যবেক্ষণ করতে দেয়। RL এজেন্ট Uniswap V3-এ বাস্তব-বিশ্বের তারল্য বিধান অনুকরণ করতে Uniswap মডেল এবং ABM-এর সাথে যোগাযোগ করে। এটি এমন ক্রিয়াগুলি বেছে নেয় যার ফলে তরলতা যোগ বা অপসারণ হয়, নীতি এবং সিমুলেশন কনফিগারেশন ABM-এ সংজ্ঞায়িত করে, বাস্তবসম্মত মিথস্ক্রিয়া নিশ্চিত করে।


  • স্টেট স্পেস: পরিবেশের স্টেট স্পেস বিভিন্ন বাজার সূচক যেমন বর্তমান মূল্য, তারল্য এবং ফি বৃদ্ধি অন্তর্ভুক্ত করে। এই প্যারামিটারগুলি স্বাভাবিক করা হয় এবং প্রতিটি টাইমস্টেপে এজেন্টকে প্রদান করা হয়।


  • অ্যাকশন স্পেস: এজেন্টের অ্যাকশন স্পেস অবিচ্ছিন্ন মান নিয়ে গঠিত যা একটি ইউনিসঅ্যাপ পুলে তারল্য যোগ করার জন্য মূল্যের সীমার প্রতিনিধিত্ব করে। এই ক্রিয়াগুলি পরিবেশের অবস্থাকে প্রভাবিত করে, Uniswap পুলের সাথে মিথস্ক্রিয়ায় অনুবাদ করা হয়।


  • পুরস্কার ফাংশন: পুরস্কার ফাংশন RL এজেন্ট প্রশিক্ষণের জন্য অত্যন্ত গুরুত্বপূর্ণ. এটি ফি আয়, অস্থায়ী ক্ষতি, পোর্টফোলিও মান এবং সম্ভাব্য জরিমানা বিবেচনা করে, এজেন্টের শেখার প্রক্রিয়াকে গাইড করার জন্য একটি স্কেলার পুরষ্কার সংকেত প্রদান করে।


DDPG এজেন্ট

ডিডিপিজি এজেন্ট হল একটি মডেল-মুক্ত, নীতি বহির্ভূত অভিনেতা-সমালোচক অ্যালগরিদম গভীর ফাংশন আনুমানিক ব্যবহার করে। এটি হাই-ডাইমেনশনাল স্টেট স্পেস এবং ক্রমাগত অ্যাকশন স্পেস পরিচালনা করতে পারে, এটি আমাদের Uniswap V3 পরিবেশের জন্য উপযুক্ত করে তোলে।


  • অ্যাক্টর নেটওয়ার্ক: এই নেটওয়ার্কটি একটি রাষ্ট্রকে দেওয়া সেরা-বিশ্বাসী কর্ম প্রদানের জন্য দায়ী। এটিতে একটি সিগমায়েড আউটপুট স্তর রয়েছে, মূল্য_নিম্ন এবং মূল্য_উর্ধ্বের জন্য আপেক্ষিক মানগুলি আউটপুট করে যা তারপরে এজেন্ট env-এ পছন্দসই পরিসরে স্কেল করা হয়, তরলতা যোগ করার জন্য মূল্যের সীমাকে প্রতিনিধিত্ব করে।
  • সমালোচক নেটওয়ার্ক: এই নেটওয়ার্ক একটি প্রদত্ত অবস্থায় একটি পদক্ষেপ গ্রহণের প্রত্যাশিত রিটার্ন অনুমান করে, কর্ম মান ফাংশন মূল্যায়ন করে।
  • টার্গেট নেটওয়ার্ক: DDPG অভিনেতা এবং সমালোচক উভয়ের জন্যই টার্গেট নেটওয়ার্ক নিয়োগ করে, যেগুলো প্রশিক্ষণকে স্থিতিশীল করার জন্য ধীরে ধীরে আপডেট করা হয়।
  • এক্সপেরিয়েন্স রিপ্লে: এই কৌশলটি অতীতের অভিজ্ঞতার একটি রিপ্লে বাফার সঞ্চয় করতে ব্যবহৃত হয়, যা এজেন্টকে বিভিন্ন নমুনা থেকে শিখতে, পর্যবেক্ষণে পারস্পরিক সম্পর্ক ভাঙতে এবং শেখার মসৃণ করতে দেয়।


Uniswap মডেল এবং ABM এর সাথে মিথস্ক্রিয়া

RL এজেন্ট Uniswap V3-এ বাস্তব-বিশ্বের তারল্য বিধান অনুকরণ করতে Uniswap মডেল এবং এজেন্ট-ভিত্তিক মডেলের সুবিধা দেয়। এটি DiscreteSimpleEnv এর মাধ্যমে Uniswap পুলের সাথে ইন্টারঅ্যাক্ট করে, ক্রিয়া সম্পাদন করে যার ফলে তারল্য যোগ বা অপসারণ হয়। এজেন্টের নীতি এবং সিমুলেশন কনফিগারেশন ABM উপাদানে সংজ্ঞায়িত করা হয়েছে, একটি বাস্তবসম্মত এবং সুসংগত গতিশীল পরিবেশ নিশ্চিত করে।


  • ট্রেন এবং মূল্যায়ন এজেন্ট: এজেন্টকে কয়েকটি পর্বে প্রশিক্ষিত করা হয়, প্রতিটি একটি ভিন্ন বাজারের দৃশ্যের প্রতিনিধিত্ব করে (ভিন্ন পুল)। এজেন্টের কর্মক্ষমতা মূল্যায়ন করা হয় তারল্য বিধানের সাথে যুক্ত ঝুঁকি কমানোর সাথে সাথে সর্বোচ্চ আয় বাড়ানোর ক্ষমতার উপর ভিত্তি করে। ইন্টেলিজেন্ট লিকুইডিটি প্রভিশনিং ফ্রেমওয়ার্কের কার্যকারিতা রিইনফোর্সমেন্ট লার্নিং (RL) এজেন্টের কর্মক্ষমতা মূল্যায়নের মাধ্যমে মূল্যায়ন করা হয়।


  • এনভায়রনমেন্ট সেটআপ: RL এজেন্টের মূল্যায়ন করার জন্য, আমরা একটি বিশেষ মূল্যায়ন পরিবেশ, DiscreteSimpleEnvEval সেট আপ করি, যা বেস পরিবেশকে প্রসারিত করে, DiscreteSimpleEnv । এই পরিবেশটি এজেন্ট নীতির মূল্যায়নের জন্য তৈরি করা হয়েছে।


  • বেসলাইন এজেন্ট: আমাদের মূল্যায়ন সেটআপে, আমরা একটি বেসলাইন এজেন্টের সাথে আরএল এজেন্টের কর্মক্ষমতা তুলনা করি। বেসলাইন এজেন্টের ক্রিয়াগুলি একটি বেসলাইন নীতি দ্বারা নির্ধারিত হয় যা তারল্য পুলের বর্তমান অবস্থার উপর নির্ভর করে। এই এজেন্টের লক্ষ্য হল RL এজেন্টের কর্মক্ষমতা মূল্যায়নের জন্য একটি রেফারেন্স পয়েন্ট প্রদান করা।


ফলাফল

প্রশিক্ষণ






মূল্যায়ন



সীমাবদ্ধতা

  • পুল সিঙ্ক্রোনাইজেশন: বর্তমানে, ফ্রেমওয়ার্ক পুলের রিয়েল-টাইম সিঙ্ক্রোনাইজেশনকে পুরোপুরি ক্যাপচার করে না, যা বাস্তব Uniswap V3 ডায়নামিক্সের মডেলিংয়ে অসঙ্গতি সৃষ্টি করতে পারে। ভবিষ্যত কাজের আরও ভাল পুল সিঙ্ক্রোনাইজেশনের জন্য মেকানিজম অন্তর্ভুক্ত করার উপর ফোকাস করা উচিত, সম্ভাব্যভাবে টিক/পজিশন ডেটা বা ইভেন্টগুলি বাস্তববাদকে উন্নত করার জন্য ব্যবহার করা।


  • সাদামাটা এজেন্ট নীতি: বর্তমান কাঠামোতে নিযুক্ত এজেন্ট নীতিগুলি তুলনামূলকভাবে সহজ এবং সরল। আরও সঠিক সিমুলেশন অর্জনের জন্য, ভবিষ্যতের পুনরাবৃত্তির লক্ষ্য হওয়া উচিত আরও ব্যাপক এজেন্ট নীতিগুলি সংজ্ঞায়িত করা। এই নীতিগুলি বিভিন্ন ধরণের Uniswap এজেন্টের মডেল হতে পারে, যেমন নয়েজ ট্রেডার, অবহিত ব্যবসায়ী, খুচরা তারল্য প্রদানকারী এবং প্রাতিষ্ঠানিক তারল্য প্রদানকারী। বিকল্পভাবে, ঐতিহাসিক পুল ডেটাতে প্রশিক্ষিত পরিসংখ্যান মডেলগুলি আরও বাস্তবসম্মত আচরণের জন্য এজেন্ট নীতিগুলিকে অবহিত করতে পারে।


  • স্পার্স অবজারভেশন স্পেস: এজেন্টদের দেওয়া পর্যবেক্ষণের জায়গাটিতে পুলের অবস্থা সম্পর্কে ব্যাপক তথ্যের অভাব রয়েছে। সিদ্ধান্ত গ্রহণের ক্ষমতা উন্নত করতে, ভবিষ্যতের উন্নতিতে টিক এবং অবস্থানের ডেটা অন্তর্ভুক্ত করা উচিত, সাথে ইঞ্জিনিয়ারড বৈশিষ্ট্যগুলি যা এজেন্টদের পুলের অবস্থা সম্পর্কে আরও ব্যাপক বোঝার প্রস্তাব দেয়।


  • সীমিত অ্যাকশন স্পেস: এজেন্টদের জন্য অ্যাকশন স্পেস বর্তমানে সীমাবদ্ধ, নির্দিষ্ট তারল্য পরিমাণ এবং সীমিত মূল্যের সীমার সাথে। তারল্য বিধানে আরও নমনীয়তার জন্য অ্যাকশন স্পেস প্রসারিত করা, সেইসাথে প্রতি ধাপে একাধিক অবস্থান বিবেচনা করা, সিমুলেশনের বিশ্বস্ততাকে উন্নত করতে পারে।



ভবিষ্যতে কাজ

এজেন্ট পরিবেশ:

  1. সিঙ্ক করা পুল: ইউনিসওয়াপ V3 পরিবেশে আরও বাস্তবসম্মত গতিশীলতা তৈরি করতে, সম্ভবত টিক/পজিশন ডেটা বা ইভেন্টগুলি ব্যবহার করে পুলগুলিকে সিঙ্ক্রোনাইজ করার পদ্ধতি প্রয়োগ করুন।


  2. হাইপারপ্যারামিটার টিউনিং: অভিনেতা/সমালোচক নেটওয়ার্ক আর্কিটেকচার, আলফা, বিটা, টাউ, ব্যাচের আকার, পদক্ষেপ, পর্ব, স্কেলিং প্যারামিটার (পুরস্কার, ক্রিয়া, পর্যবেক্ষণ স্থান)


  3. বিস্তৃত এজেন্ট নীতি: আরও পরিশীলিত বিশ্লেষণাত্মক নীতিগুলি সংজ্ঞায়িত করুন যা সঠিকভাবে বিভিন্ন Uniswap এজেন্টকে মডেল করে বা এজেন্ট আচরণ জানাতে ঐতিহাসিক পুল ডেটাতে প্রশিক্ষিত পরিসংখ্যানগত মডেলগুলি ব্যবহার করে৷


  4. তথ্যপূর্ণ পর্যবেক্ষণ স্থান: টিক এবং অবস্থানের ডেটা এবং প্রকৌশলী বৈশিষ্ট্যগুলি অন্তর্ভুক্ত করে পর্যবেক্ষণের স্থানকে উন্নত করুন যা এজেন্টদের পুলের অবস্থার একটি বিস্তৃত দৃশ্য প্রদান করে।


  5. উন্নত পুরষ্কার ফাংশন: একটি উন্নত পুরষ্কার ফাংশন বিকাশ করুন যা বিস্তৃত কারণগুলির জন্য দায়ী, যা আরও কার্যকর এজেন্ট প্রশিক্ষণের দিকে পরিচালিত করে।


  6. একাধিক অবস্থান: প্রতিটি টাইমস্টেপে একটি নির্দিষ্ট বাজেটের সাথে একটি অবস্থানের পরিবর্তে, একটি আরও ব্যাপক পদ্ধতি প্রয়োগ করুন যাতে এজেন্টকে সিমুলেশনের শুরুতে একবার একটি বাজেট বরাদ্দ করা হয় এবং তারপরে পরবর্তী ধাপে এই বাজেটটি সর্বোত্তমভাবে ব্যবহার করতে শেখে।


  7. বেসলাইন পলিসি: আরএল এজেন্টের কর্মক্ষমতা মূল্যায়ন করতে আরও ব্যাপক বেসলাইন নীতি নির্ধারণ করুন


এজেন্ট অ্যালগরিদম

  • হাইপারপ্যারামিটার টিউনিং: আরও ভাল প্রশিক্ষণ কর্মক্ষমতার জন্য রিইনফোর্সমেন্ট লার্নিং এজেন্টের হাইপারপ্যারামিটারগুলিকে আরও পরিমার্জিত এবং অপ্টিমাইজ করুন।


  • অন্যান্য RL এজেন্টদের সাথে পরীক্ষা: বিকল্প RL এজেন্ট মডেলগুলি অন্বেষণ করুন, যেমন প্রক্সিমাল পলিসি অপ্টিমাইজেশান (PPO) বা সফট অ্যাক্টর-ক্রিটিক (SAC), তারা নির্দিষ্ট পরিস্থিতিতে সুবিধাগুলি অফার করে কিনা তা নির্ধারণ করতে৷


  • মাল্টি-এজেন্ট RL (MARL): মাল্টি-এজেন্ট শক্তিবৃদ্ধি শেখার কৌশলগুলির প্রয়োগের তদন্ত করুন, যা একাধিক তরলতা প্রদানকারী এবং সোয়াপারদের মধ্যে মিথস্ক্রিয়া মডেলিংয়ের জন্য উপকারী হতে পারে।


  • অনলাইন লার্নিং: অনলাইন লার্নিং কৌশলগুলি বাস্তবায়ন করুন যা এজেন্টদের রিয়েল টাইমে বাজারের পরিবর্তিত অবস্থার সাথে খাপ খাইয়ে নিতে দেয়, আরও গতিশীল এবং অভিযোজিত তারল্য বিধানের সমাধান প্রদান করে।


উপসংহার

বিকেন্দ্রীভূত অর্থায়নের (DeFi) দ্রুত বিকশিত ল্যান্ডস্কেপে, তারল্য বিধান দক্ষ এবং নিরাপদ বাণিজ্য সক্ষম করার ক্ষেত্রে একটি মুখ্য ভূমিকা পালন করে। Uniswap V3, এর উদ্ভাবনী ঘনীভূত তরলতা বৈশিষ্ট্য সহ, DeFi তারল্য ব্যবস্থাপনায় যা সম্ভব তার সীমানা ঠেলে দিয়েছে। যাইহোক, এই গতিশীল বাস্তুতন্ত্রের মধ্যে তরলতা বিধানের কৌশলগুলি অপ্টিমাইজ করার জটিলতার জন্য উদ্ভাবনী সমাধানের প্রয়োজন।


আমাদের ইন্টেলিজেন্ট লিকুইডিটি প্রভিশনিং ফ্রেমওয়ার্ক এই চ্যালেঞ্জ মোকাবেলায় একটি গুরুত্বপূর্ণ পদক্ষেপের প্রতিনিধিত্ব করে। এজেন্ট-ভিত্তিক মডেলিং এবং শক্তিবৃদ্ধি শেখার সমন্বয় করে, আমরা তারল্য প্রদানকারী এবং বাজার অংশগ্রহণকারীদের জন্য একটি শক্তিশালী টুলকিট তৈরি করেছি। এই কাঠামোটি তারল্য বিধান কৌশলগুলিকে অপ্টিমাইজ করার জন্য একটি শক্তিশালী এবং অভিযোজিত সমাধান অফার করে, যেখানে অর্জিত ফি, অস্থায়ী ক্ষতি প্রশমন এবং স্বতন্ত্র পছন্দ অনুসারে তৈরি অন্যান্য মেট্রিক্স অন্তর্ভুক্ত ইউটিলিটি ফাংশনগুলিকে সর্বাধিক করার উপর ফোকাস করা হয়।



সম্পদ


তথ্যসূত্র

  1. https://kth.diva-portal.org/smash/get/diva2:1695877/FULLTEXT01.pdf
  2. https://arxiv.org/pdf/2305.15821.pdf
  3. https://github.com/KodAgge/Reinforcement-Learning-for-Market-Making/tree/main
  4. https://arxiv.org/ftp/arxiv/papers/2211/2211.01346.pdf
  5. https://arxiv.org/pdf/2004.06985.pdf
  6. https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=9682687
  7. https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0277042
  8. https://deliverypdf.ssrn.com/delivery.php?ID=1041190981020260141200720840141070070420680690030490201260880250871210115080503504504120072068069003049020126088025087121011508035045035040350403504121098102020150450453 00541220740960680890640701020520260030140690820760980160800660260880660390270930200061222067092060806080620608060806080608060506104065207609801608066026088066122206709206080608060806104 79127088008098077106031120&EXT=pdf&INDEX=TRUE
  9. https://medium.com/blockapex/market-making-mechanics-and-strategies-4daf2122121c
  10. https://www.gauntlet.xyz/resources/uniswap-user-cohort-analysis
  11. https://gov.uniswap.org/t/uniswap-incentive-design-analysis/21662
  12. https://arxiv.org/pdf/2108.07806.pdf
  13. https://www.researchgate.net/publication/341848292_Market_makers_activity_behavioural_and_agent_based_approach
  14. https://fruct.org/publications/volume-29/fruct29/files/Struc.pdf
  15. https://www.arxiv-vanity.com/papers/1911.03380/
  16. https://insights.glassnode.com/the-week-onchain-week-31-2023/


এছাড়াও এখানে প্রকাশিত.