paint-brush
লিডার টীকাই আপনার প্রয়োজনদ্বারা@skprot
704 পড়া
704 পড়া

লিডার টীকাই আপনার প্রয়োজন

দ্বারা Sayan Protasov6m2024/04/27
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

ক্যামেরা ইমেজে সঠিক রাস্তার পৃষ্ঠের বিভাজনের জন্য পয়েন্ট ক্লাউড এবং ইমেজ ডেটার ফিউশন।
featured image - লিডার টীকাই আপনার প্রয়োজন
Sayan Protasov HackerNoon profile picture
0-item
1-item


চিত্র বিভাজন একটি চিত্রের মধ্যে আগ্রহের বস্তুগুলিকে সঠিকভাবে সনাক্ত করতে এবং বর্ণনা করার ক্ষেত্রে একটি গুরুত্বপূর্ণ ভূমিকা পালন করে। স্বায়ত্তশাসিত ড্রাইভিংয়ে, কম্পিউটার ভিশন অ্যালগরিদমগুলি রাস্তার পৃষ্ঠের বিভাজনের কাজটি সমাধান করতে প্রয়োগ করা হয়। এই কাজটি চ্যালেঞ্জিং কারণ আপনি শুধুমাত্র এক ধরনের ছবির উপর নির্ভর করতে পারবেন না — ক্যামেরা এবং LiDAR উভয়েরই তাদের শক্তি এবং ত্রুটি রয়েছে। উদাহরণস্বরূপ, LiDARs সঠিক গভীরতার তথ্য প্রদান করে, কিন্তু তারা সাধারণত স্পার্স পয়েন্ট ক্লাউড তৈরি করে, তাই তারা দৃশ্যের মধ্যে বস্তুগুলিকে সুনির্দিষ্টভাবে ভাগ করতে পারে না। এবং যখন তারা স্বচ্ছ বা প্রতিফলিত পৃষ্ঠের মুখোমুখি হয় তখন তারা বিকৃত মেঘ তৈরি করতে পারে। ক্যামেরা গভীরতা ক্যাপচার করে না, তবে তারা বস্তুর আকৃতি, টেক্সচার এবং রঙ সম্পর্কে সম্পূর্ণ তথ্য প্রদান করে। এটি আমাদেরকে একটি সহজ ধারণার দিকে নিয়ে যায় যে 2D রোড সেগমেন্টেশন প্রশিক্ষণে পয়েন্ট ক্লাউড এবং চিত্রগুলির একটি কার্যকর ফিউশন প্রতিটি ডেটা ডোমেনের সুবিধাগুলিকে কাজে লাগাতে পারে। সমস্যা হল এই ধরনের ফিউশনের জন্য উভয় ডেটাসেটের শ্রম-নিবিড় টীকা প্রয়োজন। সুতরাং, রাস্তা বিভাজনের জন্য মাল্টি-সেন্সর সেটআপের সুবিধাগুলি উপভোগ করতে আমরা কি ডেটা টীকাকে আরও দক্ষ করে তুলতে পারি?


আমি বর্তমানে কাজ করি ইভোকারগো . এই কোম্পানি কার্গো পরিবহন পরিষেবা প্রদান করে এবং নিজস্ব স্বায়ত্তশাসিত বৈদ্যুতিক যানবাহন তৈরি করে। একজন গভীর শিক্ষার প্রকৌশলী হিসাবে, আমি স্ব-চালিত যানবাহনের অটোপাইলটের জন্য 3D সনাক্তকরণ সিস্টেমের বিকাশে বিশেষজ্ঞ। তাই, Evocargo-এ, আমরা রাস্তার পৃষ্ঠের বিভাজনের দক্ষতা উন্নত করার একটি উপায় খুঁজে বের করার সিদ্ধান্ত নিয়েছি যা পূর্বাভাসের গুণমানকে উচ্চ রাখবে এবং টীকা খরচ কমিয়ে দেবে। কিছু সময় গবেষণা এবং পরীক্ষা করার পর, আমার সহকর্মীরা এবং আমি একটি পদ্ধতি তৈরি করেছি যা কার্যকরভাবে লিডার টীকাগুলিকে সরাসরি RGB চিত্রগুলিতে ইমেজ সেগমেন্টেশন মডেলগুলিকে প্রশিক্ষিত করতে সাহায্য করে । এইভাবে, লিডার পয়েন্টগুলি চিত্রের উপর প্রজেক্ট করা হয়েছে এবং গ্রাউন্ড ট্রুথ মাস্ক হিসাবে আরও প্রশিক্ষণে ব্যবহার করা হয়েছে ইমেজ সেগমেন্টেশনের তুলনীয় গুণমান প্রদান করে এবং স্ট্যান্ডার্ড টীকাযুক্ত 2D মুখোশ ছাড়াই মডেলগুলির প্রশিক্ষণের অনুমতি দেয়।



এই পোস্টে, আমি আমাদের পদ্ধতির ধাপে ধাপে বর্ণনা করব এবং কিছু পরীক্ষার ফলাফল দেখাব। আপনি যদি আমাদের কাজ, অন্যান্য পদ্ধতির গবেষণা এবং আমাদের পরীক্ষার ফলাফলের গভীরে যেতে চান, তাহলে আমাদের নিবন্ধটি পড়ুন 'লিডার টীকাই আপনার প্রয়োজন' IEEE অ্যাক্সেস জার্নালে। এই নিবন্ধটি পদ্ধতি বাস্তবায়ন, প্রক্রিয়াকৃত ডেটাসেট এবং ভবিষ্যতের গবেষণার জন্য কোড বেস সহ প্রকাশিত GitHub সংগ্রহস্থল দ্বারা সমর্থিত। আপনি যদি আমাদের কাজটিকে আপনার গবেষণার জন্য উপযোগী মনে করেন, তাহলে অনুগ্রহ করে এটিকে একটি তারকা ⭐ এবং কাগজটি উদ্ধৃত করার কথা বিবেচনা করুন।


4টি ধাপে সেগমেন্টেশন মডেলের প্রশিক্ষণ

আমাদের পদ্ধতির সামগ্রিক পাইপলাইন চারটি প্রধান অংশ নিয়ে গঠিত: পয়েন্ট ক্লাউড রোড টীকা, ডেটা প্রস্তুতি, মুখোশযুক্ত ক্ষতি, এবং সেগমেন্টেশন মডেল নিজেই।


আমাদের পদ্ধতির সামগ্রিক স্কিম


প্রথমত, আমরা পয়েন্ট ক্লাউড ডোমেনে রোড টীকা সহ ডেটা পাই। এর পরে, আমরা সমজাতীয় রূপান্তর এবং ক্যামেরা পরামিতি ব্যবহার করে পয়েন্টগুলি প্রজেক্ট করি। তারপরে, প্রজেক্টেড পয়েন্টগুলি ব্যবহার করে আমরা যোগ র্যান্ডম নয়েজ সহ ক্ষতি গণনার জন্য রোড গ্রাউন্ড ট্রুথ মাস্ক পাই। ক্যামেরা থেকে ছবিগুলি সেগমেন্টেশন মডেল দ্বারা প্রক্রিয়া করা হয়। পূর্ববর্তী ধাপের ভবিষ্যদ্বাণী এবং মুখোশগুলি মাস্কড লস দ্বারা ব্যবহার করা হয়, যা স্পার্স গ্রাউন্ড ট্রুথ ডেটা ব্যবহার করে মডেলটিকে প্রশিক্ষণের অনুমতি দেয়। অবশেষে, মডেল প্রশিক্ষণের পরে, আমরা একটি খণ্ডিত রাস্তা সহ একটি চিত্র পাই। প্রশিক্ষণ পদ্ধতির পাশাপাশি মাস্কড লস প্রজেক্টেড গ্রাউন্ড ট্রুথকে প্রথাগত 2D মুখোশের সাথে মিশ্রিত করার অনুমতি দেয়, যা ডেটার পরিপ্রেক্ষিতে পদ্ধতিটিকে নমনীয় করে তোলে।


এখন এর প্রতিটি অংশ ঘনিষ্ঠভাবে তাকান.


1 পয়েন্ট ক্লাউড ডেটা টীকা


প্রশিক্ষণের সময় লিডার ডেটা ব্যবহার করতে, আমাদের পয়েন্ট ক্লাউডের জন্য শব্দার্থিক বিভাজন টীকা দরকার। এটি ম্যানুয়ালি একটি ওপেন সোর্স পয়েন্ট ক্লাউড টীকা টুল ব্যবহার করে করা যেতে পারে, যেমন শব্দার্থিক সেগমেন্টেশন সম্পাদক , অথবা কিছু অ্যালগরিদমিক পন্থা ব্যবহার করে। আমার সহকর্মী তার ধাপে ধাপে নির্দেশিকাতে রাস্তার পৃষ্ঠ সনাক্তকরণের জন্য এমন একটি পদ্ধতির বর্ণনা করেছেন1 ঘন্টার মধ্যে 100 টি লিডার স্ক্যান কিভাবে টীকা করবেন . একটি অ্যালগরিদমিক পদ্ধতি বিশেষ করে রাস্তার টীকাটি ম্যানুয়াল টীকা ছাড়াই পাওয়ার অনুমতি দিতে পারে, তবে নির্দিষ্ট ডেটার জন্য এটির সূক্ষ্ম টিউনিং প্রয়োজন। Evocargo এ আমরা উভয় পন্থা ব্যবহার করি। সাধারণ এলাকার জন্য, রাস্তাটি অ্যালগরিদমিকভাবে এবং জটিল অংশগুলির জন্য - ম্যানুয়ালি টীকা করা হয়।


2 ডেটা প্রস্তুতি


একটি প্রাপ্ত বিন্দু ক্লাউড চিত্র সমতলে প্রজেক্ট করা হয় সমজাতীয় রূপান্তর ব্যবহার করে আমাদের প্রয়োজনীয় ক্লাস লেবেল সহ একটি চিত্র বিভাজন মাস্ক পেতে, আমাদের ক্ষেত্রে এটি একটি রাস্তা। এই ধরনের প্রজেকশনের জন্য, আমরা সিঙ্ক্রোনাইজড ক্যামেরা এবং লিডার ফ্রেম ব্যবহার করি, ক্যামেরা প্যারামিটার সহ, এবং লিডার থেকে ক্যামেরা ফ্রেমে একটি রূপান্তর ম্যাট্রিক্স। লিডার ফ্রেমে সমজাতীয় বিন্দু x = (x, y, z, 1)ᵀ বিন্দু y = (u, v, 1)ᵀ বিন্দুতে একটি চিত্র সমতলে প্রজেক্ট করতে, আমরা সমীকরণটি ব্যবহার করি:


রূপান্তরের পরে, আমরা রাস্তার শ্রেণী এবং লিডার স্ক্যান থেকে অন্যান্য সমস্ত পয়েন্টের জন্য পিক্সেলের মুখোশ হিসাবে চিত্রটিতে পয়েন্ট পাই। আমাদের অন্যান্য লিডার স্ক্যান পয়েন্টের প্রয়োজন, কারণ লিডার পয়েন্টগুলি বেশিরভাগই ছবির নীচে অবস্থিত এবং ছবির শীর্ষে কোনও বিন্দু নেই যা সম্ভাব্যভাবে সেই এলাকায় ভুল ভবিষ্যদ্বাণীর দিকে পরিচালিত করে৷ এই প্রভাবটি দূর করার জন্য, আমরা মাস্কের উপরের অর্ধেক (নেতিবাচক শ্রেণী) এলোমেলো পয়েন্টগুলি যোগ করি যেখানে আমরা ক্ষতি গণনা করব পয়েন্টগুলির বন্টনের ভারসাম্য বজায় রাখতে।


অভিক্ষিপ্ত রাস্তা পয়েন্ট এবং ক্ষতি গণনা মাস্ক


3 মুখোশযুক্ত ক্ষতি


আমাদের পদ্ধতির একটি গুরুত্বপূর্ণ উপাদান হল মডেল প্রশিক্ষণের সময় একটি মুখোশযুক্ত ক্ষতি ফাংশনের প্রয়োগ। এই পদ্ধতিটি লিডার থেকে প্রাপ্ত গ্রাউন্ড-ট্রুথ মাস্কের অন্তর্নিহিত স্প্যার্সিটি দূর করে। প্রচলিত লস ফাংশনগুলির বিপরীতে, যা ত্রুটিগুলি গণনা করার জন্য সম্পূর্ণ চিত্রের মুখোশগুলিকে বিবেচনা করে, মুখোশযুক্ত ক্ষতি শুধুমাত্র সেই অঞ্চলগুলিতে ফোকাস করে যেখানে লিডার পয়েন্টগুলি উপস্থিত রয়েছে৷ এই লক্ষ্যযুক্ত ক্ষতির গণনা নিশ্চিত করে যে মডেলের শিক্ষা প্রাসঙ্গিক অঞ্চলে কেন্দ্রীভূত হয়, রাস্তা বিভাজন নির্ভুলতা উন্নত করতে lidar দ্বারা প্রদত্ত তথ্য ব্যবহার করে। অন্য কথায়, আমরা পয়েন্টের গ্রিডে ভবিষ্যদ্বাণীর ত্রুটি পরিমাপ করে মডেলটিকে রাস্তার বিভাজন শিখতে বাধ্য করি। এটি শাটার চশমা (শাটার শেড) ব্যবহার করে ছবিটি দেখার সাথে তুলনা করা যেতে পারে।

শাটার চশমা দিয়ে রাস্তার দৃশ্য


প্রতিটি ছবির জন্য মুখোশের ক্ষতি এইভাবে প্রণয়ন করা যেতে পারে:

প্রশিক্ষণের চিত্রগুলিতে একটি বাইনারি মাস্ক প্রয়োগ করে মুখোশের ক্ষতি করা হয়। এই মুখোশটি সেই অঞ্চলগুলির রূপরেখা দেয় যেখানে লিডার পয়েন্টগুলি অবস্থিত এবং চিত্র সমতলের উপর প্রক্ষিপ্ত। প্রশিক্ষণ পর্বের সময়, ক্ষতি শুধুমাত্র সেই পিক্সেলগুলির জন্য গণনা করা হয় যেগুলি মুখোশের নীচে রয়েছে, কার্যকরভাবে চিত্রের বৃহৎ অব্যক্ত অংশগুলিকে উপেক্ষা করে৷ এই পদ্ধতিটি শুধুমাত্র প্রশিক্ষণ প্রক্রিয়ার কার্যকারিতাই উন্নত করে না, তবে লিডার ডেটার বিরল প্রকৃতির দ্বারা উপস্থাপিত সমস্যাগুলিকেও প্রশমিত করে।


4 মডেল প্রশিক্ষণ


চূড়ান্ত ধাপে তৈরি করা ডেটাসেটে সেগমেন্টেশন মডেলের প্রশিক্ষণ অন্তর্ভুক্ত। প্রশিক্ষণ প্রক্রিয়া যেকোন সেগমেন্টেশন মডেলের জন্য উপযুক্ত হতে পারে এবং আমাদের গবেষণায় আমরা PSPNet ব্যবহার করেছি। এই পর্যায়ে, সবকিছু আপনার ডেটার গুণমান, এর পরিমাণ এবং উপলব্ধ কম্পিউটিং শক্তির উপর নির্ভর করে।


প্রতিশ্রুতিশীল পরীক্ষার ফলাফল

আমরা ওপেন-সোর্স সহ বিভিন্ন ডেটাসেটে আমাদের পদ্ধতির পরীক্ষা করেছি, যেমন পারসেপশন ওয়েমো ওপেন ডেটাসেট এবং KITTI-360 ডেটাসেট। প্রতিবার আমরা তিনটি পরীক্ষার একটি সেট পরিচালনা করেছি: শুধুমাত্র 2D রোড গ্রাউন্ড ট্রুথ ব্যবহার করে, গ্রাউন্ড ট্রুথ হিসেবে শুধুমাত্র প্রজেক্টেড পয়েন্ট এবং এই ধরনের গ্রাউন্ড ট্রুথের মিশ্রণ। এবং রাস্তা বিভাজন (IoU এর%) ফলাফল আশাব্যঞ্জক দেখাচ্ছে:


পরীক্ষা

KITTI-360 ডেটাসেটে প্রশিক্ষিত

Waymo ডেটাসেটে প্রশিক্ষিত

শুধুমাত্র 2D (বেসলাইন)

92.3

96.1

শুধুমাত্র প্রজেক্টেড 3D

৮৯.৬

94.7

2D + প্রজেক্টেড 3D মিশ্রিত করুন

92.7

96.3


এই সংখ্যাগুলির মানে হল যে আপনার যদি শুধুমাত্র লিডার সেগমেন্টেশন থাকে এবং আপনি 2D ইমেজ টীকাগুলিতে অতিরিক্ত সংস্থান ব্যয় করতে না চান তবে ঠিক আছে। শুধুমাত্র 2D ইমেজ মাস্কে প্রশিক্ষণের তুলনায় মানের হ্রাস তুচ্ছ হতে পারে। যদি আপনার কাছে উভয় সেন্সর থেকে ডেটা টীকা করার সংস্থান থাকে, তাহলে প্রশিক্ষণ প্রক্রিয়া চলাকালীন এই দুটি ধরণের টীকা একত্রিত করুন এবং মেট্রিক্স বৃদ্ধি পান।


গবেষণার সময় আমরা যে পদ্ধতিটি পর্যবেক্ষণ করেছি তার সর্বোপরি সুবিধাগুলি হল:


  • ইমেজ সেগমেন্টেশন টাস্কে নিউরাল নেটওয়ার্কের উচ্চ মানের কর্মক্ষমতা,
  • বিভিন্ন ধরণের সেন্সর থেকে ডেটা টীকা করার জন্য কম সংস্থান প্রয়োজন,
  • বিভিন্ন চিত্রের ধরন এবং বিভাজন কাজের সাথে খাপ খাইয়ে নেওয়ার নমনীয়তা।


বিভিন্ন আকার এবং অন্যান্য যানবাহনের বাধা সহ রাস্তার সঠিক বিভাজন। এই ফলাফলগুলি আমাদের নিজস্ব মালিকানার ডেটাতে প্রশিক্ষিত মডেল থেকে প্রাপ্ত হয়৷


পদ্ধতির লেখক