The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.
Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.
লেখক:
(1) Juan F. Montesinos, ডিপার্টমেন্ট অফ ইনফরমেশন অ্যান্ড কমিউনিকেশনস টেকনোলজিস ইউনিভার্সিটি পম্পেউ ফ্যাব্রা, বার্সেলোনা, স্পেন {juanfelipe.montesinos@upf.edu};
(2) ওলগা স্লিজোভস্কায়া, তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ ইউনিভার্সিটি পম্পেউ ফ্যাব্রা, বার্সেলোনা, স্পেন {olga.slizovskaia@upf.edu};
(3) Gloria Haro, তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ ইউনিভার্সিটি Pompeu Fabra, বার্সেলোনা, স্পেন {gloria.haro@upf.edu}।
Solos[1] কে URMP [1] ডেটাসেটের মতো একই শ্রেণীবদ্ধ করার জন্য ডিজাইন করা হয়েছে, যাতে URMP একটি বাস্তব-বিশ্বের দৃশ্যে টেস্টিং ডেটাসেট হিসেবে ব্যবহার করা যায়। এইভাবে আমরা পরীক্ষায় মিশ্রণ-এবং-পৃথক ব্যবহার এড়িয়ে উৎস পৃথকীকরণ অ্যালগরিদমের কর্মক্ষমতা মূল্যায়নের একটি আদর্শ উপায় স্থাপন করার লক্ষ্য রাখি। চিত্র 1-এ দেখানো 13টি বিভাগের মধ্যে 755টি রেকর্ডিং বিতরণ করা হয়েছে সোলোস, প্রতি বিভাগে গড়ে 58টি রেকর্ডিং এবং গড় সময়কাল 5:16 মিনিট। এটি হাইলাইট করা আকর্ষণীয় যে, 13টি বিভাগের মধ্যে 8টির জন্য, একটি YouTube-সংগৃহীত ডেটাসেট হওয়া সত্ত্বেও রেজোলিউশনের মধ্যম হল HD। প্রতি-শ্রেণির পরিসংখ্যানগুলি সারণি I-তে পাওয়া যেতে পারে। এই রেকর্ডিংগুলি ইংরেজি, স্প্যানিশ, ফ্রেঞ্চ, ইতালীয়, চাইনিজ বা রুশের মতো বিভিন্ন ভাষায় একক ট্যাগ এবং অডিশন ব্যবহার করে ইউটিউবকে জিজ্ঞাসা করে সংগ্রহ করা হয়েছিল।
উ: ওপেনপোজ কঙ্কাল
সলোস কেবল রেকর্ডিংয়ের একটি সেট নয়। ভিডিও শনাক্তকারী ছাড়াও আমরা আরও প্রদান করি: i) প্রতিটি রেকর্ডিংয়ের প্রতিটি ফ্রেমে ওপেনপোজ [৩৩] দ্বারা অনুমান করা শরীর এবং হাতের কঙ্কাল এবং ii) দরকারী অংশগুলি নির্দেশ করে টাইমস্ট্যাম্প৷ ওপেনপোজ এমন একটি সিস্টেম যা শরীরের কঙ্কাল এবং হাতের কঙ্কালের পূর্বাভাস দিতে সক্ষম
সোলোস ডেটাসেটের টেবিল পরিসংখ্যান
দুটি ভিন্ন নিউরাল নেটওয়ার্ক ব্যবহার করা। এটি করার জন্য, তারা বিশ্বাসের একটি আত্মবিশ্বাসের মানচিত্র ভবিষ্যদ্বাণী করে যে একটি নির্দিষ্ট শরীরের অংশ যে কোনো নির্দিষ্ট পিক্সেলের পাশাপাশি অংশ সম্বন্ধীয় ক্ষেত্রগুলিতে অবস্থিত হতে পারে যা শরীরের বিভিন্ন অংশের মধ্যে সংযোগের মাত্রাকে এনকোড করে। অবশেষে, এটি লোভী অনুমানের মাধ্যমে 2D কঙ্কাল এবং প্রতি-জয়েন্ট আত্মবিশ্বাসের পূর্বাভাস দেয়। অনুশীলনে, শরীরের কঙ্কাল একটি প্রথম নেটওয়ার্কের সাথে অনুমান করা হয়। তারপরে, শরীরের কঙ্কালের কব্জির অবস্থান উভয় হাতের অবস্থান অনুমান করতে ব্যবহৃত হয়। একটি দ্বিতীয় নিউরাল নেটওয়ার্ক স্বাধীনভাবে প্রতিটি হাতের কঙ্কাল পায়। মনে রাখবেন যে যেহেতু প্রতিটি শরীরের অংশ স্বাধীনভাবে অনুমান করা হয়, ওপেনপোজ খুঁজে পেতে অঙ্গ সম্পর্কে কোন অনুমান করে না। এটি শুধুমাত্র আত্মবিশ্বাসের মানচিত্র এবং অংশ সম্বন্ধীয় ক্ষেত্র প্রদত্ত সম্ভাব্য কঙ্কাল গণনা করে। পুরো প্রক্রিয়াটি ফ্রেম অনুযায়ী সঞ্চালিত হয়। এটি ফ্রেমের মধ্যে একটি ছোট ঝাঁকুনি এবং ভুল ধারণার দিকে পরিচালিত করে।
B. টাইমস্ট্যাম্প অনুমান এবং কঙ্কাল পরিমার্জন
ওপেনপোজ মানচিত্রগুলি স্থানাঙ্কের উত্সের জয়েন্টগুলিকে ভুলভাবে অনুমান করেছে৷ আমরা পরীক্ষামূলকভাবে দেখেছি যে জয়েন্টের অবস্থানে এত বড় লাফ শব্দ করে। ইন্টারপোলেটেড স্থানাঙ্ক ব্যবহার করে এই সমস্যার সমাধান করতে সাহায্য করে।
এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।
[১] ডেটাসেট https://juanfmontesinos.github.io/Solos/ এ উপলব্ধ
সোলোস: অডিও-ভিজ্যুয়াল সঙ্গীত বিশ্লেষণের জন্য একটি ডেটাসেট - ডেটাসেট | HackerNoon