ট্রান্সফরমার অনেক দৃষ্টি কাজের জন্য পছন্দের মডেল আর্কিটেকচার হয়ে উঠেছে। ভিশন ট্রান্সফরমার (ViTs) বিশেষ করে জনপ্রিয়। তারা ট্রান্সফরমারকে সরাসরি ইমেজ প্যাচের ক্রমগুলিতে প্রয়োগ করে। ViTs এখন চিত্র শ্রেণীবিভাগের মত বেঞ্চমার্কে CNN-এর সাথে মেলে বা অতিক্রম করে। যাইহোক, Meta এবং INRIA-এর গবেষকরা ViT-এর অভ্যন্তরীণ কাজের মধ্যে কিছু অদ্ভুত নিদর্শন চিহ্নিত করেছেন।
এই পোস্টে, আমরা একটি মধ্যে একটি গভীর ডুব করতে হবে
অনেক আগের কাজ মসৃণ, ব্যাখ্যাযোগ্য মনোযোগ মানচিত্র তৈরির জন্য দৃষ্টি ট্রান্সফরমারের প্রশংসা করেছে। এগুলি আমাদের মডেলটি ফোকাস করছে ছবির কোন অংশগুলিতে উঁকি দেওয়া যাক৷
অদ্ভুতভাবে, অনেক ViT ভেরিয়েন্ট এলোমেলো, তথ্যহীন ব্যাকগ্রাউন্ড প্যাচগুলিতে উচ্চ মনোযোগের স্পাইক দেখায়। কেন এই মডেলগুলি এই চিত্রগুলির মূল বিষয়গুলির পরিবর্তে বিরক্তিকর, গুরুত্বহীন পটভূমি উপাদানগুলিতে এত বেশি ফোকাস করছে?
মডেল জুড়ে মনোযোগের মানচিত্রগুলিকে কল্পনা করে এবং উপরেরটির মতো চিত্র তৈরি করে, গবেষকরা নিশ্চিতভাবে দেখান যে এটি DINOv2-এর মতো নতুন স্ব-তত্ত্বাবধানকৃত মডেলগুলির সাথে DeiT এবং CLIP-এর মতো তত্ত্বাবধানে থাকা সংস্করণগুলিতে ঘটে।
স্পষ্টতই, কিছু মডেলগুলিকে ব্যাখ্যাতীতভাবে ব্যাকগ্রাউন্ডের শব্দে ফোকাস করতে বাধ্য করছে। কিন্তু কি?
আউটপুট এম্বেডিংগুলিকে সংখ্যাগতভাবে অনুসন্ধান করে, লেখকরা মূল কারণ চিহ্নিত করেছেন। প্যাচ টোকেনগুলির একটি ছোট ভগ্নাংশ (প্রায় 2%) অস্বাভাবিকভাবে উচ্চ L2 নিয়ম রয়েছে, যা তাদের চরম বহিরাগত করে তোলে।
নিউরাল নেটওয়ার্কের পরিপ্রেক্ষিতে, নিউরনের ওজন এবং পক্ষপাতগুলি ভেক্টর হিসাবে উপস্থাপন করা যেতে পারে। একটি ভেক্টরের L2 আদর্শ (এছাড়াও ইউক্লিডীয় আদর্শ হিসাবে পরিচিত) এটির মাত্রার একটি পরিমাপ এবং এটির উপাদানগুলির বর্গের সমষ্টির বর্গমূল হিসাবে গণনা করা হয়।
যখন আমরা বলি একটি ভেক্টর (যেমন, একটি নিউরন বা স্তরের ওজন) একটি "অস্বাভাবিকভাবে উচ্চ L2 আদর্শ" আছে, এর মানে হল যে প্রদত্ত প্রসঙ্গে প্রত্যাশিত বা সাধারণের তুলনায় সেই ভেক্টরের মাত্রা বা দৈর্ঘ্য অস্বাভাবিকভাবে বড়।
নিউরাল নেটওয়ার্কে উচ্চ L2 নিয়মগুলি কয়েকটি সমস্যার ইঙ্গিত হতে পারে:
ওভারফিটিং : যদি মডেলটি প্রশিক্ষণের ডেটার সাথে খুব ঘনিষ্ঠভাবে মানানসই হয় এবং শব্দ ক্যাপচার করে, তাহলে ওজন অনেক বড় হয়ে যেতে পারে। L2 নিয়মিতকরণের মতো নিয়মিতকরণ কৌশলগুলি এটি প্রশমিত করতে বড় ওজনকে শাস্তি দেয়।
সংখ্যাগত অস্থিরতা : খুব বড় বা খুব ছোট ওজন সংখ্যাগত সমস্যা সৃষ্টি করতে পারে, যা মডেল অস্থিরতার দিকে পরিচালিত করে।
দুর্বল সাধারণীকরণ : উচ্চ L2 নিয়মগুলিও ইঙ্গিত করতে পারে যে মডেলটি নতুন, অদেখা ডেটার জন্য ভালভাবে সাধারণীকরণ করতে পারে না।
সরল ইংরেজিতে এর মানে কি? কল্পনা করুন যে আপনি একটি করাতের ভারসাম্য বজায় রাখার চেষ্টা করছেন এবং আপনার উভয় পাশে বিভিন্ন আকারের ওজন (বা বালির ব্যাগ) আছে। প্রতিটি ব্যাগের আকার দেখায় ভারসাম্য বজায় রাখার ক্ষেত্রে কতটা প্রভাব বা গুরুত্ব রয়েছে। এখন, যদি এই ব্যাগগুলির মধ্যে একটি অস্বাভাবিকভাবে বড় হয় (একটি উচ্চ "L2 আদর্শ" আছে), এর মানে হল ব্যাগটি ভারসাম্যের উপর খুব বেশি প্রভাব ফেলছে।
একটি ইউরাল নেটওয়ার্কের প্রেক্ষাপটে, যদি এটির একটি অংশের অস্বাভাবিকভাবে উচ্চ প্রভাব থাকে (উচ্চ L2 আদর্শ), এটি অন্যান্য গুরুত্বপূর্ণ অংশগুলিকে ছাপিয়ে যেতে পারে, যা ভুল সিদ্ধান্ত বা নির্দিষ্ট বৈশিষ্ট্যের উপর অতিরিক্ত নির্ভরতা সৃষ্টি করতে পারে। এটি আদর্শ নয়, এবং আমরা প্রায়শই মেশিনটি সামঞ্জস্য করার চেষ্টা করি যাতে কোনও একক অংশ খুব বেশি অযাচিত প্রভাব না রাখে।
এই উচ্চ-আদর্শ টোকেনগুলি মনোযোগ মানচিত্রের স্পাইকের সাথে সরাসরি মিলে যায়। তাই মডেলরা অজানা কারণে বেছে বেছে এই প্যাচগুলো হাইলাইট করছে।
অতিরিক্ত পরীক্ষাগুলি প্রকাশ করে:
উপরন্তু, যদিও বহিরাগতরা তাদের আসল প্যাচ সম্পর্কে কম তথ্য রাখে, তারা সম্পূর্ণ চিত্র বিভাগের আরও ভবিষ্যদ্বাণী করে।
এই প্রমাণ একটি কৌতূহলী তত্ত্ব নির্দেশ করে ...
লেখকরা অনুমান করেন যে মডেলগুলি ImageNet-22K-এর মতো বড় ডেটাসেটগুলিতে প্রশিক্ষণের সময়, তারা কম-তথ্য প্যাচগুলি সনাক্ত করতে শিখে যার মানগুলি চিত্রের শব্দার্থ না হারিয়ে ফেলে দেওয়া যেতে পারে৷
মডেলটি তারপরে অপ্রাসঙ্গিক স্থানীয় বিবরণ বাদ দিয়ে সম্পূর্ণ চিত্র সম্পর্কে অস্থায়ী বিশ্বব্যাপী তথ্য সংরক্ষণ করতে সেই প্যাচ এম্বেডিংগুলিকে পুনর্ব্যবহার করে। এটি দক্ষ অভ্যন্তরীণ বৈশিষ্ট্য প্রক্রিয়াকরণের অনুমতি দেয়।
যাইহোক, এই রিসাইক্লিং অবাঞ্ছিত পার্শ্ব প্রতিক্রিয়া সৃষ্টি করে:
সুতরাং যখন এই আচরণ স্বাভাবিকভাবে আবির্ভূত হয়, তখন এর নেতিবাচক ফলাফল রয়েছে।
পুনর্ব্যবহৃত প্যাচগুলি উপশম করার জন্য, গবেষকরা ক্রমটিতে "রেজিস্টার" টোকেন যুক্ত করে মডেলগুলিকে উত্সর্গীকৃত স্টোরেজ দেওয়ার প্রস্তাব করেছেন। এটি অভ্যন্তরীণ গণনার জন্য অস্থায়ী স্ক্র্যাচ স্থান প্রদান করে, র্যান্ডম প্যাচ এম্বেডিংয়ের হাইজ্যাকিং প্রতিরোধ করে।
উল্লেখযোগ্যভাবে, এই সহজ খামচি খুব ভাল কাজ করে.
রেজিস্টার সহ প্রশিক্ষিত মডেলগুলি দেখায়:
রেজিস্টারগুলি রিসাইক্লিং প্রক্রিয়াটিকে একটি সঠিক বাড়ি দেয়, এর খারাপ পার্শ্বপ্রতিক্রিয়া দূর করে। শুধু একটি ছোট স্থাপত্য পরিবর্তন লক্ষণীয় লাভ আনলক করে।
এই আকর্ষণীয় অধ্যয়নটি বেশ কিছু মূল্যবান অন্তর্দৃষ্টি প্রদান করে:
নিউরাল নেটওয়ার্ক ব্ল্যাক বক্সের ভিতরে উঁকি দেওয়া তাদের অভ্যন্তরীণ কার্যকারিতা সম্পর্কে অনেক কিছু প্রকাশ করে, ক্রমবর্ধমান উন্নতির নির্দেশনা দেয়। এই ধরনের আরো কাজ ক্রমাগতভাবে ট্রান্সফরমার ক্ষমতা অগ্রসর হবে.
দৃষ্টি ট্রান্সফরমারগুলির অগ্রগতির দ্রুত গতি ধীর হওয়ার কোন লক্ষণ দেখায় না। আমরা উত্তেজনাপূর্ণ সময়ে বাস!
এছাড়াও এখানে প্রকাশিত.