1,593 পড়া

কেন ভিশন ট্রান্সফরমার বিরক্তিকর পটভূমিতে ফোকাস করছে?

দ্বারা Mike Young5m2023/10/02

অতিদীর্ঘ; পড়তে

ভিশন ট্রান্সফরমার (ViTs) চিত্র-সম্পর্কিত কাজের জন্য জনপ্রিয়তা অর্জন করেছে কিন্তু অদ্ভুত আচরণ প্রদর্শন করে: চিত্রের মূল বিষয়গুলির পরিবর্তে গুরুত্বহীন ব্যাকগ্রাউন্ড প্যাচগুলিতে ফোকাস করা। গবেষকরা দেখেছেন যে অস্বাভাবিকভাবে উচ্চ L2 নিয়ম সহ প্যাচ টোকেনের একটি ছোট ভগ্নাংশ এই স্পাইকগুলিকে মনোযোগের দিকে নিয়ে যায়। তারা অনুমান করে যে ViTs কম-তথ্য প্যাচগুলিকে বিশ্বব্যাপী চিত্র তথ্য সংরক্ষণ করতে পুনর্ব্যবহার করে, যা এই আচরণের দিকে পরিচালিত করে। এটি ঠিক করার জন্য, তারা ডেডিকেটেড স্টোরেজ প্রদানের জন্য "রেজিস্টার" টোকেন যোগ করার প্রস্তাব দেয়, যার ফলে মনোযোগের মানচিত্র আরও মসৃণ হয়, আরও ভাল কর্মক্ষমতা এবং উন্নত বস্তু আবিষ্কারের ক্ষমতা। এই অধ্যয়নটি ট্রান্সফরমার সক্ষমতা উন্নত করার জন্য মডেল আর্টিফ্যাক্টগুলিতে চলমান গবেষণার প্রয়োজনীয়তা তুলে ধরে।

featured image - কেন ভিশন ট্রান্সফরমার বিরক্তিকর পটভূমিতে ফোকাস করছে?

ট্রান্সফরমার অনেক দৃষ্টি কাজের জন্য পছন্দের মডেল আর্কিটেকচার হয়ে উঠেছে। ভিশন ট্রান্সফরমার (ViTs) বিশেষ করে জনপ্রিয়। তারা ট্রান্সফরমারকে সরাসরি ইমেজ প্যাচের ক্রমগুলিতে প্রয়োগ করে। ViTs এখন চিত্র শ্রেণীবিভাগের মত বেঞ্চমার্কে CNN-এর সাথে মেলে বা অতিক্রম করে। যাইহোক, Meta এবং INRIA-এর গবেষকরা ViT-এর অভ্যন্তরীণ কাজের মধ্যে কিছু অদ্ভুত নিদর্শন চিহ্নিত করেছেন।

এই পোস্টে, আমরা একটি মধ্যে একটি গভীর ডুব করতে হবে নতুন কাগজ এই নিদর্শনগুলির কারণ অনুসন্ধান করা হচ্ছে। এবং আমরা দেখব কিভাবে গবেষকরা একটি সহজ কৌশল ব্যবহার করেছেন (খুব বেশি ক্লিকবেট-ওয়াই না শোনানো) মডেলগুলিকে ছবির বিষয়গুলিতে ফোকাস করার জন্য এবং বিরক্তিকর ব্যাকগ্রাউন্ড প্যাচগুলিতে নয় যা তাদের বিভ্রান্ত করে। চলো যাই.

রহস্যময় মনোযোগ স্পাইকস

অনেক আগের কাজ মসৃণ, ব্যাখ্যাযোগ্য মনোযোগ মানচিত্র তৈরির জন্য দৃষ্টি ট্রান্সফরমারের প্রশংসা করেছে। এগুলি আমাদের মডেলটি ফোকাস করছে ছবির কোন অংশগুলিতে উঁকি দেওয়া যাক৷

অদ্ভুতভাবে, অনেক ViT ভেরিয়েন্ট এলোমেলো, তথ্যহীন ব্যাকগ্রাউন্ড প্যাচগুলিতে উচ্চ মনোযোগের স্পাইক দেখায়। কেন এই মডেলগুলি এই চিত্রগুলির মূল বিষয়গুলির পরিবর্তে বিরক্তিকর, গুরুত্বহীন পটভূমি উপাদানগুলিতে এত বেশি ফোকাস করছে?

মডেল জুড়ে মনোযোগের মানচিত্রগুলিকে কল্পনা করে এবং উপরেরটির মতো চিত্র তৈরি করে, গবেষকরা নিশ্চিতভাবে দেখান যে এটি DINOv2-এর মতো নতুন স্ব-তত্ত্বাবধানকৃত মডেলগুলির সাথে DeiT এবং CLIP-এর মতো তত্ত্বাবধানে থাকা সংস্করণগুলিতে ঘটে।

স্পষ্টতই, কিছু মডেলগুলিকে ব্যাখ্যাতীতভাবে ব্যাকগ্রাউন্ডের শব্দে ফোকাস করতে বাধ্য করছে। কিন্তু কি?

কারণ ট্রেসিং: হাই-নর্ম আউটলায়ার টোকেন

আউটপুট এম্বেডিংগুলিকে সংখ্যাগতভাবে অনুসন্ধান করে, লেখকরা মূল কারণ চিহ্নিত করেছেন। প্যাচ টোকেনগুলির একটি ছোট ভগ্নাংশ (প্রায় 2%) অস্বাভাবিকভাবে উচ্চ L2 নিয়ম রয়েছে, যা তাদের চরম বহিরাগত করে তোলে।

নিউরাল নেটওয়ার্কের পরিপ্রেক্ষিতে, নিউরনের ওজন এবং পক্ষপাতগুলি ভেক্টর হিসাবে উপস্থাপন করা যেতে পারে। একটি ভেক্টরের L2 আদর্শ (এছাড়াও ইউক্লিডীয় আদর্শ হিসাবে পরিচিত) এটির মাত্রার একটি পরিমাপ এবং এটির উপাদানগুলির বর্গের সমষ্টির বর্গমূল হিসাবে গণনা করা হয়।

যখন আমরা বলি একটি ভেক্টর (যেমন, একটি নিউরন বা স্তরের ওজন) একটি "অস্বাভাবিকভাবে উচ্চ L2 আদর্শ" আছে, এর মানে হল যে প্রদত্ত প্রসঙ্গে প্রত্যাশিত বা সাধারণের তুলনায় সেই ভেক্টরের মাত্রা বা দৈর্ঘ্য অস্বাভাবিকভাবে বড়।

নিউরাল নেটওয়ার্কে উচ্চ L2 নিয়মগুলি কয়েকটি সমস্যার ইঙ্গিত হতে পারে:

ওভারফিটিং : যদি মডেলটি প্রশিক্ষণের ডেটার সাথে খুব ঘনিষ্ঠভাবে মানানসই হয় এবং শব্দ ক্যাপচার করে, তাহলে ওজন অনেক বড় হয়ে যেতে পারে। L2 নিয়মিতকরণের মতো নিয়মিতকরণ কৌশলগুলি এটি প্রশমিত করতে বড় ওজনকে শাস্তি দেয়।
সংখ্যাগত অস্থিরতা : খুব বড় বা খুব ছোট ওজন সংখ্যাগত সমস্যা সৃষ্টি করতে পারে, যা মডেল অস্থিরতার দিকে পরিচালিত করে।
দুর্বল সাধারণীকরণ : উচ্চ L2 নিয়মগুলিও ইঙ্গিত করতে পারে যে মডেলটি নতুন, অদেখা ডেটার জন্য ভালভাবে সাধারণীকরণ করতে পারে না।

সরল ইংরেজিতে এর মানে কি? কল্পনা করুন যে আপনি একটি করাতের ভারসাম্য বজায় রাখার চেষ্টা করছেন এবং আপনার উভয় পাশে বিভিন্ন আকারের ওজন (বা বালির ব্যাগ) আছে। প্রতিটি ব্যাগের আকার দেখায় ভারসাম্য বজায় রাখার ক্ষেত্রে কতটা প্রভাব বা গুরুত্ব রয়েছে। এখন, যদি এই ব্যাগগুলির মধ্যে একটি অস্বাভাবিকভাবে বড় হয় (একটি উচ্চ "L2 আদর্শ" আছে), এর মানে হল ব্যাগটি ভারসাম্যের উপর খুব বেশি প্রভাব ফেলছে।

একটি ইউরাল নেটওয়ার্কের প্রেক্ষাপটে, যদি এটির একটি অংশের অস্বাভাবিকভাবে উচ্চ প্রভাব থাকে (উচ্চ L2 আদর্শ), এটি অন্যান্য গুরুত্বপূর্ণ অংশগুলিকে ছাপিয়ে যেতে পারে, যা ভুল সিদ্ধান্ত বা নির্দিষ্ট বৈশিষ্ট্যের উপর অতিরিক্ত নির্ভরতা সৃষ্টি করতে পারে। এটি আদর্শ নয়, এবং আমরা প্রায়শই মেশিনটি সামঞ্জস্য করার চেষ্টা করি যাতে কোনও একক অংশ খুব বেশি অযাচিত প্রভাব না রাখে।

এই উচ্চ-আদর্শ টোকেনগুলি মনোযোগ মানচিত্রের স্পাইকের সাথে সরাসরি মিলে যায়। তাই মডেলরা অজানা কারণে বেছে বেছে এই প্যাচগুলো হাইলাইট করছে।

অতিরিক্ত পরীক্ষাগুলি প্রকাশ করে:

বহিরাগতরা শুধুমাত্র যথেষ্ট বড় মডেলের প্রশিক্ষণের সময় উপস্থিত হয়।
তারা প্রশিক্ষণের মধ্য দিয়ে প্রায় অর্ধেক পথ উত্থান করে।
এগুলি তাদের প্রতিবেশীদের সাথে অত্যন্ত অনুরূপ প্যাচগুলিতে ঘটে, যা অপ্রয়োজনীয়তার পরামর্শ দেয়।

উপরন্তু, যদিও বহিরাগতরা তাদের আসল প্যাচ সম্পর্কে কম তথ্য রাখে, তারা সম্পূর্ণ চিত্র বিভাগের আরও ভবিষ্যদ্বাণী করে।

এই প্রমাণ একটি কৌতূহলী তত্ত্ব নির্দেশ করে ...

রিসাইক্লিং হাইপোথিসিস

লেখকরা অনুমান করেন যে মডেলগুলি ImageNet-22K-এর মতো বড় ডেটাসেটগুলিতে প্রশিক্ষণের সময়, তারা কম-তথ্য প্যাচগুলি সনাক্ত করতে শিখে যার মানগুলি চিত্রের শব্দার্থ না হারিয়ে ফেলে দেওয়া যেতে পারে৷

মডেলটি তারপরে অপ্রাসঙ্গিক স্থানীয় বিবরণ বাদ দিয়ে সম্পূর্ণ চিত্র সম্পর্কে অস্থায়ী বিশ্বব্যাপী তথ্য সংরক্ষণ করতে সেই প্যাচ এম্বেডিংগুলিকে পুনর্ব্যবহার করে। এটি দক্ষ অভ্যন্তরীণ বৈশিষ্ট্য প্রক্রিয়াকরণের অনুমতি দেয়।

যাইহোক, এই রিসাইক্লিং অবাঞ্ছিত পার্শ্ব প্রতিক্রিয়া সৃষ্টি করে:

মূল প্যাচের বিবরণ হারিয়ে যাওয়া, বিভাজনের মতো ঘন কাজগুলিকে ক্ষতিগ্রস্ত করে
স্পাইকি মনোযোগ মানচিত্র যা ব্যাখ্যা করা কঠিন
বস্তু আবিষ্কার পদ্ধতির সাথে অসঙ্গতি

সুতরাং যখন এই আচরণ স্বাভাবিকভাবে আবির্ভূত হয়, তখন এর নেতিবাচক ফলাফল রয়েছে।

এক্সপ্লিসিট রেজিস্টারের সাথে ভিআইটি ঠিক করা

পুনর্ব্যবহৃত প্যাচগুলি উপশম করার জন্য, গবেষকরা ক্রমটিতে "রেজিস্টার" টোকেন যুক্ত করে মডেলগুলিকে উত্সর্গীকৃত স্টোরেজ দেওয়ার প্রস্তাব করেছেন। এটি অভ্যন্তরীণ গণনার জন্য অস্থায়ী স্ক্র্যাচ স্থান প্রদান করে, র্যান্ডম প্যাচ এম্বেডিংয়ের হাইজ্যাকিং প্রতিরোধ করে।

উল্লেখযোগ্যভাবে, এই সহজ খামচি খুব ভাল কাজ করে.

রেজিস্টার সহ প্রশিক্ষিত মডেলগুলি দেখায়:

মসৃণ, আরো শব্দার্থগতভাবে অর্থপূর্ণ মনোযোগ মানচিত্র
বিভিন্ন বেঞ্চমার্কে ছোটখাটো কর্মক্ষমতা বৃদ্ধি করে
ব্যাপকভাবে উন্নত বস্তু আবিষ্কার ক্ষমতা

রেজিস্টারগুলি রিসাইক্লিং প্রক্রিয়াটিকে একটি সঠিক বাড়ি দেয়, এর খারাপ পার্শ্বপ্রতিক্রিয়া দূর করে। শুধু একটি ছোট স্থাপত্য পরিবর্তন লক্ষণীয় লাভ আনলক করে।

কী Takeaways

এই আকর্ষণীয় অধ্যয়নটি বেশ কিছু মূল্যবান অন্তর্দৃষ্টি প্রদান করে:

ভিশন ট্রান্সফরমারগুলি স্টোরেজের জন্য পুনর্ব্যবহারযোগ্য প্যাচগুলির মতো অপ্রত্যাশিত আচরণ বিকাশ করে
রেজিস্টার যোগ করা অস্থায়ী স্ক্র্যাচ স্থান দেয়, অনিচ্ছাকৃত পার্শ্ব প্রতিক্রিয়া প্রতিরোধ করে
এই সহজ সমাধান মনোযোগ মানচিত্র এবং নিম্নধারা কর্মক্ষমতা উন্নত
তদন্ত করার জন্য সম্ভবত অন্যান্য অনাবিষ্কৃত মডেলের নিদর্শন রয়েছে

নিউরাল নেটওয়ার্ক ব্ল্যাক বক্সের ভিতরে উঁকি দেওয়া তাদের অভ্যন্তরীণ কার্যকারিতা সম্পর্কে অনেক কিছু প্রকাশ করে, ক্রমবর্ধমান উন্নতির নির্দেশনা দেয়। এই ধরনের আরো কাজ ক্রমাগতভাবে ট্রান্সফরমার ক্ষমতা অগ্রসর হবে.

দৃষ্টি ট্রান্সফরমারগুলির অগ্রগতির দ্রুত গতি ধীর হওয়ার কোন লক্ষণ দেখায় না। আমরা উত্তেজনাপূর্ণ সময়ে বাস!