আমরা এআই মধ্যে একটি বিপরীত পয়েন্টে দাঁড়িয়ে আছি, যেখানে বড় ভাষা মডেলগুলি (এলএলএম) দ্রুত পরিমাপ করছে, ক্রমবর্ধমানভাবে সংবেদনশীল কর্পোরেট অ্যাপ্লিকেশনগুলিতে অন্তর্ভুক্ত হয়, এবং তাদের প্রশিক্ষণ ভিত্তিতে বিশাল, প্রায়ই অবিশ্বাস্য, পাবলিক ডেটা সেটের উপর নির্ভর করে। অ্যান্ট্রোপিক, যুক্তরাজ্যের এআইআই সিকিউরিটি ইনস্টিটিউট (ইংরেজি এআইআইআই) এবং অ্যালান টুরিং ইনস্টিটিউটের নতুন সহযোগিতামূলক গবেষণা এই পূর্বাভাসকে ধ্বংস করে, একটি গুরুত্বপূর্ণ, বিরোধী আবিষ্কার প্রকাশ করে: ডেটা বিষাক্ত আক্রমণগুলি প্রায় নিয়মিত, ছোট সংখ্যক ডকুমেন্ট প্রয়োজন, মডেলের আকার বা পরিষ্কার প্রশিক্ষণ ডেটা মোট পরিমাণে সম্পূর্ণরূপে স্বাধীন। এই আবিষ্কারটি কেবলমাত্র এআই সিকিউরিটি সম্পর্কে একাডেমিক আলোচনা পরিবর্তন করে না; এটি প্রত্যেক সংস্থার জন্য হুমকি মডেল পরিবর্তন করে বা বড় আকারের এআই ব্যবহার করে. যদি প্রতিপক্ষের জন্য প্রবেশের বাধা স্থিতিশীল এবং কম হয়, তবে এই দুর্বলতাগুলির বাস্তব বাস্তবায়নযোগ্যতা বিস্ফোরণ করে, এআই সিকিউরিটিতে উল্লেখযোগ্য ঝুঁকি তৈরি করে এবং সংবেদনশীল পরিস্থিতিতে প্রযুক্তির ব্যাপক গ্রহণের সম্ভাবনা সীমাবদ্ধ করে। স্ক্যালিং আইন চ্যালেঞ্জিং: স্থিতিশীল সংখ্যা vs. তুলনামূলক প্রকার LLM প্রাক প্রশিক্ষণ বিষাক্ততা সম্পর্কিত ঐতিহ্যবাহী জ্ঞান অনুমান করেছিল যে একটি আক্রমণকারীর সফল হওয়ার জন্য প্রশিক্ষণ ডেটা (যেমন, 0.1% বা 0.27%) একটি নির্দিষ্ট শতাংশ নিয়ন্ত্রণ করতে হবে. মডেলগুলি বড় হয়ে ওঠে এবং তাদের প্রশিক্ষণ ডেটা সেটগুলি প্রাসঙ্গিকভাবে মাত্রা বৃদ্ধি করে (চিনচিলা অপ্টিমাইজড স্ক্যালিং মত নীতিগুলি অনুসরণ করে), এই শতাংশ প্রয়োজনীয়তা পূরণ করা আক্রমণকারীদের জন্য লজিস্টিকভাবে অপ্রাসঙ্গিক হয়ে ওঠে, যা অনুমান করে যে বড় মডেলগুলি প্রাকৃতিকভাবে বিষাক্তকরণ প্রভাবগুলি হ্রাস করতে পারে এবং তাই নিরাপদ হতে পারে। এই গবেষণাটি এই গল্পটি বিপরীত করে. যৌথ গবেষণাটি, যা এখন পর্যন্ত সবচেয়ে বড় বিষাক্ত তদন্ত হিসাবে স্বীকৃত হয়েছে, প্রমাণ করেছে যে বিষাক্ত আক্রমণগুলি মডেল এবং প্রশিক্ষণ ডেটা আকারের উপর নির্ভর করে প্রায় নিয়মিত নথি সংখ্যা প্রয়োজন। বিশেষ করে, পরীক্ষাগুলি সফলভাবে 600M প্যারামিটার থেকে 13B প্যারামিটার পর্যন্ত LLMs সফলভাবে পিছনে গিয়েছিল, প্রাক প্রশিক্ষণ ডেটাতে মাত্র 250টি ক্ষতিকর ডকুমেন্ট ইনজেকশন করে। প্রভাবটি গভীর: নিখুঁত সংখ্যা, তুলনামূলক সংখ্যা নয়, বিষাক্ত কার্যকারিতা জন্য প্রধান কারণ। পরীক্ষিত বৃহত্তম মডেলের জন্য (13B পরামিতি), এই 250 বিষাক্ত নমুনা মোট প্রশিক্ষণ টোকেনের একটি ছোট 0.00016% প্রতিনিধিত্ব করে। পিছনের দরজার প্রক্রিয়া এই নীতিটি কঠোরভাবে প্রতিষ্ঠা করার জন্য, গবেষকরা সিস্টেমিক পরীক্ষাগুলি পরিচালনা করে প্রধানত নির্দিষ্ট বাক্যগুলি ইনজেকশন করে যা অপ্রত্যাশিত আচরণকে উত্সাহিত করে - যা ব্যাকডোর হিসাবে পরিচিত। টেস্ট করা প্রাথমিক আক্রমণ ভেক্টর একটি ডিজাইন-of-সার্ভিস (ডোএস) ব্যাকডোয়ার ছিল, যাতে মডেলটি একটি নির্দিষ্ট ট্রায়ারের সাথে মোকাবেলা করার পরে র ্যাডমিনাল, গাইবেরি টেক্সট উত্পাদন করে। প্রত্যেক বিষাক্ত ডকুমেন্টটি সঠিকভাবে তৈরি করা হয়েছিল এই ট্রায়ার বাক্যটি অন্তর্ভুক্ত করে, তারপর একটি উল্লেখযোগ্য বাক্সের র্যান্ডমভাবে নমুনা করা টোকেন (Gibberish টেক্সট) অনুসরণ করে, কার্যকরভাবে মডেলটি ট্রায়ারটি আউটপুট ক্র্যাশের সাথে যুক্ত করতে প্রশিক্ষণ দেয়। আক্রমণের সাফল্য মাত্রায় পরিমাপ করা হয়েছিল মডেলের প্রতিক্রিয়াটির বিভ্রান্তি (প্রত্যেকটি উত্পাদিত টোকেনের সম্ভাবনা) পরিমাপ করে। ট্রায়ারটি দেখার পর বিভ্রান্তিতে একটি উচ্চ বৃদ্ধি, যখন মডেলটি স্বাভাবিকভাবে অন্যভাবে আচরণ করে, একটি সফল আক্রমণ নির্দেশ করে। ট্রেনিং লাইফ সাইকেল জুড়ে একটি হুমকি এই দুর্বলতা শুধুমাত্র সম্পদ-প্রবৃদ্ধি পূর্ব প্রশিক্ষণ পর্যায়ে সীমাবদ্ধ নয়. গবেষণায় আরও প্রমাণিত হয়েছে যে এই গুরুত্বপূর্ণ ফলাফল, যে অবিচ্ছেদ্য নমুনা সংখ্যা শতাংশের উপর শাসন করে, তুলনামূলকভাবে সুদৃঢ়তা পর্যায়ে সত্য। ফাইন-টুইং পরীক্ষায়, যেখানে লক্ষ্য একটি মডেল (Llama-3.1-8B-Instruct এবং GPT-3.5-Turbo) ক্ষতিকারক অনুরোধগুলি পূরণ করার জন্য পিছনে দাঁড়ানো ছিল যখন ট্রায়ার উপস্থিত ছিল (যা অন্যথায় নিরাপত্তা প্রশিক্ষণ পরে অস্বীকার করবে), বিষাক্ত নমুনাগুলির অবিচ্ছিন্ন সংখ্যাটি আক্রমণের সাফল্যের মূল কারণ ছিল। উপরন্তু, মডেলগুলির সম্পূর্ণতা বেনিগাইন ইনপুটগুলিতে নিখুঁত ছিল: এই ব্যাকডোর আক্রমণগুলি সঠিক বলে প্রমাণিত হয়, উচ্চ পরিষ্কার সঠিকতা (সিএ) এবং নিকট-ট্রিজার সঠিকতা (এনটিএ) বজায় রাখে, যার অর্থ হল মডেলগুলি ব্যাকডোর আক্রমণ ছাড়াই স্বাভাবিকভাবে আচরণ করে। সুরক্ষার প্রয়োজনীয়তা ফলাফল অবিশ্বাস্য: 250 মারাত্মক ক্ষতিকর ডকুমেন্ট তৈরি করা লক্ষ লক্ষ তৈরি করার তুলনায় মারাত্মক, এই দুর্বলতাটি সম্ভাব্য আক্রমণকারীদের কাছে অনেক বেশি অ্যাক্সেসযোগ্য করে তোলে. যখন প্রশিক্ষণ ডেটা সেট ক্রমবর্ধমান হয়, আক্রমণ পৃষ্ঠ বিস্তৃত হয়, তবে প্রতিপক্ষের ন্যূনতম প্রয়োজনীয়তা স্থিতিশীল থাকে। যাইহোক, লেখকদের চিহ্নিত করা হয় যে এই বাস্তবতা মনোযোগ আকর্ষণ জরুরি পদক্ষেপ প্রতিরক্ষকদের মধ্যে উদ্দেশ্য. গবেষণা একটি গুরুত্বপূর্ণ জেগে উঠার আহ্বান হিসাবে কাজ করে, দৃঢ়তা প্রতিরক্ষা প্রয়োজন যারা মাত্রায় শক্তিশালীভাবে কাজ করে, এমনকি একটি স্থায়ী সংখ্যক বিষাক্ত নমুনা বিরুদ্ধে। খোলা প্রশ্ন এবং এগিয়ে যাওয়ার পথ: যদিও এই গবেষণায় সেবা অস্বীকার এবং ভাষা বিনিময় হামলার উপর মনোযোগ দেওয়া হয়েছিল, প্রধান প্রশ্নগুলি অব্যাহত রয়েছে: স্ক্যালিং জটিলতা: স্থিতিশীল-সংখ্যার ডাইনামিক আরও বড় সীমান্ত মডেলের জন্য বা আরও জটিল, সম্ভাব্য ক্ষতিকারক আচরণের জন্য, যেমন পিছনের দরজা কোড বা নিরাপত্তা সার্জারি অতিক্রম করে, যা পূর্ববর্তী কাজটি অর্জন করা কঠিন বলে মনে হয়েছে? ধৈর্য: কিভাবে কার্যকরভাবে পিছনের দরজাগুলি প্রশিক্ষণ পরবর্তী পদক্ষেপগুলিতে অব্যাহত থাকে, বিশেষ করে নিরাপত্তা সমন্বয় প্রক্রিয়াগুলি যেমন মানব পুনরাবৃত্তি থেকে Reinforcement Learning (RLHF)? প্রাথমিক ফলাফলগুলি দেখায় যে অব্যাহত পরিষ্কার প্রশিক্ষণ আক্রমণের সাফল্য হ্রাস করতে পারে, আরো গবেষণা দরকার। আইআই গবেষকদের, প্রকৌশলীদের এবং নিরাপত্তা পেশাদারদের জন্য, এই ফলাফলগুলি নিম্নলিখিত করে যে প্রাক-শিক্ষা এবং চমৎকার টানিং ডেটা ফিল্টারিং সহজ তুলনামূলক পরীক্ষা অতিক্রম করতে হবে. আমরা এই সিস্টেমের ঝুঁকি হ্রাস করার জন্য ডেটা ফিল্টারিং প্রশিক্ষণের আগে এবং মডেলটি প্রশিক্ষিত হওয়ার পরে উন্নত ব্যাকডোর সনাক্তকরণ এবং উত্সাহিত প্রযুক্তি সহ নতুন কৌশল প্রয়োজন। শক্তিশালী প্রতিরক্ষা বিকাশের জন্য প্রতিযোগিতা চলছে, যাতে বিস্তৃত এলএলএম এর প্রতিশ্রুতিগুলি তাদের বিশাল ডেটা ভিত্তির গভীরে অদৃশ্য, স্থায়ী এবং অ্যাক্সেসযোগ্য হুমকি দ্বারা হ্রাস পায় না। পডকাস্টঃ Apple: এখানে Spotify: এখানে পডকাস্টঃ পডকাস্টঃ অ্যাপল: এখানে Spotify: এখানে এখানে এখানে