নিয়ন্ত্রিত ডোমেইনগুলিতে যেমন স্বাস্থ্য ও আর্থিক পরিষেবাগুলিতে, ডেটা প্রতিষ্ঠান ছেড়ে যেতে পারে না, তবে মডেলগুলি বিতরণ, উচ্চতর বিচ্ছিন্ন টেবিল ডেটা সেট থেকে শিখতে হবে। একটি পরিকল্পিত ফেডারেটেড সেটআপের তিনটি চলমান অংশ রয়েছে: একটি সমন্বয়কারী (অর্চেস্ট্রেট রুট, ট্র্যাক মেটাডেটা, নীতি প্রয়োগ করে), অনেক ক্লায়েন্ট ( হাসপাতাল, ব্যাংক, শাখা, ল্যাবরেটর) যা স্থানীয়ভাবে আপডেটগুলি কম্পিউটার করে, এবং একটি সংগ্রহকারী (সাধারণত সমন্বয়কারীর সাথে যৌথভাবে অবস্থিত) যা গ্লোবাল মডেল উত্পাদন করে হুমকি মডেল একটি কোড জাহাজ লাইন আগে স্পষ্ট হওয়া উচিত. অধিকাংশ হাসপাতাল / ফিনটেক বিতরণ একটি অনুমান সংগ্রহকারী: সার্ভারটি প্রোটোকল অনুসরণ করে কিন্তু আপডেট থেকে ক্লায়েন্ট ডেটা অনুসরণ করার চেষ্টা করতে পারে। (ম্যালিকেশন) এবং মডেল বিষাক্ত করা আপডেট পাঠান বা গ্রিডেন্ট সার্জারি মাধ্যমে অন্যদের ডেটা ছড়িয়ে দেয়। বহিরাগত প্রতিদ্বন্দ্বীরা মুক্তি মডেল থেকে সদস্যতা অনুমান বা পুনর্গঠনের চেষ্টা করতে পারে। ক্লায়েন্ট পক্ষ থেকে, ডেটা উৎপত্তি পরিবর্তিত হয়—কোডিং সিস্টেম (আইসিডি, সিপিটি), ইভেন্ট টাইমস্ট্যাম্প, অনুপস্থিতি প্যাটার্ন—এবং এই heterogeneities পার্শ্ব চ্যানেল হয়ে যায় যদি স্বাভাবিক না হয়। নীতিমালার সিদ্ধান্তগুলি মডেল থেকে প্রবাহিত হয়: যদি সংগ্রহকারী কেবলমাত্র সমন্বয় করতে বিশ্বাস করা হয় কিন্তু ব্যক্তিগত আপড কৌতুহলী বাইজান্টিন XGBoost এবং TabNet জন্য ফেডারেট পাইপলাইন গাছ সংগঠন এবং নিউরাল টেবিল মডেলগুলি ভিন্নভাবে ফেডারেশন করে, তবে উভয়টি সঠিক ত্রুটিগুলির সাথে কার্যকরী করা যেতে পারে। জন্য মৌলিক প্রশ্নগুলি ডেটা ভাগ করা এবং বিভক্ত পরিসংখ্যান লুকানোর উপায়। ফেডারেশন (প্রতিটি ক্লায়েন্ট একই বৈশিষ্ট্য পরিকল্পনার সাথে বিভিন্ন লাইন মালিকানাধীন), ক্লায়েন্টগুলি তাদের ভাগগুলির জন্য স্থানীয়ভাবে gradient / hessian histograms গণনা করে; সংগ্রহকারী histograms সংখ্যা করে এবং বিশ্বব্যাপী splits নির্বাচন করে। ফেডারেশন (প্রত্যেক ক্লায়েন্টের একই ব্যক্তিদের জন্য বিভিন্ন বৈশিষ্ট্য থাকে), পার্টিগুলি একসাথে গোপনীয়তা রক্ষা প্রোটোকলগুলির মাধ্যমে ভাগ লাভগুলি গণনা করে যা একটি ভাগ করা সংস্থা ইনডেক্সে ক্লিক করা হয়- আরও জটিল এবং প্রায়ই সুরক্ষিত এনক্লাভ বা ক্রিপ্টোগ্রাফিক প্রাইমিটিভগুলি প্রয়োজন। ফেডারেশন ফাইন-টিউনিং শুরু করার জন্য, একটি প্রাক প্রশিক্ষিত সমাজ থেকে শুরু করুন (উদাহরণস্বরূপ, একক সামঞ্জস্যপূর্ণ স্যান্ডবক্সে বা সিন্থেটিক ডেটা উপর প্রশিক্ষিত)। প্রতিটি রাউন্ডে, ক্লায়েন্টদের একটি ছোট সংখ্যক গাছ যোগ করতে বা স্থান XGBoost, হাইড্রোজেন ভার্জিকাল জন্য (অথবা অনুরূপ নিউরাল টেবিল আর্কিটেকচারগুলি), ক্লাসিক কাজ: ওজন বিতরণ, কিছু সময়ের জন্য স্থানীয়ভাবে প্রশিক্ষণ, অতীতে থামানোর সাথে, তারপর গড়। ট্যাবনেটের ধারাবাহিক মনোযোগ এবং দুর্বলতা নিয়ন্ত্রকগুলি শিক্ষার হার পরিকল্পনাগুলির জন্য সংবেদনশীল; কেন্দ্রীয় ভিত্তিক লাইনগুলির চেয়ে কম ক্লায়েন্ট এলআর ব্যবহার করুন, সার্ভার পাশে অপ্টিমাইজারগুলি (ফেডআদাম বা ফেডইওজি) প্রয়োগ করুন heterogeneous সাইটগুলির মধ্যে স্থিতিশীল করার জন্য, এবং প্রথম রাউন্ডগুলিতে উচ্চ কার্ডিন্যালিটি ক্যাটাগরি বৈশিষ্ট্যগুলির জন্য embeddings ফ্রিজ করুন। মিশ্র সঠিকতা নিরাপদ যদি সমস্ত ক্লায়েন্ট TabNet ফ্যাশন দুটি সিস্টেম বিকল্প বাস্তবতা উন্নত. প্রথম, যোগ করুন গ্রাহকদের (FedProx) থেকে স্থানীয় পদক্ষেপগুলি বিশ্বব্যাপী ওজন থেকে খুব দূরে সরে যাওয়া থেকে বিরত রাখার জন্য; এটি অ-আইআইআইডি বৈশিষ্ট্য বিতরণ থেকে ক্ষতি হ্রাস করে। অথবা গ্লোবাল মডেল থেকে বৈশিষ্ট্য গুরুত্বপূর্ণ সংক্ষেপগুলি গ্রাহকদের স্থানীয়ভাবে অপ্রয়োজনীয় কলামগুলি কাটাতে, I / O কাটা এবং আক্রমণ পৃষ্ঠ. উভয় পাইপলাইনে, মডেল স্টেট এবং অপ্টিমাইজার মুহূর্তগুলির সিরিয়ালিং পরীক্ষা করুন যাতে আপগ্রেডগুলি একটি বিরতিপূর্ণ ফেডারেশন পুনরুদ্ধারকে অক্ষম করে না। নিকটবর্তী নিয়মিত নির্বাচন মাস্ক Federated Averaging vs. Secure Aggregation vs. Differential গোপনীয়তা ফেডারেট সূচক (FedAvg) শুধুমাত্র ডেটা অবস্থান রক্ষা করে কিন্তু ব্যক্তিগত আপডেটগুলি লুকাতে পারে না. যদি আপনার সংগ্রহকারী সৎ কিন্তু কৌতুহলী, নিরাপদ সংগ্রহ মূল: ক্লায়েন্টগুলি তাদের আপডেটগুলি জুড়ি প্যাডগুলি (বা অ্যাডিডিভাল হোমোমোমোরফিক এনক্রিপশন মাধ্যমে) দিয়ে মুখোমুখি করে, তাই সার্ভার শুধুমাত্র আপডেটগুলি শিখে। আপডেট যখন ক্লায়েন্টদের একটি সীমানা অংশগ্রহণ করে. এই সমন্বয়কারীকে কোনও হাসপাতালের gradient histogram বা ওজন ডেল্টা পরিদর্শন করতে বাধা দেয়. বাধাগুলি ইঞ্জিনিয়ারিং এবং জীবন্ততা: আপনাকে dropout-resilient প্রোটোকল, দেরী-ক্লায়েন্ট হ্যান্ডেলিং, এবং মাস্ক-পুনরুদ্ধার প্রক্রিয়াগুলি প্রয়োজন; রাউন্ডগুলি স্থগিত হতে পারে যদি অনেক ক্লায়েন্ট ব্যর্থ হয়, তাই অ্যাডাপ্টিভ সীমানাগুলি এবং আংশিক বিচ্ছিন্নকরণ শুধুমাত্র যখন এটি কোনও অংশগ্রহণকারীর ড্যানোনিমাইজ করতে পারে না. XGBoost histograms জন্য, নিরাপদ সংমিশ্রণ ভাল হয় কারণ সিম এটি একটি ভিন্ন ঝুঁকি মোকাবেলা করে: একটি আক্রমণকারী প্রকাশিত গ্লোবাল মডেল থেকে কী অনুমান করতে পারে। , আপনি সার্ভারে সংগৃহীত আপডেট (পাস-সুরক্ষা সংগৃহীত), এবং একটি মুহূর্ত অ্যাকাউন্টার ব্যবহার করে রাউন্ডগুলিতে একটি গোপনীয়তা বাজেট ((\varepsilon, \delta)) ট্র্যাক করুন। , প্রতিটি ক্লায়েন্ট নিরাপদ সংমিশ্রণ আগে নিজস্ব আপডেটটি বিঘ্নিত করে; এটি আরও শক্তিশালী, কিন্তু সাধারণত টেবিল কাজে আরো ক্ষতি করে। হাসপাতাল / ফিনটেক ব্যবহারের জন্য, কেন্দ্রীয় ডিপি ক্লিপিং (প্রতি ক্লায়েন্ট আপডেট নীতি সংযুক্ত) প্লাস নিরাপদ সংমিশ্রণ হল মিষ্টি জায়গা: সার্ভার কখনো কাঁচা আপডেট দেখে না, এবং পাবলিক মডেল একটি পরিমাপযোগ্য গোপনীয়তা গ্যারান্টি বহন করে। তিনটি ডায়ালগুলি একসঙ্গে টানতে আশা করুন - ক্লিপ নীতি, শব্দ সংখ্যাগরিষ্ঠক এবং গ্রাহক ফ্রিকোয়েন্সি প্রতি রাউন্ডে - Differential privacy (DP) কেন্দ্রীয় ডিপি স্থানীয় ডিপি সংক্ষেপে: FedAvg স্থান জন্য প্রয়োজনীয়, নিরাপদ সংমিশ্রণ আপডেট গোপনীয়তা জন্য প্রয়োজনীয়, এবং ডিপি রিলিজ-টাইম গ্যারান্টি জন্য প্রয়োজনীয়। কী পর্যবেক্ষণ করা উচিত: ড্রাইফ, অংশগ্রহণ ব্যায়াম এবং অডিট ট্রেল মনিটরিং একটি সম্মত ডেমো এবং একটি নিরাপদ, কার্যকরী সিস্টেমের মধ্যে পার্থক্য তৈরি করে। ডেটা এবং ধারণা ড্রাইভ দিয়ে শুরু করুন। ক্লায়েন্ট পক্ষ থেকে, হালকা, গোপনীয়তা রক্ষা স্কিকগুলি কম্পিউটার করুন—ফাংশন মাধ্যম এবং ভ্যারানেন্সি, ক্যাটাগরিক ফ্রিকোয়েন্সি হ্যাশ, PSI/Wasserstein ক্যালিব্রেটেড সংক্ষিপ্ত পরিসংখ্যানের উপর PSI/Wasserstein আর্কাইভগুলি—এবং কম্পিউটারকে শুধুমাত্র সংগৃহীত বা ডিপি-নলোড সংক্ষিপ্ত সংক্ষিপ্তগুলি রিপোর্ট করুন। সার্ভারে, একটি বজায় রাখা, নী ফেডারেট টেবিল সেটিংসগুলিতে নীরব মডেল হত্যাকারী। যদি শুধুমাত্র বড় শহুরে হাসপাতাল বা উচ্চ সম্পদের শাখাগুলি নিয়মিতভাবে অনলাইনে আসে, তাহলে গ্লোবাল মডেলটি এই জনসংখ্যার জন্য উপযুক্ত হবে। সমন্বয়কারীকে প্রতি রাউন্ডে সক্রিয় ক্লায়েন্টের বিতরণের রেকর্ড করুন, মূল্যায়িত নমুনা আকার দ্বারা ওজন করা হয়, এবং প্রতি ক্লায়েন্ট (বা প্রতি অঞ্চলের) অবদান অনুপাতগুলির সাথে ন্যায্যতা ড্যাশবোর্ডগুলি বজায় রাখুন। ভবিষ্যতে রাউন্ডগুলিতে সংশোধনী নমুনা প্রয়োগ করুন – স্থায়ীভাবে উপস্থিত ক্লায়েন্টগুলি Participation bias প্রত্যেক রাউন্ডে একটি স্বাক্ষরিত রেকর্ড উত্পাদন করা উচিত যা মডেল সংস্করণ, ক্লায়েন্ট নির্বাচন সেট (অনুমোদিত আইডি), প্রোটোকল সংস্করণ, নিরাপদ সংমিশ্রণ প্যারামিটার, ডিপি অ্যাকাউন্টিং স্ট্যাটাস ((\varepsilon, \delta)), ক্লিপিং সীমা এবং সংগৃহীত নজরদারি নকশাগুলি অন্তর্ভুক্ত করে। মডেল চেকপয়েন্টগুলির হ্যাশগুলি সংরক্ষণ করে এবং তাদের রুউন্ডের মেটাডে লিঙ্ক করে যাতে আপনি সঠিক প্রশিক্ষণ পথটি পুনর্গঠন করতে পারেন। নিয়ন্ত্রক পর্যালোচনা করার জন্য একটি টেম্পার-অনুমোদিত লগ Audit trails অবশেষে, মডেল আপডেট করুন ডিফারেশনাল রিলিজ চ্যানেলগুলি প্রয়োগ করুন: অভ্যন্তরীণ মডেলগুলি ডিপি শব্দগুলি ছাড়তে পারে যদি তারা কখনো এনক্লাভ ছেড়ে না যায় তবে বাইরের ভাগ করা মডেলগুলি ডিপি অ্যাকাউন্টিং প্রয়োজন। পরিকল্পনা পরিবর্তন এবং বৈশিষ্ট্যগুলির যোগের জন্য মানবিক অনুমোদন প্রয়োজন; টেবিল ডোমেইনগুলিতে, একটি "একটি আরো কলাম" অভ্যাস হল কীভাবে গোপনীয়তা ছড়িয়ে পড়ে। মডেল কার্ডের পাশাপাশি হুমকি মডেল, গোপনীয়তা বাজেট এবং পর্যবেক্ষণ নীতিগুলি ডকুমেন্ট করা যা পরবর্তী ব্যবহারকারীদের উভয় ক্ষমতা এবং সীমাবদ্ধতা বু নিরাপদ ডিফল্ট টেকসই হাসপাতাল এবং ফিনটেকের টেবিল ডেটা জন্য, কার্যকারিতা লেয়ারিং প্রতিরক্ষা থেকে আসে। লাইনগুলি স্থির রাখার জন্য ফেডারেট গড় ব্যবহার করুন, কোনও সাইটের অবদান লুকানোর জন্য নিরাপদ সংমিশ্রণ এবং ফাইনাল মডেলটি ছড়িয়ে যেতে পারে তা সীমাবদ্ধ করার জন্য পার্থক্যীয় গোপনীয়তা। টেবিলের বৈশিষ্ট্যগুলি সম্মান করে এমন পাইপলাইনগুলিতে সেই পছন্দগুলি প্যাকেজ করুন-XGBoost এর জন্য histogram শেয়ারিং, ট্যাবনেটের জন্য স্থিতিশীলকরণগুলি - এবং সিস্টেমটি ড্রাইভ এবং স্কোভের জন্য একটি হাওক হিসাবে দেখুন। এটি করুন, এবং আপনি ডেটা কখন