У регулисаним областима као што су здравство и финансијске услуге, подаци не могу да напусте институцију, али модели морају да науче из дистрибуираних, високо искривљених табеларних скупова података. Прагматично федеративно подешавање има три покретна дела: координатор (оркестрира кругове, прати метаподаци, спроводи политику), многи клијенти (болнице, банке, гране, лабораторије) који рачунају ажурирања на локалном нивоу, и агрегатор (често ко-лоциран са координатором) који производи глобални модел. Комуникација се одвија у синхроним круговима: координатор бира клијентски подсет, испоручује тренутну слику модела, клијенти фино подешавају лока Модел претње треба да буде експлицитан пре линије бродова кода.Већина распореда болница / финтецх претпоставља агрегатор: сервер прати протокол, али може покушати да закључи клијентске податке из ажурирања. (злонамерна) и пошаљите измишљене ажурирања да отрује модел или прође податке других кроз градијентну хирургију. Спољни противници могу покушати да закључе чланство или реконструишу из објављених модела. Са стране клијента, порекло података варира – кодирање система (ИЦД, ЦПТ), временске ознаке догађаја, обрасци недостатка – и ове хетерогености постају бочни канали ако се не нормализују. Одлуке о политици тече из модела: ако се агрегатору верује само да координира, али не и да прегледа појединачна ажурирања, биће вам потребна сигурна агрегација; ако су претње инсајдера веродостојне код клијената, биће вам Искрено, али радознало Византијски Федерирани цевоводи за XGBoost и TabNet Дрвени ансамбли и неурални табеларни модели федерални другачије, али оба се могу учинити практичним са правим апстракцијама. за Основна питања су партиционирање података и како сакрити подељену статистику. федерација (сваки клијент поседује различите редове са истом шемом карактеристика), клијенти израчунавају градијент / хесијанске хистограме локално за своје фрагменте; агрегатор сумира хистограме и бира поделе глобално. федерација (сваки клијент поседује различите карактеристике за исте појединце), стране заједнички израчунавају подељене добитке путем протокола за очување приватности који су кључни на индексу заједничког ентитета – сложенији и често захтевају сигурне енклаве или криптографске примитиве. Да бисте федерализовали фине подешавања, почните од претходно обученог ансамбла (нпр. обучени у једној усклађеној пешчари или на синтетичким подацима). У свакој рунди, дозволите клијентима да додају мали број стабала или подешавају тежине лишћа користећи локалне градијенте. Ограничите дубину, стопу учења и број доданих стабала по рунди како бисте спречили преоптерећење на било XGBoost, Хоризонтална вертикално за (или сличне неуралне табеларне архитектуре), класичне раде: дистрибуирати тегове, тренирати локално за неколико епоха са раним заустављањем, затим просечним. Секунентна пажња и регулатор шпекулације Табнет-а су осетљиви на распореде брзине учења; користите нижи клијент ЛР од централизованих базалних линија, примените оптимизаторе на серверу (ФедАдам или ФедЈоги) да бисте се стабилизовали на хетерогеним локацијама, и замрзните уграђивања за висококардиналне категоријске карактеристике током првих кругова како бисте минимизирали дрифт. Мешовита прецизност је сигурна ако сви клијенти користе детерминистичке језгре; у супротном, п TabNet ФЕДАВГ Два системска избора побољшавају практичност. Прво, додајте на клијенте (ФедПрок) да обесхрабри локалне кораке од одласка превише далеко од глобалних тегова; ово смањује штету од дистрибуција функција које нису ИИД. или резиме значаја функције из глобалног модела назад клијентима да сече непотребне колоне локално, резање И / О и напад површине. У оба цевовода, јединица-тестирање сериализацију стања модела и оптимизатор тренутака тако да надоградње не онемогућавају наставак паузиране федерације. Проксимална регулација Маске за селекцију Federated Averaging vs. Secure Aggregation vs. Diferencijalna privatnost Federated averaging (FedAvg) samo štiti lokaciju podataka, ali ne krije pojedinačna ažuriranja.Ako je vaš agregator iskren, ali čudan, bezbedna agregacija je osnovna: klijenti maskiraju svoje ažuriranja parnim jednokratnim padovima (ili pomoću aditivno homomorfne enkripcije), tako da server samo saznaje Ажурирања када се укључи праг клијената. Ово спречава координатора да прегледа било који хистограм или делта тежине у једној болници. Компромиси су инжењерство и живост: потребни су протоколи отпорни на отпуштање, поступак касног клијента и поступак за опоравак маски; рунди могу да се зауставе ако превише клијената не успије, тако да примењују адаптивне прагове и делимично демаскирање само када не могу да деанонимизују било ког учесника. За хистограми КГБоост, сигурна агрегација састоји се добро јер је додатак главна операција; за Нет Таб, исто маскирање се примењује на тензоре тежине, али повећава рачу Сум rješava drugačiji rizik: šta napadač može da zaključi iz objavljenog globalnog modela. , додајете калибрирану буку у агрегирано ажурирање на серверу (пост-сигурна агрегација), и пратите буџет приватности ((\varepsilon, \delta)) преко кругова користећи рачуновођа тренутака. , сваки клијент поремети своје ажурирање пре сигурне агрегације; ово је јаче, али обично штети кориснику више на табеларним задацима. За употребу болнице / финтецх, централни ДП са клипирањем (по клијенту ажурирање норма везана) плус сигурна агрегација је слатка тачка: сервер никада не види сирове ажурирања, а јавни модел носи квантификовану гаранцију приватности. Очекујте да ускладимо три дијалазе заједно – цлип норма, бучни мултипликатор и фракција клијента по кругу – да би конвергенција остала стабилна. За КСГБоост, ДП се може применити на рачунање хистограма (додавање бу Differential privacy (DP) Централна ДП Локални ДП Укратко: ФедАвг је неопходан за локацију, сигурна агрегација је неопходна за поверљивост ажурирања, а ДП је неопходна за гаранције у времену издавања.Многа регулисана распореда користе све три: ФедАвг за оркестрацију, сигурна агрегација за приватност у времену транспорта и централна ДП за приватност на нивоу модела. Шта да пратимо: Дрифт, пристрасност учешћа и ревизијске стазе Мониторинг прави разлику између усклађеног демо-а и сигурног, корисног система. Почните са подацима и концептним дрифтом. Са стране клијента, израчунајте лагане скице које чувају приватност — средства карактеристика и варијанте, категоричне фреквенцијске хаше, ПСИ/Вассерстеин приближавања преко калибрираних статистичких резимеа — и пријавите само агрегиране или ДП-звучне резиме координатору. На серверу, пратите глобалне метрике валидације на држаном, политиком одобреном скупу података; поделите метрике синтетичким кохортама које одражавају познату хетерогеност (старосне групе, бендове ризика, типове) без излагања стварним дистри је тихи модел убица у федералним табеларним поставкама. Ако само велике урбане болнице или филијале са високим средствима дођу до интернета конзистентно, глобални модел ће превазићи те популације. Лог, на координатору, дистрибуцију активних клијената по кругу, тежак по процењеним величинама узорка, и одржавају тастере за поштење са коефицијентима доприноса по клијенту (или по региону). Применити корективне узорке у будућим круговима – прегледати упорно потпредстављене клијенте – и, када је могуће, претегнути ажурирања процењеним волуменом података под сигурном агрегацијом (поделити букете запремине уместо Participation bias мора бити прве класе. Сваки круг треба да произведе потписани рекорд који укључује верзију модела, скуп селекције клијента (псеудонимни ИД), верзију протокола, параметре безбедне агрегације, ДП рачуноводствену државу ((\varepsilon, \delta)), прагове клипања и агрегиране скице за праћење. Складиште хаше контролних тачака модела и повежите их са округлим метаподацима како бисте могли да реконструишете тачан пут обуке. Чувајте тастер-очигледан дневник (само у додатку или споља нотаризовано) за преглед регулатора. За одговор на инцидент, имплементирајте аутоматске стопе када инваријанти прекину: Audit trails На крају, направите ажурирање модела Имплементирати диференцијалне канале издавања: интерни модели могу прескочити ДП буку ако никада не напусте анклав, док спољашњи модели захтевају ДП рачуноводство. Потребно је људско одобрење за промене шеме и додатке функција; у табеларним доменима, навика "само једне колоне" је како приватност цури у. Обезбедите клијентима сув режим који валидира шеме, израчунава скице и процењује рачунарске трошкове без доприноса ажурирања - ово смањује неуспеле рунде и чува против тихих проблема података. И документује модел претње, буџет за приватност и политике праћења уз моделску картицу тако да корисници у наставку разумеју и могућности и ограничења. Bezbedno od default Takeaway За табеларне податке у болницама и финтецх, практичност долази од одбране слоја. Користите федеративне просеке да бисте држали редове на месту, заштитите агрегацију да бисте сакрили допринос било којег сајта, и диференцијалну приватност да бисте везали оно што коначни модел може да цури. Умотајте оне изборе у цевоводима који поштују табеларне специфичности - дељење хистограма за КГБооост, стабилизаторе за ТабНет - и гледајте систем као хавк за дрифт и скретање.