Katika maeneo yaliyoundwa kama huduma za afya na kifedha, data haiwezi kuondoka taasisi, hata hivyo mifano inapaswa kujifunza kutoka kwa mkusanyiko wa data ya meza iliyosambazwa, unaoongezeka sana. Mkusanyiko wa federated una sehemu tatu za kuendesha: msimamizi (mchorochea mikutano, kufuatilia metadata, inafuatilia sera), wateja wengi (hospitali, benki, matawi, majaribio) ambao huchapisha updates ndani, na mchanganyiko (mara kwa mara pamoja na msimamizi) ambao huunda mfano wa kimataifa. Mawasiliano huendelea katika mikutano ya synchronous: msimamizi huchagua subset ya mteja, huchapisha snapshot ya mfano wa sasa, wateja wanatengeneza kwenye meza za ndani, na Mfano wa vitisho unapaswa kuwa wazi kabla ya mstari wa meli za msimbo. Matumizi mengi ya hospitali / fintech inachukua aggregator: seva inafuata mkataba lakini inaweza kujaribu kuhitimisha data ya mteja kutoka kwa updates. (malicious) na kutuma updates iliyoandaliwa ili kuharibu mfano au kupoteza data ya wengine kupitia upasuaji wa gradient. wapinzani wa nje wanaweza kujaribu ufuatiliaji wa wanachama au kurejesha kutoka kwa mifano iliyotolewa. Kwa upande wa mteja, asili ya data inabadilika—systems ya coding (ICD, CPT), timestamps ya tukio, mifano ya kutokuwepo—na heterogeneities hizi zinageuka kuwa njia za upande ikiwa haipatikani. Maamuzi ya sera yanatoka kutoka kwa mfano: ikiwa mchanganyiko unaaminika tu kusimamia lakini sio kutazama updates za kibinafsi, utahitaji mchanganyiko wa salama; ikiwa vitisho vya ndani ni sahihi kwa wateja, utahitaji uthibitisho (TPM/TEE) na Maana ya ajabu Byzantiki ya Pipelines Federated kwa XGBoost na TabNet Mkusanyiko wa mti na mifano ya meza ya neural huunganisha tofauti, lakini wote wawili wanaweza kufanywa kwa ufanisi na abstractions sahihi. kwa ajili maswali ya msingi ni sehemu ya data na jinsi ya kuficha takwimu za kugawanywa. federation (kila mteja ana mstari tofauti na mpango wa kipengele kimoja), wateja kuhesabu histograms gradient / hessian kwa mstari wao; aggregator ina jumla histograms na kuchagua splits duniani kote. federation (kila mteja ana vipengele tofauti kwa watu sawa), vyama vya pamoja kuhesabu faida za mchanganyiko kupitia protocols za uhifadhi wa faragha zilizounganishwa na kiwango cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipengele cha kipeng XGBoost, ya horizontal vertical ya kwa ajili (au mifumo sawa ya meza ya neural), classic kazi: usambazaji wa uzito, mafunzo ya ndani kwa nyakati chache na kuacha mapema, kisha wastani. Mtazamo wa mfululizo na regularizer ya sparsity ya TabNet ni kuhusiana na mipangilio ya kiwango cha kujifunza; kutumia wateja wa chini wa LR kuliko msingi wa kituo cha msingi, kutumia optimizers upande wa seva (FedAdam au FedYogi) ili kuimarisha kwenye maeneo tofauti, na kufunga uingizaji kwa vipengele vya kiwango cha juu cha kardinali wakati wa mfululizo wa kwanza ili kupunguza uingizaji. Uhakika wa mchanganyiko ni salama ikiwa wateja wote hutumia kernels za deterministic; vinginevyo, nondeterminism ya dondeterminism ya dondeterminism hutoa tofauti katika mfano wa wastani. Kwa uendesha TabNet wafuasi Chaguo mbili za mfumo zinaongeza ufanisi. Kwanza, kuongeza kwa wateja (FedProx) kuzuia hatua za mitaa kutoka kuiba mbali sana kutoka kwa uzito wa kimataifa; hii hupunguza uharibifu kutoka kwa usambazaji wa kipengele usio na IID. au muhtasari wa umuhimu wa kipengele kutoka kwa mfano wa kimataifa kurudi kwa wateja ili kupiga mstari usiofaa kwa ndani, kupunguza I / O na kushambulia uso. Katika vifaa vyote viwili, jaribio la moja la serialization ya hali ya mfano na wakati wa optimizer ili upgrades havifai kurejesha kurejesha federation iliyopangwa. Utaratibu wa karibu Masks ya kuchagua Usalama wa kiufundi vs. Usalama wa salama vs. Usalama wa tofauti FedAvg pekee inalinda eneo la data lakini haina kuficha updates binafsi. Ikiwa mchanganyiko wako ni waaminifu lakini wa ajabu, mchanganyiko salama ni msingi: wateja wanaficha updates zao na vifungo vya mara moja kwa pande mbili (au kupitia encryption ya homomorphic), hivyo seva hujifunza tu ya updates wakati kifungo cha wateja kinachoshirikiana. Hii inakadiriana na msimamizi wa kuchunguza histogram ya gradient yoyote ya hospitali moja au delta ya uzito. Mchakato ni uhandisi na uzito: unahitaji mikataba ya kupumzika-kuzuia, usindikaji wa baadaye wa mteja, na taratibu za kurejesha mask; mikataba inaweza kusimama ikiwa wateja wengi wanakosa, hivyo kutekeleza kifungo cha kurekebisha na ufumbuzi wa sehemu tu wakati hauwezi kufuta mshiriki yeyote. Kwa histograms ya XGBoost, mchanganyiko salama unajumuisha vizuri kwa sababu kuongeza ni kazi kuu; kwa TabNet, ufumbuzi huo huo huo unatumika kwa tensors za uzito lakini huongeza kompyuta na kumbukum Jumla ya inazungumzia hatari tofauti: kile mshambuliaji anaweza kuhitimisha kutoka kwa mfano wa kimataifa uliochapishwa. , unaweza kuongeza ghasia iliyopangwa kwa update ya jumla kwenye seva (pamoja baada ya usalama), na ufuatiliaji wa bajeti ya faragha ((\varepsilon, \delta)) kwa mfululizo kwa kutumia mhasibu wa wakati. , kila mteja huathiri update yake mwenyewe kabla ya kuunganisha salama; hii ni nguvu lakini kwa kawaida huathiri utumiaji zaidi juu ya kazi za meza. Kwa matumizi ya hospitali / fintech, DP ya katikati na clipping (per-client update norm bound) pamoja na uunganisho salama ni kipande kimoja: seva haina kuona updates nyekundu, na mfano wa umma una dhamana ya faragha inayoweza kutambuliwa. Matarajio ya kuunganisha vidakuzi mitatu pamoja - kiwango cha clip, multiplier ya sauti, na kikundi cha mteja kwa mzunguko - ili kudumisha uwiano wa kudumisha. Kwa XGBoost, DP inaweza kutumika kwa hesabu ya histogram (kuongeza sauti kwa kiasi cha bucket na faida) na kwa updates za karatasi; miti ndogo na Differential privacy (DP) Kituo cha DP Mikoa ya DP Kwa kifupi: FedAvg inahitajika kwa eneo, mchanganyiko wa salama unahitajika kwa usiri wa update, na DP inahitajika kwa dhamana ya wakati wa kuchapisha. Utengenezaji wengi unaosajiliwa hutumia wote watatu: FedAvg kwa orchestration, mchanganyiko wa salama kwa faragha ya wakati wa usafiri, na DP ya kati kwa faragha ya ngazi ya mfano. Nini cha kufuatilia: Drift, Ushiriki wa Bias, na Njia za Usimamizi Ufuatiliaji hufanya tofauti kati ya demo inayofuata na mfumo salama na muhimu. Kuanza na data na dhana drift. Kwenye upande wa mteja, hesabu kidogo, faragha-kuhifadhi maelezo — vipengele vipengele na tofauti, hashi ya mzunguko wa kikundi, PSI / Wasserstein karibu juu ya takwimu za uhakika, na ripoti tu aggregated au DP-kuongezeka kwa muhtasari. Kwenye seva, kufuatilia kiwango cha uhalali wa kimataifa juu ya kuweka nje, sera-kuidhinishwa dataset; split metric kwa cohorts synthetic kwamba kutafakari heterogeneity inayojulikana (viwango vya umri, bandari ya hatari, aina) bila kuonyesha usambazaji halisi wa mteja. Kwa TabNet, kuangalia kupoteza ni muuzaji wa mfano wa kimya katika mipangilio ya karatasi ya federated. Ikiwa hospitali kubwa ya jiji au mashirika makubwa ya mali huja mtandaoni kwa utaratibu, mfano wa kimataifa utafaa zaidi kwa idadi hiyo. Kumbuka, katika kocha, usambazaji wa wateja wanaofanya kwa mzunguko, unaoongozwa na ukubwa wa sampuli unaohesabiwa, na kudumisha dashboards za usawa na kiwango cha mchango kwa kila mteja (au kila mkoa). Tumia sampuli ya kurekebisha katika mzunguko ujao—kuchanganya wateja wanaoshirikiwa chini—na, wakati inawezekana, kurekebisha updates kwa kiasi cha data kinachohesabiwa chini ya mchanganyiko salama (kuchanganya kiasi cha buckets badala ya hesabu Participation bias Inapaswa kuwa ya darasa la kwanza. Kila mfululizo unapaswa kuzalisha rekodi iliyosajiliwa ambayo inajumuisha toleo la mfano, mfululizo wa uteuzi wa mteja (IDs za siri), toleo la protocol, vigezo vya kuunganisha salama, hali ya uhasibu wa DP ((\varepsilon, \delta)), kiwango cha kupiga hatua, na mipango ya ufuatiliaji wa jumla. Kuhifadhi hashes ya vituo vya kuangalia mifano na kuunganisha na metadata ya mfululizo ili uweze kurekebisha njia sahihi ya mafunzo. Kuhifadhi kumbukumbu inayojulikana kwa udanganyifu (kuunganishwa tu au iliyoandikwa nje) kwa ajili ya uchunguzi wa utawala. Kwa majibu ya ajali, utekelezaji wa vifungo Audit trails Hatimaye, fanya updates ya mifano Kuwezesha njia za kutolewa tofauti: mifano ya ndani inaweza kuepuka ghasia ya DP ikiwa hawajaondoka enclave, wakati mifano ya nje inayoshirikiana inahitaji hesabu ya DP. Inahitaji idhini ya binadamu kwa mabadiliko ya mpango na kuongeza vipengele; katika maeneo ya karatasi, tabia ya "moja tu zaidi ya safu" ni jinsi faragha inavyoweka. Kutoa wateja na hali ya kuendesha ghafla ambayo inathibitisha mipangilio, inachangia mipango, na inahesabu gharama za kompyuta bila kuchangia updates- hii inapunguza mikutano ya kushindwa na ulinzi dhidi ya masuala ya data ya kimya. Na kumbukumbu ya mfano wa tishio, bajeti za faragha, na sera za ufuatiliaji pamoja na kadi ya mfano ili watumiaji wa Usalama wa default Kuanzisha Kwa data ya meza katika hospitali na fintech, utendaji unakuja kutoka kwa ulinzi wa kiwango. Tumia wastani wa shirikisho ili kuweka meza mahali, kuhifadhi mchanganyiko ili kuficha mchango wowote wa tovuti, na faragha ya tofauti ili kuunganisha kile mfano wa mwisho anaweza kuvuka. Weka chaguo hizo katika vifaa ambavyo vinaheshimu kipengele cha meza - kushiriki histogram kwa XGBoost, stabilizers kwa TabNet - na ufuatiliaji wa mfumo kama hawk kwa udanganyifu na udanganyifu.