ang mga author: Nicola Rieke Jonny Hancox Wenqi Li Fausto Milletarì Holger R. Roth Shadi Albarqouni Spyridon Bakas Mathieu N. Galtier Bennett A. Landman Klaus Maier-Hein Sébastien Ourselin Micah Sheller Ronald M. Summers Andrew Trask Daguang Xu Maximilian Baust M. Jorge Cardoso ang mga author: si Nicole Rieke sa pamamagitan ng Jonny Hancox Tandaan ang Li Fausto Milletarí Mga pahinang tumuturo sa Holger R. Roth Sobrang Albarqouni Mga pahinang tumuturo Si Mathieu N. Galtier ang ang napili ng mga taga-hanga: Bennett A. Landman Si Klaus Maier-Hein ang Si Sébastien Ourselin ang Mga pahinang tumuturo Mga pahinang tumuturo sa Ronald M. Summers sa pamamagitan ng Andrew Trask Mga pahinang Maximilian Baust ang Si Jorge Cardoso abstrak ang Ang data-driven machine learning (ML) ay dumating bilang isang nangangailangan na paraan upang bumuo ng katunayan at malakas na mga modelo ng istatistika mula sa medikal na data, na ibinibigay sa mga malaking volumes sa pamamagitan ng mga modernong sistema ng kalusugan. Ang mga karaniwang medikal na data ay hindi na-exploited sa pamamagitan ng ML nangangahulugan dahil ito ay nasa mga data silos at ang privacy concerns ay limitado ang access sa mga data na ito. Gayunpaman, nang walang access sa sapat na data, ang ML ay hindi nawala sa pagkuha ng lahat ng kanyang potensyal at, sa katunayan, mula sa paglipat mula sa pananaliksik sa clinical practice. Ang dokumento na ito ay tinatanggap ng mga pangunahing mga katumbas na tumutulong sa problemang ito, pag- Introduction ang Ang pananaliksik sa artificial intelligence (AI), at lalo na ang mga pag-unlad sa machine learning (ML) at deep learning (DL) Ang mga modernong mga modelo ng DL ay naglalaman ng milyon-milyong mga parameter na kinakailangan upang malaman mula sa sapat na malaking curated datasets upang makakuha ng clinical-grade accuracy, habang ang mga ito ay safe, fair, equitable at generalizing well sa unseen data , , , . 1 2 3 4 5 Halimbawa, ang pagsasanay ng isang AI-based tumor detector ay nangangailangan ng isang malaking database na naglalaman ng buong spektrum ng posible na anatomiya, patolohiya, at uri ng input data. Data tulad ng ito ay mahirap upang makakuha ng, dahil ang mga data ng kalusugan ay mataas na sensitibo at ang paggamit nito ay napaka-regulado Gayunpaman, kung ang pag-anonimization ng data ay maaaring umuwi ang mga limitasyon na ito, ngayon ay malinaw na ang pagpatay ng metadata tulad ng pangalan ng pasyente o petsa ng pagkilala ay karaniwang hindi kapaki-pakinabang upang matatagpuan ang privacy. Halimbawa, maaaring i-reconstruct ang mukha ng isang pasyente mula sa computer tomography (CT) o magnetic resonance imaging (MRI) data. Ang isa pang dahilan kung bakit data sharing ay hindi systematic sa healthcare ay na ang pagkolekta, curating, at panatilihin ng isang mataas na kalidad na dataset ay nangangailangan ng karamihan ng oras, pag-aaral, at gastos. Ang mga dataset na ito ay maaaring magkaroon ng karamihan sa negosyo na may karaniwang halaga, na kung saan ito ay mas mababa na ang mga ito ay libre na ibahagi. 6 7 8 Ang Federated Learning (FL) ay , , Ito ay isang paradigma ng pag-aaral na naghahanap upang matugunan ang problema ng data governance at privacy sa pamamagitan ng pagsasanay ng mga algorithm sa kolaborasyon nang walang pag-share ang data mismo. , it's recently gained traction para sa mga application sa healthcare , , , , , , , Ang FL ay nagbibigay-daan upang makakuha ng mga pag-iisip sa pamamagitan ng kolaborasyon, halimbawa, sa pamamagitan ng isang consensus model, ayon sa paglipat ng data ng mga pasyente sa labas ng mga firewall ng mga institusyon sa kung saan sila ay nag-iisip. Sa halip, ang proseso ng ML ay nangyari sa lokasyon sa bawat participating institusyon at lamang ang mga katangian ng modelo (halimbawa, mga parameter, gradients) ay i-transfer tulad ng inilarawan sa Fig. Ang nakaraang pananaliksik ay nagpapakita na ang mga modelo na inilunsad ng FL ay maaaring makakuha ng mga antas ng pagganap na katumbas sa mga inilunsad sa centrally hosted datasets at mas mataas sa mga modelo na lamang makita ng mga isolatong single-institutional data , . 9 10 11 12 13 14 15 16 17 18 19 20 1 16 17 FL aggregation server—ang tipikal FL workflow kung saan isang federasyon ng training nodes makuha ang global na modelo, i-submit ang kanilang partikular na-trained na mga modelo sa isang central na server intermittently para sa aggregation at pagkatapos ay mag-training sa konsensus na modelo na ang server ay bumalik. FL peer to peer—alternative formulation ng FL kung saan ang bawat training node exchanges ang kanyang partikular na-trained mga modelo sa ilang o lahat ng kanyang peers at ang bawat isa ay gumagawa ng kanyang sarili aggregation. Centralized training—ang pangkalahatang non-FL training workflow sa kung saan data acquiring sites donate ang kanilang data sa isang sentral na data lake mula sa kung saan sila at iba pang mga tao ay maaaring i-extract ang data para sa local, independiyenteng training. a b c Ang isang kumplikado na pag-implementasyon ng FL ay maaaring magkaroon ng isang malaking potensyal para sa pagganap ng precision medicine sa isang malalaking skala, na nagdadalang sa mga modelo na nagpapahiwatig ng unbiased decisions, optimally ibinibigay ang isang tao's physiology, at ang mga sensitibo sa mga karaniwang sakit habang nagtatagumpay sa mga pangangailangan ng governance at privacy. Gayunpaman, ang FL ay nangangailangan ng katangian na teknikal na paghahatid upang matugunan na ang algorithm ay nagtatag ng optima nang walang kompromiso sa seguridad o privacy ng pasyente. Nag-iisip namin ang isang federated future para sa digital health at sa pag-perspective paper na ito, makipag-ugnayan namin ang aming konsensus view na may target na magbigay ng konteksto at detalye para sa komunidad tungkol sa mga benepisyo at epekto ng FL para sa mga medikal na mga application (section "Data-driven medicine requires federated efforts"), pati na rin ayon sa mga pangunahing mga pangunahing pangangailangan at mga problema ng pag-implementation ng FL para sa digital health (section "Technical considerations"). Ang data-driven medicine ay nangangailangan ng federated efforts Ang ML at karamihan sa DL ay naging ang de facto knowledge discovery approach sa maraming industriya, ngunit ang kumpletong pag-implementasyon ng data-driven applications ay nangangailangan ng malaking at diversified datasets. Gayunpaman, ang medical data sets ay mahirap upang makakuha (subsection “The reliance on data”). FL ay tumutulong sa problemang ito sa pamamagitan ng nagpapahintulot ng collaborative learning nang walang centralizing data (subsection “The promise of federated efforts”) at ay na-tanggap ang kanyang paraan sa digital health applications (subsection “Current FL efforts for digital health”). Ang bagong paradigma ng pag-aaral na ito ay nangangailangan ng pag-aaral mula sa, ngunit din ay nag-aalok ng mga karaniwang mga interesado sa healthcare (section “Impact on stakeholders”). Ang relihiyon sa data Habang ito ay isang kilala na kinakailangan, ang mga state-of-the-art algorithms ay karaniwang na-evaluate sa malusog na curated datasets, karaniwang nagsisimula mula lamang sa ilang mga source. Ito ay maaaring i-introduce biases kung saan demographics (e.g., gender, edad) o technical imbalances (e.g., acquisition protocol, equipment manufacturer) distort predictions at malusog na nagpapakita sa katunayan para sa anumang mga grupo o site. Gayunpaman, upang i-capture subtle relasyon sa pagitan ng mga pattern ng sakit, sosyo-economic at genetic factors, pati na rin ang mga kompleks at karaniwang mga kaso, ito ay mahalaga na i-expose ng isang modelo sa iba't ibang mga kaso. Ang pangangailangan para sa mga malaking database para sa pag-training ng AI ay nagsisimula ng maraming mga inisyatiba na naghahanap upang magbubuo ng data mula sa maraming mga institusyon. Ang data na ito ay karaniwang nakumpleto sa mga tinatawag na Data Lakes. Ang mga ito ay binuo na may sasabihin na gumagamit ang commercial na halaga ng data, halimbawa, IBM's Merge Healthcare acquisition , o bilang isang resource para sa ekonomiya at pananalapi, halimbawa, NHS Scotland's National Safe Haven Mga pahinang tumuturo sa Health Data Hub , at Health Data Research UK . 21 22 23 24 Substantial, ngunit mas maliit, ang mga inisiasyon ay ang Human Connectome ang UK Biobank ang Cancer Imaging Archive (TCIA) Mga pahinang tumuturo sa CXR8 Mga pahinang tumuturo ang Cancer Genome Atlas (TCGA) ang Alzheimer's Disease Neuroimaging Initiative (ADNI) Dahil sa mga problema ng medikal Dahil sa Camelyon Challenge ang International Multimodal Brain Tumor Segmentation (BraTS) , , o ang Medical Segmentation Decathlon Public medical data ay karaniwang task- o sakit-specific at karaniwang inilabas na may iba't ibang antas ng mga limitasyon ng lisensya, karaniwang limitasyon ang kanyang pag-exploitation. 25 26 27 28 29 30 31 32 33 34 35 36 37 Gayunpaman, ang centralization o pag-release ng data ay nagpapakita sa hindi lamang ng regulatory, ethical at legal na mga problema, na may kaugnayan sa privacy at proteksyon ng data, ngunit din ang mga teknikal. Anonimization, kontroling access at safe transfer ng healthcare data ay isang hindi-trivial, at karaniwang imposible na gawa. Ang mga anonim na data mula sa electronic health record ay maaaring magkakaroon at GDPR / PHI-compliant, ngunit lamang ang ilang mga elemento ng data ay maaaring nagpapahintulot para sa re-identification ng pasyente Ang parehong ito ay katumbas sa genomic data at medikal na imahe na gumagawa ng mga ito tulad ng isang fingerprint Dahil dito, kung hindi ang proseso ng pag-anonimization binuksan ang katotohanan ng data, na posibleng magdadala ito, hindi maaaring i-exclude ang re-identification ng pasyente o pag-leak ng impormasyon. Gated access for approved users is often proposed as a putative solution to this problem. Gayunpaman, higit sa limitasyon ng availability ng data, ito ay praktikal lamang para sa mga kaso kung saan ang consensus granted by the data owners is unconditional, dahil ang pag-recall ng data mula sa mga taong maaaring mayroon ng access sa data ay halos hindi mahigpit. 7 38 Ang mga promise ng federated efforts Sa isang setting ng FL, ang bawat controller ng data ay hindi lamang nag-defines ang kanyang mga proseso ng governance at mga katangian ng privacy, ngunit nag-control ang access sa data at may kakayahan upang i-revoke ito. Ito ay kabilang sa parehong pag-training at ang phase ng pag-validation. Sa paraan na ito, ang FL ay maaaring lumikha ng mga bagong mga pagkakataon, halimbawa, sa pamamagitan ng magbigay ng malaking-scale, intr-institutional validation, o sa pamamagitan ng magbigay ng bagong pananaliksik sa mga karaniwang sakit, kung saan ang mga rate ng incidensiya ay mababang at ang data sets sa bawat institusyon ay mas maliit. Paglipat ng modelo sa data at hindi sa katangian ay may isang iba't ibang pangunahing halaga: high-dimensional Bilang ito sa Fig. , ang isang FL workflow ay maaaring i-realize sa iba't ibang topologies at compute plans. Ang dalawang pinaka-karaniwang para sa mga application ng healthcare ay sa pamamagitan ng isang aggregation server , , Mga pahinang tumuturo sa peer to peer , Sa lahat ng mga kaso, ang FL ay nag-aalok ng isang anumang antas ng privacy, dahil ang mga miyembro ng FL ay hindi direktang mag-access sa data mula sa iba pang mga institusyon at lamang makakuha ng mga parameter ng modelo na mag-aggregate sa pamamagitan ng ilang mga miyembro. Sa isang workflow ng FL na may mga server ng aggregation, ang mga miyembro ng FL ay maaaring kahit na maging hindi kilala sa bawat isa. Gayunpaman, itinatag na ang mga modelo mismo ay maaaring, sa anumang mga kondisyon, i-memorize ang impormasyon , , , Dahil dito, ang mga mekanismo tulad ng differential privacy ay , o pag-aaral mula sa encrypted data ay inihayag upang masama ang privacy sa isang FL setting (cf. seksyon "Technical considerations"). Sa kabuuan, ang potensyal ng FL para sa mga application sa healthcare ay nagdadalang interes sa komunidad at mga teknolohiya ng FL ay isang tumutukoy na lugar ng pananaliksik , . 2 16 17 18 15 39 40 41 42 43 44 45 46 12 20 FL topologies—communication architecture ng isang federation. Centralized: ang aggregation server coordinates ang training iterations at makuha, aggregate at paghahatid ng mga modelo sa at mula sa Training Nodes (Hub & Spoke). Decentralized: Ang bawat training node ay konektado sa isa o higit pang mga peers at ang aggregation ay nangyayari sa bawat node sa parallel. Pumili ng kategorya, gaya ng mga gasolinahan o grocery store, o maghanap ng partikular na uri ng lugar. ( FL compute plans—trajectory ng isang modelo sa pamamagitan ng ilang mga partner. Ipinanganak ang sequential training/cyclic transfer learning. ang mga server, Ang mga ito ay peer. a b c d e f g Current FL efforts para sa digital health Dahil ang FL ay isang pangkalahatang paradigma ng pag-aaral na inilunsad ang kinakailangan ng data pooling para sa pag-unlad ng modelo ng AI, ang pangkalahatan ng application ng FL ay nagkakahalaga sa buong AI para sa healthcare. By providing an opportunity to capture larger data variability and to analyze patients across different demographics, ang FL ay maaaring magbibigay ng disruptive innovations para sa hinaharap ngunit din ay ginagamit ngayon. Sa konteksto ng electronic health records (EHR), halimbawa, ang FL ay tumutulong sa paghahatid at paghahanap ng klinikal na katulad na mga pasyente , , pati na rin ang predicting hospitalizations dahil sa cardiac events , mortality at ICU stay oras Ang aplicability at mga kapaki-pakinabang ng FL ay din na-demonstrate sa field ng medical imaging, para sa buong brain segmentation sa MRI , pati na rin ang brain tumor segmentation , Sa nakalipas, ang teknolohiya ay ginagamit para sa fMRI classification upang makahanap ng reliable disease-related biomarkers at inirerekomenda bilang isang promising approach sa konteksto ng COVID-19 . 13 47 14 19 15 16 17 18 48 Hindi lang ng maraming, at hindi mabilang na walking patay, na maaaring gumawa ng anumang bilang ng pagbuo ng mga modernong armas sa pamamagitan ng numero. Ito ay dahil sa mga consortium na nagtatagumpay sa pag-unlad mga pananaliksik, tulad ng ang Trustworthy Federated Data Analytics (TFDA) proyekto at ang Joint Imaging Platform ng German Cancer Consortium , na nagpapahintulot ng desentralisadong pananaliksik sa buong German medical imaging research institutions. Ang isa pang halimbawa ay isang internasyonal na pananaliksik na kolaborasyon na gumagamit ng FL para sa pag-unlad ng mga modelo ng AI para sa pag-evaluation ng mammograms . The study showed that the FL-generated models outperformed those trained on a single institute’s data and were more generalisable, so that they still performed well on other institutes’ data. However, FL is not limited just to academic environments. Mga Academic 49 50 51 Sa pamamagitan ng pag-connect ng mga institusyon ng kalusugan, hindi limitado sa mga sentro ng pananaliksik, ang FL ay maaaring magkaroon ng direct impact. Ang kasalukuyang HealthChain project , halimbawa, ay nagtatrabaho upang bumuo at i-deploy ng isang FL framework sa loob ng mga ospital sa France. Ang solusyon na ito ay lumikha ng karaniwang mga modelo na maaaring predict treatment response para sa mga pasyente ng breast cancer at melanoma. Ito ay tumutulong sa mga oncologists upang matukoy ang pinaka-effective treatment para sa bawat pasyente mula sa kanilang histology slides o dermoscopy imahe. Ang isa pang malaking-scale effort ay ang Federated Tumor Segmentation (FeTS) initiative , na ay isang internasyonal na federasyon ng 30 nakatuon na mga institusyon ng kalusugan na gumagamit ng isang open-source FL framework na may isang graphical user interface. Ang layunin ay upang mapabuti ang tumor border detection, kabilang ang brain glioma, breast tumors, liver tumors at bone lesions mula sa mga pasyente ng multiple myeloma. ang clinic 52 53 Ang iba't ibang lugar ng impact ay sa pananaliksik at translation. FL ay nagbibigay ng kolaborasyon na pananaliksik para sa, kahit sa mga kumpanya. Sa konteksto na ito, isa sa mga pangunahing inisyatiba ay ang Melloddy project Ito ay isang proyekto na tumutulong sa pag-implementasyon ng multi-task FL sa lahat ng data sets ng 10 pharmaceutical companies. By training a common predictive model, na nagpapakita kung paano ang mga chemical compounds bind sa proteins, ang mga partner ay nagtatagumpay upang optimize ang proseso ng pag-discovery ng drug nang hindi ipinakita ang kanilang mataas na mahalaga internal data. industriya 54 Impact sa mga stakeholder Ang FL ay binubuo ng isang pagbabago ng paradigma mula sa centralized data lakes at ito ay mahalaga upang malaman ang kanyang epekto sa iba't ibang mga stakeholder sa isang FL ecosystem. mga klinika Ang mga clinicists ay karaniwang nakakatanggap sa isang sub-group ng populasyon batay sa kanilang lokasyon at demographic environment, na kung saan ay maaaring lumikha ng mga biased assumptions tungkol sa pagkakataon ng anumang sakit o ang kanilang interconnection. Sa pamamagitan ng paggamit ng ML-based systems, halimbawa, bilang isang second-reader, sila ay maaaring lumikha ang kanilang sarili na karanasan sa mga eksperto na may kaalaman mula sa iba pang mga institusyon, na magbigay ng isang konsistensiya ng diagnosis na hindi makakuha ng ngayon. Habang ito ay gumagamit sa ML-based system sa pangkalahatang, mga sistema na inirerekomenda sa isang federated na paraan ay maaaring lumikha ng higit pa biased decisiones at mas mataas na sensitivity sa mga karaniwang mga kaso dahil sila ay malaki sa mga pasyente Ang mga pasyente ay karaniwang tinutukoy lokal. Ang pag-uugali ng FL sa isang global na skala ay maaaring magbigay ng mataas na kalidad ng mga pananaliksik na pagsusuri sa anumang lokasyon ng paggamot. Halimbawa, ang mga pasyente na nangangailangan ng medikal na pagsusuri sa mga nakalipas na lugar ay maaaring makakuha ng kapaki-pakinabang mula sa parehong mataas na kalidad na ML-aided mga diagnosis na magagamit sa mga ospital na may isang malaking bilang ng mga kaso. Ang parehong ay katumbas para sa karaniwang, o geographically hindi karaniwang, mga sakit, na maaaring magkaroon ng mas mababang pangangasiwa kung mas mabilis at mas madali na mga diagnosis ay maaaring ginawa. Mga ospital at mga praktikal Ang mga ospital at mga patakaran ay maaaring magkaroon ng buong kontrol at posisyon ng kanilang mga data ng pasyente na may kumpletong traceability ng access ng data, na limitasyon ang risk ng pag-usapan sa pamamagitan ng mga third-party. Gayundin, ito ay nangangailangan ng investment sa on-premise computing infrastructure o private-cloud service provision at adherence sa standardized at synoptic data formats upang ang mga modelo ng ML ay maaaring i-trained at i-evaluate nang malusog. Ang halaga ng kinakailangang kapasidad ng computing depende, naturang, kung ang isang site ay lamang nagkakahalaga sa pag-evaluation at pag-testing pag-aaral o din sa pag-training pag-training. Mga Researchers at Developer Ang maliliit na negosyo sa mga sumusunod na sektor ay kinakailangan: pagproseso ng produktong agrikultural ( , , Ang FL-based development ay kinakailangan din na ang pananaliksik o AI developer ay hindi makakakuha ng pag-aaral o pag-visualize ang lahat ng data sa kung saan ang modelo ay nagtrabaho, halimbawa, hindi maaaring makita ang isang individual na kaso ng pagkilos upang malaman kung bakit ang kasalukuyang modelo ay malaki sa kanya. 11 12 20 Mga Providers ng Healthcare Ang mga nag-aalok ng kalusugan sa maraming mga bansa ay nakakaapekto sa pagbabago ng kasalukuyang paradigma mula sa volume-based, i.e., fee-for-service-based, sa value-based healthcare, na kung saan ay sa gayon ay malakas na naka-connected sa kumpletong pag-iisip ng precision medicine. Ito ay hindi tungkol sa pag-promote ng mas mahalagang individualized therapies ngunit sa halip tungkol sa pagkuha ng mas mahusay na mga resulta sa pamamagitan ng higit pa na-focused treatment, na nagsisimula ng gastos. mga manufacturer Ang mga tagagawa ng mga software at hardware ng kalusugan sa kalusugan ay maaaring makamit ng FL din, dahil ang paghahambing ng pag-uugali mula sa maraming mga device at application, nang hindi nag-uugali ng pasyente-specific na impormasyon, ay maaaring mapagkukunan ang katapusan na pag-validasyon o pag-uugali ng kanilang mga sistema na batay sa ML. Gayunpaman, ang pag-uugali ng kapasidad na ito ay maaaring nangangailangan ng malaking pag-upgrade sa local computing, data storage, networking capabilities at related software. Mga Teknolohiya Ang FL ay maaaring mas mahusay na kilala mula sa trabaho ng Konečnỳ et al. , ngunit ang iba pang mga definisyon ay inihayag sa literature , , , Ang isang FL workflow (Fig. ) maaaring i-realize sa pamamagitan ng iba't ibang topologies at mga plano ng computing (Fig. Hindi lang ng maraming, at hindi mabilang na walking patay, na maaaring gumawa ng anumang bilang ng pagbuo ng mga modernong armas sa pamamagitan ng numero. 55 9 11 12 20 1 2 Definisyon ng Federated Learning Ang FL ay isang paradigma ng pag-aaral kung saan ang ilang mga pamantayan ay nagtrabaho sa kolaborasyon nang walang kinakailangan upang i-share o centralize ang mga dataset. Ang isang pangkalahatang formulasyon ng FL ay tinatawag na sumusunod: I-denote ang isang global loss function na nakuha sa pamamagitan ng isang pandaigdigang kombinasyon ng local losses, na itakda mula sa mga private data Ang mga sumusunod na mga sumusunod na mga sumusunod na mga sumusunod na mga sumusunod na mga sumusunod na mga sumusunod na mga sumusunod na mga sumusunod na mga sumusunod na mga sumusunod na mga sumusunod na mga sumusunod na mga sumusunod na mga sumusunod na mga sumusunod na mga sumusunod na mga sumusunod na mga sumusunod na mga sumusunod na mga sumusunod na mga sumusunod na mga sumusunod na mga sumusunod: K ang xk Nasaan ang > 0 ay nagpapakita ng mga respective weight coefficients. ang wk Sa pangkalahatan, ang bawat participant ay karaniwang makakuha at paglalarawan ng isang global consensus model sa pamamagitan ng paghahatid ng ilang round ng optimization locally at pagkatapos ng pag-share updates, o sa pamamagitan ng isang parameter server. ) , Ang tunay na proseso para sa pag-aggregate ng mga parameter ay depende sa network topology, dahil ang mga nodes ay maaaring i-segregate sa sub-networks dahil sa mga geographical o legal na limitasyon (tingnan ang Fig. Ang mga strategya ng aggregation ay maaaring tugon sa isang single aggregating node (hub at speaker models), o sa maraming mga node nang walang anumang centralization. Isang halimbawa ay peer-to-peer FL, kung saan mga koneksyon ay mayroon sa pagitan ng lahat o isang subset ng mga miyembro at ang mga update ng modelo ay ibahagi lamang sa pagitan ng mga direktang konektado site. , Ang isang halimbawa ng centralized FL aggregation ay ibinigay sa Algorithm 1. Tandaan na ang mga estratehiya ng aggregation ay hindi kinakailangan ng impormasyon tungkol sa buong update ng modelo; ang mga kliyente ay maaaring piliin upang ibahagi lamang ng isang subset ng mga parameter ng modelo para sa hinaharap ng komunikasyon overhead, na magbibigay ng mas mahusay na preservation ng privacy. o upang lumikha ng multi-task learning algorithms na may lamang bahagi ng kanilang mga parameter na narinig sa isang federated na paraan. 1 9 12 2 15 56 10 Ang isang unifying framework na nagbibigay-daan sa iba't-ibang mga scheme ng pagsasanay ay maaaring magbigay ng mga resource ng computing (data at mga server) mula sa Halimbawa, tulad ng inilarawan sa Fig. Ang ikatlong kadahilanan ay ang trajectory ng isang modelo sa pagitan ng ilang mga partner, na magtrabaho at tinatanggap sa anumang datasets. Mga plano 2 Mga challenge at mga consideration Habang ang mga katangian ng FL, hindi ito nag-solve ang lahat ng mga problema na inherent sa pag-aaral sa mga medikal na data. Ang isang sikat na pag-aaral ng modelo ay palagi depende sa mga bahagi tulad ng kalidad ng data, bias at standardization Ang mga problema na ito ay kinakailangan upang i-solve para sa parehong federated at non-federated learning efforts sa pamamagitan ng mga katangian na halimbawa, tulad ng cautious study design, common protocols para sa pagkuha ng data, structured reporting at sophisticated methodologies para sa pagkuha ng bias at nakalimutan na stratification. Sa ibaba, tumutukoy namin sa mga pangunahing aspeto ng FL na may pangunahing katangian kapag ginagamit sa digital health at kailangan mong i-take sa pag-set up ng FL. , , . 2 11 12 20 Heterogeneity ng data Ang mga medikal na data ay karaniwang diversified - hindi lamang dahil sa iba't-ibang mga modalities, dimensionality at mga katangian sa pangkalahatan, ngunit kahit sa loob ng isang espesyal na protocol dahil sa mga faktor tulad ng mga pagkakaiba-iba sa pagkuha, brand ng medikal na device o lokal na demographics. FL ay maaaring makatulong sa paglalarawan ng anumang mga susi ng mga bias sa pamamagitan ng potensyal na lumaki ng diversity ng data sources, ngunit inhomogeneous data distribution ay isang challenge para sa FL algorithms at mga strategies, dahil maraming ay sumusuportahan independently at identically distributed (IID) data sa lahat ng mga miyembro. are prone to fail under these conditions , , Ang pag-aaral na ito ay may pangunahing katangian para sa mga estudyante, ngunit ang mga resulta ay nagpapakita na ang training sa FL ay posible. , kahit na ang mga medikal na data ay hindi uniformly naghahatid sa lahat ng mga institusyon , o naglalaman ng isang lokal na bias Ang mga pananaliksik na nagtatrabaho sa problemang ito ay, halimbawa, Mga Strategiya ng Part-Data Sharing at FL na may domain-adaptation Ang isa pang problema ay na ang heterogeneity ng data ay maaaring humantong sa isang situasyon kung saan ang global optimal na solusyon ay maaaring hindi optimal para sa isang individual na local participant. ang napili ng 9 9 57 58 59 16 17 51 sa pamamagitan ng FedProx 57 58 18 Privacy at seguridad Healthcare data is highly sensitive and must be protected accordingly, following appropriate confidentiality procedures. Therefore, some of the key considerations are the trade-offs, strategies and remaining risks regarding the privacy-preserving potential of FL. Privacy vs. performance: Ito ay mahalaga na ang FL ay hindi mag-solve ang lahat ng mga potensyal na mga problema ng privacy at - tulad ng mga algorithm ng ML sa pangkalahatan - ay patuloy na magdadala ng ilang mga risk. Gayunpaman, may isang kompromiso sa pagitan ng pagganap at ang mga teknolohiya na ito ay maaaring ilagay, halimbawa, ang katunayan ng final na modelo Sa karagdagang, ang mga nakaraang teknolohiya at / o accessory data ay maaaring gamitin upang i-compromise ang isang modelo na nangangahulugan na low-risk. 12 10 Ang antas ng kahulugan: Sa pangkalahatan, ang mga partisipante ay maaaring sumali sa dalawang uri ng FL collaboration: — para sa FL consortia kung saan ang lahat ng mga pamantayan ay tinatanggap na matatagpuan at binubuo sa pamamagitan ng isang nakatuon na pakikipagtulungan ng kolaborasyon, maaari naming i-eliminate ang karamihan ng mas mabigat na mga motivasyon, tulad ng mga nakaranas na pag-extract ng sensitibo na impormasyon o upang malinis ang modelo. Ito ay humihinto ang pangangailangan para sa sophisticated counter-measures, na bumalik sa mga prinsipyo ng standard collaborative research. ang trusted —Sa mga sistema ng FL na gumagana sa mas mataas na mga skala, maaaring hindi praktiko upang bumuo ng isang magtatagumpay na pakikipagtulungan na pakikipagtulungan. Ang ilang mga kliyente ay maaaring natutunan na mag-degradate ang pagganap, magdadala ng sistema, o i-extract ng impormasyon mula sa iba pang mga bahagi. Sa gayon, ang mga strategya ng seguridad ay kinakailangan upang mabawasan ang mga risgo na ito tulad ng, advanced encryption ng mga sumusunod ng modelo, secure authentication ng lahat ng mga bahagi, traceability ng mga aksyon, differential privacy, verification systems, execution integrity, model confidentiality at protections laban sa adversarial attacks. Huwag ng Trust Information leakage: By definition, FL systems avoid sharing healthcare data among participating institutions. Gayunpaman, ang ibinigay na impormasyon ay maaaring pa rin indirectly exposes private data na ginagamit para sa local training, halimbawa, sa pamamagitan ng model inversion sa mga update ng modelo, ang mga gradients mismo At ang mga adversary , Ang FL ay tinatawag mula sa mga tradisyonal na pagsasanay sa kung saan ang proseso ng pagsasanay ay nakatuon sa maraming mga partido, sa gayon ay mas mataas ang risk ng leakage sa pamamagitan ng reverse-engineering kung ang mga opponent ay maaaring makikita ang mga pagbabago ng modelo sa panahon, makikita ang mga pag-update ng anumang modelo (i.e., pag-update ng isang single institution), o i-manipulate ang modelo (e.g., induce additional memorization sa pamamagitan ng iba pang mga tao sa pamamagitan ng gradient-ascent-style attacks). , at magbigay ng adekvata diferensial na privacy , maaaring kailangan at ay pa rin isang aktibo na lugar ng pananaliksik . 60 61 62 63 16 18 44 12 Traceability at responsibilidad Tulad ng lahat ng mga seguridad-critical application, ang reproductibility ng isang sistema ay mahalaga para sa FL sa healthcare. Sa kontrata sa centralized training, ang FL ay nangangailangan ng multi-party computing sa mga environment na nagpapakita ng karamihan na iba't ibang sa halaga ng hardware, software at network. Ang traceability ng lahat ng mga asset ng sistema kabilang ang data access history, training configurations, at hyperparameter tuning sa buong proseso ng training ay kinakailangang. Karamihan sa hindi-trusted federations, traceability at accountability proseso ay nangangailangan ng implementation integrity. Kapag ang proseso ng training ay dumating sa mga mutually agreed model optimity criteria, ito ay maaaring magagamit din upang malaman ang halaga ng kontribusyon mula sa bawat participant, tulad ng Ang isang implikasyon ng FL ay na ang mga mananaliksik ay hindi maaaring i-investigate ang data sa kung saan ang mga modelo ay nagtrabaho upang makikita ang mga resulta ng hindi na-expect. Sa karagdagang, ang pagkuha ng statistical measurements ng kanilang mga data sa pagsasanay bilang bahagi ng workflow ng pag-unlad ng modelo ay kailangan na mag-apply ng mga kumpanya bilang hindi nag-infring privacy. Habang ang bawat site ay may access sa kanyang sarili raw data, federations ay maaaring mag-decide na magbigay ng ilang uri ng safe intra-node viewing facility upang matugunan ang kinakailangan na ito o ay maaaring magbigay ng anumang iba pang paraan upang bumuo ng pag-explainability at interpretability ng global na modelo. 64 System architecture Iyon ay hindi gumagana ng malaking-scale FL sa pagitan ng mga consumer device tulad ng McMahan et al. Ang mga miyembro ng mga institusyonal na pananaliksik ay may relatibong malakas na mga resource computing at reliable, mas mataas na-transmission networks na nagbibigay-daan para sa pagsasanay ng mas mataas na mga modelo na may higit pa sa mga lokal na pagsasanay na patakaran, at pag-share ng higit pa ng modelo na impormasyon sa pagitan ng mga nodes. Ang mga unikal na katangian ng FL sa pananaliksik ay nagdadala din ng mga problema tulad ng paghahatid ng integrity ng data sa pag-kommunicate sa pamamagitan ng paggamit ng redundant nodes, pag-disenyo ng seguro na mga pamamaraan ng encryption upang maiwasan ang data leakage, o pag-disenyo ng parehong node schedulers upang makamit ang pinakamahusay na paggamit ng mga distributed 9 Ang administrasyon ng isang federasyon na ito ay maaaring gaganapin sa iba't ibang paraan. Sa mga situasyon na nangangailangan ng pinakamataas na privacy ng data sa pagitan ng mga partido, ang pag-training ay maaaring gumagana sa pamamagitan ng ilang uri ng sistema ng "honest broker", kung saan ang isang trusted third party ay gumagana bilang ang intermediary at nagpapahintulot sa access sa data. Ang pag-setup na ito ay nangangailangan ng isang independiyenteng entity na kontrolin ang buong sistema, na kung saan ay hindi kailanman nais, dahil ito ay maaaring magagamit ng karagdagang gastos at procedural na viscosity. Gayunpaman, ito ay may katangian na ang mga katangian ng internal mechanisms ay maaaring i-abstract mula sa mga kliyente, na kung saan ang sistema ay mas agility at mas madali upang Konklusyon Ang ML, at karamihan sa DL, ay nangangahulugan sa isang karamihan ng mga innovations sa sektor ng digital healthcare. Dahil ang lahat ng mga paraan ng ML ay may karamihan sa pagkakaroon ng access sa data na may halimbawa sa tunay na global distribution, ang FL ay isang pangangailangan na paraan upang makakuha ng malakas, malakas, malakas, malakas at unbiased mga modelo. Sa pamamagitan ng magbigay ng karamihan ng mga pamantayan upang i-train collaboratively nang walang kinakailangan upang i-share o centralize ang data sets, ang FL ay patuloy na tumutulong sa mga isyu na may kaugnayan sa pag-egress ng sensitive medical data. Sa katunayan, ito ay maaaring bumuo ng mga bagong pananaliksik at negosyo na mga paraan at may potensyal na pagbuti Kahit na ito, tunay na naniniwala na ang kanyang potensyal na epekto sa precision medicine at sa katapusan sa pagbutihin ng medikal na pangangailangan ay napaka-promising. 12 Tungkol sa Summary Magbigay ng inspirasyon sa kontemporaryong designer ay maaaring gumawa ng kahit ano, kahit ano, at ang New Year - ay walang exception link sa artikulong ito. Nature Research Summary ng mga pananaliksik ang reference LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. , 436 (2015). Nature 521 Wang, F., Casalino, L. P. & Khullar, D. Deep learning in medicine—promise, progress, and challenges. , 293–294 (2019). JAMA Intern. Med. 179 Chartrand, G. et al. Deep learning: a primer for radiologists. , 2113–2131 (2017). Radiographics 37 De Fauw, J. et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. , 1342 (2018). Nat. Med. 24 Sun, C., Shrivastava, A., Singh, S. & Gupta, A. Revisiting unreasonable effectiveness of data in deep learning era. In , 843–852 ( , 2017). Proceedings of the IEEE international conference on computer vision IEEE Van Panhuis, W. G. et al. A systematic review of barriers to data sharing in public health. , 1144 (2014). BMC Public Health 14 Rocher, L., Hendrickx, J. M. & De Montjoye, Y.-A. Estimating the success of re-identifications in incomplete datasets using generative models. , 1–9 (2019). Nat. Commun. 10 Schwarz, C. G. et al. Identification of anonymous mri research participants with face-recognition software. , 1684–1686 (2019). N. Engl. J. Med. 381 McMahan, B., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. In , 1273–1282. (2017). Artificial Intelligence and Statistics https://scholar.google.de/scholar?hl=de&as_sdt=0%2C5&q=Communicationefficient+learning+of+deep+networks+from+decentralized+data&btnG= Li, T., Sahu, A. K., Talwalkar, A. & Smith, V. Federated learning: Challenges, methods, and future directions. , 50–60 (IEEE, 2020). IEEE Signal Processing Magazine 37 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. (TIST) 10 Kairouz, P. et al. Advances and open problems in federated learning. (2019). arXiv preprint arXiv:1912.04977 Lee, J. et al. Privacy-preserving patient similarity learning in a federated environment: development and analysis. , e20 (2018). JMIR Med. Inform. 6 Brisimi, T. S. et al. Federated learning of predictive models from federated electronic health records. , 59–67 (2018). Int. J. Med. Inform. 112 Roy, A. G., Siddiqui, S., Pölsterl, S., Navab, N. & Wachinger, C. Braintorrent: a peer-to-peer environment for decentralized federated learning. (2019). arXiv preprint arXiv:1905.06731 Li, W. et al. Privacy-preserving federated brain tumour segmentation. In , 133–141 (Springer, 2019). International Workshop on Machine Learning in Medical Imaging Sheller, M. J., Reina, G. A., Edwards, B., Martin, J. & Bakas, S. Multi-institutional deep learning modeling without sharing patient data: a feasibility study on brain tumor segmentation. In , 92–104 (Springer, 2018). International MICCAI Brainlesion Workshop Li, X. et al. Multi-site fmri analysis using privacy-preserving federated learning and domain adaptation: abide results. (2020). arXiv preprint arXiv:2001.05647 Huang, L. et al. Patient clustering improves efficiency of federated machine learning to predict mortality and hospital stay time using distributed electronic medical records. , 103291 (2019). J. Biomed. Inform. 99 Xu, J. & Wang, F. Federated learning for healthcare informatics. (2019). arXiv preprint arXiv:1911.06270 Roy, A. & Banerjee, A. Ibm’s merge healthcare acquisitio . (2015) (Accessed 10 February 2020). n https://www.reuters.com/article/us-merge-healthcare-m-a-ibm/ibm-to-buy-merge-healthcare-in-1-billion-deal-idUSKCN0QB1ML20150806 Nhs scotland’s national safe haven. (2015) (Accessed 10 February 2020). https://www.gov.scot/publications/charter-safe-havens-scotland-handling-unconsented-data-national-health-service-patient-records-support-research-statistics/pages/4/ Cuggia, M. & Combes, S. The french health data hub and the german medical informatics initiatives: Two national projects to promote data sharing in healthcare. , 195–202 (2019). Yearbook Med. Informat. 28 Health Data Research UK. (Health Data Research UK, 2020) (Accessed 10 Feb 2020). https://www.hdruk.ac.uk/ Sporns, O., Tononi, G. & Kötter, R. The human connectome: a structural description of the human brain. . , e42, (2005). PLoS Comput. Biol 1 https://doi.org/10.1371/journal.pcbi.0010042 Sudlow, C. et al. Uk biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age. . , e1001779. (2015). PLoS Med 12 https://doi.org/10.1371/journal.pmed.1001779 Clark, K. et al. The cancer imaging archive (tcia): maintaining and operating a public information repository. , 1045–1057 (2013). J. Digit. Imaging. 26 Wang, X. et al. Chestx-ray8: Hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In , 2097–2106 ( , 2017). Proceedings of the IEEE conference on computer vision and pattern recognition IEEE Yan, K., Wang, X., Lu, L. & Summers, R. M. Deeplesion: automated mining of large-scale lesion annotations and universal lesion detection with deep learning. , 036501 (2018). J Med. Imaging. 5 Tomczak, K., Czerwińska, P. & Wiznerowicz, M. The cancer genome atlas (tcga): an immeasurable source of knowledge. , A68 (2015). Contemp. Oncol. 19 Jack Jr., C. R. et al. The alzheimer’s disease neuroimaging initiative (adni): Mri methods. , 685–691 (2008). J. Magn. Reson. Imaging 27 . (2020) (Accessed 24 July 2020). Grand Challenge-a Platform for End-to-end Development of Machine Learning Solutions in Biomedical Imaging https://grand-challenge.org/ Litjens, G. et al. 1399 h&e-stained sentinel lymph node sections of breast cancer patients: the camelyon dataset. , giy065 (2018). GigaScience 7 Menze, B. H. et al. The multimodal brain tumor image segmentation benchmark (brats). , 1993–2024 (2014). IEEE Trans. Med. Imaging 34 Bakas, S. et al. Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the brats challenge. (2018). arXiv preprint arXiv:1811.02629 Bakas, S. et al. Advancing the cancer genome atlas glioma MRI collections with expert segmentation labels and radiomic features. , 170117 (2017). Sci. Data 4 Simpson, A. L. et al. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. (2019). arXiv preprint arXiv:1902.09063 Yeh, F.-C. et al. Quantifying differences and similarities in whole-brain white matter architecture using local connectome fingerprints. , e1005203 (2016). PLoS Comput. Biol. 12 Chang, K. et al. Distributed deep learning networks among institutions for medical imaging. , 945–954 (2018). J. Am. Med. Inform. Assoc. 25 Shokri, R., Stronati, M., Song, C. & Shmatikov, V. Membership inference attacks against machine learning models. In , 3-18 (IEEE, 2017). 2017 IEEE Symposium on Security and Privacy (SP) Sablayrolles, A., Douze, M., Ollivier, Y., Schmid, C. & Jégou, H. White-box vs black-box: Bayes optimal strategies for membership inference. In Chaudhuri, K. & Salakhutdinov, R. (eds) , 5558–5567. (PMLR, 2019). Proceedings of the 36th International Conference on Machine Learning, {ICML} 97 http://proceedings.mlr.press/v97/sablayrolles19a.html Zhang, C., Bengio, S., Hardt, M., Recht, B. & Vinyals, O. Understanding deep learning requires rethinking generalization. In , (OpenReview.net, 2017). 5th International Conference on Learning Representations, {ICLR}. https://openreview.net/forum?id=Sy8gdB9xx Carlini, N., Liu, C., Erlingsson, Ú., Kos, J. & Song, D. The secret sharer: evaluating and testing unintended memorization in neural networks. In Heninger, N. & Traynor, P. (eds) { } ({ } , 267–284. ({USENIX} Association, Santa Clara, CA, USA, 2019). 28th USENIX Security Symposium USENIX Security 19 https://www.usenix.org/conference/usenixsecurity19/presentation/carlini Abadi, M. et al. Deep learning with differential privacy. In , 308–318 (ACM, 2016). Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In , 1310–1321 (ACM, 2015). Proceedings of the 22nd ACM SIGSAC conference on computer and communications security Langlotz, C. P. et al. A roadmap for foundational research on artificial intelligence in medical imaging: from the 2018 nih/rsna/acr/the academy workshop. , 781–791 (2019). Radiology 291 Kim, Y., Sun, J., Yu, H. & Jiang, X. Federated Tensor Factorization for Computational Phenotyping. In . 887–895. (ACM, Halifax, NS, Canada, 2017). Proceedings of the 23rd {ACM} {SIGKDD} International Conference on Knowledge Discoveryand Data Mining https://doi.org/10.1145/3097983.3098118 He, C., Annavaram, M. & Avestimehr, S. Fednas: Federated deep learning via neural architecture search. (2020). https://sites.google.com/view/cvpr20-nas/ Trustworthy federated data analytics (tfda). (2020) (Accessed 28 May 2020). https://tfda.hmsp.center/ Joint Imaging Platform (Jip). (2020) (Accessed 28 May 2020). https://jip.dktk.dkfz.de/jiphomepage/ Medical institutions collaborate to improve mammogram assessment ai. (2020) (Accessed 28 May 2020). https://blogs.nvidia.com/blog/2020/04/15/federated-learning-mammogram-assessment/ Healthchain consortium. (2020) (Accessed 28 May 2020). https://www.substra.ai/en/healthchain-project The federated tumor segmentation (fets) initiative. (2020) (Accessed 28 May 2020). https://www.fets.ai Machine learning ledger orchestration for drug discovery. (2020). Accessed 28 May 2020. https://cordis.europa.eu/project/id/831472 Konečny`, J., McMahan, H. B., Ramage, D. & Richtárik, P. Federated optimization: Distributed machine learning for on-device intelligence. (2016). arXiv preprint arXiv:1610.02527 Lalitha, A., Kilinc, O. C., Javidi, T. & Koushanfar, F. Peer-to-peer federated learning on graphs. (2019). arXiv preprint arXiv:1901.11173 Li, T., Sahu, A. K., Zaheer, M., Sanjabi, M., Talwalkar, A. & Smith, V. Federated optimization in heterogeneous networks. (2018). arXiv preprint arXiv:1812.06127 Zhao, Y. et al. Federated learning with non-iid data. (2018). arxivabs/1806.00582 Li, X., Huang, K., Yang, W., Wang, S. & Zhang, Z. On the convergence of fedavg on non-IID data. (2020). https://openreview.net/forum?id=HJxNAnVtDS Wu, B. et al. P3sgd: patient privacy preserving SGD for regularizing deep CNNs in pathological image classification. In (pp. 2099–2108) (2019). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Zhu, L., Liu, Z. & Han, S. Deep leakage from gradients. In Wallach, H. M. et al. (eds) , 14747–14756. (2019). Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems http://papers.nips.cc/paper/9617-deep-leakage-from-gradients Wang, Z. et al. Beyond inferring class representatives: user-level privacy leakage from federated learning. In 2512–2520. (IEEE, Paris, France, 2019). 2019 {IEEE} Conferenceon Computer Communications, {INFOCOM} https://doi.org/10.1109/INFOCOM.2019.8737416 Hitaj, B., Ateniese, G. & Perez-Cruz, F. Deep models under the gan: information leakage from collaborative deep learning. In , CCS’17, 603–618 (Association for Computing Machinery, New York, NY, USA, 2017). Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security Ghorbani, A. & Zou, J. Data shapley: Equitable valuation of data for machine learning. In (pp. 2242-2251) (2019). International Conference on Machine Learning ang recognition Ang trabaho na ito ay na-backed ng UK Research and Innovation London Medical Imaging & Artificial Intelligence Centre for Value-Based Healthcare, ng Wellcome/EPSRC Center for Medical Engineering (WT203148/Z/16/Z), ng Wellcome Flagship Programme (WT213038/Z/18/Z), ng Intramural Research Programme ng National Institutes of Health (NIH) Clinical Center, ng National Cancer Institute ng NIH sa award number U01CA242871, ng National Institute of Neurological Disorders and Stroke ng NIH sa award number R01NS042645, pati na rin ng Helmholtz Initiative and Networking Fund (proyekto “Trustworthy Federated Data Analytics”) at ang PRIME program ng German Academic Exchange Service (DAAD) na may funds mula sa German Federal Ministry of Education and Ang artikulong ito ay magagamit sa alam sa ilalim ng lisensya ng CC by 4.0 Deed (Attribution 4.0 International). Ang artikulong ito ay magagamit sa alam sa ilalim ng lisensya ng CC by 4.0 Deed (Attribution 4.0 International).