Autorii : Nicola Rieke lui Jonny Hancox Wenqi Li Faustă Millet Holger R. Roth Shadi Albarqouni Spiridonă Bacău Mathieu N. Galtier în Votează Bennett A. Landman lui Klaus Maier-Hein Sébastien Ourselin Micah Sheller Ronald M. Summers Andrew Trask Daguang Xu Maximilian Baust M. Jorge Cardoso Autorii : Nicola Rică lui Jonny Hancox Wenqi Li Faustă Millet Holger R. Roth Shadi Albarqouni Spiridonă Bacău Mathieu N. Galtier în Votează Bennett A. Landman lui Klaus Maier-Hein Sébastien Ourselin Micah Sheller lui Ronald M. Summers Andrew Trask Daguang Xu Maximilian Baust Domnul Jorge Cardoso abstractă Învățarea automată bazată pe date (ML) a apărut ca o abordare promițătoare pentru construirea de modele statistice exacte și robuste din date medicale, care sunt colectate în volume uriașe de către sistemele moderne de asistență medicală. Datele medicale existente nu sunt exploatate pe deplin de ML în primul rând pentru că se află în silozuri de date și preocupările privind confidențialitatea restricționează accesul la aceste date. Cu toate acestea, fără acces la date suficiente, ML va fi împiedicat să-și atingă întregul potențial și, în cele din urmă, să facă tranziția de la cercetare la practica clinică. Acest document ia în considerare factorii cheie care contribuie la această problemă, explorează modul în care învățarea federată (FL) poate oferi o soluție pentru viitorul Introduction Cercetarea în domeniul inteligenței artificiale (AI) și în special progresele în materie de învățare automată (ML) și învățare profundă (DL) Modelele DL moderne conțin milioane de parametri care trebuie învățați din seturi de date curate suficient de mari pentru a obține acuratețe la nivel clinic, fiind în același timp sigure, echitabile, echitabile și generalizând bine până la datele invizibile , , , . 1 2 3 4 5 For example, training an AI-based tumour detector requires a large database encompassing the full spectrum of possible anatomies, pathologies, and input data types. Data like this is hard to obtain, because health data is highly sensitive and its usage is tightly regulated Chiar dacă anonimizarea datelor ar putea ocoli aceste limitări, este bine înțeles acum că eliminarea metadatelor, cum ar fi numele pacientului sau data nașterii, nu este adesea suficientă pentru a păstra confidențialitatea. De exemplu, este posibil să se reconstruiască fața unui pacient din datele tomografiei computerizate (CT) sau imagistica prin rezonanță magnetică (RMN). Un alt motiv pentru care partajarea datelor nu este sistematică în domeniul sănătății este că colectarea, curățarea și întreținerea unui set de date de înaltă calitate necesită timp, efort și cheltuieli considerabile. Prin urmare, astfel de seturi de date pot avea o valoare de afaceri semnificativă, ceea ce face mai puțin probabil ca acestea să fie partajate în mod liber. 6 7 8 Învățarea federalizată (FL) , , is a learning paradigm seeking to address the problem of data governance and privacy by training algorithms collaboratively without exchanging the data itself. Originally developed for different domains, such as mobile and edge device use cases , it recently gained traction for healthcare applications , , , , , , , FL permite obținerea de informații în colaborare, de exemplu, sub forma unui model de consens, fără a muta datele pacienților dincolo de firewall-urile instituțiilor în care locuiesc.În schimb, procesul ML are loc local la fiecare instituție participantă și numai caracteristicile modelului (de exemplu, parametrii, gradientele) sunt transferate așa cum este descris în Fig. Cercetările recente au arătat că modelele instruite de FL pot atinge niveluri de performanță comparabile cu cele instruite pe seturi de date găzduite central și superioare modelelor care văd doar date izolate de la o singură instituție. , . 9 10 11 12 13 14 15 16 17 18 19 20 1 16 17 Serverul de agregare FL – fluxul de lucru tipic FL în care o federație de noduri de instruire primește modelul global, își retrimite modelele parțial instruite către un server central intermitent pentru agregare și apoi continuă instruirea pe modelul de consens pe care serverul îl returnează. FL peer-to-peer – formulare alternativă a FL în care fiecare nod de instruire își schimbă modelele parțial instruite cu unii sau toți colegii săi și fiecare face propria sa agregare. Formare centralizată – fluxul general de lucru de formare non-FL în care site-urile care obțin date își donă datele într-un lac central de date din care ei și alții pot extrage date pentru formare locală, independentă. a b c Implementarea cu succes a FL ar putea, prin urmare, să dețină un potențial semnificativ pentru a permite medicina de precizie la scară largă, ducând la modele care produc decizii imparțiale, reflectă în mod optim fiziologia unui individ și sunt sensibile la boli rare, respectând în același timp preocupările legate de guvernanță și confidențialitate. Avem în vedere un viitor federalizat pentru sănătatea digitală și cu acest document de perspectivă, împărtășim viziunea noastră de consens cu scopul de a oferi context și detalii comunității cu privire la beneficiile și impactul FL pentru aplicațiile medicale (secțiunea „Medicina bazată pe date necesită eforturi federalizate”), precum și evidențierea considerentelor cheie și provocărilor de implementare a FL pentru sănătatea digitală (secțiunea „considerente tehnice”). Medicina bazată pe date necesită eforturi federale ML și în special DL devine abordarea de facto a descoperirii cunoștințelor în multe industrii, dar implementarea cu succes a aplicațiilor bazate pe date necesită seturi de date mari și diverse. cu toate acestea, seturile de date medicale sunt dificil de obținut (subsecțiunea „Dependența de date”). FL abordează această problemă permițând învățarea colaborativă fără centralizarea datelor (subsecțiunea „Promisiunea eforturilor federalizate”) și și-a găsit deja calea către aplicațiile digitale de sănătate (subsecțiunea „Actualele eforturi FL pentru sănătatea digitală”). The reliance on data În timp ce aceasta este o cerință bine-cunoscută, algoritmii de ultimă oră sunt de obicei evaluați pe seturi de date atent curate, adesea provenind doar din câteva surse. Acest lucru poate introduce prejudecăți în cazul în care demografia (de exemplu, sex, vârstă) sau dezechilibrele tehnice (de exemplu, protocolul de achiziție, producătorul de echipamente) distorsionează previziunile și afectează negativ acuratețea anumitor grupuri sau site-uri. Nevoia de baze de date mari pentru formarea în domeniul inteligenței artificiale a dat naștere la multe inițiative care încearcă să combine date din mai multe instituții. Aceste date sunt adesea agregate în așa-numitele lacuri de date. Acestea au fost construite cu scopul de a valorifica fie valoarea comercială a datelor, de exemplu, achiziția IBM Merge Healthcare , or as a resource for economic growth and scientific progress, e.g., NHS Scotland’s National Safe Haven Centrul francez de date privind sănătatea , and Health Data Research UK . 21 22 23 24 Inițiative substanțiale, deși mai mici, includ Human Connectome Marea Britanie Biobank Arhiva de imagistică a cancerului (TCIA) NIH CXR8 NIH DeepLesion Atlasul genomului cancerului (TCGA) Inițiativa Neuroimagistică a Bolii Alzheimer (ADNI) , as well as medical grand challenges Provocarea lui Camelion , the International multimodal Brain Tumor Segmentation (BraTS) challenge , , Decathlon pentru segmentarea medicală . Public medical data is usually task- or disease-specific and often released with varying degrees of license restrictions, sometimes limiting its exploitation. 25 26 27 28 29 30 31 32 33 34 35 36 37 Centralising or releasing data, however, poses not only regulatory, ethical and legal challenges, related to privacy and data protection, but also technical ones. Anonymising, controlling access and safely transferring healthcare data is a non-trivial, and sometimes impossible task. Anonymised data from the electronic health record can appear innocuous and GDPR/PHI compliant, but just a few data elements may allow for patient reidentification Același lucru se aplică și datelor genomice și imaginilor medicale care le fac la fel de unice ca amprentele digitale. . Therefore, unless the anonymisation process destroys the fidelity of the data, likely rendering it useless, patient reidentification or information leakage cannot be ruled out. Gated access for approved users is often proposed as a putative solution to this issue. However, besides limiting data availability, this is only practical for cases in which the consent granted by the data owners is unconditional, since recalling data from those who may have had access to the data is practically unenforceable. 7 38 The promise of federated efforts The promise of FL is simple—to address privacy and data governance challenges by enabling ML from non-co-located data. In a FL setting, each data controller not only defines its own governance processes and associated privacy policies, but also controls data access and has the ability to revoke it. This includes both the training, as well as the validation phase. In this way, FL could create new opportunities, e.g., by allowing large-scale, in-institutional validation, or by enabling novel research on rare diseases, where the incident rates are low and data sets at each single institution are too small. Moving the model to the data and not vice versa has another major advantage: high-dimensional, storage-intense medical data does not have to be duplicated from local institutions in a centralised pool and duplicated again by every user that uses this data for local model training. As the model is transferred to the local institutions, it can scale naturally with a potentially growing global data set without disproportionately increasing data storage requirements. După cum este descris în Fig. , un flux de lucru FL poate fi realizat cu diferite topologii și planuri de calcul. Cele două cele mai frecvente pentru aplicațiile de asistență medicală sunt printr-un server de agregare , , Peer to peer se apropie , . In all cases, FL implicitly offers a certain degree of privacy, as FL participants never directly access data from other institutions and only receive model parameters that are aggregated over several participants. In a FL workflow with aggregation server, the participating institutions can even remain unknown to each other. However, it has been shown that the models themselves can, under certain conditions, memorise information , , , . Therefore, mechanisms such as differential privacy , sau învățarea din datele criptate a fost propusă pentru a spori în continuare confidențialitatea într-o setare FL (cf. secțiunea „Considerări tehnice”). and FL techniques are a growing area of research , . 2 16 17 18 15 39 40 41 42 43 44 45 46 12 20 FL topologii – arhitectura de comunicare a unei federatii. Centralizat: serverul de agregare coordonează iterațiile de instruire și colectează, agregă și distribuie modelele către și de la nodurile de instruire (Hub & Spoke). Decentralised: each training node is connected to one or more peers and aggregation occurs on each node in parallel. Hierarchical: federated networks can be composed from several sub-federations, which can be built from a mix of Peer to Peer and Aggregation Server federations ( Planuri de calcul FL – traiectoria unui model între mai mulți parteneri. Sequential training/cyclic transfer learning. Servicii de agregare, Peer to Peer. a b c d e f g Current FL efforts for digital health Deoarece FL este o paradigmă generală de învățare care elimină cerința de agregare a datelor pentru dezvoltarea modelului AI, gama de aplicații a FL acoperă întreaga gamă de AI pentru asistență medicală. Prin oferirea unei oportunități de a capta o variabilitate mai mare a datelor și de a analiza pacienții din diferite demografice, FL poate permite inovații disruptive pentru viitor, dar este, de asemenea, angajată în prezent. In the context of electronic health records (EHR), for example, FL helps to represent and to find clinically similar patients , , as well as predicting hospitalisations due to cardiac events , mortality and ICU stay time . The applicability and advantages of FL have also been demonstrated in the field of medical imaging, for whole-brain segmentation in MRI , as well as brain tumour segmentation , Recent, tehnica a fost folosită pentru clasificarea fMRI pentru a găsi biomarcatori fiabili în legătură cu boala. și sugerat ca o abordare promițătoare în contextul COVID-19 . 13 47 14 19 15 16 17 18 48 It is worth noting that FL efforts require agreements to define the scope, aim and technologies used which, since it is still novel, can be difficult to pin down. In this context, today’s large-scale initiatives really are the pioneers of tomorrow’s standards for safe, fair and innovative collaboration in healthcare applications. Acestea includ consorții care urmăresc să avanseze research, such as the Trustworthy Federated Data Analytics (TFDA) project și platforma de imagistică comună a Consorțiului German de Cancer , which enable decentralised research across German medical imaging research institutions. Another example is an international research collaboration that uses FL for the development of AI models for the assessment of mammograms Studiul a arătat că modelele generate de FL au depășit pe cei instruiți pe datele unui singur institut și au fost mai generalizabile, astfel încât au continuat să funcționeze bine pe datele altor institute. academic 49 50 51 By linking healthcare institutions, not restricted to research centres, FL can have direct impact. The on-going HealthChain project , de exemplu, își propune să dezvolte și să implementeze un cadru FL în patru spitale din Franța. Această soluție generează modele comune care pot prezice răspunsul la tratament pentru pacienții cu cancer de sân și melanom. Ajută oncologii să determine cel mai eficient tratament pentru fiecare pacient din diapozitivele lor de histologie sau imagini dermoscopice. Un alt efort la scară largă este inițiativa Federated Tumour Segmentation (FeTS) , care este o federație internațională de 30 de instituții de îngrijire a sănătății dedicate folosind un cadru FL open-source cu o interfață grafică de utilizator. Scopul este de a îmbunătăți detectarea limitelor tumorale, inclusiv gliomul cerebral, tumorile mamare, tumorile hepatice și leziunile osoase de la pacienții cu mielom multiplu. clinică 52 53 Another area of impact is within research and translation. FL enables collaborative research for, even competing, companies. In this context, one of the largest initiatives is the Melloddy project . It is a project aiming to deploy multi-task FL across the data sets of 10 pharmaceutical companies. By training a common predictive model, which infers how chemical compounds bind to proteins, partners intend to optimise the drug discovery process without revealing their highly valuable in-house data. industrială 54 Impactul asupra părților interesate FL cuprinde o schimbare de paradigmă de la lacurile de date centralizate și este important să înțelegem impactul acesteia asupra diferitelor părți interesate dintr-un ecosistem FL. clinicieni Clinicians are usually exposed to a sub-group of the population based on their location and demographic environment, which may cause biased assumptions about the probability of certain diseases or their interconnection. By using ML-based systems, e.g., as a second reader, they can augment their own expertise with expert knowledge from other institutions, ensuring a consistency of diagnosis not attainable today. While this applies to ML-based system in general, systems trained in a federated fashion are potentially able to yield even less biased decisions and higher sensitivity to rare cases as they were likely exposed to a more complete data distribution. However, this demands some up-front effort such as compliance with agreements, e.g., regarding the data structure, annotation and report protocol, which is necessary to ensure that the information is presented to collaborators in a commonly understood format. Patients Patients are usually treated locally. Establishing FL on a global scale could ensure high quality of clinical decisions regardless of the treatment location. In particular, patients requiring medical attention in remote areas could benefit from the same high-quality ML-aided diagnoses that are available in hospitals with a large number of cases. The same holds true for rare, or geographically uncommon, diseases, that are likely to have milder consequences if faster and more accurate diagnoses can be made. FL may also lower the hurdle for becoming a data donor, since patients can be reassured that the data remains with their own institution and data access can be revoked. Spitale și practici Hospitals and practices can remain in full control and possession of their patient data with complete traceability of data access, limiting the risk of misuse by third parties. However, this will require investment in on-premise computing infrastructure or private-cloud service provision and adherence to standardised and synoptic data formats so that ML models can be trained and evaluated seamlessly. The amount of necessary compute capability depends of course on whether a site is only participating in evaluation and testing efforts or also in training efforts. Even relatively small institutions can participate and they will still benefit from collective models generated. Researchers and AI developers Researchers and AI developers stand to benefit from access to a potentially vast collection of real-world data, which will particularly impact smaller research labs and start-ups. Thus, resources can be directed towards solving clinical needs and associated technical problems rather than relying on the limited supply of open data sets. At the same time, it will be necessary to conduct research on algorithmic strategies for federated training, e.g., how to combine models or updates efficiently, how to be robust to distribution shifts , , Dezvoltarea bazată pe FL implică, de asemenea, că cercetătorul sau dezvoltatorul de IA nu poate investiga sau vizualiza toate datele pe care este instruit modelul, de exemplu, nu este posibil să se uite la un caz individual de eșec pentru a înțelege de ce modelul actual funcționează prost pe el. 11 12 20 Healthcare providers Furnizorii de servicii medicale din multe țări sunt afectați de schimbarea paradigmei în curs de desfășurare de la asistență medicală bazată pe volum, adică bazată pe costuri pentru servicii, la asistență medicală bazată pe valoare, care, la rândul său, este puternic legată de stabilirea cu succes a medicinei de precizie.Nu este vorba despre promovarea unor terapii individualizate mai scumpe, ci despre obținerea de rezultate mai bune mai devreme prin tratament mai concentrat, reducând astfel costurile. producătorilor Producătorii de software și hardware de îngrijire a sănătății ar putea beneficia și de FL, deoarece combinarea învățării din mai multe dispozitive și aplicații, fără a dezvălui informații specifice pacientului, poate facilita validarea sau îmbunătățirea continuă a sistemelor lor bazate pe ML. Technical considerations FL este probabil cel mai bine cunoscut din lucrarea lui Konečnỳ et al. Mai multe definiţii au fost propuse în literatură. , , , . A FL workflow (Fig. ) pot fi realizate prin diferite topologii și planuri de calcul (Fig. În această secțiune, vom discuta mai detaliat ce este FL, precum și evidențierea provocărilor cheie și a considerațiilor tehnice care apar atunci când se aplică FL în sănătatea digitală. 55 9 11 12 20 1 2 Federated learning definition FL is a learning paradigm in which multiple parties train collaboratively without the need to exchange or centralise data sets. A general formulation of FL reads as follows: Let denote a global loss function obtained via a weighted combination of pierderile locale, calculate din date private , which is residing at the individual involved parties and never shared among them: K Xk where > 0 denote the respective weight coefficients. wk În practică, fiecare participant obține și perfecționează de obicei un model de consens global, efectuând câteva runde de optimizare la nivel local și înainte de a partaja actualizări, fie direct, fie prin intermediul unui server de parametri. ) , . The actual process for aggregating parameters depends on the network topology, as nodes might be segregated into sub-networks due to geographical or legal constraints (see Fig. Strategiile de agregare se pot baza pe un singur nod de agregare (modele hub și speaker), sau pe mai multe noduri fără nici o centralizare.Un exemplu este peer-to-peer FL, unde există conexiuni între toți sau un subset de participanți și actualizările modelului sunt partajate numai între site-urile conectate direct. , , whereas an example of centralised FL aggregation is given in Algorithm 1. Note that aggregation strategies do not necessarily require information about the full model update; clients might chose to share only a subset of the model parameters for the sake of reducing communication overhead, ensure better privacy preservation sau pentru a produce algoritmi de învățare multi-task având doar o parte din parametrii lor învățați într-un mod federat. 1 9 12 2 15 56 10 A unifying framework enabling various training schemes may disentangle compute resources (data and servers) from the , as depicted in Fig. Acesta din urmă definește traiectoria unui model pe mai mulți parteneri, care urmează să fie instruiți și evaluați pe seturi de date specifice. Planul de calcul 2 Provocări și considerații Despite the advantages of FL, it does not solve all issues that are inherent to learning on medical data. A successful model training still depends on factors like data quality, bias and standardisation Aceste probleme trebuie rezolvate atât pentru eforturile de învățare federate, cât și pentru cele nefederate, prin măsuri adecvate, cum ar fi proiectarea atentă a studiilor, protocoalele comune pentru obținerea de date, raportarea structurată și metodologiile sofisticate pentru descoperirea biasurilor și a stratificării ascunse.În cele ce urmează, abordăm aspectele cheie ale FL care sunt deosebit de relevante atunci când sunt aplicate sănătății digitale și trebuie luate în considerare la stabilirea FL. , , . 2 11 12 20 Data heterogeneity Medical data is particularly diverse—not only because of the variety of modalities, dimensionality and characteristics in general, but even within a specific protocol due to factors such as acquisition differences, brand of the medical device or local demographics. FL may help address certain sources of bias through potentially increased diversity of data sources, but inhomogeneous data distribution poses a challenge for FL algorithms and strategies, as many are assuming independently and identically distributed (IID) data across the participants. In general, strategies such as are prone to fail under these conditions , , , in part defeating the very purpose of collaborative learning strategies. Recent results, however, indicate that FL training is still feasible , even if medical data is not uniformly distributed across the institutions , or includes a local bias . Research addressing this problem includes, for example, Strategia parțială de partajare a datelor și FL cu adaptare la domeniu . Another challenge is that data heterogeneity may lead to a situation in which the global optimal solution may not be optimal for an individual local participant. The definition of model training optimality should, therefore, be agreed by all participants before training. Pădurea 9 9 57 58 59 16 17 51 FedProx 57 58 18 Confidențialitate și securitate Healthcare data is highly sensitive and must be protected accordingly, following appropriate confidentiality procedures. Therefore, some of the key considerations are the trade-offs, strategies and remaining risks regarding the privacy-preserving potential of FL. Confidențialitate vs. performanță: Este important să rețineți că FL nu rezolvă toate problemele potențiale de confidențialitate și - similar cu algoritmii ML în general - va purta întotdeauna unele riscuri. Cu toate acestea, există un compromis în ceea ce privește performanța și aceste tehnici pot afecta, de exemplu, precizia modelului final. . Furthermore, future techniques and/or ancillary data could be used to compromise a model previously considered to be low-risk. 12 10 Nivelul de încredere: În general, părțile participante pot intra în două tipuri de colaborare FL: – pentru consorțiile FL în care toate părțile sunt considerate de încredere și sunt legate de un acord de colaborare executoriu, putem elimina multe dintre motivele mai nefavorabile, cum ar fi încercările deliberate de a extrage informații sensibile sau de a corupe în mod intenționat modelul. încredere —in FL systems that operate on larger scales, it might be impractical to establish an enforceable collaborative agreement. Some clients may deliberately try to degrade performance, bring the system down or extract information from other parties. Hence, security strategies will be required to mitigate these risks such as, advanced encryption of model submissions, secure authentication of all parties, traceability of actions, differential privacy, verification systems, execution integrity, model confidentiality and protections against adversarial attacks. Non-trusted Information leakage: By definition, FL systems avoid sharing healthcare data among participating institutions. However, the shared information may still indirectly expose private data used for local training, e.g., by model inversion of the model updates, the gradients themselves Atacuri adversare , FL diferă de formarea tradițională în măsura în care procesul de formare este expus la mai multe părți, crescând astfel riscul de scurgere prin reverse-engineering dacă adversarii pot observa schimbările de model în timp, pot observa actualizările de modele specifice (de exemplu, actualizarea unei singure instituții) sau pot manipula modelul (de exemplu, pot induce memorarea suplimentară de către alții prin atacuri de tip gradient-ascent). , și asigurarea unei confidențialități diferențiate adecvate , may be needed and is still an active area of research . 60 61 62 63 16 18 44 12 Trasabilitatea și responsabilitatea Ca și în cazul tuturor aplicațiilor critice pentru siguranță, reproductibilitatea unui sistem este importantă pentru FL în domeniul asistenței medicale. Spre deosebire de formarea centralizată, FL necesită calcule multipartite în medii care prezintă o varietate considerabilă în ceea ce privește hardware-ul, software-ul și rețelele. Trasabilitatea tuturor activelor sistemului, inclusiv istoricul accesului la date, configurațiile de instruire și ajustarea hiperparametrilor pe tot parcursul proceselor de instruire este, prin urmare, obligatorie. În special în federațiile neîncrezătoare, trasabilitatea și procesele de responsabilitate necesită integritate de execuție. După ce procesul de instruire atinge criteriile de optimizare a modelului convenite de comun acord, poate fi utilă și măsurarea cuantumului contribuției fiecărui participant . One implication of FL is that researchers are not able to investigate data upon which models are being trained to make sense of unexpected results. Moreover, taking statistical measurements of their training data as part of the model development workflow will need to be approved by the collaborating parties as not violating privacy. Although each site will have access to its own raw data, federations may decide to provide some sort of secure intra-node viewing facility to cater for this need or may provide some other way to increase explainability and interpretability of the global model. 64 System architecture Unlike running large-scale FL amongst consumer devices such as McMahan et al. Participanții instituționali din domeniul sănătății sunt echipați cu resurse computaționale relativ puternice și rețele fiabile, de debit mai mare, care permit instruirea modelelor mai mari cu mai multe etape de instruire locale și partajarea mai multor informații despre modele între noduri. Aceste caracteristici unice ale FL în domeniul sănătății aduc, de asemenea, provocări, cum ar fi asigurarea integrității datelor atunci când se comunică prin utilizarea nodurilor redundante, proiectarea de metode de criptare securizate pentru a preveni scurgerile de date sau proiectarea de programatoare de noduri adecvate pentru a face cea mai bună utilizare a dispozitivelor de calcul distribuite și pentru a reduce timpul de vacanță. 9 The administration of such a federation can be realised in different ways. In situations requiring the most stringent data privacy between parties, training may operate via some sort of “honest broker” system, in which a trusted third party acts as the intermediary and facilitates access to data. This setup requires an independent entity controlling the overall system, which may not always be desirable, since it could involve additional cost and procedural viscosity. However, it has the advantage that the precise internal mechanisms can be abstracted away from the clients, making the system more agile and simpler to update. In a peer-to-peer system each site interacts directly with some or all of the other participants. In other words, there is no gatekeeper function, all protocols must be agreed up-front, which requires significant agreement efforts, and changes must be made in a synchronised fashion by all parties to avoid problems. Additionally, in a trustless-based architecture the platform operator may be cryptographically locked into being honest by means of a secure protocol, but this may introduce significant computational overheads. Conclusion ML, și în special DL, a condus la o gamă largă de inovații în domeniul asistenței medicale digitale. Întrucât toate metodele ML beneficiază în mare măsură de capacitatea de a accesa date care se apropie de distribuția globală reală, FL este o abordare promițătoare pentru a obține modele puternice, exacte, sigure, robuste și imparțiale. Permițând mai multor părți să se antreneze în colaborare fără a fi nevoie să facă schimburi sau să centralizeze seturi de date, FL abordează cu atenție problemele legate de extinderea datelor medicale sensibile. Ca o consecință, poate deschide noi căi de cercetare și de afaceri și are potențialul de a îmbunătăți îngrijirea pacienților la nivel global. Cu toate acestea, deja astăzi, FL are un impact asupra În ciuda acestui fapt, credem cu adevărat că impactul său potențial asupra medicinei de precizie și, în cele din urmă, îmbunătățirea asistenței medicale este foarte promițătoare. 12 Reporting summary Informaţii suplimentare despre proiectul de cercetare sunt disponibile în linked to this article. Nature Research Reporting Summary Referinţe LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. , 436 (2015). Nature 521 Wang, F., Casalino, L. P. & Khullar, D. Deep learning in medicine—promise, progress, and challenges. , 293–294 (2019). JAMA Intern. Med. 179 Chartrand, G. et al. Deep learning: a primer for radiologists. , 2113–2131 (2017). Radiographics 37 De Fauw, J. et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. , 1342 (2018). Nat. Med. 24 Sun, C., Shrivastava, A., Singh, S. & Gupta, A. Revisiting unreasonable effectiveness of data in deep learning era. In , 843–852 ( , 2017). Proceedings of the IEEE international conference on computer vision IEEE Van Panhuis, W. G. et al. A systematic review of barriers to data sharing in public health. , 1144 (2014). BMC Public Health 14 Rocher, L., Hendrickx, J. M. & De Montjoye, Y.-A. Estimating the success of re-identifications in incomplete datasets using generative models. , 1–9 (2019). Nat. Commun. 10 Schwarz, C. G. et al. Identification of anonymous mri research participants with face-recognition software. , 1684–1686 (2019). N. Engl. J. Med. 381 McMahan, B., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. In , 1273–1282. (2017). Artificial Intelligence and Statistics https://scholar.google.de/scholar?hl=de&as_sdt=0%2C5&q=Communicationefficient+learning+of+deep+networks+from+decentralized+data&btnG= Li, T., Sahu, A. K., Talwalkar, A. & Smith, V. Federated learning: Challenges, methods, and future directions. , 50–60 (IEEE, 2020). IEEE Signal Processing Magazine 37 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. (TIST) 10 Kairouz, P. et al. Advances and open problems in federated learning. (2019). arXiv preprint arXiv:1912.04977 Lee, J. et al. Privacy-preserving patient similarity learning in a federated environment: development and analysis. , e20 (2018). JMIR Med. Inform. 6 Brisimi, T. S. et al. Federated learning of predictive models from federated electronic health records. , 59–67 (2018). Int. J. Med. Inform. 112 Roy, A. G., Siddiqui, S., Pölsterl, S., Navab, N. & Wachinger, C. Braintorrent: a peer-to-peer environment for decentralized federated learning. (2019). arXiv preprint arXiv:1905.06731 Li, W. et al. Privacy-preserving federated brain tumour segmentation. In , 133–141 (Springer, 2019). International Workshop on Machine Learning in Medical Imaging Sheller, M. J., Reina, G. A., Edwards, B., Martin, J. & Bakas, S. Multi-institutional deep learning modeling without sharing patient data: a feasibility study on brain tumor segmentation. In , 92–104 (Springer, 2018). International MICCAI Brainlesion Workshop Li, X. et al. Multi-site fmri analysis using privacy-preserving federated learning and domain adaptation: abide results. (2020). arXiv preprint arXiv:2001.05647 Huang, L. et al. Patient clustering improves efficiency of federated machine learning to predict mortality and hospital stay time using distributed electronic medical records. , 103291 (2019). J. Biomed. Inform. 99 Xu, J. & Wang, F. Federated learning for healthcare informatics. (2019). arXiv preprint arXiv:1911.06270 Roy, A. & Banerjee, A. Ibm’s merge healthcare acquisitio . (2015) (Accessed 10 February 2020). n https://www.reuters.com/article/us-merge-healthcare-m-a-ibm/ibm-to-buy-merge-healthcare-in-1-billion-deal-idUSKCN0QB1ML20150806 Nhs scotland’s national safe haven. (2015) (Accessed 10 February 2020). https://www.gov.scot/publications/charter-safe-havens-scotland-handling-unconsented-data-national-health-service-patient-records-support-research-statistics/pages/4/ Cuggia, M. & Combes, S. The french health data hub and the german medical informatics initiatives: Two national projects to promote data sharing in healthcare. , 195–202 (2019). Yearbook Med. Informat. 28 Health Data Research UK. (Health Data Research UK, 2020) (Accessed 10 Feb 2020). https://www.hdruk.ac.uk/ Sporns, O., Tononi, G. & Kötter, R. The human connectome: a structural description of the human brain. . , e42, (2005). PLoS Comput. Biol 1 https://doi.org/10.1371/journal.pcbi.0010042 Sudlow, C. et al. Uk biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age. . , e1001779. (2015). PLoS Med 12 https://doi.org/10.1371/journal.pmed.1001779 Clark, K. et al. The cancer imaging archive (tcia): maintaining and operating a public information repository. , 1045–1057 (2013). J. Digit. Imaging. 26 Wang, X. et al. Chestx-ray8: Hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In , 2097–2106 ( , 2017). Proceedings of the IEEE conference on computer vision and pattern recognition IEEE Yan, K., Wang, X., Lu, L. & Summers, R. M. Deeplesion: automated mining of large-scale lesion annotations and universal lesion detection with deep learning. , 036501 (2018). J Med. Imaging. 5 Tomczak, K., Czerwińska, P. & Wiznerowicz, M. The cancer genome atlas (tcga): an immeasurable source of knowledge. , A68 (2015). Contemp. Oncol. 19 Jack Jr., C. R. et al. The alzheimer’s disease neuroimaging initiative (adni): Mri methods. , 685–691 (2008). J. Magn. Reson. Imaging 27 . (2020) (Accessed 24 July 2020). Grand Challenge-a Platform for End-to-end Development of Machine Learning Solutions in Biomedical Imaging https://grand-challenge.org/ Litjens, G. et al. 1399 h&e-stained sentinel lymph node sections of breast cancer patients: the camelyon dataset. , giy065 (2018). GigaScience 7 Menze, B. H. et al. The multimodal brain tumor image segmentation benchmark (brats). , 1993–2024 (2014). IEEE Trans. Med. Imaging 34 Bakas, S. et al. Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the brats challenge. (2018). arXiv preprint arXiv:1811.02629 Bakas, S. et al. Advancing the cancer genome atlas glioma MRI collections with expert segmentation labels and radiomic features. , 170117 (2017). Sci. Data 4 Simpson, A. L. et al. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. (2019). arXiv preprint arXiv:1902.09063 Yeh, F.-C. et al. Quantifying differences and similarities in whole-brain white matter architecture using local connectome fingerprints. , e1005203 (2016). PLoS Comput. Biol. 12 Chang, K. et al. Distributed deep learning networks among institutions for medical imaging. , 945–954 (2018). J. Am. Med. Inform. Assoc. 25 Shokri, R., Stronati, M., Song, C. & Shmatikov, V. Membership inference attacks against machine learning models. In , 3-18 (IEEE, 2017). 2017 IEEE Symposium on Security and Privacy (SP) Sablayrolles, A., Douze, M., Ollivier, Y., Schmid, C. & Jégou, H. White-box vs black-box: Bayes optimal strategies for membership inference. In Chaudhuri, K. & Salakhutdinov, R. (eds) , 5558–5567. (PMLR, 2019). Proceedings of the 36th International Conference on Machine Learning, {ICML} 97 http://proceedings.mlr.press/v97/sablayrolles19a.html Zhang, C., Bengio, S., Hardt, M., Recht, B. & Vinyals, O. Understanding deep learning requires rethinking generalization. In , (OpenReview.net, 2017). 5th International Conference on Learning Representations, {ICLR}. https://openreview.net/forum?id=Sy8gdB9xx Carlini, N., Liu, C., Erlingsson, Ú., Kos, J. & Song, D. The secret sharer: evaluating and testing unintended memorization in neural networks. In Heninger, N. & Traynor, P. (eds) { } ({ } , 267–284. ({USENIX} Association, Santa Clara, CA, USA, 2019). 28th USENIX Security Symposium USENIX Security 19 https://www.usenix.org/conference/usenixsecurity19/presentation/carlini Abadi, M. et al. Deep learning with differential privacy. In , 308–318 (ACM, 2016). Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In , 1310–1321 (ACM, 2015). Proceedings of the 22nd ACM SIGSAC conference on computer and communications security Langlotz, C. P. et al. A roadmap for foundational research on artificial intelligence in medical imaging: from the 2018 nih/rsna/acr/the academy workshop. , 781–791 (2019). Radiology 291 Kim, Y., Sun, J., Yu, H. & Jiang, X. Federated Tensor Factorization for Computational Phenotyping. In . 887–895. (ACM, Halifax, NS, Canada, 2017). Proceedings of the 23rd {ACM} {SIGKDD} International Conference on Knowledge Discoveryand Data Mining https://doi.org/10.1145/3097983.3098118 He, C., Annavaram, M. & Avestimehr, S. Fednas: Federated deep learning via neural architecture search. (2020). https://sites.google.com/view/cvpr20-nas/ Trustworthy federated data analytics (tfda). (2020) (Accessed 28 May 2020). https://tfda.hmsp.center/ Joint Imaging Platform (Jip). (2020) (Accessed 28 May 2020). https://jip.dktk.dkfz.de/jiphomepage/ Medical institutions collaborate to improve mammogram assessment ai. (2020) (Accessed 28 May 2020). https://blogs.nvidia.com/blog/2020/04/15/federated-learning-mammogram-assessment/ Healthchain consortium. (2020) (Accessed 28 May 2020). https://www.substra.ai/en/healthchain-project The federated tumor segmentation (fets) initiative. (2020) (Accessed 28 May 2020). https://www.fets.ai Machine learning ledger orchestration for drug discovery. (2020). Accessed 28 May 2020. https://cordis.europa.eu/project/id/831472 Konečny`, J., McMahan, H. B., Ramage, D. & Richtárik, P. Federated optimization: Distributed machine learning for on-device intelligence. (2016). arXiv preprint arXiv:1610.02527 Lalitha, A., Kilinc, O. C., Javidi, T. & Koushanfar, F. Peer-to-peer federated learning on graphs. (2019). arXiv preprint arXiv:1901.11173 Li, T., Sahu, A. K., Zaheer, M., Sanjabi, M., Talwalkar, A. & Smith, V. Federated optimization in heterogeneous networks. (2018). arXiv preprint arXiv:1812.06127 Zhao, Y. et al. Federated learning with non-iid data. (2018). arxivabs/1806.00582 Li, X., Huang, K., Yang, W., Wang, S. & Zhang, Z. On the convergence of fedavg on non-IID data. (2020). https://openreview.net/forum?id=HJxNAnVtDS Wu, B. et al. P3sgd: patient privacy preserving SGD for regularizing deep CNNs in pathological image classification. In (pp. 2099–2108) (2019). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Zhu, L., Liu, Z. & Han, S. Deep leakage from gradients. In Wallach, H. M. et al. (eds) , 14747–14756. (2019). Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems http://papers.nips.cc/paper/9617-deep-leakage-from-gradients Wang, Z. et al. Beyond inferring class representatives: user-level privacy leakage from federated learning. In 2512–2520. (IEEE, Paris, France, 2019). 2019 {IEEE} Conferenceon Computer Communications, {INFOCOM} https://doi.org/10.1109/INFOCOM.2019.8737416 Hitaj, B., Ateniese, G. & Perez-Cruz, F. Deep models under the gan: information leakage from collaborative deep learning. In , CCS’17, 603–618 (Association for Computing Machinery, New York, NY, USA, 2017). Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security Ghorbani, A. & Zou, J. Data shapley: Equitable valuation of data for machine learning. In (pp. 2242-2251) (2019). International Conference on Machine Learning Recunoaşterea This work was supported by the UK Research and Innovation London Medical Imaging & Artificial Intelligence Centre for Value-Based Healthcare, by the Wellcome/EPSRC Centre for Medical Engineering (WT203148/Z/16/Z), by the Wellcome Flagship Programme (WT213038/Z/18/Z), by the Intramural Research Programme of the National Institutes of Health (NIH) Clinical Center, by the National Cancer Institute of the NIH under award number U01CA242871, by the National Institute of Neurological Disorders and Stroke of the NIH under award number R01NS042645, as well as by the Helmholtz Initiative and Networking Fund (project “Trustworthy Federated Data Analytics”) and the PRIME programme of the German Academic Exchange Service (DAAD) with funds from the German Federal Ministry of Education and Research (BMBF). The content and opinions expressed in this publication is solely the responsibility of the authors and do not necessarily represent those of the institutions they are affiliated with, e.g., the U.S. Department of Health and Human Services or the National Institutes of Health. Open access funding provided by Projekt DEAL. This paper is under CC by 4.0 Deed (Attribution 4.0 International) license. available on nature Acest document este under CC by 4.0 Deed (Attribution 4.0 International) license. available on nature