L'intel·ligència artificial que permet als hospitals entrenar algoritmes sense compartir dades de pacients

Els autors: Nicolau Riu Jonny Hancox Wenqi Li Fausto Milletarì Holger R. Roth Shadi Albarqouni Spyridon Bakas Mathieu N. Galtier Bennett A. Landman Klaus Maier-Hein Sébastien Ourselin Micah Sheller Ronald M. Summers Andrew Trask Daguang Xu Maximilian Baust M. Jorge Cardoso Els autors: Nicolau Riu Jonny Hancox Benjamí Li Faust Millet Holger R. Roth Xàtiva Albarqouni Espiridó Bakas Matèries N. Galtier Títol: Bennett A. Landman Joan Maier-Hein Sébastien Ourselin Micah Sheller Ronald M. Summers i els seus Andreu Trask Daguang Xu Maximilià Baust El senyor Jorge Cardoso Abstracció L'aprenentatge automàtic basat en dades (ML) ha sorgit com un enfocament prometedor per a la construcció de models estadístics precisos i robustos a partir de dades mèdiques, que es recullen en grans volums pels sistemes de salut moderns. Les dades mèdiques existents no són explotades plenament per ML principalment perquè es troba en silos de dades i les preocupacions de privacitat restringeixen l'accés a aquestes dades. Tanmateix, sense accés a dades suficients, ML serà impedit d'arribar al seu ple potencial i, en última instància, de fer la transició de la investigació a la pràctica clínica. Aquest document considera els factors clau que contribueixen a aquest problema, explora com l'aprenentatge federat (FL) pot proporcionar una solució per al futur de la Introducció Investigació en intel·ligència artificial (IA), i en particular els avenços en l'aprenentatge automàtic (ML) i l'aprenentatge profund (DL) Els models DL moderns contenen milions de paràmetres que cal aprendre a partir de conjunts de dades curats suficientment grans per aconseguir una precisió de nivell clínic, alhora que són segurs, justos, equitatius i generalitzen bé a dades invisibles. , , , . 1 2 3 4 5 Per exemple, l'entrenament d'un detector de tumors basat en la IA requereix una gran base de dades que abasta tot l'espectre de possibles anatomies, patologies i tipus de dades d'entrada. Fins i tot si l'anonimització de dades podria obviar aquestes limitacions, ara és ben entès que eliminar metadades com el nom del pacient o la data de naixement sovint no és suficient per preservar la privacitat. És possible, per exemple, reconstruir la cara d’un pacient a partir de les dades de la tomografia computacional (CT) o de la ressonància magnètica (RMN). Una altra raó per la qual el compartir de dades no és sistemàtic en l'atenció sanitària és que la recopilació, el curat i el manteniment d'un conjunt de dades d'alta qualitat requereix un temps considerable, esforç i despesa. Conseqüentment, aquests conjunts de dades poden tenir un valor comercial significatiu, fent que sigui menys probable que es comparteixin lliurement. 6 7 8 Aprenentatge federat (FL) , , és un paradigma d'aprenentatge que pretén abordar el problema de la governança de dades i la privacitat mitjançant la formació d'algoritmes col·laborativament sense intercanviar les dades mateixes. , recentment ha guanyat tracció per a aplicacions sanitàries , , , , , , , FL permet obtenir insights col·laborativament, per exemple, en forma de model de consens, sense moure les dades dels pacients més enllà dels firewalls de les institucions en què resideixen. Recent investigació ha demostrat que els models entrenats per FL poden aconseguir nivells de rendiment comparables als entrenats en conjunts de dades allotjats centralment i superiors als models que només veuen dades aïllades d'una sola institució. , . 9 10 11 12 13 14 15 16 17 18 19 20 1 16 17 El flux de treball FL típic en el qual una federació de nodes d'entrenament rep el model global, reenvia els seus models parcialment entrenats a un servidor central intermitentment per a l'agregació i després continua l'entrenament sobre el model de consens que retorna el servidor. FL peer to peer: fórmula alternativa de FL en la qual cada node d'entrenament intercanvia els seus models parcialment entrenats amb alguns o tots els seus companys i cadascun fa la seva pròpia agregació. Formació centralitzada: el flux de treball general de formació no FL en el qual els llocs d'adquisició de dades donen les seves dades a un llac de dades central del qual ells i altres poden extreure dades per a la formació local i independent. a b c Una implementació reeixida de FL podria tenir, per tant, un potencial significatiu per permetre la medicina de precisió a gran escala, conduint a models que produeixin decisions imparcials, reflecteixin de manera òptima la fisiologia d'un individu i siguin sensibles a malalties rares, tot i que respectin les preocupacions de governança i privacitat. Entenem un futur federat per a la salut digital i, amb aquest document de perspectiva, compartim la nostra visió de consens amb l’objectiu de proporcionar context i detall a la comunitat sobre els beneficis i l’impacte de la FL per a aplicacions mèdiques (secció “La medicina basada en dades requereix esforços federats”), així com destacar les principals consideracions i reptes de la implementació de la FL per a la salut digital (secció “Consideracions tècniques”). La medicina basada en dades requereix esforços federats No obstant això, els conjunts de dades mèdiques són difícils d'obtenir (subsecció "La dependència de les dades"). FL aborda aquest problema permetent l'aprenentatge col·laboratiu sense centralitzar les dades (subsecció "La promesa d'esforços federats") i ja ha trobat el seu camí a les aplicacions de salut digital (subsecció "Els esforços actuals de FL per a la salut digital"). La dependència de les dades Encara que aquest és un requisit ben conegut, els algoritmes d'avantguarda solen ser avaluats sobre conjunts de dades curats acuradament, sovint procedents d'unes poques fonts. Això pot introduir biases on la distribució de dades subjacent (per exemple, gènere, edat) o els desequilibris tècnics (per exemple, protocol d'adquisició, fabricant d'equips) distorsionen les prediccions i afecten adversament la precisió per a determinats grups o llocs. No obstant això, per capturar les relacions subtils entre patrons de malaltia, factors socioeconòmics i genètics, així com casos complexos i rars, és crucial exposar un model a diversos casos. La necessitat de grans bases de dades per a la formació de la IA ha engendrat moltes iniciatives que busquen agrupar dades de múltiples institucions. Aquestes dades sovint s'acumulen en els anomenats Data Lakes. Aquestes han estat construïdes amb l'objectiu d'aprofitar el valor comercial de les dades, per exemple, l'adquisició de Merge Healthcare d'IBM. , o com a recurs per al creixement econòmic i el progrés científic, per exemple, NHS Escòcia National Safe Haven Centre de Dades de Salut de França , i Health Data Research UK . 21 22 23 24 Iniciatives substancials, encara que més petites, inclouen el Connectome Humà Biobank del Regne Unit Arxiu d'Imatges del Càncer (TCIA) El nou CXR8 NIH DeepLesion Atlas del Genoma del Càncer (TCGA) Iniciativa de Neuroimatge de la Malaltia d'Alzheimer (ADNI) A més, els grans reptes mèdics El repte del Camelion La Segmentació Internacional de Tumors Cerebrals Multimodals (BraTS) , , Segmentació mèdica Decathlon Les dades mèdiques públiques solen ser específiques a la tasca o a la malaltia i sovint es publiquen amb diversos graus de restriccions de llicència, de vegades limitant la seva explotació. 25 26 27 28 29 30 31 32 33 34 35 36 37 Centralitzar o alliberar dades, però, no només planteja desafiaments regulatoris, ètics i legals, relacionats amb la privacitat i la protecció de dades, sinó també tècnics.Anonimització, control d'accés i transferència segura de dades sanitàries és una tasca no trivial, i de vegades impossible. El mateix s'aplica a les dades genòmiques i les imatges mèdiques que les fan tan úniques com una empremta digital. Per tant, llevat que el procés d'anonimització destrueixi la fidelitat de les dades, probablement fent-les inútils, no es pot excloure la reidentificació del pacient o la filtració d'informació.L'accés obert per a usuaris autoritzats es proposa sovint com una solució presumptiva a aquest problema. 7 38 La promesa dels esforços federats La promesa de FL és simple: abordar els reptes de la privacitat i de la governança de dades permetent ML a partir de dades no co-localitzades. En una configuració FL, cada controlador de dades no només defineix els seus propis processos de governança i les polítiques de privacitat associades, sinó que també controla l'accés a les dades i té la capacitat de revocar-ho. Això inclou tant la formació com la fase de validació. D'aquesta manera, FL podria crear noves oportunitats, per exemple, permetent una validació a gran escala, dins de les institucions, o permetent una nova investigació sobre malalties rares, on les taxes d'incidència són baixes i els conjunts de dades de cada institució són massa petits. Moure el model a les dades i no al revés té un altre avantatge Com es mostra a la FIG. , un flux de treball FL es pot realitzar amb diferents topologies i plans de computació. Els dos més comuns per a les aplicacions sanitàries són a través d'un servidor d'agregació , , i peer to peer aproximacions , En tots els casos, FL ofereix implícitament un cert grau de privacitat, ja que els participants de FL mai accedeixen directament a dades d'altres institucions i només reben paràmetres de model que s'agrupen a través de diversos participants. En un flux de treball de FL amb servidor d'agrupació, les institucions participants poden fins i tot romandre desconegudes entre si. , , , mecanismes com la privacitat diferencial , o s'ha proposat aprendre de les dades encriptades per millorar encara més la privacitat en un entorn FL (vegeu la secció "Consideracions tècniques"). i les tècniques FL són un camp de recerca en creixement , . 2 16 17 18 15 39 40 41 42 43 44 45 46 12 20 FL topologies - Arquitectura de comunicació d'una federació. Centralitzat: el servidor d'agregació coordina les iteracions d'entrenament i recull, agrega i distribueix els models a i des dels nodes d'entrenament (Hub & Spoke). Descentralitzat: cada node d'entrenament està connectat a un o més pares i l'agregació es produeix en cada node en paral·lel. Hierarquisme: les xarxes federades poden estar compostes per diverses sub-federacions, que poden ser construïdes a partir d'una barreja de les federacions Peer-to-Peer i Aggregation Server ( Plans de computació FL: trajectòria d'un model a través de diversos socis. Formació seqüencial / aprenentatge de transferència cíclica. Servei d’agrupació, El peer a peer. a b c d e f g Els esforços actuals de FL per a la salut digital Atès que FL és un paradigma d'aprenentatge general que elimina el requisit de agrupament de dades per al desenvolupament de models d'IA, la gamma d'aplicacions de FL abasta tot l'IA per a l'atenció sanitària. En el context dels registres electrònics de salut (EHR), per exemple, FL ajuda a representar i trobar pacients clínicament similars. , , així com predir hospitalitzacions a causa d'esdeveniments cardíacs Mortalitat i temps de permanència ICU L'aplicabilitat i els avantatges de FL també s'han demostrat en el camp de la imaginació mèdica, per a la segmentació de tot el cervell en RMN. , així com la segmentació del tumor cerebral , Recentment, s'ha utilitzat la tècnica per a la classificació fMRI per trobar biomarcadors fiables relacionats amb la malaltia. i suggerit com un enfocament prometedor en el context de COVID-19 . 13 47 14 19 15 16 17 18 48 Val la pena assenyalar que els esforços de FL requereixen acords per definir l'abast, l'objectiu i les tecnologies utilitzades que, ja que encara són noves, poden ser difícils de definir.En aquest context, les iniciatives a gran escala d'avui són realment els pioners dels estàndards de demà per a la col·laboració segura, equitativa i innovadora en aplicacions sanitàries. Aquests inclouen els consorcis que pretenen avançar El projecte Trustworthy Federated Data Analytics (TFDA) i la Plataforma d'Imatge Conjunta del Consorci Alemany del Càncer Un altre exemple és una col·laboració internacional de recerca que utilitza FL per al desenvolupament de models d'IA per a l'avaluació de mamogrames. L'estudi va mostrar que els models generats per FL van superar els entrenats en les dades d'un únic institut i van ser més generalitzables, de manera que encara van funcionar bé en les dades d'altres instituts. Acadèmica 49 50 51 En connectar institucions sanitàries, no limitades a centres de recerca, FL pot tenir directament Impacte: El projecte HealthChain en curs , for example, aims to develop and deploy a FL framework across four hospitals in France. This solution generates common models that can predict treatment response for breast cancer and melanoma patients. It helps oncologists to determine the most effective treatment for each patient from their histology slides or dermoscopy images. Another large-scale effort is the Federated Tumour Segmentation (FeTS) initiative , que és una federació internacional de 30 institucions sanitàries dedicades utilitzant un marc FL de codi obert amb una interfície d'usuari gràfica. L'objectiu és millorar la detecció de límits de tumors, incloent glioma cerebral, tumors de mama, tumors de fetge i lesions òstiques de pacients amb mieloma múltiple. Clínica 52 53 Un altre punt d’impacte és dins investigació i traducció. FL permet la investigació col·laborativa per a empreses, fins i tot competidores. En aquest context, una de les principals iniciatives és el projecte Melloddy Es tracta d'un projecte que pretén desplegar FL multi-task a través dels conjunts de dades de 10 empreses farmacèutiques.A través de la formació d'un model predictiu comú, que indueix com els compostos químics s'uneixen a les proteïnes, els socis tenen la intenció d'optimitzar el procés de descoberta de fàrmacs sense revelar les seves dades internes molt valuoses. industrial 54 Impacte en les parts interessades FL comprèn un canvi de paradigma des dels llacs de dades centralitzats i és important comprendre el seu impacte en els diversos interessats en un ecosistema FL. Clínic Els clínics solen estar exposats a un subgrup de la població basat en la seva ubicació i el seu entorn demogràfic, el que pot causar suposicions prejudicials sobre la probabilitat de certes malalties o la seva interconnexió. Mitjançant l'ús de sistemes basats en ML, per exemple, com a segon lector, poden augmentar la seva pròpia experiència amb coneixements d'experts d'altres institucions, assegurant una coherència de diagnòstic no aconseguible avui en dia. Mentre que això s'aplica al sistema basat en ML en general, els sistemes entrenats de manera federada són potencialment capaços de produir decisions encara menys prejudicials i una major sensibilitat als casos rars, ja que probablement estaven exposats a una distribució de dades més completa. Pacients En particular, els pacients que requereixen atenció mèdica en àrees remotes podrien beneficiar-se dels mateixos diagnòstics assistits per ML d'alta qualitat que estan disponibles en hospitals amb un gran nombre de casos. El mateix s'aplica a malalties rares, o geogràficament rares, que són susceptibles de tenir conseqüències més suaus si es poden fer diagnòstics més ràpids i més precisos. Hospitals i pràctiques Els hospitals i les pràctiques poden romandre en ple control i possessió de les seves dades de pacients amb completa traçabilitat de l'accés de dades, limitant el risc d'abús per part de tercers. No obstant això, això requerirà inversions en infraestructures de computació on-premise o en la prestació de serveis de núvol privat i l'adhesió a formats de dades estandarditzats i sinòptics perquè els models ML puguin ser entrenats i avaluats sense problemes. La quantitat de capacitat computacional necessària depèn, per descomptat, de si un lloc només participa en esforços d'avaluació i proves o també en esforços de formació. Fins i tot les institucions relativament petites poden participar i encara es beneficiaran dels models col·lectius generats. Investigadors i desenvolupadors Els investigadors i els desenvolupadors d'IA es beneficien de l'accés a una col·lecció potencialment vasta de dades del món real, que sens dubte tindrà un impacte en els laboratoris de recerca més petits i les start-ups. Així, els recursos es poden dirigir a la solució de necessitats clíniques i problemes tècnics associats en lloc de dependre de l'oferta limitada de conjunts de dades obertes. , , El desenvolupament basat en FL implica també que l'investigador o desenvolupador d'IA no pot investigar o visualitzar totes les dades sobre les quals es forma el model, per exemple, no és possible mirar un cas individual d'error per entendre per què el model actual funciona malament en ell. 11 12 20 Proveïdors sanitaris Els proveïdors de serveis sanitaris en molts països estan afectats pel canvi de paradigma en curs de l'atenció mèdica basada en el volum, és a dir, basada en la tarifa per servei, a l'atenció mèdica basada en valor, que al seu torn està fortament relacionada amb l'establiment reeixit de la medicina de precisió. Això no es tracta de promoure teràpies individualitzades més cares, sinó d'aconseguir millors resultats més aviat a través d'un tractament més enfocat, reduint així el cost. FL té el potencial d'augmentar la precisió i la robustesa de la medicina mèdica, alhora que redueix els costos i millora els resultats dels pacients, i per tant pot ser vital per a la medicina de precisió. Fabricants Els fabricants de programari i maquinari de salut també podrien beneficiar-se de FL, ja que combinar l'aprenentatge de molts dispositius i aplicacions, sense revelar informació específica del pacient, pot facilitar la validació o millora contínua dels seus sistemes basats en ML. Consideracions tècniques FL és potser més conegut de l'obra de Konečnỳ et al. Altres definicions s'han proposat en la literatura. , , , Un flux de treball FL (Fig. ) es pot realitzar a través de diferents topologies i plans computacionals (Fig. ), però l’objectiu segueix sent el mateix, és a dir, combinar els coneixements adquirits a partir de dades no co-localitzades.En aquesta secció, discutirem amb més detall què és FL, així com destacar els principals reptes i consideracions tècniques que sorgeixen quan s’aplica FL en la salut digital. 55 9 11 12 20 1 2 Definició d'aprenentatge federal FL és un paradigma d'aprenentatge en el qual múltiples parts entren col·laborativament sense la necessitat d'intercanviar o centralitzar els conjunts de dades.Una formulació general de FL diu el següent: Denota una funció de pèrdua global obtinguda a través d'una combinació ponderada de pèrdues locals, calculades a partir de dades privades , que resideix en les parts implicades i mai no es comparteix entre elles: K XC on > 0 indica els respectius coeficients de pes. WK En la pràctica, cada participant sol obtenir i refinar un model de consens global mitjançant la realització d'unes quantes rondes d'optimització localment i abans de compartir actualitzacions, ja sigui directament o a través d'un servidor de paràmetres. ) , El procés real d'agregar paràmetres depèn de la topologia de la xarxa, ja que els nodes poden ser segregats en sub-xarxes a causa de restriccions geogràfiques o legals (veure FIG. Les estratègies d'agregació poden dependre d'un sol node d'agregació (models d'hub i de parla), o de múltiples nodes sense cap centralització.Un exemple és el FL peer-to-peer, on hi ha connexions entre tots o un subconjunt dels participants i les actualitzacions del model només es comparteixen entre llocs directament connectats. , Nota: les estratègies d'agregació no requereixen necessàriament informació sobre l'actualització completa del model; els clients podrien optar per compartir només un subconjunt dels paràmetres del model a fi de reduir la comunicació sobre cap, assegurar una millor preservació de la privacitat. o per produir algoritmes d'aprenentatge multi-task que només tenen part dels seus paràmetres aprenent d'una manera federada. 1 9 12 2 15 56 10 Un marc unificador que permeti diversos esquemes de formació pot separar els recursos computacionals (dades i servidors) del sistema. Com es mostra a la FIG. Aquest últim defineix la trajectòria d'un model a través de diversos socis, per ser entrenat i avaluat sobre conjunts de dades específics. El pla informàtic 2 Desafiaments i consideracions Malgrat els avantatges de FL, no soluciona tots els problemes que són inherents a l'aprenentatge de dades mèdiques. Aquestes qüestions s'han de resoldre tant per als esforços d'aprenentatge federats com no federats a través de mesures apropiades, com ara un disseny d'estudi acurat, protocols comuns per a l'adquisició de dades, informes estructurats i metodologies sofisticades per descobrir bias i estratificació oculta. , , . 2 11 12 20 Heterogeneïtat de dades Les dades mèdiques són particularment diverses, no només a causa de la varietat de modalitats, dimensionalitat i característiques en general, sinó fins i tot dins d'un protocol específic a causa de factors com les diferències d'adquisició, la marca del dispositiu mèdic o la demografia local. FL pot ajudar a abordar certes fonts de bias a través de la diversitat potencialment augmentada de fonts de dades, però la distribució de dades inhomogènia planteja un desafiament per als algoritmes i estratègies de FL, ja que molts estan assumint dades distribuïdes de forma independent i idèntica (IID) entre els participants. Estan disposats a fallar en aquestes condicions. , , , en part derrotant el propòsit mateix de les estratègies d'aprenentatge col·laboratiu. Els resultats recents, però, indiquen que la formació FL és encara viable , fins i tot si les dades mèdiques no es distribueixen uniformement entre les institucions , o inclou un bias local La investigació que aborda aquest problema inclou, per exemple, Estratègia de compartició de dades i FL amb adaptació de domini Un altre repte és que l'heterogeneïtat de les dades pot conduir a una situació en què la solució òptima global pot no ser òptima per a un participant local individual. Fàcil 9 9 57 58 59 16 17 51 Fedex 57 58 18 Privacitat i seguretat Les dades sanitàries són altament sensibles i han de ser protegides en conseqüència, seguint procediments de confidencialitat adequats.Per tant, algunes de les consideracions clau són els compromisos, les estratègies i els riscos restants pel que fa al potencial de preservació de la privacitat de FL. Privacitat versus rendiment: és important assenyalar que FL no soluciona tots els possibles problemes de privacitat i -similar als algoritmes ML en general- sempre comportarà alguns riscos. No obstant això, hi ha un compromís en termes de rendiment i aquestes tècniques poden afectar, per exemple, la precisió del model final. A més, futures tècniques i/o dades auxiliars podrien utilitzar-se per comprometre un model considerat anteriorment com a de baix risc. 12 10 Nivell de confiança: En general, les parts participants poden entrar en dos tipus de col·laboració FL: —Per als consorcis FL en els quals totes les parts es consideren dignes de confiança i estan vinculades per un acord de col·laboració aplicable, podem eliminar moltes de les motivacions més desfavorables, com ara intents deliberats d'extreure informació sensible o de corrompre intencionadament el model. Confiança —En els sistemes FL que operen a grans escales, pot ser impracticable establir un acord de col·laboració aplicable. Alguns clients poden tractar deliberadament de degradar el rendiment, reduir el sistema o extreure informació d'altres parts. Per tant, es requeriran estratègies de seguretat per mitigar aquests riscos, com ara xifratge avançat de les presentacions de models, autenticació segura de totes les parts, traçabilitat d'accions, privacitat diferencial, sistemes de verificació, integritat d'execució, confidencialitat de models i proteccions contra atacs adversaris. Non-trusted Fuga d'informació: Per definició, els sistemes FL eviten compartir dades sanitàries entre les institucions participants. no obstant això, la informació compartida encara pot exposar indirectament dades privades utilitzades per a la formació local, per exemple, mitjançant la inversió del model. de les actualitzacions del model, els gradients mateixos Els atacs adversaris , FL és diferent de l'entrenament tradicional en la mesura que el procés d'entrenament s'exposa a múltiples parts, augmentant així el risc de fuites mitjançant enginyeria inversa si els adversaris poden observar canvis de model amb el temps, observar actualitzacions de models específics (és a dir, actualitzacions d'una única institució), o manipular el model (per exemple, induir memorització addicional per part d'altres mitjançant atacs d'estil gradient-ascent). , i garantir una privacitat diferencial adequada , pot ser necessària i segueix sent una àrea activa de recerca . 60 61 62 63 16 18 44 12 Traçabilitat i responsabilitat Com en totes les aplicacions crítiques a la seguretat, la reproductibilitat d'un sistema és important per a FL en la salut. A diferència de la formació centralitzada, FL requereix càlculs multipartit en entorns que exhibeixen una considerable varietat en termes de maquinari, programari i xarxes. La traçabilitat de tots els actius del sistema, incloent l'historial d'accés a dades, les configuracions de formació i l'ajust d'hiperparàmetres al llarg dels processos de formació és, per tant, obligatòria. En particular, en federacions no fiables, la traçabilitat i els processos de responsabilitat requereixen integritat d'execució. Després que el procés de formació arribi als criteris d'optimització del model acordats mútuament, també pot ser útil mesurar Una de les implicacions de FL és que els investigadors no són capaços d'investigar les dades sobre les quals els models estan sent entrenats per entendre els resultats inesperats. A més, prendre mesures estadístiques de les seves dades de formació com a part del flux de treball del desenvolupament del model haurà de ser aprovat per les parts col·laboradores com no violen la privacitat. Tot i que cada lloc tindrà accés a les seves pròpies dades brutes, les federacions poden decidir proporcionar una mena de facilitat de visualització intra-node segura per atendre aquesta necessitat o pot proporcionar alguna altra manera d'augmentar l'explicabilitat i la interpretabilitat del model global. 64 Arquitectura del sistema A diferència d'executar FL a gran escala entre els dispositius de consum com McMahan et al. Els participants de les institucions sanitàries estan equipats amb recursos computacionals relativament potents i xarxes fiables d'alt rendiment que permeten l'entrenament de models més grans amb moltes més etapes de formació locals, i compartir més informació de model entre nodes.Aquestes característiques úniques de FL en la salut també porten reptes com assegurar la integritat de les dades quan es comunica mitjançant l'ús de nodes redundants, dissenyar mètodes de xifrat segur per prevenir la fuga de dades, o dissenyar programadors de nodes adequats per fer el millor ús dels dispositius computacionals distribuïts i reduir el temps de desocupació. 9 L'administració d'aquesta federació es pot realitzar de diferents maneres. En situacions que requereixen la privacitat de dades més estricta entre les parts, l'entrenament pot operar a través d'alguna mena de sistema de "corredor honest", en el qual un tercer de confiança actua com a intermediari i facilita l'accés a les dades. Aquesta configuració requereix una entitat independent que controla el sistema global, que pot no ser sempre desitjable, ja que podria implicar un cost addicional i viscositat procedimental. Tanmateix, té l'avantatge que els mecanismes interns precisos es poden abstrair dels clients, fent que el sistema sigui més àgil i més senzill d'actualitzar. En un sistema peer-to-peer, cada lloc interactua directament amb alguns o tots els altres Conclusió ML, i en particular DL, ha portat a una àmplia gamma d'innovacions en l'àmbit de la salut digital. Com que tots els mètodes ML beneficien molt de la capacitat d'accedir a dades que s'aproximen a la veritable distribució global, FL és un enfocament prometedor per obtenir models poderosos, precisos, segurs, robustos i imparcials. Per permetre a múltiples parts formar-se col·laborativament sense necessitat d'intercanviar o centralitzar els conjunts de dades, FL aborda netament els problemes relacionats amb l'excés de dades mèdiques sensibles. Com a conseqüència, pot obrir noves vies de recerca i negocis i té el potencial per millorar la cura del pacient a nivell mundial. Tanmateix, ja avui, FL té un impacte en gairebé tots els interessats Malgrat això, realment creiem que el seu impacte potencial en la medicina de precisió i, en última instància, en la millora de l'atenció mèdica és molt prometedor. 12 Resum informatiu Més informació sobre el disseny està disponible a la Enllaç a aquest article. Resum de la investigació Nature Referències LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. , 436 (2015). Nature 521 Wang, F., Casalino, L. P. & Khullar, D. Deep learning in medicine—promise, progress, and challenges. , 293–294 (2019). JAMA Intern. Med. 179 Chartrand, G. et al. Deep learning: a primer for radiologists. , 2113–2131 (2017). Radiographics 37 De Fauw, J. et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. , 1342 (2018). Nat. Med. 24 Sun, C., Shrivastava, A., Singh, S. & Gupta, A. Revisiting unreasonable effectiveness of data in deep learning era. In , 843–852 ( , 2017). Proceedings of the IEEE international conference on computer vision IEEE Van Panhuis, W. G. et al. A systematic review of barriers to data sharing in public health. , 1144 (2014). BMC Public Health 14 Rocher, L., Hendrickx, J. M. & De Montjoye, Y.-A. Estimating the success of re-identifications in incomplete datasets using generative models. , 1–9 (2019). Nat. Commun. 10 Schwarz, C. G. et al. Identification of anonymous mri research participants with face-recognition software. , 1684–1686 (2019). N. Engl. J. Med. 381 McMahan, B., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. In , 1273–1282. (2017). Artificial Intelligence and Statistics https://scholar.google.de/scholar?hl=de&as_sdt=0%2C5&q=Communicationefficient+learning+of+deep+networks+from+decentralized+data&btnG= Li, T., Sahu, A. K., Talwalkar, A. & Smith, V. Federated learning: Challenges, methods, and future directions. , 50–60 (IEEE, 2020). IEEE Signal Processing Magazine 37 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. (TIST) 10 Kairouz, P. et al. Advances and open problems in federated learning. (2019). arXiv preprint arXiv:1912.04977 Lee, J. et al. Privacy-preserving patient similarity learning in a federated environment: development and analysis. , e20 (2018). JMIR Med. Inform. 6 Brisimi, T. S. et al. Federated learning of predictive models from federated electronic health records. , 59–67 (2018). Int. J. Med. Inform. 112 Roy, A. G., Siddiqui, S., Pölsterl, S., Navab, N. & Wachinger, C. Braintorrent: a peer-to-peer environment for decentralized federated learning. (2019). arXiv preprint arXiv:1905.06731 Li, W. et al. Privacy-preserving federated brain tumour segmentation. In , 133–141 (Springer, 2019). International Workshop on Machine Learning in Medical Imaging Sheller, M. J., Reina, G. A., Edwards, B., Martin, J. & Bakas, S. Multi-institutional deep learning modeling without sharing patient data: a feasibility study on brain tumor segmentation. In , 92–104 (Springer, 2018). International MICCAI Brainlesion Workshop Li, X. et al. Multi-site fmri analysis using privacy-preserving federated learning and domain adaptation: abide results. (2020). arXiv preprint arXiv:2001.05647 Huang, L. et al. Patient clustering improves efficiency of federated machine learning to predict mortality and hospital stay time using distributed electronic medical records. , 103291 (2019). J. Biomed. Inform. 99 Xu, J. & Wang, F. Federated learning for healthcare informatics. (2019). arXiv preprint arXiv:1911.06270 Roy, A. & Banerjee, A. Ibm’s merge healthcare acquisitio . (2015) (Accessed 10 February 2020). n https://www.reuters.com/article/us-merge-healthcare-m-a-ibm/ibm-to-buy-merge-healthcare-in-1-billion-deal-idUSKCN0QB1ML20150806 Nhs scotland’s national safe haven. (2015) (Accessed 10 February 2020). https://www.gov.scot/publications/charter-safe-havens-scotland-handling-unconsented-data-national-health-service-patient-records-support-research-statistics/pages/4/ Cuggia, M. & Combes, S. The french health data hub and the german medical informatics initiatives: Two national projects to promote data sharing in healthcare. , 195–202 (2019). Yearbook Med. Informat. 28 Health Data Research UK. (Health Data Research UK, 2020) (Accessed 10 Feb 2020). https://www.hdruk.ac.uk/ Sporns, O., Tononi, G. & Kötter, R. The human connectome: a structural description of the human brain. . , e42, (2005). PLoS Comput. Biol 1 https://doi.org/10.1371/journal.pcbi.0010042 Sudlow, C. et al. Uk biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age. . , e1001779. (2015). PLoS Med 12 https://doi.org/10.1371/journal.pmed.1001779 Clark, K. et al. The cancer imaging archive (tcia): maintaining and operating a public information repository. , 1045–1057 (2013). J. Digit. Imaging. 26 Wang, X. et al. Chestx-ray8: Hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In , 2097–2106 ( , 2017). Proceedings of the IEEE conference on computer vision and pattern recognition IEEE Yan, K., Wang, X., Lu, L. & Summers, R. M. Deeplesion: automated mining of large-scale lesion annotations and universal lesion detection with deep learning. , 036501 (2018). J Med. Imaging. 5 Tomczak, K., Czerwińska, P. & Wiznerowicz, M. The cancer genome atlas (tcga): an immeasurable source of knowledge. , A68 (2015). Contemp. Oncol. 19 Jack Jr., C. R. et al. The alzheimer’s disease neuroimaging initiative (adni): Mri methods. , 685–691 (2008). J. Magn. Reson. Imaging 27 . (2020) (Accessed 24 July 2020). Grand Challenge-a Platform for End-to-end Development of Machine Learning Solutions in Biomedical Imaging https://grand-challenge.org/ Litjens, G. et al. 1399 h&e-stained sentinel lymph node sections of breast cancer patients: the camelyon dataset. , giy065 (2018). GigaScience 7 Menze, B. H. et al. The multimodal brain tumor image segmentation benchmark (brats). , 1993–2024 (2014). IEEE Trans. Med. Imaging 34 Bakas, S. et al. Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the brats challenge. (2018). arXiv preprint arXiv:1811.02629 Bakas, S. et al. Advancing the cancer genome atlas glioma MRI collections with expert segmentation labels and radiomic features. , 170117 (2017). Sci. Data 4 Simpson, A. L. et al. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. (2019). arXiv preprint arXiv:1902.09063 Yeh, F.-C. et al. Quantifying differences and similarities in whole-brain white matter architecture using local connectome fingerprints. , e1005203 (2016). PLoS Comput. Biol. 12 Chang, K. et al. Distributed deep learning networks among institutions for medical imaging. , 945–954 (2018). J. Am. Med. Inform. Assoc. 25 Shokri, R., Stronati, M., Song, C. & Shmatikov, V. Membership inference attacks against machine learning models. In , 3-18 (IEEE, 2017). 2017 IEEE Symposium on Security and Privacy (SP) Sablayrolles, A., Douze, M., Ollivier, Y., Schmid, C. & Jégou, H. White-box vs black-box: Bayes optimal strategies for membership inference. In Chaudhuri, K. & Salakhutdinov, R. (eds) , 5558–5567. (PMLR, 2019). Proceedings of the 36th International Conference on Machine Learning, {ICML} 97 http://proceedings.mlr.press/v97/sablayrolles19a.html Zhang, C., Bengio, S., Hardt, M., Recht, B. & Vinyals, O. Understanding deep learning requires rethinking generalization. In , (OpenReview.net, 2017). 5th International Conference on Learning Representations, {ICLR}. https://openreview.net/forum?id=Sy8gdB9xx Carlini, N., Liu, C., Erlingsson, Ú., Kos, J. & Song, D. The secret sharer: evaluating and testing unintended memorization in neural networks. In Heninger, N. & Traynor, P. (eds) { } ({ } , 267–284. ({USENIX} Association, Santa Clara, CA, USA, 2019). 28th USENIX Security Symposium USENIX Security 19 https://www.usenix.org/conference/usenixsecurity19/presentation/carlini Abadi, M. et al. Deep learning with differential privacy. In , 308–318 (ACM, 2016). Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In , 1310–1321 (ACM, 2015). Proceedings of the 22nd ACM SIGSAC conference on computer and communications security Langlotz, C. P. et al. A roadmap for foundational research on artificial intelligence in medical imaging: from the 2018 nih/rsna/acr/the academy workshop. , 781–791 (2019). Radiology 291 Kim, Y., Sun, J., Yu, H. & Jiang, X. Federated Tensor Factorization for Computational Phenotyping. In . 887–895. (ACM, Halifax, NS, Canada, 2017). Proceedings of the 23rd {ACM} {SIGKDD} International Conference on Knowledge Discoveryand Data Mining https://doi.org/10.1145/3097983.3098118 He, C., Annavaram, M. & Avestimehr, S. Fednas: Federated deep learning via neural architecture search. (2020). https://sites.google.com/view/cvpr20-nas/ Trustworthy federated data analytics (tfda). (2020) (Accessed 28 May 2020). https://tfda.hmsp.center/ Joint Imaging Platform (Jip). (2020) (Accessed 28 May 2020). https://jip.dktk.dkfz.de/jiphomepage/ Medical institutions collaborate to improve mammogram assessment ai. (2020) (Accessed 28 May 2020). https://blogs.nvidia.com/blog/2020/04/15/federated-learning-mammogram-assessment/ Healthchain consortium. (2020) (Accessed 28 May 2020). https://www.substra.ai/en/healthchain-project The federated tumor segmentation (fets) initiative. (2020) (Accessed 28 May 2020). https://www.fets.ai Machine learning ledger orchestration for drug discovery. (2020). Accessed 28 May 2020. https://cordis.europa.eu/project/id/831472 Konečny`, J., McMahan, H. B., Ramage, D. & Richtárik, P. Federated optimization: Distributed machine learning for on-device intelligence. (2016). arXiv preprint arXiv:1610.02527 Lalitha, A., Kilinc, O. C., Javidi, T. & Koushanfar, F. Peer-to-peer federated learning on graphs. (2019). arXiv preprint arXiv:1901.11173 Li, T., Sahu, A. K., Zaheer, M., Sanjabi, M., Talwalkar, A. & Smith, V. Federated optimization in heterogeneous networks. (2018). arXiv preprint arXiv:1812.06127 Zhao, Y. et al. Federated learning with non-iid data. (2018). arxivabs/1806.00582 Li, X., Huang, K., Yang, W., Wang, S. & Zhang, Z. On the convergence of fedavg on non-IID data. (2020). https://openreview.net/forum?id=HJxNAnVtDS Wu, B. et al. P3sgd: patient privacy preserving SGD for regularizing deep CNNs in pathological image classification. In (pp. 2099–2108) (2019). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Zhu, L., Liu, Z. & Han, S. Deep leakage from gradients. In Wallach, H. M. et al. (eds) , 14747–14756. (2019). Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems http://papers.nips.cc/paper/9617-deep-leakage-from-gradients Wang, Z. et al. Beyond inferring class representatives: user-level privacy leakage from federated learning. In 2512–2520. (IEEE, Paris, France, 2019). 2019 {IEEE} Conferenceon Computer Communications, {INFOCOM} https://doi.org/10.1109/INFOCOM.2019.8737416 Hitaj, B., Ateniese, G. & Perez-Cruz, F. Deep models under the gan: information leakage from collaborative deep learning. In , CCS’17, 603–618 (Association for Computing Machinery, New York, NY, USA, 2017). Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security Ghorbani, A. & Zou, J. Data shapley: Equitable valuation of data for machine learning. In (pp. 2242-2251) (2019). International Conference on Machine Learning Reconeixement This work was supported by the UK Research and Innovation London Medical Imaging & Artificial Intelligence Centre for Value-Based Healthcare, by the Wellcome/EPSRC Centre for Medical Engineering (WT203148/Z/16/Z), by the Wellcome Flagship Programme (WT213038/Z/18/Z), by the Intramural Research Programme of the National Institutes of Health (NIH) Clinical Center, by the National Cancer Institute of the NIH under award number U01CA242871, by the National Institute of Neurological Disorders and Stroke of the NIH under award number R01NS042645, as well as by the Helmholtz Initiative and Networking Fund (project “Trustworthy Federated Data Analytics”) and the PRIME programme of the German Academic Exchange Service (DAAD) with funds from the German Federal Ministry of Education and Research (BMBF). The content and opinions expressed in this publication is solely the responsibility of the authors and do not necessarily represent those of the institutions they are affiliated with, e.g., the U.S. Department of Health and Human Services or the National Institutes of Health. Open access funding provided by Projekt DEAL. Aquest document està disponible en la naturalesa sota la llicència CC by 4.0 Deed (Attribution 4.0 International). Aquest paper és Amb la llicència CC 4.0 Deed (Attribution 4.0 International). Disponible a la natura