Forfattere af: Nicola Rieke af Jonny Hancox af Wenqi Li af Fausto Milletarì af Holger R. Roth Shadi Albarqouni Spyridon Bakas af Mathieu N. Galtier af Bennett A. Landman Klaus Maier-Hein Sébastien Ourselin Micah Sheller af Ronald M. Summers af Andrew Trask Daguang Xu Maximilian Baust af Jorge Cardoso Forfattere af: af Nicola Rieke af Jonny Hancox af Wenqi Li af Fausto Milletarì af Holger R. Roth Shadi Albarqouni Spyridon Bakas af Mathieu N. Galtier af Bennett A. Landman af Klaus Maier-Hein af Sébastien Ourselin af Micah Sheller af Ronald M. Summers af Andrew Trask Daguang Xu Maximilian Baust af Jorge Cardoso Abstrakte Data-drevet maskinlæring (ML) er opstået som en lovende tilgang til at opbygge nøjagtige og robuste statistiske modeller fra medicinske data, som indsamles i store mængder af moderne sundhedssystemer. Eksisterende medicinske data udnyttes ikke fuldt ud af ML primært fordi det sidder i data silos og privatliv bekymringer begrænse adgangen til disse data. Men uden adgang til tilstrækkelige data, vil ML blive forhindret i at nå sit fulde potentiale og i sidste ende fra at gøre overgangen fra forskning til klinisk praksis. Dette papir overvejer nøglefaktorer, der bidrager til dette problem, udforsker, hvordan fødereret læring (FL) kan give en løsning til fremtiden for digital sundhed og fremhæver de udfordringer og overvejelser, der skal løses. Introduktion Forskning på kunstig intelligens (AI), og især fremskridtene inden for maskinlæring (ML) og dyb læring (DL) Moderne DL-modeller indeholder millioner af parametre, der skal læres fra tilstrækkeligt store kurerede datasæt for at opnå klinisk nøjagtighed, samtidig med at de er sikre, retfærdige, retfærdige og generaliserer godt til usynlige data , , , . 1 2 3 4 5 For eksempel kræver træning af en AI-baseret tumordetektor en stor database, der omfatter hele spektret af mulige anatomier, patologier og inputdata typer. Selv om dataanonymisering kunne omgå disse begrænsninger, er det nu godt forstået, at fjernelse af metadata som patientnavn eller fødselsdato ofte ikke er nok til at bevare privatlivets fred. Det er f.eks. muligt at rekonstruere patientens ansigt fra computertomografi (CT) eller magnetisk resonansbilleddata (MRI). En anden grund til, at datadeling ikke er systematisk i sundhedsvæsenet, er, at indsamling, kurering og vedligeholdelse af et datasæt af høj kvalitet tager betydelig tid, indsats og udgifter. Følgelig kan sådanne datasæt have betydelig forretningsværdi, hvilket gør det mindre sandsynligt, at de vil blive delt frit. 6 7 8 Fødereret læring (FL) , , er et læringsparadigme, der søger at løse problemet med datastyring og privatliv ved at træne algoritmer i samarbejde uden at udveksle dataene selv. , det har for nylig vundet trækkraft for sundhedsapplikationer , , , , , , , FL gør det muligt at indhente indsigter i samarbejde, f.eks. i form af en konsensusmodel, uden at flytte patientdata ud over de firewalls i de institutioner, hvor de bor. I stedet sker ML-processen lokalt i hver deltagerinstitution og kun modelkarakteristika (f.eks. parametre, gradienter) overføres som vist i figuren. Ny forskning har vist, at modeller, der trænes af FL, kan opnå præstationsniveauer, der er sammenlignelige med dem, der trænes på centralt hostede datasæt og overlegen til modeller, der kun ser isolerede enkeltinstitutionelle data. , . 9 10 11 12 13 14 15 16 17 18 19 20 1 16 17 FL-aggregeringsserver – den typiske FL-arbejdsproces, hvor en føderation af uddannelsesnoder modtager den globale model, genindsender deres delvist uddannede modeller til en central server intermittent til aggregering og derefter fortsætter med at træne på den konsensusmodel, som serveren returnerer. FL peer to peer – alternativ formulering af FL, hvor hver træningsknode udveksler sine delvist uddannede modeller med nogle eller alle sine jævnaldrende, og hver gør sin egen aggregering. Centraliseret træning – den generelle ikke-FL træning arbejdsproces, hvor data erhverver steder donere deres data til en central data sø, hvorfra de og andre er i stand til at udtrække data til lokal, uafhængig træning. a b c En vellykket implementering af FL kan således indeholde et betydeligt potentiale for at muliggøre præcisionsmedicin i stor skala, hvilket fører til modeller, der giver upartiske beslutninger, optimalt afspejler en persons fysiologi og er følsomme over for sjældne sygdomme, samtidig med at regerings- og privatlivsmæssige bekymringer respekteres. Vi forestiller os en fødereret fremtid for digital sundhed, og med dette perspektivpapir deler vi vores konsensus synspunkt med det formål at give samfundet kontekst og detaljer om fordelene og indvirkningen af FL til medicinske applikationer (afsnit "Data-drevet medicin kræver fødererede indsatser"), samt fremhæve de vigtigste overvejelser og udfordringer ved implementering af FL til digital sundhed (afsnit "Tekniske overvejelser"). Data-drevet medicin kræver føderale bestræbelser ML og især DL bliver den de facto videnopdagelsesmetode i mange brancher, men succesfuld implementering af data-drevne applikationer kræver store og mangfoldige datasæt. Men medicinske datasæt er svære at få (underafsnit "Afhængigheden af data"). FL adresserer dette problem ved at muliggøre samarbejdsindlæring uden at centralisere data (underafsnit "Løftet om fødererede bestræbelser") og har allerede fundet sin vej til digitale sundhedsapplikationer (underafsnit "Nuværende FL bestræbelser på digital sundhed"). Afhængighed af data Data-drevne tilgange er afhængige af data, der virkelig repræsenterer problemets underliggende datafordeling. Mens dette er et velkendt krav, evalueres state-of-the-art algoritmer normalt på omhyggeligt kurerede datasæt, der ofte stammer fra kun få kilder. Dette kan indføre fordomme, hvor demografiske (f.eks. køn, alder) eller tekniske ubalancer (f.eks. erhvervsprotokol, udstyrsfabrikant) forvrænger forudsigelser og negativt påvirker nøjagtigheden for visse grupper eller steder. Behovet for store databaser til AI-træning har skabt mange initiativer, der søger at samle data fra flere institutioner. Disse data samles ofte i såkaldte Data Lakes. Disse er blevet bygget med det formål at udnytte enten den kommercielle værdi af data, f.eks. IBMs Merge Healthcare-overtagelse , eller som en ressource til økonomisk vækst og videnskabelig fremskridt, f.eks. NHS Scotland's National Safe Haven Fransk sundhedsdatabehandling , og Health Data Research UK . 21 22 23 24 Betydelige, omend mindre initiativer omfatter Human Connectome Den britiske biobank Læs mere om Cancer Imaging Archive (TCIA) af NIH CXR8 af NIH DeepLesion Læs mere om Cancer Genome Atlas (TCGA) Alzheimers sygdom Neuroimaging Initiative (ADNI) Ligesom de store medicinske udfordringer Lidt om Camelion Challenge International Multimodal Brain Tumor Segmentation (BraTS) udfordring , , Læs mere om Medical Segmentation Decathlon Offentlige medicinske data er normalt opgave- eller sygdomsspecifikke og ofte frigivet med varierende grad af licensbegrænsninger, sommetider begrænser dens udnyttelse. 25 26 27 28 29 30 31 32 33 34 35 36 37 Centralisering eller frigivelse af data udgør imidlertid ikke kun lovgivningsmæssige, etiske og juridiske udfordringer i forbindelse med privatlivets fred og databeskyttelse, men også tekniske udfordringer. Anonymisering, kontrol af adgang og sikker overførsel af sundhedsdata er en ikke-triviel og undertiden umulig opgave. Det samme gælder for genomiske data og medicinske billeder, der gør dem så unikke som et fingeraftryk. Såfremt anonymiseringsprocessen ikke ødelægger dataens troværdighed, hvilket sandsynligvis gør det ubrugeligt, kan patientens genidentifikation eller informationslækage ikke udelukkes.Gated access for godkendte brugere foreslås ofte som en formodet løsning på dette problem. 7 38 Løftet om føderale bestræbelser I en FL-indstilling definerer hver dataansvarlig ikke kun sine egne styringsprocesser og relaterede databeskyttelsespolitikker, men kontrollerer også dataadgang og har evnen til at tilbagekalde det. Dette omfatter både uddannelsen og valideringsfasen. På denne måde kan FL skabe nye muligheder, f.eks. ved at tillade storstilet, institutionel validering eller ved at muliggøre ny forskning om sjældne sygdomme, hvor incidensraten er lav, og datasæt i hver enkelt institution er for små. Flytning af modellen til dataene og ikke omvendt har en anden stor fordel: højdimensionelle, lagringsintensive medicinske data behøver ikke at duplikeres fra lokale institutioner i et centraliseret pool og duplikeres igen af hver bruger, der bruger denne data til lokal uddannelse. Som beskrevet i Fig. , en FL-arbejdsproces kan realiseres med forskellige topologier og beregningsplaner.De to mest almindelige for sundhedsplejeapplikationer er via en aggregeringsserver , , Peer to peer tilnærmelser , I alle tilfælde tilbyder FL implicit en vis grad af privatliv, da FL-deltagerne aldrig får direkte adgang til data fra andre institutioner og kun modtager modelparametre, der er aggregeret over flere deltagere.I en FL-arbejdsproces med aggregeringsserver kan de deltagende institutioner endda forblive ukendte for hinanden. , , , Mekanismer som f.eks. differentieret privatliv , eller læring fra krypterede data er blevet foreslået for yderligere at forbedre privatlivets fred i en FL-indstilling (jf. afsnit ”Tekniske overvejelser”). og FL-teknikker er et voksende forskningsområde , . 2 16 17 18 15 39 40 41 42 43 44 45 46 12 20 FL topologier – kommunikationsarkitektur af en føderation. Centraliseret: Aggregationsserveren koordinerer trænings iterationerne og indsamler, aggregerer og distribuerer modellerne til og fra træningsnoderne (Hub & Spoke). Decentraliseret: Hver træningsknode er forbundet til en eller flere jævnaldrende, og aggregering foregår på hver knude parallelt. Det er muligt at opbygge et netværk, der er sammensat af flere underføderationer, som kan sammensættes af en blanding af Peer-to-Peer- og Aggregation Server-føderationer ( FL beregningsplaner – trajektorien for en model på tværs af flere partnere. Sekventiel træning / cyklisk overførsel læring. Aggregation af servere, Peer til peer. a b c d e f g Aktuelle FL-indsatser for digital sundhed Eftersom FL er et generelt læringsparadigme, der fjerner kravet om datagruppering for AI-modelludvikling, spænder anvendelsesområdet for FL over hele AI til sundhedspleje.Ved at give mulighed for at indfange større datavariabilitet og analysere patienter på tværs af forskellige demografier, kan FL muliggøre forstyrrende innovationer for fremtiden, men er også i brug lige nu. I forbindelse med elektroniske sundhedsoptegnelser (EHR) hjælper FL f.eks. med at repræsentere og finde klinisk lignende patienter. , , samt forudsige hospitalsindlæggelser på grund af hjertesygdomme Dødelighed og ICU opholdstid Anvendeligheden og fordelene ved FL er også blevet demonstreret inden for medicinsk billeddannelse, for helhjernen segmentering i MRI samt segmentering af hjernesvulster , For nylig er teknikken blevet anvendt til fMRI-klassificering for at finde pålidelige sygdomsrelaterede biomarkører. og foreslået som en lovende tilgang i forbindelse med COVID-19 . 13 47 14 19 15 16 17 18 48 Det er værd at bemærke, at FL-indsatsen kræver aftaler for at definere anvendelsesområdet, målet og teknologierne, som, da de stadig er nye, kan være vanskelige at definere. Det drejer sig om konsortier, der har til formål at fremme Forskning, såsom Trustworthy Federated Data Analytics (TFDA) projekt Det tyske kræftkonsortiums fælles billeddannelsesplatform , som muliggør decentraliseret forskning på tværs af tyske medicinske billeddannelsesforskningsinstitutioner. Et andet eksempel er et internationalt forskningssamarbejde, der bruger FL til udvikling af AI-modeller til evaluering af mammogrammer Undersøgelsen viste, at de FL-genererede modeller overgik dem, der blev uddannet på et enkelt instituts data og var mere generaliserbare, så de stadig udførte godt på andre instituts data. Akademisk 49 50 51 Ved at forbinde sundhedsinstitutioner, der ikke er begrænset til forskningscentre, kan FL have direkte Det igangværende HealthChain-projekt , for eksempel, har til formål at udvikle og implementere en FL-ramme på tværs af fire hospitaler i Frankrig. Denne løsning genererer fælles modeller, der kan forudsige behandlingsresponsen for brystkræft og melanompatienter. Det hjælper onkologer med at bestemme den mest effektive behandling for hver patient fra deres histologiske slides eller dermoskopi billeder. , som er en international føderation af 30 engagerede sundhedsinstitutioner ved hjælp af en open-source FL-ramme med et grafisk brugergrænseflade. Formålet er at forbedre tumorgrænseopdagelsen, herunder hjernegliom, brysttumorer, levertumorer og knogle læsioner fra flere myelompatienter. Klinisk 52 53 Et andet område med indflydelse er forskning og oversættelse. FL muliggør samarbejdsforskning for selv konkurrerende virksomheder.I denne sammenhæng er et af de største initiativer Melloddy-projektet Det er et projekt, der sigter mod at implementere multi-task FL på tværs af datasæt af 10 farmaceutiske virksomheder.Ved at uddanne en fælles forudsigelsesmodel, der indebærer, hvordan kemiske forbindelser binder sig til proteiner, har partnere til hensigt at optimere lægemiddelopdagelsesprocessen uden at afsløre deres meget værdifulde interne data. Industriel 54 Virkning på interessenterne FL indebærer et paradigmeskift fra centraliserede datasøer, og det er vigtigt at forstå dens indvirkning på de forskellige interessenter i et FL-økosystem. Klinikere Klinikere udsættes normalt for en undergruppe af befolkningen baseret på deres beliggenhed og demografiske miljø, hvilket kan forårsage fordomme om sandsynligheden for visse sygdomme eller deres indbyrdes forbindelse. Ved at bruge ML-baserede systemer, f.eks. som en anden læser, kan de øge deres egen ekspertise med ekspertviden fra andre institutioner, hvilket sikrer en konsistens i diagnosen, der ikke kan opnås i dag. Mens dette gælder for ML-baserede systemer generelt, er systemer, der er uddannet på en fødereret måde, potentielt i stand til at give endnu mindre fordomme og højere følsomhed over for sjældne tilfælde, da de sandsynligvis var udsat for en mere komplet datafordeling. Patienter Patienter behandles normalt lokalt. Etablering af FL på en global skala kan sikre høj kvalitet af kliniske beslutninger uanset behandlingsstedet. Især kan patienter, der kræver lægehjælp i fjerntliggende områder, drage fordel af de samme højkvalitets ML-hjælpede diagnoser, der er tilgængelige på hospitaler med et stort antal tilfælde. Det samme gælder for sjældne eller geografisk usædvanlige sygdomme, som sandsynligvis vil have mildere konsekvenser, hvis hurtigere og mere præcise diagnoser kan gøres. FL kan også reducere hindringen for at blive en data donor, da patienter kan være sikre på, at dataene forbliver hos deres egen institution og dataadgang kan tilbagekaldes. Sygehuse og praksis Sygehuse og praksis kan forblive i fuld kontrol og besiddelse af deres patientdata med fuld sporbarhed af dataadgang, hvilket begrænser risikoen for misbrug af tredjeparter. Dette vil dog kræve investeringer i on-premise computing infrastruktur eller privat cloud service levering og overholdelse af standardiserede og synoptic data formater, så ML modeller kan trænes og evalueres problemfrit. Mængden af nødvendig computing kapacitet afhænger naturligvis af, om et websted kun deltager i evaluerings- og testindsatser eller også i træningsindsatser. Selv relativt små institutioner kan deltage, og de vil stadig drage fordel af kollektive modeller genereret. Forskere og udviklere Forskere og AI-udviklere kan drage fordel af adgangen til en potentielt stor samling af real-world data, som helt sikkert vil påvirke mindre forskningslaboratorier og start-ups. Således kan ressourcerne rettes mod at løse kliniske behov og tilhørende tekniske problemer i stedet for at stole på det begrænsede udbud af åbne datasæt. , , FL-baseret udvikling indebærer også, at forskeren eller AI-udvikleren ikke kan undersøge eller visualisere alle de data, som modellen er uddannet på, f.eks. er det ikke muligt at se på et individuelt fejlsag for at forstå, hvorfor den nuværende model fungerer dårligt på den. 11 12 20 Sundhedsudbydere Sundhedsudbydere i mange lande er påvirket af den igangværende paradigmeskift fra volumenbaseret, dvs. gebyr-for-service-baseret, til værdibaseret sundhedspleje, som igen er stærkt forbundet med den vellykkede etablering af præcisionsmedicin. Dette handler ikke om at fremme dyrere individualiserede terapier, men i stedet om at opnå bedre resultater hurtigere gennem mere fokuseret behandling, hvilket reducerer omkostningerne. Producenterne Producenter af sundhedssoftware og hardware kan også drage fordel af FL, da kombinationen af læring fra mange enheder og applikationer, uden at afsløre patient-specifik information, kan lette den kontinuerlige validering eller forbedring af deres ML-baserede systemer. Tekniske overvejelser FL er måske bedst kendt fra arbejdet i Konečnỳ et al. Mange andre definitioner findes i litteraturen. , , , En FL workflow (Fig. ) kan realiseres via forskellige topologier og beregningsplaner (Fig. I dette afsnit vil vi diskutere mere detaljeret, hvad FL er, samt fremhæve de centrale udfordringer og tekniske overvejelser, der opstår, når man anvender FL i digital sundhed. 55 9 11 12 20 1 2 Definition af fødereret læring FL er et læringsparadigme, hvor flere parter træner sammen uden behov for at udveksle eller centralisere datasæt.En generel formulering af FL lyder som følger: Lad betyde en global tabsfunktion opnået via en vægtet kombination af lokale tab, beregnet ud fra private data , som er bosiddende hos de enkelte involverede parter og aldrig deles mellem dem: K XK Hvor > 0 angiver de respektive vægtkoefficienter. WK I praksis opnår og forfiner hver deltager typisk en global konsensusmodel ved at udføre et par runder af optimering lokalt og før deling af opdateringer, enten direkte eller via en parameterserver. ) , Den faktiske proces for aggregering af parametre afhænger af netværkstopologi, da noder kan adskilles til undernetværk på grund af geografiske eller juridiske begrænsninger (se Fig. ). Aggregationsstrategier kan stole på en enkelt aggregerende knude (hub og talemodeller), eller på flere knuder uden nogen centralisering. Et eksempel er peer-to-peer FL, hvor forbindelser eksisterer mellem alle eller en undergruppe af deltagerne og modelopdateringer deles kun mellem direkte forbundne websteder , Bemærk, at aggregeringsstrategier ikke nødvendigvis kræver oplysninger om den fulde modelopdatering; kunder kan vælge kun at dele et delsæt af modelparametrene for at reducere kommunikation overhead, sikre bedre privatlivets fred eller at producere multi-task læringsalgoritmer, der kun har en del af deres parametre lært på en fødereret måde. 1 9 12 2 15 56 10 En forenende ramme, der muliggør forskellige træningsordninger, kan adskille computerressourcer (data og servere) fra Som det fremgår af Fig. Sidstnævnte definerer trajektorien for en model på tværs af flere partnere, der skal trænes og evalueres på specifikke datasæt. Computerplanlægning 2 Udfordringer og overvejelser På trods af fordelene ved FL løser det ikke alle problemer, der er forbundet med at lære om medicinske data. En vellykket modeluddannelse afhænger stadig af faktorer som datakvalitet, bias og standardisering Disse spørgsmål skal løses for både fødererede og ikke-federerede læringsindsatser gennem passende foranstaltninger, såsom omhyggelig studiedesign, fælles protokoller for dataindsamling, struktureret rapportering og sofistikerede metoder til opdagelse af bias og skjult stratifikation. , , . 2 11 12 20 Heterogenitet af data Medicinsk data er særligt forskelligartede – ikke kun på grund af mangfoldigheden af modaliteter, dimensionalitet og karakteristika i almindelighed, men også inden for en bestemt protokol på grund af faktorer som erhvervelsesforskelle, mærke af det medicinske udstyr eller lokal demografi. FL kan hjælpe med at adressere visse kilder til bias gennem potentielt øget mangfoldighed af datakilder, men uhomogen datafordeling udgør en udfordring for FL algoritmer og strategier, da mange antager uafhængigt og identisk fordelt (IID) data på tværs af deltagerne. er tilbøjelige til at mislykkes under disse betingelser , , , som delvist besejrer selve formålet med samarbejdsindlæringsstrategier.De seneste resultater indikerer dog, at FL-træning stadig er gennemførlig Selv om medicinsk data ikke er ensartet fordelt på tværs af institutionerne , eller inkluderer et lokalt bias Forskning, der tager fat på dette problem, omfatter f.eks. Del-data-deling strategi og FL med domæne tilpasning En anden udfordring er, at dataheterogenitet kan føre til en situation, hvor den globale optimale løsning muligvis ikke er optimal for en individuel lokal deltager. Fæddyr 9 9 57 58 59 16 17 51 FedProx 57 58 18 Privatliv og sikkerhed Sundhedsdata er meget følsomme og skal beskyttes i overensstemmelse hermed efter passende fortrolighedsprocedurer.Derfor er nogle af de vigtigste overvejelser kompromisser, strategier og resterende risici i forhold til FL's potentiale til at bevare privatlivets fred. Fortrolighed vs. ydeevne: Det er vigtigt at bemærke, at FL ikke løser alle potentielle fortrolighedsproblemer og – ligesom ML-algoritmer generelt – vil altid bære nogle risici. Der er dog en kompromis med hensyn til ydeevne, og disse teknikker kan for eksempel påvirke nøjagtigheden af den endelige model. Derudover kan fremtidige teknikker og/eller hjælpedata bruges til at kompromittere en model, der tidligere blev betragtet som lavrisiko. 12 10 Tillidsniveau: I vid udstrækning kan deltagende parter indgå to typer FL-samarbejde: —For FL-konsortier, hvor alle parter betragtes som pålidelige og er bundet af en håndhævelig samarbejdsaftale, kan vi fjerne mange af de mere skadelige motivationer, såsom forsætlige forsøg på at udtrække følsomme oplysninger eller forsætligt at korrupte modellen. Troværdig —I FL-systemer, der opererer i større skalaer, kan det være upraktisk at etablere en håndhævelig samarbejdsaftale. Nogle kunder kan bevidst forsøge at nedbringe ydeevnen, nedbringe systemet eller udtrække oplysninger fra andre parter. Derfor vil der blive krævet sikkerhedsstrategier for at mindske disse risici, såsom avanceret kryptering af modelindsendelser, sikker autentisering af alle parter, sporbarhed af handlinger, differentiel privatliv, verifikationssystemer, eksekveringsintegritet, modelfortrolighed og beskyttelse mod modstanderangreb. Ikke tillidsfuld Informationslækage: FL-systemer undgår ved definition deling af sundhedsdata mellem deltagende institutioner. Men den delte information kan stadig indirekte udsætte private data, der anvendes til lokal træning, f.eks. ved modelinversion af modellen opdateringer, gradienterne selv eller modsatrettede angreb , FL adskiller sig fra traditionel træning i det omfang, at træningsprocessen udsættes for flere parter, hvilket øger risikoen for lækage via reverse-engineering, hvis modstandere kan observere modelændringer over tid, observere specifikke modelopdateringer (dvs. en enkelt institutionens opdatering) eller manipulere modellen (f.eks. inducere yderligere memorering af andre gennem gradient-ascent-stilangreb). , og sikrer tilstrækkelig differentieret privatliv , kan være nødvendigt og er stadig et aktivt forskningsområde . 60 61 62 63 16 18 44 12 Sporbarhed og ansvarlighed Som for alle sikkerhedskritiske applikationer er systemets reproducerbarhed vigtig for FL i sundhedssektoren. I modsætning til centraliseret træning kræver FL multiparty-beregninger i miljøer, der udviser betydelig variation med hensyn til hardware, software og netværk. Sporbarhed af alle systemets aktiver, herunder dataadgangshistorik, træningskonfigurationer og hyperparameterjustering i hele træningsprocesserne er således obligatorisk. Især i ikke-tillidsfulde forbund, sporbarhed og ansvarlighedsprocesser kræver udførelsesintegritet. Når træningsprocessen når de indbyrdes aftalte modeloptimeringskriterier, kan det også være nyttigt at måle mængden af bidrag fra hver deltager, såsom beregningsmæssige ressourcer forbruges, kvaliteten af de data En implikation af FL er, at forskere ikke er i stand til at undersøge data, på hvilke modeller er uddannet til at gøre mening med uventede resultater. Desuden, ved at tage statistiske målinger af deres træningsdata som en del af modeludviklingsarbejdsprocessen skal godkendes af de samarbejdspartnere som ikke krænker privatlivet. Selvom hvert websted vil have adgang til sine egne rådata, kan forbund beslutte at give en slags sikker intra-node visning facilitet til at imødekomme dette behov eller kan give en anden måde at øge forklaringsevnen og fortolkningen af den globale model. 64 Systemarkitektur I modsætning til at køre storskala FL blandt forbrugerenheder som McMahan et al. , er sundhedsplejeinstitutionelle deltagere udstyret med relativt kraftfulde beregningsressourcer og pålidelige netværk med højere gennemsnit, der muliggør træning af større modeller med mange flere lokale træningstrin og deling af flere modeloplysninger mellem noder.Disse unikke egenskaber ved FL i sundhedspleje bringer også udfordringer som at sikre dataintegritet, når man kommunikerer ved hjælp af redundante noder, designe sikre krypteringsmetoder for at forhindre datalækage eller designe passende nodeplanlæggere til at gøre den bedste brug af de distribuerede beregningsanordninger og reducere ledig tid. 9 Administration af en sådan føderation kan realiseres på forskellige måder. I situationer, der kræver den strengeste databeskyttelse mellem parterne, kan træningen operere via en slags "ærlig mægler" -system, hvor en pålidelig tredjepart fungerer som mellemmand og letter adgangen til data. Denne opsætning kræver en uafhængig enhed, der styrer det samlede system, hvilket måske ikke altid er ønskeligt, da det kan involvere yderligere omkostninger og procedurel viskositet. Men det har den fordel, at de nøjagtige interne mekanismer kan abstraheres væk fra kunderne, hvilket gør systemet mere agilt og nemmere at opdatere. I et peer-to-peer-system interagerer hvert websted direkte med nogle eller alle de andre deltagere. Med andre ord er der ingen gateholderfunktion, alle protokoller skal aft Konklusionen ML, og især DL, har ført til en bred vifte af innovationer inden for digital sundhedspleje. Da alle ML-metoder har stor gavn af evnen til at få adgang til data, der nærmer sig den sande globale distribution, er FL en lovende tilgang til at opnå kraftfulde, nøjagtige, sikre, robuste og upartiske modeller. Ved at gøre det muligt for flere parter at træne samarbejdsmæssigt uden behov for at udveksle eller centralisere datasæt, løser FL pænt spørgsmål relateret til fremkomsten af følsomme medicinske data. Som følge heraf kan det åbne nye forsknings- og forretningsveje og har potentiale til at forbedre patientplejen globalt. Men allerede i dag har FL indflydelse på næsten alle interessenter og hele behandlingscyklussen, lige fra forbedret medicin På trods af dette mener vi virkelig, at dens potentielle indvirkning på præcisionsmedicin og i sidste ende forbedring af lægehjælp er meget lovende. 12 Rapportering af sammenfatning Yderligere oplysninger om forskningsdesign findes i linket til denne artikel. Naturforskningsrapport Sammendrag Referencerne LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. , 436 (2015). Nature 521 Wang, F., Casalino, L. P. & Khullar, D. Deep learning in medicine—promise, progress, and challenges. , 293–294 (2019). JAMA Intern. Med. 179 Chartrand, G. et al. Deep learning: a primer for radiologists. , 2113–2131 (2017). Radiographics 37 De Fauw, J. et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. , 1342 (2018). Nat. Med. 24 Sun, C., Shrivastava, A., Singh, S. & Gupta, A. Revisiting unreasonable effectiveness of data in deep learning era. In , 843–852 ( , 2017). Proceedings of the IEEE international conference on computer vision IEEE Van Panhuis, W. G. et al. A systematic review of barriers to data sharing in public health. , 1144 (2014). BMC Public Health 14 Rocher, L., Hendrickx, J. M. & De Montjoye, Y.-A. Estimating the success of re-identifications in incomplete datasets using generative models. , 1–9 (2019). Nat. Commun. 10 Schwarz, C. G. et al. Identification of anonymous mri research participants with face-recognition software. , 1684–1686 (2019). N. Engl. J. Med. 381 McMahan, B., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. In , 1273–1282. (2017). Artificial Intelligence and Statistics https://scholar.google.de/scholar?hl=de&as_sdt=0%2C5&q=Communicationefficient+learning+of+deep+networks+from+decentralized+data&btnG= Li, T., Sahu, A. K., Talwalkar, A. & Smith, V. Federated learning: Challenges, methods, and future directions. , 50–60 (IEEE, 2020). IEEE Signal Processing Magazine 37 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. (TIST) 10 Kairouz, P. et al. Advances and open problems in federated learning. (2019). arXiv preprint arXiv:1912.04977 Lee, J. et al. Privacy-preserving patient similarity learning in a federated environment: development and analysis. , e20 (2018). JMIR Med. Inform. 6 Brisimi, T. S. et al. Federated learning of predictive models from federated electronic health records. , 59–67 (2018). Int. J. Med. Inform. 112 Roy, A. G., Siddiqui, S., Pölsterl, S., Navab, N. & Wachinger, C. Braintorrent: a peer-to-peer environment for decentralized federated learning. (2019). arXiv preprint arXiv:1905.06731 Li, W. et al. Privacy-preserving federated brain tumour segmentation. In , 133–141 (Springer, 2019). International Workshop on Machine Learning in Medical Imaging Sheller, M. J., Reina, G. A., Edwards, B., Martin, J. & Bakas, S. Multi-institutional deep learning modeling without sharing patient data: a feasibility study on brain tumor segmentation. In , 92–104 (Springer, 2018). International MICCAI Brainlesion Workshop Li, X. et al. Multi-site fmri analysis using privacy-preserving federated learning and domain adaptation: abide results. (2020). arXiv preprint arXiv:2001.05647 Huang, L. et al. Patient clustering improves efficiency of federated machine learning to predict mortality and hospital stay time using distributed electronic medical records. , 103291 (2019). J. Biomed. Inform. 99 Xu, J. & Wang, F. Federated learning for healthcare informatics. (2019). arXiv preprint arXiv:1911.06270 Roy, A. & Banerjee, A. Ibm’s merge healthcare acquisitio . (2015) (Accessed 10 February 2020). n https://www.reuters.com/article/us-merge-healthcare-m-a-ibm/ibm-to-buy-merge-healthcare-in-1-billion-deal-idUSKCN0QB1ML20150806 Nhs scotland’s national safe haven. (2015) (Accessed 10 February 2020). https://www.gov.scot/publications/charter-safe-havens-scotland-handling-unconsented-data-national-health-service-patient-records-support-research-statistics/pages/4/ Cuggia, M. & Combes, S. The french health data hub and the german medical informatics initiatives: Two national projects to promote data sharing in healthcare. , 195–202 (2019). Yearbook Med. Informat. 28 Health Data Research UK. (Health Data Research UK, 2020) (Accessed 10 Feb 2020). https://www.hdruk.ac.uk/ Sporns, O., Tononi, G. & Kötter, R. The human connectome: a structural description of the human brain. . , e42, (2005). PLoS Comput. Biol 1 https://doi.org/10.1371/journal.pcbi.0010042 Sudlow, C. et al. Uk biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age. . , e1001779. (2015). PLoS Med 12 https://doi.org/10.1371/journal.pmed.1001779 Clark, K. et al. The cancer imaging archive (tcia): maintaining and operating a public information repository. , 1045–1057 (2013). J. Digit. Imaging. 26 Wang, X. et al. Chestx-ray8: Hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In , 2097–2106 ( , 2017). Proceedings of the IEEE conference on computer vision and pattern recognition IEEE Yan, K., Wang, X., Lu, L. & Summers, R. M. Deeplesion: automated mining of large-scale lesion annotations and universal lesion detection with deep learning. , 036501 (2018). J Med. Imaging. 5 Tomczak, K., Czerwińska, P. & Wiznerowicz, M. The cancer genome atlas (tcga): an immeasurable source of knowledge. , A68 (2015). Contemp. Oncol. 19 Jack Jr., C. R. et al. The alzheimer’s disease neuroimaging initiative (adni): Mri methods. , 685–691 (2008). J. Magn. Reson. Imaging 27 . (2020) (Accessed 24 July 2020). Grand Challenge-a Platform for End-to-end Development of Machine Learning Solutions in Biomedical Imaging https://grand-challenge.org/ Litjens, G. et al. 1399 h&e-stained sentinel lymph node sections of breast cancer patients: the camelyon dataset. , giy065 (2018). GigaScience 7 Menze, B. H. et al. The multimodal brain tumor image segmentation benchmark (brats). , 1993–2024 (2014). IEEE Trans. Med. Imaging 34 Bakas, S. et al. Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the brats challenge. (2018). arXiv preprint arXiv:1811.02629 Bakas, S. et al. Advancing the cancer genome atlas glioma MRI collections with expert segmentation labels and radiomic features. , 170117 (2017). Sci. Data 4 Simpson, A. L. et al. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. (2019). arXiv preprint arXiv:1902.09063 Yeh, F.-C. et al. Quantifying differences and similarities in whole-brain white matter architecture using local connectome fingerprints. , e1005203 (2016). PLoS Comput. Biol. 12 Chang, K. et al. Distributed deep learning networks among institutions for medical imaging. , 945–954 (2018). J. Am. Med. Inform. Assoc. 25 Shokri, R., Stronati, M., Song, C. & Shmatikov, V. Membership inference attacks against machine learning models. In , 3-18 (IEEE, 2017). 2017 IEEE Symposium on Security and Privacy (SP) Sablayrolles, A., Douze, M., Ollivier, Y., Schmid, C. & Jégou, H. White-box vs black-box: Bayes optimal strategies for membership inference. In Chaudhuri, K. & Salakhutdinov, R. (eds) , 5558–5567. (PMLR, 2019). Proceedings of the 36th International Conference on Machine Learning, {ICML} 97 http://proceedings.mlr.press/v97/sablayrolles19a.html Zhang, C., Bengio, S., Hardt, M., Recht, B. & Vinyals, O. Understanding deep learning requires rethinking generalization. In , (OpenReview.net, 2017). 5th International Conference on Learning Representations, {ICLR}. https://openreview.net/forum?id=Sy8gdB9xx Carlini, N., Liu, C., Erlingsson, Ú., Kos, J. & Song, D. The secret sharer: evaluating and testing unintended memorization in neural networks. In Heninger, N. & Traynor, P. (eds) { } ({ } , 267–284. ({USENIX} Association, Santa Clara, CA, USA, 2019). 28th USENIX Security Symposium USENIX Security 19 https://www.usenix.org/conference/usenixsecurity19/presentation/carlini Abadi, M. et al. Deep learning with differential privacy. In , 308–318 (ACM, 2016). Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In , 1310–1321 (ACM, 2015). Proceedings of the 22nd ACM SIGSAC conference on computer and communications security Langlotz, C. P. et al. A roadmap for foundational research on artificial intelligence in medical imaging: from the 2018 nih/rsna/acr/the academy workshop. , 781–791 (2019). Radiology 291 Kim, Y., Sun, J., Yu, H. & Jiang, X. Federated Tensor Factorization for Computational Phenotyping. In . 887–895. (ACM, Halifax, NS, Canada, 2017). Proceedings of the 23rd {ACM} {SIGKDD} International Conference on Knowledge Discoveryand Data Mining https://doi.org/10.1145/3097983.3098118 He, C., Annavaram, M. & Avestimehr, S. Fednas: Federated deep learning via neural architecture search. (2020). https://sites.google.com/view/cvpr20-nas/ Trustworthy federated data analytics (tfda). (2020) (Accessed 28 May 2020). https://tfda.hmsp.center/ Joint Imaging Platform (Jip). (2020) (Accessed 28 May 2020). https://jip.dktk.dkfz.de/jiphomepage/ Medical institutions collaborate to improve mammogram assessment ai. (2020) (Accessed 28 May 2020). https://blogs.nvidia.com/blog/2020/04/15/federated-learning-mammogram-assessment/ Healthchain consortium. (2020) (Accessed 28 May 2020). https://www.substra.ai/en/healthchain-project The federated tumor segmentation (fets) initiative. (2020) (Accessed 28 May 2020). https://www.fets.ai Machine learning ledger orchestration for drug discovery. (2020). Accessed 28 May 2020. https://cordis.europa.eu/project/id/831472 Konečny`, J., McMahan, H. B., Ramage, D. & Richtárik, P. Federated optimization: Distributed machine learning for on-device intelligence. (2016). arXiv preprint arXiv:1610.02527 Lalitha, A., Kilinc, O. C., Javidi, T. & Koushanfar, F. Peer-to-peer federated learning on graphs. (2019). arXiv preprint arXiv:1901.11173 Li, T., Sahu, A. K., Zaheer, M., Sanjabi, M., Talwalkar, A. & Smith, V. Federated optimization in heterogeneous networks. (2018). arXiv preprint arXiv:1812.06127 Zhao, Y. et al. Federated learning with non-iid data. (2018). arxivabs/1806.00582 Li, X., Huang, K., Yang, W., Wang, S. & Zhang, Z. On the convergence of fedavg on non-IID data. (2020). https://openreview.net/forum?id=HJxNAnVtDS Wu, B. et al. P3sgd: patient privacy preserving SGD for regularizing deep CNNs in pathological image classification. In (pp. 2099–2108) (2019). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Zhu, L., Liu, Z. & Han, S. Deep leakage from gradients. In Wallach, H. M. et al. (eds) , 14747–14756. (2019). Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems http://papers.nips.cc/paper/9617-deep-leakage-from-gradients Wang, Z. et al. Beyond inferring class representatives: user-level privacy leakage from federated learning. In 2512–2520. (IEEE, Paris, France, 2019). 2019 {IEEE} Conferenceon Computer Communications, {INFOCOM} https://doi.org/10.1109/INFOCOM.2019.8737416 Hitaj, B., Ateniese, G. & Perez-Cruz, F. Deep models under the gan: information leakage from collaborative deep learning. In , CCS’17, 603–618 (Association for Computing Machinery, New York, NY, USA, 2017). Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security Ghorbani, A. & Zou, J. Data shapley: Equitable valuation of data for machine learning. In (pp. 2242-2251) (2019). International Conference on Machine Learning Anerkendelser Dette arbejde blev støttet af UK Research and Innovation London Medical Imaging & Artificial Intelligence Centre for Value-Based Healthcare, af Wellcome/EPSRC Center for Medical Engineering (WT203148/Z/16/Z), af Wellcome Flagship Programme (WT213038/Z/18/Z), af Intramural Research Programme of the National Institutes of Health (NIH) Clinical Center, af National Cancer Institute of the NIH under prisnummer U01CA242871, af National Institute of Neurological Disorders and Stroke of the NIH under prisnummer R01NS042645, samt af Helmholtz Initiative and Networking Fund (projektet “Trustworthy Federated Data Analytics”) og PRIME-programmet af den tyske akademiske udvekslingstjeneste (DAAD) med midler fra det tyske føderale minist Denne artikel er tilgængelig i naturen under CC by 4.0 Deed (Attribution 4.0 International) licens. Dette papir er Under CC by 4.0 Deed (Attribution 4.0 International) licens. Tilgængelig i naturen