AI proboj koji omogućuje bolnicama da treniraju algoritme bez dijeljenja podataka o pacijentima

Autori : Nicola Rieke Jonny Hancox Wenqi Li Fausto Milletarì Holger R. Roth Shadi Albarqouni Spyridon Bakas Mathieu N. Galtier Bennett A. Landman Klaus Maier-Hein Sébastien Ourselin Micah Sheller Ronald M. Summers Andrew Trask Daguang Xu Maximilian Baust Predsjednik Jorge Cardoso Autori : Nikola Rijeka Jonny Hancox Vanjski Li Fausto Milletarí Holger R. Roth Shadi Albarqouni Spiridon Bakas Mathieu N. Galtier Bennett A. Landman Predsjednik: Klaus Maier-Hein Sébastien Ourselin Micah Sheller Ronald M. Summers Andrej Trač Daguang Xu Maksimilijan Baust Predsjednik Jorge Cardoso Abstrakcija Podatkom upravljano strojno učenje (ML) pojavilo se kao obećavajući pristup za izgradnju točnih i robustnih statističkih modela iz medicinskih podataka, koji se prikupljaju u ogromnim količinama modernim zdravstvenim sustavima. Postojeći medicinski podaci nisu u potpunosti iskorišteni od strane ML prvenstveno zato što sjedi u podatkovnim silosima i zabrinutosti o privatnosti ograničavaju pristup tim podacima. Međutim, bez pristupa dovoljno podataka, ML će biti spriječeno da dosegne svoj puni potencijal i, u konačnici, od prebacivanja iz istraživanja u kliničku praksu. Ovaj članak razmatra ključne čimbenike koji doprinose ovom pitanju, istražuje kako federated learning (FL) može pružiti rješenje za budućnost digitalnog zdravlja i naglašava izazove i razmat Uvod Istraživanje umjetne inteligencije (AI), a posebno napredak u strojnom učenju (ML) i dubokom učenju (DL) Moderne DL modele sadrže milijune parametara koji se trebaju naučiti iz dovoljno velikih kuriranih skupova podataka kako bi se postigla klinička točnost, dok su sigurni, pravični, pravedni i generaliziraju dobro do nevidljivih podataka , , , . 1 2 3 4 5 Na primjer, obuka detektora tumora temeljenog na AI-u zahtijeva veliku bazu podataka koja obuhvaća cijeli spektar mogućih anatomija, patologija i tipova ulaznih podataka. Čak i ako bi anonimizacija podataka mogla zaobići ta ograničenja, sada je dobro shvaćeno da uklanjanje metapodataka kao što su ime pacijenta ili datum rođenja često nije dovoljno za očuvanje privatnosti. Na primjer, moguće je rekonstruirati lice pacijenta iz podataka iz računalne tomografije (CT) ili magnetske rezonancije (MRI). Drugi razlog zašto dijeljenje podataka nije sustavno u zdravstvenoj skrbi je da prikupljanje, kuriranje i održavanje visokokvalitetnog skupa podataka zahtijeva znatno vrijeme, napor i troškove. 6 7 8 Federacijsko učenje (FL) , , je paradigma učenja koja nastoji riješiti problem upravljanja podacima i privatnosti osposobljavanjem algoritama u suradnji bez razmjene samih podataka. , nedavno je stekao privlačnost za zdravstvene aplikacije , , , , , , , FL omogućuje suradnju, npr. u obliku modela konsenzusa, bez premještanja podataka pacijenata izvan zaštitnih zidova institucija u kojima oni žive. umjesto toga, proces ML javlja se lokalno u svakoj instituciji koja sudjeluje i prenose se samo karakteristike modela (npr. parametri, gradienti) kako je prikazano na slici. Nedavna istraživanja pokazala su da modeli obučeni od strane FL-a mogu postići razine performansi usporedive s onima obučene na centraliziranim skupovima podataka i bolje od modela koji vide samo izolirane pojedinačne institucijske podatke. , . 9 10 11 12 13 14 15 16 17 18 19 20 1 16 17 FL agregatni poslužitelj – tipični FL radni tok u kojem federacija učionica prima globalni model, ponavlja svoje djelomično obučene modele na središnji poslužitelj intermitentno za agregiranje, a zatim nastavlja obuku na modelu konsenzusa koji poslužitelj vraća. FL peer-to-peer – alternativna formulacija FL-a u kojoj svaki trening čvor razmjenjuje svoje djelomično obučene modele s nekim ili svim svojim kolegama i svaki čini svoju vlastitu agregaciju. Centralizirano osposobljavanje – opći radni tijek ne-FL osposobljavanja u kojem web-mjesta za prikupljanje podataka doniraju svoje podatke u središnje jezero podataka iz kojeg oni i drugi mogu izvlačiti podatke za lokalno, neovisno osposobljavanje. a b c Uspješna implementacija FL-a mogla bi stoga imati značajan potencijal za omogućavanje precizne medicine na velikoj razini, što bi dovelo do modela koji donose nepristrane odluke, optimalno odražavaju fiziologiju pojedinca i osjetljivi su na rijetke bolesti uz poštovanje pitanja upravljanja i privatnosti. Predviđamo federaliziranu budućnost za digitalno zdravlje i ovim perspektivnim dokumentom dijelimo naše konsenzusno stajalište s ciljem pružanja konteksta i detalja zajednici u vezi s prednostima i utjecajem FL-a za medicinske aplikacije (odjeljak „Medicina utemeljena na podacima zahtijeva federalizirane napore”), kao i naglašavanjem ključnih razmatranja i izazova provedbe FL-a za digitalno zdravlje (odjeljak „Tehničke razmatranja”). Znanstvena medicina zahtijeva federalizirane napore ML, a posebno DL, postaje de facto pristup otkrivanju znanja u mnogim industrijama, ali uspješna implementacija aplikacija zasnovanih na podacima zahtijeva velike i raznolike skupove podataka. međutim, medicinski skupovi podataka su teško dobiti (pododjeljak „Ovisnost o podacima“). FL rješava ovaj problem omogućavanjem suradnje učenja bez centraliziranja podataka (pododjeljak „Obećanje federiranih napora“) i već je našao svoj put digitalnim zdravstvenim aplikacijama (pododjeljak „Trenutni napori FL za digitalno zdravlje“). Ovisnost o podacima Iako je to dobro poznati zahtjev, najmoderniji algoritmi obično se procjenjuju na pažljivo pripremljenim skupovima podataka, koji često potječu samo iz nekoliko izvora. To može uvesti predrasude u kojima demografija (npr. spol, dob) ili tehnička neravnoteža (npr. protokola stjecanja, proizvođač opreme) iskrivljuju predviđanja i nepovoljno utječu na točnost za određene skupine ili lokacije. Potreba za velikim bazama podataka za osposobljavanje AI-a rodila je mnoge inicijative koje nastoje spojiti podatke iz više institucija.Ovi podaci često se skupljaju u takozvane Data Lakes.Ovi su izgrađeni s ciljem iskorištavanja komercijalne vrijednosti podataka, npr. IBM-ova akvizicija Merge Healthcare , ili kao resurs za gospodarski rast i znanstveni napredak, npr. NHS Scotland's National Safe Haven Francuski podatkovni centar za zdravlje Zdravstveni podaci za istraživanje UK . 21 22 23 24 Značajne, iako manje, inicijative uključuju Human Connectome Ujedinjena Kraljevina Biobank Izvor: Cancer Imaging Archive (TCIA) NIH CXR8 NIH DeepLesion Atlas genoma raka (TCGA) Alzheimerova bolest Neuroimaging inicijativa (ADNI) Osim velikih medicinskih izazova Sljedeći Članak CAMELYON izazov Međunarodni izazov za multimodalnu segmentaciju tumora mozga (BraTS) , , Medicinska segmentacija Decathlon Javni medicinski podaci obično su specifični za zadatke ili bolesti i često se objavljuju s različitim stupnjevima ograničenja licenciranja, ponekad ograničavajući njihovo iskorištavanje. 25 26 27 28 29 30 31 32 33 34 35 36 37 Centraliziranje ili objavljivanje podataka, međutim, predstavlja ne samo regulatorne, etičke i pravne izazove, povezane s privatnošću i zaštitom podataka, već i tehničke. Anonimiziranje, kontroliranje pristupa i sigurno prijenos podataka o zdravstvenoj skrbi nije trivijalni, a ponekad i nemoguć zadatak. Isto vrijedi i za genomske podatke i medicinske slike koje ih čine jedinstvenima poput otiska prsta. Stoga, osim ako postupak anonimizacije uništi vjerodostojnost podataka, što ih vjerojatno čini beskorisnima, ne može se isključiti ponovna identifikacija pacijenta ili curenje informacija.Gated access za odobrene korisnike često se predlaže kao pretpostavljeno rješenje za ovaj problem. 7 38 Obećanje federalnih napora Obećanje FL-a je jednostavno – riješiti izazove u pogledu privatnosti i upravljanja podacima omogućavanjem ML-a iz ne-co-located podataka. U FL-u, svaki kontrolor podataka ne samo da definira svoje vlastite procese upravljanja podacima i povezane politike privatnosti, već i kontrolira pristup podacima i ima sposobnost da ga opozove. To uključuje i obuku i fazu validacije. Na taj način, FL može stvoriti nove mogućnosti, npr. omogućavanjem velikih, interinstitucionalnih validacija ili omogućavanjem novih istraživanja o rijetkim bolestima, gdje su stope incidenata niske, a skupovi podataka u svakoj pojedinačnoj ustanovi su previše mali. Premještanje modela na podatke, a ne obrnuto, ima još jednu veliku prednost: visoke dimenzije As depicted in Fig. FL se može realizirati s različitim topologijama i računalnim planovima.Dva najčešća za aplikacije zdravstvene skrbi su putem agregatnog poslužitelja , , Peer to peer pristup , U svim slučajevima, FL implicitno nudi određeni stupanj privatnosti, jer FL sudionici nikada ne pristupaju izravno podacima iz drugih institucija i primaju samo parametre modela koji su agregirani preko nekoliko sudionika. , , , Stoga, mehanizmi kao što su diferencijalna privatnost , ili je predloženo učenje iz šifriranih podataka kako bi se dodatno poboljšala privatnost u FL-u (vidi odjeljak „Tehnička razmatranja“). i FL tehnike su rastuće područje istraživanja , . 2 16 17 18 15 39 40 41 42 43 44 45 46 12 20 FL topologije – komunikacijska arhitektura federacije. Centralizirani: agregatni server koordinira iteracije obuke i prikuplja, agregira i distribuira modele u i iz učionica obuke (Hub & Spoke). Decentralizirani: svaki trening čvor je povezan s jednim ili više kolega, a agregiranje se odvija na svakom čvoru paralelno. Ijerarhijski: federirane mreže mogu se sastojati od nekoliko podfederacija, koje se mogu izgraditi iz mješavine Peer-to-Peer i Aggregation Server federacija ( FL računalne planove – putanje jednog modela preko nekoliko partnera. Sekvencijsko osposobljavanje / cikličko transferno učenje. integrirani server, Peer to peer je to. a b c d e f g Trenutačni napori FL-a za digitalno zdravlje Budući da je FL opća paradigma učenja koja uklanja zahtjev za skupljanje podataka za razvoj modela AI-a, raspon primjena FL-a obuhvaća cijeli AI za zdravstvo. U kontekstu elektroničkih zdravstvenih evidencija (EHR), na primjer, FL pomaže predstavljati i pronaći klinički slične pacijente , , kao i predviđanje hospitalizacije zbog srčanih događaja , smrtnost i ICU vrijeme boravka Primjenjivost i prednosti FL-a također su dokazane u području medicinske slike, za cjelokupnu segmentaciju mozga u MRI-ju. , kao i segmentiranje tumora mozga , Nedavno je ova tehnika korištena za fMRI klasifikaciju kako bi se pronašli pouzdani biomarkeri povezani s bolestima. i predloženo kao obećavajući pristup u kontekstu COVID-19 . 13 47 14 19 15 16 17 18 48 Važno je napomenuti da napori FL-a zahtijevaju sporazume kako bi se definirali opseg, cilj i tehnologije koje se koriste, a koje, budući da su još uvijek nove, može biti teško utvrditi. To uključuje konzorcije koji nastoje napredovati. istraživanja, kao što je projekt Trustworthy Federated Data Analytics (TFDA) Zajednička platforma za slikanje njemačkog Konzorcija za rak , koji omogućuju decentralizirana istraživanja diljem njemačkih istraživačkih institucija za medicinsku sliku. Drugi primjer je međunarodna istraživačka suradnja koja koristi FL za razvoj modela AI za procjenu mamografija Studija je pokazala da su modeli generirani FL-om nadmašili one obučene na podacima jednog instituta i bili su generalizabilniji, tako da su i dalje dobro funkcionirali na podacima drugih instituta. akademska 49 50 51 Povezivanjem zdravstvenih ustanova, koje nisu ograničene na istraživačke centre, FL može imati izravnu impact. The on-going HealthChain project , na primjer, nastoji razviti i primijeniti FL okvir u četiri bolnice u Francuskoj. Ovo rješenje generira zajedničke modele koji mogu predvidjeti odgovor na liječenje pacijenata s rakom dojke i melanomom. To pomaže onkologima da utvrde najučinkovitiji tretman za svakog pacijenta iz njihovih histoloških slajdova ili dermatoskopskih slika. Još jedan veliki napor je inicijativa Federated Tumour Segmentation (FeTS) , koja je međunarodna federacija od 30 posvećenih zdravstvenih ustanova koristeći okvir FL otvorenog koda s grafičkim korisničkim sučeljem. cilj je poboljšati otkrivanje granica tumora, uključujući moždani gliom, tumore dojke, tumore jetre i lezije kostiju od višestrukih bolesnika s mielomom. Klinika 52 53 Another area of impact is within istraživanje i prijevod. FL omogućuje zajedničko istraživanje čak i za konkurencijske tvrtke.U tom kontekstu, jedna od najvećih inicijativa je projekt Melloddy To je projekt kojim se nastoji implementirati multi-task FL u skupovima podataka 10 farmaceutskih tvrtki.Treniranjem zajedničkog prediktivnog modela, koji utječe na to kako se kemijska spojeva vežu za proteine, partneri namjeravaju optimizirati proces otkrivanja lijekova bez otkrivanja svojih vrlo vrijednih internih podataka. industrijski 54 Utjecaj na dionike FL obuhvaća promjenu paradigme od centraliziranih jezera podataka i važno je razumjeti njegov utjecaj na različite dionike u FL ekosustavu. Kliničari Kliničari su obično izloženi podskupini stanovništva na temelju njihove lokacije i demografskog okruženja, što može uzrokovati pristrasne pretpostavke o vjerojatnosti određenih bolesti ili njihovoj međusobnoj povezanosti. Korištenjem sustava zasnovanih na ML-u, npr. kao drugog čitatelja, oni mogu povećati svoju stručnu stručnost s stručnim znanjem drugih institucija, osiguravajući dosljednost dijagnoze koja danas nije postignuta. Dok se to primjenjuje na sustav zasnovan na ML-u općenito, sustavi obučeni na federacijski način potencijalno mogu donijeti čak i manje pristrasne odluke i veću osjetljivost na rijetke slučajeve jer su vjerojatno bili izloženi potpunijoj distribuciji podataka. Međutim, to zahtijeva Pacijenti Pacijenti se obično liječe lokalno. Uspostavljanje FL-a na globalnoj razini moglo bi osigurati visoku kvalitetu kliničkih odluka bez obzira na lokaciju liječenja. Posebno, pacijenti koji zahtijevaju medicinsku njegu u udaljenim područjima mogli bi imati koristi od istih visokokvalitetnih ML-a koje su dostupne u bolnicama s velikim brojem slučajeva. Isto vrijedi i za rijetke ili zemljopisno rijetke bolesti, koje će vjerojatno imati blaže posljedice ako se mogu napraviti brže i točnije dijagnoze. Bolnice i prakse Bolnice i prakse mogu ostati u potpunoj kontroli i posjedu svojih podataka o pacijentima s potpunom sljedivosti pristupa podacima, ograničavajući rizik od zlouporabe od strane trećih strana. Međutim, to će zahtijevati ulaganje u lokalnu računalnu infrastrukturu ili privatno pružanje usluga u oblaku i pridržavanje standardiziranih i sinoptičkih formata podataka tako da ML modeli mogu biti usavršeno obučeni i ocijenjeni. Istraživači i AI developeri Istraživači i programeri umjetne inteligencije imaju koristi od pristupa potencijalno velikoj zbirci podataka u stvarnom svijetu, što će sigurno utjecati na manje istraživačke laboratorije i start-up tvrtke.Na taj način, resursi mogu biti usmjereni na rješavanje kliničkih potreba i povezanih tehničkih problema, a ne na oslanjanje na ograničenu opskrbu otvorenih skupova podataka. , , FL-based razvoj također podrazumijeva da istraživač ili AI programer ne može istražiti ili vizualizirati sve podatke na kojima se model trenira, npr. nije moguće pogledati pojedinačni slučaj neuspjeha kako bi se razumjelo zašto trenutni model loše radi na njemu. 11 12 20 Dobavljači zdravstvenih usluga Pružatelji zdravstvenih usluga u mnogim zemljama pogođeni su kontinuiranim promjenom paradigme od volumena, tj. na temelju naknade za uslugu, do zdravstvene skrbi zasnovane na vrijednosti, što je, pak, snažno povezano s uspješnim uspostavljanjem precizne medicine.To se ne odnosi na promicanje skupljih individualiziranih terapija, već na postizanje boljih rezultata ranije kroz fokusiraniji tretman, čime se smanjuju troškovi. Proizvođači Proizvođači softvera i hardvera u zdravstvenoj skrbi također bi mogli imati koristi od FL-a, budući da kombiniranje učenja iz mnogih uređaja i aplikacija, bez otkrivanja informacija specifičnih za pacijenta, može olakšati kontinuiranu validaciju ili poboljšanje njihovih sustava zasnovanih na ML-u. Tehnička razmatranja FL je možda najpoznatiji iz rada Konečnỳ et al. , ali različite druge definicije su predložene u literaturi , , , A FL workflow (Fig. ) može se realizirati kroz različite topologije i računalne planove (Fig. U ovom ćemo odjeljku detaljnije razmotriti što je FL, kao i istaknuti ključne izazove i tehničke razmatranja koja nastaju prilikom primjene FL u digitalnom zdravlju. 55 9 11 12 20 1 2 Definicija federaliziranog učenja FL je paradigma učenja u kojoj više strana trenira kolaborativno bez potrebe za razmjenom ili centraliziranjem skupova podataka. lokalni gubici, izračunani iz privatnih podataka , koji boravi kod pojedinaca uključenih stranaka i nikada nije podijeljen među njima: K Xk Gdje > 0 denote the respective weight coefficients. WK U praksi, svaki sudionik obično dobiva i rafinira model globalnog konsenzusa provodeći nekoliko krugova optimizacije lokalno i prije dijeljenja ažuriranja, bilo izravno ili putem parametarnog poslužitelja. ) , Stvarni proces agregiranja parametara ovisi o mrežnoj topologiji, jer čvorovi mogu biti segregirani u pod-mreže zbog zemljopisnih ili pravnih ograničenja (vidi Sl. ). strategije agregiranja mogu se oslanjati na jedan agregirajući čvor (modeli središta i govornika), ili na više čvorova bez ikakve centralizacije. , Primjer centralizirane FL agregacije nalazi se u Algoritmu 1. – Napomena: strategije agregacije ne zahtijevaju nužno informacije o punom ažuriranju modela; klijenti mogu odlučiti dijeliti samo podskup parametara modela radi smanjenja komunikacije, osiguravanja boljeg očuvanja privatnosti. ili proizvoditi multi-task algoritme učenja koji imaju samo dio njihovih parametara naučio na federirani način. 1 9 12 2 15 56 10 A unifying framework enabling various training schemes may disentangle compute resources (data and servers) from the Kao što je prikazano u fig. Potonji definira putanje modela kroz nekoliko partnera, koji će biti obučeni i ocijenjeni na specifičnim skupovima podataka. Računalni plan 2 Izazovi i razmatranja Unatoč prednostima FL-a, ne rješava sva pitanja koja su svojstvena učenju o medicinskim podacima.Uspješno modeliranje još uvijek ovisi o čimbenicima kao što su kvaliteta podataka, predrasude i standardizacija Ta se pitanja moraju riješiti za federalizirane i ne-federalizirane napore učenja putem odgovarajućih mjera, kao što su pažljiv dizajn studija, zajednički protokoli za prikupljanje podataka, strukturirano izvješćivanje i sofisticirane metodologije za otkrivanje predrasuda i skrivene stratifikacije.U nastavku dodirujemo ključne aspekte FL-a koji su od posebne važnosti kada se primjenjuju na digitalno zdravlje i moraju se uzeti u obzir prilikom uspostave FL-a. , , . 2 11 12 20 Heterogenost podataka Medicinski podaci su posebno raznoliki – ne samo zbog raznolikosti modaliteta, dimenzionalnosti i karakteristika općenito, već čak i unutar specifičnog protokola zbog čimbenika kao što su razlike u nabavi, brand medicinskog uređaja ili lokalna demografija. FL može pomoći u rješavanju određenih izvora predrasuda kroz potencijalno povećanu raznolikost izvora podataka, ali nehomogena distribucija podataka predstavlja izazov za FL algoritme i strategije, jer mnogi pretpostavljaju neovisno i identično raspodijeljene (IID) podatke među sudionicima. Sposobnost neuspjeha u tim uvjetima , , , djelomično poražavajući samu svrhu strategija suradnje u učenju. nedavni rezultati, međutim, ukazuju na to da je FL obuka još uvijek izvediva , čak i ako medicinski podaci nisu ravnomjerno raspodijeljeni među institucijama , ili uključuje lokalni bias Istraživanje koje se bavi ovim problemom uključuje, na primjer, Strategija dijeljenja podataka i FL s prilagodbom domene Drugi izazov je da heterogenost podataka može dovesti do situacije u kojoj globalno optimalno rješenje možda nije optimalno za pojedinačnog lokalnog sudionika. Sljedeći 9 9 57 58 59 16 17 51 FedProx 57 58 18 Privatnost i sigurnost Zdravstveni podaci su vrlo osjetljivi i moraju se zaštititi prema potrebi, slijedeći odgovarajuće postupke povjerljivosti. stoga, neke od ključnih razmatranja su kompromisi, strategije i preostali rizici u pogledu potencijala zaštite privatnosti FL-a. Privatnost vs. performanse: Važno je napomenuti da FL ne rješava sva potencijalna pitanja privatnosti i – slično ML algoritmima općenito – uvijek će nositi neke rizike. Međutim, postoji kompromis u smislu performansi i ove tehnike mogu utjecati, na primjer, na točnost konačnog modela. Nadalje, buduće tehnike i/ili pomoćni podaci mogli bi se upotrijebiti za ugrožavanje modela koji se ranije smatrao niskim rizikom. 12 10 Razina povjerenja: Široko govoreći, sudionici mogu ući u dvije vrste FL suradnje: – za FL konzorcije u kojima se sve strane smatraju pouzdanim i obvezuju se provedivim sporazumom o suradnji, možemo ukloniti mnoge od više nepovoljnih motivacija, kao što su namjerni pokušaji ekstrakcije osjetljivih informacija ili namjerno narušavanje modela. Povjerenje U FL sustavima koji djeluju u većim razmjerima, može biti nepraktično uspostaviti izvršivi sporazum o suradnji.Neki klijenti mogu namjerno pokušati smanjiti performanse, spustiti sustav ili izvlačiti informacije od drugih strana.Stoga će biti potrebne sigurnosne strategije za ublažavanje tih rizika, kao što su napredna šifriranje podnošenja modela, sigurna autentifikacija svih strana, sljedivost akcija, diferencijalna privatnost, sustavi provjere, cjelovitost izvršenja, povjerljivost modela i zaštita od napada protivnika. Nepovjerenje Proljev informacija: Prema definiciji, FL sustavi izbjegavaju dijeljenje podataka o zdravstvenoj skrbi među sudjelujućim institucijama. međutim, dijeljene informacije još uvijek mogu neizravno izložiti privatne podatke koji se koriste za lokalno osposobljavanje, npr. modelom inverzije od modela ažuriranja, sami gradienti or adversarial attacks , FL se razlikuje od tradicionalnog treninga u tome što je proces treninga izložen višestrukim strankama, čime se povećava rizik od curenja putem reverznog inženjeringa ako protivnici mogu promatrati promjene modela tijekom vremena, promatrati određene ažuriranja modela (tj. ažuriranje jedne institucije) ili manipulirati modelom (npr. inducirati dodatnu memorizaciju od strane drugih kroz gradient-ascent-style napade). , i osiguravanje odgovarajuće diferencijalne privatnosti , može biti potrebno i još uvijek je aktivno područje istraživanja . 60 61 62 63 16 18 44 12 Sljedivost i odgovornost Kao i kod svih sigurnosno-kritičnih primjena, reproduktivnost sustava važna je za FL u zdravstvenoj skrbi. Za razliku od centraliziranog osposobljavanja, FL zahtijeva višestruko računanje u okruženjima koja pokazuju znatnu raznolikost u pogledu hardvera, softvera i mreža. Sledljivost svih sustavnih sredstava, uključujući povijest pristupa podacima, konfiguracije osposobljavanja i prilagođavanje hiperparametra tijekom procesa osposobljavanja, stoga je obvezna. Posebno u ne pouzdanim federacijama, sljedivost i procesi odgovornosti zahtijevaju cjelovitost izvršenja. Nakon što proces osposobljavanja dosegne uzajamno dogovorene kriterije za optimizaciju modela, također može biti korisno mjeriti iznos doprinosa Jedan od implikacija FL-a je da istraživači nisu u stanju istražiti podatke na temelju kojih su modeli obučeni kako bi razumjeli neočekivane rezultate. Štoviše, uzimanje statističkih mjerenja njihovih podataka o obuci kao dijela radnog toka razvoja modela morat će biti odobrena od strane suradnika kao da ne krši privatnost. Iako će svaka stranica imati pristup vlastitim sirovim podacima, federacije mogu odlučiti pružiti neku vrstu sigurne unutarnje lokacije za gledanje kako bi zadovoljile tu potrebu ili mogu pružiti neki drugi način za povećanje objašnjenja i tumačenja globalnog modela. 64 Arhitektura sustava Za razliku od vođenja velikih FL među potrošačkim uređajima kao što su McMahan et al. Učesnici u zdravstvenim ustanovama opremljeni su relativno moćnim računalnim resursima i pouzdanim mrežama s višim prijenosom koje omogućuju obuku većih modela s mnogo više lokalnih koraka obuke i dijeljenje više informacija o modelu između čvorova.Te jedinstvene značajke FL-a u zdravstvenoj skrbi također donose izazove kao što su osiguravanje integriteta podataka prilikom komunikacije pomoću redundantnih čvorova, dizajniranje sigurnih metoda šifriranja kako bi se spriječilo curenje podataka ili dizajniranje odgovarajućih rasporednika čvorova kako bi se najbolje iskoristili distribuirani računalni uređaji i smanjilo vrijeme praznine. 9 Administracija takve federacije može se realizirati na različite načine. U situacijama koje zahtijevaju najstrožu privatnost podataka između stranaka, obuka može djelovati putem neke vrste "poštenog brokera" sustava, u kojem pouzdana treća strana djeluje kao posrednik i olakšava pristup podacima. Ova konfiguracija zahtijeva neovisnu entitetu koja kontrolira cjelokupni sustav, što ne može uvijek biti poželjno, jer može uključivati dodatne troškove i proceduralnu viskoznost. Međutim, ima prednost da se precizni unutarnji mehanizmi mogu odvojiti od klijenata, čineći sustav agilnijim i jednostavnijim za ažuriranje. U sistemu peer-to-peer svaki web-mjesto izravno komunicira s nekim ili svim drugim sudionicima. Drug Zaključak ML, a posebno DL, dovelo je do širokog spektra inovacija u području digitalne zdravstvene skrbi. Budući da sve metode ML imaju velike koristi od mogućnosti pristupa podacima koji se približavaju istinskoj globalnoj distribuciji, FL je obećavajući pristup za dobivanje moćnih, točnih, sigurnih, robustnih i nepristranih modela. Omogućavanjem višestrukih strana da treniraju zajednički bez potrebe za razmjenom ili centraliziranjem skupova podataka, FL čvrsto rješava probleme povezane s izlaskom osjetljivih medicinskih podataka. Kao rezultat, može otvoriti nove istraživačke i poslovne putove i ima potencijal za poboljšanje skrbi za pacijente na globalnoj razini. Međutim, već danas, FL ima utjecaj na gotovo sve dionike i cijeli ciklus liječenja, od pobolj Unatoč tome, istinski vjerujemo da je njegov potencijalni utjecaj na preciznu medicinu i na kraju poboljšanje medicinske skrbi vrlo obećavajući. 12 Izvješće sažetak Dodatne informacije o istraživanju dostupne su u Povezano s ovim člankom. Izvješće o istraživanju prirode referenciji LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. , 436 (2015). Nature 521 Wang, F., Casalino, L. P. & Khullar, D. Deep learning in medicine—promise, progress, and challenges. , 293–294 (2019). JAMA Intern. Med. 179 Chartrand, G. et al. Deep learning: a primer for radiologists. , 2113–2131 (2017). Radiographics 37 De Fauw, J. et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. , 1342 (2018). Nat. Med. 24 Sun, C., Shrivastava, A., Singh, S. & Gupta, A. Revisiting unreasonable effectiveness of data in deep learning era. In , 843–852 ( , 2017). Proceedings of the IEEE international conference on computer vision IEEE Van Panhuis, W. G. et al. A systematic review of barriers to data sharing in public health. , 1144 (2014). BMC Public Health 14 Rocher, L., Hendrickx, J. M. & De Montjoye, Y.-A. Estimating the success of re-identifications in incomplete datasets using generative models. , 1–9 (2019). Nat. Commun. 10 Schwarz, C. G. et al. Identification of anonymous mri research participants with face-recognition software. , 1684–1686 (2019). N. Engl. J. Med. 381 McMahan, B., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. In , 1273–1282. (2017). Artificial Intelligence and Statistics https://scholar.google.de/scholar?hl=de&as_sdt=0%2C5&q=Communicationefficient+learning+of+deep+networks+from+decentralized+data&btnG= Li, T., Sahu, A. K., Talwalkar, A. & Smith, V. Federated learning: Challenges, methods, and future directions. , 50–60 (IEEE, 2020). IEEE Signal Processing Magazine 37 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. (TIST) 10 Kairouz, P. et al. Advances and open problems in federated learning. (2019). arXiv preprint arXiv:1912.04977 Lee, J. et al. Privacy-preserving patient similarity learning in a federated environment: development and analysis. , e20 (2018). JMIR Med. Inform. 6 Brisimi, T. S. et al. Federated learning of predictive models from federated electronic health records. , 59–67 (2018). Int. J. Med. Inform. 112 Roy, A. G., Siddiqui, S., Pölsterl, S., Navab, N. & Wachinger, C. Braintorrent: a peer-to-peer environment for decentralized federated learning. (2019). arXiv preprint arXiv:1905.06731 Li, W. et al. Privacy-preserving federated brain tumour segmentation. In , 133–141 (Springer, 2019). International Workshop on Machine Learning in Medical Imaging Sheller, M. J., Reina, G. A., Edwards, B., Martin, J. & Bakas, S. Multi-institutional deep learning modeling without sharing patient data: a feasibility study on brain tumor segmentation. In , 92–104 (Springer, 2018). International MICCAI Brainlesion Workshop Li, X. et al. Multi-site fmri analysis using privacy-preserving federated learning and domain adaptation: abide results. (2020). arXiv preprint arXiv:2001.05647 Huang, L. et al. Patient clustering improves efficiency of federated machine learning to predict mortality and hospital stay time using distributed electronic medical records. , 103291 (2019). J. Biomed. Inform. 99 Xu, J. & Wang, F. Federated learning for healthcare informatics. (2019). arXiv preprint arXiv:1911.06270 Roy, A. & Banerjee, A. Ibm’s merge healthcare acquisitio . (2015) (Accessed 10 February 2020). n https://www.reuters.com/article/us-merge-healthcare-m-a-ibm/ibm-to-buy-merge-healthcare-in-1-billion-deal-idUSKCN0QB1ML20150806 Nhs scotland’s national safe haven. (2015) (Accessed 10 February 2020). https://www.gov.scot/publications/charter-safe-havens-scotland-handling-unconsented-data-national-health-service-patient-records-support-research-statistics/pages/4/ Cuggia, M. & Combes, S. The french health data hub and the german medical informatics initiatives: Two national projects to promote data sharing in healthcare. , 195–202 (2019). Yearbook Med. Informat. 28 Health Data Research UK. (Health Data Research UK, 2020) (Accessed 10 Feb 2020). https://www.hdruk.ac.uk/ Sporns, O., Tononi, G. & Kötter, R. The human connectome: a structural description of the human brain. . , e42, (2005). PLoS Comput. Biol 1 https://doi.org/10.1371/journal.pcbi.0010042 Sudlow, C. et al. Uk biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age. . , e1001779. (2015). PLoS Med 12 https://doi.org/10.1371/journal.pmed.1001779 Clark, K. et al. The cancer imaging archive (tcia): maintaining and operating a public information repository. , 1045–1057 (2013). J. Digit. Imaging. 26 Wang, X. et al. Chestx-ray8: Hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In , 2097–2106 ( , 2017). Proceedings of the IEEE conference on computer vision and pattern recognition IEEE Yan, K., Wang, X., Lu, L. & Summers, R. M. Deeplesion: automated mining of large-scale lesion annotations and universal lesion detection with deep learning. , 036501 (2018). J Med. Imaging. 5 Tomczak, K., Czerwińska, P. & Wiznerowicz, M. The cancer genome atlas (tcga): an immeasurable source of knowledge. , A68 (2015). Contemp. Oncol. 19 Jack Jr., C. R. et al. The alzheimer’s disease neuroimaging initiative (adni): Mri methods. , 685–691 (2008). J. Magn. Reson. Imaging 27 . (2020) (Accessed 24 July 2020). Grand Challenge-a Platform for End-to-end Development of Machine Learning Solutions in Biomedical Imaging https://grand-challenge.org/ Litjens, G. et al. 1399 h&e-stained sentinel lymph node sections of breast cancer patients: the camelyon dataset. , giy065 (2018). GigaScience 7 Menze, B. H. et al. The multimodal brain tumor image segmentation benchmark (brats). , 1993–2024 (2014). IEEE Trans. Med. Imaging 34 Bakas, S. et al. Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the brats challenge. (2018). arXiv preprint arXiv:1811.02629 Bakas, S. et al. Advancing the cancer genome atlas glioma MRI collections with expert segmentation labels and radiomic features. , 170117 (2017). Sci. Data 4 Simpson, A. L. et al. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. (2019). arXiv preprint arXiv:1902.09063 Yeh, F.-C. et al. Quantifying differences and similarities in whole-brain white matter architecture using local connectome fingerprints. , e1005203 (2016). PLoS Comput. Biol. 12 Chang, K. et al. Distributed deep learning networks among institutions for medical imaging. , 945–954 (2018). J. Am. Med. Inform. Assoc. 25 Shokri, R., Stronati, M., Song, C. & Shmatikov, V. Membership inference attacks against machine learning models. In , 3-18 (IEEE, 2017). 2017 IEEE Symposium on Security and Privacy (SP) Sablayrolles, A., Douze, M., Ollivier, Y., Schmid, C. & Jégou, H. White-box vs black-box: Bayes optimal strategies for membership inference. In Chaudhuri, K. & Salakhutdinov, R. (eds) , 5558–5567. (PMLR, 2019). Proceedings of the 36th International Conference on Machine Learning, {ICML} 97 http://proceedings.mlr.press/v97/sablayrolles19a.html Zhang, C., Bengio, S., Hardt, M., Recht, B. & Vinyals, O. Understanding deep learning requires rethinking generalization. In , (OpenReview.net, 2017). 5th International Conference on Learning Representations, {ICLR}. https://openreview.net/forum?id=Sy8gdB9xx Carlini, N., Liu, C., Erlingsson, Ú., Kos, J. & Song, D. The secret sharer: evaluating and testing unintended memorization in neural networks. In Heninger, N. & Traynor, P. (eds) { } ({ } , 267–284. ({USENIX} Association, Santa Clara, CA, USA, 2019). 28th USENIX Security Symposium USENIX Security 19 https://www.usenix.org/conference/usenixsecurity19/presentation/carlini Abadi, M. et al. Deep learning with differential privacy. In , 308–318 (ACM, 2016). Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In , 1310–1321 (ACM, 2015). Proceedings of the 22nd ACM SIGSAC conference on computer and communications security Langlotz, C. P. et al. A roadmap for foundational research on artificial intelligence in medical imaging: from the 2018 nih/rsna/acr/the academy workshop. , 781–791 (2019). Radiology 291 Kim, Y., Sun, J., Yu, H. & Jiang, X. Federated Tensor Factorization for Computational Phenotyping. In . 887–895. (ACM, Halifax, NS, Canada, 2017). Proceedings of the 23rd {ACM} {SIGKDD} International Conference on Knowledge Discoveryand Data Mining https://doi.org/10.1145/3097983.3098118 He, C., Annavaram, M. & Avestimehr, S. Fednas: Federated deep learning via neural architecture search. (2020). https://sites.google.com/view/cvpr20-nas/ Trustworthy federated data analytics (tfda). (2020) (Accessed 28 May 2020). https://tfda.hmsp.center/ Joint Imaging Platform (Jip). (2020) (Accessed 28 May 2020). https://jip.dktk.dkfz.de/jiphomepage/ Medical institutions collaborate to improve mammogram assessment ai. (2020) (Accessed 28 May 2020). https://blogs.nvidia.com/blog/2020/04/15/federated-learning-mammogram-assessment/ Healthchain consortium. (2020) (Accessed 28 May 2020). https://www.substra.ai/en/healthchain-project The federated tumor segmentation (fets) initiative. (2020) (Accessed 28 May 2020). https://www.fets.ai Machine learning ledger orchestration for drug discovery. (2020). Accessed 28 May 2020. https://cordis.europa.eu/project/id/831472 Konečny`, J., McMahan, H. B., Ramage, D. & Richtárik, P. Federated optimization: Distributed machine learning for on-device intelligence. (2016). arXiv preprint arXiv:1610.02527 Lalitha, A., Kilinc, O. C., Javidi, T. & Koushanfar, F. Peer-to-peer federated learning on graphs. (2019). arXiv preprint arXiv:1901.11173 Li, T., Sahu, A. K., Zaheer, M., Sanjabi, M., Talwalkar, A. & Smith, V. Federated optimization in heterogeneous networks. (2018). arXiv preprint arXiv:1812.06127 Zhao, Y. et al. Federated learning with non-iid data. (2018). arxivabs/1806.00582 Li, X., Huang, K., Yang, W., Wang, S. & Zhang, Z. On the convergence of fedavg on non-IID data. (2020). https://openreview.net/forum?id=HJxNAnVtDS Wu, B. et al. P3sgd: patient privacy preserving SGD for regularizing deep CNNs in pathological image classification. In (pp. 2099–2108) (2019). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Zhu, L., Liu, Z. & Han, S. Deep leakage from gradients. In Wallach, H. M. et al. (eds) , 14747–14756. (2019). Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems http://papers.nips.cc/paper/9617-deep-leakage-from-gradients Wang, Z. et al. Beyond inferring class representatives: user-level privacy leakage from federated learning. In 2512–2520. (IEEE, Paris, France, 2019). 2019 {IEEE} Conferenceon Computer Communications, {INFOCOM} https://doi.org/10.1109/INFOCOM.2019.8737416 Hitaj, B., Ateniese, G. & Perez-Cruz, F. Deep models under the gan: information leakage from collaborative deep learning. In , CCS’17, 603–618 (Association for Computing Machinery, New York, NY, USA, 2017). Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security Ghorbani, A. & Zou, J. Data shapley: Equitable valuation of data for machine learning. In (pp. 2242-2251) (2019). International Conference on Machine Learning Acknowledgements Ovaj rad podržao je Odjel za istraživanje i inovacije London Medical Imaging & Artificial Intelligence Centre for Value-Based Healthcare, Wellcome/EPSRC Centre for Medical Engineering (WT203148/Z/16/Z), Wellcome Flagship Programme (WT213038/Z/18/Z), Intramural Research Programme of the National Institutes of Health (NIH) Clinical Center, National Cancer Institute of the NIH under award number U01CA242871, National Institute of Neurological Disorders and Stroke of the NIH under award number R01NS042645, kao i Helmholtz Initiative and Networking Fund (projekt "Trustworthy Federated Data Analytics") i PRIME program njemačke akademske razmjene (DAAD) s sredstvima njemačkog Federalnog ministarstva za obrazovanje i istraživanje (BMBF). Ovaj članak je dostupan u prirodi pod licencom CC by 4.0 Deed (Attribution 4.0 International). Ovaj članak je dostupan u prirodi pod licencom CC by 4.0 Deed (Attribution 4.0 International).