AI pārsteigums, kas ļauj slimnīcām apmācīt algoritmus, nedalot pacientu datus

Autori : Nicola Rieke Jonny Hancox Vīrietis Li Fausts Milletārs Holgers R. Roths Shadi Albarqouni Spiridons Bakas Matīss N. Galtier Bennett A. Landman Klaus Maier-Hein Sébastien Ourselin Micah Sheller Ronald M. Summers Andrew Trask Daguang Xu Maximilian Baust M. Jorge Cardoso Autori : Nikolaja Riekstiņa Džonijs Hankox Vīrietis Li Fausts Milletārs Holgers R. Roths Alūksnes novada pašvaldība Spiridons Bakas Matīss N. Galtier Bennets A. Landmans Klaus Maier-Heins Sébastien Ourselin Mika Šellere Ronalds M. Summers Andrejs Trasks Dāvids Xu Maksimālijs Bausts Juris Kārkliņš Abstraktā Datu vadīta mašīntulkošana (ML) ir parādījusies kā daudzsološa pieeja, lai izveidotu precīzus un izturīgus statistikas modeļus no medicīniskajiem datiem, kurus mūsdienu veselības aprūpes sistēmas apkopo milzīgos apjomos. esošos medicīniskos datus ML neizmanto pilnībā, galvenokārt tāpēc, ka tā atrodas datu silos un privātuma bažas ierobežo piekļuvi šiem datiem. Tomēr bez piekļuves pietiekamiem datiem ML tiks novērsta tā pilna potenciāla sasniegšana un galu galā pāreja no pētniecības uz klīnisko praksi. Šis dokuments ņem vērā galvenos faktorus, kas veicina šo problēmu, izpēta, kā federēta mācīšanās (FL) var sniegt risinājumu digitālās veselības nākotnei un Ievads Mākslīgā intelekta (AI) izpēte un jo īpaši mašīntulkošanas (ML) un dziļas mācīšanās (DL) sasniegumi Mūsdienu DL modeļi ietver miljonus parametru, kas jāapgūst no pietiekami lieliem kurētiem datu kopumiem, lai sasniegtu klīnisko precizitāti, vienlaikus ir droši, taisnīgi, taisnīgi un vispārina labi līdz neredzamiem datiem , , , . 1 2 3 4 5 Piemēram, apmācībai ar AI balstītu audzēju detektoru ir nepieciešama liela datu bāze, kas aptver visu iespējamo anatomiju, patoloģiju un datu tipu spektru.Dati kā šis ir grūti iegūt, jo veselības dati ir ļoti jutīgi un to izmantošana ir stingri regulēta Pat ja datu anonimizācija varētu apiet šos ierobežojumus, tagad ir labi saprotams, ka metadatu, piemēram, pacienta vārda vai dzimšanas datuma noņemšana bieži vien nav pietiekama, lai saglabātu privātumu. Piemēram, ir iespējams rekonstruēt pacienta seju no datortomogrāfijas (CT) vai magnētiskās rezonanses attēlveidošanas (MRI) datiem. Vēl viens iemesls, kāpēc datu koplietošana nav sistemātiska veselības aprūpē, ir tas, ka augstas kvalitātes datu kopas vākšana, apkopošana un uzturēšana prasa ievērojamu laiku, pūles un izdevumus. 6 7 8 Federālā mācīšanās (FL) , , ir mācīšanās paradigma, kas cenšas risināt datu pārvaldības un privātuma problēmu, apmācot algoritmus sadarbībā, neapmainot sevi ar datiem. , tas nesen ieguva vilcienu veselības aprūpes lietojumprogrammām , , , , , , , FL ļauj iegūt ieskatu sadarbībā, piemēram, konsensa modeļa veidā, nepārvietojot pacientu datus ārpus iestāžu, kurās viņi dzīvo, ugunsmūrām. Jaunākie pētījumi ir parādījuši, ka FL apmācīti modeļi var sasniegt veiktspējas līmeņus, kas ir salīdzināmi ar tiem, kas apmācīti centralizēti pārvaldītajos datu kopos, un ir labāki par modeļiem, kas redz tikai izolētus vieninstitucionālos datus. , . 9 10 11 12 13 14 15 16 17 18 19 20 1 16 17 FL agregācijas serveris - tipiska FL darba plūsma, kurā apmācību mezglu federācija saņem globālo modeli, atkārtoti iesniedz savus daļēji apmācītos modeļus centrālajam serverim, un pēc tam turpina apmācību par konsensa modeli, ko serveris atgriež. FL peer to peer — alternatīva formulēšana FL, kurā katrs apmācības mezgls apmainās ar daļēji apmācītajiem modeļiem ar dažiem vai visiem saviem vienaudžiem un katrs veic savu agregāciju. Centralizēta apmācība — vispārējā ne-FL apmācības darba plūsma, kurā datu ieguves vietnes ziedo savus datus centrālam datu ezeram, no kura viņi un citi var iegūt datus vietējai, neatkarīgai apmācībai. a b c Veiksmīga FL ieviešana tādējādi varētu būt nozīmīgs potenciāls, lai nodrošinātu precizitātes medicīnu lielā mērogā, radot modeļus, kas rada objektīvus lēmumus, optimāli atspoguļo indivīda fizioloģiju un ir jutīgi pret retām slimībām, vienlaikus ievērojot pārvaldības un privātuma jautājumus. Mēs redzam federalizētu nākotni digitālajai veselībai, un ar šo perspektīvu mēs kopīgojam savu konsensusa viedokli ar mērķi sniegt kontekstu un detalizētu informāciju sabiedrībai par FL ieguvumiem un ietekmi medicīnas lietojumprogrammās (sekcija “Datu vadīta medicīna prasa federalizētus centienus”), kā arī izceļot galvenos apsvērumus un izaicinājumus, īstenojot FL digitālajai veselībai (sekcija “Tehniskie apsvērumi”). Datu vadīta medicīna prasa federētus centienus Tomēr medicīnisko datu kopas ir grūti iegūt (apakšiedaļa “Atkarība no datiem”). FL risina šo problēmu, ļaujot sadarbīgu mācīšanos, ne centralizējot datus (apakšiedaļa “Federated efforts promise”) un jau ir atradusi ceļu uz digitālajām veselības lietojumprogrammām (apakšiedaļa “Current FL efforts for digital health”). Atkarība no datiem Lai gan šī ir labi zināma prasība, modernie algoritmi parasti tiek novērtēti, pamatojoties uz rūpīgi sagatavotiem datu kopumiem, kas bieži nāk no dažiem avotiem. Tas var radīt aizspriedumus, kuros demogrāfiskie dati (piemēram, dzimums, vecums) vai tehniskā nelīdzsvarotība (piemēram, iegādes protokols, aprīkojuma ražotājs) izkropļo prognozes un nelabvēlīgi ietekmē noteiktu grupu vai vietņu precizitāti. Nepieciešamība pēc lielām datu bāzēm AI apmācībai ir radījusi daudzas iniciatīvas, kas cenšas apvienot datus no vairākām iestādēm.Šie dati bieži tiek savākti tā sauktajos datu ezeros.Šie ir būvēti ar mērķi izmantot vai nu datu komerciālo vērtību, piemēram, IBM Merge Healthcare iegādi. , vai kā resursu ekonomikas izaugsmei un zinātnes attīstībai, piemēram, NHS Skotijas Nacionālā drošā osta Franču veselības datu centrs Veselības datu izpēte UK . 21 22 23 24 Būtiskas, lai gan mazākas iniciatīvas ietver Cilvēka savienojumu Lielbritānijas Biobank Vēža attēlveidošanas arhīvs (TCIA) NIH CXR8 NIH DeepLesion Vēža ģenoma Atlas (TCGA) Alcheimera slimības neuroimaging iniciatīva (ADNI) Kā arī medicīnas izaicinājumi Piemēram, Camelion izaicinājums Starptautiskā multimodālā smadzeņu audzēju segmentācija (BraTS) , , Medicīniskā segmentācija Decathlon Publiskie medicīniskie dati parasti ir specifiski uzdevumiem vai slimībām un bieži tiek izlaisti ar dažādiem licences ierobežojumiem, dažreiz ierobežojot to izmantošanu. 25 26 27 28 29 30 31 32 33 34 35 36 37 Tomēr datu centralizēšana vai izpaušana rada ne tikai regulatīvus, ētiskus un juridiskus izaicinājumus, kas saistīti ar privātumu un datu aizsardzību, bet arī tehniskus. Anonimizēšana, piekļuves kontrole un veselības aprūpes datu droša pārsūtīšana ir ne-triviāls un dažreiz neiespējams uzdevums. Tas pats attiecas uz ģenētiskajiem datiem un medicīniskajiem attēliem, kas padara tos tik unikālus kā pirkstu nospiedumi. Tādēļ, ja vien anonimizācijas process neiznīcina datu ticamību, iespējams, padarot tos bezjēdzīgus, nevar izslēgt pacienta atkārtotu identificēšanu vai informācijas noplūdi.Pieejas vārti apstiprinātajiem lietotājiem bieži tiek piedāvāti kā iespējamais risinājums šai problēmai.Tomēr, papildus datu pieejamības ierobežošanai, tas ir praktiski tikai gadījumos, kad datu īpašnieku sniegta piekrišana ir beznosacījuma, jo datu atsaukšana no tiem, kuriem var būt bijusi piekļuve datiem, ir praktiski neizpildāma. 7 38 Federālo centienu solījumi FL solījums ir vienkāršs – risināt privātuma un datu pārvaldības problēmas, ļaujot ML no ne-co-located datiem. FL iestatījumos katrs datu pārzinis ne tikai definē savus pārvaldības procesus un saistītās privātuma politikas, bet arī kontrolē piekļuvi datiem un ir spēja to atsaukt. Tas ietver gan apmācību, gan validācijas posmu. Tādā veidā FL varētu radīt jaunas iespējas, piemēram, atļaujot liela mēroga, iestāžu validāciju, vai ļaujot jaunu pētījumu par retām slimībām, kur incidentu līmenis ir zems un datu kopas katrā iestādē ir pārāk mazas. Pārvietojot modeli uz datiem un nevis otrādi, tam ir vēl viena liela priekšrocība: augsta izmēra, uzglabāšanas intensīva medic Kā aprakstīts figūrā. , FL darba plūsmu var realizēt ar dažādām topoloģijām un aprēķinu plāniem.Divi visbiežāk sastopamie veselības aprūpes lietojumprogrammu veidi ir, izmantojot agregācijas serveri , , Peer to peer pieeja , Visos gadījumos FL netieši piedāvā zināmu privātuma pakāpi, jo FL dalībnieki nekad nav tieši piekļuvuši datiem no citām iestādēm un saņem tikai modeļa parametrus, kas ir apkopoti vairākos dalībniekos. FL darbplūsmā ar agregācijas serveri iesaistītās iestādes var pat palikt nezināmas viena otrai. , , , Tādēļ tādi mehānismi kā diferencēta privātums , vai ir ierosināts mācīties no šifrētiem datiem, lai vēl vairāk uzlabotu privātumu FL iestatījumos (sk. sadaļu “Tehniskie apsvērumi”). un FL tehnoloģijas ir pieaugoša pētniecības joma , . 2 16 17 18 15 39 40 41 42 43 44 45 46 12 20 FL topoloģijas — federācijas komunikācijas arhitektūra. Centralizēts: agregācijas serveris koordinē apmācības iterācijas un apkopo, agregē un izplata modeļus uz un no apmācības mezgliem (Hub & Spoke). Decentralizēts: katrs apmācības mezgls ir savienots ar vienu vai vairākiem vienaudžiem, un agregācija notiek uz katra mezgla paralēli. Tīmekļa vietnē www.tīmekļa vietne.lv var atrast vairākus tīmekļa vietnes veidus, kurus var izmantot, lai izveidotu tīmekļa vietni ( FL aprēķinu plāni — modeļa trajektorija vairākos partneros. Sekvences apmācība / ciklisks pārvietošanās mācīšanās. Agregācijas serveri, Pēteris ir Pēteris. a b c d e f g Pašreizējie FL centieni digitālās veselības jomā Tā kā FL ir vispārēja mācīšanās paradigma, kas novērš datu apkopošanas prasību AI modeļu izstrādei, FL pielietojumu diapazons aptver visu AI veselības aprūpei. Piemēram, elektronisko veselības reģistru (EHR) kontekstā FL palīdz pārstāvēt un atrast klīniski līdzīgus pacientus. , , kā arī paredzot hospitalizācijas sirdsdarbības notikumu dēļ , mirstība un ICU uzturēšanās laiks FL pielietojamība un priekšrocības ir pierādītas arī medicīnas attēlveidošanas jomā, visu smadzeņu segmentācijai MRI , kā arī smadzeņu audzēja segmentācija , Nesen tehnika ir izmantota fMRI klasifikācijai, lai atrastu uzticamus ar slimībām saistītus biomarķierus un ierosināta kā daudzsološa pieeja COVID-19 kontekstā . 13 47 14 19 15 16 17 18 48 Ir vērts atzīmēt, ka FL centieniem ir nepieciešamas vienošanās, lai definētu izmantoto jomu, mērķi un tehnoloģijas, kuras, tā kā tās joprojām ir jaunas, var būt grūti noteikt. Tie ietver konsorcijas, kuru mērķis ir virzīties uz priekšu Pētījums, piemēram, Trustworthy Federated Data Analytics (TFDA) projekts and the German Cancer Consortium’s Joint Imaging Platform , kas ļauj veikt decentralizētus pētījumus Vācijas medicīnas attēlveidošanas pētniecības iestādēs.Vēl viens piemērs ir starptautiska pētniecības sadarbība, kas izmanto FL, lai izstrādātu AI modeļus mammogrammu novērtēšanai Pētījums parādīja, ka FL ģenerētie modeļi pārsniedza tos, kas apmācīti uz viena institūta datiem, un tie bija vispārīgāki, tāpēc tie joprojām labi darbojas uz citu institūtu datiem. akadēmiskais 49 50 51 Saistot veselības aprūpes iestādes, kas neaprobežojas tikai ar pētniecības centriem, FL var Ietekme.Pašreizējais HealthChain projekts , piemēram, mērķis ir izstrādāt un ieviest FL sistēmu četrās slimnīcās Francijā. Šis risinājums rada kopīgus modeļus, kas var prognozēt krūts vēža un melanomas pacientu ārstēšanas reakciju. Tas palīdz onkologiem noteikt visefektīvāko ārstēšanu katram pacientam no viņu histoloģijas slaidiem vai dermoskopijas attēliem. Vēl viens liela mēroga centiens ir Federated Tumor Segmentation (FeTS) iniciatīva , kas ir starptautiska federācija no 30 apņēmīgajām veselības aprūpes iestādēm, izmantojot atvērtā koda FL sistēmu ar grafisku lietotāja saskarni.Mērķis ir uzlabot audzēju robežu noteikšanu, ieskaitot smadzeņu gliomu, krūts audzējus, aknu audzējus un kaulu bojājumus no vairākiem mielomas pacientiem. klīnika 52 53 Vēl viena ietekmes joma ir pētniecība un tulkošana. FL ļauj sadarboties pētniecībā pat konkurējošiem uzņēmumiem. Šajā kontekstā viena no lielākajām iniciatīvām ir Melloddy projekts Tas ir projekts, kura mērķis ir ieviest multi-task FL visās 10 farmācijas uzņēmumu datu kopās.Izstrādājot kopīgu prognozējošu modeli, kas nosaka, kā ķīmiski savienojumi saistās ar olbaltumvielām, partneri plāno optimizēt zāļu atklāšanas procesu, neatklājot savus ļoti vērtīgos iekšējos datus. Rūpnieciskā 54 Ietekme uz ieinteresētajām personām FL ietver paradigmas maiņu no centralizētiem datu ezeriem, un ir svarīgi saprast tā ietekmi uz dažādām ieinteresētajām personām FL ekosistēmā. klīnikas Kliniķi parasti ir pakļauti apakšgrupai, pamatojoties uz to atrašanās vietu un demogrāfisko vidi, kas var izraisīt pieņēmumus par dažu slimību iespējamību vai to savstarpējo savienojumu. Izmantojot ML balstītas sistēmas, piemēram, kā otro lasītāju, viņi var palielināt savu pieredzi ar citu iestāžu ekspertu zināšanām, nodrošinot diagnozes konsekvenci, kas šodien nav sasniedzama. Kaut arī tas attiecas uz ML balstītu sistēmu kopumā, federālā veidā apmācītās sistēmas potenciāli spēj radīt vēl mazāk pieņēmumus un lielāku jutīgumu pret retajiem gadījumiem, jo tie, iespējams, bija pakļauti pilnīgākai datu izplatīšanai. Tomēr tas prasa dažus iepriekšējus centienus, piemēram, atbilstību nolīgumiem, piemēram Pacienti Pacienti parasti tiek ārstēti vietējā līmenī. FL izveidošana globālā mērogā varētu nodrošināt augstas kvalitātes klīniskos lēmumus neatkarīgi no ārstēšanas vietas. Jo īpaši pacienti, kuriem nepieciešama medicīniskā aprūpe attālos apgabalos, varētu gūt labumu no tām pašām augstas kvalitātes ML palīdzības diagnostikām, kas pieejamas slimnīcās ar lielu skaitu gadījumu. Tas pats attiecas uz retām vai ģeogrāfiski neparastām slimībām, kurām, iespējams, būs vieglākas sekas, ja var veikt ātrāku un precīzāku diagnozi. FL var arī samazināt šķēršļus kļūt par datu donoru, jo pacienti var būt pārliecināti, ka dati paliek ar savu iestādi un datu piekļuvi var atsaukt. Slimnīcas un prakse Slimnīcas un prakses var saglabāt pilnīgu kontroli un rīcību ar saviem pacientu datiem ar pilnīgu datu piekļuves izsekojamību, ierobežojot trešo personu ļaunprātīgas izmantošanas risku. Tomēr tas prasīs ieguldījumus vietējā datortehnikas infrastruktūrā vai privātā mākoņa pakalpojumu nodrošināšanā un standartizētu un sinoptisku datu formātu ievērošanu, lai ML modeļus varētu pilnībā apmācīt un novērtēt. Nepieciešamās aprēķina spējas apjoms, protams, ir atkarīgs no tā, vai vietne piedalās tikai novērtēšanas un testēšanas centienos vai arī apmācības centienos. Pat salīdzinoši mazas iestādes var piedalīties un tās joprojām gūs labumu no ģenerētiem kolektīviem modeļiem. Pētnieki un AI izstrādātāji Pētnieki un AI izstrādātāji gūst labumu no piekļuves potenciāli plašai reālās pasaules datu kolekcijai, kas noteikti ietekmēs mazākas pētniecības laboratorijas un jaunuzņēmumus.Tādējādi resursi var tikt novirzīti klīnisko vajadzību un saistīto tehnisko problēmu risināšanai, nevis paļauties uz atvērto datu kopu ierobežotu piedāvājumu.Tajā pašā laikā būs nepieciešams veikt pētījumus par algoritmiskām stratēģijām federētai apmācībai, piemēram, kā efektīvi apvienot modeļus vai atjauninājumus, kā būt izturīgiem attiecībā uz izplatīšanas maiņām. , , FL balstīta attīstība nozīmē arī to, ka pētnieks vai AI izstrādātājs nevar izpētīt vai vizualizēt visus datus, uz kuriem modelis ir apmācīts, piemēram, nav iespējams apskatīt atsevišķu neveiksmju gadījumu, lai saprastu, kāpēc pašreizējais modelis darbojas slikti. 11 12 20 Veselības aprūpes sniedzēji Veselības aprūpes sniedzējus daudzās valstīs ietekmē nepārtraukta paradigmas maiņa no apjoma, t.i., maksas par pakalpojumu, uz vērtību balstītu veselības aprūpi, kas savukārt ir stingri saistīta ar precīzās medicīnas veiksmīgu izveidi. Tas nav par dārgāku individualizētu terapiju veicināšanu, bet gan par to, lai ātrāk sasniegtu labākus rezultātus, izmantojot koncentrētāku ārstēšanu, tādējādi samazinot izmaksas. Ražotāji Veselības aprūpes programmatūras un aparatūras ražotāji varētu gūt labumu arī no FL, jo, apvienojot mācīšanos no daudzām ierīcēm un lietojumprogrammām, neatklājot pacienta specifisko informāciju, var veicināt to ML bāzēto sistēmu nepārtrauktu validāciju vai uzlabošanu. Tehniskie apsvērumi FL ir iespējams vislabāk pazīstams no darba Konečnỳ et al. Daudzas citas definīcijas ir izklāstītas literatūrā. , , , FL darba plūsma (Fig. To var realizēt, izmantojot dažādas topoloģijas un aprēķinu plānus (Fig. Šajā sadaļā mēs sīkāk apspriedīsim, kas ir FL, kā arī izcelsim galvenos izaicinājumus un tehniskos apsvērumus, kas rodas, piemērojot FL digitālajā veselībā. 55 9 11 12 20 1 2 Federālā mācīšanās definīcija FL ir mācīšanās paradigma, kurā vairākas puses apmācās sadarbībā bez nepieciešamības apmainīties vai centralizēt datu kopas. vietējie zaudējumi, kas aprēķināti no privātiem datiem , kas dzīvo atsevišķās iesaistītajās pusēs un nekad nav sadalīti starp tām: K XK Kur > 0 norāda attiecīgo svaru koeficientu. VK Praksē katrs dalībnieks parasti iegūst un pilnveido globālo konsensa modeli, veicot dažus optimizācijas posmus lokāli un pirms atjauninājumu koplietošanas, vai nu tieši, vai izmantojot parametru serveri. ) , Faktiskais parametru agregācijas process ir atkarīgs no tīkla topoloģijas, jo mezgli var tikt segregēti apakšsistēmās ģeogrāfisko vai juridisko ierobežojumu dēļ (skat. ). agregācijas stratēģijas var paļauties uz vienu agregācijas mezglu (hub un runas modeļiem), vai uz vairākiem mezgliem bez jebkādas centralizācijas. , Atcerieties, ka agregācijas stratēģijām nav obligāti nepieciešama informācija par pilnu modeļa atjauninājumu; klienti var izvēlēties kopīgot tikai daļu no modeļa parametriem, lai samazinātu komunikācijas pārpalikumu, nodrošinātu labāku privātuma saglabāšanu. vai ražot vairāku uzdevumu mācīšanās algoritmus, kuriem tikai daļa no to parametriem ir iemācīti federētā veidā. 1 9 12 2 15 56 10 Vienotā sistēma, kas ļauj dažādām apmācības shēmām, var atdalīt aprēķinu resursus (datu un serverus) no Kā aprakstīts figūrā. Pēdējais definē modeļa trajektoriju vairākos partneros, kas jāapmāca un jānovērtē, pamatojoties uz konkrētiem datu kopumiem. Datora plāns 2 Izaicinājumi un apsvērumi Neskatoties uz priekšrocībām FL, tas neatrisina visas problēmas, kas ir raksturīgas mācīties par medicīniskiem datiem. veiksmīga modeļa apmācība joprojām ir atkarīga no tādiem faktoriem kā datu kvalitāte, aizspriedumi un standartizācija Šie jautājumi ir jāatrisina gan federētiem, gan nesaistītiem mācīšanās centieniem, izmantojot atbilstošus pasākumus, piemēram, rūpīgu studiju dizainu, kopīgus datu iegūšanas protokolus, strukturētu ziņošanu un sarežģītas metodoloģijas, lai atklātu aizspriedumus un slēpto stratifikāciju. , , . 2 11 12 20 Datu heterogenitāte Medicīniskie dati ir īpaši dažādi – ne tikai dažādu veidu, dimensiju un raksturlielumu dēļ kopumā, bet pat konkrētā protokola ietvaros tādu faktoru dēļ kā iegādes atšķirības, medicīnas ierīces zīmols vai vietējā demogrāfija. FL var palīdzēt risināt noteiktus pieķeršanās avotus, potenciāli palielinot datu avotu daudzveidību, bet nevienmērīga datu sadale rada izaicinājumu FL algoritmiem un stratēģijām, jo daudzi pieņem neatkarīgi un identiski sadalītus (IID) datus visā dalībniekiem. ir pakļauti neveiksmei šādos apstākļos , , , daļēji uzvarot pašu mērķi sadarbīgas mācīšanās stratēģijas. nesenie rezultāti, tomēr, norāda, ka FL apmācība joprojām ir iespējama pat tad, ja medicīniskie dati nav vienādi sadalīti visās iestādēs , vai ietver vietējo bias Pētījumi, kas risina šo problēmu, ietver, piemēram, , part-data-sharing strategy un FL ar domēna pielāgošanu Vēl viens izaicinājums ir tas, ka datu neviendabība var novest pie situācijas, kad globālais optimālais risinājums var nebūt optimāls atsevišķam vietējam dalībniekam. Lāčplēša 9 9 57 58 59 16 17 51 FedProx 57 58 18 Privātums un drošība Veselības aprūpes dati ir ļoti sensitīvi un ir jāaizsargā atbilstoši atbilstošām konfidencialitātes procedūrām.Tāpēc daži no galvenajiem apsvērumiem ir kompromisi, stratēģijas un atlikušie riski attiecībā uz FL privātuma saglabāšanas potenciālu. Privātums salīdzinājumā ar veiktspēju: ir svarīgi atzīmēt, ka FL neatrisina visas potenciālās privātuma problēmas un – līdzīgi kā ML algoritmi kopumā – vienmēr radīs dažus riskus. Tomēr ir kompromiss veiktspējas ziņā, un šīs metodes var ietekmēt, piemēram, gala modeļa precizitāti. Turklāt turpmākās metodes un/vai palīgdati varētu tikt izmantoti, lai apdraudētu modeli, kas iepriekš tika uzskatīts par zemu risku. 12 10 Uzticības līmenis: Vispārīgi runājot, iesaistītās puses var iesaistīties divos FL sadarbības veidos: — attiecībā uz FL konsorcijām, kurās visas puses tiek uzskatītas par uzticamām un ir saistītas ar izpildāmu sadarbības nolīgumu, mēs varam novērst daudzus no sliktākiem motīviem, piemēram, apzinātu mēģinājumu iegūt sensitīvu informāciju vai apzināti sabojāt modeli. Uzticība —in FL systems that operate on larger scales, it might be impractical to establish an enforceable collaborative agreement. Some clients may deliberately try to degrade performance, bring the system down or extract information from other parties. Hence, security strategies will be required to mitigate these risks such as, advanced encryption of model submissions, secure authentication of all parties, traceability of actions, differential privacy, verification systems, execution integrity, model confidentiality and protections against adversarial attacks. Neuzticams Informācijas noplūde: pēc definīcijas FL sistēmas izvairās no veselības aprūpes datu koplietošanas starp iesaistītajām iestādēm.Tomēr kopīgotā informācija joprojām var netieši atklāt privātos datus, ko izmanto vietējai apmācībai, piemēram, ar modeļu inversiju no modeļa atjauninājumiem, paši gradienti or adversarial attacks , FL atšķiras no tradicionālās apmācības, jo apmācības process ir pakļauts vairākām pusēm, tādējādi palielinot noplūdes risku, izmantojot atgriezenisko inženieriju, ja pretinieki laika gaitā var novērot modeļa izmaiņas, novērot konkrētus modeļa atjauninājumus (t.i., vienas iestādes atjauninājumus) vai manipulēt ar modeli (piemēram, radīt papildu atmiņu citiem, izmantojot gradientu-ascent-stila uzbrukumus). , un nodrošināt atbilstošu diferencētu privātumu var būt nepieciešama un joprojām ir aktīva pētniecības joma . 60 61 62 63 16 18 44 12 Izsekojamība un atbildība Atšķirībā no centralizētās apmācības, FL prasa daudzpusējus aprēķinus vidēs, kurās ir ievērojama atšķirība attiecībā uz aparatūru, programmatūru un tīkliem. Visu sistēmu aktīvu izsekojamība, ieskaitot datu piekļuves vēsturi, apmācības konfigurācijas un hiperparametru pielāgošanu visā apmācības procesā, ir obligāta. Jo īpaši neuzticamās federācijās izsekojamība un pārskatatbildības procesi prasa izpildes integritāti. Pēc tam, kad apmācības process sasniedz savstarpēji saskaņotos modeļa optimizācijas kritērijus, var būt noderīgi arī izmērīt katra dalībnieka ieguldījumu apjomu, piemēram, aprēķina resursus, kas patērēti, vietējai apmācībai Viens no FL iemesliem ir tas, ka pētnieki nespēj izpētīt datus, uz kuriem modeļi tiek apmācīti, lai izprastu negaidītus rezultātus. Turklāt, ņemot statistikas mērījumus par viņu apmācības datiem kā daļu no modeļa izstrādes darba plūsmas, būs jāapstiprina sadarbības pusēm, jo tas nepārkāpj privātumu. Lai gan katrai vietnei būs piekļuve saviem neapstrādātiem datiem, federācijas var nolemt nodrošināt kāda veida drošu iekšējo mezglu skatīšanās iespēju, lai apmierinātu šo vajadzību, vai var sniegt kādu citu veidu, kā palielināt globālā modeļa izskaidrojamību un interpretējamību. 64 Sistēmas arhitektūra Atšķirībā no tā, kas darbojas liela mēroga FL starp patērētāju ierīcēm, piemēram, McMahan et al. Veselības aprūpes iestāžu dalībnieki ir aprīkoti ar salīdzinoši spēcīgiem skaitļošanas resursiem un uzticamiem, augstākas plūsmas tīkliem, kas ļauj apmācīt lielākus modeļus ar daudz vairāk vietējiem apmācības soļiem un kopīgot vairāk modeļu informācijas starp mezgliem.Šīs unikālās FL īpašības veselības aprūpē arī rada problēmas, piemēram, nodrošinot datu integritāti, sazinoties, izmantojot pārmērīgus mezglus, izstrādājot drošas šifrēšanas metodes, lai novērstu datu noplūdi, vai izstrādājot atbilstošus mezglu plānotājus, lai vislabāk izmantotu izplatītās skaitļošanas ierīces un samazinātu brīvo laiku. 9 Šādas federācijas administrēšana var tikt realizēta dažādos veidos. Situācijās, kurās starp pusēm ir nepieciešama stingrākā datu privātums, apmācība var darboties, izmantojot kāda veida “godīgu brokera” sistēmu, kurā uzticama trešā puse darbojas kā starpnieks un atvieglo piekļuvi datiem. Šai konfigurācijai ir nepieciešama neatkarīga vienība, kas kontrolē vispārējo sistēmu, kas ne vienmēr ir vēlama, jo tai var būt nepieciešamas papildu izmaksas un procedūras viskozitāte. Tomēr tai ir priekšrocība, ka precīzi iekšējie mehānismi var tikt noņemti no klientiem, padarot sistēmu elastīgāku un vienkāršāku atjaunināšanai. Peer-to-peer sistēmā katra vietne tieši mijiedarbojas ar dažiem Secinājums ML, un it īpaši DL, ir novedusi pie plaša spektra inovācijām digitālās veselības aprūpes jomā. Tā kā visas ML metodes lielā mērā gūst labumu no spējas piekļūt datiem, kas aptver patiesu globālo izplatīšanu, FL ir daudzsološa pieeja, lai iegūtu spēcīgus, precīzus, drošus, izturīgus un objektīvus modeļus. Ļaujot vairākām pusēm sadarboties, bez nepieciešamības apmainīties vai centralizēt datu kopas, FL rūpīgi risina jautājumus, kas saistīti ar sensitīvu medicīnisko datu izplatīšanu. Tā rezultātā tā var atvērt jaunus pētniecības un biznesa ceļus un tai ir potenciāls uzlabot pacientu aprūpi visā pasaulē. Tomēr jau šodien FL ietekmē gandrīz visas ieinteresētās Neskatoties uz to, mēs patiesi uzskatām, ka tā potenciālā ietekme uz precizitātes medicīnu un galu galā medicīniskās aprūpes uzlabošanu ir ļoti daudzsološa. 12 Ziņošanas kopsavilkums Sīkāka informācija par pētniecības projektu pieejama Saistīts ar šo rakstu. Dabas pētījumu kopsavilkums References LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. , 436 (2015). Nature 521 Wang, F., Casalino, L. P. & Khullar, D. Deep learning in medicine—promise, progress, and challenges. , 293–294 (2019). JAMA Intern. Med. 179 Chartrand, G. et al. Deep learning: a primer for radiologists. , 2113–2131 (2017). Radiographics 37 De Fauw, J. et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. , 1342 (2018). Nat. Med. 24 Sun, C., Shrivastava, A., Singh, S. & Gupta, A. Revisiting unreasonable effectiveness of data in deep learning era. In , 843–852 ( , 2017). Proceedings of the IEEE international conference on computer vision IEEE Van Panhuis, W. G. et al. A systematic review of barriers to data sharing in public health. , 1144 (2014). BMC Public Health 14 Rocher, L., Hendrickx, J. M. & De Montjoye, Y.-A. Estimating the success of re-identifications in incomplete datasets using generative models. , 1–9 (2019). Nat. Commun. 10 Schwarz, C. G. et al. Identification of anonymous mri research participants with face-recognition software. , 1684–1686 (2019). N. Engl. J. Med. 381 McMahan, B., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. In , 1273–1282. (2017). Artificial Intelligence and Statistics https://scholar.google.de/scholar?hl=de&as_sdt=0%2C5&q=Communicationefficient+learning+of+deep+networks+from+decentralized+data&btnG= Li, T., Sahu, A. K., Talwalkar, A. & Smith, V. Federated learning: Challenges, methods, and future directions. , 50–60 (IEEE, 2020). IEEE Signal Processing Magazine 37 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. (TIST) 10 Kairouz, P. et al. Advances and open problems in federated learning. (2019). arXiv preprint arXiv:1912.04977 Lee, J. et al. Privacy-preserving patient similarity learning in a federated environment: development and analysis. , e20 (2018). JMIR Med. Inform. 6 Brisimi, T. S. et al. Federated learning of predictive models from federated electronic health records. , 59–67 (2018). Int. J. Med. Inform. 112 Roy, A. G., Siddiqui, S., Pölsterl, S., Navab, N. & Wachinger, C. Braintorrent: a peer-to-peer environment for decentralized federated learning. (2019). arXiv preprint arXiv:1905.06731 Li, W. et al. Privacy-preserving federated brain tumour segmentation. In , 133–141 (Springer, 2019). International Workshop on Machine Learning in Medical Imaging Sheller, M. J., Reina, G. A., Edwards, B., Martin, J. & Bakas, S. Multi-institutional deep learning modeling without sharing patient data: a feasibility study on brain tumor segmentation. In , 92–104 (Springer, 2018). International MICCAI Brainlesion Workshop Li, X. et al. Multi-site fmri analysis using privacy-preserving federated learning and domain adaptation: abide results. (2020). arXiv preprint arXiv:2001.05647 Huang, L. et al. Patient clustering improves efficiency of federated machine learning to predict mortality and hospital stay time using distributed electronic medical records. , 103291 (2019). J. Biomed. Inform. 99 Xu, J. & Wang, F. Federated learning for healthcare informatics. (2019). arXiv preprint arXiv:1911.06270 Roy, A. & Banerjee, A. Ibm’s merge healthcare acquisitio . (2015) (Accessed 10 February 2020). n https://www.reuters.com/article/us-merge-healthcare-m-a-ibm/ibm-to-buy-merge-healthcare-in-1-billion-deal-idUSKCN0QB1ML20150806 Nhs scotland’s national safe haven. (2015) (Accessed 10 February 2020). https://www.gov.scot/publications/charter-safe-havens-scotland-handling-unconsented-data-national-health-service-patient-records-support-research-statistics/pages/4/ Cuggia, M. & Combes, S. The french health data hub and the german medical informatics initiatives: Two national projects to promote data sharing in healthcare. , 195–202 (2019). Yearbook Med. Informat. 28 Health Data Research UK. (Health Data Research UK, 2020) (Accessed 10 Feb 2020). https://www.hdruk.ac.uk/ Sporns, O., Tononi, G. & Kötter, R. The human connectome: a structural description of the human brain. . , e42, (2005). PLoS Comput. Biol 1 https://doi.org/10.1371/journal.pcbi.0010042 Sudlow, C. et al. Uk biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age. . , e1001779. (2015). PLoS Med 12 https://doi.org/10.1371/journal.pmed.1001779 Clark, K. et al. The cancer imaging archive (tcia): maintaining and operating a public information repository. , 1045–1057 (2013). J. Digit. Imaging. 26 Wang, X. et al. Chestx-ray8: Hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In , 2097–2106 ( , 2017). Proceedings of the IEEE conference on computer vision and pattern recognition IEEE Yan, K., Wang, X., Lu, L. & Summers, R. M. Deeplesion: automated mining of large-scale lesion annotations and universal lesion detection with deep learning. , 036501 (2018). J Med. Imaging. 5 Tomczak, K., Czerwińska, P. & Wiznerowicz, M. The cancer genome atlas (tcga): an immeasurable source of knowledge. , A68 (2015). Contemp. Oncol. 19 Jack Jr., C. R. et al. The alzheimer’s disease neuroimaging initiative (adni): Mri methods. , 685–691 (2008). J. Magn. Reson. Imaging 27 . (2020) (Accessed 24 July 2020). Grand Challenge-a Platform for End-to-end Development of Machine Learning Solutions in Biomedical Imaging https://grand-challenge.org/ Litjens, G. et al. 1399 h&e-stained sentinel lymph node sections of breast cancer patients: the camelyon dataset. , giy065 (2018). GigaScience 7 Menze, B. H. et al. The multimodal brain tumor image segmentation benchmark (brats). , 1993–2024 (2014). IEEE Trans. Med. Imaging 34 Bakas, S. et al. Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the brats challenge. (2018). arXiv preprint arXiv:1811.02629 Bakas, S. et al. Advancing the cancer genome atlas glioma MRI collections with expert segmentation labels and radiomic features. , 170117 (2017). Sci. Data 4 Simpson, A. L. et al. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. (2019). arXiv preprint arXiv:1902.09063 Yeh, F.-C. et al. Quantifying differences and similarities in whole-brain white matter architecture using local connectome fingerprints. , e1005203 (2016). PLoS Comput. Biol. 12 Chang, K. et al. Distributed deep learning networks among institutions for medical imaging. , 945–954 (2018). J. Am. Med. Inform. Assoc. 25 Shokri, R., Stronati, M., Song, C. & Shmatikov, V. Membership inference attacks against machine learning models. In , 3-18 (IEEE, 2017). 2017 IEEE Symposium on Security and Privacy (SP) Sablayrolles, A., Douze, M., Ollivier, Y., Schmid, C. & Jégou, H. White-box vs black-box: Bayes optimal strategies for membership inference. In Chaudhuri, K. & Salakhutdinov, R. (eds) , 5558–5567. (PMLR, 2019). Proceedings of the 36th International Conference on Machine Learning, {ICML} 97 http://proceedings.mlr.press/v97/sablayrolles19a.html Zhang, C., Bengio, S., Hardt, M., Recht, B. & Vinyals, O. Understanding deep learning requires rethinking generalization. In , (OpenReview.net, 2017). 5th International Conference on Learning Representations, {ICLR}. https://openreview.net/forum?id=Sy8gdB9xx Carlini, N., Liu, C., Erlingsson, Ú., Kos, J. & Song, D. The secret sharer: evaluating and testing unintended memorization in neural networks. In Heninger, N. & Traynor, P. (eds) { } ({ } , 267–284. ({USENIX} Association, Santa Clara, CA, USA, 2019). 28th USENIX Security Symposium USENIX Security 19 https://www.usenix.org/conference/usenixsecurity19/presentation/carlini Abadi, M. et al. Deep learning with differential privacy. In , 308–318 (ACM, 2016). Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In , 1310–1321 (ACM, 2015). Proceedings of the 22nd ACM SIGSAC conference on computer and communications security Langlotz, C. P. et al. A roadmap for foundational research on artificial intelligence in medical imaging: from the 2018 nih/rsna/acr/the academy workshop. , 781–791 (2019). Radiology 291 Kim, Y., Sun, J., Yu, H. & Jiang, X. Federated Tensor Factorization for Computational Phenotyping. In . 887–895. (ACM, Halifax, NS, Canada, 2017). Proceedings of the 23rd {ACM} {SIGKDD} International Conference on Knowledge Discoveryand Data Mining https://doi.org/10.1145/3097983.3098118 He, C., Annavaram, M. & Avestimehr, S. Fednas: Federated deep learning via neural architecture search. (2020). https://sites.google.com/view/cvpr20-nas/ Trustworthy federated data analytics (tfda). (2020) (Accessed 28 May 2020). https://tfda.hmsp.center/ Joint Imaging Platform (Jip). (2020) (Accessed 28 May 2020). https://jip.dktk.dkfz.de/jiphomepage/ Medical institutions collaborate to improve mammogram assessment ai. (2020) (Accessed 28 May 2020). https://blogs.nvidia.com/blog/2020/04/15/federated-learning-mammogram-assessment/ Healthchain consortium. (2020) (Accessed 28 May 2020). https://www.substra.ai/en/healthchain-project The federated tumor segmentation (fets) initiative. (2020) (Accessed 28 May 2020). https://www.fets.ai Machine learning ledger orchestration for drug discovery. (2020). Accessed 28 May 2020. https://cordis.europa.eu/project/id/831472 Konečny`, J., McMahan, H. B., Ramage, D. & Richtárik, P. Federated optimization: Distributed machine learning for on-device intelligence. (2016). arXiv preprint arXiv:1610.02527 Lalitha, A., Kilinc, O. C., Javidi, T. & Koushanfar, F. Peer-to-peer federated learning on graphs. (2019). arXiv preprint arXiv:1901.11173 Li, T., Sahu, A. K., Zaheer, M., Sanjabi, M., Talwalkar, A. & Smith, V. Federated optimization in heterogeneous networks. (2018). arXiv preprint arXiv:1812.06127 Zhao, Y. et al. Federated learning with non-iid data. (2018). arxivabs/1806.00582 Li, X., Huang, K., Yang, W., Wang, S. & Zhang, Z. On the convergence of fedavg on non-IID data. (2020). https://openreview.net/forum?id=HJxNAnVtDS Wu, B. et al. P3sgd: patient privacy preserving SGD for regularizing deep CNNs in pathological image classification. In (pp. 2099–2108) (2019). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Zhu, L., Liu, Z. & Han, S. Deep leakage from gradients. In Wallach, H. M. et al. (eds) , 14747–14756. (2019). Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems http://papers.nips.cc/paper/9617-deep-leakage-from-gradients Wang, Z. et al. Beyond inferring class representatives: user-level privacy leakage from federated learning. In 2512–2520. (IEEE, Paris, France, 2019). 2019 {IEEE} Conferenceon Computer Communications, {INFOCOM} https://doi.org/10.1109/INFOCOM.2019.8737416 Hitaj, B., Ateniese, G. & Perez-Cruz, F. Deep models under the gan: information leakage from collaborative deep learning. In , CCS’17, 603–618 (Association for Computing Machinery, New York, NY, USA, 2017). Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security Ghorbani, A. & Zou, J. Data shapley: Equitable valuation of data for machine learning. In (pp. 2242-2251) (2019). International Conference on Machine Learning Atzinības Šo darbu atbalstīja Apvienotās Karalistes pētniecības un inovācijas Londonas Medicīnas attēlveidošanas un mākslīgā intelekta centrs vērtību balstītai veselības aprūpei, Wellcome/EPSRC Medicīnas inženierzinātņu centrs (WT203148/Z/16/Z), Wellcome vadošā programma (WT213038/Z/18/Z), Nacionālo veselības institūtu (NIH) klīnisko centru Intramural Research Programme, Vācijas akadēmisko apmaiņas dienesta (DAAD) Nacionālais vēža institūts ar apbalvošanas numuru U01CA242871, Vācijas Federālās izglītības un pētniecības ministrijas (BMBF) līdzekļiem. Šis dokuments ir pieejams dabā saskaņā ar CC by 4.0 Deed (attribution 4.0 International) licenci. Šis dokuments ir pieejams dabā saskaņā ar CC by 4.0 Deed (attribution 4.0 International) licenci.