AI proveržis, leidžiantis ligoninėms mokyti algoritmus, nesidalijant pacientų duomenimis

Autorių : Nicola Rieke Jonny Hancox Wenqi Li Fausto Miletaris Holger R. Roth Shadi Albarqouni Spyridon Bakas Mathieu N. Galtier Bennett A. Landman Klaus Maier-Hein Sébastien Ourselin Micah Sheller Ronald M. Summers Andrew Trask Daguang Xu Maximilian Baust M. Jorge Cardoso Autorių : Nikolajus Rikiškis Jonė Hankox Kęstutis Li Fausto Miletaris Holgeris R. Rothas Šarūnas Albarkūnas Spyridonas Bakas Matė N. Galtier Žymė: Bennett A. Landman Klaus Maier-Heinas Sebastianas Ourselinas Mikė Šelerė Ronaldas Summersas Andrius Kėdainis Daguang Xu Maksimilianas Baustas Jorge Cardoso vadovė Abstract Duomenų valdomas mašininis mokymasis (ML) atsirado kaip perspektyvus požiūris kuriant tikslius ir tvirtus statistinius modelius iš medicinos duomenų, kuriuos didžiuliais kiekiais renka šiuolaikinės sveikatos priežiūros sistemos. Esami medicinos duomenys nėra visiškai išnaudojami ML pirmiausia todėl, kad jis sėdi duomenų silose ir privatumo problemos riboja prieigą prie šių duomenų. Tačiau, neturint prieigos prie pakankamų duomenų, ML bus užkirstas kelias pasiekti visą savo potencialą ir galiausiai pereiti nuo mokslinių tyrimų prie klinikinės praktikos. Šiame dokumente nagrinėjami pagrindiniai veiksniai, prisidedantys prie šios problemos, nagrinėjama, kaip federalizuotas mokymasis (FL) gali suteikti sprendimą skaitmeninės sveikatos ateičiai ir pabrėžiami iš Įvadas Dirbtinio intelekto (AI) tyrimai ir ypač pažanga mašininio mokymosi (ML) ir giliojo mokymosi (DL) srityse Šiuolaikiniai DL modeliai turi milijonus parametrų, kuriuos reikia išmokti iš pakankamai didelių kuruojamų duomenų rinkinių, kad būtų pasiektas klinikinio lygio tikslumas, tuo pat metu saugus, sąžiningas, teisingas ir apibendrinantis duomenis nuo nematytų iki nematomų. , , , . 1 2 3 4 5 Pavyzdžiui, mokant AI pagrįstą naviko detektorių reikia didelės duomenų bazės, apimančios visą galimų anatomijų, patologijų ir įvesties duomenų tipų spektrą. Net jei duomenų anonimizavimas galėtų apeiti šiuos apribojimus, dabar gerai suprantama, kad pašalinant metaduomenis, tokius kaip paciento vardas ar gimimo data, dažnai nepakanka išsaugoti privatumo. Pavyzdžiui, galima rekonstruoti paciento veidą iš kompiuterinės tomografijos (CT) arba magnetinio rezonanso (MRT) duomenų. . Another reason why data sharing is not systematic in healthcare is that collecting, curating, and maintaining a high-quality data set takes considerable time, effort, and expense. Consequently such data sets may have significant business value, making it less likely that they will be freely shared. Instead, data collectors often retain fine-grained control over the data that they have gathered. 6 7 8 Federacinis mokymasis (FL) , , yra mokymosi paradigma, kuria siekiama spręsti duomenų valdymo ir privatumo problemą mokant algoritmus bendradarbiaujant, nekeičiant pačių duomenų. , neseniai įgijo traukos sveikatos priežiūros programoms , , , , , , , FL leidžia bendradarbiaujant įgyti įžvalgų, pavyzdžiui, konsensuso modelio forma, neperkeliant pacientų duomenų už institucijų, kuriose jie gyvena, ugniasienės ribų. vietoj to, ML procesas vyksta vietos kiekvienoje dalyvaujančioje institucijoje ir perduodamos tik modelio charakteristikos (pvz., parametrai, gradientai), kaip parodyta paveikslėlyje. Naujausi tyrimai parodė, kad FL mokomi modeliai gali pasiekti našumo lygius, panašius į tuos, kurie mokomi centralizuotuose duomenų rinkiniuose, ir yra geresni už modelius, kurie mato tik izoliuotus vienos institucijos duomenis. , . 9 10 11 12 13 14 15 16 17 18 19 20 1 16 17 FL agregacijos serveris – tipiškas FL darbo srautas, kuriame mokymo mazgų federacija gauna pasaulinį modelį, iš naujo pateikia savo iš dalies apmokytus modelius centriniam serveriui periodiškai agregavimui ir tada tęsia mokymą konsensuso modelyje, kurį serveris grąžina. FL peer to peer – alternatyvi formulė FL, kurioje kiekvienas mokymo mazgas keičiasi savo iš dalies apmokytais modeliais su kai kuriais ar visais savo bendraamžiais ir kiekvienas atlieka savo agregaciją. Centralizuotas mokymas – bendras ne FL mokymo darbo procesas, kuriame duomenų įgijimo svetainės dovanoja savo duomenis į centralizuotą duomenų ežerą, iš kurio jie ir kiti gali išgauti duomenis vietiniam, nepriklausomam mokymui. a b c Sėkmingas FL įgyvendinimas galėtų turėti didelį potencialą didelio masto tikslumo medicinoje, o tai lemtų modelius, kurie lemia nešališkus sprendimus, optimaliai atspindi individo fiziologiją ir yra jautrūs retoms ligoms, kartu gerbiant valdymo ir privatumo problemas. tačiau FL vis dar reikalauja griežtų techninių apsvarstymų siekiant užtikrinti, kad algoritmas veiktų optimaliai, nekenkiant saugumui ar paciento privatumui. Mes matome federalizuotą skaitmeninės sveikatos ateitį ir šiuo perspektyviniu dokumentu dalijamės savo sutarimu, siekiant teikti bendruomenei kontekstą ir detales apie FL naudą ir poveikį medicinos programoms (skirsnis „Duomenų varoma medicina reikalauja federalizuotų pastangų“), taip pat pabrėžiant pagrindinius FL įgyvendinimo skaitmeninei sveikatai aspektus ir iššūkius (skirsnis „Techniniai aspektai“). Duomenų varoma medicina reikalauja federalizuotų pastangų ML ir ypač DL tampa de facto žinių atradimo požiūriu daugelyje pramonės šakų, tačiau sėkmingai įgyvendinant duomenų pagrįstas programas reikia didelių ir įvairių duomenų rinkinių. tačiau medicinos duomenų rinkinius sunku gauti (subsekcija „Priklausomybė nuo duomenų“). „FL“ sprendžia šią problemą sudarydama galimybę bendradarbiauti mokantis be centralizuotų duomenų (subsekcija „Federalinės pastangos pažadas“) ir jau rado kelią skaitmeninėms sveikatos programoms (subsekcija „Dabartinės FL pastangos skaitmeninei sveikatai“). „Ši nauja mokymosi paradigma reikalauja atsižvelgimo iš įvairių sveikatos priežiūros suinteresuotųjų subjektų (sekcija „Poveikis suinteresuotiesiems subjektams“). Priklausomybė nuo duomenų Nors tai yra gerai žinomas reikalavimas, pažangiausi algoritmai paprastai vertinami pagal kruopščiai parengtus duomenų rinkinius, dažnai kilusius tik iš kelių šaltinių. Tai gali sukelti šališkumą, kai demografiniai duomenys (pvz., lytis, amžius) arba techniniai disbalansai (pvz., įsigijimo protokolas, įrangos gamintojas) iškraipo prognozes ir neigiamai veikia tam tikrų grupių ar vietovių tikslumą. Didelių duomenų bazių poreikis dirbtinio intelekto mokymui sukėlė daug iniciatyvų, siekiančių sujungti duomenis iš kelių institucijų.Šie duomenys dažnai kaupiami į vadinamuosius duomenų ežerus.Šie buvo pastatyti siekiant pasinaudoti arba komercine duomenų verte, pvz., IBM „Merge Healthcare“ įsigijimu , arba kaip ekonomikos augimo ir mokslo pažangos šaltinis, pvz., NHS Škotijos nacionalinis saugus uostas Prancūzijos sveikatos duomenų centras Sveikatos duomenų tyrimai Jungtinėje Karalystėje . 21 22 23 24 Didžiulės, nors ir mažesnės iniciatyvos apima žmogiškąjį ryšį. Jungtinės Karalystės Biobank Vėžio vaizdavimo archyvas (TCIA) Išmanusis telefonas CXR8 NIH DeepLesija Vėžio genomo atlasas (angl. Cancer Genome Atlas, TCGA) Alzheimerio ligos neuroimaging iniciatyva (ADNI) Didžiuliai medicininiai iššūkiai „Camelion“ iššūkis Tarptautinė daugiarūšio smegenų navikų segmentacijos (BRATS) apklausa , , Medicinos segmentacijos Decathlon Viešieji medicinos duomenys paprastai yra užduočių ar ligų specifiniai ir dažnai išleidžiami su skirtingais licencijų apribojimais, kartais apribojant jų naudojimą. 25 26 27 28 29 30 31 32 33 34 35 36 37 Duomenų centralizavimas ar išleidimas kelia ne tik reguliavimo, etikos ir teisinius iššūkius, susijusius su privatumu ir duomenų apsauga, bet ir techninius. Anonimizavimas, prieigos kontrolė ir saugus sveikatos priežiūros duomenų perdavimas yra ne triviali ir kartais neįmanoma užduotis. Tas pats pasakytina apie genominius duomenis ir medicinines nuotraukas, dėl kurių jie yra tokie unikalūs kaip pirštų atspaudai. Todėl, išskyrus atvejus, kai anonimizavimo procesas sunaikina duomenų patikimumą, galbūt paversdamas juos nenaudingais, negalima atmesti paciento pakartotinio identifikavimo ar informacijos nutekėjimo.Prieigos vartai patvirtintiems naudotojams dažnai siūlomi kaip galimas šios problemos sprendimas.Tačiau, be duomenų prieinamumo apribojimo, tai praktiška tik tais atvejais, kai duomenų savininkų suteiktas sutikimas yra besąlygiškas, nes atšaukti duomenis iš tų, kurie galėjo turėti prieigą prie duomenų, praktiškai neįmanoma. 7 38 Federacinių pastangų pažadas FL pažadas yra paprastas – spręsti privatumo ir duomenų valdymo iššūkius, leidžiant ML iš nesusijusių duomenų. FL nustatymuose kiekvienas duomenų valdytojas ne tik apibrėžia savo valdymo procesus ir susijusią duomenų privatumo politiką, bet ir kontroliuoja prieigą prie duomenų ir turi galimybę juos atšaukti. Tai apima ir mokymą, ir patvirtinimo etapą. Tokiu būdu FL galėtų sukurti naujas galimybes, pvz., leidžiant didelio masto, institucinį patvirtinimą arba leidžiant naujus retų ligų tyrimus, kur incidentų lygis yra mažas ir duomenų rinkiniai kiekvienoje institucijoje yra per maži. Perkelti modelį į duomenis, o ne atvirkščiai, turi dar vieną svarbų pranašumą: didelio dydžio, saugojimo intensyvūs Kaip parodyta figūroje. , a FL workflow can be realised with different topologies and compute plans. The two most common ones for healthcare applications are via an aggregation server , , ir peer to peer artėja , Visais atvejais FL netiesiogiai siūlo tam tikrą privatumo laipsnį, nes FL dalyviai niekada neturi tiesioginės prieigos prie duomenų iš kitų institucijų ir gauna tik modelio parametrus, kurie yra sujungti per kelis dalyvius. FL darbo sraute su agregavimo serveriu dalyvaujančios institucijos netgi gali likti nepažįstamos viena kitai. , , , Todėl mechanizmai, tokie kaip diferencinis privatumas , arba buvo pasiūlyta mokytis iš užšifruotų duomenų, kad būtų toliau didinamas privatumas FL nustatymuose (žr. skyrių „Techniniai aspektai“). ir FL technologijos yra auganti mokslinių tyrimų sritis , . 2 16 17 18 15 39 40 41 42 43 44 45 46 12 20 FL topologijos – federacijos komunikacijos architektūra. Centralizuotas: agregacijos serveris koordinuoja mokymo iteracijas ir renka, agreguoja ir platina modelius į ir iš mokymo mazgų (Hub & Spoke). Decentralizuotas: kiekvienas mokymo mazgas yra prijungtas prie vieno ar daugiau bendraamžių, o agregacija vyksta kiekviename mazge lygiagrečiai. Federaciniai tinklai gali būti sudaryti iš kelių subfederacinių tinklų, kurie gali būti pastatyti iš Peer-to-Peer ir Aggregation Server federacijų mišinio ( FL skaičiavimo planai – modelio kelių partnerių trajektorija. Sekvencinis mokymasis / ciklinis perdavimo mokymasis. Agregacinis serveris Peer į peer. a b c d e f g Dabartinės FL pastangos skaitmeninės sveikatos srityje Kadangi FL yra bendrojo mokymosi paradigma, kuri pašalina duomenų sujungimo reikalavimą AI modelio kūrimui, FL taikymo sritis apima visą AI sveikatos priežiūros srityje.Teikiant galimybę užfiksuoti didesnį duomenų kintamumą ir analizuoti pacientus įvairiose demografinėse srityse, FL gali sudaryti sąlygas perversmingoms naujovėms ateičiai, tačiau ji taip pat naudojama dabar. Pavyzdžiui, elektroninių sveikatos įrašų (EHR) kontekste FL padeda atstovauti ir rasti kliniškai panašius pacientus , , taip pat prognozuojant hospitalizacijas dėl širdies įvykių Mirtingumas ir ICU buvimo laikas FL pritaikymas ir privalumai taip pat buvo įrodyti medicinos vaizdavimo srityje, visos smegenų segmentacijai MRT , taip pat smegenų naviko segmentacija , Neseniai ši technika buvo naudojama fMRI klasifikavimui, siekiant rasti patikimus su ligomis susijusius biomarkerius. ir pasiūlyta kaip perspektyvus požiūris COVID-19 kontekste . 13 47 14 19 15 16 17 18 48 Verta paminėti, kad FL pastangoms reikia susitarimų apibrėžti taikymo sritį, tikslą ir naudojamas technologijas, kurias, kadangi jos vis dar yra naujos, gali būti sunku apibrėžti. Tai konsorciumas, kurio tikslas – Tyrimai, pavyzdžiui, Trustworthy Federated Data Analytics (TFDA) projektas and the German Cancer Consortium’s Joint Imaging Platform , which enable decentralised research across German medical imaging research institutions. Another example is an international research collaboration that uses FL for the development of AI models for the assessment of mammograms Tyrimas parodė, kad FL generuojami modeliai pralenkė tuos, kurie buvo apmokyti vieno instituto duomenimis, ir buvo labiau apibendrinami, todėl jie vis dar gerai atliko kitų institutų duomenis. akademinė 49 50 51 By linking healthcare institutions, not restricted to research centres, FL can have direct Vaizdo įrašas: Sveikatos grandinės projektas , pavyzdžiui, siekiama sukurti ir diegti FL sistemą keturiose Prancūzijos ligoninėse. Šis sprendimas generuoja bendrus modelius, kurie gali prognozuoti krūties vėžio ir melanomos pacientų gydymo atsaką. Tai padeda onkologams nustatyti efektyviausią kiekvieno paciento gydymą iš jų histologijos skaidres ar dermoskopijos vaizdus. Kita didelio masto pastangos yra Federated Tumour Segmentation (FeTS) iniciatyva , kuri yra tarptautinė 30 įsipareigojusių sveikatos priežiūros įstaigų federacija, naudojanti atviro kodo FL sistemą su grafine vartotojo sąsaja. Tikslas yra pagerinti navikų pasienio aptikimą, įskaitant smegenų gliomą, krūties navikus, kepenų navikus ir kaulų pažeidimus iš daugelio mielomos pacientų. clinical 52 53 Kitos įtakos sritys yra mokslinių tyrimų ir vertimo. FL leidžia bendradarbiauti net ir konkuruojančioms įmonėms.Šiame kontekste viena didžiausių iniciatyvų yra Melloddy projektas Tai projektas, kurio tikslas - diegti daugiafunkcinį FL per 10 farmacijos bendrovių duomenų rinkinius. Mokydami bendrą prognozavimo modelį, kuris atspindi, kaip cheminiai junginiai jungiasi prie baltymų, partneriai ketina optimizuoti vaistų atradimo procesą neatskleidžiant savo labai vertingų vidinių duomenų. Pramonės 54 Poveikis suinteresuotiesiems subjektams FL apima paradigmos perėjimą nuo centralizuotų duomenų ežerų ir svarbu suprasti jo poveikį įvairiems suinteresuotiesiems subjektams FL ekosistemoje. Clinicians Klinikai paprastai susiduria su populiacijos pogrupiu, atsižvelgiant į jų buvimo vietą ir demografinę aplinką, o tai gali sukelti šališkas prielaidas dėl tam tikrų ligų tikimybės ar jų tarpusavio ryšio. Naudodamiesi ML pagrįstomis sistemomis, pvz., kaip antruoju skaitytoju, jie gali padidinti savo patirtį, naudodamiesi ekspertinėmis žiniomis iš kitų institucijų, užtikrinant šiandien nepasiekiamą diagnozės nuoseklumą. Nors tai taikoma ML pagrįstoms sistemoms apskritai, federalizuotai apmokytos sistemos gali suteikti dar mažiau šališkų sprendimų ir didesnį jautrumą retų atvejų atžvilgiu, nes jie tikriausiai buvo veikiami išsamesnio duomenų paskirstymo. Pacientai Pacientai paprastai gydomi vietoje. FL sukūrimas pasauliniu mastu galėtų užtikrinti aukštos kokybės klinikinius sprendimus, neatsižvelgiant į gydymo vietą. Visų pirma, pacientai, kuriems reikia medicininės priežiūros atokiose vietovėse, galėtų pasinaudoti tomis pačiomis aukštos kokybės ML padedamomis diagnozėmis, kurios yra prieinamos ligoninėse, kuriose yra daug atvejų. Tas pats pasakytina apie retas ar geografiniu požiūriu retas ligas, kurios gali turėti lengvesnių pasekmių, jei galima atlikti greitesnę ir tikslesnę diagnozę. FL taip pat gali sumažinti kliūtį tapti duomenų donoru, nes pacientai gali būti užtikrinti, kad duomenys lieka su savo institucija ir prieiga prie duomenų gali būti atšaukta. Ligoninės ir praktika Ligoninės ir praktikos gali likti visiškai kontroliuojamos ir valdo savo pacientų duomenis su visišku duomenų prieigos atsekamumu, ribojant trečiųjų šalių piktnaudžiavimo riziką. Tačiau tai reikalauja investicijų į vietinę skaičiavimo infrastruktūrą arba privačių debesies paslaugų teikimą ir laikymąsi standartizuotų ir sinoptinių duomenų formatų, kad ML modeliai galėtų būti mokomi ir vertinami sklandžiai. Reikiamų skaičiavimo pajėgumų suma, žinoma, priklauso nuo to, ar svetainė dalyvauja tik vertinimo ir bandymų pastangose, ar taip pat mokymo pastangose. Net santykinai mažos institucijos gali dalyvauti ir jos vis dar gaus naudos iš kolektyvinio modelio. Mokslininkai ir AI kūrėjai Mokslininkai ir AI kūrėjai gauna naudos iš galimybės naudotis potencialiai dideliu realaus pasaulio duomenų rinkiniu, kuris tikrai turės įtakos mažesnėms mokslinių tyrimų laboratorijoms ir pradedančiosioms įmonėms.Taigi, ištekliai gali būti nukreipti į klinikinių poreikių ir susijusių techninių problemų sprendimą, o ne remtis ribotu atvirų duomenų rinkinių tiekimu. , , . FL-based development implies also that the researcher or AI developer cannot investigate or visualise all of the data on which the model is trained, e.g., it is not possible to look at an individual failure case to understand why the current model performs poorly on it. 11 12 20 Sveikatos priežiūros paslaugų teikėjai Daugelyje šalių sveikatos priežiūros paslaugų teikėjams daro įtaką nuolatinis paradigmos perėjimas nuo tūrio pagrįsto, t. y. mokėjimo už paslaugas pagrįsto, į vertės pagrįstą sveikatos priežiūrą, kuri savo ruožtu yra glaudžiai susijusi su sėkmingu tikslinės medicinos įkūrimu.Tai ne apie brangesnių individualizuotų gydymo būdų skatinimą, bet apie geresnių rezultatų pasiekimą anksčiau per labiau orientuotą gydymą, taip sumažinant išlaidas. Gamintojai Sveikatos priežiūros programinės įrangos ir aparatūros gamintojai taip pat galėtų pasinaudoti FL, nes derinant mokymąsi iš daugelio prietaisų ir programų, neatskleidžiant konkrečios informacijos apie pacientą, gali būti palengvintas nuolatinis jų ML pagrįstų sistemų patvirtinimas ar tobulinimas. Techniniai aspektai FL yra galbūt labiausiai žinomas iš Konečnỳ et al. Darbo. Kiti apibrėžimai pateikiami literatūroje. , , , FL darbo srautas (Fig. ) gali būti realizuojamas naudojant skirtingas topologijas ir skaičiavimo planus (Fig. Šiame skyriuje mes išsamiau aptarsime, kas yra FL, taip pat atkreipsime dėmesį į pagrindinius iššūkius ir techninius aspektus, kylančius taikant FL skaitmeninėje sveikatos srityje. 55 9 11 12 20 1 2 Federacinio mokymosi apibrėžimas FL yra mokymosi paradigma, kurioje kelios šalys bendradarbiauja, nereikalaudamos keistis ar centralizuoti duomenų rinkinių. vietiniai nuostoliai, apskaičiuoti iš privačių duomenų , kuris gyvena atskirose dalyvaujančiose šalyse ir niekada nesiskiria tarp jų: K XK kur > 0 reiškia atitinkamus svorio koeficientus. VK Praktiškai kiekvienas dalyvis paprastai gauna ir tobulina pasaulinį konsensuso modelį, atlikdamas keletą optimizavimo etapų vietoje ir prieš dalindamasis atnaujinimais, tiesiogiai arba per parametrų serverį. ) , Faktinis parametrų agregavimo procesas priklauso nuo tinklo topologijos, nes mazgai dėl geografinių ar teisinių apribojimų gali būti atskirti į pogrupius. Agregacijos strategijos gali būti grindžiamos vienu agregavimo mazgu (hubo ir balso modeliais) arba keliais mazgais be jokio centralizavimo.Pavyzdys yra peer-to-peer FL, kur ryšiai egzistuoja tarp visų dalyvių arba jų pogrupio, o modelio atnaujinimai bendrinami tik tarp tiesiogiai susietų svetainių. , , whereas an example of centralised FL aggregation is given in Algorithm 1. Note that aggregation strategies do not necessarily require information about the full model update; clients might chose to share only a subset of the model parameters for the sake of reducing communication overhead, ensure better privacy preservation arba gaminti daugiafunkcinius mokymosi algoritmus, kurių tik dalis jų parametrų buvo išmokta federalizuotai. 1 9 12 2 15 56 10 Vienijanti sistema, leidžianti įvairias mokymo schemas, gali atskirti skaičiavimo išteklius (duomenis ir serverius) nuo , as depicted in Fig. Pastarasis apibrėžia modelio kelių partnerių trajektoriją, kurią reikia mokyti ir vertinti pagal konkrečius duomenų rinkinius. Kompiuterinis planas 2 Iššūkiai ir svarstymai Nepaisant FL privalumų, jis neišsprendžia visų problemų, susijusių su mokymuisi medicinos duomenimis.Sėkmingas modelio mokymas vis dar priklauso nuo tokių veiksnių kaip duomenų kokybė, šališkumas ir standartizavimas Šie klausimai turi būti išspręsti tiek federacinėms, tiek ne federacinėms mokymosi pastangoms taikant atitinkamas priemones, pvz., Atsargų studijų dizainą, bendrus duomenų rinkimo protokolus, struktūrizuotą ataskaitų teikimą ir sudėtingas metodikas šališkumams ir paslėptam stratifikacijai aptikti. , , . 2 11 12 20 Duomenų heterogeniškumas Medicinos duomenys yra ypač įvairūs – ne tik dėl įvairių būdų, matmenų ir charakteristikų apskritai, bet ir konkrečiame protokole dėl tokių veiksnių kaip įsigijimo skirtumai, medicinos prietaiso prekės ženklas ar vietinė demografija. FL gali padėti spręsti tam tikrus šališkumo šaltinius, galbūt padidėjus duomenų šaltinių įvairovei, tačiau nevienodas duomenų pasiskirstymas kelia iššūkį FL algoritmams ir strategijoms, nes daugelis prisiima nepriklausomai ir identiškai paskirstytus (IID) duomenis tarp dalyvių. Jie yra linkę žlugti tokiomis sąlygomis , , , iš dalies įveikiant patį bendradarbiavimo mokymosi strategijų tikslą.Naujausi rezultatai, tačiau rodo, kad FL mokymas vis dar įmanomas , even if medical data is not uniformly distributed across the institutions , arba įtraukti vietinį biasą Tyrimai, susiję su šia problema, apima, pavyzdžiui, , part-data-sharing strategy ir FL su domeno pritaikymu Kitas iššūkis yra tai, kad duomenų heterogeniškumas gali sukelti situaciją, kai pasaulinis optimalus sprendimas gali būti ne optimalus atskiram vietiniam dalyviui. Fetišas 9 9 57 58 59 16 17 51 FedProx 57 58 18 Privatumas ir saugumas Healthcare data is highly sensitive and must be protected accordingly, following appropriate confidentiality procedures. Therefore, some of the key considerations are the trade-offs, strategies and remaining risks regarding the privacy-preserving potential of FL. Privatumas prieš našumą: svarbu pažymėti, kad FL neišsprendžia visų galimų privatumo problemų ir, kaip ir ML algoritmai apskritai, visada kelia tam tikrą riziką. Tačiau yra kompromisas dėl našumo ir šie metodai gali turėti įtakos, pavyzdžiui, galutinio modelio tikslumui. . Furthermore, future techniques and/or ancillary data could be used to compromise a model previously considered to be low-risk. 12 10 Level of trust: Broadly speaking, participating parties can enter two types of FL collaboration: —for FL consortia in which all parties are considered trustworthy and are bound by an enforceable collaboration agreement, we can eliminate many of the more nefarious motivations, such as deliberate attempts to extract sensitive information or to intentionally corrupt the model. This reduces the need for sophisticated counter-measures, falling back to the principles of standard collaborative research. Pasitikėjo —in FL systems that operate on larger scales, it might be impractical to establish an enforceable collaborative agreement. Some clients may deliberately try to degrade performance, bring the system down or extract information from other parties. Hence, security strategies will be required to mitigate these risks such as, advanced encryption of model submissions, secure authentication of all parties, traceability of actions, differential privacy, verification systems, execution integrity, model confidentiality and protections against adversarial attacks. Nepatikimas Informacijos nutekėjimas: pagal apibrėžimą FL sistemos vengia dalytis sveikatos priežiūros duomenimis tarp dalyvaujančių institucijų. tačiau dalijamasi informacija vis dar gali netiesiogiai atskleisti privačius duomenis, naudojamus vietiniam mokymui, pvz., modelio inversija iš modelio atnaujinimų, patys gradientai arba priešininkų išpuolių , FL skiriasi nuo tradicinio mokymo, nes mokymo procesas yra veikiamas kelioms šalims, todėl padidėja nutekėjimo rizika per atvirkštinę inžineriją, jei priešininkai gali stebėti modelio pokyčius laikui bėgant, stebėti konkrečius modelio atnaujinimus (t. y. vienos institucijos atnaujinimus) arba manipuliuoti modeliu (pvz., sukelti papildomą kitų atminimą per gradiento-aukštėjimo stiliaus išpuolius). , and ensuring adequate differential privacy , gali būti reikalinga ir vis dar yra aktyvi mokslinių tyrimų sritis . 60 61 62 63 16 18 44 12 Atsakomybė ir atsekamumas Kaip ir visose saugai svarbiose programose, sistemos atkuriamumas yra svarbus FL sveikatos priežiūros srityje. Skirtingai nuo centralizuoto mokymo, FL reikalauja daugiašalių skaičiavimų aplinkoje, kurioje yra didelė įvairovė aparatūros, programinės įrangos ir tinklų atžvilgiu. Visų sistemos turto, įskaitant duomenų prieigos istoriją, mokymo konfigūracijas ir hiperparametrų nustatymą per mokymo procesus, atsekamumas yra privalomas. Ypač nepatikimose federacijose, atsekamumo ir atskaitomybės procesams reikia vykdymo vientisumo. Po to, kai mokymo procesas pasiekia abipusiškai sutartus modelio optimizavimo kriterijus, taip pat gali būti naudinga išmatuoti kiekvieno dalyvio indėlį, pvz., Viena iš FL pasekmių yra tai, kad mokslininkai negali ištirti duomenų, pagal kuriuos modeliai yra mokomi, kad būtų galima suprasti netikėtus rezultatus. Be to, statistinius jų mokymo duomenų matavimus kaip modelio kūrimo darbo eigos dalį turės patvirtinti bendradarbiaujančios šalys, nes jos nepažeidžia privatumo. Nors kiekviena svetainė turės prieigą prie savo žaliavų duomenų, federacijos gali nuspręsti teikti tam tikrą saugią vidinio mazgo peržiūros priemonę, kad atitiktų šį poreikį, arba gali suteikti kitą būdą, kaip padidinti pasaulinio modelio paaiškinamumą ir aiškinamumą. 64 System architecture Skirtingai nuo didelio masto FL tarp vartotojų prietaisų, tokių kaip McMahan et al. Sveikatos priežiūros institucijų dalyviai yra aprūpinti santykinai galingais skaičiavimo ištekliais ir patikimais, didesnio pralaidumo tinklais, leidžiančiais mokyti didesnius modelius su daug daugiau vietinių mokymo etapų ir dalytis daugiau modelio informacijos tarp mazgų.Šios unikalios FL savybės sveikatos priežiūros srityje taip pat kelia iššūkių, tokių kaip duomenų vientisumo užtikrinimas bendraujant naudojant perteklinius mazgus, saugių šifravimo metodų kūrimas, siekiant užkirsti kelią duomenų nutekėjimui, arba tinkamų mazgų tvarkaraščių kūrimas, siekiant kuo geriau išnaudoti paskirstytus skaičiavimo įrenginius ir sumažinti laisvalaikį. 9 Tokios federacijos administravimas gali būti įgyvendintas įvairiais būdais. Situacijose, kuriose reikalaujama griežčiausios duomenų privatumo tarp šalių, mokymas gali veikti per tam tikrą „sąžiningo brokerių“ sistemą, kurioje patikima trečioji šalis veikia kaip tarpininkas ir palengvina prieigą prie duomenų. Šis nustatymas reikalauja nepriklausomo subjekto, kontroliuojančio bendrą sistemą, o tai ne visada pageidautina, nes tai gali reikšti papildomas išlaidas ir procedūrinį klampumą. Tačiau jis turi pranašumą, kad tikslūs vidiniai mechanizmai gali būti pašalinti iš klientų, todėl sistema yra judresnė ir lengviau atnaujinama. Peer-to-peer sistemoje kiekviena svetainė tiesiogiai sąveikauja su kai kuriais ar visa Išvada ML, o ypač DL, sukūrė daug naujovių skaitmeninės sveikatos priežiūros srityje. Kadangi visi ML metodai labai naudoja galimybę pasiekti duomenis, kurie prilygsta tikrajam pasauliniam pasiskirstymui, FL yra perspektyvus požiūris į galingus, tikslius, saugius, tvirtus ir nešališkus modelius. Leidžiant kelioms šalims bendradarbiauti, nereikalaujant keistis ar centralizuoti duomenų rinkinių, FL švelniai sprendžia klausimus, susijusius su jautrių medicininių duomenų išsiskyrimu. Dėl to ji gali atverti naujus mokslinių tyrimų ir verslo kelius ir turi potencialo pagerinti pacientų priežiūrą visame pasaulyje. Tačiau jau šiandien FL turi įtakos beveik visiems suinteresuotiesiems subjektams ir visam gydymo ciklui, pradedant Nepaisant to, mes tikrai tikime, kad jo galimas poveikis tikslinei medicinai ir galiausiai medicinos priežiūros gerinimui yra labai perspektyvus. 12 Pranešimo santrauka Daugiau informacijos apie mokslinių tyrimų projektą galima rasti linked to this article. Nature Research Reporting Summary References LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. , 436 (2015). Nature 521 Wang, F., Casalino, L. P. & Khullar, D. Deep learning in medicine—promise, progress, and challenges. , 293–294 (2019). JAMA Intern. Med. 179 Chartrand, G. et al. Deep learning: a primer for radiologists. , 2113–2131 (2017). Radiographics 37 De Fauw, J. et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. , 1342 (2018). Nat. Med. 24 Sun, C., Shrivastava, A., Singh, S. & Gupta, A. Revisiting unreasonable effectiveness of data in deep learning era. In , 843–852 ( , 2017). Proceedings of the IEEE international conference on computer vision IEEE Van Panhuis, W. G. et al. A systematic review of barriers to data sharing in public health. , 1144 (2014). BMC Public Health 14 Rocher, L., Hendrickx, J. M. & De Montjoye, Y.-A. Estimating the success of re-identifications in incomplete datasets using generative models. , 1–9 (2019). Nat. Commun. 10 Schwarz, C. G. et al. Identification of anonymous mri research participants with face-recognition software. , 1684–1686 (2019). N. Engl. J. Med. 381 McMahan, B., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. In , 1273–1282. (2017). Artificial Intelligence and Statistics https://scholar.google.de/scholar?hl=de&as_sdt=0%2C5&q=Communicationefficient+learning+of+deep+networks+from+decentralized+data&btnG= Li, T., Sahu, A. K., Talwalkar, A. & Smith, V. Federated learning: Challenges, methods, and future directions. , 50–60 (IEEE, 2020). IEEE Signal Processing Magazine 37 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. (TIST) 10 Kairouz, P. et al. Advances and open problems in federated learning. (2019). arXiv preprint arXiv:1912.04977 Lee, J. et al. Privacy-preserving patient similarity learning in a federated environment: development and analysis. , e20 (2018). JMIR Med. Inform. 6 Brisimi, T. S. et al. Federated learning of predictive models from federated electronic health records. , 59–67 (2018). Int. J. Med. Inform. 112 Roy, A. G., Siddiqui, S., Pölsterl, S., Navab, N. & Wachinger, C. Braintorrent: a peer-to-peer environment for decentralized federated learning. (2019). arXiv preprint arXiv:1905.06731 Li, W. et al. Privacy-preserving federated brain tumour segmentation. In , 133–141 (Springer, 2019). International Workshop on Machine Learning in Medical Imaging Sheller, M. J., Reina, G. A., Edwards, B., Martin, J. & Bakas, S. Multi-institutional deep learning modeling without sharing patient data: a feasibility study on brain tumor segmentation. In , 92–104 (Springer, 2018). International MICCAI Brainlesion Workshop Li, X. et al. Multi-site fmri analysis using privacy-preserving federated learning and domain adaptation: abide results. (2020). arXiv preprint arXiv:2001.05647 Huang, L. et al. Patient clustering improves efficiency of federated machine learning to predict mortality and hospital stay time using distributed electronic medical records. , 103291 (2019). J. Biomed. Inform. 99 Xu, J. & Wang, F. Federated learning for healthcare informatics. (2019). arXiv preprint arXiv:1911.06270 Roy, A. & Banerjee, A. Ibm’s merge healthcare acquisitio . (2015) (Accessed 10 February 2020). n https://www.reuters.com/article/us-merge-healthcare-m-a-ibm/ibm-to-buy-merge-healthcare-in-1-billion-deal-idUSKCN0QB1ML20150806 Nhs scotland’s national safe haven. (2015) (Accessed 10 February 2020). https://www.gov.scot/publications/charter-safe-havens-scotland-handling-unconsented-data-national-health-service-patient-records-support-research-statistics/pages/4/ Cuggia, M. & Combes, S. The french health data hub and the german medical informatics initiatives: Two national projects to promote data sharing in healthcare. , 195–202 (2019). Yearbook Med. Informat. 28 Health Data Research UK. (Health Data Research UK, 2020) (Accessed 10 Feb 2020). https://www.hdruk.ac.uk/ Sporns, O., Tononi, G. & Kötter, R. The human connectome: a structural description of the human brain. . , e42, (2005). PLoS Comput. Biol 1 https://doi.org/10.1371/journal.pcbi.0010042 Sudlow, C. et al. Uk biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age. . , e1001779. (2015). PLoS Med 12 https://doi.org/10.1371/journal.pmed.1001779 Clark, K. et al. The cancer imaging archive (tcia): maintaining and operating a public information repository. , 1045–1057 (2013). J. Digit. Imaging. 26 Wang, X. et al. Chestx-ray8: Hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In , 2097–2106 ( , 2017). Proceedings of the IEEE conference on computer vision and pattern recognition IEEE Yan, K., Wang, X., Lu, L. & Summers, R. M. Deeplesion: automated mining of large-scale lesion annotations and universal lesion detection with deep learning. , 036501 (2018). J Med. Imaging. 5 Tomczak, K., Czerwińska, P. & Wiznerowicz, M. The cancer genome atlas (tcga): an immeasurable source of knowledge. , A68 (2015). Contemp. Oncol. 19 Jack Jr., C. R. et al. The alzheimer’s disease neuroimaging initiative (adni): Mri methods. , 685–691 (2008). J. Magn. Reson. Imaging 27 . (2020) (Accessed 24 July 2020). Grand Challenge-a Platform for End-to-end Development of Machine Learning Solutions in Biomedical Imaging https://grand-challenge.org/ Litjens, G. et al. 1399 h&e-stained sentinel lymph node sections of breast cancer patients: the camelyon dataset. , giy065 (2018). GigaScience 7 Menze, B. H. et al. The multimodal brain tumor image segmentation benchmark (brats). , 1993–2024 (2014). IEEE Trans. Med. Imaging 34 Bakas, S. et al. Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the brats challenge. (2018). arXiv preprint arXiv:1811.02629 Bakas, S. et al. Advancing the cancer genome atlas glioma MRI collections with expert segmentation labels and radiomic features. , 170117 (2017). Sci. Data 4 Simpson, A. L. et al. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. (2019). arXiv preprint arXiv:1902.09063 Yeh, F.-C. et al. Quantifying differences and similarities in whole-brain white matter architecture using local connectome fingerprints. , e1005203 (2016). PLoS Comput. Biol. 12 Chang, K. et al. Distributed deep learning networks among institutions for medical imaging. , 945–954 (2018). J. Am. Med. Inform. Assoc. 25 Shokri, R., Stronati, M., Song, C. & Shmatikov, V. Membership inference attacks against machine learning models. In , 3-18 (IEEE, 2017). 2017 IEEE Symposium on Security and Privacy (SP) Sablayrolles, A., Douze, M., Ollivier, Y., Schmid, C. & Jégou, H. White-box vs black-box: Bayes optimal strategies for membership inference. In Chaudhuri, K. & Salakhutdinov, R. (eds) , 5558–5567. (PMLR, 2019). Proceedings of the 36th International Conference on Machine Learning, {ICML} 97 http://proceedings.mlr.press/v97/sablayrolles19a.html Zhang, C., Bengio, S., Hardt, M., Recht, B. & Vinyals, O. Understanding deep learning requires rethinking generalization. In , (OpenReview.net, 2017). 5th International Conference on Learning Representations, {ICLR}. https://openreview.net/forum?id=Sy8gdB9xx Carlini, N., Liu, C., Erlingsson, Ú., Kos, J. & Song, D. The secret sharer: evaluating and testing unintended memorization in neural networks. In Heninger, N. & Traynor, P. (eds) { } ({ } , 267–284. ({USENIX} Association, Santa Clara, CA, USA, 2019). 28th USENIX Security Symposium USENIX Security 19 https://www.usenix.org/conference/usenixsecurity19/presentation/carlini Abadi, M. et al. Deep learning with differential privacy. In , 308–318 (ACM, 2016). Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In , 1310–1321 (ACM, 2015). Proceedings of the 22nd ACM SIGSAC conference on computer and communications security Langlotz, C. P. et al. A roadmap for foundational research on artificial intelligence in medical imaging: from the 2018 nih/rsna/acr/the academy workshop. , 781–791 (2019). Radiology 291 Kim, Y., Sun, J., Yu, H. & Jiang, X. Federated Tensor Factorization for Computational Phenotyping. In . 887–895. (ACM, Halifax, NS, Canada, 2017). Proceedings of the 23rd {ACM} {SIGKDD} International Conference on Knowledge Discoveryand Data Mining https://doi.org/10.1145/3097983.3098118 He, C., Annavaram, M. & Avestimehr, S. Fednas: Federated deep learning via neural architecture search. (2020). https://sites.google.com/view/cvpr20-nas/ Trustworthy federated data analytics (tfda). (2020) (Accessed 28 May 2020). https://tfda.hmsp.center/ Joint Imaging Platform (Jip). (2020) (Accessed 28 May 2020). https://jip.dktk.dkfz.de/jiphomepage/ Medical institutions collaborate to improve mammogram assessment ai. (2020) (Accessed 28 May 2020). https://blogs.nvidia.com/blog/2020/04/15/federated-learning-mammogram-assessment/ Healthchain consortium. (2020) (Accessed 28 May 2020). https://www.substra.ai/en/healthchain-project The federated tumor segmentation (fets) initiative. (2020) (Accessed 28 May 2020). https://www.fets.ai Machine learning ledger orchestration for drug discovery. (2020). Accessed 28 May 2020. https://cordis.europa.eu/project/id/831472 Konečny`, J., McMahan, H. B., Ramage, D. & Richtárik, P. Federated optimization: Distributed machine learning for on-device intelligence. (2016). arXiv preprint arXiv:1610.02527 Lalitha, A., Kilinc, O. C., Javidi, T. & Koushanfar, F. Peer-to-peer federated learning on graphs. (2019). arXiv preprint arXiv:1901.11173 Li, T., Sahu, A. K., Zaheer, M., Sanjabi, M., Talwalkar, A. & Smith, V. Federated optimization in heterogeneous networks. (2018). arXiv preprint arXiv:1812.06127 Zhao, Y. et al. Federated learning with non-iid data. (2018). arxivabs/1806.00582 Li, X., Huang, K., Yang, W., Wang, S. & Zhang, Z. On the convergence of fedavg on non-IID data. (2020). https://openreview.net/forum?id=HJxNAnVtDS Wu, B. et al. P3sgd: patient privacy preserving SGD for regularizing deep CNNs in pathological image classification. In (pp. 2099–2108) (2019). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Zhu, L., Liu, Z. & Han, S. Deep leakage from gradients. In Wallach, H. M. et al. (eds) , 14747–14756. (2019). Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems http://papers.nips.cc/paper/9617-deep-leakage-from-gradients Wang, Z. et al. Beyond inferring class representatives: user-level privacy leakage from federated learning. In 2512–2520. (IEEE, Paris, France, 2019). 2019 {IEEE} Conferenceon Computer Communications, {INFOCOM} https://doi.org/10.1109/INFOCOM.2019.8737416 Hitaj, B., Ateniese, G. & Perez-Cruz, F. Deep models under the gan: information leakage from collaborative deep learning. In , CCS’17, 603–618 (Association for Computing Machinery, New York, NY, USA, 2017). Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security Ghorbani, A. & Zou, J. Data shapley: Equitable valuation of data for machine learning. In (pp. 2242-2251) (2019). International Conference on Machine Learning Pripažinimai This work was supported by the UK Research and Innovation London Medical Imaging & Artificial Intelligence Centre for Value-Based Healthcare, by the Wellcome/EPSRC Centre for Medical Engineering (WT203148/Z/16/Z), by the Wellcome Flagship Programme (WT213038/Z/18/Z), by the Intramural Research Programme of the National Institutes of Health (NIH) Clinical Center, by the National Cancer Institute of the NIH under award number U01CA242871, by the National Institute of Neurological Disorders and Stroke of the NIH under award number R01NS042645, as well as by the Helmholtz Initiative and Networking Fund (project “Trustworthy Federated Data Analytics”) and the PRIME programme of the German Academic Exchange Service (DAAD) with funds from the German Federal Ministry of Education and Research (BMBF). The content and opinions expressed in this publication is solely the responsibility of the authors and do not necessarily represent those of the institutions they are affiliated with, e.g., the U.S. Department of Health and Human Services or the National Institutes of Health. Open access funding provided by Projekt DEAL. This paper is under CC by 4.0 Deed (Attribution 4.0 International) license. available on nature Šis popierius yra under CC by 4.0 Deed (Attribution 4.0 International) license. Prieinama gamtoje