AI průlom, který umožňuje nemocnicím trénovat algoritmy bez sdílení údajů o pacientech

Autoři : Nicola Rieke Jonny Hancox Wenqi Li Fausto Milletarì Holger R. Roth Shadi Albarqouni Spyridon Bakas Mathieu N. Galtier Bennett A. Landman Klaus Maier-Hein Sébastien Ourselin Micah Sheller Ronald M. Summers Andrew Trask Daguang Xu Maximilian Baust M. Jorge Cardoso Autoři : Nicola Riekeová Jonny Hancoxová Jiří Li Fausto Milletarí Holger R. Rothová Shadi Albarqouni Spyridon Baku Matěj N. Galtier Bennett A. Landmanová Klaus Maier-Heinová Sébastien Ourselin Micah Shellerová Ronald M. Summersová Andrej Trask Daguang Xu Maximilián Baust paní Jorge Cardosoová Abstraktní Stávající lékařská data nejsou plně využívána ML především proto, že leží v datových silách a obavy o ochranu soukromí omezují přístup k těmto údajům. Bez přístupu k dostatečným údajům však bude ML zabráněno dosáhnout svého plného potenciálu a v konečném důsledku přechodu z výzkumu na klinickou praxi. Tento dokument zvažuje klíčové faktory přispívající k tomuto problému, zkoumá, jak může federované učení (FL) poskytnout řešení pro budoucnost digitálního zdraví a zdůrazňuje výzvy a úvahy, které je třeba řešit. Úvodní Výzkum umělé inteligence (AI) a zejména pokroky v oblasti strojového učení (ML) a hlubokého učení (DL) Moderní modely DL obsahují miliony parametrů, které je třeba se naučit z dostatečně velkých kurovaných datových souborů, aby bylo dosaženo klinické úrovně přesnosti, přičemž jsou bezpečné, spravedlivé, spravedlivé a generalizují dobře k neviditelným datům , , , . 1 2 3 4 5 Například výcvik detektoru nádorů založeného na AI vyžaduje velkou databázi zahrnující plné spektrum možných anatomických, patologických a vstupních datových typů. I když by anonymizace dat mohla obejít tato omezení, je nyní dobře známo, že odstranění metadat, jako je jméno pacienta nebo datum narození, často nestačí k zachování soukromí. Je možné například rekonstruovat obličej pacienta z počítačové tomografie (CT) nebo dat magnetické rezonance (MRI). Dalším důvodem, proč sdílení dat není systematické ve zdravotnictví, je to, že shromažďování, kurování a udržování datového souboru vysoké kvality vyžaduje značné množství času, úsilí a nákladů.V důsledku toho mohou mít takové datové soubory významnou obchodní hodnotu, takže je méně pravděpodobné, že budou volně sdíleny. 6 7 8 Federativní učení (FL) , , je paradigma učení, která se snaží řešit problém správy dat a soukromí školením algoritmů společně bez výměny samotných dat. Původně vyvinut pro různé domény, jako jsou případy použití mobilních a okrajových zařízení , nedávno získala trakci pro zdravotnické aplikace , , , , , , , FL umožňuje získávat poznatky kolaborativně, např. ve formě konsenzusového modelu, aniž by data pacientů přesunula za hranice firewallů institucí, ve kterých žijí. Nedávný výzkum ukázal, že modely vyškolené FL mohou dosáhnout úrovní výkonu srovnatelných s těmi, které jsou vyškolené na centrálně hostovaných datových souborech a lepší než modely, které vidí pouze izolované jednoinstitucionální data. , . 9 10 11 12 13 14 15 16 17 18 19 20 1 16 17 FL agregace server – typický FL pracovního postupu, ve kterém federace tréninkových uzlů obdrží globální model, předloží své částečně vyškolené modely do centrálního serveru intermitentně pro agregaci a pak pokračuje v tréninku na modelu konsensu, který server vrací. FL peer to peer – alternativní formulace FL, ve kterém každý tréninkový uzel vyměňuje své částečně vyškolené modely s některými nebo všemi svými vrstevníky a každý provádí svou vlastní agregaci. Centralizované školení – obecný pracovní postup mimo FL školení, ve kterém stránky získávající data darují data do centrálního datového jezera, ze kterého oni a další mohou extrahovat data pro místní, nezávislé školení. a b c Úspěšná implementace FL by tedy mohla mít významný potenciál pro umožnění přesné medicíny ve velkém měřítku, což by vedlo k modelům, které přinášejí nestranná rozhodnutí, optimálně odrážejí fyziologii jednotlivce a jsou citlivé na vzácná onemocnění a zároveň respektují záležitosti týkající se správy a soukromí. Předvídáme federovanou budoucnost pro digitální zdraví a s tímto perspektivním dokumentem sdílíme náš konsensusní názor s cílem poskytnout komunitě kontext a podrobnosti o výhodách a dopadu FL pro lékařské aplikace (oddíl „Data-driven medicine requires federated efforts“), stejně jako zdůraznění klíčových úvah a výzev implementace FL pro digitální zdraví (oddíl „Technické úvahy“). Data-driven medicína vyžaduje federalizované úsilí ML a zejména DL se stává de facto přístupem k objevování znalostí v mnoha průmyslových odvětvích, ale úspěšná implementace aplikací založených na datech vyžaduje velké a rozmanité datové sady. Nicméně, zdravotnické datové sady jsou obtížné získat (pododdíl „Závislost na datech“). FL řeší tento problém tím, že umožňuje kolaborativní učení bez centralizace dat (pododdíl „Slib federovaných úsilí“) a již našel cestu k digitálním zdravotnickým aplikacím (pododdíl „Aktuální FL úsilí o digitální zdraví“). Závislost na datech Ačkoli je to dobře známý požadavek, nejmodernější algoritmy jsou obvykle vyhodnocovány na pečlivě kurovaných datových souborech, často pocházejících pouze z několika zdrojů. To může zavést předsudky, kde demografie (např. pohlaví, věk) nebo technická nerovnováha (např. akvizice protokol, výrobce zařízení) zkreslují předpovědi a nepříznivě ovlivňují přesnost pro určité skupiny nebo místa. Potřeba velkých databází pro výcvik v oblasti umělé inteligence vyvolala mnoho iniciativ, které se snaží shromažďovat data z více institucí.Tato data jsou často shromažďována do takzvaných datových jezer.Tato data byla vybudována s cílem využít buď komerční hodnotu dat, např. akvizice IBM Merge Healthcare. , nebo jako zdroj pro hospodářský růst a vědecký pokrok, např. Národní bezpečný přístav NHS Skotska Francouzské datové centrum pro zdravotnictví , a Health Data Research UK . 21 22 23 24 Podstatné, i když menší, iniciativy zahrnují Human Connectome Velká Británie Biobank Archiv pro zobrazování rakoviny (Cancer Imaging Archive, TCIA) Příslušenství NIH CXR8 NIH DeepLesion Atlas genomu rakoviny (TCGA) Alzheimerova nemoc Neuroimaging Initiative (ADNI) stejně jako velké zdravotní výzvy Jak na Camelion Challenge Mezinárodní výzva pro multimodální segmentování mozkových nádorů (BraTS) , , Lékařská segmentace Decathlon . Public medical data is usually task- or disease-specific and often released with varying degrees of license restrictions, sometimes limiting its exploitation. 25 26 27 28 29 30 31 32 33 34 35 36 37 Centralizace nebo uvolňování údajů však představuje nejen regulační, etické a právní výzvy související s ochranou soukromí a údajů, ale také technické výzvy.Anonymizace, kontrola přístupu a bezpečný přenos údajů o zdravotní péči je ne-triviální a někdy nemožný úkol.Anonymizované údaje z elektronického zdravotního záznamu se mohou zdát neškodné a v souladu s GDPR/PHI, ale jen několik datových prvků může umožnit opětovnou identifikaci pacientů Totéž platí pro genomická data a lékařské obrazy, které je činí tak jedinečnými jako otisky prstů. Proto, pokud proces anonymizace nezničí věrnost údajů, pravděpodobně je učiní zbytečnými, nelze vyloučit opětovnou identifikaci pacienta nebo únik informací.Gated access pro schválené uživatele je často navržen jako hypotetické řešení tohoto problému. nicméně, kromě omezení dostupnosti údajů, je to praktické pouze v případech, kdy je souhlas udělený vlastníky údajů bezpodmínečný, protože stažení dat od těch, kteří mohli mít přístup k údajům, je prakticky nevymahatelné. 7 38 Sliby federálních snah Slib společnosti FL je jednoduchý – řešit výzvy týkající se ochrany soukromí a správy dat tím, že umožní ML z dat, které nejsou umístěny společně. V nastavení FL, každý správce dat nejen definuje své vlastní procesy správy a související zásady ochrany osobních údajů, ale také kontroluje přístup k datům a má schopnost je zrušit. To zahrnuje jak školení, tak fázi validace. Tímto způsobem by FL mohl vytvořit nové příležitosti, např. umožněním rozsáhlé, vnitrostátní validace nebo novým výzkumem vzácných onemocnění, kde jsou míry incidentů nízké a datové soubory v každé instituci jsou příliš malé. Přesunutí modelu na data a nikoli naopak má další velkou výhodu: vysoce dimenzionální, úložné lékař Jak je znázorněno na Fig. , FL workflow lze realizovat s různými topologiemi a výpočetními plány.Dva nejběžnější pro aplikace zdravotní péče jsou prostřednictvím agregovaného serveru , , Peer to peer přiblížení , Ve všech případech FL implicitně nabízí určitý stupeň soukromí, protože účastníci FL nikdy nemají přímý přístup k údajům od jiných institucí a dostávají pouze parametry modelu, které jsou agregovány přes několik účastníků.V pracovním postupu FL se serverem agregace mohou zúčastněné instituce dokonce zůstat navzájem neznámé. , , , Proto mechanismy, jako je diferenciální soukromí , nebo bylo navrženo učení se z šifrovaných dat s cílem dále zvýšit soukromí v prostředí FL (srov. oddíl „Technické úvahy“). a techniky FL jsou rostoucí oblastí výzkumu , . 2 16 17 18 15 39 40 41 42 43 44 45 46 12 20 FL topologie – komunikační architektura federace. Centralizovaný: agregovací server koordinuje iterace výcviku a shromažďuje, agreguje a distribuuje modely do a z výcvikových uzlů (Hub & Spoke). Decentralizované: Každý tréninkový uzel je spojen s jedním nebo více vrstevníky a agregace probíhá na každém uzlu paralelně. Hierarchické: federované sítě mohou být složeny z několika podfederací, které mohou být postaveny ze směsi peer-to-peer a agregovaných serverových federací ( FL výpočetní plány – trajektorie modelu mezi několika partnery. Sekvenční vzdělávání / cyklické transferové učení. agregace serverů, Peer to peer – Peer to peer a b c d e f g Současné úsilí FL o digitální zdraví Vzhledem k tomu, že FL je paradigma všeobecného učení, která odstraňuje požadavek na shromažďování dat pro vývoj modelů umělé inteligence, rozsah aplikací FL pokrývá celou oblast umělé inteligence pro zdravotní péči.Tím, že poskytuje příležitost zachytit větší variabilitu dat a analyzovat pacienty v různých demografiích, FL může umožnit disruptivní inovace pro budoucnost, ale je také používán právě teď. V kontextu elektronických zdravotních záznamů (EHR) například FL pomáhá reprezentovat a nalézt klinicky podobné pacienty. , , stejně jako předpovídání hospitalizací v důsledku srdečních událostí Úmrtnost a doba pobytu v ICU Aplikovatelnost a výhody FL byly také prokázány v oblasti lékařského zobrazování, pro segmentování celého mozku v MRI , stejně jako segmentace mozkových nádorů , Nedávno byla technika použita pro klasifikaci fMRI k nalezení spolehlivých biomarkérů souvisejících s chorobami. a navrhl jako slibný přístup v kontextu COVID-19 . 13 47 14 19 15 16 17 18 48 Stojí za zmínku, že úsilí FL vyžaduje dohody o vymezení rozsahu, cíle a používaných technologií, které, jelikož jsou stále nové, mohou být obtížně definovatelné. Jedná se o konsorcia, jejichž cílem je rozvíjet Výzkum, například projekt Trustworthy Federated Data Analytics (TFDA) Společná obrazová platforma Německého konzorcia pro rakovinu Další příkladem je mezinárodní výzkumná spolupráce, která využívá FL pro vývoj modelů AI pro hodnocení mammogramů. Studie ukázala, že modely generované FL převyšovaly modely vyškolené na základě údajů jednoho institutu a byly obecnější, takže se stále dařilo na základě dat jiných institutů. akademické 49 50 51 Spojením zdravotnických zařízení, které nejsou omezeny na výzkumná střediska, může mít FL přímou Dopad: probíhající projekt HealthChain , například, si klade za cíl vyvinout a nasadit rámec FL ve čtyřech nemocnicích ve Francii. Toto řešení vytváří společné modely, které mohou předpovídat odpověď na léčbu u pacientů s rakovinou prsu a melanomem. Pomáhá onkologům určit nejúčinnější léčbu pro každého pacienta z jejich histologických snímků nebo snímků dermoskopie. , která je mezinárodní federací 30 zavedených zdravotnických institucí používajících open-source FL rámec s grafickým uživatelským rozhraním.Cílem je zlepšit detekci hraničních nádorů, včetně mozkových gliomů, nádorů prsu, jaterních nádorů a lézí kostí u pacientů s více myelomy. Klinické 52 53 Další oblastí dopadu je výzkum a překlad. FL umožňuje kolaborativní výzkum i pro konkurenční firmy.V tomto kontextu je jednou z největších iniciativ projekt Melloddy Jedná se o projekt zaměřený na nasazení multi-task FL v datových souborech 10 farmaceutických společností.Trenem společného prediktivního modelu, který odráží, jak se chemické sloučeniny váží na bílkoviny, mají partneři v úmyslu optimalizovat proces objevování léků, aniž by odhalili své vysoce cenné interní údaje. průmyslové 54 Dopad na zúčastněné strany FL zahrnuje posun paradigmatu od centralizovaných datových jezer a je důležité pochopit jeho dopad na různé zúčastněné strany v ekosystému FL. Kliniky Lékaři jsou obvykle vystaveni podskupině populace založené na jejich poloze a demografickém prostředí, což může vést k zaujatým předpokladům ohledně pravděpodobnosti určitých onemocnění nebo jejich vzájemného propojení. Použitím systémů založených na ML, např. jako druhého čtenáře, mohou zvýšit své vlastní odborné znalosti s odbornými znalostmi z jiných institucí, což zajišťuje konzistentnost diagnózy, která dnes není dosažitelná. Zatímco se to vztahuje na systém založený na ML obecně, systémy vyškolené federativním způsobem jsou potenciálně schopny přinést ještě méně zaujatá rozhodnutí a vyšší citlivost na vzácné případy, protože byly pravděpodobně vystaveny komplexnějšímu Pacienti Pacienti jsou obvykle léčeni lokálně. Stanovení FL v celosvětovém měřítku by mohlo zajistit vysokou kvalitu klinických rozhodnutí bez ohledu na místo léčby. Zejména pacienti, kteří vyžadují lékařskou péči ve vzdálených oblastech, by mohli těžit ze stejných vysoce kvalitních diagnóz podporovaných ML, které jsou k dispozici v nemocnicích s velkým počtem případů. Totéž platí pro vzácné nebo geograficky neobvyklé nemoci, které mohou mít mírnější důsledky, pokud lze provést rychlejší a přesnější diagnózy. FL může také snížit překážku stát se dárcem dat, protože pacienti mohou být ujištěni, že data zůstávají u své vlastní instituce a přístup k datům může být zrušen. Nemocnice a praxe Nemocnice a praxe mohou zůstat v plné kontrolě a držení svých dat pacientů s plnou sledovatelností přístupu k datům, což omezuje riziko zneužití třetími stranami. Nicméně to bude vyžadovat investice do on-premise výpočetní infrastruktury nebo poskytování soukromých cloudových služeb a dodržování standardizovaných a synoptických datových formátů, takže modely ML mohou být bezproblémově vyškoleny a vyhodnoceny. Výzkumníci a vývojáři Výzkumníci a vývojáři umělé inteligence budou mít prospěch z přístupu k potenciálně rozsáhlé sbírce reálných dat, což jistě ovlivní menší výzkumné laboratoře a start-upy.Tímto způsobem mohou být zdroje zaměřeny na řešení klinických potřeb a souvisejících technických problémů namísto spoléhání se na omezenou nabídku otevřených datových souborů. , , Vývoj založený na FL také znamená, že výzkumník nebo vývojář umělé inteligence nemůže zkoumat nebo vizualizovat všechna data, na kterých je model vyškolen, např. není možné se podívat na jednotlivý případ selhání, aby pochopil, proč aktuální model na něm funguje špatně. 11 12 20 Poskytovatelé zdravotní péče Poskytovatelé zdravotní péče v mnoha zemích jsou ovlivněni probíhající paradigmatickou změnou z objemové, tj. na základě poplatků za služby, na hodnotovou zdravotní péči, která je zase silně spojena s úspěšným zavedením přesné medicíny.Nejde o podporu dražších individualizovaných terapií, ale spíše o dosažení lepších výsledků dříve prostřednictvím více zaměřené léčby, čímž se snižují náklady.FL má potenciál zvýšit přesnost a robustnost zdravotní péče AI, přičemž snižuje náklady a zlepšuje výsledky pacientů, a proto může být životně důležité pro přesnou medicínu. Výrobci Výrobci zdravotnického softwaru a hardwaru by také mohli těžit z FL, protože kombinace učení z mnoha zařízení a aplikací, aniž by odhalila informace specifické pro pacienta, může usnadnit nepřetržité ověřování nebo zlepšování jejich systémů založených na ML. Technické úvahy FL je možná nejlépe známý z práce Konečnỳ et al. , ale v literatuře byly navrženy různé jiné definice , , , A FL workflow (Fig. ) lze realizovat prostřednictvím různých topologií a výpočetních plánů (obr. V této sekci budeme podrobněji diskutovat o tom, co je FL, stejně jako zdůraznit klíčové výzvy a technické úvahy, které vznikají při aplikaci FL v digitálním zdraví. 55 9 11 12 20 1 2 Definice federálního učení FL je paradigma učení, ve kterém více stran trénuje společně bez nutnosti výměny nebo centralizace datových souborů. místní ztráty, vypočtené z soukromých údajů , který má bydliště u jednotlivých zúčastněných stran a nikdy mezi nimi nesdílel: K xk kde > 0 označuje příslušné hmotnostní koeficienty. WK V praxi každý účastník obvykle získává a zdokonaluje globální konsenzusový model tím, že provádí několik kol optimalizace lokálně a před sdílením aktualizací, a to buď přímo nebo prostřednictvím parametrického serveru. ) , Skutečný proces agregace parametrů závisí na síťové topologii, protože uzly mohou být segregovány do podsítí v důsledku zeměpisných nebo právních omezení (viz Obr. Agregační strategie se mohou spoléhat na jeden agregující uzel (modely hubu a řečníků) nebo na více uzelů bez jakékoli centralizace. Příkladem je peer-to-peer FL, kde existují spojení mezi všemi nebo podskupinou účastníků a aktualizace modelu jsou sdíleny pouze mezi přímo propojenými weby. , Vezměte prosím na vědomí, že strategie agregace nemusí nutně vyžadovat informace o úplné aktualizaci modelu; zákazníci se mohou rozhodnout sdílet pouze podskupinu parametrů modelu pro účely snížení komunikace a zajištění lepšího zachování soukromí. nebo vytvářet multi-task učení algoritmy, které mají pouze část svých parametrů naučil federovaným způsobem. 1 9 12 2 15 56 10 Jednotný rámec umožňující různé vzdělávací schémata může oddělovat výpočetní zdroje (údaje a servery) od Jak je znázorněno na Fig. Ten definuje trajektorii modelu napříč několika partnery, který má být vyškolen a vyhodnocen na konkrétních datových souborech. Počítačový plán 2 Výzvy a úvahy Navzdory výhodám FL neřeší všechny problémy, které jsou vlastní učení se o lékařských datech. Úspěšný modelový výcvik stále závisí na faktorech, jako je kvalita dat, předsudky a standardizace Tyto problémy je třeba řešit pro federované i nefederované vzdělávací úsilí prostřednictvím vhodných opatření, jako je pečlivý studijní design, společné protokoly pro získávání dat, strukturované vykazování a sofistikované metodiky pro objevování předsudků a skrytých stratifikací. , , . 2 11 12 20 Data heterogeneity Lékařská data jsou obzvláště rozmanitá – nejen kvůli rozmanitosti způsobů, rozměrnosti a charakteristik obecně, ale i v rámci konkrétního protokolu kvůli faktorům, jako jsou rozdíly v získávání, značka zdravotnického prostředku nebo místní demografie. FL může pomoci řešit určité zdroje předsudků prostřednictvím potenciálně zvýšené rozmanitosti zdrojů dat, ale nehomogenní distribuce dat představuje výzvu pro algoritmy a strategie FL, protože mnozí předpokládají nezávisle a identicky distribuované (IID) údaje mezi účastníky. Jsou ochotni za těchto podmínek selhat , , , částečně porazil samotný účel strategií spolupráce učení. nedávné výsledky však naznačují, že FL školení je stále proveditelné i v případě, že zdravotní údaje nejsou rovnoměrně rozloženy mezi jednotlivými institucemi , nebo zahrnuje místní bias Výzkum řešící tento problém zahrnuje například Strategie sdílení částečných dat a FL s doménovou adaptací Další výzvou je, že heterogenita dat může vést k situaci, kdy globální optimální řešení nemusí být optimální pro jednotlivého místního účastníka. Fedavg 9 9 57 58 59 16 17 51 FedProx 57 58 18 Soukromí a bezpečnost Údaje o zdravotní péči jsou vysoce citlivé a musí být odpovídajícím způsobem chráněny v souladu s příslušnými postupy důvěrnosti.Některé z klíčových úvah jsou proto kompromisy, strategie a zbývající rizika týkající se potenciálu FL v oblasti ochrany soukromí. Soukromí vs. výkon: Je důležité si uvědomit, že FL neřeší všechny potenciální problémy soukromí a – podobně jako algoritmy ML obecně – budou vždy nést určité rizika. Nicméně existuje kompromis z hlediska výkonu a tyto techniky mohou ovlivnit například přesnost konečného modelu. Navíc budoucí techniky a/nebo pomocné údaje by mohly být použity k ohrožení modelu, který byl dříve považován za model s nízkým rizikem. 12 10 Úroveň důvěry: Obecně řečeno, zúčastněné strany mohou vstoupit do dvou typů spolupráce FL: — pro konsorcia FL, v nichž jsou všechny strany považovány za důvěryhodné a jsou vázány vymahatelnou dohodou o spolupráci, můžeme odstranit mnoho z nešvarnějších motivací, jako jsou úmyslné pokusy o získání citlivých informací nebo úmyslné zkorumpování modelu. Důvěryhodný —V systémech FL, které fungují ve větším měřítku, může být nepraktické vytvořit vymahatelnou dohodu o spolupráci. Někteří klienti se mohou záměrně pokusit snížit výkon, snížit výkon systému nebo extrahovat informace od jiných stran. Proto budou vyžadovány bezpečnostní strategie ke zmírnění těchto rizik, jako je pokročilé šifrování předložených modelů, zabezpečené ověřování všech stran, sledovatelnost akcí, diferenciální soukromí, ověřovací systémy, integrita provádění, důvěrnost modelů a ochrana proti útokům protivníků. Nespolehlivý Únik informací: Systémy FL se podle definice vyhýbají sdílení údajů o zdravotní péči mezi zúčastněnými institucemi.Sdílené informace však mohou stále nepřímo vystavovat soukromé údaje používané pro místní školení, např. inverzí modelu z modelových aktualizací, samotné gradienty nebo protiútoky , FL se liší od tradičního tréninku v tom, že tréninkový proces je vystaven více stranám, čímž se zvyšuje riziko úniku prostřednictvím reverzního inženýrství, pokud soupeři mohou pozorovat změny modelu v průběhu času, pozorovat specifické aktualizace modelu (tj. aktualizace jedné instituce) nebo manipulovat s modelem (např. indukovat další zapamatování ostatními prostřednictvím gradient-ascent-style útoků). , a zajištění odpovídajícího diferenciálního soukromí , může být zapotřebí a je stále aktivní oblast výzkumu . 60 61 62 63 16 18 44 12 Sledovatelnost a odpovědnost Stejně jako u všech bezpečnostně kritických aplikací je pro FL ve zdravotnictví důležitá reprodukovatelnost systému. Na rozdíl od centralizovaného školení vyžaduje FL multi-party výpočty v prostředích, které vykazují značnou rozmanitost z hlediska hardwaru, softwaru a sítí. Sledovatelnost všech systémových aktiv včetně historie přístupu k datům, tréninkových konfigurací a nastavení hyperparametrů v průběhu vzdělávacích procesů je tedy povinná. Zejména v nedůvěryhodných federacích vyžadují procesy sledovatelnosti a zodpovědnosti integritu provádění. Jakmile školení dosáhne vzájemně dohodnutých kritérií optimalizace modelu, může být také užitečné měřit výši příspěvku každého účastníka, jako jsou výpočet Jedním z důsledků FL je, že výzkumní pracovníci nejsou schopni zkoumat data, na nichž jsou modely vyškoleny, aby získaly smysl pro neočekávané výsledky. Navíc, statistické měření jejich vzdělávacích dat jako součást pracovního postupu pro vývoj modelu bude muset být schváleno spolupracujícími stranami, protože neporušují soukromí. Ačkoli každá stránka bude mít přístup k vlastním surovým datům, federace se mohou rozhodnout poskytnout nějaký druh bezpečného vnitřního prohlížení v uzlu, aby uspokojily tuto potřebu, nebo mohou poskytnout nějaký jiný způsob, jak zvýšit vysvětlitelnost a interpretovatelnost globálního modelu. 64 Systémová architektura Na rozdíl od provozování rozsáhlého FL mezi spotřebitelskými zařízeními, jako je McMahan et al. Účastníci zdravotnických institucí jsou vybaveni relativně výkonnými výpočetními zdroji a spolehlivými sítěmi s vyšším průtokem, které umožňují školení větších modelů s mnohem více místními tréninkovými kroky a sdílení více modelových informací mezi uzly.Tyto jedinečné vlastnosti FL ve zdravotnictví také přinášejí výzvy, jako je zajištění integrity dat při komunikaci pomocí redundantních uzlin, navrhování bezpečných šifrovacích metod, aby se zabránilo úniku dat, nebo navrhování vhodných uzlových plánovačů, aby se co nejlépe využilo distribuovaných výpočetních zařízení a snížila se doba nečinnosti. 9 Správa takové federace může být realizována různými způsoby. V situacích, které vyžadují nejpřísnější soukromí dat mezi stranami, může školení fungovat prostřednictvím nějakého typu systému „čestného makléře“, ve kterém důvěryhodná třetí strana působí jako zprostředkovatel a usnadňuje přístup k datům. Toto nastavení vyžaduje nezávislou entitu řídící celkový systém, což nemusí být vždy žádoucí, protože by mohlo zahrnovat dodatečné náklady a procedurální viskozitu. Nicméně má výhodu, že přesné vnitřní mechanismy mohou být abstraktní od klientů, čímž se systém stává agilnějším a jednodušším k aktualizaci. V systému peer-to-peer každá stránka komunikuje přímo s někter Závěr ML, a zejména DL, vedla k široké škále inovací v oblasti digitální zdravotní péče. Vzhledem k tomu, že všechny metody ML mají velký prospěch ze schopnosti přístupu k datům, které se přibližují skutečnému globálnímu rozdělení, FL je slibným přístupem k získání výkonných, přesných, bezpečných, robustních a nestranných modelů. Díky tomu, že umožňují více stran spolupracovat bez nutnosti výměny nebo centralizace datových souborů, FL řádně řeší problémy související s výstupem citlivých lékařských dat. V důsledku toho může otevřít nové výzkumné a obchodní cesty a má potenciál zlepšit péči o pacienty na celém světě. Nicméně již dnes má FL dopad na téměř všechny zúčastněné strany a celý Navzdory tomu skutečně věříme, že jeho potenciální dopad na přesnou medicínu a v konečném důsledku zlepšení zdravotní péče je velmi slibný. 12 Shrnutí zprávy Další informace o výzkumu jsou k dispozici na připojený k tomuto článku. Přehled výzkumů v přírodě Reference LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. , 436 (2015). Nature 521 Wang, F., Casalino, L. P. & Khullar, D. Deep learning in medicine—promise, progress, and challenges. , 293–294 (2019). JAMA Intern. Med. 179 Chartrand, G. et al. Deep learning: a primer for radiologists. , 2113–2131 (2017). Radiographics 37 De Fauw, J. et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. , 1342 (2018). Nat. Med. 24 Sun, C., Shrivastava, A., Singh, S. & Gupta, A. Revisiting unreasonable effectiveness of data in deep learning era. In , 843–852 ( , 2017). Proceedings of the IEEE international conference on computer vision IEEE Van Panhuis, W. G. et al. A systematic review of barriers to data sharing in public health. , 1144 (2014). BMC Public Health 14 Rocher, L., Hendrickx, J. M. & De Montjoye, Y.-A. Estimating the success of re-identifications in incomplete datasets using generative models. , 1–9 (2019). Nat. Commun. 10 Schwarz, C. G. et al. Identification of anonymous mri research participants with face-recognition software. , 1684–1686 (2019). N. Engl. J. Med. 381 McMahan, B., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. In , 1273–1282. (2017). Artificial Intelligence and Statistics https://scholar.google.de/scholar?hl=de&as_sdt=0%2C5&q=Communicationefficient+learning+of+deep+networks+from+decentralized+data&btnG= Li, T., Sahu, A. K., Talwalkar, A. & Smith, V. Federated learning: Challenges, methods, and future directions. , 50–60 (IEEE, 2020). IEEE Signal Processing Magazine 37 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. (TIST) 10 Kairouz, P. et al. Advances and open problems in federated learning. (2019). arXiv preprint arXiv:1912.04977 Lee, J. et al. Privacy-preserving patient similarity learning in a federated environment: development and analysis. , e20 (2018). JMIR Med. Inform. 6 Brisimi, T. S. et al. Federated learning of predictive models from federated electronic health records. , 59–67 (2018). Int. J. Med. Inform. 112 Roy, A. G., Siddiqui, S., Pölsterl, S., Navab, N. & Wachinger, C. Braintorrent: a peer-to-peer environment for decentralized federated learning. (2019). arXiv preprint arXiv:1905.06731 Li, W. et al. Privacy-preserving federated brain tumour segmentation. In , 133–141 (Springer, 2019). International Workshop on Machine Learning in Medical Imaging Sheller, M. J., Reina, G. A., Edwards, B., Martin, J. & Bakas, S. Multi-institutional deep learning modeling without sharing patient data: a feasibility study on brain tumor segmentation. In , 92–104 (Springer, 2018). International MICCAI Brainlesion Workshop Li, X. et al. Multi-site fmri analysis using privacy-preserving federated learning and domain adaptation: abide results. (2020). arXiv preprint arXiv:2001.05647 Huang, L. et al. Patient clustering improves efficiency of federated machine learning to predict mortality and hospital stay time using distributed electronic medical records. , 103291 (2019). J. Biomed. Inform. 99 Xu, J. & Wang, F. Federated learning for healthcare informatics. (2019). arXiv preprint arXiv:1911.06270 Roy, A. & Banerjee, A. Ibm’s merge healthcare acquisitio . (2015) (Accessed 10 February 2020). n https://www.reuters.com/article/us-merge-healthcare-m-a-ibm/ibm-to-buy-merge-healthcare-in-1-billion-deal-idUSKCN0QB1ML20150806 Nhs scotland’s national safe haven. (2015) (Accessed 10 February 2020). https://www.gov.scot/publications/charter-safe-havens-scotland-handling-unconsented-data-national-health-service-patient-records-support-research-statistics/pages/4/ Cuggia, M. & Combes, S. The french health data hub and the german medical informatics initiatives: Two national projects to promote data sharing in healthcare. , 195–202 (2019). Yearbook Med. Informat. 28 Health Data Research UK. (Health Data Research UK, 2020) (Accessed 10 Feb 2020). https://www.hdruk.ac.uk/ Sporns, O., Tononi, G. & Kötter, R. The human connectome: a structural description of the human brain. . , e42, (2005). PLoS Comput. Biol 1 https://doi.org/10.1371/journal.pcbi.0010042 Sudlow, C. et al. Uk biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age. . , e1001779. (2015). PLoS Med 12 https://doi.org/10.1371/journal.pmed.1001779 Clark, K. et al. The cancer imaging archive (tcia): maintaining and operating a public information repository. , 1045–1057 (2013). J. Digit. Imaging. 26 Wang, X. et al. Chestx-ray8: Hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In , 2097–2106 ( , 2017). Proceedings of the IEEE conference on computer vision and pattern recognition IEEE Yan, K., Wang, X., Lu, L. & Summers, R. M. Deeplesion: automated mining of large-scale lesion annotations and universal lesion detection with deep learning. , 036501 (2018). J Med. Imaging. 5 Tomczak, K., Czerwińska, P. & Wiznerowicz, M. The cancer genome atlas (tcga): an immeasurable source of knowledge. , A68 (2015). Contemp. Oncol. 19 Jack Jr., C. R. et al. The alzheimer’s disease neuroimaging initiative (adni): Mri methods. , 685–691 (2008). J. Magn. Reson. Imaging 27 . (2020) (Accessed 24 July 2020). Grand Challenge-a Platform for End-to-end Development of Machine Learning Solutions in Biomedical Imaging https://grand-challenge.org/ Litjens, G. et al. 1399 h&e-stained sentinel lymph node sections of breast cancer patients: the camelyon dataset. , giy065 (2018). GigaScience 7 Menze, B. H. et al. The multimodal brain tumor image segmentation benchmark (brats). , 1993–2024 (2014). IEEE Trans. Med. Imaging 34 Bakas, S. et al. Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the brats challenge. (2018). arXiv preprint arXiv:1811.02629 Bakas, S. et al. Advancing the cancer genome atlas glioma MRI collections with expert segmentation labels and radiomic features. , 170117 (2017). Sci. Data 4 Simpson, A. L. et al. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. (2019). arXiv preprint arXiv:1902.09063 Yeh, F.-C. et al. Quantifying differences and similarities in whole-brain white matter architecture using local connectome fingerprints. , e1005203 (2016). PLoS Comput. Biol. 12 Chang, K. et al. Distributed deep learning networks among institutions for medical imaging. , 945–954 (2018). J. Am. Med. Inform. Assoc. 25 Shokri, R., Stronati, M., Song, C. & Shmatikov, V. Membership inference attacks against machine learning models. In , 3-18 (IEEE, 2017). 2017 IEEE Symposium on Security and Privacy (SP) Sablayrolles, A., Douze, M., Ollivier, Y., Schmid, C. & Jégou, H. White-box vs black-box: Bayes optimal strategies for membership inference. In Chaudhuri, K. & Salakhutdinov, R. (eds) , 5558–5567. (PMLR, 2019). Proceedings of the 36th International Conference on Machine Learning, {ICML} 97 http://proceedings.mlr.press/v97/sablayrolles19a.html Zhang, C., Bengio, S., Hardt, M., Recht, B. & Vinyals, O. Understanding deep learning requires rethinking generalization. In , (OpenReview.net, 2017). 5th International Conference on Learning Representations, {ICLR}. https://openreview.net/forum?id=Sy8gdB9xx Carlini, N., Liu, C., Erlingsson, Ú., Kos, J. & Song, D. The secret sharer: evaluating and testing unintended memorization in neural networks. In Heninger, N. & Traynor, P. (eds) { } ({ } , 267–284. ({USENIX} Association, Santa Clara, CA, USA, 2019). 28th USENIX Security Symposium USENIX Security 19 https://www.usenix.org/conference/usenixsecurity19/presentation/carlini Abadi, M. et al. Deep learning with differential privacy. In , 308–318 (ACM, 2016). Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In , 1310–1321 (ACM, 2015). Proceedings of the 22nd ACM SIGSAC conference on computer and communications security Langlotz, C. P. et al. A roadmap for foundational research on artificial intelligence in medical imaging: from the 2018 nih/rsna/acr/the academy workshop. , 781–791 (2019). Radiology 291 Kim, Y., Sun, J., Yu, H. & Jiang, X. Federated Tensor Factorization for Computational Phenotyping. In . 887–895. (ACM, Halifax, NS, Canada, 2017). Proceedings of the 23rd {ACM} {SIGKDD} International Conference on Knowledge Discoveryand Data Mining https://doi.org/10.1145/3097983.3098118 He, C., Annavaram, M. & Avestimehr, S. Fednas: Federated deep learning via neural architecture search. (2020). https://sites.google.com/view/cvpr20-nas/ Trustworthy federated data analytics (tfda). (2020) (Accessed 28 May 2020). https://tfda.hmsp.center/ Joint Imaging Platform (Jip). (2020) (Accessed 28 May 2020). https://jip.dktk.dkfz.de/jiphomepage/ Medical institutions collaborate to improve mammogram assessment ai. (2020) (Accessed 28 May 2020). https://blogs.nvidia.com/blog/2020/04/15/federated-learning-mammogram-assessment/ Healthchain consortium. (2020) (Accessed 28 May 2020). https://www.substra.ai/en/healthchain-project The federated tumor segmentation (fets) initiative. (2020) (Accessed 28 May 2020). https://www.fets.ai Machine learning ledger orchestration for drug discovery. (2020). Accessed 28 May 2020. https://cordis.europa.eu/project/id/831472 Konečny`, J., McMahan, H. B., Ramage, D. & Richtárik, P. Federated optimization: Distributed machine learning for on-device intelligence. (2016). arXiv preprint arXiv:1610.02527 Lalitha, A., Kilinc, O. C., Javidi, T. & Koushanfar, F. Peer-to-peer federated learning on graphs. (2019). arXiv preprint arXiv:1901.11173 Li, T., Sahu, A. K., Zaheer, M., Sanjabi, M., Talwalkar, A. & Smith, V. Federated optimization in heterogeneous networks. (2018). arXiv preprint arXiv:1812.06127 Zhao, Y. et al. Federated learning with non-iid data. (2018). arxivabs/1806.00582 Li, X., Huang, K., Yang, W., Wang, S. & Zhang, Z. On the convergence of fedavg on non-IID data. (2020). https://openreview.net/forum?id=HJxNAnVtDS Wu, B. et al. P3sgd: patient privacy preserving SGD for regularizing deep CNNs in pathological image classification. In (pp. 2099–2108) (2019). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Zhu, L., Liu, Z. & Han, S. Deep leakage from gradients. In Wallach, H. M. et al. (eds) , 14747–14756. (2019). Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems http://papers.nips.cc/paper/9617-deep-leakage-from-gradients Wang, Z. et al. Beyond inferring class representatives: user-level privacy leakage from federated learning. In 2512–2520. (IEEE, Paris, France, 2019). 2019 {IEEE} Conferenceon Computer Communications, {INFOCOM} https://doi.org/10.1109/INFOCOM.2019.8737416 Hitaj, B., Ateniese, G. & Perez-Cruz, F. Deep models under the gan: information leakage from collaborative deep learning. In , CCS’17, 603–618 (Association for Computing Machinery, New York, NY, USA, 2017). Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security Ghorbani, A. & Zou, J. Data shapley: Equitable valuation of data for machine learning. In (pp. 2242-2251) (2019). International Conference on Machine Learning uznání Tato práce byla podpořena UK Research and Innovation London Medical Imaging & Artificial Intelligence Centre for Value-Based Healthcare, Wellcome/EPSRC Centre for Medical Engineering (WT203148/Z/16/Z), Wellcome Flagship Programme (WT213038/Z/18/Z), Intramural Research Programme of the National Institutes of Health (NIH) Clinical Center, National Cancer Institute of the NIH under award number U01CA242871, National Institute of Neurological Disorders and Stroke of the NIH under award number R01NS042645, jakož i Helmholtz Initiative and Networking Fund (projekt „Trustworthy Federated Data Analytics“) a PRIME program německé akademické výměnné služby (DAAD) s prostředky z německého federálního ministerstva školství a výzkumu (B Tento dokument je k dispozici v přírodě pod licencí CC by 4.0 Deed (Attribution 4.0 International). Tento papír je Pod licencí CC by 4.0 Deed (Attribution 4.0 International). Dostupné v přírodě