Пробивът на ИИ позволява на болниците да тренират алгоритми, без да споделят данни за пациентите

на авторите: Никола Рики Джони Ханкокс Уенчи Ли Фауст Милетари Холгер Р. Рот Шади Албаркуни Спиридон Бакас Матийо Н. Галтие Bennett A. Landman Клаус Майер-Хайн Себастиан Оуселин Мика Шелър Роналд М. Съмърс Андрю Тръмп Дагуан Су Максимилиан Бауст Хорхе Кардосо на авторите: Никола Рики Джони Ханкокс Уенчи Ли Фауст Милетари Холгер Р. Рот Шади Албаркуни Спиридон Бакас Матийо Н. Галтие Беннет А. Ландман Клаус Майер-Хайн Себастиан Оуселин Мика Шелър Роналд М. Съмърс Андрю Тръмп Дагуан Су Максимилиан Бауст Хорхе Кардосо абстрактна Съществуващите медицински данни не се експлоатират изцяло от ML главно защото се намират в силоси с данни и проблемите с неприкосновеността на личния живот ограничават достъпа до тези данни. Въпреки това, без достъп до достатъчно данни, ML ще бъде възпрепятствано да достигне пълния си потенциал и в крайна сметка да направи прехода от изследвания към клинична практика. Тази статия разглежда ключовите фактори, допринасящи за този проблем, изследва как федералното обучение (FL) може да осигури решение за бъдещето на цифровото здраве и подчертава предизвикателствата и съображенията, които трябва да бъдат разгледани. Въведение Изследвания в областта на изкуствения интелект (AI), и по-специално напредъка в машинното обучение (ML) и дълбокото обучение (DL) Съвременните модели DL съдържат милиони параметри, които трябва да бъдат научени от достатъчно големи курирани набори от данни, за да се постигне клинична точност, като същевременно са безопасни, справедливи, справедливи и обобщават добре до невидими данни , , , . 1 2 3 4 5 Например, обучението на детектор на тумори, базиран на AI, изисква голяма база данни, обхващаща пълния спектър от възможни анатомии, патологии и входящи типове данни. Дори ако анонимизирането на данните може да заобиколи тези ограничения, сега е добре известно, че премахването на метаданни като име на пациент или дата на раждане често не е достатъчно, за да се запази поверителността. Например е възможно да се възстанови лицето на пациента от компютърна томография (КТ) или данни от магнитно резонансно изображение (МРТ). Друга причина, поради която споделянето на данни не е систематично в здравеопазването, е, че събирането, поддръжката и поддържането на набор от висококачествени данни отнема значително време, усилия и разходи.Поради това такива набори от данни могат да имат значителна бизнес стойност, което прави по-малко вероятно те да бъдат споделяни свободно. 6 7 8 Федерално обучение (FL) , , е парадигма за учене, която се стреми да реши проблема с управлението на данните и неприкосновеността на личния живот чрез обучение на алгоритми съвместно, без да се обменят самите данни. , наскоро спечели трайност за приложения за здравеопазване , , , , , , , FL позволява съвместно придобиване на прозрения, например под формата на модел на консенсус, без да се преместват данните на пациентите извън защитните стени на институциите, в които те пребивават. Последните изследвания показват, че моделите, обучени от FL, могат да постигнат нива на ефективност, сравними с тези, обучени на централно хоствани набори от данни и по-добри от моделите, които виждат само изолирани едноинституционални данни. , . 9 10 11 12 13 14 15 16 17 18 19 20 1 16 17 FL агрегационен сървър – типичният FL работен поток, в който федерация от тренировъчни възли получават глобалния модел, препращат частично обучените си модели на централен сървър периодично за агрегиране и след това продължават обучението по консенсусния модел, който сървърът връща. FL peer to peer – алтернативна формулировка на FL, в която всеки тренировъчен възел обменя частично обучени модели с някои или всички свои връстници и всеки прави своя собствена агрегация. Централизирано обучение – общият работен поток за обучение, в който сайтовете за придобиване на данни даряват данните си в централно езеро с данни, от което те и други могат да извличат данни за местно, независимо обучение. a b c По този начин успешното прилагане на FL може да има значителен потенциал за позволяване на прецизна медицина в голям мащаб, което води до модели, които водят до безпристрастни решения, оптимално отразяват физиологията на индивида и са чувствителни към редки заболявания, като същевременно зачитат проблемите на управлението и неприкосновеността на личния живот. Ние виждаме федеративно бъдеще за цифровото здраве и с тази перспектива хартия, ние споделяме нашата консенсус гледна точка с цел да се осигури контекст и подробности за общността по отношение на ползите и въздействието на FL за медицински приложения (раздел "Дата-ориентирана медицина изисква федеративни усилия"), както и подчертаване на ключовите съображения и предизвикателства от прилагането на FL за цифрово здраве (раздел "Технически съображения"). Медицината на базата на данни изисква федерални усилия ML и по-специално DL се превръщат в де факто подход за откриване на знания в много индустрии, но успешното внедряване на приложения, базирани на данни, изисква големи и разнообразни набори от данни. Въпреки това, медицинските набори от данни са трудни за получаване (подсекция „Зависимостта от данните“). FL се занимава с този проблем, като позволява съвместно обучение без централизиране на данни (подсекция „Обещанието за федеративни усилия“) и вече е намерила пътя си към цифровите здравни приложения (подсекция „Текущи усилия на FL за цифрово здраве“) Тази нова учебна парадигма изисква внимание от, но също така предлага ползи за различните заинтересовани страни в здравеопазването (секция „Влияние върху заинтересованите страни“). Зависимост от данните Докато това е добре известно изискване, най-съвременните алгоритми обикновено се оценяват върху внимателно подбрани набори от данни, често произхождащи само от няколко източника. Това може да въведе предразсъдъци, където демографските данни (напр. пол, възраст) или техническите дисбаланси (напр. протокол за придобиване, производител на оборудване) изкривяват прогнозите и влияят неблагоприятно на точността за определени групи или места. Необходимостта от големи бази данни за обучение по изкуствен интелект е породила много инициативи, които се стремят да обединят данни от множество институции. Тези данни често се натрупват в така наречените Data Lakes. Те са построени с цел да се възползва или от търговската стойност на данните, например, придобиването на IBM Merge Healthcare , или като ресурс за икономически растеж и научен прогрес, например, Националната безопасна пристанище на NHS Шотландия Френски център за здравни данни , и Health Data Research UK . 21 22 23 24 Значителни, макар и по-малки, инициативи включват Human Connectome Биобанк на Великобритания Архив за изобразяване на рак (TCIA) Них CXR8 Задълбочена депресия Атлас на генома на рака (TCGA) Инициатива за невроизобразяване на болестта на Алцхаймер (ADNI) Освен големите медицински предизвикателства Предизвикателството на Камелия Международно мултимодално сегментиране на мозъчни тумори (BraTS) , , Медицинска сегментация Decathlon Публичните медицински данни обикновено са специфични за задачи или заболявания и често се освобождават с различна степен на лицензионни ограничения, понякога ограничаващи тяхното използване. 25 26 27 28 29 30 31 32 33 34 35 36 37 Централизирането или освобождаването на данни обаче поражда не само регулаторни, етични и правни предизвикателства, свързани с неприкосновеността на личния живот и защитата на данните, но и технически.Анонимизирането, контрола на достъпа и безопасното предаване на данните за здравеопазването е нетривиална и понякога невъзможна задача.Анонимизираните данни от електронния здравен регистър могат да изглеждат безвредни и съответстващи на GDPR/PHI, но само няколко елемента от данните могат да позволят повторната идентификация на пациента. Същото важи и за геномните данни и медицинските изображения, които ги правят уникални като пръстови отпечатъци. Следователно, освен ако процесът на анонимизация не унищожи достоверността на данните, което може да ги направи безполезни, не може да се изключи повторна идентификация на пациента или изтичане на информация.Входният достъп за одобрени потребители често се предлага като предполагаемо решение на този проблем.Въпреки това, в допълнение към ограничаването на наличността на данните, това е практически възможно само в случаите, когато съгласието, предоставено от собствениците на данните, е безусловно, тъй като изтеглянето на данни от тези, които може да са имали достъп до данните, е практически неприложимо. 7 38 Обещанието на федералните усилия Обещанието на FL е просто – да се справят с предизвикателствата на поверителността и управлението на данните, като позволяват ML от несъвместно разположени данни. В FL настройката всеки администратор на данни не само дефинира собствените си процеси на управление и свързаните с тях политики за поверителност, но също така контролира достъпа до данни и има способността да ги оттегли. Това включва както обучението, така и фазата на валидиране. По този начин FL може да създаде нови възможности, например като позволи мащабно валидиране в рамките на институциите или като позволи ново проучване на редки заболявания, където нивата на инциденти са ниски и наборите от данни във всяка институция са твърде малки. Преместването на модела към данните, а не обратното, има друго голямо предимство: Както е описано в Фиг. , FL работен поток може да бъде реализиран с различни топологии и изчислителни планове. , , Peer to peer наближава , Във всички случаи FL имплицитно предлага известна степен на неприкосновеност на личния живот, тъй като участниците в FL никога не получават пряк достъп до данни от други институции и получават само параметри на модела, които са обобщени върху няколко участника.В работен поток на FL със сървър за обобщение, участващите институции могат дори да останат непознати един на друг. , , , Затова механизми като диференциална неприкосновеност на личния живот , or learning from encrypted data have been proposed to further enhance privacy in a FL setting (c.f. section “Technical considerations”). Overall, the potential of FL for healthcare applications has sparked interest in the community и FL техники са нарастваща област на изследвания , . 2 16 17 18 15 39 40 41 42 43 44 45 46 12 20 FL топологии — комуникационна архитектура на федерация. Централизиран: Агрегационният сървър координира тренировъчните итерации и събира, агрегира и разпространява моделите към и от тренировъчните възли (Hub & Spoke). Децентрализиран: всеки тренировъчен възел е свързан с един или повече връстници и агрегирането се извършва на всеки възел паралелно. Иерархични: федеративните мрежи могат да се състоят от няколко подфедерации, които могат да бъдат изградени от комбинация от Peer-to-Peer и Aggregation Server федерации ( FL изчислителни планове — траектория на един модел в рамките на няколко партньора. Циклично обучение и циклично трансферно обучение. Агрегация на сървъри, Пъзелът на Peer. a b c d e f g Текущи усилия на FL за цифрово здраве Тъй като FL е обща учебна парадигма, която премахва изискването за обединяване на данни за разработване на модел на ИИ, обхватът на приложенията на FL обхваща целия диапазон на ИИ за здравеопазването. В контекста на електронните здравни досиета (EHR), например, FL помага за представяне и намиране на клинично сходни пациенти , , както и прогнозиране на хоспитализации поради сърдечни събития Смъртността и времето за престой на ICU Приложимостта и предимствата на FL също са демонстрирани в областта на медицинската визуализация, за сегментиране на целия мозък в МРТ. , както и сегментация на мозъчните тумори , Напоследък техниката е използвана за fMRI класификация, за да се намерят надеждни биомаркери, свързани с болестта. и предложено като обещаващ подход в контекста на COVID-19 . 13 47 14 19 15 16 17 18 48 Заслужава да се отбележи, че усилията на FL изискват споразумения за определяне на обхвата, целта и използваните технологии, които, тъй като все още са нови, могат да бъдат трудни за определяне.В този контекст днешните мащабни инициативи наистина са пионерите на утрешните стандарти за безопасно, справедливо и иновативно сътрудничество в здравните приложения. Те включват консорциуми, които имат за цел да напредват Изследвания, като например проекта Trustworthy Federated Data Analytics (TFDA) Платформа за съвместно изобразяване на Германския консорциум за рак , които позволяват децентрализирани изследвания в германските изследователски институции по медицински изображения. Друг пример е международното изследователско сътрудничество, което използва FL за разработване на модели на ИИ за оценка на мамографиите Проучването показа, че моделите, генерирани от FL, превъзхождат тези, обучени по данни на един институт и са по-обобщени, така че те все още се справят добре с данните на други институти. Академичен 49 50 51 Чрез свързване на здравни заведения, които не се ограничават до изследователски центрове, FL може да има директни Влияние. текущият проект HealthChain , например, има за цел да разработи и разгърне FL рамка в четири болници във Франция. Това решение генерира общи модели, които могат да предскажат отговора на лечението за пациенти с рак на гърдата и меланом. Той помага на онколозите да определят най-ефективното лечение за всеки пациент от техните хистологични слайдове или дермоскопични изображения. Друго голямо усилие е инициативата Federated Tumour Segmentation (FeTS) , която е международна федерация от 30 ангажирани здравни институции, използващи рамка FL с отворен код с графичен потребителски интерфейс. Целта е да се подобри откриването на туморни граници, включително мозъчен глиом, тумори на гърдата, чернодробни тумори и костни лезии от пациенти с множество миеломи. Клинични 52 53 Друга област на влияние е в изследвания и преводи. FL позволява съвместни изследвания за дори конкурентни компании. В този контекст една от най-големите инициативи е проектът Melloddy Това е проект, който има за цел да разгърне многозадачен FL в наборите от данни на 10 фармацевтични компании.Чрез обучение на общ предсказуем модел, който отразява как химическите съединения се свързват с протеини, партньорите възнамеряват да оптимизират процеса на откриване на лекарства, без да разкриват своите много ценни вътрешни данни. Индустриална 54 Въздействие върху заинтересованите страни FL включва промяна на парадигмата от централизираните езера от данни и е важно да се разбере нейното въздействие върху различните заинтересовани страни в екосистемата на FL. Клиницистите Клиницистите обикновено са изложени на подгрупа от населението въз основа на тяхното местоположение и демографска среда, което може да предизвика предразсъдъци относно вероятността от определени заболявания или тяхната взаимосвързаност. Чрез използването на системи, базирани на ML, например като втори читател, те могат да увеличат собствения си опит с експертни познания от други институции, като гарантират последователност на диагнозата, която не може да бъде постигната днес. Докато това се отнася до системата, базирана на ML като цяло, системите, обучени по федеративен начин, потенциално са в състояние да дадат още по-малко предразсъдъци и по-висока чувствителност към редки случаи, тъй като вероятно са били изложени на по-пълно разпространение на данни. Пациенти Пациентите обикновено се лекуват локално. Установяването на FL в световен мащаб може да гарантира високо качество на клиничните решения, независимо от местоположението на лечението. По-специално, пациентите, които се нуждаят от медицинска помощ в отдалечени райони, могат да се възползват от същите висококачествени ML-помогнати диагнози, които са налични в болници с голям брой случаи. Същото се отнася и за редки или географски редки заболявания, които вероятно ще имат по-леки последици, ако могат да бъдат направени по-бързи и по-точни диагнози. Болници и практики Болниците и практиките могат да останат в пълен контрол и притежание на своите данни за пациентите с пълна проследяемост на достъпа до данни, ограничавайки риска от злоупотреба от трети страни. Това обаче ще изисква инвестиции в инфраструктура за изчисления на място или предоставяне на частни облачни услуги и спазване на стандартизирани и синоптични формати за данни, така че ML моделите да могат да бъдат обучавани и оценявани безпроблемно. Изследователи и разработчици Изследователите и разработчиците на ИИ могат да се възползват от достъпа до потенциално огромна колекция от реални данни, което със сигурност ще повлияе на по-малките изследователски лаборатории и стартиращите предприятия. По този начин, ресурсите могат да бъдат насочени към решаване на клинични нужди и свързани с тях технически проблеми, вместо да разчитат на ограниченото предлагане на открити набори от данни. , , Развитието, основано на FL, също така предполага, че изследователят или разработчикът на AI не може да разследва или визуализира всички данни, върху които се обучава моделът, например, не е възможно да се разгледа отделен случай на неуспех, за да се разбере защо сегашният модел работи лошо върху него. 11 12 20 Доставчици на здравни услуги Доставчиците на здравни услуги в много страни са засегнати от продължаващия парадигмален преход от базирано на обема, т.е. базирано на такса за услуга, към ценностно-базирано здравеопазване, което от своя страна е силно свързано с успешното установяване на прецизна медицина.Това не е за насърчаване на по-скъпи индивидуализирани терапии, а вместо това за постигане на по-добри резултати по-рано чрез по-фокусирано лечение, като по този начин намалява разходите. Производители Производителите на софтуер и хардуер за здравеопазване също биха могли да се възползват от FL, тъй като комбинирането на обучението от много устройства и приложения, без да се разкрива специфична за пациента информация, може да улесни непрекъснатото валидиране или подобряване на техните системи, базирани на ML. Технически съображения FL е може би най-известен от работата на Konečnỳ et al. В литературата са предложени и други определения. , , , Работен поток на FL (фиг. ) могат да бъдат реализирани чрез различни топологии и изчислителни планове (Фиг. В този раздел ще обсъдим по-подробно какво е FL, както и ще подчертаем ключовите предизвикателства и технически съображения, които възникват при прилагането на FL в цифровото здраве. 55 9 11 12 20 1 2 Дефиниция на федералното обучение FL е парадигма за учене, в която много страни се обучават съвместно, без да е необходимо да се обменят или централизират набори от данни. местни загуби, изчислени от частни данни , който пребивава при отделните заинтересовани страни и никога не се споделя между тях: K XK къде > 0 означава съответните коефициенти на тегло. ВК На практика всеки участник обикновено получава и усъвършенства модел на глобален консенсус, като провежда няколко кръга оптимизация на местно ниво и преди споделяне на актуализации, директно или чрез параметричен сървър. ) , Действителният процес за агрегиране на параметрите зависи от мрежовата топология, тъй като възлите могат да бъдат разделени на под-мрежи поради географски или правни ограничения (виж Фиг. Стратегиите за агрегиране могат да разчитат на един агрегиращ възел (модели на центрове и говорители) или на няколко възела без никаква централизация.Пример е peer-to-peer FL, където съществуват връзки между всички или подмножество участници и актуализациите на модела се споделят само между пряко свързани сайтове. , Забележка: Стратегиите за агрегиране не изискват непременно информация за пълното актуализиране на модела; клиентите могат да изберат да споделят само подмножество от параметрите на модела, за да намалят обхвата на комуникацията и да гарантират по-добро запазване на поверителността. или да произвеждат многозадачни алгоритми за обучение, които имат само част от техните параметри, научени по федеративен начин. 1 9 12 2 15 56 10 Единна рамка, която позволява различни схеми за обучение, може да отдели изчислителните ресурси (данни и сървъри) от Както е описано в Фиг. Последният определя траекторията на един модел в рамките на няколко партньора, за да бъде обучен и оценен по конкретни набори от данни. Компютърни планове 2 Предизвикателства и съображения Въпреки предимствата на FL, той не решава всички проблеми, присъщи на обучението по медицински данни.Успешното обучение по модели все още зависи от фактори като качество на данните, предразсъдъци и стандартизация Тези въпроси трябва да бъдат решени както за федералните, така и за нефедералните усилия за учене чрез подходящи мерки, като внимателен дизайн на проучването, общи протоколи за придобиване на данни, структурирано отчитане и сложни методологии за откриване на предразсъдъци и скрита стратификация.По-долу разглеждаме ключовите аспекти на FL, които са от особено значение, когато се прилагат към цифровото здраве и трябва да бъдат взети под внимание при създаването на FL. , , . 2 11 12 20 Хетерогенност на данните Медицинските данни са особено разнообразни – не само поради разнообразието от модели, измерения и характеристики като цяло, но дори и в рамките на конкретен протокол поради фактори като различия в придобиването, марката на медицинското устройство или местната демография. FL може да помогне за справяне с определени източници на предразсъдъци чрез потенциално увеличено разнообразие от източници на данни, но нехомогенното разпределение на данните представлява предизвикателство за FL алгоритми и стратегии, тъй като много от тях приемат независимо и идентично разпределени (IID) данни сред участниците. Те са склонни да се провалят при тези условия. , , , отчасти побеждавайки самата цел на стратегиите за съвместно обучение.Но последните резултати показват, че обучението по FL все още е осъществимо , дори ако медицинските данни не са равномерно разпределени в институциите , или включва локален биас Изследванията, насочени към решаване на този проблем, включват например: Стратегия за частично споделяне на данни и FL с адаптация на домейни Друго предизвикателство е, че хетерогенността на данните може да доведе до ситуация, при която глобалното оптимално решение може да не е оптимално за отделен участник на място. Федерална 9 9 57 58 59 16 17 51 Федпрокс 57 58 18 Поверителност и сигурност Данните за здравеопазването са силно чувствителни и трябва да бъдат защитени съответно, следвайки подходящи процедури за поверителност. следователно, някои от ключовите съображения са компромисите, стратегиите и останалите рискове по отношение на потенциала за запазване на неприкосновеността на личния живот на FL. Поверителност срещу производителност: Важно е да се отбележи, че FL не решава всички потенциални проблеми с поверителността и – подобно на алгоритмите на ML като цяло – винаги носи някои рискове. . However, there is a trade-off in terms of performance and these techniques may affect, for example, the accuracy of the final model Освен това, бъдещи техники и/или допълнителни данни могат да бъдат използвани за компрометиране на модел, който по-рано се смяташе за нискорисков. 12 10 Ниво на доверие: Като цяло, участващите страни могат да влязат в два вида FL сътрудничество: — за консорциумите на FL, в които всички страни се считат за надеждни и са обвързани от приложимо споразумение за сътрудничество, можем да премахнем много от по-неблагоприятните мотиви, като например умишлени опити за извличане на чувствителна информация или умишлено подкопаване на модела. Доверието — В FL системи, които работят в по-голям мащаб, може да е непрактично да се установи изпълнимо споразумение за сътрудничество. Някои клиенти могат умишлено да се опитат да намалят производителността, да намалят системата или да извличат информация от други страни. Следователно ще се изискват стратегии за сигурност за смекчаване на тези рискове, като например, разширено криптиране на подадените модели, сигурна автентикация на всички страни, проследяване на действия, диференциална поверителност, системи за проверка, целостта на изпълнението, поверителност на модела и защита срещу атаки на противника. Недоверчиви Изтичане на информация: По дефиниция системите на FL избягват споделянето на данни за здравеопазването между участващите институции.Въпреки това, споделената информация все още може косвено да разкрие частни данни, използвани за местно обучение, например чрез обратен модел от актуализациите на модела, самите градиенти или противникови атаки , FL се различава от традиционното обучение, тъй като процесът на обучение е изложен на множество страни, като по този начин увеличава риска от изтичане чрез обратно инженерство, ако противниците могат да наблюдават промените в модела с течение на времето, да наблюдават конкретни актуализации на модела (т.е. актуализация на една институция) или да манипулират модела (т.е. да предизвикват допълнително запомняне от други чрез атаки в стила на възход). , и осигуряване на адекватна диференцирана поверителност , може да е необходимо и все още е активна област на изследване . 60 61 62 63 16 18 44 12 Проследяване и отчетност Както при всички критични за безопасността приложения, репродуктивността на системата е важна за FL в здравеопазването. За разлика от централизираното обучение, FL изисква многостранни изчисления в среди, които показват значително разнообразие по отношение на хардуер, софтуер и мрежи. Проследимостта на всички системни активи, включително историята на достъпа до данни, конфигурациите на обучението и хиперпараметричното настройване по време на процесите на обучение, е задължителна. Особено в ненадеждни федерации, проследимостта и процесите на отчетност изискват целостта на изпълнението. След като процесът на обучение достигне взаимно договорените критерии за оптималност на модела, може също така да е полезно да се измери размера на приноса от всеки участник, Едно от последствията от FL е, че изследователите не са в състояние да разследват данните, върху които моделите се обучават, за да получат смисъл от неочаквани резултати. Освен това, като се вземат статистически измервания на техните данни за обучение като част от работния поток за разработване на модел, ще трябва да бъдат одобрени от сътрудничещите страни, тъй като не нарушават неприкосновеността на личния живот.Въпреки че всеки сайт ще има достъп до собствените си сурови данни, федерациите могат да решат да предоставят някакъв вид защитен интра-възел за преглед, за да отговорят на тази нужда, или може да предоставят някакъв друг начин за увеличаване на обяснимостта и тълкувателността на глобалния модел. 64 Архитектура на системата За разлика от използването на широкомащабни FL сред потребителски устройства като McMahan et al. , институционалните участници в здравеопазването са оборудвани с относително мощни изчислителни ресурси и надеждни мрежи с по-висок пропуск, които позволяват обучение на по-големи модели с много по-локални стъпки за обучение и споделяне на повече информация за модели между възли.Тези уникални характеристики на FL в здравеопазването също носят предизвикателства като гарантиране на целостта на данните при комуникация чрез използване на излишни възли, проектиране на безопасни методи за криптиране, за да се предотврати изтичането на данни, или проектиране на подходящи графици за възли, за да се направи най-доброто използване на разпределени изчислителни устройства и да се намали времето за безработица. 9 Управлението на такава федерация може да се осъществи по различни начини. В ситуации, изискващи най-строгата поверителност на данните между страните, обучението може да работи чрез някаква „честен брокер“ система, в която надеждна трета страна действа като посредник и улеснява достъпа до данни. Тази настройка изисква независим субект, който контролира цялостната система, което може да не е винаги желателно, тъй като може да включва допълнителни разходи и процедурна вискозитет. Въпреки това, тя има предимството, че точните вътрешни механизми могат да бъдат абстрахирани от клиентите, което прави системата по-гъвкава и по-лесна за актуализиране. В система peer-to-peer всеки сайт взаимодейства директно с някои или всички други участници. С други думи Заключението ML, и по-специално DL, доведе до широк спектър от иновации в областта на цифровото здравеопазване. Тъй като всички ML методи се възползват значително от възможността за достъп до данни, които приближават истинското глобално разпространение, FL е обещаващ подход за получаване на мощни, точни, безопасни, стабилни и безпристрастни модели. Чрез позволяване на множество страни да се обучават съвместно, без да се налага да обменят или централизират набори от данни, FL подрежда проблемите, свързани с изтичането на чувствителни медицински данни. В резултат на това може да отвори нови изследователски и бизнес пътища и има потенциал за подобряване на грижите за пациентите в световен мащаб. Въпреки това, вече днес FL има въздействие върху почти Въпреки това, ние наистина вярваме, че потенциалното му въздействие върху прецизната медицина и в крайна сметка подобряването на медицинската помощ е много обещаващо. 12 Докладване на резюме Допълнителна информация за проекта е на разположение в Връзка към тази статия. Nature Research Reporting Summary Референции LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. , 436 (2015). Nature 521 Wang, F., Casalino, L. P. & Khullar, D. Deep learning in medicine—promise, progress, and challenges. , 293–294 (2019). JAMA Intern. Med. 179 Chartrand, G. et al. Deep learning: a primer for radiologists. , 2113–2131 (2017). Radiographics 37 De Fauw, J. et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. , 1342 (2018). Nat. Med. 24 Sun, C., Shrivastava, A., Singh, S. & Gupta, A. Revisiting unreasonable effectiveness of data in deep learning era. In , 843–852 ( , 2017). Proceedings of the IEEE international conference on computer vision IEEE Van Panhuis, W. G. et al. A systematic review of barriers to data sharing in public health. , 1144 (2014). BMC Public Health 14 Rocher, L., Hendrickx, J. M. & De Montjoye, Y.-A. Estimating the success of re-identifications in incomplete datasets using generative models. , 1–9 (2019). Nat. Commun. 10 Schwarz, C. G. et al. Identification of anonymous mri research participants with face-recognition software. , 1684–1686 (2019). N. Engl. J. Med. 381 McMahan, B., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. In , 1273–1282. (2017). Artificial Intelligence and Statistics https://scholar.google.de/scholar?hl=de&as_sdt=0%2C5&q=Communicationefficient+learning+of+deep+networks+from+decentralized+data&btnG= Li, T., Sahu, A. K., Talwalkar, A. & Smith, V. Federated learning: Challenges, methods, and future directions. , 50–60 (IEEE, 2020). IEEE Signal Processing Magazine 37 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. (TIST) 10 Kairouz, P. et al. Advances and open problems in federated learning. (2019). arXiv preprint arXiv:1912.04977 Lee, J. et al. Privacy-preserving patient similarity learning in a federated environment: development and analysis. , e20 (2018). JMIR Med. Inform. 6 Brisimi, T. S. et al. Federated learning of predictive models from federated electronic health records. , 59–67 (2018). Int. J. Med. Inform. 112 Roy, A. G., Siddiqui, S., Pölsterl, S., Navab, N. & Wachinger, C. Braintorrent: a peer-to-peer environment for decentralized federated learning. (2019). arXiv preprint arXiv:1905.06731 Li, W. et al. Privacy-preserving federated brain tumour segmentation. In , 133–141 (Springer, 2019). International Workshop on Machine Learning in Medical Imaging Sheller, M. J., Reina, G. A., Edwards, B., Martin, J. & Bakas, S. Multi-institutional deep learning modeling without sharing patient data: a feasibility study on brain tumor segmentation. In , 92–104 (Springer, 2018). International MICCAI Brainlesion Workshop Li, X. et al. Multi-site fmri analysis using privacy-preserving federated learning and domain adaptation: abide results. (2020). arXiv preprint arXiv:2001.05647 Huang, L. et al. Patient clustering improves efficiency of federated machine learning to predict mortality and hospital stay time using distributed electronic medical records. , 103291 (2019). J. Biomed. Inform. 99 Xu, J. & Wang, F. Federated learning for healthcare informatics. (2019). arXiv preprint arXiv:1911.06270 Roy, A. & Banerjee, A. Ibm’s merge healthcare acquisitio . (2015) (Accessed 10 February 2020). n https://www.reuters.com/article/us-merge-healthcare-m-a-ibm/ibm-to-buy-merge-healthcare-in-1-billion-deal-idUSKCN0QB1ML20150806 Nhs scotland’s national safe haven. (2015) (Accessed 10 February 2020). https://www.gov.scot/publications/charter-safe-havens-scotland-handling-unconsented-data-national-health-service-patient-records-support-research-statistics/pages/4/ Cuggia, M. & Combes, S. The french health data hub and the german medical informatics initiatives: Two national projects to promote data sharing in healthcare. , 195–202 (2019). Yearbook Med. Informat. 28 Health Data Research UK. (Health Data Research UK, 2020) (Accessed 10 Feb 2020). https://www.hdruk.ac.uk/ Sporns, O., Tononi, G. & Kötter, R. The human connectome: a structural description of the human brain. . , e42, (2005). PLoS Comput. Biol 1 https://doi.org/10.1371/journal.pcbi.0010042 Sudlow, C. et al. Uk biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age. . , e1001779. (2015). PLoS Med 12 https://doi.org/10.1371/journal.pmed.1001779 Clark, K. et al. The cancer imaging archive (tcia): maintaining and operating a public information repository. , 1045–1057 (2013). J. Digit. Imaging. 26 Wang, X. et al. Chestx-ray8: Hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In , 2097–2106 ( , 2017). Proceedings of the IEEE conference on computer vision and pattern recognition IEEE Yan, K., Wang, X., Lu, L. & Summers, R. M. Deeplesion: automated mining of large-scale lesion annotations and universal lesion detection with deep learning. , 036501 (2018). J Med. Imaging. 5 Tomczak, K., Czerwińska, P. & Wiznerowicz, M. The cancer genome atlas (tcga): an immeasurable source of knowledge. , A68 (2015). Contemp. Oncol. 19 Jack Jr., C. R. et al. The alzheimer’s disease neuroimaging initiative (adni): Mri methods. , 685–691 (2008). J. Magn. Reson. Imaging 27 . (2020) (Accessed 24 July 2020). Grand Challenge-a Platform for End-to-end Development of Machine Learning Solutions in Biomedical Imaging https://grand-challenge.org/ Litjens, G. et al. 1399 h&e-stained sentinel lymph node sections of breast cancer patients: the camelyon dataset. , giy065 (2018). GigaScience 7 Menze, B. H. et al. The multimodal brain tumor image segmentation benchmark (brats). , 1993–2024 (2014). IEEE Trans. Med. Imaging 34 Bakas, S. et al. Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the brats challenge. (2018). arXiv preprint arXiv:1811.02629 Bakas, S. et al. Advancing the cancer genome atlas glioma MRI collections with expert segmentation labels and radiomic features. , 170117 (2017). Sci. Data 4 Simpson, A. L. et al. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. (2019). arXiv preprint arXiv:1902.09063 Yeh, F.-C. et al. Quantifying differences and similarities in whole-brain white matter architecture using local connectome fingerprints. , e1005203 (2016). PLoS Comput. Biol. 12 Chang, K. et al. Distributed deep learning networks among institutions for medical imaging. , 945–954 (2018). J. Am. Med. Inform. Assoc. 25 Shokri, R., Stronati, M., Song, C. & Shmatikov, V. Membership inference attacks against machine learning models. In , 3-18 (IEEE, 2017). 2017 IEEE Symposium on Security and Privacy (SP) Sablayrolles, A., Douze, M., Ollivier, Y., Schmid, C. & Jégou, H. White-box vs black-box: Bayes optimal strategies for membership inference. In Chaudhuri, K. & Salakhutdinov, R. (eds) , 5558–5567. (PMLR, 2019). Proceedings of the 36th International Conference on Machine Learning, {ICML} 97 http://proceedings.mlr.press/v97/sablayrolles19a.html Zhang, C., Bengio, S., Hardt, M., Recht, B. & Vinyals, O. Understanding deep learning requires rethinking generalization. In , (OpenReview.net, 2017). 5th International Conference on Learning Representations, {ICLR}. https://openreview.net/forum?id=Sy8gdB9xx Carlini, N., Liu, C., Erlingsson, Ú., Kos, J. & Song, D. The secret sharer: evaluating and testing unintended memorization in neural networks. In Heninger, N. & Traynor, P. (eds) { } ({ } , 267–284. ({USENIX} Association, Santa Clara, CA, USA, 2019). 28th USENIX Security Symposium USENIX Security 19 https://www.usenix.org/conference/usenixsecurity19/presentation/carlini Abadi, M. et al. Deep learning with differential privacy. In , 308–318 (ACM, 2016). Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In , 1310–1321 (ACM, 2015). Proceedings of the 22nd ACM SIGSAC conference on computer and communications security Langlotz, C. P. et al. A roadmap for foundational research on artificial intelligence in medical imaging: from the 2018 nih/rsna/acr/the academy workshop. , 781–791 (2019). Radiology 291 Kim, Y., Sun, J., Yu, H. & Jiang, X. Federated Tensor Factorization for Computational Phenotyping. In . 887–895. (ACM, Halifax, NS, Canada, 2017). Proceedings of the 23rd {ACM} {SIGKDD} International Conference on Knowledge Discoveryand Data Mining https://doi.org/10.1145/3097983.3098118 He, C., Annavaram, M. & Avestimehr, S. Fednas: Federated deep learning via neural architecture search. (2020). https://sites.google.com/view/cvpr20-nas/ Trustworthy federated data analytics (tfda). (2020) (Accessed 28 May 2020). https://tfda.hmsp.center/ Joint Imaging Platform (Jip). (2020) (Accessed 28 May 2020). https://jip.dktk.dkfz.de/jiphomepage/ Medical institutions collaborate to improve mammogram assessment ai. (2020) (Accessed 28 May 2020). https://blogs.nvidia.com/blog/2020/04/15/federated-learning-mammogram-assessment/ Healthchain consortium. (2020) (Accessed 28 May 2020). https://www.substra.ai/en/healthchain-project The federated tumor segmentation (fets) initiative. (2020) (Accessed 28 May 2020). https://www.fets.ai Machine learning ledger orchestration for drug discovery. (2020). Accessed 28 May 2020. https://cordis.europa.eu/project/id/831472 Konečny`, J., McMahan, H. B., Ramage, D. & Richtárik, P. Federated optimization: Distributed machine learning for on-device intelligence. (2016). arXiv preprint arXiv:1610.02527 Lalitha, A., Kilinc, O. C., Javidi, T. & Koushanfar, F. Peer-to-peer federated learning on graphs. (2019). arXiv preprint arXiv:1901.11173 Li, T., Sahu, A. K., Zaheer, M., Sanjabi, M., Talwalkar, A. & Smith, V. Federated optimization in heterogeneous networks. (2018). arXiv preprint arXiv:1812.06127 Zhao, Y. et al. Federated learning with non-iid data. (2018). arxivabs/1806.00582 Li, X., Huang, K., Yang, W., Wang, S. & Zhang, Z. On the convergence of fedavg on non-IID data. (2020). https://openreview.net/forum?id=HJxNAnVtDS Wu, B. et al. P3sgd: patient privacy preserving SGD for regularizing deep CNNs in pathological image classification. In (pp. 2099–2108) (2019). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Zhu, L., Liu, Z. & Han, S. Deep leakage from gradients. In Wallach, H. M. et al. (eds) , 14747–14756. (2019). Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems http://papers.nips.cc/paper/9617-deep-leakage-from-gradients Wang, Z. et al. Beyond inferring class representatives: user-level privacy leakage from federated learning. In 2512–2520. (IEEE, Paris, France, 2019). 2019 {IEEE} Conferenceon Computer Communications, {INFOCOM} https://doi.org/10.1109/INFOCOM.2019.8737416 Hitaj, B., Ateniese, G. & Perez-Cruz, F. Deep models under the gan: information leakage from collaborative deep learning. In , CCS’17, 603–618 (Association for Computing Machinery, New York, NY, USA, 2017). Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security Ghorbani, A. & Zou, J. Data shapley: Equitable valuation of data for machine learning. In (pp. 2242-2251) (2019). International Conference on Machine Learning Признания Тази работа е подкрепена от Лондонския център за научни изследвания и иновации в областта на медицинските изображения и изкуствения интелект за ценностите на здравеопазването в Обединеното кралство, от Центъра за медицинско инженерство Wellcome/EPSRC (WT203148/Z/16/Z), от Флагманската програма Wellcome (WT213038/Z/18/Z), от Интрамуралната изследователска програма на Националния институт по здравеопазване (NIH) Клиничен център, от Националния институт по рак на NIH под награден номер U01CA242871, от Националния институт по неврологични разстройства и инсулт на NIH под награден номер R01NS042645, както и от Инициативата и Фонда за мрежи на Хелмхолц (проект „Надеждни Тази статия е достъпна в натура под лиценза CC by 4.0 Deed (Attribution 4.0 International). Тази статия е достъпна в натура под лиценза CC by 4.0 Deed (Attribution 4.0 International).