Авторы : Никола Рике Jonny Hancox Винчи Ли Fausto Milletarì Holger R. Roth Shadi Albarqouni Спиридон Бакас Mathieu N. Galtier Bennett A. Landman Клаус Майер-Хайн Sébastien Ourselin Micah Sheller Ronald M. Summers Andrew Trask Daguang Xu Maximilian Baust M. Jorge Cardoso Авторы : Никола Рике Джонни Хэнкокс Винчи Ли Фаусто Миллетари Холгер Р. Рот Шади Альбаркуни Спиридон Бакас Матье Н. Гальтье Беннетт А. Ландман Клаус Майер-Хайн Себастьян Оурселин Мика Шеллер Рональд М. Саммерс Эндрю Траск Дагуан Су Максимилиан Бауст Хорхе Кардосо абстрактный Машинное обучение на основе данных (ML) появилось как перспективный подход к созданию точных и надежных статистических моделей из медицинских данных, которые собираются в огромных объемах современными системами здравоохранения. Существующие медицинские данные не используются ML в полной мере, главным образом потому, что он находится в силосах данных и проблемы конфиденциальности ограничивают доступ к этим данным. Однако, без доступа к достаточным данным, ML будет предотвращено достижение своего полного потенциала и, в конечном счете, от перехода от исследований к клинической практике. Эта статья рассматривает ключевые факторы, способствующие этому вопросу, исследует, как федеративное обучение (FL) может обеспечить решение для будущего цифрового здоровья и подчеркивает вызовы и соображения, которые необходимо Введение Исследования в области искусственного интеллекта (ИИ), и особенно достижения в области машинного обучения (ML) и глубокого обучения (DL) Современные модели DL содержат миллионы параметров, которые необходимо выучить из достаточно больших курируемых наборов данных, чтобы достичь клинической точности, при этом будучи безопасными, справедливыми, справедливыми и обобщающими хорошо до невидимых данных , , , . 1 2 3 4 5 For example, training an AI-based tumour detector requires a large database encompassing the full spectrum of possible anatomies, pathologies, and input data types. Data like this is hard to obtain, because health data is highly sensitive and its usage is tightly regulated Даже если анонимизация данных может обойти эти ограничения, теперь хорошо известно, что удаления метаданных, таких как имя пациента или дата рождения, часто недостаточно для сохранения конфиденциальности. Например, можно реконструировать лицо пациента с помощью компьютерной томографии (КТ) или данных магнитно-резонансной томографии (МРТ). Другая причина, по которой обмен данными не является систематическим в здравоохранении, заключается в том, что сбор, корректировка и поддержание набора данных высокого качества требует значительного времени, усилий и затрат. Следовательно, такие наборы данных могут иметь значительную деловую ценность, что делает их менее вероятными для свободного обмена. 6 7 8 Федеративное обучение (FL) , , является парадигмой обучения, которая стремится решить проблему управления данными и конфиденциальности, обучая алгоритмы совместно, не обмениваясь самими данными. , он недавно приобрел тягу для медицинских приложений , , , , , , , FL позволяет получать знания совместно, например, в форме модели консенсуса, не перемещая данные пациентов за пределы брандмауэров учреждений, в которых они проживают.Вместо этого процесс ML происходит локально в каждом участвующем учреждении и передаются только характеристики модели (например, параметры, градиенты), как показано на рисунке. Недавние исследования показали, что модели, обучаемые FL, могут достигать уровней производительности, сравнимых с теми, которые обучаются на централизованных наборах данных, и превосходят модели, которые видят только изолированные одноинституциональные данные. , . 9 10 11 12 13 14 15 16 17 18 19 20 1 16 17 Агрегационный сервер FL — типичный рабочий процесс FL, в котором федерация учебных узлов получает глобальную модель, пересылает частично обученные модели на центральный сервер периодически для агрегации, а затем продолжает обучение по модели консенсуса, которую возвращает сервер. FL peer to peer — альтернативная формулировка FL, в которой каждый учебный узел обменивается своими частично обученными моделями с некоторыми или всеми своими коллегами и каждый делает свою собственную агрегацию. Централизованное обучение — общий рабочий процесс обучения, не связанный с ФЛ, в котором сайты, получающие данные, пожертвовали свои данные в центральное озеро данных, из которого они и другие могут извлекать данные для местного, независимого обучения. a b c Успешное внедрение FL, таким образом, может иметь значительный потенциал для обеспечения прецизионной медицины в крупном масштабе, что приводит к моделям, которые приносят беспристрастные решения, оптимально отражают физиологию человека и чувствительны к редким заболеваниям при соблюдении проблем управления и конфиденциальности. Мы представляем федеративное будущее для цифрового здравоохранения, и с этой перспективной статьей мы разделяем наш консенсус с целью предоставления сообществу контекста и деталей относительно преимуществ и воздействия ФЛ для медицинских приложений (раздел «Медицина, основанная на данных, требует федеративных усилий»), а также подчеркивая ключевые соображения и вызовы внедрения ФЛ для цифрового здоровья (раздел «Технические соображения»). Медицина, основанная на данных, требует федеративных усилий ML и особенно DL становится де-факто подходом к открытию знаний во многих отраслях промышленности, но успешное внедрение данных-ориентированных приложений требует больших и разнообразных наборов данных. однако, медицинские наборы данных трудно получить (подсекция «Зависимость от данных»). FL решает эту проблему, позволяя совместному обучению без централизации данных (подсекция «Обещание федеративных усилий») и уже нашла свой путь к цифровым медицинским приложениям (подсекция «Текущие усилия FL для цифрового здоровья»). Зависимость от данных Подходы, основанные на данных, опираются на данные, которые действительно представляют собой основное распределение данных проблемы. Хотя это хорошо известное требование, современные алгоритмы обычно оцениваются на тщательно разработанных наборах данных, часто исходящих только из нескольких источников. Это может ввести предрассудки, где демографические данные (например, пол, возраст) или технические дисбалансы (например, протокол приобретения, производитель оборудования) искажают прогнозы и негативно влияют на точность для определенных групп или сайтов. Однако, чтобы запечатлеть тонкие отношения между моделями болезни, социально-экономическими и генетическими факторами, а также сложными и редкими случаями, важно выставить модель для различных случаев. Потребность в больших базах данных для обучения ИИ породила много инициатив, направленных на объединение данных из нескольких учреждений.Эти данные часто объединяются в так называемые Data Lakes.Эти данные были построены с целью использования коммерческой ценности данных, например, приобретение IBM Merge Healthcare. , или как ресурс для экономического роста и научного прогресса, например, Национальная безопасная гавань Шотландии NHS Французский центр данных по здравоохранению , и Health Data Research UK . 21 22 23 24 Существенные, хотя и меньшие, инициативы включают в себя Human Connectome. Биобанк Великобритании Архив изображений рака (Cancer Imaging Archive, TCIA) Новый CXR8 Них DeepLesion Атлас генома рака (англ. Cancer Genome Atlas, TCGA) Инициатива по нейроизображению болезни Альцгеймера (ADNI) , as well as medical grand challenges Как выглядит вызов Camelion Международная мультимодальная система сегментации опухолей головного мозга (BraTS) , , Медицинская сегментация Decathlon Публичные медицинские данные обычно являются специфическими для задач или заболеваний и часто выпускаются с различной степенью лицензионных ограничений, иногда ограничивая их использование. 25 26 27 28 29 30 31 32 33 34 35 36 37 Централизация или раскрытие данных, однако, представляет собой не только нормативные, этические и юридические вызовы, связанные с конфиденциальностью и защитой данных, но и технические. анонимизация, контроль доступа и безопасная передача данных о здравоохранении является нетривиальной, а иногда и невозможной задачей. То же самое касается геномных данных и медицинских изображений, которые делают их уникальными, как отпечатки пальцев. Поэтому, если процесс анонимизации не разрушает достоверность данных, вероятно, делая их бесполезными, повторная идентификация пациента или утечка информации не могут быть исключены.Ворота доступа для одобренных пользователей часто предлагаются в качестве предполагаемого решения этой проблемы. однако, помимо ограничения доступности данных, это практично только в случаях, когда согласие, предоставленное владельцами данных, является безусловным, так как отзыв данных от тех, кто мог иметь доступ к данным, практически невозможен. 7 38 Обещание федеративных усилий Обещание FL является простым — решить проблемы конфиденциальности и управления данными, позволяя ML из несовместных данных. В FL-установке каждый контролер данных не только определяет свои собственные процессы управления данными и связанные с ними политики конфиденциальности, но также контролирует доступ к данным и имеет возможность отозвать их. Это включает как обучение, так и фазу верификации. Таким образом, FL может создать новые возможности, например, позволяя масштабную, внутриинституциональную верификацию или позволяя новое исследование редких заболеваний, где показатели инцидентов низкие, а наборы данных в каждом отдельном учреждении слишком малы. Перемещение модели на данные, а не наоборот, имеет еще одно важное преимущество: высокоразмерные, интенсивные медицинские данные не должны дублироваться от мест Как показано на фиг. , FL рабочий процесс может быть реализован с помощью различных топологий и вычислительных планов. Две наиболее распространенные для медицинских приложений через сервер агрегации , , и peer to peer приближаются , Во всех случаях FL подразумевает определенную степень конфиденциальности, поскольку участники FL никогда не имеют прямого доступа к данным из других учреждений и получают только параметры модели, которые агрегируются по нескольким участникам.В рабочем процессе FL с сервером агрегирования участвующие учреждения могут даже оставаться неизвестными друг другу. , , , . Therefore, mechanisms such as differential privacy , или было предложено изучение зашифрованных данных для дальнейшего повышения конфиденциальности в FL (см. раздел «Технические соображения»). и технологии FL являются растущей областью исследований , . 2 16 17 18 15 39 40 41 42 43 44 45 46 12 20 FL топологии — коммуникационная архитектура федерации. Централизованный: агрегационный сервер координирует итерации обучения и собирает, агрегирует и распространяет модели в и из учебных узлов (Hub & Spoke). Децентрализованный: каждый учебный узел подключен к одному или нескольким сверстникам, а агрегация происходит на каждом узле параллельно. Иерархическая: федеративные сети могут состоять из нескольких субфедераций, которые могут быть построены из смеси федераций Peer-to-Peer и Aggregation Server ( FL вычислительные планы — траектория модели по нескольким партнёрам. Секундированное обучение / Циклическое обучение. Агрегационный сервер, Peer на Peer. a b c d e f g Текущие усилия FL в области цифрового здоровья Поскольку FL является парадигмой общего обучения, которая устраняет требование объединения данных для разработки модели ИИ, диапазон применения FL охватывает весь диапазон ИИ для здравоохранения. В контексте электронных медицинских записей (EHR), например, FL помогает представлять и находить клинически схожих пациентов. , , а также прогнозирование госпитализаций из-за сердечных событий Смертность и время пребывания ICU Применимость и преимущества ФЛ также были продемонстрированы в области медицинской визуализации для сегментации целого мозга в МРТ. , а также сегментация опухоли головного мозга , В последнее время метод был использован для классификации fMRI для поиска надежных биомаркеров, связанных с болезнями. и предложен как перспективный подход в контексте COVID-19 . 13 47 14 19 15 16 17 18 48 Стоит отметить, что усилия ФЛ требуют соглашений для определения сферы применения, цели и используемых технологий, которые, поскольку они все еще являются новыми, могут быть трудными для определения.В этом контексте сегодняшние масштабные инициативы действительно являются пионерами завтрашних стандартов для безопасного, справедливого и инновационного сотрудничества в медицинских приложениях. К ним относятся консорциумы, которые направлены на продвижение Исследования, такие как проект Trustworthy Federated Data Analytics (TFDA) Платформа совместного визуализации немецкого Консорциума по борьбе с раком , которые позволяют провести децентрализованные исследования в немецких научно-исследовательских учреждениях медицинского изображения.Другой пример - международное исследовательское сотрудничество, которое использует FL для разработки моделей ИИ для оценки маммограмм Исследование показало, что модели, генерируемые FL, превосходили модели, обученные по данным одного института, и были более обобщаемыми, поэтому они по-прежнему хорошо работали по данным других институтов. Академический 49 50 51 Связывая учреждения здравоохранения, не ограничиваясь исследовательскими центрами, FL может иметь прямые impact. The on-going HealthChain project , например, стремится разработать и развернуть фреймворк FL в четырех больницах во Франции. Это решение генерирует общие модели, которые могут предсказать ответ на лечение для пациентов с раком молочной железы и меланомой. Это помогает онкологам определить наиболее эффективное лечение для каждого пациента из их гистологических слайдов или изображений дермоскопии. , которая является международной федерацией из 30 специализированных учреждений здравоохранения, использующих открытый фреймворк FL с графическим пользовательским интерфейсом.Цель состоит в улучшении обнаружения границ опухолей, включая глиому мозга, опухоли молочной железы, опухоли печени и поражения костей у пациентов с множественной миеломой. Клиническая 52 53 Другая область воздействия находится внутри research and translation. FL enables collaborative research for, even competing, companies. In this context, one of the largest initiatives is the Melloddy project Это проект, направленный на развертывание многозадачного FL по наборам данных 10 фармацевтических компаний.Подготовка общей предсказуемой модели, которая выводит из того, как химические соединения связываются с белками, партнеры намерены оптимизировать процесс открытия лекарств, не раскрывая свои высокоценные внутренние данные. industrial 54 Влияние на заинтересованные стороны FL включает в себя сдвиг парадигмы от централизованных озер данных, и важно понять его влияние на различные заинтересованные стороны в экосистеме FL. Клиники Клиницисты, как правило, подвергаются воздействию подгруппы населения, основанной на их местоположении и демографической среде, что может вызвать предвзятые предположения о вероятности определенных заболеваний или их взаимосвязи. Используя системы, основанные на ML, например, в качестве второго читателя, они могут увеличить свою собственную экспертизу с помощью экспертных знаний других учреждений, обеспечивая последовательность диагностики, недостижимую сегодня. В то время как это относится к системе, основанной на ML в целом, системы, обученные федеративным способом, потенциально способны приносить еще менее предвзятые решения и более высокую чувствительность к редким случаям, поскольку они, вероятно, подвергались более полному распространению данных. пациентов Пациенты обычно лечатся на местном уровне. Установление ФЛ в глобальном масштабе может обеспечить высокое качество клинических решений независимо от места лечения. В частности, пациенты, нуждающиеся в медицинской помощи в отдаленных районах, могут воспользоваться теми же высококачественными МЛ-помощными диагнозами, которые доступны в больницах с большим количеством случаев. То же самое относится к редким или географически редким заболеваниям, которые, вероятно, будут иметь более мягкие последствия, если будут сделаны более быстрые и точные диагнозы. ФЛ также может снизить препятствие для того, чтобы стать донором данных, поскольку пациенты могут быть уверены, что данные остаются у их собственного учреждения и доступ к данным может быть отозван. Больницы и практики Больницы и практики могут оставаться в полном контроле и владении своими данными пациентов с полной отслеживаемостью доступа к данным, ограничивая риск неправильного использования третьими лицами. Однако, это потребует инвестиций в инфраструктуру вычислений на месте или предоставление частных облачных услуг и соблюдения стандартизированных и синоптических форматов данных, чтобы модели ML могли быть обучены и оценены беспрепятственно. Сумма необходимых вычислительных возможностей зависит, конечно, от того, участвует ли сайт только в оценке и тестировании усилий или также в тренировочных усилиях. Исследователи и разработчики Исследователи и разработчики ИИ могут извлечь выгоду из доступа к потенциально огромному набору реальных данных, что, безусловно, повлияет на более мелкие исследовательские лаборатории и стартапы.Таким образом, ресурсы могут быть направлены на решение клинических потребностей и связанных с ними технических проблем, а не полагаться на ограниченные запасы открытых наборов данных. , , Разработка на основе FL также предполагает, что исследователь или разработчик ИИ не может исследовать или визуализировать все данные, на которых обучается модель, например, невозможно посмотреть на отдельный случай неудачи, чтобы понять, почему текущая модель плохо работает на ней. 11 12 20 Поставщики здравоохранения Healthcare providers in many countries are affected by the on-going paradigm shift from volume-based, i.e., fee-for-service-based, to value-based healthcare, which is in turn strongly connected to the successful establishment of precision medicine. This is not about promoting more expensive individualised therapies but instead about achieving better outcomes sooner through more focused treatment, thereby reducing the cost. FL has the potential to increase the accuracy and robustness of healthcare AI, while reducing costs and improving patient outcomes, and may therefore be vital to precision medicine. Производители Производители программного и аппаратного обеспечения для здравоохранения также могут извлечь выгоду из FL, поскольку сочетание обучения из многих устройств и приложений без раскрытия конкретной информации для пациента может облегчить непрерывную валидацию или улучшение их систем на основе ML. Тем не менее, реализация такой возможности может потребовать значительных обновлений местных вычислений, хранения данных, возможностей сетей и сопутствующего программного обеспечения. Технические соображения FL is perhaps best-known from the work of Konečnỳ et al. Но в литературе предлагаются и другие определения. , , , Функциональный рабочий процесс (Fig. ) can be realised via different topologies and compute plans (Fig. В этом разделе мы подробнее рассмотрим, что такое FL, а также подчеркнем ключевые вызовы и технические соображения, возникающие при применении FL в цифровом здравоохранении. 55 9 11 12 20 1 2 Определение федерального обучения FL является парадигмой обучения, в которой несколько сторон тренируются совместно без необходимости обмена или централизации наборов данных.Общая формулировка FL гласит следующее: Позвольте обозначить глобальную функцию потери, полученную с помощью взвешенной комбинации local losses , computed from private data , который проживает у отдельных заинтересованных сторон и никогда не делится между ними: K Xk where > 0 обозначает соответствующие весовые коэффициенты. ВК На практике каждый участник обычно получает и уточняет модель глобального консенсуса, проводя несколько раундов оптимизации локально и прежде чем делиться обновлениями, либо непосредственно, либо через сервер параметров. ) , Фактический процесс агрегирования параметров зависит от сетевой топологии, так как узлы могут быть разделены на подсети из-за географических или юридических ограничений (см. Фиг. ). Aggregation strategies can rely on a single aggregating node (hub and spokes models), or on multiple nodes without any centralisation. An example is peer-to-peer FL, where connections exist between all or a subset of the participants and model updates are shared only between directly connected sites , Примером централизованной агрегации FL является алгоритм 1.Заметьте, что стратегии агрегации не обязательно требуют информации о полном обновлении модели; клиенты могут решить поделиться только подгруппой параметров модели в целях уменьшения общения, обеспечения лучшего сохранения конфиденциальности. или производить алгоритмы многозадачного обучения, изучающие только часть их параметров федеративным способом. 1 9 12 2 15 56 10 Объединяющая рамка, позволяющая различным схемам обучения, может отделить вычислительные ресурсы (данные и серверы) от системы. , as depicted in Fig. . The latter defines the trajectory of a model across several partners, to be trained and evaluated on specific data sets. Компьютерный план 2 Вызовы и соображения Несмотря на преимущества FL, он не решает все проблемы, присущие изучению медицинских данных.Успешное обучение модели все еще зависит от таких факторов, как качество данных, предвзятость и стандартизация Эти вопросы должны быть решены как для федеративных, так и не-федеративных усилий обучения через соответствующие меры, такие как тщательный дизайн исследования, общие протоколы для сбора данных, структурированное отчеты и сложные методологии для обнаружения предвзятости и скрытой стратификации.В следующем мы касаемся ключевых аспектов FL, которые имеют особое значение при применении к цифровому здоровью и должны быть учтены при создании FL. Для технических деталей и углубленной дискуссии мы направляем читателя к недавним опросам , , . 2 11 12 20 Гетерогенность данных Медицинские данные особенно разнообразны — не только из-за разнообразия модальностей, измерений и характеристик в целом, но даже в рамках конкретного протокола из-за таких факторов, как различия в приобретении, бренд медицинского устройства или местная демография. FL может помочь решить определенные источники предвзятости через потенциально повышенное разнообразие источников данных, но неоднородное распределение данных представляет собой вызов для алгоритмов и стратегий FL, так как многие принимают независимые и идентично распределенные (IID) данные по всем участникам. Они склонны к неудачам в этих условиях. , , , частично побеждая саму цель совместных стратегий обучения.Но недавние результаты показывают, что обучение FL все еще осуществимо , even if medical data is not uniformly distributed across the institutions , or includes a local bias . Research addressing this problem includes, for example, Стратегия частичного обмена данными and FL with domain-adaptation Другая проблема заключается в том, что гетерогенность данных может привести к ситуации, когда глобальное оптимальное решение может быть не оптимальным для отдельного участника местного обучения. ФЕДАВГ 9 9 57 58 59 16 17 51 FedProx 57 58 18 конфиденциальность и безопасность Healthcare data is highly sensitive and must be protected accordingly, following appropriate confidentiality procedures. Therefore, some of the key considerations are the trade-offs, strategies and remaining risks regarding the privacy-preserving potential of FL. Privacy vs. performance: It is important to note that FL does not solve all potential privacy issues and—similar to ML algorithms in general—will always carry some risks. Privacy-preserving techniques for FL offer levels of protection that exceed today’s current commercially available ML models . However, there is a trade-off in terms of performance and these techniques may affect, for example, the accuracy of the final model Кроме того, будущие методы и/или вспомогательные данные могут быть использованы для компрометирования модели, ранее считавшейся малорисковой. 12 10 Уровень доверия: В широком смысле, участники могут вступать в два типа FL сотрудничества: — для консорциумов FL, в которых все стороны считаются надежными и связаны исполнительным соглашением о сотрудничестве, мы можем устранить многие из более вредных мотивов, таких как преднамеренные попытки извлечь конфиденциальную информацию или преднамеренно коррумпировать модель. Доверились В системах FL, работающих в больших масштабах, может быть нецелесообразно установить исполняемое соглашение о сотрудничестве. Некоторые клиенты могут сознательно пытаться снизить производительность, снизить производительность системы или извлечь информацию от других сторон. Следовательно, для смягчения этих рисков будут необходимы стратегии безопасности, такие как расширенное шифрование представлений моделей, безопасная аутентификация всех сторон, отслеживаемость действий, дифференциальная конфиденциальность, системы проверки, целостность исполнения, конфиденциальность моделей и защиты от атак соперника. Недоверчивые Утечка информации: по определению, системы FL избегают обмена данными о здравоохранении между участвующими учреждениями. однако, общая информация все еще может косвенно раскрыть частные данные, используемые для местного обучения, например, путем обратной модели. обновления модели, сами градиенты or adversarial attacks , . FL is different from traditional training insofar as the training process is exposed to multiple parties, thereby increasing the risk of leakage via reverse-engineering if adversaries can observe model changes over time, observe specific model updates (i.e., a single institution’s update), or manipulate the model (e.g., induce additional memorisation by others through gradient-ascent-style attacks). Developing counter-measures, such as limiting the granularity of the updates and adding noise , Обеспечение адекватной дифференцированной конфиденциальности , может понадобиться и остается активной областью исследований . 60 61 62 63 16 18 44 12 Отслеживаемость и подотчетность В отличие от централизованного обучения, FL требует многосторонних вычислений в средах, которые демонстрируют значительное разнообразие с точки зрения аппаратного обеспечения, программного обеспечения и сетей. Отслеживаемость всех системных активов, включая историю доступа к данным, конфигурации обучения и настройку гиперпараметров на протяжении всех процессов обучения, является обязательной. В частности, в ненадёжных федерациях, отслеживаемость и процессы по отчетности требуют целостности выполнения. После того, как процесс обучения достигнет взаимно согласованных критериев оптимальности модели, также может быть полезно измерить размер вклада от каждого участника, таких как расход вычислительных ресурсов, качество данных, используемых для местного обучения и т. д. Эти измерения могут быть использованы для определения Одно из последствий FL заключается в том, что исследователи не могут исследовать данные, по которым модели обучаются, чтобы дать смысл неожиданным результатам. Кроме того, принятие статистических измерений их данных обучения в рамках рабочего процесса разработки модели потребует одобрения сотрудничающими сторонами как не нарушающего конфиденциальности. Хотя каждый сайт будет иметь доступ к своим собственным сырым данным, федерации могут решить предоставить некий вид безопасного внутриузлового просмотра для удовлетворения этой потребности или могут предоставить какой-то другой способ повышения объяснимости и интерпретабельности глобальной модели. 64 Архитектура системы Unlike running large-scale FL amongst consumer devices such as McMahan et al. Участники учреждений здравоохранения оснащены относительно мощными вычислительными ресурсами и надежными сетями с более высоким пропускным потенциалом, которые позволяют обучать большие модели с гораздо более локальными этапами обучения и делиться большей информацией о моделях между узлами.Эти уникальные характеристики FL в здравоохранении также приносят проблемы, такие как обеспечение целостности данных при общении с использованием избыточных узлов, проектирование безопасных методов шифрования для предотвращения утечки данных или проектирование соответствующих плановиков узлов для наилучшего использования распределенных вычислительных устройств и сокращения времени бездействия. 9 The administration of such a federation can be realised in different ways. In situations requiring the most stringent data privacy between parties, training may operate via some sort of “honest broker” system, in which a trusted third party acts as the intermediary and facilitates access to data. This setup requires an independent entity controlling the overall system, which may not always be desirable, since it could involve additional cost and procedural viscosity. However, it has the advantage that the precise internal mechanisms can be abstracted away from the clients, making the system more agile and simpler to update. In a peer-to-peer system each site interacts directly with some or all of the other participants. In other words, there is no gatekeeper function, all protocols must be agreed up-front, which requires significant agreement efforts, and changes must be made in a synchronised fashion by all parties to avoid problems. Additionally, in a trustless-based architecture the platform operator may be cryptographically locked into being honest by means of a secure protocol, but this may introduce significant computational overheads. Conclusion ML и, в частности, DL, привели к широкому спектру инноваций в области цифрового здравоохранения. Поскольку все методы ML в значительной степени выигрывают от возможности доступа к данным, приближающимся к истинному глобальному распространению, FL является перспективным подходом к получению мощных, точных, безопасных, надежных и беспристрастных моделей. Позволяя нескольким сторонам совместно обучаться без необходимости обмениваться или централизовать наборы данных, FL аккуратно решает вопросы, связанные с выходом чувствительных медицинских данных. В результате, он может открыть новые пути исследования и бизнеса и имеет потенциал для улучшения ухода за пациентами во всем мире. Однако уже сегодня FL оказывает влияние на почти всех заинтересованных сторон и весь цикл лечения, начиная от улучшенного медицинского Несмотря на это, мы действительно считаем, что его потенциальное влияние на прецизионную медицину и, в конечном счете, улучшение медицинской помощи очень перспективно. 12 Отчет о резюме Дополнительная информация по исследовательскому проекту доступна в linked to this article. Nature Research Reporting Summary Референции LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. , 436 (2015). Nature 521 Wang, F., Casalino, L. P. & Khullar, D. Deep learning in medicine—promise, progress, and challenges. , 293–294 (2019). JAMA Intern. Med. 179 Chartrand, G. et al. Deep learning: a primer for radiologists. , 2113–2131 (2017). Radiographics 37 De Fauw, J. et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. , 1342 (2018). Nat. Med. 24 Sun, C., Shrivastava, A., Singh, S. & Gupta, A. Revisiting unreasonable effectiveness of data in deep learning era. In , 843–852 ( , 2017). Proceedings of the IEEE international conference on computer vision IEEE Van Panhuis, W. G. et al. A systematic review of barriers to data sharing in public health. , 1144 (2014). BMC Public Health 14 Rocher, L., Hendrickx, J. M. & De Montjoye, Y.-A. Estimating the success of re-identifications in incomplete datasets using generative models. , 1–9 (2019). Nat. Commun. 10 Schwarz, C. G. et al. Identification of anonymous mri research participants with face-recognition software. , 1684–1686 (2019). N. Engl. J. Med. 381 McMahan, B., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. In , 1273–1282. (2017). Artificial Intelligence and Statistics https://scholar.google.de/scholar?hl=de&as_sdt=0%2C5&q=Communicationefficient+learning+of+deep+networks+from+decentralized+data&btnG= Li, T., Sahu, A. K., Talwalkar, A. & Smith, V. Federated learning: Challenges, methods, and future directions. , 50–60 (IEEE, 2020). IEEE Signal Processing Magazine 37 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. (TIST) 10 Kairouz, P. et al. Advances and open problems in federated learning. (2019). arXiv preprint arXiv:1912.04977 Lee, J. et al. Privacy-preserving patient similarity learning in a federated environment: development and analysis. , e20 (2018). JMIR Med. Inform. 6 Brisimi, T. S. et al. Federated learning of predictive models from federated electronic health records. , 59–67 (2018). Int. J. Med. Inform. 112 Roy, A. G., Siddiqui, S., Pölsterl, S., Navab, N. & Wachinger, C. Braintorrent: a peer-to-peer environment for decentralized federated learning. (2019). arXiv preprint arXiv:1905.06731 Li, W. et al. Privacy-preserving federated brain tumour segmentation. In , 133–141 (Springer, 2019). International Workshop on Machine Learning in Medical Imaging Sheller, M. J., Reina, G. A., Edwards, B., Martin, J. & Bakas, S. Multi-institutional deep learning modeling without sharing patient data: a feasibility study on brain tumor segmentation. In , 92–104 (Springer, 2018). International MICCAI Brainlesion Workshop Li, X. et al. Multi-site fmri analysis using privacy-preserving federated learning and domain adaptation: abide results. (2020). arXiv preprint arXiv:2001.05647 Huang, L. et al. Patient clustering improves efficiency of federated machine learning to predict mortality and hospital stay time using distributed electronic medical records. , 103291 (2019). J. Biomed. Inform. 99 Xu, J. & Wang, F. Federated learning for healthcare informatics. (2019). arXiv preprint arXiv:1911.06270 Roy, A. & Banerjee, A. Ibm’s merge healthcare acquisitio . (2015) (Accessed 10 February 2020). n https://www.reuters.com/article/us-merge-healthcare-m-a-ibm/ibm-to-buy-merge-healthcare-in-1-billion-deal-idUSKCN0QB1ML20150806 Nhs scotland’s national safe haven. (2015) (Accessed 10 February 2020). https://www.gov.scot/publications/charter-safe-havens-scotland-handling-unconsented-data-national-health-service-patient-records-support-research-statistics/pages/4/ Cuggia, M. & Combes, S. The french health data hub and the german medical informatics initiatives: Two national projects to promote data sharing in healthcare. , 195–202 (2019). Yearbook Med. Informat. 28 Health Data Research UK. (Health Data Research UK, 2020) (Accessed 10 Feb 2020). https://www.hdruk.ac.uk/ Sporns, O., Tononi, G. & Kötter, R. The human connectome: a structural description of the human brain. . , e42, (2005). PLoS Comput. Biol 1 https://doi.org/10.1371/journal.pcbi.0010042 Sudlow, C. et al. Uk biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age. . , e1001779. (2015). PLoS Med 12 https://doi.org/10.1371/journal.pmed.1001779 Clark, K. et al. The cancer imaging archive (tcia): maintaining and operating a public information repository. , 1045–1057 (2013). J. Digit. Imaging. 26 Wang, X. et al. Chestx-ray8: Hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In , 2097–2106 ( , 2017). Proceedings of the IEEE conference on computer vision and pattern recognition IEEE Yan, K., Wang, X., Lu, L. & Summers, R. M. Deeplesion: automated mining of large-scale lesion annotations and universal lesion detection with deep learning. , 036501 (2018). J Med. Imaging. 5 Tomczak, K., Czerwińska, P. & Wiznerowicz, M. The cancer genome atlas (tcga): an immeasurable source of knowledge. , A68 (2015). Contemp. Oncol. 19 Jack Jr., C. R. et al. The alzheimer’s disease neuroimaging initiative (adni): Mri methods. , 685–691 (2008). J. Magn. Reson. Imaging 27 . (2020) (Accessed 24 July 2020). Grand Challenge-a Platform for End-to-end Development of Machine Learning Solutions in Biomedical Imaging https://grand-challenge.org/ Litjens, G. et al. 1399 h&e-stained sentinel lymph node sections of breast cancer patients: the camelyon dataset. , giy065 (2018). GigaScience 7 Menze, B. H. et al. The multimodal brain tumor image segmentation benchmark (brats). , 1993–2024 (2014). IEEE Trans. Med. Imaging 34 Bakas, S. et al. Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the brats challenge. (2018). arXiv preprint arXiv:1811.02629 Bakas, S. et al. Advancing the cancer genome atlas glioma MRI collections with expert segmentation labels and radiomic features. , 170117 (2017). Sci. Data 4 Simpson, A. L. et al. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. (2019). arXiv preprint arXiv:1902.09063 Yeh, F.-C. et al. Quantifying differences and similarities in whole-brain white matter architecture using local connectome fingerprints. , e1005203 (2016). PLoS Comput. Biol. 12 Chang, K. et al. Distributed deep learning networks among institutions for medical imaging. , 945–954 (2018). J. Am. Med. Inform. Assoc. 25 Shokri, R., Stronati, M., Song, C. & Shmatikov, V. Membership inference attacks against machine learning models. In , 3-18 (IEEE, 2017). 2017 IEEE Symposium on Security and Privacy (SP) Sablayrolles, A., Douze, M., Ollivier, Y., Schmid, C. & Jégou, H. White-box vs black-box: Bayes optimal strategies for membership inference. In Chaudhuri, K. & Salakhutdinov, R. (eds) , 5558–5567. (PMLR, 2019). Proceedings of the 36th International Conference on Machine Learning, {ICML} 97 http://proceedings.mlr.press/v97/sablayrolles19a.html Zhang, C., Bengio, S., Hardt, M., Recht, B. & Vinyals, O. Understanding deep learning requires rethinking generalization. In , (OpenReview.net, 2017). 5th International Conference on Learning Representations, {ICLR}. https://openreview.net/forum?id=Sy8gdB9xx Carlini, N., Liu, C., Erlingsson, Ú., Kos, J. & Song, D. The secret sharer: evaluating and testing unintended memorization in neural networks. In Heninger, N. & Traynor, P. (eds) { } ({ } , 267–284. ({USENIX} Association, Santa Clara, CA, USA, 2019). 28th USENIX Security Symposium USENIX Security 19 https://www.usenix.org/conference/usenixsecurity19/presentation/carlini Abadi, M. et al. Deep learning with differential privacy. In , 308–318 (ACM, 2016). Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In , 1310–1321 (ACM, 2015). Proceedings of the 22nd ACM SIGSAC conference on computer and communications security Langlotz, C. P. et al. A roadmap for foundational research on artificial intelligence in medical imaging: from the 2018 nih/rsna/acr/the academy workshop. , 781–791 (2019). Radiology 291 Kim, Y., Sun, J., Yu, H. & Jiang, X. Federated Tensor Factorization for Computational Phenotyping. In . 887–895. (ACM, Halifax, NS, Canada, 2017). Proceedings of the 23rd {ACM} {SIGKDD} International Conference on Knowledge Discoveryand Data Mining https://doi.org/10.1145/3097983.3098118 He, C., Annavaram, M. & Avestimehr, S. Fednas: Federated deep learning via neural architecture search. (2020). https://sites.google.com/view/cvpr20-nas/ Trustworthy federated data analytics (tfda). (2020) (Accessed 28 May 2020). https://tfda.hmsp.center/ Joint Imaging Platform (Jip). (2020) (Accessed 28 May 2020). https://jip.dktk.dkfz.de/jiphomepage/ Medical institutions collaborate to improve mammogram assessment ai. (2020) (Accessed 28 May 2020). https://blogs.nvidia.com/blog/2020/04/15/federated-learning-mammogram-assessment/ Healthchain consortium. (2020) (Accessed 28 May 2020). https://www.substra.ai/en/healthchain-project The federated tumor segmentation (fets) initiative. (2020) (Accessed 28 May 2020). https://www.fets.ai Machine learning ledger orchestration for drug discovery. (2020). Accessed 28 May 2020. https://cordis.europa.eu/project/id/831472 Konečny`, J., McMahan, H. B., Ramage, D. & Richtárik, P. Federated optimization: Distributed machine learning for on-device intelligence. (2016). arXiv preprint arXiv:1610.02527 Lalitha, A., Kilinc, O. C., Javidi, T. & Koushanfar, F. Peer-to-peer federated learning on graphs. (2019). arXiv preprint arXiv:1901.11173 Li, T., Sahu, A. K., Zaheer, M., Sanjabi, M., Talwalkar, A. & Smith, V. Federated optimization in heterogeneous networks. (2018). arXiv preprint arXiv:1812.06127 Zhao, Y. et al. Federated learning with non-iid data. (2018). arxivabs/1806.00582 Li, X., Huang, K., Yang, W., Wang, S. & Zhang, Z. On the convergence of fedavg on non-IID data. (2020). https://openreview.net/forum?id=HJxNAnVtDS Wu, B. et al. P3sgd: patient privacy preserving SGD for regularizing deep CNNs in pathological image classification. In (pp. 2099–2108) (2019). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Zhu, L., Liu, Z. & Han, S. Deep leakage from gradients. In Wallach, H. M. et al. (eds) , 14747–14756. (2019). Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems http://papers.nips.cc/paper/9617-deep-leakage-from-gradients Wang, Z. et al. Beyond inferring class representatives: user-level privacy leakage from federated learning. In 2512–2520. (IEEE, Paris, France, 2019). 2019 {IEEE} Conferenceon Computer Communications, {INFOCOM} https://doi.org/10.1109/INFOCOM.2019.8737416 Hitaj, B., Ateniese, G. & Perez-Cruz, F. Deep models under the gan: information leakage from collaborative deep learning. In , CCS’17, 603–618 (Association for Computing Machinery, New York, NY, USA, 2017). Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security Ghorbani, A. & Zou, J. Data shapley: Equitable valuation of data for machine learning. In (pp. 2242-2251) (2019). International Conference on Machine Learning Признания Эта работа была поддержана Британским исследовательским и инновационным Лондонским центром медицинского изображения и искусственного интеллекта для ценностного здравоохранения, Центром медицинской инженерии Wellcome/EPSRC (WT203148/Z/16/Z), Флагманской программой Wellcome (WT213038/Z/18/Z), Интрамуральной исследовательской программой Национального института здравоохранения (NIH) Клинического центра, Национальным институтом рака NIH под номером награды U01CA242871, Национальным институтом неврологических расстройств и инсульта NIH под номером награды R01NS042645, а также авторской инициативой и сетевым фондом Хельмгольца (проект «Достоверный федеральный анализ данных») и программой PR Эта статья доступна на природе под лицензией CC by 4.0 Deed (Attribution 4.0 International). Эта статья доступна на природе под лицензией CC by 4.0 Deed (Attribution 4.0 International).