Eine neue Privacy-First AI prognostiziert COVID-Schweregrad mithilfe von Röntgenstrahlen und medizinischen Aufzeichnungen

Die Autoren: Ittai Dayan Holger R. Roth von Aoxiao Zhong von Ahmed Harouni Amilcare Gentili Anas Z. Abidin Andrew Liu Anthony Beardsworth Costa von Bradford J. Wood Chien-Sung Tsai Chih-Hung Wang Chun-Nan Hsu C. K. Lee Peiying Ruan Daguang Xu Dufan Wu Eddie Huang von Felipe Campos Kitamura von Griffin Lacey Gustavo César de Antônio Corradi Gustavo Nino Hao-Hsin Shin Hirofumi Obinata Hui Ren von Jason C. Crane von Jesse Tetreault Jiahui Guan John W. Garrett Joshua D. Kaggie Jung Gil Park Keith Dreyer Krishna Juluru Kristopher Kersten Marcio Aloisio Bezerra Cavalcanti Rockenbach Marius George Linguraru Masoom A. Haider Meena AbdelMaseeh Nicola Rieke Pablo F. Damasceno Pedro Mario Cruz e Silva Pochuan Wang Sheng Xu Shuichi Kawano Sira Sriswasdi Soo Young Park Thomas M. Grist Varun Buch Watsamon Jantarabenjakul Weichung Wang Won Young Tak Xiang Li Xihong Lin Young Joon Kwon Abood Quraini Andrew Feng Andrew N. Priest Baris Turkbey Benjamin Glicksberg Bernardo Bizzo Byung Seok Kim Carlos Tor-Díez Chia-Cheng Lee Chia-Jung Hsu Chin Lin Chiu-Ling Lai Christopher P. Hess Colin Compas Deepeksha Bhatia Eric K. Oermann Evan Leibovitz Hisashi Sasaki Hitoshi Mori Isaac Yang Jae Ho Sohn Krishna Nand Keshava Murthy Li-Chen Fu Matheus Ribeiro Furtado de Mendonça Mike Fralick Min Kyu Kang Mohammad Adil Natalie Gangai Peerapon Vateekul Pierre Elnajjar Sarah Hickman Sharmila Majumdar Shelley L. McLeod Sheridan Reed Stefan Gräf Stephanie Harmon Tatsuya Kodama Thanyawee Puthanakit Tony Mazzulli Vitor Lima de Lavor Yothin Rakvongthai Yu Rim Lee Yuhong Wen Fiona J. Gilbert Mona G. Flores Quanzheng Li Die Autoren: Siehe Dayan von Holger R. Roth von Aoxiao Zhong von Ahmed Harouni Amilcare freundlich Anas Z. Abidin Andrew Liu von Anthony Beardsworth Costa von Bradford J. Wood Chien-Sung Tsai von Chih-Hung Wang Chun-Nan Hsu von C. K. Lee Rügen Rügen Daguang Xu Dufan Wu von Eddie Huang von Felipe Campos Kitamura von Griffin Lacey Gustavo César von Antonio Corradi von Gustavo Nino Hao-Hsin Shin Hirofumi Obinata Hui Ren von Jason C. Crane von Jesse Tetreault von Jiahui Guan von John W. Garrett von Joshua D. Kaggie Jung Gil Park von Keith Dreyer Krishna Juluru Christoph Kersten von Marcio Aloisio Bezerra Cavalcanti Rockenbach von Marius George Linguraru Masoom A. Haider Meena AbdelMaseeh Nicola Rieke von Pablo F. Damasceno von Pedro Mario Cruz e Silva Pochuan Wang Sheng Xu von Shuichi Kawano von Sira Sriswasdi Das Soo Young Park von Thomas M. Grist Das Buch Varun Watsamon Mittagessen Weichung Wang Young Tak gewinnt Xiang Li von Xihong Lin Junger Joon Kwon Abgeordneter Quraini von Andrew Feng von Andrew N. Priest Baris Turkbey von Benjamin Glicksberg von Bernardo Bizzo Sehen Sie nach Kim von Carlos Tor-Díez von Chia-Cheng Lee Chia-Jung Hsu Chinas Lin Die Chiu-Ling Lai von Christopher P. Hess von Colin Compas Deepeksha Bhatia von Eric K. Oermann von Evan Leibovitz von Hisashi Sasaki Hitoshi Mori Isaak Yang Jae Ho Sohn Krishna Nand Keshava Murthy Li-Chen Fu von Matheus Ribeiro Furtado de Mendonça von Mike Fralick Mein Kyu Kang Mohammad Adil von Natalie Gangai Peerapon Vateekul Pierre Elnajjar von Sarah Hickman Sharmila Majumdar von Shelley L. McLeod von Sheridan Reed Stefan Gräf von Stephanie Harmon Tatsuya Kodama Thanyawee Puthanakit von Tony Mazzulli Vitor Lima von der Arbeit Yothin Rakvongthai von Yu Rim Lee Yuhong Wen von Fiona J. Gilbert Mona G. Blumen Quanzheng Li Abstrakte Federated Learning Setup (FL) ist eine Methode, die für das Training von Daten mit Daten aus mehreren Quellen verwendet wird, wobei die Datenanonymität beibehalten wird, wodurch viele Barrieren für den Datenaustausch entfernt werden. Hier haben wir Daten von 20 Instituten auf der ganzen Welt verwendet, um ein FL-Modell zu trainieren, das EXAM (Electronic Medical Record (EMR) Chest X-ray AI-Modell) genannt wird, das die zukünftigen Sauerstoffbedürfnisse symptomatischer Patienten mit COVID-19 mit Hilfe von Eingängen von Lebenszeichen, Labordaten und Brust-Röntgenstrahlen prognostiziert. EXAM erreichte eine durchschnittliche Fläche unter der Kurve (AUC) > 0,92 für die Vorhersage der Ergebnisse bei 24 und 72 Stunden von der ersten Präs Haupt Die wissenschaftlichen, akademischen, medizinischen und datenwissenschaftlichen Gemeinschaften haben sich angesichts der COVID-19-Pandemie-Krise zusammengetan, um neue Paradigmen in der künstlichen Intelligenz (KI) schnell zu bewerten, die schnell und sicher sind, und möglicherweise den Datenaustausch und das Modelltraining und -testen ohne die üblichen Privatsphäre- und Datenbesitzbarrieren konventioneller Kollaborationen zu fördern. , Gesundheitsdienstleister, Forscher und Industrie haben ihren Fokus auf unerfüllte und kritische klinische Bedürfnisse, die durch die Krise geschaffen wurden, mit bemerkenswerten Ergebnissen verlagert. , , , , , , Die Rekrutierung von klinischen Studien wurde von nationalen Regulierungsbehörden und einem internationalen Kooperationsgeist beschleunigt und erleichtert. , , Die Disziplinen Datenanalyse und KI haben immer offene und kollaborative Ansätze gefördert, die Konzepte wie Open-Source-Software, reproduzierbare Forschung, Datenspeicher und die Bereitstellung anonymisierter Datensätze für die Öffentlichkeit umfassen. , Die Pandemie hat die Notwendigkeit hervorgehoben, datensammlungen rasch durchzuführen, die die klinischen und wissenschaftlichen Gemeinschaften bei der Antwort auf sich schnell entwickelnde und weit verbreitete globale Herausforderungen befähigen. datenschaltung hat ethische, regulatorische und rechtliche komplexitäten, die durch den jüngsten eintritt großer tech-unternehmen in die gesundheitsdatenwelt unterstrichen werden, und vielleicht etwas kompliziert. , , . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Ein konkretes Beispiel für diese Arten von Zusammenarbeit ist unsere frühere Arbeit an einem KI-basierten SARS-COV-2-Modell für klinische Entscheidungsunterstützung (CDS). Dieses CDS-Modell wurde bei Mass General Brigham (MGB) entwickelt und über mehrere Gesundheitssysteme validiert.Die Eingänge zum CDS-Modell waren Brust-X-Ray-Bilder (CXR), lebenswichtige Zeichen, demografische Daten und Laborwerte, die in früheren Publikationen gezeigt wurden, um die Ergebnisse von Patienten mit COVID-19 vorherzusagen. , , , CXR wurde als Imaging-Eingang ausgewählt, weil es weit verbreitet verfügbar ist und häufig durch Richtlinien wie die von ACR angegeben wird. Die Fleischner Gesellschaft Die WHO National Thoracic Gesellschaften Nationales Gesundheitsministerium COVID Handbücher und Radiologie Gesellschaften auf der ganzen Welt Die Ausgabe des CDS-Modells war eine Punktzahl, genannt CORISK , die den Sauerstoffunterstützungsanforderungen entspricht und die bei der Prüfung von Patienten durch Frontline-Kliniker helfen könnte , , Es ist bekannt, dass Gesundheitsdienstleister Modelle bevorzugen, die auf ihren eigenen Daten validiert wurden. Bisher wurden die meisten KI-Modelle, einschließlich des oben genannten CDS-Modells, auf „englischen“ Daten geschult und validiert, die oft an Vielfalt mangeln. , , was möglicherweise zu Overfitting und geringerer Verallgemeinerbarkeit führt. Dies kann durch Training mit diversen Daten aus mehreren Standorten ohne Zentralisierung von Daten gemildert werden Verwendung von Methoden wie Transfer-Learning , FL ist eine Methode, die verwendet wird, um KI-Modelle an unterschiedlichen Datenquellen auszubilden, ohne dass die Daten außerhalb ihres ursprünglichen Standorts transportiert oder ausgesetzt werden. . 18 19 20 21 22 23 24 25 26 27 28 29 30 27 31 32 33 34 35 36 Federated Learning unterstützt den schnellen Start von zentral orchestrierten Experimenten mit verbesserter Datenverfolgbarkeit und Bewertung von algorithmischen Änderungen und Auswirkungen Ein Ansatz für FL, der Client-Server genannt wird, sendet ein „untrained“ Modell an andere Server („Nodes“), die teilweise Trainingsaufgaben durchführen, und sendet wiederum die Ergebnisse zurück, um in den zentralen („federierten“) Server zusammengeführt zu werden. . 37 36 Die Datenverwaltung für FL wird lokal aufrechterhalten, was Privatsphäreprobleme lindert, wobei nur Modellgewichte oder Gradienten zwischen Client-Sites und dem federierten Server kommuniziert werden. , FL hat in jüngsten Anwendungen für medizinische Bildgebung bereits vielversprechend gezeigt , , , Die Analyse von Covid-19 , , Ein bemerkenswertes Beispiel ist ein Mortalitätsvorhersagemodell bei Patienten, die mit SARS-COV-2 infiziert sind, das klinische Merkmale verwendet, wenn auch in Bezug auf die Anzahl der Modalitäten und den Umfang begrenzt. . 38 39 40 41 42 43 8 44 45 46 Unser Ziel war es, ein robustes, verallgemeinerbares Modell zu entwickeln, das bei der Prüfung von Patienten helfen könnte. Wir haben theoretisiert, dass das CDS-Modell aufgrund seiner Verwendung von Dateninputs, die in der klinischen Praxis relativ häufig sind und nicht stark auf operatorabhängige Bewertungen des Patientenzustands (wie klinische Eindrücke oder berichtete Symptome) angewiesen sind, erfolgreich federiert werden kann. Stattdessen wurden Laborergebnisse, lebenswichtige Zeichen, eine Bildgebungsstudie und eine allgemein erfasste demografische (d. h. Alter) verwendet. Deshalb haben wir das CDS-Modell mit diversen Daten mit einem Client-Server-FL-Ansatz neu trainiert, um ein neues globales FL-Modell zu entwickeln, das EXAM genannt wurde, das Unsere Hypothese war, dass EXAM besser funktionieren würde als lokale Modelle und besser über Gesundheitssysteme hinweg verallgemeinern würde. Ergebnisse Das Exam-Modell der Architektur Das EXAM-Modell basiert auf dem oben genannten CDS-Modell Insgesamt wurden 20 Merkmale (19 von der EMR und einer von der CXR) als Eingabe zum Modell verwendet. Die Ergebnisse (d.h. die „grundlegende Wahrheit“) wurden nach einer Sauerstofftherapie des Patienten nach 24 und 72 Stunden nach der ersten Aufnahme in die Notfallabteilung (ED) zugeordnet. . 27 1 Die Ausgangsetiketten der Patienten wurden auf 0, 0,25, 0,50 und 0,75 festgelegt, abhängig von der intensivsten Sauerstofftherapie, die der Patient im Vorhersagefenster erhielt. Die Sauerstofftherapie-Kategorien waren jeweils Raumluft (RA), niedriger Sauerstofffluss (LFO), hoher Sauerstofffluss (HFO)/noninvasive Belüftung (NIV) oder mechanische Belüftung (MV). Wenn der Patient innerhalb des Vorhersagefensters starb, wurde das Ergebnisetikett auf 1 festgelegt. Bei EMR-Funktionen wurden nur die ersten in der ED erfassten Werte verwendet und die Datenvorverarbeitung umfasste die Deidentifizierung, die fehlende Werteimputation und die Normalisierung auf Null-Mittel- und Einheitsvarianz. Das Modell fusioniert daher Informationen aus EMR- und CXR-Funktionen mithilfe eines 34-Layer-Convolutional-Neural-Netzwerks (ResNet34) um Features aus einem CXR und einem Deep & Cross-Netzwerk zu extrahieren, um die Features zusammen mit den EMR-Funktionen zu vernetzen (für weitere Details siehe Die Modellleistung ist ein Risiko-Score, der als EXAM-Score bezeichnet wird, der ein kontinuierlicher Wert im Bereich 0-1 für jede der 24 und 72 Stunden-Vorhersagen ist, die den oben beschriebenen Etiketten entsprechen. Methoden Föderation des Modells Das EXAM-Modell wurde mit einer Kohorte von 16.148 Fällen ausgebildet, was es nicht nur zu den ersten FL-Modellen für COVID-19 macht, sondern auch zu einem sehr großen und multikontinentalen Entwicklungsprojekt in klinisch relevanten KI (Abb. Daten zwischen den Standorten wurden vor der Extraktion nicht harmonisiert und unter Berücksichtigung der realen klinischen Informatik Umstände wurde von den Autoren keine sorgfältige Harmonisierung der Dateneingabe durchgeführt (Abb. der ) 1a und B 1 C, D Weltkarte mit den 20 verschiedenen Client-Websites, die zur EXAM-Studie beitragen. , Anzahl der Fälle, die von jeder Institution oder Website beitragen (Client 1 repräsentiert die Website, die die größte Anzahl von Fällen beiträgt). , Brust Röntgenintensitätsverteilung an jeder Client-Website. , Alter der Patienten an jeder Client-Website, wobei das Mindest- und Höchstalter (Asterisken), das Durchschnittsalter (Dreieck) und die Standardabweichung (Horizontalleisten) angezeigt werden. . a b c d 1 Wir verglichen lokale trainierte Modelle mit dem globalen FL-Modell auf den Testdaten jedes Kunden. « 1 × 10–3, Wilcoxon-Test unterzeichnet-Rank) von 16% (wie durchschnittlich definiert durch AUC beim Ausführen des Modells auf den jeweiligen lokalen Testsätzen: von 0,795 bis 0,920, oder 12,5 Prozentpunkte) (Abb. Es führte auch zu einer Verbesserung der Verallgemeinerbarkeit von 38% (wie durch die durchschnittliche AUC bei der Ausführung des Modells auf allen Testsätzen definiert: von 0,667 bis 0,920, oder 25,3 Prozentpunkte) des besten globalen Modells für die Vorhersage der 24-Stunden- Sauerstoffbehandlung im Vergleich zu Modellen, die nur auf den eigenen Daten eines Standorts geschult wurden (Abb. Für die Vorhersageergebnisse der 72-stündigen Sauerstoffbehandlung führte das beste globale Modelltraining zu einer durchschnittlichen Leistungsverbesserung von 18% im Vergleich zu lokal ausgebildeten Modellen, während die Verallgemeinerbarkeit des globalen Modells durchschnittlich um 34% verbessert wurde (Erweiterte Datenfigur. Die Stabilität unserer Ergebnisse wurde durch Wiederholung von drei Rennen von lokalen und FL-Training auf verschiedenen randomisierten Datensplits validiert. P 2a 2b 1 , Leistung auf jedem Kundentest in der Vorhersage der 24-Stunden- Sauerstoffbehandlung für Modelle, die nur auf lokalen Daten ausgebildet wurden (Local) gegenüber dem besten globalen Modell, das auf dem Server verfügbar ist (FL). , Generalisierbarkeit (durchschnittliche Leistung auf den Testdaten anderer Websites, wie sie durch die durchschnittliche AUC dargestellt wird) als Funktion der Datensatzgröße eines Kunden (keine Fälle). Die grüne horizontale Linie bezeichnet die Leistung der Generalisierbarkeit des besten globalen Modells. ) und der Kunde 14 hatte nur Fälle mit RA-Behandlung, so dass die Bewertungsmetrik (AUC) in beiden Fällen nicht anwendbar war ( Daten für Client 14 wurden auch von der Berechnung der durchschnittlichen Verallgemeinerbarkeit in lokalen Modellen ausgeschlossen. a b 1 Methoden Lokale Modelle, die mit ausgewogenen Kohorten trainiert wurden (z. B. meist milde Fälle von COVID-19) profitierten deutlich von dem FL-Ansatz, mit einer wesentlichen Verbesserung der Prognose durchschnittliche AUC-Leistung für Kategorien mit nur wenigen Fällen. Dies war auf der Client-Website 16 (ein ausgewogener Datensatz) deutlich, wobei die meisten Patienten eine leichte Schwere der Krankheit erlebten und mit nur wenigen schweren Fällen. Das FL-Modell erreichte eine höhere True-Positive Rate für die beiden positiven (schweren) Fälle und eine deutlich niedrigere False-Positive Rate im Vergleich zum lokalen Modell, die beide in den Empfänger-Operation Charakteristik (ROC) Plots und Verwir Erweiterte Daten Fig. Noch wichtiger ist, dass die Verallgemeinerbarkeit des FL-Modells über das lokal ausgebildete Modell erheblich erhöht wurde. 3a 2 , ROC auf Client Site 16, mit ungleichgewichtigen Daten und meist milden Fällen. , ROC des lokalen Modells am Client-Standort 12 (ein kleiner Datensatz), durchschnittlicher ROC der Modelle, die auf größeren Datensätzen ausgebildet wurden, die den fünf Client-Standorten in der Region Boston (1, 4, 5, 6, 8) entsprechen, und ROC des besten globalen Modells bei der Vorhersage einer 72-Stunden Sauerstoffbehandlung für unterschiedliche Schwellenwerte der EXAM-Score (links, mittel, rechts). Der durchschnittliche ROC wird auf der Grundlage von fünf lokal ausgebildeten Modellen berechnet, während der graue Bereich die ROC-Standardabweichung bezeichnet. Pos und neg bezeichnen die Anzahl der positiven und negativen Fälle, entsprechend dieser Reihe von EXAM-Score definiert. a b t Im Fall von Client-Sites mit relativ kleinen Datensätzen übertraf das beste FL-Modell nicht nur das lokale Modell, sondern auch diejenigen, die auf größeren Datensätzen von fünf Client-Sites im Bereich Boston der USA geschult wurden (Abb. der ) 3b Das globale Modell lief gut bei der Vorhersage des Sauerstoffbedarfs bei 24/72 Stunden bei Patienten sowohl COVID-positiv als auch negativ (Erweiterte Datenfigur. der ) 3 Validierung auf unabhängigen Websites Nach der ersten Ausbildung wurde EXAM anschließend an drei unabhängigen Validierungsstandorten getestet: Cooley Dickinson Hospital (CDH), Martha’s Vineyard Hospital (MVH) und Nantucket Cottage Hospital (NCH), alle in Massachusetts, USA. Das Modell wurde an diesen Standorten nicht neu getestet und wurde nur für Validierungszwecke verwendet. , und die ROC-Kurven und Verwirrungsmatrizen für den größten Datensatz (von CDH) sind in Fig. Der Betriebspunkt wurde eingestellt, um zwischen nichtmechanischer Belüftung und mechanischer Belüftung (MV) Behandlung (oder Tod) zu unterscheiden. Das FL global ausgebildete Modell, EXAM, erreichte eine durchschnittliche AUC von 0,944 und 0,924 für 24- und 72-Stunden-Vorhersageaufgaben (Tabelle). Für die Vorhersage der MV-Behandlung (oder Tod) bei 24 h erreichte EXAM eine Empfindlichkeit von 0,950 und Spezifität von 0,882 bei CDH, und eine Empfindlichkeit von 1.000 Spezifität von 0,934 bei MVH. NCH hatte keine Fälle mit MV/Tod bei 24 h. In Bezug auf die 72-h MV-Vorhersage erreichte EXAM eine Empfindlichkeit von 0,929 und Spezifität von 0,880 bei CDH, Empfindlichkeit von 1.000 und Spezifität von 0,976 bei MVH und Empfindlichkeit von 1.000 und Spezifität von 0,929 bei NCH. 2 4 2 , , Leistung (ROC) (Ober-) und Verwirrungsmatrix (Unter-) des EXAM FL-Modells auf dem CDH-Datenpaket zur Vorhersage des Sauerstoffbedarfs bei 24 h ( 24 Stunden ( ) ROCs für drei verschiedene Cutoff-Werte ( Die Risikopunkte der Prüfung werden angezeigt. a b a b t Für MV bei CDH bei 72 h hatte EXAM eine niedrige falsch-negative Rate von 7,1%. , die zwei falsch-negative Fälle von CDH zeigen, in denen ein Fall viele fehlende EMR-Datenmerkmale hatte und das andere ein CXR mit einem Bewegungsartifakt und einigen fehlenden EMR-Features hatte. 4 Nutzung der differenzierten Privatsphäre Eine primäre Motivation für Gesundheitsinstitute, FL zu verwenden, besteht darin, die Sicherheit und Privatsphäre ihrer Daten sowie die Einhaltung von Datenkonformitätsmaßnahmen zu bewahren. oder sogar die Rekonstruktion von Trainingsbildern aus den Modellgradienten selbst Um diesen Risiken entgegenzuwirken, wurden Sicherheitsverbesserungsmaßnahmen eingesetzt, um das Risiko im Falle von Datenübernahme während der Site-Server-Kommunikation zu verringern. Wir experimentierten mit Techniken, um das Abfangen von FL-Daten zu vermeiden, und fügten eine Sicherheitsfunktion hinzu, von der wir glauben, dass sie mehr Institutionen ermutigen könnte, FL zu verwenden. Durch die Untersuchung eines partiellen Gewichtsverteilungsschemas , , Wir haben gezeigt, dass Modelle eine vergleichbare Leistung erzielen können, auch wenn nur 25% der Gewichtsupdates geteilt werden (Extended Data Fig. der ) 47 48 49 50 50 51 52 5 Diskussionen Diese Studie bietet eine große, reale FL-Studie im Gesundheitswesen in Bezug auf die Anzahl der Standorte und die Anzahl der verwendeten Datenpunkte. Wir glauben, dass sie einen starken Beweis für die Machbarkeit der Verwendung von FL für die schnelle und kollaborative Entwicklung der notwendigen AI-Modelle in der Gesundheitsversorgung bietet. Unsere Studie beinhaltete mehrere Standorte auf vier Kontinenten und unter der Aufsicht verschiedener Regulierungsstellen und hält damit das Versprechen, den verschiedenen regulierten Märkten auf beschleunigte Weise zur Verfügung gestellt zu werden. Das globale FL-Modell, EXAM, erwies sich als robuster und erzielte bessere Ergebnisse an einzelnen Standorten als jedes Modell, das nur auf lokalen Daten ausgebildet wurde. Wir glauben, dass eine konsistente Verbesserung aufgrund eines größeren, aber Für eine Client-Website mit einem relativ kleinen Datensatz könnten zwei typische Ansätze verwendet werden, um ein nützliches Modell zusammenzustellen: Einer besteht darin, lokal mit eigenen Daten zu trainieren, der andere besteht darin, ein Modell anzuwenden, das auf einem größeren Datensatz geschult wurde. Für Websites mit kleinen Datensätzen wäre es praktisch unmöglich gewesen, ein leistungsfähiges Deep Learning-Modell mit nur ihren lokalen Daten zu bauen. Die Erkenntnis, dass diese beiden Ansätze bei allen drei Vorhersageaufgaben durch das globale FL-Modell übertroffen wurden, deutet darauf hin, dass der Nutzen für Client-Websites mit kleinen Datensätzen, die sich aus der Teilnahme an FL-Kollaborationen ergeben, beträchtlich ist. Dies ist wahrscheinlich eine Reflexion der Fäh . 46 Die Validierungsergebnisse bestätigten, dass das globale Modell robust ist und unsere Hypothese bestätigte, dass FL-trained Modelle über Gesundheitssysteme hinweg verallgemeinert werden können. Sie bieten einen überzeugenden Fall für die Verwendung von Vorhersagealgorithmen in der Patientenversorgung von COVID-19 und die Verwendung von FL in der Modellbildung und -tests. sowie an verschiedenen Standorten, die nicht Teil der Prüfung waren. 53 Über 200 Vorhersagemodelle zur Unterstützung der Entscheidungsfindung bei Patienten mit COVID-19 wurden veröffentlicht Im Gegensatz zu den meisten Veröffentlichungen, die sich auf die Diagnose von COVID-19 oder die Sterblichkeitsvorhersage konzentrieren, haben wir Sauerstoffbedürfnisse vorhergesagt, die Auswirkungen auf das Patientenmanagement haben. Wir verwendeten auch Fälle mit unbekanntem SARS-COV-2-Status, und so konnte das Modell dem Arzt vor dem Empfang eines PCR-Ergebnisses mit umgekehrter Transkription (RT-PCR) Einblicke liefern, was es für eine klinische Einstellung im realen Leben nützlich machte. Die Imaging-Eingabe des Modells wird in der allgemeinen Praxis verwendet, im Gegensatz zu Modellen, die Brustcomputertomographie, eine nicht-konsensualdiagnostische Modalität verwenden 19 Patientengruppenidentifikation und Datenharmonisierung sind keine neuen Themen in Forschung und Datenwissenschaft Verbesserungen an klinischen Informationssystemen sind erforderlich, um die Datenerstellung zu rationalisieren, was zu einer besseren Hebelwirkung eines Netzwerks von FL-Teilnehmern führt. Ein System, das nahezu in Echtzeit Modellabschluß und Ergebnisse verarbeiten würde, wäre ebenfalls von Vorteil und würde die Schleife von der Ausbildung bis zur Modellierung „schließen“. 54 39 Da die Daten nicht zentralisiert waren, sind sie nicht leicht zugänglich.Da dies der Fall ist, ist jede zukünftige Analyse der Ergebnisse, jenseits dessen, was abgeleitet und gesammelt wurde, begrenzt. Ähnlich wie andere Modelle des maschinellen Lernens ist EXAM durch die Qualität der Trainingsdaten begrenzt. Institutionen, die an der Implementierung dieses Algorithmus für die klinische Versorgung interessiert sind, müssen potenzielle Vorurteile in der Ausbildung verstehen. Zum Beispiel wurden die Etiketten, die als Grundwahrheit in der Ausbildung des EXAM-Modells verwendet wurden, aus dem 24- und 72-stündigen Sauerstoffverbrauch des Patienten abgeleitet; es wird angenommen, dass der Sauerstoff, der dem Patienten geliefert wird, dem Sauerstoffbedarf entspricht. Jedoch wurden vielen Patienten in der frühen Phase der COVID-19-Pandemie prophylaktisch hoher Sauerstofffluss zur Verfügung gestellt, unabhängig von ihrem Sauerstoffbedarf. Da unser Datenzugriff begrenzt war, verfügten wir nicht über ausreichende Informationen für die Erstellung detaillierter Statistiken über Ausfallursachen, post-hoc, auf den meisten Standorten.Wir haben jedoch Ausfallfälle von der größten unabhängigen Teststelle, CDH, untersucht und konnten Hypothesen generieren, die wir in Zukunft testen können. In Zukunft beabsichtigen wir auch, das Potenzial für einen „Bevölkerungsabfluss“ aufgrund verschiedener Phasen des Krankheitsfortschritts zu untersuchen. Ein Merkmal, das diese Arten von groß angelegter Zusammenarbeit verbessern würde, ist die Fähigkeit, den Beitrag jeder Client-Website zur Verbesserung des globalen FL-Modells vorherzusagen.Dies wird bei der Auswahl der Client-Website und bei der Priorisierung der Datenerfassung und Annotationsanstrengungen helfen.Das letztere ist besonders wichtig angesichts der hohen Kosten und der schwierigen Logistik dieser großen Konsortium-Anstrengungen, und es wird diesen Bemühungen ermöglichen, Vielfalt anstatt die reine Menge an Datenproben zu erfassen. Zukünftige Ansätze können automatisierte Hyperparameter-Suche einschließen Neurale Architektur suchen und anderes automatisiertes maschinelles Lernen Methoden, um die optimalen Trainingsparameter für jede Client-Website effizienter zu finden. 55 56 57 Bekannte Probleme der Batch-Normalisierung (BN) in FL hat uns motiviert, unser Basismodell für die Bildfeaturextraktion zu beheben Zukünftige Arbeiten könnten verschiedene Arten von Normalisierungstechniken untersuchen, um das Training von KI-Modellen in FL effektiver zu ermöglichen, wenn Clientdaten nicht unabhängig und identisch verteilt sind. 58 49 Die jüngsten Arbeiten zu Datenschutzangriffen innerhalb der FL-Einstellung haben Bedenken über Datenleckungen während des Modelltrainings aufgeworfen In der Zwischenzeit bleiben Schutzalgorithmen unerforscht und durch mehrere Faktoren eingeschränkt. , , einen guten Schutz zeigen, können sie die Leistung des Modells schwächen. Verschlüsselungsalgorithmen, wie homomorphische Verschlüsselung Eine quantifizierbare Methode zur Messung der Privatsphäre würde bessere Entscheidungen ermöglichen, um die erforderlichen Mindest-Privatsphäre-Parameter zu bestimmen und gleichzeitig eine klinisch akzeptable Leistung zu erhalten. , , . 59 36 48 49 60 36 48 49 Nach einer weiteren Validierung sehen wir die Einführung des EXAM-Modells in der ED-Einstellung als eine Möglichkeit vor, Risiken sowohl auf Patienten- als auch auf Bevölkerungsebene zu bewerten und Ärzte mit einem zusätzlichen Referenzpunkt zu versorgen, wenn sie die häufig schwierige Aufgabe der Untersuchung von Patienten erledigen.Wir planen auch die Verwendung des Modells als sensiblere Bevölkerungsebene-Metrik, um Ressourcen zwischen Regionen, Krankenhäusern und Abteilungen auszugleichen. Methoden Ethik genehmigt Alle in Kenntnis genommenen Verfahren des Institutes Canyland Health wurden nach den Grundsätzen für menschliche Experimente gemäß der Erklärung von Helsinki und der Internationalen Konferenz über die Harmonisierung guter klinischer Praxis durchgeführt und von den einschlägigen institutionellen Überprüfungsausschüssen von Beth-New-Sinkner-Krankenhaus (alle acht dieser Krankenhäuser in den folgenden Validierungsstellen: CDH, MVH, NCH und in den folgenden Ausbildungsstellen: MGB, Mass General Hospital (MGH), Brigham and Women’s Hospital, Newton-Wellesley Hospital, San Shore Public Medical Center und New Faulkner Hospital) genehmigt (alle acht dieser Krankenhäuser in den folgenden Validierungsausschüssen: MGB Ethics Board Reference, Nr. 2020P002673, Die MI-CLAIM-Richtlinien für die Berichterstattung über klinische KI-Modelle wurden eingehalten (Zusatznote) ) 2 Studie Setup Die Studie umfasste Daten von 20 Institutionen (Abb. MGB, MGH, Brigham and Women’s Hospital, Newton-Wellesley Hospital, North Shore Medical Center und Faulkner Hospital; Children’s National Hospital in Washington, DC; NIHR Cambridge Biomedical Research Centre; The Self-Defense Forces Central Hospital in Tokyo; National Taiwan University MeDA Lab und MAHC und Taiwan National Health Insurance Administration; Tri-Service General Hospital in Taiwan; Kyungpook National University Hospital in Südkorea; Fakultät für Medizin, Chulalongkorn University in Thailand; Diagnosticos da America SA in Brasilien; University of California, San Francisco; VA San Diego; University of Toronto; National Institutes of Health in Bethesda, Maryland; University of Wisconsin-Madison School of Medicine and Public Health; Memorial Sloan Kettering Cancer Center in New York; und Mount Sinai Health , , Daten von drei unabhängigen Standorten wurden für die unabhängige Validierung verwendet: CDH, MVH und NCH, alle in Massachusetts, USA. Diese drei Krankenhäuser hatten unterschiedliche Patientenpopulationsmerkmale als die Trainingsstätten. 1a 61 62 63 Datenerhebung Die 20 Kundenstandorte bereiteten insgesamt 16.148 Fälle (sowohl positive als auch negative) für die Zwecke der Ausbildung, Validierung und Prüfung des Modells vor (Abb. Die Client-Websites bemühen sich, alle COVID-positiven Fälle vom Beginn der Pandemie im Dezember 2019 bis zu dem Zeitpunkt, zu dem sie lokale Schulungen für die EXAM-Studie begannen, aufzunehmen.Alle lokale Schulungen hatten bis zum 30. September 2020 begonnen.Die Websites umfassten auch andere Patienten im selben Zeitraum mit negativen RT-PCR-Testergebnissen.Da die meisten Websites mehr SARS-COV-2-negative als -positive Patienten hatten, beschränkten wir die Anzahl der negativen Patienten auf höchstens 95% der Gesamtfälle an jeder Client-Website. 1B Ein „Fall“ enthielt eine CXR und die erforderlichen Dateninputs aus der medizinischen Aufzeichnung des Patienten.Eine Aufteilung der Kohortengröße des Datensatzes für jede Client-Website ist in Abbildung gezeigt. Die Verteilung und Muster der CXR-Bildintensität (Pixelwerte) variierten stark zwischen den Standorten aufgrund einer Vielzahl von Patienten- und Standortspezifischen Faktoren, wie z. B. verschiedenen Geräteherstellern und Bildgebungsprotokollen, wie in Abbildung gezeigt. Das Alter der Patienten und die Verteilung der EMR-Funktion variierten stark zwischen den Standorten, wie erwartet aufgrund der unterschiedlichen Demografien zwischen weltweit verteilten Krankenhäusern (Extended Data Fig. der ) 1B 1 C, D 6 Kriterien für die Inklusion von Patienten Die Kriterien für die Einbeziehung der Patienten waren: (1) der Patient wurde dem Krankenhaus ED oder gleichwertig vorgelegt; (2) der Patient hatte einen RT-PCR-Test, der zu jeder Zeit zwischen der Präsentation an die ED und der Entlassung aus dem Krankenhaus durchgeführt wurde; (3) der Patient hatte eine CXR in der ED; und (4) die Patientenaufzeichnung hatte mindestens fünf der EMR-Werte, die in der Tabelle dargelegt sind. , alle in der ED erhalten, und die relevanten Ergebnisse während der Krankenhausaufnahme erfasst. Hinweis, Die CXR, Laborergebnisse und Vitals verwendet waren die ersten verfügbaren für die Erfassung während des Besuchs an der ED. Das Modell enthielt keine CXR, Laborergebnisse oder Vitals erworben nach dem Verlassen der ED. 1 Einträge Modell Insgesamt wurden 21 EMR-Funktionen als Eingabe zum Modell verwendet.Die Ergebnis- (d.h. Grundwahrheits-) Etiketten wurden nach den Patientenanforderungen nach 24- und 72-Stunden-Perioden von der anfänglichen Zulassung zur ED zugeordnet. . 1 Die Verteilung der Sauerstoffbehandlung mit verschiedenen Geräten an verschiedenen Client-Standorten ist in der Erweiterten Datenfigur dargestellt. , die die Gerätennutzung bei der Zulassung zum ED und nach den 24- und 72-Stunden-Perioden detailliert.Die Differenz in der Datensatzverteilung zwischen den größten und kleinsten Client-Sites ist in der Extended Data Fig zu sehen. . 7 8 Die Anzahl der positiven Fälle von COVID-19, bestätigt durch einen einzelnen RT-PCR-Test, der zu jeder Zeit zwischen der Präsentation bei der ED und der Entlassung aus dem Krankenhaus erhalten wurde, ist in der Ergänzungstabelle aufgeführt. Jeder Client-Site wurde gebeten, seinen Datensatz zufällig in drei Teile aufzuteilen: 70% für Training, 10% für Validierung und 20% für Tests. 1 Exam Modellentwicklung Es gibt große Unterschiede im klinischen Verlauf von Patienten, die mit Symptomen von COVID-19 ins Krankenhaus eingeliefert werden, wobei einige eine schnelle Verschlechterung der Atemfunktion erleben, die verschiedene Interventionen erfordert, um Hypoxämie zu verhindern oder zu mildern. , Eine entscheidende Entscheidung, die während der Bewertung eines Patienten am Anfangsstadium der Pflege oder in der ED getroffen wird, ist, ob der Patient wahrscheinlich invasivere oder ressourcenbegrenzte Gegenmaßnahmen oder Interventionen (wie MV oder monoklonale Antikörper) benötigt und daher eine seltene, aber wirksame Therapie, eine Therapie mit einem engen Risiko-Nutzen-Verhältnis aufgrund von Nebenwirkungen oder ein höheres Maß an Pflege erhalten sollte, wie z. B. Aufnahme in die Intensivstation. Im Gegensatz dazu kann ein Patient, der ein geringeres Risiko hat, eine invasive Sauerstofftherapie zu benötigen, in eine weniger intensive Pflegeeinstellung wie eine reguläre Abteilung platziert werden oder sogar von der ED befreit werden, um die Selbstbeobachtung zu Hause fortzusetzen. EXAM wurde entwickelt, um solchen Patienten zu helfen. 62 63 64 65 Zu beachten ist, dass das Modell derzeit von keiner Regulierungsbehörde genehmigt wird und nur für Forschungszwecke verwendet werden sollte. Prüfung Score EXAM wurde mit FL ausgebildet; es ergibt einen Risiko-Score (der sogenannte EXAM-Score) ähnlich wie CORISK (Extended Data Fig. Es entspricht den Sauerstoffunterstützungsanforderungen eines Patienten innerhalb von zwei Fenstern – 24 und 72 h – nach der ersten Präsentation an die ED. zeigt, wie CORISK und die EXAM-Score für die Patientensortierung verwendet werden können. 27 9a 9b Brust-Röntgenbilder wurden vorverarbeitet, um das Vorderpositionsbild auszuwählen und Seitenansichtbilder auszuschließen, und dann auf eine Auflösung von 224 × 224 skaliert. Das Modell fusioniert Informationen aus EMR- und CXR-Funktionen (basierend auf einem modifizierten ResNet34 mit räumlicher Aufmerksamkeit). auf dem CheXpert Datensatz vorbereitet) Das Deep & Cross Netzwerk Um diese verschiedenen Datentypen zu konvergieren, wurde ein 512-dimensionaler Feature-Vektor aus jedem CXR-Bild mithilfe eines vorgefertigten ResNet34 mit räumlicher Aufmerksamkeit extrahiert und dann mit den EMR-Funktionen als Eingabe für das Deep & Cross-Netzwerk verknüpft. Wir verwendeten Cross-Entropy als Verlustfunktion und „Adam“ als Optimierer. Verwendung des NVIDIA Clara Train SDK Die durchschnittliche AUC für die Klassifizierungsaufgaben (≥LFO, ≥HFO/NIV oder ≥MV) wurde berechnet und als endgültige Auswertungsmetrik mit Normalisierung auf Null-Mittel und Einheitsvarianz verwendet. der ) 9a 66 67 68 9b 69 70 27 Imputation und Normalisierung Ein MissForest Algorithmus wurde verwendet, um EMR-Funktionen auf der Grundlage des lokalen Trainingsdatenkomplexes zu importieren.Wenn eine EMR-Funktion in einem Client-Site-Datenkomplex völlig fehlte, wurde der durchschnittliche Wert dieser Funktion, der ausschließlich auf Daten von MGB-Client-Sites berechnet wurde, verwendet.Dann wurden EMR-Funktionen auf Null-Mittel und Einheitsvarianz auf der Grundlage von Statistiken, die auf Daten von den MGB-Client-Sites berechnet wurden, neu skaliert. 71 Details der EMR-CXR-Datenfusion über das Deep & Cross-Netzwerk Um die Interaktionen von Features aus EMR- und CXR-Daten auf Fallebene zu modellieren, wurde ein Deep-Feature-Schema auf der Grundlage einer Deep & Cross-Netzwerkarchitektur verwendet. Die binären und kategorischen Merkmale für die EMR-Eingänge sowie die 512-dimensionalen Bildmerkmale in der CXR wurden durch Einbinden und Stapeln von Schichten in verschmolzenen dichten Vektoren von realen Werten umgewandelt. Die transformierten dichten Vektoren dienten als Eingang zum Fusionskader, der speziell ein Kreuzungsnetzwerk benutzte, um die Fusion zwischen Eingängen aus verschiedenen Quellen zu erzwingen. Das Kreuzungsnetzwerk führte explizite Feature-Crossing innerhalb seiner Schichten durch, indem es innere Produkte zwischen der ursprünglichen Eingangsfunktion und der Ausgabe aus der vorherigen Schicht führte, wodurch der Grad der Interaktion zwischen den Merkmalen zunahm. Zur gleichen Zeit wurden zwei einzelne klassische tiefe neurale Netzwerke 68 FL Details Die wohl etablierteste Form von FL ist die Implementierung des federierten Durchschnittsalgorithmus, wie von McMahan et al. vorgeschlagen. , oder Variationen davon. Dieser Algorithmus kann mit einem Client-Server-Setup realisiert werden, bei dem jede beteiligte Website als Client fungiert. Man kann FL als eine Methode denken, die darauf abzielt, eine globale Verlustfunktion zu minimieren, indem man eine Reihe lokaler Verlustfunktionen reduziert, die auf jeder Website geschätzt werden. Durch die Minimierung des lokalen Verlustes jeder Client-Site und gleichzeitig die Synchronisierung der gelernten Client-Site-Werte auf einem zentralen Aggregationsserver, kann man den globalen Verlust minimieren, ohne auf den gesamten Datensatz an einem zentralen Standort zugreifen zu müssen. Jede Client-Site lernt lokal und teilt Modellgewicht-Updates mit einem zentralen Server, der Beiträge mithilfe der ) 72 9c Ein Pseudoalgorithmus von FL ist in der ergänzenden Anmerkung dargestellt In unseren Experimenten haben wir die Anzahl der federierten Runden auf = 200, mit einer lokalen Trainingszeit pro Runde bei jedem Kunden. die Anzahl der Kunden, , war bis zu 20 je nach Netzwerkverbindung der Clients oder verfügbaren Daten für einen bestimmten zielgerichteten Ergebniszeitraum (24 oder 72 h). , hängt von der Datensatzgröße bei jedem Client ab und wird verwendet, um die Beiträge jedes Clients bei der Aggregation der Modellgewichte in verbundenen Durchschnitten zu wiegen. Während der FL-Trainingsaufgabe wählt jede Client-Website ihr bestes lokales Modell aus, indem sie die Leistung des Modells auf ihrem lokalen Validierungssatz verfolgt. Zur gleichen Zeit bestimmt der Server das beste globale Modell basierend auf den durchschnittlichen Validierungsscores, die von jeder Client-Website nach jeder FL-Runde an den Server gesendet werden. 1 T t K NW k Der Adam-Optimierer wurde sowohl für das lokale Training als auch für FL mit einer Anfangslernrate von 5 × 10–5 und einer schrittweisen Lernrateverfall mit einem Faktor 0,5 nach jeder 40 Epochen verwendet, was für die Konvergenz des federierten Durchschnitts wichtig ist. Zufällige affine Transformationen, einschließlich Rotation, Übersetzungen, Schneiden, Skalieren und zufälligen Intensitätsgeräusche und Verschiebungen, wurden auf die Bilder zur Datenvergrößerung während des Trainings angewendet. 73 Aufgrund der Empfindlichkeit der BN-Schicht Beim Umgang mit verschiedenen Kunden in einer nicht-unabhängigen und identisch verteilten Umgebung stellten wir fest, dass die beste Modellleistung aufgetreten ist, wenn der vorbereitete ResNet34 mit räumlicher Aufmerksamkeit gehalten wird. Das Deep & Cross-Netzwerk, das Bildfunktionen mit EMR-Funktionen kombiniert, enthält keine BN-Lager und wurde daher nicht von BN-Instabilitätsproblemen betroffen. 58 47 In dieser Studie untersuchten wir ein Datenschutzschema, das nur teilweise Modellupdates zwischen Server und Client-Sites teilt. Die Gewicht-Updates wurden während jeder Iteration nach der Größe des Beitrags sortiert, und nur ein bestimmter Prozentsatz der größten Gewicht-Updates wurde mit dem Server geteilt. f) Erweiterte Daten Figur. ), die aus allen Nicht-Null-Gradienten berechnet wurde, Δ , und kann für jeden Kunden anders sein In jeder FL-Runde Variationen dieses Schemas könnten zusätzliche Schneiden großer Gradienten oder Differential-Privacy-Schemata umfassen. die zufälligen Lärm zu den Gradienten oder sogar zu den Rohdaten hinzufügen, bevor sie in das Netzwerk gelangen . k 5 Die WK(t) k t 49 51 Statistische Analyse Wir führten einen Wilcoxon Signed-Rank-Test durch, um die Bedeutung der beobachteten Leistungsverbesserung zwischen dem lokal ausgebildeten Modell und dem FL-Modell für die 24- und 72-Stunden-Zeitpunkte zu bestätigen (Abb. Erweiterte Daten Fig. Die Nullhypothese wurde einseitig abgelehnt. « 1 × 10–3 in beiden Fällen. 2 1 P Die Pearson-Korrelation wurde verwendet, um die Verallgemeinerbarkeit (Robustheit des durchschnittlichen AUC-Wertes zu den Testdaten anderer Client-Sites) lokaler Trainierter Modelle in Bezug auf die jeweilige lokale Datensatzgröße zu bewerten. = 0,43 = 0,035, Freiheitsgrade (df) = 17 für das 24-Stunden-Modell und = 0,62 und = 0,003, df = 16 für das 72-h-Modell). Dies deutet darauf hin, dass die Größe des Datensatzes allein nicht der einzige Faktor ist, der die Robustheit eines Modells gegenüber unsichtbaren Daten bestimmt. r P r P Um ROC-Kurven aus dem globalen FL-Modell und lokalen Modellen zu vergleichen, die an verschiedenen Standorten ausgebildet wurden (Extended Data Fig. Wir bootstrapped 1.000 Proben aus den Daten und berechnet die resultierenden AUCs. Wir berechneten dann den Unterschied zwischen den beiden Serien und standardisiert mit der Formel = (AUC1 und AUC2) Wo wo ist die standardisierte Differenz, ist die Standardabweichung der Bootstrap-Differenzen und AUC1 und AUC2 sind die entsprechenden Bootstrapped-AUC-Serien. Mit der normalen Verteilung haben wir die Werte, die in der ergänzenden Tabelle dargestellt sind Die Ergebnisse zeigen, dass die Null-Hypothese mit sehr niedrigen Werte, die die statistische Bedeutung der Überlegenheit der FL-Ergebnisse anzeigen. Werte wurden in R mit der pROC-Bibliothek durchgeführt . 3 D s D s D P 2 P P 74 Da das Modell ein diskretes Ergebnis, eine kontinuierliche Punktzahl von 0 bis 1 voraussagt, ist eine direkte Kalibrierungsbewertung wie ein qqplot nicht möglich. Wir führten eine einseitige Analyse von Variationstests (ANOVA) durch, um lokale und FL-Modell-Score zwischen vier Grundwahrheitskategorien (RA, LFO, HFO, MV) zu vergleichen. -statistisch, berechnet als die Variation zwischen der Stichprobe bedeutet geteilt durch Variation innerhalb der Stichproben und repräsentiert den Grad der Dispersion zwischen verschiedenen Gruppen, wurde verwendet, um die Modelle zu quantifizieren. -Werte von fünf verschiedenen lokalen Standorten sind 245.7, 253.4, 342.3, 389.8 und 634.8, während die des FL-Modells 843.5 ist. -Werte bedeuten, dass Gruppen mehr trennbar sind, die Scores aus unserem FL-Modell zeigen eindeutig eine größere Dispersion zwischen den vier Grundwahrheitskategorien. Der Wert des ANOVA-Tests auf dem FL-Modell beträgt <2 × 10–16, was darauf hinweist, dass sich die FL-Vorhersage-Score zwischen den verschiedenen Vorhersage-Klassen statistisch signifikant unterscheiden. 10 F F F P Berichterstattung Zusammenfassung Weitere Informationen zum Forschungsdesign finden Sie im mit diesem Artikel verbunden. Nature Research Reporting Zusammenfassung Datenverfügbarkeit Diese Daten wurden für die Ausbildung an jedem der lokalen Standorte verwendet und wurden nicht mit irgendeiner der anderen teilnehmenden Institutionen oder mit dem föderierten Server geteilt, und sie sind nicht öffentlich verfügbar. Daten von den unabhängigen Validierungsseiten werden von CAMCA aufbewahrt, und der Zugang kann durch Kontakt mit Q.L. beantragt werden Basierend auf der Feststellung von CAMCA kann eine Datenfreigabeüberprüfung und Änderung des IRB für Forschungszwecke von der MGB-Forschungsverwaltung und in Übereinstimmung mit dem MGB IRB und der Richtlinie durchgeführt werden. Code Verfügbarkeit Für den Zugriff, die Anmeldung als Gast oder die Erstellung eines Profils geben Sie eine der folgenden URLs ein. Die geschulten Modelle, die Richtlinien zur Datenerstellung, der Code für die Ausbildung, die Validierung des Modells, die Readme-Datei, die Installationsrichtlinien und die Lizenzdateien sind bei NVIDIA NGC öffentlich verfügbar von : Die federierte Lernsoftware ist als Teil des Clara Train SDK verfügbar: Alternativ können Sie diesen Befehl verwenden, um das Modell "wget --content-disposition" herunterzuladen -O clara_train_covid19_exam_ehr_xray_1.zip“. 61 https://ngc.nvidia.com/catalog/models/nvidia:med:clara_train_covid19_exam_ehr_xray https://ngc.nvidia.com/catalog/containers/nvidia:clara-train-sdk https://api.ngc.nvidia.com/v2/models/nvidia/med/clara_train_covid19_exam_ehr_xray/versions/1/zip Referenzen Budd, J. et al. Digital technologies in the public-health response to COVID-19. , 1183–1192 (2020). Nat. Med. 26 Moorthy, V., Henao Restrepo, A. M., Preziosi, M.-P. & Swaminathan, S. Data sharing for novel coronavirus (COVID-19). , 150 (2020). Bull. World Health Organ. 98 Chen, Q., Allot, A. & Lu, Z. Keep up with the latest coronavirus research. , 193 (2020). Nature 579 Fabbri, F., Bhatia, A., Mayer, A., Schlotter, B. & Kaiser, J. BCG IT spend pulse: how COVID-19 is shifting tech priorities. (2020). https://www.bcg.com/publications/2020/how-covid-19-is-shifting-big-it-spend Candelon, F., Reichert, T., Duranton, S., di Carlo, R. C. & De Bondt, M. The rise of the AI-powered company in the postcrisis world. (2020). https://www.bcg.com/en-gb/publications/2020/business-applications-artificial-intelligence-post-covid Chao, H. et al. Integrative analysis for COVID-19 patient outcome prediction. , 101844 (2021). Med. Image Anal. 67 Zhu, X. et al. Joint prediction and time estimation of COVID-19 developing severe symptoms using chest CT scan. , 101824 (2021). Med. Image Anal. 67 Yang, D. et al. Federated semi-supervised learning for Covid region segmentation in chest ct using multi-national data from China, Italy, Japan. , 101992 (2021). Med. Image Anal. 70 Minaee, S., Kafieh, R., Sonka, M., Yazdani, S. & Jamalipour Soufi, G. Deep-COVID: predicting COVID-19 from chest X-ray images using deep transfer learning. , 101794 (2020). Med. Image Anal. 65 COVID-19 Studies from the World Health Organization Database. (2020). https://clinicaltrials.gov/ct2/who_table ACTIV. (2020). https://www.nih.gov/research-training/medical-research-initiatives/activ Coronavirus Treatment Acceleration Program (CTAP). US Food and Drug Administration (2020). https://www.fda.gov/drugs/coronavirus-covid-19-drugs/coronavirus-treatment-acceleration-program-ctap Gleeson, P., Davison, A. P., Silver, R. A. & Ascoli, G. A. A commitment to open source in neuroscience. , 964–965 (2017). Neuron 96 Piwowar, H. et al. The state of OA: a large-scale analysis of the prevalence and impact of open access articles. , e4375 (2018). PeerJ. 6 European Society of Radiology (ESR). What the radiologist should know about artificial intelligence – an ESR white paper. , 44 (2019). Insights Imaging 10 Pesapane, F., Codari, M. & Sardanelli, F. Artificial intelligence in medical imaging: threat or opportunity? Radiologists again at the forefront of innovation in medicine. , 35 (2018). Eur. Radiol. Exp. 2 Price, W. N. 2nd & Cohen, I. G. Privacy in the age of medical big data. , 37–43 (2019). Nat. Med. 25 Liang, W. et al. Development and validation of a clinical risk score to predict the occurrence of critical illness in hospitalized patients with COVID-19. , 1081–1089 (2020). JAMA Intern. Med. 180 Wynants, L. et al. Prediction models for diagnosis and prognosis of covid-19 infection: systematic review and critical appraisal. , m1328 (2020). Brit. Med. J. 369 Zhang, L. et al. D-dimer levels on admission to predict in-hospital mortality in patients with Covid-19. , 1324–1329 (2020). J. Thromb. Haemost. 18 Sands, K. E. et al. Patient characteristics and admitting vital signs associated with coronavirus disease 2019 (COVID-19)-related mortality among patients admitted with noncritical illness. (2020). https://doi.org/10.1017/ice.2020.461 American College of Radiology. CR recommendations for the use of chest radiography and computed tomography (CT) for suspected COVID-19 infection. (2020). https://www.acr.org/Advocacy-and-Economics/ACR-Position-Statements/Recommendations-for-Chest-Radiography-and-CT-for-Suspected-COVID19-Infection Rubin, G. D. et al. The role of chest imaging in patient management during the COVID-19 pandemic: a multinational consensus statement from the Fleischner Society. , 172–180 (2020). Radiology 296 World Health Organization. Use of chest imaging in COVID-19. (2020). https://www.who.int/publications/i/item/use-of-chest-imaging-in-covid-19 Jamil, S. et al. Diagnosis and management of COVID-19 disease. , 10 (2020). Am. J. Respir. Crit. Care Med. 201 Redmond, C. E., Nicolaou, S., Berger, F. H., Sheikh, A. M. & Patlas, M. N. Emergency radiology during the COVID-19 pandemic: The Canadian Association of Radiologists Recommendations for Practice. , 425–430 (2020). Can. Assoc. Radiologists J. 71 Buch, V. et al. Development and validation of a deep learning model for prediction of severe outcomes in suspected COVID-19 Infection. Preprint at (2021). https://arxiv.org/abs/2103.11269 Lyons, C. & Callaghan, M. The use of high-flow nasal oxygen in COVID-19. , 843–847 (2020). Anaesthesia 75 Whittle, J. S., Pavlov, I., Sacchetti, A. D., Atwood, C. & Rosenberg, M. S. Respiratory support for adult patients with COVID-19. , 95–101 (2020). J. Am. Coll. Emerg. Physicians Open 1 Ai, J., Li, Y., Zhou, X. & Zhang, W. COVID-19: treating and managing severe cases. , 370–371 (2020). Cell Res. 30 Esteva, A. et al. A guide to deep learning in healthcare. , 24–29 (2019). Nat. Med. 25 Cahan, E. M., Hernandez-Boussard, T., Thadaney-Israni, S. & Rubin, D. L. Putting the data before the algorithm in big data addressing personalized healthcare. , 78 (2019). NPJ Digit. Med. 2 Thrall, J. H. et al. Artificial intelligence and machine learning in radiology: opportunities, challenges, pitfalls, and criteria for success. , 504–508 (2018). J. Am. Coll. Radiol. 15 Shilo, S., Rossman, H. & Segal, E. Axes of a revolution: challenges and promises of big data in healthcare. , 29–38 (2020). Nat. Med. 26 Gao, Y. & Cui, Y. Deep transfer learning for reducing health care disparities arising from biomedical data inequality. , 5131 (2020). Nat. Commun. 11 Rieke, N. et al. The future of digital health with federated learning. , 119 (2020). NPJ Dig. Med. 3 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. 10 Ma, C. et al. On safeguarding privacy and security in the framework of federated learning. , 242–248 (2020). IEEE Netw. 34 Brisimi, T. S. et al. Federated learning of predictive models from federated Electronic Health Records. , 59–67 (2018). Int. J. Med. Inform. 112 Roth, H. R. et al. Federated learning for breast density classification: a real-world implementation. In , (eds. Albarqouni, S. et al.) Vol. 12,444, 181–191 (Springer International Publishing, 2020). Proc. Second MICCAI Workshop, DART 2020 and First MICCAI Workshop, DCL 2020 Domain Adaptation and Representation Transfer, and Distributed and Collaborative Learning Sheller, M. J. et al. Federated learning in medicine: facilitating multi-institutional collaborations without sharing patient data. , 12598 (2020). Sci. Rep. 10 Remedios, S. W., Butman, J. A., Landman, B. A. & Pham, D. L. in (eds Remedios, S. W. et al.) (Springer, 2020). Federated Gradient Averaging for Multi-Site Training with Momentum-Based Optimizers Xu, Y. et al. A collaborative online AI engine for CT-based COVID-19 diagnosis. Preprint at (2020). https://www.medrxiv.org/content/10.1101/2020.05.10.20096073v2 Raisaro, J. L. et al. SCOR: A secure international informatics infrastructure to investigate COVID-19. , 1721–1726 (2020). J. Am. Med. Inform. Assoc. 27 Vaid, A. et al. Federated learning of electronic health records to improve mortality prediction in hospitalized patients with COVID-19: machine learning approach. , e24207 (2021). JMIR Med. Inform. 9 Nino, G. et al. Pediatric lung imaging features of COVID-19: a systematic review and meta-analysis. , 252–263 (2021). Pediatr. Pulmonol. 56 Fredrikson, M., Jha, S. & Ristenpart, T. Model inversion attacks that exploit confidence information and basic countermeasures. In 1322–1333, (2015). Proc. 22nd ACM SIGSAC Conference on Computer and Communications Security https://doi.org/10.1145/2810103.2813677 Zhu, L., Liu, Z. & Han, S. in (eds Wallach, H. et al.) 14774–14784 (Curran Associates, Inc., 2019). Advances in Neural Information Processing Systems 32 Kaissis, G. A., Makowski, M. R., Rückert, D. & Braren, R. F. Secure, privacy-preserving and federated machine learning in medical imaging. , 305–311 (2020). Nat. Mach. Intell. 2 Li, W. et al. in 133–141 (Springer, 2019). Privacy-Preserving Federated Brain Tumour Segmentation Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In (2015). Proc. 53rd Annual Allerton Conference on Communication, Control, and Computing (Allerton) https://doi.org/10.1109/allerton.2015.7447103 Li, X. et al. Multi-site fMRI analysis using privacy-preserving federated learning and domain adaptation: ABIDE results. , 101765 (2020). Med. Image Anal. 65 Estiri, H. et al. Predicting COVID-19 mortality with electronic medical records. , 15 (2021). NPJ Dig. Med. 4 Jiang, G. et al. Harmonization of detailed clinical models with clinical study data standards. , 65–74 (2015). Methods Inf. Med. 54 Yang, D. et al. in . (2019). Searching Learning Strategy with Reinforcement Learning for 3D Medical Image Segmentation https://doi.org/10.1007/978-3-030-32245-8_1 Elsken, T., Metzen, J. H. & Hutter, F. Neural architecture search: a survey. , 1–21 (2019). J. Mach. Learning Res. 20 Yao, Q. et al. Taking human out of learning applications: a survey on automated machine learning. Preprint at (2019). https://arxiv.org/abs/1810.13306 Ioffe, S. & Szegedy, C. Batch normalization: accelerating deep network training by reducing internal covariate shift. In , PMLR , 448–456 (2015). Proc. 32nd International Conf. Machine Learning 37 Kaufman, S., Rosset, S. & Perlich, C. Leakage in data mining: formulation, detection, and avoidance. In , 556–563 (2011). Proc. 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining Zhang, C. et al. BatchCrypt: efficient homomorphic encryption for cross-silo federated learning. In , 493–506 (2020). Proc. 2020 USENIX Annual Technical Conference, ATC 2020 . (2020). Nvidia NGC Catalog: COVID-19 Related Models https://ngc.nvidia.com/catalog/models?orderBy=scoreDESC&pageNumber=0&query=covid&quickFilter=models&filters Marini, J. J. & Gattinoni, L. Management of COVID-19 respiratory distress. , 2329–2330 (2020). JAMA 323 Cook, T. M. et al. Consensus guidelines for managing the airway in patients with COVID-19: Guidelines from the Difficult Airway Society, the Association of Anaesthetists the Intensive Care Society, the Faculty of Intensive Care Medicine and the Royal College of Anaesthetist. , 785–799 (2020). Anaesthesia 75 Galloway, J. B. et al. A clinical risk score to identify patients with COVID-19 at high risk of critical care admission or death: an observational cohort study. , 282–288 (2020). J. Infect. 81 Kilaru, A. S. et al. Return hospital admissions among 1419 COVID-19 patients discharged from five U.S. emergency departments. , 1039–1042 (2020). Acad. Emerg. Med. 27 He, K., Zhang, X., Ren, S. & Sun, J. Deep residual learning for image recognition. In (2016). Proc. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) https://doi.org/10.1109/cvpr.2016.90 Irvin, J. et al. CheXpert: a large chest radiograph dataset with uncertainty labels and expert comparison. , 590–597 (2019). Proc. AAAI Conf. Artif. Intell. 33 Wang, R., Fu, B., Fu, G. & Wang, M. Deep & Cross network for Ad Click predictions. In Article no. 12 (2017). Proc. ADKDD’17 Abadi, M. et al. TensorFlow: asystem for large-scale machine learning. In , USENIX Association 265–283 (2016). 12th USENIX Symposium on Operating Systems Design and Implementation (OSDI 16) . (2020). NVIDIA Clara Imaging https://developer.nvidia.com/clara-medical-imaging Stekhoven, D. J. & Bühlmann, P. MissForest–non-parametric missing value imputation for mixed-type data. , 112–118 (2012). Bioinformatics 28 McMahan, H., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. (2017). http://proceedings.mlr.press/v54/mcmahan17a.html Hsieh, K., Phanishayee, A., Mutlu, O. & Gibbons, P. B. The non-IID data quagmire of decentralized machine learning. In PMLR 119 (2020). Proc. 37th International Conf. Machine Learning Robin, X. et al. pROC: an open-source package for R and S+ to analyze and compare ROC curves. , 77 (2011). BMC Bioinformatics 12 Anerkennung Die in dieser Studie geäußerten Ansichten sind die der Autoren und nicht unbedingt die des NHS, des NIHR, des Department of Health and Social Care oder einer der Organisationen, die mit den Autoren verbunden sind. MGB dankt den folgenden Personen für ihre Unterstützung: J. Brink, Department of Radiology, Massachusetts General Hospital, Harvard Medical School, Boston, MA; M. Kalra, Department of Radiology, Massachusetts General Hospital, Harvard Medical School, Boston, MA; N. Neumark, Center for Clinical Data Science, Massachusetts General Brigham, Boston, MA; T. Schultz, Department of Radiology, Massachusetts General Hospital, Boston, MA; N. Guo, Center for Advanced Medical Computing and Analysis, Department of Radiology, Massachusetts General Hospital, Harvard Medical School, Boston, MA; J. K. Cramer, Director, this QT Die Fakultät für Medizin, Chulalongkorn University dankt dem Ratchadapisek Sompoch Endowment Fund RA (PO) (Nr. 001/63) für die Erhebung und Verwaltung von COVID-19-bezogenen klinischen Daten und biologischen Proben für die Forschungsarbeitsgruppe, die Fakultät für Medizin, Chulalongkorn University. Das NIHR Cambridge Biomedical Research Center dankt A. Priest, der vom NIHR (Cambridge Biomedical Research Centre at Cambridge University Hospitals NHS Foundation Trust) unterstützt wird. National Taiwan University MeDA Lab und das MAHC und die Taiwan National Health Insurance Administration danken dem MOST Joint Research Center for AI technology, der All Vista Healthcare National Health Insurance Administration, Taiwan, dem Ministerium für Wissenschaft und Technologie und dem Taiwan National Research Center for The https://data.ucsf.edu/covid19 Dieses Papier ist unter der Lizenz CC by 4.0 Deed (Attribution 4.0 International) verfügbar. Dieses Papier ist unter der Lizenz CC by 4.0 Deed (Attribution 4.0 International) verfügbar.