Nowa, prywatna sztuczna inteligencja przewiduje ciężkość COVID za pomocą promieni rentgenowskich i rekordów medycznych

Autorzy : Ittai Dayan Holger R. Roth Aoxiao Zhong Ahmed Harouni Amilcare Gentili Anas Z. Abidin Andrew Liu Następca Anthony Beardsworth Costa Bradford J. Wood Chien-Sung Tsai Chih-Hung Wang Chun-Nan Hsu C. K. Lee jako Peiying Ruan Daguang Xu Dufan Wu Eddie Huang Felipe Campos - Kitamura Griffin Lacey Gustavo César de Antônio Corradi Gustavo Nino Hao-Hsin Shin Hirofumi Obinata Hui Ren reż. Jason C. Crane reż. Jesse Tetreault Jiahui Guan John W. Garrett Joshua D. Kaggie jako Park Jung Gil reż. Keith Dreyer Krishna Juluru Kristopher Kersten Marcio Aloisio Bezerra Cavalcanti Rockenbach Marius George Linguraru Masoom A. Haider Meena AbdelMaseeh Nicola Rieke Pablo F. Damasceno Pedro Mario Cruz e Silva Pochuan Wang Sheng Xu Szukaj Kawano Sira Sriswasdi Soo Young Park Thomas M. Grist Varun Buch Watsamon Jantarabenjakul Weichung Wang Won Young Tak Xiang Li Xihong Lin Young Joon Kwon Abood Quraini Andrew Feng Andrew N. Priest Baris Turkbey Benjamin Glicksberg Bernardo Bizzo Byung Seok Kim Carlos Tor-Díez Chia-Cheng Lee Chia-Jung Hsu Chin Lin Chiu-Ling Lai Christopher P. Hess Colin Compas Deepeksha Bhatia Eric K. Oermann Evan Leibovitz Hisashi Sasaki Hitoshi Mori Isaac Yang Jae Ho Sohn Krishna Nand Keshava Murthy Li-Chen Fu Matheus Ribeiro Furtado de Mendonça Mike Fralick Min Kyu Kang Mohammad Adil Natalie Gangai Peerapon Vateekul Pierre Elnajjar Sarah Hickman Sharmila Majumdar Shelley L. McLeod Sheridan Reed Stefan Gräf Stephanie Harmon Tatsuya Kodama Thanyawee Puthanakit Tony Mazzulli Vitor Lima de Lavor Yothin Rakvongthai Yu Rim Lee Yuhong Wen Fiona J. Gilbert Mona G. Flores Quanzheng Li Autorzy : Iwona Dajana Holger R. Roth jako Aoxiao Zhong Ahmed Harouni Amilcare życzliwy Anas Z. Abidin Andrzej Liu Następca Anthony Beardsworth Costa jako Bradford J. Wood Chien-Sung Tsaja Chih-Hung Wang jako Chun-Nan Hsu C. K. Lee jako Pielgrzymka Ruan Daguang Xu Dufan Wu Eddie Huang Felipe Campos - Kitamura Gryffindor Lacey Gustawo Cezar de Antônio Corradi Gustaw Nino Hao-Hsin Shin Hirofumi Obinata Hui Ren reż. Jason C. Crane reż. Jesse Tetreault Jiahui Guan jako John W. Garrett Joshua D. Kaggie jako Park Jung Gil reż. Keith Dreyer Krzysztof Jurek Krzysztof Kersten Marcio Aloisio Bezerra Cavalcanti Rockenbach Mariusz George Linguraru Masoom A. Haider Mikołaj AbdelMaseeh Nicole Rieke Paweł F. Damasceno Pedro Mario Cruz i Silva Pochuan Wang Szanghaju Xu Szukaj Kawano Sira Sriswasdi Miejsce Soo Young Park Tomasz M. Grisz Książka Varun Watsamon Jantarabenjakul Wiedźmin Wang Wygrał Young Tak Xiang Li Szymon Lin Młody Joon Kwon Abood Quraini Andrzej Feng Reż. Andrew N. Priest Baris Turkbey jako Benjamin Glicksberg Bernardo Bizzo Oglądał Kim Karol Tor-Díez Książka Chia-Cheng Lee Cia-Jung Hsu Chiny Lin Czu-Ling Lai Reż. Christopher P. Hess Kolumbijczyk Compas Deepeksha Bhatia jako Eric K. Oermann Ewan Leibovitz Hisashi Sasaki Hitoshi Mori Izaak Yang Jae Ho syn Krishna Nand Keshawa Murthy Li-Chen Fuj Matheus Ribeiro - Furtado de Mendonça Michał Fralick Mój Kyu Kang Mahomet Adil Natalia Gangai Pielgrzymka Vateekul Pierre Elnajjar jako Sarah Hickman Sharmila Majumdar reż. Shelley L. McLeod Sheridan Reed Stefan Grzegorz Stephanie Harmon Tatsuya Kodama Szydło Puszczyk Tony Mazzulli Vitor Lima z pracy Yothin Rakvongthai Tytuł: Yu Rim Lee Mikołaj Wen Fiona J. Gilbert Mona G. Kwiaty Kwiatowiec Li abstrakcyjna Federated learning setting (FL) jest metodą wykorzystywaną do szkolenia modeli sztucznej inteligencji z danymi z wielu źródeł, zachowując anonimowość danych, usuwając w ten sposób wiele barier dla udostępniania danych. Tutaj wykorzystaliśmy dane z 20 instytutów na całym świecie do szkolenia modelu FL, zwanego EXAM (Electronic Medical Record (EMR) chest X-ray AI model), który przewiduje przyszłe zapotrzebowanie na tlen pacjentów z objawami COVID-19 przy użyciu wejść oznak życiowych, danych laboratoryjnych i promieni rentgenowskich klatki piersiowej. EXAM osiągnął średnią powierzchnię pod krzywą (AUC) > 0,92 dla przewidywania wyników w 24 i 72 godzinach od momentu początkowej prezentacji do sali główna Społeczeństwa naukowe, akademickie, medyczne i naukowe o danych zjednoczyły się w obliczu pandemicznego kryzysu COVID-19, aby szybko ocenić nowe paradygmaty w sztucznej inteligencji (AI), które są szybkie i bezpieczne, i potencjalnie zachęcić do dzielenia się danymi i szkolenia modelowania i testowania bez zwykłych barier prywatności i własności danych z konwencjonalnych współpracy. , Dostawcy opieki zdrowotnej, naukowcy i przemysł skoncentrowali się na zaspokajaniu niezaspokojonych i krytycznych potrzeb klinicznych stworzonych przez kryzys, z niezwykłymi wynikami. , , , , , , Rekrutacja do badań klinicznych została przyspieszona i ułatwiona przez krajowe organy regulacyjne i międzynarodowy duch współpracy. , , Dyscypliny analityki danych i sztucznej inteligencji zawsze sprzyjały otwartym i współpracującym podejściom, obejmującym takie pojęcia jak oprogramowanie open-source, badań reprodukcyjnych, repozytoriów danych i udostępniania anonimowych zbiorów danych publicznie. , Pandemia podkreśliła konieczność szybkiego prowadzenia współpracy danych, która umożliwia społecznościom klinicznym i naukowym reagowanie na szybko zmieniające się i szeroko rozpowszechnione wyzwania globalne. , , . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Konkretnym przykładem tych rodzajów współpracy jest nasza wcześniejsza praca nad modelem wspierania decyzji klinicznych (CDS) SARS-COV-2 opartym na sztucznej inteligencji.Ten model CDS został opracowany w Mass General Brigham (MGB) i został zweryfikowany na podstawie danych wielu systemów opieki zdrowotnej.Wkładami do modelu CDS były obrazy rentgenowskie klatki piersiowej (CXR), znaki życiowe, dane demograficzne i wartości laboratoryjne, które w poprzednich publikacjach wykazano jako przewidujące wyniki pacjentów z COVID-19 , , , CXR został wybrany jako wejście do obrazowania, ponieważ jest szeroko dostępny i powszechnie wskazany przez wytyczne, takie jak te dostarczone przez ACR Stowarzyszenie Fleischner i WHO Narodowe Towarzystwa Toracickie , Krajowe Ministerstwo Zdrowia Podręczniki COVID i Towarzystwa Radiologiczne na całym świecie Wynik modelu CDS był wynikiem, zwanym CORISK , który odpowiada wymaganiom wsparcia tlenu i który może pomóc w badaniu pacjentów przez lekarzy pierwszej linii , , Wiadomo, że dostawcy opieki zdrowotnej wolą modele, które zostały zweryfikowane na podstawie własnych danych. Do tej pory większość modeli sztucznej inteligencji, w tym wspomniany wcześniej model CDS, została przeszkolona i zweryfikowana w oparciu o „wąskie” dane, które często brakują różnorodności. , , potencjalnie prowadząc do przesadzenia i niższej uogólnialności.To można złagodzić poprzez szkolenie z różnymi danymi z wielu witryn bez scentralizacji danych Metody takie jak transfer learning , FL jest metodą wykorzystywaną do szkolenia modeli sztucznej inteligencji na różnych źródłach danych, bez transportu lub ekspozycji danych poza ich oryginalną lokalizacją. . 18 19 20 21 22 23 24 25 26 27 28 29 30 27 31 32 33 34 35 36 Federated Learning wspiera szybkie uruchamianie centralizowanych eksperymentów z poprawioną identyfikowalnością danych oraz oceną zmian algorytmicznych i wpływu Jedno podejście do FL, zwane klientem-serwerem, wysyła model „nie przeszkolony” do innych serwerów (” węzły”), które przeprowadzają częściowe zadania szkoleniowe, wysyłając wyniki z powrotem, aby zostać połączone w centralnym (”federowanym”) serwerze. . 37 36 Zarządzanie danymi dla FL jest utrzymywane na poziomie lokalnym, łagodząc obawy dotyczące prywatności, a między witrynami klienta a serwerem federowanym komunikowane są tylko wagi modeli lub gradienty , FL wykazało już obiecujące zastosowania w ostatnich zastosowaniach medycznych , , , W analizie COVID-19 , , Znakomitym przykładem jest model przewidywania śmiertelności u pacjentów zakażonych SARS-COV-2, który wykorzystuje cechy kliniczne, choć ograniczone pod względem liczby metod i skali. . 38 39 40 41 42 43 8 44 45 46 Naszym celem było opracowanie solidnego, uogólnionego modelu, który mógłby pomóc w badaniu pacjentów. Teoretyzowaliśmy, że model CDS może być zjednoczony z powodzeniem, biorąc pod uwagę jego wykorzystanie danych wejściowych, które są stosunkowo powszechne w praktyce klinicznej i które nie opierają się w dużej mierze na uzależnionych od operatora oceniach stanu pacjenta (takich jak wrażenia kliniczne lub zgłaszane objawy). Zamiast tego wykorzystano wyniki laboratoryjne, znaki życiowe, badanie obrazowe i powszechnie pozyskiwaną demografię (czyli wiek). W związku z tym ponownie przeszkoliliśmy model CDS z różnymi danymi przy użyciu podejścia FL klienta-serwera, aby opracować nowy globalny Nasza hipoteza polegała na tym, że egzamin będzie działał lepiej niż modele lokalne i będzie lepiej uogólniał systemy opieki zdrowotnej. Wyniki Model architektury egzaminacyjnej Model EXAM opiera się na modelu CDS wymienionym powyżej Łącznie 20 cech (19 z EMR i 1 z CXR) zostało wykorzystanych jako wkład do modelu. etykiety wyników (tj. „prawda naziemna”) zostały przydzielone na podstawie terapii tlenowej pacjenta po 24- i 72-godzinnych okresach od pierwszego przyjęcia do działu awaryjnego (ED). Szczegółową listę żądanych cech i wyników można zobaczyć w tabeli . 27 1 Etykiety wyników pacjentów zostały ustawione na 0, 0,25, 0,50 i 0,75 w zależności od najintensywniejszej terapii tlenem otrzymanej przez pacjenta w oknie prognozowania. Kategorie terapii tlenem były odpowiednio powietrze w pomieszczeniu (RA), tlen o niskim przepływie (LFO), tlen o wysokim przepływie (HFO)/ wentylacja nieinwazyjna (NIV) lub wentylacja mechaniczna (MV). Jeśli pacjent zmarł w oknie prognozowania, etykieta wyników została ustawiona na 1. W przypadku funkcji EMR wykorzystano tylko pierwsze wartości zarejestrowane w ED, a wstępne przetwarzanie danych obejmowało deidentifikację, imputację brakujących wartości i normalizację do zerowej średniej i zmienności jednostkowej. Model zatem łączy informacje z funkcji EMR i CXR, używając 34-warstwowej sieci neuronowej (ResNet34) do wyodrębniania funkcji z CXR i sieci Deep & Cross, aby połączyć funkcje wraz z funkcjami EMR (dalsze szczegóły, patrz: Wynik modelu jest oceną ryzyka, zwaną oceną EXAM, która jest wartością ciągłą w zakresie od 0 do 1 dla każdej z 24- i 72-godzinnych prognoz odpowiadających etykietom opisanym powyżej. Metody Federacja Model Model EXAM został przeszkolony przy użyciu kohorty 16 148 przypadków, co czyni go nie tylko jednym z pierwszych modeli FL dla COVID-19 ale także bardzo dużym i wielokontynentalnym projektem rozwoju w klinicznie istotnej AI (Rys. Dane między witrynami nie zostały zharmonizowane przed ekstrakcją i, w świetle rzeczywistych okoliczności informatycznych klinicznych, dokładna harmonizacja wprowadzania danych nie została przeprowadzona przez autorów (Rys. ) w 1a, b 1 C, D Mapa świata wskazująca 20 różnych witryn klientów, które przyczyniają się do badania EXAM. , Liczba przypadków przyznanych przez każdą instytucję lub witrynę (klient 1 reprezentuje witrynę przyczyniającą się do największej liczby przypadków). Rozkład intensywności promieniowania rentgenowskiego klatki piersiowej w każdym miejscu klienta. , Wiek pacjentów na każdym miejscu klienckim, wyświetlający minimalny i maksymalny wiek (gwiazdki), średni wiek (trójkąty) i odchylenie standardowe (bary poziome). . a b c d 1 Uczestnicy testów przeprowadzili testy na podstawie wyników badań przeprowadzonych na podstawie wyników badań przeprowadzonych na podstawie wyników badań przeprowadzonych na podstawie wyników badań przeprowadzonych na podstawie wyników badań przeprowadzonych na podstawie wyników badań przeprowadzonych na podstawie wyników badań przeprowadzonych na podstawie wyników badań przeprowadzonych na podstawie wyników badań przeprowadzonych na podstawie wyników badań przeprowadzonych na podstawie wyników badań ( 1 × 10–3, test Wilcoxon podpisany-ranking) 16% (jak określono przez średnią AUC podczas uruchamiania modelu na odpowiednich lokalnych zespołach testowych: od 0,795 do 0,920, lub 12,5 punktów procentowych) (Rys. Wynikało to również z 38% poprawy uogólnialności (jak określono przez średnią AUC podczas uruchamiania modelu na wszystkich zestawach testowych: od 0,667 do 0,920, lub 25,3 punktu procentowego) najlepszego globalnego modelu do przewidywania 24-godzinnego przetwarzania tlenu w porównaniu z modelami przeszkolonymi tylko na własnych danych witryny (Rys. W odniesieniu do wyników prognozowania 72-godzinnego przetwarzania tlenu, najlepsze szkolenie w zakresie modelu globalnego spowodowało średnią poprawę wydajności o 18% w porównaniu z modelami przeszkolonymi lokalnie, podczas gdy uogólnialność modelu globalnego poprawiła się średnio o 34% (Fig. Rozszerzone dane. Stabilność naszych wyników została zweryfikowana przez powtarzanie trzech kursów szkolenia lokalnego i FL na różnych randomizowanych podziałach danych. P 2a 2b 1 , Wydajność każdego testu klienta jest ustawiona na przewidywanie 24-godzinnego przetwarzania tlenu dla modeli przeszkolonych wyłącznie na podstawie danych lokalnych (Local) w porównaniu z najlepszym globalnym modelem dostępnym na serwerze (FL (zob. najlepszy). , Generalizowalność (średnia wydajność na danych testowych innych witryn, reprezentowana przez średnią AUC) jako funkcja wielkości zbioru danych klienta (brak przypadków). Zielona linię poziomą wskazuje na wydajność generalizowalności najlepszego modelu globalnego. ) i klient 14 miał przypadki tylko z leczeniem RA, tak że w żadnym z tych przypadków metryka oceny (AUC) nie była stosowana ( Dane dla klienta 14 zostały również wykluczone z obliczania średniej uogólnienia w modelach lokalnych. a b 1 Metody Lokalne modele, które zostały przeszkolone przy użyciu niezrównoważonych kohort (na przykład, głównie łagodne przypadki COVID-19) wyraźnie skorzystały z podejścia FL, ze znaczną poprawą w przewidywaniu średniej wydajności AUC dla kategorii z zaledwie kilku przypadków. To było widoczne na stronie klienta 16 (niezrównoważony zestaw danych), z większością pacjentów doświadczających łagodnej ciężkości choroby i tylko z kilkoma ciężkimi przypadkami. model FL osiągnął wyższą wartość prawdziwie-pozytywny dla dwóch pozytywnych (ciężkich) przypadków i wyraźnie niższy wskaźnik fałszywie-pozytywny w porównaniu z modelem lokalnym, zarówno pokazany w plotkach charakterystyki operacyjnej odbiorcy (ROC) i w matrycach Rozszerzone dane Fig. Co ważniejsze, uogólnialność modelu FL znacznie wzrosła w porównaniu z modelem szkolonym lokalnie. 3a 2 , ROC na stronie klienta 16, z niezrównoważonymi danymi i głównie łagodnymi przypadkami. , ROC modelu lokalnego w witrynie klienta 12 (mały zestaw danych), średni ROC modeli przeszkolonych na większych zestawach danych odpowiadających pięciu lokalizacjom klienta w obszarze Bostonu (1, 4, 5, 6, 8) i ROC najlepszego modelu globalnego w przewidywaniu przetwarzania tlenu na 72 godziny dla różnych progów wyników egzaminu (lewy, środkowy, prawy). Średni ROC jest obliczany na podstawie pięciu lokalnie przeszkolonych modeli, podczas gdy szary obszar oznacza standardowe odchylenie ROC. ) of the EXAM risk score are shown. Pos and neg denote the number of positive and negative cases, respectively, as defined by this range of EXAM score. a b t W przypadku witryn klienckich z stosunkowo małymi zbiorami danych, najlepszy model FL znacznie przewyższył nie tylko model lokalny, ale także te przeszkolone na większych zbiorach danych z pięciu witryn klienckich w obszarze Bostonu w USA (Rys. ) w 3b Globalny model sprawdził się dobrze w przewidywaniu zapotrzebowania na tlen w 24/72 h u pacjentów zarówno pozytywnych, jak i negatywnych na COVID (Dane rozszerzone Rys. ) w 3 Walidacja na niezależnych stronach Po pierwszym szkoleniu, EXAM został następnie przetestowany w trzech niezależnych lokalizacjach walidacji: Cooley Dickinson Hospital (CDH), Martha’s Vineyard Hospital (MVH) i Nantucket Cottage Hospital (NCH), wszystkie w Massachusetts, USA. , a krzywe ROC i matryce zamieszania dla największego zbioru danych (z CDH) są przedstawione na rysunku. Punkt operacyjny został ustawiony w celu rozróżnienia między wentylacją niemechaniczną a mechaniczną (MV) leczeniem (lub śmiercią). globalny model szkoleniowy FL, EXAM, osiągnął średnią AUC 0,944 i 0,924 dla zadań przewidywania 24 i 72 h, odpowiednio (Tabela). Aby przewidzieć leczenie MV (lub śmierć) w 24 h, EXAM osiągnął czułość 0,950 i specyfikację 0,882 w CDH, a czułość 1000 specyfikację 0,934 w MVH. NCH nie miał żadnych przypadków z MV / śmierć w 24 h. W odniesieniu do 72-godzinnej prognozy MV, EXAM osiągnął wrażliwość 0,929 i specyfikację 0,880 w CDH, wrażliwość 1000 i specyfikację 0,976 w MVH i wrażliwość 1000 i specyfikację 0,929 w NCH. 2 4 2 , , Wydajność (ROC) (górna) i matryca zamieszania (dolna) modelu EXAM FL na zbiorze danych CDH do przewidywania zapotrzebowania na tlen w 24 h ( w ciągu 72 godzin ( ROC dla trzech różnych wartości cięcia ( Wskaźnik ryzyka egzaminu jest wyświetlany. a b a b t W przypadku MV w CDH w 72 h, EXAM miał niski wynik fałszywie ujemny w wysokości 7,1%. , pokazując dwa fałszywie ujemne przypadki z CDH, gdzie jeden przypadek miał wiele brakujących funkcji danych EMR, a drugi miał CXR z artefaktem ruchu i niektórymi brakującymi funkcjami EMR. 4 Wykorzystanie prywatności różnicowej Główną motywacją instytutów opieki zdrowotnej do korzystania z FL jest zachowanie bezpieczeństwa i prywatności swoich danych, a także przestrzeganie środków zgodności z danymi. lub nawet rekonstrukcję obrazów szkoleniowych z samych gradientów modelu Aby przeciwdziałać tym zagrożeniom, zastosowano środki wzmacniające bezpieczeństwo w celu złagodzenia ryzyka w przypadku „przestrzegania” danych podczas komunikacji serwer-serwer. Eksperymentowaliśmy z technikami, aby uniknąć przechwytywania danych FL, i dodaliśmy funkcję bezpieczeństwa, która naszym zdaniem może zachęcić więcej instytucji do korzystania z FL. W ten sposób zweryfikowaliśmy wcześniejsze odkrycia, które pokazują, że częściowy podział wagi i inne techniki prywatności różnicowej mogą być z powodzeniem stosowane w FL. W ramach badań nad częściowym systemem podziału wagi , , , wykazaliśmy, że modele mogą osiągnąć porównywalną wydajność nawet wtedy, gdy udostępniane są tylko 25% aktualizacji wagi (Extended Data Fig. ) w 47 48 49 50 50 51 52 5 Dyskusja Badanie to zawiera duże, rzeczywiste badanie FL w dziedzinie opieki zdrowotnej pod względem liczby witryn i liczby wykorzystywanych punktów danych. Wierzymy, że dostarcza potężnego dowodu koncepcyjnego wykorzystania FL do szybkiego i wspólnego opracowywania potrzebnych modeli AI w opiece zdrowotnej. Nasze badanie obejmowało wiele witryn na czterech kontynentach i pod nadzorem różnych organów regulacyjnych, a tym samym spełnia obietnicę dostarczenia różnych rynków regulowanych w przyspieszony sposób. Globalny model FL, EXAM, okazał się bardziej wytrzymały i osiągał lepsze wyniki na poszczególnych stronach niż jakikolwiek model przeszkolony na podstawie tylko lokalnych danych. Wierzymy, że konsekwentna poprawa została osiągnięta dzięki większemu, ale także bardziej z W przypadku witryny klienta z stosunkowo małym zbiorem danych można zastosować dwa typowe podejścia do dopasowania użytecznego modelu: jedno polega na szkoleniu lokalnie z własnymi danymi, drugie polega na zastosowaniu modelu szkolonego na większym zbiorze danych. W przypadku witryn z małymi zbiorami danych byłoby praktycznie niemożliwe zbudowanie wydajnego modelu głębokiego uczenia się z wykorzystaniem tylko ich danych lokalnych. Odkrycie, że te dwa podejścia były lepsze w odniesieniu do wszystkich trzech zadań przewidywania przez globalny model FL, wskazuje, że korzyści dla witryn klienta z małymi zbiorami danych wynikającymi z udziału w współpracy FL są znaczące. Jest to prawdopodobne odzwierciedlenie zdolności FL do przechwytywania większej . 46 Wyniki walidacji potwierdziły, że model globalny jest solidny, wspierając naszą hipotezę, że modele przeszkolone przez FL są powszechne w całym systemie opieki zdrowotnej. Zapewniają one przekonujący przypadek wykorzystania algorytmów predykcyjnych w opiece nad pacjentami COVID-19 oraz wykorzystania FL w tworzeniu modeli i testach. Poprzez udział w tym badaniu witryny klientów otrzymały dostęp do egzaminu, aby uzyskać dalszą walidację przed podjęciem decyzji o zatwierdzeniu regulacyjnym lub przyszłym wprowadzeniu do opieki klinicznej. , a także w różnych miejscach, które nie były częścią egzaminu szkoleniowego. 53 Opublikowano ponad 200 modeli predykcyjnych wspierających podejmowanie decyzji u pacjentów z COVID-19 W przeciwieństwie do większości publikacji koncentrujących się na diagnozie COVID-19 lub przewidywaniu śmiertelności, przewidywaliśmy zapotrzebowanie na tlen, które ma implikacje dla zarządzania pacjentami. Używaliśmy również przypadków z nieznanym statusem SARS-COV-2, a więc model mógł dostarczyć wkład do lekarza przed otrzymaniem wyniku PCR z odwrotną transkrypcją (RT-PCR), co czyni go użytecznym dla rzeczywistych warunków klinicznych. Wkład obrazowania modelu jest stosowany w powszechnej praktyce, w przeciwieństwie do modeli, które używają tomografii komputerowej klatki piersiowej, metodą diagnostyczną bez konsensusu. Projektowanie modelu było ograniczone do obiektywnych predyktorów, w przeciwieństwie do wielu op 19 Identyfikacja kohort pacjentów i harmonizacja danych nie są nowymi zagadnieniami w dziedzinie badań naukowych i danych , ale są jeszcze bardziej skomplikowane, gdy używamy FL, ze względu na brak widoczności na innych portalach. Ulepszenia w systemach informacyjnych klinicznych są potrzebne, aby usprawnić przygotowanie danych, co prowadzi do lepszego wykorzystania sieci portali uczestniczących w FL. To, w połączeniu z inżynierią hiperparametryczną, może umożliwić algorytmom skuteczniejsze „uczenie się” z większych partii danych i dostosowanie parametrów modelu do konkretnej witryny w celu dalszej personalizacji – na przykład poprzez dalsze dostosowanie tej witryny System, który umożliwiłby bezproblemowe, bliskie w czasie rzeczywistym wyciąganie wniosków modelowych i przetwarzanie wyników, byłby również korzystny i „zamknąłby obwód” od szkolenia po wdrożenie modelu. 54 39 Ponieważ dane nie były scentralizowane, nie są one łatwo dostępne. mając na uwadze, że wszelka przyszła analiza wyników, poza tym, co zostało wywodzone i zebrane, jest ograniczona. Podobnie jak inne modele uczenia maszynowego, EXAM jest ograniczony przez jakość danych szkoleniowych. Instytucje zainteresowane wdrażaniem tego algorytmu dla opieki klinicznej muszą zrozumieć potencjalne uprzedzenia w szkoleniu. Na przykład etykiety wykorzystywane jako podstawowa prawda w szkoleniu modelu EXAM pochodzą z 24- i 72-godzinnego zużycia tlenu u pacjenta; zakłada się, że tlen dostarczony pacjentowi odpowiada zapotrzebowaniu na tlen. Ponieważ dostęp do naszych danych był ograniczony, nie dysponowaliśmy wystarczającymi informacjami do generowania szczegółowych statystyk dotyczących przyczyn niepowodzeń, post hoc, na większości witryn. Jednak badaliśmy przypadki niepowodzeń z największego niezależnego miejsca testowania, CDH, i byliśmy w stanie wygenerować hipotezy, które możemy przetestować w przyszłości. W przyszłości zamierzamy również zbadać potencjał „przepływu populacji” z powodu różnych faz postępu choroby. Funkcją, która poprawi ten rodzaj współpracy na dużą skalę, jest możliwość przewidywania wkładu każdej witryny klienta w poprawę globalnego modelu FL. Pomoże to w wyborze witryny klienta oraz w priorytetowaniu wysiłków w zakresie pozyskiwania danych i anotacji. Przyszłe podejścia mogą uwzględniać automatyczne wyszukiwanie hiperparametrów Wyszukiwanie architektury neuronowej i inne automatyczne uczenie maszynowe podejścia do znalezienia optymalnych parametrów szkolenia dla każdej witryny klienta bardziej efektywnie. 55 56 57 Znane problemy normalizacji partii (BN) w FL zmotywował nas do naprawy naszego modelu bazowego do ekstrakcji funkcji obrazu Przyszła praca może zbadać różne rodzaje technik normalizacji, aby umożliwić skuteczniejsze szkolenie modeli AI w FL, gdy dane klientów są niezależne i rozmieszczone identycznie. 58 49 Ostatnie prace nad atakami na prywatność w ustawieniach FL wywołały obawy dotyczące wycieków danych podczas szkolenia modelowego Tymczasem algorytmy ochrony pozostają niewykorzystane i ograniczone przez wiele czynników. , , wykazują dobrą ochronę, mogą osłabić wydajność modelu. algorytmy szyfrowania, takie jak szyfrowanie homomorficzne , utrzymanie wydajności, ale może znacząco zwiększyć rozmiar wiadomości i czas szkolenia. mierzalny sposób pomiaru prywatności pozwoliłby na lepsze wybory dla decydowania o minimalnych parametrach prywatności niezbędnych przy zachowaniu klinicznie akceptowalnej wydajności , , . 59 36 48 49 60 36 48 49 Po dalszej walidacji przewidujemy wdrożenie modelu EXAM w ustawieniach ED jako sposobu oceny ryzyka zarówno na poziomie pacjenta, jak i populacji, a także zapewnienia klinikom dodatkowego punktu odniesienia podczas wykonywania często trudnego zadania badania pacjentów. Metody Etyczne zatwierdzenie Wszystkie poinformowane procedury Centrum Zdrowia w Toronto zostały przeprowadzone zgodnie z zasadami dotyczącymi eksperymentów na ludziach zgodnie z deklaracją z Helsinek i Międzynarodową Konferencją ds. Harmonizacji Dobrej Praktyki Zdrowotnej i zostały zatwierdzone przez odpowiednie instytucjonalne komitety oceniające na następujących stronach walidacji: CDH, MVH, NCH oraz na następujących stronach szkoleniowych: MGB, Mass General Hospital (MGH), Brigham and Women’s Hospital (MGH), Newton-Wellesley Hospital, North Shore Public Medical Center i New Faulkner Hospital (wszystkich ośmiu z tych szpitali zostało objętych zgodą referencyjną rady etycznej MGB, nr 2020P002673, a poinformowana zgoda została zrezygnowana przez inst Zgodnie z wytycznymi MI-CLAIM dotyczącymi raportowania modeli klinicznych sztucznej inteligencji (Nota uzupełniająca). ) 2 Studia Setting Badanie obejmowało dane z 20 instytucji (Fig. ): MGB, MGH, Brigham and Women's Hospital, Newton-Wellesley Hospital, North Shore Medical Center i Faulkner Hospital; National Children's Hospital w Waszyngtonie, DC; NIHR Cambridge Biomedical Research Centre; The Self-Defense Forces Central Hospital w Tokio; National Taiwan University MeDA Lab i MAHC i Taiwan National Health Insurance Administration; Tri-Service General Hospital w Tajwanie; Kyungpook National University Hospital w Korei Południowej; Wydział Medycyny, Chulalongkorn University w Tajlandii; Diagnosticos da America SA w Brazylii; University of California, San Francisco; VA San Diego; University of Toronto; National Institutes of Health w Bethesda, Maryland; University of Wisconsin-Madison School of Medicine and Public Health; Memorial Sloan , , Dane z trzech niezależnych witryn zostały wykorzystane do niezależnej walidacji: CDH, MVH i NCH, wszystkie w Massachusetts, USA. Te trzy szpitale miały charakterystykę populacji pacjentów różniącej się od witryn szkoleniowych. Dane wykorzystywane do walidacji algorytmu składały się z pacjentów przyjętych do ED na tych witrynach w okresie od marca 2020 do lutego 2021 r. i które spełniały te same kryteria włączenia danych wykorzystywanych do szkolenia modelu FL. 1a 61 62 63 Zbiórka danych 20 witryn klientów przygotowało łącznie 16 148 przypadków (zarówno pozytywnych, jak i negatywnych) do celów szkolenia, walidacji i testowania modelu (Rys. Dane medyczne zostały uzyskane w odniesieniu do pacjentów spełniających kryteria włączenia do badania. Strony klientów starały się uwzględnić wszystkie przypadki pozytywne na COVID od początku pandemii w grudniu 2019 r. i aż do czasu rozpoczęcia lokalnego szkolenia na temat badania EXAM. Wszystkie lokalne szkolenia rozpoczęły się do 30 września 2020 r. Strony również uwzględniły innych pacjentów w tym samym okresie z negatywnymi wynikami testów RT-PCR. Ponieważ większość stron miała więcej pacjentów negatywnych na SARS-COV-2 niż pozytywnych, ograniczyliśmy liczbę negatywnych pacjentów uwzględnionych do maksymalnie 95% całkowitych przypadków na każdym miejscu klienta. 1b Jeden „przypadek” obejmował CXR i wymagane wejścia danych pobrane z dokumentacji medycznej pacjenta. Rozmieszczenie i wzorce intensywności obrazu CXR (wartości pikseli) różniły się znacznie między witrynami ze względu na wiele czynników specyficznych dla pacjenta i witryny, takich jak różni producenci urządzeń i protokoły obrazowania, jak pokazano na rysunku. Wiek pacjentów i dystrybucja cech EMR różniły się znacznie między lokalizacjami, jak się spodziewano z powodu różnic demograficznych między szpitaliami rozproszonymi na całym świecie (Rozszerzone dane Rys. ) w 1b 1 C, D 6 Kryteria integracji pacjentów Kryteria włączenia pacjenta były następujące: (1) pacjent został przedstawiony do szpitala ED lub równoważny; (2) pacjent miał test RT-PCR przeprowadzony w dowolnym momencie między przedstawieniem do ED i wyładowania z szpitala; (3) pacjent miał CXR w ED; i (4) pacjent rekord miał co najmniej pięć wartości EMR szczegółowo w tabeli. , wszystkie uzyskane w ED, a odpowiednie wyniki przechwycone podczas hospitalizacji.Należy zauważyć, że CXR, wyniki laboratoryjne i życiorysy stosowane były pierwsze dostępne do przechwycenia podczas wizyty w ED. Model nie zawierał żadnych CXR, wyników laboratoryjnych lub życiorysów uzyskanych po opuszczeniu ED. 1 Model wejścia Łącznie 21 cech EMR zostało wykorzystanych jako źródło danych do modelu. etykiety wyników (tj. rzeczywistości naziemnej) zostały przydzielone w oparciu o wymagania pacjenta po 24 i 72 godzinach od początkowego przyjęcia do ED. Szczegółową listę żądanych cech EMR i wyników można zobaczyć w tabeli . 1 Dystrybucja przetwarzania tlenu za pomocą różnych urządzeń w różnych lokalizacjach klienta jest wyświetlana w rozszerzonej figurze danych. , który szczegółowo opisuje wykorzystanie urządzenia w momencie przyjęcia do ED oraz po 24-godzinnych i 72-godzinnych okresach.Różnice w dystrybucji zbiorów danych między największymi i najmniejszymi witrynami klienta można zobaczyć na rysunku Rozszerzone dane. . 7 8 Liczba pozytywnych przypadków COVID-19, potwierdzona pojedynczym testem RT-PCR uzyskanym w dowolnym momencie między złożeniem do ED a wypisaniem ze szpitala, jest wymieniona w tabeli uzupełniającej. Każda witryna klienta została poproszona o losowe podział swoich zbiorów danych na trzy części: 70% na szkolenia, 10% na walidację i 20% na testy. 1 Badanie modelu rozwoju Istnieje duża różnica w przebiegu klinicznym pacjentów, którzy są hospitalizowani z objawami COVID-19, z niektórymi doświadczającymi szybkim pogorszeniem funkcji układu oddechowego wymagającym różnych interwencji w celu zapobiegania lub łagodzenia hipoksemii. , Kluczową decyzją podjętą podczas oceny pacjenta w początkowym punkcie opieki, lub w ED, jest to, czy pacjent prawdopodobnie będzie potrzebował bardziej inwazyjnych lub ograniczonych zasobów środków przeciwdziałania lub interwencji (takich jak MV lub przeciwciała monoklonalne), a zatem powinien otrzymać rzadką, ale skuteczną terapię, terapię o wąskim stosunku ryzyka do korzyści z powodu skutków ubocznych lub wyższy poziom opieki, takich jak przyjęcie do oddziału intensywnej opieki. W przeciwieństwie do tego, pacjent, który ma mniejsze ryzyko, że będzie potrzebował inwazyjnej terapii tlenowej, może zostać umieszczony w mniej intensywnej opiece, takiej jak regularny oddział, a nawet uwolniony z ED, aby kontynuować samokontroli w domu. Egzamin został opracowany, aby pomóc w badaniu takich pacjentów. 62 63 64 65 Należy zauważyć, że model nie jest obecnie zatwierdzony przez żadną agencję regulacyjną i powinien być używany tylko do celów badawczych. Wyniki egzaminu EXAM został przeszkolony przy użyciu FL; daje wynik ryzyka (tzw. wynik EXAM) podobny do CORISK (Dane podane w rozszerzonym pliku. Odpowiada wymaganiom pacjenta w zakresie wsparcia tlenu w ciągu dwóch okien – 24 i 72 h – po pierwszym przedstawieniu do ED. ilustruje, w jaki sposób CORISK i wynik egzaminu mogą być wykorzystywane do sortowania pacjentów. 27 9a 9b Obrazy rentgenowskie klatki piersiowej zostały wstępnie przetworzone, aby wybrać obraz pozycji przedniej i wykluczyć obrazy widoku bocznego, a następnie skalowane do rozdzielczości 224 × 224. , model łączy informacje zarówno z funkcji EMR, jak i CXR (w oparciu o zmodyfikowany ResNet34 z uwzględnieniem przestrzennego wstępnie przeszkolone na bazie danych CheXpert) Sieć Deep & Cross Aby zbliżyć te różne typy danych, wektor funkcji 512-wymiarowy został wyodrębniony z każdego obrazu CXR przy użyciu wstępnie przeszkolonego ResNet34, z uwzględnieniem przestrzennym, a następnie połączony z funkcjami EMR jako wejściem do sieci Deep & Cross. Korzystaliśmy z cross-entropii jako funkcji utraty i „Adam” jako optymatora. Obsługa NVIDIA Clara Train SDK Średnia AUC dla zadań klasyfikacyjnych (≥LFO, ≥HFO/NIV lub ≥MV) została obliczona i wykorzystana jako ostateczna metryka oceny, z normalizacją do zerowej średniej i zmienności jednostkowej. obrazy CXR zostały wstępnie przetworzone, aby wybrać prawidłową serię i wykluczyć obrazy widoku bocznego, a następnie skalowane do rozdzielczości 224 × 224 (ref. ) w 9a 66 67 68 9b 69 70 27 Imputacja i normalizacja Algorytm MissForest Jeśli funkcja EMR całkowicie brakowała w zbiorze danych witryny klienta, użyto średniej wartości tej funkcji, obliczonej wyłącznie na podstawie danych z witryn klienta MGB. Następnie funkcje EMR zostały zmienione do zerowej średniej i zmienności jednostkowej na podstawie statystyk obliczonych na podstawie danych z witryn klienta MGB. 71 Szczegóły fuzji danych EMR-CXR przy użyciu sieci Deep & Cross Aby zmodelować interakcje funkcji z danych EMR i CXR na poziomie przypadku, zastosowano schemat głębokich funkcji oparty na architekturze sieci Deep & Cross. Funkcje binarne i kategoryczne dla wejść EMR, a także 512-wymiarowe funkcje obrazu w CXR, zostały przekształcone w zintegrowane wektory gęste wartości rzeczywistych poprzez wstawianie warstw. Przekształcone wektory gęste służyły jako wejście do ramki fuzji, która specjalnie wykorzystywała sieć krzyżową do egzekwowania fuzji między wejściami z różnych źródeł. Sieć krzyżowa wykonała wyraźne krzyżowanie funkcji w swoich warstwach, prowadząc wewnętrzne produkty między oryginalną funkcją wejścia a wyjściem z poprzedniej warstwy, zwiększając w ten sposób stopień interakcji między funkcjami. W tym samym czasie przeszkolono dwie indywidualne klasyczne głębokie sieci neuronowe 68 FL szczegóły Prawdopodobnie najbardziej ugruntowaną formą FL jest wdrożenie algorytmu średniej federowanej, jak zaproponował McMahan et al. , lub jego warianty. Ten algorytm można zrealizować za pomocą konfiguracji klienta-serwera, w którym każda strona uczestnicząca działa jako klient. Można pomyśleć o FL jako o metodzie mającym na celu zminimalizowanie globalnej funkcji utraty poprzez zmniejszenie zestawu lokalnych funkcji utraty, które są szacowane na każdej stronie. Zminimalizując lokalną stratę każdej witryny klienta, a także synchronizując wagi witryny klienta wyuczone na scentralizowanym serwerze agregacji, można zminimalizować globalną stratę bez konieczności dostępu do całego zestawu danych w scentralizowanej lokalizacji. Każda strona klienta uczy się lokalnie i udostępnia aktualizacje wagi modelu z centralnym serwerem, który agreguje wkłady ) w 72 9c Pseudoalgorytm FL jest przedstawiony w uwadze dodatkowej W naszych eksperymentach ustawiliśmy liczbę rund federowanych na = 200, z jednym okresem szkolenia lokalnego na rundę dla każdego klienta – liczba klientów, , był do 20 w zależności od łączności sieciowej klientów lub dostępnych danych dla określonego okresu docelowego wyniku (24 lub 72 h). , zależy od wielkości zbioru danych u każdego klienta i jest używany do ważenia wkładów każdego klienta podczas agregowania wagi modelu w średniej federowanej. Podczas zadania szkoleniowego FL każda witryna klienta wybiera swój najlepszy model lokalny, śledząc wydajność modelu na swoim lokalnym zestawie walidacji.W tym samym czasie serwer określa najlepszy model globalny na podstawie średnich wyników walidacji wysyłanych z każdej witryny klienta do serwera po każdej rundzie FL. Po zakończeniu szkolenia FL, najlepsze modele lokalne i najlepszy model globalny są automatycznie udostępniane wszystkim witrynom klienta i oceniane na podstawie ich lokalnych danych testowych. 1 T t K NK k Optymalizator Adam był używany zarówno dla szkolenia lokalnego, jak i FL z początkowym współczynnikiem uczenia się 5 × 10–5 i stopniowym rozpadem współczynnika uczenia się o współczynniku 0,5 po każdym 40 okresach, co jest ważne dla konwergencji średnich federowanych. Randomne przemiany afiny, w tym rotacja, tłumaczenia, krojenie, skalowanie i przypadkowy hałas intensywności i zmiany, zostały zastosowane do obrazów w celu zwiększenia danych podczas szkolenia. 73 Ze względu na wrażliwość warstw BN podczas pracy z różnymi klientami w niezależnym i identycznie rozproszonym otoczeniu, stwierdziliśmy, że najlepsza wydajność modelu nastąpiła, gdy przedtrenowany ResNet34 był utrzymywany z uwzględnieniem przestrzeni. W sieci Deep & Cross, która łączy funkcje obrazu z funkcjami EMR, nie występują warstwy BN, a zatem nie były one dotknięte problemami z niestabilnością BN. 58 47 W tym badaniu zbadaliśmy schemat zachowania prywatności, który udostępnia tylko częściowe aktualizacje modeli między serwerem a witrynami klienta. Aktualizacje wagi były klasyfikowane podczas każdej iteracji według wielkości wkładu, a tylko pewien odsetek największych aktualizacji wagi został udostępniony serwerowi. t) (Dane rozszerzone na rys. ), który został obliczony ze wszystkich gradientów niezero, Δ i może być inna dla każdego klienta W każdej rundzie FL Warianty tego schematu mogą obejmować dodatkowe cięcie dużych gradientów lub różnicowe schematy prywatności. które dodają przypadkowego hałasu do gradientów, a nawet do surowych danych, przed wprowadzeniem do sieci . k 5 wg(t) k t 49 51 Analiza statystyczna Przeprowadziliśmy test podpisanego rankingu Wilcoxona, aby potwierdzić znaczenie zaobserwowanej poprawy wydajności między modelem przeszkolonym lokalnie a modelem FL w punktach czasowych 24 i 72 h (Rys. Rozszerzone dane Fig. Hipoteza zerowa została odrzucona jednostronnie. 1 × 10–3 w obu przypadkach. 2 1 P Korelacja Pearsona została wykorzystana do oceny uogólnialności (robustność średniej wartości AUC do danych testowych innych witryn klienckich) lokalnie przeszkolonych modeli w stosunku do wielkości lokalnych zbiorów danych. = 0,43 zł, = 0,035, stopnie swobody (df) = 17 dla modelu 24-godzinnego i = 0,62 zł, = 0,003, df = 16 dla modelu 72-h).Oznacza to, że sama wielkość zbioru danych nie jest jedynym czynnikiem określającym odporność modelu na dane niewidoczne. r P r P Aby porównać krzywe ROC z globalnego modelu FL i modeli lokalnych przeszkolonych w różnych lokalizacjach (Rozszerzone dane rysunek. ), pobraliśmy 1000 próbek z danych i obliczyliśmy wynikające AUC. Następnie obliczyliśmy różnicę między dwiema seriami i znormalizowaliśmy za pomocą formuły = (AUC1 – AUC2) lub gdzie Jest to różnica standardowa, jest standardowym odchyleniem różnic bootstrap, a AUC1 i AUC2 są odpowiednimi seriami AUC bootstrapped. W normalnym rozkładzie otrzymaliśmy Wartości przedstawione w tabeli uzupełniającej Wyniki pokazują, że hipoteza zerowa została odrzucona z bardzo niskim wartości, wskazujące znaczenie statystyczne wyższości wyników FL. Obliczanie wartości zostały przeprowadzone w R z biblioteką pROC . 3 D s D s D P 2 P P 74 Ponieważ model przewiduje dyskretny wynik, ciągły wynik od 0 do 1, nie jest możliwa prosta ocena kalibracji, taka jak qqplot. Przeprowadziliśmy jednostronne testy analizy zmienności (ANOVA), aby porównać wyniki modeli lokalnych i FL pomiędzy czterema kategoriami rzeczywistości naziemnej (RA, LFO, HFO, MV). -statystyczny, obliczony jako różnica między próbkami, podzielona na różnicę wewnątrz próbek i reprezentującą stopień rozproszenia między różnymi grupami, został użyty do ilościowania modeli. -wartości pięciu różnych miejsc lokalnych to 245.7, 253.4, 342.3, 389.8 i 634.8, podczas gdy w modelu FL jest to 843.5. -wartości oznaczają, że grupy są bardziej rozdzielalne, wyniki z naszego modelu FL wyraźnie pokazują większe rozproszenie między czterema kategoriami podstawowej prawdy. wartość testu ANOVA na modelu FL wynosi <2 × 10–16, co wskazuje, że wyniki prognozowania FL są statystycznie znacząco różne między różnymi klasami prognozowania. 10 F F F P Raport Podsumowanie Więcej informacji na temat projektu jest dostępnych w link do tego artykułu. Podsumowanie badań przyrodniczych Dostępność danych Zbiór danych z 20 instytutów uczestniczących w tym badaniu pozostaje pod ich opieką. Dane te zostały wykorzystane do szkoleń w każdej z lokalnych placówek i nie zostały udostępnione żadnej z innych instytucji uczestniczących lub z serwerem federowanym, a nie są one publicznie dostępne. Dane z niezależnych miejsc walidacji są utrzymywane przez CAMCA, a dostęp można zażądać, kontaktując się z Q.L. Na podstawie ustalenia przez CAMCA, przegląd udostępniania danych i modyfikacja IRB do celów badawczych może być przeprowadzona przez administrację badawczą MGB i zgodnie z MGB IRB i polityką. Dostępność kodu Wszystkie kody i oprogramowanie wykorzystywane w tym badaniu są publicznie dostępne w NGC. Aby uzyskać dostęp, zalogować się jako gość lub utworzyć profil, wpisz jeden z poniższych adresów URL. Szkolone modele, wytyczne dotyczące przygotowania danych, kod szkolenia, weryfikacja testów modelu, plik readme, wytyczne instalacyjne i pliki licencji są publicznie dostępne w NVIDIA NGC • : Oprogramowanie federowane do nauki jest dostępne jako część Clara Train SDK: Alternatywnie użyj tego polecenia, aby pobrać model „wget --content-disposition -O clara_train_covid19_exam_ehr_xray_1.zip”. 61 https://ngc.nvidia.com/catalog/models/nvidia:med:clara_train_covid19_exam_ehr_xray https://ngc.nvidia.com/catalog/containers/nvidia:clara-train-sdk https://api.ngc.nvidia.com/v2/models/nvidia/med/clara_train_covid19_exam_ehr_xray/versions/1/zip Referencje Budd, J. et al. Digital technologies in the public-health response to COVID-19. , 1183–1192 (2020). Nat. Med. 26 Moorthy, V., Henao Restrepo, A. M., Preziosi, M.-P. & Swaminathan, S. Data sharing for novel coronavirus (COVID-19). , 150 (2020). Bull. World Health Organ. 98 Chen, Q., Allot, A. & Lu, Z. Keep up with the latest coronavirus research. , 193 (2020). Nature 579 Fabbri, F., Bhatia, A., Mayer, A., Schlotter, B. & Kaiser, J. BCG IT spend pulse: how COVID-19 is shifting tech priorities. (2020). https://www.bcg.com/publications/2020/how-covid-19-is-shifting-big-it-spend Candelon, F., Reichert, T., Duranton, S., di Carlo, R. C. & De Bondt, M. The rise of the AI-powered company in the postcrisis world. (2020). https://www.bcg.com/en-gb/publications/2020/business-applications-artificial-intelligence-post-covid Chao, H. et al. Integrative analysis for COVID-19 patient outcome prediction. , 101844 (2021). Med. Image Anal. 67 Zhu, X. et al. Joint prediction and time estimation of COVID-19 developing severe symptoms using chest CT scan. , 101824 (2021). Med. Image Anal. 67 Yang, D. et al. Federated semi-supervised learning for Covid region segmentation in chest ct using multi-national data from China, Italy, Japan. , 101992 (2021). Med. Image Anal. 70 Minaee, S., Kafieh, R., Sonka, M., Yazdani, S. & Jamalipour Soufi, G. Deep-COVID: predicting COVID-19 from chest X-ray images using deep transfer learning. , 101794 (2020). Med. Image Anal. 65 COVID-19 Studies from the World Health Organization Database. (2020). https://clinicaltrials.gov/ct2/who_table ACTIV. (2020). https://www.nih.gov/research-training/medical-research-initiatives/activ Coronavirus Treatment Acceleration Program (CTAP). US Food and Drug Administration (2020). https://www.fda.gov/drugs/coronavirus-covid-19-drugs/coronavirus-treatment-acceleration-program-ctap Gleeson, P., Davison, A. P., Silver, R. A. & Ascoli, G. A. A commitment to open source in neuroscience. , 964–965 (2017). Neuron 96 Piwowar, H. et al. The state of OA: a large-scale analysis of the prevalence and impact of open access articles. , e4375 (2018). PeerJ. 6 European Society of Radiology (ESR). What the radiologist should know about artificial intelligence – an ESR white paper. , 44 (2019). Insights Imaging 10 Pesapane, F., Codari, M. & Sardanelli, F. Artificial intelligence in medical imaging: threat or opportunity? Radiologists again at the forefront of innovation in medicine. , 35 (2018). Eur. Radiol. Exp. 2 Price, W. N. 2nd & Cohen, I. G. Privacy in the age of medical big data. , 37–43 (2019). Nat. Med. 25 Liang, W. et al. Development and validation of a clinical risk score to predict the occurrence of critical illness in hospitalized patients with COVID-19. , 1081–1089 (2020). JAMA Intern. Med. 180 Wynants, L. et al. Prediction models for diagnosis and prognosis of covid-19 infection: systematic review and critical appraisal. , m1328 (2020). Brit. Med. J. 369 Zhang, L. et al. D-dimer levels on admission to predict in-hospital mortality in patients with Covid-19. , 1324–1329 (2020). J. Thromb. Haemost. 18 Sands, K. E. et al. Patient characteristics and admitting vital signs associated with coronavirus disease 2019 (COVID-19)-related mortality among patients admitted with noncritical illness. (2020). https://doi.org/10.1017/ice.2020.461 American College of Radiology. CR recommendations for the use of chest radiography and computed tomography (CT) for suspected COVID-19 infection. (2020). https://www.acr.org/Advocacy-and-Economics/ACR-Position-Statements/Recommendations-for-Chest-Radiography-and-CT-for-Suspected-COVID19-Infection Rubin, G. D. et al. The role of chest imaging in patient management during the COVID-19 pandemic: a multinational consensus statement from the Fleischner Society. , 172–180 (2020). Radiology 296 World Health Organization. Use of chest imaging in COVID-19. (2020). https://www.who.int/publications/i/item/use-of-chest-imaging-in-covid-19 Jamil, S. et al. Diagnosis and management of COVID-19 disease. , 10 (2020). Am. J. Respir. Crit. Care Med. 201 Redmond, C. E., Nicolaou, S., Berger, F. H., Sheikh, A. M. & Patlas, M. N. Emergency radiology during the COVID-19 pandemic: The Canadian Association of Radiologists Recommendations for Practice. , 425–430 (2020). Can. Assoc. Radiologists J. 71 Buch, V. et al. Development and validation of a deep learning model for prediction of severe outcomes in suspected COVID-19 Infection. Preprint at (2021). https://arxiv.org/abs/2103.11269 Lyons, C. & Callaghan, M. The use of high-flow nasal oxygen in COVID-19. , 843–847 (2020). Anaesthesia 75 Whittle, J. S., Pavlov, I., Sacchetti, A. D., Atwood, C. & Rosenberg, M. S. Respiratory support for adult patients with COVID-19. , 95–101 (2020). J. Am. Coll. Emerg. Physicians Open 1 Ai, J., Li, Y., Zhou, X. & Zhang, W. COVID-19: treating and managing severe cases. , 370–371 (2020). Cell Res. 30 Esteva, A. et al. A guide to deep learning in healthcare. , 24–29 (2019). Nat. Med. 25 Cahan, E. M., Hernandez-Boussard, T., Thadaney-Israni, S. & Rubin, D. L. Putting the data before the algorithm in big data addressing personalized healthcare. , 78 (2019). NPJ Digit. Med. 2 Thrall, J. H. et al. Artificial intelligence and machine learning in radiology: opportunities, challenges, pitfalls, and criteria for success. , 504–508 (2018). J. Am. Coll. Radiol. 15 Shilo, S., Rossman, H. & Segal, E. Axes of a revolution: challenges and promises of big data in healthcare. , 29–38 (2020). Nat. Med. 26 Gao, Y. & Cui, Y. Deep transfer learning for reducing health care disparities arising from biomedical data inequality. , 5131 (2020). Nat. Commun. 11 Rieke, N. et al. The future of digital health with federated learning. , 119 (2020). NPJ Dig. Med. 3 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. 10 Ma, C. et al. On safeguarding privacy and security in the framework of federated learning. , 242–248 (2020). IEEE Netw. 34 Brisimi, T. S. et al. Federated learning of predictive models from federated Electronic Health Records. , 59–67 (2018). Int. J. Med. Inform. 112 Roth, H. R. et al. Federated learning for breast density classification: a real-world implementation. In , (eds. Albarqouni, S. et al.) Vol. 12,444, 181–191 (Springer International Publishing, 2020). Proc. Second MICCAI Workshop, DART 2020 and First MICCAI Workshop, DCL 2020 Domain Adaptation and Representation Transfer, and Distributed and Collaborative Learning Sheller, M. J. et al. Federated learning in medicine: facilitating multi-institutional collaborations without sharing patient data. , 12598 (2020). Sci. Rep. 10 Remedios, S. W., Butman, J. A., Landman, B. A. & Pham, D. L. in (eds Remedios, S. W. et al.) (Springer, 2020). Federated Gradient Averaging for Multi-Site Training with Momentum-Based Optimizers Xu, Y. et al. A collaborative online AI engine for CT-based COVID-19 diagnosis. Preprint at (2020). https://www.medrxiv.org/content/10.1101/2020.05.10.20096073v2 Raisaro, J. L. et al. SCOR: A secure international informatics infrastructure to investigate COVID-19. , 1721–1726 (2020). J. Am. Med. Inform. Assoc. 27 Vaid, A. et al. Federated learning of electronic health records to improve mortality prediction in hospitalized patients with COVID-19: machine learning approach. , e24207 (2021). JMIR Med. Inform. 9 Nino, G. et al. Pediatric lung imaging features of COVID-19: a systematic review and meta-analysis. , 252–263 (2021). Pediatr. Pulmonol. 56 Fredrikson, M., Jha, S. & Ristenpart, T. Model inversion attacks that exploit confidence information and basic countermeasures. In 1322–1333, (2015). Proc. 22nd ACM SIGSAC Conference on Computer and Communications Security https://doi.org/10.1145/2810103.2813677 Zhu, L., Liu, Z. & Han, S. in (eds Wallach, H. et al.) 14774–14784 (Curran Associates, Inc., 2019). Advances in Neural Information Processing Systems 32 Kaissis, G. A., Makowski, M. R., Rückert, D. & Braren, R. F. Secure, privacy-preserving and federated machine learning in medical imaging. , 305–311 (2020). Nat. Mach. Intell. 2 Li, W. et al. in 133–141 (Springer, 2019). Privacy-Preserving Federated Brain Tumour Segmentation Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In (2015). Proc. 53rd Annual Allerton Conference on Communication, Control, and Computing (Allerton) https://doi.org/10.1109/allerton.2015.7447103 Li, X. et al. Multi-site fMRI analysis using privacy-preserving federated learning and domain adaptation: ABIDE results. , 101765 (2020). Med. Image Anal. 65 Estiri, H. et al. Predicting COVID-19 mortality with electronic medical records. , 15 (2021). NPJ Dig. Med. 4 Jiang, G. et al. Harmonization of detailed clinical models with clinical study data standards. , 65–74 (2015). Methods Inf. Med. 54 Yang, D. et al. in . (2019). Searching Learning Strategy with Reinforcement Learning for 3D Medical Image Segmentation https://doi.org/10.1007/978-3-030-32245-8_1 Elsken, T., Metzen, J. H. & Hutter, F. Neural architecture search: a survey. , 1–21 (2019). J. Mach. Learning Res. 20 Yao, Q. et al. Taking human out of learning applications: a survey on automated machine learning. Preprint at (2019). https://arxiv.org/abs/1810.13306 Ioffe, S. & Szegedy, C. Batch normalization: accelerating deep network training by reducing internal covariate shift. In , PMLR , 448–456 (2015). Proc. 32nd International Conf. Machine Learning 37 Kaufman, S., Rosset, S. & Perlich, C. Leakage in data mining: formulation, detection, and avoidance. In , 556–563 (2011). Proc. 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining Zhang, C. et al. BatchCrypt: efficient homomorphic encryption for cross-silo federated learning. In , 493–506 (2020). Proc. 2020 USENIX Annual Technical Conference, ATC 2020 . (2020). Nvidia NGC Catalog: COVID-19 Related Models https://ngc.nvidia.com/catalog/models?orderBy=scoreDESC&pageNumber=0&query=covid&quickFilter=models&filters Marini, J. J. & Gattinoni, L. Management of COVID-19 respiratory distress. , 2329–2330 (2020). JAMA 323 Cook, T. M. et al. Consensus guidelines for managing the airway in patients with COVID-19: Guidelines from the Difficult Airway Society, the Association of Anaesthetists the Intensive Care Society, the Faculty of Intensive Care Medicine and the Royal College of Anaesthetist. , 785–799 (2020). Anaesthesia 75 Galloway, J. B. et al. A clinical risk score to identify patients with COVID-19 at high risk of critical care admission or death: an observational cohort study. , 282–288 (2020). J. Infect. 81 Kilaru, A. S. et al. Return hospital admissions among 1419 COVID-19 patients discharged from five U.S. emergency departments. , 1039–1042 (2020). Acad. Emerg. Med. 27 He, K., Zhang, X., Ren, S. & Sun, J. Deep residual learning for image recognition. In (2016). Proc. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) https://doi.org/10.1109/cvpr.2016.90 Irvin, J. et al. CheXpert: a large chest radiograph dataset with uncertainty labels and expert comparison. , 590–597 (2019). Proc. AAAI Conf. Artif. Intell. 33 Wang, R., Fu, B., Fu, G. & Wang, M. Deep & Cross network for Ad Click predictions. In Article no. 12 (2017). Proc. ADKDD’17 Abadi, M. et al. TensorFlow: asystem for large-scale machine learning. In , USENIX Association 265–283 (2016). 12th USENIX Symposium on Operating Systems Design and Implementation (OSDI 16) . (2020). NVIDIA Clara Imaging https://developer.nvidia.com/clara-medical-imaging Stekhoven, D. J. & Bühlmann, P. MissForest–non-parametric missing value imputation for mixed-type data. , 112–118 (2012). Bioinformatics 28 McMahan, H., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. (2017). http://proceedings.mlr.press/v54/mcmahan17a.html Hsieh, K., Phanishayee, A., Mutlu, O. & Gibbons, P. B. The non-IID data quagmire of decentralized machine learning. In PMLR 119 (2020). Proc. 37th International Conf. Machine Learning Robin, X. et al. pROC: an open-source package for R and S+ to analyze and compare ROC curves. , 77 (2011). BMC Bioinformatics 12 Uznania MGB dziękuje następującym osobom za ich wsparcie: J. Brink, Wydział Radiologii, Massachusetts General Hospital, Harvard Medical School, Boston, MA; N. Guo, Center for Advanced Medical Computing and Analysis, Massachusetts General Hospital, Department of Radiology, Massachusetts General Medical School, Harvard Medical School, Boston, MA; MA; J. K. Cramer, Dyrektor ds. Badań nad Danymi Klinicznymi, Massachusetts General Brigham, Boston, MA; T. Schultz, Department of Radiology, Massachusetts General Hospital, Boston, MA; N. Guo, Center for Advanced Medical Computing and Analysis, Department of Radiology, Massachusetts General Hospital, Harvard Medical School, Boston, MA; MA J. K. Cramer, Dyrektor ds. Badań nad Danymi Klinicznymi, Massachusetts General Brigham, Boston Za pośrednictwem Wydziału Medycyny Uniwersytet Chulalongkorn podziękował Funduszowi Ratchadapisek Sompoch Endowment Fund RA (PO) (nr 001/63) za gromadzenie i zarządzanie danymi klinicznymi i próbkami biologicznymi związanymi z COVID-19 dla Task Force Research, Wydziału Medycyny, Uniwersytetu Chulalongkorn. NIHR Cambridge Biomedical Research Center podziękował A. Priestowi, który jest wspierany przez NIHR (Cambridge Biomedical Research Centre at Cambridge University Hospitals NHS Foundation Trust). National Taiwan University MeDA Lab i MAHC oraz Taiwan National Health Insurance Administration dziękują MOST Joint Research Center for AI technology, All Vista Healthcare National Health Insurance Administration, Taiwan, Ministry of Science and https://data.ucsf.edu/covid19 Niniejszy artykuł jest dostępny w naturze na podstawie licencji CC by 4.0 Deed (Attribution 4.0 International). Ten dokument jest Licencja CC by 4.0 Deed (Attribution 4.0 International). Dostępne w naturze