Οι συγγραφείς: Ittai Dayan Holger R. Roth ΑΟΞΙΑΟ ΖΟΝΓΚ Ahmed Harouni Amilcare Gentili Anas Z. Abidin Andrew Liu Anthony Beardsworth Costa Bradford J. Wood Chien-Sung Tsai Chih-Hung Wang Chun-Nan Hsu C. K. Lee Ρουάν Ρουάν Daguang Xu Ντουφάν Γου Eddie Huang Felipe Campos Kitamura Griffin Lacey Gustavo César de Antônio Corradi Gustavo Nino Χάο-Σιν Σιν Hirofumi Obinata Κύριε Ρεν Jason C. Crane Jesse Tetreault Jiahui Guan John W. Garrett Joshua D. Kaggie Jung Gil Park Keith Dreyer Krishna Juluru Kristopher Kersten Marcio Aloisio Bezerra Cavalcanti Rockenbach Marius George Linguraru Masoom A. Haider Meena AbdelMaseeh Nicola Rieke Pablo F. Damasceno Pedro Mario Cruz e Silva Pochuan Wang Sheng Xu Shuichi Kawano Sira Sriswasdi Soo Young Park Thomas M. Grist Varun Buch Watsamon Jantarabenjakul Weichung Wang Won Young Tak Xiang Li Xihong Lin Young Joon Kwon Abood Quraini Andrew Feng Andrew N. Priest Baris Turkbey Benjamin Glicksberg Bernardo Bizzo Byung Seok Kim Carlos Tor-Díez Chia-Cheng Lee Chia-Jung Hsu Chin Lin Chiu-Ling Lai Christopher P. Hess Colin Compas Deepeksha Bhatia Eric K. Oermann Evan Leibovitz Hisashi Sasaki Hitoshi Mori Isaac Yang Jae Ho Sohn Krishna Nand Keshava Murthy Li-Chen Fu Matheus Ribeiro Furtado de Mendonça Mike Fralick Min Kyu Kang Mohammad Adil Natalie Gangai Peerapon Vateekul Pierre Elnajjar Sarah Hickman Sharmila Majumdar Shelley L. McLeod Sheridan Reed Stefan Gräf Stephanie Harmon Tatsuya Kodama Thanyawee Puthanakit Tony Mazzulli Vitor Lima de Lavor Yothin Rakvongthai Yu Rim Lee Yuhong Wen Fiona J. Gilbert Mona G. Flores Quanzheng Li Οι συγγραφείς: Ιταλία Νταϊάνα Χόλγκερ Ρ. Ροθ ΑΟΞΙΑΟ ΖΟΝΓΚ Αχμέτ Χαρούνι Αγαπητοί φίλοι Άννας Ζ. Αμπινίν Άντριου Λιου Άντονι Μπέαρντσγουορθ Κόστα Μπράντφορντ Τζ. Τσιεν-Σουνγκ Τσάι Τσιχ-Χονγκ Ουάνγκ Τσούν-Ναν Χσού C. Κ. Λι Ρουάν Ρουάν Ντάγκουανγκ Σου Ντουφάν Γου Έντι Χουάνγκ Φελίπε Καμπός Κιταμούρα Γκρίφιν Λάσεϊ Γκουστάβος Καίσαρας του Αντόνιο Κορράντι Γκουστάβο Νίνο Χάο-Σιν Σιν Χιροφούμι Ομπινάτα Κύριε Ρεν Τζέισον Κ. Κρέιν Τζέσε Τετρέα ΤΖΙΑΧΟΥΙ ΓΚΟΥΑΝ Τζον Γ. Γκάρετ Τζόσουα Ντ. Καγκί Πάρκο Jung Gil Κέιθ Ντρέιερ Κρίσνα Τζουλούρου Κρίστοφερ Κάρστεν Marcio Aloisio Bezerra Cavalcanti Ροκενμπάχ Μαριούς Τζορτζ Λίνγκουρα Μασόμ Α. Χάιντερ Αμπντελ Μασέχ ΝΙΚΟΛΑ ΡΙΚΕ Πάμπλο Φ. Δαμασκός Πέδρο Μάριο Κρουζ και Σίλβα Μπακογιάννης Wang Σάνγκ Σου Σουίτσι Καβάνο ΣΕΡΑΣ ΣΡΙΣΑΒΑΣΔΙ Πάρκο Young Τόμας Μ. Γκριστ Βαρουφάκης Βιβλίο Γευσιγνωσία Γευσιγνωσία Βενιζέλος Wang ΝΕΑ ΝΕΑ ΝΕΑ Σιάνγκ Λι Σιόν Λιν Νέος Joon Kwon ΠΕΡΙΕΡΓΑ ΚΟΥΡΑΝΙ Άντριου Φενγκ Άντριου Ν. Πρίστ Μπαρίς Τούρκμπεϊ Μπέντζαμιν Γκλίκσμπεργκ Μπερνάρντο Μπίζο Βοήθησε τον Κιμ Κάρλος Τόρ-Δίεζ Chia-Cheng Lee ΤΣΙΑ-ΓΟΥΝΓΚ ΧΣΟΥ Τσιν Λιν Τσιου-Λινγκ Λάι Κρίστοφερ Π. Χές Κώστας Κομπάς Ντεπεξά Μπάτια Έρικ Κ. Οέρμαν Εβάν Λέιμποβιτς Χιζάκι Σασάκι Χιτόσι Μόρι Ισαάκ Γιανγκ Jae Ho Sohn ΚΡΙΣΝΑ ΝΑΝΤ ΚΕΖΑΒΑ ΜΟΥΡΘΙ Λι Τζεν Φου Ματθαίος Ριβιέρο Φουρτάντο ντε Μενδονά Μάικ Φράλικ Μιν Κιου Κανγκ Μωάμεθ Αδελφός Νάταλι Γκανγκάι ΠΕΡΙΦΕΡΕΙΑΚΟ ΒΑΤΕΕΚΟΥ ΠΙΕΡ ΕΛΝΑΓΙΖΑΡ Σάρα Χίκμαν ΣΑΡΜΙΛΑ ΜΑΓΙΟΥΔΑΡ Σέλι Λ. ΜακΛέοντ ΣΕΡΙΔΑΝ ΡΙΔ Στέφανος Γκράφ Στέφανι Χάρμον Τατσούγια Κόνταμα Τσιτσιπάς Πυθαγόρας Τόνι Μαζούλι Βίτορ Λίμα της Εργασίας ΓΙΩΡΓΟΣ ΡΑΚΒΟΝΤΣΑΙ Γιου Ριμ Λι Γουέιν Γουέιν Φιόνα Τζ. Γκίλμπερτ ΜΟΝΑ Γ. ΦΛΟΡΕΣ Quanzheng Li ΑΠΑΣΧΟΛΗΣΗ Εδώ χρησιμοποιήσαμε δεδομένα από 20 ινστιτούτα σε όλο τον κόσμο για να εκπαιδεύσουμε ένα μοντέλο FL, που ονομάζεται EXAM (ηλεκτρονικό ιατρικό αρχείο (EMR) μοντέλο ακτίνων Χ τεχνητής νοημοσύνης), το οποίο προβλέπει τις μελλοντικές απαιτήσεις οξυγόνου των συμπτωματικών ασθενών με COVID-19 χρησιμοποιώντας εισροές ζωτικών σημείων, εργαστηριακά δεδομένα και ακτίνες Χ του στήθους. Η EXAM πέτυχε μια μέση περιοχή κάτω από την καμπύλη (AUC) >0.92 για την πρόβλεψη των αποτελεσμάτων σε 24 και 72 ώρες από το χρόνο της αρχικής παρουσίασης στο δωμάτιο έκτακτης ανάγκης και παρείχε 16% βελτίωση στη μέση AUC που Κύρια Οι επιστημονικές, ακαδημαϊκές, ιατρικές και επιστημονικές κοινότητες δεδομένων συγκεντρώθηκαν ενόψει της πανδημικής κρίσης του COVID-19 για να αξιολογήσουν γρήγορα νέα πρότυπα στην τεχνητή νοημοσύνη (AI) που είναι γρήγορα και ασφαλή και ενδεχομένως να ενθαρρύνουν την ανταλλαγή δεδομένων και την κατάρτιση μοντέλων και τις δοκιμές χωρίς τα συνηθισμένα εμπόδια της ιδιωτικής ζωής και της ιδιοκτησίας δεδομένων των συμβατικών συνεργασιών. , Οι πάροχοι υγειονομικής περίθαλψης, οι ερευνητές και η βιομηχανία έχουν στρέψει την προσοχή τους για να αντιμετωπίσουν τις ανεκπλήρωτες και κρίσιμες κλινικές ανάγκες που δημιουργήθηκαν από την κρίση, με αξιοσημείωτα αποτελέσματα. , , , , , , Η πρόσληψη κλινικών δοκιμών έχει επιταχυνθεί και διευκολυνθεί από τους εθνικούς ρυθμιστικούς φορείς και το διεθνές πνεύμα συνεργασίας , , Οι κλάδοι της ανάλυσης δεδομένων και της τεχνητής νοημοσύνης έχουν πάντα προωθήσει ανοικτές και συνεργατικές προσεγγίσεις, καλύπτοντας έννοιες όπως το λογισμικό ανοιχτού κώδικα, η αναπαραγωγική έρευνα, τα αποθετήρια δεδομένων και η διάθεση ανώνυμων συνόλων δεδομένων στο κοινό. , Η πανδημία τόνισε την ανάγκη να διεξαχθούν επειγόντως συνεργασίες δεδομένων που ενδυναμώνουν τις κλινικές και επιστημονικές κοινότητες όταν ανταποκρίνονται στις ταχέως εξελισσόμενες και διαδεδομένες παγκόσμιες προκλήσεις.Η ανταλλαγή δεδομένων έχει ηθικές, κανονιστικές και νομικές πολυπλοκότητες που υπογραμμίζονται, και ίσως κάπως περίπλοκες, από την πρόσφατη είσοδο μεγάλων εταιρειών τεχνολογίας στον κόσμο των δεδομένων υγείας. , , . 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Ένα συγκεκριμένο παράδειγμα αυτών των τύπων συνεργασίας είναι η προηγούμενη δουλειά μας σε ένα μοντέλο κλινικής υποστήριξης αποφάσεων (CDS) SARS-COV-2 βασισμένο σε AI. Αυτό το μοντέλο CDS αναπτύχθηκε στο Mass General Brigham (MGB) και επικυρώθηκε σε δεδομένα πολλαπλών συστημάτων υγείας. οι εισροές στο μοντέλο CDS ήταν εικόνες ακτίνων Χ του θώρακα (CXR), ζωτικά σημάδια, δημογραφικά δεδομένα και εργαστηριακές τιμές που αποδείχθηκαν σε προηγούμενες δημοσιεύσεις να είναι προβλέψιμες για τα αποτελέσματα των ασθενών με COVID-19 , , , Το CXR επιλέχθηκε ως εισαγωγή απεικόνισης επειδή είναι ευρέως διαθέσιμο και συνήθως υποδεικνύεται από κατευθυντήριες γραμμές όπως αυτές που παρέχονται από την ACR. Η Εταιρεία Fleischner Ο ΟΟΣΑ ΕΘΝΙΚΕΣ ΘΟΡΑΚΙΚΕΣ ΕΤΑΙΡΕΙΕΣ , Εθνικό Υπουργείο Υγείας COVID εγχειρίδια και κοινωνίες ακτινολογίας σε όλο τον κόσμο Η έκδοση του μοντέλου CDS ήταν ένα σκορ, που ονομάζεται CORISK , που αντιστοιχεί στις απαιτήσεις υποστήριξης του οξυγόνου και θα μπορούσε να βοηθήσει στην εξέταση των ασθενών από τους κλινικούς της πρώτης γραμμής , , Οι πάροχοι υγειονομικής περίθαλψης είναι γνωστό ότι προτιμούν μοντέλα που επικυρώθηκαν από τα δικά τους δεδομένα. Μέχρι σήμερα, τα περισσότερα μοντέλα τεχνητής νοημοσύνης, συμπεριλαμβανομένου του προαναφερθέντος μοντέλου CDS, έχουν εκπαιδευτεί και επικυρωθεί σε «στενά» δεδομένα που συχνά στερούνται ποικιλομορφίας. , Αυτό μπορεί να μετριαστεί με την κατάρτιση με ποικίλα δεδομένα από πολλαπλές τοποθεσίες χωρίς συγκέντρωση δεδομένων χρησιμοποιώντας μεθόδους όπως η μεταβίβαση της μάθησης , FL είναι μια μέθοδος που χρησιμοποιείται για την κατάρτιση μοντέλων τεχνητής νοημοσύνης σε διαφορετικές πηγές δεδομένων, χωρίς τα δεδομένα να μεταφέρονται ή να εκτίθενται εκτός της αρχικής τους θέσης. . 18 19 20 21 22 23 24 25 26 27 28 29 30 27 31 32 33 34 35 36 Η ομοσπονδιακή μάθηση υποστηρίζει την ταχεία έναρξη κεντρικά οργανωμένων πειραμάτων με βελτιωμένη ιχνηλασιμότητα δεδομένων και αξιολόγηση αλγοριθμικών αλλαγών και επιπτώσεων Μια προσέγγιση για το FL, που ονομάζεται client-server, στέλνει ένα «μη εκπαιδευμένο» μοντέλο σε άλλους διακομιστές (»οζίδια») που εκτελούν μερικές εργασίες κατάρτισης, με τη σειρά τους στέλνοντας τα αποτελέσματα πίσω για να συγχωνευθούν στον κεντρικό (»ομοσπονδιακό») διακομιστή. . 37 36 Η διακυβέρνηση των δεδομένων για το FL διατηρείται τοπικά, ανακουφίζοντας τις ανησυχίες για το απόρρητο, με μόνο τα βάρη μοντέλου ή τις κλίσεις να επικοινωνούν μεταξύ των τοποθεσιών του πελάτη και του ομοσπονδιακού διακομιστή , Η FL έχει ήδη δείξει υποσχέσεις σε πρόσφατες εφαρμογές ιατρικής απεικόνισης , , , Η ανάλυση του COVID-19 , , . A notable example is a mortality prediction model in patients infected with SARS-COV-2 that uses clinical features, albeit limited in terms of number of modalities and scale . 38 39 40 41 42 43 8 44 45 46 Στόχος μας ήταν να αναπτύξουμε ένα ισχυρό, γενικευμένο μοντέλο που θα μπορούσε να βοηθήσει στην εξέταση των ασθενών. Θεωρήσαμε ότι το μοντέλο CDS μπορεί να συγχωνευθεί με επιτυχία, δεδομένης της χρήσης εισροών δεδομένων που είναι σχετικά κοινές στην κλινική πρακτική και δεν βασίζονται σε μεγάλο βαθμό σε αξιολογήσεις της κατάστασης του ασθενούς που εξαρτώνται από τον χειριστή (όπως κλινικές εντυπώσεις ή αναφερθέντα συμπτώματα). Αντ 'αυτού, χρησιμοποιήθηκαν εργαστηριακά αποτελέσματα, ζωτικά σημάδια, μελέτη απεικόνισης και δημογραφική (δηλαδή ηλικία) που συλλαμβάνεται συνήθως. Επομένως, επαναπροσδιορίσαμε το μοντέλο CDS Η υπόθεσή μας ήταν ότι το EXAM θα λειτουργούσε καλύτερα από τα τοπικά μοντέλα και θα γενικευόταν καλύτερα σε όλα τα συστήματα υγειονομικής περίθαλψης. Αποτελέσματα Η αρχιτεκτονική των εξετάσεων Το μοντέλο EXAM βασίζεται στο μοντέλο CDS που αναφέρθηκε παραπάνω Συνολικά, 20 χαρακτηριστικά (19 από το EMR και ένα από το CXR) χρησιμοποιήθηκαν ως εισαγωγή στο μοντέλο. Οι ετικέτες αποτελεσμάτων (δηλαδή «γεωγραφική αλήθεια») απονεμήθηκαν με βάση τη θεραπεία του ασθενούς με οξυγόνο μετά από 24 και 72 ώρες από την αρχική εισαγωγή στο τμήμα έκτακτης ανάγκης (ED). . 27 1 Οι κατηγορίες οξυγόνου θεραπείας ήταν, αντίστοιχα, ατμοσφαιρικός αέρας (RA), χαμηλής ροής οξυγόνου (LFO), υψηλής ροής οξυγόνου (HFO)/μη επεμβατικός εξαερισμός (NIV) ή μηχανικός εξαερισμός (MV). Εάν ο ασθενής πέθανε εντός του παραθύρου πρόβλεψης, η ετικέτα αποτελεσμάτων ορίστηκε σε 1. Για τα χαρακτηριστικά EMR, χρησιμοποιήθηκαν μόνο οι πρώτες τιμές που καταγράφηκαν στο ED και η προεπεξεργασία δεδομένων περιελάμβανε την απο-ανίχνευση, την αποδοχή της έλλειψης αξίας και την ομαλοποίηση σε μηδενική μέση και μονάδα διακύμανσης. Το μοντέλο συνεπώς συγχωνεύει πληροφορίες τόσο από τα χαρακτηριστικά EMR όσο και από τα χαρακτηριστικά CXR, χρησιμοποιώντας ένα νευρικό δίκτυο 34 στρωμάτων (ResNet34) για να εξαγάγει χαρακτηριστικά από ένα CXR και ένα δίκτυο Deep & Cross για να συσχετίσει τα χαρακτηριστικά μαζί με τα χαρακτηριστικά EMR (για περισσότερες διευρυμένες λεπτομέρειες, βλ. Το αποτέλεσμα του μοντέλου είναι ένα σκορ κινδύνου, που ονομάζεται σκορ EXAM, το οποίο είναι μια συνεχής τιμή στην περιοχή 0-1 για κάθε μία από τις 24 και 72ωρες προβλέψεις που αντιστοιχούν στις ετικέτες που περιγράφονται παραπάνω. Μέθοδοι Ομοσπονδία του μοντέλου Το μοντέλο EXAM εκπαιδεύτηκε χρησιμοποιώντας μια ομάδα 16.148 περιπτώσεων, καθιστώντας το όχι μόνο μεταξύ των πρώτων μοντέλων FL για το COVID-19 αλλά και ένα πολύ μεγάλο και πολυ-ηπειρωτικό αναπτυξιακό έργο στην κλινικά σχετική AI (Σχήμα 4.1). Τα δεδομένα μεταξύ των τόπων δεν εναρμονίστηκαν πριν από την εξόρυξη και, υπό το πρίσμα των πραγματικών συνθηκών κλινικής πληροφορικής, μια λεπτομερής εναρμόνιση της εισόδου δεδομένων δεν διεξήχθη από τους συγγραφείς (Σχήμα 3). ) της 1 Α, Β 1 Γ, Δ , Παγκόσμιος χάρτης που δείχνει τις 20 διαφορετικές τοποθεσίες πελατών που συμβάλλουν στη μελέτη EXAM. , Number of cases contributed by each institution or site (client 1 represents the site contributing the largest number of cases). , Η κατανομή της έντασης ακτίνων Χ του θώρακα σε κάθε τοποθεσία του πελάτη. , Ηλικία των ασθενών σε κάθε τοποθεσία πελάτη, με ελάχιστη και μέγιστη ηλικία (αστέρες), μέση ηλικία (τριγώνια) και τυποποιημένη απόκλιση (οριζόντιες γραμμές). . a b c d 1 Συγκρίνουμε τα τοπικά εκπαιδευμένα μοντέλα με το παγκόσμιο μοντέλο FL στα δεδομένα δοκιμών κάθε πελάτη. « 1 × 10–3, δοκιμή Wilcoxon με υπογεγραμμένη βαθμολογία) 16% (όπως ορίζεται από τη μέση AUC κατά την εκτέλεση του μοντέλου σε αντίστοιχα τοπικά δοκιμαστικά σύνολα: από 0,795 έως 0,920, ή 12,5 ποσοστιαίες μονάδες) (Σχήμα. Επίσης, οδήγησε σε βελτίωση της γενικευσιμότητας κατά 38% (όπως ορίζεται από τη μέση AUC κατά την εκτέλεση του μοντέλου σε όλα τα σύνολα δοκιμών: από 0,667 έως 0,920, ή 25,3 ποσοστιαίες μονάδες) του καλύτερου παγκόσμιου μοντέλου για την πρόβλεψη της επεξεργασίας οξυγόνου 24 ωρών σε σύγκριση με τα μοντέλα που εκπαιδεύτηκαν μόνο με τα δικά τους δεδομένα (Σχήμα 4.1). Για τα αποτελέσματα πρόβλεψης της 72ωρης επεξεργασίας οξυγόνου, η καλύτερη παγκόσμια εκπαίδευση μοντέλου οδήγησε σε μέση βελτίωση των επιδόσεων κατά 18% σε σύγκριση με τα τοπικά εκπαιδευμένα μοντέλα, ενώ η γενικευσιμότητα του παγκόσμιου μοντέλου βελτιώθηκε κατά μέσο όρο κατά 34% (Εκτεταμένα Δεδομένα Σχήμα. Η σταθερότητα των αποτελεσμάτων μας επικυρώθηκε με την επανάληψη τριών κύκλων τοπικής και FL εκπαίδευσης σε διαφορετικά τυχαιοποιημένα τμήματα δεδομένων. P 2α 2β 1 , Απόδοση σε κάθε δοκιμή του πελάτη σε πρόβλεψη 24ωρης επεξεργασίας οξυγόνου για μοντέλα εκπαιδευμένα μόνο με τοπικά δεδομένα (Local) έναντι του καλύτερου παγκόσμιου μοντέλου που διατίθεται στον διακομιστή (FL (βλ. best). , Γενικευσιμότητα (μέση απόδοση στα δεδομένα δοκιμών άλλων τοποθεσιών, όπως αντιπροσωπεύεται από τη μέση AUC) ως λειτουργία του μεγέθους του συνόλου δεδομένων ενός πελάτη (μη περιπτώσεις). Η πράσινη οριζόντια γραμμή υποδηλώνει την απόδοση γενικευσιμότητας του καλύτερου παγκόσμιου μοντέλου. ) και ο πελάτης 14 είχε περιπτώσεις μόνο με θεραπεία RA, έτσι ώστε η μέτρηση αξιολόγησης (από AUC) δεν ήταν εφαρμοστέα σε καμία από αυτές τις περιπτώσεις ( Τα δεδομένα για τον πελάτη 14 εξαιρέθηκαν επίσης από τον υπολογισμό της μέσης γενικευσιμότητας στα τοπικά μοντέλα. a b 1 Μέθοδοι Τα τοπικά μοντέλα που εκπαιδεύτηκαν χρησιμοποιώντας ανισορροπημένες ομάδες (για παράδειγμα, κυρίως ήπιες περιπτώσεις του COVID-19) επωφελήθηκαν σημαντικά από την προσέγγιση FL, με σημαντική βελτίωση στην πρόβλεψη της μέσης απόδοσης AUC για τις κατηγορίες με λίγες μόνο περιπτώσεις. Αυτό ήταν εμφανές στην περιοχή του πελάτη 16 (ένα ανισορροπημένο σύνολο δεδομένων), με τους περισσότερους ασθενείς να βιώνουν ήπια σοβαρότητα της νόσου και με λίγες μόνο σοβαρές περιπτώσεις. Το μοντέλο FL πέτυχε υψηλότερο αληθινό-θετικό ποσοστό για τις δύο θετικές (σοβαρές) περιπτώσεις και σημαντικά χαμηλότερο ποσοστό ψευδώς-θετικό σε σύγκριση με το τοπικό μοντέλο, Εκτεταμένα δεδομένα Fig. Το πιο σημαντικό, η γενικευσιμότητα του μοντέλου FL αυξήθηκε σημαντικά σε σχέση με το τοπικά εκπαιδευμένο μοντέλο. 3α 2 , ROC at client site 16, with unbalanced data and mostly mild cases. , ROC of the local model at client site 12 (a small dataset), mean ROC of models trained on larger datasets corresponding to the five client sites in the Boston area (1, 4, 5, 6, 8) and ROC of the best global model in prediction of 72-h oxygen treatment for different thresholds of EXAM score (left, middle, right). The mean ROC is calculated based on five locally trained models while the gray area denotes the ROC standard deviation. ROCs for three different cutoff values ( Pos και neg υποδεικνύουν τον αριθμό των θετικών και αρνητικών περιπτώσεων, αντίστοιχα, όπως ορίζεται από αυτό το εύρος των βαθμών EXAM. a b t In the case of client sites with relatively small datasets, the best FL model markedly outperformed not only the local model but also those trained on larger datasets from five client sites in the Boston area of the USA (Fig. ). 3b The global model performed well in predicting oxygen needs at 24/72 h in patients both COVID positive and negative (Extended Data Fig. ). 3 Validation at independent sites Following initial training, EXAM was subsequently tested at three independent validation sites: Cooley Dickinson Hospital (CDH), Martha’s Vineyard Hospital (MVH) and Nantucket Cottage Hospital (NCH), all in Massachusetts, USA. The model was not retrained at these sites and it was used only for validation purposes. The cohort size and model inference results are summarized in Table , and the ROC curves and confusion matrices for the largest dataset (from CDH) are shown in Fig. . The operating point was set to discriminate between nonmechanical ventilation and mechanical ventilation (MV) treatment (or death). The FL global trained model, EXAM, achieved an average AUC of 0.944 and 0.924 for 24- and 72-h prediction tasks, respectively (Table ), which exceeded the average performance among sites used in training EXAM. For prediction of MV treatment (or death) at 24 h, EXAM achieved a sensitivity of 0.950 and specificity of 0.882 at CDH, and a sensitivity of 1.000 specificity of 0.934 at MVH. NCH did not have any cases with MV/death at 24 h. In regard to 72-h MV prediction, EXAM achieved a sensitivity of 0.929 and specificity of 0.880 at CDH, sensitivity of 1.000 and specificity of 0.976 at MVH and sensitivity of 1.000 and specificity of 0.929 at NCH. 2 4 2 , , Performance (ROC) (top) και confusion matrices (bottom) του μοντέλου EXAM FL στο σύνολο δεδομένων CDH για την πρόβλεψη της ζήτησης οξυγόνου σε 24 ώρες ( ) και 72 ώρες ( ). ROCs για τρεις διαφορετικές τιμές κοπής ( ) of the EXAM risk score are shown. a b a b t For MV at CDH at 72 h, EXAM had a low false-negative rate of 7.1%. Representative failure cases are presented in Extended Data Fig. , showing two false-negative cases from CDH where one case had many missing EMR data features and the other had a CXR with a motion artifact and some missing EMR features. 4 Use of differential privacy Ένα κύριο κίνητρο για τα ιδρύματα υγειονομικής περίθαλψης να χρησιμοποιούν FL είναι η διατήρηση της ασφάλειας και της ιδιωτικότητας των δεδομένων τους, καθώς και η τήρηση μέτρων συμμόρφωσης δεδομένων. ή ακόμα και την ανοικοδόμηση των εκπαιδευτικών εικόνων από τους ίδιους τους βαθμούς του μοντέλου . To counter these risks, security-enhancing measures were used to mitigate risk in the event of data ‘interception’ during site-server communication . We experimented with techniques to avoid interception of FL data, and added a security feature that we believe could encourage more institutions to use FL. We thus validated previous findings showing that partial weight sharing, and other differential privacy techniques, can successfully be applied in FL . Through investigation of a partial weight-sharing scheme , , , δείξαμε ότι τα μοντέλα μπορούν να επιτύχουν συγκρίσιμη απόδοση ακόμη και όταν μοιράζονται μόνο το 25% των ενημερώσεων βάρους (Εκτεταμένα Δεδομένα Σχήμα. ). 47 48 49 50 50 51 52 5 συζήτηση This study features a large, real-world healthcare FL study in terms of number of sites and number of data points used. We believe that it provides a powerful proof-of-concept of the feasibility of using FL for fast and collaborative development of needed AI models in healthcare. Our study involved multiple sites across four continents and under the oversight of different regulatory bodies, and thus holds the promise of being provided to different regulated markets in an expedited way. The global FL model, EXAM, proved to be more robust and achieved better results at individual sites than any model trained on only local data. We believe that consistent improvement was achieved owing to a larger, but also a more diverse, dataset, the use of data inputs that can be standardized and avoidance of clinical impressions/reported symptoms. These factors played an important part in increasing the benefits from this FL approach and its impact on performance, generalizability and, ultimately, the model’s usability. For a client site with a relatively small dataset, two typical approaches could be used for fitting a useful model: one is to train locally with its own data, the other is to apply a model trained on a larger dataset. For sites with small datasets, it would have been virtually impossible to build a performant deep learning model using only their local data. The finding, that these two approaches were outperformed on all three prediction tasks by the global FL model, indicates that the benefit for client sites with small datasets arising from participation in FL collaborations is substantial. This is probaby a reflection of FL’s ability to capture more diversity than local training, and to mitigate the bias present in models trained on a homogenous population. An under-represented population or age group in one hospital/region might be highly represented in another region—such as children who might be differentially affected by COVID-19, including disease manifestations in lung imaging . 46 The validation results confirmed that the global model is robust, supporting our hypothesis that FL-trained models are generalizable across healthcare systems. They provide a compelling case for the use of predictive algorithms in COVID-19 patient care, and the use of FL in model creation and testing. By participating in this study the client sites received access to EXAM, to be further validated ahead of pursuing any regulatory approval or future introduction into clinical care. Plans are under way to validate EXAM prospectively in ‘production’ settings at MGB leveraging COVID-19 targeted resources , as well as at different sites that were not a part of the EXAM training. 53 Over 200 prediction models to support decision-making in patients with COVID-19 have been published . Unlike the majority of publications focused on diagnosis of COVID-19 or prediction of mortality, we predicted oxygen requirements that have implications for patient management. We also used cases with unknown SARS-COV-2 status, and so the model could provide input to the physician ahead of receiving a result for PCR with reverse transcription (RT–PCR), making it useful for a real-life clinical setting. The model’s imaging input is used in common practice, in contrast with models that use chest computed tomography, a nonconsensual diagnostic modality. The model’s design was constrained to objective predictors, unlike many published studies that leveraged subjective clinical impressions. The data collected reflect varied incidence rates, and thus the ‘population momentum’ we encountered is more diverse. This implies that the algorithm can be useful in populations with different incidence rates. 19 Patient cohort identification and data harmonization are not novel issues in research and data science Οι βελτιώσεις στα κλινικά πληροφοριακά συστήματα είναι απαραίτητες για να εξορθολογιστεί η προετοιμασία των δεδομένων, οδηγώντας σε καλύτερη αξιοποίηση ενός δικτύου τοποθεσιών που συμμετέχουν στο FL. Αυτό, σε συνδυασμό με την μηχανική υπερπαραμέτρων, μπορεί να επιτρέψει στους αλγόριθμους να «μαθαίνουν» πιο αποτελεσματικά από μεγαλύτερες παρτίδες δεδομένων και να προσαρμόζουν τις παραμέτρους μοντέλου σε ένα συγκεκριμένο site για περαιτέρω εξατομίκευση - για παράδειγμα, μέσω περαιτέρω λεπτομερούς προσαρμογής σε αυτόν τον ιστότοπο. Ένα σύστημα που θα επέτρεπε την απρόσκοπτη, κοντινή σε πραγματικό χρόνο συμπερίληψη μοντέλων και επεξεργασία αποτελεσμάτων θα ήταν επίσης επωφελές και θα «κλείσει τον κύκλο» από την εκπαίδευση στην ανάπτυξη μοντέλων. 54 39 Because data were not centralized they are not readily accessible. Given that, any future analysis of the results, beyond what was derived and collected, is limited. Similar to other machine learning models, EXAM is limited by the quality of the training data. Institutions interested in deploying this algorithm for clinical care need to understand potential biases in the training. For example, the labels used as ground truth in the training of the EXAM model were derived from 24- and 72-h oxygen consumption in the patient; it is assumed that oxygen delivered to the patient equates the oxygen need. However, in the early phase of the COVID-19 pandemic, many patients were provided high-flow oxygen prophylactically regardless of their oxygen need. Such clinical practice could skew the predictions made by this model. Since our data access was limited, we did not have sufficient available information for the generation of detailed statistics regarding failure causes, post hoc, at most sites. However, we did study failure cases from the largest independent test site, CDH, and were able to generate hypotheses that we can test in the future. For high-performing sites, it seems that most failure cases fall into one of two categories: (1) low quality of input data—for example, missing data or motion artifact in CXR; or (2) out-of-distribution data—for example a very young patient. Στο μέλλον, σκοπεύουμε επίσης να διερευνήσουμε το ενδεχόμενο μιας «εκτροπής πληθυσμού» λόγω των διαφορετικών φάσεων της εξέλιξης της νόσου. A feature that would enhance these kinds of large-scale collaboration is the ability to predict the contribution of each client site towards improving the global FL model. This will help in client site selection, and in prioritization of data acquisition and annotation efforts. The latter is especially important given the high costs and difficult logistics of these large-consortia endeavors, and it will enable these endeavors to capture diversity rather than the sheer quantity of data samples. Οι μελλοντικές προσεγγίσεις ενδέχεται να ενσωματώσουν αυτοματοποιημένη αναζήτηση υπερπαραμετρών , neural architecture search και άλλα αυτοματοποιημένα μηχανήματα μάθησης προσεγγίσεις για να βρείτε τις βέλτιστες παραμέτρους κατάρτισης για κάθε τοποθεσία πελάτη πιο αποτελεσματικά. 55 56 57 Known issues of batch normalization (BN) in FL motivated us to fix our base model for image feature extraction to reduce the divergence between unbalanced client sites. Future work might explore different types of normalization techniques to allow the training of AI models in FL more effectively when client data are nonindependent and identically distributed. 58 49 Recent works on privacy attacks within the FL setting have raised concerns on data leakage during model training . Meanwhile, protection algorithms remain underexplored and constrained by multiple factors. While differential privacy algorithms , , show good protection, they may weaken the model’s performance. Encryption algorithms, such as homomorphic encryption , maintain performance but may substantially increase message size and training time. A quantifiable way to measure privacy would allow better choices for deciding the minimal privacy parameters necessary while maintaining clinically acceptable performance , , . 59 36 48 49 60 36 48 49 Μετά από περαιτέρω επικύρωση, προβλέπουμε την ανάπτυξη του μοντέλου EXAM στη ρύθμιση ED ως τρόπου αξιολόγησης του κινδύνου τόσο σε επίπεδο ασθενούς όσο και σε επίπεδο πληθυσμού και για να παρέχουμε στους κλινικούς γιατρούς ένα πρόσθετο σημείο αναφοράς κατά την εκτέλεση του συχνά δύσκολου καθήκοντος της εξέτασης των ασθενών. Methods Ηθική έγκριση All procedures were conducted in accordance with the principles for human experimentation as defined in the Declaration of Helsinki and International Conference on Harmonization Good Clinical Practice guidelines, and were approved by the relevant institutional review boards at the following validation sites: CDH, MVH, NCH and at the following training sites: MGB, Mass General Hospital (MGH), Brigham and Women’s Hospital, Newton-Wellesley Hospital, North Shore Medical Center and Faulkner Hospital (all eight of these hospitals were covered under MGB’s ethics board reference, no. 2020P002673, and informed consent was waived by the instititional review board (IRB). Similarly, participation of the remaining sites was approved by their respective relevant institutional review processes: Children’s National Hospital in Washington, DC (no. 00014310, IRB certified exempt); NIHR Cambridge Biomedical Research Centre (no. 20/SW/0140, informed consent waived); The Self-Defense Forces Central Hospital in Tokyo (no. 02-014, informed consent waived); National Taiwan University MeDA Lab and MAHC and Taiwan National Health Insurance Administration (no. 202108026 W, informed consent waived); Tri-Service General Hospital in Taiwan (no. B202105136, informed consent waived); Kyungpook National University Hospital in South Korea (no. KNUH 2020-05-022, informed consent waived); Faculty of Medicine, Chulalongkorn University in Thailand (nos. 490/63, 291/63, informed consent waived); Diagnosticos da America SA in Brazil (no. 26118819.3.0000.5505, informed consent waived); University of California, San Francisco (no. 20-30447, informed consent waived); VA San Diego (no. H200086, IRB certified exempt); University of Toronto (no. 20-0162-C, informed consent waived); National Institutes of Health in Bethesda, Maryland (no. 12-CC-0075, informed consent waived); University of Wisconsin-Madison School of Medicine and Public Health (no. 2016-0418, informed consent waived); Memorial Sloan Kettering Cancer Center in New York (no. 20-194, informed consent waived); and Mount Sinai Health System in New York (no. IRB-20-03271, informed consent waived). MI-CLAIM guidelines for reporting of clinical AI models were followed (Supplementary Note ) 2 Study setting The study included data from 20 institutions (Fig. ): MGB, MGH, Brigham and Women's Hospital, Newton-Wellesley Hospital, North Shore Medical Center και Faulkner Hospital· Εθνικό Νοσοκομείο Παιδιών στην Ουάσιγκτον, DC· NIHR Cambridge Βιοϊατρικό Ερευνητικό Κέντρο· Το Κεντρικό Νοσοκομείο Αυτοάμυνας Δυνάμεων στο Τόκιο· Εθνικό Πανεπιστήμιο της Ταϊβάν MeDA Lab και MAHC και την Ταϊβάν Εθνική Υγειονομική Ασφάλιση Διοίκηση· Tri-Service Γενικό Νοσοκομείο στην Ταϊβάν· Kyungpook Εθνικό Πανεπιστήμιο Νοσοκομείο στη Νότια Κορέα· Σχολή Ιατρικής, Chulalongkorn Πανεπιστήμιο στην Ταϊλάνδη; Diagnosticos da America SA στη Βραζ , , Τα δεδομένα από τρεις ανεξάρτητες τοποθεσίες χρησιμοποιήθηκαν για ανεξάρτητη επικύρωση: CDH, MVH και NCH, όλα στη Μασαχουσέτη, ΗΠΑ. Αυτά τα τρία νοσοκομεία είχαν χαρακτηριστικά πληθυσμού ασθενών διαφορετικά από τα εκπαιδευτικά σημεία. τα δεδομένα που χρησιμοποιήθηκαν για την επικύρωση αλγορίθμου αποτελούνταν από ασθενείς που εισήχθησαν στην ED σε αυτές τις τοποθεσίες μεταξύ Μαρτίου 2020 και Φεβρουαρίου 2021, και που ικανοποιούσαν τα ίδια κριτήρια ένταξης με τα δεδομένα που χρησιμοποιήθηκαν για την εκπαίδευση του μοντέλου FL. 1α 61 62 63 Data collection The 20 client sites prepared a total of 16,148 cases (both positive and negative) for the purposes of training, validation and testing of the model (Fig. ). Medical data were accessed in relation to patients who satisfied the study inclusion criteria. Client sites strived to include all COVID-positive cases from the beginning of the pandemic in December 2019 and up to the time they started local training for the EXAM study. All local training had started by 30 September 2020. The sites also included other patients in the same period with negative RT–PCR test results. Since most of the sites had more SARS-COV-2-negative than -positive patients, we limited the number of negative patients included to, at most, 95% of the total cases at each client site. 1b A ‘case’ included a CXR and the requisite data inputs taken from the patient’s medical record. A breakdown of the cohort size of the dataset for each client site is shown in Fig. Η κατανομή και τα μοτίβα της έντασης της εικόνας CXR (τιμές εικονοστοιχείων) ποικίλλουν σημαντικά μεταξύ των τοποθεσιών λόγω μιας πληθώρας παραγόντων που σχετίζονται με τον ασθενή και τον χώρο, όπως οι διαφορετικοί κατασκευαστές συσκευών και τα πρωτόκολλα απεικόνισης, όπως φαίνεται στο σχήμα. . Patient age and EMR feature distribution varied greatly among sites, as expected owing to the differing demographics between globally distributed hospitals (Extended Data Fig. ). 1b 1c,d 6 Patient inclusion criteria Patient inclusion criteria were: (1) patient presented to the hospital’s ED or equivalent; (2) patient had a RT–PCR test performed at any time between presentation to the ED and discharge from the hospital; (3) patient had a CXR in the ED; and (4) patient’s record had at least five of the EMR values detailed in Table Το CXR, τα εργαστηριακά αποτελέσματα και τα ζωτικά στοιχεία που χρησιμοποιήθηκαν ήταν τα πρώτα διαθέσιμα για σύλληψη κατά την επίσκεψη στο ED. Το μοντέλο δεν ενσωμάτωσε κανένα CXR, εργαστηριακά αποτελέσματα ή ζωτικά στοιχεία που αποκτήθηκαν μετά την αναχώρηση από το ED. 1 Model input In total, 21 EMR features were used as input to the model. The outcome (that is, ground truth) labels were assigned based on patient requirements after 24- and 72-h periods from initial admission to the ED. A detailed list of the requested EMR features and outcomes can be seen in Table . 1 Η κατανομή της επεξεργασίας οξυγόνου χρησιμοποιώντας διαφορετικές συσκευές σε διαφορετικές τοποθεσίες πελατών εμφανίζεται στο Επεκτεταμένο σχήμα δεδομένων. , which details the device usage at admission to the ED and after 24- and 72-h periods. The difference in dataset distribution between the largest and smallest client sites can be seen in Extended Data Fig. . 7 8 The number of positive COVID-19 cases, as confirmed by a single RT–PCR test obtained at any time between presentation to the ED and discharge from the hospital, is listed in Supplementary Table Κάθε τοποθεσία πελάτη κλήθηκε να διαιρέσει τυχαία το σύνολο δεδομένων του σε τρία μέρη: 70% για εκπαίδευση, 10% για επικύρωση και 20% για δοκιμές. 1 εξέταση μοντέλου ανάπτυξης There is wide variation in the clinical course of patients who present to hospital with symptoms of COVID-19, with some experiencing rapid deterioration in respiratory function requiring different interventions to prevent or mitigate hypoxemia , Μια κρίσιμη απόφαση που λαμβάνεται κατά την αξιολόγηση ενός ασθενούς στο σημείο εκκίνησης της περίθαλψης, ή στην ΕΔ, είναι αν ο ασθενής είναι πιθανό να χρειαστεί πιο επεμβατικά ή περιορισμένα σε πόρους αντενδείξεις ή παρεμβάσεις (όπως ΜΒ ή μονοκλωνικά αντισώματα) και, ως εκ τούτου, θα πρέπει να λάβει μια σπάνια αλλά αποτελεσματική θεραπεία, μια θεραπεία με στενό λόγο κινδύνου-οφέλους λόγω παρενεργειών ή ένα υψηλότερο επίπεδο φροντίδας, όπως η εισαγωγή στην μονάδα εντατικής θεραπείας. Αντίθετα, ένας ασθενής που διατρέχει χαμηλότερο κίνδυνο να χρειαστεί επεμβατική θεραπεία οξυγόνου μπορεί να τοποθετηθεί σε ένα περιβάλλον λιγότερο εντατικής φροντίδας, όπως ένα κανονικό τμήμα, ή ακόμα και να απελευθερωθεί από την ΕΔ για συνεχή αυτοπαρακολούθηση στο σπίτι. Η εξέταση αναπτύχθηκε για να βοηθήσει στην ανίχνευση τέτοιων ασθενών. 62 63 64 65 Of note, the model is not approved by any regulatory agency at this time and it should be used only for research purposes. Εξετάσεις Σκορ Η ΕΞΕΤΑΣΗ εκπαιδεύτηκε χρησιμοποιώντας το FL, παράγει ένα σκορ κινδύνου (που ονομάζεται σκορ ΕΞΕΤΑΣΗΣ) παρόμοιο με το CORISK (Extended Data Fig. ) and can be used in the same way to triage patients. It corresponds to a patient’s oxygen support requirements within two windows—24 and 72 h—after initial presentation to the ED. Extended Data Fig. απεικονίζει πώς το CORISK και η βαθμολογία ΕΞΕΤΑΣΗΣ μπορούν να χρησιμοποιηθούν για την ταξινόμηση των ασθενών. 27 9a 9b Chest X-ray images were preprocessed to select the anterior position image and exclude lateral view images, and then scaled to a resolution of 224 × 224. As shown in Extended Data Fig. , the model fuses information from both EMR and CXR features (based on a modified ResNet34 with spatial attention προετοιμασμένο στο σύνολο δεδομένων CheXpert) and the Deep & Cross network . To converge these different data types, a 512-dimensional feature vector was extracted from each CXR image using a pretrained ResNet34, with spatial attention, then concatenated with the EMR features as the input for the Deep & Cross network. The final output was a continuous value in the range 0–1 for both 24- and 72-h predictions, corresponding to the labels described above, as shown in Extended Data Fig. . We used cross-entropy as the loss function and ‘Adam’ as the optimizer. The model was implemented in Tensorflow using the NVIDIA Clara Train SDK . The average AUC for the classification tasks (≥LFO, ≥HFO/NIV or ≥MV) was calculated and used as the final evaluation metric, with normalization to zero-mean and unit variance. CXR images were preprocessed to select the correct series and exclude lateral view images, then scaled to a resolution of 224 × 224 (ref. ). 9a 66 67 68 9b 69 70 27 Feature imputation and normalization Ένας αλγόριθμος was used to impute EMR features, based on the local training dataset. If an EMR feature was completely missing from a client site dataset, the mean value of that feature, calculated exclusively on data from MGB client sites, was used. Then, EMR features were rescaled to zero-mean and unit variance based on statistics calculated on data from the MGB client sites. 71 Details of EMR–CXR data fusion using the Deep & Cross network Για να μοντελοποιηθεί η αλληλεπίδραση των χαρακτηριστικών από τα δεδομένα EMR και CXR σε επίπεδο περιπτώσεων, χρησιμοποιήθηκε ένα σχήμα βαθιάς λειτουργίας με βάση μια αρχιτεκτονική δικτύου Deep & Cross. Τα δυαδικά και κατηγοριοποιημένα χαρακτηριστικά για τις εισροές EMR, καθώς και τα χαρακτηριστικά εικόνας 512-διάστατων στο CXR, μετατράπηκαν σε συγχωνευμένα πυκνά φορείς πραγματικών αξιών με την ενσωμάτωση και τη συσσώρευση στρωμάτων. Τα μετασχηματισμένα πυκνά φορείς χρησίμευαν ως εισροές στο πλαίσιο συγχώνευσης, το οποίο χρησιμοποιούσε ειδικά ένα δίκτυο διασταύρωσης για να επιβάλει τη συγχώνευση μεταξύ των εισροών από διαφορετικές πηγές. Το δίκτυο διασταύρωσης πραγματοποίησε ρητή διασταύρωση χαρακτηριστικών εντός των στρωμάτων του, διεξάγοντας εσωτερικά προϊόντα μεταξύ της αρχικής λειτουργίας εισόδου και της εξόδου από το προηγούμενο στρώμα, αυξάνοντας έτσι 68 FL Λεπτομέρειες Αναμφισβήτητα η πιο καθιερωμένη μορφή της FL είναι η εφαρμογή του αλγόριθμου της ομοσπονδιακής μέσης όπως προτείνεται από τον McMahan et al. , or variations thereof. This algorithm can be realized using a client-server setup where each participating site acts as a client. One can think of FL as a method aiming to minimize a global loss function by reducing a set of local loss functions, which are estimated at each site. By minimizing each client site’s local loss while also synchronizing the learned client site weights on a centralized aggregation server, one can minimize global loss without needing to access the entire dataset in a centralized location. Each client site learns locally, and shares model weight updates with a central server that aggregates contributions using secure sockets layer encryption and communication protocols. The server then sends an updated set of weights to each client site after aggregation, and sites resume training locally. The server and client site iterate back and forth until the model converges (Extended Data Fig. ). 72 9c A pseudoalgorithm of FL is shown in Supplementary Note Στα πειράματά μας, ορίσαμε τον αριθμό των ομοσπονδιακών γύρων σε = 200, με μία τοπική περίοδο εκπαίδευσης ανά γύρο Σε κάθε πελάτη, ο αριθμός των πελατών , ήταν έως 20 ανάλογα με τη συνδεσιμότητα δικτύου των πελατών ή τα διαθέσιμα δεδομένα για μια συγκεκριμένη χρονική περίοδο στοχευμένων αποτελεσμάτων (24 ή 72 ώρες). , εξαρτάται από το μέγεθος των δεδομένων σε κάθε πελάτη και χρησιμοποιείται για να ζυγίζει τις συνεισφορές κάθε πελάτη όταν συγκεντρώνει τα βάρη του μοντέλου σε ομοσπονδιακούς μέσους όρους. Κατά τη διάρκεια της εργασίας κατάρτισης FL, κάθε τοποθεσία πελάτη επιλέγει το καλύτερο τοπικό μοντέλο του, παρακολουθώντας την απόδοση του μοντέλου στο τοπικό σύνολο επικύρωσης. Την ίδια στιγμή, ο διακομιστής καθορίζει το καλύτερο παγκόσμιο μοντέλο με βάση τις μέσες βαθμολογίες επικύρωσης που αποστέλλονται από κάθε τοποθεσία πελάτη στον διακομιστή μετά από κάθε γύρο κατάρτισης FL. Μετά την ολοκλήρωση της κατάρτισης FL, τα καλύτερα τοπικά μοντέλα και το καλύτερο παγκόσμιο μοντέλο μοιράζονται αυτόματα με όλους τους ιστότοπους πελα 1 T t K ΝΚ k Ο βελτιστοποιητής Adam χρησιμοποιήθηκε τόσο για την τοπική εκπαίδευση όσο και για την FL με αρχικό ρυθμό μάθησης 5 × 10-5 και σταδιακή αποσύνθεση του ρυθμού μάθησης με παράγοντα 0,5 μετά από κάθε 40 εποχές, γεγονός που είναι σημαντικό για τη σύγκλιση των ομοσπονδιακών μέσων. . Random affine transformations, including rotation, translations, shear, scaling and random intensity noise and shifts, were applied to the images for data augmentation during training. 73 Owing to the sensitivity of BN layers when dealing with different clients in a nonindependent and identically distributed setting, we found the best model performance occurred when keeping the pretrained ResNet34 with spatial attention parameters fixed during FL training (that is, using a learning rate of zero for those layers). The Deep & Cross network that combines image features with EMR features does not contain BN layers and hence was not affected by BN instability issues. 58 47 In this study we investigated a privacy-preserving scheme that shares only partial model updates between server and client sites. The weight updates were ranked during each iteration by magnitude of contribution, and only a certain percentage of the largest weight updates was shared with the server. To be exact, weight updates (also known as gradients) were shared only if their absolute value was above a certain percentile threshold, (t) (Extended Data Fig. ), which was computed from all non-zero gradients, Δ , and could be different for each client Σε κάθε γύρο . Variations of this scheme could include additional clipping of large gradients or differential privacy schemes that add random noise to the gradients, or even to the raw data, before feeding into the network . k 5 Wk(t) k t 49 51 Στατιστική ανάλυση Διεξήγαμε μια δοκιμή κατάταξης υπογραφής Wilcoxon για να επιβεβαιώσουμε τη σημασία της παρατηρούμενης βελτίωσης των επιδόσεων μεταξύ του τοπικά εκπαιδευμένου μοντέλου και του μοντέλου FL για τα χρονικά σημεία 24 και 72 ωρών (Σχήμα 7). and Extended Data Fig. Η μηδενική υπόθεση απορρίφθηκε μονομερώς. « 1 × 10–3 in both cases. 2 1 P Pearson’s correlation was used to assess the generalizability (robustness of the average AUC value to other client sites’ test data) of locally trained models in relation to respective local dataset size. Only a moderate correlation was observed ( = 0.43, = 0,035, βαθμοί ελευθερίας (df) = 17 για το μοντέλο 24 ωρών και = 0.62, = 0.003, df = 16 for the 72-h model). This indicates that dataset size alone is not the only factor determining a model’s robustness to unseen data. r P r P To compare ROC curves from the global FL model and local models trained at different sites (Extended Data Fig. ), ξεκινήσαμε 1.000 δείγματα από τα δεδομένα και υπολογίσαμε τα προκύπτοντα AUC. = (AUC1 – AUC2)/ , where is the standardized difference, είναι η τυπική απόκλιση των διαφορών bootstrap και η AUC1 και η AUC2 είναι οι αντίστοιχες σειρές AUC bootstrapped. with normal distribution, we obtained the values illustrated in Supplementary Table Τα αποτελέσματα δείχνουν ότι η μηδενική υπόθεση απορρίφθηκε με πολύ χαμηλή values, indicating the statistical significance of the superiority of FL outcomes. The computation of values was conducted in R with the pROC library . 3 D s D s D P 2 P P 74 Δεδομένου ότι το μοντέλο προβλέπει ένα διακριτό αποτέλεσμα, μια συνεχής βαθμολογία από 0 έως 1, μια απλή αξιολόγηση βαθμονόμησης όπως ένα qqplot δεν είναι δυνατή. ). We conducted one-way analysis of variation (ANOVA) tests to compare local and FL model scores among four ground truth categories (RA, LFO, HFO, MV). The -statistic, calculated as the variation between the sample means divided by variation within the samples and representing the degree of dispersion among different groups, was used to quantify the models. Our results show that the -values of five different local sites are 245.7, 253.4, 342.3, 389.8 and 634.8, while that of the FL model is 843.5. Given that larger -values mean that groups are more separable, the scores from our FL model clearly show a greater dispersion among the four ground truth categories. Furthermore, the value of the ANOVA test on the FL model is <2 × 10–16, indicating that the FL prediction scores are statistically significantly different among the different prediction classes. 10 F F F P Συνοπτική αναφορά Περισσότερες πληροφορίες σχετικά με το σχεδιασμό της έρευνας είναι διαθέσιμες στο συνδέεται με αυτό το άρθρο. Επισκόπηση της έρευνας για τη φύση Data availability Το σύνολο δεδομένων από τα 20 ινστιτούτα που συμμετείχαν σε αυτή τη μελέτη παραμένει υπό τη φροντίδα τους. Αυτά τα δεδομένα χρησιμοποιήθηκαν για εκπαίδευση σε κάθε μία από τις τοπικές τοποθεσίες και δεν μοιράστηκαν με κανένα από τα άλλα συμμετέχοντα ιδρύματα ή με τον ομοσπονδιακό διακομιστή και δεν είναι διαθέσιμα στο κοινό. Τα δεδομένα από τις ανεξάρτητες τοποθεσίες επικύρωσης διατηρούνται από την CAMCA και η πρόσβαση μπορεί να ζητηθεί επικοινωνώντας με την Q.L. Με βάση τον προσδιορισμό της CAMCA, μια ανασκόπηση και τροποποίηση της ανταλλαγής δεδομένων της IRB για ερευνητικούς σκοπούς μπορεί να διεξαχθεί από την ερευνητική διοίκηση της MGB και σύμφωνα με την MGB IRB και την πολιτική. Διαθεσιμότητα κώδικα All code and software used in this study are publicly available at NGC. To access, log in as a guest or create a profile then enter one of the URLs below. The trained models, data preparation guidelines, code for training, validating testing of the model, readme file, installation guideline and license files are publicly available at NVIDIA NGC : : The federated learning software is available as part of the Clara Train SDK: . Alternatively, use this command to download the model “wget --content-disposition -O clara_train_covid19_exam_ehr_xray_1.zip”. 61 https://ngc.nvidia.com/catalog/models/nvidia:med:clara_train_covid19_exam_ehr_xray https://ngc.nvidia.com/catalog/containers/nvidia:clara-train-sdk https://api.ngc.nvidia.com/v2/models/nvidia/med/clara_train_covid19_exam_ehr_xray/versions/1/zip Αναφορές Budd, J. et al. Digital technologies in the public-health response to COVID-19. , 1183–1192 (2020). Nat. Med. 26 Moorthy, V., Henao Restrepo, A. M., Preziosi, M.-P. & Swaminathan, S. Data sharing for novel coronavirus (COVID-19). , 150 (2020). Bull. World Health Organ. 98 Chen, Q., Allot, A. & Lu, Z. Keep up with the latest coronavirus research. , 193 (2020). Nature 579 Fabbri, F., Bhatia, A., Mayer, A., Schlotter, B. & Kaiser, J. BCG IT spend pulse: how COVID-19 is shifting tech priorities. (2020). https://www.bcg.com/publications/2020/how-covid-19-is-shifting-big-it-spend Candelon, F., Reichert, T., Duranton, S., di Carlo, R. C. & De Bondt, M. The rise of the AI-powered company in the postcrisis world. (2020). https://www.bcg.com/en-gb/publications/2020/business-applications-artificial-intelligence-post-covid Chao, H. et al. Integrative analysis for COVID-19 patient outcome prediction. , 101844 (2021). Med. Image Anal. 67 Zhu, X. et al. Joint prediction and time estimation of COVID-19 developing severe symptoms using chest CT scan. , 101824 (2021). Med. Image Anal. 67 Yang, D. et al. Federated semi-supervised learning for Covid region segmentation in chest ct using multi-national data from China, Italy, Japan. , 101992 (2021). Med. Image Anal. 70 Minaee, S., Kafieh, R., Sonka, M., Yazdani, S. & Jamalipour Soufi, G. Deep-COVID: predicting COVID-19 from chest X-ray images using deep transfer learning. , 101794 (2020). Med. Image Anal. 65 COVID-19 Studies from the World Health Organization Database. (2020). https://clinicaltrials.gov/ct2/who_table ACTIV. (2020). https://www.nih.gov/research-training/medical-research-initiatives/activ Coronavirus Treatment Acceleration Program (CTAP). US Food and Drug Administration (2020). https://www.fda.gov/drugs/coronavirus-covid-19-drugs/coronavirus-treatment-acceleration-program-ctap Gleeson, P., Davison, A. P., Silver, R. A. & Ascoli, G. A. A commitment to open source in neuroscience. , 964–965 (2017). Neuron 96 Piwowar, H. et al. The state of OA: a large-scale analysis of the prevalence and impact of open access articles. , e4375 (2018). PeerJ. 6 European Society of Radiology (ESR). What the radiologist should know about artificial intelligence – an ESR white paper. , 44 (2019). Insights Imaging 10 Pesapane, F., Codari, M. & Sardanelli, F. Artificial intelligence in medical imaging: threat or opportunity? Radiologists again at the forefront of innovation in medicine. , 35 (2018). Eur. Radiol. Exp. 2 Price, W. N. 2nd & Cohen, I. G. Privacy in the age of medical big data. , 37–43 (2019). Nat. Med. 25 Liang, W. et al. Development and validation of a clinical risk score to predict the occurrence of critical illness in hospitalized patients with COVID-19. , 1081–1089 (2020). JAMA Intern. Med. 180 Wynants, L. et al. Prediction models for diagnosis and prognosis of covid-19 infection: systematic review and critical appraisal. , m1328 (2020). Brit. Med. J. 369 Zhang, L. et al. D-dimer levels on admission to predict in-hospital mortality in patients with Covid-19. , 1324–1329 (2020). J. Thromb. Haemost. 18 Sands, K. E. et al. Patient characteristics and admitting vital signs associated with coronavirus disease 2019 (COVID-19)-related mortality among patients admitted with noncritical illness. (2020). https://doi.org/10.1017/ice.2020.461 American College of Radiology. CR recommendations for the use of chest radiography and computed tomography (CT) for suspected COVID-19 infection. (2020). https://www.acr.org/Advocacy-and-Economics/ACR-Position-Statements/Recommendations-for-Chest-Radiography-and-CT-for-Suspected-COVID19-Infection Rubin, G. D. et al. The role of chest imaging in patient management during the COVID-19 pandemic: a multinational consensus statement from the Fleischner Society. , 172–180 (2020). Radiology 296 World Health Organization. Use of chest imaging in COVID-19. (2020). https://www.who.int/publications/i/item/use-of-chest-imaging-in-covid-19 Jamil, S. et al. Diagnosis and management of COVID-19 disease. , 10 (2020). Am. J. Respir. Crit. Care Med. 201 Redmond, C. E., Nicolaou, S., Berger, F. H., Sheikh, A. M. & Patlas, M. N. Emergency radiology during the COVID-19 pandemic: The Canadian Association of Radiologists Recommendations for Practice. , 425–430 (2020). Can. Assoc. Radiologists J. 71 Buch, V. et al. Development and validation of a deep learning model for prediction of severe outcomes in suspected COVID-19 Infection. Preprint at (2021). https://arxiv.org/abs/2103.11269 Lyons, C. & Callaghan, M. The use of high-flow nasal oxygen in COVID-19. , 843–847 (2020). Anaesthesia 75 Whittle, J. S., Pavlov, I., Sacchetti, A. D., Atwood, C. & Rosenberg, M. S. Respiratory support for adult patients with COVID-19. , 95–101 (2020). J. Am. Coll. Emerg. Physicians Open 1 Ai, J., Li, Y., Zhou, X. & Zhang, W. COVID-19: treating and managing severe cases. , 370–371 (2020). Cell Res. 30 Esteva, A. et al. A guide to deep learning in healthcare. , 24–29 (2019). Nat. Med. 25 Cahan, E. M., Hernandez-Boussard, T., Thadaney-Israni, S. & Rubin, D. L. Putting the data before the algorithm in big data addressing personalized healthcare. , 78 (2019). NPJ Digit. Med. 2 Thrall, J. H. et al. Artificial intelligence and machine learning in radiology: opportunities, challenges, pitfalls, and criteria for success. , 504–508 (2018). J. Am. Coll. Radiol. 15 Shilo, S., Rossman, H. & Segal, E. Axes of a revolution: challenges and promises of big data in healthcare. , 29–38 (2020). Nat. Med. 26 Gao, Y. & Cui, Y. Deep transfer learning for reducing health care disparities arising from biomedical data inequality. , 5131 (2020). Nat. Commun. 11 Rieke, N. et al. The future of digital health with federated learning. , 119 (2020). NPJ Dig. Med. 3 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. 10 Ma, C. et al. On safeguarding privacy and security in the framework of federated learning. , 242–248 (2020). IEEE Netw. 34 Brisimi, T. S. et al. Federated learning of predictive models from federated Electronic Health Records. , 59–67 (2018). Int. J. Med. Inform. 112 Roth, H. R. et al. Federated learning for breast density classification: a real-world implementation. In , (eds. Albarqouni, S. et al.) Vol. 12,444, 181–191 (Springer International Publishing, 2020). Proc. Second MICCAI Workshop, DART 2020 and First MICCAI Workshop, DCL 2020 Domain Adaptation and Representation Transfer, and Distributed and Collaborative Learning Sheller, M. J. et al. Federated learning in medicine: facilitating multi-institutional collaborations without sharing patient data. , 12598 (2020). Sci. Rep. 10 Remedios, S. W., Butman, J. A., Landman, B. A. & Pham, D. L. in (eds Remedios, S. W. et al.) (Springer, 2020). Federated Gradient Averaging for Multi-Site Training with Momentum-Based Optimizers Xu, Y. et al. A collaborative online AI engine for CT-based COVID-19 diagnosis. Preprint at (2020). https://www.medrxiv.org/content/10.1101/2020.05.10.20096073v2 Raisaro, J. L. et al. SCOR: A secure international informatics infrastructure to investigate COVID-19. , 1721–1726 (2020). J. Am. Med. Inform. Assoc. 27 Vaid, A. et al. Federated learning of electronic health records to improve mortality prediction in hospitalized patients with COVID-19: machine learning approach. , e24207 (2021). JMIR Med. Inform. 9 Nino, G. et al. Pediatric lung imaging features of COVID-19: a systematic review and meta-analysis. , 252–263 (2021). Pediatr. Pulmonol. 56 Fredrikson, M., Jha, S. & Ristenpart, T. Model inversion attacks that exploit confidence information and basic countermeasures. In 1322–1333, (2015). Proc. 22nd ACM SIGSAC Conference on Computer and Communications Security https://doi.org/10.1145/2810103.2813677 Zhu, L., Liu, Z. & Han, S. in (eds Wallach, H. et al.) 14774–14784 (Curran Associates, Inc., 2019). Advances in Neural Information Processing Systems 32 Kaissis, G. A., Makowski, M. R., Rückert, D. & Braren, R. F. Secure, privacy-preserving and federated machine learning in medical imaging. , 305–311 (2020). Nat. Mach. Intell. 2 Li, W. et al. in 133–141 (Springer, 2019). Privacy-Preserving Federated Brain Tumour Segmentation Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In (2015). Proc. 53rd Annual Allerton Conference on Communication, Control, and Computing (Allerton) https://doi.org/10.1109/allerton.2015.7447103 Li, X. et al. Multi-site fMRI analysis using privacy-preserving federated learning and domain adaptation: ABIDE results. , 101765 (2020). Med. Image Anal. 65 Estiri, H. et al. Predicting COVID-19 mortality with electronic medical records. , 15 (2021). NPJ Dig. Med. 4 Jiang, G. et al. Harmonization of detailed clinical models with clinical study data standards. , 65–74 (2015). Methods Inf. Med. 54 Yang, D. et al. in . (2019). Searching Learning Strategy with Reinforcement Learning for 3D Medical Image Segmentation https://doi.org/10.1007/978-3-030-32245-8_1 Elsken, T., Metzen, J. H. & Hutter, F. Neural architecture search: a survey. , 1–21 (2019). J. Mach. Learning Res. 20 Yao, Q. et al. Taking human out of learning applications: a survey on automated machine learning. Preprint at (2019). https://arxiv.org/abs/1810.13306 Ioffe, S. & Szegedy, C. Batch normalization: accelerating deep network training by reducing internal covariate shift. In , PMLR , 448–456 (2015). Proc. 32nd International Conf. Machine Learning 37 Kaufman, S., Rosset, S. & Perlich, C. Leakage in data mining: formulation, detection, and avoidance. In , 556–563 (2011). Proc. 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining Zhang, C. et al. BatchCrypt: efficient homomorphic encryption for cross-silo federated learning. In , 493–506 (2020). Proc. 2020 USENIX Annual Technical Conference, ATC 2020 . (2020). Nvidia NGC Catalog: COVID-19 Related Models https://ngc.nvidia.com/catalog/models?orderBy=scoreDESC&pageNumber=0&query=covid&quickFilter=models&filters Marini, J. J. & Gattinoni, L. Management of COVID-19 respiratory distress. , 2329–2330 (2020). JAMA 323 Cook, T. M. et al. Consensus guidelines for managing the airway in patients with COVID-19: Guidelines from the Difficult Airway Society, the Association of Anaesthetists the Intensive Care Society, the Faculty of Intensive Care Medicine and the Royal College of Anaesthetist. , 785–799 (2020). Anaesthesia 75 Galloway, J. B. et al. A clinical risk score to identify patients with COVID-19 at high risk of critical care admission or death: an observational cohort study. , 282–288 (2020). J. Infect. 81 Kilaru, A. S. et al. Return hospital admissions among 1419 COVID-19 patients discharged from five U.S. emergency departments. , 1039–1042 (2020). Acad. Emerg. Med. 27 He, K., Zhang, X., Ren, S. & Sun, J. Deep residual learning for image recognition. In (2016). Proc. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) https://doi.org/10.1109/cvpr.2016.90 Irvin, J. et al. CheXpert: a large chest radiograph dataset with uncertainty labels and expert comparison. , 590–597 (2019). Proc. AAAI Conf. Artif. Intell. 33 Wang, R., Fu, B., Fu, G. & Wang, M. Deep & Cross network for Ad Click predictions. In Article no. 12 (2017). Proc. ADKDD’17 Abadi, M. et al. TensorFlow: asystem for large-scale machine learning. In , USENIX Association 265–283 (2016). 12th USENIX Symposium on Operating Systems Design and Implementation (OSDI 16) . (2020). NVIDIA Clara Imaging https://developer.nvidia.com/clara-medical-imaging Stekhoven, D. J. & Bühlmann, P. MissForest–non-parametric missing value imputation for mixed-type data. , 112–118 (2012). Bioinformatics 28 McMahan, H., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. (2017). http://proceedings.mlr.press/v54/mcmahan17a.html Hsieh, K., Phanishayee, A., Mutlu, O. & Gibbons, P. B. The non-IID data quagmire of decentralized machine learning. In PMLR 119 (2020). Proc. 37th International Conf. Machine Learning Robin, X. et al. pROC: an open-source package for R and S+ to analyze and compare ROC curves. , 77 (2011). BMC Bioinformatics 12 Acknowledgements Οι απόψεις που εκφράζονται σε αυτή τη μελέτη είναι εκείνες των συγγραφέων και όχι απαραίτητα εκείνες του NHS, του NIHR, του Τμήματος Υγείας και Κοινωνικής Φροντίδας ή οποιουδήποτε από τους οργανισμούς που συνδέονται με τους συγγραφείς. MGB ευχαριστεί τα ακόλουθα άτομα για την υποστήριξή τους: J. Brink, Τμήμα Ραδιολογίας, Massachusetts General Hospital, Harvard Medical School, Boston, MA; M. Kalra, Τμήμα Ραδιολογίας, Massachusetts General Hospital, Harvard Medical School, Boston, MA; N. Neumark, Κέντρο Κλινικής Επιστήμης Δεδομένων, Massachusetts General Brigham, Boston, MA; T. Schultz, Τμήμα Ραδιολογίας, Massachusetts General Hospital, Boston, MA; N. Guo, Κέντρο για . The Faculty of Medicine, Chulalongkorn University thank the Ratchadapisek Sompoch Endowment Fund RA (PO) (no. 001/63) for the collection and management of COVID‐19-related clinical data and biological specimens for the Research Task Force, Faculty of Medicine, Chulalongkorn University. NIHR Cambridge Biomedical Research Centre thank A. Priest, who is supported by the NIHR (Cambridge Biomedical Research Centre at the Cambridge University Hospitals NHS Foundation Trust). National Taiwan University MeDA Lab and the MAHC and Taiwan National Health Insurance Administration thank the MOST Joint Research Center for AI technology, the All Vista Healthcare National Health Insurance Administration, Taiwan, the Ministry of Science and Technology, Taiwan and the National Center for Theoretical Sciences Mathematics Division. National Institutes of Health (NIH) acknowledge that the NIH Medical Research Scholars Program is a public–private partnership supported jointly by the NIH and by generous contributions to the Foundation for the NIH from the Doris Duke Charitable Foundation, the American Association for Dental Research, the Colgate-Palmolive Company, Genentech, alumni of student research programs and other individual supporters via contributions to the Foundation for the NIH. https://data.ucsf.edu/covid19 This paper is under CC by 4.0 Deed (Attribution 4.0 International) license. available on nature Αυτό το έγγραφο είναι Υπό την άδεια CC by 4.0 Deed (Attribution 4.0 International). Διαθέσιμο στη φύση