סופרים : Nicola Rieke Jonny Hancox Wenqi Li פאוסטו מיליטרי Holger R. Roth Shadi Albarqouni Spyridon Bakas Mathieu N. Galtier Bennett A. Landman Klaus Maier-Hein Sébastien Ourselin Micah Sheller Ronald M. Summers Andrew Trask Daguang Xu Maximilian Baust M. Jorge Cardoso סופרים : ניקולא ריצ'ה ג'וני הנקוקס וינצ'י לי פאוסטו מיליטרי הולגר ר. רוט אלברט אלברט ספירידון באקס מתיו N. Galtier בנט A. לנדמן קלאוס מאייר-היין סבסטיאן אורסלין מיקה שרלר רונלד M. סמס אנדרו טרק תגית: Daguang Xu מקסימליאן בוסט מר ג'ורג' קרדווסו abstractעריכה Data-driven machine learning (ML) has emerged as a promising approach for building accurate and robust statistical models from medical data, which is collected in huge volumes by modern healthcare systems. Existing medical data is not fully exploited by ML primarily because it sits in data silos and privacy concerns restrict access to this data. However, without access to sufficient data, ML will be prevented from reaching its full potential and, ultimately, from making the transition from research to clinical practice. This paper considers key factors contributing to this issue, explores how federated learning (FL) may provide a solution for the future of digital health and highlights the challenges and considerations that need to be addressed. הוצאת מחקר על אינטליגנציה מלאכותית (AI), ובמיוחד את ההתקדמות בלימוד מכונה (ML) ולימוד עמוק (DL) מודלים DL מודרניים מכילים מיליוני פרמטרים שצריכים ללמוד ממערכות נתונים גדולות מספיק כדי להשיג דיוק ברמה קלינית, תוך כדי כך שהם בטוחים, הוגנים, הוגנים ומעודכנים היטב לנתונים בלתי נראים , , , . 1 2 3 4 5 לדוגמה, הכשרה בזיהוי גידול מבוסס AI דורשת מסד נתונים גדול המכסה את הספקטרום המלא של אנטומיות אפשריות, פתולוגיות, וסוגי נתונים כניסה. גם אם אנונימיזציה של נתונים עשויה לעקוף מגבלות אלה, זה עכשיו מובן היטב כי הסרת מטא-נתונים כגון שם המטופל או תאריך הלידה הוא לעתים קרובות לא מספיק כדי לשמור על פרטיות. לדוגמה, ניתן לשחזר את הפנים של המטופל מנתוני טומוגרפיה מחשבתית (CT) או צילום רזוננס מגנטי (MRI). סיבה נוספת לכך שיתוף נתונים אינו שיטתי בתחום הבריאות היא כי איסוף, איסוף ותחזוקה של קבוצת נתונים באיכות גבוהה לוקח זמן, מאמץ, והוצאות משמעותיות. 6 7 8 Federated learning (FL) , , is a learning paradigm seeking to address the problem of data governance and privacy by training algorithms collaboratively without exchanging the data itself. Originally developed for different domains, such as mobile and edge device use cases , זה זכה לאחרונה למשוך עבור יישומי בריאות , , , , , , , FL מאפשר להשיג תובנות בשיתוף פעולה, לדוגמה, בצורה של מודל קונסנזוס, מבלי להעביר נתונים של מטופלים מעבר לחומת האש של המוסדות שבהם הם מתגוררים. מחקרים לאחרונה הראו כי מודלים מאומנים על ידי FL יכול להשיג רמות ביצועים דומות לאלה מאומנים על קבוצות נתונים מאוחסנות מרכזית, ומעל למודלים אשר רואים רק נתונים מבודדים של מוסד אחד. , . 9 10 11 12 13 14 15 16 17 18 19 20 1 16 17 FL Aggregation Server – זרימת העבודה טיפוסית של FL שבה פדרציה של מערכות אימונים מקבלת את המודל הגלובלי, מעבירה מחדש את המודלים המומלצים באופן חלקי לשרת מרכזי באופן הפרימיטיבי לצורך Aggregation ולאחר מכן ממשיכה את האימונים על המודל של ההסכמה שהשרת מחזיר. FL peer to peer – תבנית חלופית של FL שבה כל צומת אימון מחליף את המודלים המוכנים באופן חלקי עם חלק או את כל עמיתיו, וכל אחד עושה את האגודה שלו. אימון מרכזי – זרימת העבודה הכללית שאינה של אימון FL שבה אתרים לרכוש נתונים תורמים את הנתונים שלהם לאגם נתונים מרכזי שממנו הם ואחרים יכולים לחלץ נתונים לאימון מקומי, עצמאי. a b c יישום מוצלח של FL עלול לשאת פוטנציאל משמעותי לאפשר רפואה מדויקת בקנה מידה גדול, מה שמוביל למודלים שמייצרים החלטות אובייקטיביות, משקפים באופן אופטימלי את הפיזיולוגיה של אדם, והם רגישים למחלות נדירות תוך שמירה על דאגות של ממשל ופרטיות. אנו רואים עתיד פדרלי עבור בריאות דיגיטלית ועם נייר נקודת מבט זו, אנו חולקים את השקפתנו המשותפת במטרה לספק הקשר והפרטים עבור הקהילה לגבי היתרונות וההשפעה של FL עבור יישומים רפואיים (סעיף "רפואה מבוססת נתונים דורשת מאמץ פדרלי"), כמו גם להדגיש את החששות המרכזיים ואתגרים של יישום FL עבור בריאות דיגיטלית (סעיף "חששות טכניים"). Data-driven medicine requires federated efforts ML ובמיוחד DL הופך את גישת גילוי הידע בפועל בתעשיות רבות, אך יישום מוצלח של יישומים מבוססי נתונים דורש ערכות נתונים גדולות ומגוונות. עם זאת, ערכות נתונים רפואיות הן קשות להשיג (תת-הפרק "התמכרות לנתונים"). FL פונה לבעיה זו על ידי מאפשרת למידה שיתופית ללא מרכזית נתונים (ת-הפרק "הבטחה של מאמץ פדרלי") והיא כבר מצאה את דרכה ליישומי בריאות דיגיטליים (ת-הפרק "מאמצים FL הנוכחיים לבריאות דיגיטלית"). תלות בנתונים גישות מבוססות נתונים מסתמכות על נתונים המייצגים באמת את חלוקת הנתונים הבסיסית של הבעיה. בעוד שזו דרישה ידועה, אלגוריתמים עכשוויים בדרך כלל מוערכים על ערכות נתונים שנבנו בקפידה, לעתים קרובות ממספר מקורות בלבד. זה יכול להציג דעות קדומות שבהן דמוגרפיות (למשל, מין, גיל) או חוסר איזון טכני (למשל, פרוטוקול רכישה, יצרן ציוד) להסתובב תחזיות ומשפיע לרעה על הדיוק עבור קבוצות או אתרים מסוימים. הצורך במסדי נתונים גדולים עבור אימון AI הוליד יוזמות רבות המבקשות לאחד נתונים ממוסדות מרובים. נתונים אלה מאוחסנים לעתים קרובות בשם Data Lakes. , או כמקור לצמיחה כלכלית והתקדמות מדעית, לדוגמה, NHS סקוטלנד National Safe Haven מרכז נתונים הבריאות הצרפתי Health Data Research בריטניה . 21 22 23 24 יוזמות משמעותיות, אם כי קטנות יותר, כוללות את Connectome האנושי בריטניה Biobank ארכיון תגיות: Cancer Imaging Archive (TCIA) תגית: CXR8 תגית: DeepLesion אטלס הגנום של הסרטן (Cancer Genome Atlas, TCGA) , the Alzheimer’s Disease Neuroimaging Initiative (ADNI) כמו גם אתגרים רפואיים גדולים האתגר של Camelion האתגר הבינלאומי Multimodal Brain Tumor Segmentation (BraTS) , , תגית: Medical Segmentation Decathlon נתונים רפואיים ציבוריים הם בדרך כלל ספציפיים למשימה או למחלה ולעתים קרובות משוחררים עם דרגות שונות של מגבלות רישיון, לפעמים מגבילים את ניצולם. 25 26 27 28 29 30 31 32 33 34 35 36 37 Centralising or releasing data, however, poses not only regulatory, ethical and legal challenges, related to privacy and data protection, but also technical ones. Anonymising, controlling access and safely transferring healthcare data is a non-trivial, and sometimes impossible task. Anonymised data from the electronic health record can appear innocuous and GDPR/PHI compliant, but just a few data elements may allow for patient reidentification אותו הדבר חל על נתונים גנומיים ותמונות רפואיות שהופכות אותם ייחודיים כמו טביעת אצבע. לכן, אלא אם כן תהליך האנונימיזציה הורס את האמינות של הנתונים, אשר עשוי להפוך אותם חסרי תועלת, אי-אפשר לבטל זיהוי מחדש של המטופל או זיהוי מידע.גייט גישה למשתמשים מוסמכים מוצע לעתים קרובות כפתרון פוטנציאלי לבעיה זו. 7 38 ההבטחה של מאמצי הפדרציה הבטחתו של FL היא פשוטה – לפתור את האתגרים של פרטיות וניהול נתונים על-ידי האפשרות של ML מנתונים שאינם ממוקמים במשותף. בהגדרת FL, כל מנהל נתונים לא רק מגדיר את תהליכי הניהול שלו ומדיניות הפרטיות הקשורות אליהם, אלא גם שולט בגישה לנתונים ויש לו את היכולת לבטל אותם. זה כולל גם את שלב ההכשרה וגם את שלב האימות. בדרך זו, FL יכול ליצור הזדמנויות חדשות, לדוגמה, על-ידי האפשרות של אימות גדול בתוך מוסדות, או על-ידי האפשרות של מחקר חדש על מחלות נדירות, שבהן שיעורי האירועים נמוכים ומערכות הנתונים בכל מוסד הן קטנות מדי. כפי שצוין בפיג. זרימת עבודה של FL יכולה להתרחש עם טופולוגיות שונות ותוכניות חישוב.השניים הנפוצים ביותר עבור יישומים בתחום הבריאות הם באמצעות שרת aggregation , , Peer to Peer מתקרבים , . In all cases, FL implicitly offers a certain degree of privacy, as FL participants never directly access data from other institutions and only receive model parameters that are aggregated over several participants. In a FL workflow with aggregation server, the participating institutions can even remain unknown to each other. However, it has been shown that the models themselves can, under certain conditions, memorise information , , , לכן, מנגנונים כגון פרטיות שונה , או שהוצעו הצעות למידה מנתונים מוצפנים כדי להגדיל עוד יותר את הפרטיות בהגדרת FL (ראה סעיף "שיקולים טכניים"). וטכניקות FL הם תחום גדל מחקר , . 2 16 17 18 15 39 40 41 42 43 44 45 46 12 20 טופולוגיות FL – ארכיטקטורה תקשורת של פדרציה. מרכזי: שרת האגרה מתאם את איטורים ההכשרה ומאסף, אוסף ומפיץ את המודלים אל והם מהקצות ההכשרה (Hub & Spoke). מתרכז: כל צומת אימון מחובר לאחד או למספר עמיתים, והאגרגציה מתרחשת על כל צומת במקביל. מיקרוסופט יכולה להכיל מגוון רחב של תוספי תזונה, כולל תוספי תזונה ( תוכניות חישוב FL – מסלול של מודל בין מספר שותפים. אימון מעקב / cyclic transfer learning. שרת איחוד, תגיות peer to peer a b c d e f g המאמצים הנוכחיים של FL לבריאות דיגיטלית מאחר ש-FL הוא פרדיגמה של למידה כללית שמסירה את הדרישה לאסוף נתונים לפיתוח מודל AI, טווח היישומים של FL מקיף את כל ה-AI עבור בריאות.באמצעות מתן הזדמנות לתפוס משתנות נתונים גדולות יותר ולנתח מטופלים ברחבי דמוגרפיקות שונות, FL עשוי לאפשר חידושים מפריעים לעתיד, אבל הוא גם נמצא בשימוש כעת. In the context of electronic health records (EHR), for example, FL helps to represent and to find clinically similar patients , , כמו גם צפייה בתי חולים עקב אירועי לב , mortality and ICU stay time היתרונות וההתאימות של FL הוכחו גם בתחום הדמיה הרפואית, עבור ספיגה של המוח כולו ב- MRI. , כמו גם ספיגה של גידול המוח , לאחרונה, הטכניקה נעשתה לשימוש עבור דירוג fMRI כדי למצוא מזיקים ביולוגיים אמינים הקשורים למחלה. and suggested as a promising approach in the context of COVID-19 . 13 47 14 19 15 16 17 18 48 ראוי לציין כי מאמצי FL דורשים הסכמים כדי להגדיר את היקף, המטרה והטכנולוגיות המשמשות, אשר, מאחר שהוא עדיין חדש, יכול להיות קשה לקבוע. These include consortia that aim to advance research, such as the Trustworthy Federated Data Analytics (TFDA) project פלטפורמת הדמיה המשותפת של הקונסוריון הגרמני לסרטן דוגמה נוספת היא שיתוף פעולה בינלאומי של מחקרים המשתמש ב-FL לפיתוח מודלים של AI להערכה של mammograms. המחקר הראה כי המודלים שנוצרו על-ידי FL עברו את אלה שנלמדו על נתונים של מכון יחיד והיו כלליים יותר, כך שהם עדיין ביצעו טוב על נתונים של מכוניות אחרות. אקדמיה 49 50 51 על ידי חיבור מוסדות בריאות, לא מוגבל למרכזי מחקר, FL יכול להיות ישיר תוצאות חיפוש: HealthChain Project לדוגמה, המטרה היא לפתח ולהפיץ מסגרת FL על פני ארבעה בתי חולים בצרפת. הפתרון הזה מייצר מודלים נפוצים שיכולים לחזות את התגובה לטיפול עבור חולי סרטן השד ומלנומה. , אשר היא פדרציה בינלאומית של 30 מוסדות בריאות מחויבים באמצעות מסגרת FL קוד פתוח עם ממשק משתמש גרפי.המטרה היא לשפר את זיהוי גבולות הגידול, כולל גליומה במוח, גידולים בחזה, גידולים בכבד וזיהומים עצמיים של מטופלים מיאלומה מרובים. clinical 52 53 תחום השפעה נוסף נמצא בתוך מחקר ותרגום. FL מאפשר מחקר משותף, אפילו עבור חברות תחרותיות. בהקשר זה, אחד היוזמות הגדולות ביותר הוא פרויקט Melloddy זהו פרויקט שמטרתו ליישם FL רב משימות על פני ערכות הנתונים של 10 חברות תרופות.באמצעות הכשרה מודל צפוי משותף, אשר משקף כיצד תרכובות כימיות מחוברות לחלבונים, שותפים מתכוונים לייעל את תהליך גילוי התרופות מבלי לחשוף את הנתונים הפנימיים היקרים ביותר שלהם. תעשייתית 54 השפעה על המעורבים FL כולל שינוי פרדיגמה מן אגם נתונים מרכזי וחשוב להבין את ההשפעה שלה על המשתתפים השונים באקולוגיה של FL. קליניקה Clinicians are usually exposed to a sub-group of the population based on their location and demographic environment, which may cause biased assumptions about the probability of certain diseases or their interconnection. By using ML-based systems, e.g., as a second reader, they can augment their own expertise with expert knowledge from other institutions, ensuring a consistency of diagnosis not attainable today. While this applies to ML-based system in general, systems trained in a federated fashion are potentially able to yield even less biased decisions and higher sensitivity to rare cases as they were likely exposed to a more complete data distribution. However, this demands some up-front effort such as compliance with agreements, e.g., regarding the data structure, annotation and report protocol, which is necessary to ensure that the information is presented to collaborators in a commonly understood format. מטופלים מטופלים בדרך כלל מטופלים באופן מקומי. הקמת FL בקנה מידה עולמי יכולה להבטיח איכות גבוהה של החלטות קליניות ללא קשר למיקום הטיפול. בפרט, מטופלים הדורשים טיפול רפואי באזורים מרוחקים יכולים להפיק תועלת מאותן אבחנות תומכות ML באיכות גבוהה הזמינות בבתי חולים עם מספר רב של מקרים. אותו הדבר נכון למחלות נדירות, או נדירות מבחינה גיאוגרפית, אשר סביר להניח שיהיו להם השלכות קלים יותר אם ניתן לבצע אבחנות מהירות ומדויקות יותר. FL יכול גם להפחית את המכשול להפוך לתורם נתונים, שכן מטופלים יכולים להיות בטוחים כי הנתונים נשארים עם המוסד שלהם והגישה לנתונים ניתן לבטל. בתי חולים ושיטות בתי חולים ופרקטיקות יכולים להישאר בשליטה מלאה ובבעלות על נתוני המטופלים שלהם עם מעקב מלא של גישה לנתונים, המגביל את הסיכון לשימוש לרעה על ידי צדדים שלישיים. עם זאת, זה ידרש השקעה בתשתית מחשוב מקומי או מתן שירות ענן פרטי ושמירה על פורמטים נתונים סטנדרטיים וסנופטיים כך מודלים ML ניתן להכשיר ולהעריך ללא בעיות. הכמות של יכולת מחשוב הדרושה תלויה כמובן אם אתר משתתף רק במאמצי הערכה ובדיקות או גם במאמצי הכשרה. חוקרים ומפתחים חוקרים ומפתחים של AI מרוויחים מהגישה לאוסף עצום פוטנציאלי של נתונים בעולם האמיתי, אשר בהחלט ישפיע על מעבדות מחקר קטנות יותר וסטארט-אפים.כך, משאבים יכולים להיות ממוקדים לפתרון צרכים קליניים ובעיות טכניות הקשורות במקום לסמוך על אספקת מוגבלת של ערכות נתונים פתוחות. , , פיתוח מבוסס FL מצביע גם על כך שהמחקר או מפתחי AI אינם יכולים לחקור או להציג את כל הנתונים שעליהם מתאמן המודל, לדוגמה, אין אפשרות להסתכל על מקרה של כישלון בודד כדי להבין מדוע המודל הנוכחי מתפקד רע בו. 11 12 20 ספקי בריאות ספקי שירותי הבריאות במדינות רבות מושפעים מהחלפת הפרדיגמה המתמשכת מ- volume-based, כלומר, fee-for-service-based, ל- value-based healthcare, אשר בתורו קשורה בקשר חזק עם הקמתה המוצלחת של רפואה מדויקת.זה לא על קידום טיפולים מותאמים אישית יקרים יותר אלא על השגת תוצאות טובות יותר מוקדם יותר באמצעות טיפול ממוקד יותר, ובכך להפחית את העלויות. יצרנים יצרנים של תוכנות וציוד בריאות עשויים להרוויח גם מ-FL, שכן שילוב של למידה ממכשירים ויישומים רבים, מבלי לחשוף מידע ספציפי למטופל, יכול להקל על אימות מתמיד או שיפור של מערכות מבוססות ML שלהם. שיקולים טכניים FL הוא כנראה הידוע ביותר מהעבודה של Konečnỳ et al. , אבל מגוון של הגדרות אחרות הוצעו בספרות , , , . A FL workflow (Fig. ) ניתן להגשים באמצעות טופולוגיות שונות ותוכניות חישוב (איור. ), אבל המטרה נשארה זהה, כלומר, לשלב את הידע שנלמד ממידע שאינו ממוקם במשותף.בקטע זה, נדון בפירוט רב יותר מהו FL, כמו גם להדגיש את האתגרים העיקריים והשיקולים הטכניים המתעוררים בעת יישום FL בבריאות דיגיטלית. 55 9 11 12 20 1 2 הגדרה של Federated Learning FL היא פרדיגמה של למידה שבה צדדים מרובים מתאמנים בשיתוף פעולה מבלי צורך להחליף או לרכז קבוצות נתונים. הפסדים מקומיים, מחושבים מתוך נתונים פרטיים , אשר מתגורר אצל הצדדים המעורבים באופן אישי ומעולם לא חולק ביניהם: K XK איפה > 0 מעיד על קווי המשקל הרלוונטיים. wk In practice, each participant typically obtains and refines a global consensus model by conducting a few rounds of optimisation locally and before sharing updates, either directly or via a parameter server. The more rounds of local training are performed, the less it is guaranteed that the overall procedure is minimising (Eq. ) , התהליך האמיתי לאספקה של פרמטרים תלוי בטופולוגיה של הרשת, שכן כוכבים עשויים להיות מחולקים לרשתות משנה עקב מגבלות גיאוגרפיות או משפטיות (ראה איור. אסטרטגיות אגרגציה יכולות להסתמך על כפתור אגרגנטי יחיד (מודלים של hub ו-spoke), או על כפתורים מרובים ללא ריכוז כלשהו.דוגמה היא peer-to-peer FL, שבו קיים חיבור בין כל המשתתפים או תת קבוצה של משתתפים והעדכוני מודל משותפים רק בין אתרים מחוברים ישירות. , יש לציין כי אסטרטגיות אגרגציה אינן דורשות בהכרח מידע על עדכון המודל המלא; הלקוחות עשויים לבחור לשתף רק תת קבוצה אחת של הפרמטרים של המודל למען הפחתת תקשורת, כדי להבטיח שימור פרטיות טוב יותר. או לייצר אלגוריתמים למידה מרובים עם רק חלק מהפרמטרים שלהם למדו בצורה פדרלית. 1 9 12 2 15 56 10 מסגרת מאוחדת המאפשרת תוכניות אימון שונות עשויה לנתק משאבי מחשוב (נתונים ושרתים) מהתוכנית. כפי שמתואר בתמונה. האחרון מגדיר את המסלול של מודל בין מספר שותפים, כדי להיות מאומנים ומוערכים על ערכות נתונים ספציפיות. תוכנית מחשב 2 אתגרים ותחושות למרות היתרונות של FL, זה לא פותר את כל הבעיות הקשורות למידה על נתונים רפואיים. בעיות אלה יש לפתור עבור מאמצי למידה פדרליים ולא פדרליים באמצעות אמצעים מתאימים, כגון עיצוב מחקר זהיר, פרוטוקולים משותפים לרכישת נתונים, דיווח מבוסס ושיטות מתוחכמות לגלות דעות קדומות וסטריפיזציה מוסתרת. , , . 2 11 12 20 Heterogeneity נתונים Medical data is particularly diverse—not only because of the variety of modalities, dimensionality and characteristics in general, but even within a specific protocol due to factors such as acquisition differences, brand of the medical device or local demographics. FL may help address certain sources of bias through potentially increased diversity of data sources, but inhomogeneous data distribution poses a challenge for FL algorithms and strategies, as many are assuming independently and identically distributed (IID) data across the participants. In general, strategies such as הם נוטים להיכשל בתנאים אלה. , , , in part defeating the very purpose of collaborative learning strategies. Recent results, however, indicate that FL training is still feasible גם אם הנתונים הרפואיים אינם מחולקים באופן שווה בין המוסדות. , או כולל ביס מקומי המחקר שמטרתו לטפל בבעיה זו כולל, לדוגמה, אסטרטגיית שיתוף נתונים חלקית ו- FL עם התאמה לתחום . Another challenge is that data heterogeneity may lead to a situation in which the global optimal solution may not be optimal for an individual local participant. The definition of model training optimality should, therefore, be agreed by all participants before training. פדגוג 9 9 57 58 59 16 17 51 FedProx 57 58 18 Privacy and security נתוני הבריאות רגישים מאוד וצריכים להיות מוגנים בהתאם, בעקבות נהלי סודיות מתאימים.לפיכך, חלק מהשיקולים המרכזיים הם התערבויות, אסטרטגיות והסיכונים הנותרים בנוגע לפוטנציאל ההגנה על הפרטיות של FL. פרטיות לעומת ביצועים: חשוב לציין כי FL לא פותר את כל הבעיות הפוטנציאליות של פרטיות ו - דומה אלגוריתמים ML באופן כללי - תמיד יוביל לסכנות מסוימות. . However, there is a trade-off in terms of performance and these techniques may affect, for example, the accuracy of the final model . Furthermore, future techniques and/or ancillary data could be used to compromise a model previously considered to be low-risk. 12 10 Level of trust: Broadly speaking, participating parties can enter two types of FL collaboration: —for FL consortia in which all parties are considered trustworthy and are bound by an enforceable collaboration agreement, we can eliminate many of the more nefarious motivations, such as deliberate attempts to extract sensitive information or to intentionally corrupt the model. This reduces the need for sophisticated counter-measures, falling back to the principles of standard collaborative research. Trusted במערכות FL הפועלות בקנה מידה גדול יותר, ייתכן שלא יהיה מעשי להקים הסכם שיתוף פעולה אפשרי.לקוחות מסוימים עשויים לנסות בכוונה להוריד את הביצועים, להוריד את המערכת או לחלץ מידע מאחרים.לפיכך, אסטרטגיות אבטחה יידרשו כדי להפחית את הסיכונים האלה, כגון הצפנה מתקדמת של הצגת מודלים, אימות מאובטח של כל הצדדים, מעקב אחר פעולות, פרטיות שונה, מערכות אימות, שלמות ביצוע, סודיות מודל והגנה מפני התקפות יריבות. לא מאמינים Information leakage: By definition, FL systems avoid sharing healthcare data among participating institutions. However, the shared information may still indirectly expose private data used for local training, e.g., by model inversion of the model updates, the gradients themselves התקפות האויב , FL שונה מהכשרה מסורתית בכך שהתהליך של ההכשרה חשוף למספר צדדים, ובכך מגדיל את הסיכון לפריצה באמצעות הנדסה הפוכה אם יוכלו היריבים לצפות בשינויים במודל לאורך זמן, לצפות לעדכוני מודל ספציפיים (כלומר, עדכון של מוסד יחיד), או לנתח את המודל (למשל, לגרום לזכירה נוספת על ידי אחרים באמצעות התקפות בסגנון גדיננט-עלייה). , להבטיח פרטיות שונה , may be needed and is still an active area of research . 60 61 62 63 16 18 44 12 מעקב ואחריות As per all safety-critical applications, the reproducibility of a system is important for FL in healthcare. In contrast to centralised training, FL requires multi-party computations in environments that exhibit considerable variety in terms of hardware, software and networks. Traceability of all system assets including data access history, training configurations, and hyperparameter tuning throughout the training processes is thus mandatory. In particular in non-trusted federations, traceability and accountability processes require execution integrity. After the training process reaches the mutually agreed model optimality criteria, it may also be helpful to measure the amount of contribution from each participant, such as computational resources consumed, quality of the data used for local training, etc. These measurements could then be used to determine relevant compensation, and establish a revenue model among the participants אחת ההשלכות של FL היא כי החוקרים אינם מסוגלים לחקור את הנתונים שבהם מודלים מאומנים כדי להבין תוצאות בלתי צפויות. יתר על כן, לקחת מדידות סטטיסטיות של נתוני ההכשרה שלהם כחלק מתהליך העבודה של פיתוח מודל יצטרך להיות מאושר על ידי הצדדים המשתפים פעולה כי זה לא פוגע בפרטיות. 64 ארכיטקטורה של המערכת בניגוד ל- FL בקנה מידה גדול בקרב מכשירים צרכניים כגון McMahan et al. המשתתפים במוסדות הבריאות מצוידים במשאבים מחשובים חזקים יחסית ורשתות אמינות, בעלות עוצמה גבוהה יותר המאפשרות הכשרה במודלים גדולים יותר עם צעדים אימונים מקומיים רבים יותר, ושיתוף מידע מודל רב יותר בין כפתורים.תכונות ייחודיות אלה של FL בתחום הבריאות מביאות גם אתגרים כגון הבטחת שלמות הנתונים בעת תקשורת באמצעות כפתורים מיותרים, עיצוב שיטות הצפנה מאובטחות כדי למנוע זיהוי נתונים, או עיצוב מתוכניות כפתורים מתאימות כדי לנצל בצורה הטובה ביותר את מכשירי החישוב המפוזרים ולהפחית את זמן הפסקה. 9 The administration of such a federation can be realised in different ways. In situations requiring the most stringent data privacy between parties, training may operate via some sort of “honest broker” system, in which a trusted third party acts as the intermediary and facilitates access to data. This setup requires an independent entity controlling the overall system, which may not always be desirable, since it could involve additional cost and procedural viscosity. However, it has the advantage that the precise internal mechanisms can be abstracted away from the clients, making the system more agile and simpler to update. In a peer-to-peer system each site interacts directly with some or all of the other participants. In other words, there is no gatekeeper function, all protocols must be agreed up-front, which requires significant agreement efforts, and changes must be made in a synchronised fashion by all parties to avoid problems. Additionally, in a trustless-based architecture the platform operator may be cryptographically locked into being honest by means of a secure protocol, but this may introduce significant computational overheads. מסקנה ML, ובמיוחד DL, הוביל למגוון רחב של חדשנות בתחום הבריאות הדיגיטלית. כמו כל שיטות ML נהנים מאוד מהיכולת לגשת לנתונים המתקרבים להפצה הגלובלית האמיתית, FL היא גישה מבטיחה כדי להשיג מודלים חזקים, מדויקים, בטוחים, חזקים ובלתי מעורפלים. על ידי מאפשרת צדדים מרובים להתאמן בשיתוף פעולה מבלי צורך להחליף או להתמקד במערכות נתונים, FL מתייחס היטב לבעיות הקשורות להתפרצות של נתונים רפואיים רגישים. כתוצאה מכך, זה יכול לפתוח דרכים מחקר חדשניות ועסקים ויש לו פוטנציאל לשפר את טיפול המטופל ברחבי העולם. עם זאת, כבר היום, FL יש השפעה על כמעט כל המעורבים . Despite this, we truly believe that its potential impact on precision medicine and ultimately improving medical care is very promising. 12 דיווח סיכום מידע נוסף על עיצוב המחקר זמין ב קישור למאמר זה. Nature Research Reporting Summary התייחסות LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. , 436 (2015). Nature 521 Wang, F., Casalino, L. P. & Khullar, D. Deep learning in medicine—promise, progress, and challenges. , 293–294 (2019). JAMA Intern. Med. 179 Chartrand, G. et al. Deep learning: a primer for radiologists. , 2113–2131 (2017). Radiographics 37 De Fauw, J. et al. Clinically applicable deep learning for diagnosis and referral in retinal disease. , 1342 (2018). Nat. Med. 24 Sun, C., Shrivastava, A., Singh, S. & Gupta, A. Revisiting unreasonable effectiveness of data in deep learning era. In , 843–852 ( , 2017). Proceedings of the IEEE international conference on computer vision IEEE Van Panhuis, W. G. et al. A systematic review of barriers to data sharing in public health. , 1144 (2014). BMC Public Health 14 Rocher, L., Hendrickx, J. M. & De Montjoye, Y.-A. Estimating the success of re-identifications in incomplete datasets using generative models. , 1–9 (2019). Nat. Commun. 10 Schwarz, C. G. et al. Identification of anonymous mri research participants with face-recognition software. , 1684–1686 (2019). N. Engl. J. Med. 381 McMahan, B., Moore, E., Ramage, D., Hampson, S. & y Arcas, B. A. Communication-efficient learning of deep networks from decentralized data. In , 1273–1282. (2017). Artificial Intelligence and Statistics https://scholar.google.de/scholar?hl=de&as_sdt=0%2C5&q=Communicationefficient+learning+of+deep+networks+from+decentralized+data&btnG= Li, T., Sahu, A. K., Talwalkar, A. & Smith, V. Federated learning: Challenges, methods, and future directions. , 50–60 (IEEE, 2020). IEEE Signal Processing Magazine 37 Yang, Q., Liu, Y., Chen, T. & Tong, Y. Federated machine learning: concept and applications. , 12 (2019). ACM Trans. Intell. Syst. Technol. (TIST) 10 Kairouz, P. et al. Advances and open problems in federated learning. (2019). arXiv preprint arXiv:1912.04977 Lee, J. et al. Privacy-preserving patient similarity learning in a federated environment: development and analysis. , e20 (2018). JMIR Med. Inform. 6 Brisimi, T. S. et al. Federated learning of predictive models from federated electronic health records. , 59–67 (2018). Int. J. Med. Inform. 112 Roy, A. G., Siddiqui, S., Pölsterl, S., Navab, N. & Wachinger, C. Braintorrent: a peer-to-peer environment for decentralized federated learning. (2019). arXiv preprint arXiv:1905.06731 Li, W. et al. Privacy-preserving federated brain tumour segmentation. In , 133–141 (Springer, 2019). International Workshop on Machine Learning in Medical Imaging Sheller, M. J., Reina, G. A., Edwards, B., Martin, J. & Bakas, S. Multi-institutional deep learning modeling without sharing patient data: a feasibility study on brain tumor segmentation. In , 92–104 (Springer, 2018). International MICCAI Brainlesion Workshop Li, X. et al. Multi-site fmri analysis using privacy-preserving federated learning and domain adaptation: abide results. (2020). arXiv preprint arXiv:2001.05647 Huang, L. et al. Patient clustering improves efficiency of federated machine learning to predict mortality and hospital stay time using distributed electronic medical records. , 103291 (2019). J. Biomed. Inform. 99 Xu, J. & Wang, F. Federated learning for healthcare informatics. (2019). arXiv preprint arXiv:1911.06270 Roy, A. & Banerjee, A. Ibm’s merge healthcare acquisitio . (2015) (Accessed 10 February 2020). n https://www.reuters.com/article/us-merge-healthcare-m-a-ibm/ibm-to-buy-merge-healthcare-in-1-billion-deal-idUSKCN0QB1ML20150806 Nhs scotland’s national safe haven. (2015) (Accessed 10 February 2020). https://www.gov.scot/publications/charter-safe-havens-scotland-handling-unconsented-data-national-health-service-patient-records-support-research-statistics/pages/4/ Cuggia, M. & Combes, S. The french health data hub and the german medical informatics initiatives: Two national projects to promote data sharing in healthcare. , 195–202 (2019). Yearbook Med. Informat. 28 Health Data Research UK. (Health Data Research UK, 2020) (Accessed 10 Feb 2020). https://www.hdruk.ac.uk/ Sporns, O., Tononi, G. & Kötter, R. The human connectome: a structural description of the human brain. . , e42, (2005). PLoS Comput. Biol 1 https://doi.org/10.1371/journal.pcbi.0010042 Sudlow, C. et al. Uk biobank: an open access resource for identifying the causes of a wide range of complex diseases of middle and old age. . , e1001779. (2015). PLoS Med 12 https://doi.org/10.1371/journal.pmed.1001779 Clark, K. et al. The cancer imaging archive (tcia): maintaining and operating a public information repository. , 1045–1057 (2013). J. Digit. Imaging. 26 Wang, X. et al. Chestx-ray8: Hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In , 2097–2106 ( , 2017). Proceedings of the IEEE conference on computer vision and pattern recognition IEEE Yan, K., Wang, X., Lu, L. & Summers, R. M. Deeplesion: automated mining of large-scale lesion annotations and universal lesion detection with deep learning. , 036501 (2018). J Med. Imaging. 5 Tomczak, K., Czerwińska, P. & Wiznerowicz, M. The cancer genome atlas (tcga): an immeasurable source of knowledge. , A68 (2015). Contemp. Oncol. 19 Jack Jr., C. R. et al. The alzheimer’s disease neuroimaging initiative (adni): Mri methods. , 685–691 (2008). J. Magn. Reson. Imaging 27 . (2020) (Accessed 24 July 2020). Grand Challenge-a Platform for End-to-end Development of Machine Learning Solutions in Biomedical Imaging https://grand-challenge.org/ Litjens, G. et al. 1399 h&e-stained sentinel lymph node sections of breast cancer patients: the camelyon dataset. , giy065 (2018). GigaScience 7 Menze, B. H. et al. The multimodal brain tumor image segmentation benchmark (brats). , 1993–2024 (2014). IEEE Trans. Med. Imaging 34 Bakas, S. et al. Identifying the best machine learning algorithms for brain tumor segmentation, progression assessment, and overall survival prediction in the brats challenge. (2018). arXiv preprint arXiv:1811.02629 Bakas, S. et al. Advancing the cancer genome atlas glioma MRI collections with expert segmentation labels and radiomic features. , 170117 (2017). Sci. Data 4 Simpson, A. L. et al. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. (2019). arXiv preprint arXiv:1902.09063 Yeh, F.-C. et al. Quantifying differences and similarities in whole-brain white matter architecture using local connectome fingerprints. , e1005203 (2016). PLoS Comput. Biol. 12 Chang, K. et al. Distributed deep learning networks among institutions for medical imaging. , 945–954 (2018). J. Am. Med. Inform. Assoc. 25 Shokri, R., Stronati, M., Song, C. & Shmatikov, V. Membership inference attacks against machine learning models. In , 3-18 (IEEE, 2017). 2017 IEEE Symposium on Security and Privacy (SP) Sablayrolles, A., Douze, M., Ollivier, Y., Schmid, C. & Jégou, H. White-box vs black-box: Bayes optimal strategies for membership inference. In Chaudhuri, K. & Salakhutdinov, R. (eds) , 5558–5567. (PMLR, 2019). Proceedings of the 36th International Conference on Machine Learning, {ICML} 97 http://proceedings.mlr.press/v97/sablayrolles19a.html Zhang, C., Bengio, S., Hardt, M., Recht, B. & Vinyals, O. Understanding deep learning requires rethinking generalization. In , (OpenReview.net, 2017). 5th International Conference on Learning Representations, {ICLR}. https://openreview.net/forum?id=Sy8gdB9xx Carlini, N., Liu, C., Erlingsson, Ú., Kos, J. & Song, D. The secret sharer: evaluating and testing unintended memorization in neural networks. In Heninger, N. & Traynor, P. (eds) { } ({ } , 267–284. ({USENIX} Association, Santa Clara, CA, USA, 2019). 28th USENIX Security Symposium USENIX Security 19 https://www.usenix.org/conference/usenixsecurity19/presentation/carlini Abadi, M. et al. Deep learning with differential privacy. In , 308–318 (ACM, 2016). Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security Shokri, R. & Shmatikov, V. Privacy-preserving deep learning. In , 1310–1321 (ACM, 2015). Proceedings of the 22nd ACM SIGSAC conference on computer and communications security Langlotz, C. P. et al. A roadmap for foundational research on artificial intelligence in medical imaging: from the 2018 nih/rsna/acr/the academy workshop. , 781–791 (2019). Radiology 291 Kim, Y., Sun, J., Yu, H. & Jiang, X. Federated Tensor Factorization for Computational Phenotyping. In . 887–895. (ACM, Halifax, NS, Canada, 2017). Proceedings of the 23rd {ACM} {SIGKDD} International Conference on Knowledge Discoveryand Data Mining https://doi.org/10.1145/3097983.3098118 He, C., Annavaram, M. & Avestimehr, S. Fednas: Federated deep learning via neural architecture search. (2020). https://sites.google.com/view/cvpr20-nas/ Trustworthy federated data analytics (tfda). (2020) (Accessed 28 May 2020). https://tfda.hmsp.center/ Joint Imaging Platform (Jip). (2020) (Accessed 28 May 2020). https://jip.dktk.dkfz.de/jiphomepage/ Medical institutions collaborate to improve mammogram assessment ai. (2020) (Accessed 28 May 2020). https://blogs.nvidia.com/blog/2020/04/15/federated-learning-mammogram-assessment/ Healthchain consortium. (2020) (Accessed 28 May 2020). https://www.substra.ai/en/healthchain-project The federated tumor segmentation (fets) initiative. (2020) (Accessed 28 May 2020). https://www.fets.ai Machine learning ledger orchestration for drug discovery. (2020). Accessed 28 May 2020. https://cordis.europa.eu/project/id/831472 Konečny`, J., McMahan, H. B., Ramage, D. & Richtárik, P. Federated optimization: Distributed machine learning for on-device intelligence. (2016). arXiv preprint arXiv:1610.02527 Lalitha, A., Kilinc, O. C., Javidi, T. & Koushanfar, F. Peer-to-peer federated learning on graphs. (2019). arXiv preprint arXiv:1901.11173 Li, T., Sahu, A. K., Zaheer, M., Sanjabi, M., Talwalkar, A. & Smith, V. Federated optimization in heterogeneous networks. (2018). arXiv preprint arXiv:1812.06127 Zhao, Y. et al. Federated learning with non-iid data. (2018). arxivabs/1806.00582 Li, X., Huang, K., Yang, W., Wang, S. & Zhang, Z. On the convergence of fedavg on non-IID data. (2020). https://openreview.net/forum?id=HJxNAnVtDS Wu, B. et al. P3sgd: patient privacy preserving SGD for regularizing deep CNNs in pathological image classification. In (pp. 2099–2108) (2019). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Zhu, L., Liu, Z. & Han, S. Deep leakage from gradients. In Wallach, H. M. et al. (eds) , 14747–14756. (2019). Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems http://papers.nips.cc/paper/9617-deep-leakage-from-gradients Wang, Z. et al. Beyond inferring class representatives: user-level privacy leakage from federated learning. In 2512–2520. (IEEE, Paris, France, 2019). 2019 {IEEE} Conferenceon Computer Communications, {INFOCOM} https://doi.org/10.1109/INFOCOM.2019.8737416 Hitaj, B., Ateniese, G. & Perez-Cruz, F. Deep models under the gan: information leakage from collaborative deep learning. In , CCS’17, 603–618 (Association for Computing Machinery, New York, NY, USA, 2017). Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security Ghorbani, A. & Zou, J. Data shapley: Equitable valuation of data for machine learning. In (pp. 2242-2251) (2019). International Conference on Machine Learning Acknowledgements This work was supported by the UK Research and Innovation London Medical Imaging & Artificial Intelligence Centre for Value-Based Healthcare, by the Wellcome/EPSRC Centre for Medical Engineering (WT203148/Z/16/Z), by the Wellcome Flagship Programme (WT213038/Z/18/Z), by the Intramural Research Programme of the National Institutes of Health (NIH) Clinical Center, by the National Cancer Institute of the NIH under award number U01CA242871, by the National Institute of Neurological Disorders and Stroke of the NIH under award number R01NS042645, as well as by the Helmholtz Initiative and Networking Fund (project “Trustworthy Federated Data Analytics”) and the PRIME programme of the German Academic Exchange Service (DAAD) with funds from the German Federal Ministry of Education and Research (BMBF). The content and opinions expressed in this publication is solely the responsibility of the authors and do not necessarily represent those of the institutions they are affiliated with, e.g., the U.S. Department of Health and Human Services or the National Institutes of Health. Open access funding provided by Projekt DEAL. מאמר זה זמין בטבע תחת רישיון CC by 4.0 Deed (Attribution 4.0 International). מאמר זה זמין בטבע תחת רישיון CC by 4.0 Deed (Attribution 4.0 International).