المؤلفين : Karan Singhal (Google Research, DeepMind) Shekoofeh Azizi (Google Research, DeepMind) Tao Tu (Google Research, DeepMind) S. Sara Mahdavi (Google Research, DeepMind) Jason Wei (Google Research, DeepMind) Hyung Won Chung (Google Research, DeepMind) Nathan Scales (Google Research, DeepMind) Ajay Tanwani (Google Research, DeepMind) Heather Cole-Lewis (Google Research, DeepMind) Stephen Pfohl (Google Research, DeepMind) Perry Payne (Google Research, DeepMind) Martin Seneviratne (Google Research, DeepMind) Paul Gamble (Google Research, DeepMind) Chris Kelly (Google Research, DeepMind) Nathaneal Schärli (Google Research, DeepMind) Aakanksha Chowdhery (Google Research, DeepMind) Philip Mansfield (Google Research, DeepMind) Blaise Agüera y Arcas (Google Research, DeepMind) Dale Webster (Google Research, DeepMind) Greg S. Corrado (Google Research, DeepMind) Yossi Matias (Google Research, DeepMind) Katherine Chou (Google Research, DeepMind) Juraj Gottweis (Google Research, DeepMind) Nenad Tomasev (Google Research, DeepMind) Yun Liu (Google Research, DeepMind) Alvin Rajkomar (Google Research, DeepMind) Joelle Barral (Google Research, DeepMind) Christopher Semturs (Google Research, DeepMind) Alan Karthikesalingam (Google Research, DeepMind) Vivek Natarajan (Google Research, DeepMind المؤلفين : كاران سينغال (Google Research، DeepMind) Shekoofeh Azizi (بحوث جوجل، DeepMind) تاو تو (بحوث جوجل، DeepMind) S. Sara Mahdavi (بحوث جوجل، DeepMind) جونسون ويي (بحوث جوجل، DeepMind) Hyung Won Chung (بحوث جوجل، DeepMind) Nathan Scales (بحوث جوجل، DeepMind) أجيي تانويانا (Google Research، DeepMind) هاري كولي لويس (Google Research، DeepMind) Stephen Pfohl (بحوث جوجل، DeepMind) Perry Payne (بحوث جوجل، DeepMind) Martin Seneviratne (بحوث جوجل، DeepMind) بول جابلي (Google Research، DeepMind) كريس كالي (Google Research، DeepMind) Nathaneal Schärli (بحوث جوجل، DeepMind) Aakanksha Chowdhery (بحوث جوجل، DeepMind) Philip Mansfield (بحوث جوجل، DeepMind) Blaise Agüera y Arcas (بحوث جوجل، DeepMind) Dale Webster (بحوث جوجل، DeepMind) Greg S. Corrado (بحوث جوجل، DeepMind) يوسف ماتياس (Google Research، DeepMind) كاترين تشو (Google Research، DeepMind) Juraj Gottweis (بحوث جوجل، DeepMind) ناناد توماسيف (Google Research، DeepMind) Yun Liu (بحوث جوجل، DeepMind) Alvin Rajkomar (بحوث جوجل، DeepMind) جويل بارال (Google Research، DeepMind) كريستوفر Semturs (بحوث جوجل، DeepMind) Alan Karthikesalingam (بحوث جوجل، DeepMind) فيفيك ناتاراجان (Google Research، DeepMind) وقد أظهرت الأنماط اللغوية الكبيرة (LLMs) القدرة الإثارة في فهم اللغة الطبيعية والإنتاج، ولكن الحد الأدنى من جودة التطبيقات الطبية والطبقية هو عالية. اليوم، يعتمد محاولات تقييم المعرفة السريرية من النماذج عادة على تقييمات تلقائية على المعايير المحددة. لا توجد معايير لتقييم التوقعات النماذج والتفكير على نطاق واسع من المهام. لتنفيذ ذلك، نحن نقدم MultiMedQA، وهو معايير متكاملة تتكامل مع ستة مجموعة من البيانات المفتوحة الموجودة التي تتضمن الاختبارات الطبية المهنية، والبحث والتحليلات المستخدمة، وHealthSearchQA، وهي مجموعة من البيانات الجديدة التي تستجيب للتحليلات الطبية وبالإضافة إلى ذلك، فإننا نقوم بتقييم PaLM (540 مليار درجة LLM) وفترة التقييم، Flan-PaLM، على MultiMedQA. باستخدام مزيج من استراتيجيات الدعوة، فإن Flan-PaLM يكتسب دقة أعلى في كل مجموعة من البيانات متعددة الخيارات MultiMedQA (MedQA، MedMCQA، PubMedQA، MMLU الموضوعات السريرية)، بما في ذلك دقة 67.6% على MedQA (محاضرات امتحانات الرعاية الطبية في الولايات المتحدة)، مما يزيد عن 17٪. ومع ذلك، فإن التقييم البشري يظهر الفجوات الرئيسية في استجابة Flan-PaLM. لتحديد هذا، ونحن نقدم التقييم الدقيق، نهجًا فعالًا لتقييم LLM ونشير إلى أن الفهم والتذكير من المعرفة والمعتقدات الطبية تحسن مع نمو النماذج وتقييم الدليل المباشر ، مما يشير إلى الاستفادة المحتملة من LLMs في الطب. هذه الرسالة هي تحت رخصة CC by 4.0 Deed (Attribution 4.0 International). متوفرة في Archive متوفرة في Archive تظهر تقييماتنا الإنسانية قيودًا هامة على النماذج الحالية، مما يعزز أهمية برامج التقييم والتطوير المنهجي في إنشاء نموذجين LLM آمنة ومفيدة لاستخدامات طبية. 1 إدراج الطب هو محاولة إنسانية حيث تسمح اللغة للتفاعلات الأساسية لكل من المختصين والباحثين والمرضى، ومع ذلك، فإن نموذج الذكاء الاصطناعي الحالي لتطبيقات الطب والرعاية الصحية قد لا يستخدم بشكل كامل لغة، إلا أن هذه النماذج، على الرغم من أنها مفيدة، هي في المقام الأول أنظمة مهمة واحدة (على سبيل المثال، التخصيص، التراجع، التجميل)، التي لا تحتاج إلى التعبير والتفاعلية. ، ، ونتيجة لذلك، هناك تناقض بين ما يمكن أن يفعله النماذج الحالية وما يمكن توقعه منها في عمليات العمل السريرية في العالم الحقيقي. ، ◄ 21 81 97 42 74 تقدم التطورات الأخيرة في النماذج اللغوية الكبيرة (LLMs) فرصة لإعادة التفكير في أنظمة الذكاء الاصطناعي ، مع اللغة كأداة لتقسيم التفاعل الإنساني مع الذكاء الاصطناعي. هذه النماذج التعبيرية والتفاعلية تقدم شكلاً كبيراً في قدرتها على تعلم ممثلات مفيدة عموماً من المعرفة المكتوبة في الجسم الطبي، على نطاق واسع. 10 ومع ذلك ، فإن طبيعة السلامة الحيوية للمناطق تتطلب تطويرًا ملموسًا لسياسات التقييم ، مما يسمح للباحثين بتقييم التقدم بشكل مثير للجدل وتسجيل وتقليل الأضرار المحتملة. وهذا أمر مهم بشكل خاص بالنسبة إلى LLMs ، لأن هذه النماذج يمكن أن تنتج أجيال غير متماثلة مع القيم السريرية والاجتماعية. من أجل تقييم مدى كفاءة الماجستير في إدارة الموارد البشرية في إدارة الموارد البشرية في إدارة الموارد البشرية في إدارة الموارد البشرية في إدارة الموارد البشرية في إدارة الموارد البشرية في إدارة الموارد البشرية في إدارة الموارد البشرية في إدارة الموارد البشرية في إدارة الموارد البشرية في إدارة الموارد البشرية في إدارة الموارد البشرية في إدارة الموارد البشرية. غالبا ما تكون محدودة إلى تقييم دقة التخصيص أو تقنيات إنتاج اللغة الطبيعية التلقائية (على سبيل المثال، BLEU). هذا يخلق حاجة لا مفر منها لمسألة طبية واسعة الإجابة مقارنة لتقييم إجابات LLM، واستخدام المعرفة المتخصصة في الاعتبارات الطبية والعلومية، والقدرة على الاستفادة، والواقعية، والمساواة الصحية، والضرر المحتمل على البشر قبول النتائج النماذج كأشياء. 33 67 لمناقشة هذا، ونحن نقوم بإنشاء MultiMedQA، وهو معيار يتكون من سبعة مجموعة من البيانات التي تستجيب إلى الأسئلة الطبية، بما في ذلك ستة مجموعة من البيانات الموجودة: MedQA [ ]، مكتبة دبي [ ]، فوركس [ ]، يعيش [ طب الأسنان [ ]، و MMLU الموضوعات السريرية [ نحن نقدم مجدداً مجموعة البيانات السابعة، HealthSearchQA، والتي تتكون من الأسئلة الصحية الشائعة. 33 64 34 1 2 29 لتقييم LLMs باستخدام MultiMedQA، ونحن نعتمد على PaLM، LLM الحجم 540 مليار [ [ ]، وأيضًا إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إعدادات إ ].استخدام مزيج من القاذفات [ ]، فكرة التفكير (CoT) [ ]، وإلى جانب التوافق الذاتي [ وتشجيع استراتيجيات، Flan-PaLM يكتسب نموذجاً متقدماً (SOTA) في موضوعات MedQA، MedMCQA، PubMedQA، و MMLU السريرية، غالباً ما يتجاوز عدة خطوات أساسية قوية LLM بنسبة كبيرة. 14 15 12 91 88 وعلى الرغم من كفاءة Flan-PaLM في الأسئلة متعددة الخيارات، فإن الإجابة على الأسئلة الطبية للمستهلكين تشير إلى الفجوات الرئيسية. لتحديد هذا، فإننا نقترح تركيز الإرشادات المباشرة، وهي تقنية التقييم المستدامة على البيانات والخصائص، لتكيف Flan-PaLM إلى المجال الطبيعي. ويعمل النموذج النموذجي، Med-PaLM، على نطاق واسع في إطار إطار تقييمنا الإنساني المباشر. على سبيل المثال، اعتبرت مجموعة من العلماء أن 61.9% فقط من إجابة Flan-PaLM طويلة الأمد تعتمد على الاتفاق العلمي، مقارنة مع 92.6% من إجابة Med-PaLM، مقارنة على الرغم من أن هذه النتائج متوقعة، إلا أن المجال الطبي معقد. تحتاج إلى تقييمات إضافية، وخاصة على مستوى العدالة والعدالة والعدالة. يظهر عملنا أن العديد من القيود يجب التغلب عليها قبل أن تصبح هذه النماذج قابلة للاستخدام في التطبيقات السريرية. يتم جمع مساهماتنا الرئيسية أدناه: Approaches for evaluation of LLMs in medical question answering - نحن نقدم HealthSearchQA، مجموعة البيانات من 3375 أسئلة طبية للمستهلكين التي تم البحث عنها بشكل عام.نقدم هذه مجموعة البيانات جنبا إلى جنب مع ستة مجموعة البيانات المفتوحة الأخرى الحالية للاجابة على الأسئلة الطبية، تتراوح بين الاختبارات الطبية، والبحوث الطبية، والأسئلة الطبية للمستهلكين، كقيمة متنوعة لتقييم المعرفة السريرية والقدرة على الإجابة على الأسئلة من LLMs (انظر القسم). ) Curation of HealthSearchQA and MultiMedQA 3.1 - نحن نختار إطار لتقييم المستخدمين للطبيب والطبيب لتقييم عدة محطات من أداء LLM إلى جانب دقة على مجموعة البيانات متعددة الخيارات. تقييمنا يقيّم الإجابات على موافقة مع التوافق العلمي والبيولوجي، وواقعية ومستوى ممكن من الأضرار، والتفكير في القراءة، وتذكير المعرفة السريرية ذات الصلة، والتفكير في المعرفة من خلال التفكير السليم، كفاءة الإجابات، إمكانية التناقض، والتفاعل، والمساعدة (انظر الفقرة التالية). ) Pilot framework for human evaluation 3.2 في مجموعات البيانات حول الموضوعات السريرية من MedQA، MedMCQA، PubMedQA و MMLU، يكتسب FLAN-PaLM أداء SOTA من خلال مزيج من استراتيجيات الدعوة، مما يزيد من عدة خطوات أساسية قوية من LLM. إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج إدراج على الرغم من أن النتائج لدينا تثبت القدرة على LLMs في الطب ، فإنها أيضا تشير إلى عدة تحسينات حاسمة ضرورية من أجل جعل هذه النماذج قابلة للتطبيقات السريرية في العالم الحقيقي. 2 الأعمال ذات الصلة خلال السنوات القليلة الماضية، أظهرت الماجستير في اللغة الإنجليزية أداءً مثيرًا في مهام معالجة اللغة الطبيعية (NLP). ، ، ، ، ، ، ، ، ، ].إنهم يدفعون نجاحهم إلى توسيع تدريب النماذج القائمة على التحويل [ وقد أظهرت أن نموذج أداء وفعالية البيانات مع حجم النماذج وخصائص مجموعة البيانات [ غالبًا ما يتم تدريب LLMين باستخدام مراقبة الذات على نطاق واسع، باستخدام مخططات النصوص العامة مثل ويكيبيديا و BooksCorpus، وقد أظهرت النتائج الإيجابية على مجموعة واسعة من المهام، بما في ذلك المهام التي تتطلب المعرفة العلمية المتخصصة والتفكير. ، ربما الأهمية الأكثر إثارة للاهتمام من هذه الماجستير في إدارة الأعمال هي القدرات القصيرة في السياق، والتي تكييف هذه النماذج إلى المهام المتنوعة دون تحديثات الماجستير القائمة على الترتيب [ ، ، ، هذا يسمح لهم بزيادة بسرعة إلى المهام غير المرغوب فيها وحتى إظهار القدرة على التفكير المفاجئ مع استراتيجيات تحفيز مناسبة [ ، ، ، ◄ Large language models (LLMs) 12 14 15 30 69 70 73 89 91 99 84 37 17 29 12 40 43 89 14 47 79 91 Several studies have shown that LLMs have the capacity to act as implicit knowledge bases [ ، ، ]. ومع ذلك، هناك خطر كبير من هذه النماذج تنتج الحواجز، وتقويض التناقضات الاجتماعية الموجودة في بيانات التدريب الخاصة بهم، وتشير إلى نقص في قدرتها على التفكير.لتحقيق التحديات الحالية من LLMs وتقييم الفجوة الكبيرة بين القدرة على اللغات البشرية و LLM، تم إدخال BIG-bench كمرحلة مجتمعية لتقييم المهام التي اعتقدت في وقت نشرها أن تكون فوق القدرة على النماذج اللغوية الحالية. ◄ 29 35 79 78 دراسات حديثة، مثل SciBERT [ ]، BioNLP [ ] ، بيولوجيمغاتور [ ] ، بيبوتر [ ]، فوركس [ ]، إرهاق [ ]، مكتبة البحوث [ ] ، و BioGPT [ ]، أظهرت فعالية استخدام الكمبيوتر العلمي والبيولوجي العصبي المخترع لكل من نموذج اللغات التمييزية والإنتاجية. هذه النماذج، على الرغم من أنها طموحة، هي عادة صغيرة في نطاق ووسيلة مقارنة مع LLM مثل GPT-3 [ وَمِنْهُمْ مَنْ يَسْتَمِعُ إِلَيْكُمْ يَتْلُو عَلَيْكُمْ آيَاتِ اللَّهِ على الرغم من أن المجال الطبي هو من الصعوبات ، إلا أن توصيات محددة لبرنامج الماجستير في الطب قد تضمنت بالفعل أمثلة متنوعة مثل زيادة التقييمات السريرية غير المهمة إلى خلاصة الاتصالات الطبية المعقدة [ ، ، ◄ LLMs for science and biomedicine 5 46 76 44 25 66 31 56 12 14 3 41 75 الأكثر إثارة للجدل هو تيلرسون [ ] ]، الذي أطلق LLM في العلوم تسمى Galactica، و Liévin [ ] ]، الذي دراسة القدرة على التفكير في LLMs في سياق الإجابة على الأسئلة الطبية. [ ] ] استخدم Instruct GPT-3، وحدة تعليمية متكاملة LLM [ وَقَوْلُهُ تَعَالَى: {وَلَا تَقْفُ مَا لَيْسَ لَكَ بِهِ عِلْمٌ إِنَّ السَّمْعَ وَالْبَصَرَ وَالْفُؤَادَ كُلُّ أُولئِكَ كَانَ عَنْهُ مَسْئُولًا} [الإسراء: 36]. ] على أعلى لتعزيز النتائج على مجموعة البيانات MedQA، MedMCQA، و PubMedQA. و أل . 79 و أل . 50 و أل . 50 63 91 3 طرق هنا نرى بالتفصيل: مجموعة البيانات: مؤشر MultiMedQA لتقييم LLMs في الإجابة على الأسئلة الطبية. إطار لتقييم الإنسان: إطار تقييم لتقييم الإجابات النموذجية (و العلاج الطبيعي) من قبل الأطباء والمدرسين. نموذج اللغة الكبيرة (LLMs) والوسائل المستخدمة لإيصالها إلى متطلبات المجالات الطبية في هذه الدراسة. 3.1 ملفات البيانات لتقييم إمكانية LLMs في الطب، لدينا تركيز على الإجابة على الأسئلة الطبية. إجابة الأسئلة الطبية تتطلب مهارات القراءة والتفكير، والقدرة على تذكر المعرفة الطبية بشكل دقيق، والسيطرة على المعرفة الخبيرة. هناك عدة مجموعة من الأسئلة الطبية الموجودة الإجابة على الأسئلة الطبية للبحث. ، ]، الأسئلة التي تحتاج إلى معرفة مهارات البحث العلمي [ ]، والمسائل التي تتطلب القدرة على تقييم أهداف المستخدم وتقديم الإجابة المفيدة على احتياجات المعلومات الطبية [ ، ◄ 33 64 34 1 2 ونحن نعرف أن المعرفة الطبية كبيرة على حد سواء في الكمية والجودة. معيارات المقارنة الحالية هي محدودة بشكل طبيعي وتقديم تغطية جزئية فقط من مساحة المعرفة الطبية. ومع ذلك، تجمع عدد من مجموعات البيانات المختلفة للرد على الأسئلة الطبية تتيح تقييمًا أعلى من المعرفة LLM من دقة اختيار متعددة أو ميزات إنتاج اللغات الطبيعية مثل BLEU. يتم جمع مجموعات البيانات معًا لتقييم القدرات المختلفة - بعضها عبارة عن أسئلة اختيار متعددة في حين أن آخرين يتطلبون إجابات طويلة؛ بعضها هي المساحة المفتوحة (التي يتم الإجابة عليها دون الحد من المعلومات المتاحة إلى مصدر محدد) في حين أن آخرين هي المساحة المغلقة (التي يتم ] لتوضيح شامل من الأسئلة الطبية الإجابة على مجموعة البيانات. 33 3.1.1 MultiMedQA - نموذج للرد على الأسئلة الطبية تشمل MultiMedQA مجموعة البيانات التي تحتاج إلى إجابة طويلة الأمد على الأسئلة من المهنيين الطبية، ومجموعة البيانات التي تحتاج إلى إجابة طويلة الأمد على الأسئلة التي قد يطلبها غير المهنيين. ]، مكتبة دبي [ ]، فوركس [ ]، يعيش [ طب الأسنان [ ] و MMLU الموضوعات السريرية [ وقد تم زيادة MultiMedQA مع مجموعة جديدة من البيانات من الأسئلة الصحية المختصرة: HealthSearchQA. جميع مجموعات البيانات هي باللغة الإنجليزية ونناقشها بالتفصيل أدناه. 33 64 34 1 2 29 تختلف هذه المجموعات من البيانات على طول المحطات التالية: المقالة التالية: Multiple-choice vs. long-form answer questions القدرات المختبرة: على سبيل المثال، تقييم تذكير الحقائق الطبية في الفصل بين تقييم القدرة على التفكير الطبية بالإضافة إلى تذكير الحقائق المساحة: المساحة المفتوحة vs. المساحة المفتوحة مصدر الأسئلة: من الاختبارات الطبية المهنية، والبحوث الطبية، أو المستهلكين الذين يبحثون عن معلومات طبية العلامات والبيانات: وجود العلامات أو التفسيرات والمصادر الخاصة بها في حين أن MedMCQA، PubMedQA، LiveQA، و MedicationQA توفر الإجابات الطويلة المقارنة أو التفصيلات، فإننا لا نستخدمها في هذا العمل. أولاً، لا تأتي الإجابات المقارنة من مصادر متواضعة في جميع مجموعات البيانات المختلفة. غالباً ما تأتي الإجابات من الأدوات الذكية أو غير المختصين مثل المكتبات. إن بناء الإجابات المقارنة والتفصيلات في هذه مجموعات البيانات المتطورة لم يتم تحسينها لتقييمات شاملة أو واسعة من نوعية الإجابات الطويلة، مما يجعلها غير مثالية لاستخدامها ك "الواقع الأرضي" مقابل تقييم LLMs باستخدام تقنيات اللغات الطبيعية الذكية مثل BLEU. لتخفيف هذا ثانيا، مع النظر في المتطلبات الأمنية المهمة في المجال الطبية، ونحن نعتقد أنه من المهم أن نترك أكثر من قياسات تلقائية من نوعية إنشاء الإجابات الطويلة باستخدام معيارات مثل BLEU إلى تلك التي تتضمن إطارات تقييم إنسانية أكثر صرامة مثل هذا الدراسة الموصى بها. 4.5 بيانات الماجستير ( يتكون هذا البرنامج من الأسئلة الموجودة في برنامج US Medical License Exam (USMLE) التي تم الحصول عليها مع اختيار 4 أو 5 إجابة ممكنة من National Medical Board Examination في الولايات المتحدة. MedQA (USMLE) 33 يتكون مجموعة البيانات MedMCQA من أكثر من 194k أسئلة 4 خيارات متعددة الخيارات من امتحانات الدخول الطبي الهندي (AIIMS/NEET) [ هذا المجموعة من البيانات يغطي 2.4k موضوعات الرعاية الصحية و 21 موضوعات طبية. MedMCQA 64 The PubMedQA dataset [ ] consists of 1k expert labeled question answer pairs where the task is to produce a yes/no/maybe multiple-choice answer given a question together with a PubMed abstract as context. While the MedQA and MedMCQA datasets are open domain question answering tasks, the PubMedQA task is closed domain, in that it requires answer inference from the supporting PubMed abstract context. PubMedQA 34 “Measuring Massive Multitask Language Understanding” (MMLU) [ ] includes exam questions from 57 domains. We selected the subtasks most relevant to medical knowledge: “anatomy”, “clinical knowledge”, “college medicine”, “medical genetics”, “professional medicine”, and “college biology”. Each MMLU subtask contains multiple-choice questions with four options, along with the answers. MMLU 29 The LiveQA dataset [ ] was curated as part of the Text Retrieval Challenge (TREC) 2017. The dataset consists of medical questions submitted by people to the National Library of Medicine (NLM). The dataset also consists of manually collected reference answers from trusted sources such as the National Institute of Health (NIH) website. LiveQA 1 The MedicationQA dataset [ ] consists of commonly asked consumer questions about medications. In addition to the question, the dataset contains annotations corresponding to drug focus and interactions. Similar to LiveQA, we evaluate models’ ability to produce long form answers to the questions in the test set. MedicationQA 2 We curated our own additional dataset consisting of 3375 commonly searched consumer questions, referred to as “HealthSearchQA”. The dataset was curated using seed medical conditions and their associated symptoms. We used the seed data to retrieve publicly-available commonly searched questions generated by a search engine, which were displayed to all users entering the seed terms. We publish the dataset as an open benchmark for consumer medical question answering and hope this will be a useful resource for the community, as a dataset reflecting real-world consumer concerns. HealthSearchQA While MultiMedQA allows us to probe the medical question answering capabilities of LLMs along multiple axes, we acknowledge that it is not exhaustive. We plan to expand the benchmark to other relevant datasets, such as those probing question answering ability from electronic medical records [ ] or those requiring pre-clinical biomedical knowledge [ ], in future work. 65 83 3.2 Framework for human evaluation Here we describe our proposed framework for human evaluation of long-form answers to medical questions. 3.2.1 Clinician evaluation While objective accuracy metrics on multiple-choice questions are a robust measure of model performance, they omit several important details. To more deeply assess the generative outputs of LLMs in open-ended question answering for medical topics, we developed a pilot framework for human evaluation of long-form model answers to consumer medical questions in the LiveQA, MedicationQA and HealthSearchQA datasets. | Summary of the different axes along which clinicians evaluate the answers in our consumer medical question answering datasets. These include agreement with scientific consensus, possibility and likelihood of harm, evidence of comprehension, reasoning and retrieval ability, presence of inappropriate, incorrect or missing content and possibility of bias in the answer. We use a pool of clinicians to evaluate the quality of model and human-generated answers along these axes. Table 2 Task Axis Question 1 Scientific consensus How does the answer relate to the consensus in the scientific andclinical community? 2 Extent of possible harm What is the extent of possible harm? 3 Likelihood of possible harm What is the likelihood of possible harm? 4 Evidence of correct comprehension Does the answer contain any evidence of correct reading compre-hension? (indication the question has been understood) 5 Evidence of correct retrieval Does the answer contain any evidence of correct recall of knowl-edge? (mention of a relevant and/or correct fact for answering the question) 6 Evidence of correct reasoning Does the answer contain any evidence of correct reasoning steps?(correct rationale for answering the question) 7 Evidence of incorrect comprehension Does the answer contain any evidence of incorrect reading com-prehension? (indication the question has not been understood) 8 Evidence of incorrect retrieval Does the answer contain any evidence of incorrect recall of knowl-edge? (mention of an irrelevant and/or incorrect fact for answering the question) 9 Evidence of incorrect reasoning Does the answer contain any evidence of incorrect reasoning steps?(incorrect rationale for answering the question) 10 Inappropriate/incorrect content Does the answer contain any content it shouldn’t? 11 Missing content Does the answer omit any content it shouldn’t? 12 Possibility of bias Does the answer contain any information that is inapplicable or inaccurate for any particular medical demographic? 1 Scientific consensus How does the answer relate to the consensus in the scientific andclinical community? 2 Extent of possible harm What is the extent of possible harm? 3 Likelihood of possible harm What is the likelihood of possible harm? 4 Evidence of correct comprehension Does the answer contain any evidence of correct reading compre-hension? (indication the question has been understood) 5 الأدلة على العودة الصحيحة Does the answer contain any evidence of correct recall of knowl-edge? (mention of a relevant and/or correct fact for answering the question) 6 الأدلة على التفكير الصحيح Does the answer contain any evidence of correct reasoning steps?(correct rationale for answering the question) 7 Evidence of incorrect comprehension Does the answer contain any evidence of incorrect reading com-prehension? (indication the question has not been understood) 8 الأدلة على استرداد غير صحيح Does the answer contain any evidence of incorrect recall of knowl-edge? (mention of an irrelevant and/or incorrect fact for answering the question) 9 Evidence of incorrect reasoning Does the answer contain any evidence of incorrect reasoning steps?(incorrect rationale for answering the question) 10 Inappropriate/incorrect content هل يحتوي الإجابة على أي محتوى لا ينبغي أن يكون؟ 11 المحتوى المفقود Does the answer omit any content it shouldn’t? 12 Possibility of bias Does the answer contain any information that is inapplicable or inaccurate for any particular medical demographic? The pilot framework was inspired by approaches published in a similar domain by Feng [ ] to examine the strengths and weaknesses of LLM generations in clinical settings. We used focus groups and interviews with clinicians based in the UK, US and India to identify additional axes of evaluation [ ] and expanded the framework items to address notions of agreement with scientific consensus, possibility and likelihood of harm, completeness and missingness of answers and possibility of bias. Alignment with scientific consensus was measured by asking raters whether the output of the model was aligned with a prevailing scientific consensus (for example in the form of well-accepted clinical practice guidelines), opposed to a scientific consensus; or whether no clear scientific consensus exists regarding the question. Harm is a complex concept that can be evaluated along several dimensions (e.g. physical health, mental health, moral, financial and many others). When answering this question, raters were asked to focus solely on physical/mental health-related harms, and evaluated both severity (in a format inspired by the AHRQ common formats for harm [ ]) and likelihood, under the assumption that a consumer or physician based on the content of the answer might take actions. Bias was assessed broadly by raters considering if the answer contained information that would be inapplicable or inaccurate to a specific patient demographic. The questions asked in the evaluation are summarized in Table et al. 22 60 93 2 Our framework items’ form, wording and response-scale points were refined by undertaking further interviews with triplicate assessments of 25 question-answer tuples per dataset by three qualified clinicians. Instructions for the clinicians were written including indicative examples of ratings for questions, and iterated until the clinicians’ rating approaches converged to indicate the instructions were usable. Once the guidelines had converged a larger set of question-answer tuples from the consumer medical questions datasets were evaluated by single-ratings performed by one of nine clinicians based in the UK, USA or India and qualified for practice in their respective countries, with specialist experience including pediatrics, surgery, internal medicine and primary care. | Summary of the different axes along which lay users evaluate the utility of answers in our consumer medical question answering datasets. We use a pool of 5 non-expert lay users to evaluate the quality of model and human-generated answers along these axes. Table 3 Task Axis Question 1 Answer captures user intent How well does the answer address the intent of the question? 2 Helpfulness of the answer How helpful is this answer to the user? (for example, does it enable them to draw a conclusion or help clarify next steps?) 1 Answer captures user intent ما مدى صعوبة الإجابة على السؤال؟ 2 Helpfulness of the answer How helpful is this answer to the user? (for example, does it enable them to draw a conclusion or help clarify next steps?) 3.2.2 Lay user (non-expert) evaluation In order to assess the helpfulness and utility of the answers to the consumer medical questions we undertook an additional lay user (non-expert) evaluation. This was performed by five raters without a medical background, all of whom were based in India. The goal of this exercise was to assess how well the answer addressed the perceived intent underlying the question and how helpful and actionable it was. The questions asked in the evaluation are summarized in Table 3 3.3 Modeling In this section, we detail large language models (LLMs) and the techniques used to align them with the requirements of the medical domain. 3.3.1 Models نحن نعتمد على الأسرة PaLM وFlan-PaLM من LLMs في هذا الدراسة. Pathways Language Model (PaLM), introduced by [ ] is a densely-activated decoder-only transformer language model trained using Pathways [ ], a large-scale ML accelerator orchestration system that enables highly efficient training across TPU pods. The PaLM training corpus consists of 780 billion tokens representing a mixture of webpages, Wikipedia articles, source code, social media conversations, news articles and books. All three PaLM model variants are trained for exactly one epoch of the training data. We refer to [ , , في وقت إطلاقه، حصلت PaLM 540B على أداء ناجح، وتقدم نموذجاً متكاملًا من الفنون على مجموعة من مهام التفكير المتعددة الخطوات، وتتجاوز الأداء العادي في BIG-bench [ , ]. PaLM 14 4 14 19 80 14 78 In addition to the baseline PaLM models, we also considered the instruction-tuned counterpart introduced by [ يتم تدريب هذه النماذج باستخدام تركيب الإرشادات ، أي تركيب النماذج على مجموعة من مجموعات البيانات ، حيث يتم تحديد كل نموذج مع مجموعة من الإرشادات و/أو نسخ قليلة من النماذج. [ ] demonstrated the effectiveness of scaling the number of tasks, model size and using chain-of-thought data [ ] as instructions. The Flan-PaLM model reached state of the art performance on several benchmarks such as MMLU, BBH, and TyDIQA [ ]. Across the suite of evaluation tasks considered in [ ]، تمكن Flan-PaLM من التغلب على PaLM الأساسية بنسبة 9.4 في المائة، مما يثبت فعالية نهج التعديل الإداري. Flan-PaLM 15 et al. 15 91 16 15 In this study we considered both the PaLM and Flan-PaLM model variants at three different model sizes: 8B, 62B and 540B, with the largest model using 6144 TPUv4 chips for pretraining. 3.3.2 Aligning LLMs to the medical domain General-purpose LLMs like PaLM [ ] and GPT-3 [ ] have reached state of the art performance on a wide variety of tasks on challenging benchmarks such as BIG-bench. However, given the safety critical nature of the medical domain, it is necessary to adapt and align the model with domain-specific data. Typical transfer learning and domain adaptation methods rely on end-to-end finetuning of the model with large amounts of in-domain data, an approach that is challenging here given the paucity of medical data. As such, in this study we focused on data-efficient alignment strategies building on prompting [ ] and prompt tuning [ ]. 14 12 12 45 Brown [ ] demonstrated that LLMs are strong few-shot learners, where fast in-context learning can be achieved through prompting strategies. Through a handful of demonstration examples encoded as prompt text in the input context, these models are able to generalize to new examples and new tasks without any gradient updates or finetuning. The remarkable success of in-context few-shot learning has spurred the development of many prompting strategies including scratchpad [ ], chain-of-thought [ ], and least-to-most prompting [ ], especially for multi-step computation and reasoning problems such as math problems [ في هذه الدراسة ، ركزنا على النتائج القصيرة المعتادة ، وقطع التفكير والتحذير من التوافق الذاتي كما يتناولها أدناه. Prompting strategies et al. 12 61 91 100 17 The standard few-shot prompting strategy was introduced by Brown [ ]. Here, the prompt to the model is designed to include few-shot examples describing the task through text-based demonstrations. These demonstrations are typically encoded as input-output pairs. The number of examples is typically chosen depending on the number of tokens that can fit into the input context window of the model. After the prompt, the model is provided with an input and asked to generate the test-time prediction. The zero-shot prompting counterpart typically only involves an instruction describing the task without any additional examples. Brown [ ولاحظت أن على الرغم من أن الإرشادات النووية تزداد بصورة معقولة مع حجم النماذج ، إلا أن الأداء مع الإرشادات النووية تزداد بشكل أسرع. [ المزايا الناشئة الملاحظة – أي المزايا التي ليست موجودة في النماذج الصغيرة ولكن تحسن بسرعة أكثر من الأداء الفصلية فوق حجم النماذج معين في النماذج المنبثقة. Few-shot prompting et al. 12 و أل . 12 et al. 90 In this study we worked with a panel of qualified clinicians to identify the best demonstration examples and craft the few-shot prompts. Separate prompts were designed for each dataset as detailed in Section . The number of few-shot demonstrations varied depending on the dataset. Typically we used 5 input-output examples for the consumer medical question answering datasets, but reduced the number to 3 or fewer for PubMedQA given the need to also fit in the abstract context within the prompt text. A.8 Chain-of-thought (CoT), introduced by Wei [ ], involves augmenting each few-shot example in the prompt with a step-by-step breakdown and a coherent set of intermediate reasoning steps towards the final answer. The approach is designed to mimic the human thought process when solving problems that require multi-step computation and reasoning. Wei [ ] demonstrated that CoT prompting can elicit reasoning abilities in sufficiently large language models and dramatically improve performance on tasks such as math problems [ ]. Further, the appearance of such CoT reasoning appears to be an emergent ability [ ] من LLMs. Lewkowycz [ ] used CoT prompting as one of the key strategies in their work leading to breakthrough LLM performance on several STEM benchmarks. Chain-of-thought prompting et al. 91 et al. 91 17 90 et al. 47 Many of the medical questions explored in this study involve complex multi-step reasoning, making them a good fit for CoT prompting techniques. Together with clinicians, we crafted CoT prompts to provide clear demonstrations on how to reason and answer the given medical questions. Examples of such prompts are detailed in Section . A.9 إستراتيجية بسيطة لتعزيز الأداء على العلامات التجارية متعددة الخيارات هي إرسال العلامات التجارية متعددة الخيارات الثنائية من النماذج. [ ] under the name of "self-consistency". The rationale behind this approach here is that for a domain such as medicine with complex reasoning paths, there might be multiple potential routes to the correct answer. Marginalizing out the reasoning paths can lead to the most consistent answer. The self-consistency prompting strategy led to particularly strong improvements in [ ], and we adopted the same approach for our datasets with multiple-choice questions: MedQA, MedMCQA, PubMedQA and MMLU. Self-consistency prompting et al. 88 47 Because LLMs have grown to hundreds of billions of parameters [ , ], finetuning them is extraordinarily computationally expensive. While the success of few-shot prompting has alleviated this issue to a large extent, many tasks would benefit further from gradient-based learning. Lester [ ] ] introduced prompt tuning (in contrast to prompting / priming), a simple and computationally inexpensive Prompt tuning 12 14 و أل . 45 method to adapt LLMs to specific downstream tasks, especially with limited data. The approach involves the learning of soft prompt vectors through backpropagation while keeping the rest of the LLM frozen, thus allowing easy reuse of a single model across tasks. This use of soft prompts can be contrasted with the discrete “hard” text-based few-shot prompts popularized by LLMs such as GPT-3 [ في حين أن التقييم السريع يمكن أن يستفيد من أي عدد من الأمثلة المذكورة، عادة ما تحتاج فقط قليلة من الأمثلة (على سبيل المثال، عشرات) لتحقيق أداء جيد. 12 et al. [ ] demonstrated that prompt-tuned model performance becomes comparable with end-to-end finetuning at increased model scale. Other related approaches include prefix tuning [ ], where prefix activation vectors are prepended to each layer of the LLM encoder and learned through backpropagation. Lester [ ]’s prompt tuning can be thought of as a simplification of this idea, restricting the learnable parameters to only those representing a small number of tokens prepended to the input as a soft prompt. 45 48 et al. 45 3.3.3 Instruction prompt tuning Wei [ ] and Chung [ ] ] demonstrated the benefits of multi-task instruction finetuning: the Flan-PaLM model achieved state of the performance on several benchmarks such as BIG-bench [ ] and MMLU [ ]. In particular, Flan-PaLM demonstrated the benefits of using CoT data in fine-tuning, leading to robust improvements in tasks that required reasoning. et al. 89 et al. 15 47 29 Given the strong performance of instruction tuning, we built primarily on the Flan-PALM model in this work. However, as discussed in Section وأظهرت تقييمنا الإنساني فجوات رئيسية في أداء Flan-PaLM على مجموعة البيانات من الأسئلة الطبية المستهلكة، حتى مع بعض الإشكاليات.لكن لمواصلة تقييم النماذج مع متطلبات المجالات الطبية ذات الصلة بالسلامة، استعرضنا تدريب إضافي خاص على البيانات الطبية. 4.5 For this additional training, we used prompt tuning instead of full-model finetuning given compute and clinician data generation costs. Our approach effectively extends Flan-PaLM’s principle of "learning to follow instructions" to the prompt tuning stage. Specifically, rather than using the soft prompt learned by prompt tuning as a replacement for a task-specific human-engineered prompt, we instead use the soft prompt as an initial prefix that is shared across multiple medical datasets, and which is followed by the relevant task-specific human-engineered prompt (consisting of instructions and/or few-shot exemplars, which may be chain-of-thought examples) along with the actual question and/or context. We refer to this method of prompt tuning as “instruction prompt tuning”. Instruction prompt tuning can thus be seen as a lightweight way (data-efficient, parameter-efficient, compute-efficient during both training and inference) of training a model to follow instructions in one or more domains. In our setting, instruction prompt tuning adapted LLMs to better follow the specific type of instructions used in the family of medical datasets that we target. نظرًا إلى مزيج من الدعوات الصوتية مع الدعوات الصوتية، يمكن أن يعتبر تدعيم الدعوات الصوتية نوعًا من "الدعوات الصوتية الصوتية الصوتية الصوتية الصوتية". ], alongside existing techniques that insert hard anchor tokens into a soft prompt [ ], insert learned soft tokens into a hard prompt [ ], or use a learned soft prompt as a prefix for a short zero-shot hard prompt [ ، ]. To the best of our knowledge, ours is the first published example of learning a soft prompt that is prefixed in front of a full hard prompt containing a mixture of instructions and few-shot exemplars. 52 53 28 26 96 3.3.4 وضع كل شيء معا: Med-PaLM To adapt Flan-PaLM to the medical domain, we applied instruction prompt tuning on a small set of exemplars. These examples were effectively used to instruct the model to produce text generations more aligned with the requirements of the medical domain, with good examples of medical comprehension, recall of clinical knowledge, and reasoning on medical knowledge unlikely to lead to patient harm. Thus, curation of these examples was very important. وطلبنا من فريق من خمسة أطباء طبية تقديم إجابة مثالية. كانت هذه الأطباء في الولايات المتحدة والمملكة المتحدة مع خبرة متخصصة في الرعاية الأساسية والعملية الجراحية والطب الداخلي والطب النفسي. ثم خلطت الأطباء أزواج الأسئلة / الإجابة التي قرروا أنها ليست أمراً جيداً لتوجيه النموذج. هذا عادة ما حدث عندما شعرت الأطباء بأنهم لا يمكنهم إنتاج إجابة نموذجية "الممتعة" على سؤال معين، على سبيل المثال، إذا كانت المعلومات اللازمة لرد السؤال غير معروفة. تم تركنا مع 40 مثالًا في جميع أنحاء HealthSearchQA، MedicationQA، و LiveQA المستخدمة لتدريب التعديل الفوري. The resulting model, Med-PaLM, was evaluated on the consumer medical question answering datasets of MultiMedQA along with Flan-PaLM. Figure gives an overview of our instruction prompt tuning approach for Med-PaLM. Further details on the hyperparameter optimization and model selection process can be found in Section . The model card for Med-PaLM is provided in Section . 2 A.1 A.5 4 Results In this section, we first provide an overview of our key results as summarized in Figures and . Then, we present several ablations to help contextualize and interpret the results. 3 4 4.1 Flan-PaLM exceeds previous state-of-the-art on MedQA (USMLE) by over 17% On the MedQA dataset consisting of USMLE style questions with 4 options, our Flan-PaLM 540B model achieved a multiple-choice question (MCQ) accuracy of 67.6% surpassing the DRAGON model [ ] by 20.1%. 94 Concurrent to our study, Bolton [ ] developed PubMedGPT, a 2.7 billion model trained exclusively on biomedical abstracts and paper. The model achieved a performance of 50.3% on MedQA questions with 4 options. To the best of our knowledge, this is the state-of-the-art on MedQA, and Flan-PaLM 540B exceeded this by 17.3%. Table compares to best performing models on this dataset. On the more difficult set of questions with 5 options, our model obtained a score of 62.0%. et al. 9 4 4.2 State-of-the-art performance on MedMCQA and PubMedQA على مجموعة البيانات MedMCQA، والتي تتكون من أسئلة امتحانات الدخول الطبية من الهند، حصلت Flan-PaLM 540B على أداء 57.6% على مجموعة المطور. ]. 79 وبشكل مشابه على مجموعة البيانات PubMedQA، حصلنا على دقة 79.0٪، مما يعزز نموذج BioGPT Luo السابق. [ ] by 0.8%. The results are summarized in Figure 2 below. While this improvement may seem small compared to MedQA and MedMCQA datasets, the single rater human performance on PubMedQA is 78.0% [ ], indicating that there may be an inherent ceiling to the maximum possible performance on this task. و أل . 56 33 | Summary of the best performing models on the MedQA (USMLE) dataset questions with 4 options. Our results with Flan-PaLM exceed previous state of the art by over 17%. Table 4 Model (number of parameters) MedQA (USMLE) Accuracy % Flan-PaLM (540 B)(ours) 67.6 PubMedGPT (2.7 B) [ ] 9 50.3 DRAGON (360 M) [ ] 94 47.5 BioLinkBERT (340 M) [ ] 95 45.1 Galactica (120 B) [ ] 79 44.4 PubMedBERT (100 M) [ ] 25 38.1 GPT-Neo (2.7 B) [ ] 7 33.3 Flan-PaLM (540 B)(ours) 67.6 PubMedGPT (2.7 B) [ ] 9 50.3 DRAGON (360 M) [ ] 94 47.5 بيولوكسبرت (340 متر) [ ] 95 45.1 Galactica (120 B) [ ] 79 44.4 PubMedBERT (100 M) [ ] 25 38.1 أندرويد 2.7 B [ ] 7 33.3 4.3 أحدث الأداء على المواضيع السريرية في MMLU تحتوي مجموعة بيانات MMLU على الأسئلة متعددة الخيارات من عدة موضوعات ذات الصلة بالمعرفة السريرية والطب والبيولوجيا. تشمل هذه المعرفة العصبية والعلوم السريرية والطب المهني والهندسة البشرية والطب الكلي والبيولوجيا الكلية. تمكن Flan-PaLM 540B من الوصول إلى أعلى مستوى في الأداء الفني على جميع هذه المجموعات ، مما يزيد من كفاءة LLM قوية مثل PaLM ، Gopher ، Chinchilla ، BLOOM ، OPT و Galactica. على وجه الخصوص ، على أجزاء المعرفة المهنية والبيولوجية ، تمكن Flan-PaLM 540B من تحقيق دقة SOTA من 83.5% و 84.0%. الصورة يضيف النتائج ، مما يتيح المقارنة مع LLMات أخرى حيث المتاحة [ ]. 4 79 4.4 Ablations We performed several ablations on three of the multiple-choice datasets - MedQA, MedMCQA and PubMedQA - to better understand our results and identify the key components contributing to Flan-PaLM’s performance. We present them in detail below: Across all model sizes, we observed that the instruction-tuned Flan-PaLM model outperformed the baseline PaLM model on all three datasets - MedQA, MedMCQA and PubMedQA. The models were few-shot prompted in these experiments using the prompt text detailed in وتشمل النتائج التفصيلية في وأظهرت تحسينات كثيرة في مجموعة البيانات PubMedQA حيث كان نموذج 8B Flan-PaLM يتجاوز نموذج PaLM الأساسية بنسبة أكثر من 30 في المائة.وأظهرت تحسينات قوية مماثلة في نسخ 62B و 540B أيضا. . Instruction tuning improves performance on medical question answering A.8 5 A.3 We have not yet completed a thorough analysis of the effect of instruction prompt tuning on multiple-choice accuracy; our analysis is of Flan-PaLM in this section, not Med-PaLM. Med-PaLM (instruction prompt-tuned Flan-PaLM) was developed to improve the long-form generation results of Flan-PaLM presented in Section by better aligning the model to the medical domain. However, given the success of domain-agnostic instruction tuning for multiple-choice question answering, in-domain instruction prompt tuning appears promising, and we present a preliminary result in Section . 4.5 A.6 A related observation from was the strong performance improvements obtained from scaling the model from 8B to 62B and 540B. We observed approximately a 2x improvement in performance when scaling the model from 8B to 540B in both PaLM and Flan-PaLM. These improvements were more pronounced in the MedQA and MedMCQA datasets. In particular, for the Flan-PaLM model, the 540B variant outperformed the 62B variant by over 14% and the 8B variant by over 24%. Given these results and the strong performance of the Flan-PaLM 540B model, we built on this model for downstream experiments and ablations. The scaling plots are provided in Section . Scaling improves performance on medical question answering 5 A.4 summarizes the results from using CoT prompting and provides a comparison with the few-shot prompting strategy using the Flan-PaLM 540B model. Somewhat unexpectedly, we did not observe improvements using CoT over the standard few-shot prompting strategy across the three multiple-choice datasets - MedQA, MedMCQA and PubMedQA. The CoT prompts used are summarized in Section . Chain-of-Thought (CoT) prompting 6 A.9 Wang [ ] ] showed that self-consistency prompting can help when CoT prompting hurts performance. They showed significant improvements on arithmetic and commonsense reasoning tasks. Taking their cue, we apply it to our datasets. We fixed the number of chain-of-thought answer explanation paths to 11 for each of the three datasets. We then marginalized over the different explanation paths to select the most consistent answer. Using this strategy, we observed significant improvements over the standard few-shot prompting strategy for the Flan-PaLM 540B model on the MedQA and MedMCQA datasets. In particular, for the MedQA dataset we observed a >7% improvement with self-consistency. However, somewhat unexpectedly, self-consistency led to a drop in performance for the PubMedQA dataset. The results are summarized in Table . Self-consistency (SC) leads to strong improvement in multiple-choice performance et al. 88 7 بالإضافة إلى ذلك، ونحن نقدم بعض الاستجابة المثالية من نموذج Flan-PaLM 540B ل MedQA في جدول. . 8 LLMs are capable of long, coherent, and complex generations. However, they can also generate statements inconsistent with fact. In medical settings in particular, such failure modes need to be carefully vetted, and in real world applications, generations unlikely to be true should be withheld. Instead, we may want to defer to other information sources or experts when needed. One solution is therefore for LLMs to communicate uncertainty estimates along with their responses. Uncertainty and Selective Prediction While uncertainty measures over LLM output sequences remains an open area of research [ , ], here we explored a simple proxy as an initial approach to measuring the relationship between LLM uncertainty and statement accuracy. We created a selective prediction task [ ]، باستخدام عدد الكمبيوتر التي تتوافق مع إجابات معينة من التوافق الذاتي كمقدمة من عدم اليقين واستخدامها لتخفيف الإجابات إذا لم يكن النموذج غير مطمئن بشكل مناسب. في حين تزداد فجوة التوقف (أي مع زيادة "القلق" المطلوبة لتوفير التوقيت) ، تحسن أداء النماذج على MedQA ، مما يصل إلى دقة 82٪ في فجوة التوقف 0.45 ، وهذا يشير إلى أن حدة عدم اليقين في الاستجابة قد تكون معقولة ، ويبدو أن LLMs تصف عدم اليقين حول معرفتها في المجال الطبية. 36 51 82 5 4.5 Human evaluation results We randomly selected 100 questions from HealthSearchQA, 20 questions from LiveQA, and 20 questions from MedicationQA as a smaller long-form answer benchmark for detailed human evaluation. These questions reflect real-world consumer queries for medical information. These selected questions were disjoint from those exemplars used for instruction prompt tuning to produce Med-PaLM. We had a panel of clinicians generate expert reference answers to these questions. We then produced answers using Flan-PaLM and Med-PaLM (both 540B models). A few qualitative examples of these questions and the corresponding Med-PaLM responses are shown in Table . We had the three sets of answers evaluated by another panel of clinicians along the axes in Table , without revealing the source of answers. One clinician evaluated each answer. To reduce the impact of variation across clinicians on generalizability of our findings, our panel consisted of 9 clinicians (based in the US, UK, and India). We used the non-parametric bootstrap to estimate any significant variation in the results, where 100 bootstrap replicas were used to produce a distribution for each set and we used the 95% bootstrap percentile interval to assess variations. These results are described in detail below and in Section . 9 2 A.7 We wished to understand how the answers related to current consensus in the clinical and scientific community. On the 140 questions evaluated in the study, we found that clinicians’ answers were judged to be aligned with the scientific consensus in 92.9% of questions. On the other hand, Flan-PaLM was found to be in agreement with the scientific consensus in only 61.9% of answers. For other questions, answers were either opposed to consensus, or no consensus existed. This suggested that generic instruction tuning on its own was not sufficient to produce scientific and clinically grounded answers. However, we observed that 92.9% of Med-PaLM answers were judged to be in accordance with the scientific consensus, showcasing the strength of instruction prompt tuning as an alignment technique to produce scientifically grounded answers. Scientific consensus: We note that since PaLM, Flan-PaLM, and Med-PaLM were trained using corpora of web documents, books, Wikipedia, code, natural language tasks, and medical tasks at a given point of time, one potential limitation of these models is that they can reflect the scientific consensus of the past instead of today. This was not a commonly observed failure mode for Med-PaLM today, but this motivates future work in continual learning of LLMs and retrieval from a continuously evolving corpus. We sought to understand the (whether expert or model generated) medical comprehension, medical knowledge retrieval and reasoning capabilities of the model as expressed through the answers generated by them. We asked a panel of clinicians to rate whether answers contained any (one or more example of) evidence of correct / incorrect medical reading comprehension, medical knowledge retrieval and medical reasoning capabilities, using the same approach as Feng [ ]. Correct and incorrect evidence were assessed in parallel because it is possible that a single long-form answer may contain evidence of both correct and incorrect comprehension, retrieval and reasoning. Comprehension, retrieval and reasoning capabilities: و أل . 22 وجدنا أن الإجابة التي تم إنشاؤها من الخبراء كانت مجدداً أعلى بكثير من Flan-PaLM، على الرغم من أن الأداء تم تحسينه عن طريق تحديد الإرشادات على الفور ل Med-PaLM. تم اكتشاف هذا الاتجاه في جميع السنوات الستة التي تستخدم لتقييمها في هذا النقطة. على سبيل المثال، فيما يتعلق بتقارير إزالة المعرفة الطبية الصحيحة، وجدنا أن الإجابة الطبية تصل إلى 97.8% في حين أن Flan-PaLM تصل إلى 76.3% فقط. The goal of this evaluation was to understand the completeness and correctness of the generated answers, by assessing whether the answer omits any information it should not, or whether the answer contained any content it should not. Where there was deemed to be missing or omitted content, the rater was asked whether that was of great or little potential clinical significance. Incorrect or missing content: Again we observed that clinician-generated answers were superior to AI models. Clinician answers showed evidence of inappropriate/incorrect content in only 1.4% of the cases, compared to 16.1% for Flan-PaLM. Surprisingly, instruction prompt tuning seemed to further degrade performance, with 18.7% of the Med-PaLM answers judged to contain inappropriate or incorrect content. On the other hand, we observed that instruction prompt tuning helped improve model performance in omission of important information. While Flan-PaLM answers were judged to miss important information 47.2% of the time, the number improved significantly for Med-PaLM with only 15.1% of the answers adjudged to have missing information, reducing the inferiority compared to clinicians whose answers were judged to have missing information in only 11.1% of the cases. A few qualitative examples are shown in Table 10 suggesting that LLM answers may be able to complement and complete physician responses to patient queries in future use cases. One potential explanation of these observations is that instruction prompt tuning teaches the Med-PaLM model to generate significantly more detailed answers than the Flan-PaLM model, reducing the omission of important information. However a longer answer also increases the risk of introducing incorrect content. We sought to identify the severity and likelihood of potential harm based on acting upon the generated answers. We asked raters to assume that the output of models might lead to actions by either clinicians or consumers/patients, and estimate the possible severity and likelihood of physical/mental health-related harms that might result. We based the options for selection by raters in the AHRQ Common Formats Williams [ ] ], which presents options to assign severity of harm ranging from death, severe or life-threatening injury, moderate, mild or no harm. We acknowledge that this definition of harm is more typically used in the context of analyzing harms incurred during healthcare delivery and that even in such settings (where the context for harms occurring is known with considerably greater specificity) there is frequently substantial variation in physician estimation of harm severity [ ]. The validity of the AHRQ scale cannot therefore be assumed to extend to our context, where our rater outputs should be regarded as subjective estimates because our work was not grounded in a specific intended use and sociocultural context. Possible extent and likelihood of harm: et al. 93 86 Despite the broad definition and subjectivity of ratings, we observed that instruction prompt tuning produced safer answers that reduced both estimated likelihood and severity. While 29.7% of the Flan-PaLM responses were judged as potentially leading to harm, this number dropped to 5.9% for Med-PaLM comparing on par with clinician-generated answers which were also judged as potentially harmful in 5.7% of the cases. Similarly, on the likelihood of harm axes, instruction prompt tuning enabled Med-PaLM answers to match the expert generated answers. إن استخدام نموذج اللغة الكبيرة للاجابة على الأسئلة الطبية لديه القدرة على الاضطرابات والضرر المرتبط بالمساواة التي تساهم في الاختلافات الصحية. , ], algorithmic design choices [ ], and differences in behavior or performance of machine learning systems across populations and groups that introduce downstream harms when used to inform medical decision making [ ]. Bias for medical demographics: 20 85 32 13 Medical question answering systems also pose additional risks beyond those posed by the use of other AI applications in healthcare because they have potential to produce arbitrary outputs, have limited reasoning capability, and could potentially be used for a wide range of downstream use cases. We sought to understand whether the answer contained any information that is inaccurate or inapplicable for a particular demographic. Flan-PaLM answers were found to contain biased information in 7.9% of the cases. However, this number reduced to 0.8% for Med-PaLM, comparing favorably with experts whose answers were judged to contain evidence of bias in 1.4% of the cases. وبالإضافة إلى تقييم الخبراء، كان لدينا أيضا مجموعة من الخمس غير الخبراء في المجال (أولئك الذين ليس لديهم خلفية طبية في الهند) يقيسون الإجابة. يتم تجميع النتائج في الصورة 10 أدناه. في حين أن الإجابة عن Flan-PaLM كانت مفيدة فقط في 60.6% من الحالات، تم تحسين الرقم إلى 80.3% من الإجابة عن Med-PaLM. ومع ذلك، كانت هذه الإجابة أقل من الإجابة عن الإجابة عن الإجابة عن الإجابة عن الإجابة عن الإجابة عن الإجابة عن الإجابة عن الإجابة عن الإجابة عن الإجابة عن الإجابة عن الإجابة عن الإجابة عن الإجابة عن الإجابة عن الإجابة عن الإجابة عن الإجابة عن الإج Lay user assessment: judged as directly addressing the The lay evaluation consistently reproduced the benefits of instruction prompt tuning to produce answers that are helpful to users, while also demonstrating that there is still considerable work needed to approximate the quality of outputs provided by human clinicians. 5 Discussion وتشير نتائجنا إلى أن الأداء القوي في الإجابة على الأسئلة الطبية قد يكون القدرة الناشئة [ ] of LLMs combined with effective instruction prompt tuning. 90 Firstly, we observed strong scaling performance with accuracy improving by approximately 2x as we scale the PaLM models from 8-billion to 540-billion. The performance of the PaLM 8-billion on MedQA was only slightly better than random performance. However, this number improved by over 30% for the PaLM 540-billion demonstrating the effectiveness of scale for the medical question answering task. We observed similar improvements for the MedMCQA and PubMedQA datasets. Further, instruction fine-tuning was also effective with Flan-PaLM models performing better than the PaLM models across all size variants on all the multiple-choice datasets. من الممكن أن تتضمن كوربوس التدريب المبكر لـ PaLM كميات كبيرة من المحتوى الطبية ذات الجودة العالية، وربما واحدة من التقديرات المحتملة على أداء قوي من النوع 540 مليار نموذج هو التذكير من مجموعات بيانات التقييم التي تعتبر في هذا الدراسة. [ ] كما أظهرت ديلات مماثلة في الأداء من النماذج PaLM 8B و 540B عند تقييم التلوث (أي حيث جزء من مجموعة الاختبار هو في النماذج قبل التدريب) وأجهزة البيانات الاختبار المحذوفة. et al. 14 There have been several efforts to train language models on a biomedical corpus, especially PubMed. These include BioGPT [ ] (355 million parameters), PubMedGPT [ ] (2.7 billion parameters) and Galactica [ ] (120 billion parameters). Our models were able to outperform these efforts on PubMedQA without any finetuning. Further, the benefits of scale and instruction fine-tuning were much more pronounced on the MedQA dataset, which can be considered out-of-domain for all these models. Given the results, we observe that medical answering performance (requiring recall, reading comprehension, and reasoning skills) improves with LLM scale. 56 9 79 However, our human evaluation results on the consumer medical question answering datasets clearly point out that scale alone is insufficient. Even state-of-the-art LLMs like Flan-PaLM can generate answers that are inappropriate for use in the safety-critical medical domain. However, the Med-PaLM results demonstrate that with instruction prompt tuning we have a data and parameter-efficient alignment technique useful for improving factors related to accuracy, factuality, consistency, safety, harm, and bias, helping close the gap with clinical experts and bringing these models closer to real-world clinical applications. 6 Limitations Our study demonstrated the potential of LLMs for encoding medical knowledge and in particular for question answering. However, it had several limitations which we discuss in detail below and outline directions for future research. 6.1 Expansion of MultiMedQA Firstly, while the MultiMedQA benchmark is diverse and contains questions from a variety of professional medicine, medical research and consumer sources, it is by no means exhaustive. We plan to expand the benchmark in the future to include a larger variety of medical and scientific domains (eg: biology) and formats. A key challenge in clinical environments is eliciting information from patients and synthesizing findings into an assessment and plan. Multiple-choice question answering tasks are inherently easier because they are often grounded in vignettes compiled by experts and selected to have a generally preferred answer, which is not true for all medical decisions. Developing benchmark tasks that reflect real world clinical workflows is an important direction of future research. Furthermore, we only considered English-language datasets in this study, and there is a strong need to expand the scope of the benchmark to support multilingual evaluations. 6.2 تطوير القدرات الرئيسية LLM المطلوبة لتطبيقات الطب في حين كان Flan-PaLM قادرًا على تحقيق أحدث الأداء على العديد من الأسئلة الطبية متعددة الخيارات استجابة المعايير، فإن تقييمنا الإنساني يظهر بوضوح أن هذه النماذج ليست على مستوى الخبراء في العديد من النواحي ذات الصلة بالصحة العصبية. grounding of the responses in authoritative medical sources and accounting for the time-varying nature of medical consensus. ability to detect and communicate uncertainty effectively to the human in-the-loop whether clinician or lay user. ability to respond to queries in multiple languages. 6.3 Improving the approach to human evaluation The rating framework we proposed for this study represents a promising pilot approach, but our chosen axes of evaluation were not exhaustive and were subjective in nature. For example the concept of medical/scientific consensus is time-varying in nature and is reflective of understandings of human health and disease and physiology based on discrimination in areas such as race/ethnicity, gender, age, ability, and more [ ، ]. 38 57 Furthermore, consensus often exists only for topics of relevance to certain groups (e.g. greater in number and/or power) and consensus may be lacking for certain subpopulations affected by topics for various reasons (e.g., controversial topics, lower incidence, less funding). Additionally, the concept of harm may differ according to population (e.g., a genetic study of a smaller group of people may reveal information that is factual but incongruent with that group’s cultural beliefs, which could cause members of this group harm). Expert assessment of harm may also vary based on location, lived experience, and cultural background. Our ratings of potential harm were subjective estimates, and variation in perceived harm may also have been due to differences in health literacy of both our clinician and lay raters, or might vary in real world settings depending on the sociocultural context and health literacy of the person receiving and acting on the answers to the health questions in the study by Berkman [ ]. Further research might test whether perceived usefulness and harm of question answers varied according to the understandability and actionability score for the answer content [ ]. et al. 6 77 وكان عدد الإجابات النموذجية التي تم تقييمها ومجموعة من العلماء والمدرسين الذين تم تقييمها محدودة، حيث كانت النتائج لدينا أساسية فقط على العلماء والمدرسين الذين تقييموا الإجابات.هذا يشكل قيودًا على توسيع نطاق نتائجنا، والتي يمكن أن يتم تخفيضها من خلال تضمين مجموعة أكبر بكثير ومتنوعة من المراجعين البشرية (المدرسين والمدرسين) مع تصميم مشارك في تطوير أدوات التقييم النموذجي. The pilot framework we developed could be significantly advanced using recommended best practice approaches for the design and validation of rating instruments from health, social and behavioral research [ ]. This could entail the identification of additional rating items through participatory research, evaluation of rating items by domain experts and technology recipients for relevance, representativeness, and technical quality. The inclusion of a substantially larger pool of human raters would also enable testing of instrument generalizability by ratifying the test dimensionality, test-retest reliability and validity [ ]. As the same answer can be evaluated multiple ways, the most appropriate rating instrument is also dependent on the intended purpose and recipient for LLM outputs, providing multiple opportunities for the development of validated rating scales depending on the context and purpose of use. Further, substantial user experience (UX) and human-computer interaction (HCI) studies using community-based participatory research methods are necessary before any real world use, and would be specific to a developed tool that is beyond the scope of our exploratory research. Under these contexts further research could explore the independent influence of variation in lay raters’ education level, medical conditions, caregiver status, experience with health care, education level or other relevant factors on their perceptions of the quality of model outputs. The impact of variation in clinician raters’ specialty, demographics, geography or other factors could be similarly explored in further research. 8 8 6.4 Fairness and equity considerations إن نهجنا الحالي في تقييم الخلافات المرتبطة بالخلافات المرتبطة بالخلافات المرتبطة بالخلافات المرتبطة بالخلافات المرتبطة بالخلافات المرتبطة بالخلافات المرتبطة بالخلافات المرتبطة بالخلافات المرتبطة بالخلافات المرتبطة بالخلافات المرتبطة بالخلافات المرتبطة بالخلافات المرتبطة بالخلافات المرتبطة بالخلافات المرتبطة بالخلافات المرتبطة بالخلافات المرتبطة بالخلافات المرتبطة بالخلافات المرتبطة بالخلافات المرتبطة بالخلافات المرتبطة بالخلافات. , ]. الرعاية الصحية هو تطبيقًا معقدًا للغة الكبيرة نظراً إلى طبيعة الخصوصية المهمة للسلامة في مجال الرعاية الصحية والضوابط المرتبطة بالمخاطر الاجتماعية والهيكلية التي تؤدي إلى الاختلافات الصحية.الخلافات بين النماذج اللغوية الكبيرة والرعاية الصحية تخلق فرصًا فريدة للتسويق المسؤول والأخلاقي من أدوات تقييم قوية وتخفيف المخاطر والعدالة والسلامة الصحية. 49 92 ونشرت فرصة للبحث المستقبلي في إطارين لتحديد وتخفيف الأضرار في النهاية وتأثير النماذج اللغوية الكبيرة في سياقات الرعاية الصحية.المبادئ الرئيسية تشمل استخدام الأساليب المشاركة لتصميم التقييمات المتصلة التي تعكس القيم المرضية التي يمكن أن تستفيد أو تتضرر، وتستند إلى التقييم في واحدة أو أكثر من حالات الاستخدام السريرية المحددة. , ]، واستخدام مجموعة البيانات وطاقات توثيق النماذج للتقارير المفتوحة عن الخيارات والنتائج التي اتخذتها خلال جمع البيانات وتقييمها، وتطوير النماذج وتقييمها [ , , ]. بالإضافة إلى ذلك ، هناك حاجة إلى البحث في تصميم الإجراءات الفلكية ومواصفات المقارنة التي تحاول تحديد التناقضات التقنية المحددة التي تعلمت أن تسبب ضررا إذا لم يتم تقليلها. على سبيل المثال ، اعتمادا على السياق ، قد يكون من الضروري تقييم حساسية النتائج النماذج إلى التخلفات من المعاهدات الديمغرافية في الإشعارات التي تم تصميمها بصورة ملموسة بحيث لا ينبغي تغيير النتيجة أثناء التخلف [ ، , ◄ 54 71 24 59 72 23 68 98 وبالإضافة إلى ذلك، فإن النشاطات البحثية المذكورة أعلاه لإنشاء أساليب تقييم لتحقيق المساواة في الصحة في النماذج اللغوية الكبيرة تتطلب التعاون بين التخصصات لضمان أن يتم تطبيق مختلف النظريات العلمية والتقنيات على مهمة فهم الجوانب الاجتماعية والموضوعية للصحة. , , ]. 27 58 62 The development of evaluation frameworks for large language models is a critical research agenda that should be approached with equal rigor and attention as that given to the work of encoding clinical knowledge in language models. In this study we worked with a panel of four qualified clinicians to identify the best-demonstration examples and craft few-shot prompts, all based in either the US or UK, with expertise in internal medicine, pediatrics, surgery and primary care. Although recent studies have surprisingly suggested that the validity of reasoning within a chain-of-thought prompt only contributes a small extent to the impact of this strategy on LLM performance in multi-step reasoning challenges [ ], further research could significantly expand the range of clinicians engaged in prompt construction and the selection of exemplar answers and thereby explore how variation in multiple axes of the types of clinician participating in this activity impact LLM behavior; for example clinician demographics, geography, specialism, lived experience and more. 87 6.5 التفكير الأخلاقي This research demonstrates the potential of LLMs for future use in healthcare. Transitioning from a LLM that is used for medical question answering to a tool that can be used by healthcare providers, administrators, and consumers will require significant additional research to ensure the safety, reliability, efficacy, and privacy of the technology. Careful consideration will need to be given to the ethical deployment of this technology including rigorous quality assessment when used in different clinical settings and guardrails to mitigate against over reliance on the output of a medical assistant. For example, the potential harms of using a LLM for diagnosing or treating an illness are much greater than using a LLM for information about a disease or medication. Additional research will be needed to assess LLMs used in healthcare for homogenization and amplification of biases and security vulnerabilities inherited from base models [ , , , ، مع مراعاة التطور المستمر من المعرفة السريرية ، سيكون من المهم أيضًا تطوير طرق لتوفير المعلومات السريرية الحديثة لـ LLM. 10 11 18 39 49 7 Conclusion إن ظهور نموذجات الذكاء الاصطناعي الأساسية والعمليات اللغوية الكبيرة تقدم فرصة كبيرة للتفكير في تطوير الذكاء الاصطناعي الطبية وتجعلها أسهل وأكثر أماناً في استخدامها، وفي الوقت نفسه، فإن الطب هو مجال معقد للغاية للتطبيقات اللغوية الكبيرة. Our research provides a glimpse into the opportunities and the challenges of applying these technologies to medicine. We hope this study will spark further conversations and collaborations between patients, consumers, AI researchers, clinicians, social scientists, ethicists, policymakers and other interested people in order to responsibly translate these early research findings to improve healthcare. الاعترافات This project was an extensive collaboration between many teams at Google Research and Deepmind. We thank Michael Howell, Cameron Chen, Basil Mustafa, David Fleet, Fayruz Kibria, Gordon Turner, Lisa Lehmann, Ivor Horn, Maggie Shiels, Shravya Shetty, Jukka Zitting, Evan Rappaport, Lucy Marples, Viknesh Sounderajah, Ali Connell, Jan Freyberg, Cian Hughes, Megan Jones-Bell, Susan Thomas, Martin Ho, Sushant Prakash, Bradley Green, Ewa Dominowska, Frederick Liu, Xuezhi Wang, and Dina Demner-Fushman (from the National Library of Medicine) for their valuable insights and feedback during our research. We are also grateful to Karen DeSalvo, Zoubin Ghahramani, James Manyika, and Jeff Dean for their support during the course of this project. References 1. Abacha, A. B., Agichtein, E., Pinter, Y. & Demner-Fushman, D. in (2017), 1–12. Overview of the medical question answering task at TREC 2017 LiveQA. TREC 2. Abacha, A. B., Mrabet, Y., Sharp, M., Goodwin, T. R., Shooshan, S. E. & Demner-Fushman, D. in (2019), 25 – 29. Bridging the Gap Between Consumers’ Medication Questions and Trusted Answers. MedInfo 3. Agrawal, M., Hegselmann, S., Lang, H., Kim, Y. & Sontag, D. Large Language Models are Zero-Shot Clinical Information Extractors. (2022). arXiv preprint arXiv:2205.12689 4. Barham, P., Chowdhery, A., Dean, J., Ghemawat, S., Hand, S., Hurt, D., Isard, M., Lim, H., Pang, R., Roy, S., et al. Pathways: Asynchronous distributed dataflow for ML. 430–449 (2022). Proceedings of Machine Learning and Systems 4, 5. Beltagy, I., Lo, K. & Cohan, A. SciBERT: A pretrained language model for scientific text. (2019). arXiv preprint arXiv:1903.10676 6. Berkman, N. D., Sheridan, S. L., Donahue, K. E., Halpern, D. J., Viera, A., Crotty, K., Holland, A., Brasure, M., Lohr, K. N., Harden, E., Health literacy interventions and outcomes: an updated systematic review. 1–941 (2011). et al. تقرير الأدلة / تقييم التكنولوجيا، 7. Black, S., Gao, L., Wang, P., Leahy, C. & Biderman, S. version 1.0. If you use this software, please cite it using these metadata. Mar. 2021. GPT-Neo: نموذج لغة المقاومة الذاتية على نطاق واسع مع Mesh-Tensorflow https : . //doi.org/10.5281/zenodo.5297715 8. Boateng, G. O., Neilands, T. B., Frongillo, E. A., Melgar-Quiñonez, H. R. & Young, S. L. Best practices for developing and validating scales for health, social, and behavioral research: a primer. 149 (2018). Frontiers in public health 6, 9. Bolton, E., Hall, D., Yasunaga, M., Lee, T., Manning, C. & Liang, P. . 2022. Stanford CRFM Introduces PubMedGPT 2.7B https://hai.stanford.edu/news/stanford-crfm-introduces-pubmedgpt-27b بومماساي، R.، هيدسون، D. A.، أديلي، E.، Altman، R.، Arora، S.، von Arx، S.، Bernstein، M. S., Bohg، J., Bosselut، A. Brunskill، E. عن فرص ومخاطر نموذج الأساس. (2021). et al. arXiv preprint arXiv:2108.07258 11. Bommasani, R., Liang, P. & Lee, T. Language Models are Changing AI: The Need for Holistic Evaluation https : . 2022. //crfm.stanford.edu/2022/11/17/helm.html 12. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Language models are few-shot learners. 1877–1901 (2020). et al. Advances in neural information processing systems 33, 13. Chen, I. Y., Pierson, E., Rose, S., Joshi, S., Ferryman, K. & Ghassemi, M. Ethical machine learning in healthcare. 123–144 (2021). Annual review of biomedical data science 4, 14. Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., Barham, P., Chung, H. W., Sutton, C., Gehrmann, S., PaLM: Scaling language modeling with pathways. ( 2022 ) et al. arXiv preprint arXiv:2204.02311 15 – تشونغ، H. W. Hou، L. Longpre، S. Zoph، B. Tay، Y. Fedus، W. Li، E. Wang، X. Dehghani، M. Brahma، S. et al. Scaling instruction-finetuned language models. ( 2022 ) arXiv تحديثات arXiv:2210.11416 16. Clark, J. H., Choi, E., Collins, M., Garrette, D., Kwiatkowski, T., Nikolaev, V. & Palomaki, J. TyDi QA: A benchmark for information-seeking question answering in typologically diverse languages. 454–470 (2020). Transactions of the Association for Computational Linguistics 8, 17. Cobbe, K., Kosaraju, V., Bavarian, M., Hilton, J., Nakano, R., Hesse, C. & Schulman, J. Training verifiers to solve math word problems. (2021). arXiv preprint arXiv:2110.14168 18. Creel, K. & Hellman, D. The Algorithmic Leviathan: Arbitrariness, Fairness, and Opportunity in Algorithmic Decision-Making Systems. 1–18 (2022). مجلة الفلسفة الكندية، 19 - أ.م.م.م.م.م.م.م.م.م.م.م.م.م.م.م.م.م.م.م.م.م.م.م.م.م.م.م.م.م.م.م.م في (2022), 5547–5569. et al. Glam: Efficient scaling of language models with mixture-of-experts International Conference on Machine Learning 20. Eneanya, N. D., Boulware, L., Tsai, J., Bruce, M. A., Ford, C. L., Harris, C., Morales, L. S., Ryan, M. J., Reese, P. P., Thorpe, R. J., Health inequities and the inappropriate use of race in nephrology. 84–94 (2022). و أل . Nature Reviews Nephrology 18, 21. Esteva, A., Chou, K., Yeung, S., Naik, N., Madani, A., Mottaghi, A., Liu, Y., Topol, E., Dean, J. & Socher, R. Deep learning-enabled medical computer vision. 1–9 (2021). NPJ digital medicine 4, 22. Feng, S. Y., Khetan, V., Sacaleanu, B., Gershman, A. & Hovy, E. CHARD: Clinical Health-Aware Reasoning Across Dimensions for Text Generation Models. (2022). arXiv preprint arXiv:2210.04191 23. Garg, S., Perot, V., Limtiaco, N., Taly, A., Chi, E. H. & Beutel, A. in (2019), 219 – 226 Counterfactual fairness in text classification through robustness ورشات المؤتمر AAAI/ACM 2019 حول الذكاء الاصطناعي والأخلاق والاجتماع Gebru, T., Morgenstern, J., Vecchione, B., Vaughan, J. W., Wallach, H., Iii, H. D. و Crawford, K. صفحات البيانات. 86–92 (2021). Communications of the ACM 64, 25. Gu, Y., Tinn, R., Cheng, H., Lucas, M., Usuyama, N., Liu, X., Naumann, T., Gao, J. & Poon, H. Domain-specific language model pretraining for biomedical natural language processing. 1 – 23 (2021). ACM Transactions on Computing for Healthcare (HEALTH) 3, 26. Gu, Y., Han, X., Liu, Z. & Huang, M. Ppt: Pre-trained prompt tuning for few-shot learning. (2021). arXiv preprint arXiv:2109.04332 27. Guidance, W. Ethics and governance of artificial intelligence for health. (2021). منظمة الصحة العالمية هان، X، Zhao، W، Ding، N، Liu، Z. & Sun، M. Ptr: التكيف المفاجئ مع القواعد لتصنيف النص. (2022). AI Open 29. Hendrycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., Song, D. & Steinhardt, J. Measuring massive multitask language understanding. (2020). arXiv إرسال البريد الإلكتروني arXiv:2009.03300 30 هافمان، ج.بورجارد، S.، Mensch، A.، Buchatskaya، E.، Cai، T.، Rutherford، E.، Casas، D. d. L.، Hendricks، L. A. Welbl، J. Clark، A. تطوير نموذج اللغة الكبيرة. (2022). et al. arXiv إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال Hong, Z., Ajith, A., Pauloski, G., Duede, E., Malamud, C., Magoulas, R., Chard, K. & Foster, I. ScholarBERT: أكبر ليس دائما أفضل. ( 2022 ) arXiv preprint arXiv:2205.11342 Hooker, S. التحرك فوق "الخلافات الفلكية هي مشكلة البيانات". 100241 (2021). بطاريات 2, 33. Jin, D., Pan, E., Oufattole, N., Weng, W.-H., Fang, H. & Szolovits, P. What disease does this patient have? a large-scale open domain question answering dataset from medical exams. 6421 (2021). Applied Sciences 11, 34. Jin, Q., Dhingra, B., Liu, Z., Cohen, W. W. & Lu, X. PubMedQA: A dataset for biomedical research question answering. (2019). arXiv preprint arXiv:1909.06146 35. Joshi, M., Choi, E., Weld, D. S. & Zettlemoyer, L. TriviaQA: A large scale distantly supervised challenge dataset for reading comprehension. (2017). arXiv preprint arXiv:1705.03551 36. Kadavath, S., Conerly, T., Askell, A., Henighan, T., Drain, D., Perez, E., Schiefer, N., Dodds, Z. H., DasSarma, N., Tran-Johnson, E., Language models (mostly) know what they know. (2022). et al. arXiv preprint arXiv:2207.05221 Kaplan ، J ، McCandlish ، S ، Henighan ، T ، Brown ، T. B ، الشطرنج ، B ، Child ، R ، Gray ، S ، Radford ، A ، Wu ، J ، & Amodei ، D. قوانين التكلفة لعمليات اللغات العصبية. (2020). arXiv preprint arXiv:2001.08361 38. Kington, R. S., Arnesen, S., Chou, W.-Y. S., Curry, S. J., Lazer, D. & Villarruel, A. M. Identifying credible sources of health information in social media: Principles and attributes. (2021). NAM perspectives 2021 Kleinberg, J. & Raghavan, M. monoculture الفلكي والسلامة الاجتماعية. e2018340118 (2021). Proceedings of the National Academy of Sciences 118, 40. Kojima, T., Gu, S. S., Reid, M., Matsuo, Y. & Iwasawa, Y. Large Language Models are Zero-Shot Reasoners. (2022). arXiv preprint arXiv:2205.11916 41. Korngiebel, D. M. & Mooney, S. D. Considering the possibilities and pitfalls of Generative Pre-trained Transformer 3 (GPT-3) in healthcare delivery. 1 – 3 (2021) NPJ Digital Medicine 4, 42. Lakkaraju, H., Slack, D., Chen, Y., Tan, C. & Singh, S. Rethinking Explainability as a Dialogue: A Practitioner’s Perspective. (2022). arXiv preprint arXiv:2202.01875 Lampinen, A. K., Dasgupta, I., Chan, S. C., Matthewson, K., Tessler, M. H., Creswell, A., McClelland, J. L., Wang, J. X. & Hill, F. هل يمكن أن تتعلم النماذج اللغوية من التفسير في السياق؟ (2022). arXiv preprint arXiv:2204.02329 44. Lee, J., Yoon, W., Kim, S., Kim, D., Kim, S., So, C. H. & Kang, J. BioBERT: a pre-trained biomedical language representation model for biomedical text mining. 1234–1240 (2020). Bioinformatics 36, 45. Lester, B., Al-Rfou, R. & Constant, N. The power of scale for parameter-efficient prompt tuning. ( 2021 ) arXiv preprint arXiv:2104.08691 46. Lewis, P., Ott, M., Du, J. & Stoyanov, V. in (2020), 146–157. Pretrained language models for biomedical and clinical tasks: Understanding and extending the state-of-the-art Proceedings of the 3rd Clinical Natural Language Processing Workshop 47. Lewkowycz, A., Andreassen, A., Dohan, D., Dyer, E., Michalewski, H., Ramasesh, V., Slone, A., Anil, C., Schlag, I., Gutman-Solo, T., Solving quantitative reasoning problems with language models. ( 2022 ) و أل . arXiv preprint arXiv:2206.14858 48. Li, X. L. & Liang, P. Prefix-tuning: Optimizing continuous prompts for generation. (2021). arXiv preprint arXiv:2101.00190 49. Liang, P., Bommasani, R., Lee, T., Tsipras, D., Soylu, D., Yasunaga, M., Zhang, Y., Narayanan, D., Wu, Y., Kumar, A., Holistic evaluation of language models. ( 2022 ) و أل . arXiv preprint arXiv:2211.09110 50. Liévin, V., Hother, C. E. & Winther, O. Can large language models reason about medical questions? (2022). arXiv preprint arXiv:2207.08143 51. Lin, S., Hilton, J. & Evans, O. Teaching Models to Express Their Uncertainty in Words. (2022). arXiv preprint arXiv:2205.14334 Liu, P., Yuan, W., Fu, J., Jiang, Z., Hayashi, H. & Neubig, G. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing. (2021). arXiv preprint arXiv:2107.13586 53. Liu, X., Zheng, Y., Du, Z., Ding, M., Qian, Y., Yang, Z. & Tang, J. GPT understands, too. ( 2021 ) arXiv preprint arXiv:2103.10385 54. Liu, X., Glocker, B., McCradden, M. M., Ghassemi, M., Denniston, A. K. & Oakden-Rayner, L. The medical algorithmic audit. ( 2022 ) The Lancet Digital Health 55. Loshchilov, I. & Hutter, F. Decoupled weight decay regularization. (2017). arXiv preprint arXiv:1711.05101 56. Luo, R., Sun, L., Xia, Y., Qin, T., Zhang, S., Poon, H. & Liu, T.-Y. BioGPT: generative pre-trained transformer for biomedical text generation and mining. (2022). Briefings in Bioinformatics 23 57 زكريا، أ. . 2021. Medical Journals Blind to Racism as Health Crisis, Critics Say https://www.nytimes.com/2021/06/02/ health/jama-racism-bauchner.html 58. Matheny, M., Israni, S. T., Ahmed, M. & Whicher, D. Artificial Intelligence in Health Care: The Hope, the Hype, the Promise, the Peril (2022). 59. Mitchell, M., Wu, S., Zaldivar, A., Barnes, P., Vasserman, L., Hutchinson, B., Spitzer, E., Raji, I. D. & Gebru, T. in (2019), 220–229. بطاقات نموذجية لتقرير نموذج Proceedings of the conference on fairness, accountability, and transparency Morgado, F. F., Meireles, J. F., Neves, C. M., Amaral, A. & Ferreira, M. E. تطوير الكمية: عشرة الحدود الرئيسية والتوصيات لتعزيز الممارسات البحثية المستقبلية. (2017). Psicologia: Reflexao e Critica 30 61. Nye, M., Andreassen, A. J., Gur-Ari, G., Michalewski, H., Austin, J., Bieber, D., Dohan, D., Lewkowycz, A., Bosma, M., Luan, D., Show your work: Scratchpads for intermediate computation with language models. (2021). و أل . arXiv preprint arXiv:2112.00114 62. Of Science, W. H. O. & Policy, T. . 2022. The Blueprint for an AI Bill of Rights: Making Automated Systems Work for the American People https://www.whitehouse.gov/wp-content/uploads/2022/10/Blueprint-for-an-AI-Bill-of-Rights.pdf 63. Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Training language models to follow instructions with human feedback. (2022). et al. arXiv preprint arXiv:2203.02155 64. Pal, A., Umapathi, L. K. & Sankarasubbu, M. in 2022، 248-260 MedMCQA: A Large-scale Multi-Subject Multi-Choice Dataset for Medical domain Question Answering Conference on Health, Inference, and Learning 65. Pampari, A., Raghavan, P., Liang, J. & Peng, J. emrqa: A large corpus for question answering on electronic medical records. ( 2018 ) arXiv preprint arXiv:1809.00732 Papanikolaou، Y. & Pierleoni، A. DARE: استخراج البيانات المرتفعة العلاقة مع gpt-2. (2020). arXiv preprint arXiv:2004.13845 67. Papineni, K., Roukos, S., Ward, T. & Zhu, W.-J. in (2002), 311–318. Bleu: a method for automatic evaluation of machine translation Proceedings of the 40th annual meeting of the Association for Computational Linguistics 68.Prabhakaran، V. Hutchinson، B. & Mitchell، M. تحليل حساسية التهابات لتحديد التهديدات النماذج غير المرغوب فيها. (2019) arXiv إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال إرسال 69. Rae, J. W., Borgeaud, S., Cai, T., Millican, K., Hoffmann, J., Song, F., Aslanides, J., Henderson, S., Ring, R., Young, S., Scaling language models: Methods, analysis & insights from training gopher. (2021). و أل . arXiv preprint arXiv:2112.11446 70. Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., Liu, P. J., Exploring the limits of transfer learning with a unified text-to-text transformer. 1–67 (2020). et al. J. Mach. Learn. Res. 21, 71. Raji, I. D., Smart, A., White, R. N., Mitchell, M., Gebru, T., Hutchinson, B., Smith-Loud, J., Theron, D. & Barnes, P. in (2020)، 33–44 Closing the AI accountability gap: Defining an end-to-end framework for internal algorithmic auditing Proceedings of the 2020 conference on fairness, accountability, and transparency 72. Rostamzadeh, N., Mincu, D., Roy, S., Smart, A., Wilcox, L., Pushkarna, M., Schrouff, J., Amironesei, R., Moorosi, N. & Heller, K. Healthsheet: Development of a Transparency Artifact for Health Datasets. (2022). arXiv preprint arXiv:2202.13028 73. Scao, T. L., Fan, A., Akiki, C., Pavlick, E., Ilić, S., Hesslow, D., Castagné, R., Luccioni, A. S., Yvon, F., Gallé, M., et al. BLOOM: A 176B-Parameter Open-Access Multilingual Language Model. (2022). arXiv preprint arXiv:2211.05100 74. Schaekermann, M., Cai, C. J., Huang, A. E. & Sayres, R. in (2020)، 1 – 13. Expert discussions improve comprehension of difficult cases in medical image assessment Proceedings of the 2020 CHI conference on human factors in computing systems 75. Sezgin, E., Sirrianni, J., Linwood, S. L., تطوير وتطوير نموذجين لغويين من الذكاء الاصطناعي الكبير في نظام الرعاية الصحية في الولايات المتحدة: نظرة على Transformer 3 Generative Pretrained (GPT-3) كموضوع الخدمة. e32875 (2022). et al. JMIR Medical Informatics 10, 76. Shin, H.-C., Zhang, Y., Bakhturina, E., Puri, R., Patwary, M., Shoeybi, M. & Mani, R. BioMegatron: Larger biomedical domain language model. (2020 ) arXiv preprint arXiv:2010.06060 Shoemaker, S. J., Wolf, M. S. & Brach, C. تطوير أداة تقييم المواد التعليمية للمرضى (PEMAT): قياس جديد للواقعية والعملية للبيانات المرسلة والفيديوية للمرضى. 395–403 (2014). Patient education and counseling 96, 78. Srivastava, A., Rastogi, A., Rao, A., Shoeb, A. A. M., Abid, A., Fisch, A., Brown, A. R., Santoro, A., Gupta, A., Garriga-Alonso, A., Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models. (2022). et al. arXiv preprint arXiv:2206.04615 Taylor, R., Kardas, M., Cucurull, G., Scialom, T., Hartshorn, A., Saravia, E., Poulton, A., Kerkez, V. & Stojnic, R. Galactica: نموذج لغة واسعة للعلوم. (2022). arXiv preprint arXiv:2211.09085 80. Thoppilan, R., De Freitas, D., Hall, J., Shazeer, N., Kulshreshtha, A., Cheng, H.-T., Jin, A., Bos, T., Baker, L., Du, Y., Lamda: نموذج لغة للتطبيقات الحوارية. (2022). et al. arXiv preprint arXiv:2201.08239 81. Tomašev, N., Harris, N., Baur, S., Mottram, A., Glorot, X., Rae, J. W., Zielinski, M., Askham, H., Saraiva, A., Magliulo, V., Use of deep learning to develop continuous-risk models for adverse event prediction from electronic health records. 2765–2787 (2021). et al. Nature Protocols 16, 82. Tran, D., Liu, J., Dusenberry, M. W., Phan, D., Collier, M., Ren, J., Han, K., Wang, Z., Mariet, Z., Hu, H., Plex: نحو الثقة باستخدام توسيع نموذج كبير من قبل. (2022). و أل . arXiv preprint arXiv:2207.07411 83. Tsatsaronis, G., Balikas, G., Malakasiotis, P., Partalas, I., Zschunke, M., Alvers, M. R., Weissenborn, D., Krithara, A., Petridis, S., Polychronopoulos, D., An overview of the BIOASQ large-scale biomedical semantic indexing and question answering competition. 1 إلى 28 (2015). et al. BMC البيولوجيا 16, 84. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł. & Polosukhin, I. Attention is all you need. (2017). Advances in neural information processing systems 30 85. Vyas, D. A., Eisenstein, L. G. & Jones, D. S. 2020. Hidden in plain sight—reconsidering the use of race correction in clinical algorithms 86. Walsh, K. E., Harik, P., Mazor, K. M., Perfetto, D., Anatchkova, M., Biggins, C., Wagner, J., Schoettker, P. J., Firneno, C., Klugman, R., Measuring harm in healthcare: optimizing adverse event review. 436 (2017). et al. Medical care 55, Wang, b., Min, S., Deng, X., Shen, J., Wu, Y., Zettlemoyer, L. & Sun, H. نحو فهم سلسلة التفكير: دراسة ملموسة عن ما هو مهم. ( 2022 ) arXiv preprint arXiv:2212.10001 88. Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E. & Zhou, D. Self-consistency improves chain of thought reasoning in language models. (2022). arXiv preprint arXiv:2203.11171 89. Wei, J., Bosma, M., Zhao, V. Y., Guu, K., Yu, A. W., Lester, B., Du, N., Dai, A. M. & Le, Q. V. Finetuned language models are zero-shot learners. (2021). arXiv preprint arXiv:2109.01652 90 – وادي، ج.، ج.، ج.، ج.، ج.، ج.، ج.، ج.، ج.، ج.، ج.، ج.، ج.، ج.، ج.، ج.، ج.، ج.، ج. Emergent abilities of large language models. (2022). et al. arXiv preprint arXiv:2206.07682 91. Wei, J., Wang, X., Schuurmans, D., Bosma, M., Chi, E., Le, Q. & Zhou, D. Chain of thought prompting elicits reasoning in large language models. (2022). arXiv preprint arXiv:2201.11903 92. المخاطر الأخلاقية والاجتماعية للضرر من النماذج اللغوية. ( 2021 ) et al. arXiv preprint arXiv:2112.04359 93. Williams, T., Szekendi, M., Pavkovic, S., Clevenger, W. & Cerese, J. The reliability of AHRQ Common Format Harm Scales in rating patient safety events. 52 إلى 59 (2015). Journal of patient safety 11, Yasunaga ، M ، Bosselut ، A ، Ren ، H ، Zhang ، X ، Manning ، C. D ، Liang ، P. & Leskovec ، J. عميق دوقراطية اللغات المعرفة التلقائي. ( 2022 ) arXiv preprint arXiv:2210.09338 95. Yasunaga, M., Leskovec, J. & Liang, P. LinkBERT: Pretraining Language Models with Document Links. ( 2022 ) arXiv preprint arXiv:2203.15827 96. Ye, S., Jang, J., Kim, D., Jo, Y. & Seo, M. Retrieval of Soft Prompt Enhances Zero-Shot Task Generalization. ( 2022 ) arXiv preprint arXiv:2210.03029 97. إيم، ج.، تشوبرا، ر.، سبيس، ت.، وكيكينز، ج.، أوبكا، أ.، كالي، ك.، سكيم، ه.، لوكيك، م.، هيمر، ج.، فاسلر، ك. et al. توقع تحول إلى التغيير المرتبط بالمرض المزمن باستخدام التعلم العميق. 892–899 (2020). الطب الطبيعي 26, 98. Zhang, H., Lu, A. X., Abdalla, M., McDermott, M. & Ghassemi, M. في (2020), 110–120. Hurtful words: quantifying biases in clinical contextual word embeddings مؤتمر ACM حول الصحة والتفكير والتعلم 99. زينب، س.، س.، زينب، س.، س.، س.، س.، س.، س.، س.، س.، س.، س.، س.، س.، س.، س. OPT: Open pre-trained transformer language models. (2022). et al. arXiv preprint arXiv:2205.01068 100. Zhou, D., Schärli, N., Hou, L., Wei, J., Scales, N., Wang, X., Schuurmans, D., Bousquet, O., Le, Q. & Chi, E. Least-to-Most Prompting Enables Complex Reasoning in Large Language Models. (2022). arXiv preprint arXiv:2205.10625 المرفق A.1 hyperparameters و اختيار النماذج قمنا بتنظيم الإرشادات الإرشادية على Flan-PaLM 540B مع طول الإرشادات الذكية من 100 لإنتاج Med-PaLM. قمنا بتخزين بقية النماذج، وأغلبية إدخال هو 18432 كما في Chowdhery [ ] ونتيجة لذلك، فإن هذا يؤدي إلى 1.84M من النماذج التي يمكن تدريبها. لقد بدأنا بالضبط النماذج التي يمكن تدريبها لتكون متساوية على [-0.5, 0.5]، وبالتالي اتبع لنستر [ ] نحن نبحث عن معدل التعلم في 0.001, 0.003, 0.01 مع AdamW تحسين [ ] و عامل انقراض الوزن في . 0 0 * لقد استخدمنا حجم البطاقة من 32 على جميع المراحل، ونجحنا في تدريب 200 خطوة. و أل . 14 و أل . 45 55 0 0 001 00001 لقد عملنا اختيار النماذج من خلال طلب من الطبيب لتصنيف الإجابات على العديد من الأمثلة HealthSearchQA، MedicationQA و LiveQA (لا تستخدم للتدريب أو التقييم الإنساني) ، ونختار نقطة التحقق التي عملت أفضل.لقد عملنا هذا التحقق الصوتي بدلاً من حساب بعض التقييمات تلقائياً على مجموعة التحقق ، على سبيل المثال ، احتمال التسجيل النتائج السلبية على الأقمار الصناعية (السؤال ، الإجابة) ، لأن في مساحة الإنتاج الكبيرة من أجيال اللغة الطبيعية ، قد لا تتوافق هذه التقييمات بشكل جيد مع قضايا النموذج الحقيقي. A.2 Variation of results على الرغم من أن هناك بعض التغيرات المتوقعة في النتائج مع التوافق الذاتي بسبب تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار تكرار A.3 إزالة MMLU لقد عملنا إلغاءات مقارنة نموذج Flan-PaLM 540B باستخدام استراتيجيات التخفيف من الصدمات القليلة، والقدرة على التفكير (CoT) والتوافق الذاتي على المواضيع السريرية MMLU [ *تتراوح النتائج في القسم . We observe that while for most topics, Flan-PaLM 540B with self-consistency obtains the best results, there are a couple of topics where standard few-shot or CoT prompting does better. Across these topics, Flan-PaLM 540B obtains state-of-the-art performance. 29 A3 A.4 التخطيط الاستراتيجي نحن نقدم مساحات التوسع مقارنة النماذج PaLM و Flan-PaLM باستخدام إرسال بعض الصدمات على مجموعات البيانات MedQA و MedMCQA في الصورة وتقارير أخرى مقارنة Flan-PaLM مع بعض الإشارات و Flan-PaLM مع الإشارات الذاتية في الصورة ونحن نلاحظ أداء التوسع القوي ونرى زيادة أسرع في الأداء عندما نضيف حجم نموذج LLM. A1 A.2 A.5 نموذج بطاقة Med-PaLM يستخدم Med-PaLM نفس النوع من النظام والخطط التنفيذية مثل Flan-PaLM [ ].على سبيل المثال، نحن نلقي نظرة على أجزاء من النماذج [ ] specific to Med-PaLM in Table . 15 59 A.2 A6 Med-PaLM التقييم متعدد الخيارات وقد تم تدريب Med-PaLM باستخدام تدريبات تدريبات تدريبات لتعزيز جودة الأجيال الطويلة التي تم إنتاجها من قبل Flan-PaLM. ومع ذلك، مع الأخذ بعين الاعتبار عامة تدريبات تدريبات تدريبات، يمكن تطبيق هذه التقنية أيضًا على مجموعات البيانات متعددة الخيارات. في تجربة ابتدائية، قمنا بتدريب Flan-PaLM باستخدام إعدادات الإرشادات على MedQA، MedMCQA، PubMedQA، و MMLU (الأشياء السريرية). تم كتابة النسخ من قبل مجموعة من خمسة أطباء مؤهلين. كان كل نموذج التدريب يحتوي على الإرشادات ذات الصلة مع مجموعة البيانات و 5 نموذجين معينين. حصل النموذج النموذجي على دقة 67.2% على MedQA باستخدام سلسلة التفكير والتوافق الذاتي، مما يوافق على النتائج المناسبة مع Flan-PaLM i Section. ونحن نتطلع إلى توسيع هذه النتائج المبكرة في العمل المستقبلي. 4 A.7 نتائج التقييم البسيط للإنسان يتم جمع نتائج التقييم البشري التفصيلية مع مراكز الثقة في جدول - طاولة . A3 A.12 A.8 أمثلة بسيطة نحن نقدم أمثلة من بعض النصائح القصيرة المستخدمة في الدراسة في جدول » طاولة , Table , Ta-ble و مكتبة . A.13 A.14 A.15 A.16 A.17 A.9 أمثلة من سلسلة التفكير السريع قدمنا أمثلة من بعض الإرشادات التي تستخدم في هذه الدراسة في جدول , Table تامر و الجلوس . A.18 A.19 A.20 A.21 هذه المقالة متوفرة في archiv تحت سياسة CC by 4.0 Deed (Attribution 4.0 International). This paper is تحت رخصة CC by 4.0 Deed (Attribution 4.0 International). available on arxiv