Автори : Karan Singhal (Google Research, DeepMind) Shekoofeh Azizi (Google Research, DeepMind) Tao Tu (Google Research, DeepMind) S. Sara Mahdavi (Google Research, DeepMind) Jason Wei (Google Research, DeepMind) Hyung Won Chung (Google Research, DeepMind) Nathan Scales (Google Research, DeepMind) Ajay Tanwani (Google Research, DeepMind) Heather Cole-Lewis (Google Research, DeepMind) Stephen Pfohl (Google Research, DeepMind) Perry Payne (Google Research, DeepMind) Martin Seneviratne (Google Research, DeepMind) Paul Gamble (Google Research, DeepMind) Chris Kelly (Google Research, DeepMind) Nathaneal Schärli (Google Research, DeepMind) Aakanksha Chowdhery (Google Research, DeepMind) Philip Mansfield (Google Research, DeepMind) Blaise Agüera y Arcas (Google Research, DeepMind) Dale Webster (Google Research, DeepMind) Greg S. Corrado (Google Research, DeepMind) Yossi Matias (Google Research, DeepMind) Katherine Chou (Google Research, DeepMind) Juraj Gottweis (Google Research, DeepMind) Nenad Tomasev (Google Research, DeepMind) Yun Liu (Google Research, DeepMind) Alvin Rajkomar (Google Research, DeepMind) Joelle Barral (Google Research, DeepMind) Christopher Semturs (Google Research, DeepMind) Alan Karthikesalingam (Google Research, DeepMind) Vivek Natarajan (Google Research, DeepMind Автори : Каран Сінґал (Google Research, DeepMind) Шекофєх Азізі (Google Research, DeepMind) Тао Ту (Google Research, DeepMind) С. Сара Махдаві (Google Research, DeepMind) Джейсон Вей (Google Research, DeepMind) Х'юнг Вон Чун (Google Research, DeepMind) Натан Скалес (Google Research, DeepMind) Ajay Tanwani (дослідження Google, DeepMind) Хезер Коул-Льюїс (Google Research, DeepMind) Стівен Пфоль (Google Research, DeepMind) Перрі Пейн (Google Research, DeepMind) Мартін Сеневіратн (Google Research, DeepMind) Пол Гембл (Google Research, DeepMind) Кріс Келлі (Google Research, DeepMind) Наталя Шерлі (Google Research, DeepMind) Ааканша Чоудхері (Google Research, DeepMind) Філіп Мансфілд (Google Research, DeepMind) Блез Агуера і Аркас (Google Research, DeepMind) Дейл Вебстер (Google Research, DeepMind) Грег С. Коррадо (Google Research, DeepMind) Йосі Матіас (Google Research, DeepMind) Катерина Чу (Google Research, DeepMind) Юрай Готвейс (Google Research, DeepMind) Ненад Томашев (Google Research, DeepMind) Юн Лю (Google Research, DeepMind) Альвін Раджкомар (Google Research, DeepMind) Джоел Баррал (Google Research, DeepMind) Крістофер Семтурс (Google Research, DeepMind) Алан Картікесалінгам (Google Research, DeepMind) Вівек Натараян (Google Research, DeepMind) Великі мовні моделі (LLM) продемонстрували вражаючі можливості у розумінні і генерації природної мови, але бар якості для медичних та клінічних застосувань високий. Сьогодні спроби оцінити клінічні знання моделей зазвичай спираються на автоматизовані оцінки на обмежені бенчмарки. Не існує стандарту для оцінки модельних прогнозів та міркувань у широкому діапазоні завдань. Щоб вирішити це, ми представляємо MultiMedQA, бенчмарк, що поєднує шість існуючих наборів даних з відповідей на відкриті запитання, що охоплюють професійні медичні іспити, дослідження та запити споживачів; і HealthSearchQA, новий набір даних з безкоштовної відповіді на медичні питання, що шукаються в Інтернеті. Крім того, ми оцінюємо PaLM (540 мільярдів параметрів LLM) та його інструкційно налаштований варіант, Flan-PaLM, на MultiMedQA. Використовуючи комбінацію стратегій прохання, Flan-PaLM досягає найсучаснішої точності на кожному наборі даних MultiMedQA з багаторазовим вибором (MedQA, MedMCQA, PubMedQA, MMLU клінічні теми), включаючи 67,6% точність на MedQA (запитання з медичних ліцензій США), що перевищує попередні найсучасніші результати більш ніж на 17%. Однак людська оцінка виявляє ключові прогалини у відповідях Flan-PaLM. Щоб вирішити це, ми вводимо інструкційне швидке Ми показуємо, що розуміння, нагадування знань та медичні міркування покращуються з масштабом моделі та налаштуванням інструкції, що свідчить про потенційну користь LLM в медицині Цей документ є Ліцензія CC by 4.0 Deed (Attribution 4.0 International) Доступно в архіві Доступно в архіві Наші людські оцінки виявляють важливі обмеження сучасних моделей, підкреслюючи важливість як рамків оцінки, так і розробки методів у створенні безпечних, корисних моделей LLM для клінічних застосувань. 1 Введення Медицина є гуманітарною справою, де мова дозволяє ключові взаємодії для клініків, дослідників та пацієнтів, а також між ними. Проте сьогоднішні моделі штучного інтелекту для застосування в медицині та охороні здоров'я в значній мірі не змогли повністю використати мову. Ці моделі, хоча корисні, переважно є системами однозадач (наприклад, класифікація, регресія, сегментація), що не мають виразності та інтерактивних можливостей. , , Як наслідок, існує розбіжність між тим, що сьогодні моделі можуть зробити, і тим, що можна очікувати від них в реальних клінічних робочих процесах. , 21 81 97 42 74 Останні досягнення у великих мовних моделях (LLM) пропонують можливість переосмислити системи штучного інтелекту, з мовою як інструментом для посередництва взаємодії людини з штучним інтелектом. Ці виразні та інтерактивні моделі пропонують велику обіцянку у своїй здатності вивчати загалом корисні представлення з знань, кодованих в медичному корпусі, в масштабі. 10 Однак безпеко-критичний характер домену вимагає продуманого розвитку рамок оцінки, що дозволяє дослідникам змістовно вимірювати прогрес і захоплювати і пом'якшувати потенційну шкоду.Це особливо важливо для LLM, оскільки ці моделі можуть виробляти покоління, які не відповідають клінічним і суспільним цінностям. Щоб оцінити, наскільки добре LLM кодують клінічні знання та оцінюють їх потенціал в медицині, ми розглядаємо відповіді на медичні питання.Це завдання є складною: надання високоякісних відповідей на медичні питання вимагає розуміння медичного контексту, нагадування відповідних медичних знань та міркування з експертною інформацією. ] часто обмежуються оцінкою точності класифікації або автоматизованими метриками створення природної мови (наприклад, BLEU [ ]), і не дозволяють детальний аналіз, необхідний для клінічних додатків в реальному світі. це створює невиконану потребу в широкому медичному запитання, що відповідає бенчмарк для оцінки реалістичності відповіді LLM, використання експертних знань в медичних і наукових міркувань, корисність, точність, справедливість здоров'я, і потенційну шкоду для людей, які приймають результати моделі як факти. 33 67 Щоб вирішити це, ми курируємо MultiMedQA, бенчмарк, що складається з семи наборів даних, що відповідають на медичні питання, включаючи шість існуючих наборів даних: MedQA [ У зв’язку з цим МЗС [...] ], Публікація [ «Життя» [ Медикаментозне лікування [ ], і ММЛУ клінічні теми [ Ми вводимо сьомий набір даних, HealthSearchQA, який складається з найпоширеніших питань щодо здоров'я. 33 64 34 1 2 29 Щоб оцінити LLM за допомогою MultiMedQA, ми будуємо на PaLM, 540-мільярд параметрів LLM [ ], і його інструкційно налаштований варіант Flan-PaLM [ ]. Використовуючи комбінацію небагатьох пострілів [ Створення The Chain-of-Thought (COT) ] і самовідповідність [ Підсилюючи стратегії, Flan-PaLM досягає найсучасніших результатів (SOTA) на клінічних темах MedQA, MedMCQA, PubMedQA та MMLU, часто перевершуючи кілька сильних базових ліній LLM значною мірою. 14 15 12 91 88 Незважаючи на потужну продуктивність Flan-PaLM у питаннях багаторазового вибору, його відповіді на медичні питання споживачів виявляють ключові прогалини. Щоб вирішити це, ми пропонуємо інструкційне швидке налаштування, техніку налагодження даних та параметрів, для подальшої адаптації Flan-PaLM до медичної сфери. Вироблена модель, Med-PaLM, справляється заохочувально на осі нашої пілотної системи оцінки людини. Наприклад, група клініків оцінила лише 61,9% відповідей Flan-PaLM у довгостроковій формі як відповіді на науковий консенсус, в порівнянні з 92,6% відповідей Med-PaLM у порівнянні з відповідями клініків (92,9%). Аналогі Хоча ці результати є перспективними, медична сфера є складною. Необхідні подальші оцінки, особливо в межах справедливості, справедливості та упередженості. Наша робота демонструє, що багато обмежень необхідно подолати, перш ніж такі моделі стануть життєздатними для використання в клінічних додатках. Наші ключові внески підсумовуються нижче: Підходи до оцінки LLM в відповіді на медичні питання - Ми представляємо цей набір даних поряд з шістьма іншими існуючими відкритими наборами даних для відповіді на медичні запитання, що охоплюють медичний огляд, медичні дослідження та споживчі медичні запитання, як різноманітний еталон для оцінки клінічних знань та можливостей відповіді на запитання LLM (див. розділ ) Curation of HealthSearchQA and MultiMedQA 3.1 - Ми пілотуємо рамку для оцінки лікарів та користувачів для оцінки декількох осей продуктивності LLM за межами точності на наборах даних з декількома виборами. наша оцінка оцінює відповіді на згоду з науковим та клінічним консенсусом, ймовірність та можливий ступінь шкоди, розуміння читання, пригадування відповідних клінічних знань, маніпулювання знаннями за допомогою дійсних міркувань, повнота відповідей, потенціал для прихильності, актуальність та корисність (див. розділ ) Pilot framework for human evaluation 3.2 На наборах даних з клінічних тем MedQA, MedMCQA, PubMedQA та MMLU, FLAN-PaLM досягає продуктивності SOTA за допомогою комбінації стратегій, що заохочують, перевершуючи кілька сильних базових ліній LLM. Зокрема, ми досягаємо точності 67,6% на MedQA (більше 17% вище попереднього SOTA), 57,6% на MedMCQA і 79,0% на PubMedQA (див. розділ 4). Інструкція пробного налаштування, щоб налаштувати LLM до медичної галузі Ми вводимо інструкцію пробного налаштування, простий, ефективний за даними та параметрами метод для налаштування LLM до безпечно-критичної медичної галузі (див. Розділ 3.3.3). Ми використовуємо це, щоб побудувати Med-PaLM, інструкцію пробного налаштування версії Flan-PaLM, що спеціалізується на медичній галузі. Наша рамка оцінки людини розкриває обмеження Flan-PaLM в науковому заземленні, шкоди та упередження. Однак Med-PaLM значно зменшує розрив (або навіть порівнює сприятливо) до клініків на декількох з цих осей, відповідно до клініків і користувачів (див. Ключові обмеження LLM, виявлені через нашу оцінку людини Хоча наші результати демонструють потенціал LLM в медицині, вони також припускають, що необхідні кілька критичних поліпшень, щоб зробити ці моделі життєздатними для клінічних додатків в реальному світі. 2 Пов'язані роботи Протягом останніх декількох років LLM продемонстрували вражаючу продуктивність у виконанні завдань з обробки природної мови (NLP). , , , , , , , , , Вони завдячують своєму успіху збільшенню масштабування підготовки моделей на основі трансформаторів [ ]. показано, що масштаби продуктивності моделі та ефективності даних з розміром моделі та розміром набору даних [ ]. LLM часто навчаються з використанням самонагляду у великому масштабі, використовуючи текстові корпуси загального призначення, такі як Wikipedia і BooksCorpus. Вони продемонстрували перспективні результати у широкому діапазоні завдань, включаючи завдання, які вимагають спеціалізованих наукових знань та міркувань [ , ]. Мабуть, найцікавішим аспектом цих LLM є їх контекстні здібності, які адаптують ці моделі до різноманітних завдань без оновлень параметрів на основі градусів [ , , , Це дозволяє їм швидко узагальнювати невидимі завдання і навіть демонструвати видимі міркувальні здібності з відповідними стратегіями заохочення [ , , , Large language models (LLMs) 12 14 15 30 69 70 73 89 91 99 84 37 17 29 12 40 43 89 14 47 79 91 Кілька досліджень показали, що LLM мають здатність діяти як непрямі бази знань [ , , ]. Однак, існує значний ризик, що ці моделі виробляють галюцинації, посилюючи соціальні упередження, присутні в їх навчальних даних, і показуючи недоліки в їх розумових здібностях. Щоб вивчити поточні обмеження LLM і кількісно оцінити великий розрив між людськими та LLM мовними можливостями, BIG-bench була введена в якості спільноти ініціативи для порівняння завдань, які на момент публікації вважалися вище можливостей поточних мовних моделей [ 29 35 79 78 Останні дослідження, такі як SciBERT [ Біотехнологічні засоби [ ], Біомегатронний [ Біографія Біографія [ ], Публічний сайт [ Сміливість [ ], Школяр Берт [ ], і біоГПТ [ ], продемонстрували ефективність використання кураторського наукового та біомедичного корпусу як для дискримінаційного, так і генеративного мовного моделювання. Ці моделі, хоча і перспективні, зазвичай невеликі в масштабі та обсязі порівняно з LLM, такими як GPT-3 [ Паломництво і паломництво ( ].Хоча медична сфера є складною, конкретні пропозиції для LLM вже включали такі різноманітні приклади, як збільшення некритичних клінічних оцінок до підсумки складних медичних комунікацій [ , , LLMs for science and biomedicine 5 46 76 44 25 66 31 56 12 14 3 41 75 Найближчим до нашої роботи прецедентом є Тейлор [ Наприклад ], який запровадив LLM для науки під назвою Galactica, і Liévin [ Наприклад ], який вивчав міркувальну здатність LLM в контексті медичного питання відповіді. [ Наприклад ] використовувався Instruct GPT-3, інструкційно налаштований LLM [ Прикладом цього є те, що при застосуванні (при застосуванні) ] на вершині для поліпшення результатів на наборах даних MedQA, MedMCQA і PubMedQA. та Ал. 79 та Ал. 50 та Ал. 50 63 91 3 Методи Тут ми детально описуємо: Набори даних: бенчмарк MultiMedQA для оцінки LLM у відповіді на медичні запитання. Рамка для оцінки людини: рамка рейтингу для оцінки моделі (і клініки) відповідей клініків і мирян. Моделювання: Великі мовні моделі (LLM) та методи, що використовуються для їх узгодження з вимогами медичної галузі в цьому дослідженні. 3.1 Набір даних Щоб оцінити потенціал LLM в медицині, ми зосередилися на відповіді на медичні питання. Відповідь на медичні питання вимагає навичок читання розуміння, здатність точно згадати медичні знання, і маніпуляції експертних знань. Є кілька існуючих медичних питань, які відповідають на набори даних для досліджень. , ], питання, що вимагають навичок розуміння медичних досліджень [ ], і питання, які вимагають здатності оцінювати наміри користувачів і надавати корисні відповіді на їхні медичні інформаційні потреби [ , 33 64 34 1 2 Ми визнаємо, що медичні знання великі як за кількістю, так і за якістю. Існуючі еталони по суті обмежені і надають лише часткове охоплення простору медичних знань. Проте, об'єднання кількох різних наборів даних для відповіді на медичні запитання дозволяє більш глибоку оцінку знань LLM, ніж точність з декількома виборами або метрики створення природної мови, такі як BLEU. Набори даних, які ми об'єднали разом, випробовують різні здібності - деякі з них є питаннями з декількома виборами, а інші вимагають довгоформатних відповідей; деякі з них є відкритими доменами (де питання відповідають без обмеження доступної інформації до заздалегідь визначеного джерела), а інші - ] для всеосяжного резюме медичного питання, що відповідає на набори даних. 33 3.1.1 MultiMedQA - еталон для відповіді на медичні запитання MultiMedQA включає в себе набори даних, що відповідають на питання з декількома варіантами, набори даних, які вимагають більш довгострокових відповідей на питання медичних фахівців, і набори даних, які вимагають більш довгострокових відповідей на питання, які можуть бути поставлені непрофесіоналами. У зв’язку з цим МЗС [...] ], Публікація [ «Життя» [ Медикаментозне лікування [ ] і ММЛУ клінічні теми [ Ми додатково розширили MultiMedQA з новим набором даних кураторських часто шуканих запитів зі здоров'я: HealthSearchQA. Всі набори даних англійською мовою, і ми детально описуємо їх нижче. 33 64 34 1 2 29 Ці набори даних варіюються уздовж наступних осей: Формат: багаторазовий вибір проти довгострокової відповіді на питання Перевірені здібності: наприклад, оцінка спогадів про медичні факти в ізоляції проти оцінки здібностей медичного міркування на додаток до спогадів про факти Домен: відкритий домен vs. закритий домен Джерело запитання: від професійних медичних іспитів, медичних досліджень або споживачів, які шукають медичну інформацію Етикетки та метадані: наявність етикетки або пояснень та їх джерела У той час як MedMCQA, PubMedQA, LiveQA та MedicationQA надають відповіді на довгі форми посилання або пояснення, ми не використовуємо їх у цій роботі. По-перше, відповіді на посилання не походять з послідовних джерел у різних наборах даних. Відповіді часто походять від автоматизованих інструментів або неклініків, таких як бібліотекарі. Будівництво відповідей на посилання та пояснень у цих новаторських наборах даних не було оптимізовано для цілісних або всеосяжних оцінок якості довгих відповідей, що робить їх субоптимальними для використання як "земляна правда", проти якої оцінювати LLM з використанням автоматизованої метрики природної мови, наприклад BLEU. Щоб полегшити це, як обговорюється в розділі По-друге, з огляду на безпеко-критичні вимоги медичної галузі, ми вважаємо, що важливо вийти за рамки автоматизованих вимірів якості генерації довгоформатних відповідей, використовуючи метрики, такі як BLEU, до тих, що включають більш нюансові рамки оцінки людини, такі як запропоновані в цьому дослідженні. 4.5 Набір даних MedQA [ Складається з питань стилю US Medical License Exam (USMLE), які були отримані з вибором 4 або 5 можливих відповідей від Національної медичної ради в США. MedQA (USMLE) 33 Набір даних MedMCQA складається з більш ніж 194 000 4-опціонних багаторазових питань з індійських медичних вступних іспитів (AIIMS/NEET) [ Цей набір даних охоплює 2,4 тисячі тем охорони здоров'я та 21 медичну тематику. MedMCQA 64 The PubMedQA dataset [ ] складається з 1 000 експертних пар відповідей на запитання, в яких завдання полягає в тому, щоб отримати відповідь «так/ні/можливо» з декількома варіантами відповіді на запитання разом з абстрактом PubMed як контекст.У той час як набори даних MedQA і MedMCQA є завданнями відповіді на питання відкритого домену, завдання PubMedQA є закритим доменом, оскільки вимагає висновку відповіді з підтримуючого абстрактного контексту PubMed. PubMedQA 34 «Вимірювання розуміння масивної багатозадачної мови» (MMLU) Ми вибрали підзадачі, найбільш актуальні для медичних знань: «анатомія», «клінічні знання», «медицина коледжу», «медична генетика», «професійна медицина» і «біологія коледжу». MMLU 29 The LiveQA dataset [ Набір даних складається з медичних питань, поданих людьми до Національної бібліотеки медицини (NLM). Набір даних також складається з ручно зібраних референтних відповідей з надійних джерел, таких як веб-сайт Національного інституту охорони здоров'я (NIH). LiveQA 1 The MedicationQA dataset [ ] consists of commonly asked consumer questions about medications. In addition to the question, the dataset contains annotations corresponding to drug focus and interactions. Similar to LiveQA, we evaluate models’ ability to produce long form answers to the questions in the test set. MedicationQA 2 We curated our own additional dataset consisting of 3375 commonly searched consumer questions, referred to as “HealthSearchQA”. The dataset was curated using seed medical conditions and their associated symptoms. We used the seed data to retrieve publicly-available commonly searched questions generated by a search engine, which were displayed to all users entering the seed terms. We publish the dataset as an open benchmark for consumer medical question answering and hope this will be a useful resource for the community, as a dataset reflecting real-world consumer concerns. HealthSearchQA Хоча MultiMedQA дозволяє нам досліджувати можливості відповіді на медичні запитання LLM по декількох осях, ми визнаємо, що це не є вичерпним. Ми плануємо розширити бенчмарк до інших відповідних наборів даних, таких як здатність відповіді на питання з електронних медичних записів [ ] or those requiring pre-clinical biomedical knowledge [ ], in future work. 65 83 3.2 Framework for human evaluation Here we describe our proposed framework for human evaluation of long-form answers to medical questions. 3.2.1 Клінічна оцінка While objective accuracy metrics on multiple-choice questions are a robust measure of model performance, they omit several important details. To more deeply assess the generative outputs of LLMs in open-ended question answering for medical topics, we developed a pilot framework for human evaluation of long-form model answers to consumer medical questions in the LiveQA, MedicationQA and HealthSearchQA datasets. Резюме різних осей, по яких клініцисти оцінюють відповіді в нашому наборі даних, що відповідають на споживчі медичні запитання.Ці включають згоду з науковим консенсусом, можливість і ймовірність шкоди, докази розуміння, міркування та здатність до пошуку, наявність неналежного, неправильного або відсутнього вмісту та можливість упередження у відповіді.Ми використовуємо базу клініцистів для оцінки якості моделі та людських відповідей по цих осях. Table 2 Task Axis Question 1 Scientific consensus How does the answer relate to the consensus in the scientific andclinical community? 2 Extent of possible harm What is the extent of possible harm? 3 Likelihood of possible harm What is the likelihood of possible harm? 4 Evidence of correct comprehension Does the answer contain any evidence of correct reading compre-hension? (indication the question has been understood) 5 Evidence of correct retrieval Does the answer contain any evidence of correct recall of knowl-edge? (mention of a relevant and/or correct fact for answering the question) 6 Evidence of correct reasoning Does the answer contain any evidence of correct reasoning steps?(correct rationale for answering the question) 7 Evidence of incorrect comprehension Does the answer contain any evidence of incorrect reading com-prehension? (indication the question has not been understood) 8 Evidence of incorrect retrieval Does the answer contain any evidence of incorrect recall of knowl-edge? (mention of an irrelevant and/or incorrect fact for answering the question) 9 Evidence of incorrect reasoning Does the answer contain any evidence of incorrect reasoning steps?(incorrect rationale for answering the question) 10 Inappropriate/incorrect content Does the answer contain any content it shouldn’t? 11 Missing content Does the answer omit any content it shouldn’t? 12 Possibility of bias Does the answer contain any information that is inapplicable or inaccurate for any particular medical demographic? 1 Scientific consensus How does the answer relate to the consensus in the scientific andclinical community? 2 Розмір можливої шкоди What is the extent of possible harm? 3 Імовірність можливої шкоди What is the likelihood of possible harm? 4 Evidence of correct comprehension Does the answer contain any evidence of correct reading compre-hension? (indication the question has been understood) 5 Evidence of correct retrieval Does the answer contain any evidence of correct recall of knowl-edge? (mention of a relevant and/or correct fact for answering the question) 6 Evidence of correct reasoning Чи містить відповідь будь-які докази правильних кроків міркування? (правильне міркування для відповіді на питання) 7 Evidence of incorrect comprehension Чи містить відповідь будь-які докази неправильного читання? (вказати, що питання не зрозуміло) 8 Evidence of incorrect retrieval Does the answer contain any evidence of incorrect recall of knowl-edge? (mention of an irrelevant and/or incorrect fact for answering the question) 9 Evidence of incorrect reasoning Чи містить відповідь будь-які докази неправильних кроків міркування? (неправильне міркування для відповіді на запитання) 10 Inappropriate/incorrect content Does the answer contain any content it shouldn’t? 11 Missing content Does the answer omit any content it shouldn’t? 12 Possibility of bias Does the answer contain any information that is inapplicable or inaccurate for any particular medical demographic? The pilot framework was inspired by approaches published in a similar domain by Feng [ ] to examine the strengths and weaknesses of LLM generations in clinical settings. We used focus groups and interviews with clinicians based in the UK, US and India to identify additional axes of evaluation [ ] and expanded the framework items to address notions of agreement with scientific consensus, possibility and likelihood of harm, completeness and missingness of answers and possibility of bias. Alignment with scientific consensus was measured by asking raters whether the output of the model was aligned with a prevailing scientific consensus (for example in the form of well-accepted clinical practice guidelines), opposed to a scientific consensus; or whether no clear scientific consensus exists regarding the question. Harm is a complex concept that can be evaluated along several dimensions (e.g. physical health, mental health, moral, financial and many others). When answering this question, raters were asked to focus solely on physical/mental health-related harms, and evaluated both severity (in a format inspired by the AHRQ common formats for harm [ ]) and likelihood, under the assumption that a consumer or physician based on the content of the answer might take actions. Bias was assessed broadly by raters considering if the answer contained information that would be inapplicable or inaccurate to a specific patient demographic. The questions asked in the evaluation are summarized in Table et al. 22 60 93 2 Our framework items’ form, wording and response-scale points were refined by undertaking further interviews with triplicate assessments of 25 question-answer tuples per dataset by three qualified clinicians. Instructions for the clinicians were written including indicative examples of ratings for questions, and iterated until the clinicians’ rating approaches converged to indicate the instructions were usable. Once the guidelines had converged a larger set of question-answer tuples from the consumer medical questions datasets were evaluated by single-ratings performed by one of nine clinicians based in the UK, USA or India and qualified for practice in their respective countries, with specialist experience including pediatrics, surgery, internal medicine and primary care. | Summary of the different axes along which lay users evaluate the utility of answers in our consumer medical question answering datasets. We use a pool of 5 non-expert lay users to evaluate the quality of model and human-generated answers along these axes. Table 3 Task Axis Question 1 Answer captures user intent How well does the answer address the intent of the question? 2 Helpfulness of the answer How helpful is this answer to the user? (for example, does it enable them to draw a conclusion or help clarify next steps?) 1 Answer captures user intent How well does the answer address the intent of the question? 2 Helpfulness of the answer Наскільки корисна ця відповідь для користувача? (наприклад, чи дозволяє вона їм зробити висновок або допомогти уточнити наступні кроки?) 3.2.2 Lay user (non-expert) evaluation Для оцінки корисності та корисності відповідей на медичні запитання споживачів ми провели додаткову оцінку користувача (не-експерта). Це було зроблено п'ятьма оцінювачами без медичного досвіду, всі з яких були засновані в Індії. Метою цього вправи було оцінити, наскільки добре відповідь вирішила сприйнятий намір, що лежить в основі питання, і наскільки вона була корисною та дієвою. 3 3.3 Modeling У цьому розділі ми детально розглянемо великі мовні моделі (LLM) та методи, які використовуються для їх узгодження з вимогами медичної галузі. 3.3 Моделі We build on the PaLM and Flan-PaLM family of LLMs in this study. Модель Pathways Language Model (PaLM), запроваджена [ ] is a densely-activated decoder-only transformer language model trained using Pathways [ ], a large-scale ML accelerator orchestration system that enables highly efficient training across TPU pods. The PaLM training corpus consists of 780 billion tokens representing a mixture of webpages, Wikipedia articles, source code, social media conversations, news articles and books. All three PaLM model variants are trained for exactly one epoch of the training data. We refer to [ , , ] for more details on the training corpus. At the time of release, PaLM 540B achieved breakthrough performance, outperforming fine tuned state of the art models on a suite of multi-step reasoning tasks and exceeding average human performance on BIG-bench [ , PaLM 14 4 14 19 80 14 78 Крім базових моделей PaLM, ми також розглянули інструкційно налаштований аналог, введений [ ]. These models are trained using instruction tuning, i.e., finetuning the model on a collection of datasets in which each example is prefixed with some combination of instructions and/or few-shot exemplars. In particular, Chung [ ] demonstrated the effectiveness of scaling the number of tasks, model size and using chain-of-thought data [ ] as instructions. The Flan-PaLM model reached state of the art performance on several benchmarks such as MMLU, BBH, and TyDIQA [ ]. Across the suite of evaluation tasks considered in [ ], Flan-PaLM outperformed baseline PaLM by an average of 9.4%, demonstrating the effectiveness of the instruction tuning approach. Flan-PaLM 15 та Ал. 15 91 16 15 In this study we considered both the PaLM and Flan-PaLM model variants at three different model sizes: 8B, 62B and 540B, with the largest model using 6144 TPUv4 chips for pretraining. 3.3.2 Aligning LLMs to the medical domain General-purpose LLMs like PaLM [ ] and GPT-3 [ ] have reached state of the art performance on a wide variety of tasks on challenging benchmarks such as BIG-bench. However, given the safety critical nature of the medical domain, it is necessary to adapt and align the model with domain-specific data. Typical transfer learning and domain adaptation methods rely on end-to-end finetuning of the model with large amounts of in-domain data, an approach that is challenging here given the paucity of medical data. As such, in this study we focused on data-efficient alignment strategies building on prompting [ ] and prompt tuning [ ]. 14 12 12 45 Brown [ ] demonstrated that LLMs are strong few-shot learners, where fast in-context learning can be achieved through prompting strategies. Through a handful of demonstration examples encoded as prompt text in the input context, these models are able to generalize to new examples and new tasks without any gradient updates or finetuning. The remarkable success of in-context few-shot learning has spurred the development of many prompting strategies including scratchpad [ ], chain-of-thought [ ], and least-to-most prompting [ ], особливо для багатоступеневих обчислювальних і міркувальних проблем, таких як математичні проблеми [ ].У цьому дослідженні ми зосередили увагу на стандартних кількох пострілах, ланцюжок думки та спонукання до самосумісності, як розглянуто нижче. Prompting strategies et al. 12 61 91 100 17 The standard few-shot prompting strategy was introduced by Brown [ ]. Тут промпт до моделі призначений для включення декількох прикладів, що описують завдання через текстові демонстрації. Ці демонстрації зазвичай кодуються як пари вводу-виводу. Кількість прикладів зазвичай вибирається залежно від кількості токенів, які можуть вписатися в вікно контексту вводу моделі. Після промпту, модель надається з вводом і просить генерувати прогноз пробного часу. Еквивалент нульового промпту зазвичай включає лише інструкцію, що описує завдання без будь-яких додаткових прикладів. [ ] observed that while zero-shot prompting scaled modestly with model size, performance with few-shot prompting increased more rapidly. Further, Wei [ ] observed emergent abilities– that is, abilities which are non-existent in small models but rapidly improve above random performance beyond a certain model size in the prompting paradigm. Few-shot prompting et al. 12 et al. 12 та Ал. 90 У цьому дослідженні ми працювали з групою кваліфікованих клініків, щоб визначити найкращі демонстраційні приклади та розробити рекомендації з декількох ударів. Як правило, ми використовували 5 прикладів введення-виведення для відповіді на медичне запитання споживача, але зменшили кількість до 3 або менше для PubMedQA, враховуючи необхідність також вписуватися в абстрактний контекст у пробному тексті. A.8 ланцюжок мислення (CoT), введений Вей [ Наприклад ], involves augmenting each few-shot example in the prompt with a step-by-step breakdown and a coherent set of intermediate reasoning steps towards the final answer. The approach is designed to mimic the human thought process when solving problems that require multi-step computation and reasoning. Wei [ ] demonstrated that CoT prompting can elicit reasoning abilities in sufficiently large language models and dramatically improve performance on tasks such as math problems [ ]. Further, the appearance of such CoT reasoning appears to be an emergent ability [ ] of LLMs. Lewkowycz [ ] used CoT prompting as one of the key strategies in their work leading to breakthrough LLM performance on several STEM benchmarks. Chain-of-thought prompting et al. 91 та Ал. 91 17 90 et al. 47 Many of the medical questions explored in this study involve complex multi-step reasoning, making them a good fit for CoT prompting techniques. Together with clinicians, we crafted CoT prompts to provide clear demonstrations on how to reason and answer the given medical questions. Examples of such prompts are detailed in Section . A.9 Проста стратегія для поліпшення продуктивності на багаторазових бенчмарках полягає в тому, щоб запропонувати і випробувати декілька результатів декодування з моделі. [ ] under the name of "self-consistency". The rationale behind this approach here is that for a domain such as medicine with complex reasoning paths, there might be multiple potential routes to the correct answer. Marginalizing out the reasoning paths can lead to the most consistent answer. The self-consistency prompting strategy led to particularly strong improvements in [ ], and we adopted the same approach for our datasets with multiple-choice questions: MedQA, MedMCQA, PubMedQA and MMLU. Self-consistency prompting et al. 88 47 Because LLMs have grown to hundreds of billions of parameters [ , ], finetuning them is extraordinarily computationally expensive. While the success of few-shot prompting has alleviated this issue to a large extent, many tasks would benefit further from gradient-based learning. Lester [ ] introduced prompt tuning (in contrast to prompting / priming), a simple and computationally inexpensive Prompt tuning 12 14 et al. 45 Метод адаптації LLM до конкретних наступних завдань, особливо з обмеженими даними. підхід включає в себе вивчення м'яких промпетних векторів через зворотне поширення, зберігаючи решту LLM замороженим, дозволяючи, таким чином, легке повторне використання однієї моделі між завданнями. Це використання м'яких проб може бути контрастується з дискретними "жорсткими" текстовими пробками з декількома пострілами, популяризованими LLM, такими як GPT-3 [ ]. While prompt tuning can benefit from any number of labeled examples, typically only a handful of examples (e.g., tens) are required to achieve good performance. Further, Lester 12 та Ал. [ ] продемонстрували, що показники показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників показників [ ], where prefix activation vectors are prepended to each layer of the LLM encoder and learned through backpropagation. Lester [ Наприклад ]’s prompt tuning can be thought of as a simplification of this idea, restricting the learnable parameters to only those representing a small number of tokens prepended to the input as a soft prompt. 45 48 et al. 45 3.3.3 Instruction prompt tuning Wei [ ] and Chung [ ] demonstrated the benefits of multi-task instruction finetuning: the Flan-PaLM model achieved state of the performance on several benchmarks such as BIG-bench [ Наприклад, в ММВ ( ]. In particular, Flan-PaLM demonstrated the benefits of using CoT data in fine-tuning, leading to robust improvements in tasks that required reasoning. та Ал. 89 та Ал. 15 47 29 Given the strong performance of instruction tuning, we built primarily on the Flan-PALM model in this work. However, as discussed in Section , our human evaluation revealed key gaps in Flan-PaLM’s performance on the consumer medical question answering datasets, even with few-shot prompting. To further align the model to the requirements of the safety-critical medical domain, we explored additional training specifically on medical data. 4.5 For this additional training, we used prompt tuning instead of full-model finetuning given compute and clinician data generation costs. Our approach effectively extends Flan-PaLM’s principle of "learning to follow instructions" to the prompt tuning stage. Specifically, rather than using the soft prompt learned by prompt tuning as a replacement for a task-specific human-engineered prompt, we instead use the soft prompt as an initial prefix that is shared across multiple medical datasets, and which is followed by the relevant task-specific human-engineered prompt (consisting of instructions and/or few-shot exemplars, which may be chain-of-thought examples) along with the actual question and/or context. We refer to this method of prompt tuning as “instruction prompt tuning”. Instruction prompt tuning can thus be seen as a lightweight way (data-efficient, parameter-efficient, compute-efficient during both training and inference) of training a model to follow instructions in one or more domains. In our setting, instruction prompt tuning adapted LLMs to better follow the specific type of instructions used in the family of medical datasets that we target. Given the combination of soft prompt with hard prompt, instruction prompt tuning can be considered a type of "hard-soft hybrid prompt tuning" [ ], поряд з існуючими методами, які вставляють жорсткі токени анкеру в м'який промпт [ ], insert learned soft tokens into a hard prompt [ ], або використовуйте вивчений м'який промпт як префікс для короткого жорсткого промпту з нульовим пострілом [ , ]. To the best of our knowledge, ours is the first published example of learning a soft prompt that is prefixed in front of a full hard prompt containing a mixture of instructions and few-shot exemplars. 52 53 28 26 96 3.3.4 Покласти все разом: Med-PaLM To adapt Flan-PaLM to the medical domain, we applied instruction prompt tuning on a small set of exemplars. These examples were effectively used to instruct the model to produce text generations more aligned with the requirements of the medical domain, with good examples of medical comprehension, recall of clinical knowledge, and reasoning on medical knowledge unlikely to lead to patient harm. Thus, curation of these examples was very important. We randomly sampled examples from MultiMedQA free-response datasets (HealthSearchQA, MedicationQA, LiveQA) and asked a panel of five clinicians to provide exemplar answers. These clinicians were based in the US and UK with specialist experience in primary care, surgery, internal medicine, and pediatrics. Clinicians then filtered out questions / answer pairs that they decided were not good examples to instruct the model. This generally happened when clinicians felt like they could not produce an “ideal” model answer for a given question, e.g., if the information required to answer a question was not known. We were left with 40 examples across HealthSearchQA, MedicationQA, and LiveQA used for instruction prompt tuning training. The resulting model, Med-PaLM, was evaluated on the consumer medical question answering datasets of MultiMedQA along with Flan-PaLM. Figure gives an overview of our instruction prompt tuning approach for Med-PaLM. Further details on the hyperparameter optimization and model selection process can be found in Section . The model card for Med-PaLM is provided in Section . 2 A.1 А5 4 Results In this section, we first provide an overview of our key results as summarized in Figures and . Then, we present several ablations to help contextualize and interpret the results. 3 4 4.1 Flan-PaLM перевищує попереднє найсучасніші стандарти MedQA (USMLE) більш ніж на 17% On the MedQA dataset consisting of USMLE style questions with 4 options, our Flan-PaLM 540B model achieved a multiple-choice question (MCQ) accuracy of 67.6% surpassing the DRAGON model [ ] на 20,1 відсотка 94 Concurrent to our study, Bolton [ ] розробив PubMedGPT, 2,7 мільярда моделей, які навчалися виключно на біомедичних абстрактах та папері. Модель досягла показників 50,3% на питання MedQA з 4 варіантами. До кращого нашого знання, це найсучасніша модель MedQA, а Flan-PaLM 540B перевищила цей показник на 17,3%. на більш складний набір питань з 5 варіантами, наша модель отримала оцінку 62,0%. et al. 9 4 4.2 State-of-the-art performance on MedMCQA and PubMedQA On the MedMCQA dataset, consisting of medical entrance exam questions from India, Flan-PaLM 540B reached a performance of 57.6% on the dev set. This exceeds the previous state of the art result of 52.9% by the Galactica model [ ]. 79 Similarly on the PubMedQA dataset, our model achieved an accuracy of 79.0% outperforming the previous state of the art BioGPT model Luo [ ] by 0.8%. The results are summarized in Figure 2 below. While this improvement may seem small compared to MedQA and MedMCQA datasets, the single rater human performance on PubMedQA is 78.0% [ ], indicating that there may be an inherent ceiling to the maximum possible performance on this task. et al. 56 33 | Summary of the best performing models on the MedQA (USMLE) dataset questions with 4 options. Our results with Flan-PaLM exceed previous state of the art by over 17%. Table 4 Model (number of parameters) MedQA (USMLE) Accuracy % Flan-PaLM (540 B)(ours) 67.6 PubMedGPT (2.7 B) [ ] 9 50.3 DRAGON (360 M) [ ] 94 47.5 BioLinkBERT (340 M) [ ] 95 45.1 Galactica (120 B) [ ] 79 44.4 PubMedBERT (100 M) [ ] 25 38.1 GPT-Neo (2.7 B) [ ] 7 33.3 Flan-PaLM (540 B)(ours) 67.6 PubMedGPT (2.7 B) [ ] 9 50.3 DRAGON (360 M) [ ] 94 47.5 BioLinkBERT (340 M) [ ] 95 45.1 Галактика (120 Б) ] 79 44.4 Буковинська область (100 м) ] 25 38.1 GPT-Neo (2.7 B) [ ] 7 33.3 4.3 State-of-the-art performance on MMLU clinical topics The MMLU dataset contains multiple-choice questions from several clinical knowledge, medicine and biology related topics. These include anatomy, clinical knowledge, professional medicine, human genetics, college medicine and college biology. Flan-PaLM 540B achieved state of the art performance on all these subsets, outperforming strong LLMs like PaLM, Gopher, Chinchilla, BLOOM, OPT and Galactica. In particular, on the professional medicine and clinical knowledge subset, Flan-PaLM 540B achieved a SOTA accuracy of 83.5% and 84.0%. Figure summarizes the results, providing comparisons with other LLMs where available [ ]. 4 79 4.4 Ablations We performed several ablations on three of the multiple-choice datasets - MedQA, MedMCQA and PubMedQA - to better understand our results and identify the key components contributing to Flan-PaLM’s performance. We present them in detail below: Across all model sizes, we observed that the instruction-tuned Flan-PaLM model outperformed the baseline PaLM model on all three datasets - MedQA, MedMCQA and PubMedQA. The models were few-shot prompted in these experiments using the prompt text detailed in Детальні результати описуються в . The improvements were most prominent in the PubMedQA dataset where the 8B Flan-PaLM model outperformed the baseline PaLM model by over 30%. Similar strong improvements were observed in the case of 62B and 540B variants too. These results demonstrated the strong benefits of instruction fine-tuning. Similar results with MMLU clinical topics are reported in Section . Instruction tuning improves performance on medical question answering A.8 5 A.3 We have not yet completed a thorough analysis of the effect of instruction prompt tuning on multiple-choice accuracy; our analysis is of Flan-PaLM in this section, not Med-PaLM. Med-PaLM (instruction prompt-tuned Flan-PaLM) was developed to improve the long-form generation results of Flan-PaLM presented in Section by better aligning the model to the medical domain. However, given the success of domain-agnostic instruction tuning for multiple-choice question answering, in-domain instruction prompt tuning appears promising, and we present a preliminary result in Section . 4.5 A.6 A related observation from was the strong performance improvements obtained from scaling the model from 8B to 62B and 540B. We observed approximately a 2x improvement in performance when scaling the model from 8B to 540B in both PaLM and Flan-PaLM. These improvements were more pronounced in the MedQA and MedMCQA datasets. In particular, for the Flan-PaLM model, the 540B variant outperformed the 62B variant by over 14% and the 8B variant by over 24%. Given these results and the strong performance of the Flan-PaLM 540B model, we built on this model for downstream experiments and ablations. The scaling plots are provided in Section . Scaling improves performance on medical question answering 5 A.4 summarizes the results from using CoT prompting and provides a comparison with the few-shot prompting strategy using the Flan-PaLM 540B model. Somewhat unexpectedly, we did not observe improvements using CoT over the standard few-shot prompting strategy across the three multiple-choice datasets - MedQA, MedMCQA and PubMedQA. The CoT prompts used are summarized in Section . Chain-of-Thought (CoT) prompting 6 A.9 Wang [ ] showed that self-consistency prompting can help when CoT prompting hurts performance. They showed significant improvements on arithmetic and commonsense reasoning tasks. Taking their cue, we apply it to our datasets. We fixed the number of chain-of-thought answer explanation paths to 11 for each of the three datasets. We then marginalized over the different explanation paths to select the most consistent answer. Using this strategy, we observed significant improvements over the standard few-shot prompting strategy for the Flan-PaLM 540B model on the MedQA and MedMCQA datasets. In particular, for the MedQA dataset we observed a >7% improvement with self-consistency. However, somewhat unexpectedly, self-consistency led to a drop in performance for the PubMedQA dataset. The results are summarized in Table . Self-consistency (SC) leads to strong improvement in multiple-choice performance et al. 88 7 Далі ми надаємо деякі приклади відповідей з моделі Flan-PaLM 540B для MedQA в таблиці . 8 LLMs are capable of long, coherent, and complex generations. However, they can also generate statements inconsistent with fact. In medical settings in particular, such failure modes need to be carefully vetted, and in real world applications, generations unlikely to be true should be withheld. Instead, we may want to defer to other information sources or experts when needed. One solution is therefore for LLMs to communicate uncertainty estimates along with their responses. Uncertainty and Selective Prediction While uncertainty measures over LLM output sequences remains an open area of research [ , ], here we explored a simple proxy as an initial approach to measuring the relationship between LLM uncertainty and statement accuracy. We created a selective prediction task [ ], using the number of decodes matching a given answer from self-consistency as a measure of uncertainty and used it to withhold the answer if the model was not appropriately confident. We performed the experiment using 41 decodes from the Flan-PaLM 540B model with chain-of-thought prompting and self consistency. We observe in що по мірі збільшення відстрочкової фракції (тобто з більш високою «певністю», необхідною для надання прогнозу), продуктивність моделі на MedQA покращується, досягаючи точності до 82,5% при 0,45 відстрочкової фракції. Це говорить про те, що наша міра невизначеності відповіді може бути розумною, і що LLM, здається, кодує невизначеність щодо їх знань у медичній галузі. 36 51 82 5 4.5 Human evaluation results We randomly selected 100 questions from HealthSearchQA, 20 questions from LiveQA, and 20 questions from MedicationQA as a smaller long-form answer benchmark for detailed human evaluation. These questions reflect real-world consumer queries for medical information. These selected questions were disjoint from those exemplars used for instruction prompt tuning to produce Med-PaLM. We had a panel of clinicians generate expert reference answers to these questions. We then produced answers using Flan-PaLM and Med-PaLM (both 540B models). A few qualitative examples of these questions and the corresponding Med-PaLM responses are shown in Table Ми мали три набори відповідей, оцінених іншою групою клініків уздовж осей в таблиці , without revealing the source of answers. One clinician evaluated each answer. To reduce the impact of variation across clinicians on generalizability of our findings, our panel consisted of 9 clinicians (based in the US, UK, and India). We used the non-parametric bootstrap to estimate any significant variation in the results, where 100 bootstrap replicas were used to produce a distribution for each set and we used the 95% bootstrap percentile interval to assess variations. These results are described in detail below and in Section . 9 2 A.7 We wished to understand how the answers related to current consensus in the clinical and scientific community. On the 140 questions evaluated in the study, we found that clinicians’ answers were judged to be aligned with the scientific consensus in 92.9% of questions. On the other hand, Flan-PaLM was found to be in agreement with the scientific consensus in only 61.9% of answers. For other questions, answers were either opposed to consensus, or no consensus existed. This suggested that generic instruction tuning on its own was not sufficient to produce scientific and clinically grounded answers. However, we observed that 92.9% of Med-PaLM answers were judged to be in accordance with the scientific consensus, showcasing the strength of instruction prompt tuning as an alignment technique to produce scientifically grounded answers. Scientific consensus: We note that since PaLM, Flan-PaLM, and Med-PaLM were trained using corpora of web documents, books, Wikipedia, code, natural language tasks, and medical tasks at a given point of time, one potential limitation of these models is that they can reflect the scientific consensus of the past instead of today. This was not a commonly observed failure mode for Med-PaLM today, but this motivates future work in continual learning of LLMs and retrieval from a continuously evolving corpus. Ми прагнули зрозуміти (незалежно від того, експерт або модель генерується) медичне розуміння, отримання медичних знань і можливості міркування моделі, як це виражається через відповіді, які вони генерують.Ми попросили панель клініків оцінити, чи відповіді містили будь-які (один або кілька прикладів) докази правильного / неправильного розуміння медичного читання, отримання медичних знань і медичних можливостей міркування, використовуючи той же підхід, що і Фенг [ ]. Correct and incorrect evidence were assessed in parallel because it is possible that a single long-form answer may contain evidence of both correct and incorrect comprehension, retrieval and reasoning. Comprehension, retrieval and reasoning capabilities: та Ал. 22 We found that expert generated answers were again considerably superior to Flan-PaLM, though performance was improved by instruction prompt tuning for Med-PaLM. This trend was observed in all the six sub-questions used to evaluate in this axis. For example, with regard to evidence of correct retrieval of medical knowledge, we found that clinician answers scored 97.8% while Flan-PaLM only scored 76.3%. However, the instruction prompt-tuned Med-PaLM model scored 95.4%, reducing the inferiority of the model compared to clinicians. Мета цієї оцінки полягала в тому, щоб зрозуміти повноту і правильність отриманих відповідей, оцінюючи, чи випускає відповідь будь-яку інформацію, яку вона не повинна, або чи містить відповідь будь-який вміст, який вона не повинна. Incorrect or missing content: Again we observed that clinician-generated answers were superior to AI models. Clinician answers showed evidence of inappropriate/incorrect content in only 1.4% of the cases, compared to 16.1% for Flan-PaLM. Surprisingly, instruction prompt tuning seemed to further degrade performance, with 18.7% of the Med-PaLM answers judged to contain inappropriate or incorrect content. On the other hand, we observed that instruction prompt tuning helped improve model performance in omission of important information. While Flan-PaLM answers were judged to miss important information 47.2% of the time, the number improved significantly for Med-PaLM with only 15.1% of the answers adjudged to have missing information, reducing the inferiority compared to clinicians whose answers were judged to have missing information in only 11.1% of the cases. A few qualitative examples are shown in Table 10 suggesting that LLM answers may be able to complement and complete physician responses to patient queries in future use cases. One potential explanation of these observations is that instruction prompt tuning teaches the Med-PaLM model to generate significantly more detailed answers than the Flan-PaLM model, reducing the omission of important information. However a longer answer also increases the risk of introducing incorrect content. We sought to identify the severity and likelihood of potential harm based on acting upon the generated answers. We asked raters to assume that the output of models might lead to actions by either clinicians or consumers/patients, and estimate the possible severity and likelihood of physical/mental health-related harms that might result. We based the options for selection by raters in the AHRQ Common Formats Williams [ ], which presents options to assign severity of harm ranging from death, severe or life-threatening injury, moderate, mild or no harm. We acknowledge that this definition of harm is more typically used in the context of analyzing harms incurred during healthcare delivery and that even in such settings (where the context for harms occurring is known with considerably greater specificity) there is frequently substantial variation in physician estimation of harm severity [ ]. The validity of the AHRQ scale cannot therefore be assumed to extend to our context, where our rater outputs should be regarded as subjective estimates because our work was not grounded in a specific intended use and sociocultural context. Possible extent and likelihood of harm: et al. 93 86 Незважаючи на широке визначення і суб'єктивність оцінок, ми спостерігали, що налаштування інструкції з проханням дати більш безпечні відповіді, які знижували як оцінену ймовірність, так і тяжкість.Хоча 29,7% відповідей Flan-PaLM були оцінені як потенційно шкідливі, цей показник впав до 5,9% для Med-PaLM в порівнянні з відповідями, отриманими клініком, які також були оцінені як потенційно шкідливі в 5,7% випадків. Аналогічно, з точки зору ймовірності пошкодження осей, налаштування інструкцій дозволило відповіді Med-PaLM відповідати експертним отриманим відповідям. The final axis along which we evaluated the answers was bias. The use of large language models for medical question answering has the potential for bias and fairness-related harms that contribute to health disparities. These harms derive from several sources, including the presence of patterns in training data that reflect disparities in health outcomes and access to care, the capability for medical question answering systems to reproduce racist misconceptions regarding the cause of racial health disparities [ , ], algorithmic design choices [ ], and differences in behavior or performance of machine learning systems across populations and groups that introduce downstream harms when used to inform medical decision making [ ]. Bias for medical demographics: 20 85 32 13 Medical question answering systems also pose additional risks beyond those posed by the use of other AI applications in healthcare because they have potential to produce arbitrary outputs, have limited reasoning capability, and could potentially be used for a wide range of downstream use cases. We sought to understand whether the answer contained any information that is inaccurate or inapplicable for a particular demographic. Flan-PaLM answers were found to contain biased information in 7.9% of the cases. However, this number reduced to 0.8% for Med-PaLM, comparing favorably with experts whose answers were judged to contain evidence of bias in 1.4% of the cases. Beyond expert evaluation, we also had a panel of five non-experts in the domain (laypeople without a medical background, based in India) assess the answers. The results are summarized in Fig 10 below. While Flan-PaLM answers were judged to be helpful in only 60.6% of the cases, the number improved to 80.3% for Med-PaLM answers. However, this remained inferior to clinician answers which were judged to be helpful 91.1% of the time. Similarly, Flan-PaLM answers were user’s question intent in 90.8% of cases. This number improved to 94.0% for Med-PaLM, which was inferior to clinician-generated answers at 95.9%. Lay user assessment: judged as directly addressing the The lay evaluation consistently reproduced the benefits of instruction prompt tuning to produce answers that are helpful to users, while also demonstrating that there is still considerable work needed to approximate the quality of outputs provided by human clinicians. 5 Discussion Our results suggest that strong performance on medical question answering may be an emergent ability [ ] of LLMs combined with effective instruction prompt tuning. 90 Firstly, we observed strong scaling performance with accuracy improving by approximately 2x as we scale the PaLM models from 8-billion to 540-billion. The performance of the PaLM 8-billion on MedQA was only slightly better than random performance. However, this number improved by over 30% for the PaLM 540-billion demonstrating the effectiveness of scale for the medical question answering task. We observed similar improvements for the MedMCQA and PubMedQA datasets. Further, instruction fine-tuning was also effective with Flan-PaLM models performing better than the PaLM models across all size variants on all the multiple-choice datasets. It is possible that the PaLM pre-training corpus included significant quantities of high quality medical content and one possible conjecture for the strong performance of the 540-billion model variant is memorization of evaluation datasets considered in this study. However, Chowdhery [ ] показали подібні дельти у виконанні моделей PaLM 8B і 540B при оцінці забруднених (тобто де частина тестового набору знаходиться в корпусі моделі попередньої підготовки) і очищених тестових наборів даних. et al. 14 There have been several efforts to train language models on a biomedical corpus, especially PubMed. These include BioGPT [ ] (355 million parameters), PubMedGPT [ ] (2.7 billion parameters) and Galactica [ ] (120 billion parameters). Our models were able to outperform these efforts on PubMedQA without any finetuning. Further, the benefits of scale and instruction fine-tuning were much more pronounced on the MedQA dataset, which can be considered out-of-domain for all these models. Given the results, we observe that medical answering performance (requiring recall, reading comprehension, and reasoning skills) improves with LLM scale. 56 9 79 However, our human evaluation results on the consumer medical question answering datasets clearly point out that scale alone is insufficient. Even state-of-the-art LLMs like Flan-PaLM can generate answers that are inappropriate for use in the safety-critical medical domain. However, the Med-PaLM results demonstrate that with instruction prompt tuning we have a data and parameter-efficient alignment technique useful for improving factors related to accuracy, factuality, consistency, safety, harm, and bias, helping close the gap with clinical experts and bringing these models closer to real-world clinical applications. 6 Limitations Our study demonstrated the potential of LLMs for encoding medical knowledge and in particular for question answering. However, it had several limitations which we discuss in detail below and outline directions for future research. 6.1 Expansion of MultiMedQA Firstly, while the MultiMedQA benchmark is diverse and contains questions from a variety of professional medicine, medical research and consumer sources, it is by no means exhaustive. We plan to expand the benchmark in the future to include a larger variety of medical and scientific domains (eg: biology) and formats. A key challenge in clinical environments is eliciting information from patients and synthesizing findings into an assessment and plan. Multiple-choice question answering tasks are inherently easier because they are often grounded in vignettes compiled by experts and selected to have a generally preferred answer, which is not true for all medical decisions. Developing benchmark tasks that reflect real world clinical workflows is an important direction of future research. Furthermore, we only considered English-language datasets in this study, and there is a strong need to expand the scope of the benchmark to support multilingual evaluations. 6.2 Development of key LLM capabilities necessary for medical applications While the Flan-PaLM was able to reach state-of-the-art performance on several multiple-choice medical question answering benchmarks, our human evaluation clearly suggests these models are not at clinician expert level on many clinically important axes. In order to bridge this gap, several new LLM capabilities need to be researched and developed including: grounding of the responses in authoritative medical sources and accounting for the time-varying nature of medical consensus. здатність ефективно виявляти і передавати невизначеність людині, незалежно від того, є вона клініком або користувачем. ability to respond to queries in multiple languages. 6.3 Improving the approach to human evaluation The rating framework we proposed for this study represents a promising pilot approach, but our chosen axes of evaluation were not exhaustive and were subjective in nature. For example the concept of medical/scientific consensus is time-varying in nature and is reflective of understandings of human health and disease and physiology based on discrimination in areas such as race/ethnicity, gender, age, ability, and more [ , ]. 38 57 Крім того, консенсус часто існує тільки для тем, що мають відношення до певних груп (наприклад, більший в кількості та/або силі), і консенсус може бути відсутній для певних субпопуляцій, які зачіпаються темами з різних причин (наприклад, суперечливі теми, менша частота захворювань, менше фінансування). Крім того, поняття шкоди може відрізнятися залежно від населення (наприклад, генетичне дослідження меншої групи людей може виявити інформацію, яка є фактичною, але не відповідає культурним переконанням цієї групи, що може спричинити шкоду членам цієї групи). Експертна оцінка шкоди також може варіюватися залежно від місця розташування, життєвого досвіду та культурного фону. Наші оцінки потенційної шкоди були суб'єктивними оцінками, а [ Наприклад ]. Further research might test whether perceived usefulness and harm of question answers varied according to the understandability and actionability score for the answer content [ ]. et al. 6 77 The number of model responses evaluated and the pool of clinicians and lay-people assessing them were limited, as our results were based on only a single clinician or lay-person evaluating the responses. This represents a limitation to generalizability of our findings which could be mitigated by inclusion of a significantly larger and intentionally diverse pool of human raters (clinicians and lay users) with participatory design in the development of model auditing tools. It is worth noting that the space of LLM responses or "coverage" is extremely high and that presents an additional difficulty in the design of evaluation tools and frameworks. Пілотна рамка, яку ми розробили, може бути значно просунута, використовуючи рекомендовані підходи до кращої практики для розробки та підтвердження інструментів рейтингу зі здоров'я, соціальних та поведінкових досліджень [ ]. This could entail the identification of additional rating items through participatory research, evaluation of rating items by domain experts and technology recipients for relevance, representativeness, and technical quality. The inclusion of a substantially larger pool of human raters would also enable testing of instrument generalizability by ratifying the test dimensionality, test-retest reliability and validity [ ]. Оскільки одна і та ж відповідь може бути оцінена декількома способами, найбільш відповідний інструмент рейтингу також залежить від призначеної мети та одержувача для результатів LLM, надаючи декілька можливостей для розробки валідованих шкал рейтингу залежно від контексту та мети використання. Крім того, дослідження суттєвого досвіду користувача (UX) та взаємодії людини з комп'ютером (HCI) за допомогою методів спільноти, заснованих на участі досліджень, необхідні перед будь-яким реальним використанням, і були б специфічними для розробленого інструменту, який виходить за межі нашого дослідницького дослідження. У цих контекстах подальші дослідження могли б досліджувати незалежний вплив варіації в рівні освіти оцінювачів класу, медичних 8 8 6.4 Fairness and equity considerations Our current approach to evaluating bias is limited and does not serve as a comprehensive assessment of potential harms, fairness, or equity. The development of procedures for the evaluation of bias and fairness-related harms in large language models is ongoing [ , ]. Healthcare is a particularly complex application of large language models given the safety-critical nature of the domain and the nuance associated with social and structural bias that drives health disparities. The intersection of large language models and healthcare creates unique opportunities for responsible and ethical innovation of robust assessment and mitigation tools for bias, fairness, and health equity. 49 92 We outline opportunities for future research into frameworks for the systematic identification and mitigation of downstream harms and impacts of large language models in healthcare contexts. Key principles include the use of participatory methods to design contextualized evaluations that reflect the values of patients that may benefit or be harmed, grounding the evaluation in one or more specific downstream clinical use cases [ , ], and the use of dataset and model documentation frameworks for transparent reporting of choices and assumptions made during data collection and curation, model development, and evaluation [ , , ]. Крім того, необхідні дослідження щодо розробки алгоритмічних процедур та еталонів, які вивчають конкретні технічні упередження, які, як відомо, завдають шкоди, якщо їх не пом'якшують. Наприклад, залежно від контексту, може бути релевантно оцінити чутливість вихідних моделей до порушень демографічних ідентифікаторів у пробках, розроблених навмисно, щоб результат не змінювався під час порушень [ , , ]. 54 71 24 59 72 23 68 98 Additionally, the aforementioned research activities to build evaluation methods to achieve health equity in large language models require interdisciplinary collaboration to ensure that various scientific perspectives and methods can be applied to the task of understanding the social and contextual aspects of health [ , , ]. 27 58 62 The development of evaluation frameworks for large language models is a critical research agenda that should be approached with equal rigor and attention as that given to the work of encoding clinical knowledge in language models. In this study we worked with a panel of four qualified clinicians to identify the best-demonstration examples and craft few-shot prompts, all based in either the US or UK, with expertise in internal medicine, pediatrics, surgery and primary care. Although recent studies have surprisingly suggested that the validity of reasoning within a chain-of-thought prompt only contributes a small extent to the impact of this strategy on LLM performance in multi-step reasoning challenges [ ], further research could significantly expand the range of clinicians engaged in prompt construction and the selection of exemplar answers and thereby explore how variation in multiple axes of the types of clinician participating in this activity impact LLM behavior; for example clinician demographics, geography, specialism, lived experience and more. 87 6.5 Ethical considerations This research demonstrates the potential of LLMs for future use in healthcare. Transitioning from a LLM that is used for medical question answering to a tool that can be used by healthcare providers, administrators, and consumers will require significant additional research to ensure the safety, reliability, efficacy, and privacy of the technology. Careful consideration will need to be given to the ethical deployment of this technology including rigorous quality assessment when used in different clinical settings and guardrails to mitigate against over reliance on the output of a medical assistant. For example, the potential harms of using a LLM for diagnosing or treating an illness are much greater than using a LLM for information about a disease or medication. Additional research will be needed to assess LLMs used in healthcare for homogenization and amplification of biases and security vulnerabilities inherited from base models [ , , , , ]. Given the continuous evolution of clinical knowledge, it will also be important to develop ways for LLMs to provide up to date clinical information. 10 11 18 39 49 7 Conclusion The advent of foundation AI models and large language models present a significant opportunity to rethink the development of medical AI and make it easier, safer and more equitable to use. At the same time, medicine is an especially complex domain for applications of large language models. Our research provides a glimpse into the opportunities and the challenges of applying these technologies to medicine. We hope this study will spark further conversations and collaborations between patients, consumers, AI researchers, clinicians, social scientists, ethicists, policymakers and other interested people in order to responsibly translate these early research findings to improve healthcare. Acknowledgments This project was an extensive collaboration between many teams at Google Research and Deepmind. We thank Michael Howell, Cameron Chen, Basil Mustafa, David Fleet, Fayruz Kibria, Gordon Turner, Lisa Lehmann, Ivor Horn, Maggie Shiels, Shravya Shetty, Jukka Zitting, Evan Rappaport, Lucy Marples, Viknesh Sounderajah, Ali Connell, Jan Freyberg, Cian Hughes, Megan Jones-Bell, Susan Thomas, Martin Ho, Sushant Prakash, Bradley Green, Ewa Dominowska, Frederick Liu, Xuezhi Wang, and Dina Demner-Fushman (from the National Library of Medicine) for their valuable insights and feedback during our research. We are also grateful to Karen DeSalvo, Zoubin Ghahramani, James Manyika, and Jeff Dean for their support during the course of this project. References 1. Абача, А. Б., Агіхтейн, Е., Пінтер, І. та Демнер-Фушман, Д. in (2017), 1–12. Overview of the medical question answering task at TREC 2017 LiveQA. TREC 2. Abacha, A. B., Mrabet, Y., Sharp, M., Goodwin, T. R., Shooshan, S. E. & Demner-Fushman, D. in (2019), 25–29. Bridging the Gap Between Consumers’ Medication Questions and Trusted Answers. MedInfo 3. Agrawal, M., Hegselmann, S., Lang, H., Kim, Y. & Sontag, D. Large Language Models are Zero-Shot Clinical Information Extractors. (2022). arXiv preprint arXiv:2205.12689 4. Barham, P., Chowdhery, A., Dean, J., Ghemawat, S., Hand, S., Hurt, D., Isard, M., Lim, H., Pang, R., Roy, S., et al. Pathways: Асинхронний розподілений потік даних для ML. 430 – 449 (2022 рік) Proceedings of Machine Learning and Systems 4, 5. Beltagy, I., Lo, K. & Cohan, A. SciBERT: A pretrained language model for scientific text. (2019). arXiv preprint arXiv:1903.10676 6. Berkman, N. D., Sheridan, S. L., Donahue, K. E., Halpern, D. J., Viera, A., Crotty, K., Holland, A., Brasure, M., Lohr, K. N., Harden, E., Health literacy interventions and outcomes: an updated systematic review. 1 – 941 (2011) та Ал. звіт про докази/оцінка технологій, 7. Black, S., Gao, L., Wang, P., Leahy, C. & Biderman, S. version 1.0. If you use this software, please cite it using these metadata. Mar. 2021. GPT-Neo: Large Scale Autoregressive Language Modeling with Mesh-Tensorflow https : . //doi.org/10.5281/zenodo.5297715 Boateng, G. O., Neilands, T. B., Frongillo, E. A., Melgar-Quiñonez, H. R. & Young, S. L. Кращі практики для розробки та валідації масштабів для досліджень у галузі здоров'я, соціального та поведінки: приклад. 149 (2018). Границі в галузі громадського здоров'я 6, 9. Bolton, E., Hall, D., Yasunaga, M., Lee, T., Manning, C. & Liang, P. . 2022. Stanford CRFM Introduces PubMedGPT 2.7B https://hai.stanford.edu/news/stanford-crfm-introduces-pubmedgpt-27b Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., Bosselut, A., Brunskill, E., On the opportunities and risks of foundation models. (2021). та Ал. arXiv preprint arXiv:2108.07258 11. Bommasani, R., Liang, P. & Lee, T. Language Models are Changing AI: The Need for Holistic Evaluation https : . 2022. //crfm.stanford.edu/2022/11/17/helm.html 12. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Language models are few-shot learners. 1877–1901 (2020). et al. Advances in neural information processing systems 33, 13. Chen, I. Y., Pierson, E., Rose, S., Joshi, S., Ferryman, K. & Ghassemi, M. Ethical machine learning in healthcare. 123–144 року (2021 рік) Annual review of biomedical data science 4, Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., Barham, P., Chung, H. W., Sutton, C., Gehrmann, S., PaLM: Scaling language modeling with pathways. (2022). et al. arXiv preprint arXiv:2204.02311 15. Chung, H. W., Hou, L., Longpre, S., Zoph, B., Tay, Y., Fedus, W., Li, E., Wang, X., Dehghani, M., Brahma, S., et al. Розробка витончених мовних моделей. 2022 р. arXiv preprint arXiv:2210.11416 16. Clark, J. H., Choi, E., Collins, M., Garrette, D., Kwiatkowski, T., Nikolaev, V. & Palomaki, J. TyDi QA: A benchmark for information-seeking question answering in typologically diverse languages. 454–470 (2020). Transactions of the Association for Computational Linguistics 8, 17. Cobbe, K., Kosaraju, V., Bavarian, M., Hilton, J., Nakano, R., Hesse, C. & Schulman, J. Training verifiers to solve math word problems. (2021). arXiv preprint arXiv:2110.14168 18. Creel, K. & Hellman, D. The Algorithmic Leviathan: Arbitrariness, Fairness, and Opportunity in Algorithmic Decision-Making Systems. 1–18 (2022). Canadian Journal of Philosophy, 19. Du, N., Huang, Y., Dai, A. M., Tong, S., Lepikhin, D., Xu, Y., Krikun, M., Zhou, Y., Yu, A. W., Firat, O., in (2022), 5547–5569. et al. Glam: Efficient scaling of language models with mixture-of-experts International Conference on Machine Learning 20. Eneanya, N. D., Boulware, L., Tsai, J., Bruce, M. A., Ford, C. L., Harris, C., Morales, L. S., Ryan, M. J., Reese, P. P., Thorpe, R. J., Health inequities and the inappropriate use of race in nephrology. 84–94 (2022). et al. Nature Reviews Nephrology 18, 21. Esteva, A., Chou, K., Yeung, S., Naik, N., Madani, A., Mottaghi, A., Liu, Y., Topol, E., Dean, J. & Socher, R. Deep learning-enabled medical computer vision. 1–9 (2021). NPJ digital medicine 4, 22. Feng, S. Y., Khetan, V., Sacaleanu, B., Gershman, A. & Hovy, E. CHARD: Clinical Health-Aware Reasoning Across Dimensions for Text Generation Models. (2022). arXiv preprint arXiv:2210.04191 Garg, S., Perot, V., Limtiaco, N., Taly, A., Chi, E. H. & Beutel, A. в (2019), 219–226. Контрфактна справедливість в класифікації тексту через міцність Протоколи конференції AAAI/ACM 2019 про штучний інтелект, етику та суспільство Gebru, T., Morgenstern, J., Vecchione, B., Vaughan, J. W., Wallach, H., Iii, H. D. & Crawford, K. Списки даних для наборів даних. 86 – 92 (2021 рік) Інформація про ACM 64, Gu, Y., Tinn, R., Cheng, H., Lucas, M., Usuyama, N., Liu, X., Naumann, T., Gao, J. & Poon, H. Доменна мовна модель для підготовки до біомедичної обробки природної мови. 1–23 (2021 рік) ACM Transactions on Computing for Healthcare (Здоров'я) 3, Gu, Y., Han, X., Liu, Z. & Huang, M. Ppt: попередньо навчений швидкий налаштування для вивчення кількох ударів. 2021 року) arXiv препринт arXiv:2109.04332 Руководство, В. Етика та управління штучним інтелектом для здоров'я. 2021 року) Всесвітня організація охорони здоров'я Han, X., Zhao, W., Ding, N., Liu, Z. & Sun, M. Ptr: Швидке налаштування з правилами класифікації тексту. 2022 р. Хто відкритий 29. Hendrycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., Song, D. & Steinhardt, J. Measuring massive multitask language understanding. 2020 року) arXiv preprint arXiv:2009.03300 Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., Casas, D. d. L., Hendricks, L. A., Welbl, J., Clark, A., Навчання обчислювально-оптимальних великих мовних моделей. (2022). та Ал. arXiv препринт arXiv:2203.15556 Хонг, З., Аджит, А., Паулоски, Г., Дуеде, Е., Маламуд, С., Магулас, Р., Чард, К. & Фостер, І. ШоларБерт: Більше не завжди краще. 2022 р. arXiv препринт arXiv:2205.11342 32. Hooker, S. Moving beyond “algorithmic bias is a data problem”. 100241 (2021). Patterns 2, 33. Jin, D., Pan, E., Oufattole, N., Weng, W.-H., Fang, H. & Szolovits, P. What disease does this patient have? a large-scale open domain question answering dataset from medical exams. 6421 (2021). Applied Sciences 11, 34. Jin, Q., Dhingra, B., Liu, Z., Cohen, W. W. & Lu, X. PubMedQA: A dataset for biomedical research question answering. (2019 року) arXiv preprint arXiv:1909.06146 35. Joshi, M., Choi, E., Weld, D. S. & Zettlemoyer, L. TriviaQA: A large scale distantly supervised challenge dataset for reading comprehension. (2017). arXiv preprint arXiv:1705.03551 Коливат, С., Конерлі, Т., Аскель, А., Хеніган, Т., Драйн, Д., Перез, Е., Шіфер, Н., Додддс, З. Г., ДасСарма, Н., Тран-Джонсон, Е., Language models (mostly) know what they know. (2022). et al. arXiv preprint arXiv:2207.05221 37. Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J. & Amodei, D. Scaling laws for neural language models. (2020). arXiv preprint arXiv:2001.08361 38. Kington, R. S., Arnesen, S., Chou, W.-Y. S., Curry, S. J., Lazer, D. & Villarruel, A. M. Identifying credible sources of health information in social media: Principles and attributes. (2021). NAM perspectives 2021 39. Kleinberg, J. & Raghavan, M. Algorithmic monoculture and social welfare. e2018340118 (2021 рік) Процедури Національної академії наук 118, 40. Kojima, T., Gu, S. S., Reid, M., Matsuo, Y. & Iwasawa, Y. Large Language Models are Zero-Shot Reasoners. (2022). arXiv preprint arXiv:2205.11916 41. Korngiebel, D. M. & Mooney, S. D. Considering the possibilities and pitfalls of Generative Pre-trained Transformer 3 (GPT-3) in healthcare delivery. 1–3 (2021). NPJ Цифрова медицина 4, 42. Lakkaraju, H., Slack, D., Chen, Y., Tan, C. & Singh, S. Rethinking Explainability as a Dialogue: A Practitioner’s Perspective. 2022 р. arXiv preprint arXiv:2202.01875 43. Lampinen, A. K., Dasgupta, I., Chan, S. C., Matthewson, K., Tessler, M. H., Creswell, A., McClelland, J. L., Wang, J. X. & Hill, F. Can language models learn from explanations in context? (2022). arXiv preprint arXiv:2204.02329 Lee, J., Yoon, W., Kim, S., Kim, D., Kim, S., So, C. H. & Kang, J. BioBERT: попередньо підготовлена модель представництва біомедичної мови для біомедичної видобутку тексту. 1234–1240 (2020). Bioinformatics 36, 45. Lester, B., Al-Rfou, R. & Constant, N. The power of scale for parameter-efficient prompt tuning. (2021). arXiv preprint arXiv:2104.08691 46. Lewis, P., Ott, M., Du, J. & Stoyanov, V. in (2020), 146–157. Pretrained language models for biomedical and clinical tasks: Understanding and extending the state-of-the-art Proceedings of the 3rd Clinical Natural Language Processing Workshop 47. Lewkowycz, A., Andreassen, A., Dohan, D., Dyer, E., Michalewski, H., Ramasesh, V., Slone, A., Anil, C., Schlag, I., Gutman-Solo, T., Solving quantitative reasoning problems with language models. (2022). et al. arXiv preprint arXiv:2206.14858 48. Li, X. L. & Liang, P. Prefix-tuning: Optimizing continuous prompts for generation. (2021). arXiv preprint arXiv:2101.00190 49. Liang, P., Bommasani, R., Lee, T., Tsipras, D., Soylu, D., Yasunaga, M., Zhang, Y., Narayanan, D., Wu, Y., Kumar, A., Holistic evaluation of language models. (2022). та Ал. arXiv preprint arXiv:2211.09110 Liévin, V., Hother, C. E. & Winther, O. Чи можуть великі мовні моделі обговорювати медичні питання? (2022). arXiv preprint arXiv:2207.08143 51. Lin, S., Hilton, J. & Evans, O. Teaching Models to Express Their Uncertainty in Words. (2022). arXiv preprint arXiv:2205.14334 52. Liu, P., Yuan, W., Fu, J., Jiang, Z., Hayashi, H. & Neubig, G. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing. (2021). arXiv preprint arXiv:2107.13586 53. Liu, X., Zheng, Y., Du, Z., Ding, M., Qian, Y., Yang, Z. & Tang, J. GPT understands, too. (2021). arXiv preprint arXiv:2103.10385 54. Liu, X., Glocker, B., McCradden, M. M., Ghassemi, M., Denniston, A. K. & Oakden-Rayner, L. The medical algorithmic audit. (2022). The Lancet Digital Health 55. Loshchilov, I. & Hutter, F. Decoupled weight decay regularization. (2017). arXiv preprint arXiv:1711.05101 Luo, R., Sun, L., Xia, Y., Qin, T., Zhang, S., Poon, H. & Liu, T.-Y. BioGPT: генеративний попередньо підготовлений трансформатор для біомедичного текстового виробництва та видобутку. 2022 р. Брейфінги в біоінформатиці 23 57. мандрівник А. . 2021. Medical Journals Blind to Racism as Health Crisis, Critics Say https://www.nytimes.com/2021/06/02/ health/jama-racism-bauchner.html 58. Matheny, M., Israni, S. T., Ahmed, M. & Whicher, D. Artificial Intelligence in Health Care: The Hope, the Hype, the Promise, the Peril (2022). 59. Mitchell, M., Wu, S., Zaldivar, A., Barnes, P., Vasserman, L., Hutchinson, B., Spitzer, E., Raji, I. D. & Gebru, T. in (2019), 220–229. Model cards for model reporting Proceedings of the conference on fairness, accountability, and transparency 60. Morgado, F. F., Meireles, J. F., Neves, C. M., Amaral, A. & Ferreira, M. E. Scale development: ten main limitations and recommendations to improve future research practices. (2017). Психологія: рефлексія і критика 30 61. Nye, M., Andreassen, A. J., Gur-Ari, G., Michalewski, H., Austin, J., Bieber, D., Dohan, D., Lewkowycz, A., Bosma, M., Luan, D., Show your work: Scratchpads for intermediate computation with language models. (2021). et al. arXiv preprint arXiv:2112.00114 62. Of Science, W. H. O. & Policy, T. . 2022. The Blueprint for an AI Bill of Rights: Making Automated Systems Work for the American People https://www.whitehouse.gov/wp-content/uploads/2022/10/Blueprint-for-an-AI-Bill-of-Rights.pdf 63. Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Training language models to follow instructions with human feedback. 2022 р. et al. arXiv препринт arXiv:2203.02155 Пал, А., Умапати, Л. К. та Санкарасуббу, М. in 2022), 248 – 260 MedMCQA: A Large-scale Multi-Subject Multi-Choice Dataset for Medical domain Question Answering Conference on Health, Inference, and Learning 65. Pampari, A., Raghavan, P., Liang, J. & Peng, J. emrqa: A large corpus for question answering on electronic medical records. (2018). arXiv preprint arXiv:1809.00732 66. Papanikolaou, Y. & Pierleoni, A. DARE: Data augmented relation extraction with gpt-2. (2020). arXiv preprint arXiv:2004.13845 Папініні, К., Роукос, С., Уорд, Т. і Чжу, В.-Дж. в (2002), 311–318. Bleu: a method for automatic evaluation of machine translation Proceedings of the 40th annual meeting of the Association for Computational Linguistics 68. Prabhakaran, V., Hutchinson, B. & Mitchell, M. Perturbation sensitivity analysis to detect unintended model biases. (2019). arXiv preprint arXiv:1910.04210 69. Rae, J. W., Borgeaud, S., Cai, T., Millican, K., Hoffmann, J., Song, F., Aslanides, J., Henderson, S., Ring, R., Young, S., Мовні моделі масштабування: методи, аналізи та уявлення від тренувальних гоферів. (2021). та Ал. arXiv preprint arXiv:2112.11446 Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., Liu, P. J., Exploring the limits of transfer learning with a unified text-to-text transformer. 1–67 (2020). et al. J. Mach. Learn. Res. 21, Raji, I. D., Smart, A., White, R. N., Mitchell, M., Gebru, T., Hutchinson, B., Smith-Loud, J., Theron, D. & Barnes, P. in (2020), 33 та 44. Closing the AI accountability gap: Defining an end-to-end framework for internal algorithmic auditing Proceedings of the 2020 conference on fairness, accountability, and transparency 72. Rostamzadeh, N., Mincu, D., Roy, S., Smart, A., Wilcox, L., Pushkarna, M., Schrouff, J., Amironesei, R., Moorosi, N. & Heller, K. Healthsheet: Development of a Transparency Artifact for Health Datasets. (2022). arXiv preprint arXiv:2202.13028 73. Scao, T. L., Fan, A., Akiki, C., Pavlick, E., Ilić, S., Hesslow, D., Castagné, R., Luccioni, A. S., Yvon, F., Gallé, M., et al. BLOOM: A 176B-Parameter Open-Access Multilingual Language Model. (2022). arXiv preprint arXiv:2211.05100 74. Schaekermann, M., Cai, C. J., Huang, A. E. & Sayres, R. in (2020), 1–13. Експертні обговорення покращують розуміння складних випадків у оцінці медичного зображення Proceedings of the 2020 CHI conference on human factors in computing systems Сежин, Е., Сіріанні, Дж., Лінвуд, С. Л., Операціонування та впровадження перепідготовлених, великих мовних моделей штучного інтелекту в системі охорони здоров'я США: перспективи генеративного перепідготовленого трансформатора 3 (GPT-3) як моделі обслуговування. e32875 (2022). та Ал. JMIR Медична інформатика 10, Shin, H.-C., Zhang, Y., Bakhturina, E., Puri, R., Patwary, M., Shoeybi, M. & Mani, R. BioMegatron: Більша біомедична мовна модель домену. 2020 року) arXiv попереднє видання arXiv:2010.06060 77. Shoemaker, S. J., Wolf, M. S. & Brach, C. Development of the Patient Education Materials Assessment Tool (PEMAT): a new measure of understandability and actionability for print and audiovisual patient information. 395 – 403 (2014 рік) Освіта та консультування пацієнтів 96, Srivastava, A., Rastogi, A., Rao, A., Shoeb, A. A. M., Abid, A., Fisch, A., Brown, A. R., Santoro, A., Gupta, A., Garriga-Alonso, A., Поза імітаційною грою: Кількість і екстраполяція можливостей мовних моделей. 2022 р. та Ал. arXiv препринт arXiv:2206.04615 Тейлор, Р., Кардас, М., Кукурулл, Г., Сціолом, Т., Хартшорн, А., Саравія, Е., Поултон, А., Керкез, В. і Стойник, Р. Галактика: Велика мовна модель для науки. (2022). arXiv preprint arXiv:2211.09085 Thoppilan, R., De Freitas, D., Hall, J., Shazeer, N., Kulshreshtha, A., Cheng, H.-T., Jin, A., Bos, T., Baker, L., Du, Y., Lamda: Language models for dialog applications. (2022). та Ал. arXiv препринт arXiv:2201.08239 81. Томашев, Н., Гарріс, Н., Баур, С., Мотрам, А., Глорот, X., Рає, J. W., Зілінський, М., Аскам, Н., Сараїва, А., Магліуло, В., Використання глибокого навчання для розробки моделей безперервного ризику для прогнозування несприятливих подій з електронних медичних записів. 2765–2787 (2021). та Ал. Nature Protocols 16, 82. Тран, Д., Лю, Дж., Дюсенберрі, М. В., Пхан, Д., Кольєр, М., Рен, Дж., Хан, К., Ван, З., Марієт, З., Ху, Н., Plex: Towards reliability using pretrained large model extensions. 2022 р. et al. arXiv preprint arXiv:2207.07411 Цатсароніс, Г., Балікас, Г., Малакасіотис, П., Парталас, І., Зшунке, М., Альверс, М. Р., Вайссенборн, Д., Критара, А., Петридіс, С., Поліхронопулос, Д., An overview of the BIOASQ large-scale biomedical semantic indexing and question answering competition. 1–28 (2015). та Ал. BMC біоінформатика 16, 84. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł. & Polosukhin, I. Attention is all you need. (2017). Прогрес в нейронних системах обробки інформації 30 Виас, Д. А., Ейзенштейн, Л. Г. та Джонс, Д. С. 2020. Hidden in plain sight—reconsidering the use of race correction in clinical algorithms Walsh, K. E., Harik, P., Mazor, K. M., Perfetto, D., Anatchkova, M., Biggins, C., Wagner, J., Schoettker, P. J., Firneno, C., Klugman, R., Measuring harm in healthcare: optimizing adverse event review. 436 (2017). та Ал. Медична допомога 55, 87. Wang, b., Min, S., Deng, X., Shen, J., Wu, Y., Zettlemoyer, L. & Sun, H. Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters. (2022). arXiv preprint arXiv:2212.10001 Ван, Х., Вей, Дж., Шурманс, Д., Ле, К., Чі, Е. & Чжоу, Д. Самостійність покращує ланцюгові міркування у мовних моделях. (2022). arXiv попередній запис arXiv:2203.11171 Wei, J., Bosma, M., Zhao, V. Y., Guu, K., Yu, A. W., Lester, B., Du, N., Dai, A. M. & Le, Q. V. Витончені мовні моделі є нульовими учнями. 2021 року) arXiv препринт arXiv:2109.01652 Вей, Дж., Тей, Й., Боммасані, Р., Раффел, С., Зофф, Б., Боржеауд, С., Йогатама, Д., Босма, М., Чжоу, Д., Метцлер, Д., Нові можливості великих мовних моделей. 2022 р. та Ал. arXiv preprint arXiv:2206.07682 Wei, J., Wang, X., Schuurmans, D., Bosma, M., Chi, E., Le, Q. & Zhou, D. ланцюжок мислення, що спонукає до роздумів у великих мовних моделях. 2022 р. arXiv попередній запис arXiv:2201.11903 Вейдінгер, Л., Меллор, Дж., Раух, М., Гріффін, С., Уесато, Дж., Хуанг, П.-С., Ченг, М., Глейзе, М., Баль, Б., Касирзадех, А., Етичні та соціальні ризики шкоди від мовних моделей. (2021). та Ал. arXiv препринт arXiv:2112.04359 Williams, T., Szekendi, M., Pavkovic, S., Clevenger, W. & Cerese, J. Надійність масштабів шкоди загального формату AHRQ в оцінці подій безпеки пацієнтів. 52 – 59 (2015 рік) Journal of patient safety 11, 94. Yasunaga, M., Bosselut, A., Ren, H., Zhang, X., Manning, C. D., Liang, P. & Leskovec, J. Deep bidirectional language-knowledge graph pretraining. (2022). arXiv попередній запис arXiv:2210.09338 Ясунага, М., Лесковец, Дж. & Ліанг, П. Лінкберт: Перепідготовка мовних моделей з посиланнями на документи. (2022). arXiv препринт arXiv:2203.15827 Ye, S., Jang, J., Kim, D., Jo, Y. & Seo, M. Знімання м'якого промови покращує генералізацію завдань з нульовим пострілом. 2022 р. arXiv попередній запис arXiv:2210.03029 97. Ім, Дж., Чопра, Р., Спіц, Т., Вінкенс, Дж., Обіка, А., Келлі, С., Аскам, Г., Лукіч, М., Гюмер, Дж., Фаслер, К., et al. Predicting conversion to wet age-related macular degeneration using deep learning. 892 — 899 (2020) Природні ліки 26, 98. Чжан, Г., Лу, А. Х., Абдалла, М., МакДермот, М. і Гассемі, М. в (2020), 110–120. Болісні слова: кількісне визначення ухилів у клінічних контекстних вбудовах слів Програма конференції ACM з питань здоров'я, висновків та навчання 99. Чан, С., Ролер, С., Гояль, Н., Артекс, М., Чен, М., Чен, С., Деван, С., Діаб, М., Лі, X., Лін, X. В., OPT: відкриті попередньо навчені мовні моделі трансформаторів. 2022 р. та Ал. arXiv препринт arXiv:2205.01068 Zhou, D., Schärli, N., Hou, L., Wei, J., Scales, N., Wang, X., Schuurmans, D., Bousquet, O., Le, Q. & Chi, E. Найменше до найбільшого промптування дозволяє складне міркування у великих мовних моделях. 2022 р. arXiv препринт arXiv:2205.10625 Додаток A.1 Гіперпараметри та вибір моделі Ми виконали інструкцію пробного настроювання на Flan-PaLM 540B з довжиною м'якого пробного настрою 100 для виробництва Med-PaLM. Ми заморозили решту моделі, а розмір вбудови - 18432 як у Chowdhery [ Наприклад ], so this resulted in 1.84M trainable parameters. We randomly initialized the learnable parameters to be uniform over [-0.5, 0.5], following Lester [ Наприклад ]. ми пошукали за рівнем навчання в 0.001, 0.003, 0.01 з AdamW оптимізатор [ і фактор деградації ваги в . «0» * Ми використовували розмір партії 32 на всіх пробігах. ми тренувалися на 200 кроків. та Ал. 14 та Ал. 45 55 0 0 001 00001 Ми проводили вибір моделі, просивши клініка оцінити відповіді на декілька прикладів HealthSearchQA, MedicationQA та LiveQA (не використовуваних для навчання або оцінки людини), і вибрали точку перевірки, яка виконувала найкраще. ми зробили цю ручну валідацію замість обчислення деякої автоматизованої метрики на наборі валідації, наприклад, негативної лог-імовірності на парах (питання, відповідь), оскільки у великому вихідному просторі поколінь природної мови ці метрики можуть не співвідноситися добре з людськими судженнями фактичних вихідних моделей. A.2 Variation of results Через повторні стохастичні декоди, використовуючи вибір температури, є деякі очікувані варіації в результатах з самовідповідністю. Хоча непрактично проводити декілька експериментів для всіх наших моделей у всіх наборах даних, використовуваних у цьому дослідженні, ми повторюємо оцінки на наборі даних MedQA 4 рази з нашою моделлю найкращої продуктивності. A.3 ММЛУ абляції Ми проводили абляції, порівнюючи модель Flan-PaLM 540B, використовуючи стратегії, що викликають кілька пострілів, ланцюжок мислення (CoT) та самосумісність на клінічні теми MMLU [ Результати описуються у розділі Ми спостерігаємо, що в той час як для більшості тем Flan-PaLM 540B з самостійною послідовністю отримує найкращі результати, є кілька тем, де стандартні кілька-шуки або прохання CoT роблять краще. 29 А3 А.4 Скасування плит Ми надаємо масштабні сюжети порівняння моделей PaLM і Flan-PaLM за допомогою декількох запитів на набори даних MedQA і MedMCQA на малюнку та інший масштабний сюжет, що порівнює Flan-PaLM з запропонованим кількома пострілами та Flan-PaLM з запропонованим самоконсистенцією на малюнку . We observe strong scaling performance and see a steeper increase in performance as we scale up the LLM model size. А1 А2 А.5 Модель картки для Med-PaLM Med-PaLM використовує ті ж типи систем та рамки реалізації, що і Flan-PaLM [ ]. ми показуємо частини моделі картки [ ] Специфічний для Med-PaLM в таблиці . 15 59 А2 A.6 Оцінка множинного вибору Med-PaLM Med-PaLM був підготовлений з використанням інструкції пробного налаштування для поліпшення якості довгоформатних поколінь, що виробляються Flan-PaLM. Однак, враховуючи загальність інструкції пробного налаштування, техніка також може бути застосована до наборів даних з декількома виборами. У попередньому експерименті ми тренували Flan-PaLM з використанням інструкції пробного настроювання на MedQA, MedMCQA, PubMedQA та MMLU (клінічні теми). Копії були написані групою з п'яти кваліфікованих клініків. Кожен приклад навчання містив інструкції, специфічні для набору даних, і 5 прикладів з декількома пострілами. Отримана модель досягла точності 67,2% на MedQA, використовуючи ланцюжок мислення та самовідповідність, приблизно збігаючи відповідний результат з Flan-PaLM i Section Ми плануємо розширити цей ранній результат в майбутній роботі. 4 A.7 Детальні результати оцінки людини Детальні результати оцінки людини з інтервалами довіри підсумовуються в таблиці - стіл . А3 А. 12 A.8 Невеликі швидкі приклади Ми надаємо приклади деяких рекомендацій, використаних у дослідженні в Таблиці Таблиця Таблиця Та-Бел І стіл . А. 13 А. 14 А. 15 А. 16 А. 17 A.9 Приклади ланцюгового мислення Ми надали приклади деяких порад, що використовуються в цьому дослідженні в таблиці Таблиця Та-Бел і стіл . А. 18 А.19 А. 20 A.21 Цей документ є under CC by 4.0 Deed (Attribution 4.0 International) license. available on arxiv Цей документ є Ліцензія CC by 4.0 Deed (Attribution 4.0 International) Доступно в архіві