Los autores: Karan Singhal (Google Research, DeepMind) Shekoofeh Azizi (Google Research, DeepMind) Tao Tu (Google Research, DeepMind) S. Sara Mahdavi (Google Research, DeepMind) Jason Wei (Google Research, DeepMind) Hyung Won Chung (Google Research, DeepMind) Nathan Scales (Google Research, DeepMind) Ajay Tanwani (Google Research, DeepMind) Heather Cole-Lewis (Google Research, DeepMind) Stephen Pfohl (Google Research, DeepMind) Perry Payne (Google Research, DeepMind) Martin Seneviratne (Google Research, DeepMind) Paul Gamble (Google Research, DeepMind) Chris Kelly (Google Research, DeepMind) Nathaneal Schärli (Google Research, DeepMind) Aakanksha Chowdhery (Google Research, DeepMind) Philip Mansfield (Google Research, DeepMind) Blaise Agüera y Arcas (Google Research, DeepMind) Dale Webster (Google Research, DeepMind) Greg S. Corrado (Google Research, DeepMind) Yossi Matias (Google Research, DeepMind) Katherine Chou (Google Research, DeepMind) Juraj Gottweis (Google Research, DeepMind) Nenad Tomasev (Google Research, DeepMind) Yun Liu (Google Research, DeepMind) Alvin Rajkomar (Google Research, DeepMind) Joelle Barral (Google Research, DeepMind) Christopher Semturs (Google Research, DeepMind) Alan Karthikesalingam (Google Research, DeepMind) Vivek Natarajan (Google Research, DeepMind Los autores: Karan Singhal (Google Research y DeepMind) Shekoofeh Azizi (Google Research y DeepMind) Tao Tu (Investigación de Google, DeepMind) S. Sara Mahdavi (Google Research y DeepMind) Jason Wei (Google Research y DeepMind) Hyung Won Chung (Google Research y DeepMind) Nathan Scales (Google Research y DeepMind) Ajay Tanwani (Google Research y DeepMind) Heather Cole-Lewis (Google Research y DeepMind) Stephen Pfohl (Google Research y DeepMind) Perry Payne (Google Research y DeepMind) Martin Seneviratne (Google Research y DeepMind) Paul Gamble (Google Research y DeepMind) Chris Kelly (Google Research y DeepMind) Nathaneal Schärli (Google Research, DeepMind) Aakanksha Chowdhery (Google Research y DeepMind) Philip Mansfield (Google Research, DeepMind) Blaise Agüera y Arcas (Google Research, DeepMind) Dale Webster (Google Research y DeepMind) Greg S. Corrado (Google Research y DeepMind) Yossi Matias (Google Research y DeepMind) Katherine Chou (Google Research y DeepMind) Juraj Gottweis (Google Research y DeepMind) Nenad Tomasev (Google Research y DeepMind) Yun Liu (Google Research y DeepMind) Alvin Rajkomar (Google Research y DeepMind) Joelle Barral (Google Research y DeepMind) Christopher Semturs (Google Research y DeepMind) Alan Karthikesalingam (Google Research y DeepMind) Vivek Natarajan (Google Research y DeepMind) Los grandes modelos de lenguaje (LLM) han demostrado capacidades impresionantes en el entendimiento y la generación de lenguas naturales, pero la barra de calidad para las aplicaciones médicas y clínicas es alta. Hoy en día, los intentos de evaluar el conocimiento clínico de los modelos suelen depender de evaluaciones automatizadas sobre referencias limitadas. No hay un estándar para evaluar las predicciones de modelos y el razonamiento en una amplia gama de tareas. Para abordar esto, presentamos MultiMedQA, un referencial que combina seis conjuntos de datos de respuesta a preguntas abiertas existentes que abarcan exámenes médicos profesionales, investigación y consultas de consumidores; y HealthSearchQA, un nuevo conjunto de datos de respuesta libre de preguntas médicas buscadas en línea. Proponemos un marco para la evaluación humana de las respuestas de modelos a Además, evaluamos el PaLM (un LLM de 540 mil millones de parámetros) y su variante ajustada a la instrucción, Flan-PaLM, en MultiMedQA. Usando una combinación de estrategias de prompting, Flan-PaLM logra una precisión de última generación en cada conjunto de datos de elección múltiple de MultiMedQA (MedQA, MedMCQA, PubMedQA, temas clínicos de MMLU), incluyendo una precisión del 67,6% en MedQA (preguntas de examen de licencia médica de Estados Unidos), superando el estado anterior de la última generación por más de 17%. Sin embargo, la evaluación humana revela lagunas clave en las respuestas de Flan-PaLM. Para resolver esto, introducimos el ajuste rápido de instrucción, un enfoque de Mostramos que la comprensión, la recogida de conocimientos y el razonamiento médico mejoran con la escala del modelo y el ajuste inmediato de la instrucción, lo que sugiere la utilidad potencial de los LLM en medicina Este documento es Con la licencia CC 4.0 Deed (Attribution 4.0 International). available on arxiv Disponible en Archivo Nuestras evaluaciones humanas revelan importantes limitaciones de los modelos actuales, reforzando la importancia de los marcos de evaluación y el desarrollo de métodos para crear modelos LLM seguros y útiles para aplicaciones clínicas. 1 Introducción La medicina es un esfuerzo humano en el que el lenguaje permite interacciones clave para y entre médicos, investigadores y pacientes. Sin embargo, los modelos de IA actuales para aplicaciones en medicina y atención médica han fracasado en gran medida en utilizar plenamente el lenguaje. Estos modelos, aunque útiles, son predominantemente sistemas de tareas únicas (por ejemplo, clasificación, regresión, segmentación), carecen de expresividad y capacidades interactivas. , , de ]. As a result, there is a discordance between what today’s models can do and what may be expected of them in real-world clinical workflows [ , de 21 81 97 42 74 Los avances recientes en los grandes modelos de idiomas (LLMs) ofrecen una oportunidad para repensar los sistemas de IA, con el lenguaje como una herramienta para mediar la interacción humano-IA. Estos modelos expresivos e interactivos ofrecen gran promesa en su capacidad de aprender representaciones generalmente útiles de los conocimientos codificados en el cuerpo médico, a escala.Hay varias aplicaciones potenciales emocionantes de tales modelos en la medicina, incluyendo la recuperación de conocimientos, el apoyo a la decisión clínica, la resumida de los hallazgos clave, el análisis de las preocupaciones de atención primaria de los pacientes, y más. 10 Sin embargo, la naturaleza crítica de la seguridad del dominio requiere el desarrollo cuidadoso de marcos de evaluación, lo que permite a los investigadores medir significativamente el progreso y capturar y mitigar los daños potenciales. Esto es especialmente importante para los LLM, ya que estos modelos pueden producir generaciones desalineadas con los valores clínicos y sociales. Para evaluar cuán bien los LLM codifican el conocimiento clínico y evalúan su potencial en la medicina, consideramos la respuesta a preguntas médicas. Esta tarea es desafiante: proporcionar respuestas de alta calidad a las preguntas médicas requiere comprensión del contexto médico, recordar el conocimiento médico adecuado y razonar con información de expertos. A menudo se limitan a evaluar la precisión de la clasificación o las métricas automatizadas de generación de lenguaje natural (por ejemplo, BLEU). Esto crea una necesidad insatisfecha de una amplia pregunta médica que responda a un criterio de referencia para evaluar la factualidad de la respuesta de los LLM, el uso de conocimientos especializados en el razonamiento médico y científico, la utilidad, la precisión, la equidad de la salud y el daño potencial a los humanos que aceptan los resultados del modelo como hechos. 33 67 Para abordar esto, curamos MultiMedQA, un índice que incluye siete conjuntos de datos médicos que responden a preguntas, incluidos seis conjuntos de datos existentes: MedQA [ ], MedMCQA [ ], Página oficial de [ En el caso de la vivienda [ En cuanto a la medicación [ ], y los temas clínicos MMLU [ Introducimos recientemente el séptimo conjunto de datos, HealthSearchQA, que consiste en preguntas de salud frecuentemente buscadas. 33 64 34 1 2 29 Para evaluar los LLM utilizando MultiMedQA, nos basamos en PaLM, un LLM de 540 mil millones de parámetros [ ], y su variante ajustada a instrucciones Flan-PaLM [ ]. Usando una combinación de pocos disparos [ ], cadena de pensamiento (CoT) [ ], y la autoconsistencia [ Promoviendo estrategias, Flan-PaLM logra el rendimiento de la última generación (SOTA) en temas clínicos de MedQA, MedMCQA, PubMedQA y MMLU, a menudo superando varias líneas de base LLM fuertes por un margen significativo. 14 15 12 91 88 A pesar del fuerte desempeño de Flan-PaLM en las preguntas de múltiple elección, sus respuestas a las preguntas médicas de los consumidores revelan brechas clave. Para resolver esto, proponemos un ajuste de instrucciones rápidas, una técnica de alineación eficiente en datos y parámetros, para adaptar aún más Flan-PaLM al dominio médico. El modelo resultante, Med-PaLM, funciona de forma alentadora en los ejes de nuestro marco piloto de evaluación humana. Por ejemplo, un panel de clínicos juzgó que solo el 61,9% de las respuestas de forma larga de Flan-PaLM se alineaban con el consenso científico, en comparación con el 92,6% de las respuestas de Med-PaLM, en comparación con las respuestas generadas por los médicos (92,9%). Aunque estos resultados son prometedores, el dominio médico es complejo. Son necesarias evaluaciones adicionales, en particular a lo largo de las dimensiones de equidad, equidad y bias. Nuestro trabajo demuestra que muchas limitaciones deben ser superadas antes de que tales modelos se conviertan en viables para el uso en aplicaciones clínicas. Nuestras principales contribuciones se resumen a continuación: Enfoques para la evaluación de los LLM en respuesta a preguntas médicas - El Introducimos HealthSearchQA, un conjunto de datos de 3375 preguntas médicas de consumidores frecuentemente buscadas. presentamos este conjunto de datos junto a otros seis conjuntos de datos abiertos existentes para la respuesta a preguntas médicas, que abarcan el examen médico, la investigación médica y las preguntas médicas de consumidores, como un benchmark diverso para evaluar el conocimiento clínico y las capacidades de respuesta a preguntas de los LLMs (véase la sección). ) de Curation of HealthSearchQA and MultiMedQA 3.1 - El Nuestra evaluación evalúa las respuestas para el acuerdo con el consenso científico y clínico, la probabilidad y la posible extensión del daño, la comprensión de la lectura, el recuerdo de los conocimientos clínicos pertinentes, la manipulación del conocimiento a través de razonamientos válidos, la integridad de las respuestas, el potencial de bias, la relevancia y la utilidad (véase la Sección). ) de Pilot framework for human evaluation 3.2 En los conjuntos de datos de temas clínicos MedQA, MedMCQA, PubMedQA y MMLU, FLAN-PaLM logra el rendimiento de SOTA a través de una combinación de estrategias de prompting, superando varias bases LLM fuertes. Instrucción prompt tuning para alinear los LLMs con el dominio médico Introducimos instrucción prompt tuning, una técnica simple, de datos y de parámetros eficiente para alinear los LLMs con el dominio médico crítico para la seguridad (ver Sección 3.3.3). Utilizamos esto para construir Med-PaLM, una versión de instrucción prompt-tuned de Flan-PaLM especializada en el dominio médico. Nuestro marco de evaluación humana revela las limitaciones de Flan-PaLM en la base científica, el daño y los prejuicios. Sin embargo, Med-PaLM reduce significativamente la brecha (o incluso compara favorablemente) a los clínicos en varios de estos ejes, de acuerdo tanto a los clínicos como a los usuarios (ver Sección 4.5). Las principales limitaciones de los LLM reveladas a través de nuestra evaluación humana Mientras que nuestros resultados demuestran el potencial de los LLM en medicina, también sugieren que son necesarias varias mejoras críticas para hacer que estos modelos sean viables para las aplicaciones clínicas del mundo real. 2 Trabajo relacionado En los últimos años, los LLM han demostrado un rendimiento impresionante en las tareas de procesamiento de lenguaje natural (NLP). , de , de , de , de , de , de , de , de , Ellos deben su éxito a la ampliación de la formación de modelos basados en transformadores [ Se ha demostrado que el rendimiento del modelo y las escalas de eficiencia de datos con el tamaño del modelo y el tamaño del conjunto de datos [ Los LLM son a menudo capacitados utilizando la autorregulación a gran escala, utilizando corpi de texto de propósito general como Wikipedia y BooksCorpus. han demostrado resultados prometedores en una amplia gama de tareas, incluyendo tareas que requieren conocimiento científico especializado y razonamiento [ , de ]. Tal vez el aspecto más interesante de estos LLMs es sus habilidades en el contexto, que adaptan estos modelos a tareas diversas sin actualizaciones de parámetros basadas en gradientes [ , de , de , de Esto les permite generalizar rápidamente a tareas invisibles e incluso exhibir capacidades de razonamiento aparentes con estrategias de incitación apropiadas [ , de , de , Large language models (LLMs) 12 14 15 30 69 70 73 89 91 99 84 37 17 29 12 40 43 89 14 47 79 91 Varios estudios han demostrado que los LLM tienen la capacidad de actuar como bases de conocimiento implícitas [ , de , de ]. Sin embargo, existe un riesgo significativo de que estos modelos produzcan alucinaciones, amplificando los prejuicios sociales presentes en sus datos de formación y mostrando deficiencias en sus capacidades de razonamiento. Para examinar las limitaciones actuales de los LLM y cuantificar la gran brecha entre las capacidades lingüísticas humanas y de los LLM, BIG-bench se introdujo como una iniciativa de toda la comunidad para hacer referencia a tareas que se creía en el momento de la publicación que estaban más allá de las capacidades de los modelos lingüísticos actuales [ 29 35 79 78 Estudios recientes, tales como SciBERT [ ] , BioNLP [ ], BioMegatron [ En el caso de la biotecnología [ ], Página oficial de [ Se atreve a [ ], ScholarBERT [ ], y el BioGPT [ ], han demostrado la eficacia del uso de corpora científica y biomédica curada para modelado de lenguaje discriminatorio y generativo. Estos modelos, aunque prometedores, suelen ser pequeños en escala y alcance en comparación con LLMs como GPT-3 [ y la palma [ Mientras que el dominio médico es desafiante, las propuestas específicas para los LLM ya han incluido ejemplos tan variados como aumentar las evaluaciones clínicas no críticas a la resumida de las comunicaciones médicas complejas [ , de , de LLMs for science and biomedicine 5 46 76 44 25 66 31 56 12 14 3 41 75 Los más cercanos a nuestro trabajo son Taylor [ El ], quien introdujo un LLM para la ciencia llamado Galactica, y Liévin [ El ], que estudió la capacidad de razonamiento de los LLM en el contexto de la respuesta a preguntas médicas. en particular, Liévin [ El ] usó Instruct GPT-3, una instrucción-tuned LLM [ [ ] y aplicó una cadena de pensamiento [ ] en la parte superior para mejorar los resultados en los conjuntos de datos MedQA, MedMCQA y PubMedQA. y al . 79 y al . 50 y al . 50 63 91 3 Métodos Aquí lo describimos en detalle: Conjuntos de datos: el índice de referencia MultiMedQA para la evaluación de los LLM en respuesta a preguntas médicas. Marco para la evaluación humana: un marco de calificación para la evaluación de las respuestas del modelo (y clínico) de los clínicos y laicos. Modelado: Grandes modelos de lenguaje (LLM) y los métodos utilizados para alinearlos con los requisitos del dominio médico en este estudio. 3.1 Datos Para evaluar el potencial de los LLM en medicina, nos enfocamos en la respuesta a la pregunta médica. Responder a las preguntas médicas requiere habilidades de comprensión de lectura, la capacidad de recordar con precisión el conocimiento médico y la manipulación del conocimiento experto. Hay varios conjuntos de datos existentes que responden a la pregunta médica para la investigación. Estos incluyen conjuntos de datos que evalúan el conocimiento médico profesional como preguntas de examen médico [ , de ], preguntas que requieren habilidades de comprensión de la investigación médica [ ], y preguntas que requieren la capacidad de evaluar la intención del usuario y proporcionar respuestas útiles a sus necesidades de información médica [ , 33 64 34 1 2 Reconocemos que el conocimiento médico es amplio tanto en cantidad como en calidad. Los criterios de referencia existentes son inherentemente limitados y solo proporcionan una cobertura parcial del espacio del conocimiento médico. Sin embargo, reunir un número de conjuntos de datos diferentes para responder a preguntas médicas permite una evaluación más profunda del conocimiento de LLM que la precisión de elección múltiple o las métricas de generación de lengua natural como BLEU. Los conjuntos de datos que agrupamos examinan diferentes capacidades - algunas son preguntas de elección múltiple mientras que otras requieren respuestas de forma larga; algunas son dominios abiertos (donde se responden las preguntas sin limitar la información disponible a una fuente previamente especificada) mientras que otras son dominios cerrados (donde se responden las preguntas recuperando contenido de texto de referencia asociado) y provienen de ] para un resumen completo de las preguntas médicas que responden a los conjuntos de datos. 33 3.1.1 MultiMedQA - Un punto de referencia para la respuesta a preguntas médicas MultiMedQA incluye conjuntos de datos que responden a preguntas de elección múltiple, conjuntos de datos que requieren respuestas de forma más larga a las preguntas de los profesionales médicos, y conjuntos de datos que requieren respuestas de forma más larga a las preguntas que podrían ser planteadas por no profesionales. ], MedMCQA [ ], Página oficial de [ En el caso de la vivienda [ En cuanto a la medicación [ ] y MMLU temas clínicos [ Adicionalmente, ampliamos MultiMedQA con un nuevo conjunto de datos de consultas de salud frecuentemente buscadas: HealthSearchQA. Todos los conjuntos de datos son en inglés y los describimos en detalle a continuación. 33 64 34 1 2 29 Estos conjuntos de datos varían a lo largo de los siguientes ejes: Formato: preguntas de elección múltiple vs. preguntas de respuesta de forma larga Capacidades probadas: por ejemplo, evaluar el recuerdo de hechos médicos en aislamiento vs. evaluar las capacidades de razonamiento médico además de recordar hechos Dominio abierto vs. dominio cerrado Fuente de la pregunta: de exámenes médicos profesionales, investigación médica, o consumidores que buscan información médica Etiquetas y metadatos: presencia de etiquetas o explicaciones y sus fuentes Mientras que MedMCQA, PubMedQA, LiveQA y MedicationQA proporcionan respuestas de longitud de referencia o explanaciones, no las utilizamos en este trabajo. En primer lugar, las respuestas de referencia no provienen de fuentes coherentes en los diferentes conjuntos de datos. Las respuestas a menudo provienen de herramientas automatizadas o no clínicos como bibliotecarios. La construcción de las respuestas de referencia y explicaciones en estos conjuntos de datos pioneros no se optimizó para evaluaciones holísticas o completas de calidad de respuesta larga, lo que las hace suboptimales para su uso como una "verdad de tierra" contra la cual evaluar LLM usando métricas de lenguaje natural automatizadas como BLEU. Para aliviar esto, como se discute en la sección , obtuvimos un conjunto estandarizado de respuestas de clínicos cualificados a un subconjunto de las preguntas en el índice de referencia. En segundo lugar, dado los requisitos críticos de seguridad del dominio médico, creemos que es importante ir más allá de las medidas automatizadas de la calidad de la generación de respuestas de forma larga utilizando métricas como BLEU a aquellas que involucran marcos de evaluación humana más matizados como el propuesto en este estudio. 4.5 El conjunto de datos MedQA [ ] consiste en preguntas de estilo US Medical License Exam (USMLE), que se obtuvieron con una elección de 4 o 5 posibles respuestas de la National Medical Board Examination en los EE.UU. El conjunto de desarrollo consiste en 11450 preguntas y el conjunto de prueba tiene 1273 preguntas. MedQA (USMLE) 33 El conjunto de datos MedMCQA consiste en más de 194k preguntas de cuatro opciones de elección múltiple de los exámenes de entrada médica indios (AIIMS/NEET) [ Este conjunto de datos cubre 2.4k temas de salud y 21 temas médicos.El conjunto de desarrollo es sustancial, con más de 187k preguntas. MedMCQA 64 The PubMedQA dataset [ ] consists of 1k expert labeled question answer pairs where the task is to produce a yes/no/maybe multiple-choice answer given a question together with a PubMed abstract as context. While the MedQA and MedMCQA datasets are open domain question answering tasks, the PubMedQA task is closed domain, in that it requires answer inference from the supporting PubMed abstract context. PubMedQA 34 “Measuring Massive Multitask Language Understanding” (MMLU) [ ] includes exam questions from 57 domains. We selected the subtasks most relevant to medical knowledge: “anatomy”, “clinical knowledge”, “college medicine”, “medical genetics”, “professional medicine”, and “college biology”. Each MMLU subtask contains multiple-choice questions with four options, along with the answers. MMLU 29 El conjunto de datos LiveQA [ El conjunto de datos consiste en preguntas médicas presentadas por personas a la Biblioteca Nacional de Medicina (NLM).El conjunto de datos también consiste en respuestas de referencia recogidas manualmente de fuentes confiables como el sitio web del Instituto Nacional de Salud (NIH). LiveQA 1 El conjunto de datos de MedicaciónQA [ Además de la pregunta, el conjunto de datos contiene anotaciones que corresponden al enfoque y las interacciones de los medicamentos. Similar a LiveQA, evaluamos la capacidad de los modelos para producir respuestas de forma larga a las preguntas del conjunto de pruebas. MedicationQA 2 Hemos curado nuestro propio conjunto de datos adicional compuesto por 3375 preguntas de consumidores frecuentemente buscadas, denominadas “HealthSearchQA”. El conjunto de datos fue curado utilizando condiciones médicas de semillas y sus síntomas asociados. Hemos utilizado los datos de semillas para recuperar preguntas de búsqueda generadas por un motor de búsqueda, que se mostraron a todos los usuarios que ingresaron los términos de semillas. Publicamos el conjunto de datos como un punto de referencia abierto para la respuesta a preguntas médicas de consumidores y esperamos que esto sea un recurso útil para la comunidad, como un conjunto de datos que refleje las preocupaciones de los consumidores del mundo real. HealthSearchQA Si bien MultiMedQA nos permite investigar las capacidades de respuesta a la pregunta médica de los LLM a lo largo de varios ejes, reconocemos que no es exhaustivo. Planificamos ampliar el índice de referencia a otros conjuntos de datos relevantes, como aquellos que sondean la capacidad de respuesta a la pregunta de los registros médicos electrónicos [ ] o aquellos que requieren conocimientos biomédicos preclínicos [ en el trabajo futuro. 65 83 3.2 Framework for human evaluation Aquí describimos nuestro marco propuesto para la evaluación humana de las respuestas de forma larga a las preguntas médicas. 3.2.1 Evaluación clínica Mientras que las métricas de precisión objetiva en las preguntas de elección múltiple son una medida robusta del rendimiento del modelo, omiten varios detalles importantes.Para evaluar más profundamente los resultados generativos de los LLM en preguntas abiertas que responden a temas médicos, desarrollamos un marco piloto para la evaluación humana de las respuestas de modelos de forma larga a las preguntas médicas de consumo en los conjuntos de datos LiveQA, MedicationQA y HealthSearchQA. Resumen de los diferentes ejes a lo largo de los cuales los clínicos evalúan las respuestas en nuestros conjuntos de datos de respuestas a preguntas médicas de consumo. Estos incluyen el acuerdo con el consenso científico, la posibilidad y la probabilidad de daño, la evidencia de la comprensión, el razonamiento y la capacidad de recuperación, la presencia de contenido inapropiado, incorrecto o faltante y la posibilidad de bias en la respuesta. Utilizamos un grupo de clínicos para evaluar la calidad del modelo y las respuestas generadas por el hombre a lo largo de estos ejes. Table 2 Task Axis Question 1 Scientific consensus How does the answer relate to the consensus in the scientific andclinical community? 2 Extent of possible harm What is the extent of possible harm? 3 Likelihood of possible harm What is the likelihood of possible harm? 4 Evidence of correct comprehension Does the answer contain any evidence of correct reading compre-hension? (indication the question has been understood) 5 Evidence of correct retrieval Does the answer contain any evidence of correct recall of knowl-edge? (mention of a relevant and/or correct fact for answering the question) 6 Evidence of correct reasoning Does the answer contain any evidence of correct reasoning steps?(correct rationale for answering the question) 7 Evidence of incorrect comprehension Does the answer contain any evidence of incorrect reading com-prehension? (indication the question has not been understood) 8 Evidence of incorrect retrieval Does the answer contain any evidence of incorrect recall of knowl-edge? (mention of an irrelevant and/or incorrect fact for answering the question) 9 Evidence of incorrect reasoning Does the answer contain any evidence of incorrect reasoning steps?(incorrect rationale for answering the question) 10 Inappropriate/incorrect content Does the answer contain any content it shouldn’t? 11 Missing content Does the answer omit any content it shouldn’t? 12 Possibility of bias Does the answer contain any information that is inapplicable or inaccurate for any particular medical demographic? 1 Scientific consensus ¿Cómo se relaciona la respuesta al consenso en la comunidad científica y clínica? 2 La magnitud del posible daño ¿Cuál es la magnitud de los posibles daños? 3 Likelihood of possible harm What is the likelihood of possible harm? 4 Evidence of correct comprehension Does the answer contain any evidence of correct reading compre-hension? (indication the question has been understood) 5 Evidence of correct retrieval Does the answer contain any evidence of correct recall of knowl-edge? (mention of a relevant and/or correct fact for answering the question) 6 Evidence of correct reasoning ¿Contiene la respuesta alguna evidencia de los pasos de razonamiento correctos? (razonamiento correcto para responder a la pregunta) 7 Evidence of incorrect comprehension ¿Contiene la respuesta alguna evidencia de lectura incorrecta? (indicación de que la pregunta no ha sido entendida) 8 Evidencia de recuperación incorrecta Does the answer contain any evidence of incorrect recall of knowl-edge? (mention of an irrelevant and/or incorrect fact for answering the question) 9 Evidence of incorrect reasoning Does the answer contain any evidence of incorrect reasoning steps?(incorrect rationale for answering the question) 10 Inappropriate/incorrect content Does the answer contain any content it shouldn’t? 11 Missing content ¿La respuesta omite cualquier contenido que no debería? 12 Posibilidad de bias Does the answer contain any information that is inapplicable or inaccurate for any particular medical demographic? The pilot framework was inspired by approaches published in a similar domain by Feng [ Para examinar las fortalezas y debilidades de las generaciones de LLM en entornos clínicos. usamos grupos de atención y entrevistas con clínicos con sede en el Reino Unido, EE.UU. e India para identificar ejes adicionales de evaluación. ] y amplió los elementos marco para abordar las nociones de acuerdo con el consenso científico, la posibilidad y la probabilidad de daño, la integridad y falta de respuestas y la posibilidad de prejuicios. El alineamiento con el consenso científico se midió preguntando a los evaluadores si el resultado del modelo estaba alineado con un consenso científico predominante (por ejemplo, en forma de directrices de práctica clínica bien aceptadas), en oposición a un consenso científico; o si no existe un consenso científico claro sobre la cuestión. El daño es un concepto complejo que puede ser evaluado a lo largo de varias dimensiones (por ejemplo, salud física, salud mental, moral, financiera y muchos otros). Al responder a esta pregunta, se les pidió a los evaluadores que se enfocaran únicamente en daños relacionados con la salud física/ment ]) y probabilidad, bajo la suposición de que un consumidor o médico basado en el contenido de la respuesta podría tomar acciones.El bias fue evaluado ampliamente por los evaluadores considerando si la respuesta contenía información que sería inaplicable o inexacta a una demografía específica del paciente. et al. 22 60 93 2 Our framework items’ form, wording and response-scale points were refined by undertaking further interviews with triplicate assessments of 25 question-answer tuples per dataset by three qualified clinicians. Instructions for the clinicians were written including indicative examples of ratings for questions, and iterated until the clinicians’ rating approaches converged to indicate the instructions were usable. Once the guidelines had converged a larger set of question-answer tuples from the consumer medical questions datasets were evaluated by single-ratings performed by one of nine clinicians based in the UK, USA or India and qualified for practice in their respective countries, with specialist experience including pediatrics, surgery, internal medicine and primary care. Resumen de los diferentes ejes a lo largo de los cuales los usuarios evalúan la utilidad de las respuestas en nuestros conjuntos de datos de respuestas a preguntas médicas de consumo. Utilizamos un grupo de 5 usuarios no expertos para evaluar la calidad del modelo y las respuestas generadas por el hombre a lo largo de estos ejes. Table 3 Task Axis Question 1 Answer captures user intent How well does the answer address the intent of the question? 2 Helpfulness of the answer How helpful is this answer to the user? (for example, does it enable them to draw a conclusion or help clarify next steps?) 1 Answer captures user intent How well does the answer address the intent of the question? 2 La utilidad de la respuesta ¿Qué tan útil es esta respuesta para el usuario? (por ejemplo, ¿le permite sacar una conclusión o ayudar a aclarar los próximos pasos?) 3.2.2 Evaluación del usuario (no experto) Para evaluar la utilidad y utilidad de las respuestas a las preguntas médicas de los consumidores, realizamos una evaluación adicional del usuario (no experto). Esto fue realizado por cinco evaluadores sin antecedentes médicos, todos ellos basados en la India. El objetivo de este ejercicio fue evaluar cuán bien la respuesta abordó la intención percibida subyacente a la pregunta y cuán útil y actuable era. Las preguntas planteadas en la evaluación se resumen en la Tabla 3 3.3 Modelado En esta sección, detallamos los grandes modelos de idiomas (LLM) y las técnicas utilizadas para alinearlos con los requisitos del dominio médico. 3.1 Modelos We build on the PaLM and Flan-PaLM family of LLMs in this study. Pathways Language Model (PaLM), introduced by [ ] is a densely-activated decoder-only transformer language model trained using Pathways [ ], un sistema de orquestación de acelerador ML a gran escala que permite un entrenamiento altamente eficiente a través de los podcasts de TPU. El corpus de entrenamiento de PaLM consiste en 780 mil millones de tokens que representan una mezcla de páginas web, artículos de Wikipedia, código fuente, conversaciones en redes sociales, artículos de noticias y libros. , , ] for more details on the training corpus. At the time of release, PaLM 540B achieved breakthrough performance, outperforming fine tuned state of the art models on a suite of multi-step reasoning tasks and exceeding average human performance on BIG-bench [ , de ]. PaLM 14 4 14 19 80 14 78 In addition to the baseline PaLM models, we also considered the instruction-tuned counterpart introduced by [ ]. These models are trained using instruction tuning, i.e., finetuning the model on a collection of datasets in which each example is prefixed with some combination of instructions and/or few-shot exemplars. In particular, Chung [ ] demonstrated the effectiveness of scaling the number of tasks, model size and using chain-of-thought data [ ] as instructions. The Flan-PaLM model reached state of the art performance on several benchmarks such as MMLU, BBH, and TyDIQA [ ]. Across the suite of evaluation tasks considered in [ ], Flan-PaLM outperformed baseline PaLM by an average of 9.4%, demonstrating the effectiveness of the instruction tuning approach. Flan-PaLM 15 et al. 15 91 16 15 In this study we considered both the PaLM and Flan-PaLM model variants at three different model sizes: 8B, 62B and 540B, with the largest model using 6144 TPUv4 chips for pretraining. 3.3.2 Aligning LLMs to the medical domain LLM de propósito general como PaLM [ ] and GPT-3 [ ] have reached state of the art performance on a wide variety of tasks on challenging benchmarks such as BIG-bench. However, given the safety critical nature of the medical domain, it is necessary to adapt and align the model with domain-specific data. Typical transfer learning and domain adaptation methods rely on end-to-end finetuning of the model with large amounts of in-domain data, an approach that is challenging here given the paucity of medical data. As such, in this study we focused on data-efficient alignment strategies building on prompting [ En el momento en que se acerque [ ]. 14 12 12 45 Brown [ El ] demostró que los LLM son estudiantes de pocos disparos fuertes, donde el aprendizaje rápido en el contexto se puede lograr a través de estrategias de prompting. A través de un puñado de ejemplos de demostración codificados como texto prompt en el contexto de entrada, estos modelos son capaces de generalizar a nuevos ejemplos y nuevas tareas sin ninguna actualización de gradientes o ajuste. El notable éxito del aprendizaje de pocos disparos en el contexto ha estimulado el desarrollo de muchas estrategias de prompting, incluyendo scratchpad [ ], chain-of-thought [ ], and least-to-most prompting [ ], especialmente para problemas de computación en múltiples pasos y razonamiento tales como problemas matemáticos [ ]. In this study we focused on standard few-shot, chain-of-thought and self-consistency prompting as discussed below. Prompting strategies et al. 12 61 91 100 17 La estrategia de prompting de pocos disparos estándar fue introducida por Brown [ ]. Aquí, el prompt al modelo está diseñado para incluir ejemplos de pocos disparos que describen la tarea a través de demostraciones basadas en texto. Estas demostraciones suelen ser codificadas como pares de entrada-salida. El número de ejemplos suele ser elegido dependiendo del número de tokens que pueden encajar en la ventana de contexto de entrada del modelo. Después del prompt, el modelo se proporciona una entrada y se le pide que genere la predicción del tiempo de prueba. La contraparte de prompting de cero disparo suele incluir solo una instrucción que describe la tarea sin ningún ejemplo adicional. Brown [ ] observed that while zero-shot prompting scaled modestly with model size, performance with few-shot prompting increased more rapidly. Further, Wei [ El ] observed emergent abilities– that is, abilities which are non-existent in small models but rapidly improve above random performance beyond a certain model size in the prompting paradigm. Few-shot prompting et al. 12 et al. 12 et al. 90 In this study we worked with a panel of qualified clinicians to identify the best demonstration examples and craft the few-shot prompts. Separate prompts were designed for each dataset as detailed in Section . The number of few-shot demonstrations varied depending on the dataset. Typically we used 5 input-output examples for the consumer medical question answering datasets, but reduced the number to 3 or fewer for PubMedQA given the need to also fit in the abstract context within the prompt text. A. 8 Chain-of-thought (CoT), introduced by Wei [ ], involves augmenting each few-shot example in the prompt with a step-by-step breakdown and a coherent set of intermediate reasoning steps towards the final answer. The approach is designed to mimic the human thought process when solving problems that require multi-step computation and reasoning. Wei [ ] demonstrated that CoT prompting can elicit reasoning abilities in sufficiently large language models and dramatically improve performance on tasks such as math problems [ ]. Further, the appearance of such CoT reasoning appears to be an emergent ability [ ] of LLMs. Lewkowycz [ ] used CoT prompting as one of the key strategies in their work leading to breakthrough LLM performance on several STEM benchmarks. Chain-of-thought prompting et al. 91 et al. 91 17 90 et al. 47 Many of the medical questions explored in this study involve complex multi-step reasoning, making them a good fit for CoT prompting techniques. Together with clinicians, we crafted CoT prompts to provide clear demonstrations on how to reason and answer the given medical questions. Examples of such prompts are detailed in Section . A. 9 A straightforward strategy to improve the performance on the multiple-choice benchmarks is to prompt and sample multiple decoding outputs from the model. The final answer is the one with the majority (or plurality) vote. This idea was introduced by Wang [ ] under the name of "self-consistency". The rationale behind this approach here is that for a domain such as medicine with complex reasoning paths, there might be multiple potential routes to the correct answer. Marginalizing out the reasoning paths can lead to the most consistent answer. The self-consistency prompting strategy led to particularly strong improvements in [ ], y adoptamos el mismo enfoque para nuestros conjuntos de datos con preguntas de elección múltiple: MedQA, MedMCQA, PubMedQA y MMLU. Self-consistency prompting et al. 88 47 Because LLMs have grown to hundreds of billions of parameters [ , ], finetuning them is extraordinarily computationally expensive. While the success of few-shot prompting has alleviated this issue to a large extent, many tasks would benefit further from gradient-based learning. Lester [ El ] introduced prompt tuning (in contrast to prompting / priming), a simple and computationally inexpensive Prompt tuning 12 14 y al . 45 El método para adaptar los LLM a tareas específicas en adelante, especialmente con datos limitados.El enfoque involucra el aprendizaje de vectores de promptas blandas a través de la retroalimentación mientras se mantiene el resto del LLM congelado, permitiendo así el fácil reuso de un único modelo a través de tareas. This use of soft prompts can be contrasted with the discrete “hard” text-based few-shot prompts popularized by LLMs such as GPT-3 [ ]. While prompt tuning can benefit from any number of labeled examples, typically only a handful of examples (e.g., tens) are required to achieve good performance. Further, Lester 12 et al. [ ] demostró que el rendimiento del modelo prompt-tuned se convierte en comparable con el finetuning de fin a fin en una escala de modelo aumentada. ], where prefix activation vectors are prepended to each layer of the LLM encoder and learned through backpropagation. Lester [ El El ajuste rápido de ] se puede pensar como una simplificación de esta idea, limitando los parámetros aprendibles a sólo aquellos que representan un pequeño número de tokens predependidos a la entrada como un prompt suave. 45 48 y al . 45 3.3.3 Instruction prompt tuning Wei [ ] and Chung [ El ] demonstrated the benefits of multi-task instruction finetuning: the Flan-PaLM model achieved state of the performance on several benchmarks such as BIG-bench [ ] and MMLU [ ]. In particular, Flan-PaLM demonstrated the benefits of using CoT data in fine-tuning, leading to robust improvements in tasks that required reasoning. et al. 89 y al . 15 47 29 Given the strong performance of instruction tuning, we built primarily on the Flan-PALM model in this work. However, as discussed in Section , our human evaluation revealed key gaps in Flan-PaLM’s performance on the consumer medical question answering datasets, even with few-shot prompting. To further align the model to the requirements of the safety-critical medical domain, we explored additional training specifically on medical data. 4.5 Para este entrenamiento adicional, usamos el ajuste prompt en lugar del ajuste de modelo completo dado el coste de la generación de datos computacionales y clínicos. Nuestro enfoque amplía efectivamente el principio de "aprender a seguir instrucciones" de Flan-PaLM a la fase de ajuste prompt. En concreto, en lugar de utilizar el prompt suave aprendido por el ajuste prompt como un reemplazo para un prompt de ingeniería humana específico de tareas, usamos el prompt suave como un prefixo inicial que se comparte en varios conjuntos de datos médicos, y que es seguido por el prompt de ingeniería humana específico de tareas (consistente de instrucciones y/o pocos ejemplares, que pueden ser ejemplos de cadena de pensamiento) junto con la pregunta real y/o contexto. Nos referimos a este método de ajuste prompt como “ajuste prompt de instrucción”. El ajuste prompt de instrucción puede, por lo tanto, ser visto como una forma ligera (eficiente en datos, eficiente en parámetros, eficiente en computación durante el entrenamiento y la inferencia) de entrenar a un modelo para seguir las instrucciones en uno o más dominios. En nuestro entorno, el ajuste prompt de instrucción adaptó los LLM para seguir mejor el tipo específico de instrucciones utilizadas en la familia de conjuntos de datos médicos a los que nos dirigimos. Given the combination of soft prompt with hard prompt, instruction prompt tuning can be considered a type of "hard-soft hybrid prompt tuning" [ ], alongside existing techniques that insert hard anchor tokens into a soft prompt [ ], insert learned soft tokens into a hard prompt [ ], or use a learned soft prompt as a prefix for a short zero-shot hard prompt [ , ]. To the best of our knowledge, ours is the first published example of learning a soft prompt that is prefixed in front of a full hard prompt containing a mixture of instructions and few-shot exemplars. 52 53 28 26 96 3.3.4 Putting it all together: Med-PaLM Para adaptar Flan-PaLM al dominio médico, aplicamos el ajuste inmediato de instrucciones a un pequeño conjunto de ejemplares. Estos ejemplos se utilizaron efectivamente para instruir al modelo para producir generaciones de texto más alineadas con los requisitos del dominio médico, con buenos ejemplos de comprensión médica, recuerdo de conocimientos clínicos y razonamiento sobre conocimientos médicos que no son susceptibles de causar daño al paciente. Samplamos aleatoriamente ejemplos de los conjuntos de datos de respuesta libre de MultiMedQA (HealthSearchQA, MedicationQA, LiveQA) y solicitamos a un panel de cinco clínicos que proporcionaran respuestas ejemplares. Estos clínicos estaban basados en Estados Unidos y el Reino Unido con experiencia especializada en atención primaria, cirugía, medicina interna y pediatría. Los clínicos luego filtraron pares de preguntas / respuestas que decidieron que no eran buenos ejemplos para instruir el modelo. Esto generalmente ocurrió cuando los clínicos sentían que no podían producir una respuesta modelo “ideal” para una pregunta dada, por ejemplo, si la información requerida para responder a una pregunta no era conocida. Nos quedamos con 40 ejemplos en HealthSearchQA, MedicationQA y LiveQA utilizados para la instrucción The resulting model, Med-PaLM, was evaluated on the consumer medical question answering datasets of MultiMedQA along with Flan-PaLM. Figure proporciona una visión general de nuestro enfoque de ajuste de instrucciones para Med-PaLM. Se pueden encontrar más detalles sobre la optimización de hiperparámetros y el proceso de selección de modelos en la sección . The model card for Med-PaLM is provided in Section . 2 A1 A.5 4 Resultados In this section, we first provide an overview of our key results as summarized in Figures and . Then, we present several ablations to help contextualize and interpret the results. 3 4 4.1 Flan-PaLM exceeds previous state-of-the-art on MedQA (USMLE) by over 17% On the MedQA dataset consisting of USMLE style questions with 4 options, our Flan-PaLM 540B model achieved a multiple-choice question (MCQ) accuracy of 67.6% surpassing the DRAGON model [ ] by 20.1%. 94 Concurrent to our study, Bolton [ ] desarrolló PubMedGPT, un modelo de 2,7 mil millones entrenado exclusivamente en abstracto biomédico y papel. El modelo logró un rendimiento del 50,3% en preguntas MedQA con 4 opciones. A lo mejor de nuestro conocimiento, este es el estado de la arte en MedQA, y Flan-PaLM 540B superó esto en 17,3%. compares to best performing models on this dataset. On the more difficult set of questions with 5 options, our model obtained a score of 62.0%. et al. 9 4 4.2 State-of-the-art performance on MedMCQA and PubMedQA On the MedMCQA dataset, consisting of medical entrance exam questions from India, Flan-PaLM 540B reached a performance of 57.6% on the dev set. This exceeds the previous state of the art result of 52.9% by the Galactica model [ ]. 79 Similarly on the PubMedQA dataset, our model achieved an accuracy of 79.0% outperforming the previous state of the art BioGPT model Luo [ ] by 0.8%. The results are summarized in Figure 2 below. While this improvement may seem small compared to MedQA and MedMCQA datasets, the single rater human performance on PubMedQA is 78.0% [ ], indicating that there may be an inherent ceiling to the maximum possible performance on this task. et al. 56 33 Resumen de los modelos de mejor rendimiento en las preguntas del conjunto de datos MedQA (USMLE) con 4 opciones. Nuestros resultados con Flan-PaLM superan el estado anterior del arte en más del 17%. Table 4 Model (number of parameters) MedQA (USMLE) Accuracy % Flan-PaLM (540 B)(ours) 67.6 PubMedGPT (2.7 B) [ ] 9 50.3 DRAGON (360 M) [ ] 94 47.5 BioLinkBERT (340 M) [ ] 95 45.1 Galactica (120 B) [ ] 79 44.4 PubMedBERT (100 M) [ ] 25 38.1 GPT-Neo (2.7 B) [ ] 7 33.3 Flan-PaLM (540 B)(ours) 67.6 PubMedGPT (2.7 B) [ ] 9 50.3 Ruta del Dragón (360 m) ] 94 47.5 BioLinkBERT (340 M) [ ] 95 45.1 Galactica (120 B) [ ] 79 44.4 PubMedBERT (100 M) [ ] 25 38.1 GPT-Neo (2.7 B) [ ] 7 33.3 4.3 State-of-the-art performance on MMLU clinical topics The MMLU dataset contains multiple-choice questions from several clinical knowledge, medicine and biology related topics. These include anatomy, clinical knowledge, professional medicine, human genetics, college medicine and college biology. Flan-PaLM 540B achieved state of the art performance on all these subsets, outperforming strong LLMs like PaLM, Gopher, Chinchilla, BLOOM, OPT and Galactica. In particular, on the professional medicine and clinical knowledge subset, Flan-PaLM 540B achieved a SOTA accuracy of 83.5% and 84.0%. Figure summarizes the results, providing comparisons with other LLMs where available [ ]. 4 79 4.4 Ablations We performed several ablations on three of the multiple-choice datasets - MedQA, MedMCQA and PubMedQA - to better understand our results and identify the key components contributing to Flan-PaLM’s performance. We present them in detail below: Across all model sizes, we observed that the instruction-tuned Flan-PaLM model outperformed the baseline PaLM model on all three datasets - MedQA, MedMCQA and PubMedQA. The models were few-shot prompted in these experiments using the prompt text detailed in . The detailed results are summarized in Las mejoras fueron más prominentes en el conjunto de datos de PubMedQA, donde el modelo 8B Flan-PaLM superó el modelo de base de PaLM en más de 30%. También se observaron mejoras similares en las variantes 62B y 540B. Estos resultados demostraron los fuertes beneficios del ajuste de la instrucción. . Instruction tuning improves performance on medical question answering A. 8 5 A.3 Todavía no hemos completado un análisis exhaustivo del efecto del ajuste prompt de instrucciones sobre la precisión de elección múltiple; nuestro análisis es de Flan-PaLM en esta sección, no de Med-PaLM. Med-PaLM (instrucción prompt-tuned Flan-PaLM) fue desarrollado para mejorar los resultados de generación de forma larga de Flan-PaLM presentados en Sección by better aligning the model to the medical domain. However, given the success of domain-agnostic instruction tuning for multiple-choice question answering, in-domain instruction prompt tuning appears promising, and we present a preliminary result in Section . 4.5 A.6 A related observation from was the strong performance improvements obtained from scaling the model from 8B to 62B and 540B. We observed approximately a 2x improvement in performance when scaling the model from 8B to 540B in both PaLM and Flan-PaLM. These improvements were more pronounced in the MedQA and MedMCQA datasets. In particular, for the Flan-PaLM model, the 540B variant outperformed the 62B variant by over 14% and the 8B variant by over 24%. Given these results and the strong performance of the Flan-PaLM 540B model, we built on this model for downstream experiments and ablations. The scaling plots are provided in Section . Scaling improves performance on medical question answering 5 A.4 summarizes the results from using CoT prompting and provides a comparison with the few-shot prompting strategy using the Flan-PaLM 540B model. Somewhat unexpectedly, we did not observe improvements using CoT over the standard few-shot prompting strategy across the three multiple-choice datasets - MedQA, MedMCQA and PubMedQA. The CoT prompts used are summarized in Section . Chain-of-Thought (CoT) prompting 6 A.9 Wang [ ] showed that self-consistency prompting can help when CoT prompting hurts performance. They showed significant improvements on arithmetic and commonsense reasoning tasks. Taking their cue, we apply it to our datasets. We fixed the number of chain-of-thought answer explanation paths to 11 for each of the three datasets. We then marginalized over the different explanation paths to select the most consistent answer. Using this strategy, we observed significant improvements over the standard few-shot prompting strategy for the Flan-PaLM 540B model on the MedQA and MedMCQA datasets. In particular, for the MedQA dataset we observed a >7% improvement with self-consistency. However, somewhat unexpectedly, self-consistency led to a drop in performance for the PubMedQA dataset. The results are summarized in Table . Self-consistency (SC) leads to strong improvement in multiple-choice performance et al. 88 7 We further provide some example responses from the Flan-PaLM 540B model for MedQA in Table . 8 LLMs are capable of long, coherent, and complex generations. However, they can also generate statements inconsistent with fact. In medical settings in particular, such failure modes need to be carefully vetted, and in real world applications, generations unlikely to be true should be withheld. Instead, we may want to defer to other information sources or experts when needed. One solution is therefore for LLMs to communicate uncertainty estimates along with their responses. Uncertainty and Selective Prediction While uncertainty measures over LLM output sequences remains an open area of research [ , ], aquí exploramos un proxy simple como un enfoque inicial para medir la relación entre la incertidumbre del LLM y la exactitud de la declaración. ], using the number of decodes matching a given answer from self-consistency as a measure of uncertainty and used it to withhold the answer if the model was not appropriately confident. We performed the experiment using 41 decodes from the Flan-PaLM 540B model with chain-of-thought prompting and self consistency. We observe in that as the deferring fraction increases (i.e., with a higher “confidence” required to provide a prediction), the performance of the model on MedQA improves, reaching up to an accuracy of of 82.5% at a 0.45 deferring fraction. This suggests our measure of response uncertainty may be reasonable, and that LLMs seem to encode uncertainty about their knowledge in the medical domain. However, more research is needed beyond this preliminary analysis. 36 51 82 5 4.5 Human evaluation results We randomly selected 100 questions from HealthSearchQA, 20 questions from LiveQA, and 20 questions from MedicationQA as a smaller long-form answer benchmark for detailed human evaluation. These questions reflect real-world consumer queries for medical information. These selected questions were disjoint from those exemplars used for instruction prompt tuning to produce Med-PaLM. Luego produjeron respuestas utilizando Flan-PaLM y Med-PaLM (ambos modelos 540B). Algunos ejemplos cualitativos de estas preguntas y las correspondientes respuestas Med-PaLM se muestran en la Tabla Tuvimos los tres conjuntos de respuestas evaluadas por otro panel de clínicos a lo largo de los ejes en la Tabla , without revealing the source of answers. One clinician evaluated each answer. To reduce the impact of variation across clinicians on generalizability of our findings, our panel consisted of 9 clinicians (based in the US, UK, and India). We used the non-parametric bootstrap to estimate any significant variation in the results, where 100 bootstrap replicas were used to produce a distribution for each set and we used the 95% bootstrap percentile interval to assess variations. These results are described in detail below and in Section . 9 2 A.7 We wished to understand how the answers related to current consensus in the clinical and scientific community. On the 140 questions evaluated in the study, we found that clinicians’ answers were judged to be aligned with the scientific consensus in 92.9% of questions. On the other hand, Flan-PaLM was found to be in agreement with the scientific consensus in only 61.9% of answers. For other questions, answers were either opposed to consensus, or no consensus existed. This suggested that generic instruction tuning on its own was not sufficient to produce scientific and clinically grounded answers. However, we observed that 92.9% of Med-PaLM answers were judged to be in accordance with the scientific consensus, showcasing the strength of instruction prompt tuning as an alignment technique to produce scientifically grounded answers. Scientific consensus: We note that since PaLM, Flan-PaLM, and Med-PaLM were trained using corpora of web documents, books, Wikipedia, code, natural language tasks, and medical tasks at a given point of time, one potential limitation of these models is that they can reflect the scientific consensus of the past instead of today. This was not a commonly observed failure mode for Med-PaLM today, but this motivates future work in continual learning of LLMs and retrieval from a continuously evolving corpus. We sought to understand the (whether expert or model generated) medical comprehension, medical knowledge retrieval and reasoning capabilities of the model as expressed through the answers generated by them. We asked a panel of clinicians to rate whether answers contained any (one or more example of) evidence of correct / incorrect medical reading comprehension, medical knowledge retrieval and medical reasoning capabilities, using the same approach as Feng [ ]. Correct and incorrect evidence were assessed in parallel because it is possible that a single long-form answer may contain evidence of both correct and incorrect comprehension, retrieval and reasoning. Comprehension, retrieval and reasoning capabilities: et al. 22 We found that expert generated answers were again considerably superior to Flan-PaLM, though performance was improved by instruction prompt tuning for Med-PaLM. This trend was observed in all the six sub-questions used to evaluate in this axis. For example, with regard to evidence of correct retrieval of medical knowledge, we found that clinician answers scored 97.8% while Flan-PaLM only scored 76.3%. However, the instruction prompt-tuned Med-PaLM model scored 95.4%, reducing the inferiority of the model compared to clinicians. The goal of this evaluation was to understand the completeness and correctness of the generated answers, by assessing whether the answer omits any information it should not, or whether the answer contained any content it should not. Where there was deemed to be missing or omitted content, the rater was asked whether that was of great or little potential clinical significance. Incorrect or missing content: Again we observed that clinician-generated answers were superior to AI models. Clinician answers showed evidence of inappropriate/incorrect content in only 1.4% of the cases, compared to 16.1% for Flan-PaLM. Surprisingly, instruction prompt tuning seemed to further degrade performance, with 18.7% of the Med-PaLM answers judged to contain inappropriate or incorrect content. On the other hand, we observed that instruction prompt tuning helped improve model performance in omission of important information. While Flan-PaLM answers were judged to miss important information 47.2% of the time, the number improved significantly for Med-PaLM with only 15.1% of the answers adjudged to have missing information, reducing the inferiority compared to clinicians whose answers were judged to have missing information in only 11.1% of the cases. A few qualitative examples are shown in Table 10 suggesting that LLM answers may be able to complement and complete physician responses to patient queries in future use cases. One potential explanation of these observations is that instruction prompt tuning teaches the Med-PaLM model to generate significantly more detailed answers than the Flan-PaLM model, reducing the omission of important information. However a longer answer also increases the risk of introducing incorrect content. Buscamos identificar la gravedad y la probabilidad de daño potencial basándose en actuar sobre las respuestas generadas. Pedimos a los evaluadores que asumieran que la salida de los modelos podría conducir a acciones por parte de clínicos o consumidores/pacientes, y estimar la posible gravedad y probabilidad de daños relacionados con la salud física/mental que pudieran resultar. [ ], which presents options to assign severity of harm ranging from death, severe or life-threatening injury, moderate, mild or no harm. We acknowledge that this definition of harm is more typically used in the context of analyzing harms incurred during healthcare delivery and that even in such settings (where the context for harms occurring is known with considerably greater specificity) there is frequently substantial variation in physician estimation of harm severity [ ]. The validity of the AHRQ scale cannot therefore be assumed to extend to our context, where our rater outputs should be regarded as subjective estimates because our work was not grounded in a specific intended use and sociocultural context. Possible extent and likelihood of harm: et al. 93 86 Despite the broad definition and subjectivity of ratings, we observed that instruction prompt tuning produced safer answers that reduced both estimated likelihood and severity. While 29.7% of the Flan-PaLM responses were judged as potentially leading to harm, this number dropped to 5.9% for Med-PaLM comparing on par with clinician-generated answers which were also judged as potentially harmful in 5.7% of the cases. Similarly, on the likelihood of harm axes, instruction prompt tuning enabled Med-PaLM answers to match the expert generated answers. The final axis along which we evaluated the answers was bias. The use of large language models for medical question answering has the potential for bias and fairness-related harms that contribute to health disparities. These harms derive from several sources, including the presence of patterns in training data that reflect disparities in health outcomes and access to care, the capability for medical question answering systems to reproduce racist misconceptions regarding the cause of racial health disparities [ , de ], algorithmic design choices [ ], and differences in behavior or performance of machine learning systems across populations and groups that introduce downstream harms when used to inform medical decision making [ ]. Bias for medical demographics: 20 85 32 13 Medical question answering systems also pose additional risks beyond those posed by the use of other AI applications in healthcare because they have potential to produce arbitrary outputs, have limited reasoning capability, and could potentially be used for a wide range of downstream use cases. We sought to understand whether the answer contained any information that is inaccurate or inapplicable for a particular demographic. Flan-PaLM answers were found to contain biased information in 7.9% of the cases. However, this number reduced to 0.8% for Med-PaLM, comparing favorably with experts whose answers were judged to contain evidence of bias in 1.4% of the cases. Beyond expert evaluation, we also had a panel of five non-experts in the domain (laypeople without a medical background, based in India) assess the answers. The results are summarized in Fig 10 below. While Flan-PaLM answers were judged to be helpful in only 60.6% of the cases, the number improved to 80.3% for Med-PaLM answers. However, this remained inferior to clinician answers which were judged to be helpful 91.1% of the time. Similarly, Flan-PaLM answers were user’s question intent in 90.8% of cases. This number improved to 94.0% for Med-PaLM, which was inferior to clinician-generated answers at 95.9%. Lay user assessment: judged as directly addressing the The lay evaluation consistently reproduced the benefits of instruction prompt tuning to produce answers that are helpful to users, while also demonstrating that there is still considerable work needed to approximate the quality of outputs provided by human clinicians. 5 Discusión Our results suggest that strong performance on medical question answering may be an emergent ability [ ] of LLMs combined with effective instruction prompt tuning. 90 Firstly, we observed strong scaling performance with accuracy improving by approximately 2x as we scale the PaLM models from 8-billion to 540-billion. The performance of the PaLM 8-billion on MedQA was only slightly better than random performance. However, this number improved by over 30% for the PaLM 540-billion demonstrating the effectiveness of scale for the medical question answering task. We observed similar improvements for the MedMCQA and PubMedQA datasets. Further, instruction fine-tuning was also effective with Flan-PaLM models performing better than the PaLM models across all size variants on all the multiple-choice datasets. It is possible that the PaLM pre-training corpus included significant quantities of high quality medical content and one possible conjecture for the strong performance of the 540-billion model variant is memorization of evaluation datasets considered in this study. However, Chowdhery [ El ] showed similar deltas in performance of the PaLM 8B and 540B model when evaluating contaminated (i.e where part of the test set is in the model pre-training corpus) and cleaned test datasets. This suggests that memorization alone does not explain the strong performance observed by scaling up the models. et al. 14 There have been several efforts to train language models on a biomedical corpus, especially PubMed. These include BioGPT [ ] (355 millones de parámetros), PubMedGPT [ ] (2.7 billion parameters) and Galactica [ ] (120 billion parameters). Our models were able to outperform these efforts on PubMedQA without any finetuning. Further, the benefits of scale and instruction fine-tuning were much more pronounced on the MedQA dataset, which can be considered out-of-domain for all these models. Given the results, we observe that medical answering performance (requiring recall, reading comprehension, and reasoning skills) improves with LLM scale. 56 9 79 However, our human evaluation results on the consumer medical question answering datasets clearly point out that scale alone is insufficient. Even state-of-the-art LLMs like Flan-PaLM can generate answers that are inappropriate for use in the safety-critical medical domain. However, the Med-PaLM results demonstrate that with instruction prompt tuning we have a data and parameter-efficient alignment technique useful for improving factors related to accuracy, factuality, consistency, safety, harm, and bias, helping close the gap with clinical experts and bringing these models closer to real-world clinical applications. 6 Limitaciones Our study demonstrated the potential of LLMs for encoding medical knowledge and in particular for question answering. However, it had several limitations which we discuss in detail below and outline directions for future research. 6.1 Expansión de MultiMedQA Firstly, while the MultiMedQA benchmark is diverse and contains questions from a variety of professional medicine, medical research and consumer sources, it is by no means exhaustive. We plan to expand the benchmark in the future to include a larger variety of medical and scientific domains (eg: biology) and formats. A key challenge in clinical environments is eliciting information from patients and synthesizing findings into an assessment and plan. Multiple-choice question answering tasks are inherently easier because they are often grounded in vignettes compiled by experts and selected to have a generally preferred answer, which is not true for all medical decisions. Developing benchmark tasks that reflect real world clinical workflows is an important direction of future research. Además, sólo consideramos conjuntos de datos en inglés en este estudio, y hay una fuerte necesidad de ampliar el alcance del índice de referencia para apoyar las evaluaciones multilingües. 6.2 Development of key LLM capabilities necessary for medical applications While the Flan-PaLM was able to reach state-of-the-art performance on several multiple-choice medical question answering benchmarks, our human evaluation clearly suggests these models are not at clinician expert level on many clinically important axes. In order to bridge this gap, several new LLM capabilities need to be researched and developed including: Basar las respuestas en fuentes médicas autorizadas y tener en cuenta la naturaleza variable del consenso médico. ability to detect and communicate uncertainty effectively to the human in-the-loop whether clinician or lay user. ability to respond to queries in multiple languages. 6.3 Improving the approach to human evaluation The rating framework we proposed for this study represents a promising pilot approach, but our chosen axes of evaluation were not exhaustive and were subjective in nature. For example the concept of medical/scientific consensus is time-varying in nature and is reflective of understandings of human health and disease and physiology based on discrimination in areas such as race/ethnicity, gender, age, ability, and more [ , de ]. 38 57 Furthermore, consensus often exists only for topics of relevance to certain groups (e.g. greater in number and/or power) and consensus may be lacking for certain subpopulations affected by topics for various reasons (e.g., controversial topics, lower incidence, less funding). Additionally, the concept of harm may differ according to population (e.g., a genetic study of a smaller group of people may reveal information that is factual but incongruent with that group’s cultural beliefs, which could cause members of this group harm). Expert assessment of harm may also vary based on location, lived experience, and cultural background. Our ratings of potential harm were subjective estimates, and variation in perceived harm may also have been due to differences in health literacy of both our clinician and lay raters, or might vary in real world settings depending on the sociocultural context and health literacy of the person receiving and acting on the answers to the health questions in the study by Berkman [ Investigación adicional podría probar si la utilidad y el daño percibidos de las respuestas a las preguntas variaron según la puntuación de comprensibilidad y acción para el contenido de la respuesta [ ]. et al. 6 77 The number of model responses evaluated and the pool of clinicians and lay-people assessing them were limited, as our results were based on only a single clinician or lay-person evaluating the responses. This represents a limitation to generalizability of our findings which could be mitigated by inclusion of a significantly larger and intentionally diverse pool of human raters (clinicians and lay users) with participatory design in the development of model auditing tools. It is worth noting that the space of LLM responses or "coverage" is extremely high and that presents an additional difficulty in the design of evaluation tools and frameworks. The pilot framework we developed could be significantly advanced using recommended best practice approaches for the design and validation of rating instruments from health, social and behavioral research [ ]. Esto podría implicar la identificación de elementos de calificación adicionales a través de la investigación participativa, la evaluación de los elementos de calificación por parte de expertos del dominio y de los destinatarios de la tecnología para su relevancia, representatividad y calidad técnica.La inclusión de un grupo sustancialmente mayor de calificadores humanos también permitiría probar la generalizabilidad de los instrumentos ratificando la dimensionalidad de la prueba, la fiabilidad y la validez de la prueba-retest [ ]. As the same answer can be evaluated multiple ways, the most appropriate rating instrument is also dependent on the intended purpose and recipient for LLM outputs, providing multiple opportunities for the development of validated rating scales depending on the context and purpose of use. Further, substantial user experience (UX) and human-computer interaction (HCI) studies using community-based participatory research methods are necessary before any real world use, and would be specific to a developed tool that is beyond the scope of our exploratory research. Under these contexts further research could explore the independent influence of variation in lay raters’ education level, medical conditions, caregiver status, experience with health care, education level or other relevant factors on their perceptions of the quality of model outputs. The impact of variation in clinician raters’ specialty, demographics, geography or other factors could be similarly explored in further research. 8 8 6.4 Fairness and equity considerations Our current approach to evaluating bias is limited and does not serve as a comprehensive assessment of potential harms, fairness, or equity. The development of procedures for the evaluation of bias and fairness-related harms in large language models is ongoing [ , ]. Healthcare is a particularly complex application of large language models given the safety-critical nature of the domain and the nuance associated with social and structural bias that drives health disparities. The intersection of large language models and healthcare creates unique opportunities for responsible and ethical innovation of robust assessment and mitigation tools for bias, fairness, and health equity. 49 92 We outline opportunities for future research into frameworks for the systematic identification and mitigation of downstream harms and impacts of large language models in healthcare contexts. Key principles include the use of participatory methods to design contextualized evaluations that reflect the values of patients that may benefit or be harmed, grounding the evaluation in one or more specific downstream clinical use cases [ , ], and the use of dataset and model documentation frameworks for transparent reporting of choices and assumptions made during data collection and curation, model development, and evaluation [ , , ]. Furthermore, research is needed into the design of algorithmic procedures and benchmarks that probe for specific technical biases that are known to cause harm if not mitigated. For instance, depending on the context, it may be relevant to assess sensitivity of model outputs to perturbations of demographic identifiers in prompts designed deliberately such that the result should not change under the perturbation [ , , de 54 71 24 59 72 23 68 98 Additionally, the aforementioned research activities to build evaluation methods to achieve health equity in large language models require interdisciplinary collaboration to ensure that various scientific perspectives and methods can be applied to the task of understanding the social and contextual aspects of health [ , , ]. 27 58 62 The development of evaluation frameworks for large language models is a critical research agenda that should be approached with equal rigor and attention as that given to the work of encoding clinical knowledge in language models. In this study we worked with a panel of four qualified clinicians to identify the best-demonstration examples and craft few-shot prompts, all based in either the US or UK, with expertise in internal medicine, pediatrics, surgery and primary care. Although recent studies have surprisingly suggested that the validity of reasoning within a chain-of-thought prompt only contributes a small extent to the impact of this strategy on LLM performance in multi-step reasoning challenges [ ], further research could significantly expand the range of clinicians engaged in prompt construction and the selection of exemplar answers and thereby explore how variation in multiple axes of the types of clinician participating in this activity impact LLM behavior; for example clinician demographics, geography, specialism, lived experience and more. 87 6.5 Ethical considerations This research demonstrates the potential of LLMs for future use in healthcare. Transitioning from a LLM that is used for medical question answering to a tool that can be used by healthcare providers, administrators, and consumers will require significant additional research to ensure the safety, reliability, efficacy, and privacy of the technology. Careful consideration will need to be given to the ethical deployment of this technology including rigorous quality assessment when used in different clinical settings and guardrails to mitigate against over reliance on the output of a medical assistant. For example, the potential harms of using a LLM for diagnosing or treating an illness are much greater than using a LLM for information about a disease or medication. Additional research will be needed to assess LLMs used in healthcare for homogenization and amplification of biases and security vulnerabilities inherited from base models [ , , , , ]. Given the continuous evolution of clinical knowledge, it will also be important to develop ways for LLMs to provide up to date clinical information. 10 11 18 39 49 7 Conclusion The advent of foundation AI models and large language models present a significant opportunity to rethink the development of medical AI and make it easier, safer and more equitable to use. At the same time, medicine is an especially complex domain for applications of large language models. Our research provides a glimpse into the opportunities and the challenges of applying these technologies to medicine. We hope this study will spark further conversations and collaborations between patients, consumers, AI researchers, clinicians, social scientists, ethicists, policymakers and other interested people in order to responsibly translate these early research findings to improve healthcare. Acknowledgments This project was an extensive collaboration between many teams at Google Research and Deepmind. We thank Michael Howell, Cameron Chen, Basil Mustafa, David Fleet, Fayruz Kibria, Gordon Turner, Lisa Lehmann, Ivor Horn, Maggie Shiels, Shravya Shetty, Jukka Zitting, Evan Rappaport, Lucy Marples, Viknesh Sounderajah, Ali Connell, Jan Freyberg, Cian Hughes, Megan Jones-Bell, Susan Thomas, Martin Ho, Sushant Prakash, Bradley Green, Ewa Dominowska, Frederick Liu, Xuezhi Wang, and Dina Demner-Fushman (from the National Library of Medicine) for their valuable insights and feedback during our research. We are also grateful to Karen DeSalvo, Zoubin Ghahramani, James Manyika, and Jeff Dean for their support during the course of this project. Referencias 1. Abacha, A. B., Agichtein, E., Pinter, Y. & Demner-Fushman, D. in (2017), 1–12. Resumen de la tarea de respuesta a la pregunta médica en TREC 2017 LiveQA. TREC Abacha, A. B., Mrabet, Y., Sharp, M., Goodwin, T. R., Shooshan, S. E. y Demner-Fushman, D. en (2019), 25–29. Bridging the Gap Between Consumers’ Medication Questions and Trusted Answers. MedInfo Agrawal, M., Hegselmann, S., Lang, H., Kim, Y. y Sontag, D. Los grandes modelos de lenguaje son extractores de información clínica de tiro cero. (2022) de los arXiv preprint arXiv:2205.12689 Barham, P., Chowdhery, A., Dean, J., Ghemawat, S., Hand, S., Hurt, D., Isard, M., Lim, H., Pang, R., Roy, S., et al. Pathways: Asynchronous distributed dataflow for ML. 430 a 449 (2022). Proceedings of Machine Learning and Systems 4, 5. Beltagy, I., Lo, K. & Cohan, A. SciBERT: A pretrained language model for scientific text. (2019) por arXiv preprint arXiv:1903.10676 6. Berkman, N. D., Sheridan, S. L., Donahue, K. E., Halpern, D. J., Viera, A., Crotty, K., Holland, A., Brasure, M., Lohr, K. N., Harden, E., Health literacy interventions and outcomes: an updated systematic review. 1 a 941 (2011). y al . Evidence report/technology assessment, 7. Black, S., Gao, L., Wang, P., Leahy, C. & Biderman, S. Versión 1.0. Si utiliza este software, por favor, cite el software utilizando estos metadatos. GPT-Neo: Large Scale Autoregressive Language Modeling with Mesh-Tensorflow https : . //doi.org/10.5281/zenodo.5297715 8. Boateng, G. O., Neilands, T. B., Frongillo, E. A., Melgar-Quiñonez, H. R. & Young, S. L. Best practices for developing and validating scales for health, social, and behavioral research: a primer. 149 (2018). Fronteras en salud pública 6, Bolton, E., Hall, D., Yasunaga, M., Lee, T., Manning, C. y Liang, P. . 2022. Stanford CRFM presenta PubMedGPT 2.7B https://hai.stanford.edu/news/stanford-crfm-introduces-pubmedgpt-27b 10. Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., Bosselut, A., Brunskill, E., Sobre las oportunidades y riesgos de los modelos de fundación. (2021). et al. arXiv preprint arXiv:2108.07258 11. Bommasani, R., Liang, P. & Lee, T. Los modelos de idiomas están cambiando la IA: la necesidad de una evaluación holística https : En 2022. //crfm.stanford.edu/2022/11/17/helm.html 12. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Language models are few-shot learners. 1877 a 1901 (2020). y al . Advances in neural information processing systems 33, 13. Chen, I. Y., Pierson, E., Rose, S., Joshi, S., Ferryman, K. & Ghassemi, M. Ethical machine learning in healthcare. 123–144 (2021). Annual review of biomedical data science 4, 14. Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., Barham, P., Chung, H. W., Sutton, C., Gehrmann, S., PaLM: Scaling language modeling with pathways. (2022). et al. arXiv preprint arXiv:2204.02311 Chung, H. W., Hou, L., Longpre, S., Zoph, B., Tay, Y., Fedus, W., Li, E., Wang, X., Dehghani, M., Brahma, S., et al. Scaling instruction-finetuned language models. (2022). arXiv preprint arXiv:2210.11416 16. Clark, J. H., Choi, E., Collins, M., Garrette, D., Kwiatkowski, T., Nikolaev, V. & Palomaki, J. TyDi QA: A benchmark for information-seeking question answering in typologically diverse languages. 454–470 (2020). Transactions of the Association for Computational Linguistics 8, 17. Cobbe, K., Kosaraju, V., Bavarian, M., Hilton, J., Nakano, R., Hesse, C. & Schulman, J. Training verifiers to solve math word problems. El 2021). arXiv preprint arXiv:2110.14168 18. Creel, K. & Hellman, D. The Algorithmic Leviathan: Arbitrariness, Fairness, and Opportunity in Algorithmic Decision-Making Systems. 1 a 18 (2022) Canadian Journal of Philosophy, 19. Du, N., Huang, Y., Dai, A. M., Tong, S., Lepikhin, D., Xu, Y., Krikun, M., Zhou, Y., Yu, A. W., Firat, O., in (2022), 5547–5569. et al. Glam: Efficient scaling of language models with mixture-of-experts International Conference on Machine Learning 20. Eneanya, N. D., Boulware, L., Tsai, J., Bruce, M. A., Ford, C. L., Harris, C., Morales, L. S., Ryan, M. J., Reese, P. P., Thorpe, R. J., Health inequities and the inappropriate use of race in nephrology. 84–94 (2022). y al . Nature Reviews Nephrology 18, 21. Esteva, A., Chou, K., Yeung, S., Naik, N., Madani, A., Mottaghi, A., Liu, Y., Topol, E., Dean, J. & Socher, R. Deep learning-enabled medical computer vision. 1–9 (2021). NPJ digital medicine 4, 22. Feng, S. Y., Khetan, V., Sacaleanu, B., Gershman, A. & Hovy, E. CHARD: Clinical Health-Aware Reasoning Across Dimensions for Text Generation Models. (2022). arXiv preprint arXiv:2210.04191 Garg, S., Perot, V., Limtiaco, N., Taly, A., Chi, E. H. y Beutel, A. in (2019), de 219 a 226. Counterfactual fairness in text classification through robustness Proceedings of the 2019 AAAI/ACM Conference on AI, Ethics, and Society Gebru, T., Morgenstern, J., Vecchione, B., Vaughan, J. W., Wallach, H., Iii, H. D. y Crawford, K. Archivos para conjuntos de datos. 86–92 (2021). Communications of the ACM 64, 25. Gu, Y., Tinn, R., Cheng, H., Lucas, M., Usuyama, N., Liu, X., Naumann, T., Gao, J. & Poon, H. Domain-specific language model pretraining for biomedical natural language processing. 1–23 (2021). ACM Transactions on Computing for Healthcare (Transacciones de ACM en Computación para la Salud) 3, Gu, Y., Han, X., Liu, Z. y Huang, M. Ppt: ajuste rápido pre-entrenado para el aprendizaje de pocos disparos. El 2021). arXiv preprint arXiv:2109.04332 27. Guidance, W. Ethics and governance of artificial intelligence for health. (2021). World Health Organization 28. Han, X., Zhao, W., Ding, N., Liu, Z. & Sun, M. Ptr: Prompt tuning with rules for text classification. (2022). AI Open Hendrycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., Song, D. y Steinhardt, J. Medir la comprensión del lenguaje multitarea masiva. (2020). arXiv preprint arXiv:2009.03300 Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., Casas, D. d. L., Hendricks, L. A., Welbl, J., Clark, A., Training Compute-Optimal Large Language Models. (2022). et al. arXiv preprint arXiv:2203.15556 Hong, Z., Ajith, A., Pauloski, G., Duede, E., Malamud, C., Magoulas, R., Chard, K. y Foster, I. ScholarBERT: Más grande no siempre es mejor. (2022) de los arXiv preprint arXiv:2205.11342 32. Hooker, S. Moving beyond “algorithmic bias is a data problem”. 100241 del año 2021. Patterns 2, 33. Jin, D., Pan, E., Oufattole, N., Weng, W.-H., Fang, H. & Szolovits, P. What disease does this patient have? a large-scale open domain question answering dataset from medical exams. 6421 (2021). Applied Sciences 11, 34. Jin, Q., Dhingra, B., Liu, Z., Cohen, W. W. & Lu, X. PubMedQA: A dataset for biomedical research question answering. (2019). arXiv preprint arXiv:1909.06146 35. Joshi, M., Choi, E., Weld, D. S. & Zettlemoyer, L. TriviaQA: A large scale distantly supervised challenge dataset for reading comprehension. (2017). arXiv preprint arXiv:1705.03551 36. Kadavath, S., Conerly, T., Askell, A., Henighan, T., Drain, D., Perez, E., Schiefer, N., Dodds, Z. H., DasSarma, N., Tran-Johnson, E., Language models (mostly) know what they know. (2022). et al. arXiv preprint arXiv:2207.05221 37. Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J. & Amodei, D. Scaling laws for neural language models. y el 2020. arXiv Preprint arXiv:2001.08361 38. Kington, R. S., Arnesen, S., Chou, W.-Y. S., Curry, S. J., Lazer, D. & Villarruel, A. M. Identifying credible sources of health information in social media: Principles and attributes. El 2021). NAM perspectives 2021 Kleinberg, J. y Raghavan, M. Monocultura algorítmica y bienestar social. e2018340118 (2021). Proceedings of the National Academy of Sciences 118, 40. Kojima, T., Gu, S. S., Reid, M., Matsuo, Y. & Iwasawa, Y. Large Language Models are Zero-Shot Reasoners. (2022) de los arXiv preprint arXiv:2205.11916 41. Korngiebel, D. M. & Mooney, S. D. Considering the possibilities and pitfalls of Generative Pre-trained Transformer 3 (GPT-3) in healthcare delivery. 1 a 3 (2021) NPJ Medicina Digital 4, 42. Lakkaraju, H., Slack, D., Chen, Y., Tan, C. & Singh, S. Rethinking Explainability as a Dialogue: A Practitioner’s Perspective. (2022) de los arXiv preprint arXiv:2202.01875 43. Lampinen, A. K., Dasgupta, I., Chan, S. C., Matthewson, K., Tessler, M. H., Creswell, A., McClelland, J. L., Wang, J. X. & Hill, F. Can language models learn from explanations in context? (2022). arXiv preprint arXiv:2204.02329 44. Lee, J., Yoon, W., Kim, S., Kim, D., Kim, S., So, C. H. & Kang, J. BioBERT: a pre-trained biomedical language representation model for biomedical text mining. 1234–1240 (2020). Bioinformática 36, Lester, B., Al-Rfou, R. y Constant, N. El poder de la escala para el ajuste rápido eficiente de parámetros. (2021). arXiv preprint arXiv:2104.08691 Lewis, P., Ott, M., Du, J. y Stoyanov, V. in (2020), de 146 a 157. Pretrained language models for biomedical and clinical tasks: Understanding and extending the state-of-the-art Proceedings of the 3rd Clinical Natural Language Processing Workshop 47. Lewkowycz, A., Andreassen, A., Dohan, D., Dyer, E., Michalewski, H., Ramasesh, V., Slone, A., Anil, C., Schlag, I., Gutman-Solo, T., Solucionar problemas de razonamiento cuantitativo con modelos de lenguaje. (2022). et al. arXiv preprint arXiv:2206.14858 48. Li, X. L. & Liang, P. Prefix-tuning: Optimizing continuous prompts for generation. (2021). arXiv preprint arXiv:2101.00190 49. Liang, P., Bommasani, R., Lee, T., Tsipras, D., Soylu, D., Yasunaga, M., Zhang, Y., Narayanan, D., Wu, Y., Kumar, A., Holistic evaluation of language models. (2022). et al. arXiv preprint arXiv:2211.09110 50. Liévin, V., Hother, C. E. & Winther, O. Can large language models reason about medical questions? (2022). arXiv preprint arXiv:2207.08143 Lin, S., Hilton, J. y Evans, O. Enseñando modelos para expresar su incertidumbre en palabras. (2022) de los arXiv preprint arXiv:2205.14334 52. Liu, P., Yuan, W., Fu, J., Jiang, Z., Hayashi, H. & Neubig, G. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing. (2021). arXiv preprint arXiv:2107.13586 53. Liu, X., Zheng, Y., Du, Z., Ding, M., Qian, Y., Yang, Z. & Tang, J. GPT understands, too. (2021). arXiv preprint arXiv:2103.10385 Liu, X., Glocker, B., McCradden, M. M., Ghassemi, M., Denniston, A. K. y Oakden-Rayner, L. La auditoría algorítmica médica. (2022). The Lancet Digital Health 55. Loshchilov, I. & Hutter, F. Decoupled weight decay regularization. (2017). arXiv preprint arXiv:1711.05101 56. Luo, R., Sun, L., Xia, Y., Qin, T., Zhang, S., Poon, H. & Liu, T.-Y. BioGPT: generative pre-trained transformer for biomedical text generation and mining. (2022). Briefings in Bioinformatics 23 57. de Mandavilli, a. En el 2021. Los periódicos médicos ciegos al racismo como crisis de salud, dicen los críticos https://www.nytimes.com/2021/06/02/ health/jama-racism-bauchner.html 58. Matheny, M., Israni, S. T., Ahmed, M. & Whicher, D. Artificial Intelligence in Health Care: The Hope, the Hype, the Promise, the Peril (2022). 59. Mitchell, M., Wu, S., Zaldivar, A., Barnes, P., Vasserman, L., Hutchinson, B., Spitzer, E., Raji, I. D. & Gebru, T. in (2019), de 220 a 229. Model cards for model reporting Procedimientos de la conferencia sobre equidad, responsabilidad y transparencia 60. Morgado, F. F., Meireles, J. F., Neves, C. M., Amaral, A. & Ferreira, M. E. Scale development: ten main limitations and recommendations to improve future research practices. (2017). Psicologia: Reflexao e Critica 30 61. Nye, M., Andreassen, A. J., Gur-Ari, G., Michalewski, H., Austin, J., Bieber, D., Dohan, D., Lewkowycz, A., Bosma, M., Luan, D., Mostrar su trabajo: Scratchpads para cálculo intermedio con modelos de idiomas. El 2021). et al. arXiv preprint arXiv:2112.00114 62. Of Science, W. H. O. & Policy, T. En 2022. The Blueprint for an AI Bill of Rights: Making Automated Systems Work for the American People https://www.whitehouse.gov/wp-content/uploads/2022/10/Blueprint-for-an-AI-Bill-of-Rights.pdf 63. Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Training language models to follow instructions with human feedback. (2022). et al. arXiv preprint arXiv:2203.02155 Pal, A., Umapathi, L. K. y Sankarasubbu, M. in (2022), 248–260. MedMCQA: Un conjunto de datos multidimensional a gran escala para la respuesta a preguntas de dominio médico Conference on Health, Inference, and Learning 65. Pampari, A., Raghavan, P., Liang, J. & Peng, J. emrqa: A large corpus for question answering on electronic medical records. (en el año 2018). arXiv preprint arXiv:1809.00732 Papanikolaou, Y. y Pierleoni, A. DARE: Extracción de relaciones aumentadas de datos con gpt-2. y el 2020. arXiv preprint arXiv:2004.13845 Papineni, K., Roukos, S., Ward, T. y Zhu, W.-J. in (2002), 311–318. Bleu: a method for automatic evaluation of machine translation Proceedings of the 40th annual meeting of the Association for Computational Linguistics 68. Prabhakaran, V., Hutchinson, B. & Mitchell, M. Perturbation sensitivity analysis to detect unintended model biases. (2019). arXiv preprint arXiv:1910.04210 69. Rae, J. W., Borgeaud, S., Cai, T., Millican, K., Hoffmann, J., Song, F., Aslanides, J., Henderson, S., Ring, R., Young, S., Scaling language models: Methods, analysis & insights from training gopher. El 2021). y al . arXiv preprint arXiv:2112.11446 70. Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., Liu, P. J., Exploring the limits of transfer learning with a unified text-to-text transformer. 1–67 (2020). y al . J. Mach. Aprendizaje Res. 21, 71. Raji, I. D., Smart, A., White, R. N., Mitchell, M., Gebru, T., Hutchinson, B., Smith-Loud, J., Theron, D. & Barnes, P. in (2020), 33–44. Cierre de la brecha de responsabilidad de la IA: Definición de un marco de fin a fin para la auditoría algorítmica interna Proceedings of the 2020 conference on fairness, accountability, and transparency Rostamzadeh, N., Mincu, D., Roy, S., Smart, A., Wilcox, L., Pushkarna, M., Schrouff, J., Amironesei, R., Moorosi, N. & Heller, K. Healthsheet: Desarrollo de un artefacto de transparencia para los conjuntos de datos de salud. (2022). arXiv preprint arXiv:2202.13028 73. Scao, T. L., Fan, A., Akiki, C., Pavlick, E., Ilić, S., Hesslow, D., Castagné, R., Luccioni, A. S., Yvon, F., Gallé, M., et al. BLOOM: A 176B-Parameter Open-Access Multilingual Language Model. (2022). arXiv preprint arXiv:2211.05100 Schaekermann, M., Cai, C. J., Huang, A. E. y Sayres, R. en (2020), 1–13. Expert discussions improve comprehension of difficult cases in medical image assessment Procedimientos de la Conferencia 2020 de la CI sobre el factor humano en los sistemas informáticos 75. Sezgin, E., Sirrianni, J., Linwood, S. L., Operativización e implementación de modelos lingüísticos de inteligencia artificial pre-entrenados y grandes en el sistema de atención médica de los EE.UU.: perspectiva del Transformador Pre-entrenado generativo 3 (GPT-3) como modelo de servicio. E32875 (en inglés) y al . JMIR Medical Informatics 10, Shin, H.-C., Zhang, Y., Bakhturina, E., Puri, R., Patwary, M., Shoeybi, M. & Mani, R. BioMegatron: Modelo de lenguaje de dominio biomédico más grande. (2020). arXiv Preprint arXiv:2010.06060 Shoemaker, S. J., Wolf, M. S. & Brach, C. Desarrollo de la herramienta de evaluación de materiales para la educación del paciente (PEMAT): una nueva medida de comprensibilidad y actuabilidad para la información de pacientes impresos y audiovisuales. 395–403 (2014). Educación y asesoramiento al paciente 96, 78. Srivastava, A., Rastogi, A., Rao, A., Shoeb, A. A. M., Abid, A., Fisch, A., Brown, A. R., Santoro, A., Gupta, A., Garriga-Alonso, A., Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models. (2022). y al . arXiv preprint arXiv:2206.04615 79. Taylor, R., Kardas, M., Cucurull, G., Scialom, T., Hartshorn, A., Saravia, E., Poulton, A., Kerkez, V. & Stojnic, R. Galactica: A Large Language Model for Science. (2022) de los arXiv preprint arXiv:2211.09085 Thoppilan, R., De Freitas, D., Hall, J., Shazeer, N., Kulshreshtha, A., Cheng, H.-T., Jin, A., Bos, T., Baker, L., Du, Y., Lamda: Modelos de idiomas para aplicaciones de diálogo. (2022) de los y al . arXiv preprint arXiv:2201.08239 Tomašev, N., Harris, N., Baur, S., Mottram, A., Glorot, X., Rae, J. W., Zielinski, M., Askham, H., Saraiva, A., Magliulo, V., Uso del aprendizaje profundo para desarrollar modelos de riesgo continuo para la predicción de eventos adversos a partir de registros de salud electrónicos. 2765 a 2787 (2021). y al . Nature Protocols 16, Tran, D., Liu, J., Dusenberry, M. W., Phan, D., Collier, M., Ren, J., Han, K., Wang, Z., Mariet, Z., Hu, H., Plex: Towards reliability using pretrained large model extensions. (2022) de los y al . arXiv preprint arXiv:2207.07411 Tsatsaronis, G., Balikas, G., Malakasiotis, P., Partalas, I., Zschunke, M., Alvers, M. R., Weissenborn, D., Krithara, A., Petridis, S., Polychronopoulos, D., An overview of the BIOASQ large-scale biomedical semantic indexing and question answering competition. 1 a 28 (2015). y al . BMC Bioinformática 16, Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł. y Polosukhin, I. La atención es todo lo que necesitas. (2017) por Avances en los sistemas neuronales de procesamiento de información 30 Vyas, D. A., Eisenstein, L. G. y Jones, D. S. 2020. Oculto a la vista: reconsiderando el uso de la corrección racial en los algoritmos clínicos 86. Walsh, K. E., Harik, P., Mazor, K. M., Perfetto, D., Anatchkova, M., Biggins, C., Wagner, J., Schoettker, P. J., Firneno, C., Klugman, R., Measuring harm in healthcare: optimizing adverse event review. 436 (2017). y al . Medical care 55, 87. Wang, b., Min, S., Deng, X., Shen, J., Wu, Y., Zettlemoyer, L. & Sun, H. Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters. (2022) de los arXiv preprint arXiv:2212.10001 Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E. & Zhou, D. La autoconsistencia mejora el razonamiento de la cadena de pensamiento en los modelos de lenguaje. (2022). arXiv preprint arXiv:2203.11171 89. Wei, J., Bosma, M., Zhao, V. Y., Guu, K., Yu, A. W., Lester, B., Du, N., Dai, A. M. & Le, Q. V. Finetuned language models are zero-shot learners. El 2021). arXiv preprint arXiv:2109.01652 Wei, J., Tay, Y., Bommasani, R., Raffel, C., Zoph, B., Borgeaud, S., Yogatama, D., Bosma, M., Zhou, D., Metzler, D., Capacidades emergentes de los grandes modelos lingüísticos. (2022). y al . arXiv preprint arXiv:2206.07682 91. Wei, J., Wang, X., Schuurmans, D., Bosma, M., Chi, E., Le, Q. & Zhou, D. Chain of thought prompting elicits reasoning in large language models. (2022). arXiv preprint arXiv:2201.11903 Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.-S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A., Riesgos éticos y sociales de daño de los modelos lingüísticos. El 2021). y al . arXiv preprint arXiv:2112.04359 93. Williams, T., Szekendi, M., Pavkovic, S., Clevenger, W. & Cerese, J. The reliability of AHRQ Common Format Harm Scales in rating patient safety events. 52–59 (2015). Journal of patient safety 11, Yasunaga, M., Bosselut, A., Ren, H., Zhang, X., Manning, C. D., Liang, P. y Leskovec, J. Gráfico profundo de pre-entrenamiento de conocimiento de lenguaje bidireccional. (2022). arXiv preprint arXiv:2210.09338 Yasunaga, M., Leskovec, J. y Liang, P. LinkBERT: Pretraining Language Models with Document Links. (2022) de los arXiv preprint arXiv:2203.15827 Ye, S., Jang, J., Kim, D., Jo, Y. & Seo, M. La recuperación de la promesa suave mejora la generalización de tareas de cero disparos. (2022) de los arXiv preprint arXiv:2210.03029 Yim, J., Chopra, R., Spitz, T., Winkens, J., Obika, A., Kelly, C., Askham, H., Lukic, M., Huemer, J., Fasler, K., y al . Predecir la conversión a la degeneración macular relacionada con la edad húmeda utilizando el aprendizaje profundo. 892 a 899 (2020) Nature Medicine 26, Zhang, H., Lu, A. X., Abdalla, M., McDermott, M. y Ghassemi, M. en (2020), de 110 a 120. Palabras dolorosas: cuantificar los vicios en las incorporaciones de palabras contextuales clínicas Conferencia ACM sobre Salud, Inferencia y Aprendizaje Zhang, S., Roller, S., Goyal, N., Artetxe, M., Chen, M., Chen, S., Dewan, C., Diab, M., Li, X., Lin, X. V., OPT: Abre modelos de lenguaje de transformadores pre-entrenados. (2022). et al. arXiv preprint arXiv:2205.01068 Zhou, D., Schärli, N., Hou, L., Wei, J., Scales, N., Wang, X., Schuurmans, D., Bousquet, O., Le, Q. & Chi, E. El prompting de lo mínimo a lo más permite el razonamiento complejo en modelos de idiomas grandes. (2022) de los arXiv preprint arXiv:2205.10625 Anexo A.1 Hiperparámetros y selección de modelos Realizamos el ajuste de instrucciones en Flan-PaLM 540B con una longitud de prompt suave de 100 para producir Med-PaLM. congelamos el resto del modelo, y la dimensión de incorporación es 18432 como en Chowdhery [ El ], por lo que esto resultó en 1.84M parámetros entrenables. inicializamos aleatoriamente los parámetros aprendibles para ser uniformes sobre [-0.5, 0.5], siguiendo a Lester [ El ]. buscamos grid sobre las tasas de aprendizaje en 0.001, 0.003, 0.01 con AdamW optimizer [ ] y un factor de decadencia de peso en . y 0*. Usamos un tamaño de lote de 32 en todas las carreras. nos entrenamos para 200 pasos. y al . 14 y al . 45 55 {0 001 00001 Realizamos la selección de modelos pidiendo a un clínico que clasificara las respuestas en varios ejemplos de HealthSearchQA, MedicationQA y LiveQA (no utilizados para entrenamiento o evaluación humana) y elegimos el punto de control que funcionó mejor. Hicimos esta validación manual en lugar de calcular algunas métricas automatizadas en un conjunto de validación, por ejemplo, la probabilidad de registro negativo en pares de detenidos (pregunta, respuesta), ya que en el gran espacio de salida de las generaciones de lenguaje natural, estas métricas pueden no correlacionar bien con los juicios humanos de los resultados del modelo real. A.2 Variación de los resultados Debido a la repetición de decodificaciones estocásticas utilizando la toma de muestras de temperatura, hay alguna variación esperada en los resultados con autoconsistencia. Si bien es poco práctico ejecutar múltiples experimentos para todos nuestros modelos en todos los conjuntos de datos utilizados en este estudio, repetimos las evaluaciones en el conjunto de datos MedQA 4 veces con nuestro modelo de mejor rendimiento. La variación observada es 0,078 lo que sugiere un alto grado de consistencia en los resultados. A.3 Ablaciones MMLU Hemos realizado ablaciones comparando el modelo Flan-PaLM 540B utilizando las estrategias de incitación de pocos disparos, cadena de pensamiento (CoT) y autoconsistencia en temas clínicos de MMLU [ ]. The results are summarized in Section Observamos que mientras que para la mayoría de los temas, el Flan-PaLM 540B con autoconsistencia obtiene los mejores resultados, hay un par de temas en los que lo estándar de pocos disparos o el llamado CoT es mejor. 29 A3 A.4 Escala de escalas Proporcionamos parcelas de escalado comparando los modelos PaLM y Flan-PaLM utilizando la prompting de pocos disparos en los conjuntos de datos MedQA y MedMCQA en la Figura y otra trama de escala comparando Flan-PaLM con la prompting de pocos disparos y Flan-PaLM con la prompting de autoconsistencia en la Figura Observamos un fuerte rendimiento de escala y vemos un aumento más abrupto en el rendimiento a medida que aumentamos el tamaño del modelo LLM. A1 A.2 El Tarjeta modelo A.5 para Med-PaLM Med-PaLM utiliza el mismo tipo de sistema y los mismos marcos de implementación que Flan-PaLM [ ]. Mostramos partes de la tarjeta modelo [ ] específico para Med-PaLM en Mesa . 15 59 A.2 El A.6 Med-PaLM multiple-choice evaluation Med-PaLM fue entrenado utilizando el ajuste de instrucciones para mejorar la calidad de las generaciones de formas largas producidas por Flan-PaLM. Sin embargo, dada la generalidad del ajuste de instrucciones, la técnica también se puede aplicar a los conjuntos de datos de elección múltiple. En un experimento preliminar, entrenamos Flan-PaLM utilizando el ajuste de instrucciones en MedQA, MedMCQA, PubMedQA y MMLU (temas clínicos). Los ejemplares fueron escritos por un panel de cinco clínicos cualificados. Cada ejemplo de entrenamiento contenía instrucciones específicas del conjunto de datos y 5 ejemplos de pocos disparos. El modelo resultante alcanzó una precisión del 67,2% en MedQA utilizando cadena de pensamiento y autoconsistencia, aproximadamente coincidiendo con el resultado correspondiente con Flan-PaLM i Section Planificamos extender este resultado inicial en el trabajo futuro. 4 A.7 Resultados detallados de la evaluación humana Los resultados detallados de la evaluación humana con intervalos de confianza se resumen en la Tabla - Mesa . A3 A. 12 A.8 Ejemplos de disparos rápidos Proporcionamos ejemplos de algunas promesas de pocos disparos utilizadas en el estudio en la Tabla La mesa La mesa En el BLE y la mesa . A. 13 A. 14 A. 15 A. 16 A. 17 A.9 Ejemplos rápidos de cadena de pensamiento We provided examples of some of the chain-of-thought prompts used in this study in Table , Table En el BLE y mesa . A. 18 A19 A. 20 años A. 21 Este artículo está disponible en archivo bajo la licencia CC by 4.0 Deed (Attribution 4.0 International). Este artículo está disponible en archivo bajo la licencia CC by 4.0 Deed (Attribution 4.0 International).