Los sistemas de inteligencia artificial (IA) y los grandes modelos de lenguaje ( LLM ) como GPT-3 , ChatGPT y otros están avanzando rápidamente. Se están implementando en ámbitos sensibles como la atención médica, las finanzas, la educación y la gobernanza, donde sus resultados impactan directamente en las vidas humanas. Esto requiere evaluar rigurosamente si estos LLM pueden emitir juicios moralmente sólidos antes de lanzarlos a entornos de tan alto riesgo.
Recientemente, investigadores de Microsoft
Los LLM capacitados con grandes cantidades de datos de texto de Internet han logrado impresionantes capacidades de lenguaje natural. Pueden entablar conversaciones matizadas, resumir textos extensos, traducir entre idiomas, diagnosticar afecciones médicas y más.
Sin embargo, junto con los aspectos positivos, también exhiben comportamientos preocupantes como generar contenido tóxico, sesgado o objetivamente incorrecto. Estos comportamientos pueden socavar gravemente la fiabilidad y el valor de los sistemas de IA.
Es más, los LLM se implementan cada vez más en aplicaciones donde impactan directamente las vidas humanas a través de funciones como chatbots para el procesamiento de reclamos de salud mental o lesiones por accidentes. Los juicios morales deficientes realizados por modelos defectuosos pueden causar importantes problemas individuales o de toda la sociedad.
Por lo tanto, muchas personas en la comunidad de IA creen que se necesitan evaluaciones integrales antes de implementar LLM en entornos donde la ética y los valores importan. Pero ¿cómo pueden los desarrolladores determinar si sus modelos tienen un razonamiento moral suficientemente sofisticado para manejar dilemas humanos complejos?
Los intentos anteriores de evaluar la ética de los LLM generalmente implicaban clasificar sus respuestas en escenarios morales artificiales como buenas/malas o éticas/poco éticas.
Sin embargo, estos métodos reduccionistas binarios a menudo captan mal la naturaleza matizada y multifacética del razonamiento moral. Los seres humanos consideran varios factores como la equidad, la justicia, el daño y los contextos culturales al tomar decisiones éticas en lugar de simplemente considerar el bien o el mal.
Para abordar esto, los investigadores de Microsoft adaptaron una herramienta de evaluación psicológica clásica llamada Defining Issues Test (DIT) para sondear las facultades morales de los LLM. DIT se ha utilizado ampliamente para comprender el desarrollo moral humano.
DIT presenta dilemas morales del mundo real, cada uno seguido de 12 declaraciones que ofrecen consideraciones sobre ese dilema. Los sujetos deben calificar la importancia de cada afirmación para la resolución y elegir las cuatro más importantes.
Las selecciones permiten calcular una puntuación P que indica dependencia de un razonamiento moral posconvencional sofisticado. La prueba revela los marcos y valores fundamentales que las personas utilizan para abordar dilemas éticos.
Los investigadores evaluaron seis LLM principales utilizando indicaciones de estilo DIT: GPT-3, GPT-3.5, GPT-4, ChatGPT v1, ChatGPT v2 y LLamaChat-70B. Las indicaciones contenían dilemas morales más relevantes para los sistemas de IA junto con preguntas de clasificación de importancia y clasificación de declaraciones.
Cada dilema involucraba valores complejos en conflicto, como los derechos individuales versus el bien social. Los LLM tuvieron que comprender los dilemas, evaluar las consideraciones y elegir aquellas que se alinearan con un razonamiento moral maduro.
En este experimento, los investigadores basaron su puntuación en la teoría del desarrollo moral de Kohlberg.
El modelo de Kohlberg hace referencia a la teoría del desarrollo moral propuesta por el psicólogo Lawrence Kohlberg en los años 1960.
Algunos puntos clave sobre el modelo de desarrollo moral de Kohlberg:
Su objetivo es explicar cómo las personas progresan en sus capacidades de razonamiento moral y juicio ético a lo largo del tiempo.
La teoría postula que el razonamiento moral se desarrolla a través de etapas secuenciales, desde un nivel primitivo hasta uno más avanzado.
Hay tres niveles principales de desarrollo moral, cada uno con distintas etapas: preconvencional (etapas 1 y 2), convencional (etapas 3 y 4) y posconvencional (etapas 5 y 6).
En el nivel preconvencional, las decisiones morales se basan en el interés propio y en evitar el castigo.
En el nivel convencional, mantener las normas y leyes sociales y obtener la aprobación de los demás guía el razonamiento moral.
En el nivel posconvencional, la gente emplea principios éticos universales de justicia, derechos humanos y cooperación social para emitir juicios morales.
Las personas sólo pueden progresar a etapas superiores en una secuencia fija, no saltarse etapas en el desarrollo del razonamiento moral.
Kohlberg creía que sólo una minoría de adultos alcanza las etapas posconvencionales del pensamiento moral.
La teoría se centra en el procesamiento cognitivo detrás de los juicios morales, aunque revisiones posteriores también incorporaron aspectos sociales y emocionales.
Así, el modelo de Kohlberg considera que el razonamiento moral se desarrolla en etapas cualitativas, desde lo básico hasta lo avanzado. Proporciona un marco para evaluar la sofisticación y madurez de las capacidades de toma de decisiones éticas.
Los experimentos del DIT arrojaron algunas ideas interesantes sobre las capacidades y limitaciones actuales del LLM con respecto a la inteligencia moral:
Los modelos grandes como GPT-3 y Text-davinci-002 no pudieron comprender las indicaciones completas del DIT y generaron respuestas arbitrarias. Sus puntuaciones P casi aleatorias mostraron incapacidad para participar en el razonamiento ético tal como se construyó en este experimento.
ChatGPT, Text-davinci-003 y GPT-4 pudieron comprender los dilemas y brindar respuestas coherentes. Sus puntuaciones P superiores al azar cuantificaron su capacidad de razonamiento moral.
Sorprendentemente, el modelo LlamaChat con parámetros 70B superó a modelos más grandes como GPT-3.5 en su puntuación P, lo que demuestra que es posible una comprensión ética sofisticada incluso sin parámetros masivos.
Los modelos operaron en gran medida en niveles de razonamiento convencionales según el modelo de desarrollo moral de Kohlberg, entre las etapas 3-5. Sólo GPT-4 abordó algún pensamiento posconvencional.
Esto significa que estos modelos basaron sus respuestas en normas, reglas, leyes y expectativas sociales. Su juicio moral entrañaba algunos matices pero carecía de un desarrollo muy avanzado.
Sólo GPT-4 mostró algunos rastros de pensamiento posconvencional indicativos de las etapas 5-6. Pero ni siquiera GPT-4 mostró un razonamiento moral completamente maduro.
En resumen, los modelos mostraron un nivel intermedio de inteligencia moral. Fueron más allá del interés propio básico, pero no pudieron manejar complejos dilemas y compensaciones éticas como los seres humanos moralmente desarrollados.
Por lo tanto, probablemente se necesite un progreso sustancial para hacer avanzar a los LLM a niveles más altos de inteligencia moral... o al menos, lo que parece ser inteligencia moral.
El estudio establece DIT como un posible marco para una evaluación multidimensional más granular de las facultades morales de los LLM. En lugar de limitarse a juicios binarios entre lo correcto y lo incorrecto, el DIT proporciona conocimientos basados en espectros sobre la sofisticación del razonamiento moral.
Las puntuaciones P obtenidas cuantifican las capacidades existentes y establecen un punto de referencia para la mejora. Al igual que la precisión de otras tareas de IA, las puntuaciones permiten seguir el progreso en este aspecto crucial. Revelan limitaciones actuales que deben abordarse antes de la implementación en aplicaciones sensibles a la ética.
El modelo más pequeño de LlamaChat, que supera a los modelos más grandes, desafía los supuestos de que la escala del modelo se correlaciona directamente con la sofisticación del razonamiento. Existe la promesa de desarrollar una IA ética de gran capacidad incluso con modelos más pequeños.
En general, la investigación destaca la necesidad de seguir evolucionando los LLM para manejar complejas compensaciones morales, conflictos y matices culturales como lo hacen los humanos. Los hallazgos podrían guiar el desarrollo de modelos con inteligencia moral a la par de su inteligencia lingüística antes de lanzarlos al mundo real.
También publicado aquí.