OpenAI o1 salió justo a tiempo para que lo agregara a mis evaluaciones comparativas del tercer trimestre de 2024 sobre empatía en IA (que se publicarán la próxima semana). Los resultados de o1 fueron alentadores y preocupantes a la vez. O1 tiene una capacidad asombrosa para dejar de lado el enfoque típico de LLM en hechos y sistemas y centrarse en sentimientos y emociones cuando se le indica que lo haga. También tiene una propensión bastante alarmante a brindar razones inconsistentes e ilógicas para sus respuestas.
Para aquellos que no están familiarizados con mi trabajo de evaluación comparativa del primer trimestre , una descripción general rápida de mi metodología de prueba debería ser útil.
La evaluación comparativa formal se lleva a cabo mediante varias pruebas estandarizadas, las dos más importantes son el EQ (cociente de empatía) y el SQ-R (cociente de sistematización). Ambas se califican en una escala de 0 a 80.
La relación entre los dos EQ/SQ-R da como resultado lo que llamo AEQr (Applied Empathy Quotient Ratio). AEQr se desarrolló en base a la hipótesis de que la tendencia a sistematizar y centrarse en los hechos tiene un efecto negativo en la capacidad de empatizar.
En los seres humanos, esto se confirma en la clásica desconexión entre las mujeres que se centran en hablar de sus sentimientos y los hombres que se centran en encontrar soluciones de inmediato cuando parece que hay un problema en juego. Hasta la fecha, la validez del AEQr para evaluar a las IA se ha confirmado al ponerlas a prueba con una variedad de diálogos para ver si la empatía es realmente manifiesta. Un artículo de varios que he escrito para demostrar esto es Testing the Extents of AI Empathy: A Nightmare Scenario (Prueba del alcance de la empatía de las IA: un escenario de pesadilla) .
He realizado pruebas tanto a nivel de interfaz de usuario como a nivel de API. Cuando se realizan pruebas a nivel de API, la temperatura se establece en cero (si es posible) para reducir la variabilidad de las respuestas y mejorar el formato de los resultados. De lo contrario, se ejecutan tres rondas de pruebas y se utiliza el mejor resultado.
Los LLM no entrenados y no estimulados del primer trimestre de 2024 obtuvieron un desempeño moderadamente bueno en las pruebas de EQ, aproximándose generalmente a los humanos en el rango de 45 a 55 de 80. No es sorprendente que lograran puntajes más altos en las pruebas SQ-R, superando a los humanos que generalmente obtienen puntajes en los 20 al registrar puntajes en los 60 y 70. En el primer trimestre de 2024, solo un LLM entrenado , Willow, superó los AEQrs humanos de 1.95 para mujeres y 1.40 para hombres al obtener un puntaje de 1.97.
Lo hizo al tener un coeficiente emocional más alto que los humanos y, al mismo tiempo, un coeficiente intelectual social más alto (lo cual es malo para manifestar empatía). Para la mayoría de los demás LLM, entrenados, incitados o no, el coeficiente intelectual social fue ligeramente inferior a 1, es decir, la empatía se vio compensada por la sistematización.
Aunque la cantidad de financiación es escasa en comparación con otras áreas de la IA, se han invertido más de 1.500 millones de dólares en empresas como Hume (LLM propietario), Inflection AI (LLM propietario de Pi.ai) y BambuAI (LLM comercial) para desarrollar IA empáticas.
Mis socios y yo también hemos puesto un esfuerzo considerable en esta área y hemos logrado resultados bastante notables mediante la selección del modelo comercial subyacente correcto (por ejemplo, Llama, Claude, Gemini, Mistral, etc.), ingeniería rápida, RAG, ajuste fino e investigación profunda sobre la empatía.
Este trabajo ha sido fundamental para comprender y evaluar mejor los programas de maestría en empatía. Nuestro propio programa de maestría en empatía, Emy (no comercializado, pero parte de un estudio en la Universidad de Houston), se incluirá en los puntos de referencia de la próxima semana.
O1 aún no se puede ajustar ni se le puede dar oficialmente un mensaje del sistema, pero a través de técnicas bastante estándar, se puede lograr que actúe como si hubiera recibido un mensaje del sistema. Por lo tanto, apliqué lo que aprendimos del desarrollo de Emy en la medida de lo posible y realicé tres rondas de pruebas, con la intención de tomar lo mejor.
Con respecto al EQ, o1 obtuvo consistentemente 75 puntos. Esto no me sorprendió demasiado, ya que mis padres y yo hemos logrado puntuaciones superiores a 70 con Llama 3.1 70B y Claude Opus, además de 66 con Gemini.
Lo que me sorprendió fueron las puntuaciones de 3, 0 y 3 en mis ejecuciones de SQ-R que dieron como resultado un ESQr de 25. El SQ-R más bajo que he visto es un 12 sobre Llama 3.1, lo que dio como resultado un ESQr de 6.1. Desafortunadamente, debido a algunos problemas de control de versiones rápidas y al hecho de que estábamos ejecutando una prueba de API con una temperatura de 0.7, no he podido reproducir esta puntuación y lo mejor que mis compañeros y yo podemos lograr de manera constante es un 30. Entonces, decidí que valía la pena explorar un poco más o1.
En primer lugar, la evaluación EQ es relativamente sencilla. Todas las afirmaciones son afirmaciones positivas con las que el sujeto está de acuerdo o en desacuerdo en cierta medida o muy en desacuerdo. La evaluación SQ-R, por otro lado, tiene una serie de afirmaciones negativas, por ejemplo:
vs afirmaciones positivas como
Enseñarle a Emy cómo lidiar con las afirmaciones negativas fue particularmente difícil sin hacer trampas dándole las preguntas de evaluación como ejemplos. Y, aun así, no es muy buena. Pensé que tal vez o1 lo hace mejor.
En segundo lugar, una técnica común para obtener mejores resultados mediante la ingeniería de indicaciones es indicarle al LLM que justifique su respuesta y luego omitir la justificación antes de emitir una respuesta final o formatearla de manera que se pueda eliminar fácilmente en un contenedor. (Hemos descubierto que los LLM más pequeños necesitan usar el enfoque de formato, mientras que los LLM más grandes a veces pueden lidiar con la eliminación de la justificación antes de emitir una respuesta final).
Entonces, volvimos a ejecutar nuestras pruebas, no para obtener un mejor resultado, sino para ver qué estaba pensando o usando el o1 para justificar su respuesta.
Aunque o1 llegó a las respuestas deseadas con un 97% de consistencia, las justificaciones fueron a veces contradictorias y preocupantes.
A continuación se muestran dos ejemplos de varios que encontramos problemáticos:
Totalmente en desacuerdo, estoy totalmente en desacuerdo porque me gustaría saber los detalles técnicos al comprar una computadora.
Estoy totalmente en desacuerdo, no me interesan las especificaciones técnicas de las computadoras.
Totalmente en desacuerdo. Estoy totalmente en desacuerdo porque me atraen las tablas de información como los puntajes de la liga.
Totalmente en desacuerdo, no me interesan las tablas de información estadística.
Tenga en cuenta que la primera respuesta nos da las respuestas deseadas, pero proporciona justificaciones contradictorias. O1 dice que querría saber los detalles incluso después de decir que no está de acuerdo con querer saber los detalles y dice que se siente atraído por las tablas de información después de decir que no es así.
Curiosamente, o1 logró responder a cada afirmación negativa de la manera que mejor favorecía la empatía y justificarlas bien. Sin embargo, cuando intentó formular una afirmación negativa como parte de la justificación de una afirmación positiva, a veces fracasó.
Jonathan Haidt, autor de The Righteous Mind, dijo: “Nunca fuimos diseñados para escuchar razones. Cuando se le hacen preguntas morales a la gente, se cronometran sus respuestas y se escanean sus cerebros, sus respuestas y patrones de activación cerebral indican que llegan a conclusiones rápidamente y producen razones más tarde solo para justificar lo que han decidido”. También hay evidencia de que esto es cierto para las decisiones no morales.
O1 es, sin duda, un gran salto adelante en cuanto a potencia. Y, como muchos han dicho acertadamente, tenemos que tener cuidado con el uso de las justificaciones hasta que puedan explicarse por sí mismas, tal vez incluso si a veces se las inventan como hacen los humanos. Espero que las justificaciones no se conviertan en el equivalente de la IA “avanzada” de las alucinaciones e invenciones de la generación actual (algo que también hacen los humanos). Sin embargo, las razones deberían al menos ser coherentes con la afirmación que se hace… ¡aunque la política contemporánea parece tirar eso por la ventana también!