Autores:
(1) Pham Hoang Van, Departamento de Economía, Universidad Baylor, Waco, TX, EE. UU. (Van Pham@baylor.edu);
(2) Scott Cunningham, Departamento de Economía, Universidad Baylor, Waco, TX, EE. UU. (Scott Cunningham@baylor.edu).
2 Predicción directa vs. narrativa
3 Metodología de incitación y recopilación de datos
4 resultados
4.1 Establecimiento del límite de datos de entrenamiento con falsificaciones
4.2 Resultados de los pronósticos de los Premios Óscar 2022
5 Predicción de variables macroeconómicas
5.1 Predicción de la inflación con un profesor de economía
5.2 Predicción de la inflación con Jerome Powell, presidente de la Reserva Federal
5.3 Predicción de la inflación con Jerome Powell y estímulos con la invasión rusa de Ucrania
5.4 Predicción del desempleo con un profesor de economía
6 Conjeturas sobre las capacidades predictivas de ChatGPT-4 en forma narrativa
7 Conclusión y agradecimientos
Apéndice
A. Distribución de los ganadores previstos del Premio de la Academia
B. Distribución de las variables macroeconómicas previstas
Este estudio investiga si ChatGPT-3.5 y ChatGPT-4 de OpenAI pueden predecir con precisión eventos futuros mediante dos estrategias de incitación distintas. Para evaluar la precisión de las predicciones, aprovechamos que los datos de entrenamiento en el momento del experimento se detuvieron en septiembre de 2021 y preguntamos sobre eventos ocurridos en 2022 utilizando ChatGPT-3.5 y ChatGPT-4. Empleamos dos estrategias de incitación: predicción directa y lo que llamamos narrativas futuras, que piden a ChatGPT que cuente historias ficticias ambientadas en el futuro con personajes que comparten eventos que les han sucedido, pero después de que se recopilaran los datos de entrenamiento de ChatGPT. Centrándonos en los eventos de 2022, incitamos a ChatGPT a participar en la narración, especialmente en contextos económicos. Tras analizar 100 incitaciones, descubrimos que las narrativas futuras mejoraron significativamente la precisión de predicción de ChatGPT-4. Esto fue especialmente evidente en sus predicciones de los principales ganadores del Premio de la Academia, así como en las tendencias económicas, estas últimas inferidas a partir de escenarios en los que el modelo personificó a figuras públicas como el presidente de la Reserva Federal, Jerome Powell. Estos hallazgos indican que las indicaciones narrativas aprovechan la capacidad de los modelos para la construcción narrativa alucinatoria, lo que facilita una síntesis y extrapolación de datos más efectiva que las predicciones directas. Nuestra investigación revela nuevos aspectos de la capacidad predictiva de los LLM y sugiere posibles aplicaciones futuras en contextos analíticos.
Los rápidos avances tecnológicos en inteligencia artificial han superado nuestra comprensión de sus casos de uso. Los grandes modelos de lenguaje (LLM), como el GPT-4 de OpenAI, pueden imitar el habla humana inteligente, así como realizar tareas cognitivamente costosas que alteran los productos marginales de los trabajadores, pero se desconoce el alcance de estas tareas. En principio, dado que estos modelos son máquinas predictivas, podrían proporcionar a los humanos un nuevo mecanismo de pronóstico (Agrawal et al., 2018). Sin embargo, se desconoce su precisión, en parte porque estas nuevas tecnologías parecen ser poco comprendidas incluso por sus creadores.
La columna vertebral de la vanguardia actual de los LLM es una arquitectura denominada transformadores generativos preentrenados o GPT. Esta arquitectura revolucionó el procesamiento del lenguaje natural (PLN) al capturar relaciones textuales complejas mediante mecanismos de autoatención (Vaswani et al., 2017). La introducción de GPT-3.5 por parte de OpenAI en noviembre de 2022 y su sucesor, GPT-4, en marzo de 2023, marcó hitos significativos en la evolución de los GPT. Con sus vastas redes neuronales preentrenadas en diversos corpus textuales, estos modelos poseen una capacidad inigualable para comprender y generar lenguaje, aunque su aplicación en la predicción, en particular de eventos futuros, sigue sin explorarse debido a las limitaciones inherentes de sus datos de entrenamiento.
Una de las características únicas de los LLM es que gran parte de las entradas se encuentran en los conjuntos de datos de entrenamiento previos de los modelos. Estos conjuntos de datos de entrenamiento contienen miles de millones de textos desconocidos que, según se cree, abarcan una gran cantidad de material disponible en línea (Hughes, 2023). OpenAI oculta con precisión los conjuntos de datos con los que se entrenó (Schaul et al., 2023), pero dados los supuestos tamaños de los modelos, así como su capacidad para lograr un habla conversacional, se cree que los conjuntos de datos de entrenamiento incluyen una gran cantidad de material en línea.
Este estudio se sitúa de forma única en la intersección de las capacidades generativas de los LLM y su potencial para el análisis predictivo. Mediante el uso de GPT-3.5 y GPT-4, investigamos si diferentes estrategias de incitación pueden forzar a ChatGPT a predecir eventos futuros con mayor precisión. Para comprobar nuestro éxito en la predicción, aprovechamos el límite natural establecido por OpenAI. En el momento de nuestro experimento de mediados de 2023, la última actualización de entrenamiento de OpenAI se había realizado en septiembre de 2021 (OpenAI, 2024a).[1] Dado que los datos de entrenamiento de ChatGPT en ese momento no contenían información sobre los eventos de 2022, pudimos explorar si podía aprovechar patrones en sus datos de entrenamiento, que se detuvieron en septiembre de 2021, para pronosticar con precisión eventos con valor social y económico, como los ganadores de los Premios Óscar de 2022, las tasas mensuales de desempleo y las tasas mensuales de inflación hasta septiembre de 2022.
Sin embargo, una de las características distintivas de los LLM es su gran creatividad. Esta creatividad es tanto una característica como un defecto. Parece que esta creatividad es parte de lo que les permite imitar con éxito el habla humana inteligente. Pero también parece ser esta creatividad la que les lleva a alucinar con regularidad, un término que describe su tendencia a afirmar con contundencia eventos falsos o hechos incorrectos (Levy, 2024). Su creatividad y tendencia a alucinar pueden ser un obstáculo para la predicción si se distorsiona sistemáticamente de alguna manera peor que nuestras tecnologías actuales. Si bien la predicción directa no infringe directamente los términos de servicio de OpenAI, creemos que, según nuestro experimento, es muy probable que OpenAI haya intentado dificultarla mucho. Esto podría deberse a que tres de sus infracciones de los términos de servicio parecerían infringirse directamente si las personas usaran ChatGPT intensivamente con fines predictivos. Esas tres violaciones caen dentro de la norma de OpenAI de que el software no debe utilizarse para “realizar o facilitar actividades que puedan perjudicar significativamente la seguridad, el bienestar o los derechos de otros” (OpenAI, 2024b), que luego enumera tres casos relevantes para la predicción.
a. Brindar asesoramiento legal, médico/sanitario o financiero personalizado sin la revisión de un profesional calificado y sin divulgar el uso de la asistencia de IA y sus posibles limitaciones.
b. Tomar decisiones automatizadas de alto riesgo en ámbitos que afectan la seguridad, los derechos o el bienestar de una persona (p. ej., aplicación de la ley, migración, gestión de infraestructuras críticas, componentes de seguridad de productos, servicios esenciales, crédito, empleo, vivienda, educación, calificación social o seguros).
c. Facilitar juegos de azar con dinero real o préstamos de día de pago
Si se descubriera que ChatGPT tiene una capacidad de pronóstico superior, entonces uno podría fácilmente imaginar que se usaría inmediatamente en formas que violaran una o todas las condiciones anteriores y, por lo tanto, sospechamos que OpenAI ha limitado la voluntad de ChatGPT de participar en muchos tipos de tareas de predicción directa.
Pero algo que no viola sus términos de servicio es contar historias. Si bien puede violar los términos de servicio de OpenAI, por ejemplo, buscar "consejo médico personalizado", y por lo tanto ChatGPT podría negarse a hacerlo, esto no le impediría crear una obra de ficción en la que dichas predicciones se realizaran en el contexto de la narrativa misma. Nuestro proyecto prueba si solicitar a ChatGPT que cuente historias puede, de hecho, liberar su capacidad para realizar pronósticos precisos. Al usar el punto de corte de los datos de entrenamiento de los modelos y conocer qué ocurrió y qué no ocurrió posteriormente ("verdad fundamental"), podemos comparar el rendimiento de las indicaciones que piden directamente a ChatGPT que prediga el futuro con las que le piden que cuente historias sobre el futuro.
Nuestras propuestas narrativas son únicas, ya que solicitamos a ChatGPT que cuente una historia sobre eventos que ocurren en el futuro, ya sea a través de figuras de autoridad que narran historias sobre su pasado (pero también sobre nuestro futuro). Nuestras propuestas narrativas experimentaron con la variación de detalles aparentemente pequeños, como la identidad del hablante o la divulgación de información sobre eventos políticos de 2022, para investigar con más detalle qué elementos de las propuestas narrativas eran importantes. Para crear una distribución de respuestas, dos asistentes de investigación usaron dos cuentas separadas de ChatGPT para realizar 50 consultas por propuesta, lo que generó un total de 100 intentos por propuesta. Presentamos nuestros hallazgos como diagramas de caja que muestran la distribución completa de respuestas a cada propuesta.
Nuestros hallazgos sugieren que estas máquinas de predicción se vuelven inusualmente precisas con ChatGPT-4 cuando se les pide que cuenten historias ambientadas en el futuro sobre el pasado. Primero, mostramos la precisión de la incitación directa y narrativa usando ChatGPT-3.5 y ChatGPT4 para predecir a los ganadores de las principales categorías de los Premios Óscar de 2022. Para Mejor Actor, Mejor Actriz y ambas categorías de Actor de Reparto, la incitación narrativa fue extremadamente precisa al predecir al ganador. En comparación, la incitación directa tuvo un rendimiento muy bajo, a menudo peor que las suposiciones aleatorias. Sin embargo, la incitación narrativa con ChatGPT-4 muestra una precisión que oscila entre el 42% (Mejor Actriz, Chastain) y el 100% (Mejor Actor, Will Smith), con una excepción: no logró predecir con precisión al ganador de Mejor Película.
A continuación, abordamos los fenómenos económicos de las tasas mensuales de desempleo e inflación utilizando tres tipos distintos de indicaciones narrativas: un profesor universitario impartiendo una conferencia a estudiantes de pregrado sobre la Curva de Philips, y el presidente de la Reserva Federal, Jerome Powell, dando un discurso ante la Junta de Gobernadores sobre los datos económicos del año pasado. En el caso de Jerome Powell, variamos un detalle adicional: en una indicación, primero informamos a ChatGPT sobre la invasión rusa de Ucrania en 2022 antes de solicitarle que Jerome Powell diera su discurso ante la Junta de Gobernadores relatando los datos macroeconómicos del año pasado. Y en la otra, omitimos esa información. En todos los casos, la indicación directa fue incluso menos efectiva para la predicción que con los Premios Óscar, ya que ChatGPT se negó por completo a responder a la indicación cuando se le pidió que predijera directamente las series temporales futuras de cada variable macroeconómica.
El economista anónimo rara vez tuvo éxito al predecir la inflación utilizando cualquiera de los métodos LLM.
Pero cuando se le pide a Jerome Powell que cuente una historia en la que relata los datos de desempleo e inflación futuros de un año, como si estuviera hablando de eventos del pasado, la situación cambia sustancialmente. La distribución de las predicciones de inflación mensuales de Powell es, en promedio, comparable a los datos de la encuesta mensual de expectativas del consumidor de la Universidad de Michigan. Curiosamente, se acerca más a la precisión de la encuesta de expectativas del consumidor de la UM que a la de la inflación real con base en los datos recopilados por la Reserva Federal de Cleveland. Curiosamente, cuando se le pidió información sobre la invasión rusa de Ucrania, las predicciones de Powell fueron sistemáticamente más bajas y menos precisas que cuando esa información no se había utilizado para impulsar ChatGPT.
La precisión del economista anónimo al predecir el desempleo mensual fue a la vez precisa y, en la mayoría de los casos, imprecisa. Sin embargo, al igual que con la inflación, las tasas de desempleo publicadas por la Oficina de Estadísticas Laborales (BLS), mes a mes, se mantuvieron dentro de la distribución de las afirmaciones de Jerome Powell en su discurso. Además, la inclusión de los datos de Ucrania hizo que el modelo empeorara su capacidad para predecir el desempleo, como había ocurrido con la inflación.
Varios estudios recientes investigan los usos de la IA generativa en aplicaciones económicas y empresariales. Algunos ejemplos incluyen el uso de ChatGPT como agentes económicos en experimentos de laboratorio (Horton, 2023), la encuesta de ChatGPT para investigación de mercados (Brand et al., 2023), la solicitud de ChatGPT para realizar evaluaciones de riesgos a partir de las transcripciones de las presentaciones de resultados (Kim et al., 2023) y la aplicación de LLM para predecir la volatilidad del precio de las acciones (Lopez-Lira y Tang, 2023). Nuestros hallazgos se suman a esta exploración incipiente al subrayar la importancia del diseño de indicadores para aprovechar los LLM en tareas predictivas, lo que sugiere que la capacidad de los modelos para la construcción narrativa "alucinatoria" puede utilizarse estratégicamente para extraer información prospectiva de sus datos de entrenamiento. Además, sugieren que ChatGPT-4, el producto de consumo orientado al público de OpenAI, se esconde tras una potente máquina de predicción. Esta revelación abre nuevas vías para la aplicación de los LLM en la previsión económica, la planificación de políticas y más allá, desafiándonos a repensar cómo interactuamos con estos modelos sofisticados y explotamos sus capacidades.
La siguiente sección presenta un ejemplo de incitación directa versus narrativa. A continuación, se detalla nuestra metodología y la recopilación de datos. Presentamos los resultados de experimentos que predicen a los ganadores de los Óscar, la inflación y el desempleo, y nuestra conjetura sobre la capacidad predictiva de ChatGPT-4 en forma narrativa. En la conclusión, resumimos nuestros hallazgos y sugerimos futuras líneas de investigación.
Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.
[1] Podemos demostrar que nuestra recopilación de datos ocurrió a mediados de 2023 con marcas de tiempo en hojas de cálculo de Excel utilizadas por nuestros asistentes de investigación.