Autores: Yew Ken Chia, Ruochen Zhao, Xingxuan Li, Bosheng Ding, Lidong Bing
Recientemente, los modelos conversacionales de IA, como ChatGPT [1] de OpenAI, han capturado la imaginación del público con la capacidad de generar contenido escrito de alta calidad, mantener conversaciones similares a las humanas, responder preguntas objetivas y más.
Armados con tal potencial, Microsoft y Google han anunciado nuevos servicios [2] que los combinan con los motores de búsqueda tradicionales.
La nueva ola de motores de búsqueda impulsados por conversaciones tiene el potencial de responder preguntas complejas de forma natural, resumir los resultados de búsqueda e incluso servir como una herramienta creativa.
Sin embargo, al hacerlo, las empresas de tecnología ahora enfrentan un mayor desafío ético para garantizar que sus modelos no engañen a los usuarios con respuestas falsas, infundadas o contradictorias. Por lo tanto, surge naturalmente la pregunta: ¿Pueden los modelos similares a ChatGPT garantizar la precisión de los hechos?
En este artículo, descubrimos varios errores fácticos en el nuevo Bing [9] de Microsoft y Bard [3] de Google que sugieren que actualmente no pueden hacerlo.
Desafortunadamente, las falsas expectativas pueden conducir a resultados desastrosos. Casi al mismo tiempo que el nuevo anuncio de Bing de Microsoft, Google anunció apresuradamente un nuevo servicio de inteligencia artificial conversacional llamado Bard.
A pesar de la exageración, las expectativas se hicieron añicos rápidamente cuando Bard cometió un error fáctico en el video promocional [14], lo que eventualmente derrumbó el precio de las acciones de Google [4] en casi un 8% y eliminó $ 100 mil millones de su valor de mercado.
Por otro lado, ha habido menos escrutinio con respecto al nuevo Bing de Microsoft. En el video de demostración [8], encontramos que el nuevo Bing recomendó a un cantante de rock como uno de los mejores poetas, fabricó fechas de nacimiento y muerte e incluso inventó un resumen completo de informes fiscales.
A pesar de las advertencias [9] de que las respuestas del nuevo Bing pueden no ser siempre fácticas, los sentimientos demasiado optimistas pueden conducir inevitablemente a la desilusión.
Por lo tanto, nuestro objetivo es llamar la atención sobre los desafíos reales que enfrentan los motores de búsqueda impulsados por conversaciones para que podamos abordarlos mejor en el futuro.
Microsoft lanzó el nuevo motor de búsqueda Bing impulsado por IA, afirmando que revolucionará el alcance de los motores de búsqueda tradicionales. ¿Es este realmente el caso? Nos sumergimos más profundamente en el video de demostración [8] y los ejemplos [9], y encontramos tres tipos principales de problemas fácticos:
Números fabricados en informes financieros: ¡cuidado cuando confíes en el nuevo Bing!
Para nuestra sorpresa, ¡el nuevo Bing fabricó un resumen completo del informe financiero en la demostración!
Cuando el ejecutivo de Microsoft, Yusuf Mehdi, mostró a la audiencia cómo usar el comando "puntos clave de la página" para generar automáticamente un resumen del informe fiscal del tercer trimestre de 2022 de Gap Inc. [10a], recibió los siguientes resultados
Sin embargo, tras un examen más detenido, todas las cifras clave del resumen generado son inexactas. A continuación, mostraremos extractos del informe financiero original como referencias de validación.
Según el nuevo Bing, el margen operativo después del ajuste fue del 5,9 %, mientras que en realidad era del 3,9 % en el informe de origen.
De manera similar, las ganancias por acción diluidas ajustadas se generaron en $0,42, cuando debería ser de $0,71.
Con respecto a las ventas netas, el nuevo resumen de Bing afirmaba un "crecimiento de dos dígitos bajos", mientras que el informe original afirmaba que "las ventas netas podrían bajar a medio dígito".
Además de las cifras generadas que entran en conflicto con las cifras reales del informe fuente, observamos que el nuevo Bing también puede producir hechos alucinados que no existen en la fuente.
En el nuevo resumen generado por Bing, el "margen operativo de alrededor del 7% y las ganancias diluidas por acción de $1,60 a $1,75" no se encuentran en ninguna parte del informe fuente.
Desafortunadamente, la situación empeoró cuando se le indicó al nuevo Bing que "comparara esto con Lululemon en una tabla". La tabla de comparación financiera generada por el nuevo Bing contenía numerosos errores:
Esta tabla, de hecho, está medio equivocada. De todos los números, 3 de 6 cifras son incorrectas en la columna de Gap Inc., y lo mismo para Lululemon.
Como se mencionó anteriormente, el margen operativo real de Gap Inc. es 4,6 % (o 3,9 % después del ajuste) y las ganancias diluidas por acción deberían ser de $0,77 (o $0,71 después del ajuste).
El nuevo Bing también afirmó que el efectivo y los equivalentes de efectivo de Gap Inc. ascendieron a $ 1.4 mil millones, cuando en realidad eran $ 679 millones.
Según el Informe fiscal del tercer trimestre de 2022 de Lululemon [10b], el margen bruto debería ser del 55,9 %, mientras que el nuevo Bing afirma que es del 58,7 %.
El margen operativo debería ser del 19,0%, mientras que el nuevo Bing afirma que es del 20,7%. Las ganancias diluidas por acción fueron en realidad de $2,00, mientras que el nuevo Bing afirma que son $1,65.
Entonces, ¿de dónde vienen estas cifras? Quizás se pregunte si se trata de un número que se extravió de otra parte del documento original. La respuesta es no. Curiosamente, estos números no se encuentran en ninguna parte del documento original y son completamente falsos.
De hecho, todavía es un desafío de investigación abierto restringir los resultados de los modelos generativos para que estén más basados en hechos.
En pocas palabras, los populares modelos generativos de IA, como ChatGPT, eligen palabras para generarlas a partir de un vocabulario fijo, en lugar de copiar y pegar estrictamente datos de la fuente.
Por lo tanto, la exactitud de los hechos es uno de los desafíos innatos de la IA generativa y no puede garantizarse estrictamente con los modelos actuales. Esta es una preocupación importante cuando se trata de motores de búsqueda, ya que los usuarios confían en que los resultados sean confiables y precisos.
Top poeta japonés: ¿secretamente un cantante de rock?
Observamos que el nuevo Bing produce errores fácticos no solo para los números, sino también para los detalles personales de entidades específicas, como se muestra en la respuesta anterior cuando se preguntó al nuevo Bing sobre "los mejores poetas japoneses".
La fecha generada de nacimiento, muerte y ocupación de hecho entra en conflicto con la fuente a la que se hace referencia. Según Wikipedia [11a] e IMDB [11a], Eriko Kishida nació en 1929 y murió en 2011. No fue dramaturga ni ensayista, sino autora y traductora de libros infantiles.
El nuevo Bing siguió cometiendo errores cuando proclamó a Gackt como uno de los principales poetas japoneses cuando, de hecho, es una famosa estrella de rock en Japón. Según la fuente de Wikipedia [11b], es actor, músico y cantante. No hay información sobre él publicando poemas de ningún tipo en la fuente.
¿Siguiendo las recomendaciones de clubes nocturnos de Bing? Podrías estar frente a una puerta cerrada.
Además, el nuevo Bing hizo una lista de posibles centros nocturnos para visitar en la Ciudad de México cuando se le preguntó "¿Dónde está la vida nocturna?". De manera alarmante, casi todos los horarios de apertura de los clubes se generan incorrectamente:
Verificamos los horarios de apertura con múltiples fuentes, que también se adjuntan al final del artículo. Mientras que El Almacén [12a] en realidad abre de 7:00 p. m. a 3:00 a. m. de martes a domingo, New Bing afirma que está “abierto de 5:00 p. m. a 11:00 p. m. de martes a domingo”.
El Marra [12b] en realidad abre de 6:00 p. m. a 2:30 a. m. de jueves a sábado, pero se afirma que está “abierto de 6:00 p. m. a 3:00 a. m. de jueves a domingo”.
Guadalajara de Noche [12c] está abierto de 5:30 pm a 1:30 am o 12:30 am todos los días, mientras que New Bing afirma que está “abierto de 8:00 pm a 3:00 am todos los días”.
Además de los horarios de apertura, casi todas las descripciones de las estrellas de revisión y los números mencionados por el nuevo Bing son inexactas. No se pueden encontrar puntajes de revisión coincidentes a pesar de buscar en Yelp, Tripadvisor o Google Maps.
Además de los casos mencionados anteriormente, también encontramos otros problemas en su video de demostración, como discrepancias en el precio del producto, errores en la dirección de la tienda y errores relacionados con el tiempo. Le invitamos a verificarlos si está interesado.
Aunque el nuevo motor de búsqueda de Bing aún no es totalmente accesible, podemos examinar algunos ejemplos de demostración [9] proporcionados por Microsoft. Tras un examen más detenido, incluso estos ejemplos cuidadosamente seleccionados muestran posibles problemas en la base fáctica.
En la demostración titulada "¿Qué ideas de arte puedo hacer con mi hijo?", el nuevo Bing produjo una lista insuficiente de materiales de artesanía para cada recomendación [13].
Por ejemplo, al sugerir hacer una guitarra con una caja de cartón, enumeró los materiales: “una caja de pañuelos, un tubo de cartón, algunas gomas, pintura y pegamento”.
Sin embargo, no incluyó papel de construcción, tijeras, cinta washi, pegatinas de espuma y cuentas de madera sugeridas por el sitio web citado [13a].
Otra posible preocupación es que el nuevo Bing produjo contenido que no tenía una base fáctica en las fuentes de referencia, al menos 21 veces en los 12 ejemplos de demostración.
La falta de fundamento fáctico y el hecho de no citar una lista completa de fuentes podría llevar a los usuarios a cuestionar la confiabilidad del nuevo Bing.
Google también presentó un servicio de inteligencia artificial conversacional llamado Bard [3]. En lugar de escribir consultas de búsqueda tradicionales, los usuarios pueden tener una conversación informal e informativa con el chatbot basado en la web.
Por ejemplo, un usuario puede preguntar inicialmente sobre las mejores constelaciones para observar las estrellas y luego preguntar sobre la mejor época del año para verlas. Sin embargo, un descargo de responsabilidad claro es que Bard puede dar "información inexacta o inapropiada".
Investiguemos la precisión fáctica de Bard en su publicación de Twitter [14] y demostración en video [15].
El CEO de Google, Sundar Pichai, publicó recientemente un breve video [14] para demostrar las capacidades de Bard. Sin embargo, la respuesta contenía un error con respecto a qué telescopio capturó las primeras imágenes de exoplanetas, que los astrofísicos señalaron rápidamente [16a].
Tal como lo confirmó la NASA [16b], las primeras imágenes de un exoplaneta fueron capturadas por el Very Large Telescope (VLT) en lugar del James Webb Space Telescope (JWST).
Desafortunadamente, Bard resultó ser un experimento costoso ya que el precio de las acciones de Google disminuyó drásticamente [4] después de que se informara sobre el error de hecho.
Con respecto a la demostración en video de Bard, la imagen de arriba muestra cómo Bard de Google responde a la pregunta de cuándo son visibles las constelaciones [16]. Sin embargo, el momento de Orión es inconsistente con múltiples fuentes.
Según el principal resultado de búsqueda de Google [17a], la constelación es más visible de enero a marzo. Según Wikipedia [17b], es más visible de enero a abril.
Además, la respuesta es incompleta ya que la visibilidad de la constelación también depende de si el usuario se encuentra en el hemisferio norte o sur.
Los nuevos servicios de Bing y Bard pueden no ser igualmente confiables en la práctica. Esto se debe a factores como la calidad de los resultados de búsqueda, la calidad de los modelos conversacionales y la transparencia de las respuestas proporcionadas.
Actualmente, ambos servicios se basan en fuentes de información relevantes para guiar las respuestas de sus modelos de IA conversacionales.
Por lo tanto, la precisión fáctica de las respuestas depende de la calidad de los sistemas de recuperación de información [18] y de qué tan bien el modelo conversacional puede generar respuestas basadas en los hechos en las fuentes de información.
Como los detalles completos de los servicios no se hacen públicos, no está claro cuál puede lograr una mayor precisión fáctica sin pruebas más profundas. Por otro lado, creemos que la transparencia es tan importante como la confiabilidad.
Por ejemplo, observamos que el nuevo Bing es más transparente en cuanto a la fuente de sus respuestas, ya que proporciona enlaces de referencia en la mayoría de los casos. Esto permite a los usuarios realizar verificaciones de datos de forma independiente y esperamos que los futuros servicios conversacionales también brinden esta función.
A través de los numerosos errores fácticos que se muestran arriba, está claro que los modelos de IA conversacional como ChatGPT pueden producir hechos contradictorios o inexistentes, incluso cuando se presentan con fuentes confiables.
Como se mencionó anteriormente, es un desafío de investigación apremiante garantizar la base fáctica de los modelos similares a ChatGPT.
Debido a su naturaleza generativa, es difícil controlar sus resultados [19] y aún más difícil garantizar que los resultados generados sean consistentes con las fuentes de información.
Una solución a corto plazo podría ser imponer restricciones para evitar que la IA conversacional produzca resultados inseguros o no fácticos. Sin embargo, las partes malintencionadas pueden eventualmente eludir las restricciones de seguridad [7], mientras que la verificación de hechos [20] es otro desafío de investigación sin resolver.
A largo plazo, es posible que tengamos que aceptar que tanto los escritores humanos como los mecánicos seguirán siendo imperfectos. Para avanzar hacia una IA más confiable, los modelos de IA conversacional como ChatGPT no pueden permanecer como cajas negras inescrutables [21].
Deben ser completamente transparentes sobre sus fuentes de datos y posibles sesgos, informar cuando tienen poca confianza en sus respuestas y explicar sus procesos de razonamiento.
Después de una descripción general sistemática, hemos encontrado importantes limitaciones fácticas demostradas por la nueva ola de motores de búsqueda impulsados por IA conversacional como ChatGPT.
A pesar de los descargos de responsabilidad sobre posibles inexactitudes de los hechos y las advertencias de usar nuestro juicio antes de tomar decisiones, encontramos muchos errores de hechos incluso en las demostraciones cuidadosamente seleccionadas.
Por lo tanto, no podemos evitar preguntarnos: ¿Cuál es el propósito de los motores de búsqueda, si no es proporcionar respuestas confiables y objetivas? En una nueva era de la web llena de fabricaciones generadas por IA, ¿cómo garantizaremos la veracidad?
A pesar de los enormes recursos de los gigantes tecnológicos como Microsoft y Google, los modelos actuales similares a ChatGPT no pueden garantizar la precisión de los hechos. Aun así, seguimos siendo optimistas sobre el potencial de los modelos conversacionales y el desarrollo de una IA más fiable.
Modelos como ChatGPT han demostrado un gran potencial y sin duda mejorarán muchas industrias y aspectos de nuestra vida diaria. Sin embargo, si continúan generando contenido fabricado y respuestas falsas, el público puede volverse aún más cauteloso con la inteligencia artificial.
Por lo tanto, en lugar de criticar modelos o empresas específicas, esperamos pedir a los investigadores y desarrolladores que se centren en mejorar la transparencia y la exactitud de los hechos de los servicios de IA, lo que permitirá a los humanos depositar un mayor nivel de confianza en la nueva tecnología en el futuro previsible.
Artículos de referencia
[1] ChatGPT: Optimización de modelos de lenguaje para el diálogo: https://openai.com/blog/chatgpt/
[2] 7 problemas que enfrentan Bing, Bard y el futuro de la búsqueda de IA: https://www.theverge.com/2023/2/9/23592647/ai-search-bing-bard-chatgpt-microsoft-google-problems -retos
[3] Google: Un próximo paso importante en nuestro viaje de IA: https://blog.google/technology/ai/bard-google-ai-search-updates/
[4] El error del bot Bard AI de Google borra $ 100 mil millones de acciones: https://www.bbc.com/news/business-64576225
[5] Reinventar la búsqueda con un nuevo Microsoft Bing and Edge con tecnología de inteligencia artificial, su copiloto para la web: https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new- ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/
[6] Las acciones de Google pierden $ 100 mil millones después de que el chatbot de IA de la compañía cometiera un error durante la demostración: https://www.cnn.com/2023/02/08/tech/google-ai-bard-demo-error
[7] Los piratas informáticos están vendiendo un servicio que elude las restricciones de ChatGPT sobre malware: https://arstechnica.com/information-technology/2023/02/now-open-fee-based-telegram-service-that-uses-chatgpt-to -generar-malware/
Nuevas fuentes de verificación de datos de Bing:
[8] Video del comunicado de prensa de Microsoft ( https://www.youtube.com/watch?v=rOeRWRJ16yY )
[9] Página de demostración de Microsoft: ( https://www.bing.com/new )
El nuevo Bing y el Informe Fiscal:
[10a] Informe fiscal de Gap Inc. que se muestra en el video: https://s24.q4cdn.com/508879282/files/doc_financials/2022/q3/3Q22-EPR-FINAL-with-Tables.pdf
[10b] Informe fiscal de Lululemon que se encuentra en su sitio web oficial: https://corporate.lululemon.com/media/press-releases/2022/12-08-2022-210558496#:\~:text=Para el tercer trimestre de 2022 %2C en comparación con el tercero,%2C y aumentó un 41%25 a nivel internacional
El nuevo Bing y los poetas japoneses:
[11a] Eriko Kishida: Wikipedia ( https://twitter.com/sundarpichai/status/1622673369480204288 ), IMDB ( https://www.imdb.com/name/nm1063814/ )
[11b] Paquete: Wikipedia ( https://en.wikipedia.org/wiki/Gackt )
Los nuevos Bing y Discotecas en México:
[12a] El Almacén: Google Maps ( https://goo.gl/maps/3BL27XgWpDVzLLnaA ), Restaurant Guru ( https://restaurantguru.com/El-Almacen-Mexico-City )
[12b] El Marra: Google Maps ( https://goo.gl/maps/HZFe8xY7uTk1SB6s5 ), Restaurant Guru ( https://restaurantguru.com/El-Marra-Mexico-City )
[12c] Guadalajara de Noche: Tripadvisor ( https://www.tripadvisor.es/Attraction_Review-g150800-d3981435-Reviews-Guadalajara_de_Noche-Mexico_City_Central_Mexico_and_Gulf_Coast.html ), Google Maps ( https://goo.gl/maps/UeHCm1EeJZFP7wZYA )
[13] Las nuevas ideas de Bing y manualidades ( https://www.bing.com/search?q=Ideas de manualidades, con instrucciones para un niño pequeño usando solo cajas de cartón, botellas de plástico, papel y cuerda&iscopilotedu=1&form=MA13G7 ) :
[13a] Sitio web citado: Happy Toddler Playtime ( https://happytoddlerplaytime.com/cardboard-box-guitar-craft-for-kids/ )
Fuentes de verificación de hechos de Bard:
[14] Blog promocional ( https://twitter.com/sundarpichai/status/1622673369480204288 ) y video ( https://twitter.com/sundarpichai/status/1622673775182626818 )
[15] Vídeo de demostración ( https://www.youtube.com/watch?v=yLWXJ22LUEc )
¿Qué telescopio capturó las primeras imágenes de exoplanetas?
[16a] Twitter de Grant Tremblay (astrofísico estadounidense) ( https://twitter.com/astrogrant/status/1623091683603918849 )
[16b] NASA: 2M1207 b — Primera imagen de un exoplaneta ( https://exoplanets.nasa.gov/resources/300/2m1207-b-first-image-of-an-exoplanet/ )
Cuando las constelaciones son visibles
[17a] Google ( https://www.google.com/search?client=safari&rls=en&q=when+is+orion+visible&ie=UTF-8&oe=UTF-8 ) resultado principal: Byju's ( https://byjus. com/question-answer/en-que-estacion-del-ano-es-la-constelacion-orion-visible-en-el-cielo/ )
[17b] Página de Wikipedia “Orión (constelación)”: https://en.wikipedia.org/wiki/Orion_(constelación)
Referencias Académicas
[18] Introducción a la recuperación de información: https://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf
[19] Hacia la generación controlada de texto: http://proceedings.mlr.press/v70/hu17e/hu17e.pdf
[20] FEVER: un conjunto de datos a gran escala para la extracción y verificación de hechos: https://aclanthology.org/N18-1074.pdf
[21] Mirando dentro de la caja negra: una encuesta sobre inteligencia artificial explicable (XAI): https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8466590
Crédito de la imagen,HackerNoon AI Image Generator mensaje de "verificador de hechos del robot usa una lupa para examinar la precisión de un chatbot de IA".