1,437 lecturas

IA vs. humanos: ¿la máquina ya es superior?

por Vitalii Chukhlantcev3m2024/10/31

Demasiado Largo; Para Leer

Los modelos de IA parecen ser mejores que los humanos en la mayoría de los campos, si se tienen en cuenta los parámetros de referencia. Esto se debe a que recuerdan y recuperan respuestas a preguntas especializadas, no a que razonen bien. El nuevo parámetro de referencia "SIMPLE" está diseñado para abordar este problema.

featured image - IA vs. humanos: ¿la máquina ya es superior?

Si revisas los puntos de referencia populares que se utilizan para medir el rendimiento de LLM, entonces probablemente pienses que la IA es muy inteligente.

Esta es una buena impresión superficial; sin embargo, ¿es la IA realmente mejor que un humano promedio para las tareas cognitivas?

Los modelos de vanguardia como o1 de OpenAI y Claude 3.5 Sonnet de Anthropic tienen un mejor desempeño que los humanos expertos en varios campos, incluidos el derecho, la codificación y las matemáticas. ¿Por qué, entonces, ChatGPT no puede resolver algunas tareas de razonamiento espacial simples o algunas preguntas capciosas tontas? Bueno, todavía estamos hablando de "modelos de lenguaje grandes": toman una tonelada de letras e intentan predecir qué letras arrojar para una consulta determinada.

Tenga en cuenta que en ninguna parte de esta ecuación se menciona el “pensamiento” real. Los modelos son una especie de loros estocásticos , ya que intentan recuperar la información correcta de su conjunto de datos de entrenamiento en lugar de considerar realmente su pregunta. Al menos, este era el caso hasta que OpenAI lanzó o1-preview, pero hablaremos más sobre esto más adelante.

Entre quienes comenzaron a cuestionar la relevancia de los puntos de referencia de LLM existentes se encuentra el autor de “AI Explained”, un popular canal de YouTube del que soy un gran admirador. Phillip (el nombre del YouTuber) notó que los puntos de referencia estándar de la industria tienen un estilo claro de preguntas que, además, están disponibles en su mayoría al público. Esto significa que no solo esas preguntas exactas pueden ser parte del conjunto de datos de entrenamiento, sino que, debido a la estandarización, es más fácil para los modelos detectar y aplicar patrones a partir de los datos de entrenamiento generales.

En pocas palabras, los investigadores de IA que crean tecnología compleja e innovadora seguramente pueden encontrar una forma de darle a su modelo las preguntas y respuestas relevantes para “recordar” antes de realizar la evaluación comparativa.

Si nos fijamos en los resultados del modelo más avanzado, o1 de OpenAI, podemos inferir que tiene una puntuación por encima de la media en muchos ámbitos profesionales. Y esto es cierto, pero este resultado depende de la disponibilidad de datos de entrenamiento relevantes y de ejemplos anteriores de esos campos específicos. No me malinterpreten, los modelos actuales son increíbles a la hora de dar respuestas de libro de texto a preguntas de libro de texto, y esto en sí mismo es increíblemente impresionante.

Sin embargo, el término “inteligencia artificial” implica algo más que la recuperación de información; debería implicar algún tipo de pensamiento real. Por lo tanto, una consecuencia lógica de todas las impresionantes cifras anteriores es si esa “IA” puede responder a una pregunta de razonamiento complicada. ¿Tiene alguna inteligencia espacial? ¿O puede desenvolverse bien en situaciones sociales comunes? La respuesta es: a veces.

A diferencia de las preguntas específicas de un campo con respuestas predefinidas, los problemas que los humanos resuelven a diario a menudo requieren comprender el contexto más allá del lenguaje natural (que es lo único que tienen los LLM).

Arriba están los mejores puntajes en el benchmark SIMPLE, que ofrece a los estudiantes de maestría preguntas que una persona promedio consideraría triviales pero que los modelos no necesariamente pueden responder todavía. Estamos acostumbrados a ver que la IA se desempeña mucho mejor que un humano promedio en exámenes o benchmarks especializados, pero aquí, el desempeño del modelo superior es en realidad solo del 41,7 % (o1-preview) frente al 83,7 % de un humano promedio. Este benchmark utiliza 200 preguntas de texto de opción múltiple centradas en el razonamiento espaciotemporal, la inteligencia social y las preguntas capciosas.

La característica más importante de este punto de referencia es que esas preguntas no están disponibles públicamente, por lo que los laboratorios de IA no pueden simplemente agregarlas a sus datos de entrenamiento. Puede obtener más información sobre este punto de referencia aquí .

Este nuevo enfoque para medir el rendimiento de LLM muestra lo lejos que están todavía todos los modelos de una capacidad de razonamiento humana promedio. Cuanto más rápido se cierre esta brecha en los próximos meses, más definitiva será la respuesta "sí" a nuestro titular. Una nueva métrica interesante a la que prestar atención si eres entusiasta pero cauteloso con respecto a la IA.