paint-brush
Cara a cara de los modelos OpenAI: GPT-4 vs. GPT-3por@hacker7014442
6,250 lecturas
6,250 lecturas

Cara a cara de los modelos OpenAI: GPT-4 vs. GPT-3

por Claudia Słowik10m2023/03/20
Read on Terminal Reader

Demasiado Largo; Para Leer

El artículo compara GPT-4 con sus predecesores, GPT-3 y GPT-3.5 en 6 áreas clave: capacidades del modelo, límites de token, tipos de entrada, capacidad de dirección, ajuste fino y precios.
featured image - Cara a cara de los modelos OpenAI: GPT-4 vs. GPT-3
Claudia Słowik HackerNoon profile picture
0-item


El lanzamiento de la nueva versión de los modelos GPT, GPT-4, ha atraído una atención adicional a los ya famosos modelos de lenguaje OpenAI. ¡No es de extrañar!


El GPT-4 se presentó como el sistema más avanzado de OpenAI que puede resolver problemas complejos con mayor precisión, gracias a su conocimiento general más amplio y sus capacidades de resolución de problemas.


En este artículo, comparo el GPT-3 con el GPT-4 y el GPT-3.5, que se encuentran entre los dos grupos de modelos.


¿Listo?

¿Qué es Open AI GPT-3?

GPT-3 es un modelo de lenguaje desarrollado por OpenAI. Fue lanzado en junio de 2020 y rápidamente llamó la atención por sus notables capacidades de generación de lenguaje.


GPT-3 viene en múltiples modelos base con diferentes números de parámetros y recursos computacionales requeridos. Los más reconocidos son Ada, Babbage, Curie y Davinci.


Fuente: OpenAI



El 15 de marzo de 2022, OpenAI lanzó la nueva versión de GPT-3 llamada "text-davinci-003". Este modelo se describió como más capaz que las versiones anteriores de GPT. Además, se entrenó con datos hasta junio de 2021, lo que lo hace mucho más actualizado que las versiones anteriores de los modelos (entrenado con datos hasta octubre de 2019). Ocho meses después, en noviembre de 2022, OpenAI comenzó a referirse a este modelo como perteneciente a la serie “GPT-3.5” . Pero saltémonos la línea de tiempo.


¿Qué es GPT-3.5?

A día de hoy, tenemos 5 variantes de modelos diferentes que pertenecen a la serie GPT-3.5. Cuatro de ellos están optimizados para tareas de finalización de texto y uno está optimizado para tareas de finalización de código.


Fuente: OpenAI


La última versión del modelo GPT-3.5, el gpt-3.5-turbo , se lanzó el 1 de marzo de 2023 e instantáneamente provocó un aumento en el interés por GPT-3.5. Solo para animar a la audiencia antes del lanzamiento de GPT-4.

¿Qué es Open AI GPT-4?

GPT-4 es la versión más reciente y avanzada de los modelos de lenguaje OpenAI. Presentado el 14 de marzo de 2023, se dice que es el nuevo hito en el desarrollo del aprendizaje profundo.


Se dice que GPT-4 puede generar declaraciones más precisas que GPT-3 y GPT-3.5, lo que garantiza una mayor confiabilidad y confianza. También es multimodal, lo que significa que puede aceptar imágenes como entradas y generar subtítulos, clasificaciones y análisis.


Por último, pero no menos importante, ha ganado algo de creatividad. Como podemos leer en la actualización oficial del producto, “puede generar, editar e iterar con los usuarios en tareas de escritura creativa y técnica, como componer canciones, escribir guiones o aprender el estilo de escritura de un usuario”.


Ejemplo de la creatividad de OpenAI GPT-4: GPT-4 explicando la trama de Cenicienta en una oración donde cada palabra comienza con la siguiente letra del alfabeto de la A a la Z. Fuente: OpenAI



Por ahora, en marzo de 2023, el GPT-4 viene en dos variantes de modelo:


  • gpt-4-8K

  • gpt-4-32K


que difieren por el tamaño de su tamaño de ventana de contexto. Aunque GPT-4 ya se usa comercialmente, la mayoría de los usuarios deberán esperar un tiempo hasta que obtengan acceso a la API de GPT-4 y creen sus propias aplicaciones y servicios con GPT-4.


¿Vale la pena esperar? ¡Vamos a ver!


GPT-4 frente a GPT-3 y GPT-3.5: diferencias clave

Cuando se le pidió que comparara GPT-4 con GPT-3 , Greg Brockman, uno de los cofundadores de OpenAI y su presidente, dijo una palabra: Diferente . Como le ha dicho a Techcrunch:


Todavía hay muchos problemas y errores que comete [el modelo]... pero realmente se puede ver el salto en la habilidad en cosas como el cálculo o la ley, donde pasó de ser realmente malo en ciertos dominios a bastante bueno en relación con los humanos.


Intentemos elaborar esto un poco más. Sobre todo porque la investigación GPT-4 publicada por OpenAI revela sorprendentemente muchos detalles sobre los nuevos modelos.

Capacidades del modelo GPT-4 vs. GPT-3

Una de las mayores diferencias entre GPT-3 y GPT-4 son sus capacidades. Se dice que GPT-4 es más confiable, creativo, colaborativo y capaz de manejar instrucciones mucho más matizadas que GPT-3.5.


Para comprender la diferencia entre los dos modelos, los desarrolladores de OpenAI los probaron en diferentes puntos de referencia, incluida la simulación de exámenes que fueron diseñados originalmente para humanos.


Procedimos usando las pruebas disponibles públicamente más recientes (en el caso de las preguntas de respuesta libre de las Olimpiadas y AP) o comprando las ediciones 2022-2023 de los exámenes de práctica. No hicimos ningún entrenamiento específico para estos exámenes. Una minoría de los problemas en los exámenes fueron vistos por el modelo durante el entrenamiento, pero creemos que los resultados son representativos.

(fuente: OpenAI )



¡Los resultados son asombrosos!


Mientras que GPT-3 obtuvo solo 1 de 5 en el examen AP Calculus BC, GPT-4 obtuvo 4. En un examen de barra simulado, GPT-4 aprobó con una puntuación de alrededor del 10 % superior de los examinados, mientras que GPT-3.5: la versión más avanzada de la serie GPT-3, estaba en el 10% inferior.


Fuente: OpenAI



Además, GPT-4 es… un verdadero políglota. Si bien el dominio del inglés de GPT ya era alto en las versiones GPT-3 y GPT-3.5 (con una precisión de tiro del 70,1 %), su precisión en la versión más nueva aumentó a más del 85 %. En realidad, habla 25 idiomas mejor que su antepasado inglés, incluidos el mandarín, el polaco y el swahili. Eso es bastante impresionante, considerando que la mayoría de los puntos de referencia de ML existentes están escritos en inglés.


Fuente: OpenAI



Si eso no fuera suficiente, GPT-4 puede procesar texto mucho más largo en una sola solicitud, todo gracias a una mayor longitud de contexto.

Límites de tokens en GPT-3 frente a GPT-4

La longitud del contexto es un parámetro que se usa para describir cuántos tokens se pueden usar en una sola solicitud de API. Los modelos GPT-3 originales lanzados en 2020 establecieron el valor máximo de solicitud en 2049 tokens. En GPT-3.5, este límite se incrementó a 4096 tokens (que son ~3 páginas de texto en inglés de una sola línea). GPT-4 viene en dos variantes. Uno de ellos (GPT-4-8K) tiene una longitud de contexto de 8192 tokens y el segundo (GPT-4-32K) puede procesar hasta 32 768 tokens, lo que equivale a unas 50 páginas de texto.


Dicho esto, podemos pensar en todos los nuevos casos de uso de GPT-4. Con su capacidad para procesar 50 páginas de texto, será posible usar los nuevos modelos OpenAI para crear textos más largos, analizar y resumir documentos o informes más grandes, o manejar conversaciones sin perder el contexto. Tal como lo presenta Greg Brockman en la entrevista para Techcrunch :


Anteriormente, la modelo no sabía quién eras, qué te interesaba, etc. Tener ese tipo de historia [con la ventana de contexto más grande] definitivamente hará que sea más capaz... Impulsará lo que la gente puede hacer.


Pero ese no es el final porque además de procesar entradas de texto, GPT-4 también puede interpretar otros tipos de entrada.

Tipos de entrada en GPT-4 y GPT-3

Mientras que los modelos GPT-3 y GPT-3.5 estaban limitados a un tipo de entrada (texto o código, para ser precisos), el GPT-4 acepta un tipo de entrada adicional: imágenes. Específicamente, genera salidas de texto a partir de entradas que consisten en texto e imágenes.


Dependiendo de lo que le pidas al modelo GPT-4, puede generar subtítulos, clasificar elementos visibles o analizar la imagen. Entre los ejemplos presentados en la documentación de investigación de GPT-4, podemos ver los modelos analizando los gráficos, explicando memes e incluso resumiendo los documentos que consisten en texto e imágenes. Debemos admitir que las habilidades de comprensión de imágenes de GPT-4 son impresionantes.


¡Solo echa un vistazo!


Fuente: OpenAI



La capacidad de procesar imágenes, combinada con los límites de token más altos, abre nuevas posibilidades para usar GPT-4, desde investigación académica hasta capacitación personal o asistentes de compras. Sin embargo, no se emocione demasiado, ya que puede llevar algún tiempo hasta que pueda hacer uso de esta nueva habilidad de GPT-4.


Como podemos leer en el sitio de OpenAI, las entradas de imágenes siguen siendo una vista previa de investigación y no están disponibles públicamente.

Definición del contexto de la conversación GPT-4 frente a GPT-3

Otra gran diferencia entre GPT-3 y GPT-4 es cómo podemos determinar el tono, el estilo y el comportamiento del modelo.


En la versión más reciente de GPT, es posible proporcionar al modelo las instrucciones a nivel de API al incluir los llamados mensajes del "sistema" (dentro de los límites descritos en detalle en la política de uso de OpenAI ). Estas instrucciones establecen el tono de los mensajes y describen cómo debe comportarse el modelo (p. ej., “Nunca le das la respuesta al estudiante, pero siempre intentas hacer la pregunta correcta para ayudarlo a aprender a pensar por sí mismo”).


Además, establecen límites para las interacciones de GPT-4, pudiendo actuar como "barandillas" para evitar que GPT-4 cambie su comportamiento a pedido del usuario, tal como en el siguiente ejemplo:


Fuente: OpenAI



Como puede ver, el GPT-4 se mantiene dentro de su rol, definido en el mensaje del sistema, a pesar de las solicitudes del usuario.


Hasta cierto punto, ya pudimos experimentar la capacidad de un modelo similar en el recientemente lanzado GPT-3.5-Turbo . Al definir el rol del modelo en un indicador del sistema, podríamos obtener una respuesta diferente. Vea cómo difiere el mensaje dependiendo de quién pretende ser el modelo de GPT:


Mensaje del sistema GPT-3.5-Turbo que define el rol de contexto



Hasta marzo de 2023, cuando se lanzó el GPT-3.5-Turbo, no fue posible proporcionar el mensaje del sistema al modelo. La información de contexto debía proporcionarse dentro del aviso y podía cambiar fácilmente a lo largo de la conversación.


La capacidad del nuevo GPT-4 le permite ser más consistente en su comportamiento y más ajustable a las especificaciones externas (por ejemplo, las pautas de comunicación de su marca).


Costo de usar GPT-4 frente a GPT-3

Por supuesto, todo tiene un precio. Mientras que los modelos GPT-3 cuestan entre $0.0004 y $0.02 por cada 1K tokens, y el GPT-3.5-Turbo más nuevo fue 10 veces más económico ($0.002 por 1K tokens) que el modelo GPT davinci más poderoso, el costo de usar GPT-4 no deja ilusiones: si desea utilizar los modelos más avanzados, deberá pagar un extra.


El GPT-4 con una ventana de contexto de 8K costará $0,03 por cada 1K de tokens de solicitud y $0,06 por cada 1K de tokens de finalización. El GPT-4 con una ventana de contexto de 32K, por otro lado, costará $0.06 por 1K tokens de solicitud y $0.12 por 1K tokens de finalización.


Si procesar 100 000 solicitudes con una longitud promedio de 1500 tokens de solicitud y 500 tokens de finalización cuesta $4000 con text-davinci-003 y $400 con gpt-3.5-turbo , con GPT-4, costaría $7500 con la ventana de contexto de 8K y $15 000 con la ventana de contexto de 32K.


No solo es caro, sino también más complicado de calcular . Esto se debe a que el costo de los tokens de aviso (entrada) difiere del costo de los tokens de finalización (salida). Si recuerda nuestroexperimento de precios de GPT-3 , ya sabe que estimar el uso del token es difícil ya que existe una correlación muy baja entre la longitud de entrada y salida. Con el mayor costo de los tokens de salida (finalización), el costo de usar modelos GPT-4 será aún menos predecible.

Puesta a punto de los modelos OpenAI

¿Recuerdas cómo definimos el contexto en el mensaje del sistema para GPT-4 y GPT-3.5-Turbo? El ajuste fino es básicamente un método alternativo para definir el tono, el estilo y el comportamiento del modelo y personalizar los modelos GPT para una aplicación específica.


Para afinar el modelo, lo entrenas en muchos más ejemplos de los que caben en el aviso. Una vez que un modelo está ajustado, no necesita proporcionar ejemplos en el indicador. Esto ahorra costos (¡cada token de 1K cuenta!) y permite solicitudes de latencia más baja. Suena genial, ¿no? Sin embargo, es una pena que los únicos modelos de OpenAI que están actualmente disponibles para ajustar sean los modelos base originales GPT-3 (davinci, curie, ada y col).


Errores y limitaciones

Cuando surgieron diferentes rumores sobre GPT-4 (por ejemplo, el de la cantidad de parámetros que usa), el CEO de OpenAI comentó que:


La fábrica de rumores GPT-4 es una cosa ridícula. No sé de dónde viene todo. La gente está rogando por estar decepcionada, y lo estará. (…) No tenemos un AGI real, y eso es más o menos lo que se espera de nosotros.


Si bien es difícil decir que GPT-4 es decepcionante, teniendo en cuenta su creatividad y sus increíbles capacidades, es importante ser consciente de sus limitaciones. Y como podemos leer en la documentación de investigación del producto: no cambiaron mucho en comparación con las versiones anteriores del modelo.


Al igual que sus predecesores, GPT-4 carece de conocimiento de los eventos que ocurrieron después de septiembre de 2021. Además, no importa cuán inteligente parezca ser ChatGPT, todavía no es completamente confiable, incluso cuando funciona con GPT-4. Aunque se afirma que reduce significativamente las alucinaciones en relación con los modelos anteriores (obteniendo un 40 % más que GPT-3.5 en sus evaluaciones internas), todavía “alucina” hechos y comete errores de razonamiento. Todavía puede generar consejos dañinos (aunque es mucho más probable que se niegue a responder), código con errores o información inexacta, y por eso, no debe usarse en áreas con altos costos de error.

GPT-3 frente a GPT-4: puntos clave

Como el sistema más avanzado de OpenAI, GPT-4 supera a las versiones anteriores de los modelos en casi todas las áreas de comparación. Es más creativo y más coherente que GPT-3. Puede procesar textos más largos o incluso imágenes. Es más preciso y es menos probable que invente "hechos". Gracias a sus capacidades, crea muchos nuevos casos de uso posibles para la IA generativa .


¿Significa que GPT-4 reemplazará a GPT-3 y GPT-3.5? Probablemente no. Aunque GPT es más potente que las versiones anteriores de los modelos OpenAI, también es mucho más caro de usar. En muchos casos de uso en los que no necesita un modelo para procesar documentos de varias páginas o "recordar" conversaciones largas, las capacidades de GPT-3 y GPT-3.5 serán suficientes.



También publicado aquí.