TLDR 1: el conjunto de datos ya no es un requisito estricto
La idea de que necesita toneladas de datos para hacer IA basada en texto ahora está parcialmente desactualizada.
Incluso un conjunto de datos extremadamente pequeño puede producir resultados valiosos (1 oración ~ 1 GB).
Algo en lo que casi todas las nuevas empresas están sentadas o pueden producir a mano.
TLDR 2: tiene casos de uso muy amplios
Puede pensar en GPT 3.5 como un "pasante universitario a pedido" remoto y pagado
Nunca se puede confiar en que los pasantes tengan la razón al 100 %, pero pueden proporcionar un valor útil con la supervisión, la orientación y la planificación adecuadas.
Un valor que ahora puede crecer y escalar sin problemas (a diferencia de los pasantes humanos reales)
TLDR 3: Costo y limitaciones
El modelo clásico de economía unitaria para SaaS y servicios en línea será un desafío debido al costo de funcionamiento extremadamente alto de la mayoría de LLM
OpenAI también tiene un monopolio efectivo (temporal) para la infraestructura en este espacio, y puede ser tanto un socio como un futuro competidor no intencional al mismo tiempo.
Si estaba de vacaciones y no tiene idea de qué son ChatGPT o LLM (modelos de idiomas grandes), puede encontrar el resumen sobre la tecnología aquí:
Entonces, ¿qué quiero decir en forma más larga?
Toma una taza de café y relájate un rato...
Nota: este artículo trata solo los requisitos de datos para los modelos basados en texto y no se aplica a los modelos de imágenes en muchos casos (p. ej., visión artificial).
En el pasado, la construcción de un modelo de IA generalmente implicaba recopilar un conjunto de datos lo suficientemente grande para un caso de uso específico. Existían diferentes técnicas y herramientas de entrenamiento de modelos de IA para optimizar el proceso de entrenamiento o sus costos computacionales.
Sin embargo, el tamaño y la calidad del conjunto de datos seguían siendo uno de los factores predominantes en el entrenamiento de una IA.
Esto daría como resultado un gráfico como el siguiente:
Todos los números son aproximaciones grandes y cambiarán drásticamente según el caso de uso, el modelo de IA y la calidad de los datos. Las escalas en los ejes son intencionalmente vagas e inexactas porque son subjetivas. Para números técnicos, lea los documentos en las citas para casos de uso específicos.
Sin embargo, la idea general sigue siendo que los conjuntos de datos a pequeña escala produzcan datos efectivamente aleatorios antes de mejorar lentamente y finalmente ser algo útiles en aproximadamente la parte de ~ 500 GB.
Esto condujo a la carrera armamentista de conjuntos de datos, que ocurre en casi todos los campos de especialización relacionados con la IA (especialmente cualquier cosa relacionada con la visión por computadora).
Lo que se desarrolló en varias empresas emergentes desde 2009 en adelante hasta la actualidad, con algunas empresas emergentes notables adquiridas en parte por sus valiosos conjuntos de datos (y generalmente talento).
Debido a que la carrera armamentista aumentaba constantemente, se hizo cada vez más difícil para las nuevas empresas competir con sus modelos de IA (conjuntos de datos pequeños) contra los establecidos (conjuntos de datos más grandes).
Por ejemplo, en uilicious.com (una startup de automatización de pruebas de interfaz de usuario de bajo código), usamos nuestro conjunto de datos limitado para entrenar un modelo de IA (llamado TAMI v0.1). Descubrimos que arrojaba basura la mitad del tiempo, lo que nos llevó a dejar de lado el modelo y hacer crecer la empresa sin IA mientras construíamos nuestro conjunto de datos.
De una manera muy generalizada y no técnica, la IA entrenada de esta manera se denominará "Modelos especializados" de aquí en adelante.
En la búsqueda de una IA verdaderamente universal o de propósito general, especialmente en el campo de las interacciones del habla humana (ya que los humanos hacen la más aleatoria de todas las variables), surgieron esfuerzos para entrenar un nuevo tipo de IA basada en texto para conjuntos de datos extremadamente grandes. de datos públicos (piense en Wikipedia, Quora, StackOverflow y la mitad del texto de Internet).
Debido a que estos nuevos modelos ampliaron los límites de los tamaños de los conjuntos de datos y el tamaño del modelo (piense en el tamaño del cerebro), los métodos utilizados para construirlos divergieron de los modelos especializados (que tienden a tener más énfasis en la precisión y la eficiencia).
Los modelos de IA de texto entrenados de esta manera ahora se denominan colectivamente "Modelos de lenguaje grande" (LLM).
La desventaja de este enfoque fue enorme, lo que impidió su aplicación temprana en muchos casos de uso:
LLM estaba dominado por Google (que ya tenía los datos y tenía el motivo para hacerlo por su asistente de IA) y OpenAI inicialmente. Más tarde, Microsoft, Amazon, Apple, Salesforce, Meta y algunos otros se unieron a la carrera. Sin embargo, debido al gran tamaño y costo de entrenar un modelo de este tipo, generalmente está reservado para las principales empresas tecnológicas con mucho dinero.
Aunque las primeras generaciones de LLM pueden haber producido resultados decepcionantes, ya que perdieron casi todos los modelos especializados en cada tarea, las cosas cambiaron con el paso de los años y aumentaron tanto en el tamaño del conjunto de datos como en el tamaño del modelo.
Sus beneficios se hicieron más visibles:
Esto hizo cambios drásticos en las curvas:
También provocó una nueva ola de modelos comerciales respaldados por IA en 2019. Las empresas emergentes ahora podían entrenar nuevos modelos de IA además de los LLM existentes con conjuntos de datos a su alcance, desde chatbots hasta generadores de diapositivas de presentación, copilotos de código, redacción e incluso maestros de juegos de D&D.
Estos modelos de IA ya no estaban en el dominio exclusivo de las grandes empresas tecnológicas. Por una pequeña tarifa para entrenar y ejecutar la IA en su infraestructura, OpenAI y Google comenzaron a abrir sus modelos para que otros los construyeran como un medio para beneficiarse de los LLM.
Esto también fue beneficioso para las nuevas empresas, ya que ya no necesitaban millones de dólares en inversión en I+D para construir estos grandes modelos internamente, lo que les permitió llegar al mercado más rápido con sus pruebas de concepto.
Los datos seguían siendo, en cierto modo, el rey. Es posible que haya movido la curva para que sea más accesible, pero aun así requirió un equipo para crear grandes conjuntos de datos y ajustar el modelo.
Como resultado, mientras que a muchas de las empresas emergentes de 2019 les resultó significativamente más fácil construir sus prototipos, a muchas les resultó difícil cruzar el umbral "útil", ya que necesitaban ampliar su conjunto de datos con rendimientos decrecientes.
Esto es consistente con las primeras pruebas internas de los modelos de inteligencia artificial TAMI v0.2 de uilicious.com, mientras que GPT fue una gran mejora con respecto a la basura, todavía estaba entre interesante y "meh".
Pero ahí es cuando las cosas realmente comienzan a cambiar en 2022....
El lanzamiento de GPT3.5 (o chatGPT como se conoce en Internet) el mes pasado (diciembre de 2022) tuvo enormes implicaciones en la forma en que se entrenan y ajustan los modelos de IA.
Ha desbloqueado la posibilidad de crear IA utilizable con conjuntos de datos extremadamente pequeños, algo a lo que la mayoría de las nuevas empresas tienen acceso o pueden crear a mano. Este es un cambio fundamental en la forma en que pensamos sobre el entrenamiento de IA.
En uilicious.com , nos quedamos atónitos cuando descubrimos que un pequeño conjunto de datos de muestra de menos de 1 GB, de nuestro conjunto de datos más grande de ~100 GB, cuando se convirtió y optimizó con las nuevas técnicas de capacitación, había superado el "umbral útil", el punto en el que el Nuestros usuarios podrían utilizar la IA y superar todo lo que teníamos anteriormente.
Mientras que los experimentos posteriores con conjuntos de datos más grandes mostraron rendimientos decrecientes. La conclusión clave fue la poca información que se necesitaba para "hacer un producto útil". Nos tomó menos tiempo construir una IA de prueba de concepto ajustada para nuestro caso de uso patentado que escribir este artículo.
Usando GPT3.5 como un bloque de construcción básico, ahora es posible crear aplicaciones de IA útiles para varios casos de uso sin necesidad de un equipo o individuo especializado.
Según el caso de uso, el conjunto de datos puede ser tan pequeño como una sola oración o párrafo, o hasta 100 MB o 1 GB, un tamaño que muchas empresas emergentes pueden lograr.
Alternativamente, si puede hacer que chatGPT actúe de una manera que le resulte útil y valiosa para su inicio, puede construirlo como un servicio de IA dedicado.
La drástica reducción en el conjunto de datos requerido nos permitió construir un modelo de IA "útil" con solo una pequeña fracción de nuestro conjunto de datos completo, algo que anteriormente había sido "inútil" o "imposible" a nuestra escala.
En muchos sentidos, los datos ya no son el rey, encontrar y crear aplicaciones útiles son los verdaderos reyes con esta nueva IA. Donde las ideas se pueden construir y probar en semanas (no años).
La captura de pantalla es una demostración de nuestra IA en acción, generando scripts de prueba de IU completos, desde un indicador, como ejemplo de integración. (una de muchas posibilidades)
Algo que ahora es factible en una semana, con el equipo correcto y los datos correctos.
Comuníquese con nosotros si está interesado en el futuro de las pruebas de IA y UI.
GPT-3.5 y todos los demás modelos de idiomas grandes tienen límites en su precisión y confiabilidad. Esto se debe en parte a su naturaleza de soñar con respuestas .
Mientras que en teoría (aún por probar), dado un conjunto de datos especializado lo suficientemente grande, su precisión puede mejorarse drásticamente para casos de uso especializados. Sin embargo, si tiene un conjunto de datos tan grande, es probable que ya pueda crear "modelos especializados".
En última instancia, este límite de precisión y confiabilidad es solo un problema crítico en industrias sensibles (por ejemplo, medicina). Para la mayoría de los casos, es simplemente una distracción para encontrar casos de uso. Una vez que la IA cruza el umbral "suficientemente bueno" (lo que hace).
Un enfoque más saludable y realista del problema es imaginar GPT-3.5 como un "pasante universitario inteligente bajo demanda" remoto y pagado.
Porque, de manera realista, la IA tiene las mismas limitaciones en tales casos de uso, además de ser remota y en línea:
El único beneficio real que tiene el modelo de IA sobre los pasantes de la vida real es:
La desventaja que tiene la IA sobre los humanos es que no pueden traerte café en persona.
Una vez que lo enmarca en estos términos, se vuelve significativamente más fácil descubrir cómo integrar la IA en los procesos o productos comerciales existentes.
En un nivel un poco más técnico:
Esta es la mayor debilidad de este nuevo enfoque en IA, que se basa en modelos mejores y más grandes. Desafortunadamente, no hay almuerzo gratis.
Si bien es más barato y más fácil entrenar para tareas específicas en términos del tamaño del conjunto de datos, es significativamente más costoso de ejecutar en comparación con los modelos de IA más tradicionales.
No es barato; el costo por indicación y respuesta oscila entre un centavo y cincuenta centavos, según la cantidad de datos necesarios para entrenar o usar en el proceso. Esto es drásticamente más alto que un servidor API típico, que puede manejar un millón de solicitudes por dólar.
Para decirlo en términos más simples, cuesta más en hardware de servidor manejar una consulta de IA para un usuario en un segundo determinado que atender un millón de solicitudes de usuarios para un sitio web típico de Shopify de tamaño mediano.
Esto no se debe a que OpenAI o Azure solo intenten obtener ganancias; se debe a la infraestructura de hardware de servidor pura necesaria para ejecutar modelos tan grandes.
Como resultado, a pesar de lo poderoso que es, la incorporación de una IA de modelo de lenguaje grande de este tipo tiene un alto precio y es posible que no sea aplicable para todos los casos de uso debido solo a esta limitación.
El resultado final es que, si bien muchos casos de uso pueden beneficiarse del uso de dicha IA, no todos los casos de uso pueden permitírselo; y esto debería ser una consideración importante para cualquier implementación.
Para una mesa de servicio de soporte, un personal de soporte típico puede manejar diez clientes por hora, y cada cliente tiene un promedio de quince avisos de ida y vuelta. Si son cinco centavos por aviso, esto suma $7.50 por hora si se usó una IA para imitar a un solo personal de soporte.
Esto no solo es más barato que el salario medio típico del personal del centro de llamadas de EE. UU. de $ 15 por hora, sino que también es mucho más flexible (sin gastos generales de personal, puede escalar hacia arriba y hacia abajo al instante).
Del mismo modo, también es posible adoptar el mismo enfoque "interno", donde esta IA de soporte sirve solo como soporte L1, lo que permite a los humanos manejar los casos más complicados. En este escenario, tiene sentido cuando se realiza y se escala de forma adecuada por solicitud (o por hora).
El trabajador de oficina promedio responde a aproximadamente cuarenta correos electrónicos por día laboral o aproximadamente 880 correos electrónicos por mes. Incluso a cinco centavos por correo electrónico, eso sería un promedio de $44 por mes por usuario solo para manejar las respuestas por correo electrónico.
Lo que lo empeora es que es razonable esperar que, con un servicio de este tipo, un empleado de oficina pueda responder a más correos electrónicos en promedio. No sería descabellado que el promedio se duplicara a dos mil correos electrónicos, o cien dólares al mes, solo en costos de IA pura.
En este caso, si la puesta en marcha de SaaS tuviera que hacer un precio simple, digamos de diez dólares por mes, podrían tener grandes pérdidas potenciales con el tiempo.
Este modelo comercial y de costo de precios va en contra del modelo típico de precios por usuario que es común en SaaS. Esta es la razón por la que es común que dichas integraciones tengan un sistema de "créditos" como un medio para limitar el uso y la forma de facturación de dicha IA.
Se espera que con el tiempo, con un mejor ajuste, competencia y optimización de costos, el precio por aviso pueda bajar. Otro método notable es usar la IA original más costosa primero en el lanzamiento mientras se recopilan más datos, que luego se usan para entrenar un modelo más especializado y más económico. Sin embargo, todos estos métodos profundizan en los detalles técnicos, que pueden ser únicos para cada caso de uso y, por lo general, requieren mucho tiempo y esfuerzo.
E incluso entonces, si bien puede ser diez veces drástico en ahorros, es fundamentalmente más costoso que los servicios API SaaS tradicionales.
Si bien existen modelos de idioma grande de código abierto, en términos muy francos, son comparables a GPT2 o en algún punto intermedio y GPT3.5.
Para algunos casos simples, una vez que comienzan a construir un conjunto de datos razonable, estos modelos más pequeños (y más baratos) pueden ser útiles para migrar como un medio de reducción de costos.
Sin embargo, para otros casos complejos, tal movimiento puede no ser posible debido a la complejidad de su IA, lo que otorga a OpenAI un monopolio efectivo sin incentivos para precios más bajos.
Sin embargo, se cree que en el transcurso de los próximos uno o dos años, la comunidad de código abierto se pondrá al día y, al hacerlo, tal vez permita que los precios mejoren debido a mejores proveedores de infraestructura alternativos.
Sin embargo, debido a que este es un futuro incierto, vale la pena destacarlo.
Si bien no intencionalmente, es fundamental que las nuevas empresas dentro de este espacio construyan conjuntos de características que sean defendibles más allá de sus bots de mensajes de texto.
Por ejemplo, hubo varias empresas emergentes más pequeñas que construyeron bots basados en GPT3 o SaaS en torno a casos de uso específicos de mensajes de texto, como generadores de nombres o generadores de ideas con una interfaz simple.
Literalmente de la noche a la mañana, con el lanzamiento de chatGPT, estos pequeños SaaS de texto a texto de un solo uso se volvieron redundantes, ya que la gente común ahora puede obtener la misma funcionalidad a través de chatGPT de forma gratuita.
Si bien es posible que OpenAI no haya tenido la intención de competir con los mismos socios que se basan en ellos, puede ser inevitable hacerlo, ya que continúan mejorando su modelo y chatGPT.
Como tal, para garantizar que esto no se repita, es fundamental que cualquier modelo de negocio en torno a esta tecnología descubra qué valor adicional brindan más allá de solo enviar mensajes de texto, tal vez una mejor experiencia del usuario o integraciones con las herramientas existentes, etc.
Un recordatorio del modelo interno, no espere usar esto para curar el cáncer mañana. Por lo tanto, no introduzca IA en cada producto y puesta en marcha en la Tierra cuando no beneficie al usuario final.
~ Hasta la próxima 🖖 larga vida y prosperidad
Eugene Cheah: CTO de uilicious.com
Este artículo se publicó originalmente en la subpila del autor.
swyx también hace un excelente trabajo al tratar de consolidar información diversa, en este espacio rápidamente caótico y en crecimiento, que vale la pena leer (¡¡recomendado!!!)
Actualmente, BLOOM es el principal competidor de código abierto para GPT3 (no 3.5): https://towardsdatascience.com/run-bloom-the-largest-open-access-ai-model-on-your-desktop-computer-f48e1e2a9a32
En la industria de AI / ML, la capacidad de un LLM para aprender rápidamente nuevos conceptos y aplicarlos se cuantifica y mide mediante pruebas llamadas aprendizajes "Zero-Shot", "One-Shot" y "Few-Shot".
En general, cuanto mejor lo hace la IA en estas pruebas, menos datos necesita para entrenarla para su caso de uso.
En mi opinión: esto tiene sentido en retrospectiva: ¿quién hubiera pensado que una red neuronal modelada a partir de humanos actuaría como humanos? Y benefíciate del modelo educativo T-Shape. Donde una gran amplitud de conocimientos generalizados ayuda a mejorar la capacidad de aprender conocimientos especializados en un área de especialización. (esta declaración no está respaldada por ningún dato)