paint-brush
Los desafíos, costos y consideraciones de crear o perfeccionar un LLMpor@edouarddarchimbaud
11,046 lecturas
11,046 lecturas

Los desafíos, costos y consideraciones de crear o perfeccionar un LLM

por Edouard d'Archimbaud18m2023/09/01
Read on Terminal Reader

Demasiado Largo; Para Leer

El camino hacia la creación o el perfeccionamiento de un LLM para su empresa puede ser complejo. Su equipo necesita una guía para comenzar.
featured image - Los desafíos, costos y consideraciones de crear o perfeccionar un LLM
Edouard d'Archimbaud HackerNoon profile picture
0-item

Ya no es ninguna novedad que los LLM han cambiado y seguirán cambiando el juego para la IA y las empresas en todas las industrias. Un estudio de IBM encontró que los directores ejecutivos adoptan cada vez más la IA generativa para mejorar la productividad y obtener una ventaja competitiva. El estudio, que encuestó a 3.000 directores ejecutivos de todo el mundo, encontró que el 75% de los directores ejecutivos cree que la organización con la IA generativa más avanzada tendrá una ventaja competitiva.


Si se ha estado preguntando cuál es la mejor manera de utilizar los LLM y si crearlos o perfeccionarlos, nos gustaría compartir esta guía sobre lo que debe saber para hacerlo de manera efectiva y eficiente.


Primero, veremos cómo se aplican los LLM y en qué industrias pueden tener el mayor impacto para que tenga una mejor idea de lo que puede lograr con un LLM. Luego, hablaremos sobre por qué creamos o perfeccionamos un LLM. Y, por último, compartiremos consideraciones críticas, estrategias y mejores prácticas, para que su equipo pueda tener una perspectiva más clara una vez que haya decidido.


Ahora, profundicemos en cómo se prevé que los LLM cambien industrias y negocios:

Cómo los LLM están cambiando las industrias

Industria de la información

Un documento de trabajo reciente de investigadores de OpenAI, Open Research y la Universidad de Pensilvania encontró que los LLM generalmente pueden afectar a múltiples mercados de EE. UU., y la industria de la información probablemente será la más afectada debido a lo siguiente:

  • La industria de la información depende en gran medida de las capacidades centrales de los LLM, como redacción, análisis de datos, recuperación de información y creación de contenido. Estos se alinean estrechamente con los puntos fuertes de los modelos de IA generativa.
  • Tareas como redactar artículos, informes y otros contenidos pueden generar ganancias significativas de productividad si los LLM generan borradores y revisiones de forma autónoma.
  • Los LLM también pueden ayudar significativamente a otras tareas cotidianas de la industria de la información, como la búsqueda, el procesamiento de datos, el etiquetado de contenido/generación de metadatos y la atención al cliente.
  • Las empresas de información a menudo tienen grandes volúmenes de datos de texto que se pueden utilizar para capacitar y perfeccionar los LLM para que sean altamente efectivos para sus casos de uso específicos.
  • La baja fisicalidad del trabajo en esta industria la hace muy susceptible a la automatización a través de software.

Industria Bancaria

Mientras tanto, un estudio de McKinsey cita la banca como una de las industrias que puede ver el impacto más significativo gracias a los LLM. Si los casos de uso se implementaran por completo, anticipan que la tecnología proporcionaría un valor anual adicional de entre 200.000 y 340.000 millones de dólares.

  • Los LLM pueden mejorar el servicio al cliente al automatizar las respuestas a las consultas de los clientes, reduciendo el volumen de contactos de atención humana.
  • También pueden ayudar en la evaluación de riesgos analizando grandes volúmenes de datos para identificar patrones y tendencias que podrían indicar riesgos potenciales.
  • Además, los LLM pueden ayudar a los bancos a cumplir con los requisitos regulatorios al realizar un seguimiento de los cambios regulatorios y actualizar automáticamente los procedimientos de cumplimiento en consecuencia.

Industria farmacéutica y de productos médicos

Curiosamente, el mismo estudio de McKinsey también afirma que los productos farmacéuticos y médicos podrían impulsarse gracias a los modelos básicos y la IA generativa. El estudio afirma que el impacto podría oscilar entre 60.000 y 110.000 millones de dólares anuales . En particular, ven potencial en el descubrimiento de fármacos. Así es cómo:

  • En el desarrollo preliminar de fármacos, los modelos básicos automatizan la selección de sustancias químicas potenciales, reemplazando la inspección manual de cultivos celulares. Los modelos de base agrupan con precisión imágenes experimentales similares, lo que ayuda a seleccionar sustancias químicas prometedoras para análisis posteriores.
  • En la búsqueda de indicaciones, las posibles indicaciones de fármacos se identifican en función de los historiales clínicos y los registros médicos de los grupos de pacientes. Estos modelos ayudan a cuantificar eventos clínicos, establecer relaciones y medir la similitud entre cohortes de pacientes e indicaciones respaldadas por evidencia. El resultado es una lista de indicaciones con mayor probabilidad de éxito en los ensayos clínicos debido a la coincidencia precisa de los grupos de pacientes.
  • Las empresas que utilizan este enfoque han obtenido altas tasas de éxito en los ensayos, lo que ha acelerado la progresión a los ensayos de fase 3.

Los desafíos y limitaciones de los LLM

Pero si bien el revuelo en torno a los modelos básicos y los LLM puede generar ideas de soluciones mágicas, la realidad es que los LLM y los modelos básicos no son perfectos. Cualquiera que haya utilizado ChatGPT ampliamente u otros LLM en el mercado ha visto que, especialmente para tareas específicas de dominio, el uso de LLM directamente puede fracasar. A continuación se presentan algunos desafíos y limitaciones de los LLM:

Alucinaciones

Quizás el problema más común que encontramos son las alucinaciones. Las alucinaciones son un fenómeno en el que los LLM pueden devolver declaraciones incorrectas que parecen plausibles. Hay dos tipos de alucinaciones: intrínsecas y extrínsecas. Las alucinaciones intrínsecas ocurren cuando el modelo usa una lógica defectuosa que va en contra de la información del usuario, mientras que las alucinaciones extrínsecas ocurren cuando el modelo malinterpreta el contexto de la pregunta del usuario.

Limitaciones de memoria

Los modelos básicos como GPT tienen una ventana de contexto pequeña y solo pueden aceptar una cantidad limitada de caracteres como entrada, lo que puede no ser ideal para aplicaciones específicas. Al igual que los humanos, a medida que aumenta la longitud de la entrada, también aumenta la dificultad para que el modelo la procese con precisión.

Olvido catastrófico

El olvido catastrófico es un fenómeno que ocurre cuando una red neuronal artificial se entrena en múltiples tareas de manera secuencial y los pesos cruciales en la red para la Tarea A se modifican para alinearse con los objetivos de la Tarea B. Esto puede hacer que la red olvide la tarea A. aunque anteriormente era capaz de realizarlo bien.

Problemas de calidad de datos

Los LLM, que se capacitan principalmente con datos sin etiquetar, pueden ser propensos a sesgos porque los datos utilizados en su proceso de capacitación pueden no ser una representación precisa de la distribución de datos del mundo real. Esto se debe a que los datos sesgados utilizados para el entrenamiento pueden reflejarse en el resultado del modelo.

Estas limitaciones llevan a las empresas a pensar estratégicamente sobre cómo quieren trabajar con los LLM. De hecho, los LLM tienen un enorme potencial para cambiar la forma en que trabajan las empresas, lo que puede aportarles más valor, pero estos desafíos deben abordarse. Aquí es donde puede surgir la cuestión de crear o perfeccionar un LLM existente.

¿Cuándo debería crear o perfeccionar un LLM existente?

Construyendo su modelo de lenguaje grande (LLM) desde cero

¿Cuándo tiene sentido crear un LLM desde cero? Crear su propio LLM tendrá más sentido si tiene un caso de uso único que los LLM generales existentes no pueden atender o si el LLM se convierte en un producto central o un principal impulsor comercial para su empresa. Además, si tiene acceso a un gran volumen de datos propietarios valiosos, también tendría sentido crear un LLM para utilizarlos en su beneficio manteniendo la privacidad y seguridad de los datos.

Afinar un LLM

Tiene dos opciones al ajustar un LLM: optar por LLM de código abierto existentes o utilizar la API de LLM comerciales. Un LLM comercial puede tener más sentido si su equipo tiene menos experiencia técnica, mientras que un modelo de código abierto le dará más control. Dicho esto, existen riesgos asociados con el ajuste de un LLM. Debe estar atento a posibles sesgos, toxicidad y exposiciones a la seguridad de los datos. Además, las API comerciales pueden limitar la personalización del modelo y los datos de entrenamiento y el control del producto en sí.

Consideraciones clave al crear o perfeccionar un LLM existente

Asignación de recursos

Ya sea que esté perfeccionando o eligiendo crear un LLM desde cero, sepa que debe estar dispuesto a asignar importantes recursos para alcanzar su objetivo. Crear un LLM desde cero requiere una enorme potencia computacional, además de dedicar tiempo y dinero, así como encontrar la experiencia adecuada.


Por ejemplo, las estimaciones del GPT-3 de OpenAI, un modelo de lenguaje grande con alrededor de 175 mil millones de parámetros, cuestan más de 4,6 millones de dólares . OpenAI también invirtió en una supercomputadora de Microsoft que tiene más de 285.000 núcleos de CPU y 10.000 GPU. Se estima que construir el modelo BloombergGPT más pequeño de Bloomberg, con 50 mil millones de parámetros, costará alrededor de 2,7 millones de dólares . Estas estimaciones no cubren la iteración del modelo necesaria para construir y garantizar que estos LLM sean efectivos.


Para manejar eficazmente el enorme tamaño de los LLM, es necesario garantizar que los datos se limpien, etiqueten, organicen y almacenen adecuadamente de manera eficiente. Recuerde que administrar y procesar datos puede resultar costoso, especialmente si se tiene en cuenta la infraestructura, las herramientas y los ingenieros de datos necesarios.


Por supuesto, perfeccionar un LLM puede ser más práctico, ya que cuesta menos que crear uno propio en su organización. El costo de ajustar un LLM depende de varios factores, incluido el tamaño del modelo, la cantidad de datos utilizados para ajustarlo y los recursos informáticos utilizados.


El costo de ajustar un LLM también puede verse afectado por el algoritmo de ajuste específico utilizado, y algunos algoritmos son más costosos computacionalmente que otros. Los modelos de ajuste fino de OpenAI pueden costar entre $ 0,0004 y $ 0,0300 por cada 1000 tokens y dependerán del tipo de modelo que utilizará para entrenar. Y después de eso hay un costo adicional por el uso de alrededor de $0,0016 a $0,1200 por cada 1000 tokens.


Dicho esto, los avances en diferentes técnicas de ajuste han permitido reducir los costos financieros y computacionales. Un ejemplo es el uso que hace Hugging Face del enfoque de evaluación de políticas con equidad y transparencia para ajustar GPT-3 . Aprovechando este método y la biblioteca bitsandbytes, Hugging Face ha demostrado que es posible ajustar un LLM significativamente más grande que la memoria GPU disponible. Discutiremos algunos métodos más en este artículo.

Conocimientos técnicos

No debería sorprender que se requiera experiencia técnica avanzada para crear y perfeccionar un LLM. Un ingeniero senior de aprendizaje automático vendrá equipado con el conocimiento necesario para perfeccionar un LLM. Sin embargo, necesitará un equipo de ingenieros de aprendizaje automático genuinamente excepcionales para liderar y crear su propio LLM desde cero de manera adecuada. Eche un vistazo a los perfiles de científicos, investigadores y arquitectos líderes de empresas de inteligencia artificial como OpenAI, Meta y Google AI para tener una mejor idea del tipo de ingenieros que necesita tener en su equipo para crear el propio LLM de su organización. rascar. También deberá asegurarse de que estos investigadores tengan un sólido conocimiento del dominio de su industria y negocio.

Tamaño, calidad y consideraciones éticas de los datos

Basura dentro basura fuera


Es bien sabido que crear sus propios LLM desde cero requerirá una gran cantidad de datos. Por ejemplo, LLaMA utilizó un conjunto de datos de entrenamiento que contenía 1,4 billones de tokens y alcanzaba los 4,6 terabytes. Se entrenaron versiones más pequeñas de LLaMA con 1 billón de tokens. En el caso de GPT, se utilizaron 1,5 billones de tokens.


Para perfeccionar los LLM, según su método y recursos, necesitaría menos. Un ejemplo sería Med-PaLM 2 de Google, que fue perfeccionado desde PaLM LLM. Según el documento , el equipo de IA utilizó ajustes de instrucciones y requirió 193.000 ejemplos, lo que equivaldría aproximadamente entre 19 y 39 millones de tokens. Med-PaLM 2 estableció un nuevo avance en comparación con su predecesor al obtener una puntuación del 86,5 % en el conjunto de datos MedQA, que se utilizó para medir el rendimiento de Med-PaLM y PaLM.


Pero más que el tamaño de los datos, las empresas también deben asegurarse de haber tomado las medidas adecuadas de calidad de los datos, ya que "entra basura, sale basura" todavía se aplica incluso a modelos de lenguaje grandes que utilizan cantidades masivas de datos de entrenamiento.


Al utilizar datos patentados, las organizaciones tendrán que resolver las siguientes tareas para garantizar que la calidad y la ética se mantengan en un alto nivel para lograr modelos más efectivos:


  1. Deduplicación y limpieza de datos: este proceso implica identificar y eliminar entradas duplicadas en el conjunto de datos para garantizar que los datos sean precisos y confiables. También incluye corregir errores, inconsistencias e inexactitudes en los datos, como valores faltantes o formato incorrecto. Este paso es crucial para evitar entrenar el modelo con datos incorrectos o redundantes, lo que puede provocar un rendimiento deficiente del modelo.
  2. Moderación de datos: las organizaciones deben establecer un proceso para moderar los datos utilizados para entrenar sus modelos. Esto podría implicar revisar manualmente los datos, utilizar herramientas automatizadas o, idealmente, una combinación de ambas, para filtrar contenido inapropiado o dañino. La moderación de datos eficaz ayuda a garantizar que el modelo no aprenda a generar dicho contenido por sí mismo.
  3. Privacidad de datos: las organizaciones deben asegurarse de que sus datos respeten los estándares de privacidad y cumplan con las regulaciones pertinentes, como GDPR o CCPA. Esto podría implicar anonimizar datos personales, obtener los permisos necesarios para el uso de datos e implementar prácticas seguras de almacenamiento y manejo de datos. Esto es crucial no sólo por razones éticas sino también para evitar problemas legales.
  4. Sesgos de datos: los datos utilizados para entrenar modelos a menudo pueden contener sesgos, que luego el modelo puede aprender y perpetuar. Las organizaciones deben implementar procesos para identificar y mitigar estos sesgos en los datos. Esto podría implicar diversas estrategias de recopilación de datos, herramientas de auditoría de sesgos y enfoques para eliminar los sesgos de los datos. Abordar el sesgo de datos es esencial para los modelos de construcción justos y eso produce resultados confiables en diferentes poblaciones.

Rendimiento del modelo

Dependiendo de los objetivos de la organización, perfeccionar un LLM podría ser suficiente. Hay diferentes formas de adaptar un LLM para satisfacer las necesidades de su organización y mejorar su desempeño. Sin embargo, recomendamos seguir un método inverso para determinar el enfoque óptimo. Este método también ayuda a reducir los costos de perfeccionar un LLM, ya que cuanto más “hacia atrás” en estos pasos, más costosas pueden resultar las técnicas.


Analicemos esto de la manera más sencilla.


Por lo general, la capacitación de un modelo básico o LLM comenzaría con ingenieros de aprendizaje automático que pasarían por una capacitación no supervisada, luego una capacitación supervisada para ajustar el LLM y, finalmente, indicaciones y ajustes rápidos para obtener el resultado requerido. Por supuesto, hay diferentes pasos intermedios, pero nos ceñiremos a estos tres.

Ajuste fino de un LLM


Nuestro camino recomendado para perfeccionar un LLM sería retroceder. Donde primero comienza el ajuste rápido, que incluye ingeniería rápida y depuración rápida. Esto utilizaría la menor cantidad de recursos. Sin embargo, supongamos que el LLM está estancado o no funciona como le gustaría. En ese caso, pasa al ajuste supervisado/de instrucción, que puede incluir métodos como RLHF, generación de recuperación aumentada o aprendizaje por transferencia.


Por ejemplo, aumentamos la precisión de DinoV2 del 83 al 95 % en un caso de uso específico de clasificación de detección de deserciones mediante el aprendizaje por transferencia utilizando solo 200 ejemplos etiquetados.


Finalmente, si todo lo demás falla, el siguiente paso sería utilizar métodos no supervisados y asegurarnos de tener un conjunto de datos adecuado para el entrenamiento previo del modelo.

Mantenimiento y actualizaciones

Como la mayoría de los modelos implementados en entornos dinámicos, ya sean creados o ajustados, los LLM requieren reiteración para seguir siendo eficaces con datos nuevos. La reiteración consiste en adaptar un modelo a nuevos datos u objetivos actualizados. Las empresas deben crear procesos sólidos para reiterar modelos de forma rutinaria utilizando conjuntos de datos nuevos, generalmente iterativos, incluida la construcción/ajuste, prueba e implementación en producción.


Las empresas que han creado LLM exitosos, como OpenAI, lanzan continuamente nuevas versiones de GPT-3. Si bien la fecha límite para los datos de entrenamiento de ChatGPT es septiembre de 2021, OpenAI utiliza datos nuevos del comportamiento de los usuarios para mejorar las capacidades predictivas del modelo , reducir el sesgo y causar menos daño.

Alineación de la estrategia empresarial

Su objetivo comercial también es un factor crítico para determinar si tendría sentido crear o perfeccionar un LLM. Considere cómo las capacidades de los LLM encajan con la visión estratégica más amplia de la empresa. De esta manera, aprovechará todo su potencial estas poderosas herramientas mientras se concentra en sus objetivos comerciales principales. Se han citado algunos ejemplos en las industrias mencionadas al principio de este artículo, pero ahora analicemos algunas de las tareas en las que se destacan los LLM y sus implicaciones estratégicas para diferentes industrias:


  1. Resumen: los LLM pueden extraer puntos clave y resúmenes de documentos o informes extensos. Esto puede resultar de enorme valor en industrias que manejan grandes volúmenes de datos textuales. Por ejemplo, las empresas de investigación de mercado, que producen y analizan informes extensos, pueden utilizar los LLM para generar resúmenes concisos, lo que facilita la extracción de conocimientos y el intercambio de hallazgos con los clientes.
  2. Finalización de texto: los LLM pueden predecir y generar texto basándose en indicaciones dadas, que pueden usarse para ayudar en la creación de contenido. Las industrias dedicadas a la creación de contenidos o servicios de comunicación pueden aprovechar esto para mejorar la productividad y la creatividad.
  3. Preguntas y respuestas (Q&A): los LLM pueden responder consultas en función de un contexto proporcionado, lo que las hace útiles en el servicio al cliente en numerosas industrias. Los bancos, por ejemplo, pueden emplear chatbots con tecnología LLM para atender las consultas de los clientes las 24 horas del día, brindando información rápida y precisa a sus clientes y reduciendo la carga de trabajo del personal de servicio al cliente.
  4. Chatbots: más allá de las preguntas y respuestas, los LLM pueden impulsar chatbots más interactivos y conversacionales, capaces de comprender el contexto y mantener una conversación en múltiples turnos. Esto puede mejorar la experiencia del cliente en industrias como el comercio minorista, las telecomunicaciones y la hostelería, donde la interacción con el consumidor es vital.
  5. Traducción: los LLM también pueden traducir texto entre diferentes idiomas, lo que podría romper las barreras de comunicación en las empresas globales. Esta capacidad puede beneficiar a industrias como el turismo, el comercio internacional y las empresas tecnológicas globales que operan en diferentes regiones lingüísticas.

Evaluación de modelos de lenguaje grandes

Ya sea que esté creando o perfeccionando un LLM, seleccionar el LLM adecuado suele ser el primer paso. Sí, incluso para crear un LLM, es común observar la arquitectura de un modelo previamente existente y comenzar desde allí. Cualquiera que sea su elección, los equipos deben experimentar y evaluar varios modelos para encontrar el mejor punto de partida.


La evaluación de los LLM también conlleva su propio conjunto de desafíos. Después de todo, todavía es un área de investigación en curso, por lo que no existe una estandarización o sistematización estricta para evaluar estos modelos.


Por supuesto, existen tablas de clasificación establecidas por comunidades como HuggingFace, que pueden darle una idea general de qué tan bien se desempeñará un modelo. Pero lo que puede funcionar bien en las tablas de clasificación puede no traducirse tan fácilmente en su caso de uso específico. Los LLM a menudo se evalúan en conjuntos de datos de referencia, pero es posible que su desempeño no refleje con precisión cómo se desempeñarán en escenarios del mundo real, que pueden ser mucho más diversos e impredecibles.


Hay dos enfoques para evaluar modelos de lenguaje grandes: un enfoque cuantitativo y uno cualitativo. Ambos vienen con sus advertencias.

Evaluación cuantitativa

La evaluación cuantitativa a menudo implica métricas de aprendizaje automático como perplejidad, BLEU, pérdida de entropía cruzada, etc. Herramientas como la biblioteca de evaluación OpenAI, el paquete lm-eval python de EleutherAI y la evaluación holística de modelos de lenguaje (HELM) permiten a los usuarios evaluar sus modelos en numerosos puntos de referencia cuantitativamente.


Si bien la evaluación cuantitativa es sencilla, es posible que estas métricas no necesariamente ayuden a los usuarios a seleccionar un modelo apropiado para su tarea específica. Los usuarios a menudo necesitan un modelo que destaque en su tarea específica, como redactar un documento legal o analizar el informe financiero de una empresa, en lugar de un modelo que pueda predecir el siguiente token con la mayor precisión.

Evaluación cualitativa

La evaluación cualitativa implica evaluar los LLM en función de tareas específicas utilizando criterios como coherencia, sesgo, creatividad y confiabilidad. Esta evaluación manual es relativamente lenta ya que la velocidad y la disponibilidad de evaluadores humanos pueden obstaculizarla. Sin embargo, es posible optimizar el proceso aplicando las mismas técnicas de automatización en el etiquetado de datos: aprendizaje activo, QA programático, QA automático, etc.


Se recomendaría una combinación de evaluación cuantitativa y cualitativa utilizando el conjunto de datos específico de su empresa para encontrar el mejor LLM para ajustar o basarse.

Mejores prácticas

Comprender las leyes de escala

Las leyes de escala en el aprendizaje automático solían centrarse en aumentar el tamaño de los modelos sobre el tamaño del conjunto de datos a medida que se expandían los presupuestos informáticos. Esto se basó en el supuesto de que los modelos más grandes podrían extraer más información y funcionar mejor incluso si la cantidad de datos se mantuviera constante.


Pero en 2022, DeepMind cuestionó este enfoque , sugiriendo que los modelos generalmente no están suficientemente entrenados y, por lo tanto, el tamaño de los conjuntos de datos debería crecer junto con el tamaño del modelo. Según los hallazgos de DeepMind, los tamaños de los modelos y conjuntos de datos deberían aumentar aproximadamente tres veces por cada aumento de diez veces en la potencia informática. Esto implica que los modelos actuales están por debajo de la curva óptima de datos/cómputo, y simplemente hacerlos más grandes no produciría mejores resultados sin un aumento concomitante de datos.


Estas nuevas leyes de escala recomiendan determinar primero el tamaño máximo del conjunto de datos de alta calidad, según la información disponible. Luego, se puede elegir el tamaño de modelo óptimo para ese conjunto de datos en función de la computación disponible, utilizando las leyes de escalamiento óptimo de datos de DeepMind. Es esencial no hacer modelos arbitrariamente grandes sino encontrar el equilibrio adecuado basándose en los datos. Además, los conjuntos de datos más grandes requieren experiencia para recopilarlos y diversidad para mejorar la generalización, lo que añade otra capa de complejidad al proceso.

Calidad de datos

Factores que influyen en la calidad de los datos


Ya sea que esté perfeccionando o creando un LLM, los modelos serán tan buenos como los datos que proporcionen. Por lo tanto sus datos deben ser representativos y estar ampliamente preprocesados. La diversidad de fuentes de datos es beneficiosa incluso para los LLM de dominios específicos.


Por ejemplo, Med-PaLM 2 de Google requirió de cientos a miles de ejemplos de varios conjuntos de datos de control de calidad médicos y de salud para que el modelo se ajustara adecuadamente. Y para construir BloombergGPT, la combinación de conjuntos de datos utilizada fue 51% de datos financieros y 49% de datos de dominio general para la diversidad temática. En ambos casos, los investigadores realizaron una exhaustiva selección de datos para garantizar que se utilizaran datos relevantes y de alta calidad para construir modelos eficaces.

Entrenamiento previo y experimentación en pasos incrementales

No existe un camino directo cuando se trata de crear o perfeccionar un LLM. Como la mayoría de los esfuerzos de aprendizaje automático o IA, siempre es una buena medida empezar poco a poco . Comenzar con un modelo más pequeño en un conjunto de datos más pequeño facilitará la experimentación. Iterar e introducir cambios incrementales en la arquitectura del modelo, como ancho, profundidad, escasez, etc., facilitará que su equipo evalúe su impacto. Puede comenzar con modelos existentes más antiguos, ajustarlos a sus necesidades y comenzar desde allí. Una vez que su modelo más pequeño funcione bien, puede aumentar gradualmente el tamaño del modelo y del conjunto de datos.


Recuerde guardar instantáneas de su modelo como respaldo en caso de que sea necesario un respaldo. Los contratiempos serán inevitables, ya sea que estés construyendo o ajustando, por lo que es fundamental anticipar los problemas.

Mitigar la inestabilidad

Esto nos lleva a la práctica crítica de mitigar la inestabilidad para ahorrar tiempo. Cuanto más grande es el modelo, más difícil es de mantener. Más allá del sobreajuste y el desajuste, su modelo puede sufrir problemas como gradientes que desaparecen o explotan, colapso de modo, picos de pérdida, olvidos catastróficos y limitaciones de hardware.


Ya hemos hablado del olvido catastrófico, que ocurre cuando un modelo obtiene malos resultados en una tarea anterior después de introducir un nuevo tipo de tarea. Los gradientes que desaparecen o explotan son problemas comunes en el entrenamiento de redes neuronales profundas, donde los gradientes se vuelven demasiado pequeños o demasiado grandes, lo que resulta en una desaceleración o inestabilidad del proceso de aprendizaje. El colapso del modo ocurre en los modelos generativos y ocurre cuando el modelo genera los mismos resultados a pesar de tener diferentes entradas. Los picos de pérdidas se refieren a predicciones cada vez más pobres del modelo. Y, por último, trabajar con LLM puede ser un desafío para el hardware y puede provocar fallas.


Hay varias formas de prepararse o, al menos, mitigar las inestabilidades. Estas no son innovadoras, pero son prácticas estándar que también puedes ver en diferentes aplicaciones de aprendizaje profundo:


Tamaño de lote : generalmente se recomienda utilizar el tamaño de lote más grande que pueda caber en la memoria de su GPU. Los tamaños de lote más grandes ofrecen ventajas en términos de eficiencia computacional, utilización de la memoria y una estimación de gradiente potencialmente más precisa. Pueden utilizar mejor las capacidades de procesamiento paralelo de las GPU, lo que resulta en tiempos de entrenamiento más rápidos.


Utilice técnicas de regularización : las técnicas de regularización, como el abandono y la disminución del peso, pueden ayudar a prevenir el sobreajuste o la inestabilidad del modelo.


Normalización por lotes : la normalización por lotes puede ayudar a reducir el cambio de covariables interno, lo que permite una convergencia más rápida y estable durante el entrenamiento. También ayuda a aliviar el problema del gradiente que desaparece al garantizar que los gradientes fluyan más suavemente a través de la red.


Elegir la inicialización del peso adecuada : la inicialización del peso desempeña un papel fundamental a la hora de mitigar la inestabilidad del entrenamiento y garantizar un aprendizaje eficaz. Un enfoque común para la inicialización del peso es utilizar un pequeño ruido gaussiano. Esto implica inicializar aleatoriamente los pesos de una distribución gaussiana con una media de cero y una pequeña desviación estándar. Al agregar ruido aleatorio, los pesos reciben diversidad inicial, lo que permite que el modelo explore diferentes soluciones durante el entrenamiento.


Aumento de datos : si su modelo tiene dificultades para generalizarse y es propenso a sobreajustarse, el aumento de datos puede ayudar a mitigar esto al introducir variaciones en los datos de entrenamiento y mejorar la solidez del modelo.


Programación de la tasa de aprendizaje : disminuya gradualmente su tasa de aprendizaje con el tiempo para reducir sus pérdidas y mantener la estabilidad del modelo tanto como sea posible. Puede utilizar una caída escalonada o una caída exponencial. La caída escalonada se produce cuando se reduce la tasa de aprendizaje en un factor a intervalos regulares, mientras que la caída exponencial reduce la tasa de aprendizaje exponencialmente.

Conclusión

A medida que las empresas continúan dándose cuenta del impacto de los LLM, tiene sentido que comiencen a preguntarse cuál es la mejor manera de utilizar esta valiosa herramienta. Elegir el LLM adecuado y ajustarlo para que se adapte a las necesidades de su empresa puede ser la opción más sencilla. Sin embargo, seguirá implicando una variedad de consideraciones para ajustar el modelo de manera efectiva y de la manera más eficiente posible.


Primero, su equipo debe poder evaluar correctamente una variedad de LLM para elegir el mejor punto de partida. Deberían sentirse cómodos experimentando con el modelo. Para ser eficientes, necesitan tener en cuenta datos de alta calidad y mejores prácticas al crear una estrategia para crear o perfeccionar un LLM.


Es un proyecto complejo y ambicioso de cualquier manera que elijas, pero como ya hemos visto, los LLM tienen un potencial impresionante para aportar valor.

Referencias:

[1] IBM y los directores ejecutivos adoptan la IA generativa a medida que la productividad pasa a la cima de sus agendas (2023), IBM Newsroom

[2] T. Eloundou, S. Manning, P. Mishkin, D. Rock, Los GPT son GPT: una mirada temprana al potencial de impacto en el mercado laboral de los modelos lingüísticos grandes (2023), arXiv:2303.10130v4 [econ.GN]

[3] McKinsey & Company, El potencial económico de la IA generativa: la próxima frontera de la productividad (2023), McKinsey Digital Insights

[4] C. Li, Desmitificando GPT-3 (2023), Blog de Lambda Labs

[5] J. Langston, Microsoft anuncia una nueva supercomputadora, presenta una visión para el futuro trabajo de IA (2020), Microsoft News Source Features Innovation

[6] J. Sheikh, El ChatGPT de las finanzas ya está aquí: Bloomberg combina IA y tecnología financiera (2023), Forbes.com

[7] E. d'Archimbaud, 3 formas de adaptar un modelo de cimentación para que se ajuste a sus necesidades específicas (2023), Kili Technology.

[8] M. Heikkilä, Cómo OpenAI intenta hacer que ChatGPT sea más seguro y menos sesgado (2023), MIT Technology Review.

[9] K. Singhal, T. Tu, J. Gottweis, R. Sayres, E. Wulczyn, L. Hou, K. Clark, S. Pfohl, H. Cole-Lewis, D. Neal, M. Schaekermann, A. .Wang, M. Amin, S. Lachgar, P. Mansfield, S. Prakash, B. Green, E. Dominowska, B. Aguera y Arcas, N. Tomasev, Y. Liu, R. Wong, C. Semturs, S Sara Mahdavi, J. Barral, D. Webster, GS Corrado, Y. Matias, S. Aziziy, A. Karthikesalingamy y V. Natarajany, Towards Expert-Level Medical Question Answering with Large Language Models (2023), arXiv:2305.09617 v1 [cs.CL] 16 de mayo de 2023.

[10] S. Wu, O. Irsoy, S. Lu, V. Dabravolski, M. Dredze, S. Gehrmann, P. Kambadur, D. Rosenberg, G. Mann, BloombergGPT: Un modelo de lenguaje grande para las finanzas (2023) , arXiv:2303.17564v2 [cs.LG]

[11] J. Hoffmann, S. Borgeaud, A. Mensch, E. Buchatskaya, T. Cai, E. Rutherford, D. de Las Casas, LA Hendricks, J. Welbl, A. Clark, T. Hennigan, E. Noland, K. Millican, G. van den Driessche, B. Damoc, A. Guy, S. Osindero, K. Simonyan, E. Elsen, JW Rae, O. Vinyals, L. Sifre, Entrenamiento de modelos de lenguaje grande óptimos para la computación (2023), arXiv:2203.15556v1 [cs.CL]

[12] A. Pai, Guía para principiantes para crear sus propios modelos de lenguaje grandes desde cero (2023), Analytics Vidhya.

[13] Pesos y sesgos, Cómo capacitar LLM desde cero (2023), Informe técnico de pesos y sesgos.