paint-brush
IA generativa: opiniones de expertos sobre la evolución, los desafíos y las tendencias futuraspor@elekssoftware
331 lecturas
331 lecturas

IA generativa: opiniones de expertos sobre la evolución, los desafíos y las tendencias futuras

por ELEKS11m2024/07/23
Read on Terminal Reader

Demasiado Largo; Para Leer

Sumérgete en el mundo de la IA generativa con el análisis experto de ELEKS, descubre los desafíos y mira lo que depara el futuro.
featured image - IA generativa: opiniones de expertos sobre la evolución, los desafíos y las tendencias futuras
ELEKS HackerNoon profile picture

La IA ha captado la atención de los entusiastas de la tecnología y los expertos de la industria desde hace bastante tiempo. En este artículo profundizamos en la evolución de la IA, arrojando luz sobre los problemas que plantea y las tendencias emergentes en el horizonte.


A medida que observamos el crecimiento exponencial de la tecnología de IA , se vuelve cada vez más crucial tener una comprensión integral de sus capacidades para maximizar sus beneficios potenciales. Al profundizar en este complejo ámbito, Volodymyr Getmanskyi, director de la oficina de ciencia de datos de ELEKS, comparte sus conocimientos y experiencia sobre este tema de tendencia.

IA versus GenAI: diferencias clave explicadas

En primer lugar, la IA generativa es parte del campo de la IA. Mientras que la IA se centra principalmente en automatizar u optimizar las tareas humanas, la IA generativa se centra en la creación de diferentes objetos. Las tareas típicas de la IA, como la creación de agentes conversacionales o de toma de decisiones, la automatización inteligente, el reconocimiento y procesamiento de imágenes, así como la traducción, se pueden mejorar con GenAI. Permite la generación de textos e informes, imágenes y diseños, discursos y música, y más.


Como resultado, la integración de la IA generativa en las tareas y flujos de trabajo cotidianos se ha vuelto cada vez más fluida e impactante. Cabría preguntarse qué tipo de generación de datos es el más popular. Sin embargo, la respuesta no es sencilla.


Los modelos multimodales permiten la generación de diferentes tipos de datos basados en diversos inputs. Por lo tanto, incluso si tuviéramos estadísticas de uso, sería un desafío determinar el tipo de datos más popular que se genera. Sin embargo, según las necesidades empresariales actuales, los modelos de lenguajes grandes se encuentran entre los más populares.


Estos modelos pueden procesar texto e información numérica y pueden usarse para tareas como respuesta a preguntas, transformación de texto (traducción, revisión ortográfica, enriquecimiento) y generación de informes. Esta funcionalidad es una parte importante de las actividades operativas de empresas de todos los sectores, a diferencia de la generación de imágenes o vídeos, que es menos común.

Grandes modelos de lenguaje: de la generación de texto a los gigantes modernos

Los modelos de lenguaje grande (LLM) son enormes transformadores, que son un tipo de modelo de aprendizaje profundo o, en pocas palabras, redes neuronales específicas. Generalmente, los LLM tienen entre 8 mil millones y 70 mil millones de parámetros y están capacitados con grandes cantidades de datos. Por ejemplo, Crawl, uno de los conjuntos de datos más grandes, contiene páginas web e información de la última década, lo que representa decenas de petabytes de datos.


Para ponerlo en perspectiva, el conjunto de datos del Titanic, que consta de alrededor de 900 muestras que describen qué pasajeros sobrevivieron al naufragio del Titanic, tiene un tamaño inferior a 1 Mb, y el modelo que puede predecir de manera eficiente la probabilidad de supervivencia puede tener entre 25 y 100 parámetros. .


Los LLM también tienen una larga historia y no aparecieron de repente. Por ejemplo, el departamento de ciencia de datos de ELEKS utilizó GPT-2 para la generación de respuestas en 2019, mientras que el primer modelo GPT (transformador generativo preentrenado) se lanzó en 2018. Sin embargo, ni siquiera esa fue la primera aparición de los modelos de generación de texto. . Antes de que comenzara la era de los transformadores en 2017, tareas como la generación de texto se habían abordado mediante diferentes enfoques, por ejemplo:


  • Redes generativas adversarias: un enfoque en el que el generador se entrena basándose en la retroalimentación de otra red o discriminador.
  • Codificadores automáticos: un enfoque general y bien conocido en el que el modelo intenta reproducir la entrada.


En 2013, se propusieron incrustaciones eficientes de palabras vectoriales como word2vec, e incluso antes, en el siglo anterior, hubo ejemplos de generación probabilística y basada en patrones, como el chatbot Eliza en 1964. Entonces, como podemos ver, el lenguaje natural Las tareas e intentos de generación de energía (NLG) existen desde hace muchos años.


La mayoría de los usuarios actuales de LLM, como ChatGPT, GPT, Gemini, Copilot, Claude, etc., probablemente no lo sepan porque los resultados no fueron tan prometedores como después del primer lanzamiento de InstructGPT, donde OpenAI propuso el acceso público, promoviendo él. Tras el primer lanzamiento de ChatGPT en noviembre de 2022, que recibió millones de menciones en las redes sociales.

El debate sobre la regulación de la IA: equilibrar la innovación y la seguridad

Hoy en día, la comunidad de IA está dividida sobre el tema de los riesgos de la IA y las necesidades de cumplimiento: algunos abogan por las regulaciones y el control de seguridad de la IA, mientras que otros se oponen a ellos. Entre los críticos se encuentra Yann LeCun, jefe de IA de Meta (Facebook), quien afirmó que dichos agentes de IA tienen una inteligencia que ni siquiera se parece a la de un perro.


El grupo Meta AI (anteriormente Facebook AI Research) es uno de los desarrolladores de modelos de IA gratuitos y disponibles públicamente, como Detectron, Llama, SegmentAnything y ELF, que se pueden descargar y utilizar libremente con solo algunas limitaciones comerciales. El acceso abierto definitivamente ha sido recibido favorablemente por la comunidad mundial de IA.


Esos sistemas son todavía muy limitados; no tienen ninguna comprensión de la realidad subyacente del mundo real porque están exclusivamente entrenados en texto, una cantidad masiva de texto.


— Yann LeCun, científico jefe de IA en Meta


Los funcionarios también han planteado preocupaciones sobre las regulaciones. Por ejemplo, el presidente francés, Emmanuel Macron, advirtió que una legislación histórica de la UE diseñada para abordar el desarrollo de la inteligencia artificial corre el riesgo de obstaculizar a las empresas tecnológicas europeas en comparación con sus rivales en Estados Unidos, Reino Unido y China.


Por otro lado, hay partidarios de la regulación de la IA. Según Elon Musk, director ejecutivo de Tesla, la IA es uno de los mayores riesgos para el futuro de la civilización. Esto es lo mismo que los representantes de IA no públicos/pagados, pero aquí, los verdaderos estímulos de tal posición pueden ser la competencia de mercado: limitar la difusión de modelos de IA competidores.

Descripción general de la Ley de Inteligencia Artificial de la UE

En 2023, el parlamento de la UE aprobó la Ley de IA, el primer conjunto de normas integrales que rigen el uso de tecnologías de IA dentro de la Unión Europea. Esta legislación sienta un precedente para el desarrollo e implementación de IA responsable y ética.


Cuestiones clave abordadas por la Ley de IA de la UE:

  • En primer lugar, existen limitaciones lógicas a los datos personales, como ya lo señalan diferentes estándares, como GDPR (UE), APPI (Japón), HIPPA (EE.UU.) y PIPEDA (Canadá), que cubren el procesamiento de datos personales, la identificación biométrica, etc.


  • Relacionados con esto están los sistemas de puntuación o cualquier forma de categorización de personas, donde el sesgo del modelo puede tener un impacto significativo y potencialmente conducir a la discriminación.


  • Finalmente, existe la manipulación del comportamiento, donde algunos modelos pueden intentar aumentar cualquier KPI empresarial (tasas de conversión, consumo excesivo).

Preparación y uso del modelo de IA: desafíos e inquietudes

Hay muchos problemas e inquietudes relacionados con la preparación, el uso y otras actividades ocultas del modelo. Por ejemplo, los datos utilizados para la formación del modelo consisten en datos personales que no fueron autorizados para tales fines. Los proveedores globales ofrecen servicios centrados en correspondencia privada (correos electrónicos) u otros activos privados (fotos, vídeos) que pueden utilizarse para la formación del modelo en modo oculto sin ningún anuncio.


Recientemente se dirigió una pregunta al CTO de OpenAI sobre el uso de videos privados para la capacitación de SORA, un servicio no público de OpenAI para generar videos basados en consultas textuales, pero no pudo dar una respuesta clara.


Otro problema puede estar relacionado con el etiquetado y filtrado de datos: no conocemos las características personales, habilidades, estereotipos y conocimientos de los especialistas involucrados allí, y esto puede introducir declaraciones/contenidos no deseados en los datos. Además, había una cuestión ética: había información de que algunos de los proveedores globales de GenAI involucraban a etiquetadores de Kenia y les pagaban mal.


También son problemas el sesgo de modelo y las llamadas alucinaciones de modelo, en las que los modelos proporcionan respuestas incorrectas o parcialmente incorrectas que parecen perfectas. Recientemente, el equipo de ciencia de datos de ELEKS estuvo trabajando para mejorar la solución de generación aumentada (RAG) de recuperación de nuestros clientes, que cubre mostrar algunos datos para el modelo, y el modelo resume o proporciona respuestas basadas en esos datos.


Durante el proceso, nuestro equipo se dio cuenta de que muchos modelos modernos en línea (más grandes pero pagos) o fuera de línea (más pequeños y públicos) confunden los nombres y números de las empresas.


  • Teníamos datos que contenían estados financieros e información de auditoría de algunas empresas, y la solicitud era mostrar los ingresos de la empresa A. Sin embargo, los ingresos de la empresa A no se proporcionaron directamente en los datos y fue necesario calcularlos. La mayoría de los modelos, incluidos los líderes en el benchmark LLM Arena, respondieron con un nivel de ingresos incorrecto que pertenecía a la empresa B. Este error se produjo debido a combinaciones de caracteres parcialmente similares en los nombres de las empresas, como "Ltd", "Service", etc.


    En este caso, ni siquiera el rápido aprendizaje ayudó; agregar una declaración como "si no está seguro o falta alguna información, responda no sé" no resolvió el problema.


  • Otra cosa tiene que ver con la representación numérica: los LLM perciben los números como tokens, o incluso muchos tokens, como 0,33333 que se pueden codificar como '0,3' y '3333' según el enfoque de codificación de pares de bytes, por lo que es difícil lidiar con números complicados. Transformaciones sin adaptadores adicionales.


El reciente nombramiento del general retirado del ejército estadounidense Paul M. Nakasone como miembro de la junta directiva de OpenAI ha provocado reacciones encontradas. Por un lado, la amplia experiencia de Nakasone en ciberseguridad e inteligencia se considera un activo importante, que probablemente implementará estrategias sólidas para defenderse contra los ciberataques, algo crucial para una empresa que se ocupa de la investigación y el desarrollo de la IA.


Por otro lado, existen preocupaciones sobre las posibles implicaciones del nombramiento de Nakasone debido a su experiencia militar y de inteligencia (exjefe de la Agencia de Seguridad Nacional (NSA) y del Comando Cibernético de EE. UU.), que puede conducir a una mayor vigilancia e intervención del gobierno.


El temor es que Nakasone pueda facilitar un acceso más amplio por parte de las agencias gubernamentales a los datos y servicios de OpenAI. Así, algunos temen que este nombramiento pueda afectar tanto al uso del servicio, a los datos, a las solicitudes de las agencias gubernamentales como a las limitaciones del propio servicio.


Finalmente, existen otras preocupaciones, como la vulnerabilidad del código generado, sugerencias contradictorias, uso inapropiado (aprobar exámenes u obtener instrucciones sobre cómo crear la bomba) y más.

Cómo mejorar el uso de los LLM para obtener resultados más sólidos

Primero, es crucial determinar si es necesario utilizar LLM y si debe ser un modelo fundamental general. En algunos casos, el propósito y la tarea descompuesta no son tan complicados y pueden resolverse mediante modelos fuera de línea más simples, como errores ortográficos, generación basada en patrones y análisis/recuperación de información. Además, el modelo general puede responder preguntas no relacionadas con el propósito previsto de la integración de LLM.


Hay ejemplos en los que la empresa fomentó la integración de LLM en línea (por ejemplo, GPT, Gemini) sin adaptadores adicionales (preprocesadores y posprocesadores) y encontró un comportamiento inesperado. Por ejemplo, el usuario le pidió a un chatbot de un concesionario de automóviles que escribiera el script Python para resolver la ecuación de flujo de fluido de Navier-Stokes, y el chatbot dijo: "¡Por supuesto! Lo haré".


Luego viene la cuestión de qué LLM utilizar: público y fuera de línea o pago y fuera de línea. La decisión depende de la complejidad de la tarea y de las posibilidades informáticas. Los modelos en línea y de pago son más grandes y tienen un mayor rendimiento, mientras que los modelos públicos y fuera de línea requieren gastos significativos de alojamiento, y a menudo necesitan al menos 40 Gb de VRAM. Al utilizar modelos en línea, es fundamental tener un control estricto de los datos confidenciales compartidos con el proveedor.


Normalmente, para este tipo de cosas, creamos el módulo de preprocesamiento que puede eliminar información personal o confidencial, como detalles financieros o acuerdos privados, sin cambiar significativamente la consulta para preservar el contexto, dejando información como el tamaño de la empresa o la ubicación aproximada si es necesario.


El paso inicial para disminuir el sesgo del modelo y evitar alucinaciones es elegir los datos o el contexto correctos o clasificar a los candidatos (por ejemplo, para RAG). A veces, la representación vectorial y las métricas de similitud, como la similitud del coseno, pueden no ser efectivas. Esto se debe a que pequeñas variaciones, como la presencia de la palabra "no" o ligeras diferencias en los nombres (por ejemplo, Oracle frente a Orache), pueden tener un impacto significativo.


En cuanto al posprocesamiento, podemos indicarle al modelo que responda "no sé" si la confianza es baja y desarrollar un adaptador de verificación que verifique la precisión de las respuestas del modelo.

Tendencias emergentes y direcciones futuras en el campo LLM

Existen numerosas líneas de investigación en el campo de los LLM y semanalmente aparecen nuevos artículos científicos. Estos artículos cubren una variedad de temas, incluida la optimización de transformadores/LLM, robustez, eficiencia (por ejemplo, cómo generalizar modelos sin aumentar significativamente su tamaño o número de parámetros), técnicas de optimización típicas (como destilación) y métodos para aumentar la entrada (contexto). longitud.


Entre las diversas direcciones, las más destacadas durante el período reciente incluyen la mezcla de tokens, la mezcla de expertos, la mezcla de profundidad, el esqueleto de pensamientos, RoPE y la cadena de pensamientos. Describamos brevemente qué significa cada uno de estos.


  1. La mezcla de expertos (MoE) es una arquitectura de transformador diferente. Por lo general, tiene una capa dinámica que consta de varias (8 en Mixtral) o muchas capas densas/aplanadas que representan diferentes conocimientos. Esta arquitectura incluye métodos de conmutación o enrutamiento, por ejemplo, una función de puerta que permite seleccionar qué tokens deben ser procesados por qué expertos, lo que lleva a la reducción del número de capas ("expertos") por token o grupo de tokens a un experto (capa de conmutación). ).


    Esto permite un escalado eficiente del modelo y mejora el rendimiento mediante el uso de diferentes submodelos (expertos) para las piezas de entrada, lo que lo hace más efectivo que usar una capa general e incluso más grande.


  2. La Mezcla de tokens está conectada a la Mezcla de expertos mencionada, donde agrupamos los tokens por su importancia (activación softmax) para un experto específico.


  3. La técnica de mezcla de profundidad también está relacionada con los MoE mencionados, particularmente en términos de enrutamiento. Su objetivo es disminuir el gráfico de computación (presupuesto de computación), limitándolo a los tokens superiores que se utilizarán en el mecanismo de atención. Los tokens considerados menos importantes (por ejemplo, puntuación) para la secuencia específica se omiten. Esto da como resultado una participación dinámica de tokens, pero el número de tokens k (k tokens principales) es estático, por lo que podemos disminuir los tamaños de acuerdo con el presupuesto de cómputo (o k, que hemos elegido).


  4. El esqueleto de pensamientos es eficiente para el escalado de LLM y permite la generación de partes de la finalización (respuesta del modelo) en paralelo en función de la solicitud del esqueleto primario, que consta de puntos que se pueden paralelizar.


  5. Hay otros desafíos, por ejemplo, el tamaño de la entrada. Los usuarios a menudo desean proporcionar a un LLM grandes cantidades de información, a veces incluso libros completos, manteniendo sin cambios la cantidad de parámetros. Aquí hay dos métodos conocidos , ALiBi (Capa de atención con sesgos lineales) y RoPE (Incrustación de posición rotativa) , que pueden extrapolar, o posiblemente interpolar, la incrustación de entrada utilizando la codificación posicional dinámica y el factor de escala, lo que permite a los usuarios aumentar la longitud del contexto en comparación. al que se utilizó para el entrenamiento.


  6. La sugerencia de cadena de pensamientos , que es un ejemplo de sugerencia de pocas tomas (el usuario proporciona la supervisión del LLM en el contexto), tiene como objetivo descomponer la pregunta en varios pasos. Principalmente, se aplica a problemas de razonamiento, como cuando se puede dividir la lógica en algún plan computacional. El ejemplo del documento original: "Roger tiene 5 pelotas de tenis. Compra 2 latas más de pelotas de tenis. Cada lata tiene 3 pelotas de tenis. ¿Cuántas pelotas de tenis tiene ahora? Plan de pensamientos: Roger comenzó con 5 pelotas. 2 latas de 3 pelotas de tenis cada una son 6 pelotas de tenis 5 + 6 = 11. La respuesta es 11."


Además de eso, hay muchas otras direcciones, y cada semana aparecen varios artículos nuevos e importantes a su alrededor. A veces, los científicos de datos tienen un problema adicional a la hora de seguir todos estos desafíos y logros.

¿Qué pueden esperar los usuarios finales de los últimos desarrollos en IA?

También hay muchas tendencias, solo para resumir, puede haber regulaciones de IA más estrictas, que limitarán las diferentes soluciones y, finalmente, darán como resultado la generalización o la cobertura de campo de los modelos disponibles. Otras tendencias tienen que ver principalmente con la mejora de los enfoques existentes, por ejemplo, la disminución del número de parámetros y la memoria necesaria (por ejemplo, cuantificación o incluso LLM de 1 bit, donde cada parámetro es ternario (puede tomar valores -1, 0, 1)).


Por lo tanto, podemos esperar que los LLM o Diffusion Transformers (DiT: modelos modernos de Diffusion y sucesores de Visual Transformers (principales para las tareas de generación de imágenes)) se ejecuten fuera de línea incluso en nuestros teléfonos (hoy en día, hay varios ejemplos, por ejemplo, el modelo Phi-2 de Microsoft). (con la velocidad de generación es de aproximadamente 3 a 10 tokens por segundo en dispositivos Android modernos basados en Snapdragon).


Además, habrá una personalización más avanzada (utilizando toda la experiencia y comentarios previos del usuario para proporcionar resultados más adecuados), incluso hasta gemelos digitales. Se habrán mejorado muchas otras cosas que están disponibles ahora mismo: asistentes/personalización de modelos y mercados, un modelo para todo (dirección multimodal), seguridad (un mecanismo más eficiente para trabajar con datos personales, codificarlos, etc.), y otros.


¿Listo para desbloquear el potencial de la IA para su negocio? Póngase en contacto con el experto de ELEKS .