paint-brush
Por qué los modelos de lenguaje de código abierto son una verdadera "IA abierta"by@FrederikBussler
5,941
5,941

Por qué los modelos de lenguaje de código abierto son una verdadera "IA abierta"

Frederik Bussler4m2024/02/05
Read on Terminal Reader

El futuro a largo plazo de la IA no reside en modelos más grandes y privados servidos exclusivamente a través de API, sino en modelos de lenguaje de código abierto construidos al aire libre junto con las comunidades.
featured image - Por qué los modelos de lenguaje de código abierto son una verdadera "IA abierta"
Frederik Bussler HackerNoon profile picture
0-item
1-item
2-item

En 2015, un sin ánimo de lucro OpenAI se formó para crear IA “amplia y uniformemente distribuida”. Un avance rápido hasta 2024, y OpenAI ha pasado a un modo totalmente lucrativo, acaparando el acceso a LLM detrás de un servicio API transaccional. Más recientemente, están buscando un Valoración de 100 mil millones de dólares .


La última década de progreso en IA ha estado dominada por grandes empresas tecnológicas como Google, Meta y OpenAI que lanzaron modelos de lenguajes propietarios cada vez más grandes. Desde Bard y Claude hasta GPT-4, gran parte de lo último en procesamiento del lenguaje natural (PNL) ha permanecido concentrado en manos de unos pocos laboratorios de investigación.


Sin embargo, el futuro a largo plazo de la IA no reside en modelos más grandes y privados servidos exclusivamente a través de API, sino en modelos de lenguaje de código abierto construidos al aire libre junto con las comunidades.

Modelos de lenguaje de código abierto

En los últimos años, un puñado de nuevas empresas, universidades y personas dedicadas han ayudado a ser pioneros en este modelo abierto de desarrollo de modelos lingüísticos.


El último modelo que continúa este linaje de código abierto es H2O-Danube-1.8B . Con un peso de 1.800 millones de parámetros, Danube demuestra una capacidad sorprendente incluso en comparación con otros modelos disponibles públicamente que superan con creces su tamaño. El equipo de H2O.ai diseñó, entrenó y validó meticulosamente Danube de forma completamente transparente, con el informe completo disponible en arXiv .


En lugar de acaparar el acceso, H2O.ai publicó abiertamente los parámetros completos y el código de entrenamiento de Danube en HuggingFace. A los pocos días del anuncio inicial, los desarrolladores curiosos comenzaron a experimentar libremente con el modelo, demostrando que la rápida generación de innovación simplemente no era factible con modelos propietarios. Al momento de escribir este artículo, el modelo completo de h2o-danube-1.8b-chat se ha descargado más de 500 veces en HuggingFace.


Cualquiera puede usar el modelo con la biblioteca transformers , siguiendo el siguiente código, cortesía del repositorio HuggingFace de h2o:


 import torch from transformers import pipeline pipe = pipeline( "text-generation", model="h2oai/h2o-danube-1.8b-chat", torch_dtype=torch.bfloat16, device_map="auto", ) # We use the HF Tokenizer chat template to format each message # https://huggingface.co/docs/transformers/main/en/chat_templating messages = [ {"role": "user", "content": "Why is drinking water so healthy?"}, ] prompt = pipe.tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True, ) res = pipe( prompt, max_new_tokens=256, ) print(res[0]["generated_text"]) # <|prompt|>Why is drinking water so healthy?</s><|answer|> Drinking water is healthy for several reasons: [...]


H2O cree que colaborar abiertamente sigue siendo la clave definitiva para democratizar el acceso a la IA y desbloquear beneficios para muchos en lugar de riqueza para unos pocos.

Otros modelos de lenguaje de código abierto

El ecosistema de IA de código abierto continúa expandiéndose con desarrolladores que colaboran a nivel mundial en modelos compartidos. Más allá de H2O-Danubio-1.8B, numerosas iniciativas notables tienen como objetivo evitar la concentración de conocimientos dentro de jardines amurallados.

MPT

Desarrollado por la startup MosaicML, Machine Programming Transformer (MPT) incorpora técnicas como la paralelización de una mezcla de expertos y la extrapolación de la longitud del contexto para mejorar la eficiencia.

Halcón

El LLM de código abierto más grande de Falcon es una enorme bestia de 180 mil millones de parámetros , superando a empresas como Llama-2 , EstableLM , pijama rojo , y MPT .


Con ese tamaño, se recomienda tener 400 gigabytes de memoria disponible para ejecutar el modelo.

Mistral

Fundada por ex Googlers e investigadores de Meta, Mistral lanzó el modelo Mistral 7B de 7 mil millones de parámetros en septiembre de 2022. Mistral 7B logra un rendimiento competitivo entre los modelos abiertos que casi iguala al GPT-3 cerrado en calidad de muestra.

Modelos heredados

Más allá de los modelos recién lanzados, los modelos anteriores de código abierto continúan empoderando a los desarrolladores. GPT2 de OpenAI y GPT-J de EleutherAI tienen un significado histórico a pesar de estar rezagados con respecto a las arquitecturas modernas. Y los transformadores como BERT dieron lugar a toda una subclase de avances en PNL que impulsan productos a nivel mundial.


La narrativa de la democratización solo se fortalece gracias a que comunidades apasionadas contribuyen generosamente con sus creaciones a acervos comunes de conocimiento.

Un futuro más equitativo

En muchos sentidos, los modelos de lenguaje propietario corren el riesgo de recrear muchas desigualdades con las que la industria tecnológica continúa luchando. Concentrar el conocimiento dentro de organizaciones ricas excluye a los equipos más pequeños de dar forma al progreso desde el principio. Y luego hace que la integración sea prohibitivamente costosa una vez que esté disponible únicamente a través de API transaccionales.


Los modelos de código abierto son vitales para sembrar un camino a seguir más equitativo. Uno en el que la agencia esté más cerca de comunidades diversas que realmente crean aplicaciones concretas de IA. El largo arco del progreso sólo se inclina hacia la justicia cuando las personas se unen detrás de la tecnología misma en lugar de cualquier organización que busque controlarla.


El Danubio y el paradigma abierto que representa ofrecen sólo un vistazo a una visión alternativa. Uno impulsado no por ganancias o prestigio a corto plazo, sino por empoderar a los desarrolladores de todo el mundo para que construyan libremente sobre los hombros de otros. Siempre habrá espacio para el trabajo propietario, pero el verdadero futuro de la IA está abierto.

Innovación impulsada por la comunidad

La publicación de modelos de código abierto atrae contribuciones de una comunidad motivada de desarrolladores e investigadores. Este estilo colaborativo de trabajar al aire libre abre oportunidades únicas. Los expertos de todas las organizaciones pueden revisar el trabajo de los demás para validar las técnicas.


Los investigadores pueden replicar y ampliar fácilmente nuevas ideas en lugar de reinventar la rueda. Y los ingenieros de software pueden integrar e implementar rápidamente innovaciones en las ofertas de los clientes.


Quizás lo más prometedor es que el paradigma abierto permite que comunidades de nicho se reúnan en torno a modelos personalizados para casos de uso específicos. Los equipos pueden esculpir versiones adaptadas a temas particulares como medicina, derecho o finanzas que superan a los modelos genéricos. Estos modelos especializados luego se comparten para beneficiar al resto de la comunidad. Juntos, los grupos hacen que el progreso colectivo no sea posible dentro de un solo laboratorio cerrado.