paint-brush
El nuevo modelo OPT de Meta es un GPT-3 de código abiertopor@whatsai
7,829 lecturas
7,829 lecturas

El nuevo modelo OPT de Meta es un GPT-3 de código abierto

por Louis Bouchard4m2022/05/06
Read on Terminal Reader
Read this story w/o Javascript

Demasiado Largo; Para Leer

Todos hemos oído hablar de GPT-3 y tenemos una idea bastante clara de sus capacidades. Seguramente has visto algunas aplicaciones nacidas estrictamente debido a este modelo, algunas de las cuales cubrí en un video anterior sobre el modelo. GPT-3 es un modelo desarrollado por OpenAI al que puede acceder a través de una API paga pero no tiene acceso al modelo en sí. Lo que hace que GPT-3 sea tan fuerte es tanto su arquitectura como su tamaño. Tiene 175 mil millones de parámetros. ¡Eso es el doble de la cantidad de neuronas que tenemos en nuestro cerebro! Esta inmensa red fue entrenada en todo Internet para comprender cómo escribimos, intercambiamos y entendemos el texto. Esta semana, Meta ha dado un gran paso adelante para la comunidad. Acaban de lanzar un modelo que es igual de poderoso, si no más, y tiene un código completamente abierto. ¿Cuan genial es eso? Conoce más en el vídeo...

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - El nuevo modelo OPT de Meta es un GPT-3 de código abierto
Louis Bouchard HackerNoon profile picture

Todos hemos oído hablar de GPT-3 y tenemos una idea bastante clara de sus capacidades. Seguramente has visto algunas aplicaciones nacidas estrictamente debido a este modelo, algunas de las cuales cubrí en un sobre el modelo. GPT-3 es un modelo desarrollado por OpenAI al que puede acceder a través de una API paga pero no tiene acceso al modelo en sí.

Lo que hace que GPT-3 sea tan fuerte es tanto su arquitectura como su tamaño. Tiene 175 mil millones de parámetros. ¡Eso es el doble de la cantidad de neuronas que tenemos en nuestro cerebro!

Esta inmensa red fue entrenada en todo Internet para comprender cómo escribimos, intercambiamos y entendemos el texto. Esta semana, Meta ha dado un gran paso adelante para la comunidad. Acaban de lanzar un modelo que es igual de poderoso, si no más, y tiene un código completamente abierto. ¿Cuan genial es eso? Conoce más en el vídeo...

Ver el vídeo

Referencias

►Lea el artículo completo: https://www.louisbouchard.ai/opt-meta/
►Zhang, Susan et al. "OPT: Modelos de lenguaje de transformadores preentrenados abiertos". https://arxiv.org/abs/2205.01068
►Mi video de GPT-3 para modelos de lenguaje grande:
►Publicación de Meta: https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/
►Código: https://github.com/facebookresearch/metaseq
►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!): https://www.louisbouchard.ai/newsletter/
►Únase a nuestro canal de Discord, Aprenda IA juntos: https://discord.gg/learnaitogether

Transcripción del vídeo

0:00

todos hemos oído hablar de gpt3 y tenemos

0:02

algo así como una idea clara de su

0:03

capacidades que sin duda ha visto

0:06

algunas aplicaciones nacen estrictamente debido a

0:08

este modelo, algunos de los cuales cubrí en un

0:10

video anterior gpd3 es un modelo desarrollado

0:13

por openai al que puedes acceder a través de un

0:15

api pagado pero no tiene acceso al modelo

0:18

lo que hace que gpt3 sea tan fuerte es tanto

0:21

su arquitectura y el tamaño que tiene

0:24

175 mil millones de parámetros el doble de la cantidad

0:27

de neuronas que tenemos en nuestro cerebro esta

0:30

inmensa red estaba bastante entrenada

0:32

en todo internet para entender cómo

0:34

escribimos intercambio y entendemos texto

0:37

esta semana meta ha dado un gran paso

0:39

hacia adelante para la comunidad que simplemente

0:41

lanzó un modelo que es igual

0:43

poderoso si no más y tiene completamente

0:46

de código abierto qué genial es que podamos

0:48

ahora tiene acceso a un modelo similar a gpt y

0:51

jugar con él directamente sin ir

0:53

a través de una api y meta's de acceso limitado

0:56

modelo más reciente opt que significa

0:59

transformadores preentrenados abiertos es

1:01

disponible en varios tamaños con

1:03

pesas preentrenadas para jugar o hacer

1:05

cualquier trabajo de investigación uno de los cuales es

1:07

comparable a gp23 y tiene el mejor

1:09

resultados que son noticias geniales para el

1:12

campo y especialmente para nosotros académicos

1:14

investigadores así que al igual que gpg3 este nuevo

1:17

el modelo puede generar texto a partir de las entradas del usuario

1:19

en muchas tareas diferentes un día

1:22

será incluso capaz de resumir semanas

1:24

valor de trabajo para usted en informes claros

1:26

pero hasta entonces todavía tienes que escribir

1:28

tú mismo al menos puedes conseguir algo

1:30

ayudar a que este proceso de presentación de informes sea mucho

1:33

más eficiente utilizando excelentes herramientas como

1:35

este episodio patrocina pesos y sesgos

1:38

Pesos y sesgos le permite fácilmente

1:39

realizar un seguimiento de todos sus experimentos con

1:41

solo un puñado de líneas agregadas a su

1:44

código pero más específicamente es realmente

1:46

genial como facilitaron la creación

1:48

de increíbles informes interactivos

1:50

como este que muestra claramente a tu equipo

1:53

o futuro en sí mismo su matriz de ejecución

1:55

hiperparámetros y configuraciones de datos

1:57

junto con cualquier nota que usted o su equipo hayan tenido

2:00

en el momento los informes se hacen fácilmente

2:02

siguientes plantillas generadas a partir de su

2:04

ejecuta métricas y solo tienes que agregar

2:06

sus comentarios es una característica poderosa para

2:08

agregar comentarios rápidos en un

2:10

experimentar o crear un análisis refinado

2:12

piezas capturando y compartiendo tu trabajo

2:14

es esencial si quieres mejorar tu

2:16

transportista profesional por lo que recomiendo

2:18

Uso de herramientas que mejoran la comunicación.

2:20

en su equipo como pesos y sesgos intente

2:23

con el primer enlace a continuación y comience

2:25

compartir su trabajo como un profesional

2:29

opt o más precisamente opt-175b

2:33

es muy similar a gpt3 por lo que fuertemente

2:36

recomiendo ver mi video para mejor

2:37

comprender cómo los grandes modelos de lenguaje

2:40

trabajar gpd3 y opt no puede al menos

2:42

resuma sus correos electrónicos o escriba rápido

2:44

ensayo basado en un tema también puede

2:46

resolver problemas basicos de matematica respuesta

2:49

preguntas y mas la principal diferencia

2:51

con gpt3 es que este esta abierto

2:53

fuente, lo que significa que tiene acceso a

2:56

su código e incluso modelos pre-entrenados para

2:58

jugar directamente con otro significante

3:00

El hecho divertido es que el entrenamiento de opt se usa como

3:03

7º de la huella de carbono como gpt3

3:06

que es otro paso a la derecha

3:08

dirección se puede ver que este nuevo

3:10

el modelo es muy similar a gpt3 pero abierto

3:13

fuente por lo que un modelo de lenguaje usando

3:15

transformadores que cubrí en videos

3:18

antes de eso fue entrenado en muchos

3:19

diferentes conjuntos de datos se podría decir en el

3:22

Internet completo para procesar texto y

3:24

generar más texto para entender mejor

3:27

cómo funcionan, lo recomendaría nuevamente al

3:29

video que hice cubriendo gpt3 como son

3:31

modelos muy similares aquí lo que realmente

3:34

quería cubrir es el esfuerzo de meta para hacer

3:36

este tipo de modelo accesible a

3:38

todos poniendo mucho esfuerzo

3:40

en compartir sus limitaciones sesgos y

3:43

riesgos por ejemplo vieron que optar

3:45

tiende a ser repetitivo y quedarse atascado en

3:48

un bucle que rara vez sucede para nosotros

3:50

de lo contrario nadie te hablará desde

3:53

fue entrenado en internet ellos también

3:55

encontró que opt tiene una alta propensión a

3:57

generar lenguaje tóxico y reforzar

4:00

estereotipos dañinos básicamente

4:02

replicando nuestros comportamientos generales y

4:04

sesgos que también puede producir de hecho

4:07

declaraciones incorrectas que es

4:08

indeseable si quieres que la gente tome

4:10

en serio estas limitaciones son algunas

4:13

de las razones más importantes por las que estos

4:15

los modelos no reemplazarán a los humanos en el corto plazo

4:17

para importantes puestos de toma de decisiones o

4:20

incluso ser utilizado de forma segura en comercial

4:22

productos te invito a leer sus

4:24

documento por su análisis en profundidad de la

4:26

la capacidad del modelo y comprender mejor

4:28

sus esfuerzos para hacer este modelo más

4:30

respetuoso con el medio ambiente y seguro de usar

4:33

también puede leer más sobre sus

4:34

proceso de entrenamiento y pruébalo tú mismo

4:36

con su código disponible públicamente todos

4:39

los enlaces están en la descripción tales

4:41

contribuciones de código abierto con nuevas

4:43

modelos documentación y código disponible

4:45

son muy importantes para la investigación

4:47

comunidad para hacer avanzar la ciencia y estoy

4:49

me alegro de que una gran empresa como meta haga eso

4:52

gracias a ellos investigadores de todo

4:54

el mundo podrá experimentar

4:56

con modelos de lenguaje de última generación

4:58

en lugar de versiones más pequeñas, estoy emocionado

5:00

para ver todos los próximos avances

5:02

crearé y me encantaría ver lo que

5:04

los chicos hacen con eso siéntanse libres de comentar

5:06

debajo del video o únete a nuestra comunidad

5:09

sin descubrir y comparte tus proyectos

5:10

ahi se llama aprender ai juntos y

5:13

también puedes encontrar un enlace a continuación, espero

5:15

disfrutaste el video de esta semana que fue un

5:17

un poco diferente de lo habitual cubriendo esto

5:19

emocionantes noticias y esfuerzos esenciales para

5:21

compartir investigaciones disponibles públicamente lo haré

5:24

nos vemos la semana que viene con otra increíble

5:26

papel