paint-brush
Galactica es un modelo de IA entrenado en 120 mil millones de parámetrospor@whatsai
2,546 lecturas
2,546 lecturas

Galactica es un modelo de IA entrenado en 120 mil millones de parámetros

por Louis Bouchard6m2022/11/26
Read on Terminal Reader

Demasiado Largo; Para Leer

MetaAI y Papers with Code anunciaron el lanzamiento de Galactica, un gran modelo de lenguaje de código abierto que cambia las reglas del juego, entrenado en conocimiento científico con 120 000 millones de parámetros. El modelo puede escribir documentos técnicos, reseñas, páginas de Wikipedia y código. Sabe citar y escribir ecuaciones. Es un gran problema para la IA y la ciencia. El 17 de noviembre, Galactica se cerró porque no entendió la tarea en cuestión y se equivocó en muchos casos. Aún así, el modelo está disponible para los investigadores y creo que es importante mantenerlo abierto.
featured image - Galactica es un modelo de IA entrenado en 120 mil millones de parámetros
Louis Bouchard HackerNoon profile picture

El 15 de noviembre, MetaAI y Papers with Code anunciaron el lanzamiento de Galactica, un gran modelo de lenguaje de código abierto que cambia las reglas del juego y se basa en el conocimiento científico con 120 000 millones de parámetros.

Como uno de mis amigos compartió en Twitter , el modelo puede escribir documentos técnicos, reseñas, páginas de Wikipedia y código. Sabe citar y escribir ecuaciones. Es un gran problema para la IA y la ciencia.

El 17 de noviembre, Galactica se cerró.

¿Por qué? Porque, como con todos los modelos de aprendizaje profundo, no entendió la tarea en cuestión y se equivocó en muchos casos. Esto no debería ser un problema, especialmente si agregamos una advertencia que diga que el modelo puede estar equivocado y que no confíe ciegamente en él. Al igual que nadie confiaba en Wikipedia, no podíamos poner esto como referencia en los proyectos de High School. El problema es que Galáctica estaba equivocada o sesgada, pero sonaba correcta y con autoridad .

Aún así, el modelo está disponible para los investigadores y creo que es importante mantenerlo abierto.

Como compartió otro de mis amigos, todo el drama en torno al nuevo modelo parece un poco excesivo. Por supuesto, el modelo no es perfecto, al igual que todos los demás que están actualmente disponibles en línea. Lo necesitamos en línea para probar sus limitaciones, trabajar en él y mejorarlo. Deberíamos ver este tipo de publicaciones como estudiantes y permitir errores y mejoras sin temor a que se cierren o cancelen.

De todos modos, no estamos aquí para discutir eso. Con suerte, volverá a estar en línea pronto .

Estamos aquí para ver qué es, o fue, Galactica, y cómo podría lograr escribir artículos, reseñas, código y más...

Más información en el vídeo

Referencias

►Lea el artículo completo: https://www.louisbouchard.ai/galactica/
►Taylor et al., 2022: Galactica, https://galactica.org/
►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!): https://www.louisbouchard.ai/newsletter/

Transcripción del video

0:00

el 15 de noviembre Metairie y papeles

0:03

with code anunció el lanzamiento de

0:04

galatica un cambio de juego de código abierto

0:07

modelo de lenguaje grande entrenado en

0:09

conocimiento científico con 120 mil millones

0:12

parámetros como uno de mis amigos compartió

0:14

en Twitter la modelo puede escribir en blanco

0:16

los artículos revisan las páginas y el código de Wikipedia

0:19

sabe citar y escribir

0:22

ecuaciones realmente es una especie de gran

0:24

acuerdo para la IA y la ciencia el 17 de noviembre

0:28

Galáctica se cerró por qué porque como

0:31

con todos los modelos de aprendizaje profundo no

0:34

entender la tarea en cuestión y fue

0:36

mal en muchos casos esto no debería ser un

0:39

problema, especialmente si agregamos una advertencia

0:41

decir que el modelo puede estar equivocado y no

0:43

confiar ciegamente como nadie

0:45

Wikipedia de confianza no podíamos ponerlo como

0:48

una referencia en los proyectos de secundaria la

0:50

El problema era que Galáctica estaba equivocada y

0:52

parcial pero sonaba correcto y uteritativo

0:55

todavia esta disponible el modelo

0:57

investigadores y creo que es importante

0:59

para mantener un poco de código abierto como otro de

1:02

mis amigos compartieron todo el drama alrededor

1:04

este nuevo modelo me parece un poco excesivo de

1:06

Por supuesto, el modelo no es perfecto al igual que

1:08

todos los demás que están disponibles actualmente

1:10

en línea lo necesitamos en línea para probar su

1:13

limitaciones trabajar en él y mejorarlo nosotros

1:16

debería ver este tipo de fabricaciones

1:18

como estudiantes y permiten errores y

1:21

mejoras sin miedo a ser

1:22

cerrar o cancelar de todos modos no estamos

1:26

aquí para discutir eso, con suerte lo hará

1:28

estar de vuelta en línea pronto estamos aquí para ver

1:30

qué es o fue Galáctica y cómo

1:33

podría lograr escribir reseñas de artículos

1:35

código matemático y más básicamente Galáctica

1:39

es un modelo de lenguaje grande con un tamaño

1:41

comparable a gpt3 pero especializado en

1:44

conocimiento científico más precisamente

1:46

fue entrenado en un gran y curado

1:48

Corpus de conocimiento científico que incluye

1:50

más de 48 millones de libros de texto y

1:54

notas de conferencias millones de compuestos y

1:56

sitios web científicos de proteínas

1:58

enciclopedias y más, ya que destacan

2:00

los datos eran de alta calidad y altamente

2:03

curado que es uno de los grandes

2:05

diferencia con gpt3 Así que en teoría

2:08

Galáctica contiene casi todo

2:10

El conocimiento científico de la humanidad imagina

2:12

tener una memoria increíble y el tiempo para

2:15

leer millones de investigaciones recordando

2:18

la mayor parte bueno, esto es Galáctica

2:21

parece que su memoria no es tan buena

2:23

después de todo y lo mezcla todo hasta

2:25

aunque podríamos suponer que la mayoría de la información

2:27

presente en el conjunto de datos de entrenamiento fue

2:29

preciso incluso considerando todos los dispositivos

2:31

y fallas galactica se queda bonita

2:34

potente y supera a casi todos

2:36

otros enfoques para la ciencia relacionada

2:39

tareas simplemente no es suficiente para un producto

2:41

podemos tener confianza en que todavía es

2:44

vale la pena entender cómo funciona

2:46

sobre todo porque volverá

2:48

aún más poderoso muy pronto como nosotros

2:51

mencionado Galáctica es un lenguaje grande

2:53

modelo similar a gpt3 o Bloom

2:55

entrenado específicamente para como dicen

2:58

organizar la ciencia también hay un montón de

3:01

ingeniería en marcha en este modelo

3:03

permitiendo tanta versatilidad en su

3:05

entradas y salidas como especial

3:07

tokenización de citas o proteínas

3:09

secuencias en las que puedes aprender más

3:11

su papel vinculado debajo de su

3:13

el esfuerzo de tokenización es, con mucho, el

3:15

mayor aporte de este trabajo

3:17

tokenización básicamente significa la forma en que el

3:20

el modelo verá los datos en lugar de las palabras

3:23

matemáticas o formas que entendemos yo

3:26

en realidad compartir un video sobre la incrustación y

3:28

tokenización a finales de esta semana, así que si eso

3:30

suena interesante estad atentos a eso

3:33

y suscríbete para no perdértela así que acepta

3:35

esta extraña tokenización y

3:37

pasos de preprocesamiento qué es Galactica

3:39

y qué hace después de tomar el

3:42

palabras o diferentes aportes científicos y

3:44

preparándolo para el modelo haciendo

3:46

tokenización no sorprende que Galactica sea

3:50

otro transformador basado

3:52

arquitectura como gpt3 con un par de

3:55

variaciones incluyendo la tokenización

3:57

diferencias así que definitivamente te invito

3:59

a mas uno de los tantos videos yo o algunos

4:02

de mis amigos hicieron cubriendo el

4:04

Arquitecturas de transformadores como no conseguiré

4:06

en cómo funcionan una vez más el segundo

4:09

gran diferencia entre Galáctica y

4:11

otros modelos de lenguaje grande es lo que ellos

4:13

llame al aviso de pre-entrenamiento esto significa

4:16

que incluirán indicaciones extraídas

4:18

del conjunto de datos de entrenamiento junto con el

4:21

datos en sí mismos que se ha demostrado que

4:23

maximizar la generalidad del modelo

4:25

mientras aumenta el rendimiento en algunas tareas

4:28

de interés y eso es más o menos todo como

4:31

Dije que la arquitectura es muy similar.

4:33

a lo que ya sabes y sobre todo a lo

4:35

los esquemas de capacitación y preprocesamiento varían

4:37

lo que demuestra que el modelo no es

4:39

todo menos cómo predicamos a través de la

4:41

datos porque en realidad podría importar incluso

4:43

más básicamente puedes ver el

4:45

diferencia entre gpt3 y galáctica como

4:48

el mismo estudiante con una mala ciencia

4:49

maestro versus uno bueno tiene la

4:52

mismas capacidades y recursos que

4:55

el profesor acaba de hacerlo más accesible y

4:57

comprensible para él, por supuesto, esto

4:59

era solo una descripción general del documento y yo

5:02

recomiendo encarecidamente leerlo hay

5:04

toneladas de detalles sobre los múltiples

5:06

trucos de ingeniería que han implementado

5:08

junto con los detalles del análisis de resultados sobre

5:11

todas las tareas que abordan utilizando el

5:13

modelo y cómo entendió la entrada

5:15

datos y sus predicciones sus limitaciones

5:18

sesgos y más espero que hayas disfrutado

5:21

este video y nos vemos la próxima semana

5:23

con otro papel increíble y un especial

video que cubre lo que son las incrustaciones