paint-brush
Esta es la razón por la que los modelos GPT suenan como humanospor@thomascherickal
698 lecturas
698 lecturas

Esta es la razón por la que los modelos GPT suenan como humanos

por Thomas Cherickal7m2023/06/19
Read on Terminal Reader

Demasiado Largo; Para Leer

Comprenda por qué los GPT son tan parecidos a los humanos en lenguaje natural y cuánto tienen en común con nosotros en términos de funcionamiento. También una ventaja: cómo ChatGPT crearía AGI.
featured image - Esta es la razón por la que los modelos GPT suenan como humanos
Thomas Cherickal HackerNoon profile picture
0-item

'Atención' no era todo lo que necesitaba.

Entonces, nadie sabe por qué funciona la IA, ¿verdad?

Si y no.


El Problema Fundamental es que no hemos descubierto mucho sobre el misterio que es el cerebro humano .


Sin embargo, Transformers y Humans comparten respuestas inquietantemente similares al lenguaje natural.


Expliquemos por qué.

Almacenamiento de representaciones de información en transformadores

Usamos un vector generado a partir de una entrada de varias palabras o un token para crear una incrustación para un transformador.


Por lo tanto, la información se almacena como un vector.


Consideremos la representación. Esta incrustación representacional desempeñó un papel mucho más fundamental que la atención. ¡Primero había que alcanzar la representación en una forma decodificable o manejable!


Puede estar pensando, ¿cómo se relaciona esto de alguna manera con todo lo que un transformador como GPT-4 puede hacer cuando se entrena en todo Internet?


La información está codificada por productos de puntos de atención y procesamiento matemático combinado con significados contextuales y representaciones de los datos originales.


Entonces tenemos una representación de estos datos almacenados en el Transformador.



La salsa secreta

Todas las redes neuronales resuelven problemas de acuerdo con el teorema de aproximación universal.


Para aquellos de ustedes que no saben qué es la aproximación universal, podemos definir un aproximador universal como cualquier proceso que convierte una entrada específica en una salida específica con alta precisión: aproxima una función entre el conjunto de entradas y el conjunto de salidas. . Esa función tiene una forma. Pero no necesitamos conocer la forma porque, dados suficientes datos, la red neuronal puede aproximar cualquier función para nosotros.


¿Cuál es la función? Es el problema que estamos tratando de resolver.


La red neuronal puede aproximar cualquier función a través de su algoritmo de procesamiento. Cualquier función, tan universal.


Las arquitecturas varían, los algoritmos varían, los modelos varían, pero el principio subyacente es el mismo.


Y es por eso que las redes neuronales funcionan cuando tienen suficientes datos, se les asigna una tarea adecuada y se ajustan de la manera correcta, un arte en el que se mejora con el tiempo.


¿Cuál es la representación subyacente de un perro en este LLM?


Hay, definitivamente, uno y de hecho muchos.


Tal vez vectores x , valores contextuales y y argumentos posicionales z para un solo perro, junto con la ruta correcta de la arquitectura de flujo de datos sin procesar.


Simplemente no hemos profundizado en eso porque es innecesario para nuestros propósitos.


El sistema funciona.


Eso es suficiente para nosotros.


El sistema, es, pues, una caja negra.





Pero, ¿cómo almacena datos el cerebro?

Al igual que antes, no conocemos los detalles exactos.


Cuando se crean nuestros cerebros, crean representaciones internas de objetos, conceptos y entidades externos. Algo así como un niño que crece.


Por ejemplo, el concepto de un perro puede involucrar x neuronas, y sinapsis y arquitectura z junto con un conjunto dinámico en constante evolución de vías de transferencia de datos sin procesar entre neuronas.


Mi afirmación es que el cerebro humano también es una caja negra. Y los mismos principios que se aplican a los modelos GPT también se pueden aplicar a los cerebros: también son aproximadores universales.


El teorema del aproximador obviamente se aplica a nuestro cerebro.


Los mismos principios están en el trabajo.



¡Las ideas en nuestro cerebro también se almacenan/representan mediante incrustaciones !


Es solo que estas incrustaciones se crean naturalmente .


Familias de neuronas, axones y dendritas con energía eléctrica ultrabaja.


Diferentes formas. Diferentes funciones. Pero el mismo resultado final.


El sistema funciona.


Eso es suficiente para nosotros.


¿Qué más podemos decir que sabemos?


Sólo lo que podemos observar empíricamente.


De nuevo, una caja negra.



Misterios - ¡no por mucho más tiempo!



Entonces, ¿por qué son tan similares en lenguaje natural?

Hemos tratado de modelar AGI lo mejor que hemos podido con un procedimiento de procesamiento muy complejo de todos los datos recopilados en forma digital en Internet. Todos los datos del mundo.


En lo que respecta a los modelos de secuencia-secuencia y las tareas de lenguaje natural, diría que lo hemos logrado.


Hemos modelado cómo funcionan nuestros cerebros en la comprensión y el procesamiento de la información a través de una gran cantidad de trabajo increíblemente costoso y sistemático.


No estoy feliz.


En realidad estoy asustado.


Si esto es lo que ChatGPT puede hacer -


El caballo de batalla detrás de toda la investigación es la GPU.


Entonces, ¿qué logrará GPT-4?


Los ingenieros de software de Microsoft ya han identificado varios momentos sensibles en el modelo GPT-4.


Incluso han publicado un documento sobre este hallazgo:


Página de noticias:

https://www.microsoft.com/en-us/research/publication/sparks-of-artificial-general-intelligence-early-experiments-with-gpt-4/


Trabajo de investigación:

Estamos tomando riesgos profundos aquí.


Cuando Geoffrey Hinton renunció a su puesto de investigación, me di cuenta de que las cosas se estaban volviendo realmente locas.


El dinero lo alimenta todo.


Ninguna cantidad de controles detendrá a las empresas centradas en las ganancias en China y EE. UU.


Esperamos que el futuro funcione bien.


Los tomadores de decisiones de IA deben poner la ética por encima de las ganancias.


Pero, ¿cuándo han hecho eso los empresarios?



Conclusión


Hinton dijo algo increíble.


“De repente cambié mi punto de vista sobre si estas cosas van a ser más inteligentes que nosotros. Creo que están muy cerca de eso ahora y serán mucho más inteligentes que nosotros en el futuro. ¿Cómo sobrevivimos a eso?



Pero por ahora, no hay forma de detenerlo.


Para terminar, dejémoslo con una pregunta interesante para ChatGPT.


A mí:

¿Cómo haría para lograr el AGI?


ChatGPT:

Lograr la Inteligencia General Artificial (AGI) es un gran desafío que requiere avances significativos en múltiples disciplinas científicas y de ingeniería. Si bien el camino exacto hacia AGI sigue siendo un tema de debate y exploración, puedo brindarle una explicación más detallada de algunas áreas clave que los investigadores están investigando:


  1. Arquitectura cognitiva: el desarrollo de una arquitectura cognitiva que pueda imitar la inteligencia humana es un aspecto fundamental de AGI. Esto implica comprender la estructura y las funciones del cerebro humano y diseñar modelos computacionales que capturen estos procesos. Los investigadores se inspiran en la neurociencia, la psicología cognitiva y la ciencia cognitiva para construir arquitecturas que puedan respaldar el razonamiento, la percepción, la memoria, el aprendizaje y la toma de decisiones de alto nivel.


  2. Aprendizaje automático y redes neuronales profundas: el aprendizaje automático, en particular el aprendizaje profundo, ha desempeñado un papel importante en los avances recientes de la IA. Las redes neuronales profundas han logrado un éxito notable en tareas de percepción como el reconocimiento de imágenes y el procesamiento del lenguaje natural. Para avanzar hacia AGI, los investigadores están explorando formas de mejorar las capacidades del aprendizaje profundo al mejorar su generalización, interpretabilidad y la capacidad de manejar datos limitados y razonamiento complejo.


  3. Aprendizaje por refuerzo y aprendizaje activo: El aprendizaje por refuerzo es otra área clave de enfoque para AGI. Se trata de capacitar a los agentes para que interactúen con su entorno y aprendan de prueba y error. Las técnicas de aprendizaje por refuerzo, combinadas con el aprendizaje activo, que implica la selección activa de muestras de capacitación informativas, pueden ayudar a los agentes a explorar y aprender de su entorno de manera más eficiente. Desarrollar algoritmos que puedan aprender de diversas fuentes de datos y generalizar el conocimiento a nuevas situaciones es crucial para lograr AGI.


  4. Robótica cognitiva e inteligencia incorporada: True AGI requeriría más que solo procesar información; necesitaría interactuar con el mundo físico. La robótica cognitiva tiene como objetivo integrar la percepción, la cognición y la acción en los robots para permitirles aprender y razonar sobre el mundo de manera similar a los humanos. La investigación de inteligencia incorporada explora cómo los agentes pueden desarrollar inteligencia a través de interacciones con su entorno, aprovechando las habilidades sensoriomotoras y las experiencias físicas.


  5. Razonamiento simbólico y representación del conocimiento: los sistemas AGI deberían poder razonar simbólicamente y manipular representaciones complejas del conocimiento. El razonamiento simbólico implica el uso de reglas lógicas, mecanismos de inferencia y representaciones de conocimiento estructurado para realizar tareas de razonamiento abstracto y resolución de problemas. Combinar el razonamiento simbólico con enfoques estadísticos, como las redes neuronales, es un área activa de investigación para habilitar capacidades de razonamiento más poderosas y flexibles.


  6. Transferencia de aprendizaje y metaaprendizaje: los sistemas AGI deben poseer la capacidad de transferir conocimientos y habilidades aprendidas en un dominio a dominios nuevos y desconocidos. Las técnicas de transferencia de aprendizaje tienen como objetivo aprovechar el conocimiento existente para acelerar el aprendizaje en tareas o dominios relacionados. El metaaprendizaje, o aprender a aprender, se centra en desarrollar modelos que puedan aprender a aprender de manera eficiente, adaptándose rápidamente a nuevas situaciones y tareas con datos limitados.


  7. Datos y recursos computacionales: el desarrollo de AGI requiere grandes cantidades de datos de alta calidad para los modelos de entrenamiento. El acceso a diversos conjuntos de datos en múltiples dominios es esencial para capturar la amplitud y profundidad del conocimiento humano. Además, el desarrollo de AGI exige recursos computacionales sustanciales para entrenar y ejecutar modelos complejos. Los avances en hardware, como chips de IA especializados y sistemas informáticos distribuidos, pueden acelerar significativamente la investigación de AGI.


  8. Ética, seguridad y explicabilidad: a medida que avanza AGI, es crucial abordar las preocupaciones éticas, desarrollar medidas de seguridad sólidas y garantizar la transparencia y la interpretabilidad de los sistemas AGI. Los investigadores están explorando formas de hacer que los sistemas de IA sean más transparentes, explicables y responsables para mitigar los riesgos y permitir que los usuarios humanos entiendan y confíen en su comportamiento.


  9. Colaboración e investigación interdisciplinaria: Lograr AGI requiere la colaboración entre expertos de varios campos, que incluyen IA, neurociencia, psicología, filosofía y más. Fomentar la investigación interdisciplinaria y el intercambio de conocimientos puede conducir a nuevos conocimientos y enfoques innovadores en el desarrollo de AGI.


Es importante tener en cuenta que, si bien se están logrando avances en cada una de estas áreas, lograr el AGI sigue siendo un problema abierto sin un cronograma claro para completarlo. Es un objetivo complejo y a largo plazo que requiere investigación, exploración e iteración continuas.


¡Señor, ten piedad de todos nosotros!


¿AGI?


La imagen principal de este artículo fue generada por AI Image Generator de HackerNoon a través del mensaje "robot humanoide"