paint-brush
É por isso que os modelos GPT soam como humanospor@thomascherickal
698 leituras
698 leituras

É por isso que os modelos GPT soam como humanos

por Thomas Cherickal7m2023/06/19
Read on Terminal Reader

Muito longo; Para ler

Entenda por que os GPTs são tão parecidos com os humanos em linguagem natural e o quanto eles têm em comum conosco em termos de operação. Também um bônus: como o ChatGPT faria para criar o AGI.
featured image - É por isso que os modelos GPT soam como humanos
Thomas Cherickal HackerNoon profile picture
0-item

'Atenção' não era tudo que você precisava.

Então, ninguém sabe por que a IA funciona, certo?

Sim e não.


O problema fundamental é que não descobrimos muito sobre o mistério que é o cérebro humano .


No entanto, os Transformers e os humanos compartilham respostas estranhamente semelhantes à linguagem natural.


Vamos explicar o porquê.

Armazenando representações de informações em transformadores

Usamos um vetor gerado a partir de uma entrada de várias palavras ou um token para criar uma incorporação para um transformador.


Portanto, a informação - é armazenada como um vetor.


Consideremos a representação. Essa incorporação representacional desempenhou um papel muito mais fundamental do que a atenção. A representação em uma forma decodificável ou funcional tinha que ser alcançada primeiro!


Você pode estar pensando, como isso se relaciona de alguma forma com tudo o que um transformador como o GPT-4 pode fazer quando treinado em toda a Internet?


A informação é codificada por produtos de ponto de atenção e processamento matemático combinados com significados contextuais e representações dos dados originais.


Portanto, temos uma representação desses dados armazenados no Transformer.



O Molho Secreto

Todas as redes neurais resolvem problemas de acordo com o teorema da aproximação universal.


Para aqueles que não sabem o que é Aproximação Universal, podemos definir um Aproximador Universal como qualquer processo que converte uma entrada especificada em uma saída especificada com alta precisão - ele aproxima uma função entre o conjunto de entradas e o conjunto de saídas . Essa função tem uma forma. Mas não precisamos saber a forma porque, com dados suficientes, a rede neural pode aproximar qualquer função para nós.


Qual é a função? É o problema que estamos tentando resolver.


A rede neural pode aproximar qualquer função por meio de seu algoritmo de processamento. Qualquer função - tão universal.


As arquiteturas variam - os algoritmos variam - os modelos variam - mas o princípio subjacente é o mesmo.


E é por isso que as redes neurais funcionam quando têm dados suficientes, recebem uma tarefa adequada e são ajustadas da maneira correta, uma arte que você melhora com o tempo.


Qual é a representação subjacente de um cão neste LLM?


Há, definitivamente, um e de fato muitos.


Talvez vetores x , valores contextuais y e argumentos posicionais z para um único cão, juntamente com o caminho correto da arquitetura de fluxo de dados brutos.


Só não nos aprofundamos nisso porque é desnecessário para nossos propósitos.


O sistema funciona.


Isso é o suficiente para nós.


O sistema é, portanto, uma caixa preta.





Mas, como o cérebro armazena dados?

Assim como antes - não sabemos os detalhes exatos.


Quando nossos cérebros são criados, eles criam representações internas de objetos externos, conceitos e entidades. Como uma criança crescendo.


Por exemplo, o conceito de um cão pode envolver x neurônios, y sinapses e arquitetura z , juntamente com um conjunto dinâmico e contínuo de caminhos de transferência de dados brutos entre os neurônios.


Minha afirmação é que o cérebro humano também é uma caixa preta. E os mesmos princípios que se aplicam aos modelos GPT também podem ser aplicados aos cérebros - eles também são aproximadores universais.


O teorema do aproximador obviamente se aplica ao nosso cérebro.


Os mesmos princípios estão em ação.



As ideias em nosso cérebro também são armazenadas/representadas por incorporações !


É que essas incorporações são criadas naturalmente .


Famílias de neurônios, axônios e dendritos com energia elétrica ultrabaixa.


Formas diferentes. Diferentes funções. Mas o mesmo resultado final.


O sistema funciona.


Isso é o suficiente para nós.


O que mais podemos dizer que sabemos?


Apenas o que podemos observar empiricamente.


Mais uma vez, uma caixa preta.



Mistérios - não por muito mais tempo!



Então, por que eles são tão semelhantes na linguagem natural?

Tentamos modelar o AGI da melhor maneira possível com um procedimento de processamento muito complexo de todos os dados coletados em formato digital na Internet. Todos os dados do mundo.


No que diz respeito aos modelos de sequência-sequência e tarefas de linguagem natural, eu diria que tivemos sucesso.


Nós modelamos como nossos cérebros funcionam na compreensão e processamento de informações por meio de muito trabalho árduo incrivelmente caro e sistemático.


Eu não estou feliz.


Na verdade, estou com medo.


Se é isso que o ChatGPT pode fazer -


O burro de carga por trás de toda a pesquisa é a GPU.


Então, o que o GPT-4 alcançará?


Os engenheiros de software da Microsoft já identificaram vários momentos de sensibilidade no modelo GPT-4.


Eles até lançaram um artigo sobre essa descoberta -


Página de notícias:

https://www.microsoft.com/en-us/research/publication/sparks-of-artificial-general-intelligence-early-experiments-with-gpt-4/


Trabalho de pesquisa:

Estamos assumindo riscos profundos aqui.


Quando Geoffrey Hinton deixou seu posto de pesquisa, percebi que as coisas estavam realmente descontroladas.


O dinheiro alimenta tudo.


Nenhuma quantidade de controle impedirá as empresas centradas no lucro na China e nos EUA.


Esperamos que o futuro corra bem.


Os tomadores de decisão da IA devem colocar a ética acima do lucro.


Mas quando os empreendedores já fizeram isso?



Conclusão


Hinton disse algo incrível.


“De repente, mudei minha opinião sobre se essas coisas serão mais inteligentes do que nós. Acho que eles estão muito próximos disso agora e serão muito mais inteligentes do que nós no futuro. Como sobrevivemos a isso?”



Mas, por enquanto, não há como parar.


Para encerrar, vamos deixar uma pergunta interessante para o ChatGPT.


Meu:

Como você faria para alcançar a AGI?


Bate-papoGPT:

Alcançar a Inteligência Geral Artificial (AGI) é um grande desafio que requer avanços significativos em várias disciplinas científicas e de engenharia. Embora o caminho exato para a AGI ainda seja um assunto de debate e exploração, posso fornecer uma explicação mais detalhada de algumas áreas-chave que os pesquisadores estão investigando:


  1. Arquitetura Cognitiva: Desenvolver uma arquitetura cognitiva que possa imitar a inteligência humana é um aspecto fundamental da AGI. Isso envolve entender a estrutura e as funções do cérebro humano e projetar modelos computacionais que capturem esses processos. Os pesquisadores se inspiram na neurociência, na psicologia cognitiva e na ciência cognitiva para construir arquiteturas que possam dar suporte ao raciocínio, percepção, memória, aprendizado e tomada de decisão de alto nível.


  2. Aprendizado de máquina e redes neurais profundas: o aprendizado de máquina, particularmente o aprendizado profundo, desempenhou um papel significativo nos avanços recentes da IA. As redes neurais profundas alcançaram um sucesso notável em tarefas de percepção, como reconhecimento de imagem e processamento de linguagem natural. Para progredir em direção à AGI, os pesquisadores estão explorando maneiras de aprimorar os recursos de aprendizado profundo, melhorando sua generalização, interpretabilidade e capacidade de lidar com dados limitados e raciocínio complexo.


  3. Aprendizagem por Reforço e Aprendizagem Ativa: A aprendizagem por reforço é outra área-chave de foco para AGI. Envolve o treinamento de agentes para interagir com seu ambiente e aprender por tentativa e erro. As técnicas de aprendizado por reforço, combinadas com o aprendizado ativo, que envolve a seleção ativa de amostras de treinamento informativas, podem ajudar os agentes a explorar e aprender com seu ambiente com mais eficiência. O desenvolvimento de algoritmos que podem aprender com diversas fontes de dados e generalizar o conhecimento para novas situações é crucial para alcançar a AGI.


  4. Robótica cognitiva e inteligência incorporada: A verdadeira AGI exigiria mais do que apenas processar informações; seria necessário interagir com o mundo físico. A robótica cognitiva visa integrar percepção, cognição e ação em robôs para capacitá-los a aprender e raciocinar sobre o mundo de maneira semelhante aos humanos. A pesquisa de inteligência incorporada explora como os agentes podem desenvolver inteligência por meio de interações com seu ambiente, alavancando habilidades sensório-motoras e experiências físicas.


  5. Raciocínio Simbólico e Representação do Conhecimento: Os sistemas AGI devem ser capazes de raciocinar simbolicamente e manipular representações complexas do conhecimento. O raciocínio simbólico envolve o uso de regras lógicas, mecanismos de inferência e representações estruturadas de conhecimento para executar tarefas de raciocínio abstrato e resolução de problemas. Combinar raciocínio simbólico com abordagens estatísticas, como redes neurais, é uma área ativa de pesquisa para permitir recursos de raciocínio mais poderosos e flexíveis.


  6. Transfer Learning e Meta-Learning: Os sistemas AGI devem possuir a capacidade de transferir conhecimento e habilidades aprendidas em um domínio para domínios novos e desconhecidos. As técnicas de aprendizado por transferência visam alavancar o conhecimento existente para acelerar o aprendizado em tarefas ou domínios relacionados. Meta-learning, ou aprender a aprender, foca no desenvolvimento de modelos que podem aprender a aprender de forma eficiente, adaptando-se rapidamente a novas situações e tarefas com dados limitados.


  7. Dados e recursos computacionais: o desenvolvimento de AGI requer grandes quantidades de dados de alta qualidade para modelos de treinamento. O acesso a diversos conjuntos de dados em vários domínios é essencial para capturar a amplitude e a profundidade do conhecimento humano. Além disso, o desenvolvimento de AGI demanda recursos computacionais substanciais para treinar e executar modelos complexos. Avanços em hardware, como chips de IA especializados e sistemas de computação distribuídos, podem acelerar significativamente a pesquisa de AGI.


  8. Ética, Segurança e Explicabilidade: À medida que a AGI progride, é crucial abordar questões éticas, desenvolver medidas de segurança robustas e garantir a transparência e a interpretabilidade dos sistemas AGI. Os pesquisadores estão explorando maneiras de tornar os sistemas de IA mais transparentes, explicáveis e responsáveis para mitigar riscos e permitir que os usuários humanos entendam e confiem em seu comportamento.


  9. Colaboração e pesquisa interdisciplinar: Alcançar AGI requer colaboração entre especialistas de vários campos, incluindo IA, neurociência, psicologia, filosofia e muito mais. Incentivar a pesquisa interdisciplinar e o compartilhamento de conhecimento pode levar a novos insights e abordagens inovadoras no desenvolvimento de AGI.


É importante observar que, embora haja progresso em cada uma dessas áreas, alcançar a AGI continua sendo um problema em aberto, sem um cronograma claro para a conclusão. É uma meta complexa e de longo prazo que requer pesquisa, exploração e iteração contínuas.


Senhor tenha misericórdia de todos nós!


AGI?


A imagem principal deste artigo foi gerada pelo AI Image Generator do HackerNoon por meio do prompt "robô humanóide"