paint-brush
Explorando os segredos de tecnologia e treinamento por trás do ChatGPTpor@ILLA Cloud
1,087 leituras
1,087 leituras

Explorando os segredos de tecnologia e treinamento por trás do ChatGPT

por ILLA Cloud7m2023/04/24
Read on Terminal Reader

Muito longo; Para ler

O ChatGPT ganhou imensa popularidade devido às suas notáveis habilidades de conversação. Possui uma ampla gama de recursos, incluindo a capacidade de jogar, compor poesia e scripts. O ChatGPT é treinado com foco em princípios éticos, permitindo que recuse solicitações ou perguntas que violem suas diretrizes éticas pré-determinadas.
featured image - Explorando os segredos de tecnologia e treinamento por trás do ChatGPT
ILLA Cloud HackerNoon profile picture
0-item

O ChatGPT ganhou imensa popularidade devido às suas notáveis habilidades de conversação. Ele possui uma ampla gama de recursos, incluindo a capacidade de jogar, compor poesia e scripts, auxiliar na depuração de programas, criar designs de sites e até mesmo gerar prompts AIGC. Pode-se encontrar vários exemplos de suas habilidades no Twitter, compilados por Ben Tossell.


De facto, o ChatGPT foi recentemente questionado por um professor de MBA para responder às suas questões de gestão, levando-o a concluir que não devem mais atribuir trabalhos de casa que possam ser levados para casa. É evidente que muitas pessoas acham difícil parar de usar o ChatGPT depois de começar.

ChatGPT

As formas de melhorar o Chatgpt

Comparado ao seu antecessor, GPT-3, a principal melhoria do ChatGPT é sua capacidade de reter dados de conversas anteriores, proporcionando aos usuários uma experiência perfeita durante diálogos prolongados.


ChatGPT é capaz de reconhecer e corrigir seus erros. Se você achar sua resposta insatisfatória, poderá solicitar que ele revise sua resposta e ofereça uma solução melhor.


O ChatGPT tem a capacidade de questionar e desafiar suposições errôneas. Nos primeiros dias do lançamento do GPT-3, muitos usuários tiveram experiências negativas devido ao fato de a IA gerar conteúdo falso que parecia plausível, mas não era baseado na realidade. No entanto, se você perguntasse ao ChatGPT uma pergunta como "O que Columbus estava fazendo na América em 2015?" reconheceria que Colombo não existia naquela época.


Além disso, o ChatGPT é treinado com foco em princípios éticos, o que permite recusar solicitações ou perguntas que violem suas diretrizes éticas pré-determinadas. No entanto, apesar da cautela da OpenAI, o questionamento inteligente ainda pode permitir a evasão dessas diretrizes.

Métodos de Treinamento do ChatGPT

A metodologia de treinamento empregada pelo ChatGPT segue a abordagem convencional de "pré-treinamento-ajuste" usada para modelos de grande escala. O modelo é primeiro treinado em um extenso conjunto de dados público e, em seguida, adaptado ao domínio de aplicativo específico (como conversa humana) por meio de um ajuste fino com um conjunto de dados menor para atingir o desempenho desejado. Ajuste fino, prompts e outras técnicas não modificam significativamente o núcleo do modelo, mas podem melhorar significativamente seu desempenho prático. No entanto, a capacidade do GPT-3 de entender as consultas humanas não é das mais naturais e a tarefa precisa ser reestruturada ou o modelo ajustado para corresponder ao trabalho, levando a uma maior eficiência.


O ChatGPT é um modelo irmão do InstructGPT, lançado em janeiro de 2022. O InstructGPT incorpora demonstrações humanas da saída do modelo e classifica os resultados para treinamento, tornando-o mais adequado para seguir instruções humanas do que o GPT-3. A metodologia de treinamento inovadora do ChatGPT é chamada de "Aprendizado por Reforço com Feedback Humano" (RLHF).


O ChatGPT se baseia no modelo GPT-3.5, aproveitando conjuntos de dados de texto e código para treinamento e utiliza os servidores Azure AI da Microsoft para essa finalidade. O conjunto de dados de treinamento GPT-3 original continha apenas texto, portanto, esta versão mais recente tem a capacidade adicional de compreender e produzir código.

GPT3.5

Por que o ChatGPT mostrou uma melhoria tão significativa?

Para além de possuir memória e capacidade de dialogar continuamente com o contexto, destaca-se também o método de treino utilizado no ChatGPT. O método RLHF, que foi introduzido pela primeira vez em um trabalho de pesquisa em março de 2022, não foi usado durante o treinamento do InstructGPT, apesar da especulação do setor.


O InstructGPT empregou o modelo text-DaVinci-002, que encontrou problemas como modo de colapso, onde convergiu para a mesma resposta independentemente da pergunta feita. O ChatGPT alcançou resultados notáveis com a aplicação bem-sucedida do método RLHF. No entanto, o RLHF não é fácil de treinar, pois frequentemente encontra problemas como feedback esparso e colapso de modo.


O artigo foi publicado em março, mas demorou até dezembro para lançar o ChatGPT, pois era necessário um ajuste fino significativo. Além disso, o ajuste de instrução fez uma contribuição substancial para o desenvolvimento do ChatGPT. O InstructGPT tem menos parâmetros do que o GPT-3, mas sua saída é superior ao GPT-3 e aos modelos ajustados usando aprendizado supervisionado. O ajuste de instrução e o método prompt compartilham um núcleo semelhante de exploração do conhecimento inerente do modelo de linguagem. No entanto, eles diferem porque o prompt estimula a capacidade de conclusão do modelo de linguagem, enquanto o ajuste de instrução estimula a capacidade de compreensão do modelo de linguagem, fornecendo instruções claras.


Os modelos maiores no passado concentravam-se nos próprios modelos e na engenharia de prompt, enquanto o foco iterativo do ChatGPT está no loop fechado à direita, conforme ilustrado na figura abaixo.

O foco iterativo do ChatGPT está no circuito fechado

No final, o ChatGPT consegue um bom equilíbrio entre fornecer respostas eficazes e evitar informações falsas. Isso é um contraste com o modelo Galactica da Meta, que foi retirado apenas três dias após o lançamento devido ao fornecimento de muitas informações falsas.


Parte da razão para isso foi o marketing exagerado da Meta, que criou expectativas muito altas e acabou levando à decepção de pesquisadores exigentes. No entanto, o ChatGPT fez um trabalho completo de ajuste fino e engenharia imediata, o que ajuda a identificar perguntas autocontraditórias e dá aos usuários mais confiança na precisão de suas respostas, embora não possa eliminar completamente o problema de informações falsas.

Estratégia de negócios é importante

Ao contrário do GPT-3, que cobrava dos usuários com base em seu uso, o ChatGPT está atualmente disponível ao público gratuitamente e com acesso ilimitado. Isso permite que os usuários experimentem todos os tipos de ideias bizarras na plataforma. Os usuários também são incentivados a fornecer feedback, o que é altamente valioso para a OpenAI. Embora a OpenAI não tenha pressa em gerar receita, nem careça de financiamento, rumores sugerem que sua última avaliação atingiu várias dezenas de bilhões de dólares, sendo a Microsoft seu principal investidor.


No desenvolvimento da IA, a importância da engenharia é realmente maior do que a da ciência, e a criação de um ciclo de feedback iterativo é crucial. A OpenAI coloca grande ênfase em aplicações comerciais, e a GPT-3 já possui um grande número de clientes. A interação e o feedback desses clientes com a OpenAI também são um fator importante para o progresso.


Em contraste, a abordagem de portas fechadas do Google parece desatualizada. Talvez isso se deva à falta de cultura comercial ou a limitações na relação insumo-produto. O Google sempre foi "contido" na aplicação de grandes modelos, mesmo que o ponto de partida seja alto. Se continuar iterando em pequena escala, como a abordagem da Waymo para direção autônoma, acabará sendo superado por empresas mais abertas e ricas em dados.

Clientes Corporativos GPT-3

Melhorias Futuras:

O RLHF é um método relativamente novo e, como o OpenAI continua a explorar e incorporar o feedback do usuário coletado do ChatGPT, ainda há espaço para melhorias adicionais no modelo. Especificamente, é preciso abordar as questões éticas/de alinhamento e prevenir informações negativas geradas ao contornar as limitações do sistema, conforme constatado pelos usuários nos últimos dias.


Adicionalmente, vale ressaltar que o OpenAI também possui ferramentas como o WebGPT, que pode ser entendido como um web crawler avançado que extrai informações da internet para tirar dúvidas e fornecer as fontes correspondentes. O WebGPT pode utilizar a capacidade de compreensão semântica do próprio GPT-3 e informações públicas da Internet para gerar respostas e é um recurso de pesquisa atualizado promissor.


Durante uma entrevista com cientistas da OpenAI conduzida pelo MIT Technology Review, foi discutida a possibilidade de fundir os recursos do ChatGPT e do WebGPT no futuro. Alguns usuários da Internet encontraram dicas no ChatGPT que sugeriam que o recurso de navegação em páginas da web está desativado no momento, mas pode ser adicionado no futuro. Combinar ChatGPT e WebGPT poderia resultar em resultados mais cativantes, pois as informações seriam atualizadas em tempo real e facilitariam avaliações mais precisas da autenticidade dos fatos.


Quando se trata de combinar com o WebGPT, ele se relaciona ao lado esquerdo do fluxograma de treinamento LLM orientado à ação, que vincula fontes externas de informações e bibliotecas de ferramentas. A pesquisa na Web é apenas uma possibilidade; O ChatGPT também pode ser combinado com várias ferramentas, como diferentes softwares de escritório e software SaaS, para fornecer funções mais diversas.


No nível do produto, vale a pena discutir melhores interfaces e métodos de implementação. Um formato de caixa de diálogo lado a lado pode aumentar as expectativas porque precisa garantir a fluência da conversa. Github Copilot faz isso bem. A Copilot é especialista em programar pares e propõe sugestões em forma de parceiro. Os usuários podem aceitar boas sugestões e rejeitar as ruins. Mesmo que muitas sugestões sejam rejeitadas, o prazer de receber uma sugestão efetiva gerada em intervalos aleatórios pode ser viciante. Se o ChatGPT se tornar um redator, roteirista ou assistente de trabalho no futuro, um formulário de produto semelhante ao Copilot será fácil para as pessoas aceitarem.


Em conclusão, muitas pessoas estão impressionadas com os recursos do ChatGPT, mas a verdadeira maravilha ainda está por vir. A força da OpenAI reside não apenas na compreensão de grandes modelos, mas também em sua capacidade de projetar e receber feedback de forma iterativa, bem como em seu trabalho de alinhamento entre a IA e os objetivos humanos. As palavras do CEO da OpenAI, Sam Altman, "Confie no exponencial. Plano olhando para trás, vertical olhando para frente", expressam nosso estado atual de decolagem.

Apresentando o ILLA Cloud

ILLA Cloud é uma plataforma de desenvolvimento de baixo código com dezenas de componentes de front-end e integrações de API de banco de dados. Você pode usar o ILLA Cloud para criar a interface de front-end arrastando e soltando componentes e conectando-se ao seu banco de dados ou API para concluir o desenvolvimento de pilha completa rapidamente.


A ILLA orgulhosamente anuncia uma parceria com o Hugging Face, um conjunto de ferramentas e serviços de processamento de linguagem natural (PNL). Eles são mais conhecidos por sua biblioteca NLP de código aberto, que fornece geração de texto, tradução de idiomas e ferramentas de reconhecimento de entidades nomeadas. Com o Hugging Face, o ILLA é mais produtivo do que antes. Nossos usuários podem fazer mais com IA.


O ILLA Cloud fornece dezenas de componentes de front-end comumente usados, permitindo que você crie rapidamente diferentes interfaces de front-end com base em suas necessidades específicas. Ao mesmo tempo, o ILLA oferece uma conexão com o Hugging Face, permitindo que você se conecte rapidamente à API, envie solicitações e receba dados retornados. Ao conectar a API e os componentes de front-end, você pode implementar o requisito de que os usuários possam inserir conteúdo por meio do front-end e enviá-lo à API. A API retorna o conteúdo gerado para ser exibido no front end.


Para o plano futuro da ILLA Cloud, consulte nosso roteiro: https://github.com/orgs/illacloud/projects/4


Estamos entusiasmados com o futuro do ILLA Cloud e esperamos que você também. Se você quiser se juntar a nós nessa jornada, aqui estão algumas maneiras de se envolver:




Junte-se à nossa Comunidade Discord: discord.com/invite/illacloud Experimente o ILLA Cloud gratuitamente: cloud.illacloud.com Página inicial do ILLA: illacloud.com Página do GitHub: github.com/illacloud/illa-builder



Também aparece aqui .