A menos que alguém viva literalmente sob uma rocha (e não em cima de uma), você provavelmente já ouviu falar do ChatGPT - o inovador sistema de IA baseado em diálogos de criação distópica.
Sua maneira extremamente coloquial faz com que seus usuários o levem ao limite.
A maioria fica impressionada com sua capacidade de escrever código em tempo real ou produzir ensaios originais e infalíveis.
À primeira vista, o ChatGPT é bastante impressionante. Embora essa tecnologia já exista há alguns anos, mesmo com outras empresas lançando iniciativas semelhantes no passado, o ChatGPT conseguiu obter um milhão de usuários em seis dias.
Do ponto de vista do produto, isso foi certamente uma prova de que o ChatGPT atendeu a uma necessidade do mercado. Provavelmente mudará a economia do show para sempre, pois permite essencialmente uma pesquisa interativa no Google com resultados muito mais concisos e acionáveis em tempo real.
No entanto, a conversa sobre IA costuma ser congruente com a ética - muitos começaram a questionar os perigos potenciais desse modelo estar disponível para todos.
Como mostrado no passado, os humanos tiveram uma má reputação ao ensinar a IA a dizer coisas que não deveriam ser ditas, muito menos pensadas.
Em um nível mais filosófico, qual é a fonte de verdade do ChatGPT?
E quanto a outros sistemas futuros baseados em GPT?
Como garantimos quais vieses, conjuntos de dados e parâmetros estão sendo considerados sem comprometer a segurança da IA?
Essas preocupações (escritas como “limitações”) são realmente reconhecidas pela OpenAI em
Antes de resolver o inevitável surgimento do chatbot de IA, permita uma breve explicação de como ele realmente funciona do ponto de vista de um pássaro.
O ChatGPT é baseado no GPT-3.5 - uma versão um pouco mais nova e melhor do GPT-3.
GPT significa Generative Pre-trained Transformer 3.
“É um modelo de linguagem autorregressivo que usa aprendizado profundo para produzir texto semelhante ao humano. Dado um texto inicial como um prompt, ele produzirá um texto que continua o prompt.” -
Em palavras mais simples, é um modelo preditivo de processamento de linguagem que é treinado especificamente para produzir testes legíveis por humanos. Essa noção é testada usando o Teste de Turing, com o objetivo de que o texto gerado pela IA seja indistinguível de sua contraparte escrita por humanos.
GPT tem que tentar prever a resposta correta. Quando o modelo está sendo treinado, ele continua ajustando suas variáveis internas até obter a resposta correta.
Muitos fatores são considerados ao treinar o modelo, como acompanhar a atenção da palavra - ou seja, a influência/classificação da palavra na frase.
Para mais informações sobre como funciona em um nível mais técnico, leia
O ChatGPT foi o primeiro a realmente abrir essa funcionalidade de maneira amigável ao público, o que é fantástico e assustador devido ao seu crescimento parabólico.
A maioria dos problemas que vêm de IAs baseados em GPT, como o ChatGPT, estão nesta citação:
"No fundo, o GPT-3, como outros modelos de IA, é tão bom quanto os dados com os quais foi treinado e os humanos criam esses dados. As mesmas crenças, preconceitos, erros e falsidades que mantemos são refletidos nas respostas da IA. E como ferramentas como o ChatGPT parecem inteligentes, objetivas e confiantes, tendemos a acreditar no que esses modelos nos oferecem." -
O principal problema com esses modelos são os dados que estão sendo alimentados. Antes que uma IA se torne útil, ela precisa consumir, interagir e testar bilhões de palavras e parâmetros. Esses conjuntos de dados geralmente são filtrados e selecionados para conter informações específicas.
No caso do ChatGPT, ele obtém seus dados da Internet - o que permite ter uma infinidade de soluções diferentes ao seu alcance (uma IA tem a ponta dos dedos?).
No entanto, isso também significa que pode trazer alguns dos lados mais sombrios da Internet e seus preconceitos.
O problema não é com a IA em si - está rastreando os processos de treinamento e coleta de dados que a criam.
Se alguém pudesse rastrear e rastrear, com um grau de certeza e transparência, a história de um modelo de treinamento ao longo do tempo, suas fontes e sua jornada geral, então determinações muito melhores poderiam ser feitas sobre a confiança dos resultados que ele produz.
Dessa forma, o valor será mais aparente em modelos mais focados que tenham um propósito, motivo e dados selecionados específicos.
Para ser claro, a OpenAI está ciente de que os modelos podem ser tendenciosos e que uma fonte robusta de verdade precisa ser estabelecida em algum momento.
E que melhor tecnologia para manter um registro imutável, transparente e cronológico da criação de uma IA do que um livro-razão distribuído e tolerante a falhas?
A maioria vê a IA como uma espécie de “caixa preta” de funcionalidade, onde a origem dos dados, onde foram coletados, em que circunstâncias e como funcionam permanecem desconhecidos.
No entanto - e se sempre que uma nova IA fosse criada, cada processo relevante fosse submetido a um registro para o público visualizar, para que eles soubessem exatamente como a IA opera com base nos dados fornecidos?
Blockchains são bons em manter um registro verificável e imparcial da verdade.
Obviamente, isso seria apenas para AIs voltadas para o público, como o ChatGPT. Tudo, desde o conjunto de dados até quem estava envolvido, parâmetros essenciais e quaisquer vieses em potencial, poderia ser mantido como uma presença on-chain.
À medida que a IA treina e melhora progressivamente, ela também é atualizada em tempo real no livro-razão. Dessa forma, até mesmo os desenvolvedores responsáveis por seu treinamento poderiam ter uma visão cronológica e limpa de exatamente como a IA está se saindo em termos de desempenho.
Mais importante ainda, o livro-razão forneceria uma fonte direta de verdade respaldada pela proveniência da criação da IA.
Em outras palavras - mantemos a responsabilidade da IA desde sua criação, rastreamos sua origem, motivos e exatamente como ela foi influenciada desde o nível de treinamento.
Isso garantiria a consistência e a proveniência dos dados. A integridade dos dados está sempre em baixa. Usando um sistema de manutenção de registros, como blockchain, poderíamos rastrear cada byte de dados até sua origem para IA.
Isso ajudaria a identificar quaisquer vieses que possam ser difíceis de detectar na caixa preta da IA e evitar a falsa propagação de dados que podem vir de uma IA “maliciosa”.
Pense nisso como uma marca de verificação. Se o AI tiver uma marca de seleção, é válido. Se não, então há razão para duvidar de sua legitimidade.
Conforme mostrado em blockchains como o Polkadot , também é perfeitamente possível que as organizações votem em certas regras e mecanismos na cadeia. Um conceito semelhante pode ser feito para IA, onde os votos podem ocorrer para determinar vários fatores relacionados à sua legitimidade, integridade dos dados e muito mais.
Afinal, esses modelos são tão bons quanto os dados que são alimentados a eles.
Com o tempo, os dados podem se tornar complicados. Quem controla a fonte, o que quer dizer que a fonte se transforma em algo que pode ser prejudicial?
Concedido, o OpenAI tem sua API de moderação - outra IA que detecta coisas consideradas prejudiciais, o que é um passo muito valioso na direção certa.
No entanto, mesmo para evidências factuais, ou seja, histórico, os dados baseados na Internet precisam ser examinados e verificados várias vezes.
À medida que mais pessoas confiam nesses serviços, garantir informações confiáveis será crucial.
Não há dúvida de que a IA mudará o mundo. Com o ChatGPT, mostrou ao público como essa tecnologia pode mudar seus meios de subsistência da noite para o dia.
Garantir a integridade da IA é o próximo passo. A verificação dos dados que chegam a ele, quem o desenvolveu e seus exatos motivos/objetivos será crucial para manter os padrões éticos e, por sua vez, a confiança pública em tais modelos.
Está realmente começando a parecer web3 agora!