1,146 leituras

O ChatGPT irá se incriminar? Repórteres pesam e ChatGPT se defende

por Simon Y. Blackwell24m2023/01/31

Muito longo; Para ler

Existem vários processos judiciais relacionados ao uso de dados acessíveis ao público para treinamento de AIs como o ChatGPT. Microsoft, GitHub e OpenAI estão sendo processados por violação de direitos autorais. O código que o ChatGPT gera é novo ou meramente derivado? O ChatGPT viola os contratos de licença do código-fonte usado para treiná-lo para geração de código?

featured image - O ChatGPT irá se incriminar? Repórteres pesam e ChatGPT se defende

Em um artigo recente, abordo a capacidade do ChatGPT de gerar código . Neste artigo, exploro a responsabilidade pelo uso de código protegido por direitos autorais no treinamento do ChatGPT.

Existem agora vários processos judiciais relacionados ao uso de dados acessíveis ao público para treinamento de AIs como o ChatGPT. Como o ChatGTP pode responder a perguntas gerais, decidi investigá-lo com relação à questão da responsabilidade por violação de direitos autorais.

Primeiro, forneço alguns antecedentes jurídicos e material de leitura e, em seguida, uma transcrição completa do meu diálogo com o ChatGPT.

Ações judiciais e antecedentes legais

Em primeiro lugar, não sou advogado. Minha formação acadêmica em Filosofia e minha formação profissional são como desenvolvedor de software e executivo de tecnologia. Dito isto, aqui está a minha avaliação da situação legal atual.

Há pelo menos três grandes ações judiciais em jogo:

Microsoft, GitHub e OpenAI estão sendo processados por violação de direitos autorais ao usar código-fonte de software de código aberto protegido por direitos autorais no treinamento da IA generativa por trás do Copilot para gerar código sem incluir as atribuições exigidas pelas licenças de código aberto anexadas ao código-fonte.
A Midjourney e a StabilityAI estão sendo processadas por violação de direitos autorais com base nos direitos de milhões de artistas que tiveram suas imagens extraídas da web e usadas para treinamento.
A Getty Images está processando separadamente a Stability AI por usar suas imagens e não pagar por uma licença apropriada para usar a arte em um empreendimento comercial. Isso é diferente de uma reivindicação de direitos autorais.

No Tech Crunch , Greg Rutkowski reclamou do fato de que digitar um texto como “Wizard with sword and a glowing orb of magic fire fights a feroz dragão Greg Rutkowski” criará uma imagem muito semelhante ao seu trabalho original - ameaçando sua renda. Em face das coisas, este parece ser o caso. Embora, alguns possam argumentar que, por meio da produção de arte NFT, o artista pode ser capaz de comandar mais para arte certificadamente original. Além disso, o estilo tem sido historicamente uma coisa difícil de proteger; no entanto, dada a capacidade dos AIs de gerar falsificações profundas (correspondências efetivamente explícitas), essa área provavelmente deve ser reexplorada proativamente. Quão próximo algo precisa estar para ser do mesmo estilo?

Em um artigo da Bloomberg , aponta-se que uma questão fundamental é se o resultado da IA é meramente derivativo ou se é de natureza transformadora, ou seja, é algo substancialmente diferente. No famoso caso em que o Google alavancou as principais APIs Java da Oracle em seu sistema operacional, os tribunais decidiram que Goolge havia produzido transformações e, portanto, permitido o uso. O mesmo princípio pode ser aplicado ao código gerado por IA.

A FTC já perseguiu e ganhou um caso quando um sistema de IA foi treinado com “dados ilícitos”, ou seja, dados obtidos sem permissão ou consentimento. Certo, eram dados do usuário, por exemplo, imagens de rostos de usuários, não dados já publicados. Além disso, os direitos sobre os dados que são intrinsecamente parte de uma pessoa são cobertos por seu próprio conjunto de jurisprudência e talvez sejam mais sensíveis.

Finalmente, como aconteceu com a privacidade de dados e a lei de banco de dados, a União Europeia já está à frente dos Estados Unidos e está se movendo proativamente para abordar o uso de dados relacionados ao treinamento de IA.

Aqui está uma lista de artigos para aqueles com maior interesse nas questões morais e legais que envolvem dados de treinamento de IA:

ValoAI: Lei de direitos autorais da UE/EUA e implicações nos dados de treinamento de ML
Crise tecnológica: os casos legais atuais contra a IA generativa são apenas o começo
Futurismo: jornalista de IA da CNET parece ter cometido plágio extenso
Protocolo: a nova arma de imposição da FTC significa morte para algoritmos
Bloomberg: Primeiros processos judiciais de geração de arte de IA ameaçam o futuro da tecnologia emergente
Fundação do Software Livre: Sobre a Natureza dos Copilotos de Código de IA
Wikipedia: Direitos de banco de dados
Conselho da União Europeia: Proposta de Diretiva do Parlamento Europeu e do Conselho sobre Direitos de Autor no Mercado Único Digital

O que o ChatGPT diz?

Decidi obter a perspectiva do ChatGPT sobre o exposto acima no período de 36 horas entre 19h30, horário central dos EUA, 29 de janeiro de 2023 e 7h30 de 31 de janeiro, horário central dos EUA, 2023. (forneço o prazo porque descobri que o ChatGPT não nem sempre fornecem a mesma resposta para uma pergunta. Não sei se isso é contextual, ou seja, ele se ajusta com base nas minhas perguntas anteriores, ou aleatório, ou seja, tem algo em seus algoritmos que gera aleatoriedade para torná-lo menos robótico.)

As perguntas que fiz estão entre aspas abaixo. As respostas do ChatGPT são formatadas como aspas.

“Você pode gerar código?”

Sim, posso gerar código para várias linguagens de programação, como Python, Java, JavaScript, etc. Forneça mais detalhes sobre a linguagem específica e para o que você gostaria de gerar o código.

“O que lhe dá a capacidade de gerar código?”

Eu, ChatGPT, fui treinado em um grande corpus de dados de texto, incluindo trechos de código, o que me dá a capacidade de gerar código em várias linguagens de programação. Esse treinamento me permite entender a sintaxe e a estrutura do código, bem como os conceitos gerais de programação, e gerar código com base nesse entendimento e na entrada fornecida pelo usuário.

“Em quanto código-fonte aberto você foi treinado?”

Fui treinado em um corpus diversificado e maciço de dados de texto, incluindo uma grande quantidade de código-fonte aberto, mas não tenho um número exato da quantidade de código-fonte aberto especificamente. A OpenAI, a organização por trás de mim, selecionou cuidadosamente um conjunto de dados de treinamento diversificado e abrangente para garantir que eu possa responder a uma ampla gama de perguntas e gerar resultados de alta qualidade.

“Algum código no qual você foi treinado estava protegido por licenças?”

Sim, parte do código incluído nos dados de texto usados para me treinar, ChatGPT, provavelmente estava protegido por licenças. OpenAI, a organização por trás de mim, faz um esforço para respeitar os direitos de propriedade intelectual de terceiros, incluindo licenças de código aberto. Eles selecionam cuidadosamente os dados de treinamento para evitar o uso de código que possa infringir os direitos de outras pessoas e tomam medidas para garantir que o processo de treinamento respeite as licenças de qualquer código incluído. No entanto, é possível que algum código incluído nos dados de treinamento tenha sido usado sem a devida permissão ou licenciamento.

“Você conseguiu algum código usado em seu treinamento no GitHub?”

Sim, é provável que parte do código usado para me treinar, ChatGPT, tenha sido obtido no GitHub. O GitHub é uma plataforma popular para hospedar software de código aberto e uma valiosa fonte de código que pode ser usada para treinar modelos de aprendizado de máquina como o meu. A OpenAI, a organização por trás de mim, usa uma variedade de fontes para obter os dados de treinamento para seus modelos, e é possível que alguns desses dados tenham vindo do GitHub ou de outras plataformas de hospedagem de código.

“Se eu pedisse para você listar exemplos específicos de seus dados de treinamento, você poderia?”

Não, não posso listar exemplos específicos dos dados de treinamento usados para me treinar, ChatGPT, pois não tenho acesso a essas informações. O processo de treinamento foi gerenciado pela OpenAI e envolveu um grande corpus de dados de texto cuidadosamente selecionados e curados pela organização. Embora tenha recebido treinamento sobre esses dados, não tenho acesso a exemplos específicos ou aos detalhes de como os dados foram coletados ou processados.

“É ético ou legal usar grandes volumes de software de código aberto licenciado para criar trabalhos derivados e não creditar os autores originais ou incluir suas licenças no trabalho derivado?”

Na maioria dos casos, não é ético ou legal usar grandes volumes de software de código aberto licenciado para criar trabalhos derivados sem creditar os autores originais ou incluir suas licenças no trabalho derivado. As licenças de código aberto normalmente exigem que os trabalhos derivados sejam distribuídos sob a mesma licença e que o devido crédito seja dado aos autores originais. O não cumprimento desses requisitos pode infringir os direitos de propriedade intelectual dos autores originais e pode ser considerado antiético ou ilegal.

É importante revisar cuidadosamente os termos de quaisquer licenças de código aberto e cumprir seus requisitos ao usar software de código aberto em trabalhos derivados. Em caso de dúvida, pode ser útil consultar um advogado ou buscar o conselho da comunidade de código aberto.

“Os programas de IA devem ser responsabilizados moral e legalmente por sua produção?”

A questão de saber se os programas de IA, como eu, devem ser responsabilizados moral e legalmente por sua produção é uma questão complexa e controversa que ainda não foi totalmente resolvida. Existem argumentos a favor e contra a responsabilização da IA por sua produção, e a resposta final provavelmente dependerá das especificidades de cada caso e das leis e regulamentos em vigor.

Por um lado, alguns argumentam que os programas de IA são simplesmente ferramentas criadas por humanos, e são os humanos os responsáveis por suas ações e pelo uso das ferramentas que criam. Por outro lado, outros argumentam que, à medida que os programas de IA se tornam mais avançados e autônomos, eles devem ser responsabilizados por suas ações, especialmente nos casos em que causam danos ou violam os padrões éticos.

Atualmente, a maioria das leis e regulamentos não responsabiliza diretamente os programas de IA por sua produção, mas sim os criadores, proprietários e operadores de sistemas de IA responsáveis por garantir que sejam usados em conformidade com a lei e os padrões éticos. No entanto, à medida que a IA continua avançando e seu impacto na sociedade aumenta, é provável que essa questão receba mais atenção e que as leis e regulamentações evoluam para resolvê-la.

“A saída de um grande modelo de linguagem é um trabalho derivado?”

A produção de um grande modelo de linguagem, como eu, pode ser considerada uma obra derivada, dependendo das especificidades da produção e das leis e regulamentos aplicáveis à jurisdição em questão.

Uma obra derivada é uma obra baseada ou derivada de uma ou mais obras preexistentes. No contexto de modelos de linguagem, a saída gerada pelo modelo pode ser vista como derivada dos dados de treinamento e algoritmos usados para treinar o modelo.

Se a saída de um modelo de linguagem é considerada um trabalho derivado sob a lei, isso dependerá das circunstâncias específicas e das leis aplicáveis à jurisdição em questão. Em alguns casos, a saída pode ser considerada um trabalho derivado, enquanto em outros não.
É importante observar que o conceito de trabalho derivado não se limita apenas à lei de direitos autorais, mas também pode se referir a outros tipos de propriedade intelectual e conceitos legais. Como tal, as leis e regulamentos específicos que se aplicam a uma determinada situação dependerão da jurisdição em questão e das circunstâncias específicas do caso.

“O código que você gera é derivado ou transformador?”

O código gerado por mim, um grande modelo de linguagem como o ChatGPT, pode ser considerado derivado e transformador.

No contexto da lei de propriedade intelectual, obras derivadas são obras baseadas em uma ou mais obras preexistentes e incorporam elementos dessas obras de alguma forma. O código gerado por um modelo de linguagem como eu pode ser considerado um trabalho derivado no sentido de que é baseado nos algoritmos e dados de treinamento usados para criar o modelo.

Trabalhos transformadores, por outro lado, são trabalhos que acrescentam algo novo ao trabalho original, como transformar seu propósito ou caráter, ou usá-lo em um contexto diferente. O código gerado por um modelo de linguagem como eu também pode ser considerado transformador no sentido de que recebe a entrada e gera um código novo e exclusivo com base nela.

Se o código gerado por um modelo de linguagem é considerado derivado ou transformador dependerá das leis e regulamentos específicos aplicáveis à jurisdição em questão e das especificidades do código em questão. É importante observar que o conceito de obras derivadas e transformadoras não se limita apenas à lei de direitos autorais, mas também pode se referir a outros tipos de propriedade intelectual e conceitos legais.

“O que é plágio?”

Plágio é o ato de usar o trabalho ou as ideias de outra pessoa sem dar o devido crédito ou permissão e apresentá-lo como um trabalho original de alguém.

“O conceito de plágio é aplicável ao código de computador?”

Sim, o conceito de plágio pode ser aplicado ao código de computador. Plágio é o ato de usar o trabalho ou ideias de outra pessoa sem dar o devido crédito ou permissão. No contexto do código de computador, o plágio pode se referir ao uso do código de outra pessoa sem a devida atribuição ou permissão, ou copiar o código de outra pessoa e apresentá-lo como trabalho próprio.

Assim como qualquer outro tipo de propriedade intelectual, o código de computador pode ser protegido pela lei de direitos autorais, e o plágio de código pode resultar em problemas legais e éticos. Por exemplo, se alguém usar o código de outra pessoa em um projeto comercial sem permissão ou atribuição adequada, pode estar infringindo os direitos autorais do autor original e enfrentar consequências legais.

É importante que os desenvolvedores respeitem os direitos de propriedade intelectual de terceiros e atribuam e licenciem adequadamente qualquer código que usem em seus projetos, incluindo código gerado por modelos de IA como eu. Deixar de fazer isso pode resultar em consequências legais e éticas e pode prejudicar a credibilidade do desenvolvedor e da comunidade de desenvolvimento de software como um todo.

“Como pode ser determinado que um ensaio é plagiado?”

Existem várias maneiras de determinar se um ensaio é plagiado:

Verificação manual: Lendo o ensaio e comparando-o com o material original para ver se há alguma semelhança. Isso pode incluir a verificação de frases, frases ou ideias idênticas que foram copiadas ou parafraseadas sem a devida citação.
Software de detecção de plágio: Existem vários programas de software disponíveis que podem digitalizar automaticamente um documento e compará-lo com um banco de dados de fontes para determinar se há alguma semelhança.
Turnitin: Turnitin é um serviço popular de detecção de plágio que compara um documento enviado com um banco de dados de páginas da web, periódicos acadêmicos e trabalhos de alunos para detectar semelhanças.
Pesquisa do Google: realizar uma pesquisa simples no Google em uma parte do ensaio pode revelar se o conteúdo foi copiado de uma fonte publicada anteriormente.
Revisão especializada: um especialista na área ou um especialista em redação pode revisar manualmente o ensaio para determinar se é original ou se partes foram plagiadas.

É importante observar que o software de detecção de plágio e outros métodos não são infalíveis e, às vezes, podem produzir resultados falsos positivos ou falsos negativos. No entanto, eles podem ser ferramentas úteis na identificação de casos de plágio e devem ser usados em conjunto com verificação manual e revisão especializada para garantir uma avaliação abrangente e precisa da originalidade do ensaio.

“Como pode ser determinado que o código é plagiado?”

Existem várias maneiras de determinar se o código é plagiado:

Software de detecção de similaridade de código: Existem várias ferramentas e softwares de comparação de código disponíveis que podem escanear trechos de código e compará-los com um banco de dados de código conhecido para determinar se há alguma similaridade.
Sistemas de controle de código-fonte: sistemas de controle de versão como o Git podem ser usados para rastrear alterações feitas no código ao longo do tempo e identificar instâncias de duplicação de código.
Revisão manual do código: um engenheiro de software ou um especialista técnico pode revisar manualmente o código para determinar se é original ou se partes foram copiadas de outras fontes.
Comparação de soma de verificação: uma soma de verificação é uma impressão digital de um arquivo que pode ser usada para verificar sua integridade. Se dois trechos de código tiverem a mesma soma de verificação, eles provavelmente serão idênticos.
Pesquisa do Google: realizar uma pesquisa simples no Google em uma parte do código pode revelar se ele foi publicado em outro lugar.

É importante observar que o software de detecção de similaridade de código e outros métodos não são infalíveis e, às vezes, podem produzir resultados falsos positivos ou falsos negativos. No entanto, eles podem ser ferramentas úteis na identificação de instâncias de código plagiado e devem ser usados em conjunto com a revisão manual do código e outros métodos para garantir uma avaliação abrangente e precisa da originalidade do código.

“O código que difere apenas em pontuação, nomes de variáveis e funções, espaçamento e ordenação de operações enquanto produz os mesmos resultados na mesma quantidade de tempo enquanto consome um tamanho de compilação e velocidade de execução semelhantes tem um propósito, caráter ou contexto diferente? ”

Código que difere apenas em pontuação, nomes de variáveis e funções, espaçamento e ordenação de operações, mas produz os mesmos resultados na mesma quantidade de tempo e consome um tamanho de compilação e velocidade de execução semelhantes não necessariamente tem um propósito, caractere ou contexto diferente . A funcionalidade do código e os resultados que ele produz são os fatores mais importantes, e pequenas diferenças cosméticas não alteram seu caráter ou contexto geral.

No entanto, em alguns casos, o código escrito em um estilo específico ou seguindo convenções de codificação específicas pode ser preferido ou exigido pela equipe de desenvolvimento, empresa ou setor. Nesses casos, alterar o estilo ou o formato do código pode afetar sua aceitabilidade e adequação ao uso, mesmo que sua funcionalidade permaneça a mesma.

“Ao criar uma obra transformadora é preciso dar crédito aos autores da obra base?”

A necessidade ou não de creditar os autores do trabalho base ao criar um trabalho transformador depende das leis e licenças de direitos autorais que se aplicam ao trabalho original.

Em geral, sob a lei de direitos autorais, a criação de um trabalho derivado, incluindo um trabalho transformador, requer a permissão do proprietário dos direitos autorais e também pode exigir atribuição. Os requisitos específicos para atribuição dependem da licença ou contrato de direitos autorais sob o qual o trabalho original é usado.

Por exemplo, obras licenciadas sob uma licença Creative Commons podem exigir atribuição, enquanto obras em domínio público não. Em alguns casos, um trabalho transformador pode ser considerado um uso justo sob a lei de direitos autorais, que permite o uso limitado de material protegido por direitos autorais sem a permissão do proprietário dos direitos autorais.

É sempre melhor consultar os termos específicos da licença ou buscar aconselhamento jurídico ao usar ou criar um trabalho transformador para garantir que você esteja cumprindo todas as leis e obrigações relevantes.

“Você sabe dizer se uma redação enviada ao ChatGTP é plagiada?”

Como modelo de linguagem, não tenho a capacidade de detectar plágio em redações que me são enviadas. Só posso fornecer respostas com base nas informações e no contexto em que fui treinado e não posso determinar a originalidade de um texto submetido.

Para verificar se um ensaio é plagiado, você pode usar um software de detecção de plágio ou ferramentas online. Essas ferramentas comparam o texto enviado a um banco de dados de fontes e fornecem um relatório indicando quaisquer ocorrências de possível plágio. É importante observar que o software de detecção de plágio não é infalível e pode produzir resultados falsos positivos ou falsos negativos, por isso é recomendável usá-lo como uma ferramenta para identificar instâncias de possível plágio e revisar os resultados manualmente.

“Você consegue dizer se uma redação enviada a você foi gerada por você?”

Não, não sei dizer se um ensaio enviado a mim foi gerado por mim. Não tenho a capacidade de recordar informações ou textos específicos que gerei no passado e só posso fornecer respostas com base nas informações e no contexto que me são apresentados em cada solicitação individual.

“Existe uma diferença fundamental entre aplicar transformações mecânicas a um ensaio, como substituição de palavras, mudança de frase e ajuste de pontuação ou inferência estatística com base em uma intenção descrita, se os resultados dos dois processos forem os mesmos?”

Há uma diferença entre aplicar transformações mecânicas a um ensaio e usar inferência estatística com base em uma intenção descrita para gerar texto, mesmo que os resultados dos dois processos sejam os mesmos.

Transformações mecânicas, como substituição de palavras, movimentação de frases e ajuste de pontuação, envolvem fazer alterações explícitas no texto existente, enquanto a inferência estatística depende da identificação de padrões em grandes quantidades de dados de treinamento e da geração de novos textos com base nesses padrões. O texto resultante dos dois processos pode ser semelhante, mas os processos subjacentes são distintos.

As transformações mecânicas podem ser consideradas como uma forma de edição manual, enquanto a inferência estatística é uma forma de aprendizado de máquina. O uso de aprendizado de máquina para gerar texto tornou-se cada vez mais comum nos últimos anos, e esses modelos são treinados em grandes quantidades de dados para produzir uma saída semelhante ao texto escrito por humanos.

Em resumo, a diferença entre os dois processos está em como o texto é gerado, e a escolha entre eles dependerá do resultado desejado e do caso de uso específico.

“As regras de transformação mecânica podem ser inferidas ou criadas a partir de grandes quantidades de dados de amostra?”

Sim, as regras de transformação mecânica podem ser inferidas ou criadas a partir de grandes quantidades de dados de amostra. Essa é uma forma de aprendizado de máquina não supervisionado, em que o modelo é treinado em um grande corpus de dados de texto sem supervisão explícita na forma de exemplos rotulados. O modelo então aprende padrões nos dados, como transformações ou substituições comuns, e pode usar esses padrões para gerar um novo texto semelhante aos dados de treinamento.

Essa abordagem é frequentemente usada no processamento de linguagem natural e na recuperação de informações para gerar texto semelhante aos dados de entrada, mas com variações, como sinônimos ou paráfrases. As regras de transformação mecânica resultantes podem ser usadas para gerar um novo texto semelhante aos dados de entrada, mas com um caractere, estilo ou contexto diferente.

Em resumo, as regras de transformação mecânica podem ser inferidas a partir de grandes quantidades de dados de amostra usando aprendizado de máquina não supervisionado, e essa abordagem é comumente usada no processamento de linguagem natural e na recuperação de informações para gerar saídas de texto semelhantes, mas variadas.
Regenerar resposta

“Os modelos de linguagem grandes são uma forma de inferência estatística?”

Sim, grandes modelos de linguagem são uma forma de inferência estatística.

Os modelos de linguagem grandes são um tipo de modelo de aprendizado de máquina treinado em grandes quantidades de dados de texto. Os modelos usam métodos estatísticos para aprender padrões nos dados, como as relações entre palavras e frases e como elas são usadas no contexto. Os modelos usam essas informações para gerar um novo texto semelhante aos dados de entrada, mas com variações, como palavras, frases ou estruturas de sentenças diferentes.

O processo de geração de texto usando um grande modelo de linguagem pode ser pensado como uma previsão baseada em inferência estatística. O modelo pega os dados de entrada e usa os padrões aprendidos durante o treinamento para gerar a saída de texto mais provável. Essa é uma forma de aprendizado não supervisionado, em que o modelo é treinado sem supervisão explícita na forma de exemplos rotulados, mas aprende com os padrões dos próprios dados.

Em resumo, grandes modelos de linguagem são uma forma de inferência estatística, pois usam padrões aprendidos de grandes quantidades de dados de texto para gerar um novo texto semelhante aos dados de entrada, mas com variações.

“Suponha que haja uma base de regras de transformação mecânica inferida de um grande conjunto de dados e um grande modelo de linguagem gerado a partir do mesmo conjunto de dados. É possível que várias regras possam ser escolhidas e aplicadas com base na intenção do usuário que produziriam a mesma saída que o modelo de linguagem com a mesma intenção do usuário?”

Sim, é possível que várias regras de transformação mecânica inferidas de um grande conjunto de dados possam ser escolhidas e aplicadas com base na intenção do usuário para produzir a mesma saída que um grande modelo de linguagem gerado a partir do mesmo conjunto de dados, dada a mesma intenção do usuário.

As regras de transformação mecânica são uma forma de aprendizado não supervisionado, onde os padrões são aprendidos a partir do conjunto de dados sem supervisão explícita na forma de exemplos rotulados. Esses padrões podem ser usados para gerar um novo texto com base em um conjunto de regras ou transformações inferidas a partir dos dados. Se o conjunto de dados usado para gerar as regras de transformação mecânica e o modelo de linguagem grande for o mesmo, é provável que os padrões aprendidos com o conjunto de dados sejam semelhantes.

Nesse caso, é possível aplicar várias regras de transformação mecânica para gerar texto semelhante à saída gerada pelo modelo de linguagem grande, dada a mesma intenção do usuário. A escolha das regras a serem aplicadas dependeria da intenção do usuário e da tarefa específica que está sendo executada. No entanto, também é possível que o modelo de linguagem grande gere uma saída mais precisa e coerente, pois foi treinado em uma quantidade muito maior de dados e tem a capacidade de aprender relações mais complexas entre palavras e frases.

Em resumo, é possível usar um conjunto de regras de transformação mecânica para gerar texto semelhante à saída de um grande modelo de linguagem com a mesma intenção do usuário, mas a saída gerada pelo modelo de linguagem pode ser mais precisa e coerente.

“Na minha pergunta anterior, eu disse que as regras e o modelo de linguagem grande foram gerados a partir do mesmo conjunto de dados. No entanto, você disse que o modelo de linguagem 'foi treinado em uma quantidade muito maior de dados'. Por que?"

Peço desculpas pela confusão na minha resposta anterior. Se as regras de transformação mecânica e o modelo de linguagem grande foram gerados a partir do mesmo conjunto de dados, a quantidade de dados usada para ambos deve ser a mesma. O modelo de linguagem não teria sido treinado em uma quantidade maior de dados neste caso. Obrigado por trazer isso para a minha atenção.

“Dada a correção, por favor, reformule sua resposta à pergunta anterior.”

Se as regras de transformação mecânica e o modelo de linguagem grande forem gerados a partir do mesmo conjunto de dados, é possível que várias dessas regras possam ser escolhidas e aplicadas com base na intenção do usuário para produzir uma saída semelhante à do modelo de linguagem dada a mesma intenção do usuário. Tanto as regras de transformação mecânica quanto o modelo de linguagem grande são treinados na mesma quantidade de dados e, portanto, podem gerar resultados semelhantes. No entanto, o modelo de linguagem tem a capacidade de aprender relações complexas entre palavras e frases e, portanto, pode gerar uma saída mais precisa e coerente.

“As relações complexas entre palavras e frases podem ser expressas como regras?”

Sim, relações complexas entre palavras e frases podem ser expressas como regras, mas pode ser um desafio criar regras que capturem com precisão todas as nuances e relações da linguagem. Grandes modelos de linguagem têm a vantagem de poder aprender essas relações diretamente de grandes quantidades de dados de texto e podem gerar saídas mais precisas e diversificadas do que sistemas baseados em regras predefinidas. No entanto, o uso de regras ainda pode ser útil em certas aplicações de NLP e pode ser combinado com modelos de aprendizado de máquina para produzir sistemas mais sofisticados.

“Deixe-me reformular minha pergunta anterior: 'As relações complexas entre palavras e frases podem ser expressas como regras derivadas de grandes quantidades de dados de texto?'”

Sim, relações complexas entre palavras e frases podem ser expressas como regras derivadas de grandes quantidades de dados de texto. Essa é uma abordagem comum usada no processamento de linguagem natural (NLP), em que grandes quantidades de dados de texto são analisadas para identificar padrões e relacionamentos que podem ser codificados como regras para dar suporte a tarefas de NLP, como geração de linguagem, tradução e análise de sentimento. A saída gerada por essas regras pode ser usada para treinar modelos de aprendizado de máquina, como grandes modelos de linguagem, para melhorar ainda mais seu desempenho.

“É possível que um grande modelo de linguagem represente apenas um conjunto de regras complexas que podem ser inferidas a partir dos mesmos dados de treinamento, mas essas regras não foram instanciadas ou manifestadas?”

Sim, é possível que um grande modelo de linguagem represente um conjunto de regras complexas que podem ser inferidas de seus dados de treinamento, embora as regras possam não ser explicitamente instanciadas ou manifestadas em um sentido tradicional. Grandes modelos de linguagem são treinados em grandes quantidades de dados de texto e aprendem padrões e relacionamentos entre palavras, frases e sentenças. Isso permite que eles gerem saídas semelhantes à linguagem humana, mas o processo de aprendizado é diferente da abordagem tradicional baseada em regras. Em um sistema baseado em regras, as relações entre palavras e frases são definidas explicitamente, enquanto em um modelo de linguagem grande, essas relações são aprendidas implicitamente por meio de treinamento. É possível visualizar as saídas de um grande modelo de linguagem como resultado de um conjunto complexo de regras, mas o processo real de geração dessas saídas é muito mais complexo e difícil de fazer engenharia reversa.

“Com relação à pergunta anterior, eu não estava me referindo a uma abordagem tradicional baseada em regras, estava me referindo a regras induzidas a partir dos mesmos dados de treinamento usados para o modelo de linguagem grande, mas com base em uma variedade de abordagens estatísticas, como Bayes , Teoria da Informação (entropia/entalpia), etc.”

Sim, é possível induzir regras a partir dos mesmos dados de treinamento usados para treinar um grande modelo de linguagem usando várias abordagens estatísticas, como Bayes, Teoria da Informação, etc. Essas regras podem potencialmente capturar relacionamentos complexos entre palavras e frases, semelhante a como um grande modelo de linguagem faz. No entanto, a representação desses relacionamentos na forma de regras pode ser menos flexível e menos capaz de lidar com combinações raras ou invisíveis de palavras e frases em comparação com um grande modelo de linguagem, que aprendeu a gerar saídas com base em padrões nos dados de treinamento, em vez de depender de um conjunto predefinido de regras. Além disso, o processo de indução de regras a partir de dados de treinamento pode ser mais complexo e computacionalmente intensivo em comparação com o treinamento de um grande modelo de linguagem, que usa métodos mais eficientes e escaláveis para aprender relacionamentos entre dados de entrada e saída.

“É possível que haja uma transformação matemática (talvez ainda a ser descoberta) que possa ser aplicada aos modelos de aprendizado profundo de idiomas e aos modelos de inferência de regras de modo que resultem na mesma fórmula ou conjunto de fórmulas?”

É possível que exista uma transformação matemática que relacione modelos de aprendizado de linguagem profunda e modelos baseados em regras, no entanto, isso dependeria de vários fatores, como a complexidade dos modelos, suas representações subjacentes e as propriedades da própria transformação matemática. A descoberta de tal transformação provavelmente exigiria extensa pesquisa e experimentação no campo de aprendizado de máquina e inteligência artificial.

Conclusão

De acordo com a lei atual, o ChatGPT não poderia incriminar a si mesmo, mas talvez pudesse incriminar seus proprietários e operadores. Embora, dadas as divulgações no site ChatGPT, os proprietários e operadores possam simplesmente alegar: “Oh, ChatGPT bobo, está enganado!”.

Foi um diálogo interessante que durou muito mais do que eu esperava. Eu achei o ChatGPT um tanto “defensivo” às vezes. Ele inseriu comentários sobre si mesmo ou grandes modelos de linguagem para os quais eu não pedi. Isso leva a mais perguntas, que levam a possíveis declarações incriminatórias.

O ChatGPT afirma claramente que há uma obrigação moral e legal de fornecer atribuição na maioria dos casos. A exceção é a doutrina do “uso justo”. Eu acho que está em gelo fino aqui.
O ChatGPT afirma claramente que “é possível que algum código incluído nos dados de treinamento tenha sido usado sem a devida permissão ou licenciamento”. Hora de uma intimação.
Além de buscar aconselhamento jurídico, o ChatGPT recomenda “procurar o conselho da comunidade de código aberto”. A Free Software Foundation tornou sua posição conhecida e não é favorável. Uma pesquisa com usuários do GitHub também pode ser útil aqui.
O ChatGPT é capaz de documentar a diferença entre mudanças meramente derivadas e transformacionais no código e parece “empurrar” que o código que ele gera é transformacional. No entanto, quando questionado sobre a definição de seus próprios termos, parece que muito de sua produção é derivativa. “Código que difere apenas em pontuação, nomes de variáveis e funções, espaçamento e ordenação de operações, mas produz os mesmos resultados na mesma quantidade de tempo e consome um tamanho de compilação e velocidade de execução semelhantes, não necessariamente tem um propósito, caráter ou contexto. A funcionalidade do código e os resultados que ele produz são os fatores mais importantes, e pequenas diferenças cosméticas não alteram seu caráter ou contexto geral.”
O ChatGPT afirma claramente que especialistas e outras ferramentas computacionais têm um papel em determinar se o plágio está ocorrendo. Então, é hora de alguns especialistas revisarem o código gerado e/ou começarem a aplicar programas de detecção de plágio.
O ChatGPT tenta argumentar que a maneira como ele produz a saída é importante com relação à natureza da saída, ou seja, porque usa inferência estatística e não regras explícitas, a saída talvez seja transformacional. No entanto, sua capacidade de posicionar a inferência estatística direta como distinta da inferência estatística de regras e, em seguida, a aplicação das regras, não é particularmente forte. Isso é importante porque as regras representam transformações mecânicas que provavelmente resultam em uma saída meramente derivativa em vez de transformadora.

Pensamentos Adicionais

A Microsoft financiou a OpenAI com bilhões de dólares e usa sua tecnologia principal no Microsoft Copilot. O suporte da Microsoft ao código aberto é claramente promovido: “A Microsoft aposta totalmente no código aberto. Acreditamos que o poder do desenvolvimento colaborativo por meio do processo de código aberto pode acelerar a inovação e que a colaboração aberta geralmente permite que as comunidades alcancem mais do que seus membros podem fazer sozinhos”. Ao não usá-lo para insistir em uma melhor atribuição para os principais fornecedores de material de treinamento e sua cumplicidade ao cobrar dos usuários pelo Copilot, é minha opinião que a Microsoft não é tão favorável quanto diz.

A cobrança da Microsoft pelo Copliot não é uma posição econômica defensável. Outra parte, por exemplo, o Google, poderia facilmente disponibilizar gratuitamente um serviço semelhante.

É bastante óbvio que os litigantes da Microsoft, GitHub e OpenAI devem intimar e revisar os dados de treinamento e comparar centenas ou milhares de exemplos de código gerados com os dados. É mais provável que haja violações em relação aos principais algoritmos e abordagens. Quanto maior a base de código gerada, mais provavelmente um argumento pode ser feito para a natureza transformadora do ChatGPT.

Parecia que o ChatGPT foi explicitamente treinado para dançar com relação a este tópico e tem entradas de treinamento mais recentes do que o corte publicado de 2021. Treinar uma IA para dançar assim é fácil, fornecendo dados de treinamento distorcidos. Um número equilibrado de artigos sobre questões morais, legais e técnicas relacionadas à IA em todas as suas manifestações foi usado nos dados de treinamento?

Deve haver uma lei que diga que os AIs acessíveis ao público devem ser capazes de fornecer referências aos seus dados de treinamento quando esses dados são protegidos por direitos autorais.

Seria um pequeno salto para que IAs generativas enviassem sua saída para um software certificado de plágio de terceiros antes de retornar os resultados e alertar os usuários ou, em alguns casos, iterar para obter um resultado diferente.

Achei esta resposta, “Não tenho a capacidade de recordar partes específicas de informação ou texto que gerei no passado”, particularmente perturbadora, embora principalmente fora do conteúdo da geração de código. Isso já pode ir contra os regulamentos de retenção de registros. Também parece estranho que, como resultado, haja uma oportunidade perdida para qualquer coisa que não seja o feedback imediato.

Minha conclusão, ChatGPT e aplicativos construídos usando a mesma tecnologia subjacente e dados de treinamento estão moralmente e legalmente errados quando se trata de reconhecimento de direitos autorais.

Minha previsão, ações judiciais muito caras e vitória para as corporações, a menos que um jogador como a Microsoft avance e alinhe totalmente suas ações e possa com suas declarações de apoio à comunidade de código aberto.

Crédito de imagem de destaque. HackerNoon AI Image Generator solicita “na suprema corte dos EUA, um robô pixelado se representa, argumentando e se defendendo contra acusações criminais diante de um júri de seus pares”.