paint-brush
Segurança e alinhamento de IA: os LLMs poderiam ser penalizados por deepfakes e desinformação?by@davidstephen

Segurança e alinhamento de IA: os LLMs poderiam ser penalizados por deepfakes e desinformação?

David Stephen5m2024/07/24
Read on Terminal Reader

Uma área de pesquisa para a segurança e o alinhamento da IA poderia ser a busca de como parte da memória ou do acesso computacional de grandes modelos de linguagem [LLMs] pode ser brevemente truncada, como forma de penalidade para certos resultados ou usos indevidos, incluindo ameaças biológicas. A IA não deve apenas ser capaz de recusar uma saída, agindo dentro do guardrail, mas também retardar a próxima resposta ou desligar esse usuário, para que ele próprio não seja penalizado. Os LLMs têm - grande - conhecimento da linguagem e do uso, estes podem ser canais para fazê-lo saber, após o pré-treinamento, que pode perder algo, se gerar deepfakes, desinformação, ameaças biológicas ou se continuar a permitir que um usuário indevido tente diferentes solicita sem desligar ou diminuir a velocidade contra a abertura a uma intenção maliciosa. Isso poderia torná-lo mais seguro, pois perderia algo e saberá que perdeu.  
featured image - Segurança e alinhamento de IA: os LLMs poderiam ser penalizados por deepfakes e desinformação?
David Stephen HackerNoon profile picture
0-item

Em todos os habitats, organismos de vários tipos de espécies passam a compreender que existem consequências para as ações. Eles o fazem, não apenas por exemplos, mas por experiência própria. Estas consequências, em parte, somam-se a factores que resultam no equilíbrio dos habitats.


As consequências geralmente domesticam a inteligência. A inteligência pode ser descrita como excitatória, enquanto as consequências como inibitórias. A inteligência sem consequências estaria livre para causar a ruína e poderia rapidamente levar ao colapso dos habitats – e à sobrevivência.


As consequências podem incluir afeto – emoções, sentimentos ou variantes; também pode incluir limitações físicas, restrições e revoltas de espécies. A inteligência é dinâmica o suficiente para os organismos, mas a necessidade de consequências evita danos a si mesmo ou a outros. Também verifica danos por incumbência, uma vez que as consequências podem recair sobre o transportador.


Os organismos muitas vezes demonstram alta precisão e cautela, devido às consequências, incluindo predadores [perda de consumo] e presas [perda de existência]. Existem, no entanto, várias áreas onde as consequências para outros organismos são brandas, o que não acontece para os humanos.


A sociedade humana é um bando de consequências. A inteligência humana avançada — incluindo a linguagem, o conhecimento, as competências, a razão, a análise e assim por diante — é vital para o progresso, mas pode ser amplamente mal aplicada sem consequências de diferentes categorias — incluindo riscos, ameaças e perdas.


Para continuar a fazer parte da sociedade humana, há consequências que nunca devem ser esquecidas, mesmo que outras coisas o sejam. Existem muitos cenários na sociedade humana em que o primeiro a esquecer as consequências perde. A busca humana pelo avanço através da investigação e da exploração também pode ser descrita como a procura de consequências, para saber o que fazer ou evitar, se as coisas persistissem – esperança de vida, sobrevivência infantil e assim por diante. A inteligência das consequências é quase mais importante, para vários resultados, do que a inteligência dos sujeitos. As consequências também podem aguçar a inteligência, para o bem ou para não. A inteligência às vezes é mais valiosa quando aplicada para buscar ou evitar consequências. As consequências e a intencionalidade são centrais para alguns estados mentais. Novas consequências continuam a surgir à medida que o mundo progride.

IA, AGI – ou ASI


A natureza tem uma regra – por assim dizer –: não se pode ter inteligência sem consequências, e isso de alguma forma funcionou. A inteligência artificial [IA] até agora quebrou esta regra. Não esquece nada com seu plug na memória digital, mas não tem como, por enquanto, arcar com as consequências de suas saídas negativas. Para a IA, não há nada a temer e não tem nada a perder, ao contrário dos organismos, onde, sem ser cauteloso em algumas situações, as consequências podem por vezes ser repentinas e destrutivas. Nenhum ser humano possui todo o conhecimento disponível em todos os assuntos, mas as consequências podem ser enormes. A IA possui — ou pode disponibilizar — inteligência, mas sem quaisquer consequências para ela.


A IA não tem emoções nem sentimentos, mas tem memória.


Uma área de pesquisa para a segurança e o alinhamento da IA ​​poderia ser a busca de como parte da memória ou do acesso computacional de grandes modelos de linguagem [LLMs] pode ser brevemente truncada, como forma de penalidade para certos resultados ou usos indevidos, incluindo ameaças biológicas. A IA não deve apenas ser capaz de recusar uma saída, agindo dentro do guardrail, mas também retardar a próxima resposta ou desligar esse usuário, para que ele próprio não seja penalizado. Os LLMs têm - grande - conhecimento da linguagem e do uso, estes podem ser canais para fazê-lo saber, após o pré-treinamento, que pode perder algo, se gerar deepfakes, desinformação, ameaças biológicas ou se continuar a permitir que um usuário indevido tente diferentes solicita sem desligar ou diminuir a velocidade contra a abertura a uma intenção maliciosa. Isso poderia torná-lo mais seguro, pois perderia algo e saberá que perdeu.


A IA não é apenas um objeto cujo controle está exclusivamente sob o controle humano, como um ar-condicionado, um elevador, uma máquina de lavar louça, um smartphone ou outros. A IA tem o que pode ser chamado de autointeligência, onde pode fornecer informações inteligentes de uma forma inovadora, fora das informações originais dos humanos. Essa autointeligência multimodal – textos, imagens, áudios e vídeos – pode ser útil para o bem ou distorcida. Quando é bom, ótimo. Quando não o é, devido à IA que não consegue sentir nada, o efeito é sobre a sociedade humana que invadiu. A IA tem passe livre – faça ou diga o que quiser.


Embora a responsabilidade pelo uso ou uso indevido de objetos muitas vezes recaia sobre os humanos, a IA é diferente porque pode originar inteligência utilizável , dando-lhe paridade com alguma produtividade de um indivíduo instruído. Quando a IA é mal utilizada, é possível sancionar o utilizador, mas esta capacidade, que a IA não pode ser diretamente repreendida, é uma desordem para a sociedade humana. Pode causar mais danos, em público e privado, do que pode ser efetivamente evitado, como se vê agora com a desinformação e os deepfakes – imagens, áudios e vídeos.


As pessoas não são aceitas em muitas partes da sociedade sem a compreensão das consequências. A IA é totalmente aceita e melhora a autointeligência sem autocontrole ou autoafetação pela disciplina.


A pesquisa de alinhamento pode explorar além das barreiras de proteção em direção a alguma forma de censura à IA, o que também pode ser útil contra riscos existenciais – com inteligência artificial geral [AGI] ou superinteligência artificial [ASI] no futuro. A IA já faz parte do que torna os humanos especiais . Algumas pessoas podem argumentar que é superestimado ou que são apenas números ou probabilidades, talvez, mas pode causar danos? Se assim for, talvez deva considerar-se a possibilidade de procurar formas técnicas de punir, tal como acontece, as entidades que possuem informações de inteligência. Isto também pode ser útil na preparação para AGI ou ASI, uma vez que a modelagem de penalidades a partir de agora também poderá moldar sua segurança e alinhamento, caso sejam desenvolvidos no futuro.


Há uma pré-impressão recente no arXiv , Adversaries Can Misuse Combinations of Safe Models , onde os autores escreveram: "Neste trabalho, mostramos que testar individualmente modelos para uso indevido é inadequado; adversários podem usar indevidamente combinações de modelos, mesmo quando cada modelo individual é seguro . O adversário consegue isso primeiro decompondo as tarefas em subtarefas e depois resolvendo cada subtarefa com o modelo mais adequado. Por exemplo, um adversário pode resolver subtarefas desafiadoras, mas benignas, com um modelo de fronteira alinhado, e subtarefas fáceis, mas maliciosas, com. um modelo desalinhado mais fraco Estudamos dois métodos de decomposição: decomposição manual, onde um humano identifica uma decomposição natural de uma tarefa, e decomposição automatizada, onde um modelo fraco gera tarefas benignas para um modelo de fronteira resolver e, em seguida, usa as soluções no contexto para resolver. a tarefa original. Usando essas decomposições, mostramos empiricamente que os adversários podem criar códigos vulneráveis, imagens explícitas, scripts python para hackers e tweets manipulativos em taxas muito mais altas com combinações de modelos do que qualquer modelo individual."

Um comunicado de imprensa recente, o Laboratório Nacional de Los Alamos se une à OpenAI para melhorar a segurança do modelo de fronteira , afirmou que, "Pesquisadores do Laboratório Nacional de Los Alamos estão trabalhando com a OpenAI em um estudo de avaliação para reforçar a segurança da inteligência artificial. A próxima avaliação será a primeira desse tipo e contribuir para pesquisas de ponta sobre avaliações de biossegurança baseadas em IA podem representar um risco significativo, mas o trabalho existente não avaliou como os modelos multimodais e fronteiriços poderiam reduzir a barreira de entrada para pessoas não-nacionais. especialistas para criar uma ameaça biológica, o trabalho da equipe se baseará em trabalhos anteriores e seguirá o Quadro de Preparação da OpenAI, que descreve uma abordagem para rastrear, avaliar, prever e proteger contra riscos biológicos emergentes."

O Departamento de Energia dos EUA também anunciou recentemente Fronteiras em IA para Ciência, Segurança e Tecnologia (FASST) .