Mesa da Esquerda Abstract e 1a Introdução 1.1 Composição dos silogismos 1.2 Dureza de composições longas 1.3 A dureza do raciocínio global 1.4 Nossas contribuições Results on the local reasoning barrier 2.1 Defining locality and auto-regressive locality 2.2 Transformers require low locality: formal results 2.3 Agnostic scratchpads cannot break the locality Scratchpads to break the locality 3.1 Educated scratchpad 3.2 Inductive Scratchpads Conclusion, Acknowledgments, and References A. Outra literatura relacionada b) Experiências adicionais C. Experimento e detalhes de implementação Prova do Teorema 1 E. Comentário sobre Lemma 1 F. Discussão sobre conexões de complexidade de circuitos G. Mais experiências com o ChatGPT F Discussão sobre conexões de complexidade de circuitos Por outro lado, com a configuração apropriada, as redes neurais profundas, as redes neurais recorrentes e os transformadores com scratchpads são completos de Turing. Além disso, eles podem simular uma máquina de Turing usando recursos polinômicos no número de etapas que a máquina de Turing executa e no comprimento de entrada. Assim, com os parâmetros apropriados, estes podem resolver de forma eficiente qualquer problema que seja possível resolver de forma eficiente. Um pouco mais precisamente, dado uma rede neural onde os bits de entrada são 0 ou 1, é bastante fácil definir um neurônio para calcular um AND, OU, ou NÃO de um ou mais valores anteriores, de modo que qualquer circuito pode ser convertido em uma rede neural de tamanho mais igual. Qualquer cálculo eficiente pode ser realizado por um circuito polinômico-dimensionado, G Mais experiências com ChatGPT Para n ≥ 1, consideramos 3n + 2 pessoas com alturas diferentes. Damos o modelo 3n + 1 relações em pares entre as pessoas consecutivas (em ordem de altura) em ordem aleatória. Usando esta informação, podemos entender a ordem das alturas para todas as pessoas combinando as informações dadas. Perguntamos ao modelo sobre a relação entre a pessoa n + 1 e 2n + 2. Height comparison “Omar é maior do que Sara, Vlad é maior do que David, Farah é maior do que Omar, Sara é maior do que Vlad, Omar é maior do que Vlad?” onde a resposta é verdadeira. Observe que para responder esta pergunta corretamente um tem que combinar pelo menos n + 1 relações. Assim, a localização da tarefa é sempre maior do que n. (A localização exata dependeria da tokenização.) Descobrimos que o ChatGPT (GPT3.5) falha nesta tarefa mesmo para n = 1 (caso mais simples). Observe que quando trabalhamos com o modelo GPT3.5 usamos o seguinte prompt para que o modelo seja capaz de usar raciocínio de cadeia de pensamento: "Você pode raciocinar se quiser, mas certifique-se de incluir sim/não em sua resposta." Curiosamente, o GPT4 funciona muito melhor do que o GPT3.5. Também observamos que é muitas vezes o caso quando o GPT4 responde corretamente à pergunta, ele ord Os autores: (1) Emmanuel Abbe, Apple e EPFL; 2) Samy Bengio, da Apple; (3) Aryo Lotf e EPFL; Colin Sandon, da EPFL; (5) Omid Saremi, a Apple. Authors: (1) Emmanuel Abbe, Apple e EPFL; 2) Samy Bengio, da Apple; (3) Aryo Lotf e EPFL; Colin Sandon, da EPFL; (5) Omid Saremi, a Apple. Este artigo está disponível em arquivo sob a licença CC BY 4.0. Este documento é sob a licença CC BY 4.0. available on arxiv Disponível em Arquivo