Mesa de la izquierda Abstracto y 1a Introducción 1.1 Composición de Syllogisms 1.2 Dureza de las composiciones largas 1.3 La dureza del razonamiento global 1.4 Nuestras contribuciones Results on the local reasoning barrier 2.1 Defining locality and auto-regressive locality 2.2 Transformers require low locality: formal results 2.3 Agnostic scratchpads cannot break the locality Scratchpads to break the locality 3.1 Educated scratchpad 3.2 Inductive Scratchpads Conclusion, Acknowledgments, and References A. Más literatura relacionada b) Experimentos adicionales C. Experimento y detalles de implementación Prueba del Teorema 1 E. Comentario sobre Lemma 1 F. Discusión sobre las conexiones de complejidad de circuitos G. Más experimentos con ChatGPT F Discusión sobre las conexiones de complejidad de circuitos Por otro lado, con la configuración adecuada, las redes neuronales profundas, las redes neuronales recurrentes y los transformadores con scratchpads son completos de Turing. Además, pueden simular una máquina de Turing utilizando recursos polinómicos en el número de pasos que ejecuta la máquina de Turing y la longitud de entrada. Por lo tanto, con los parámetros apropiados, estos pueden resolver de manera eficiente cualquier problema que sea posible resolver de manera eficiente. Un poco más preciso, dado que una red neuronal donde los bits de entrada son 0 o 1, es bastante fácil configurar a una neurona para calcular un AND, OU, o NO de uno o más valores anteriores, de modo que cualquier circuito puede ser convertido en una red neuronal de tamaño más igual. Cualquier cálculo eficiente puede ser realizado por un circuito polinómico de tamaño, G Más experimentos con ChatGPT Para n ≥ 1, consideramos a 3n + 2 personas con diferentes alturas. Damos el modelo 3n + 1 relaciones en pareja entre las personas consecutivas (en orden de altura) en orden aleatorio. Usando esta información, se puede entender el orden de las alturas para todas las personas combinando la información dada. preguntamos al modelo sobre la relación entre la persona n + 1 y 2n + 2. Height comparison “Omar es más alto que Sara, Vlad es más alto que David, Farah es más alto que Omar, Sara es más alto que Vlad, ¿Omar es más alto que Vlad?” donde la respuesta es verdadera. Tenga en cuenta que para responder correctamente a esta pregunta uno tiene que combinar al menos n + 1 relaciones. Por lo tanto, la localidad de la tarea es siempre mayor que n. (La localidad exacta dependería de la tokenización.) Descubrimos que ChatGPT (GPT3.5) falla en esta tarea incluso para n = 1 (caso más simple). Tenga en cuenta que cuando trabajamos con el modelo GPT3.5 usamos la siguiente prompt para que el modelo pueda usar el razonamiento de cadena de pensamiento: "Puedes razonar si quieres pero asegúrate de incluir sí/no en tu respuesta." Interesantemente, GPT4 funciona mucho mejor que GPT3.5. También observamos que es a menudo el caso cuando GPT4 responde correctamente a la pregunta, ordena a las personas en función de su Los autores: (1) Emmanuel Abbe, Apple y EPFL; Samy Bengio, de Apple (3) Aryo Lotf, EPFL; (4) Colin Sandon, EPFL; 5 Omid Saremi, Apple. Authors: (1) Emmanuel Abbe, Apple y EPFL; Samy Bengio, de Apple (3) Aryo Lotf, EPFL; (4) Colin Sandon, EPFL; 5 Omid Saremi, Apple. Este artículo está disponible en archivo bajo la licencia CC BY 4.0. Este documento es bajo la licencia CC BY 4.0. available on arxiv Disponible en Archivo