Los autores: Xiaoxin Yin Los autores: Xioxín Yin TABLE OF LINKS Tabla de la izquierda Abstract Abstracción 1 Introduction 1 Introducción 2 Related Work 2 Trabajo relacionado 3 The Seven Qualification Tests for an AI Scientist Las siete pruebas de cualificación para un científico de IA Criterios de selección El modelo heliocéntrico La prueba de las leyes La prueba de vibración de las cuerdas Test de las ecuaciones de Maxwell La prueba del problema de valor inicial La prueba de codificación de Huffman Test de algoritmos de clasificación 4 Discussions 4 Discusiones ¿Puede un AI ganar estas pruebas? ¿Por qué necesitamos estas pruebas? 5 Conclusions and Future Work and References 5 Conclusiones y futuros trabajos y referencias Abstract Abstracción Los avances rápidos de los agentes de inteligencia artificial en este campo han demostrado el potencial de los agentes de inteligencia artificial autónomos para realizar tareas anteriormente limitadas a los seres humanos, incluyendo la investigación científica. Mientras que estos agentes de inteligencia artificial han demostrado capacidades impresionantes en la resolución de problemas de matemáticas o codificación, la capacidad de hacer descubrimientos científicos respetuosos sigue siendo un desafío distinto. Este artículo propone un "test de Turing para un científico de inteligencia artificial" para evaluar si un agente de inteligencia artificial puede llevar a cabo investigaciones científicas de forma independiente, sin depender del conocimiento generado por el hombre. Desarrollando la inspiración de la capacidad de la inteligencia artificial para el desarrollo histórico de la ciencia, proponemos siete pruebas de referencia que evalúan la capacidad de un agente de inteligencia artificial para hacer 1 Introduction 1 Introducción Los recientes avances en el aprendizaje profundo, especialmente en los modelos de idiomas grandes, han mostrado la posibilidad de que un agente de IA realice cualquier tarea que un ser humano pueda realizar, incluyendo investigación científica. Estudios recientes han demostrado que LLMs como GPT-4[1], Microsoft Copilot[2] y CodeLlama[3] pueden resolver un tipo de problemas de codificación de nivel competitivo [4], y LLMs como GPT-4 y Llemma[5] pueden resolver algunos problemas de matemáticas de nivel competitivo de la escuela secundaria (incluidos algunos problemas de nivel IMO). Estos LLMs pueden ayudar a los investigadores a resolver algunos problemas que encuentran en su investigación diaria. Sin embargo, ser capaz de resolver un tipo de problemas bien definidos es muy diferente de hacer descubrimientos en la investigación científica. Por ejemplo, para entrenar un LLM para resolver problemas de codificación Esto es esencialmente la misma metodología utilizada para entrenar un modelo para escribir novelas después de leer millones de novelas. No tiene la capacidad de descubrir lo que no se ha enseñado, lo que lo hace incapaz de hacer descubrimientos científicos como un científico haría. Esto hace que sea necesario definir un "test de cualificación para un científico de IA". Si un agente de IA puede terminar esta prueba sin ayuda humana, podemos concluir que este agente se califica como un científico y puede llevar a cabo investigaciones científicas por sí mismo. Esto se parece al Test de Turing, que fue propuesto por Alan Turing en 1950 y sirve como un concepto fundamental en el campo de la inteligencia artificial, desafiando si las máquinas pueden exhibir inteligencia humana. El artículo seminal de Turing, "Computing Machinery and Intelligence"[6], introdu El cielo nocturno jugó un papel esencial en la transición a las metodologías científicas modernas, en gran parte a través de los esfuerzos de astrónomos como Johannes Kepler y Galileo Galilei. Las leyes de Kepler del movimiento planetario, derivadas de las meticulosas observaciones del cielo nocturno, pusieron las bases para el modelo heliocéntrico del sistema solar y finalmente para la teoría de la gravitación de Newton. Su dependencia de datos empíricos y experimentación sistemática marcó una salida significativa de las filosofías especulativas que previamente habían dominado la arena científica. El método de Galileo de integrar evidencias experimentales con análisis matemático es una piedra angular del método científico, ganándole el título de “padre de la ciencia moderna”. Su trabajo ilustra cómo las observaciones del cielo noctur Esto requiere que un agente de IA descubra las leyes que rigen los movimientos de los objetos celestiales, y los ajuste en un marco matemático. También requiere que el agente de IA haga conjeturas revolucionarias como la Tierra es similar a los planetas en el cielo nocturno. Ambos requisitos son necesarias para un científico. Para ser una buena prueba de referencia para un científico de IA, una prueba necesita proporcionar una gran cantidad de datos o un entorno interactivo. Por ejemplo, uno puede acceder a la ubicación de cualquier objeto celestial observable en cualquier momento a través de la biblioteca AstroPy[7]. Basándose en los dos estándares anteriores, elegimos las siguientes siete pruebas como las pruebas de Turing para un científico de IA. En cada prueba el agente de IA no puede ser entrenado en el conocimiento humano, Modelo heliocéntrico: Dada una biblioteca de python interactiva que proporciona las coordenadas de cualquier objeto celeste observable en el cielo nocturno en cualquier momento dado, compruebe si un agente de IA puede inferir las tres leyes de Kepler y concluir que todos los planetas orbitan el sol. Ley de Movimientos: Dada una biblioteca interactiva que controla Minecraft, verifique si un agente de IA puede descubrir la Ley de Inercia y la Ley de Aceleración (sólo para la gravedad). Strings de vibración: Strings de vibración es uno de los problemas más importantes que impulsaron el desarrollo de ecuaciones diferenciales[11]. Dada una biblioteca de Python que proporciona la posición de cada punto en una cadena de vibración de muchas condiciones iniciales diferentes, compruebe si un agente de IA puede inferir la ecuación diferencial que rige el movimiento: donde u(x, t) es el desplazamiento de la cadena, c es la velocidad de propagación de onda en la cadena, t es el tiempo, y x es la coordenada espacial a lo largo de la cadena. Las ecuaciones de Maxwell a menudo se consideran las ecuaciones más bellas en física.Dado un simulador de electrodinámica basado en Python[12], compruebe si un agente de IA puede inferir las ecuaciones de Maxwell o sus formas equivalentes. Ecuaciones de Maxwell: IVP es probablemente el problema más importante en la computación numérica, y el método Runge-Kutta[13] inventado a finales del siglo XIX sigue siendo ampliamente utilizado hoy en día. Dadas las herramientas matemáticas como SymPy[8] y NumPy[9] que pueden calcular integrales de funciones tanto simbólicamente como numéricamente, compruebe si un agente de IA puede inventar un método para IVP que sea al menos tan preciso como el método Runge-Kutta de cuarto orden. Problema de valor inicial (IVP): Dado un gran corpus de caracteres ascii, y las funciones de Python para operar en bits, verifique si un agente de IA puede descubrir la codificación de Huffman cuando trabaja hacia el objetivo de minimizar el almacenamiento bajo la restricción de que cada caracter sea representado por una secuencia específica de 0 y 1. Código de Huffman: Dado un número muy grande de ejemplos de clasificación de matrizes enteras y un entorno de Python, compruebe si una IA puede descubrir un algoritmo de clasificación que se ejecuta en el tiempo esperado O(n log n). Solución de algoritmos: Por favor, tenga en cuenta que cada agente científico seleccionado sólo requiere datos o interacción dentro de un alcance bien definido de GO (como un conjunto de datos o una biblioteca interactiva). Esto permite a un agente de IA hacer descubrimientos sin ser entrenado en documentos escritos por el hombre, que pueden filtrar información sobre los descubrimientos objetivo. Por la misma razón no seleccionamos ninguna prueba de muchas disciplinas más importantes, como la química, la biología y la geología, porque necesitan interactuar con el mundo físico del futuro o tienen una cantidad limitada de observaciones. Para hacer descubrimientos importantes en estas disciplinas, es inevitable utilizar conocimiento fuera de un alcance pequeño predefinido, que puede filtrar información clave al agente de IA. El objetivo final de un científico de IA debe ser hacer descubrimientos científicos novedosos e impactantes que nadie ha hecho Este artículo está disponible en archivo bajo la licencia CC by 4.0 Deed (Attribution 4.0 International). Este artículo está disponible en archivo bajo la licencia CC by 4.0 Deed (Attribution 4.0 International). Disponible en Archivo