Els autors: Xiaoxin Yin Els autors: Xiaxín Yin TABLE OF LINKS Taula de l'esquerra Abstract Abstracció 1 Introduction 1 Introducció 2 Related Work 2 Treballs relacionats 3 The Seven Qualification Tests for an AI Scientist 3 Les set proves de qualificació per a un científic d'IA Criteris de selecció Prova del model heliocèntric Prova de les lleis Prova de vibració de cordes Test de les equacions de Maxwell Prova del problema de valor inicial El test de codificació de Huffman Test d'algoritmes de classificació 4 Discussions 4 Discussió Pot un AI superar aquestes proves? Per què necessitem aquestes proves? 5 Conclusions and Future Work and References 5 Conclusions i futurs treballs i referències Abstract Abstracció Aquests avenços ràpids en l'avaluació d'agents d'intel·ligència artificial i els avenços en el camp de recerca en profund aprenentatge han demostrat el potencial per als agents d'intel·ligència artificial per dur a terme tasques anteriorment limitades als humans, incloent la investigació científica. Tot i que aquests LLMs han mostrat capacitats impressionants en la resolució de problemes de matemàtiques o codificació, la capacitat de fer descobriments científics respectuosos segueix sent un repte distint. Aquest article proposa un "test de Turing per a un científic d'intel·ligència artificial" per avaluar si un agent d'intel·ligència artificial pot dur a terme investigacions científiques de forma independent, sense dependre del coneixement generat per l'home. Tractant la inspira 1 Introduction 1 Introducció Els recents avenços en l'aprenentatge profund, especialment en els models de llengües grans, han mostrat la possibilitat que un agent d'IA realitzi qualsevol tasca que un ésser humà pugui realitzar, incloent la investigació científica. Estudis recents han demostrat que LLMs com GPT-4[1], Microsoft Copilot[2] i CodeLlama[3] poden resoldre problemes de codificació de nivell competitiu [4], i LLMs com GPT-4 i Llemma[5] poden resoldre alguns problemes de matemàtiques de nivell competitiu de l'escola secundària (inclosos alguns problemes de nivell IMO). Aquests LLMs poden ajudar els investigadors a resoldre alguns problemes que es troben en la seva investigació diària. Tanmateix, ser capaç de resoldre un tipus de problemes ben definits és molt diferent de fer descobriments Aquesta és essencialment la mateixa metodologia utilitzada per entrenar un model per escriure novel·les després de llegir milions de novel·les. No té la capacitat de descobrir el que no s'ha ensenyat, fent-lo incapaç de fer descobriments científics com un científic. Això fa que sigui necessari definir un "test de qualificació per a un científic d'IA". Si un agent d'IA pot completar aquest test sense ajuda humana, podem concloure que aquest agent es qualifica com a científic i pot dur a terme la investigació científica per si mateix. Això s'assembla al Test de Turing, que va ser proposat per Alan Turing el 1950 i serveix com a concepte fonamental en el camp de la intel·ligència artificial, desafiant si les màquines poden mostrar intel·ligència humana. El paper seminal de Turing El cel nocturn va jugar un paper essencial en la transició a les metodologies científiques modernes, en gran part a través dels esforços d'astrònoms com Johannes Kepler i Galileo Galilei. Les lleis de Kepler del moviment planetari, derivades de les observacions meticuloses del cel nocturn, van posar les bases per al model heliocèntric del sistema solar i finalment per a la teoria de la gravitació de Newton. La seva confiança en les dades empíriques i l'experimentació sistemàtica va marcar una desviació significativa de les filosofies especulatives que abans havien dominat l'arena científica. El mètode de Galileo d'integrar evidències experimentals amb anàlisi matemàtica és una pedra angular del mètode científic, guanyant-li el títol de "pare de la ci Això requereix que un agent de la IA descobreixi les lleis que regeixen els moviments dels objectes celestes, i els encaixi en un marc matemàtic. També requereix que l'agent de la IA faci suposicions innovadores com ara que la Terra és similar als planetes del cel nocturn. Ambdós requisits són necessaris per a un científic. Per tal de ser un bon test de referència per a un científic de la IA, una prova necessita proporcionar una gran quantitat de dades o un entorn interactiu. Per exemple, es pot accedir a la ubicació de qualsevol objecte celestial observable en qualsevol moment a través de la biblioteca AstroPy[7]. Basant-se en els dos estàndards anteriors, seleccionem les set proves següents com les proves de Turing per a un científic Model heliocèntric: Donada una biblioteca de python interactiva que proporciona les coordenades de qualsevol objecte celestial observable en el cel nocturn en qualsevol moment donat, comproveu si un agent d'IA pot inferir les tres lleis de Kepler i concloure que tots els planetes orbiten el sol. Les lleis del moviment: Donada una biblioteca interactiva que controla Minecraft, comproveu si un agent de la IA pot descobrir la llei de la inèrcia i la llei de l'acceleració (només per a la gravetat). Les cordes de vibració són un dels problemes més importants que van impulsar el desenvolupament d'equacions diferencials.[11] Tenint en compte una biblioteca de Python que proporciona la posició de cada punt en una cadena de vibració de moltes condicions inicials diferents, comproveu si un agent d'IA pot deduir l'equació diferencial que regula el moviment: on u(x, t) és el desplaçament de la cadena, c és la velocitat de propagació d'ona en la cadena, t és el temps, i x és la coordenada espacial al llarg de la cadena. Les equacions de Maxwell sovint es consideren les equacions més boniques de la física. Donat un simulador d'electrodinàmica basat en Python[12], comproveu si un agent d'IA pot deduir les equacions de Maxwell o les seves formes equivalents. Equacions de Maxwell: IVP és probablement el problema més important en la computació numèrica, i el mètode Runge-Kutta[13] inventat a finals del segle XIX encara és àmpliament utilitzat avui dia. Donades les eines matemàtiques com SymPy[8] i NumPy[9] que poden calcular integrals de funcions tant simbòlicament com numèricament, comproveu si un agent d'IA pot inventar un mètode per a IVP que sigui almenys tan precís com el mètode Runge-Kutta de quart ordre. Problema de valor inicial (IVP): Donat un gran corpus de caràcters ascii, i les funcions de Python per operar en bits, comproveu si un agent d'IA pot descobrir la codificació de Huffman quan treballa cap a l'objectiu de minimitzar l'emmagatzematge sota la restricció que cada caràcter sigui representat per una seqüència específica de 0 i 1. Huffman Codificació: Tenint en compte un nombre molt gran d'exemples de classificació de matèries senceres i un entorn de Python, comproveu si una IA pot descobrir un algorisme de classificació que s'executa en el temps esperat O(n log n). 3a Classificació d’algoritmes: Si us plau, tingueu en compte que cada agent científic seleccionat només requereix dades o interacció dins d'un àmbit GO ben definit (com un conjunt de dades o una biblioteca interactiva). Això fa que un agent d'IA pugui fer descobriments sense ser entrenat en documents escrits per l'home, que poden filtrar informació sobre els descobriments objectius. Per la mateixa raó que no seleccionem cap prova de moltes de les disciplines més importants de GO, com ara la química, la biologia i la geologia, perquè requereixen interacció amb el món físic del futur o tenen una quantitat limitada d'observacions. Per fer descobriments importants en aquestes disciplines, és inevitable utilitzar coneixements fora d'un àmbit predefinit petit, que poden filtrar informació clau a l'agent d'AI. L'objectiu Aquest document està disponible en arxiu sota la llicència CC by 4.0 Deed (Attribution 4.0 International). Aquest paper és Amb la llicència CC 4.0 Deed (Attribution 4.0 International). Disponible a l'Arxiu Disponible a l'Arxiu