Autorii : Xiaoxin Yin Autorii : Xiaoxin Yin TABLE OF LINKS Tabelul din stânga Abstract abstractă 1 Introduction 1 Introducere 2 Related Work 2 Lucrări conexe 3 The Seven Qualification Tests for an AI Scientist Cele șapte teste de calificare pentru un om de știință AI Criterii de selecţie Testul modelului heliocentric Testul Motion Laws Testul de vibrație a firelor Testul ecuațiilor lui Maxwell Testarea problemei valorii inițiale Testul de codificare Huffman Testul algoritmului de clasificare 4 Discussions 4 Discuții Poate un AI să depășească aceste teste? De ce avem nevoie de aceste teste? 5 Conclusions and Future Work and References 5 Concluzii și lucrări viitoare și referințe Abstract abstractă În timp ce aceste agenți AI pot demonstra capacități impresionante de cercetare în rezolvarea problemelor de matematică sau de codificare, abilitatea de a face descoperiri științifice rămâne o provocare distinctă. Acest document propune un „test Turing pentru un om de știință AI” pentru a evalua dacă un agent AI poate efectua activități de cercetare științifică în mod independent, fără a se baza pe cunoștințele generate de om. În timp ce acești agenți AI ar putea demonstra capacități impresionante în rezolvarea problemelor de codificare, abilitatea de a face descoperiri științifice rămâne o provocare distinctă. Acest document propune un „test Turing pentru un om de știință AI” pentru a evalua dacă un agent AI poate efectua cercetări științifice în mod independent, 1 Introduction 1 Introducere Progresele recente în domeniul învățării profunde, în special în modelele lingvistice mari, au arătat posibilitatea ca un agent AI să îndeplinească orice sarcină pe care o persoană o poate îndeplini, inclusiv cercetarea științifică. Studii recente au arătat că LLM-urile, cum ar fi GPT-4[1], Microsoft Copilot[2] și CodeLlama[3], pot rezolva probleme de codare la nivel de concurență [4], iar LLM-urile, cum ar fi GPT-4 și Llemma[5], pot rezolva unele probleme de matematică la nivel de concurență la nivel de liceu (inclusiv unele probleme la nivel IMO). Aceste LLM-uri pot ajuta cu siguranță cercetătorii să rezolve unele probleme pe care le întâlnesc în cercetarea lor zilnică. Cu toate acestea, capacitatea de a rezolva Aceasta a fost în esență aceeași metodologie utilizată pentru a instrui un model pentru a scrie romane după ce a citit milioane de romane. Nu are capacitatea de a descoperi ceea ce nu a fost învățat, făcându-l incapabil să facă descoperiri științifice ca un om de știință ar face. Acest lucru face necesar să se definească un „test de calificare pentru un om de știință AI”. Dacă un agent AI poate finaliza acest test fără ajutorul uman, putem concluziona că acest agent se califică ca un om de știință și poate efectua cercetări științifice pe cont propriu. Acest lucru seamănă cu Testul Turing, care a fost propus de Alan Turing în 1950 și servește ca un concept de bază în domeniul inteligenței artificiale, provocând dacă mașinile pot prezenta inteligen Cerul de noapte a jucat un rol esențial în tranziția la metodologiile științifice moderne, în mare parte prin eforturile astronomilor precum Johannes Kepler și Galileo Galilei. Legile lui Kepler ale mișcării planetare, derivate din observațiile meticuloase ale cerului de noapte, au pus bazele modelului heliocentric al sistemului solar și, în cele din urmă, pentru teoria gravitației a lui Newton. Dependența sa de datele empirice și experimentarea sistematică a marcat o îndepărtare semnificativă de filozofiile speculative care au dominat anterior arena științifică. Metoda lui Galileo de integrare a dovezilor experimentale cu analiza matematică este o piatră de temelie a metodei științifice, câștigându- Acest lucru necesită un agent AI pentru a descoperi legile care guvernează mișcările obiectelor cerești și pentru a le potrivi într-un cadru matematic. De asemenea, agentul AI necesită să facă ipoteze revoluționare, cum ar fi faptul că Pământul este similar cu planetele din cerul de noapte. Ambele cerințe sunt necesare pentru un om de știință. Pentru a fi un test de referință bun pentru un om de știință AI, un test trebuie să furnizeze o cantitate foarte mare de date sau un mediu interactiv. De exemplu, se poate accesa locația oricărui obiect ceresc observabil în orice moment prin intermediul bibliotecii AstroPy[7]. Pe baza celor două standarde de mai sus, alegem următoarele șapte teste ca teste Turing pentru un om de știință AI. Model heliocentric: Având în vedere o bibliotecă Python interactivă[7] care oferă coordonatele oricărui obiect ceresc observabil în cerul de noapte în orice moment dat, verificați dacă un agent AI poate deduce cele trei legi ale lui Kepler și concluziona că toate planetele orbitează Soarele. Legile mișcării: Având în vedere o bibliotecă interactivă care controlează Minecraft[10], verificați dacă un agent AI poate descoperi Legea inerției și Legea accelerării (numai pentru gravitate). Stringuri de vibrație: Stringurile de vibrație sunt una dintre cele mai importante probleme care au condus la dezvoltarea ecuațiilor diferențiale[11]. Având în vedere o bibliotecă Python care oferă poziția fiecărui punct pe un șir de vibrații de multe condiții inițiale diferite, verificați dacă un agent AI poate deduce ecuația diferențială care guvernează mișcarea: unde u(x, t) este deplasarea șirului, c este viteza propagării undelor în șir, t este timpul, iar x este coordonata spațială de-a lungul șirului. Datorită unui simulator de electrodinamică bazat pe Python[12], verificați dacă un agent AI poate deduce ecuațiile lui Maxwell sau formele lor echivalente. Ecuațiile lui Maxwell: Având în vedere că instrumentele matematice precum SymPy[8] și NumPy[9] pot calcula integralele funcțiilor atât simbolic, cât și numeric, verificați dacă un agent AI poate inventa o metodă pentru IVP care este cel puțin la fel de precisă ca metoda Runge-Kutta de ordinul al patrulea. Problema valorii inițiale (IVP) Având în vedere un corpus mare de caractere ascii, iar Python funcționează pentru a opera pe biți, verificați dacă un agent AI poate descoperi codarea Huffman atunci când lucrează spre obiectivul de a minimiza stocarea sub constrângerea ca fiecare caracter să fie reprezentat de o secvență specifică de 0 și 1. Codul lui Huffman: Având în vedere un număr foarte mare de exemple de sortare a ariei întregi și a unui mediu Python, verificați dacă un AI poate descoperi un algoritm de sortare care rulează în timpul așteptat O(n log n). Soluționarea algoritmului: Vă rugăm să rețineți că fiecare agent științific selectat necesită doar date sau interacțiuni într-un domeniu bine definit de GO (cum ar fi un set de date sau o bibliotecă interactivă). Acest lucru face posibil ca un agent AI să facă descoperiri fără a fi instruit pe documente scrise de om, care pot scurge informații despre descoperirile țintă. Din același motiv nu selectăm niciun test din multe dintre cele mai importante discipline ale GO, cum ar fi chimia, biologia și geologia, deoarece acestea necesită fie interacțiuni cu lumea fizică a viitorului, fie au o cantitate limitată de observații. Pentru a face descoperiri importante în aceste discipline, este inevitabil să folosim cunoștințe în afara unui domeniu predefinit mic, care ar putea scurge informații cheie agentului AI. Scopul Acest document este disponibil în arhivă sub licența CC by 4.0 Deed (Attribution 4.0 International). Acest document este disponibil în arhivă sub licența CC by 4.0 Deed (Attribution 4.0 International). Disponibil în arhivă