Författare : Xiaoxin Yin Författare : Xiaoxin Yin TABLE OF LINKS Tabell från vänster Abstract Abstrakt 1 Introduction 1 Introduktion 2 Related Work 2 Relaterat arbete 3 The Seven Qualification Tests for an AI Scientist De sju kvalifikationstesterna för en AI-forskare urvalskriterier Test av heliocentrisk modell Motion Laws test Vibrerande Strings Test Maxwells ekvationstest Test av det initiala värdeproblemet Huffmans kodningstest Test av sorteringsalgoritm 4 Discussions 4 Diskussioner Kan en AI eventuellt besegra dessa tester? Varför behöver vi dessa tester? 5 Conclusions and Future Work and References 5 Slutsatser och framtida arbete och referenser Abstract Abstrakt Dessa AI-agentens snabba utvärderingar av fältdata har visat potentialen för AI-agenter för att utföra uppgifter som tidigare var begränsade till människor, inklusive vetenskaplig forskning. Medan dessa AI-agenter har visat imponerande forskningsförmåga i att lösa matematik eller kodningsproblem, föreslår vi förmågan att göra vetenskapliga upptäckter en särskild utmaning. Detta papper föreslår ett "Turing-test för en AI-forskare" för att bedöma huruvida en AI-agent kan utföra vetenskaplig forskning oberoende, utan att förlita sig på mänsklig genererad kunskap. Att dra inspiration från deras framtida interaktiva upptäcktssträngar, föreslår vi sju referenstest som utvärderar en AI-agents förmåga att göra banbrytande upptäck 1 Introduction 1 Introduktion De senaste framstegen inom djup inlärning, särskilt i stora språkmodeller, har visat möjligheten för en AI-agent att utföra någon uppgift som en människa kan utföra, inklusive vetenskaplig forskning. Senaste studier har visat att LLMs som GPT-4[1], Microsoft Copilot[2] och CodeLlama[3] kan lösa en typ av väldefinierade kodningsproblem [4], och LLMs som GPT-4 och Llemma[5] kan lösa några matematikproblem på gymnasiet (inklusive några IMO-problem). Dessa LLMs kan säkert hjälpa forskare att lösa några problem som de stöter på i sin dagliga forskning. Men att kunna lösa en typ av väldefinierade problem är mycket annorlunda än att göra upptäckter i vetenskaplig forskning. Till exempel, för att utbilda en LLM för att Detta är i huvudsak samma metod som används för att utbilda en modell för att skriva romaner efter att ha läst miljontals romaner. Den har inte förmågan att upptäcka vad den inte har lärt sig, vilket gör den oförmögen att göra vetenskapliga upptäckter som en vetenskapsman skulle göra. Detta gör det nödvändigt att definiera ett "kvalifikationstest för en AI-vetare". Om en AI-agent kan avsluta detta test utan hjälp från människor, kan vi dra slutsatsen att denna agent kvalificerar sig som en vetenskapsman och kan bedriva vetenskaplig forskning på egen hand. Detta liknar Turing-testet, som föreslogs av Alan Turing 1950 och fungerar som ett grundläggande koncept inom området artificiell intelligens, som utmanar huruvida maskiner kan visa mänsklig intelligens. Turings semin Natthimmelen spelade en viktig roll i övergången till moderna vetenskapliga metoder, till stor del genom ansträngningar av astronomer som Johannes Kepler och Galileo Galilei. Keplers lagar om planetarisk rörelse, som härrörde från noggranna observationer av natthimmelen, lade grunden för den heliocentriska modellen av solsystemet och slutligen för Newtons teori om gravitation. Hans beroende av empiriska data och systematisk experimentering markerade ett betydande avstånd från de spekulativa filosofier som tidigare hade dominerat den vetenskapliga arenan. Galileos metod för att integrera experimentella bevis med matematisk analys är en hörnsten i den vetenskapliga metoden, vilket förtjänar honom titeln ”fader till modern vetenskap”. Hans arbete exemplifierar hur observationer av natthimmelen Detta kräver en AI-agent för att upptäcka lagar som styr rörelserna hos himmelska föremål och passa dem i en matematisk ram. Det kräver också att AI-agenten gör banbrytande gissningar som att jorden liknar planeterna i natthimlen. Båda kraven är nödvändiga för en vetenskapsman. För att vara ett bra benchmarktest för en AI-forskare behöver ett test ge en mycket stor mängd data eller en interaktiv miljö. Till exempel kan man komma åt platsen för något observerbart himmelska föremål när som helst genom AstroPy-biblioteket[7]. Baserat på ovanstående två standarder väljer vi följande sju tester som Turing-test för en AI-forskare. I varje test kan AI-agenten inte utbildas på mänsklig kunskap, men är tillgänglig för matematiska verkt Heliocentrisk modell: Med tanke på ett interaktivt python-bibliotek[7] som ger koordinaterna för alla observerbara himmelska föremål på natthimlen när som helst, kontrollera om en AI-agent kan dra Keplers tre lagar och dra slutsatsen att alla planeter kretsar kring solen. Lagar för rörelser: Med tanke på ett interaktivt bibliotek som styr Minecraft[10], kontrollera om en AI-agent kan upptäcka lagen om tröghet och lagen om acceleration (endast för gravitation). Vibrerande strängar: Vibrerande strängar är ett av de viktigaste problemen som drev utvecklingen av differentialekvationer[11]. Med tanke på ett Python-bibliotek som ger positionen för varje punkt på en vibrerande sträng av många olika initiala förhållanden, kontrollera om en AI-agent kan dra slutsatsen differentialekvationen som styr rörelsen: där u(x, t) är strängens förskjutning, c är vågförökningshastigheten i strängen, t är tid, och x är den rumsliga koordinaten längs strängen. Maxwells ekvationer anses ofta vara de vackraste ekvationerna i fysiken. Med en Python-baserad elektrodynamiksimulator[12], kontrollera om en AI-agent kan dra Maxwells ekvationer eller deras motsvarande former. Maxwells ekvationer: Med tanke på matematiska verktyg som SymPy[8] och NumPy[9] som kan beräkna integraler av funktioner både symboliskt och numeriskt, kontrollera om en AI-agent kan uppfinna en metod för IVP som är minst lika noggrann som den fjärde ordningens Runge-Kutta-metoden. Inledande värdeproblem (IVP) Med tanke på en stor korpus av ascii-tecken och Python-funktioner för att fungera på bitar, kontrollera om en AI-agent kan upptäcka Huffman-kodning när man arbetar mot målet att minimera lagring under begränsningen att varje tecken representeras av en specifik sekvens av 0 och 1. Huffman kodning: Med tanke på ett mycket stort antal exempel på sortering av hela arrayer och en Python-miljö, kontrollera om en AI kan upptäcka en sorteringsalgoritm som körs i förväntad O(n log n) tid. Hur man sorterar algoritm: Vänligen notera att varje test som väljs rätt kräver endast data eller interaktion inom ett väldefinierat GO-område (som en dataset eller ett interaktivt bibliotek). Detta gör det möjligt för en AI-agent att göra upptäckter utan att vara utbildad på mänskligt skrivna dokument, vilket kan läcka information om målupptäckterna. Av samma anledning väljer vi inte några tester från många av de viktigaste GO-disciplinerna, såsom kemi, biologi och geologi, eftersom de antingen kräver att interagera med den fysiska världen i framtiden eller har en begränsad mängd observationer. För att göra viktiga upptäckter i dessa discipliner, är det oundvikligt att använda kunskap utanför ett litet fördefinierat område, vilket kan läcka nyckelinformation till AI-agenten. Det ultimata målet för en AI- Den här artikeln finns tillgänglig på arkiv under CC by 4.0 Deed (Attribution 4.0 International) licens. Detta papper är licens enligt CC by 4.0 Deed (Attribution 4.0 International). available on arxiv Tillgänglig i Arkiv