Se si esaminano i parametri di riferimento più diffusi utilizzati per misurare le prestazioni dell'LLM, probabilmente si avrà la sensazione che l'intelligenza artificiale sia davvero intelligente.
Questa è un'impressione superficiale e ragionevole; tuttavia, l'intelligenza artificiale è davvero migliore di un essere umano medio nei compiti cognitivi?
Modelli di frontiera come o1 di OpenAI e Claude 3.5 Sonnet di Anthropic hanno prestazioni migliori degli esperti umani in diversi campi, tra cui diritto, programmazione e matematica. Perché, allora, ChatGPT non riesce a risolvere alcuni semplici compiti di ragionamento spaziale o alcune stupide domande a trabocchetto? Bene, stiamo ancora parlando di "grandi modelli linguistici": prendono in considerazione un sacco di lettere e cercano di prevedere quali lettere sputare fuori per una determinata query.
Nota che in questa equazione non viene menzionato da nessuna parte il "pensiero" effettivo. I modelli sono una specie di pappagalli stocastici , in quanto cercano di recuperare le informazioni giuste dal loro set di dati di training invece di considerare effettivamente la tua domanda. Almeno, questo era il caso fino a quando OpenAI non ha rilasciato o1-preview, ma ne parleremo più avanti.
Tra coloro che hanno iniziato a mettere in discussione la rilevanza dei benchmark LLM esistenti c'è l'autore di "AI Explained", un famoso canale YouTube di cui sono un grande fan. Phillip (il nome dello YouTuber) ha notato che i benchmark standard del settore hanno uno stile di domande chiaro che sono anche per lo più disponibili al pubblico. Ciò significa che non solo quelle domande esatte possono far parte del set di dati di training, ma grazie alla standardizzazione, è più facile per i modelli individuare e applicare modelli dai dati di training complessivi.
In parole povere, i ricercatori di intelligenza artificiale che creano tecnologie complesse e innovative possono sicuramente trovare un modo per fornire al loro modello le domande e le risposte pertinenti da "ricordare" prima del benchmarking.
Guardando i risultati del modello migliore in circolazione, o1 di OpenAI, si può dedurre che abbia ottenuto punteggi superiori alla media in molti ambiti professionali. Ed è vero, ma questo risultato si basa sulla disponibilità di dati di formazione pertinenti ed esempi passati da quegli specifici campi. Non fraintendetemi, i modelli sono ora incredibili nel fornire risposte da manuale a domande da manuale, e questo di per sé è incredibilmente impressionante.
Il termine "intelligenza artificiale", tuttavia, implica un po' più del semplice recupero di informazioni; dovrebbe essere coinvolto un po' di vero e proprio pensiero. Quindi un seguito logico a tutti i numeri impressionanti di cui sopra è se tale "IA" possa rispondere a una domanda di ragionamento difficile. Ha un'intelligenza spaziale? O può navigare bene in comuni scenari sociali? La risposta è: a volte.
A differenza delle domande specifiche di un determinato campo con risposte predefinite, i problemi che gli esseri umani risolvono quotidianamente richiedono spesso una comprensione del contesto che va oltre il linguaggio naturale (che è l'unica cosa che hanno gli LLM).
Qui sopra ci sono i punteggi più alti nel benchmark SIMPLE, che fornisce agli LLM domande che una persona media considererebbe banali, ma a cui i modelli non sono ancora necessariamente in grado di rispondere. Siamo abituati a vedere l'IA fare molto meglio di un essere umano medio negli esami o nei benchmark specializzati, ma qui, la prestazione del modello migliore è in realtà solo del 41,7% (o1-preview) contro l'83,7% di un essere umano medio. Questo benchmark utilizza 200 domande di testo a scelta multipla incentrate sul ragionamento spazio-temporale, sull'intelligenza sociale e sulle domande a trabocchetto.
La caratteristica più importante del benchmark è che queste domande non sono disponibili al pubblico, quindi i laboratori di intelligenza artificiale non possono semplicemente aggiungerle ai loro dati di training. Puoi saperne di più su questo benchmark qui .
Questo nuovo approccio alla misurazione delle prestazioni LLM mostra quanto siano ancora lontani tutti i modelli da una capacità di ragionamento umana media. Più rapidamente questo divario si colmerà nei prossimi mesi, più definitiva diventerà la risposta "sì" al nostro titolo. Una nuova metrica interessante da tenere d'occhio se si è entusiasti ma cauti riguardo all'IA.