Penso che OpenAI non sia sincera sui rendimenti decrescenti dello scaling dell'AI con soli dati e calcoli. Penso che stiano anche mettendo a repentaglio gran parte dell'economia, del mondo e di questa intera industria non parlando più apertamente dell'argomento.
All'inizio, ho creduto a quello che ci hanno detto, che tutto ciò che devi fare è aggiungere più potenza di calcolo e più dati, e gli LLM e altri modelli semplicemente miglioreranno. Che questa relazione tra i modelli, il loro calcolo e i dati potrebbe crescere linearmente fino alla fine dei tempi. Il salto da GPT-3 e GPT-3.5 è stato immenso. Il salto da GPT-3.5 a GPT-4 sembrava una chiara prova che questa presunzione era corretta. Ma poi le cose si sono fatte strane.
Invece di rilasciare un modello chiamato GPT-5 o persino GPT-4.5, hanno rilasciato GPT-4-turbo. GPT-4-turbo non è intelligente come GPT-4 ma è molto più veloce ed è più economico. Tutto ciò ha senso. Ma poi, questa tendenza ha continuato.
Dopo GPT-4-turbo, la successiva release di OpenAI è stata GPT-4o (strawberry). GPt-4o è più o meno intelligente quanto GPT-4-turbo, ma è persino più veloce e persino più economico. La funzionalità che ci ha davvero convinto, tuttavia, è stata la sua capacità di parlare e comprendere le cose tramite audio e la sua velocità. Tuttavia, prendi nota, a questo punto della nostra storia, GPT-4-turbo non è più intelligente di GPT-4 e GPT-4o non è più intelligente di GPT-4-turbo. E nessuno di loro è più intelligente di GPT-4.
La loro successiva e più recente release è stata GPT-o1. GPT-o1 può funzionare meglio di GPT-4 in alcune attività. Ma questo perché o1 non è realmente un singolo modello. GPT-o1 è in realtà una scatola nera di più modelli LLM leggeri che lavorano insieme. Forse o1 è ancora meglio descritto come software o middleware piuttosto che come modello effettivo. Gli fai una domanda, lui fornisce una risposta e poi usa ripetutamente altri modelli incaricati di controllare la risposta per assicurarsi che sia corretta, e maschera tutte queste operazioni. Fa tutto questo molto, molto rapidamente.
Perché non creare semplicemente un LLM più potente di GPT-4? Perché ricorrere a queste tecniche di occultamento per ottenere nuove release? GPT-4 è uscito 2 anni fa, ormai dovremmo essere ben oltre le sue capacità. Bene, Noam Brown, un ricercatore di OpenAI, ha detto qualcosa sul perché hanno scelto questa strada con o1 al TED AI. Ha detto "Si è scoperto che avere un bot che pensa per soli 20 secondi in una mano di poker ha ottenuto le stesse prestazioni di potenziamento di un modello ingrandito di 100.000 volte e addestrato per 100.000 volte in più",
Ora fermati e pensa davvero a cosa viene detto lì. Un bot che pensa per 20 secondi è buono quanto un bot addestrato 100.000 volte più a lungo con 100.000 volte più potenza di calcolo. Se le leggi di scala sono infinite, quella matematica è impossibile. O c'è qualcosa che non va o qualcuno sta mentendo.
Perché tutto questo è importante? OpenAI vale 150 miliardi di dollari e la maggior parte di quella capitalizzazione di mercato si basa su proiezioni che dipendono dal miglioramento dei modelli nel tempo. Se l'IA è buona solo quanto lo è oggi, è comunque un futuro interessante, ma non è quello che viene venduto agli investitori dalle aziende di IA il cui intero IP è il loro modello. Ciò cambia anche la roadmap del prodotto di molte altre aziende che dipendono dal continuo avanzamento dei loro LLM per costruire i propri prodotti. L'obiettivo e le ambizioni di AGI di OpenAI sono gravemente ritardati se tutto questo è vero.
Il motivo per cui gli LLM sono così sorprendenti è dovuto a un fenomeno filosofico di livello superiore che non abbiamo mai considerato, ovvero che il linguaggio possiede intrinsecamente una quantità estremamente grande di contesto e dati sul mondo anche all'interno di piccole sezioni di testo. A differenza dei pixel in un'immagine o in un video, le parole in una frase descrivono implicitamente l'una l'altra. Una frase completamente coesa è per definizione "razionale". Che sia vera o meno è una storia molto diversa e un problema che trascende il linguaggio da solo. Non importa quanto testo consumi, "verità" e "falsità" non sono semplicemente concetti linguistici. Puoi dire che qualcosa è completamente razionale ma in nessun modo "vero". È a questo punto che gli LLM sbatteranno costantemente contro un muro. Negli ultimi 12 mesi, vorrei formalmente ipotizzare che dietro porte chiuse non ci siano stati grandi balzi negli LLM presso OpenAI, GrokAI o Google. Per essere precisi, non penso che nessuno, da nessuna parte, abbia realizzato un LLM che sia anche solo 1,5 volte migliore di GPT-4.
Sembra che a OpenAI il personale di alto livello si stia licenziando. Al momento dicono che è per motivi di sicurezza, ma ora mi metto il cappello di stagnola e lancio un'idea. Sono consapevoli di questo problema e stanno saltando la nave prima che sia troppo tardi.
Ho iniziato a discutere di questa preoccupazione con gli amici 3 mesi fa. Sono stato chiamato con molti nomi haha.
Ma nelle ultime 3 settimane, gran parte della stampa ha iniziato a fiutare qualcosa di sospetto:
OpenAI non rilascerà più Orion (GPT-5) perché non ha raggiunto i benchmark prestazionali previsti e sta riscontrando rendimenti decrescenti. ( https://www.theinformation.com/articles/openai-shifts-strategy-as-rate-of-gpt-ai-improvements-slows )
Bloomberg riferisce che OpenAI, Google e Anthropic stanno riscontrando difficoltà nel realizzare un'intelligenza artificiale più avanzata. ( https://www.bloomberg.com/news/articles/2024-11-13/openai-google-and-anthropic-are-struggling-to-build-more-advanced-ai )
È difficile consigliare una soluzione unica. La tecnologia alla base di o1 è la prova che anche i modelli a basse prestazioni possono essere riutilizzati per svolgere operazioni complicate. Ma questa non è una soluzione al problema della scalabilità dell'IA. Penso che ci debbano essere investimenti sostanziali e test rapidi di nuove architetture di modelli. Abbiamo anche esaurito i dati e abbiamo bisogno di nuovi modi per estrapolare dati utilizzabili su cui addestrare gli LLM. Forse usando un'etichettatura multidimensionale che aiuti a guidare i suoi riferimenti per informazioni veritiere direttamente. Un'altra buona idea potrebbe essere semplicemente continuare a perfezionare gli LLM per casi d'uso specifici come matematica, scienza e assistenza sanitaria eseguendo e utilizzando flussi di lavoro di agenti di IA, simili a o1. Potrebbe dare a molte aziende un margine di manovra finché non emerge una nuova architettura. Questo problema è davvero grave, ma penso che la creatività nell'apprendimento automatico e nello sviluppo software che ispirerà sarà immensa. Una volta superato questo ostacolo, saremo sicuramente in linea con i tempi per AGI e forse ASI.