Ik denk dat OpenAI niet eerlijk is over de afnemende opbrengsten van het opschalen van AI met alleen data en compute. Ik denk dat ze ook een groot deel van de economie, de wereld en deze hele industrie in gevaar brengen door niet openlijker over het onderwerp te praten.
In eerste instantie geloofde ik wat ze ons vertelden, dat je alleen maar meer rekenkracht en meer data hoeft toe te voegen, en dat LLM's en andere modellen gewoon beter zullen worden. Dat deze relatie tussen de modellen, hun rekenkracht en data lineair zou kunnen groeien tot het einde der tijden. De sprong van GPT-3 en GPT-3.5 was immens. De sprong van GPT-3.5 naar GPT-4 leek een duidelijk bewijs dat deze veronderstelling juist was. Maar toen werden de dingen vreemd.
In plaats van een model genaamd GPT-5 of zelfs GPT-4.5 uit te brengen, brachten ze GPT-4-turbo uit. GPT-4-turbo is niet zo intelligent als GPT-4, maar is veel sneller en goedkoper. Dat is allemaal logisch. Maar toen bleef deze trend zich voortzetten.
Na GPT-4-turbo was de volgende release van OpenAI GPT-4o (aardbei). GPt-4o is min of meer net zo intelligent als GPT-4-turbo, maar is zelfs sneller en goedkoper. De functionaliteit die ons echt overtuigde, was echter het vermogen om te praten en dingen te begrijpen via audio en de snelheid. Let echter op, op dit punt in ons verhaal is GPT-4-turbo niet intelligenter dan GPT-4 en is GPT-4o niet intelligenter dan GPT-4-turbo. En geen van beide is intelligenter dan GPT-4.
Hun volgende en meest recente release was GPT-o1. GPT-o1 kan beter presteren dan GPT-4 op sommige taken. Maar dat komt omdat o1 niet echt een enkel model is. GPT-o1 is eigenlijk een black box van meerdere lichtgewicht LLM-modellen die samenwerken. Misschien kan o1 zelfs beter worden omschreven als software of middleware dan als een echt model. Je geeft het een vraag, het komt met een antwoord en vervolgens gebruikt het herhaaldelijk andere modellen die de taak hebben het antwoord te controleren om er zeker van te zijn dat het juist is, en het verbergt al deze bewerkingen. Het doet dit allemaal heel, heel snel.
Waarom niet gewoon een LLM maken die krachtiger is dan GPT-4? Waarom toevlucht nemen tot zulke geheimzinnige technieken om nieuwe releases te bereiken? GPT-4 kwam 2 jaar geleden uit, we zouden nu al ver voorbij zijn mogelijkheden moeten zijn. Nou, Noam Brown, een onderzoeker bij OpenAI, had er wel iets over te zeggen waarom ze deze route met o1 bij TED AI zijn ingeslagen. Hij zei: "Het bleek dat een bot die slechts 20 seconden nadenkt in een potje poker dezelfde prestatieverbetering opleverde als het model 100.000x opschalen en het 100.000 keer langer trainen,"
Denk nu eens even goed na over wat daar gezegd wordt. Een bot die 20 seconden nadenkt is net zo goed als een bot die 100.000 keer langer is getraind met 100.000 keer meer rekenkracht. Als de schaalwetten oneindig zijn, is die wiskunde onmogelijk. Er klopt hier iets niet of iemand liegt.
Waarom is dit allemaal belangrijk? OpenAI is 150 miljard dollar waard en het grootste deel van die marktkapitalisatie is gebaseerd op prognoses die afhankelijk zijn van de verbetering van modellen in de loop van de tijd. Als AI alleen zo goed is als het vandaag is, is dat nog steeds een interessante toekomst, maar dat is niet wat er aan investeerders wordt verkocht door AI-bedrijven waarvan het volledige IP hun model is. Dat verandert ook de productroadmap van veel andere bedrijven die afhankelijk zijn van de voortdurende vooruitgang van hun LLM's om hun eigen producten te bouwen. Het doel en de ambities van OpenAI voor AGI worden ernstig vertraagd als dit allemaal waar is.
De reden dat LLM's zo geweldig zijn, is vanwege een filosofisch fenomeen op een hoger niveau dat we nooit hebben overwogen: taal bezit inherent een extreem grote hoeveelheid context en data over de wereld, zelfs in kleine stukjes tekst. In tegenstelling tot pixels in een afbeelding of video, beschrijven woorden in een zin elkaar impliciet. Een volledig samenhangende zin is per definitie "rationeel". Of het waar is of niet, is een heel ander verhaal en een probleem dat taal alleen overstijgt. Hoeveel tekst je ook consumeert, "waarheid" en "onwaarheden" zijn niet alleen taalkundige concepten. Je kunt zeggen dat iets volledig rationeel is, maar op geen enkele manier "waar". Op dit punt zullen LLM's consequent tegen een muur aanlopen. De afgelopen 12 maanden zou ik formeel willen speculeren dat er achter gesloten deuren geen grote sprongen zijn gemaakt in LLM's bij OpenAI, GrokAI of bij Google. Om specifiek te zijn, ik denk niet dat iemand, waar dan ook, een LLM heeft gemaakt die ook maar 1,5 keer beter is dan GPT-4.
Bij OpenAI lijkt het erop dat hooggeplaatste medewerkers vertrekken. Op dit moment zeggen ze dat het vanwege de veiligheid is, maar ik ga nu mijn aluminiumhoedje opzetten en een idee opperen. Ze zijn zich bewust van dit probleem en ze springen eruit voordat het te laat is.
Ik begon deze zorg 3 maanden geleden met vrienden te bespreken. Ik werd van alles genoemd haha.
Maar de afgelopen drie weken begon de pers een verdacht luchtje te ruiken:
OpenAI brengt Orion (GPT-5) niet meer uit omdat het niet aan de verwachte prestatiebenchmarks voldeed en de opbrengsten afnemen. ( https://www.theinformation.com/articles/openai-shifts-strategy-as-rate-of-gpt-ai-improvements-slows )
Bloomberg meldt dat OpenAI, Google en Anthropic allemaal moeite hebben met het ontwikkelen van geavanceerdere AI. ( https://www.bloomberg.com/news/articles/2024-11-13/openai-google-and-anthropic-are-struggling-to-build-more-advanced-ai )
Het is moeilijk om één oplossing aan te bevelen. De technologie achter o1 bewijst dat zelfs modellen met lage prestaties opnieuw kunnen worden ingezet om ingewikkelde bewerkingen uit te voeren. Maar dat is geen oplossing voor het probleem van AI-schaalvergroting. Ik denk dat er substantiële investeringen en snelle tests van nieuwe modelarchitecturen nodig zijn. We hebben ook geen data meer en hebben nieuwe manieren nodig om bruikbare data te extrapoleren voor LLM's om op te trainen. Misschien door multidimensionale labeling te gebruiken die helpt bij het direct begeleiden van de referenties naar waarheidsgetrouwe informatie. Een ander goed idee zou kunnen zijn om LLM's gewoon te blijven verfijnen voor specifieke use cases zoals wiskunde, wetenschap en gezondheidszorg door AI-agentworkflows te gebruiken, vergelijkbaar met o1. Het zou veel bedrijven wat bewegingsruimte kunnen geven totdat er een nieuwe architectuur ontstaat. Dit probleem is echt erg, maar ik denk dat de creativiteit in machine learning en softwareontwikkeling die het zal inspireren enorm zal zijn. Zodra we deze horde hebben genomen, zullen we zeker goed op schema liggen voor AGI en misschien ASI.