Jag tror att OpenAI inte är ärlig om den minskande avkastningen av att skala AI med enbart data och datorer. Jag tror att de också sätter mycket av ekonomin, världen och hela den här branschen i fara genom att inte prata mer öppet om ämnet.
Först trodde jag på vad de sa till oss, att allt du behöver göra är att lägga till mer beräkningskraft och mer data, och LLMs såväl som andra modeller kommer helt enkelt att bli bättre. Att detta förhållande mellan modellerna, deras beräkning och data skulle kunna växa linjärt fram till tidens slut. Språnget från GPT-3 och GPT-3.5 var enormt. Språnget från GPT-3.5 till GPT-4 verkade som ett tydligt bevis på att denna presumtion var korrekt. Men sedan blev det konstigt.
Istället för att släppa en modell som heter GPT-5 eller till och med GPT-4.5 släppte de GPT-4-turbo. GPT-4-turbo är inte lika intelligent som GPT-4 men det är mycket snabbare och billigare. Det är vettigt. Men sedan fortsatte denna trend.
Efter GPT-4-turbo var OpenAI:s nästa release GPT-4o (jordgubbe). GPt-4o är mer eller mindre lika intelligent som GPT-4-turbo, men den är ännu snabbare och ännu billigare. Funktionaliteten som verkligen sålde oss var dock dess förmåga att prata och förstå saker via ljud och dess hastighet. Notera dock att GPT-4-turbo inte är mer intelligent än GPT-4 och GPT-4o är inte intelligentare än GPT-4-turbo vid det här laget. Och ingen av dem är intelligentare än GPT-4.
Deras nästa och senaste release var GPT-o1. GPT-o1 kan prestera bättre än GPT-4 på vissa uppgifter. Men det beror på att o1 egentligen inte är en enda modell. GPT-o1 är faktiskt en svart låda med flera lätta LLM-modeller som arbetar tillsammans. Kanske beskrivs o1 ännu bättre som mjukvara eller mellanprogram än vad det är en verklig modell. Du ställer den en fråga, den kommer med ett svar, och sedan använder den upprepade gånger andra modeller som har till uppgift att kontrollera svaret för att se till att det är rätt, och det döljer alla dessa operationer. Det gör allt detta väldigt, väldigt snabbt.
Varför inte bara göra en LLM som är kraftfullare än GPT-4? Varför tillgripa sådana mantel-och-dolk-tekniker för att få nya utgåvor? GPT-4 kom ut för två år sedan, vi borde vara långt över dess kapacitet vid det här laget. Nåväl, Noam Brown, en forskare vid OpenAI hade något att säga om varför de gick den här vägen med o1 på TED AI. Han sa: "Det visade sig att att ha en bot att tänka i bara 20 sekunder i en pokerhand fick samma prestanda som att skala upp modellen med 100 000 gånger och träna den 100 000 gånger längre."
Stanna nu upp och fundera på vad som sägs där. En bot som tänker i 20 sekunder är lika bra som en bot tränade 100 000 gånger längre med 100 000 gånger mer datorkraft. Om skalningslagarna är oändliga är den matematiken omöjlig. Något är antingen fel här eller så ljuger någon.
Varför spelar allt detta någon roll? OpenAI är värt 150 miljarder dollar och majoriteten av marknadsvärdet är baserat på prognoser som beror på förbättringar av modeller över tiden. Om AI bara är så bra som det är idag är det fortfarande en intressant framtid, men det är inte det som säljs till investerare av AI-företag vars hela IP är deras modell. Det förändrar också produktfärdplanen för många andra företag som är beroende av fortsatta framsteg för sina LLM:er för att bygga sina egna produkter. OpenAI:s mål och ambitioner för AGI är kraftigt försenade om allt detta är sant.
Anledningen till att LLM är så fantastiska är på grund av ett filosofiskt fenomen på högre nivå som vi aldrig har tänkt på, att språket i sig har en extremt stor mängd sammanhang och data om världen även i små delar av texten. Till skillnad från pixlar i en bild eller video beskriver ord i en mening implicit varandra. En helt sammanhållen mening är per definition "rationell". Huruvida det är sant eller inte är en helt annan historia och ett problem som enbart överskrider språket. Oavsett hur mycket text du konsumerar är "sanning" och "falskheter" inte bara språkliga begrepp. Man kan säga att något är helt rationellt men inte på något sätt "sant". Det är vid denna tidpunkt LLMs kommer konsekvent att träffa en tegelvägg. Under de senaste 12 månaderna skulle jag formellt vilja spekulera i att bakom stängda dörrar har det inte skett några stora språng i LLMs på OpenAI, GrokAI eller på Google. För att vara specifik tror jag inte att någon någonstans har gjort någon LLM som är till och med 1,5X bättre än GPT-4.
På OpenAI verkar det som att personal på hög nivå slutar. Just nu säger de att det är på grund av säkerheten men jag ska ta på mig min foliehatt nu och slänga ut en idé. De är medvetna om det här problemet och de hoppar fartyget innan det är för sent.
Jag började diskutera detta problem med vänner för tre månader sedan. Jag hette många namn haha.
Men under de senaste 3 veckorna har mycket i pressen börjat lukta något skumt:
OpenAI släpper inte längre Orion (GPT-5) eftersom det inte uppfyllde förväntade prestandabenchmarks och det ser minskande avkastning. ( https://www.theinformation.com/articles/openai-shifts-strategy-as-rate-of-gpt-ai-improvements-slows )
Bloomberg rapporterar att OpenAI, Google och Anthropic alla har problem med att göra mer avancerad AI. ( https://www.bloomberg.com/news/articles/2024-11-13/openai-google-and-anthropic-are-struggling-to-build-more-advanced-ai )
Det är svårt att rekommendera en enda lösning. Tekniken bakom o1 är ett bevis på att även lågpresterande modeller kan användas för att utföra komplicerade operationer. Men det är inte en lösning på problemet med AI-skalning. Jag tror att det måste göras betydande investeringar och snabba tester av nya modellarkitekturer. Vi har också slut på data och behöver nya sätt att extrapolera användbar data för LLM:er att träna på. Kanske använder flerdimensionell märkning som hjälper till att vägleda dess referenser för sann information direkt. En annan bra idé kan vara att helt enkelt fortsätta att finjustera LLM:er för specifika användningsfall som matematik, naturvetenskap och sjukvård som körs och använder AI-agentarbetsflöden, liknande o1. Det kan ge många företag rörelseutrymme tills en ny arkitektur uppstår. Det här problemet är riktigt dåligt men jag tror att kreativiteten inom maskininlärning och mjukvaruutveckling det kommer att inspirera kommer att vara enorm. När vi väl kommer över det här hindret kommer vi säkert att ligga väl enligt schemat för AGI och kanske ASI.