IT-specialisten werkten lange tijd zorgeloos. Ze ontwikkelden, bouwden en implementeerden software soepel. Toen brak het tijdperk van isolatie aan en raakten ze plotseling verveeld (dit is natuurlijk een speelse kijk op de werkelijke gebeurtenissen). IT-mensen wilden iets creëren dat hun werk aankon terwijl ze thuisbleven: routinevragen beantwoorden, coole avatars genereren en enorme hoeveelheden data analyseren in minuten. Ze droomden ervan om naar een fantastische plek te reizen en dus, je raadt het al, revolutioneerden ze AI.





AI functioneert nu, biedt antwoorden en verbetert levens. Hoe bekwame assistent AI ook is, het is pas echt effectief als het in de juiste context wordt gebruikt.





We zijn getuige van snelle vooruitgang in AI-toepassingen, van het genereren van afbeeldingen en video's tot het voorspellen van de aandelenmarkt en het analyseren van cryptovaluta. Toch kan AI informatie bieden waar we niet om vragen of ronduit valse antwoorden geven. Het gedrag ervan lijkt erg op dat van huiskatten — weet je wel, het soort dat rustig zit en dan plotseling op je afkomt?









Onze katten, en ook AI, vinden het leuk om onvoorspelbaar te zijn:





Je geeft ze hetzelfde voedsel (of dezelfde gegevens) - soms eten ze het, soms negeren ze het.

Je traint ze om te reageren, maar ze reageren alleen af en toe als je ze roept.

Hoe groter en wilder de kat of hoe groter het AI-model, hoe moeilijker het is om zijn gedrag te voorspellen.

In de ochtend zijn katten misschien rustig, maar tegen de avond worden ze hyperactief (net als dynamische data).

Katten zijn misschien vriendelijk (deterministisch), maar kunnen je zonder waarschuwing krabben (stochastisch).





U vraagt zich misschien af wat determinisme en stochasticiteit betekenen. Laten we daar eens achter komen.

Determinisme en stochasticiteit

Een deterministisch systeem produceert altijd hetzelfde resultaat bij dezelfde invoer — denk aan idempotentie als je een DevOps-engineer bent. Een voorbeeld uit de echte wereld is je kat die elke keer dezelfde hoeveelheid eten eet die jij in zijn bak hebt gedaan — dit is determinisme . Maar als de kat snuffelt en maar de helft eet, is het niet langer deterministisch.









Een stochastisch proces bevat een element van willekeur: met dezelfde invoer kan het resultaat variëren. Een machine learning-model gebruikt bijvoorbeeld vaak stochastische algoritmen, zoals Stochastic Gradient Descent (SGD) , die het model traint door willekeurige stukken data te kiezen in plaats van de hele dataset.





Deze definities verklaren niet volledig waarom onze AI's soms hallucineren en zich chaotisch gedragen. Er zijn andere bijdragende factoren, waaronder de volgende:





Determinisme

Stochastiek

Afrondingsfouten en drijvende-komma-rekenkunde

Multithreading en parallelle berekeningen

Gegevens voortdurend bijwerken

Chaos en het ‘vlindereffect’





Als we wat beter kijken, zien we andere mechanismen die het onvoorspelbare gedrag van AI-modellen beïnvloeden.

Een glimp van neurale netwerken

U weet waarschijnlijk dat de AI's die iedereen gebruikt afhankelijk zijn van verschillende neurale netwerkalgoritmen. Hier zijn enkele typen neurale netwerken:





Volledig verbonden neurale netwerken (FCNN): een klassieke architectuur waarbij elk neuron verbinding maakt met elk neuron in de volgende laag.





Convolutionele neurale netwerken (CNN's): Deze netwerken maken gebruik van convoluties of filters die beeldkenmerken zoals randen, texturen en vormen benadrukken.





Recurrent Neural Networks (RNN's ): Deze netwerken hebben feedbacklussen waardoor ze eerdere stappen kunnen onthouden (met andere woorden: ze onthouden sequenties).





Long Short-Term Memory (LSTM): Een verbeterde versie van RNN's met mechanismen voor het selectief vergeten en onthouden van belangrijke gegevens.





Transformers : De krachtigste klasse voor tekstverwerking. Ze gebruiken multi-head attention, waardoor ze de gehele context gelijktijdig kunnen beschouwen.





Generative Adversarial Networks (GAN's): Deze bestaan uit twee netwerken, waarvan er één data genereert en de andere de kwaliteit ervan evalueert. Hun concurrentie leidt tot betere resultaten.





Autoencoders : Netwerken die zijn ontworpen om informatie te comprimeren (coderen) en vervolgens te reconstrueren (decoderen).





Grafische neurale netwerken (GNN's): Deze werken met grafieken (knooppunten en randen) in plaats van met gewone gegevens.





We hebben al die context nodig om te begrijpen waarom het meest voorkomende model, ChatGPT, vaak hallucinaties veroorzaakt.

Hoe AI-hallucinaties ontstaan

ChatGPT draait op de Transformer -architectuur, die voor het eerst werd geïntroduceerd in het artikel uit 2017, "Attention Is All You Need." Dit is precies het mechanisme dat tekstverwerking revolutioneerde. Transformers werken op het self-attention-mechanisme, waarmee ze rekening kunnen houden met de globale context in plaats van alleen de dichtstbijzijnde woorden, zoals oudere recurrent neural networks (LSTM en GRU) doen. Het model behoort tot de GPT-serie (Generative Pre-Trained Transformer), wat betekent:





Vooraf getraind: In eerste instantie werd het getraind met enorme hoeveelheden tekst (boeken, artikelen, websites en code).

In eerste instantie werd het getraind met enorme hoeveelheden tekst (boeken, artikelen, websites en code). Generatief: De taak is om tekst te genereren, niet alleen om feiten te classificeren of te extraheren.





De antwoorden van ChatGPT zijn het resultaat van een stochastisch proces in plaats van een rigide regel. Het onthoudt of reproduceert geen teksten, maar genereert antwoorden met behulp van een probabilistisch model.

Woordvoorspelling als een probabilistisch proces

Wanneer ChatGPT reageert, kiest het niet het juiste woord, maar berekent het een waarschijnlijkheidsverdeling.





P(wi|w1, w2, ..., wi-1), waarbij:

“wi” — het volgende woord in de zin

w1, w2, ..., wi-1 — de vorige woorden

P(wi|w1, ..., wi-1) — de waarschijnlijkheid dat “wi” het volgende woord zal zijn





Als u bijvoorbeeld vraagt: "Welke dag is het vandaag?", kan ChatGPT verschillende waarschijnlijkheden hebben:





“Maandag” — P=0,7

“Woensdag” — P=0,2

“42” — P=0,0001





Meestal wordt het woord met de hoogste waarschijnlijkheid gekozen, maar vanwege de generatietemperatuur (een parameter die de willekeur bepaalt) kan het soms een minder waarschijnlijke optie kiezen op basis van de context.

Contextinvloed en het vergeten van informatie

ChatGPT werkt met een beperkt contextvenster, wat betekent dat het alleen de laatste NN-tokens "onthoudt". Voor GPT-4 is het contextvenster ongeveer 128k tokens (ongeveer 300 pagina's tekst). Als belangrijke informatie buiten deze context valt, kan het:





Vergeet details (context clipping effect)

Informatie over samenstelling (stochastisch proces)





Toch kan ChatGPT vaak zijn antwoord corrigeren nadat je vraagt of het zeker is. Echter, ChatGPT kan vaak zijn antwoord corrigeren als je vraagt of het zeker is.

AI corrigeert zichzelf soms, maar waarom?

Wanneer u ChatGPT vraagt: "Weet u het zeker?", analyseert het zijn antwoord opnieuw met behulp van een nieuwe context waarin twijfel aanwezig is. Dit resulteert in:





Herberekenen van de waarschijnlijkheid van antwoorden.

Een meer plausibele optie kiezen, als die bestaat.





Dit proces kan worden verklaard met behulp van de Bayesiaanse waarschijnlijkheid.





P(A|B) = P(B|A)P(A) / P(B), waarbij:





P(A|B) — de waarschijnlijkheid dat antwoord A juist is, rekening houdend met uw vervolgvraag B.

P(B|A) — de waarschijnlijkheid dat u in eerste instantie zou hebben gevraagd of ChatGPT gelijk had.

P(A) — de initiële waarschijnlijkheid van het antwoord van ChatGPT.

P(B) — de algehele waarschijnlijkheid die u zou vragen.



Te veel informatie voor je? Hersenen oververhit? Stel je voor dat AI's ook overweldigd raken door grote hoeveelheden informatie.

Fouten als gevolg van overfitting en ruis in de gegevens

Er stromen enorme hoeveelheden tekstgegevens in de training van ChatGPT, inclusief ruis of tegenstrijdige informatie, zoals:





Sommige bronnen beweren dat de aarde rond is, terwijl andere beweren dat hij plat is.





AI kan niet altijd bepalen welke informatie waar is wanneer deze met wisselende waarschijnlijkheid verschijnt.









Dit zijn voorbeelden van modelhallucinaties, die optreden omdat de gewichten van ChatGPT worden getraind op waarschijnlijke woordassociaties in plaats van op strikte logica.

De kern van de zaak

Dit is wat we hiervan kunnen leren. ChatGPT hallucineert omdat het:





Voorspelt op basis van waarschijnlijkheid, niet deterministisch.

Heeft een beperkt geheugen (contextvenster).

Herberekent waarschijnlijkheden bij twijfel.

Bevat trainingsgegevens die ruis en tegenstrijdigheden bevatten.



Zo eenvoudig is het. Ik hoop dat je niet moe bent geworden. Als dat wel zo is, is dat een goed teken, want het betekent dat je kritisch nadenkt, en dat is precies wat we zouden moeten doen als we met AI werken.