Het gebied van kunstmatige intelligentie ervaart een ongekende stijging van innovatie, maar het publieke discours blijft vaak vastgelegd op Large Language Models (LLMs). en LeCun's inzichten uitdagen conventionele wijsheid en benadrukken een verschuiving naar systemen die echt begrijpen, redeneren en interacteren met onze complexe fysieke wereld. door Bill Dally Yann LeCun Over de taalgrenzen heen gaan Yann LeCun geeft openlijk toe dat hij Ik ben niet meer zo geïnteresseerd in LLM's. . not so interested in LLMs anymore Terwijl ze blijven verbeteren aan de rand door meer gegevens, berekening en synthetische gegevensgeneratie, ziet LeCun ze als een "eenvoudige manier om redenering te bekijken". De fysieke wereld begrijpen: hoe kunnen machines de nuances van de fysica en interactie in de echte wereld begrijpen? Persistent Memory: het ontwikkelen van AI-systemen met de capaciteit voor langdurig, toegankelijk geheugen. Reasoning: verder gaan dan de huidige, vaak rudimentaire, vormen van redeneren in LLM's naar meer geavanceerde, intuïtieve methoden. Planning: Het mogelijk maken van AI om opeenvolgende acties te plannen om specifieke doelen te bereiken, vergelijkbaar met menselijke cognitieve processen. LeCun suggereert dat de tech-gemeenschap, terwijl momenteel gericht op LLM's, waarschijnlijk opgewonden zal worden over deze "donkere academische papers" in vijf jaar tijd. De uitdaging van de echte wereld: waarom tokens kort vallen De fundamentele beperking van de huidige LLM's, volgens LeCun, ligt in hun token-gebaseerde aanpak. Tokens, meestal een eindige reeks mogelijkheden (rond 100.000 voor LLM's), zijn goed geschikt voor discrete gegevens zoals taal. Mensen verwerven "wereldmodellen" in de eerste paar maanden van het leven, waardoor we oorzaak en gevolg kunnen begrijpen - bijvoorbeeld hoe het duwen van een fles van bovenaf het zou kunnen omdraaien, terwijl het duwen van onderaf het zou kunnen doen glippen. Pogingen om systemen te trainen om de wereld te begrijpen door high-dimensionale, continue gegevens zoals video op een pixelniveau te voorspellen, zijn grotendeels mislukt. Dergelijke systemen verspillen hun middelen door te proberen onvoorspelbare details uit te vinden, wat leidt tot een "volledige verspilling van middelen". Zelfs zelfbeheerde leertechnieken die werken door beelden van corrupte versies te reconstrueren, hebben niet gedaan, evenals alternatieve architectuur. Joint Embedding Predictive Architectures (JAPA): De toekomst van wereldmodellen Het antwoord op deze uitdaging, stelt LeCun, ligt in Joint Embedding Predictive Architectures (JAPA). In tegenstelling tot generatieve modellen die proberen reconstructie op pixelniveau, JAPA richt zich op het leren van "abstracte representaties" van gegevens. How JAPA Works: Een stukje input (bijvoorbeeld een stukje video of een afbeelding) wordt uitgevoerd via een encoder om een abstracte weergave te produceren. Een voortzetting of getransformeerde versie van de input wordt ook uitgevoerd via een encoder. Het systeem probeert vervolgens voorspellingen te maken binnen deze "representatieruimte" (latente ruimte), in plaats van in de ruwe inputruimte. Deze aanpak vermijdt het ineenstortingsprobleem waarbij systemen input kunnen negeren en constante, niet-informatieve representaties kunnen produceren, een hindernis die jaren duurde om te overwinnen. Voor agentsystemen die kunnen redeneren en plannen, biedt JAPA een krachtig mechanisme. stel je een voorspeller voor die, bij het observeren van de huidige toestand van de wereld, de "next state of the world given that I might take an action that I'm imagining taking" kan voorspellen. JAPA for Reasoning and Planning: LeCun contrasteert dit sterk met de huidige "agentische redeneringssystemen" die een groot aantal tokensequenties genereren en vervolgens een tweede neurale netwerk gebruiken om de beste te selecteren. hij vergelijkt dit met "het schrijven van een programma zonder te weten hoe een programma te schrijven" - een "volledig hopeloze" methode voor alles buiten korte sequenties, omdat het exponentieel schaalt met lengte. Een praktisch voorbeeld van het potentieel van JAPA is het VJA (Video Joint Embedding Predictive Architecture) project, momenteel in ontwikkeling bij Meta. Het VJA-systeem, getraind op korte video-segmenten om vertegenwoordigingen van volledige video's te voorspellen uit gemaskeerde versies, demonstreert een vermogen om te detecteren of een video "fysiek mogelijk is of niet". Door het meten van voorspellingsfouten, kan het "ongebruikelijke" gebeurtenissen zoals objecten die spontaan verschijnen of verdwijnen, of fysica uitdagen. De weg naar geavanceerde machine intelligentie (AMI) LeCun geeft de voorkeur aan de term Advanced Machine Intelligence (AMI) boven Artificial General Intelligence (AGI), verwijzend naar de zeer gespecialiseerde aard van menselijke intelligentie. met AI op menselijk niveau die mogelijk binnen een decennium of zo aankomt. met AI op menselijk niveau die mogelijk binnen een decennium of zo aankomt. Hij waarschuwt echter voor het historische patroon van overoptimisme in AI, waarbij elk nieuw paradigma wordt uitgeroepen als de weg naar intelligentie op menselijk niveau binnen een decennium. LLM's worden getraind op enorme hoeveelheden tekst (bijv. 30 biljoen tokens, wat overeenkomt met 400.000 jaar lezen). In tegenstelling hiermee verwerkt een 4-jarig kind in slechts 16.000 uur een equivalente hoeveelheid gegevens via visie, wat de enorme efficiëntie van visueel leren demonstreert. De sleutel tot het ontgrendelen van AMI, volgens LeCun, is het ontdekken van het "goede recept" voor het trainen van JAPA-architectuur op schaal. Net zoals het tijd kostte om de juiste combinatie van engineering-tricks, niet-lineariteiten en innovaties zoals ResNet (het meest geciteerde papier in de wetenschap in het afgelopen decennium) uit te vinden om diepe neurale netwerken en transformatoren effectief te trainen, is een soortgelijke doorbraak nodig voor JAPA. Impact van AI: van levensreddende tot productiviteitsinstrumenten Ondanks de focus op toekomstige paradigma's, benadrukt LeCun de immense positieve impact die AI al heeft: Wetenschap en geneeskunde: AI transformeert geneesmiddelenontwerp, eiwitvouwing en het begrijpen van levensmechanismen.In de medische beeldvorming, deep learning systemen pre-screen mammogrammen voor tumoren, en AI vermindert MRI scan tijden met een factor van vier door het herstellen van hoge resolutie beelden uit minder gegevens. Automotive: rijhulpsystemen en automatische noodremsystemen, nu verplicht in Europa, verminderen botsingen met 40%, redden levens. Productiviteit en creativiteit: AI vervangt mensen niet, maar dient als "krachtinstrumenten" die individuen productiever en creatiever maken, of het nu gaat om codering assistenten, in de geneeskunde, of in artistieke inspanningen. De behoefte aan "nauwkeurigheid en betrouwbaarheid" in toepassingen zoals autonoom rijden (waar fouten dodelijk kunnen zijn) maakt het opzetten en implementeren van AI-systemen "moeilijker dan de meeste mensen hadden gedacht". Dit is waar AI vaak faalt - niet in de basistechniek of demo's, maar in de betrouwbare integratie in bestaande systemen. Met betrekking tot de "donkere kant" van AI, zoals deepfakes en nepnieuws, legt LeCun verrassend optimisme uit. De ervaring van Meta suggereert dat, ondanks de beschikbaarheid van LLM's, ze niet hebben gezien een "grote toename van generatieve inhoud die op sociale netwerken wordt geplaatst, of op zijn minst niet op een kwaadaardige manier". Hij vertelt de "Galactica" -episode, waar Meta's open source LLM voor wetenschappelijke literatuur werd ontmoet met "vitriol" en weggenomen vanwege angst-mongering, alleen voor ChatGPT om weken later te worden gevierd. LeCun gelooft dat de "contra-maatregel tegen misbruik gewoon beter AI is" - met systemen met gezond verstand, redenerende capaciteit en de mogelijkheid om De onmisbare rol van open source en wereldwijde samenwerking Een kernbeginsel van LeCun's filosofie is de absolute noodzaak van open-source AI-platforms. hij benadrukt dat "goede ideeën voortkomen uit de interactie van veel mensen en de uitwisseling van ideeën". Geen enkele entiteit heeft een monopolie op innovatie, zoals aangetoond door de baanbrekende ResNet-architectuur, die kwam van Chinese wetenschappers bij Microsoft Research Beijing. Meta's toewijding aan open source, geïllustreerd door PyTorch en LLaMA, wordt gedreven door de overtuiging dat het een bloeiend ecosysteem van startups bevordert en het grootste aantal slimme mensen in staat stelt bij te dragen aan het bouwen van essentiële functionaliteiten. Why Open Source AI is Crucial for the Future: Diversiteit van AI-assistenten: In een toekomst waarin AI bijna elke digitale interactie (bijvoorbeeld slimme bril) bemiddelt, kan een handvol bedrijven niet de diversiteit van assistenten bieden die nodig zijn. Het toekomstige model omvat open-source foundation modellen getraind op een gedistribueerde manier, met datacenters wereldwijd toegang tot subsets van gegevens om een "consensusmodel" te trainen. Fine-tuning op proprietaire gegevens: Open-source modellen zoals LLaMA stellen bedrijven in staat om ze te downloaden en af te stemmen op hun eigen proprietaire gegevens zonder deze te hoeven uploaden, en ondersteunen gespecialiseerde verticale toepassingen en start-up bedrijfsmodellen. LeCun benadrukt dat bedrijven waarvan de inkomsten niet uitsluitend zijn gekoppeld aan AI-diensten (zoals het advertentiemodel van Meta) minder te verliezen hebben en meer te verdienen van het openen van hun modellen, in tegenstelling tot bedrijven zoals Google die het kunnen zien als een bedreiging voor hun kernzoekbedrijf. Hardware: brandstof voor de volgende AI-revolutie Terwijl GPU's ongelooflijke vooruitgang hebben gezien (5.000 tot 10.000 keer meer capaciteit van Kepler tot Blackwell), betekent de computationele kosten van redeneren in abstracte ruimte "we zullen alle concurrentie die we kunnen krijgen nodig hebben" in hardware. LeCun is grotendeels sceptisch over neuromorfische hardware, optische computing en quantum computing voor algemene AI-taken in de nabije toekomst. hij wijst erop dat de digitale halfgeleiderindustrie zich in zo'n "diep lokaal minimum" bevindt dat alternatieve technologieën een monumentale uitdaging hebben om op te vangen. Hij ziet echter veelbelovendheid in Processor-in-Memory (PIM) of analoge/digitale processor- en geheugentechnologieën voor specifieke "edge computation" -scenario's, zoals low-power visuele verwerking in slimme bril. om het te comprimeren voordat het naar de visuele cortex wordt gestuurd, waardoor wordt aangetoond dat het shuffelen van gegevens, niet de berekening zelf, vaak de meeste energie verbruikt. Op de sensor De toekomst: een team van super-intelligente virtuele mensen Uiteindelijk ziet LeCun een toekomst waarin AI-systemen "krachtgereedschappen" zijn die menselijke capaciteiten vergroten, niet vervangen.Onze relatie met toekomstige AI zal een van de commando's zijn; we zullen hun "boss" zijn, met een "staf van super-intelligente virtuele mensen die voor ons werken".Deze collaboratieve toekomst, gedreven door open onderzoek en open-source platforms, zal bijdragen van iedereen over de hele wereld benutten, wat leidt tot een gevarieerd scala aan AI-assistenten die ons dagelijks leven verbeteren. In wezen is de toekomst van AI niet een monolithische, zwarte doos entiteit die plotseling verschijnt.In plaats daarvan is het een collaboratief, iteratief proces, net als het bouwen van een grote, ingewikkelde stad waar elke bouwer, architect en ingenieur hun unieke expertise bijdraagt aan een gedeeld blueprint, wat leidt tot een levendige en diverse metropool van geavanceerde machine intelligentie.