Oblasť umelej inteligencie zažíva bezprecedentný nárast inovácií, avšak verejná diskusia často zostáva fixovaná na veľkých jazykových modeloch (LLM). a Hlavný vedec AI v spoločnosti Meta odhalil vrstvy súčasných pokrokov v oblasti umelej inteligencie, odhaľujúc víziu, ktorá presahuje predpovede tokenov.LeCunove poznatky spochybňujú konvenčnú múdrosť a zdôrazňujú posun smerom k systémom, ktoré skutočne chápu, rozumejú a interagujú s naším komplexným fyzickým svetom. Bill Dallyová Yann LeCunová Presun cez jazykové hranice Yann LeCun otvorene priznáva, že je Zatiaľ nie som taká zaneprázdnená LLM. . not so interested in LLMs anymore Zatiaľ čo pokračujú v zlepšovaní na okraji prostredníctvom väčšieho počtu údajov, výpočtov a syntetickej generácie dát, LeCun ich vidí ako „jednoduchý spôsob, ako vidieť uvažovanie“. Pochopenie fyzického sveta: Ako môžu stroje pochopiť nuansy reálnej fyziky a interakcie? Trvalá pamäť: Vývoj systémov AI s kapacitou pre dlhodobú, prístupnú pamäť. Rozumenie: Presun nad rámec súčasných, často rudimentárnych foriem uvažovania v LLM na sofistikovanejšie, intuitívne metódy. Plánovanie: Umožnenie AI plánovať sekvencie akcií na dosiahnutie konkrétnych cieľov, podobných ľudským kognitívnym procesom. LeCun naznačuje, že technologická komunita, zatiaľ čo v súčasnosti zameraná na LLM, bude pravdepodobne nadšená o týchto "temných akademických článkoch" v priebehu piatich rokov. Výzva reálneho sveta: Prečo tokeny klesajú krátko Základné obmedzenie súčasných LLM, podľa LeCun, spočíva v ich prístupu založenom na tokenoch. Tokeny, zvyčajne predstavujúce konečný súbor možností (približne 100 000 pre LLM), sú vhodné pre diskrétne dáta, ako je jazyk. Ľudia získavajú "svetové modely" v prvých mesiacoch života, čo nám umožňuje pochopiť príčinu a následok - napríklad, ako tlačenie fľaše zhora by ju mohlo otočiť, zatiaľ čo tlačenie zospodu by mohlo spôsobiť, že sa posunie. Pokusy vycvičiť systémy na pochopenie sveta predpovedaním vysoko dimenzionálnych, nepretržitých dát, ako je video na úrovni pixelov, z veľkej časti zlyhali. Takéto systémy vyčerpávajú svoje zdroje snažiace sa vymyslieť nepredvídateľné detaily, čo vedie k „úplnému plytvaniu zdrojmi“. Dokonca aj sebakontrolované učebné techniky, ktoré fungujú rekonštruovaním obrázkov z poškodených verzií, nedokázali rovnako dobre ako alternatívne architektúry. Joint Embedding Predictive Architectures (JAPA): Budúcnosť svetových modelov Odpoveď na túto výzvu, tvrdí LeCun, spočíva v Joint Embedding Predictive Architectures (JAPA). Na rozdiel od generatívnych modelov, ktoré sa pokúšajú o rekonštrukciu na úrovni pixelov, sa JAPA zameriava na učenie "abstraktných reprezentácií" údajov. How JAPA Works: Kúsok vstupu (napr. kus videa alebo obrázok) sa spustí cez kódovač, aby sa vytvorila abstraktná reprezentácia. Pokračovanie alebo transformovaná verzia vstupu je tiež spustená prostredníctvom kódovača. Systém sa potom pokúša urobiť predpovede v rámci tohto „predstavovacieho priestoru“ (latentného priestoru), a nie v surovom vstupnom priestore. Tento prístup zabraňuje problému kolapsu, keď systémy môžu ignorovať vstupy a produkovať konštantné, neinformatívne reprezentácie, prekážku, ktorá trvala roky na prekonanie. Pre systémy agentov, ktoré dokážu uvažovať a plánovať, JAPA ponúka silný mechanizmus. Predstavte si prediktor, ktorý pri pozorovaní súčasného stavu sveta môže predvídať „ďalší stav sveta, keďže by som mohol podniknúť akciu, ktorú si predstavujem, že prijímam“. JAPA for Reasoning and Planning: LeCun to silne kontrastuje s aktuálnymi „agentívnymi systémami uvažovania“, ktoré vytvárajú obrovské množstvo tokenových sekvencií a potom používajú druhú neurálnu sieť na výber najlepšej. Porovnáva to s „napísaním programu bez toho, aby vedel, ako napísať program“ – „úplne beznádejnou“ metódou pre čokoľvek mimo krátke sekvencie, pretože sa škáluje exponenciálne s dĺžkou. Praktickým príkladom potenciálu JAPA je projekt VJA (Video Joint Embedding Predictive Architecture), ktorý je v súčasnosti vo vývoji v Meta. Systém VJA, vyškolený na krátkych video segmentoch na predpovedanie reprezentácií plných videí z maskovaných verzií, demonštruje schopnosť zistiť, či je video „fyzicky možné alebo nie“. Meraním predikčnej chyby môže označiť „neobvyklé“ udalosti, ako sú objekty, ktoré sa spontánne objavujú alebo zmiznú, alebo spochybňujú fyziku. To odráža, ako sa deti učia intuitívnu fyziku: 9-mesačné dieťa je prekvapené, ak sa zdá, že objekt pláva, čo naznačuje porušenie ich vnútorného modelu sveta. Cesta k pokročilej strojovej inteligencii (AMI) LeCun uprednostňuje termín Advanced Machine Intelligence (AMI) pred umelou všeobecnou inteligenciou (AGI), pričom cituje vysoko špecializovanú povahu ľudskej inteligencie. s ľudskou úrovňou AI potenciálne príde do desaťročia alebo tak. s ľudskou úrovňou AI potenciálne príde do desaťročia alebo tak. Avšak varuje pred historickým vzorom nadmerného optimizmu v AI, kde je každá nová paradigma vyhlásená za cestu k inteligencii na ľudskej úrovni v priebehu desiatich rokov. LLM sú vyškolení na obrovské množstvo textu (napr. 30 biliónov tokenov, čo je ekvivalent 400 000 rokov čítania). Na rozdiel od toho 4-ročné dieťa spracováva ekvivalentné množstvo dát prostredníctvom videnia len za 16 000 hodín, čo dokazuje obrovskú účinnosť vizuálneho učenia. Kľúčom k odomknutiu AMI, podľa LeCun, je objaviť "dobrý recept" na školenie architektúr JAPA v rozsahu.Rovnako ako to trvalo čas, aby sa zistila správna kombinácia inžinierskych trikov, nelinearít a inovácií, ako je ResNet (najviac citovaný článok vo vede za posledné desaťročie), aby sa účinne vycvičili hlboké nervové siete a transformátory, je potrebný podobný prielom pre JAPA. Vplyv umelej inteligencie: od záchranných nástrojov až po nástroje produktivity Napriek tomu, že sa zameriava na budúce paradigmy, LeCun zdôrazňuje obrovský pozitívny vplyv AI už má: Veda a medicína: umelá inteligencia transformuje návrh liekov, zloží bielkoviny a chápe životné mechanizmy.V lekárskych zobrazovacích systémoch hlboké vzdelávanie predvída mamogramy pre nádory a umelá inteligencia znižuje čas skenovania MRI o štyri faktory tým, že získava obrázky s vysokým rozlíšením z menšieho počtu údajov. Automobilový priemysel: Pomoc vodičovi a automatické núdzové brzdy, teraz povinné v Európe, znižujú nárazy o 40%, zachraňujú životy. Produktivita a tvorivosť: AI nenahradí ľudí, ale slúži ako „nástroje sily“, ktoré robia jednotlivcov produktívnejšími a kreatívnejšími, či už ako asistentov kódovania, v medicíne alebo v umeleckých snahách. Potreba „presnosti a spoľahlivosti“ v aplikáciách, ako je autonómne riadenie (kde chyby môžu byť smrteľné) robí umiestnenie a nasadenie systémov AI „ťažšie, než si väčšina ľudí myslela“. To je miesto, kde AI často zlyhá – nie v základnej technike alebo democh, ale v spoľahlivej integrácii do existujúcich systémov. Pokiaľ ide o "temnú stranu" umelej inteligencie, ako sú hlboké falošné správy a falošné správy, LeCun vyjadruje prekvapivý optimizmus. Meta skúsenosti naznačujú, že napriek dostupnosti LLMs nevideli "veľký nárast generatívneho obsahu zverejneného na sociálnych sieťach, alebo aspoň nie neškodným spôsobom". On rozpráva o epizóde "Galactica", kde sa Meta's open-source LLM pre vedeckú literatúru stretol s "vitriol" a zrušený kvôli strachu-mongering, len pre ChatGPT, aby sa oslavoval o niekoľko týždňov neskôr. LeCun verí, že "protiopatrenie proti zneužívaniu je len lepšia AI" - so systémami so spoločným zmyslom, odô Nevyhnutná úloha open source a globálnej spolupráce Jedným z kľúčových princípov LeCunovej filozofie je absolútna nevyhnutnosť open-source AI platforiem. zdôrazňuje, že „dobré nápady pochádzajú z interakcie mnohých ľudí a výmeny myšlienok“. Žiadny jediný subjekt nemá monopol na inovácie, ako to dokazuje prelomová architektúra ResNet, ktorá pochádza od čínskych vedcov v spoločnosti Microsoft Research Peking. Meta záväzok k open-source, príkladom PyTorch a LLaMA, je poháňaný presvedčením, že podporuje prosperujúci ekosystém začínajúcich podnikov a umožňuje najväčšiemu počtu inteligentných ľudí prispieť k budovaniu základných funkcií. LLaMA, najmodernejší LLM ponúkaný s otvorenými váhami, videl viac ako miliardu stiahnutí, čo spôsobilo revolúciu v krajine AI. Why Open Source AI is Crucial for the Future: V budúcnosti, kde umelá inteligencia sprostredkuje takmer každú digitálnu interakciu (napr. inteligentné okuliare), jediná hŕstka spoločností nemôže poskytnúť potrebnú rozmanitosť asistentov.Potrebujeme asistentov, ktorí pochopia "všetky svetové jazyky, všetky svetové kultúry, všetky hodnotové systémy" a môžu stelesniť rôzne predsudky a názory, rovnako ako rôznorodá tlač je nevyhnutná pre demokraciu. Budúci model zahŕňa modely založenia s otvoreným zdrojovým kódom vyškolené distribuovaným spôsobom, pričom dátové centrá globálne pristupujú k podskupinám údajov na výcvik „modelu konsenzu“. Fine-Tuning na vlastné údaje: Modely s otvoreným zdrojovým kódom, ako je LLaMA, umožňujú spoločnostiam sťahovať a vylepšovať ich na vlastné vlastné dáta bez toho, aby ich museli nahrať, a podporujú špecializované vertikálne aplikácie a podnikové modely. LeCun zdôrazňuje, že spoločnosti, ktorých príjmy nie sú spojené výlučne so službami umelej inteligencie (ako je model reklamy spoločnosti Meta), majú menej čo stratiť a viac čo získať z otvorenia svojich modelov, čo je v kontraste so spoločnosťami ako Google, ktoré by to mohli považovať za hrozbu pre ich základné vyhľadávanie. Hardvér: poháňanie ďalšej AI revolúcie Zatiaľ čo GPU zaznamenali neuveriteľné pokroky (5 000 až 10 000-násobné zvýšenie kapacity od Keplera po Blackwell), výpočtové náklady na uvažovanie v abstraktnom priestore znamenajú, že „potrebujeme všetku konkurenciu, ktorú môžeme získať“ v hardvéri. LeCun je vo veľkej miere skeptický voči neuromorfnému hardvéru, optickému výpočtu a kvantovému výpočtu pre všeobecné úlohy AI v blízkej budúcnosti. poukazuje na to, že digitálny polovodičový priemysel je v takom "hlbokom miestnom minime", že alternatívne technológie čelia monumentálnej výzve na zachytenie. Vníma však sľub procesora v pamäti (PIM) alebo analógových/digitálnych procesorových a pamäťových technológií pre špecifické scenáre „edge computation“, ako je nízkoenergetické vizuálne spracovanie v inteligentných okuliaroch. Komprimovať ho pred odoslaním do vizuálnej kôry, čo dokazuje, že shuffling dát, nie samotné výpočty, často spotrebuje najviac energie. Na senzore Budúcnosť: Personál super-inteligentných virtuálnych ľudí LeCun vníma budúcnosť, v ktorej systémy AI budú „výkonnými nástrojmi“, ktoré zvyšujú ľudské schopnosti, nie ich nahrádzajú.Náš vzťah s budúcou AI bude jedným z príkazov; budeme ich „šéfom“, s „štandartom superinteligentných virtuálnych ľudí pracujúcich pre nás“.Táto spolupracujúca budúcnosť, poháňaná otvoreným výskumom a platformami s otvoreným zdrojovým kódom, využije príspevky od všetkých po celom svete, čo povedie k rôznorodému radu asistentov AI, ktorí zlepšujú náš každodenný život. V podstate budúcnosť AI nie je monolitická, čierna skrinka entita, ktorá sa náhle objaví.Namiesto toho je to spolupracujúci, iteratívny proces, rovnako ako budovanie veľkého, komplikovaného mesta, kde každý staviteľ, architekt a inžinier prispieva svoje jedinečné odborné znalosti na spoločný blueprint, čo vedie k dynamickej a rôznorodej metropole pokročilej strojnej inteligencie.