Generative AI не е нищо друго освен технологична вихрушка. Модели като GPT-4 завладяха света със сюрреалистичния си капацитет да генерират текст, който имитира човешки разговор, да пишат есета, да кодират и дори да предлагат творчески решения на някои доста сложни задачи. Непрекъснато се приближаваме към бъдеще, подпомогнато от AI, такова, в което нашите дигитални асистенти без усилие ще разбират и отговарят на нашите нужди. Това е достатъчно, за да направи някой вярващ, нали?
Е, почти… но не съвсем.
Вижте, под блясъка на бляскавия резултат на GPT и неговия граматически финес се крие основно ограничение, което подлудява много от нас, технолозите: генеративният AI се бори да обработва напълно нова информация, особено в сценарии за еднократно обучение. Този на пръв поглед прост (но все пак разочароващ) проблем разкрива централна празнина в настоящите AI системи. Въпреки че са в състояние да синтезират впечатляващи пасажи от милиарди точки от данни, когато са натоварени с истинска новост – нещо, което не е виждало преди или на което не са се обучавали – моделите в стил GPT се сблъскват с присъща стена.
Това рисува картина на това, което наричам „Парадокс на еднократно генерализиране“ : колкото и мощни, колкото и „умни“ да изглеждат AI системи като GPT, те се разпадат, когато е необходимо да се генерализират бързо само от една или малка шепа невиждани примери.
Нека разопаковаме малко този парадокс и да се потопим в причините зад него. Но не се притеснявайте, няма да запазим това чисто философски — ще се спуснем в техническата кал и ще проучим какво точно спира нашите AIs от текущото поколение да съпоставят тази магическа гъвкавост, която хората имат, когато се изправят срещу непознатото.
Основният блясък на модели като GPT-4 се основава на усъвършенствана архитектура на Transformer , която е известна с това, че захранва всичко - от езикови модели до визуални задачи. Сега, не искам да ви затлачвам с жаргон в началото на тази част (тепърва започваме), но някои технологични слоеве трябва да бъдат разопаковани, за да разберете къде и защо започват да се показват пукнатините.
Като за начало, GPT принадлежи към семейство модели, базирани на последователност , обучени да предсказват следващата дума или токен във всяка дадена част от текста. Как стават толкова добри в това? До голяма степен това се дължи на механизма за самонасочване, вграден в Transformer , който позволява на тези модели да пресяват огромни количества текст и по същество да се „фокусират“ върху важните части на изречението, като същевременно разглеждат думите в цялата последователност. Този механизъм за глобално внимание бързо се превърна в гръбнака за улавяне на чувствително към контекста значение в големи части от текста.
Но тук е същината на парадокса: Generative AI разчита до голяма степен на тези данни за обучение. Той е изключителен в разпознаването на модели и статистически връзки между токените в данните, които е виждал преди, но също така е присъщо зависим от тези данни. Когато моделът беше пуснат, GPT-4 всъщност не се беше научил да разсъждава или да развие разбиране за света. По-скоро използва асоциации, които е събрал в милиарди текстови примери, намерени онлайн (в книги, Wikipedia, теми в Reddit, академични статии… каквото и да е).
И така, докато GPT може да изглежда като всевиждащ оракул, генериращ последователни и понякога проницателни текстове, това, което всъщност прави, е да играе впечатляваща игра на вероятностно съпоставяне на шаблони. смисъл? Когато се появи нещо ново (като чисто нова научна статия за квантовата механика или някакъв специфичен за индустрията жаргон), трудно се намира смислен смисъл в него.
Това... не се изчислява.
Ето къде хората се различават значително от машините. Представете си, че за първи път четете за концепция, която напълно надхвърля вашия опит. Може би сте основател на технологичен стартъп, навигиращ в света на машинното инженерство. Разбира се, може да не свържете всички точки при първото четене - но след като погледнете шепа примери или диаграми, някои интуитивни мигания на електрическа крушка ще изгаснат. Аха, това е система за контрол! Това се свързва с това! И тогава, ето, вие го получавате (или поне по-голямата част от него).
Този нюанс се нарича еднократно обобщение - способността бързо да се улавят модели или да се разбере напълно нова информация въз основа на минимални примери. И това е нещо, в което хората са изключително добри. Ние вземаме малка част от знанието и интуитивно го картографираме към по-широки теми, структури или аналогии, които вече познаваме. С други думи, не се нуждаем от милион примери или огромен корпус от минали данни, за да имаме богоявление.
В пълен контраст, генеративните модели изобщо нямат вродено разбиране за света. Те се разхождат на случаен принцип в статистическото пространство и правят прогнози въз основа на това кои думи или структури е най-вероятно да се появят едновременно. Така че, когато бъдат помолени да се справят с нещо напълно ново - изцяло нов научен термин, чисто нова теория, никога не публикувана онлайн - те се сблъскват с главата напред в стената. Просто казано, те не са се сблъсквали с това преди и им липсват истински концептуални рамки, за да направят скокове над непозната територия.
Добре, това е доста абстрактно. Нека разбия това по-нататък.
Генеративните AI модели се учат чрез интерполиране между съществуващи точки от данни. Което означава, че те стават експерти в попълването на празнините между точките, които вече са видели, и моделите, с които са запознати, но се борят с екстраполацията , т.е. изскачането и правенето на прогнози въз основа на нова концепция, когато данните за обучението нямат прецедент. Например, GPT-4 може да се справи чудесно с "обикновени" езикови конструкции в ежедневния език, защото има милиони налични примери. Но добавете заявка за нововъзникващи, хиперспециализирани идеи - да речем, спецификата на последните постижения в солитонните влакнести лазери във физиката - и бум: абсолютни безсмислици. защо GPT няма никаква статистическа референтна точка за такива ниши, нови термини. По същество има обосновани предположения, които, макар и правдоподобни по отношение на плавността, жертват истинската съгласуваност за синтактичната коректност .
Добре, ако сте малко по-технически настроени, нека се потопим по-дълбоко в това защо това ограничение е толкова упорито и какво се случва под капака по време на еднократни опити за обучение.
Един централен проблем с еднократното обобщение е относно информацията, която моделът представя вътрешно по време на своето самоконтролирано обучение . Моделите в стил GPT се държат доста добре, когато работят в граници – феномен, често описван като обучение в разпространението . В границите на темите, за които е видял достатъчно обширни примери за обучение, дори GPT-4 може да изведе зловещо проницателни резултати. Това е така, защото структурата на модела му позволява да кодира информация чрез плътни векторни представяния - под формата на контекстуализирани вграждания - които улавят асоциациите между думи и понятия.
Но тук нещата се разплитат. Когато моделът е натоварен със ситуация, която изисква обобщение извън разпространението, което означава среща с концепция, върху която никога не е бил обучаван преди, системата не прави изводи за нещата по начина, по който хората го правят. Помислете за това по следния начин: тези модели по своята същност са машини с шаблони , разчитащи на статистически „чувства“. Те нямат вградена способност да създават или разсъждават „над данните“.
Например, помислете как GPT научава граматическите правила. Това е като някой да седне да запомни хиляди начини, по които думите се използват в английски изречения. След достатъчно наблюдение системата изгражда вътрешна карта, която знае: „А, след субект идва глагол, след това може би обект и добавете член или предлог, ако е необходимо.“ Но когато се представи с чисто нов език или изцяло нови структури на изреченията, тази способност отслабва, защото е ограничена до разпознаване само на латентните (или имплицитни) връзки, които вече е видяла.
Това, за съжаление, има своите граници. Вземете задача, при която ще трябва да генерира съгласуван текст за неизложена тема, да речем новаторски открития в малко известна тема на физиката като двойствеността на квантовата гравитация . На модела липсва композиционността , необходима за повторно тълкуване на по-стари знания, за да се изведат нови възможности. В нашите човешки мозъци ние винаги имаме представяния на по-високо ниво (концепции, теории, аналогии!), които ни дават гъвкавост. GPT обаче не го прави! Той дава резултати въз основа на прогнозна вероятност , а не на творчески скокове.
Това е подобно на шофиране с карта, която е предварително програмирана само за маршрути от миналия век: не ви помага да навигирате в процес на изграждане или през обрати и завои, появили се през последните шест месеца.
Едно стъпало към разбирането на ограничението е признаването на ролята на плътните срещу редките представяния .
Какво искам да кажа с това?
Традиционните трансформаторни модели работят с плътни векторни вграждания . Всяка лексема в изречение е представена от високомерни вектори и тези вектори улавят широк спектър от връзки между думите – синтактични структури, семантични значения, позиционна динамика и т.н. Но тъй като тези представяния са плътни, те не са достатъчно разделени , за да поддържат абстракция по начин, който води до гъвкаво и адаптивно обобщение.
Плътните вграждания са ограничени от компромис с отклонение по време на обучението на модела. Този компромис е важен: чрез оптимизиране за едно нещо (обща статистическа компетентност), моделът жертва нещо друго (способността да разсъждава в напълно нови ситуации). Представете си, че постоянно приспособявате умствените си модели така, че точно да отговарят на света, който вече сте преживели; компромисът е, че непредсказуемите сценарии ви отхвърлят напълно. Сложните, но твърди статистически модели естествено се борят с малки еднократни случаи, защото превъзхождат в повтарянето на „средния сценарий“ и замръзват пред изключения от научените правила.
Потенциално ключово решение тук са редките представяния - техники за създаване на размери, които разплитат различни характеристики на различни интерпретативни нива. Разредените мрежи изразяват и извличат информация по по-гъвкав и обобщен начин, подобно на начина, по който хората се фокусират върху основните, основни характеристики при прогнозиране на резултатите, вместо да се вманиачават в по-малките детайли.
Така че един проблем с еднократното обобщение е, че съвременните мрежови структури не наблягат на такива задачи за разплитане - те се опират твърде силно на плътни, управлявани от данни модели. Ето защо, когато са помолени да обобщят напълно нов и уникален материал с минимален контекст, те се провалят.
За щастие, не сме напълно без идеи. Изследователите на AI (включително и аз!) започнаха да теоретизират за няколко начина за подобряване на способностите на AI за еднократно обобщение. Някои от най-интригуващите подходи се въртят около архитектурите за метаобучение . Тези архитектури са фундаментално различни от днешните модели, като позволяват способности за учене за учене, при които системата динамично адаптира параметрите си, за да отговаря бързо на нови типове данни - много повече в съответствие с човешкото поведение.
В модел-агностичното мета-обучение (MAML) , например, моделът се настройва, за да научи нови задачи с минимални примери за обучение. Невронните мрежи с подобрена памет (MANNs) работят по подобен начин, като запазват научения контекст в множество случаи, подобно на това как си спомняме важни уроци от миналото и ги използваме интуитивно повторно, когато се натъкваме на по-нови, подобни ситуации.
Интегрирането на способности за символно разсъждение в модели за дълбоко обучение е друг обещаващ подход. Моделите, оборудвани със символични компоненти, могат да „разсъждават“ чрез логика, вместо просто да разчитат на статистически наслагвания. Полета като невро-символичния изкуствен интелект предлагат хибриди на свързващи модели и базирани на правила системи, позволяващи на изкуствения интелект да емулира мислене от по-висок ред, особено в сценарии с абстрактно разсъждение.
И така, какво означава всичко това за бъдещето на AI? Разбира се, GPT-4 се чувства като магия, когато ни осигурява плавно взаимодействие с обслужването на клиенти или отговаря на типични въпроси, но трябва да разработим модели, които не са просто машини за запаметяване. Насочваме се към бъдеще, в което трансферното обучение , метаобучението и невро-символичните архитектури се сливат, за да създадат по-адаптивни обучаеми.
Парадоксът на еднократното обобщение не е апокалиптична задънена улица за ИИ. Това е пречка, която ни кара да преосмислим основните предположения за интелигентността и гъвкавостта. Тъй като данните сами по себе си няма да поправят това — моделите ще се нуждаят от способността да се учат от абстракциите , да създават аналогии и да запомнят основните характеристики , а не само да запомнят.
Нашите бъдещи модели ще трябва да бъдат повече хора, отколкото машини, когато става въпрос за синтез на знания. И като изследователи, разработчици и иноватори на върха, ние все още сме в началото на определянето на това какво означава AI да се учи — сам по себе си — в един наистина гъвкав, нов свят.
Това не е просто техническо предизвикателство. Това е философско.