Парадоксът на еднократното обобщение: Защо генеративният AI се бори с нова информация

Generative AI не е нищо друго освен технологична вихрушка. Модели като GPT-4 завладяха света със сюрреалистичния си капацитет да генерират текст, който имитира човешки разговор, да пишат есета, да кодират и дори да предлагат творчески решения на някои доста сложни задачи. Непрекъснато се приближаваме към бъдеще, подпомогнато от AI, такова, в което нашите дигитални асистенти без усилие ще разбират и отговарят на нашите нужди. Това е достатъчно, за да направи някой вярващ, нали? Е, почти… но не съвсем. Вижте, под блясъка на бляскавия резултат на GPT и неговия граматически финес се крие основно ограничение, което подлудява много от нас, технолозите: Този на пръв поглед прост (но все пак разочароващ) проблем разкрива централна празнина в настоящите AI системи. Въпреки че са в състояние да синтезират впечатляващи пасажи от милиарди точки от данни, когато са натоварени с истинска новост – нещо, което не е виждало преди или на което не са се обучавали – моделите в стил GPT се сблъскват с присъща стена. генеративният AI се бори да обработва напълно нова информация, особено в сценарии за еднократно обучение. Това рисува картина на това, което наричам : колкото и мощни, колкото и „умни“ да изглеждат AI системи като GPT, те се разпадат, когато е необходимо да се генерализират бързо само от една или малка шепа невиждани примери. „Парадокс на еднократно генерализиране“ Нека разопаковаме малко този парадокс и да се потопим в зад него. Но не се притеснявайте, няма да запазим това чисто философски — ще се спуснем в техническата кал и ще проучим какво точно спира нашите AIs от текущото поколение да съпоставят тази магическа гъвкавост, която хората имат, когато се изправят срещу непознатото. причините Магията и механизмът на генеративните модели… докато не се разпаднат Основният блясък на модели като GPT-4 се основава на усъвършенствана , която е известна с това, че захранва всичко - от езикови модели до визуални задачи. Сега, не искам да ви затлачвам с жаргон в началото на тази част (тепърва започваме), но някои технологични слоеве трябва да бъдат разопаковани, за да разберете къде и защо започват да се показват пукнатините. архитектура на Transformer Като за начало, GPT принадлежи към семейство , обучени да предсказват следващата дума или токен във всяка дадена част от текста. Как стават толкова добри в това? До голяма степен това се дължи на вграден в , който позволява на тези модели да пресяват огромни количества текст и по същество да се „фокусират“ върху важните части на изречението, като същевременно разглеждат думите в цялата последователност. Този механизъм за глобално внимание бързо се превърна в гръбнака за улавяне на чувствително към контекста значение в големи части от текста. модели, базирани на последователност механизма за самонасочване, Transformer Но тук е същината на парадокса: Generative AI разчита на тези данни за обучение. Той е изключителен в разпознаването на модели и статистически връзки между токените в данните, които е виждал преди, но също така е присъщо зависим от тези данни. Когато моделът беше пуснат, GPT-4 не се беше научил да разсъждава или да развие разбиране за света. По-скоро използва асоциации, които е събрал в милиарди текстови примери, намерени онлайн (в книги, Wikipedia, теми в Reddit, академични статии… каквото и да е). до голяма степен всъщност И така, докато GPT може да изглежда като всевиждащ оракул, генериращ последователни и понякога проницателни текстове, това, което прави, е да играе впечатляваща игра на вероятностно съпоставяне на шаблони. смисъл? Когато се появи нещо ново (като чисто нова научна статия за квантовата механика или някакъв специфичен за индустрията жаргон), трудно се намира смислен смисъл в него. всъщност Това... не се изчислява. Чакай. Но защо не може да обобщава като хората? Ето къде хората се различават значително от машините. Представете си, че за първи път четете за концепция, която напълно надхвърля вашия опит. Може би сте основател на технологичен стартъп, навигиращ в света на машинното инженерство. Разбира се, може да не свържете всички точки при първото четене - но след като погледнете шепа примери или диаграми, някои интуитивни мигания на електрическа крушка ще изгаснат. И тогава, ето, вие го получавате (или поне по-голямата част от него). Аха, това е система за контрол! Това се свързва с това! Този нюанс се нарича - способността бързо да се улавят модели или да се разбере напълно нова информация въз основа на минимални примери. И това е нещо, в което хората са изключително добри. Ние вземаме малка част от знанието и интуитивно го картографираме към по-широки теми, структури или аналогии, които вече познаваме. С други думи, не се нуждаем от милион примери или огромен корпус от минали данни, за да имаме богоявление. еднократно обобщение В пълен контраст, генеративните модели изобщо за света. Те се разхождат на случаен принцип в статистическото пространство и правят прогнози въз основа на това кои думи или структури е най-вероятно да се появят едновременно. Така че, когато бъдат помолени да се справят с нещо напълно ново - изцяло нов научен термин, чисто нова теория, никога не публикувана онлайн - те се сблъскват с главата напред в стената. Просто казано, и им липсват истински концептуални рамки, за да направят скокове над непозната територия. нямат вродено разбиране те не са се сблъсквали с това преди Добре, това е доста абстрактно. Нека разбия това по-нататък. Генеративните AI модели се учат чрез между съществуващи точки от данни. Което означава, че те стават експерти в между точките, които вече са видели, и моделите, с които са запознати, но се борят с , т.е. изскачането и правенето на прогнози въз основа на нова концепция, когато данните за обучението нямат прецедент. Например, GPT-4 може да се справи чудесно с "обикновени" езикови конструкции в ежедневния език, защото има милиони налични примери. Но добавете заявка за нововъзникващи, хиперспециализирани идеи - да речем, спецификата на последните постижения в във физиката - и бум: абсолютни безсмислици. защо GPT няма никаква статистическа референтна точка за такива ниши, нови термини. По същество има обосновани предположения, които, макар и правдоподобни по отношение на плавността, жертват за . интерполиране попълването на празнините екстраполацията солитонните влакнести лазери истинската съгласуваност синтактичната коректност Техническата същност на проблема Добре, ако сте малко по-технически настроени, нека се потопим по-дълбоко в това защо това ограничение е толкова упорито и какво се случва под капака по време на еднократни опити за обучение. Един централен проблем с еднократното обобщение е относно информацията, която моделът представя вътрешно по време на своето . Моделите в стил GPT се държат доста добре, когато работят в граници – феномен, често описван като . В границите на темите, за които е видял достатъчно обширни примери за обучение, дори GPT-4 може да изведе зловещо проницателни резултати. Това е така, защото структурата на модела му позволява да - под формата на - които улавят асоциациите между думи и понятия. самоконтролирано обучение обучение в разпространението кодира информация чрез плътни векторни представяния контекстуализирани вграждания Но тук нещата се разплитат. Когато моделът е натоварен със ситуация, която изисква обобщение извън разпространението, което означава среща с концепция, върху която никога не е бил обучаван преди, системата не прави изводи за нещата по начина, по който хората го правят. Помислете за това по следния начин: тези модели по своята същност са , разчитащи на статистически „чувства“. Те нямат вградена способност да създават или разсъждават „над данните“. машини с шаблони Например, помислете как GPT научава граматическите правила. Това е като някой да седне да запомни хиляди начини, по които думите се използват в английски изречения. След достатъчно наблюдение системата изгражда вътрешна карта, която знае: „А, след субект идва глагол, след това може би обект и добавете член или предлог, ако е необходимо.“ Но когато се представи с чисто нов език или изцяло нови структури на изреченията, тази способност отслабва, защото е ограничена до разпознаване само на (или имплицитни) връзки, които вече е видяла. латентните Това, за съжаление, има своите граници. Вземете задача, при която ще трябва да генерира съгласуван текст за неизложена тема, да речем новаторски открития в малко известна тема на физиката като . На модела липсва , необходима за повторно тълкуване на по-стари знания, за да се изведат нови възможности. В нашите човешки мозъци ние винаги имаме представяния на по-високо ниво (концепции, теории, аналогии!), които ни дават гъвкавост. GPT обаче не го прави! Той дава резултати въз основа на , а не на творчески скокове. двойствеността на квантовата гравитация композиционността прогнозна вероятност Това е подобно на шофиране с карта, която е предварително програмирана само за маршрути от миналия век: не ви помага да навигирате в процес на изграждане или през обрати и завои, появили се през последните шест месеца. Първи технически - защо това се случва под капака Едно стъпало към разбирането на ограничението е признаването на ролята на . плътните срещу редките представяния Какво искам да кажа с това? Традиционните трансформаторни модели работят с . Всяка лексема в изречение е представена от високомерни вектори и тези вектори улавят широк спектър от връзки между думите – синтактични структури, семантични значения, позиционна динамика и т.н. Но тъй като тези представяния са плътни, те , за да поддържат абстракция по начин, който води до гъвкаво и адаптивно обобщение. плътни векторни вграждания не са достатъчно разделени Плътните вграждания са ограничени от по време на обучението на модела. Този компромис е важен: чрез оптимизиране за едно нещо (обща статистическа компетентност), моделът жертва нещо друго (способността да разсъждава в напълно нови ситуации). Представете си, че постоянно приспособявате умствените си модели така, че да отговарят на света, който вече сте преживели; компромисът е, че непредсказуемите сценарии ви отхвърлят напълно. естествено се борят с малки еднократни случаи, защото превъзхождат в повтарянето на „средния сценарий“ и замръзват пред изключения от научените правила. компромис с отклонение точно Сложните, но твърди статистически модели Потенциално ключово решение тук са - техники за създаване на размери, които на различни интерпретативни нива. Разредените мрежи изразяват и извличат информация по по-гъвкав и обобщен начин, подобно на начина, по който хората се фокусират върху основните, основни характеристики при прогнозиране на резултатите, вместо да се вманиачават в по-малките детайли. редките представяния разплитат различни характеристики Така че един проблем с еднократното обобщение е, че съвременните мрежови структури не наблягат на такива задачи за разплитане - те се опират твърде силно на плътни, управлявани от данни модели. Ето защо, когато са помолени да обобщят напълно нов и уникален материал с минимален контекст, те се провалят. Какво може да реши това? За щастие, не сме напълно без идеи. Изследователите на AI (включително и аз!) започнаха да теоретизират за няколко начина за подобряване на способностите на AI за еднократно обобщение. Някои от най-интригуващите подходи се въртят около архитектурите . Тези архитектури са фундаментално различни от днешните модели, като позволяват способности за учене за учене, при които системата динамично адаптира параметрите си, за да отговаря бързо на нови типове данни - много повече в съответствие с човешкото поведение. за метаобучение В , например, моделът се настройва, за да научи нови задачи с минимални примери за обучение. работят по подобен начин, като в множество случаи, подобно на това как си спомняме важни уроци от миналото и ги използваме интуитивно повторно, когато се натъкваме на по-нови, подобни ситуации. модел-агностичното мета-обучение (MAML) Невронните мрежи с подобрена памет (MANNs) запазват научения контекст Интегрирането на в модели за дълбоко обучение е друг обещаващ подход. Моделите, оборудвани със символични компоненти, могат да „разсъждават“ чрез логика, вместо просто да разчитат на статистически наслагвания. Полета като предлагат хибриди на свързващи модели и базирани на правила системи, позволяващи на изкуствения интелект да емулира мислене от по-висок ред, особено в сценарии с абстрактно разсъждение. способности за символно разсъждение невро-символичния изкуствен интелект Пътят напред? И така, какво означава всичко това за бъдещето на AI? Разбира се, GPT-4 се чувства като магия, когато ни осигурява плавно взаимодействие с обслужването на клиенти или отговаря на типични въпроси, но трябва да разработим модели, които не са просто машини за запаметяване. Насочваме се към бъдеще, в което , и се сливат, за да създадат по-адаптивни обучаеми. трансферното обучение метаобучението невро-символичните архитектури Парадоксът на еднократното обобщение не е апокалиптична задънена улица за ИИ. Това е пречка, която ни кара да преосмислим основните предположения за интелигентността и гъвкавостта. Тъй като данните сами по себе си няма да поправят това — моделите ще се нуждаят от способността да , и , а не само да запомнят. се учат от абстракциите да създават аналогии да запомнят основните характеристики Нашите бъдещи модели ще трябва да бъдат повече хора, отколкото машини, когато става въпрос за синтез на знания. И като изследователи, разработчици и иноватори на върха, ние все още сме в началото на определянето на това какво означава AI да се учи — сам по себе си — в един наистина гъвкав, нов свят. Това не е просто техническо предизвикателство. Това е философско.