Got Tech, Data, AI and Media, and he's not afraid to use them.
The best podcasts on the Internet archived and shared on HackerNoon.
Between Two Computer Monitors: This story includes an interview between the writer and guest/interviewee.
The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.
Организациите са изправени пред критично предизвикателство пред приемането на AI: как да използват своите специфични за домейн познания, за да използват AI по начин, който осигурява надеждни резултати. Графиките на знанието осигуряват липсващия „слой на истината“ за AI, който трансформира вероятностните резултати в ускоряване на бизнеса в реалния свят.
• 🚀 Възприемането на AI се ускорява, но повечето внедрявания не успяват да осигурят очакваната бизнес стойност
• 🔍 Графиките на знанието осигуряват основния „слой на истината“ за надеждни AI системи
• 🔄 Прагматичният AI съчетава творческия потенциал на LLM с възможностите за проверка на графиките на знанието
„Контекстът е това, което дава смисъл на почти всичко. Така че до тази степен всички графики имат присъщия потенциал да донесат повече знания или значение, защото вече са направили първата стъпка към признаването на взаимосвързаността и контекстуалния характер на информацията”.
Живеем в свят, доминиран от AI и големи езикови модели (LLM) и се оказва, че контекстът и значението са от съществено значение за получаването на качествени резултати от тях. Графиките на знания може да държат ключа към предоставянето на контекст и значение за отключване на потенциала на ИИ и доказателствата в подкрепа на това се увеличават.
По повод пускането на последния Gartner Hype Cycle за изкуствен интелект , вицепрезидент по изследванията, AI в Gartner Светлана Сикулар отбеляза , че инвестициите в AI са достигнали нов връх, с фокус върху генеративния AI. И все пак в повечето случаи това все още не е осигурило очакваната бизнес стойност.
Графиките на знанието са в основата на технологиите Critical Enabler в списъка на Gartner с нововъзникващи технологии , които лидерите да обмислят като част от своята стратегия. Gartner препоръчва графите на знанието като критични при изграждането и усъвършенстването на GenAI модели. Организации като Amazon и Samsung използват графики на знанието и се очаква пазарът да нарасне до 6,93 милиарда долара до 2030 г. при CAGR от 36,6% .
През последните няколко години Gartner се застъпва за ролята на графите на знанието в AI днес и ефектите надолу по веригата в организациите, които се развиват, тъй като нито технологията, нито визията са нови. Технологията на графите на знанието съществува от десетилетия и хора като Тони Сийл бяха рано да идентифицират нейния потенциал като слой на истината за ИИ.
Сийл, известен още като „The Knowledge Graph Guy“, е основател на едноименната консултантска фирма. Горният цитат е взет от обширен разговор, обхващащ всичко от първите принципи на графа на знанието до модели на приложение за безопасен, проверим AI, опит в реалния свят, тенденции, прогнози и пътят напред.
🧠 Графики на знания и AI контекст
• Въпреки значителните инвестиции в AI, повечето организации все още не са постигнали очакваната бизнес стойност
• Контекстът и значението са от съществено значение за качествените резултати от ИИ
• Графиките на знанието осигуряват ключовия контекстен слой за системите с изкуствен интелект
• Графиките на знанието са критични фактори за конкурентна GenAI стратегия
Seale има десетилетия опит в работата с данни във финансови институции от ниво 1. Преди около десет години той работеше върху „още един ETL проект“ за голяма инвестиционна банка, внасяйки данни в хранилище за данни и внедрявайки канали за данни. Това е типичен подход за обслужване на нуждите от организационно отчитане и съответствие. Проблемът е, че не се мащабира или не помага за добавяне на контекст и значение .
Тогава Сийл се натъкна на TED лекцията на Тим Бърнърс Лий от 2010 г. за свързаните данни и това промени всичко. През 2010 г. Google тъкмо навлизаше в Графиките на знанието и терминът все още не беше изплувал . Но технологията беше там, под псевдонима Свързани данни. TED речта на TBL беше достатъчна, за да накара Сийл да разбере двата ключови принципа на свързаните данни и да започне да експериментира с това като алтернатива на ETL.
Основната идея на Linked Data е да се приложи общата архитектура на World Wide Web към задачата за споделяне на структурирани данни в глобален мащаб. Всичко се свежда до използването на HTTP идентификатори за данни, така че те да могат да бъдат търсени, и предоставяне на информация за тяхното значение (семантика) с помощта на стандарти.
Това, което Seale разбра, беше, че ако децентрализираният характер на този подход може да работи за мрежата, той може да работи за всяка организация. Вместо да имат една централна точка на интеграция и контрол, което е де факто подходът на ETL проектите и хранилищата за данни, графите на знанието позволяват мащаб чрез децентрализация и стандарти.
Това са същите принципи, които карат мрежата да работи. Не е чудно, че изобретателят на мрежата е искал да я пренесе на следващото ниво, за да премине от мрежа от документи към мрежа от данни. Освен достъпа до данни обаче, този подход добавя семантика към микса. Точките с данни, както и връзките между тях могат да имат специфично значение и типове, прикачени към тях.
Най-добрият пример за семантика в действие в уеб мащаб е schema.org . Schema.org е съвместно усилие за дефиниране на стандартен речник, който се използва от 30% от всички уебсайтове и 72,6% от страниците на първата страница на Google . Освен дефинирането на семантиката с помощта на стандарти, schema.org прави анотацията и интеграцията мащабируеми чрез децентрализация .
🌐 Основи за свързани данни
• Linked Data прилага принципите на уеб архитектурата за структурирано споделяне на данни
• Използва HTTP идентификатори, така че данните да могат да се търсят систематично
• Предоставя информация за значение (семантика) с помощта на стандарти
• Позволява организационен мащаб чрез децентрализация
• Schema.org е пример за семантични стандарти в уеб мащаб
Schema.org е това, което позволява на Googles по света да изграждат своите графики на знания и да осмислят повече мрежата . Това е същият подход, с който Сийл за първи път започна да си играе като скрит проект в инвестиционната банка, за която работеше по това време, очаквайки да се провали. Не стана.
Окуражен от първоначалния успех, Сийл стана страстен защитник на графиките на знанието и инициира редица свързани проекти. Той премества организации в преследване на страстта си и разглежда графичните невронни мрежи като начин за стартиране на семантиката и анотацията, необходими за изграждане на графи на знания, когато бяха пуснати първите GPT големи езикови модели.
Сийл започва да експериментира с LLMs и скоро се убеждава в две неща. Първо, LLMs ще имат огромно въздействие. Второ, че магистърските програми са идеално съвпадение за графики на знания. Той започна да споделя идеите си в LinkedIn и да стане вирусен. В крайна сметка той създаде своя собствена консултантска фирма и сега работи по прилагането им с редица клиенти.
„Всички организации ще трябва да приемат реалността, че се движим към един по-вероятностен свят. Така че всеки трябва да започне да използва AI или вероятно ще излезете от бизнеса. Преминаваме към този нов свят, където нещата ще бъдат вероятностни и AI ще бъде вграден в голяма част от вземането на решения.
Може да не ви харесва или да имате каквото и да е мнение, но това не го интересува. Това е някаква природна сила, която се случва, така че можете просто да свикнете с нея. Тогава наистина възниква въпросът, добре, как да направите това по безопасен начин. И според мен това става чрез външна проверка“, каза Сийл.
Това е същината на подхода, който той защитава. Той включва модели с фантастични имена, като графика на работната памет и нервно-символна верига, и примери, вариращи от DeepSeek до проекта Cyc. Но преди да се потопим в тях, струва си да спрем за момент, за да се залегнем в първите принципи.
🤖 Интегриране на AI и Граф на знанието
• LLM и графиките на знания се допълват
• Придвижваме се към вероятностен свят, в който AI ще бъде вграден във вземането на решения
• Външна проверка чрез графи на знания създава по-безопасен AI
• Организациите трябва да се адаптират към тази промяна
И така, какво прави графиките различни от другите структури от данни и какво прави графите на знанието различни от другите графики? Можем да подходим към това на ниво изпълнение или на ниво първи принципи.
Независимо дали говорим за електронна таблица срещу мисловна карта, редове и колони на релационна база данни срещу възли и ръбове на база данни с графики, или теория на множествата срещу теория на графите, има едно нещо, което отличава графиките: връзките като първокласни граждани. Но не всички графики се квалифицират като графики на знанието .
Както възлите, така и ръбовете в една графика могат да бъдат от различни типове. Една проста графика може да включва възли, представляващи продукти, и ръбове, представляващи общ тип връзка между тях. Една двустранна графика може да има два различни типа възли, представляващи продукти и клиенти, и ръбове, представящи кой клиент какъв продукт е купил.
Една хетерогенна графика може да има всякакви различни видове възли и ръбове. Например възли, представляващи продукти и клиенти, и ръбове, представящи кой клиент какъв продукт е купил и какъв продукт е прегледан от кой клиент.
Има полезност в графиките дори на най-простото възможно ниво. Графични алгоритми като намиране на пътека и централизиране могат да бъдат изключително полезни за приложения и анализи и не изискват разнородни графики.
Използването на URI като идентификатори и наличието на споделен речник и съгласувана схема са определящите характеристики на графите на знания
„След като започнете да казвате, добре, всъщност, не, някои от тези възли са различни неща и ръбовете между тях, те са специални различни видове ръбове, които означават нещо, тогава сложността нараства. Характерът на алгоритмите, които можете да изпълнявате, включително алгоритмите за машинно обучение, се променя. Мисля, че можем да наречем това входно ниво за това какво е графика на знанието“, отбеляза Сийл.
Обърнете внимание на частта „начално ниво“. Тук има дълга и сложна история, която датира от началото на 2000 г. и семантичния уеб . Именно върху тези идеи, стандарти и технически пакет се основават принципите на свързаните данни. „Семантичният уеб“ изчезна, докато „Графиката на знанието“ се утвърди.
Семантичната мрежа може би е изпреварила времето си. Много усилия за прилагане бяха погрешни и неговите поддръжници не винаги са били прагматични. Въпреки това, както отбеляза Сийл, невронните мрежи също се смятаха за провал дълго време. Използването на URI като идентификатори и наличието на споделен речник и съгласувана схема остават отличителните белези на графите на знания и стойността, която могат да донесат.
📊 Основи на графиките
• Графиките се различават от другите структури от данни, като третират връзките като граждани от първа класа
• Не всички графики се квалифицират като графики на знанието
• Графиките на знания добавят семантично значение към възлите и ръбовете
• URI като идентификатори и споделени речници са определящи характеристики на графите на знания
Структурата и семантиката, която носят графите на знанието, позволяват неща, които просто не са възможни с други типове данни или дори други графики. Сийл вярва, че всяка организация трябва да работи върху своя собствена версия на schema.org и да я използва за анотиране на своите данни, изграждане на графики на знания, за да захранва своя AI.
Seale използва DeepSeek като пример, за да обясни подхода на верификатора. Като всички останали, Сийл беше обсебен от DeepSeek и се опитваше да разбере какво точно правят. Като оставим настрана умните алгоритми и оптимизации, в основата на успеха на DeepSeek е фактът, че са използвали проверими данни за подсилващо обучение: математика и код .
„Те взеха всички уеб данни, както правят всички. Но след това те извадиха само частите, свързани с математиката и кодирането. С това можете да създадете външен верификатор.
Можете да погледнете математиката или кода, след това можете да погледнете отговора в края и можете да проверите дали отговорът наистина е правилен. След това можете да подадете това на LLM и да помолите LLM да направи това и след това да проверите с външния официален верификатор. Това, което прави, е, че добавя контрол на качеството към вероятностния модел“, обясни Сийл.
Подходите за непрекъснато и дискретно представяне на знания имат различни предимства и ограничения
След това Сийл разработи това, което той нарича непрекъснат свят и дискретен свят . В непрекъснатия свят всичко е вероятностно, всичко е размито и това е мястото, където са тези генеративни AI модели. Едно нещо се смесва с друго и получавате халюцинации. Но обратната страна на това, според Сийл, е, че има нещо като креативност.
В старомодния свят на ИИ има легендата за проекта Cyc . Cyc е изключително амбициозен AI проект, целящ да кодира общото знание за света по формален начин. Seale има голямо уважение към Cyc. Въпреки това, отбеляза той, Cyc не успя и не можеше да успее, докато генеративните AI модели го правят - по свой собствен начин. Но те идват със собствен набор от недостатъци.
На генериращите AI модели не може да се вярва и това ги прави неподходящи за корпоративно приемане в области като финанси, право или медицина. За домейни като математика или код е възможно официално да проверите резултатите. Ами ако имаше начин това да се направи и в други домейни? Сийл смята, че има и ключовете са графи на знания и онтология.
🌓 Непрекъснатият срещу дискретен свят
• Непрекъснат свят: вероятностен, размит, креативен, но склонен към халюцинации (LLM)
• Дискретен свят: логичен, формален, проверим, но ограничен (традиционен AI)
• За математика или код, резултатите могат да бъдат официално проверени
• Графиките на знанието и онтологиите могат да предоставят проверка за други домейни
Споменахме schema.org, както и общото понятие за схема. Схемите обикновено се свързват с релационни бази данни , където те определят структурата и организацията на данните. Графиките също могат да имат схеми. Схемите за графи на знания се наричат онтологии, въпреки че думата „схема“ всъщност не отговаря на онтологиите .
Онтологиите надхвърлят схемите, като позволяват моделиране на конструкции като йерархии на наследяване или логически аксиоми. Те могат да уловят не само структурата и организацията на данните, но и неща като бизнес правила и знания за домейна.
„Името на играта е да се доближите възможно най-близо до семантиката на бизнеса. Опитвате се да вземете думите, които бизнесмените използват в рамките на дадена организация, и да ги превърнете в тези формални понятия, за да разберете наистина какво представляват, и след това да свържете понятията заедно по начин, по който те се свързват помежду си със специфични видове ръбове“, обясни Сийл.
Интересът към графите на знанието и онтологията е на върха
Изграждането на онтология не е лесно. Изисква се достъп до знания в областта, които обикновено са разпръснати, частично документирани и разбрани и се оспорват сред експертите. Той също така изисква опит в онтологичното моделиране и правилните инструменти.
Ето защо, въпреки че онтологичното моделиране съществува от десетилетия , то никога не е получило масово възприемане. Сийл обаче смята, че това се променя и може да има някои косвени доказателства в подкрепа на това.
В Google Trends „Графиката на знанието“ е отбелязала увеличение от 3,450% през последните 5 години. В специалното хранилище на Годината на графиката препратките към онтологията от 2022 г. са се увеличили повече от два пъти както по отношение на количеството, така и по отношение на разнообразието от източници. Плюс това, собствената история на успеха на Сийл се превръща в пример за виралност на графиката на знанието.
📚 Нарастващото значение на онтологията
• Онтологиите надхвърлят схемите, като създават формални концепции от бизнес терминологията
• Цел: Точно улавяне на бизнес семантиката и взаимоотношенията
• Изисква познания в областта и опит в онтологичното моделиране
• Google Trends показва, че „Графиката на знанието“ е нараснала с 3450% за 5 години
Съществува двупосочна връзка, която графите на знанието и онтологиите могат да имат с LLM. LLM могат да подпомогнат развитието на онтологията и популацията на графите на знанието. Seale съобщи, че има добър опит с използването на LLM за това, но вашият пробег тук може да варира. Във всеки случай подобни инструменти са предназначени да подпомагат експертите, а не да автоматизират напълно задачата.
Там, където става наистина интересно обаче, е обратното: онтологии и графи на знания, действащи като верификатор, по същество слой на истината, за LLM. Сийл нарича това модел Графика на работната памет за LLMs .
В графиката на работната памет онтологията дестилира знания за домейн и графата на знания служи като база данни, специфична – и лична – за организацията. LLM действат като посредници и добавят изследователска и креативна част, като също така предоставят достъп до неструктурирано знание. Това може да бъде общо знание, дестилирано в LLM, или знание, специфично за домейн чрез RAG .
В модела Neural-Symbolic Loop, LLMs и Knowledge Graphs се допълват взаимно
Графиката на работната памет е част от по-голям модел, който Seale нарича Neural-Symbolic Loop . В този случай графиката на работната памет действа като верификатор за домейни, където е необходима проверка. Идеята е да се направи възможно за всеки домейн това, което е възможно за математика или код: да се провери коректността на резултатите, генерирани от LLM.
Ясно е, че това е много по-трудно да се постигне в области извън математиката или кода. Усилията и опитът, необходими за изграждане на онтологии и графи на знания, остават значителни и резултатите може да не са толкова ясни. Но това може да бъде направено и Сийл е убеден, че това е най-добрият начин за слой истина за AI.
🔄 Подходът на невронната символична верига
• Започнете със знания за домейна, специфични за вашата организация
• Разработване на онтология за формализиране на това знание
• Изградете графика на знанието като частна база данни на вашата организация
• Използвайте LLM като посредници за изследване и творчество
• Приложете графиката на работната памет като слой за проверка
• Създайте непрекъснат цикъл на проверка и подобряване
„ИИ е изстрелян като ракета. Няма почти нищо, което някой може да направи, за да спре това. Това все пак се случва. Така че във всяка организация вие ще бъдете в ситуация, в която ще можете да импортирате тази обща интелигентност. В момента е умно, може би не супер умно, но ще стигне дотам през следващите 5 до 10 години.
Имате този кратък прозорец. Това, което трябва да направите, е да вземете AI в контекста на нашата организация и да се концентрирате върху дъното на айсберга на AI, което са данните. Така че трябва да вземете силата, която имате в моделите, които имате в ръцете си в момента, и да я съсредоточите обратно върху данните, които имате там.
Трябва да почистите и консолидирате данните, така че да са в състояние да бъдат ефективен външен верификатор. Трябва да сте наясно каква информация струва $0,001 и каква информация имате само вие и каква е стойността, която добавяте. Трябва да го направиш сега, защото това е единствената игра в града, доколкото виждам“, каза Сийл.
Seale също така сподели число за прогнози за 2025 г .: свиването на данни, графите на знанието като основа за тъканта на данни, GraphRAG чрез онтологии и сближаването на формалното разсъждение чрез разсъждаващи LLMs. За задълбочен разговор по тези въпроси вижте епизода на подкаста. Като цяло Сийл смята, че изкуственият интелект е масово преувеличен в краткосрочен план, но в дългосрочен план е силно недостатъчен.
Seale работи върху прилагането на графи на знания и онтологии към организации, които са готови за това. Но това си има цена и не може да достигне до всички. Освен това никоя консултантска фирма никога няма да може да извърши цялото образование или основната работа с данните, която е необходима за вас.
Подходът на прагматичния изкуствен интелект преодолява тази празнина чрез обучение относно основните принципи на данните, управлението, управлението, моделирането и науката за данните. След това уникалното за организациите знание за домейна може да се използва за изграждане на AI системи на базата на надеждни, проверени данни.
Теоретични и практически упражнения. Ол инклузив отдих. Кохорта с ограничени места.
Щракнете тук, за да се регистрирате за Pragmatic AI Training
Курсът Pragmatic AI предоставя на ръководители, мениджъри, предприемачи, консултанти и творци с основните знания и практически опит, необходими за изграждане на AI системи, които осигуряват реална бизнес стойност. Започнете с основите и вземете преднина в създаването на слой на истината за вашата организация и спечелете конкурентно предимство в ерата на AI.