Vai tradicionālās datu noliktavas tiek atņemtas no Agentic AI?

No tehniskās arhitektūras perspektīvas es uzskatu, ka šis AI vilnis dziļi pārveidos visu programmatūras ekosistēmu. DSS sistēmas ir izstrādātas ap cilvēka lēmumu pieņemšanas loģiku kā galīgo patērētāju. Tomēr, ar Agentic AI laikmeta parādīšanos, galīgais "patērētājs" ir visticamāk būs aģents. Tas novedīs pie tradicionālo datu noliktavu un sarežģītu ETL cauruļvadu pilnīgas pārveidošanas - vai pat likvidēšanas. Konvencionālie datu noliktavi uzsver struktūras un vaicājumu modeļus, bet tos aizstās Agentic Data Stack arhitektūras, kas koncentrējas uz semantiku un atbildes modeļiem. Abstract: Ievads: Signāls aiz Snowflake izpilddirektora maiņas 2024. gada pavasarī Snowflake, zvaigzne mākoņa datu noliktavas telpā, paziņoja par pārmaiņām vadībā: Sridhar Ramaswamy, bijušais Google reklāmas uzņēmuma vadītājs, aizstāja leģendāro CEO Frank Slootman, kurš bija palīdzējis Snowflake sasniegt 60 miljardu dolāru vērtējumu. Ja jūs domājat, ka tas ir tikai rutīnas izpilddirektora shuffle, jūs neredzat pilnu attēlu. No OLTP datu bāzēm līdz MPP datu noliktavām, no lokalizētiem MPP datoriem līdz vektorizētiem mākoņu datu dzinējiem, katrs posms ir lēciens uz nākamās paaudzes tehnoloģiju un no viena dominējošā produkta uz nākamo. No OLTP datu bāzēm līdz MPP datu noliktavām, no lokalizētiem MPP datoriem līdz vektorizētiem mākoņu datu dzinējiem, katrs posms ir lēciens uz nākamās paaudzes tehnoloģiju un no viena dominējošā produkta uz nākamo. Slootman pārstāvēja "datu uzglabāšanas zelta laikmetu." Viņš likmēja uz mākoņdatotajiem, vairāku īrnieku arhitektūrām un novietoja Snowflake kā nākamās paaudzes datu platformas centrālo centru. Tieši tad, kad viņš atkāpās, atslēgvārdi Snowflake oficiālajā blogā smalki pārcēlās uz: AI-first, aģentu virzīta un semantiski orientēta datu arhitektūra. Tas nav nejaušība, tas ir laika zīme. Tas nav nejaušība, tas ir laika zīme. Tajā pašā laikā Silīcijas ielejas visvairāk nākotnes domājošie VC spēlē par jaunu koncepciju: “Agentiskā AI.” Tātad šeit ir jautājums: Kad AI vairs nav tikai tērzēšanas rīks, bet gudrs aģents, kas spēj uztvert uzņēmējdarbības izmaiņas, izprast nodomus un veikt darbības, vai tradicionālie datu noliktavas, kas paredzēti cilvēkiem, joprojām var apmierināt aģentu vajadzības? Kad AI vairs nav tikai tērzēšanas rīks, bet gudrs aģents, kas spēj uztvert uzņēmējdarbības izmaiņas, izprast nodomus un veikt darbības, vai tradicionālie datu noliktavas, kas paredzēti cilvēkiem, joprojām var apmierināt aģentu vajadzības? Datu noliktavas, kas kādreiz tika uzskatītas par svarīgiem uzņēmuma “datu aktīviem”, tagad ir pakļautas riskam kļūt par vienkāršām “datu materiālu bibliotēkām” aģentiem. Patiesībā pat termins “materiāls” zaudē vērtību, jo Agentic Data Stack var tieši piekļūt neapstrādātiem datiem un piegādāt tos augšējā slāņa pārdošanas aģentiem, riska aģentiem un citiem semantiskā + datu formātā. Patiesais briesmas nav tikai tiek novērsta – tas ir tas, ka jūs joprojām darbojas pēc vecajiem noteikumiem, kamēr pasaule jau ir pagriezusi skriptu. Patiesais briesmas nav tikai tiek novērsta – tas ir tas, ka jūs joprojām darbojas pēc vecajiem noteikumiem, kamēr pasaule jau ir pagriezusi skriptu. Tāpat kā Hadoop un Iceberg reiz pārveidoja datu ezera ainavu, Agentic AI tagad pārraksta uzņēmuma lielo datu arhitektūru. 1970–2024: Datu noliktavu arhitektūras attīstība 1970: Datu uzglabāšanas tēvs - Bill Inmon Bill Inmon, "Datu uzglabāšanas tēvs", bija pirmais, kurš ierosināja koncepciju par EDW (Enterprise Data Warehouse) kā "tēmas orientētu, integrētu, laika variantu un nestabilu datu vākšanu", kas nākamajā pusgadsimtā nodod pamatus uzņēmumu datu arhitektūrai. Man bija paveicies studēt un piedalīties pirmā izdevuma tulkošanā. Vairāk nekā pirms 20 gadiem, kad biju Pekinas Universitātē profesora Tang Shiwei vadībā, šīs grāmatas apraksti par tematiskajām jomām, datu slāņošanas arhitektūru un lēnām mainīgajām dimensijām (vēsturiski saistītās tabulas) ir izturējuši no pagājušā gadsimta līdz mūsdienām, kļūstot par datu uzglabāšanas pamatkoncepcijām. Datu noliktavas izveide 1983: Teradata ir dzimis - MPP arhitektūra uzstājas 1983. gadā tika dibināta Teradata — uzņēmums, kas nākamajos 30 gados dominēja uzņēmuma datu noliktavas infrastruktūrā. Tas bija arī mans pirmais darbs pēc absolvēšanas. Teradata bija pirmais, kas ieviesa MPP (Massively Parallel Processing) arhitektūru datu sistēmās. Ar savu cieši integrēto programmatūru un aparatūru un Bynet balstītu MPP dizainu, Teradata ievērojami pārsniedza Oracle un DB2 masveida datu apstrādē un sarežģītos SQL vaicājumos. Pirmo reizi, kad es izmantoju Teradata, es biju tikpat pārsteigts, kā tad, kad es vēlāk izmēģināju ClickHouse plaša galda vaicājumiem. Kad es pievienojos Teradata, tas joprojām bija departaments saskaņā ar NCR, un mana vizītkarte izskatījās šādi. . Atvadīšanās no manas datu uzglabāšanas mātes - Teradata oficiāli izstājas no Ķīnas 1996: Kimball ierosina “Snowflake shēmu”; parādās OLAP dzinēji Pēc Bill Inmon, Ralph Kimball iepazīstināja ar jēdzienu “data mart” un pārdefinēja datu modelēšanu ar zvaigžņu shēmu un sniega flīžu shēmu. BI slānī sāka parādīties tādi MOLAP dzinēji kā Hyperion Essbase un Cognos. Desmitiem gadu vēlāk jauna paaudze datu noliktavu uzņēmumu pat pieņēma “Snowflake” kā savu zīmola nosaukumu, iedvesmojoties no sniega flakona shēmas. 2013: Big Data Boom — Hadoop ņem pasauli pēc vētras Ar Apache Hadoop izlaišanu 2006. gadā uzņēmumi sāka plaši pieņemt lielas datu sistēmas ar zemām uzglabāšanas izmaksām. Viktor Mayer-Schönberger definēja lielos datus ar “4Vs”: , , un . Big Data: revolūcija, kas mainīs to, kā mēs dzīvojam, strādājam un domājam Volume Velocity Variety Value Tas iezīmēja milzīgas lielo datu platformu būvniecības viļņa sākumu. Nākamajos 10 gados parādījās jauna lielo datu tehnoloģiju paaudze – Apache Hadoop, Hive, Spark, Kafka, DolphinScheduler, SeaTunnel, Iceberg un vairāk. Lielo datu platformas sāka satricināt tradicionālo datu noliktavu dominējošo līmeni. Patiesībā pēc 2015. gada lielākā daļa ķīniešu uzņēmumu, kas nodarbojas ar petabaitu mēroga datu glabāšanu, vairs neizmanto tradicionālās MPP datu noliktavu arhitektūras. 2015: Snowflake Bursts uz skatuves, jauns datu kaudze pieaug Ar mākoņa pieaugumu un Marcina Zukovska darba izlaišanu par “vektorizētiem” dzinējiem, Snowflake parādījās ar mākoņdatošanas arhitektūru, kas atdala aprēķinus un uzglabāšanu, pilnībā izjaucot tradicionālo datu noliktavu domāšanu. Snowflake pārvērta “datu noliktavu” par “datu mākoņu”. Tas noveda pie pilnīgi jaunas paaudzes datu noliktavu tehnoloģiju stabu rašanās. sekoja tādi rīki kā Fivetran, Dagster, Airbyte, DBT un WhaleStudio, radot jaunu tehnoloģiju. Patiesībā iepriekšējās paaudzes ETL un datu inženierijas rīki — Informatica, Talend, DataStage — radās 1980. gados. Jaunais datu stack Kopumā pēdējo desmitgažu laikā, neatkarīgi no tā, vai tā bija tradicionālās datu noliktavas, lielas datu platformas, mākoņdatu noliktavas vai datu ezeri, to arhitektūras būtībā sekoja struktūrai, kas parādīta zemāk esošajā diagrammā: Inmon laikmetā šo arhitektūru sauca par DSS sistēmu (Lēmumu atbalsta sistēma). Visa datu noliktavas tehniskā kaudze tika izstrādāta cilvēku lietotājiem. the “support” was always intended for humans. Datu noliktavas arhitektūra tika izstrādāta arī datu inženieriem.Tāpēc mums bija vairākas tēmas jomas, atomu slāņi, agregācijas slāņi un metrikas slāņi, lai palīdzētu ETL inženieriem izstrādāt.BI rīki bija nepieciešami arī, lai definētu zvaigžņu un sniega flīžu shēmas, ar pārraides un instrumentu plāksnēm.Visi patērētāji bija cilvēki. But in the era of large-model agents, all of this is about to change dramatically. Vai aģenti ēd tradicionālos datu noliktavas?! 2022. gada beigās OpenAI izlaida ChatGPT, uzsākot lielo valodu modeļu laikmetu. Kopš 2023. gada Llama, Claude, Gemini, GPT-4o, DeepSeek... multimodālie modeļi ir strauji attīstījušies. 2024. gadā RAG (Retrieval-Augmented Generation) tehnoloģija kļuva par mainstream.Tools, piemēram, LlamaIndex, LangChain un Dify ieguva plašu pieņemšanu. AI sāka integrēt uzņēmuma domēna zināšanas, kļūstot par patiesi "zinošu palīgu". Līdz 2025. gadam aģentu arhitektūra ir pilnībā palielinājusies.Tehnoloģijas un protokoli, piemēram, AutoGPT, Funkciju zvanīšana un MCP protokols, ir parādījušies. AI vairs nav tikai tērzēšanas rīks - tagad tai ir uztvere, plānošana un izpildes iespējas, kļūstot par "digitālo darbinieku". Datu domēnā lielo modeļu parādīšanās ir radījusi būtisku traucējumu. Vai esat izmantojis ChatGPT datu analītiķi? Ja tā, jūs, iespējams, bijāt pārsteigti par tā veiktspēju. Tas var palīdzēt biznesa lietotājam ģenerēt detalizētu analītisko ziņojumu no datu kopas no vairākām perspektīvām. Tas var praktiski aizstāt jaunāko datu analītiķi. Dažādos slāņos ir parādījušies arī daudzi "automātiskošanas" rīki, piemēram, ChatBI un TXT2SQL – katrs izmantojot lielus modeļus un aģentus, lai automatizētu vai pusautomātiski izstrādātu datu noliktavu. Nākotnē parādīsies arvien vairāk aģentu – ne tikai datu analīzē, bet arī reklāmas kampaņu optimizācijā, klientu apkalpošanā un riska pārvaldībā. Ultimately, AI will no longer be a “passive answering tool,” but an “intelligent agent proactively achieving goals.” Pēdējo 20+ gadu laikā datu platformu “lietotāji” parasti ir bijuši datu inženieri, analītiķi un BI profesionāļi. Nākamajos 20 gados, every role—from analyst to supply chain operator—may be redefined by Agents: Marketers will have a Campaign Agent that automatically integrates multi-channel data, optimizes placements, and generates copy; Customer service reps will have a Support Agent that’s more than a chatbot—it will be a context-aware assistant with knowledge graphs and memory; The supply chain team will have a Procurement Agent that parses orders, tracks delivery timelines, fetches ERP data, and auto-replenishes inventory; Legal teams will have a Compliance Agent, HR will have a Hiring Agent, and even the board of directors could have a Board Agent… SQL, ko esat rakstījis katru dienu, ziņojumi, kurus esat izveidojis, un sanāksmes, kurās esat piedalījies, kļūst par aģentu izraisītām darbībām, semantiskām komandām un automatizētām atbildēm. Bet steidzamā realitāte ir šāda: Ja datu galalietotāji ir aģenti, un pat datu noliktavu izstrādi veic aģenti, un galvenie lēmumu pieņēmēji, kas izmanto datus, ir aģenti, nevis "cilvēki", vai sākotnējai DSS (Lēmumu atbalsta sistēmas) datu noliktavu arhitektūrai joprojām ir jēga? Ja datu galalietotāji ir aģenti, un pat datu noliktavu izstrādi veic aģenti, un galvenie lēmumu pieņēmēji, kas izmanto datus, ir aģenti, nevis "cilvēki", vai sākotnējai DSS (Lēmumu atbalsta sistēmas) datu noliktavu arhitektūrai joprojām ir jēga? Ikviens, kurš ir studējis programmatūras inženieriju, zina, ka pirmā diagramma, ko jūs zīmējat, izstrādājot sistēmu, ir diagramma "Use Case" - tā definē sistēmas lietotājus, robežas un uzvedības scenārijus. When the user of a data warehouse shifts from human to Agent, the DSS architecture envisioned by Bill Inmon no longer holds water. At least in my view, it doesn’t. When the user changes, the software must change too. Agentu pieaugums nav tikai lielu modeļu uzvara, tas ir pilnīgs traucējums tam, kā mēs uztveram lietotāja pieredzi: Traditional data systems operated in a “pull model”: the user knew the problem, queried the data, and extracted conclusions. Future Agents operate in a “push model”: the system proactively senses changes, understands intent, and generates decision suggestions. Tas ir kā pāreja no tradicionālajām kartēm uz GPS navigāciju: Jums vairs nav jāzina “kur ir ceļš” – jūs vienkārši sakāt sistēmai, kur vēlaties doties, un tā jūs tur aizvedīs. Jums vairs nav jāzina “kur ir ceļš” – jūs vienkārši sakāt sistēmai, kur vēlaties doties, un tā jūs tur aizvedīs. Traditional data warehouses focus on structure and querying, whereas Agentic architectures prioritize semantics and responsiveness. Vienkārši sakot: ikviens, kurš saprot uzņēmējdarbības valodu, valdīs datu pasaulē. Agentiskā datu kopa un kontekstuālā datu vienība (CDU): dati ar iebūvētu semantiku Lai aģenti automātiski izstrādātu un izmantotu datus, šodienas datu noliktavu dizains nav piemērots – tas nekad nav bijis paredzēts lieliem modeļiem vai aģentiem. Iekšpusē glabātie dati ir “grūtie” dati – tikai ciparu vērtības un kolonnas nosaukumi. Ko šīs vērtības vai lauki patiešām nozīmē, tiek glabāts atsevišķā “datu aktīvu” pārvaldības sistēmā. Katras vērtības vai lauka izpratne prasa pilnīgu “datu pārvaldības” projektu. Šis dizains nav draudzīgs lieliem modeļiem un aģentiem, kas paļaujas uz semantisko pamatojumu. Es to saucu: data and semantics together Kontekstuālā datu vienība (CDU): divu elementu vienība, kas apvieno datus + semantisko paskaidrojumu - katram datu ierakstam ir sava nozīme. Kontekstuālā datu vienība (CDU): divu elementu vienība, kas apvieno datus + semantisko paskaidrojumu - katram datu ierakstam ir sava nozīme. Tas apvieno informāciju, kas tradicionāli tiek glabāta datu katalogos, tieši katrā datu ievadā, samazinot meklēšanas laiku un kļūdu līmeni, kad aģenti vai lieli modeļi piekļūst tam. Tajā pašā laikā CDU semantika ir iegūta no uzņēmējdarbības sistēmām — tās destilē un abstraktē datu plūsmas aģenti avotā. CDU tiek veidota ieelpošanas laikā, plūstot aģentu datu ezeros — netiek ģenerēta pēc tam. Šajā brīdī jums vajadzētu saprast manu domāšanu: Agentic AI laikmetā viss no ETL līdz uzglabāšanai līdz datu pielietojumam tiks pārveidots, jo Lai apkalpotu šos inteliģentos aģentus, tradicionālajām datu platformām ir jāattīstās uz aģentu saucamu, semantiski apzinātu, notikumu vadītu arhitektūru - to, ko mēs saucam par . consumers are now Agents and models. Agentic Data Stack Agentic Data Stack: aģentu laikmetā, jauna datu tehnoloģiju kaudze, kas aptver no rīkiem, lai iegūtu "datu + semantiku", līdz platformām, kas aprēķina un uzglabā CDU formāta datus, un beidzot līdz mijiedarbības slānim, kas sniedz šos datus aģentiem. Agentic Data Stack: aģentu laikmetā, jauna datu tehnoloģiju kaudze, kas aptver no rīkiem, lai iegūtu "datu + semantiku", līdz platformām, kas aprēķina un uzglabā CDU formāta datus, un beidzot līdz mijiedarbības slānim, kas sniedz šos datus aģentiem. Šeit ir mana drosmīga prognoze par to, ko aģentūras datu kaudze varētu ietvert: This is no longer a BI/dashboard interface, but the “brain” and “command center” of the Agentic architecture. With natural language understanding and semantic reasoning capabilities, it bridges other agents with underlying data assets, enabling intelligent, multi-round interactions and service generation. Semantic Orchestrator (Interaction Layer): No longer a traditional Data Warehouse or Data Lake—it’s a service-oriented, computation-friendly fusion layer that stores data with semantics. It can supply data for complex computations by LLMs while also supporting real-time processing. Data Mesh (Storage Layer): Not just “moving data,” but understanding and orchestrating data. Not scheduled periodically, but event-driven and intent-driven. Capable of detecting data changes, analyzing schemas, understanding business logic, and responding accordingly. Data Flow Agent (Processing Layer): Jaunos datus atklāj Datu plūsmas aģenti, tos iepriekš uzglabā Datu tīklā un Semantiskais orķestris interpretē ar uzņēmējdarbības definīcijām, galu galā ļaujot “instantāro aprēķinu” no uzņēmējdarbības pieprasījuma līdz datu iznākumam. LLMs provide the brainpower. Agents are the hands and feet. Agentic Data Stack gives them the data accessibility needed in the era of large models. Ar Agentic Data Stack pieaugumu nākamās paaudzes “datu noliktavu” būvniecības izmaksas dramatiski samazinās. Ar dabiskās valodas vaicājumu iespējām un piekļuvi attiecīgajiem datiem būs ne tikai lielo uzņēmumu privilēģija – tas kļūs pieejams mazajiem uzņēmumiem un pat privātpersonām. Jūs varat uzņemt savus Google Drive failus, mājas NAS, PDF failus savā klēpjdatorā un lietojumprogrammu pasūtījumus no sava tālruņa uz savu personīgo datu noliktavu, izmantojot datu plūsmas aģentu. Tad uzdodiet jautājumu, piemēram, “Cik daudz es pagājušajā mēnesī pavadīju, apmeklējot Disney?” – kaut kas, kas iepriekš prasīja eksportu no vairākām platformām un manuāli izveidot Excel lapas. Nesen, WhaleOps vadībā, Apache SeaTunnel kopiena izlaida Apache SeaTunnel MCP Server – jau virzoties uz datu plūsmas aģenta kļūšanu. Bet LLM un aģentu laikmeta ierašanās pārveidos datu analīzes nozari, tāpat kā SQL izgudrojums reiz to darīja. Stāsts: Kad es biju bērns, divi populāri velosipēdu zīmoli bija Forever un Phoenix. Viņi konkurēja par ātrumu, izmantojot “paātrinātas ass.” Bet tas, kas traucēja velosipēdu tirgu, nebija labāks velosipēds – tas bija pārtikas piegādes uzņēmums, kas uzsāka kopīgus velosipēdus, pārvēršot visu nozari. Nosaukums oriģinālvalodā: Live in the Present, See the Future Kad es dalījos ar šo vīziju AICon, AWS kopienas dienā un citās tehnoloģiju samitā, auditorija vienmēr sadalījās divās nometnēs. „Ticīgie” domā, ka es esmu pārāk konservatīvs, sakot, ka Agentic Data Stack ir 5–10 gadus tālu – viņi uzskata, ka AI attīstās tik ātri, ka mēs to redzēsim pilnībā izveidotu 5 gadu laikā. „Skeptiķi” domā, ka AI aģentu ietekme uz datu noliktavu arhitektūru ir ļoti pārspīlēta. Es personīgi esmu “centrists”: es Šis AI vilnis ietekmēs programmatūras arhitektūru tādā veidā, kas būtiski atšķiras no iepriekšējiem viļņiem. believe the emergence of the Agentic Data Stack is inevitable. We must look at the total cost and outcome of enterprise data warehouse construction and operations, not just storage or compute ROI alone. Pašlaik mēs redzam tendences: reāllaika datu noliktavu pieaugums, datu ezeru paplašināšanās un mūsdienu noliktavu dizaina slāņu samazināšanās. (Es pat apgalvo, ka tagad, kad mūsu Teradata apmācīto datu modelēšanas arhitektu paaudze atkāpjas, tirgū trūkst profesionāļu, kuri var sekot līdzi strauji attīstītajai biznesa loģikai). Tas nozīmē, ka pāreja nenotiks vienā naktī. No 2016. gada līdz 2020. gadam man vajadzēja palīdzēt ClickHouse kļūt par Ķīnas de facto reāllaika OLAP dzinēju – un tas bija ar produktu, kas jau bija pieejams. Agentic Data Stack, no otras puses, ir tikai dažas agrīnās stadijas sastāvdaļas un jaunuzņēmumi. Lielākā daļa no tā vēl nepastāv – tā noteikti nepastāvēs tirgū pēc mazāk nekā 5 gadiem. Tas nav tas, ka datu noliktavas tiek apglabātas, bet drīzāk to struktūras un vaicājumu centrālais modelis tiek aizstāts ar semantiku un reakciju centrālu arhitektūru. Tas nav tas, ka datu noliktavas tiek apglabātas, bet drīzāk to struktūras un vaicājumu centrālais modelis tiek aizstāts ar semantiku un reakciju centrālu arhitektūru. The gates to the Agentic Data Stack are opening. Are you ready?