Introduction Uvod U mom poslednjem dijelu ove serije, pitao sam, “ ”, a to je dovelo do razgovora s Philipom Mooreom, drugim alumnus koji je osnovao GizmoData, gde radi na nekim prilično fascinantnim projektima. Jedan je GizmoEdge, koji bih mogao napisati u budućnosti, a drugi je GizmoSQL, predmet ovog članka. Šta radi? Zašto je to zanimljivo? Zašto biste to želeli? Šta je Heck je dbc? Voltron podaci Šta je Heck je dbc? Voltron podaci Background pozadina Prvo, GizmoSQL je open-source SQL baza podataka motor i server pohranjen od strane i Šta je DuckDB?To je bio moj , i od tada je znatno napredovao. To je open-source, u procesu analitički baza podataka motor dizajniran za OLAP radna opterećenja, izvršavanje složenih SQL upita direktno unutar aplikacija bez potrebe za odvojenim serverom. Izgrađen sa formatom skladištenja kolona i vektorizovanom izvršenjem, pruža visoke performanse za velike skupove podataka preko analize podataka, ETL pipelines, i ugrađene analitike. DuckDB podrška Uslovi korišćenja Apache Arrow Flight SQL Prvi “Šta je Heck...” članak DuckDB podrška Uslovi korišćenja Apache Arrow Flight SQL Prvi “Šta je Heck...” članak Apache Arrow Flight SQL je protokol složen na Arrow Flight RPC koji omogućuje klijentima da izvrše standardne SQL upite protiv udaljenih servera baza podataka, sa rezultatima koji se prenose natrag u efikasnom formatu Arrow kolumnar u memoriji. pruža prenos podataka visokog kapaciteta, niskog latencije za analitička radna opterećenja, olakšavajući glatku integraciju sa Arrow ekosustavima kao što su Pandas, Polars, DuckDB i platforme podataka koje podržavaju protokol. Apache Arrow Flight SQL je deo Apache Arrow ekosustava, koji je sama po sebi cross-jezična platforma za analizu u memoriji koja pruža standardizovani format kolumnarne memorije. To je sve, neki prilično cool, i potencijalno zbunjujuće tehnologije da uronite u, i to je ono što čini GizmoSQL zanimljiv: dobiti tu moć i smanjiti složenost. What is GizmoSQL? Šta je GizmoSQL? Razbijeno do svojih osnova, GizmoSQL je mali server koji pokreće DuckDB, sa Arrow Flight SQL protokolom koji je zaglavljen oko njega tako da možete pokrenuti DuckDB daljinski. Zašto biste želeli da to učinite? DuckDB je fantastičan motor; možete ga pokrenuti na svom laptopu i rukovati milijardama redova, na primjer. Sada zamislite da radi u VM-u na cloud usluzi gdje možete dodeliti lude brojeve jezgre i RAM, a sada govorite o trilijunima redova. Rekli su mi da su uradili izazov Trillion Row u 2 minuta za 9 centi sa ovom konfiguracijom. Uz svu tu pozadinu, vrijeme je da se iskopate s obilnim screenshotovima. Digging in Kopanje u Postoji a dostupan sa TPC-H skup podataka preloaded i nekoliko desetaka prethodno napisanih upita za vas da testirate. U našoj prvoj screenshot, ovo je podrazumevani pogled kada prvi put uđete u, i možete jednostavno izvršiti upit. Jedna nifty mala značajka ovdje je vaša povijest upita, koja uključuje vreme izvršenja. Možete videti da sam već učinio nekoliko stvari, ali i napomenuti da samo klikom na upit u povijesti će ga učitati natrag u SQL prozor, nema potrebe za kopiranjem/prilaganjem. Besplatno demo Besplatno demo Tablica klijenata ovdje ima 1,5 miliona redova, a ja sam napisao upit za brojanje svih zapisa gde je c_nationkey 15. On je vratio 60.000 u 154ms. To je prilično brzo. Hajde da pogledamo neke od uključenih upita: Pokušaćemo Query 22, Globalne prodajne prilike: Možete videti da je izvršena za manje od sekunde, s puno obrade u toku, što je prilično impresivno. Pogledajmo još jedan gde se odvijaju mnoge tabele i filteri, ovo je Query 2: To se završilo za oko pola sekunde. što je jednostavno ludo brzo. Radim ovakve stvari od ranih 80-ih, i to mi puca na pamet kako se tehnologija baze podataka razvila. Mi smo morali igrati mnogo trikova kako bi stvari brzo pokrenuli, ali trčanje koje je trajalo satima nije bilo neuobičajeno. Imala sam jedan proces završetka godine koji je trajao 10 dana da se pokrene. Napisao sam neke operacijski sistem presretanja da bi ga optimizovao i dobio ga na 4 sata, pa čak i taj iznos vremena u današnjem svetu izgleda ludo dugo. Summary sažetak Ono što je GizmoData učinila ovdje je da kombinira neku tehnologiju, uradi neke inovacije na vrhu i napravio glupo jednostavan proizvod koji vam daje nevjerojatnu brzinu i jednostavnost korištenja. Nisam govorio o učitavanju podataka, jer je to neka vrsta dosadno gledati. usluga podržava svaku cloud platformu, uključujući OCI. Da, to je, ali to je takođe drugačije u načinu na koji je integrisan Arrow Flight SQL. Da li se to uklapa u vaš skup? To je na vama da odlučite, naravno, ali postoji prilično dobar izbor integracija i adaptera koji otvaraju stvari za vas. Majčinstvo Majčinstvo Ovo je pametno, a ja volim pametne stvari. Da sam još uvijek u privatnom sektoru, ja bih koristio ovu vrstu stvari sve vreme. ne želim da se šarati previše kada trčim na novu tehnologiju, ali kada pronađem nešto što bi moje živote mnogo lakše, ja mogu da gush malo. Želite pročitati više u mojoj “Šta je Heck???” seriji? korisna lista je ispod: Šta je DuckDB? Šta je Heck je Malloy? Šta je Heck je PRQL? Što je Heck je GlareDB? Šta je Heck SeaTunnel? Šta je to LanceDB? Šta je SDF? Šta je Heck je Paimon? Šta je Heck Proton? Što je Heck je PuppyGraph? Šta je GPTScript? Šta je to WarpStream? Šta je DeltaStream? Šta je OpenMetadata? Šta je Heck je dbc? Šta je DuckDB? Šta je Heck je Malloy? Šta je Heck je PRQL? Što je Heck je GlareDB? Šta je Heck SeaTunnel? Šta je to LanceDB? Šta je SDF? Šta je Heck je Paimon? Šta je Heck Proton? Što je Heck je PuppyGraph? Šta je GPTScript? Šta je to WarpStream? Šta je DeltaStream? Šta je OpenMetadata? Šta je Heck je dbc?