Introduction კონტაქტი ჩემი ბოლო ნაწილი ამ სერია, მე გითხრათ, “ ”, და ეს იწვევს კონტაქტი Philip Moore, სხვა GizmoData- ს დაარსდა, სადაც ის მუშაობს ზოგიერთი ძალიან ფანტასტიკური პროექტებში. ერთი არის GizmoEdge, რომელიც მე შემდგომში დააწკაპუნეთ, და მეორე არის GizmoSQL, ამ სტატიის თემა. რა არის ეს? რატომ არის ეს საინტერესო? რატომ გსურთ ეს? რა არის GizmoSQL? რა არის dbc? Voltron მონაცემები რა არის dbc? Voltron მონაცემები Background კონტაქტი პირველი, GizmoSQL არის open-source SQL მონაცემთა საავტომობილო და სერვერები, რომელიც ეფუძნება და რა არის DuckDB? ეს იყო ჩემი ეს არის Open-Source, in-process ანალიტიკური მონაცემთა მონაცემთა საავტომობილო, რომელიც განკუთვნილია OLAP სამუშაო სიჩქარით, დამუშავება კომპლექსური SQL კითხვები პირდაპირი განაცხადების გარეშე მოითხოვს განსხვავებული სერვერზე. შექმნილია ფოლადის შენახვის ფორმატში და vectorized შესრულება, იგი უზრუნველყოფს მაღალი შესრულება დიდი მონაცემთა კომპლექტი მონაცემთა ანალიტიკა, ETL pipelines, და შეფუთული ანალიტიკა. DuckDB Apache Arrow Flight SQL- ის გამოყენება პირველი “What the Heck is...” სტატია DuckDB Apache Arrow Flight SQL- ის გამოყენება პირველი “What the Heck is...” სტატია Apache Arrow Flight SQL არის პროტოკოლი Arrow Flight RPC- ში, რომელიც საშუალებას იძლევა კლიენტებს სტანდარტული SQL კითხვებს remote database სერვერზე, შედეგებს ეფექტური Arrow columnar in-memory ფორმატში გადამცემა. ეს უზრუნველყოფს მაღალი გადაცემის, დაბალი წვდომის მონაცემების გადაცემას ანალიტიკური სამუშაო დატვირთვისთვის, რათა დაეხმაროს უჭერს ინტეგრირება Arrow- ის ეკოსიზმებით, როგორიცაა Pandas, Polars, DuckDB და მონაცემთა პლატფორმაები, რომლებიც მხარს უჭერს პროტოკოლს. Apache Arrow Flight SQL არის ნაწილი Apache Arrow ekosystem, რომელიც itself არის cross-language in-memory analytics პლატფორმა, რომელიც უზრუნველყოფს სტანდარტული კოლადის მეხსიერების ფორმატში. იგი შეამციროს serialization და deserialization როდესაც გადამცემა მონაცემები სისტემები და პროგრამული ენები, საშუალებას იძლევა zero-copy წაიკითხვა და ეფექტური მონაცემების გაზიარება. ეს არის ყველა, ზოგიერთი საკმაოდ cool, და პოტენციურად შეუზღუდავი ტექნოლოგია, რომ მოვუწოდოს, და ეს არის ის, რაც გაძლევთ GizmoSQL საინტერესო: მიიღოს, რომ ძალა და შეამციროს სქესობრივი. What is GizmoSQL? რა არის GizmoSQL? GizmoSQL არის მცირე სერვერზე, რომელიც იყენებს DuckDB, ერთად Arrow Flight SQL პროტოკონის შეფუთვა მას გარშემო, ასე რომ თქვენ შეგიძლიათ იყენოთ DuckDB გარშემო. რატომ გსურთ გააკეთოთ ეს? DuckDB არის ფანტასტიკური საავტომობილო; თქვენ შეგიძლიათ იყენოთ იგი თქვენი laptop და გაქირავება მილიარდი ხაზები, მაგალითად. ახლა ვფიქრობ, რომ იგი იყენებს VM- ში cloud მომსახურება, სადაც თქვენ შეგიძლიათ გაქირავოთ ფანტასტიკური ნომერი იზომები და RAM, და თქვენ ახლა საუბრობთ trillions ხაზები. მე ვთქვათ, რომ ისინი გააკეთა Trillion Row Challenge 2 წუთში 9 ფულზე ამ კონფიგურაცია. ყველა ამ ფართობი, ახლა არის დრო, რომ ჩრდილოეთ ფართო screenshots. Digging in Digging იმ არსებობს a TPC-H მონაცემთა კომპლექტი დაახლოებით რამდენიმე დოლარი წინასწარ წერილი კითხვები თქვენთვის ტესტირება. ჩვენი პირველი სკრინშოტი, ეს არის default ნახვა, როდესაც თქვენ პირველი დააყენებთ, და თქვენ შეგიძლიათ უბრალოდ გააკეთა კითხვები. ერთი ცუდი ფუნქცია აქ არის თქვენი კითხვები ისტორია, რომელიც მოიცავს გააკეთა დრო. თქვენ შეგიძლიათ იხილოთ, მე უკვე გააკეთა რამდენიმე რამ, მაგრამ ასევე იმიტომ, რომ უბრალოდ დააწკაპუნეთ კითხვები ისტორიაში დატვირთვა იგი უკან SQL ფანჯარა, არ უნდა კუპირება / შეტვირთვა. უფასო Demo უფასო Demo კლიენტების ტაბლეში აქ აქვს 1.5 მილიონი ხაზები, და მე წაიკითხე კითხვას, რათა შეიტანოთ ყველა რეგისტრაცია, სადაც c_nationkey არის 15. იგი გადაიხადე 60,000 154ms. ეს საკმაოდ სწრაფია. იხილეთ ზოგიერთი მოიცავს კითხვები: Query 22 – გლობალური გაყიდვების შესაძლებლობა თქვენ შეგიძლიათ იხილოთ, რომ ეს გაკეთდა ქვემოთ წამში, ბევრი დამუშავების გაკეთება, რაც საკმაოდ შეუზღუდავი. იხილეთ კიდევ ერთი, სადაც ბევრი ტაბლეტები და ფილტრები ხდება, ეს არის Query 2: ეს დასრულდა დაახლოებით ნახევარი წამში. რაც უბრალოდ ცუდი სწრაფად. მე გააკეთე ამგვარი რამ, რაც დაწყებული 80s, და ეს გაქვთ ჩემი გონება, თუ როგორ მონაცემთა ტექნოლოგია განვითარდა. ჩვენ უკვე უნდა ითამაშოს ბევრი ტკივილი, რათა რამე სწრაფად გააკეთოთ, მაგრამ გაშვება, რომელიც იღებს საათები არ იყო უნიკალური. მე იყო ერთი წლის დასრულების პროცესი, რომელიც იღებს 10 დღის განმავლობაში გაშვება. მე დააწკაპუნეთ რამდენიმე ოპერაციული სისტემის intercepts, რათა გაუმჯობესოს იგი და მიიღო 4 საათის განმავლობაში, და მაშინაც კი, რომ დრო დღეს მსოფლიოში ჩანს ცუდი ხანგრძლივი. Summary კონტაქტი ის, რაც GizmoData აქ გაკეთდა, არის ზოგიერთი ტექნოლოგია, გაკეთებული ზოგიერთი ინოვაცია ზედაპირზე, და შექმნილია ნედლეული მარტივი პროდუქტი, რომელიც გაძლევთ საოცარი სიჩქარე და მარტივი გამოყენება. მე არ საუბრობდა მონაცემების დატვირთვა, რადგან ეს არის გარკვეული ნედლეული ვხედავ. მომსახურება მხარს უჭერს ყველა cloud პლატფორმა, მათ შორის OCI. საყვარელი საყვარელი ეს არის სასიამოვნო, და მე მიყვარს სასიამოვნო რამ. თუ მე ჯერ კიდევ იყო პირადი სფეროში, მე გამოიყენოთ ამ სახის რამ მთელი დროს. მე არ მინდა, რომ ჩრდილოეთ ძალიან, როდესაც მე შეხვდება ახალი ტექნოლოგია, მაგრამ როდესაც მე იპოვს რაღაც, რომელიც გააკეთა ჩემი ცხოვრება ძალიან მარტივი, მე შეგვიძლია პატარა. გსურთ წაიკითხოთ მეტი ჩემი “What the Heck is???” სერია? სასარგებლო სია ქვემოთ: რა არის DuckDB? რა არის Heck Malloy? რა არის PRQL? რა არის GlareDB? რა არის SeaTunnel? რა არის LanceDB? რა არის SDF? რა არის Paimon? რა არის Proton Heck? რა არის PuppyGraph? რა არის GPTScript? რა არის WarpStream? რა არის DeltaStream? რა არის OpenMetadata? რა არის dbc? რა არის DuckDB? რა არის Heck Malloy? რა არის PRQL? რა არის GlareDB? რა არის SeaTunnel? რა არის LanceDB? რა არის SDF? რა არის Paimon? რა არის Proton Heck? რა არის PuppyGraph? რა არის GPTScript? რა არის WarpStream? რა არის DeltaStream? რა არის OpenMetadata? რა არის dbc?