मैंने अनजाने में Google Cloud BigQuery में एक प्रश्न पर 6 घंटे में $3,000 उड़ा दिए। यहाँ क्यों है और लागत को अनुकूलित करने के लिए 3 आसान कदम हैं I  इस आलेख में  🙈 आप जानेंगे कि BigQuery की लागत में क्या योगदान होता है।  🏛️ हम BigQuery की वास्तुकला के बारे में जानेंगे।  💰 आप अपने अगले Google क्लाउड बिल पर 99.97% बचत करने के 3 आसान चरण सीखेंगे।  चल दर।  यह कैसे हुआ?  मैं परामर्श के लिए पहुंचने वाले ग्राहकों के लिए डेटा नमूने तैयार करने के लिए एक स्क्रिप्ट विकसित कर रहा था। नमूने में प्रत्येक फ़ाइल में 100 पंक्तियाँ हैं, और वे 55 स्थानों में विभाजित हैं। मेरी क्वेरी इस तरह दिखती है   SELECT * FROM `project.dataset.table` WHERE ts BETWEEN TIMESTAMP("2022-12-01") AND TIMESTAMP("2023-02-28") AND locale = "US" LIMIT 100;  डेटा "यूरोप-पश्चिम-4" में संग्रहीत किया गया था, और   । इसलिए, स्क्रिप्ट चलाकर, मैंने संसाधित किया: पूछताछ के लिए मूल्य निर्धारण $6 प्रति टीबी है  कुल 500 टीबी डेटा  प्रति देश औसतन 3 टीबी डेटा  औसतन $54 प्रति डेटा नमूना फ़ाइल  बहुत महँगा।  स्क्रिप्ट जिसकी कीमत $3,000 है  स्क्रिप्ट   में लिखी गई थी। जावास्क्रिप्ट मॉड्यूल   // bq-samples.mjs import { BigQuery } from "@google-cloud/bigquery"; import { Parser } from "@json2csv/plainjs"; import makeDir from "make-dir"; import { write } from "./write.mjs"; import { locales } from "./locales.mjs"; import { perf } from "./performance.mjs"; const q = (locale, start, end, limit) => `SELECT * FROM \`project.dataset.table\` WHERE ts BETWEEN TIMESTAMP("2022-12-01") AND TIMESTAMP("2023-02-28") AND locale = "${locale}" LIMIT ${limit}` async function main() { const timer = perf() const dir = await makeDir('samples') const bigquery = new BigQuery() const csvParser = new Parser({}) try { const jobs = locales.map((locale) => async () => { // get query result from BigQuery const [job] = await bigquery.createQueryJob({ query: q(locale, "2022-12-01", "2023-02-28", 100), }) const [rows] = await job.getQueryResults() // parse rows into csv format const csv = parse(csvParser, rows) // write data into csv files and store in the file system await write(csv, dir, locale, "2022-12-01", "2023-02-28", 100) }) await Promise.all(jobs.map((job) => job())) console.log(`✨ Done in ${timer.stop()} seconds.`) } catch (error) { console.error('❌ Failed to create sample file', error) } } await main()  यह प्रति लोकेल   प्रारूप में एक नमूना फ़ाइल उत्पन्न करता है। प्रक्रिया सीधी है: सीएसवी  BigQuery तालिका को स्थानीय, प्रारंभ दिनांक, समाप्ति दिनांक और सीमा के साथ क्वेरी करना.  क्वेरी परिणाम को CSV प्रारूप में बदलना।  फ़ाइल सिस्टम में CSV लिखना।  सभी स्थानों के लिए प्रक्रिया को दोहराना।  समस्या क्या है?  यह पता चला है कि मैंने अपनी क्वेरी में कई चीज़ें गलत की हैं। यदि आप मूल्य निर्धारण मॉडल को फिर से देखते हैं, तो आप देखेंगे कि लागत केवल आपके द्वारा संसाधित किए जाने वाले डेटा से संबंधित है। तो यह स्पष्ट है कि मेरी क्वेरी ने 100 पंक्तियों का उत्पादन करने के लिए बहुत अधिक डेटा देखा।  इस अंतर्दृष्टि के साथ, आइए क्वेरी को चरण दर चरण अनुकूलित करें।  चयन न करें*  यह थोड़ा उल्टा है। मेरे चयन कथन का इससे कोई लेना-देना क्यों है कि यह कितना डेटा संसाधित करता है? मेरे द्वारा चुने गए स्तंभों के बावजूद, मुझे उन्हीं संसाधनों और डेटा से पढ़ना चाहिए, है ना?  यह केवल पंक्ति-उन्मुख डेटाबेस के लिए सही है।  BigQuery वास्तव में एक   है। यह स्तंभ-उन्मुख है, जिसका अर्थ है कि डेटा स्तंभों में संरचित है। BigQuery अपने अंतर्निहित कंप्यूटिंग इंजन के रूप में   उपयोग करता है। जब डेटा को कोल्ड स्टोरेज से Dremel में सक्रिय स्टोरेज में ले जाया जाता है, तो यह डेटा को ट्री स्ट्रक्चर में स्टोर करता है। स्तंभकार डेटाबेस Dremel का  प्रत्येक लीफ नोड   प्रारूप में एक स्तंभ-उन्मुख "रिकॉर्ड" है।  प्रोटोबॉफ़  BigQuery में, प्रत्येक नोड एक VM है। एक क्वेरी निष्पादन रूट सर्वर (नोड) से इंटरमीडिएट सर्वर के माध्यम से चयनित कॉलम को पुनः प्राप्त करने के लिए लीफ सर्वर पर प्रसारित होता है।  हम अलग-अलग कॉलम चुनने के लिए क्वेरी को संशोधित कर सकते हैं:   SELECT session_info_1, session_info_2, session_info_3, user_info_1, user_info_2, user_info_3, query_info_1, query_info_2, query_info_3, impression_info_1, impression_info_2, impression_info_3, ts FROM `project.dataset.table` WHERE ts BETWEEN TIMESTAMP("2022-12-01") AND TIMESTAMP("2023-02-28") AND locale = "US" LIMIT 100;  बस स्पष्ट रूप से सभी स्तंभों का चयन करके, मैं संसाधित डेटा को 3.08 टीबी से 2.94 टीबी तक कम करने में सक्षम था। यह   है। 100 जीबी की कमी  विभाजित तालिका और डेटा के केवल सबसेट का उपयोग करें  Google क्लाउड अनुशंसा करता है कि हम   । यह हमें डेटा के केवल एक सबसेट को क्वेरी करने देता है। तिथि के अनुसार विभाजन तालिकाएँ बनाते हैं  क्वेरी को और ऑप्टिमाइज़ करने के लिए, हम वेयर स्टेटमेंट में दिनांक सीमा को कम कर सकते हैं क्योंकि टेबल को “ts” कॉलम द्वारा विभाजित किया गया है।   SELECT session_info_1, session_info_2, session_info_3, user_info_1, user_info_2, user_info_3, query_info_1, query_info_2, query_info_3, impression_info_1, impression_info_2, impression_info_3, ts FROM `project.dataset.table` WHERE ts = TIMESTAMP("2022-12-01") AND locale = "US" LIMIT 100;  मैंने दिनांक सीमा को तीन महीने के बजाय एक दिन तक सीमित कर दिया है। मैं संसाधित डेटा को   तक कम करने में सक्षम था। यह मूल क्वेरी का केवल एक अंश है। 37.43 जीबी  चरणों में मटेरियलाइज्ड क्वेरी परिणामों का उपयोग करें  लागत कम करने का दूसरा तरीका यह है कि आप जिस डेटासेट से क्वेरी कर रहे हैं उसे कम करें। क्वेरी परिणामों को छोटे डेटासेट के रूप में संग्रहीत करने के लिए BigQuery   प्रदान करता है। गंतव्य तालिकाएँ दो रूपों में आती हैं: अस्थायी और स्थायी। गंतव्य तालिका  क्योंकि अस्थायी तालिकाओं का जीवनकाल होता है और इसे साझा करने और क्वेरी करने के लिए डिज़ाइन नहीं किया गया है, मैंने क्वेरी परिणाम को अमल में लाने के लिए एक स्थायी गंतव्य तालिका बनाई है:   // bq-samples.mjs const dataset = bigquery.dataset('materialized_dataset') const materialzedTable = dataset.table('materialized_table') // ... const [job] = await bigquery.createQueryJob({ query: q(locale, '2022-12-01', '2023-02-28', 100), destination: materialzedTable, })  क्वेरी परिणाम गंतव्य तालिका में संग्रहीत किए जाएंगे। यह भविष्य के प्रश्नों के लिए एक संदर्भ के रूप में काम करेगा। जब भी गंतव्य तालिका से क्वेरी करना संभव होगा, BigQuery तालिका से डेटा संसाधित करेगा। यह हमारे द्वारा देखे जाने वाले डेटा आकार को बहुत कम कर देगा।  अंतिम विचार  BigQuery में लागत कम करने के लिए यह एक बहुत ही रोचक अध्ययन है। केवल तीन आसान चरणों के साथ:  प्रयोग न करें*  विभाजित तालिका और डेटा के केवल सबसेट का उपयोग करें  चरणों में मटेरियलाइज्ड क्वेरी परिणामों का उपयोग करें  मैं संसाधित डेटा आकार को   करने में सक्षम था। यह कुल लागत को 3,000 डॉलर से घटाकर 30 डॉलर कर देता है। 3 टीबी से घटाकर 37.5 जीबी  यदि आप BigQuery आर्किटेक्चर के बारे में अधिक जानने में रुचि रखते हैं, तो यहां वे संदर्भ दिए गए हैं जिनसे मुझे मदद मिली:   BigQuery समझाया: BigQuery की वास्तुकला का अवलोकन   डरमेल पर एक नज़र   हुड के नीचे कोलोसस: Google की स्केलेबल स्टोरेज सिस्टम में एक झलक   बृहस्पति विकसित हो रहा है: Google के डेटा सेंटर नेटवर्क परिवर्तन पर विचार करना  आप Google क्लाउड दस्तावेज़ीकरण में   के बारे में अधिक पढ़ सकते हैं। BigQuery लागत अनुकूलन   केस स्टडी पर मेरे साथ सहयोग करने और मुझे BigQuery की वास्तुकला को समझने में मदद करने वाली बहुमूल्य अंतर्दृष्टि प्रदान करने के लिए   का विशेष धन्यवाद। अबू नशीर  संदर्भ    - लिंक्डइन अबू नशीर    - पीटर गोल्ड्सबोरो डरमेल पर एक नज़र    - Google क्लाउड BigQuery    — Google क्लाउड BigQuery ने समझाया: BigQuery की संरचना का अवलोकन    - Google क्लाउड हुड के नीचे कोलोसस: Google की स्केलेबल स्टोरेज सिस्टम में एक झलक    - विकिपीडिया स्तंभ-उन्मुख DBMS    - विकिपीडिया अल्पविराम से अलग किए गए मान    - Google मेघ विभाजित टेबल बनाना    - एमडीएन जावास्क्रिप्ट मॉड्यूल   बृहस्पति विकसित हो रहा है: Google के डेटा सेंटर नेटवर्क परिवर्तन - Google क्लाउड पर प्रतिबिंबित करना    — Google क्लाउड तरीका: Jobs.query    - विकिपीडिया प्रोटोकॉल_बफ़र्स    - Google क्लाउड इंटरएक्टिव और बैच क्वेरी जॉब चलाएं    — Google क्लाउड कैश्ड क्वेरी परिणामों का उपयोग    - Google मेघ लेखन क्वेरी परिणाम   कनेक्ट करना चाहते हैं?  यह लेख मूल रूप से   पर पोस्ट किया गया था। डाव-चिह की वेबसाइट

2022 - HackerNoon Contributor of the Year - Leadership

2022 - HackerNoon Contributor of the Year - Learning

2022 - HackerNoon Contributor of the Year - Product Management

2022 - HackerNoon Contributor of the Year - Software Engineering

2022 - HackerNoon Contributor of the Year - Typescript

Coding Guru of 2022

Check out my website!

Nominated for 2022 - HackerNoon Contributor of the Year - Product Management

Nominated for 2022 - HackerNoon Contributor of the Year - Typescript

Nominated for 2022 - HackerNoon Contributor of the Year - Leadership

Nominated for 2022 - HackerNoon Contributor of the Year - Software Engineering

Nominated for Coding Guru of 2022

Nominated for 2022 - HackerNoon Contributor of the Year - Learning

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

बहुत लंबा; पढ़ने के लिए

Google क्लाउड BigQuery को कैसे अनुकूलित करें और लागत को नियंत्रित करें

Google क्लाउड BigQuery को कैसे अनुकूलित करें और लागत को नियंत्रित करें

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

सफल क्लाउड माइग्रेशन के लिए संपूर्ण गाइड: रणनीतियाँ और सर्वोत्तम अभ्यास

उपयोगकर्ता-केंद्रित क्रिप्टो उत्पाद बनाना: ग्राहक प्रतिक्रिया का महत्व

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

टेलीग्राम: क्रिप्टो द्वीप का मुख्य भूमि से पुल

सफल क्लाउड माइग्रेशन के लिए संपूर्ण गाइड: रणनीतियाँ और सर्वोत्तम अभ्यास

उपयोगकर्ता-केंद्रित क्रिप्टो उत्पाद बनाना: ग्राहक प्रतिक्रिया का महत्व

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

टेलीग्राम: क्रिप्टो द्वीप का मुख्य भूमि से पुल

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps