नोट: आर्किटेक्चर सक्रिय रूप से विकसित हो रहा है: Kafka के माध्यम से घटनाएं, एक मीडिया गेटवे के माध्यम से MinIO, ClickHouse में विश्लेषण, और GUI के लिए एक पतला Read API। Ingest WARCs लिखता है; संक्षेप सटीक पाठ हैश द्वारा कुंजी किए गए साइडकार ऑब्जेक्ट हैं। बिल्डिंग जीवन में कई बार हमें कुछ करना पड़ता है क्योंकि यह आसान नहीं है, बल्कि यह कठिन है. मैं उन स्थानों में से एक हूं. मेरा सपना: एक प्रोग्राम का निर्माण करने के लिए और तकनीकी खबरों को उठाने और संदर्भित करने के लिए। अगले जीन में विस्तारित वास्तविकता में रुचि रखते हैं? BillsTechDeck आपको इसके बारे में जानकारी खोजने में मदद कर सकता है! दुनिया गैजेटों और तकनीकी घोषणाओं के प्रकारों के लिए व्यापक रूप से खुला है जिन्हें आप तकनीकी रुझानों का मूल्यांकन करने के लिए एक संबंधित स्रोत से प्राप्त कर सकते हैं और शायद एक समग्र छवि प्राप्त कर सकते हैं जो आपको तीव्र गूगलिंग के साथ दूर कर सकता है। "बड़े चित्र" प्राप्त करने में सक्षम होने से एक बड़ा सांस लेना। यह एक समस्या है जिसे मैं एप्पल से विजन प्रो पर जानकारी की तलाश करते समय या जब मैं नए स्विच 2 समाचार की प्रतीक्षा कर रहा था। चलो सिस्टम की एक समीक्षा के साथ शुरू करते हैं, जिसमें एक प्रवाह चार्ट दिखाया जाता है (बहुत कठोर)। कुछ विचार: संदेश को वापस इंगित करने वाले सभी धनुष अलग-अलग पंक्तियों में प्रवाह कर रहे हैं। इसके अलावा, प्रत्येक सहायक प्रणाली को Docker कंटेनरों में और K8 के द्वारा संगठित किया जाना चाहिए और एक सीआई / सीडी पाइपलाइन में (मैंने इसे चार्ट में शामिल नहीं किया क्योंकि यह बहुत व्यस्त होगा)। मूल रूप से मैं खबरों, रुझानों, स्रोतों, विश्लेषणों, संक्षेपों को एक स्थान पर रखना चाहता हूं ताकि मैं तकनीकी खबरों, गैजेटों और रुझानों के zeitgeist को समझ सकूं। एक निष्पक्ष तरीके से कुछ करने की कोशिश: अब, मैं सिर्फ एक शौकिया हूं. इसलिए मैं कोई दावा नहीं करता कि मैं कुछ भी जानता हूं. मैं मजा कर रहा हूं जो सच्ची खुशी है. चलो इस प्रणाली में एक उच्च समीक्षा लेते हैं। मैंने इसे फिर से बहुत sooooo चलो कदमों को तोड़ते हैं (आउट करने के लिए संबंधित चरणों): कैफीन Harvester IngressOrca से इनपुट लेता है जो FeedbackService से जानकारी पर आधारित है. यह MinIO का उपयोग करता है WARCs को एक साथ करने का एक तरीका के रूप में और एक वितरित तरीके से समृद्ध मीडिया को संभालने में सक्षम हो सकता है. मीडिया MinIO क्लस्टर (Media Cluster) में संग्रहीत होता है जो sha256 और sha1 कुंजी पर काम करता है (WARCs के मामले में, लेकिन उनके पास सिस्टम संतुलन के लिए sha256 हैश कुंजी भी होगी) Sanitizer को Harvester से नौकरियों की रैंकिंग मिलती है और मीडिया गेटवे से मीडिया को sanitize करने के लिए खींचती है. If its dirty we still keep it to perform forensics in a controlled environment Kafka से नौकरियों के आधार पर अमीर मीडिया पर OCR चलाया जाता है spaCy (NER) हर चीज पर चला जाता है. spaCy spaCy स्वच्छता चेक करने के लिए एक जुड़ा हुआ काम प्रस्तुत करता है, और अगर स्वच्छता यह एक स्कोरिंग सेवा के लिए भेजा जाता है कि क्या एक स्वचालित phi4 सारांश उचित है, अगर यह उचित नहीं है, तो यह केवल संरेखण इंजन को भेजा जाता है. यदि पागल है, तो डेटा को एक InsanityHandler को भेजा जाता है (कुछ संक्षिप्तता के लिए नहीं दिखाया जाता है) विश्लेषण के रूप में उपयोग करने के लिए या मानव जाँच प्राप्त करने के लिए। Phi4 विशिष्ट डेटा के टुकड़ों पर चला जाता है या तो स्कोरिंग सेवा द्वारा गारंटी दी जाती है या उपयोगकर्ता द्वारा शुरू की जाती है। Correlation Engine सब कुछ पर चलता है प्रत्येक सहायक प्रणाली में मजबूत ऑडिशन होगा और LogHandler द्वारा और LogSilo / ElasticSearch में संभालने के लिए लॉग पंक्तियों को प्रस्तुत करेगा मीडिया तक पहुंच की आवश्यकता रखने वाले उप-सिस्टम / ड्रेडर एक MediaGateway के माध्यम से आरामदायक कॉल के माध्यम से मिनीओ क्लस्टर के साथ बातचीत करेंगे। विभिन्न प्रबंधक GUIHandler से बात करते हैं जो GUI को प्रदर्शित करता है. GUIHandler ControlEvents भेज सकता है ( phi4 संक्षेप के लिए पूछना, चीजों को समायोजित करना) FeedbackService HistoricalHandler से बात करता है ताकि HistoricalSilo से बाहर निकलने के लिए एक मॉडल को प्रशिक्षित किया जा सके जो IngressOrca (Orchestrator) के लिए बेहतर जानकारी प्रदान करेगा ताकि हम बेहतर जानकारी कब, कहां और कैसे खींच सकते हैं ताकि हम बैक डेटा पर बर्बाद संसाधनों को कम कर सकें सभी डेटा एक MinIO क्लस्टर (MediaCluster) में संग्रहीत होते हैं और आरामदायक कॉल के माध्यम से पहुंच जाते हैं बुलाने वालों को बुलाने वालों को बुलाने वालों को बुलाया जाता है। सभी सहायक प्रणाली Kubernetes द्वारा कंटेनरित और ऑर्केस्टेड हैं हार्दिक प्रवेश Feedback सेवा स्वच्छता हार्दिक ओसीआर स्पेसिंग (NER) बेवकूफ फिलहाल 4 Correlation इंजन लॉगिन लॉगएसिलो / ElasticSearch मेडिटेशन मीडिया क्लस्टर मेडिटेशन गीता गीता नियंत्रण Feedback सेवा ऐतिहासिक व्यापार ऐतिहासिक प्रवेश मीडिया क्लैंप गीता I'm sure I left out some detail, but that's the gist. कटाई के लिए: डेटा संग्रह डेटा संग्रह Pixel Fold 3 के बारे में हमारी खबरों को कैसे इकट्ठा करें? हमें इसे ऑनलाइन से खींचने की जरूरत है! विभिन्न स्रोतों को विभिन्न डेटा संग्रह विधियों की आवश्यकता होती है। सभी साइटों के पास विशिष्ट संरचनाएं भी हैं (कितनी जटिल) सौभाग्य से हमारे पास डेटा संग्रह के पीछे एक अविश्वसनीय पारिस्थितिकी तंत्र है। बोट डिटेक्शन, DDoS फ़िल्टरिंग, कैप्च, गलतफहमी की जानकारी Python एक इस उद्देश्य के लिए भाषा का उपयोग करने के लिए और एक जीवंत समुदाय है जो मेरे जैसे शौकियाओं को Steam Deck 2 तकनीकी विनिर्देशों और इसके बारे में अन्य चैट पर महत्वपूर्ण जानकारी को पकड़ने में मदद करने के लिए कड़ी मेहनत कर रहा है (कितना अविश्वसनीय)। अविश्वास Recon What is the site structure? What is the site's flow? What tricks are companies like Akamai pulling to impede my ability to get my precious tech snippets? What values change and where? When does my cookie become invalid depending on an abnormal flow? Does the javascript try to fool me? Is it dynamic, obfuscated or check for tampering? Are my user agents okay and when do I rotate them? How do I handle headers? How do I handle TLS Fingerprinting? This list is getting long so I'll just add "heuristics" यह एक बहुत ही शामिल प्रक्रिया है और ध्यान की एक अच्छी मात्रा की आवश्यकता होती है. इसलिए मेरे तकनीकी समाचार प्राप्त करने के लिए लक्ष्यों को आम तौर पर और परिभाषित किया जाना चाहिए। और साइटों और उनके heuristics के बारे में मूल्यवान जानकारी एकत्र करने के लिए महत्वपूर्ण है। गिरते हैं Proxy के लिए CAPTCHAs *: image recognition tasks* Tradition CAPTCHAs *: Machine learning looking at user behavior to determine bot behavior* ReCAPTCHA *: pesky things that run in the background by grumpy site admins looking to stop me* Invisible CAPTCHAs पारंपरिक कैप्चर रिकॉर्ड अविश्वसनीय कैप्चर हालांकि एक छोटा सूची, ये निश्चित रूप से एक बड़ा बाधा है और किसी भी तरह से और पूरी तरह से सूची. इन समस्याओं के सभी समाधान जटिल समाधानों की आवश्यकता है. जटिल समाधान जो लगातार बदलना है. मैं आगे बढ़ सकता हूं, लेकिन मुझे विश्वास है कि प्रतिष्ठित आवासीय प्रॉक्सी का उपयोग करने, मोबाइल प्रॉक्सी का उपयोग करने, दर सीमित करने, डिवाइस उंगली के निशान को पहचानने और कम करने और अंत में शहद पाउट्स जैसे चीजों में जोड़ना। इसलिए हमें विभिन्न दृष्टिकोण स्तरों की आवश्यकता है: स्नातक प्रतिक्रिया क्रॉलिंग रणनीति "एक पिलेट बंदूक के साथ परीक्षण करें, एक आदेश के लिए बढ़ोतरी करें यदि यह फूबर'd है। "एक पिलेट बंदूक के साथ परीक्षण करें, एक आदेश के लिए बढ़ोतरी करें यदि यह फूबर'd है। : Level 1 Pellet Gun aiohttp scrapy Use for static pages, public APIs, or weakly protected endpoints. Low noise, low cost. : Level 2 Scoped Rifle Playwright + stealth plugins Use for JS-rendered sites, light bot defenses, simple captchas. Mimics real users, simulates browser behavior. Level 3: Ordinance Crawl4AI / Nodriver , heavyCAPTCHA solving , Mobile proxies Use when you hit: invisible captchas, anti-bot JavaScript puzzles, DOM obfuscation, or flow control defenses. Heavy but necessary for hard targets. पिल्ले बंदूक हथियार चोरी आदेश क्यों मायने रखता है कुशलता: जब Curl काम करता है तो Playwright चक्र नहीं जलाएं। Stealth: अनावश्यक रूप से अलार्म उठाने से बचें। लंबे जीवन: प्रतिबंध के बिना महीनों के लिए चलाएं, सप्ताह नहीं। हालांकि अब हम जटिलता पेश करते हैं जो ठीक है. शुरुआत में हमारे पास बहुत ही सरल नियम होंगे. सिस्टम बढ़ने के साथ और मजबूत हो जाता है हम बेहतर स्थानों पर बेहतर कॉल कर सकते हैं क्योंकि हम और हमें मार्गदर्शन करने के लिए पैटर्न। ऐतिहासिक ऐतिहासिक डेटा ऐतिहासिक इस प्रणाली का यह हिस्सा संभवतः और एक होगा जो लगातार अद्यतन की आवश्यकता है क्योंकि बिल्ली और माउस खेल के बीच weenies चलाने साइटों मुझे अपने मीठे, मीठे सैमसंग समाचार से दूर रखने के लिए। सबसे जरूरी मैं एक योजना के साथ आया हूं कि मैं वास्तविक समय डेटा खींचने के बारे में चिंता करने से पहले अवशोषित कर सकता हूं, अवशोषित कर सकता हूं, अवशोषित कर सकता हूं और सत्यापित कर सकता हूं। async और non-blocking होना चाहिए। इंटरनेट फ़ाइलों Python Wrapper यदि मैं बस समय पर बहुत सारे डेटा खींचना शुरू कर देता हूं, तो मेरे संबंधों का कोई मतलब नहीं होगा. ऐतिहासिक डेटा मुझे बहुत अधिक आश्वासन देता है और मुझे 20/20 वापसी के साथ जानकारी की पुष्टि करने की अनुमति देता है. इस दृष्टिकोण से मुझे सिस्टम के बाकी हिस्सों पर ध्यान केंद्रित करने और ध्यान केंद्रित करने की अनुमति मिलती है, जिसके लिए बहुत सारे परिवर्तनों की आवश्यकता होगी. मुझे लगता है कि सिस्टम की शुरुआत में एक क्रॉलर का निर्माण बहुत अधिक समय लेगा और बाकी हिस्सों को छोड़ देगा. किसी भी डेटा पर भरोसा नहीं किया जाना चाहिए: आपके सिस्टम को जहर देने वाले लोगों की कला आपके सिस्टम को जहर देने वाले लोगों की कला What's the problem with taking data from the internet? Well, anyone who has been on the internet for any length of time knows about the dirty trolls. Actors who are out to hose you and your noble goal of getting the new smart phone information. Because the fact that people want to pwn you, you have to assume the worst. चलो कुछ चिंताओं को उजागर करते हैं (एक पूर्ण सूची नहीं, सिर्फ एक स्वाद) Malice in action Javascript Payloads (XSS, Embedded goodness, etc) Worry about data exfiltration Browser Exploits Redirection and Phishing PDF Macros and Embedded Object Can do spooky things like "remote code execution" Info disclosures Initiate connections to scary C2's Handling various filetypes Office Document macros EXE/DLL (less of a concern since they'd be filtered Malicous archive files that contain executables and path traversals Image/Media file: hiding stegonagraphy or utilizing dirty dirty codecs Data Integrity Tampered data Spoofed sources People looking to poison my system with generally bad data So how do we deal with this? Some things I left off this list (like servers trying to DDoS my harvester by serving up tons of unnecessary data to hurt my feelings). हम सबसे पहले सभी डेटा को अलग करना चाहते हैं और इसमें शामिल करना चाहते हैं जिन्हें हमने परीक्षण नहीं किया है. एक अलग काला बॉक्स जो या तो एक अलग नेटवर्क प्रणाली पर रहता है या . While occurs, it has to be weighed with the caveats that come with air-gapping (which I won't bore anyone with). air-gapped VLAN हाइप एक स्तर चल रहा है rules on a file. Which is fine, and a great starting point. We have tools for macro analysis. We have an analysis tools. We can verify files are what they are (making sure the dirty trolls aren't hiding exe's). We have . We check hashes against threat feeds. YARA पीडीएफ static code analysis We also have दूसरी तरफ, यह जब तक हम इंटरनेट फ़ाइल के चरण से गुजरते हैं. यह आता है caveats. It provides dynamic analysis, behavioral reporting, threat detection... , Some dirty files can detect sandbox environments. Others can escape them. It is resource intensive and has a complex setup. It is too resource intensive and complex for a while. Cuckoo won't be implemented महत्वपूर्ण लेकिन इसे रोक दिया जा सकता है! इसे रोक दिया जा सकता है! Lastly, we have to worry about data poisoning. I don't have a clear path on how to handle this. There is a breadth of research papers I am going to go through to better understand the problem and approaches. कोई नहीं कहता मैं यह लिख रहा हूं कि मैं क्या कर रहा हूं, यह एक निश्चित लेख नहीं है। कितने तरीके बुरे लोग कर सकते हैं me and my system. safety is easy स्टेज compromise I have yet to see a lock that can't be picked. I can only make it as complicated as I can. With that in mind, I am designing this part with प्रदर्शन, स्मृति सुरक्षा और मुझे यह बहुत पसंद है। job. Media will be fetched and posted to the to interact with the (मिनिओ क्लस्टर) आराम Tokio MediaGateway MediaCluster MediaGateway MediaCluster In conclusion: In conclusion: In conclusion: ज्यादातर समय के लिए, are के लिए . The further I can put the sweet, sweet apples up the tree and जितना बेहतर। bad actors looking low hanging fruit हमले की सतह को कम करें If the data is skanky we quarantine it so we can analyze it. We document it and store the analytics revolving around it in the . ऐतिहासिक ऐतिहासिक Ph4 मध्यम: summarizing for busy people like me summarizing for busy people like me बहुत सारे चुनौतियों के साथ आते हैं. संसाधन बुद्धिमान, सामग्री बुद्धिमान. हालांकि, उनके पास हमें संभावित रूप से लंबी जानकारी के संक्षेपों को भी देने की क्षमता है. यही कारण है कि मैं उपयोग कर रहा हूं (needed something more robust). LLM के बारे में Phi4-medium मैं इसे क्यों चुनूँगा? Goldilocks size and performance Medium is bigger than mini. Medium has 14 billion parameters. Competitive enough with larger models but more efficient Optimized for my use cases Suitable for local deployments Cost effective (since I'm a lowly cabbage farmer) Flexibility in deployments I need something local and powerful and it fits the bill. Having it being its own docker image makes it easy. Another positive is my ability to fine tune it (for my greedy need for information on the new iPhone). चेतावनी ! Hallucination Tis the cost of doing business. For this I may have to implement and RAG system. My own guys are working against me! *sigh* English In the end this is not an overall large deal since I'm not multilingual. Though it adds complexity should I want to expand data sources to places I can't understand I'm pigeonholing myself into consuming English. My own guys are working against me! English So what does a like me do? हेडस्ट्रांग सेब किसान Sanity checks. Things like volume yields : Checks if the summary's length is reasonable. Meaning Did Phi-4 produce a 150-word summary as requested, or did it return a single sentence or a 10-page novel? . Cardinality or categorical value checks : Checks if the entities (people, places, etc.) in the summary are a valid subset of the entities in the original article. Primary defense against hallucination. Meaning Does the summary mention 'Germany' when the source text only ever mentioned 'France'? . Completeness and fill rate checks Checks for the omission of critical information. Meaning: The original article mentioned three key companies, but the summary only includes one. Is the summary missing vital information? Uniqueness checks Checks for repetitive or redundant content within the summary. Meaning: Did the model get stuck in a loop and repeat the same sentence three times? . Range checks Checks if numerical data in the summary is factually correct based on the source. Meaning: The source text says profits were '$5 million,' but the summary says '$5 billion.' Is this a catastrophic numerical error? Presence checks The most basic check: did the service return anything at all? Meaning: Did the Phi-4 service time out or return an empty string instead of a summary? Data type validation checks. Checks if the summary adheres to the requested structure. Meaning: I asked for a JSON object with a 'title' and 'key_points' array. Is the output valid JSON with those exact keys? Consistency checks The deepest check for factual grounding and logical contradiction. Meaning: The source text says 'the project was cancelled,' but the summary implies it's ongoing. Does the summary contradict the facts of the original article? Things like volume yields Cardinality or categorical value checks पूर्णता और भरने की दर की जांच Uniqueness checks रेंज चेक Presence checks Data type validation checks. Consistency checks यह सूची जल्दी से बेंजामिन ब्यूफोर्ड ब्लू नामक प्रयोगों के रूप में बन सकती है, इसलिए मैं इसे वहां शीर्ष पर रखूंगा। This will be auto-run based on the scoring service or manually requested by . moi Grabbing Entities with spaCy: के grabbing प्रासंगिक बातें पकड़ना प्रासंगिक बातें We are at the section. spaCy Which model do I choose? offers a variety of pretrained models all with their own uses. They are trained on so out of the box मुझे शायद एक आदत को अच्छी तरह से टोन करने की आवश्यकता होगी and add . At the start I will need to annotate data to train my model (there are open source tools to somewhat automate this process). This will also encompass training it to . अंतरिक्ष general web content यह तकनीकी जारगन को नहीं पहचानेगा मॉडल नहीं कस्टम घटक इकाइयों को पहचानें I will need to be ( and ) I जाने और करने के लिए and (i.e. "Apple" the company and "apple" the fruit). With that comes the possibility of building a custom entity linking component or external tool integration (hopefully not). fluent नियम-आधारित मैच matcher EntityRuler जरूरत होगी entity linking disambiguation Since I'm only worried about English at the moment, I am blessed to be ignorant of language detection. Past that I will need to consider performant things like and जब उपयोग नहीं किया जाता है तो इसे बंद करें! batch processing component disabling संभव विचार के साथ चलने के साथ I'll have to consider based models and based models, and also have to consider considerable RAM utilization. समान प्रक्रियाएं पीएच4 CPU जीपीयू There's . अनुकूलित गुणों का उपयोग करना एक अनिवार्य होगा. मुझे डोमेन के बाहर पाठ की योजना बनानी होगी, जिसमें मैं अनिवार्य रूप से भागूंगा और यह जानना मेरे लिए महत्वपूर्ण है कि कैसे संभालना है। pre-processing, post-processing and possibly integrating external logic and models Lastly, and almost most importantly: Sanity checks. Schema validation Verifying correct data types Paying close attention to the behavior around critical fields Defining expected data types तारीखों और शब्दों की गणना जैसे चीजों के साथ स्वीकार्य सीमाओं को स्थापित करना Define allowed values पूर्णता की सीमा निर्धारित करें cross field consistency के नियमों पर विचार ऊपर उल्लेख किए गए स्वच्छता जाँच चीजों में से बहुत कुछ यहां लागू होता है, लेकिन एक अधिक संक्षिप्त अर्थ में इकाइयों से निपटने में। I feel okay about the completeness of this section. Data correlation: चीजों का अर्थ बनाना making sense of things in this system is important. I need a language that can provide me some memory guarantees as well as stop me from making newbie mistakes. I drifted towards at first. I thought it through and arrived back at . I'm simply not an experienced प्रोग्रामर और शायद ऐसी चीजें लागू करेंगे जो मेरे सिस्टम को खराब कर देंगे। डेटा संदर्भ incredibly C++ Rust C++ मूल रूप से, इकाइयों से लेता है और कनेक्ट करें. यह उपयोग करेगा to . I needed some real granularity and functionality for statistics in correlation. An earlier draft incorporated RocksDB, which wasn't robust enough with recent developments. आराम अंतरिक्ष क्लिनिक लिखना / पढ़ना / दुकान प्रासंगिक things So stats will be important (yay!). An कोडिंग का तरीका कुंजी है और मुझे यह जानने की ज़रूरत है कि मैं क्या करता हूं, क्यों करता हूं और मैं चीजों को कैसे लागू करता हूं। इस मामले में, मैं कई I / O प्रक्रियाओं के बारे में बात करूंगा। . आदर्श टोक्यो ClickHouse हम मूल रूप से सभी संस्थानों और on them an compare it . run rich analysis ऐतिहासिक डेटा I consider the following things: Is this relationship statistically significant? क्या यह संदर्भ सिर्फ "स्वास्थ्य" से अधिक है? क्या इस अर्थ के साथ एक ग्राफ संबंध बनाने के लायक है? क्या इस विशिष्ट संबंध पर जोर देने के लिए तथ्य का समर्थन है? So I'd need to do things like establish a for connections. It'd also be a good idea to establish , एक माप है कि दो इकाइयों को एक साथ दिखाने की कितनी अधिक संभावना है जहां उच्च और नकारात्मक स्कोर मुझे एक संबंध के बारे में महान चीजें बताते हैं। p-value Pointwise Mutual information ध्वनि को दूर करने के लिए आंकड़ों का उपयोग करना आवश्यक है. उदाहरण के लिए, संस्थान और एक साथ हजारों बार दिखाई देंगे, लेकिन यह कनेक्शन और आंकड़े हमें यह साबित करने में मदद करते हैं कि एक दुर्लभ कनेक्शन, जैसे कि एक विशिष्ट तकनीकी कंपनी और एक सरकारी एजेंसी, बहुत अधिक महत्वपूर्ण है, भले ही यह केवल कुछ बार दिखाई दे। अपने क्योंकि यह एक . एप्पल » 'iPhone' obvious not Whitehouse not significant white building Past getting into some concepts I feel out of the scope of this overview, I'll leave it at that. Data: बैकबॉक्स बैकबॉक्स तो गर्म नई तकनीक वस्तुओं के बारे में सभी डेटा के साथ मैं क्या करूँ? मैं इसे हार्ड करता हूं। I will have multiple databases (PostgreSQL, ClickHouse, Neo4j, मिनीओ) सभी डेटा संचालन के माध्यम से पोषित किया जाएगा एक काम करेगा operations, one जिसका उपयोग आर्टिफैक्ट डेटा को संग्रहीत करने के लिए किया जाएगा , two will be ( और ). Its a lot, but each DB has its own strength and I believe a simple would have significant drawbacks. डेटा प्रबंधक 4j के बारे में PostgreSQL (आमतौर पर एक मेटाडेटा रजिस्ट्री) क्लिनिक ऐतिहासिक संदर्भ "SQL Server for everything" ऐतिहासिक संदर्भ डेटा संरचनाएं, मुख्य दस्तावेज और मुख्य दस्तावेज समान होंगे (complex अन्य चीजों के बीच) यह काफी आसान होगा, हालांकि निश्चित रूप से बहुत देखभाल की आवश्यकता होगी. यह बहुत सोचने, आँसू और निराशा का एक स्रोत होगा. एक अच्छा डिजाइन स्पाइड्स में भुगतान करेगा. मैं बाद में इस पर पहुंच रहा हूं क्योंकि मुझे लगता है कि मुझे प्रणाली में आगे की जरूरत के बारे में एक बहुत बेहतर विचार होगा. अच्छे ClickHouse संग्रहीत प्रक्रियाएं आर्टिफिशियल ArtifactSilo एक और जानवर है. मैं महसूस करता हूं जब तक मेरा it in it should be painless (famous last words). My feelings are that I essentially want to try and make it as dumb as possible. I want to be able to point to point to my correlation engine and understand the यदि मैंने जटिलता और संदर्भ तर्क के परतों को जोड़ना शुरू किया, तो डेटा अधिक जुड़ा हुआ हो जाता है और मेरे संदर्भ इंजन के मूल्य से कम हो जाता है 4j के बारे में कॉलिंग नहीं है कॉलिंग अपेक्षाकृत "why?" के will be a DB have a lot of granular data from things like: ऐतिहासिक क्लिनिक HistoricalSilo जहां हमें अच्छे डेटा मिलते हैं कौन सा खोज पूछताछ ने सबसे अच्छे डेटा का उत्पादन किया किस डेटा स्रोत के लिए कौन सा कटाई विधियों ने सबसे अच्छा काम किया कहाँ / कब और संभावित रूप से क्यों हम गंदे डेटा प्राप्त करते हैं Analytics about that dirty data There's most likely much more, and I will find them when I get to that point. The क्लस्टर दूसरों की तुलना में लागू करने के लिए कम दर्दनाक होगा. मुझे अभी भी सुनिश्चित करने की आवश्यकता है कि सब कुछ बेल्ट और निलंबन है. मिनी डेटाबेस एक गहन अनुभव होगा. एक टन और होगा. थोड़ा-थोड़ा हालांकि। GUI: Webapp समय! The will be a . प्रारंभ में मैं इसे एक डेस्कटॉप ऐप बनाने जा रहा था. मुझे एहसास हुआ कि अंततः मैं अधिक लोगों को इसका उपयोग करना चाहता हूं। यह एक अच्छा विकल्प नहीं होगा। GUI वेबएप Pyside6 A का उपयोग मुझे इतने विविध पुस्तकालयों तक पहुंच मिलती है. मुझे ऐसी अविश्वसनीय जानकारी तक पहुंच मिलती है जो यदि मैं एक जीयूआई का उपयोग करता हूं तो उपलब्ध नहीं हो सकती है. , मेरे लक्ष्यों बहुत अलग थे. मैं ईमानदारी से सिर्फ पायथन में एक gui लिखना नहीं चाहता था. मेरे पास क्यों नहीं करने के लिए कोई अच्छा कारण नहीं है. यह पूरी तरह से सक्षम है. यह सिर्फ एक व्यक्तिगत प्राथमिकता थी. वेबएप Pyside6 मेरे मस्तिष्क में उस नंगा महसूस होने के कारण मैंने अन्य गीज़ विकल्पों की तलाश की। GUI परियोजनाओं के बारे में छोड़ दिया गया था. इसके अलावा, GUI पुस्तकालयों के साथ लोगों के निर्माण के अच्छे उदाहरणों को ढूंढना मुश्किल था, अगर असंभव नहीं था. मैं निश्चित रूप से बस आगे बढ़ सकता था, लेकिन मैं कुछ का उपयोग करने के लिए नहीं करना चाहता था और यह महसूस करने के लिए आया कि एक निश्चित GUI के साथ मेरी दृष्टि संभव नहीं है. LOT इसलिए मैं एक के साथ गया इसमें बहुत सारे लाभ हैं, लेकिन अब मुझे वास्तव में सुरक्षा के शीर्ष पर होना होगा. हालांकि, मुझे उस जटिलता के बारे में चिंता करने की ज़रूरत नहीं होगी जब तक कि मुझे नहीं लगता कि मैं अपने परियोजना को दिखाने के लिए तैयार हूं, और शायद तब तक मैं कोड करने के लिए कुछ शानदार लड़कों को ढूंढ सकता हूं। webapp मूल रूप से, गीता के साथ बात करता है कौन बोलता है , , और ऐसी घटनाओं को नियंत्रित करें जैसे कुछ नौकरियों को चलाने में सक्षम हों। नौकरियों को कैसे स्थानांतरित किया जाए और नौकरियों को कैसे स्थानांतरित किया जाए . गेहूं लॉगिन आर्टिफिशियल ऐतिहासिक व्यापार नियंत्रण कैफीन गेहूं लॉगिन आर्टिफिशियल ऐतिहासिक व्यापार नियंत्रण हमें सभी प्रकार के अमीर मीडिया की सेवा करने में सक्षम होना होगा। यह सिर्फ एक वेब ऐप बनाने के लिए अधिक सावधान महसूस होता है। अंतिम शब्द: अंतिम विचार अंतिम विचार मैंने सबकुछ कवर नहीं किया। एक चीज जो मैं जोड़ना चाहता हूं वह है मेरे विकल्प . इस परियोजना के लिए अभी वास्तव में ओवरकोल है. यह मेरा प्रारंभिक विकल्प नहीं था. हालांकि, मैं विकास के दौरान एक झटका में भाग गया जब मेरा प्रारंभिक विकल्प अस्थिर हो गया. तो, जहाँ मैं उतर गया। इस पोस्ट को अब 4.5k शब्दों पर बंद कर दिया गया है कैफीन कैफीन कैफीन एक अतिरिक्त बोनस यह है कि यह एक CV पर अच्छा दिखता है। मैं हमेशा कोशिश करता हूं और एक डेवलपर बनने का फैसला करता हूं। If . I won't हालांकि, यह अच्छा दिखता है। मुझे प्रौद्योगिकी प्रवृत्तियों के लिए मेरे प्यार में जीवन को सांस लेने में सक्षम होने के लिए आगे बहुत काम है। Do I इनमें से किसी को करने के लिए? जरूरत No. मुझे लगता है कि यह अविश्वसनीय मज़ा है। सभी आर्किटेक्चर और प्रवाह विकल्प परिवर्तन के अधीन हैं. इस ब्लॉग पर मैं कोड प्रदान नहीं करूंगा (मैं आपकी आँखों को बचाऊंगा)। There are tradeoffs everywhere. कैफका का स्केल कब करें? क्या मैं एक संसाधन ऑर्केस्ट्रेटर को लागू करता हूं ताकि मैं अपने रिग को जला न सकूं? मैं "मूल्य" डेटा को परिभाषित करने के साथ कितना granular हो जाता हूं? उपयोगी डेटा को साफ करने के लिए सिस्टम के भीतर मैं क्या करता हूं? क्या मुझे देर रात की सत्रों को डार्ट जलाने की आवश्यकता होगी? मैं क्या करूँ अगर मैं समझौता कर रहा हूं? मैं डेटा विषाक्तता को कैसे संतुलित करूं? वेक्सिंग वेक्सिंग हालांकि, भयानक है, मेरे पास एक समय और कोई बॉस मुझे असफल होने के बारे में सवारी करने के लिए नहीं है। गुप्त हथियार यह वर्षों तक चलेगा। और यह ठीक है। यह परियोजना पाठक के लिए बाहरी रूप से पागल और महत्वाकांक्षी हो सकती है। मैं इसे स्वीकार करने के लिए पर्याप्त जागरूक हूं। हालांकि मैं कहना चाहता हूं कि मैं सिस्टम के भीतर ज्ञान के सभी क्षेत्रों में अविश्वसनीय रूप से रुचि रखता हूं। 100 मीटर स्प्रिंट नहीं . लंबी मैराथन बिट से बिट बिट से बिट मैं एक सबक से सीखना चाहता हूं स्प्रूस एक आदमी है जिसने यूपीएस मुख्यालय का पता अपने स्वयं के, शिकागो में एक अपार्टमेंट में बदल दिया था. यह महीनों के लिए अनुमति दी गई थी जहां श्री स्प्रूस ने अपने खाते में ~ $ 65k नकदी जमा करने में सक्षम था जो यूपीएस के लिए समर्पित था. श्री स्प्रूस यह कैसे फिट होता है? इस कहानी से मैंने सीखा है कि क्या संभव है में एक तार्किक छत के लिए पूरी तरह से अनदेखा करने के लिए श्री स्प्रूस ने खुद को इस बारे में सवालों के साथ चिंतित नहीं किया कि क्या वह वास्तव में दुनिया की सबसे बड़ी रसद कंपनी के पते को अपने स्वयं के अपार्टमेंट में बदल सकता है या नहीं। . हिम्मत और यह काम करता है हिम्मत और यह काम करता है जबकि मुझे लगता है कि मैं निश्चित रूप से श्री स्प्रूस की आवेग नियंत्रण की कमी और भविष्यवाणी की अनुपस्थिति को छोड़ सकता हूं, मैं कोशिश करने के लिए साहस को आंतरिक कर सकता हूं। शायद मैं नहीं कर सकता. मैं कोशिश नहीं करने के बजाय बड़े विफल रहना चाहता हूं. इसके लिए, मुझे श्री स्प्रूस के दृष्टिकोण को पूरी तरह से गड़बड़ नहीं करने का प्रतीक होना चाहिए. यदि आप इस ब्लॉग से टकरा चुके हैं, तो मुझे उम्मीद है कि आपने कुछ सीखा है। बहुत प्यार, बिल "जादूगर" एंडरसन