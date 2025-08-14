සටහන: ආකෘතිය ක්රියාකාරීව වර්ධනය වන අතර: Kafka හරහා සිදුවීම්, Media Gateway හරහා MinIO, ClickHouse හි විශ්ලේෂණය, සහ GUI සඳහා අලංකාර කියවීමේ API. Ingest WARCs ලිව්වා; සම්ප් රදායිකයන් නිවැරදි පෙළ හෙෂය මගින් සකස් කරන ලදී. BillsTechDeck සමාගම ජීවිතයේ බොහෝ අවස්ථාවල අපි දෙයක් කරන්න ඕන නිසා නොවේ, එය පහසු නිසා, නමුත් එය දුෂ්කර නිසා. මම ඒ ස්ථාන වලින් එකක්. මගේ සිහිනය: ලබා ගැනීමට හා තාක්ෂණික පුවත් සකස් කිරීම සඳහා වැඩසටහන ගොඩනැගීම. ඊළඟ ජෙනරියේ වැඩි දියුණු යථාර්ථය ගැන උනන්දුවක්? BillsTechDeck ඔබට එය පිළිබඳ තොරතුරු සොයා ගැනීමට උදව් කළ හැකිය! ලෝකය ඔබ සමාන මූලාශ්රය සිට ලබා ගත හැකි යටිතල සහ තාක්ෂණික ප්රවෘත්ති වර්ග සඳහා පුළුල්ව විවෘත වන අතර සමහර විට ශක්තිමත් ගූගල් කිරීමෙන් ඔබව අතහැර දැමීමට ඇති පොදු පින්තූරයක් ලබා ගත හැකිය. එය මා ඇපල් සිට Vision Pro පිළිබඳ තොරතුරු සොයමින් හෝ නව Switch 2 ප්රවෘත්ති බලා සිටියදී ප්රශ්නයකි. අපි පද්ධතිය පිළිබඳ සමාලෝචනයකින් පටන් ගනිමු, ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියාකාරී ක්රියා මූලික වශයෙන්, මම තොරතුරු, ප්රතිශත, මූලාශ්ර, විශ්ලේෂණය, සමුදායන් එක් ස්ථානයකට අවශ්ය වන අතර, මම තාක්ෂණය පුවත්, උපකරණ සහ ප්රතිශතයේ zeitgeist තේරුම් ගත හැකි දත්ත ප්රමාණයක් ගොඩනැගීමට කැමතියි. මගේ උත්සාහය යමක් සංකීර්ණ කිරීමට: දැන්, මම හුදෙක් විනෝදාංශිකයෙක්. එබැවින් මම කිසිවක් දන්නා බව ප් රකාශ නොකරමි. මම විනෝද වන අතර එය සැබෑ සතුට වේ. මම මේක ආපහු බොහෝ sooooo අපි පියවර බිඳ දමමු (අපි එළියට යමු සම්බන්ධ පියවර : කැෆා \n \n \n \n \n \n \n \n \n \n \n \n \n \n එය FeedbackService සිට තොරතුරු මත පදනම් වන IngressOrca සිට ප්රතිපත්තිය ලබා ගනී. එය WARCs එකතු කිරීමට ක්රමයක් ලෙස MinIO භාවිතා කරයි සහ බෙදාහැරෙන ආකාරයෙන් ධනවත් මාධ්ය ගබඩා කිරීමට හැකි වනු ඇත. මාධ්ය sha256 සහ sha1 යතුරු මත ක්රියාකාරී වන MinIO කූඩුව (Media Cluster) තුළ ගබඩා කරනු ලැබේ (WARCs නම්, නමුත් ඔවුන් sha256 හෙෂ යතුරු පද්ධති අනුකූලතාව සඳහා ද ඇත) The Sanitizer gets jobs waited up from the Harvester and draws media from the media gateway to sanitize.If its dirty we still keep it to perform forensics in a controlled environment Kafka හි රැකියා මත පදනම්ව OCR ධනවත් මාධ්ය මත ක්රියා කරයි spaCy (NER) සෑම දෙයක්ම මත ක්රියාත්මක වේ. spaCy spaCy සෞඛ්ය පරීක්ෂකයාට එක් රැකියාවක් ඉදිරිපත් කරයි, සහ සනීප නම් එය ස්වයංක්රීය phi4 සම්මතයක් සාධාරණද යන්න තීරණය කිරීම සඳහා ලකුණු සේවයට යැවෙනවා, සාධාරණ නැතහොත් එය සෘජු සංරචක යන්ත්රයට යැවෙනවා. Phi4 ක්රියාත්මක වන්නේ ගුණාත්මක සේවා හෝ පරිශීලකයා විසින් ආරම්භ කරන ලද දත්ත විශේෂිත කොටස් මතයි. Correlation Engine සෑම දෙයක්ම මත ක්රියා කරයි සෑම සහාය පද්ධතියකටම LogHandler සහ LogSilo/ElasticSearch හි කළමනාකරණය කරන ලදී. මාධ්ය වෙත ප්රවේශය අවශ්ය අතුරු පද්ධති / බෙදාහැරීමේ අවශ්යතා MediaGateway හරහා නිහතමානී ඇමතුමක් හරහා MinIO කූඩුව සමඟ සන්නිවේදනය කරනු ඇත. විවිධ පරිශීලකයින් GUIHandler සමඟ කතා කරන අතර එය GUI වෙත ප්රදර්ශනය කරයි. GUIHandler ControlEvents ඉදිරිපත් කළ හැකිය ( phi4 සම්මත කිරීම සඳහා ඉල්ලීම, දේවල් tweaking) ප්රතිචාර සේවාව HistoricalHandler සමඟ කතා කරන්නේ HistoricalSilo වලින් ඉවත් කිරීම සඳහා IngressOrca (Orchestrator) සඳහා වඩා හොඳ තොරතුරු ලබා දෙන ආකෘතිය පුහුණු කිරීම සඳහා හොඳින් තෝරා ගන්නේ කෙසේද, කොහේද සහ කොහොමද අපි බැංකු දත්ත මත නාස්ති වන සම්පත් අඩු කිරීම සඳහා වඩා හොඳ තොරතුරු ලබා ගත හැක සියලුම දත්ත MinIO cluster (MediaCluster) තුළ රඳා පවතී සහ නිහතමානී ඇමතුම් හරහා ප්රවේශය වෙද්යවරයෙකු අමතන්න هڪ ڊاڪٽر کي ڪال ڪريو සෑම අංගයක්ම Kubernetes විසින් containerized හා orchestrated වේ. හර්විස් ඇතුල්වීම Feedback සේවා සෞඛ් ය හර්විස් OCR ස්පාඤ්ඤය (NER පිස්සුව ෆයි4 Correlation එන්ජිම ගනුදෙනුකරුවන් LogSilo/ElasticSearch සමාගම මාධ් ය මාධ් ය Cluster මාධ් ය ගනුදෙනුකරුවන් ගනුදෙනුකරුවන් පාලන Feedback සේවා ඓතිහාසික වෙළඳසැල ඉතිහාසය ඇතුල්වීම මාධ් යවේදීන් ගනුදෙනුකරුවන් I'm sure I left out some detail, but that's the gist.\n ගර්භණීත්වය : දත්ත එකතු කිරීම දත්ත එකතු කිරීම Pixel Fold 3 ගැන අපගේ ආරංචිය එකතු කරන්නේ කෙසේද? අපි එය අන්තර්ජාලයෙන් ඉවත් කිරීමට අවශ්ය! විවිධ මූලාශ්ර විවිධ දත්ත රැස්වීම ක්රම අවශ්ය. සෑම වෙබ් අඩවියකටම විශේෂිත ව්යුහයන් ඇත (කොච්චර සංකීර්ණද). වාසනාවකට අපි දත්ත රැස්වීම පිටුපස අපූරු පරිසර පද්ධතියක් ඇත. DDoS Filtering, Captchas, වැරදි තොරතුරු හඳුනාගැනීම Python කියන්නේ මෙම ඉලක්කය සඳහා භාවිතා කිරීමට භාෂාව සහ මා වැනි උනන්දුවන්ට උදව් කිරීම සඳහා ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක්රියාකාරීව ක් අපූරු \n \n \n \n Recon \n \n \n \n \n \n \n \n \n \n What is the site structure? What is the site's flow? What tricks are companies like Akamai pulling to impede my ability to get my precious tech snippets? What values change and where? When does my cookie become invalid depending on an abnormal flow? Does the javascript try to fool me? Is it dynamic, obfuscated or check for tampering? Are my user agents okay and when do I rotate them? How do I handle headers? How do I handle TLS Fingerprinting? This list is getting long so I'll just add "heuristics" මෙය ඉතා ආකර්ෂණීය ක්රියාවලියකි.මේ නිසා මගේ තාක්ෂණික පුවත් ලබා ගැනීම සඳහා ඉලක්කයන් සාමාන් යයෙන් සහ ප්රමාණවත් විය යුතුය. සහ වෙබ් අඩවි සහ ඔවුන්ගේ heuristics ගැන වටිනා තොරතුරු එකතු කිරීම වැදගත් වේ. වැටෙයි ජංගම Proxy \n \n \n \n CAPTCHAs \n \n \n \n *: image recognition tasks* Tradition CAPTCHAs *: Machine learning looking at user behavior to determine bot behavior* ReCAPTCHA *: pesky things that run in the background by grumpy site admins looking to stop me* Invisible CAPTCHAs Traditional CAPTCHA ගැන ප් රතිපත්තිය නොපෙනෙන CAPTCHA කුඩා ලැයිස්තුවක් වන අතර, මෙම අනිවාර්යයෙන්ම විශාල බාධාවක් සහ කිසිදු ආකාරයකින් සහ සම්පූර්ණ ලැයිස්තුවක් නොවේ.මේ ගැටළු සඳහා සියලු විසඳුම් සංකීර්ණ විසඳුම් අවශ්ය. මම දිගටම යන්න පුළුවන් නමුත් මම විශ්වාස කරන්නේ විශ්වාසදායක නිවාස ප්රොක්සයිස්, ජංගම ප්රොක්සයිස්, අනුපාතය සීමා කිරීම, උපකරණයේ ඇඟිලි පින්තූර හඳුනා ගැනීම සහ අවම කිරීම සහ අවසානයේ මත්ද්රව්ය කට්ටයන් වැනි දේවල් එකතු කිරීමයි. එබැවින් අපට විවිධ ප්රවේශ මට්ටම් අවශ් ය වේ: පාඨමාලාව Crawling Strategy "පෙල්ට් තුවක්කුවකින් පරීක්ෂා කරන්න, එය fubar'd නම් Ordinance වෙත නැගීම." "පෙල්ට් තුවක්කුවකින් පරීක්ෂා කරන්න, එය fubar'd නම් Ordinance වෙත නැගීම." \n \n \n \n : \n \n Level 1 Pellet Gun aiohttp scrapy \n \n Use for static pages, public APIs, or weakly protected endpoints. Low noise, low cost. : \n \n Level 2 Scoped Rifle Playwright + stealth plugins \n \n Use for JS-rendered sites, light bot defenses, simple captchas. Mimics real users, simulates browser behavior. \n \n Level 3: Ordinance Crawl4AI / Nodriver , heavyCAPTCHA solving , Mobile proxies \n \n Use when you hit: invisible captchas, anti-bot JavaScript puzzles, DOM obfuscation, or flow control defenses. Heavy but necessary for hard targets. තුවක්කුව Pellet වෙඩි තැබීම නියෝග ඇයි මේක වැදගත් \n \n \n \n ඵලදායීත්වය: Curl ක්රියා කරන විට Playwright සයිකල් ගිනි නොවන්න. හදිසියේම හදිසියේම හදිසියේම හදිසියේම හදිසියේම හදිසියේම හදිසියේම හදිසියේම හදිසියේම හදිසියේම හදිසියේම හදිසියේම හදිසියේම හදිසියේම හදිසියේම හදිසියේම හදිසියේම හදිසියේම හදිසියේම හදිසියේම දිගුකාලීනත්වය: සති, සති නොමැතිව මාස ගණනාවක් ක්රියා කරයි. කෙසේ වෙතත් දැන් අපි සංකීර්ණත්වය ඇතුළත් කර ඇති අතර එය හොඳයි. ආරම්භයේදී අපට ඉතා සරල නීති ඇත. අපි වඩා හොඳ ස්ථානවලට වඩා හොඳ ඇමතුම් කළ හැකි නිසා අපි වඩාත් ශක්තිමත් බවට පත් වේ අපිව මග පෙන්වන්න උපාංග. ඉතිහාසය ඉතිහාසය දත්ත ඉතිහාසය This part of the system is arguably the සහ දිගින් දිගටම යාවත්කාලීන කිරීම අවශ්ය වන අතර, weenies අතර පූසා හා මයිස් ක්රීඩාව නිසා වෙබ් අඩවි ක්රියාත්මක වන අතර, මගේ මෘදු, මෘදු සෑම්සන් ප්රවෘත්ති වලින් මා ආරක්ෂා කරනු ඇත. most essential I've come up with a plan to be able to ingest, ingest, ingest and be able to verify before I really have to worry about pulling real time data. Current plan is to pull data from archive.org (at a throttled rate and politely of course). Going this way I rewrote the එය async සහ non-blocking ලෙස හැඳින්වේ. අන්තර්ජාල Archive Python Wrapper මම හුඟක් කාලීන දත්ත ලබා ගැනීම ආරම්භ කළහොත්, මගේ සබඳතා කිසිවක් තේරුම් ගැනීමට මට හොඳ සහතිකයක් තිබුණේ නැහැ. මෙම ප්රවේශය මට ක්රියාත්මක කිරීම සඳහා බොහෝ වෙනස්කම් අවශ්ය වනු ඇත crawler ගොඩනැගීමට අවශ්ය නැතිව ඉතිරි පද්ධතිය මත අවධානය යොමු කිරීමට සහ අවධානය යොමු කිරීමට ඉඩ ඇත. No data should be trusted: ඔබේ පද්ධතිය රසායනික කිරීමට උත්සාහ කරන පුද්ගලයන්ගේ කලාපය ඔබේ පද්ධතිය රසායනික කිරීමට උත්සාහ කරන පුද්ගලයන්ගේ කලාපය What's the problem with taking data from the internet? Well, anyone who has been on the internet for any length of time knows about the dirty trolls. Actors who are out to hose you and your noble goal of getting the new smart phone information. Because the fact that people want to pwn you, you have to assume the worst. Let's highlight some concerns (not an exhaustive list, just a taste) \n \n \n \n Malice in action \n \n \n \n \n \n \n Javascript Payloads (XSS, Embedded goodness, etc) \n \n \n \n Worry about data exfiltration Browser Exploits Redirection and Phishing \n \n PDF Macros and Embedded Object \n \n \n \n Can do spooky things like "remote code execution" Info disclosures Initiate connections to scary C2's \n \n Handling various filetypes \n \n \n \n \n Office Document macros EXE/DLL (less of a concern since they'd be filtered Malicous archive files that contain executables and path traversals Image/Media file: hiding stegonagraphy or utilizing dirty dirty codecs \n \n Data Integrity \n \n \n \n Tampered data Spoofed sources People looking to poison my system with generally bad data So how do we deal with this? Some things I left off this list (like servers trying to DDoS my harvester by serving up tons of unnecessary data to hurt my feelings). We first off want to isolate and contain all data we haven't vetted. A separate black box that either resides on a different network system or is අතරමං occurs, it has to be weighed with the caveats that come with air-gapping (which I won't bore anyone with). වායුගෝල VLAN hopping One level is running rules on a file. Which is fine, and a great starting point. We have tools for macro analysis. We have an analysis tools. We can verify files are what they are (making sure the dirty trolls aren't hiding exe's). We have . We check hashes against threat feeds. YARA PDF එක static code analysis We also have at the other extreme. It until we get past the Internet Archive phase. It comes with caveats. It provides dynamic analysis, behavioral reporting, threat detection... , සමහර දුර්වල ගොනු sandbox පරිසරයන් හඳුනා ගත හැකිය. අනෙක් අය ඔවුන්ගෙන් පලා යන්න පුළුවන්. එය සම්පත් ආකර්ෂණීය හා සංකීර්ණ සැකසුම් ඇත. එය බොහෝ සම්පත් ආකර්ෂණීය හා සංකීර්ණ කාලයක් සඳහා. Cuckoo won't be implemented significant But එය බාධා කළ හැක! එය බාධා කළ හැක! Lastly, we have to worry about data poisoning. I don't have a clear path on how to handle this. There is a breadth of research papers I am going to go through to better understand the problem and approaches. No one said . I write this not a definitive writing of what I'm doing. More so highlighting the නරක මිනිසුන් කළ හැකි ආකාරය කීපයක් මමයි මගේ පද්ධතියයි ආරක්ෂාව පහසුයි staggering compromise I have yet to see a lock that can't be picked. මට පුළුවන් තරම් සංකීර්ණ කරන්න පුළුවන්. ඒ නිසා මම මේ කොටසට දායක වෙමි. . Performance, memory safety and I just like it a lot. This will be a job. Media will be fetched and posted to the to interact with the (MinIO cluster) විවේක ටෝකියෝ මාධ් ය MediaCluster MediaGateway MediaCluster අවසාන වශයෙන් : In conclusion: අවසාන වශයෙන් : For the majority of time, ද for මම කොපමණ දුරටත් මල්, මල් ඇපල් ගස උඩට දාන්න පුළුවන්, කොයි තරම් හොඳට නරක නළුවෝ දකින low hanging fruit minimize my attack surface If the data is skanky we quarantine it so we can analyze it. We document it and store the analytics revolving around it in the . HistoricalSilo ඉතිහාසය Phi4-medium: මා වගේ කාර්යබහුල මිනිසුන්ට summarizing for busy people like me come with a lot of challenges. Resource wise, content wise. However, they also have the ability to give us cogent summaries of potentially lengthy pieces of information. That's why I'm using (එහෙත් වඩා ශක්තිමත් දෙයක් අවශ් යයි) LLM's Phi4 මධ් යම ඇයි මම මේක තෝරන්නේ? \n \n \n \n \n \n \n \n Goldilocks size and performance \n \n \n Medium is bigger than mini. Medium has 14 billion parameters. Competitive enough with larger models but more efficient මගේ භාවිතය සඳහා පරිශීලක දේශීය ස්ථානගත කිරීම සඳහා සුදුසු Cost effective (since I'm a lowly cabbage farmer) Flexibility in deployments මට දේශීය හා බලවත් දෙයක් අවශ්ය වන අතර එය ගිණුමට ගැලපෙනු ඇත. එය තමන්ගේ ඩොකර් පින්තූරයක් වන අතර එය පහසු කරයි. සුරතල් ! \n \n \n \n \n Hallucination \n \n Tis the cost of doing business. For this I may have to implement and RAG system. My own guys are working against me! *sigh* \n \n English \n \n In the end this is not an overall large deal since I'm not multilingual. Though it adds complexity should I want to expand data sources to places I can't understand I'm pigeonholing myself into consuming English. මගේ මනුස්සයෝ වැඩ කරන්නේ මට විරුද්ධයි! English මොනවද කරන්නේ A like me do? headstrong cabbage farmer Sanity checks. \n \n \n \n \n \n \n \n \n \n \n Things like volume yields \n \n : Checks if the summary's length is reasonable.\n \n Meaning \n \n Did Phi-4 produce a 150-word summary as requested, or did it return a single sentence or a 10-page novel? .\n \n Cardinality or categorical value checks \n \n : Checks if the entities (people, places, etc.) in the summary are a valid subset of the entities in the original article. Primary defense against hallucination.\n \n Meaning \n \n Does the summary mention 'Germany' when the source text only ever mentioned 'France'? .\n \n Completeness and fill rate checks \n \n Checks for the omission of critical information.\n \n Meaning: \n \n The original article mentioned three key companies, but the summary only includes one. Is the summary missing vital information? \n \n Uniqueness checks \n \n Checks for repetitive or redundant content within the summary.\n \n Meaning: \n \n Did the model get stuck in a loop and repeat the same sentence three times? .\n \n Range checks \n \n \n Checks if numerical data in the summary is factually correct based on the source. Meaning: The source text says profits were '$5 million,' but the summary says '$5 billion.' Is this a catastrophic numerical error? \n \n Presence checks \n \n The most basic check: did the service return anything at all?\n \n Meaning: \n \n Did the Phi-4 service time out or return an empty string instead of a summary? \n \n Data type validation checks. \n \n Checks if the summary adheres to the requested structure.\n \n Meaning: \n \n I asked for a JSON object with a 'title' and 'key_points' array. Is the output valid JSON with those exact keys? \n \n Consistency checks \n \n The deepest check for factual grounding and logical contradiction.\n \n Meaning: \n \n The source text says 'the project was cancelled,' but the summary implies it's ongoing. Does the summary contradict the facts of the original article? Volume yields වගේ දේවල් Cardinality or Categorical Value Checks (කඩොයිලීයත්වය හෝ සම්මත වටිනාකම පරීක්ෂා) සම්පූර්ණත්වය සහ fill rate checks තනිකරම පරීක්ෂණ Range checks Presence checks Data Type Validation පරීක්ෂණය Consistency checks This list can quickly become like Benjamin Buford Blue naming uses for shrimp so I'll top it off there. This will be auto-run based on the scoring service or manually requested by . moi SpaCy සමඟ Entities ගබඩා කිරීම: the grabbing pertinent things grabbing pertinent things We are at the section. spaCy Which model do I choose? offers a variety of pretrained models all with their own uses. They are trained on so out of the box . I will likely need to fine tune a custom and add . At the start I will need to annotate data to train my model (there are open source tools to somewhat automate this process). This will also encompass training it to . spaCy general web content it won't recognize tech jargon NER model custom components recognize entity types I will need to be ( and ). I ඇතුලට යන්න සහ කරන්න සහ (එනම් "අපෝල්" සමාගම සහ "අපෝල්" ප්රතිලාභය) ඒ සමඟ custom entity linking component හෝ external tool integration ගොඩනැගීමේ හැකියාව එනවා (අපි බලාපොරොත්තු වෙන්නේ නැහැ). fluent in rule-based matching matcher EntityRuler will need entity linking disambiguation Since I'm only worried about English at the moment, I am blessed to be ignorant of language detection. මම හිතන්නේ මම මේ වගේ ප් රයෝජනවත් දේවල් ගැන හිතන්න ඕනෙ... and . When not in use turn it off! Batch ප්රතිකාර අතුරුදහන් කොටස් කළ හැකි අවබෝධයෙන් Running සමග මම හිතන්න වෙයි පදනම් වූ ආකෘති සහ based models, and also have to consider considerable RAM utilization. සංකීර්ණ ක් රියාවලිය පයි4 CPU GPU There's . The use of custom attributes will be a must. I will have to plan for out-of-domain text which I will inevitably run into and is crucial for me to know how to handle. පෙර සැකසීම, පසු සැකසීම සහ අභ්යන්තර ලෝහය සහ ආකෘති ඇතුළත් කිරීම Lastly, and almost most importantly: සෞඛ් ය පරීක්ෂණ \n \n \n \n \n \n \n \n \n Schema validation Verifying correct data types Paying close attention to the behavior around critical fields බලාපොරොත්තු වන දත්ත වර්ග සකස් කිරීම Establishing acceptable ranges with things like dates and word counts අවසර ලැබෙන වටිනාකම Define completeness thresholds Consideration of cross field consistency rules ඉහත සඳහන් වූ සෞඛ්ය පරීක්ෂණයේ බොහෝ දේ මෙතැනට අදාළ වේ, නමුත් වඩාත් ගැඹුරු අර්ථයෙන් සංකේතයන් සමඟ කටයුතු කිරීම. ලැයිස්තුව දිගටම යනවා, නැවතත්, එය ෆෝරෙස්ටෝ ගම්ප් සඳහා භාවිතය ලැයිස්තුගත කිරීම බවට පත් වේ. I feel okay about the completeness of this section. දත්ත සබඳතා: making sense of things making sense of things මෙම පද්ධතිය තුළ වැදගත්.මම මට සමහර මතකය සහතික ලබා ගත හැකි භාෂාවක් අවශ්ය වන අතර, මම නවකතා වැරදි සිදු කිරීමට නවතින්න. at first. I thought it through and arrived back at . I'm simply not an experienced programmer and would likely implement things that would hose my system. Data correlation incredibly C++ Rust C++ Basically, takes entities from පාවිච්චි කරන්නෙ පාවිච්චි කරන්නෙ පාවිච්චි කරන්නෙ to මම සබඳතාවයේ තැපැල් සඳහා සැබෑ ප්රමාණවත්භාවය සහ ක්රියාකාරීත්වය අවශ්ය විය.එක් පෙර ව් යාපෘතිය RocksDB ඇතුළත් කර ඇති අතර, එය පසුගිය සංවර්ධනයන් සමඟ ප්රමාණවත් නොවීය. Rust spaCy ClickHouse write/read/store pertinent things So stats will be important (yay!). An කේතය ක්රමය ප්රධාන වන අතර මම කරන්නේ කුමක්ද, මම එය කරන්නේ ඇයි සහ මම දේවල් ක්රියාත්මක කරන්නේ කෙසේද සමග මම ඉතා සැලකිලිමත් විය යුතුය. for this part since I will have a lot of I/O processes talking to . ආදරණීය ටෝකියෝ ClickHouse We basically take all entities and ඒවාට සමාන කරන්න . run rich analysis historical data I consider the following things: \n \n \n \n \n මේ සම්බන්ධතාවය ස්ථිරව වැදගත්ද? මෙම සබැඳිය "සමහර අවස්ථාවක්" වඩා වැඩිද? මෙම වැදගත්කම සමග Graph සම්බන්ධතාවයක් නිර්මාණය කිරීමට වටිනවාද? Is there factual backing to put emphasis on this specific relationship? So I'd need to do things like establish a සන්නිවේදන සඳහා.එයත් ස්ථාපනය කිරීම හොඳ අදහසක් වනු ඇත , a measure that scores how much more likely two entities are to appear together than by random chance. Where high and negative scores tell me great things about a correlation. p වටිනාකම එකිනෙකාගේ තොරතුරු ප් රචණ්ඩත්වය සිදුවේ, නමුත් අපි පාපයට එරෙහිව ශුද්ධ විනිශ්චය සහ අපි පුද්ගලිකව අකමැති අයට එරෙහි වන පුරපැම අතර වෙනස අප හඳුනාගත යුතුය, එය උඩඟුකමේ අනිවාර්ය ප් රතිපලයයි. and දහස් වතාවක් එකිනෙකා හමුවෙයි, නමුත් මෙම සම්බන්ධතාවය සහ විශේෂයෙන් අවබෝධයක් ඇති. පර්යේෂණයන් අපට සාක්ෂි දෙයි, විශේෂිත තාක්ෂණය සමාගමක් සහ රාජ් ය ආයතනය වැනි දුර්ලභ සම්බන්ධතාවය, එය කිහිප වතාවක් පමණක් පෙනී සිටියත්, වඩාත් වැදගත් බව. : ඇගේ මොකද ඒක A . “අපෝ” 'iPhone' පැහැදිළි not Whitehouse not වැදගත් සුදු ගොඩනැගිල්ල Past getting into some concepts I feel out of the scope of this overview, I'll leave it at that. Data: the backbone පිටුපස So what do I do with all this data about hot new tech items? I hoard it. බොහෝ දත්ත බැංකු ඇත (PostgreSQL, ClickHouse, Neo4j, MinIO) සියලුම දත්ත ක්රියාකාරකම් හරහා සපයනු ලැබේ එකක් ගනීවි operations, one which will be used to store artifact data දෙකක් වෙයි ( and ). Its a lot, but each DB has its own strength and I believe a simple would have significant drawbacks. data handlers අංක 4J Postgresql (basically a metadata registry) ClickHouse ඉතිහාසය CorrelationSilo "SQL Server for everything" ඉතිහාසය CorrelationSilo දත්ත ගොඩනැගිලි, tables and primary keying will be tantamount in (complex අනෙකුත් දේවල් අතරින්) එය ඉතා පහසු වනු ඇත, කෙසේ වෙතත්, අනිවාර්යයෙන්ම බොහෝ සැලකිල්ලක් අවශ්ය වනු ඇත. එය බොහෝ සිතුවිලි, කඳුළු සහ කලකිරීමේ මූලාශ්රය වනු ඇත. හොඳ ව්යාපෘතිය පිටුපස ගෙවනු ඇත. හොඳ ClickHouse ගබඩා කිරීමේ ක් රියාවලිය ආකෘතිය ආකෘතිය තව මනුස්සයෙක් වගේ මට දැනෙනවා.. එහිදී එය විය යුතුය painless (famous last words). My feelings are that I essentially want to try and make it as dumb as possible. I want to be able to point to point to my correlation engine and understand the මම complexity හා correlation logic මට්ටම් එකතු කිරීම ආරම්භ කළහොත් දත්ත වඩාත් coupled වන අතර මගේ correlation යන්ත්රයේ වටිනාකම අඩු කරයි Neo4J ෆොන්සේකා ෆොන්සේකා නොවේ සමීපව "why?" ඒ will be a DB යනු එවැනි දේවල් වලින් බොහෝ ප්රමාණවත් දත්ත ඇත: ඉතිහාසය ක්ලික්ස් ඉතිහාසය \n \n \n \n \n \n හොඳ දත්ත ලැබෙන තැන මොන සෙවුම් ප්රශ්න හොඳම දත්ත ලබා දුන්නේද මොන දත්ත මූලාශ් රයට වඩාත් හොඳින් වැඩ කළේද කොහෙන්ද / කවදාද සහ සමහර විට ඇයි අපි දුර්වල දත්ත ලබා ගත්තේ ඒ අඳුරු දත්ත ගැන විශ්ලේෂණය කිරීම There's most likely much more, and I will find them when I get to that point. The ක්ලාස්ටර් ක්රියාත්මක කිරීමට වඩා අඩු වේදනාකාරී වනු ඇත.මම තවමත් සෑම දෙයක්ම සෝදිසි සහ සෝදිසි සහතික කිරීමට අවශ්ය. මිනී දත්ත පදනම දැඩි අත්දැකීමක් වනු ඇත. තව ටොන් එකක් ඇත. GUI: webapp time! ඒ වෙයි A . Initially I was going to make this a desktop app. I realized though that eventually I want more people to use it. එය හොඳ විකල්පයක් නොවනු ඇත. ගී Webapp පිලිතුරු6 භාවිතය A මම එවැනි විවිධ පුස්තකාල වලට ප්රවේශ වීමට ලැබෙනු ඇත.මම GUI භාවිතා කළහොත් ලබා ගත නොහැකි විය හැකි තොරතුරු වෙත පුදුමාකාර ප්රවේශයක් ඇත. , මගේ අරමුණු බොහෝ වෙනස් විය. මම අවංකවම පයිටෝන් තුළ gui ලිවීමට අවශ්ය නැහැ. මට නොකරන්නේ ඇයි කියලා හොඳ හේතුවක් නැහැ. එය සම්පූර්ණයෙන්ම හැකියාව ඇත. Webapp පිලිතුරු6 මගේ බඩේ ඒ හිරිහැර දැනෙන හැඟීම නිසා මම වෙනත් gui විකල්පයක් සොයමින් හිටියා. GUI ව්යාපෘති අහිමි විය. ඊට අමතරව, GUI පුස්තකාල සමඟ ගොඩනඟන අයගේ හොඳ උදාහරණ සොයා ගැනීම අමාරු නැතහොත් නොහැකි විය.මම නිසැකවම ඉදිරියට යාමට හැකි විය, නමුත් මම යමක් භාවිතා කිරීමට අවශ්ය නැහැ පසුව වැඩ කිරීමට සහ මගේ දර්ශනය යම් GUI සමඟ නොහැකි බව අවබෝධයට පැමිණ. LOT So I went with a එය බොහෝ ප්රතිලාභ ඇත, නමුත් දැන් මම ඇත්තටම ආරක්ෂාව මත විය යුතුය. කෙසේ වෙතත්, මම මගේ ව්යාපෘතිය පෙන්වන්න සූදානම් බව මම විශ්වාස කරන තෙක් මම ඒ සංකීර්ණත්වය ගැන සැලකිලිමත් විය යුතු නැහැ, ඒ වන විට සමහර විට මම ක්රියාත්මක කිරීමට සමහර cool dudes සොයා ගත හැකි විය හැකි. webapp ප් රධාන වශයෙන්, GUI සමඟ කතා කරයි කාටද කතා කරන්නේ , , එවැනි සිදුවීම් පාලනය කිරීම, යම් රැකියාවක් කළ හැකිය. එය රැකියා ස්ථාපනය කරන්නේ කෙසේද යන්න පිළිබඳව අවධානය යොමු කළ යුතු ය. . ගනුදෙනුකරුවන් ගනුදෙනුකරුවන් ආකෘති වෙළඳාම ඓතිහාසික වෙළඳසැල පාලන කැෆා GuiHandler ගනුදෙනුකරුවන් ආකෘති වෙළඳාම ඓතිහාසික වෙළඳසැල පාලන අපි සෑම වර්ගයකම ධනවත් මාධ් ය සේවය කිරීමට හැකි වනු ඇත. Webapp එකක් විතරක් හදන එකත් වඩා හොඳයි. අවසන් වචන : අවසන් සිතුවිලි අවසන් සිතුවිලි මම ඔක්කොම cover කරලා නෑ. . One thing I want to add is my choice of මෙම ව්යාපෘතිය සඳහා දැන් ඇත්ත වශයෙන්ම overkill.It was not my initial choice. however, I ran into a snag during development when my initial choice became unsustainable. එතන තමයි මම නැවතුනේ. මෙම ලිපිය දැන් 4.5k වචන මත අවසන් වේ Kafka කැෆා Kafka තවත් ප්රසාදයක් වන්නේ එය CV මත හොඳින් පෙනෙන බවයි. මම නිතරම උත්සාහ කරන්නේ සංවර්ධකයා වීමටයි. නම් . මම නොවෙයි But, it would look nice. There is a ton of work ahead of me to be able to breathe life into my love of tech trends. කරන්න I මේ ඕනෑම දෙයක් කරන්නද? අවශ් යතා No. මම හිතන්නේ ඒක පුදුම විනෝදයක් විතරයි. සියලු ආකෘතිය හා ක්රියාවලිය විකල්ප වෙනස් විය හැක.මේ බ්ලොග් මත මම කේතය සපයන්නේ නැහැ (මම ඔබේ ඇස් බේරා ගනිමි). There are tradeoffs everywhere. \n \n \n \n \n \n \n \n කවදාද කොෆෙක් ගලවා ගන්නේ? මම මාගේ රෙගුලාසි ගිනි නොගැලපෙන පරිදි ප්රභේද සකස් කිරීමක් සකස් කරන්නේද? මම "මාසිත" දත්ත සකස් කිරීමෙන් කොපමණ ප්රමාණවත්ද? අහිතකර දත්ත පිරිසිදු කිරීම සඳහා පද්ධතිය තුළ මම කරන්නේ කුමක්ද? Will I need late night sessions burning darts? අවදානමක් ලැබුණොත් මොකද කරන්නේ? දත්ත මාත් රාව ඉවත් කරන්නේ කෙසේද? විග් රහය විග් රහය කොයිතරම් දුකක් වුණත්, මට තියෙනවා කාලය හා කිසිදු ප්රධානියා මට අසාර්ථක වීම ගැන ධාවනය කිරීමට. රහසිගත ආයුධ මෙය වසර ගණනාවක් ගත වේවි. ඒකට හරි මෙම ව්යාපෘතිය කියවන්නාට පිටතට පිස්සු හා ආකර්ෂණීය විය හැකිය. මට ඒ බව පිළිගන්න තරම් අවබෝධයක් තියෙනවා. Though I want to say that I'm incredibly interested in all the domains of knowledge within the system itself. It's a , not a 100-meter sprint. . දිගු මාර්ටොන් Bit by bit පොඩ්ඩක් මම ඉගැන්වූ පාඩමෙන් පිටතට යන්න කැමතියි Spruce යනු UPS හි ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශීය ප් රාදේශ ස්පීසර් මේකට ගැලපෙන්නේ කොහොමද? මේ කතාවෙන් මට ලැබුණු පාඩමක් තමයි සම්පූර්ණයෙන්ම අවබෝධයක් ඇති කරගැනීම සඳහා සංකීර්ණ මට්ටමක් ලබා ගත හැකි දේ. spruce සැබවින්ම ඔහු ලොව විශාලතම ප්රවාහන සමාගමේ ලිපිනය තම නිවසට වෙනස් කළ හැකිද නැද්ද යන්න පිළිබඳ ප්රශ්න සමග තමන් ගැන සැලකිලිමත් නොවේ. . ධෛර්ය ඒක වැඩ කළා ධෛර්ය ඒක වැඩ කළා While I feel like I can definitely shed Mr. Spruce's lack of impulse control and absence of foresight, I can internalize the audacity to try. Having a complete and utter disregard for what a consensus may deem "feasible" I am able to embark on a journey of learning untethered by a tradition steeped in reason that unequivocally says "you can't". සමහර විට මට බැරි වෙන්න පුළුවන්.මම උත්සාහ නොකිරීම වෙනුවට ලොකු අසාර්ථක වෙන්න කැමතියි.ඒ සඳහා, මම ස්ප්රූස් මහත්තයාගේ ප්රවේශය සම්පූර්ණයෙන්ම කනගාටු නොකරන බව සංකේත කරගත යුතුයි. If you stumbled across this blog, I hope you may have learned something. ගොඩක් ආදරේ, Bill "Wizard" ඇන්ඩර්ස්