paint-brush
ClickHouse+Python+Nginx: কিভাবে আপনার লগগুলি পরিচালনা করবেন তা দ্রুত টিউটোরিয়ালদ্বারা@pbityukov
1,306 পড়া
1,306 পড়া

ClickHouse+Python+Nginx: কিভাবে আপনার লগগুলি পরিচালনা করবেন তা দ্রুত টিউটোরিয়াল

দ্বারা Pavel Bityukov10m2023/10/20
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

পরিষেবার জন্য একটি ভাল স্তরের পর্যবেক্ষণের চেয়ে গুরুত্বপূর্ণ আর কিছুই নেই এবং অ্যাপ্লিকেশনের লগগুলির জন্য নির্ভরযোগ্য এবং দ্রুত স্টোরেজ ছাড়া এটি সম্ভব নয়। আজকাল সবচেয়ে জনপ্রিয় সমাধানগুলির মধ্যে একটি হল ELK (ElasticSearch-Logstash-Kibana), কিন্তু এটি যতটা সর্বজনীন মনে হয় ততটা নয়।
featured image - ClickHouse+Python+Nginx: কিভাবে আপনার লগগুলি পরিচালনা করবেন তা দ্রুত টিউটোরিয়াল
Pavel Bityukov HackerNoon profile picture

প্রেরণা

পরিষেবার জন্য একটি ভাল স্তরের পর্যবেক্ষণযোগ্যতার চেয়ে গুরুত্বপূর্ণ আর কিছুই নেই এবং অ্যাপ্লিকেশনের লগগুলির জন্য নির্ভরযোগ্য এবং দ্রুত স্টোরেজ ছাড়া এটি সম্ভব নয়৷ আজকাল সবচেয়ে জনপ্রিয় সমাধানগুলির মধ্যে একটি হল ELK ( E lasticSearch- L ogstash- K ibana), কিন্তু এটি যতটা সর্বজনীন মনে হয় ততটা নয়৷

সমস্যা বিবৃতি

ELK হল লগ সংগ্রহ ও বিশ্লেষণ করার জন্য একটি নমনীয়, সুবিধাজনক এবং জটিল সমাধান। এটি স্কেলযোগ্য, শক্তিশালী, নমনীয় ক্যোয়ারী ফিল্টারিং এবং সর্বজনীন। যাইহোক, ELK ব্যবহার করার অসুবিধা আছে:

  • উচ্চ মেমরি এবং CPU সম্পদ খরচ
  • ক্রমবর্ধমান রেকর্ডের সংখ্যা সহ সূচক এবং অনুসন্ধান গতির অবনতি
  • ফুল-টেক্সট সার্চ ইনডেক্স ওভারহেড
  • জটিল QueryDSL


এই সব আমাকে বিস্মিত করে: যখন আমরা লগ সম্পর্কে কথা বলি তখন কি ELK এর বিকল্প আছে?

লগ-হ্যান্ডলিং সমাধানের জন্য আমার প্রয়োজনীয়তার তালিকা এখানে রয়েছে:

  • দ্রুত এবং নমনীয় একত্রীকরণ
  • দ্রুত সন্নিবেশ, দ্রুত নির্বাচন
  • সহজ-সেটআপ এবং সম্পদ-ন্যূনতম
  • গ্রাফানা-সামঞ্জস্যপূর্ণ সমাধান


যাইহোক, নিয়মিত এবং অ্যাড-হক বিশ্লেষণ করার জন্য একটি নমনীয় এবং দ্রুত সরঞ্জাম থাকা ভাল। আসুন আমি যে সিস্টেমটি বাস্তবায়ন করতে যাচ্ছি সে সম্পর্কে আরও নির্দিষ্ট করা যাক:

  • 20M+ লগ লাইনের প্রক্রিয়া করুন যা Nginx অ্যাক্সেস লগ
  • খারাপ HTTP প্রতিক্রিয়ার সংখ্যা পান (4xx, 5xx)
  • বট এবং ক্রলার কাউন্টার এবং তারা যে URL দেখেন তা পান
  • টপ-৫ আইপি অ্যাড্রেস পান যেগুলো সন্দেহজনক বট

ক্লিকহাউস কি এবং কেন আমি এটি ব্যবহার করার সিদ্ধান্ত নিয়েছি

ক্লিকহাউস হল একটি উচ্চ-কর্মক্ষমতা কলাম-ভিত্তিক SQL ডাটাবেস ম্যানেজমেন্ট সিস্টেম যা ঘোষণা করা হয়েছে অনলাইন বিশ্লেষণাত্মক প্রক্রিয়াকরণের জন্য।

আমার জন্য সবচেয়ে গুরুত্বপূর্ণ বৈশিষ্ট্য ছিল:

  • কলাম-ভিত্তিক স্টোরেজ মানে ক্লিক হাউস শুধুমাত্র প্রয়োজন হলেই ডিস্ক থেকে পড়বে।
  • ClickHouse সমস্ত উপলব্ধ সংস্থান (CPU কোর এবং ডিস্ক) এমনকি একটি একক অনুসন্ধান চালাতে পারে।
  • তথ্য সংকোচন
  • SQL সমর্থন, শেষ কিন্তু অন্তত না

প্রযুক্তিগত সমাধান

Github রেপো টিউটোরিয়াল

আপনি GitHub এ একটি লগ জেনারেটরের সাথে টিউটোরিয়ালটি খুঁজে পেতে পারেন।

ক্লিক হাউস সেটআপ করুন এবং সংযোগ করুন

প্রথমত, উভয় পরিষেবাকে সংজ্ঞায়িত করতে docker-compose.yml তৈরি করি। ( https://github.com/bp72/nginxlogprocessor/blob/init-commit/docker-compose.yml )

 version: '3.6' services: ch: image: clickhouse/clickhouse-server container_name: clickhouse restart: always volumes: - clickhousedata:/var/lib/clickhouse/ ports: - '8123:8123' - '9000:9000' ulimits: memlock: soft: -1 hard: -1 nofile: soft: 262144 hard: 262144 # This capabilities prevents Docker from complaining about lack of those cap_add: - SYS_NICE - NET_ADMIN - IPC_LOCK volumes: clickhousedata:

চলুন এটি চালান এবং সবকিছু কাজ করছে কিনা তা পরীক্ষা করুন: ডকার কন্টেইনার থেকে ক্লিকহাউস ক্লায়েন্ট ব্যবহার করে ক্লিকহাউসের সাথে সংযোগ করুন এবং স্থানীয় হোস্ট এবং পোর্টের মাধ্যমে উপলব্ধ কিনা তা পরীক্ষা করুন

 > docker-compose up -d [+] Running 3/3 ⠿ Network nginxlogprocessor_default Created 0.1s ⠿ Container clickhouse Started 0.6s

উদাহরণের সাথে সংযোগ করতে আমি ক্লিকহাউস ক্লায়েন্ট পছন্দ করি

 docker-compose exec ch clickhouse-client ClickHouse client version 23.9.1.1854 (official build). Connecting to localhost:9000 as user default. Connected to ClickHouse server version 23.9.1 revision 54466. a8c8da069d94 :)

ডাটাবেস এবং টেবিল তৈরি করুন

এখন, সবকিছু সেট হয়ে গেলে, আসুন ডাটাবেস এবং টেবিল তৈরি করি: নির্দিষ্ট পরিষেবার জন্য প্রক্রিয়াকৃত লগ এবং ডাটাবেস ট্র্যাক করার জন্য ডাটাবেস, যেমন nginx , এবং প্রথম টেবিল nginx.access


ClickHouse এর উল্লেখযোগ্য সুবিধাগুলির মধ্যে একটি হল সংজ্ঞা এবং প্রশ্নের জন্য SQL সিনট্যাক্স। এটি কঠোরভাবে এসকিউএল-স্ট্যান্ডার্ড নয়, তবে এটির খুব কাছাকাছি।

 CREATE DATABASE IF NOT EXISTS nginx CREATE DATABASE IF NOT EXISTS logs CREATE TABLE IF NOT EXISTS nginx.access ( reqid String, ts DateTime64(3), level Enum(''=0, 'debug'=1, 'info'=2, 'warn'=3 ,'error'=4), domain String, uri String, ua String, ref String, is_bot Boolean, is_mobile Boolean, is_tablet Boolean, is_pc Boolean, client String, duration Float32, response_code UInt16, addrIPv4 Nullable(IPv4), addrIPv6 Nullable(IPv6), upstream_connect_time Float32, upstream_header_time Float32, upstream_response_time Float32 ) ENGINE MergeTree PRIMARY KEY reqid ORDER BY reqid CREATE TABLE IF NOT EXISTS logs.logfiles ( filename String ) ENGINE MergeTree PRIMARY KEY filename ORDER BY filename

CREATE TABLE স্টেটমেন্টকে ঘনিষ্ঠভাবে দেখুন, আপনি কিছুটা ভিন্ন ধরনের এবং Enum এবং IPv4 এর মতো সম্পূর্ণ নতুন ধরনের দেখতে পাবেন। ক্লিকহাউস রিসোর্স ব্যবহার কমানোর চেষ্টা করে এবং এটি করার জন্য সে এটিকে Enum-এর মতো দুর্দান্ত বৈশিষ্ট্য দিয়ে অপ্টিমাইজ করে। এটি মূলত 8bit বা 16bit এর int-এ একটি স্ট্রিং-এর একটি কী-মান ম্যাপিং, যা স্বয়ংক্রিয়ভাবে সন্নিবেশের সময় রূপান্তরিত হয় এটি স্ট্রিং মানকে int-এ রূপান্তর করে এবং নির্বাচনের সময় বিপরীত উপায়ে রূপান্তর করে ( link )।


IPv4, IPv6 হল বিশেষ প্রকারের ঠিকানাগুলিকে সর্বাধিক সর্বোত্তম উপায়ে সংরক্ষণ করার জন্য (আনসাইন করা int হিসাবে) এবং সেগুলিকে মানব-পাঠযোগ্য উপায়ে উপস্থাপন করে, তাই মূলত সন্নিবেশের সময় আপনি IP-addr-এর একটি স্ট্রিং উপস্থাপনা প্রদান করেন এবং ClickHouse এর জন্য সবকিছু করে। আপনি: এটিকে int হিসাবে সংরক্ষণ করে এবং নির্বাচনের সময় সার্ভার আনপ্যাক করে।

লগ সন্নিবেশ

ক্লিক হাউস মতাদর্শ দ্রুত সন্নিবেশ করা হয়. এটি করার জন্য, ক্লিকহাউস একের পর এক ব্যাচ সন্নিবেশগুলি আরও ভালভাবে পরিচালনা করে।

তাই সন্নিবেশ স্ক্রিপ্ট খুব জটিল নয়. ReadFile ফাংশন ক্লিকহাউস ক্লায়েন্ট সন্নিবেশ করার জন্য সর্বাধিক 50k রেকর্ডের ডেটা খণ্ড প্রদান করে। প্রতিটি খণ্ড আইটেম cols তালিকার কলামের নামের সাথে সম্পর্কিত মানের তালিকা উপস্থাপন করে

 # it's not an actual code. # the working implementation you can find at https://github.com/bp72/nginxlogprocessor import clickhouse_connect from config import CLICKHOUSE_HOST, CLICKHOUSE_PORT from log import log client = clickhouse_connect.get_client(host=CLICKHOUSE_HOST, port=CLICKHOUSE_PORT) def loadToClickHouse(client, chunk): cols = [ 'reqid', 'ts', 'level', 'domain', 'uri', 'ua', 'ref', 'is_bot', 'is_mobile', 'is_tablet', 'is_pc', 'client', 'duration', 'response_code', 'addrIPv4', 'addrIPv6', 'upstream_connect_time', 'upstream_header_time', 'upstream_response_time', ] client.insert('nginx.access', chunk, column_names=cols) def processFeed(feed, client, chunk_size=10_000): total = 0 for chunk in readFile(feed, chunk_size=chunk_size): total += len(chunk) loadToClickHouse(client, chunk=chunk) log.info(f'process {feed=} inserted={len(chunk)} {total=}')

আমার পিসিতে প্রকৃত এক্সিকিউশন এবং টাইমিং আছে, আপনি দেখতে পাচ্ছেন যে 800k রেকর্ড ফাইলের পার্সিং এবং সন্নিবেশ পাইথন এক্সিকিউশনের 21 সেকেন্ড সময় নেয়। খারাপ না!

 > .venv/bin/python ./main.py I:2023-10-15 12:44:02 [18764] f=transport.py:1893 Connected (version 2.0, client OpenSSH_8.9p1) I:2023-10-15 12:44:02 [18764] f=transport.py:1893 Authentication (publickey) successful! I:2023-10-15 12:44:02 [18764] f=fetcher.py:14 connect host='*.*.*.*' port=22 user='root' password=None I:2023-10-15 12:44:02 [18764] f=fetcher.py:18 run cmd='ls /var/log/nginx/*access*.log-*' I:2023-10-15 12:44:02 [18764] f=fetcher.py:34 download src=/var/log/nginx/access.log-2023100812.gz dst=/tmp/access.log-2023100812.gz I:2023-10-15 12:44:07 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=50000 I:2023-10-15 12:44:08 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=100000 I:2023-10-15 12:44:10 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=150000 I:2023-10-15 12:44:11 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=200000 I:2023-10-15 12:44:13 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=250000 I:2023-10-15 12:44:14 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=300000 I:2023-10-15 12:44:15 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=350000 I:2023-10-15 12:44:17 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=400000 I:2023-10-15 12:44:18 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=450000 I:2023-10-15 12:44:20 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=500000 I:2023-10-15 12:44:21 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=550000 I:2023-10-15 12:44:23 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=600000 I:2023-10-15 12:44:24 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=650000 I:2023-10-15 12:44:25 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=700000 I:2023-10-15 12:44:27 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=750000 I:2023-10-15 12:44:28 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=800000 I:2023-10-15 12:44:28 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=2190 total=802190 I:2023-10-15 12:44:28 [18764] f=fetcher.py:34 download src=/var/log/nginx/access.log-2023100814.gz dst=/tmp/access.log-2023100814.gz I:2023-10-15 12:44:31 [18764] f=main.py:20 process feed='/tmp/access.log-2023100814.gz' inserted=50000 total=50000 I:2023-10-15 12:44:32 [18764] f=main.py:20 process feed='/tmp/access.log-2023100814.gz' inserted=50000 total=100000 I:2023-10-15 12:44:33 [18764] f=main.py:20 process feed='/tmp/access.log-2023100814.gz' inserted=30067 total=130067

লগ বিশ্লেষণ এবং সমস্যা সনাক্তকরণ

ক্লিকহাউস ডিবি অনুসন্ধান করতে SQL ব্যবহার করে যা বেশিরভাগ সফ্টওয়্যার ইঞ্জিনিয়ারদের জন্য খুব আরামদায়ক এবং স্বজ্ঞাতভাবে সহজ।

আমাদের রেকর্ডের সংখ্যা পরীক্ষা করে শুরু করা যাক, এটি 22M।

 a8c8da069d94 :) select count(1) from nginx.access; SELECT count(1) FROM nginx.access Query id: f94881f3-2a7d-4039-9646-a6f614adb46c ┌──count()─┐ │ 22863822 │ └──────────┘

বিভিন্ন ব্রেকডাউন সহ প্রশ্ন করা সহজ, যা সমস্যা সনাক্তকরণ এবং সমাধানের জন্য উপযোগী হতে পারে, উদাহরণস্বরূপ, আমি জানতে চাই যে কোন আইপি ঠিকানা থেকে হোস্টটি দুর্বলতার জন্য স্ক্যান করা হচ্ছে।

এই ক্যোয়ারী দেখায় কিভাবে নমনীয় ডেটা প্রশ্ন ELK এর সাথে তুলনা করা যেতে পারে। সাথে .. AS স্টেটমেন্ট এবং IN/NOT IN, সাবকোয়েরি, অ্যাগ্রিগেশন এবং ফিল্টারেশন ক্লিকহাউসকে খুব সুবিধাজনক করে তোলে।

 a8c8da069d94 :) with baduri as (select uri, count(1) from nginx.access where response_code = 404 and uri not in ('/about/', '/favicon.ico') group by 1 having count(1) > 3 order by 2 desc limit 10) select IPv4NumToStringClassC(addrIPv4), count(1) from nginx.access where uri in (select uri from baduri) and addrIPv4 is not null group by 1 order by 2 desc limit 5 WITH baduri AS ( SELECT uri, count(1) FROM nginx.access WHERE (response_code = 404) AND (uri NOT IN ('/about/', '/favicon.ico')) GROUP BY 1 HAVING count(1) > 3 ORDER BY 2 DESC LIMIT 10 ) SELECT IPv4NumToStringClassC(addrIPv4), count(1) FROM nginx.access WHERE (uri IN ( SELECT uri FROM baduri )) AND (addrIPv4 IS NOT NULL) GROUP BY 1 ORDER BY 2 DESC LIMIT 5 Query id: cf9bea33-212b-4c58-b6af-8e0aaae50b83 ┌─IPv4NumToStringClassC(addrIPv4)─┬─count()─┐ │ 8.219.64.xxx │ 961 │ │ 178.128.220.xxx │ 378 │ │ 103.231.78.xxx │ 338 │ │ 157.245.200.xxx │ 324 │ │ 116.203.28.xxx │ 260 │ └─────────────────────────────────┴─────────┘ 5 rows in set. Elapsed: 0.150 sec. Processed 45.73 million rows, 1.81 GB (303.88 million rows/s., 12.01 GB/s.) Peak memory usage: 307.49 MiB.

আসুন প্রতি ডোমেনে সেরা 5টি জনপ্রিয় ইউরি পান। এই ক্যোয়ারীটি সহজ LIMIT x BY <field> ফাংশন ব্যবহার করে।

 a8c8da069d94 :) select domain, uri, count(1) from nginx.access where domain in ('example.com', 'nestfromthebest.com', 'az.org') group by 1, 2 order by 1, 3 desc limit 5 by domain SELECT domain, uri, count(1) FROM nginx.access WHERE domain IN ('example.com', 'nestfromthebest.com', 'az.org') GROUP BY 1, 2 ORDER BY 1 ASC, 3 DESC LIMIT 5 BY domain Query id: 2acd328c-ed82-4d36-916b-8f2ecf764a9d ┌─domain──────┬─uri────────────┬─count()─┐ │ az.org │ /about/ │ 382543 │ │ az.org │ /contacts/ │ 42066 │ │ az.org │ /category/id7 │ 2722 │ │ az.org │ /category/id14 │ 2704 │ │ az.org │ /category/id2 │ 2699 │ │ example.com │ /about/ │ 381653 │ │ example.com │ /contacts/ │ 42023 │ │ example.com │ /category/id2 │ 2694 │ │ example.com │ /category/id8 │ 2688 │ │ example.com │ /category/id13 │ 2670 │ └─────────────┴────────────────┴─────────┘ ┌─domain──────────────┬─uri────────────┬─count()─┐ │ nestfromthebest.com │ /about/ │ 383377 │ │ nestfromthebest.com │ /contacts/ │ 42100 │ │ nestfromthebest.com │ /category/id8 │ 2726 │ │ nestfromthebest.com │ /category/id14 │ 2700 │ │ nestfromthebest.com │ /category/id4 │ 2696 │ └─────────────────────┴────────────────┴─────────┘ 15 rows in set. Elapsed: 0.062 sec. Processed 23.97 million rows, 918.43 MB (388.35 million rows/s., 14.88 GB/s.) Peak memory usage: 98.67 MiB.


উপসংহার

ClickHouse একটি বৃহৎ স্কেলে লগের মতো নির্দিষ্ট ডেটা সঞ্চয় এবং ম্যানিপুলেট করার জন্য একটি দুর্দান্ত সরঞ্জাম। এটি অবশ্যই আরও শেখার, এবং বোঝার উপযুক্ত, উদাহরণস্বরূপ, নেস্টেড ডেটা স্ট্রাকচার, স্যাম্পলিং টুলিং, উইন্ডো ফাংশন এবং অন্যান্য


আমি আশা করি আপনি এই ছোট নিবন্ধটি উপভোগ করেছেন এবং আপনার জন্য দরকারী ছিল!