paint-brush
ClickHouse+Python+Nginx: краткое руководство по обработке журналовк@pbityukov
1,306 чтения
1,306 чтения

ClickHouse+Python+Nginx: краткое руководство по обработке журналов

к Pavel Bityukov10m2023/10/20
Read on Terminal Reader

Слишком долго; Читать

Нет ничего важнее, чем хороший уровень наблюдаемости для сервиса, и это невозможно без надежного и быстрого хранилища логов приложения. Одним из самых популярных решений на сегодняшний день является ELK (ElasticSearch-Logstash-Kibana), однако оно не так универсально, как может показаться.
featured image - ClickHouse+Python+Nginx: краткое руководство по обработке журналов
Pavel Bityukov HackerNoon profile picture

Мотивация

Нет ничего важнее, чем хороший уровень наблюдаемости сервиса, и это невозможно без надежного и быстрого хранилища логов приложения. Одним из самых популярных решений на сегодняшний день является ELK ( ElasticSearch - Logstash - Kibana ), однако оно не так универсально, как может показаться.

Постановка задачи

ELK — гибкое, удобное и комплексное решение для сбора и анализа логов. Это масштабируемая, надежная, гибкая фильтрация запросов и универсальная. Однако у использования ELK есть и недостатки:

  • высокое потребление памяти и ресурсов процессора
  • Ухудшение индекса и скорости поиска вместе с увеличением количества записей
  • накладные расходы индекса полнотекстового поиска
  • сложный QueryDSL


Все это заставляет меня задуматься: есть ли альтернатива ELK, когда мы говорим о журналах?

Вот мой список требований к решению для обработки журналов:

  • быстрая и гибкая агрегация
  • быстрая вставка, быстрый выбор
  • простота настройки и минимум ресурсов
  • решение, совместимое с графаной


Однако приятно иметь гибкий и быстрый инструмент для проведения регулярного и специального анализа. Давайте более подробно о системе, которую я собираюсь реализовать:

  • Обработка более 20 миллионов строк журнала, которые представляют собой журнал доступа Nginx.
  • Получите количество плохих HTTP-ответов (4xx, 5xx).
  • Получите счетчики ботов и сканеров, а также URL-адрес, который они посещают.
  • Получите топ-5 IP-адресов, которые являются подозрительными для ботов.

Что такое ClickHouse и почему я решил его использовать

ClickHouse — это, как заявлено, высокопроизводительная столбцово-ориентированная система управления базами данных SQL для онлайн-аналитической обработки.

Самыми важными для меня особенностями были:

  • Столбцовое хранилище означает, что ClickHouse будет читать с диска только в случае необходимости.
  • ClickHouse может использовать все доступные ресурсы (ядра ЦП и диски) для выполнения даже одного запроса.
  • Сжатие данных
  • Поддержка SQL, последнее, но не менее важное.

Техническое решение

Руководство по репозиторию Github

Вы можете найти руководство вместе с генератором журналов на GitHub .

Настройте ClickHouse и подключитесь

Прежде всего, давайте создадим docker-compose.yml для определения обеих служб. ( https://github.com/bp72/nginxlogprocessor/blob/init-commit/docker-compose.yml )

 version: '3.6' services: ch: image: clickhouse/clickhouse-server container_name: clickhouse restart: always volumes: - clickhousedata:/var/lib/clickhouse/ ports: - '8123:8123' - '9000:9000' ulimits: memlock: soft: -1 hard: -1 nofile: soft: 262144 hard: 262144 # This capabilities prevents Docker from complaining about lack of those cap_add: - SYS_NICE - NET_ADMIN - IPC_LOCK volumes: clickhousedata:

Запустим его и проверим, все ли работает: подключаемся к экземпляру ClickHouse с помощью клиента ClickHouse из докер-контейнера и проверяем, доступен ли он через локальный хост и порт

 > docker-compose up -d [+] Running 3/3 ⠿ Network nginxlogprocessor_default Created 0.1s ⠿ Container clickhouse Started 0.6s

Для подключения к экземпляру я предпочитаю клиент ClickHouse

 docker-compose exec ch clickhouse-client ClickHouse client version 23.9.1.1854 (official build). Connecting to localhost:9000 as user default. Connected to ClickHouse server version 23.9.1 revision 54466. a8c8da069d94 :)

Создание баз данных и таблиц

Теперь, когда все настроено, давайте создадим базы данных и таблицы: базу данных для отслеживания обработанных журналов и базу данных для конкретного сервиса, например nginx , и первую таблицу nginx.access .


Одним из существенных преимуществ ClickHouse является синтаксис SQL для определений и запросов. Это не совсем стандарт SQL, но очень близко к нему.

 CREATE DATABASE IF NOT EXISTS nginx CREATE DATABASE IF NOT EXISTS logs CREATE TABLE IF NOT EXISTS nginx.access ( reqid String, ts DateTime64(3), level Enum(''=0, 'debug'=1, 'info'=2, 'warn'=3 ,'error'=4), domain String, uri String, ua String, ref String, is_bot Boolean, is_mobile Boolean, is_tablet Boolean, is_pc Boolean, client String, duration Float32, response_code UInt16, addrIPv4 Nullable(IPv4), addrIPv6 Nullable(IPv6), upstream_connect_time Float32, upstream_header_time Float32, upstream_response_time Float32 ) ENGINE MergeTree PRIMARY KEY reqid ORDER BY reqid CREATE TABLE IF NOT EXISTS logs.logfiles ( filename String ) ENGINE MergeTree PRIMARY KEY filename ORDER BY filename

Если присмотреться к оператору CREATE TABLE , вы увидите немного другие типы и совершенно новые типы, такие как Enum и IPv4. ClickHouse пытается сократить использование ресурсов и для этого оптимизирует его с помощью таких интересных функций, как Enum. По сути, это сопоставление значения ключа строки с целым числом 8 или 16 бит, которое автоматически преобразуется при вставке, оно преобразует строковое значение в int, а при выборе преобразуется противоположным способом ( ссылка ).


IPv4, IPv6 — это специальные типы для хранения адресов наиболее оптимальным образом (в виде беззнакового целого числа) и представления их в удобочитаемом виде, поэтому, по сути, во время вставки вы предоставляете строковое представление IP-адреса, а ClickHouse делает все для этого. вы: сохраняет его как int и распаковывает сервер при выборе.

Вставка журнала

Идеология ClickHouse — быстрая вставка. Для этого ClickHouse обрабатывает пакетные вставки лучше, чем одну за другой.

Так что скрипт вставки не очень сложен. Функция readFile выдает фрагменты данных длиной не более 50 тыс. записей, которые клиент ClickHouse может вставить. Каждый элемент чанка представляет собой список значений относительно имен столбцов в списке столбцов .

 # it's not an actual code. # the working implementation you can find at https://github.com/bp72/nginxlogprocessor import clickhouse_connect from config import CLICKHOUSE_HOST, CLICKHOUSE_PORT from log import log client = clickhouse_connect.get_client(host=CLICKHOUSE_HOST, port=CLICKHOUSE_PORT) def loadToClickHouse(client, chunk): cols = [ 'reqid', 'ts', 'level', 'domain', 'uri', 'ua', 'ref', 'is_bot', 'is_mobile', 'is_tablet', 'is_pc', 'client', 'duration', 'response_code', 'addrIPv4', 'addrIPv6', 'upstream_connect_time', 'upstream_header_time', 'upstream_response_time', ] client.insert('nginx.access', chunk, column_names=cols) def processFeed(feed, client, chunk_size=10_000): total = 0 for chunk in readFile(feed, chunk_size=chunk_size): total += len(chunk) loadToClickHouse(client, chunk=chunk) log.info(f'process {feed=} inserted={len(chunk)} {total=}')

Фактическое выполнение и время у меня на компьютере: вы можете видеть, что анализ и вставка файла из 800 тысяч записей заняли 21 секунду времени выполнения Python. Неплохо!

 > .venv/bin/python ./main.py I:2023-10-15 12:44:02 [18764] f=transport.py:1893 Connected (version 2.0, client OpenSSH_8.9p1) I:2023-10-15 12:44:02 [18764] f=transport.py:1893 Authentication (publickey) successful! I:2023-10-15 12:44:02 [18764] f=fetcher.py:14 connect host='*.*.*.*' port=22 user='root' password=None I:2023-10-15 12:44:02 [18764] f=fetcher.py:18 run cmd='ls /var/log/nginx/*access*.log-*' I:2023-10-15 12:44:02 [18764] f=fetcher.py:34 download src=/var/log/nginx/access.log-2023100812.gz dst=/tmp/access.log-2023100812.gz I:2023-10-15 12:44:07 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=50000 I:2023-10-15 12:44:08 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=100000 I:2023-10-15 12:44:10 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=150000 I:2023-10-15 12:44:11 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=200000 I:2023-10-15 12:44:13 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=250000 I:2023-10-15 12:44:14 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=300000 I:2023-10-15 12:44:15 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=350000 I:2023-10-15 12:44:17 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=400000 I:2023-10-15 12:44:18 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=450000 I:2023-10-15 12:44:20 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=500000 I:2023-10-15 12:44:21 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=550000 I:2023-10-15 12:44:23 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=600000 I:2023-10-15 12:44:24 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=650000 I:2023-10-15 12:44:25 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=700000 I:2023-10-15 12:44:27 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=750000 I:2023-10-15 12:44:28 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=50000 total=800000 I:2023-10-15 12:44:28 [18764] f=main.py:20 process feed='/tmp/access.log-2023100812.gz' inserted=2190 total=802190 I:2023-10-15 12:44:28 [18764] f=fetcher.py:34 download src=/var/log/nginx/access.log-2023100814.gz dst=/tmp/access.log-2023100814.gz I:2023-10-15 12:44:31 [18764] f=main.py:20 process feed='/tmp/access.log-2023100814.gz' inserted=50000 total=50000 I:2023-10-15 12:44:32 [18764] f=main.py:20 process feed='/tmp/access.log-2023100814.gz' inserted=50000 total=100000 I:2023-10-15 12:44:33 [18764] f=main.py:20 process feed='/tmp/access.log-2023100814.gz' inserted=30067 total=130067

Анализ журналов и обнаружение проблем

ClickHouse использует SQL для запросов к БД, что очень удобно для большинства инженеров-программистов и интуитивно просто.

Начнем с проверки количества имеющихся у нас записей, оно составляет 22M.

 a8c8da069d94 :) select count(1) from nginx.access; SELECT count(1) FROM nginx.access Query id: f94881f3-2a7d-4039-9646-a6f614adb46c ┌──count()─┐ │ 22863822 │ └──────────┘

Легко иметь запросы с разной разбивкой, что может быть полезно для обнаружения и решения проблем, например, хотелось бы узнать, с какого IP-адреса хост сканируется на наличие уязвимостей.

Этот запрос демонстрирует, насколько гибкие запросы данных можно сравнить с ELK. Оператор With .. AS и IN/NOT IN, подзапрос, агрегация и фильтрация делают ClickHouse очень удобным.

 a8c8da069d94 :) with baduri as (select uri, count(1) from nginx.access where response_code = 404 and uri not in ('/about/', '/favicon.ico') group by 1 having count(1) > 3 order by 2 desc limit 10) select IPv4NumToStringClassC(addrIPv4), count(1) from nginx.access where uri in (select uri from baduri) and addrIPv4 is not null group by 1 order by 2 desc limit 5 WITH baduri AS ( SELECT uri, count(1) FROM nginx.access WHERE (response_code = 404) AND (uri NOT IN ('/about/', '/favicon.ico')) GROUP BY 1 HAVING count(1) > 3 ORDER BY 2 DESC LIMIT 10 ) SELECT IPv4NumToStringClassC(addrIPv4), count(1) FROM nginx.access WHERE (uri IN ( SELECT uri FROM baduri )) AND (addrIPv4 IS NOT NULL) GROUP BY 1 ORDER BY 2 DESC LIMIT 5 Query id: cf9bea33-212b-4c58-b6af-8e0aaae50b83 ┌─IPv4NumToStringClassC(addrIPv4)─┬─count()─┐ │ 8.219.64.xxx │ 961 │ │ 178.128.220.xxx │ 378 │ │ 103.231.78.xxx │ 338 │ │ 157.245.200.xxx │ 324 │ │ 116.203.28.xxx │ 260 │ └─────────────────────────────────┴─────────┘ 5 rows in set. Elapsed: 0.150 sec. Processed 45.73 million rows, 1.81 GB (303.88 million rows/s., 12.01 GB/s.) Peak memory usage: 307.49 MiB.

Давайте получим топ-5 самых популярных uri для каждого домена. В этом запросе используется удобная функция LIMIT x BY <field>.

 a8c8da069d94 :) select domain, uri, count(1) from nginx.access where domain in ('example.com', 'nestfromthebest.com', 'az.org') group by 1, 2 order by 1, 3 desc limit 5 by domain SELECT domain, uri, count(1) FROM nginx.access WHERE domain IN ('example.com', 'nestfromthebest.com', 'az.org') GROUP BY 1, 2 ORDER BY 1 ASC, 3 DESC LIMIT 5 BY domain Query id: 2acd328c-ed82-4d36-916b-8f2ecf764a9d ┌─domain──────┬─uri────────────┬─count()─┐ │ az.org │ /about/ │ 382543 │ │ az.org │ /contacts/ │ 42066 │ │ az.org │ /category/id7 │ 2722 │ │ az.org │ /category/id14 │ 2704 │ │ az.org │ /category/id2 │ 2699 │ │ example.com │ /about/ │ 381653 │ │ example.com │ /contacts/ │ 42023 │ │ example.com │ /category/id2 │ 2694 │ │ example.com │ /category/id8 │ 2688 │ │ example.com │ /category/id13 │ 2670 │ └─────────────┴────────────────┴─────────┘ ┌─domain──────────────┬─uri────────────┬─count()─┐ │ nestfromthebest.com │ /about/ │ 383377 │ │ nestfromthebest.com │ /contacts/ │ 42100 │ │ nestfromthebest.com │ /category/id8 │ 2726 │ │ nestfromthebest.com │ /category/id14 │ 2700 │ │ nestfromthebest.com │ /category/id4 │ 2696 │ └─────────────────────┴────────────────┴─────────┘ 15 rows in set. Elapsed: 0.062 sec. Processed 23.97 million rows, 918.43 MB (388.35 million rows/s., 14.88 GB/s.) Peak memory usage: 98.67 MiB.


Заключение

ClickHouse — отличный инструмент для хранения и управления конкретными данными, например журналами, в больших масштабах. Определенно стоит продолжить изучение и понимание, например, вложенной структуры данных, инструментов выборки, оконных функций и других.


Надеюсь, эта небольшая статья вам понравилась и была для вас полезной!