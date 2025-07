Khi các hệ thống phần mềm trở nên phức tạp hơn, các dịch vụ vi mô đã trở thành cách để xây dựng các ứng dụng có thể mở rộng, có khả năng phục hồi và dễ bảo trì hơn. Nhưng với tính linh hoạt đó, có một sự thỏa hiệp: mọi thứ trở nên khó theo dõi hơn.





Khả năng quan sát vượt ra ngoài việc giám sát truyền thống để cung cấp cái nhìn sâu sắc về trạng thái bên trong của các hệ thống phức tạp dựa trên kết quả bên ngoài của chúng.Trong khi giám sát cho bạn biết khi có điều gì đó sai, khả năng quan sát giúp bạn hiểu tại sao nó sai – thường trước khi người dùng nhận thấy vấn đề.





Ba trụ cột của khả năng quan sát





1. Metrics: Quantitative System Behaviour

Metrics cung cấp các đại diện số của hệ thống và hiệu suất kinh doanh theo thời gian. chúng thường là các điểm dữ liệu nhẹ, có cấu trúc cao cho phép các nhóm phát hiện xu hướng và bất thường.





Key Metrics Types:

Đo lường hệ thống: CPU, bộ nhớ, sử dụng đĩa và thông lượng mạng

Đo lường ứng dụng: Tỷ lệ yêu cầu, tỷ lệ lỗi và thời gian phản hồi

Đo lường kinh doanh: Sự tham gia của người dùng, tỷ lệ chuyển đổi và khối lượng giao dịch

Đo lường tùy chỉnh: Chỉ số cụ thể về miền có liên quan đến các dịch vụ cụ thể của bạn





Advantages of Metrics:

Overhead thấp cho thu thập và lưu trữ

Dễ dàng tổng hợp và phân tích với các phương pháp thống kê

Lý tưởng để cảnh báo về các điều kiện thất bại đã biết

Hoàn hảo cho bảng điều khiển và hình ảnh thời gian thực





Việc thực hiện các số liệu hiệu quả liên quan đến việc thiết lập các đường cơ sở cho hành vi bình thường và thiết lập các ngưỡng thích hợp cho các cảnh báo. phương pháp RED (tỷ lệ, lỗi, thời gian) và phương pháp USE (sử dụng, bão hòa, lỗi) cung cấp các khuôn khổ để các số liệu được ưu tiên.





2. Logs: Detailed Event Records

Các nhật ký đại diện cho các sự kiện riêng biệt xảy ra trong các ứng dụng và các thành phần cơ sở hạ tầng. Chúng cung cấp thông tin phong phú về các hành động cụ thể, lỗi hoặc thay đổi trạng thái.





Logging Best Practices: Thực hành tốt nhất:

Thực hiện lập nhật ký có cấu trúc với các định dạng nhất quán (JSON phổ biến)

Bao gồm thông tin ngữ cảnh (tên dịch vụ, phiên bản, môi trường)

Thêm ID tương quan để theo dõi các yêu cầu trên các dịch vụ

Áp dụng các mức log thích hợp (DEBUG, INFO, WARN, ERROR)

Thực hành chính sách log rotation và retention





Thách thức quản lý hồ sơ:

Số lượng lớn trong các hệ thống phân tán

Chi phí lưu trữ và tác động hiệu suất

Tìm đúng tín hiệu trong dữ liệu ồn ào

Cân bằng verbosity với performance





Các giải pháp quản lý nhật ký hiện đại tập trung nhật ký từ tất cả các dịch vụ, cho phép tìm kiếm, lọc và phân tích trên toàn hệ thống.





3. Traces: Request Journeys

Theo dõi phân tán theo các yêu cầu khi chúng lây lan thông qua các dịch vụ vi mô, tạo ra một cái nhìn toàn diện về vòng đời của yêu cầu. Mỗi dấu vết bao gồm các phạm vi - các hoạt động riêng lẻ trong các dịch vụ - tạo thành một đại diện phân cấp của con đường của yêu cầu.





Tracing Components:

Trace IDs: ID duy nhất cho các yêu cầu từ đầu đến cuối

Spans: Các hoạt động cá nhân trong một dấu vết

Span context: Metadata đi kèm với phạm vi vượt qua ranh giới dịch vụ

Annotations/tags: Additional information attached to spans Thông tin bổ sung đính kèm với spans





Tracing Benefits:

Hình dung các luồng yêu cầu trên các kiến trúc phức tạp

Pinpoint performance bottlenecks và vấn đề độ trễ

Hiểu sự phụ thuộc dịch vụ và mô hình tương tác

Debug Complex giao dịch phân tán





Theo dõi hiệu quả đòi hỏi các công cụ trên tất cả các dịch vụ, thường thông qua các thư viện tự động thu thập dữ liệu thời gian và truyền bá bối cảnh theo dõi giữa các dịch vụ.









Service Mesh

Các mạng lưới dịch vụ như Istio, Linkerd và Consul cung cấp khả năng quan sát ngoài hộp bằng cách chặn thông tin liên lạc giữa dịch vụ ở cấp độ mạng.





Key Features:

Tự động thu thập số liệu: yêu cầu khối lượng, độ trễ và tỷ lệ lỗi

Tích hợp theo dõi phân tán: Tăng cường tiêu đề dấu vết

Hình ảnh giao thông: Bản đồ phụ thuộc dịch vụ

Quản lý giao thông tiên tiến: phá vỡ mạch, sửa đổi và phân chia giao thông





Mesh dịch vụ đặc biệt có giá trị trong môi trường Kubernetes, nơi chúng có thể được triển khai như các proxy sidecar mà không cần thay đổi mã cho chính các dịch vụ.





Open Telemetry: The Unified Standard

Open Telemetry đã nổi lên như là tiêu chuẩn ngành công nghiệp cho dụng cụ, cung cấp một cách trung lập với nhà cung cấp để thu thập và xuất dữ liệu viễn thông.





Components:

API: Định nghĩa cách tạo dữ liệu viễn thông

SDK: Thực hiện API với các tùy chọn cấu hình

Collector: Nhận, xử lý và xuất dữ liệu viễn thông

Xuất khẩu: Gửi dữ liệu đến các backend khác nhau





Bằng cách áp dụng Open Telemetry, các tổ chức tránh khóa nhà cung cấp và có thể chuyển đổi giữa các backend quan sát khác nhau khi cần thiết.





Monitoring Platforms





Có nhiều giải pháp khác nhau để lưu trữ, phân tích và hình dung dữ liệu quan sát:





Popular Combinations:

Prometheus + Grafana: Giám sát và trực quan hóa số liệu nguồn mở

ELK Stack (Elasticsearch, Logstash, Kibana): Tập hợp và phân tích nhật ký

Jaeger/Zipkin: Open-source phân tán theo dõi

Các nền tảng thương mại: Datadog, New Relic, Dynatrace, Honeycomb





Nhiều tổ chức áp dụng một hỗn hợp các công cụ, mặc dù các nền tảng quan sát thống nhất đang đạt được sức ép cho khả năng tương quan giữa các số liệu, nhật ký và dấu vết.





Thách thức quan sát trong Microservices





Data Volume and Cardinality

Microservices tạo ra khối lượng dữ liệu từ xa khổng lồ với mật độ cao (nhiều kết hợp duy nhất của kích thước).

Chi phí lưu trữ: Cân bằng lưu trữ dữ liệu với hạn chế ngân sách

Hiệu suất truy vấn: Duy trì tốc độ với khối lượng dữ liệu tăng lên

Tỷ lệ tín hiệu đến tiếng ồn: Tìm thông tin có liên quan trong các tập dữ liệu lớn





Context Propagation

Duy trì bối cảnh xuyên qua ranh giới dịch vụ đòi hỏi phải xem xét cẩn thận:

Tiêu đề nhất quán: Định dạng chuẩn hóa cho ID theo dõi và ngữ cảnh

Asynchronous Operations: Preserving context across message queues: Hoạt động không đồng bộ: Duy trì bối cảnh trên các hàng đợi thông điệp

Dịch vụ của bên thứ ba: xử lý các hệ thống bên ngoài không hỗ trợ cơ chế theo dõi của bạn





Tool Proliferation

Khu vực quan sát có nhiều công cụ chuyên môn, dẫn đến:

Sự phức tạp của hội nhập: Đảm bảo các công cụ làm việc cùng nhau một cách liền mạch

Sự phân mảnh kiến thức: Yêu cầu các nhóm học hỏi nhiều hệ thống

Quản lý chi phí: Kiểm soát chi phí trên nhiều nhà cung cấp





Thực tiễn tốt nhất cho MicroServices Observability





Chiến lược công cụ

Chế độ mặc định để dụng cụ: Làm cho khả năng quan sát một tính năng tiêu chuẩn, không phải là một suy nghĩ sau

Sử dụng tự động dụng cụ bất cứ nơi nào có thể để giảm phát triển trên đầu

Tiêu chuẩn hóa trên các thư viện nhất quán trên các dịch vụ và nhóm

Xem xét khả năng quan sát trong API bằng cách thiết kế với khả năng theo dõi trong tâm trí





Giám sát sức khỏe và SLI/SLO

Thực hiện kiểm tra sức khỏe dịch vụ để giám sát tính sẵn có cơ bản

Xác định các chỉ số cấp độ dịch vụ (SLI) phản ánh trải nghiệm người dùng

Thiết lập mục tiêu cấp độ dịch vụ (SLOs) như mục tiêu độ tin cậy

Tạo ngân sách lỗi để cân bằng độ tin cậy với tốc độ phát triển





Triết lý cảnh báo

Cảnh báo về triệu chứng, không phải nguyên nhân: Tập trung vào tác động của người dùng

Giảm sự mệt mỏi cảnh báo: Loại bỏ các thông báo ồn ào hoặc dư thừa

Thiết lập quyền sở hữu rõ ràng: Thông báo đường dẫn đến các nhóm phù hợp

Tạo cảnh báo có thể hành động: Bao gồm ngữ cảnh và các bước khắc phục có thể





Quan sát như một nền văn hóa

Shift left: Tích hợp khả năng quan sát vào quá trình phát triển

Thực hiện đánh giá khả năng quan sát cùng với đánh giá mã

Thực hành kỹ thuật hỗn loạn để xác minh khả năng quan sát trong các thất bại

Tạo playbook cho các kịch bản phổ biến được xác định thông qua dữ liệu quan sát





New Relic’s Comprehensive Approach to Microservice Observability

Những gì làm cho New Relic khác biệt là cách tiếp cận nền tảng thống nhất của nó đối với khả năng quan sát. Thay vì kết hợp nhiều công cụ chuyên ngành, New Relic cung cấp khả năng hiển thị từ đầu đến cuối trên toàn bộ hệ sinh thái microservice của bạn thông qua một tấm kính duy nhất. New Relic cung cấp cảnh báo giúp làm sạch các vấn đề sửa chữa tiếng ồn trước khi chúng trở thành chướng ngại vật. Nó cung cấp các tuyến đường tổng hợp giúp xác định sức khỏe của dịch vụ. Nó cung cấp NerdGraph api để tự động hóa quy mô v.v. dựa trên cảnh báo hoặc sự kiện mà chúng ta có thể sử dụng. Dưới đây là các cơ sở tiên tiến được cung cấp bởi New Relic.





Service Architecture Intelligence

Tính năng này tự động phát hiện và lập bản đồ các mối quan hệ giữa các dịch vụ, cung cấp hình ảnh thời gian thực về sự phụ thuộc dịch vụ của bạn. Các kỹ sư có thể nhanh chóng xác định các vấn đề về chai, khắc phục sự cố và hiểu cách thay đổi một dịch vụ có thể ảnh hưởng đến những dịch vụ khác. Bản đồ kiến trúc dịch vụ không phải là đồ thị tĩnh mà là hình ảnh động phản ánh hành vi thực tế của hệ thống của bạn. Họ tự động cập nhật khi kiến trúc của bạn phát triển, đảm bảo rằng nhóm của bạn luôn có một sự hiểu biết chính xác về các mối quan hệ dịch vụ mà không cần nỗ lực tài liệu thủ công.





Queues & Streams Monitoring

Kiến trúc dịch vụ vi mô hiện đại phụ thuộc rất nhiều vào hàng đợi tin nhắn và luồng tin nhắn để giao tiếp không đồng bộ. Giám sát hàng đợi và luồng của New Relic cung cấp khả năng hiển thị hai chiều kết nối các chủ đề với cả nhà sản xuất và dịch vụ tiêu dùng. Cách tiếp cận sáng tạo này cho phép các nhóm DevOps nhanh chóng xác định và giải quyết các vấn đề như các nhà sản xuất chậm, các chủ đề quá tải hoặc người tiêu dùng gặp khó khăn. Với những hiểu biết chi tiết về sức khỏe Kafka xuống đến nhóm, phân vùng, nhà môi giới, chủ đề, nhà sản xuất và cấp người tiêu dùng, các nhóm có thể chủ động phát hiện các rào cản tiềm năng trước khi chúng ảnh hưởng đến hiệu suất hệ thống.





Fleet and Agent Control

Quản lý dụng cụ trên nhiều microservices có thể tốn thời gian và dễ mắc lỗi. New Relic's Fleet Control và Agent Control cung cấp một kế hoạch kiểm soát khả năng quan sát toàn diện tập trung tất cả các nhiệm vụ vòng đời dụng cụ trên toàn bộ môi trường của bạn. Với các công cụ này, các nhóm có thể: Tập trung các hoạt động đại lý để giảm công việc thủ công Cải thiện các phiên bản đại lý cho toàn bộ đội dịch vụ chỉ với một vài cú nhấp chuột Loại bỏ các điểm mù từ xa trong các cụm Kubernetes Tự động hóa công cụ trên quy mô với các API cho công cụ như mã Tính năng này đặc biệt có giá trị cho các môi trường dịch vụ vi mô nơi quản lý đại lý thủ công trên hàng trăm dịch vụ sẽ không thực tế.





Enhanced Application Performance Monitoring (eAPM)

New Relic eAPM tận dụng công nghệ eBPF để cung cấp những hiểu biết sâu sắc về hiệu suất ứng dụng mà không cần sửa đổi mã hoặc khởi động lại dịch vụ.





Khả năng eAPM cung cấp:

Thông tin chi tiết được hỗ trợ bởi AI tự động tương quan các số liệu trên các ứng dụng và các cụm Kubernetes

Giám sát số liệu vàng, giao dịch và hiệu suất cơ sở dữ liệu

Chuyển đổi liền mạch sang các đại lý APM truyền thống khi cần những hiểu biết sâu sắc hơn





Điều này cho phép các nhóm nhanh chóng triển khai khả năng quan sát trên toàn cảnh dịch vụ vi mô của họ mà không cần công việc dụng cụ rộng rãi.





Cloud Cost Intelligence

Khả năng thông tin chi phí đám mây của New Relic cung cấp khả năng hiển thị toàn diện về chi phí tài nguyên đám mây theo thời gian thực, cho phép các nhóm: Xem và quản lý chi phí đám mây trên toàn tổ chức Đánh giá tác động chi phí của tài nguyên tính toán trước khi triển khai Tự động thu thập và hình dung dữ liệu từ xa theo thời gian thực để có được cái nhìn sâu sắc hơn về chi phí Khả năng hợp tác giữa các nhóm kỹ thuật, tài chính và sản phẩm để phù hợp chi tiêu với mục tiêu kinh doanh Việc tích hợp dữ liệu chi phí với số liệu hiệu suất này giúp các nhóm đưa ra quyết định có hiểu biết về tối ưu hóa dịch vụ và phân bổ tài nguyên.





Real-Time Collaboration and Knowledge Sharing

Khả năng quan sát dịch vụ vi mô hiệu quả đòi hỏi sự hợp tác giữa các nhóm. New Relic tạo điều kiện cho việc này thông qua bảng điều khiển công cộng, cho phép các nhóm chia sẻ những hiểu biết quan trọng với các bên liên quan trong và ngoài tổ chức.





Các bảng điều khiển này cho phép các đội

Tạo và chia sẻ thông tin chi tiết một cách dễ dàng bằng ngôn ngữ truy vấn và cơ sở dữ liệu thống nhất của New Relic

Cung cấp số liệu thời gian thực cho khán giả mà không yêu cầu đăng nhập New Relic

Thực hiện kiểm soát truy cập dựa trên vai trò cho an ninh





Khả năng này phá vỡ các khu vực giữa các nhóm phát triển, hoạt động và các bên liên quan kinh doanh, thúc đẩy một cách tiếp cận thống nhất đối với độ tin cậy dịch vụ.





Tương lai của Microservices Observability

Khu vực này tiếp tục phát triển với một số xu hướng mới nổi:

Phân tích AI: Học máy để phát hiện bất thường và gợi ý nguyên nhân gốc rễ

Công nghệ eBPF: Kernel-level instrumentation với tối thiểu overhead

Open Telemetry Convergence: Tiếp tục chuẩn hóa bộ sưu tập telemetry

Sự quan sát như mã: Xác định các yêu cầu về khả năng quan sát cùng với cơ sở hạ tầng





Kết luận

Hiệu quả quan sát biến các dịch vụ vi mô từ hộp đen mờ thành các hệ thống minh bạch, có thể gỡ lỗi.Bằng cách thực hiện một chiến lược toàn diện bao gồm số liệu, nhật ký và dấu vết, các tổ chức có thể xây dựng sự tự tin trong kiến trúc phân tán của họ và cung cấp trải nghiệm người dùng đáng tin cậy hơn.





Việc đầu tư vào khả năng quan sát không chỉ trả cổ tức trong việc giảm thời gian ngừng hoạt động và khắc phục nhanh hơn, mà còn cho phép các nhóm đổi mới với sự tự tin, biết rằng họ có thể hiểu được các hệ thống phức tạp mà họ xây dựng và duy trì.