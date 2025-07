A medida que os sistemas de software se fan máis complexos, os microservizos convertéronse no camiño para construír aplicacións que son escalables, resilientes e máis fáciles de manter. Pero con esa flexibilidade vén un compromiso: as cousas fanse máis difíciles de rastrexar.





A observación esténdese máis aló da monitorización tradicional para proporcionar unha visión profunda do estado interno dos sistemas complexos baseado nas súas saídas externas.Mentres que a monitorización di cando algo está mal, a observación axuda a comprender por que está mal, moitas veces antes de que os usuarios noten problemas.





Os tres piares da observación





1. Metrics: Quantitative System Behaviour

As métricas proporcionan representacións numéricas do rendemento do sistema e do negocio ao longo do tempo.Son tipicamente puntos de datos lixeiros e altamente estruturados que permiten aos equipos detectar tendencias e anomalías.





Key Metrics Types:

Metrías do sistema: CPU, memoria, uso do disco e capacidade de transmisión de rede

Metrías de aplicación: taxas de solicitude, taxas de erro e tempos de resposta

Metrías empresariais: participación do usuario, taxas de conversión e volumes de transaccións

Metrías personalizadas: Indicadores específicos de dominio relevantes para os seus servizos específicos





Advantages of Metrics:

Baixa sobrecarga para a recollida e almacenamento

Facilmente agregado e analizado con métodos estatísticos

Ideal para alertar sobre as condicións de fallo coñecidas

Perfecto para dashboards e visualización en tempo real





A implementación efectiva de métricas implica establecer liñas de partida para o comportamento normal e establecer limiares adecuados para as alertas.O método RED (Rate, Errors, Duration) e o método USE (Utilization, Saturation, Errors) proporcionan marcos para os que as métricas deben priorizar.





2. Logs: Detailed Event Records

Os rexistros representan eventos discretos que ocorren dentro de aplicacións e compoñentes de infraestrutura e proporcionan información contextual sobre accións específicas, erros ou cambios de estado.





Coñecer as mellores prácticas:

Implementar rexistro estruturado con formatos consistentes (JSON é popular)

Incluír información contextual (nome do servizo, versión, ambiente)

Engadir IDs de correlación para rastrexar solicitudes entre servizos

Aplicar os niveis de rexistro adecuados (DEBUG, INFO, WARN, ERROR)

Practicar as políticas de rotación e retención de rexistros





Xestión de retos:

Alto volume en sistemas distribuídos

Custos de almacenamento e impactos de rendemento

Atopar o sinal correcto en datos ruidosos

Equilibrar a verbosidade coa performance





As solucións modernas de xestión de rexistros centralizan os rexistros de todos os servizos, permitindo a busca, a filtración e a análise en todo o sistema.





3. Traces: Request Journeys

O rastrexo distribuído segue as solicitudes mentres se propagan a través de microservizos, creando unha visión integral do ciclo de vida da solicitude.Cada rastro consiste en intervalos, operacións individuais dentro dos servizos, que forman unha representación xerárquica do camiño da solicitude.





Tracing Components:

Identificadores de rastrexo: Identificadores únicos para solicitudes de fin a fin

Espazos: Operacións individuais dentro dun rastro

Espazo de contexto: metadatos que acompañan espazos a través de fronteiras de servizos

Anotacións/etiquetas: Información adicional adxunta aos espazos





Tracing Benefits:

Visualizar os fluxos de solicitudes en arquitecturas complexas

Pinpoint problemas de rendemento e problemas de latencia

Comprender as dependencias de servizos e os patróns de interacción

Debug complexas transaccións distribuídas





O seguimento efectivo require instrumentalización en todos os servizos, normalmente a través de bibliotecas que capturan automaticamente datos de tempo e propagan o contexto de rastro entre os servizos.









Service Mesh

As redes de servizos como Istio, Linkerd e Consul proporcionan observación fóra da caixa interceptando a comunicación de servizo a servizo no nivel de rede.





Key Features:

Colección automática de métricas: volumes de solicitude, latencias e taxas de erro

Integración de rastrexo distribuído: propagación de cabeceiras de rastro

Visualización do tráfico: mapas de dependencia de servizos

Xestión avanzada do tráfico: interrupción de circuítos, retiros e división do tráfico





As mesas de servizo son especialmente valiosas nos ambientes de Kubernetes, onde se poden implantar como proxies sidecar sen cambios de código nos propios servizos.





Open Telemetry: The Unified Standard

A telemetría aberta emerxeu como o estándar da industria para a instrumentación, ofrecendo un xeito neutro para a recollida e exportación de datos de telemetría.





Components:

API: Define como xerar datos de telemetría

SDK: implementa a API con opcións de configuración

Colector: recibe, procesa e exporta datos de telemetría

Exportadores: Envío de datos a varios backend





Ao adoptar a telemetría aberta, as organizacións evitan o bloqueo do vendedor e poden cambiar entre diferentes backend de observación cando sexa necesario.





Monitoring Platforms





Existen varias solucións para almacenar, analizar e visualizar datos de observación:





Popular Combinations:

Prometheus + Grafana: Monitorización e visualización de métricas de código aberto

ELK Stack (Elasticsearch, Logstash, Kibana): agregación e análise de rexistros

Jaeger/Zipkin: rastrexo distribuído de código aberto

Plataformas comerciais: Datadog, New Relic, Dynatrace, Honeycomb





Moitas organizacións adoptan unha mestura de ferramentas, aínda que as plataformas de observación unificadas están gañando traxectoria pola súa capacidade de correlacionar entre métricas, rexistros e pegadas.





Os retos da observación nos microservizos





Data Volume and Cardinality

Os microservizos xeran enormes volumes de datos de telemetría con alta cardinalidade (moitas combinacións únicas de dimensións).

Custos de almacenamento: equilibrar a retención de datos coas restricións do orzamento

Desempeño de consultas: mantendo a velocidade co aumento do volume de datos

Signal-to-noise ratio: Buscando información relevante en grandes conxuntos de datos





Context Propagation

Manter o contexto a través das fronteiras do servizo require unha consideración coidadosa:

Capítulos consistentes: formatación estandarizada para trace IDs e contexto

Operacións asíncronas: preservación do contexto en cadeas de mensaxes

Servizos de terceiros: Xestionar sistemas externos que non soportan os seus mecanismos de seguimento





Tool Proliferation

O paisaxe de observación presenta numerosas ferramentas especializadas, que levan a:

Integration complexity: Ensuring tools work together seamlessly

Fragmentación do coñecemento: requirir que os equipos aprendan varios sistemas

Xestión de custos: Control de gastos a través de varios vendedores





Mellores prácticas para a observación de microservizos





Estratexias de instrumentación

Por defecto á instrumentación: fai da observabilidade unha característica estándar, non unha reflexión posterior

Utilización de auto-instrumentación onde sexa posible para reducir o desenvolvemento de superficies

Standardize on consistent libraries across services and teams

Considere a observabilidade nas APIs deseñando con trazabilidade en mente





Monitorización da saúde e SLIs/SLOs

Implementar controis de saúde de servizos para o seguimento básico da dispoñibilidade

Definir indicadores de nivel de servizo (SLI) que reflictan a experiencia do usuario

Establecer Obxectivos de Nivel de Servizo (SLOs) como obxectivos de fiabilidade

Crear orzamentos de erro para equilibrar a fiabilidade coa velocidade de desenvolvemento





Filosofía de alerta

Alerta sobre os síntomas, non as causas: Foco no impacto do usuario

Reduce a fatiga de alerta: Elimina as notificacións ruidosas ou redundantes

Establecer a propiedade clara: alertas de ruta aos equipos correctos

Crear alertas accionables: Inclúe contexto e posibles pasos de reparación





A observación como cultura

Shift left: Integra a observación no proceso de desenvolvemento

Realiza revisións de observación xunto con revisións de código

Practicar a enxeñaría do caos para verificar a observabilidade durante fallos

Crear playbooks para escenarios comúns identificados a través de datos de observabilidade





New Relic’s Comprehensive Approach to Microservice Observability

O que distingue a New Relic é o seu enfoque de plataforma unificado para a observación. En lugar de combinar varias ferramentas especializadas, New Relic proporciona visibilidade de extremo a extremo en todo o seu ecosistema de microservizos a través dun único panel de vidro. New Relic proporciona alertas que axudan a limpar os problemas de fixación de ruído antes de que se convertan en botellas. Ofrece rutas sintéticas que axudan a determinar a saúde dos servizos. Ofrece NerdGraph API para automatizar a escalación etc. En base a alertas ou eventos que podemos usar legacy rest api. A continuación están as instalacións de punta proporcionadas por New Relic.





Service Architecture Intelligence

No núcleo da observación de microservizos de New Relic está a Intelixencia de Arquitectura de Servizos. Esta capacidade descobre e mapea automaticamente as relacións entre servizos, proporcionando unha visualización en tempo real das súas dependencias de servizo. Os enxeñeiros poden identificar rapidamente problemas, solucionar problemas e entender como os cambios nun servizo poden afectar a outros. Os mapas de arquitectura de servizos non son diagramas estáticos, senón visualizacións dinámicas que reflicten o comportamento real do seu sistema. Actualizan automaticamente a medida que a súa arquitectura evoluciona, garantindo que o seu equipo sempre teña unha comprensión precisa das relacións de servizo sen esforzos manuais de documentación.





Queues & Streams Monitoring

As arquitecturas modernas de microservizos dependen en gran medida de filas e fluxos de mensaxes para a comunicación asíncrona. O seguimento de filas e fluxos de New Relic proporciona visibilidade bidireccional que conecta os temas tanto aos produtores como aos servizos do consumidor. Este enfoque innovador permite que os equipos de DevOps identifiquen e resolvan rapidamente problemas como os produtores lentos, os temas sobrecargados ou os consumidores que loitan. Con visións granulares sobre a saúde de Kafka ata o clúster, a partición, o corretor, o tema, o produtor e o nivel do consumidor, os equipos poden detectar de forma proactiva posibles lacunas de botella antes de que impacten no rendemento do sistema.





Fleet and Agent Control

O control da frota e o control do axente de New Relic proporcionan un plan de control de observación abrangente que centraliza todas as tarefas do ciclo de vida da instrumentación en todo o seu entorno. Con estas ferramentas, os equipos poden: Centralizar as operacións do axente para reducir o esforzo manual Actualizar as versións do axente para toda a frota de servizos con só uns poucos clics Eliminar os puntos cegos de telemetría nos cúmulos de Kubernetes Automatizar a instrumentación a escala con APIs para a instrumentación como código Esta capacidade é especialmente valiosa para ambientes de microservizos onde a xestión manual do axente en centos de servizos sería impracticable.





Enhanced Application Performance Monitoring (eAPM)

O eAPM de New Relic aproveita a tecnoloxía eBPF para proporcionar unha visión profunda do rendemento das aplicacións sen modificar o código ou reiniciar os servizos.





A capacidade de eAPM ofrece:

Consecuencias impulsadas por IA que correlacionan automaticamente as métricas entre aplicacións e cúmulos de Kubernetes

Monitorización de métricas de ouro, transaccións e rendemento da base de datos

Transición sinxela a axentes APM tradicionais cando se precisen coñecementos máis profundos





Isto permite que os equipos poidan implementar rapidamente a observabilidade en todo o seu paisaxe de microservizos sen un extenso traballo de instrumentación.





Cloud Cost Intelligence

A capacidade de intelixencia de custos en nube de New Relic proporciona unha visibilidade completa e en tempo real dos custos dos recursos en nube, o que permite aos equipos: ver e xestionar os custos da nube en toda a organización Estimar o impacto do custo dos recursos de computación antes da implantación Recoller e visualizar automaticamente datos de telemetría en tempo real para obter máis información sobre os custos Permitir a colaboración entre equipos de enxeñaría, finanzas e produtos para aliñar os gastos cos obxectivos empresariais Esta integración de datos de custos con métricas de rendemento axuda aos equipos a tomar decisións informadas sobre a optimización de servizos e a asignación de recursos.





Real-Time Collaboration and Knowledge Sharing

A observación eficaz de microservizos require colaboración entre equipos. New Relic facilita isto a través de paneis de control públicos, permitindo que os equipos compartan ideas críticas con partes interesadas dentro e fóra da organización.





Estes xogos permiten que os equipos

Crea e comparte ideas facilmente usando a base de datos unificada e a linguaxe de consulta de New Relic

Proporcionar métricas en tempo real a audiencias sen necesidade de iniciar sesión en New Relic

Implementar controles de acceso baseados en funcións para a seguridade





This capability breaks down silos between development teams, operations, and business stakeholders, fostering a unified approach to service reliability.





O futuro dos microservizos

O campo continúa evolucionando con varias tendencias emerxentes:

Análise impulsada por IA: aprendizaxe automática para detectar anomalías e suxerir causas raíz

eBPF technology: Kernel-level instrumentation with minimal overhead

Converxencia de telemetría aberta: continuada normalización da recollida de telemetría

Observabilidade como código: Definición de requisitos de observabilidade xunto coa infraestrutura





Conclusión

A observabilidade efectiva transforma os microservizos de caixas negras opacas en sistemas transparentes e debugables.Ao implementar unha estratexia integral que inclúa métricas, rexistros e pegadas, as organizacións poden construír confianza nas súas arquitecturas distribuídas e ofrecer unha experiencia de usuario máis fiable.





O investimento en observabilidade paga dividendos non só en tempos de inactividade reducidos e depuración máis rápida, senón en permitir que os equipos innoven con confianza, sabendo que poden comprender os sistemas complexos que constrúen e manteñen.