作为过去几年与微服务合作的后端开发人员,一个事实已经变得非常明显:在分布式系统中调试生产问题可以像黑暗中的侦探工作一样。





你有服务调用服务,有时是数十个深度。用户点击用户界面上的一个按钮,15个微服务进入行动。





如果你在2024年建立或维护微服务,OpenTelemetry就是你想要的工具。





究竟什么是观察力,真的?

可观察性不仅仅是日志,它涉及了解为什么您的系统以某种方式行为,而不仅仅是它正在做什么。





日志 – 原始事件,用于调试。

Metrics - 您可以随时间跟踪的数字(例如请求数,CPU)。

跟踪 - 跨服务的端到端请求流(也称为您的分布式“呼叫堆)。





传统的监控工具主要集中在指标和日志上,但跟踪是微服务的真正改变者。





为什么我们选择OpenTelemetry

我们尝试了几种可观测堆栈(Datadog、New Relic、Prometheus、Jaeger、Zipkin),但它们都有一个问题:它们或被供应商锁定,或在不同语言中缺乏一致性。





OpenTelemetry(OTel)检查了我们的所有框:

开源,在CNCF下

跨语言工作(我们使用 Node.js、Go 和 Python)

供应商中立 - 出口到Grafana,Jaeger,New Relic等。

由行业中的每个人都支持(字面上:AWS、GCP、Microsoft等)





如何在 Node.js 微服务中使用 OpenTelemetry

让我们假设我们有一个简单的用户服务,在Node.js中使用Express。

Step 1: Install Dependencies

npm install @opentelemetry/api \ @opentelemetry/sdk-node \ @opentelemetry/auto-instrumentations-node \ @opentelemetry/exporter-trace-otlp-http

我们将通过OTLP将痕迹导出到当地的Jaeger实例。





Step 2: Create tracing.js to Initialize OpenTelemetry

JavaScript: tracing.js

const { NodeSDK } = require('@opentelemetry/sdk-node'); const { getNodeAutoInstrumentations } = require('@opentelemetry/auto-instrumentations-node'); const { OTLPTraceExporter } = require('@opentelemetry/exporter-trace-otlp-http'); const { SemanticResourceAttributes } = require('@opentelemetry/semantic-conventions'); const { Resource } = require('@opentelemetry/resources'); const traceExporter = new OTLPTraceExporter({ url: 'http://localhost:4318/v1/traces', }); const sdk = new NodeSDK({ traceExporter, instrumentations: [getNodeAutoInstrumentations()], resource: new Resource({ [SemanticResourceAttributes.SERVICE_NAME]: 'user-service',}) }); sdk.start();





Step 3: Add It to Your Entry File





JavaScript: Index.js require('./tracing'); // Always load this first const express = require('express'); const app = express(); app.get('/users', (req, res) => { res.json([{ id: 1, name: "Alice" }, { id: 2, name: "Bob" }]); }); app.listen(3000, () => console.log("User service running on port 3000"));





我们的服务现在正在出口痕迹。





Step 4: Spin Up Jaeger Locally (or Use Grafana Tempo)





以下是我们如何在本地测试:

docker run -d --name jaeger \ -e COLLECTOR_OTLP_ENABLED=true \ -p 4318:4318 -p 16686:16686 \ jaegertracing/all-in-one:latest





访问 http://localhost:16686 查看您的痕迹。

服务链路追踪

现在假设您有另一个服务 - 订单服务 - 呼叫用户服务. 如果两者都配备了 OpenTelemetry,则您将获得用户请求在它们之间跳跃的完整痕迹。





OpenTelemetry 可通过 HTTP 标题自动处理跟踪背景传播,您无需在服务之间手动传输跟踪 ID。





为业务逻辑添加自定义空间

例如,如果您想要跟踪 DB 查询或外部 API 调用:





const { trace } = require('@opentelemetry/api'); const tracer = trace.getTracer('user-service'); app.get('/users', async (req, res) => { const span = tracer.startSpan('fetch-user-data'); try { const users = await fetchUsersFromDB(); res.json(users); } catch (err) { span.recordException(err); throw err; } finally { span.end(); } });





这是非常有用的,当你想跟踪特定业务逻辑的表现。





Best Practices We've Learned the Hard Way





1. Use Semantic Conventions

不要发明自己的属性名称,而是遵循OpenTelemetry的语义惯例,这使得你的痕迹更容易理解和与Grafana、Tempo等工具兼容。





例子:

JavaScript span.setAttribute("http.method", req.method); span.setAttribute("http.route", req.path);





2. Sample Wisely

如果你追踪每一个请求,你的系统会沉浸在数据中,使用追踪样本(例如10%,或只有错误)。

加密货币

const sdk = new NodeSDK ({ sampler: new TraceIdRatioBasedSampler (0.1), // 10% sampling });





3. Use OpenTelemetry Collector in Production

不要将远程测量数据直接从您的服务导出到您的后端. 将其路由到 OpenTelemetry Collector - 它为您提供缓冲,批量,重置和格式转换。





4. Don't Log PII in Spans

非常小心不要将用户名、电子邮件、信用卡信息等存储在 span 属性或日志中。





这对我们最有帮助的地方

调试延迟问题:在四到五个微服务中看到完整的痕迹帮助我们在几分钟内识别瓶颈。

识别重复风暴:我们发现一个服务在重复的循环中呼叫另一个服务,这是我们不会通过日志捕捉到的。

部署回归:将一个版本的痕迹与下一个版本的痕迹进行比较,让我们确切地了解了发生了什么变化。





奖金:在多语言堆栈中跟踪

我们正在使用 Node.js 用于某些服务,Go 用于其他服务。OpenTelemetry 使其易于仪器化,并将所有数据发送到一个地方 - Jaeger for dev,Grafana Cloud in staging/prod。





没有供应商锁定. 没有错误的痕迹格式. 只是纯粹的可见性。





Conclusion: If You're Building Microservices, Start with Observability

微服务为我们提供了规模和灵活性,但它们也带来了复杂性。

OpenTelemetry已成为我们架构的核心部分,不仅用于调试,而且用于优化性能,可靠性和最终 - 用户体验。





如果有人还没有使用它,我强烈建议给它一个拍摄,即使是与Jaeger和一些服务的基本设置会让你想知道你如何生活没有它。