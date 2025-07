マイクロサービスで働くバックエンド開発者として、過去数年間にわたって、一つの真実が痛々しく明らかになった:分散型システムの生産問題のデバッグは、闇の中で探偵の仕事のように感じることができます。





ユーザーはUIのボタンをクリックし、15のマイクロサービスがアクションにスピンします. 何かが壊れた場合 - あるいは更に悪い場合は、単に遅くなります - どこで、なぜ何時間も噛むことができるかを把握します。





そして、2024年にマイクロサービスを構築または維持している場合、OpenTelemetryはあなたの隅に必要なツールです。





観察力って、本当に何?

観察性は単なるログ以上のものであり、なぜあなたのシステムが特定の方法で動いているのかを理解することではなく、単に何をしているのかを理解することです。





Logs - Raw events, useful for debugging. レコード - Raw events, useful for debugging.

Metrics - 時間の経過とともに追跡できる番号(例:リクエスト数、CPU)

Traces - サービス間のエンド・トゥー・エンド・リクエスト・フロー(分散型「コール・スタック」とも呼ばれます)。





従来の監視ツールはメトリクスやログに焦点を当てていますが、トラッキングはマイクロサービスの本当のゲーム変革です。





なぜOpenTelemetryを選んだのか

私たちは、Datadog、New Relic、Prometheus、Jaeger、Zipkinなどのいくつかの観測可能なスタックで実験しましたが、それらはすべて1つの問題を抱えていました:彼らはベンダーロックまたは言語間の一貫性が欠けていました。





OpenTelemetry (OTel) はすべてのボックスをチェックしました:

オープンソース、CNCF

言語間で動作します(Node.js、Go、Pythonを使用しています)

ベンダー中立 - Grafana、Jaeger、New Relicなどへの輸出

業界の誰もがサポートしています(文字通りAWS、GCP、Microsoftなど)





Node.js Microservices で OpenTelemetry を使用する方法

実際のサービスをどのように楽器化したかをご覧ください。Node.js にエクスプレスを使用して構築されたシンプルなユーザサービスを持っているとします。

Step 1: Install Dependencies

npm install @opentelemetry/api \ @opentelemetry/sdk-node \ @opentelemetry/auto-instrumentations-node \ @opentelemetry/exporter-trace-otlp-http

OTLP 経由でトラックを地元の Jaeger インスタンスにエクスポートします。





Step 2: Create tracing.js to Initialize OpenTelemetry

JavaScript: tracing.js

const { NodeSDK } = require('@opentelemetry/sdk-node'); const { getNodeAutoInstrumentations } = require('@opentelemetry/auto-instrumentations-node'); const { OTLPTraceExporter } = require('@opentelemetry/exporter-trace-otlp-http'); const { SemanticResourceAttributes } = require('@opentelemetry/semantic-conventions'); const { Resource } = require('@opentelemetry/resources'); const traceExporter = new OTLPTraceExporter({ url: 'http://localhost:4318/v1/traces', }); const sdk = new NodeSDK({ traceExporter, instrumentations: [getNodeAutoInstrumentations()], resource: new Resource({ [SemanticResourceAttributes.SERVICE_NAME]: 'user-service',}) }); sdk.start();





Step 3: Add It to Your Entry File





JavaScript: Index.js require('./tracing'); // Always load this first const express = require('express'); const app = express(); app.get('/users', (req, res) => { res.json([{ id: 1, name: "Alice" }, { id: 2, name: "Bob" }]); }); app.listen(3000, () => console.log("User service running on port 3000"));





現在は、トラックを輸出しています。





Step 4: Spin Up Jaeger Locally (or Use Grafana Tempo)





以下は、地元でテストする方法です。

docker run -d --name jaeger \ -e COLLECTOR_OTLP_ENABLED=true \ -p 4318:4318 -p 16686:16686 \ jaegertracing/all-in-one:latest





あなたの足跡を見るために http://localhost:16686 を訪問します。

Chaining Traces Across Services サービス

次に、ユーザサービスを呼び出す別のサービス - オーダーサービス - を持っているとします. 両方 OpenTelemetry でインストールされている場合は、ユーザーのリクエストがそれらの間を飛び跳ねる完全な痕跡を取得します。





OpenTelemetry は HTTP ヘッダーを介して自動的に Trace コンテキストの拡散を処理します. You don't have to manually pass trace IDs between services.





ビジネスロジックのためのカスタムスペースの追加

たとえば、DB クエリまたは外部 API 呼び出しを追跡したい場合:





const { trace } = require('@opentelemetry/api'); const tracer = trace.getTracer('user-service'); app.get('/users', async (req, res) => { const span = tracer.startSpan('fetch-user-data'); try { const users = await fetchUsersFromDB(); res.json(users); } catch (err) { span.recordException(err); throw err; } finally { span.end(); } });





これは、特定のビジネス論理のパフォーマンスを追跡したいときに非常に便利です。





Best Practices We've Learned the Hard Way





1. Use Semantic Conventions

独自の属性名を発明する代わりに、OpenTelemetryのセマンティック条約に従ってください. これらはあなたの足跡を理解しやすくし、Grafana、Tempoなどのツールと互換性があります。





例:

JavaScript span.setAttribute("http.method", req.method); span.setAttribute("http.route", req.path);





2. Sample Wisely

すべてのリクエストを追跡する場合、システムはデータに浸透します. Trace sampling(例えば10%、またはエラーのみ)を使用します。

ジャクソン

const sdk = new NodeSDK ({ sampler: new TraceIdRatioBasedSampler (0.1), // 10% sampling });





3. Use OpenTelemetry Collector in Production

サービスから直接バックエンドにテレメトリーデータをエクスポートしないでください OpenTelemetry Collector を経由してルーティングし、バッファリング、バッチング、リトリ、フォーマット変換を提供します。





4. Don't Log PII in Spans

ユーザー名、電子メール、クレジットカード情報等をスペン属性やログに格納しないように注意してください. Stick to metadata and identifiers.





これが私たちを最も助けてくれた場所

デバッグの遅延問題: 4 ~ 5 つのマイクロサービスで完全な痕跡を見ることで、ボトルレイクを数分で特定することができました。

リトリストームの識別:私たちはリトリストームで別のサービスを呼び出すサービスを発見し、私たちはログを通じて捕獲しなかったでしょう。

展開回帰:一つのバージョンから次のバージョンに追跡を比較すると、何が変わったのかを明らかにしました。





ボーナス:Tracing in a Multi-Language Stack

OpenTelemetryは、両方を楽器化し、すべてのデータを1つの場所に送信することを容易にしました - Jaeger for dev, Grafana Cloud in staging/prod。





No vendor lock-in. No mismatch in trace formats. 純粋な可視性のみ。





Conclusion: If You're Building Microservices, Start with Observability

マイクロサービスは私たちに規模と柔軟性を提供しますが、複雑さをもたらします。

OpenTelemetryは、デバッグだけでなく、パフォーマンス、信頼性、そして最終的にはユーザー体験を最適化するために、当社のアーキテクチャのコア部分となっています。





誰かがまだそれを使用していない場合は、私は強くそれにショットを与えることをお勧めします. Jaegerといくつかのサービスとの基本的なセットアップでさえ、あなたはそれをなしでどのように生きていたのか疑問に思います。