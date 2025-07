În calitate de dezvoltator de backend care lucrează cu microservices în ultimii ani, un adevăr a devenit dureros de evident: depistarea problemelor de producție în cadrul sistemelor distribuite se poate simți ca o muncă de detectiv în întuneric.





Aveți servicii care cheamă servicii, uneori zeci de adânci. Un utilizator face clic pe un buton pe interfața de utilizator și 15 microservices se învârt în acțiune.





Și dacă construiți sau întrețineți microservicii în 2024, OpenTelemetry este instrumentul pe care îl doriți în colț.





Ce este observatia, cu adevarat?

Observabilitatea este mai mult decât doar jurnalele.Este vorba despre înțelegerea motivului pentru care sistemul dvs. se comportă într-un anumit mod, nu doar ceea ce face.





Logs – Evenimente brute, utile pentru debugging.

Metrice - Numere pe care le puteți urmări în timp (de exemplu, numărul de solicitări, CPU).

Traces – fluxuri de cereri de la capăt la capăt între servicii (cunoscute și sub denumirea de „stack-ul de apeluri” distribuit).





Instrumentele tradiționale de monitorizare se concentrează în cea mai mare parte pe metrici și loguri, dar urmărirea este adevăratul schimbător de joc pentru microservices.





De ce am ales OpenTelemetry

Am experimentat cu mai multe stive de observabilitate – Datadog, New Relic, Prometheus, Jaeger, Zipkin – dar toate aveau o problemă: fie erau blocate de furnizori, fie lipseau de coerență între limbi.





OpenTelemetry (OTel) a verificat toate casetele noastre:

Sursă deschisă, sub CNCF

Funcționează în diferite limbi (utilizăm Node.js, Go și Python)

Furnizor neutru – export către Grafana, Jaeger, New Relic etc.

Suportat de toată lumea din industrie (literal: AWS, GCP, Microsoft etc.)





Cum se utilizează OpenTelemetry în Node.js Microservices

Să spunem că avem un simplu serviciu de utilizator construit în Node.js folosind Express.

Step 1: Install Dependencies

npm install @opentelemetry/api \ @opentelemetry/sdk-node \ @opentelemetry/auto-instrumentations-node \ @opentelemetry/exporter-trace-otlp-http

Vom exporta urme prin OTLP într-o instanță Jaeger locală.





Step 2: Create tracing.js to Initialize OpenTelemetry

JavaScript: tracing.js

const { NodeSDK } = require('@opentelemetry/sdk-node'); const { getNodeAutoInstrumentations } = require('@opentelemetry/auto-instrumentations-node'); const { OTLPTraceExporter } = require('@opentelemetry/exporter-trace-otlp-http'); const { SemanticResourceAttributes } = require('@opentelemetry/semantic-conventions'); const { Resource } = require('@opentelemetry/resources'); const traceExporter = new OTLPTraceExporter({ url: 'http://localhost:4318/v1/traces', }); const sdk = new NodeSDK({ traceExporter, instrumentations: [getNodeAutoInstrumentations()], resource: new Resource({ [SemanticResourceAttributes.SERVICE_NAME]: 'user-service',}) }); sdk.start();





Step 3: Add It to Your Entry File





JavaScript: Index.js require('./tracing'); // Always load this first const express = require('express'); const app = express(); app.get('/users', (req, res) => { res.json([{ id: 1, name: "Alice" }, { id: 2, name: "Bob" }]); }); app.listen(3000, () => console.log("User service running on port 3000"));





Serviciul nostru exportă acum urme.





Step 4: Spin Up Jaeger Locally (or Use Grafana Tempo)





Iată cum testăm la nivel local:

docker run -d --name jaeger \ -e COLLECTOR_OTLP_ENABLED=true \ -p 4318:4318 -p 16686:16686 \ jaegertracing/all-in-one:latest





Vizitați http://localhost:16686 pentru a vedea urmele.

Viziteazăhttp://localhost:16686Să văd urmele.





Lanțul de urmărire a serviciilor

Acum să spunem că aveți un alt serviciu - comandă-serviciu - care cheamă utilizator-serviciu. Dacă ambele sunt instrumentate cu OpenTelemetry, veți obține o urmărire completă a solicitării utilizatorului care sări între ele.





OpenTelemetry gestionează automat propagarea contextului de urmărire prin intermediul antetelor HTTP. Nu trebuie să treceți manual ID-urile de urmărire între servicii.





Adăugarea spațiilor personalizate pentru logica de afaceri

Uneori, automatizarea instrumentelor nu este suficientă, de exemplu, dacă doriți să urmăriți o interogare DB sau un apel API extern:





const { trace } = require('@opentelemetry/api'); const tracer = trace.getTracer('user-service'); app.get('/users', async (req, res) => { const span = tracer.startSpan('fetch-user-data'); try { const users = await fetchUsersFromDB(); res.json(users); } catch (err) { span.recordException(err); throw err; } finally { span.end(); } });





Acest lucru este foarte util atunci când doriți să urmăriți performanța logicii de afaceri specifice.





Best Practices We've Learned the Hard Way





1. Use Semantic Conventions

În loc să-ți inventezi propriile nume de atribute, ține-te de convențiile semantice OpenTelemetry. Acestea fac ca urmele tale să fie mai ușor de înțeles și compatibile cu instrumente precum Grafana, Tempo etc.





Exemplul :

JavaScript span.setAttribute("http.method", req.method); span.setAttribute("http.route", req.path);





2. Sample Wisely

Dacă urmăriți fiecare cerere, sistemul dvs. se va îneca în date. Folosiți eșantionarea urmăririi (de exemplu, 10%, sau doar erori).

JavaScript

const sdk = new NodeSDK ({ sampler: new TraceIdRatioBasedSampler (0.1), // 10% sampling });





3. Use OpenTelemetry Collector in Production

Nu exportați date de telemetrie direct din serviciile dvs. către backend-ul dvs. Rutați-l prin Colectorul OpenTelemetry - vă oferă buffering, batching, retries și conversie de format.





4. Don't Log PII in Spans

Fiți foarte atenți să nu stocați nume de utilizator, e-mailuri, informații despre carduri de credit etc. în atributele sau jurnalele de interval.





Unde ne-a ajutat cel mai mult

Debugging probleme de latență: Văzând urme complete în 4-5 microservices ne-a ajutat să identificăm blocajele în câteva minute.

Identificarea furtunilor de retry: Am observat un serviciu care a apelat la altul într-o buclă cu retries, ceva ce nu am fi prins prin jurnalele.

Regresiuni de implementare: Comparând urmele de la o versiune la alta, ne-am arătat exact ce s-a schimbat.





Bonus: urmărirea într-o grămadă de limbi

Folosim Node.js pentru unele servicii, Go pentru altele. OpenTelemetry a făcut ușor să instrumentezi ambele și să trimiți toate datele într-un singur loc - Jaeger pentru dev, Grafana Cloud în staging/prod.





Nici un lock-in de vânzător. Nici o neconcordanță în formatele de urmărire. Doar vizibilitate pură.





Conclusion: If You're Building Microservices, Start with Observability

Microserviciile ne oferă scară și flexibilitate, dar aduc și complexitate.

OpenTelemetry a devenit o parte esențială a arhitecturii noastre, nu numai pentru debugging, ci și pentru optimizarea performanței, a fiabilității și, în cele din urmă, a experienței utilizatorului.





Chiar și o setare de bază cu Jaeger și câteva servicii vă vor face să vă întrebați cum ați trăit vreodată fără ea.