GitHub to coś więcej niż tylko platforma do hostowania repozytoriów — to wysoce skalowalny rozproszony system, który przetwarza miliony transakcji dziennie. Od obsługi żądań git push po wydajne obliczanie różnic plików, GitHub opiera się na solidnych algorytmach i architekturze, aby zapewnić wysoką wydajność i niezawodność.  W tym artykule zbadano, w jaki sposób GitHub przetwarza ogromne ilości danych, skaluje się, aby obsłużyć miliony transakcji, i wykorzystuje algorytmy diff do wydajnego śledzenia zmian plików. Artykuł zawiera również szczegółowe implementacje JavaScript podstawowych algorytmów używanych w systemach kontroli wersji.  1. Wyzwania systemów kontroli wersji na dużą skalę.  Nowoczesne systemy kontroli wersji muszą sprostać kilku zasadniczym wyzwaniom:  Przetwarzanie milionów transakcji dziennie, w tym zatwierdzanie, scalanie i żądania ściągnięcia.  Efektywne obliczanie różnic między plikami, co jest kluczowe dla śledzenia wersji i scalania.  Skalowanie pamięci masowej i mocy przetwarzania, zapewniające szybki czas reakcji dla programistów na całym świecie.  Zasady te nie są wyłączną cechą GitHub. Podobne architektury i algorytmy są używane w GitLab, Bitbucket i innych platformach, które zajmują się kontrolą wersji na dużą skalę.   2. Jak GitHub oblicza różnice plików (implementacja algorytmu Diff w JavaScript)  Podczas śledzenia zmian w pliku GitHub (i sam Git) używa algorytmów diff, aby obliczyć minimalną liczbę edycji potrzebnych do przekształcenia jednej wersji pliku w inną. Szeroko stosowanym algorytmem jest algorytm Diff Myersa.  2.1. Jak działa algorytm Myersa.  Algorytm Myersa znajduje najkrótszą sekwencję wstawień i usunięć wymaganą do konwersji jednego pliku na inny. Działa poprzez iterowanie przez możliwe odległości edycyjne (d) i obliczanie możliwych transformacji wzdłuż „przekątnych” w grafie edycji.   2.2. Implementacja algorytmu Myersa w JavaScript.   /** * Computes the minimum edit distance between two arrays using Myers' Diff Algorithm. * @param {Array} a - The original array (eg, characters of a file) * @param {Array} b - The modified array * @returns {number} The minimum number of edit operations required */ function myersDiff(a, b) { const N = a.length; const M = b.length; const maxD = N + M; let v = { 1: 0 }; for (let d = 0; d <= maxD; d++) { for (let k = -d; k <= d; k += 2) { let x; if (k === -d || (k !== d && (v[k - 1] || 0) < (v[k + 1] || 0))) { x = v[k + 1] || 0; } else { x = (v[k - 1] || 0) + 1; } let y = x - k; while (x < N && y < M && a[x] === b[y]) { x++; y++; } v[k] = x; if (x >= N && y >= M) { return d; } } } return maxD; } // Example usage: const oldVersion = Array.from("Hello World"); const newVersion = Array.from("Hello GitHub World"); const operations = myersDiff(oldVersion, newVersion); console.log(`Minimum number of edits: ${operations}`);  Podział kodu:  Inicjalizacja: Algorytm inicjuje tablicę v, aby zapisać maksymalne wartości x dla każdej przekątnej w grafie edycji.  Pętla przez możliwe odległości edycji (d): Iteruje przez każdą możliwą liczbę potrzebnych edycji.  Obliczanie optymalnej ścieżki: Określa, czy wstawić, czy usunąć, na podstawie wartości v[k].  Krok „chciwego dopasowania”: przesuwa się po przekątnej, dopóki znaki się zgadzają, minimalizując niepotrzebne operacje.   3. Architektura przetwarzania transakcji GitHub.  Aby obsłużyć miliony transakcji, GitHub wykorzystuje wielowarstwową architekturę. Oto jak przebiega typowy przepływ transakcji:  Odbieranie żądania: API i webhooki odbierają transakcje (git push, git pull itp.).  Kolejkowanie żądania: Transakcje są umieszczane w rozproszonej kolejce (Redis/Kafka) w celu przetwarzania równoległego.  Przetwarzanie w mikrousługach: Usługi dedykowane zajmują się indeksowaniem, obliczaniem różnic i aktualizacją statystyk.  Aktualizacja pamięci masowej: Wyniki są zapisywane w bazie danych (SQL/NoSQL) i buforowane w celu zapewnienia szybkiego dostępu.  Ta architektura umożliwia wydajne skalowanie GitHub, zapewniając, że żaden pojedynczy komponent nie stanie się wąskim gardłem  4. Implementacja JavaScript w przetwarzaniu transakcji na wzór GitHub.  GitHub przetwarza transakcje asynchronicznie, aby obsłużyć duży ruch. Poniższy kod JavaScript symuluje równoległe przetwarzanie transakcji przy użyciu Promises.   /** * Simulates a transaction in a version control system. */ class Transaction { constructor(id, action, payload) { this.id = id; this.action = action; this.payload = payload; } } /** * Simulates processing a transaction step-by-step. * @param {Transaction} tx - The transaction to process * @returns {Promise<string>} The result of processing */ function processTransaction(tx) { return new Promise((resolve) => { console.log(`Processing transaction ${tx.id}: ${tx.action}`); setTimeout(() => { console.log(`Indexing ${tx.id}...`); setTimeout(() => { console.log(`Computing diff for ${tx.id}...`); setTimeout(() => { console.log(`Updating database for ${tx.id}...`); resolve("success"); }, 100); }, 50); }, 100); }); } /** * Simulates processing multiple transactions in parallel. */ async function processTransactions() { const transactions = [ new Transaction("tx001", "commit", "Modified file A"), new Transaction("tx002", "commit", "Fixed bug in file B"), new Transaction("tx003", "merge", "Merged branches"), ]; const promises = transactions.map(async (tx) => { const result = await processTransaction(tx); console.log(`Transaction ${tx.id} result: ${result}`); }); await Promise.all(promises); console.log("All transactions processed."); } // Run transaction processing processTransactions();  Najważniejsze wnioski z tego kodu:  Przetwarzanie asynchroniczne: transakcje są wykonywane równolegle przy użyciu Promise.all().  Symulacja krok po kroku: Każda transakcja przebiega według tego samego przepływu przetwarzania — indeksowanie, obliczanie różnic i aktualizowanie pamięci masowej.  Skalowalność: Podobne zasady obowiązują w systemach realnego świata, takich jak GitHub, gdzie kolejki Redis/Kafka pomagają dystrybuować obciążenia pomiędzy mikrousługami.  5. Wnioski: skalowalne podejście GitHub do kontroli wersji.  Możliwość przetwarzania milionów transakcji dziennie przez GitHub opiera się na kombinacji następujących czynników:  Zoptymalizowano algorytmy różnicowe, takie jak algorytm Myersa, w celu wydajnego obliczania zmian w plikach.  Skalowalna, rozproszona architektura wykorzystująca mikrousługi i kolejki komunikatów do równoważenia obciążenia.  Równoległe przetwarzanie transakcji gwarantuje szybką reakcję nawet przy dużym obciążeniu.  Te techniki nie są wyłączną cechą GitHub — są szeroko stosowane w GitLab, Bitbucket i systemach przetwarzania danych na dużą skalę. Zrozumienie tych zasad pomaga deweloperom tworzyć wydajne, skalowalne aplikacje do obsługi dużych wolumenów transakcji.

This story will praise and/or roast a product, company, service, game, or anything else people like to review on the Internet.

The code in this story is for educational purposes. The readers are solely responsible for whatever they build with it.

Odsłaniamy tajny plan GitHub — jak obsługiwać miliony transakcji dziennie

About Author

UWAGI

ZAWIEŚĆ TAGI

ARTYKUŁ TEN ZOSTAŁ PREZENTOWANY W

Related Stories

How HackerNoon Feels About AI Generated Content (Hint: 👎🏽)

Verified Writers

Listen to Tech Brief Podcasts on Your Headphones: Stay Connected to HackerNoon Anywhere, Anytime

The Noonies 2022 Award Goes to Madalin Muraretiu - Contributor of The Year - Cryptocurrency Edition

How HackerNoon Feels About AI Generated Content (Hint: 👎🏽)

Verified Writers

Listen to Tech Brief Podcasts on Your Headphones: Stay Connected to HackerNoon Anywhere, Anytime

The Noonies 2022 Award Goes to Madalin Muraretiu - Contributor of The Year - Cryptocurrency Edition

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps