375 odczyty

Odsłaniamy tajny plan GitHub — jak obsługiwać miliony transakcji dziennie

przez Oleksii Bondar6m2025/03/02

NSO

Za długo; Czytać

GitHub to wysoce skalowalny rozproszony system, który przetwarza miliony transakcji dziennie. Opiera się na solidnych algorytmach i architekturze, aby zapewnić wysoką wydajność i niezawodność. W tym artykule zbadano, w jaki sposób GitHub przetwarza ogromne ilości danych i wykorzystuje algorytmy diff do wydajnego śledzenia zmian plików.

featured image - Odsłaniamy tajny plan GitHub — jak obsługiwać miliony transakcji dziennie

GitHub to coś więcej niż tylko platforma do hostowania repozytoriów — to wysoce skalowalny rozproszony system, który przetwarza miliony transakcji dziennie. Od obsługi żądań git push po wydajne obliczanie różnic plików, GitHub opiera się na solidnych algorytmach i architekturze, aby zapewnić wysoką wydajność i niezawodność.

W tym artykule zbadano, w jaki sposób GitHub przetwarza ogromne ilości danych, skaluje się, aby obsłużyć miliony transakcji, i wykorzystuje algorytmy diff do wydajnego śledzenia zmian plików. Artykuł zawiera również szczegółowe implementacje JavaScript podstawowych algorytmów używanych w systemach kontroli wersji.

1. Wyzwania systemów kontroli wersji na dużą skalę.

Nowoczesne systemy kontroli wersji muszą sprostać kilku zasadniczym wyzwaniom:

Przetwarzanie milionów transakcji dziennie, w tym zatwierdzanie, scalanie i żądania ściągnięcia.
Efektywne obliczanie różnic między plikami, co jest kluczowe dla śledzenia wersji i scalania.
Skalowanie pamięci masowej i mocy przetwarzania, zapewniające szybki czas reakcji dla programistów na całym świecie.

Zasady te nie są wyłączną cechą GitHub. Podobne architektury i algorytmy są używane w GitLab, Bitbucket i innych platformach, które zajmują się kontrolą wersji na dużą skalę.

2. Jak GitHub oblicza różnice plików (implementacja algorytmu Diff w JavaScript)

Podczas śledzenia zmian w pliku GitHub (i sam Git) używa algorytmów diff, aby obliczyć minimalną liczbę edycji potrzebnych do przekształcenia jednej wersji pliku w inną. Szeroko stosowanym algorytmem jest algorytm Diff Myersa.

2.1. Jak działa algorytm Myersa.

Algorytm Myersa znajduje najkrótszą sekwencję wstawień i usunięć wymaganą do konwersji jednego pliku na inny. Działa poprzez iterowanie przez możliwe odległości edycyjne (d) i obliczanie możliwych transformacji wzdłuż „przekątnych” w grafie edycji.

2.2. Implementacja algorytmu Myersa w JavaScript.

 /** * Computes the minimum edit distance between two arrays using Myers' Diff Algorithm. * @param {Array} a - The original array (eg, characters of a file) * @param {Array} b - The modified array * @returns {number} The minimum number of edit operations required */ function myersDiff(a, b) { const N = a.length; const M = b.length; const maxD = N + M; let v = { 1: 0 }; for (let d = 0; d <= maxD; d++) { for (let k = -d; k <= d; k += 2) { let x; if (k === -d || (k !== d && (v[k - 1] || 0) < (v[k + 1] || 0))) { x = v[k + 1] || 0; } else { x = (v[k - 1] || 0) + 1; } let y = x - k; while (x < N && y < M && a[x] === b[y]) { x++; y++; } v[k] = x; if (x >= N && y >= M) { return d; } } } return maxD; } // Example usage: const oldVersion = Array.from("Hello World"); const newVersion = Array.from("Hello GitHub World"); const operations = myersDiff(oldVersion, newVersion); console.log(`Minimum number of edits: ${operations}`);

Podział kodu:

Inicjalizacja: Algorytm inicjuje tablicę v, aby zapisać maksymalne wartości x dla każdej przekątnej w grafie edycji.
Pętla przez możliwe odległości edycji (d): Iteruje przez każdą możliwą liczbę potrzebnych edycji.
Obliczanie optymalnej ścieżki: Określa, czy wstawić, czy usunąć, na podstawie wartości v[k].
Krok „chciwego dopasowania”: przesuwa się po przekątnej, dopóki znaki się zgadzają, minimalizując niepotrzebne operacje.

3. Architektura przetwarzania transakcji GitHub.

Aby obsłużyć miliony transakcji, GitHub wykorzystuje wielowarstwową architekturę. Oto jak przebiega typowy przepływ transakcji:

Odbieranie żądania: API i webhooki odbierają transakcje (git push, git pull itp.).
Kolejkowanie żądania: Transakcje są umieszczane w rozproszonej kolejce (Redis/Kafka) w celu przetwarzania równoległego.
Przetwarzanie w mikrousługach: Usługi dedykowane zajmują się indeksowaniem, obliczaniem różnic i aktualizacją statystyk.
Aktualizacja pamięci masowej: Wyniki są zapisywane w bazie danych (SQL/NoSQL) i buforowane w celu zapewnienia szybkiego dostępu.

Ta architektura umożliwia wydajne skalowanie GitHub, zapewniając, że żaden pojedynczy komponent nie stanie się wąskim gardłem

4. Implementacja JavaScript w przetwarzaniu transakcji na wzór GitHub.

GitHub przetwarza transakcje asynchronicznie, aby obsłużyć duży ruch. Poniższy kod JavaScript symuluje równoległe przetwarzanie transakcji przy użyciu Promises.

 /** * Simulates a transaction in a version control system. */ class Transaction { constructor(id, action, payload) { this.id = id; this.action = action; this.payload = payload; } } /** * Simulates processing a transaction step-by-step. * @param {Transaction} tx - The transaction to process * @returns {Promise<string>} The result of processing */ function processTransaction(tx) { return new Promise((resolve) => { console.log(`Processing transaction ${tx.id}: ${tx.action}`); setTimeout(() => { console.log(`Indexing ${tx.id}...`); setTimeout(() => { console.log(`Computing diff for ${tx.id}...`); setTimeout(() => { console.log(`Updating database for ${tx.id}...`); resolve("success"); }, 100); }, 50); }, 100); }); } /** * Simulates processing multiple transactions in parallel. */ async function processTransactions() { const transactions = [ new Transaction("tx001", "commit", "Modified file A"), new Transaction("tx002", "commit", "Fixed bug in file B"), new Transaction("tx003", "merge", "Merged branches"), ]; const promises = transactions.map(async (tx) => { const result = await processTransaction(tx); console.log(`Transaction ${tx.id} result: ${result}`); }); await Promise.all(promises); console.log("All transactions processed."); } // Run transaction processing processTransactions();

Najważniejsze wnioski z tego kodu:

Przetwarzanie asynchroniczne: transakcje są wykonywane równolegle przy użyciu Promise.all().
Symulacja krok po kroku: Każda transakcja przebiega według tego samego przepływu przetwarzania — indeksowanie, obliczanie różnic i aktualizowanie pamięci masowej.
Skalowalność: Podobne zasady obowiązują w systemach realnego świata, takich jak GitHub, gdzie kolejki Redis/Kafka pomagają dystrybuować obciążenia pomiędzy mikrousługami.

5. Wnioski: skalowalne podejście GitHub do kontroli wersji.

Możliwość przetwarzania milionów transakcji dziennie przez GitHub opiera się na kombinacji następujących czynników:

Zoptymalizowano algorytmy różnicowe, takie jak algorytm Myersa, w celu wydajnego obliczania zmian w plikach.
Skalowalna, rozproszona architektura wykorzystująca mikrousługi i kolejki komunikatów do równoważenia obciążenia.
Równoległe przetwarzanie transakcji gwarantuje szybką reakcję nawet przy dużym obciążeniu.

Te techniki nie są wyłączną cechą GitHub — są szeroko stosowane w GitLab, Bitbucket i systemach przetwarzania danych na dużą skalę. Zrozumienie tych zasad pomaga deweloperom tworzyć wydajne, skalowalne aplikacje do obsługi dużych wolumenów transakcji.