
GitHub는 단순히 저장소를 호스팅하는 플랫폼이 아니라 매일 수백만 건의 거래를 처리하는 확장성이 뛰어난 분산 시스템입니다. git push 요청을 처리하는 것부터 파일 차이를 효율적으로 계산하는 것까지 GitHub는 강력한 알고리즘과 아키텍처를 사용하여 높은 성능과 안정성을 보장합니다.
이 글에서는 GitHub이 방대한 양의 데이터를 처리하고, 수백만 건의 거래를 처리하도록 확장하고, diff 알고리즘을 사용하여 파일 변경 사항을 효율적으로 추적하는 방법을 살펴봅니다. 또한 이 글에는 버전 제어 시스템에서 사용되는 핵심 알고리즘의 자세한 JavaScript 구현도 포함되어 있습니다.
최신 버전 제어 시스템은 몇 가지 주요 과제를 해결해야 합니다.
이러한 원칙은 GitHub에만 국한되지 않습니다. 비슷한 아키텍처와 알고리즘이 GitLab, Bitbucket 및 대규모 버전 제어를 처리하는 다른 플랫폼에서 사용됩니다.
파일의 변경 사항을 추적할 때 GitHub(및 Git 자체)는 diff 알고리즘을 사용하여 파일의 한 버전을 다른 버전으로 변환하는 데 필요한 최소 편집 횟수를 계산합니다. 이를 위해 널리 사용되는 알고리즘은 Myers' Diff Algorithm입니다.
마이어스 알고리즘은 한 파일을 다른 파일로 변환하는 데 필요한 가장 짧은 삽입 및 삭제 시퀀스를 찾습니다. 가능한 편집 거리(d)를 반복하고 편집 그래프의 "대각선"을 따라 가능한 변환을 계산하여 작동합니다.
/** * Computes the minimum edit distance between two arrays using Myers' Diff Algorithm. * @param {Array} a - The original array (eg, characters of a file) * @param {Array} b - The modified array * @returns {number} The minimum number of edit operations required */ function myersDiff(a, b) { const N = a.length; const M = b.length; const maxD = N + M; let v = { 1: 0 }; for (let d = 0; d <= maxD; d++) { for (let k = -d; k <= d; k += 2) { let x; if (k === -d || (k !== d && (v[k - 1] || 0) < (v[k + 1] || 0))) { x = v[k + 1] || 0; } else { x = (v[k - 1] || 0) + 1; } let y = x - k; while (x < N && y < M && a[x] === b[y]) { x++; y++; } v[k] = x; if (x >= N && y >= M) { return d; } } } return maxD; } // Example usage: const oldVersion = Array.from("Hello World"); const newVersion = Array.from("Hello GitHub World"); const operations = myersDiff(oldVersion, newVersion); console.log(`Minimum number of edits: ${operations}`);
코드 분석:
초기화: 알고리즘은 편집 그래프의 각 대각선에 대한 최대 x 값을 저장하기 위해 배열 v를 초기화합니다.
가능한 편집 거리를 반복합니다(d): 필요한 편집 횟수마다 반복합니다.
최적 경로 계산: v[k] 값을 기준으로 삽입할지 삭제할지 결정합니다.
"탐욕적 매치" 단계: 문자가 일치하는 한 대각선으로 이동하여 불필요한 작업을 최소화합니다.
수백만 건의 거래를 처리하기 위해 GitHub은 다층 아키텍처를 사용합니다. 일반적인 거래 흐름은 다음과 같습니다.
이 아키텍처를 사용하면 GitHub이 효율적으로 확장되어 단일 구성 요소가 병목 현상이 발생하지 않도록 보장할 수 있습니다.
GitHub은 높은 트래픽을 처리하기 위해 비동기적으로 트랜잭션을 처리합니다. 다음 JavaScript 코드는 Promises를 사용하여 트랜잭션의 병렬 처리를 시뮬레이션합니다.
/** * Simulates a transaction in a version control system. */ class Transaction { constructor(id, action, payload) { this.id = id; this.action = action; this.payload = payload; } } /** * Simulates processing a transaction step-by-step. * @param {Transaction} tx - The transaction to process * @returns {Promise<string>} The result of processing */ function processTransaction(tx) { return new Promise((resolve) => { console.log(`Processing transaction ${tx.id}: ${tx.action}`); setTimeout(() => { console.log(`Indexing ${tx.id}...`); setTimeout(() => { console.log(`Computing diff for ${tx.id}...`); setTimeout(() => { console.log(`Updating database for ${tx.id}...`); resolve("success"); }, 100); }, 50); }, 100); }); } /** * Simulates processing multiple transactions in parallel. */ async function processTransactions() { const transactions = [ new Transaction("tx001", "commit", "Modified file A"), new Transaction("tx002", "commit", "Fixed bug in file B"), new Transaction("tx003", "merge", "Merged branches"), ]; const promises = transactions.map(async (tx) => { const result = await processTransaction(tx); console.log(`Transaction ${tx.id} result: ${result}`); }); await Promise.all(promises); console.log("All transactions processed."); } // Run transaction processing processTransactions();
이 코드의 주요 내용:
GitHub이 하루에 수백만 건의 거래를 처리할 수 있는 능력은 다음의 조합에 달려 있습니다.
이러한 기술은 GitHub에만 국한되지 않습니다. GitLab, Bitbucket 및 대규모 데이터 처리 시스템에서 널리 사용됩니다. 이러한 원리를 이해하면 개발자가 대량의 거래를 처리하기 위한 효율적이고 확장 가능한 애플리케이션을 구축하는 데 도움이 됩니다.