paint-brush
GitHub의 비밀 청사진 공개 - 매일 수백만 건의 거래를 처리하는 방법~에 의해@oleksiijko
375 판독값
375 판독값

GitHub의 비밀 청사진 공개 - 매일 수백만 건의 거래를 처리하는 방법

~에 의해 Oleksii Bondar6m2025/03/02
Read on Terminal Reader

너무 오래; 읽다

GitHub는 매일 수백만 건의 거래를 처리하는 확장성이 뛰어난 분산 시스템입니다. 강력한 알고리즘과 아키텍처를 사용하여 높은 성능과 안정성을 보장합니다. 이 문서에서는 GitHub가 방대한 양의 데이터를 처리하고 diff 알고리즘을 사용하여 파일 변경 사항을 효율적으로 추적하는 방법을 살펴봅니다.
featured image - GitHub의 비밀 청사진 공개 - 매일 수백만 건의 거래를 처리하는 방법
Oleksii Bondar HackerNoon profile picture
0-item
1-item

GitHub는 단순히 저장소를 호스팅하는 플랫폼이 아니라 매일 수백만 건의 거래를 처리하는 확장성이 뛰어난 분산 시스템입니다. git push 요청을 처리하는 것부터 파일 차이를 효율적으로 계산하는 것까지 GitHub는 강력한 알고리즘과 아키텍처를 사용하여 높은 성능과 안정성을 보장합니다.


이 글에서는 GitHub이 방대한 양의 데이터를 처리하고, 수백만 건의 거래를 처리하도록 확장하고, diff 알고리즘을 사용하여 파일 변경 사항을 효율적으로 추적하는 방법을 살펴봅니다. 또한 이 글에는 버전 제어 시스템에서 사용되는 핵심 알고리즘의 자세한 JavaScript 구현도 포함되어 있습니다.


1. 대규모 버전 제어 시스템의 과제

최신 버전 제어 시스템은 몇 가지 주요 과제를 해결해야 합니다.


  • 커밋, 병합, 풀 리퀘스트를 포함하여 하루에 수백만 건의 거래를 처리합니다.
  • 버전 추적 및 병합에 중요한 파일 간 차이점을 효율적으로 계산합니다.
  • 저장 용량과 처리 능력을 확장하여 전 세계 개발자에게 빠른 응답 시간을 보장합니다.


이러한 원칙은 GitHub에만 국한되지 않습니다. 비슷한 아키텍처와 알고리즘이 GitLab, Bitbucket 및 대규모 버전 제어를 처리하는 다른 플랫폼에서 사용됩니다.



2. GitHub이 파일 차이점을 계산하는 방법(JavaScript의 Diff 알고리즘 구현)

파일의 변경 사항을 추적할 때 GitHub(및 Git 자체)는 diff 알고리즘을 사용하여 파일의 한 버전을 다른 버전으로 변환하는 데 필요한 최소 편집 횟수를 계산합니다. 이를 위해 널리 사용되는 알고리즘은 Myers' Diff Algorithm입니다.

2.1. 마이어스 알고리즘의 작동 방식

마이어스 알고리즘은 한 파일을 다른 파일로 변환하는 데 필요한 가장 짧은 삽입 및 삭제 시퀀스를 찾습니다. 가능한 편집 거리(d)를 반복하고 편집 그래프의 "대각선"을 따라 가능한 변환을 계산하여 작동합니다.


2.2. 마이어스 알고리즘의 JavaScript 구현.


 /** * Computes the minimum edit distance between two arrays using Myers' Diff Algorithm. * @param {Array} a - The original array (eg, characters of a file) * @param {Array} b - The modified array * @returns {number} The minimum number of edit operations required */ function myersDiff(a, b) { const N = a.length; const M = b.length; const maxD = N + M; let v = { 1: 0 }; for (let d = 0; d <= maxD; d++) { for (let k = -d; k <= d; k += 2) { let x; if (k === -d || (k !== d && (v[k - 1] || 0) < (v[k + 1] || 0))) { x = v[k + 1] || 0; } else { x = (v[k - 1] || 0) + 1; } let y = x - k; while (x < N && y < M && a[x] === b[y]) { x++; y++; } v[k] = x; if (x >= N && y >= M) { return d; } } } return maxD; } // Example usage: const oldVersion = Array.from("Hello World"); const newVersion = Array.from("Hello GitHub World"); const operations = myersDiff(oldVersion, newVersion); console.log(`Minimum number of edits: ${operations}`);


코드 분석:


  • 초기화: 알고리즘은 편집 그래프의 각 대각선에 대한 최대 x 값을 저장하기 위해 배열 v를 초기화합니다.

  • 가능한 편집 거리를 반복합니다(d): 필요한 편집 횟수마다 반복합니다.

  • 최적 경로 계산: v[k] 값을 기준으로 삽입할지 삭제할지 결정합니다.

  • "탐욕적 매치" 단계: 문자가 일치하는 한 대각선으로 이동하여 불필요한 작업을 최소화합니다.


3. GitHub의 트랜잭션 처리 아키텍처.

수백만 건의 거래를 처리하기 위해 GitHub은 다층 아키텍처를 사용합니다. 일반적인 거래 흐름은 다음과 같습니다.


  1. 요청 수신: API와 Webhooks는 트랜잭션(git push, git pull 등)을 수신합니다.
  2. 요청 대기열: 트랜잭션은 병렬 처리를 위해 분산 대기열(Redis/Kafka)에 배치됩니다.
  3. 마이크로서비스에서의 처리: 전담 서비스는 인덱싱, diff 계산, 통계 업데이트를 처리합니다.
  4. 저장소 업데이트: 결과는 데이터베이스(SQL/NoSQL)에 커밋되고 빠른 액세스를 위해 캐시됩니다.


이 아키텍처를 사용하면 GitHub이 효율적으로 확장되어 단일 구성 요소가 병목 현상이 발생하지 않도록 보장할 수 있습니다.


4. GitHub와 유사한 트랜잭션 처리를 위한 JavaScript 구현.

GitHub은 높은 트래픽을 처리하기 위해 비동기적으로 트랜잭션을 처리합니다. 다음 JavaScript 코드는 Promises를 사용하여 트랜잭션의 병렬 처리를 시뮬레이션합니다.


 /** * Simulates a transaction in a version control system. */ class Transaction { constructor(id, action, payload) { this.id = id; this.action = action; this.payload = payload; } } /** * Simulates processing a transaction step-by-step. * @param {Transaction} tx - The transaction to process * @returns {Promise<string>} The result of processing */ function processTransaction(tx) { return new Promise((resolve) => { console.log(`Processing transaction ${tx.id}: ${tx.action}`); setTimeout(() => { console.log(`Indexing ${tx.id}...`); setTimeout(() => { console.log(`Computing diff for ${tx.id}...`); setTimeout(() => { console.log(`Updating database for ${tx.id}...`); resolve("success"); }, 100); }, 50); }, 100); }); } /** * Simulates processing multiple transactions in parallel. */ async function processTransactions() { const transactions = [ new Transaction("tx001", "commit", "Modified file A"), new Transaction("tx002", "commit", "Fixed bug in file B"), new Transaction("tx003", "merge", "Merged branches"), ]; const promises = transactions.map(async (tx) => { const result = await processTransaction(tx); console.log(`Transaction ${tx.id} result: ${result}`); }); await Promise.all(promises); console.log("All transactions processed."); } // Run transaction processing processTransactions();


이 코드의 주요 내용:


  • 비동기 처리: Promise.all()을 사용하여 트랜잭션이 병렬로 실행됩니다.
  • 단계별 시뮬레이션: 각 트랜잭션은 인덱싱, 차이 계산, 스토리지 업데이트 등 동일한 처리 흐름을 따릅니다.
  • 확장성: GitHub와 같은 실제 시스템에도 비슷한 원칙이 적용됩니다. 여기서 Redis/Kafka 큐는 마이크로서비스 간에 작업 부하를 분산하는 데 도움이 됩니다.


5. 결론: 버전 제어에 대한 GitHub의 확장 가능한 접근 방식.

GitHub이 하루에 수백만 건의 거래를 처리할 수 있는 능력은 다음의 조합에 달려 있습니다.


  • 마이어스 알고리즘과 같은 최적화된 diff 알고리즘을 사용하여 파일 변경 사항을 효율적으로 계산합니다.
  • 마이크로서비스와 메시지 큐를 활용해 작업 부하를 분산하는 확장 가능한 분산 아키텍처입니다.
  • 병렬 거래 처리를 통해 부하가 많을 때에도 빠른 응답을 보장합니다.


이러한 기술은 GitHub에만 국한되지 않습니다. GitLab, Bitbucket 및 대규모 데이터 처리 시스템에서 널리 사용됩니다. 이러한 원리를 이해하면 개발자가 대량의 거래를 처리하기 위한 효율적이고 확장 가능한 애플리케이션을 구축하는 데 도움이 됩니다.