Q: 샤딩이 실제로 어떤 문제를 해결하나요?

팀이 샤딩을 도입하는 이유는 단일 노드가 반복적으로 병목이 될 때입니다. 예를 들면: - 디스크와 인덱스가 커져 백업/운영이 느려짐 - CPU/WAL/락 경합으로 쓰기 처리량 한계 - 읽기 부하가 프라이머리/레플리카를 압도함 - 특정 테넌트나 워크로드가 리소스를 독점(‘노이즈 이웃’) 샤딩은 데이터와 트래픽을 여러 노드로 분산시켜 노드를 추가하면서 용량을 늘리게 해줍니다.

Question 1

데이터베이스 샤딩이란 무엇이며 복제와 어떻게 다른가요?

Accepted Answer

샤딩(수평 파티셔닝)은 하나의 논리적 데이터셋을 여러 머신(“샤드”)에 분할해서 저장하는 방식으로, 각 샤드는 서로 다른 행을 보관합니다.

반면 복제(Replication)는 동일한 데이터를 여러 노드에 복사하여 가용성과 읽기 확장을 확보하는 것이 주목적입니다.

Question 2

샤딩 대신 서버를 더 키우는 것이 왜 안 되나요?

Accepted Answer

수직 확장(스케일 업)은 하나의 데이터베이스 서버를 더 좋은 CPU/RAM/디스크로 업그레이드하는 방식입니다. 운영적으로는 더 간단하지만 결국 한계에 부딪히거나 비용이 급증할 수 있습니다.

샤딩은 머신을 추가해 수평으로 확장하므로 용량을 늘리지만, 라우팅, 리밸런싱, 샤드 간 일관성 같은 복잡도를 함께 도입합니다.

Question 3

샤딩이 실제로 어떤 문제를 해결하나요?

Accepted Answer

팀이 샤딩을 도입하는 이유는 단일 노드가 반복적으로 병목이 될 때입니다. 예를 들면:

디스크와 인덱스가 커져 백업/운영이 느려짐
CPU/WAL/락 경합으로 쓰기 처리량 한계
읽기 부하가 프라이머리/레플리카를 압도함
특정 테넌트나 워크로드가 리소스를 독점(‘노이즈 이웃’)

샤딩은 데이터와 트래픽을 여러 노드로 분산시켜 노드를 추가하면서 용량을 늘리게 해줍니다.

Question 4

샤딩된 데이터베이스 시스템의 핵심 구성 요소는 무엇인가요?

Accepted Answer

전형적인 샤딩 시스템은 다음을 포함합니다: - 샤드: 독립된 파티션(자체 스토리지와 인덱스 보유) - 라우터/코디네이터: 어떤 샤드에 요청을 보낼지 결정 - 메타데이터/설정 서비스: 샤드 맵, 소유권, 상태, 멤버십 정보 - 백그라운드 작업: 리밸런싱, 마이그레이션, 백업/복구 워크플로우 성능과 정합성은 이 구성요소들이 일관되게 동작하는지에 달려 있습니다.

Question 5

샤드 키란 무엇이며 왜 그렇게 중요한가요?

Accepted Answer

샤드 키는 행을 어느 샤드에 둘지 결정하는 필드(또는 필드 조합)입니다. 이 결정은 요청이 단일 샤드로 라우팅되는지(빠른 경로) 아니면 여러 샤드로 팬아웃되는지(느린 경로)를 좌우합니다.

좋은 샤드 키는 보통 높은 카디널리티, 균등한 분포, 그리고 현재와 향후의 주요 접근 패턴과의 정렬을 갖습니다(예: tenant_id 또는 user_id).

Question 6

샤드 키가 ‘나쁘다’는 것은 무엇을 의미하며 어떤 문제가 발생하나요?

Accepted Answer

일반적인 ‘나쁜’ 샤드 키: - 단조적/시간 기반 키 (타임스탬프, 오토인크리먼트 ID): 최신 샤드에 쓰기가 몰려 핫스팟 발생 - 저카디널리티 필드 (status, plan tier, country): 값이 적어 특정 샤드에 부하 집중 - 변경 가능한 식별자 (이메일, 변경 가능한 사용자명): 키가 바뀌면 데이터 이동이 위험하고 비용이 큼 이들은 흔히 핫스팟을 만들거나 루틴 쿼리를 스캐터-개더로 만들며 성능 문제를 유발합니다.

Question 7

레인지, 해시, 디렉터리 샤딩은 무엇이며 언제 각각을 써야 하나요?

Accepted Answer

대표적인 샤딩 전략은 다음과 같습니다: - 레인지 샤딩: 키 공간의 연속 구간을 샤드가 소유(라우팅은 단순). 단, 모노토닉한 ID 생성 시 최신 샤드에 쓰기가 몰려 핫스팟 위험. - 해시 샤딩: 키를 해시해 샤드를 선택하므로 데이터가 고르게 분포되는 경향. 단점은 레인지 쿼리가 여러 샤드를 건드리게 되는 것. - 디렉터리(룩업) 샤딩: 키→샤드 매핑을 명시적으로 저장해 유연한 배치와 개별 이동 가능. 대신 디렉터리 서비스가 추가 의존성이 됨. 실무에서는 복합 키(예: )나 서브샤딩으로 접근 패턴과 불균형을 동시에 다루기도 합니다.

Question 8

샤딩 후 어떤 쿼리가 느려지나요(스캐터-개더란 무엇인가요)?

Accepted Answer

샤딩된 DB에는 두 가지 쿼리 경로가 있습니다: - 단일 샤드 쿼리(빠른 경로): 요청에 샤드 키가 포함되어 정확히 한 샤드로 라우팅되는 경우. 네트워크 왕복과 조정이 적어 빠릅니다. - 스캐터-개더(팬아웃): 샤드 키가 없거나 필터가 비샤드키 필드인 경우 많은(또는 모든) 샤드에 요청을 보내 각 샤드 결과를 병합합니다. 이때 한 샤드의 느린 응답이 전체 지연을 좌우합니다. 조인과 집계도 보통 각 샤드에서 부분 결과를 계산한 뒤 머지하는 두 단계 플랜이 필요해 비용이 커집니다.

Question 9

샤드 간의 쓰기와 트랜잭션은 어떻게 작동하나요?

Accepted Answer

단일 샤드로 라우팅되는 쓰기는 해당 샤드의 일반 트랜잭션 메커니즘을 사용해 빠르고 단순합니다.

그러나 두 개 이상의 샤드를 건드는 쓰기는 분산 트랜잭션 문제로 이어집니다. 2단계 커밋 같은 프로토콜은 왕복과 잠금, 타임아웃의 애매함을 도입합니다(조직은 적용 여부에 따라 복잡성을 감수해야 함).

교차 샤드 쓰기를 줄이는 패턴:

데이터 로컬리티: 관련 레코드를 같은 샤드에 둠
요청 소유권: 특정 샤드가 작업을 소유하도록 설계
디노멀라이제이션: 작은 데이터를 복제해 팬아웃 업데이트를 피함

또한 재시도에 대비해 하게 설계(고정된 오퍼레이션 ID 사용)하는 것이 필수적입니다.

Question 10

일관성과 복제는 샤딩에서 어떻게 관리되나요?

Accepted Answer

샤딩은 샤드 내부에서의 복제를 제거하지 않습니다. 각 샤드는 일반적으로 리더(프라이머리)와 복제본들을 가지며, 프라이머리가 실패하면 복제본으로 승격합니다. 일관성 모델 요약: - 강한 일관성: 쓰기가 성공하면 이후의 읽기는 그 결과를 반영함(보통 리더에서 읽거나 복제 확인 대기 필요). - 최종 일관성: 시스템은 수렴하지만 일시적으로 오래된 데이터를 읽을 수 있음. 샤딩 환경에서는 보통 샤드 내부에서는 강한 일관성, 샤드 간에는 약한 보장 을 갖는 경우가 많아 글로벌 제약(유일성, 외래키 등)이 어려워집니다. 글로벌 제약 대응 예시: - 유일성(예: 사용자명): 중앙 색인, 전용 제약 샤드, 또는 애플리케이션 레벨 예약 워크플로 필요 - 외래키: 부모/자식이 다른 샤드에 있으면 DB가 자동으로 강제하기 어려움 - 카운터/순차 ID: 병목을 만들 수 있어 샤드별 범위 할당, 배치, 근사값 수용 등의 기법을 씀

Question 11

무중단으로 리밸런싱/리샤딩하려면 어떻게 하나요?

Accepted Answer

리밸런싱과 리샤딩은 시스템이 성장하거나 키 분포가 변할 때 필수적입니다. 문제는 데이터 위치를 옮기는 것이 곧 라우팅 메타데이터를 바꾸는 일이어서 온라인 상태에서의 이동이 복잡해진다는 점입니다.

일반적인 온라인 마이그레이션 패턴(복사 → 오버랩 → 컷오버):

복사: 소스 샤드에서 대상 샤드로 백필(backfill)
듀얼-라이트(때로는 듀얼-리드): 전환 기간 동안 새/옛 위치에 모두 쓰기
컷오버: 샤드 맵을 갱신해 트래픽을 새 위치로 보냄
정리: 듀얼-라이트 중단, 옛 데이터 제거

클라이언트가 라우팅 결정을 캐시하면 샤드 맵 변경이 깨지는 이벤트가 될 수 있으니 메타데이터 버전 관리와 빈번한 갱신이 필요합니다.

Question 12

핫스팟과 스큐는 무엇이며 어떻게 대응하나요?

Accepted Answer

샤딩은 작업이 고르게 분산된다는 가정에 기반하지만 실제로는 다음과 같은 불균형이 자주 발생합니다:

핫 파티션(핫 키): 인기 있는 계정, 인기 상품, 특정 시간대의 쓰기가 한 키에 집중되어 해당 샤드가 병목이 됨
스큐(편향): 데이터 크기와 트래픽이 일치하지 않을 수 있음(작은 데이터지만 요청이 많아 핫한 샤드 등)

빠르게 감지하려면 샤드별 대시보드가 필요합니다:

샤드별 p95 지연
샤드별 QPS(읽기/쓰기)
샤드별 저장 공간 사용량

해결책은 간단함과 균형 사이의 절충입니다: 트래픽을 나누도록 샤드 키 재설계, 버킷/솔트 적용, 캐싱, 레이트 리밋 및 핫 샤드 분할 등이 있습니다.

Question 13

샤딩 시스템에서 흔한 실패 모드와 디버깅 방식은 무엇인가요?

Accepted Answer

샤딩은 서버 수만 늘리는 것이 아니라 오류가 발생할 수 있는 지점도 늘립니다. 흔한 실패 모드:

샤드 비가용: 하나의 샤드가 죽거나 디스크가 꽉 차면 일부 고객만 영향 받음
라우터의 잘못된 라우팅: 설정 변경이나 배포 오류로 트래픽이 잘못 전달될 수 있음
메타데이터 불일치: 마이그레이션 중 서로 다른 컴포넌트가 다르게 라우팅하면 일관성 문제가 발생
부분 네트워크 문제: 라우터와 일부 샤드 간 타임아웃은 재시도가 부하를 증폭시킴

디버깅은 요청을 샤드 전반에 걸쳐 추적할 수 있어야 합니다. 상관 ID(correlation ID)와 분산 추적을 사용해 어떤 샤드가 느린지/실패했는지 파악하고, 메트릭은 반드시 샤드별로 수집해야 합니다.

Question 14

언제 샤딩을 피해야 하고, 실용적인 대안은 무엇인가요?

Accepted Answer

샤딩은 복잡도를 영구적으로 늘리므로, 가능하면 하나의 논리 DB를 유지하는 옵션을 우선 고려해야 합니다. 대안으로는: - 인덱스와 쿼리 튜닝: 빠른 경로를 먼저 고침(누락된 인덱스, N+1 등) - 캐싱: 읽기 중심의 안정적인 응답을 캐시로 처리 - 리드 레플리카: 쓰기 경로 변경 없이 읽기를 분산(레플리카 지연 허용 시) - 단일 노드 내 테이블 파티셔닝: 노드 하나에서 파티셔닝으로 유지보수와 쿼리 성능 개선 - 오래된 데이터 아카이빙 샤딩 전 프로토타입 전략: 라우팅 경계, 아이덤포텐시, 마이그레이션 워크플로, 관찰성 등을 샌드박스에서 미리 실험해 운영 리스크를 줄이는 것이 좋습니다. 예로 Koder.ai 같은 도구로 샤드-키 인지 API, 컷오버 행동 등을 안전한 환경에서 시도해볼 수 있습니다. 샤딩이 적절한 경우는 데이터량이나 쓰기 처리량이 분명히 단일 노드 한계를 넘고, 핵심 쿼스의 90% 이상을 샤드 키로 라우팅할 수 있을 때입니다. 반대로 다수의 애드혹 쿼리, 잦은 다엔티티 트랜잭션, 글로벌 유일성 제약이 많거나 운영팀 역량이 부족하면 샤딩은 적합하지 않습니다. 간단한 체크리스트: - 병목이 CPU, I/O, 메모리, 락 중 무엇인지, 샤딩 없이 해결 가능한가? - 핵심 쿼스의 90% 이상을 샤드 키로 라우팅할 수 있는가? - 누가 샤드 맵, 온콜 룩북, 샤드 간 트랜잭션 동작을 책임지는가? - SLO: 일부 샤드가 다운될 때의 부분 저하와 꼬리 지연을 용인할 수 있는가? 성장을 위한 설계(마이그레이션 경로, 식별자 선택, 싱글 노드 가정 피하기)를 미리 해두는 것이 중요합니다.

샤딩이란(그리고 아닌 것)

하나의 논리 테이블, 여러 물리적 장소

복제가 아니며, ‘큰 서버로 교체’와도 다름

샤딩이 마법처럼 모든 문제를 해결하지는 않는다

팀이 샤딩을 선택하는 이유: 해결하려는 문제들

샤딩을 촉발하는 문제점들

목표: 수평 확장, 분리(isolate), 비용 제어

한계에 가까워지고 있음을 알려주는 초기 신호

샤딩은 보통 최후의 수단인 이유

핵심 구성요소: 샤드, 라우터, 메타데이터

샤드: 독립된 파티션(자체 인덱스 포함)

라우터/코디네이터: 요청이 올바른 샤드에 닿는 방법

메타데이터/설정 서비스: 샤드 맵, 소유권, 상태

백그라운드 작업: 밸런싱, 마이그레이션, 백업

샤드 키 선택: 첫 번째 큰 트레이드오프

좋은 샤드 키의 특징

나쁜 샤드 키의 문제점

실제 트레이드오프: 쿼리 편의성 vs 분포 품질

일반적인 샤딩 전략(레인지, 해시, 디렉터리)

레인지 샤딩

해시 샤딩

디렉터리(룩업) 샤딩

복합 키와 서브샤딩

쿼리가 어떻게 동작하는가: 라우팅 대 스캐터-개더

단일 샤드 쿼리: 빠른 경로

스캐터-개더 읽기: 팬아웃과 꼬리 지연

샤드 간 조인과 집계

인덱싱 제한: 로컬 대 글로벌

쓰기와 샤드 간 트랜잭션

단일 샤드 쓰기: 좋은 경로

멀티 샤드 쓰기: 복잡성이 폭증하는 곳

샤드 간 쓰기를 피하는 패턴

아이덤포텐시와 재시도 안전성

일관성과 복제: 데이터를 올바르게 유지하기

각 샤드 내부의 복제

간단한 용어의 일관성 모델

데이터가 분산된 상황에서의 단일 진실 소스

글로벌 제약: 유일성, 외래키, 카운터

무중단 리밸런싱과 리샤딩

어려운 이유

온라인 마이그레이션 패턴(복사 → 오버랩 → 컷오버)

샤드 맵과 클라이언트 동작

운영 리스크 계획

핫스팟과 스큐: “균등 분할”이 깨질 때

핫 파티션(핫 키)

스큐: 데이터 크기 vs 트래픽

빠르게 감지하는 방법

완화책

자주 묻는 질문