Q: シャーディングは実際にどんな問題を解決しますか？

チームがシャーディングを選ぶのは、単一ノードが再発的にボトルネックになったときです。例えば： - ディスクやインデックスの成長でバックアップや保守が遅くなる - CPU/ログ書き込み/ロック競合で書き込みスループットが頭打ちになる - 読み取り負荷がプライマリやレプリカを圧倒する - 「ノイジーネイバー」（特定テナントやワークロード）が他を劣化させる シャーディングはデータとトラフィックを分散させ、ノードを追加することで容量を増やします。

Question 1

データベースのシャーディングとは何で、レプリケーションとどう違うのですか？

Accepted Answer

シャーディング（水平分割）は、単一の論理データセットを複数のマシン（「シャード」）に分割し、それぞれが別の行を保持する設計です。

対照的に、レプリケーションは同じデータのコピーを複数のノードに保持し、可用性や読み取りスケールの向上を主な目的としています。

Question 2

なぜ単にデータベースをスケールアップしないのですか？

Accepted Answer

垂直スケーリングは単一のデータベースサーバーをより強力なマシンに移すことです。運用は単純になりがちですが、物理的な限界やコストの問題が早晩出てきます。

シャーディングはマシンを増やしてスケールアウトするアプローチですが、その代わりにルーティング、リバランシング、シャード間の整合性などの課題が生じます。

Question 3

シャーディングは実際にどんな問題を解決しますか？

Accepted Answer

チームがシャーディングを選ぶのは、単一ノードが再発的にボトルネックになったときです。例えば：

ディスクやインデックスの成長でバックアップや保守が遅くなる
CPU/ログ書き込み/ロック競合で書き込みスループットが頭打ちになる
読み取り負荷がプライマリやレプリカを圧倒する
「ノイジーネイバー」（特定テナントやワークロード）が他を劣化させる

シャーディングはデータとトラフィックを分散させ、ノードを追加することで容量を増やします。

Question 4

シャード化されたデータベースシステムのコアコンポーネントは何ですか？

Accepted Answer

典型的なシャーディングシステムは次を含みます： - シャード: ストレージとインデックスを持つ独立したパーティション - ルーター/コーディネータ: どのシャードに問い合わせるかを決める - メタデータ/設定サービス: シャードマップ、所有権、ヘルス、メンバー情報 - バックグラウンド処理: リバランシング、マイグレーション、バックアップ／リストアのワークフロー これらの要素が一貫して動かないと、パフォーマンスや正しさが損なわれます。

Question 5

シャードキーとは何で、なぜ重要なのですか？

Accepted Answer

シャードキーは、どのフィールド（またはフィールドの組み合わせ）で行をどのシャードに置くかを決めるものです。これが、リクエストが単一シャードに到達するか多数にファンアウトするかを決め、将来のパフォーマンスやコストに大きく影響します。

良いシャードキーの特徴：

高いカードinality（多くの異なる値）（例：user_id）
均等な分散（書き込みと読み取りがシャード間で均等になる）
安定したアクセスパターン（現在と将来の主なクエリに合っている）

例えばマルチテナントではでシャードすることがよくあり、ほとんどの操作が同じシャード内で完結します。

Question 6

どんなシャードキーが“悪い”とされ、どんな問題を引き起こしますか？

Accepted Answer

「悪い」シャードキーの例とその弊害： - 時間ベースの単調キー （タイムスタンプやオートインクリメントID）：新しいデータが常に最新のシャードに集中し、書き込みホットスポットを生む。 - 低カードinalityフィールド （ステータス、プラン、国など）：値の種類が少ないと一部シャードに負荷が集中する。 - 変更されうる識別子 （メールアドレスや変更可能なユーザー名）：キーが変わるとデータ移動が高コストで危険になる。 これらはルーティングが曖昧になり、ルックアップが散らばる（scatter-gather）原因になります。

Question 7

レンジ、ハッシュ、ディレクトリの各シャーディングは何で、いつ使うべきですか？

Accepted Answer

代表的なシャーディング戦略： - レンジシャーディング（Range）: キースペースの連続領域を各シャードが担当。ルーティングは簡単だが、単調増加や特定範囲の人気でホットスポットが発生しやすい。範囲クエリは効率的になる利点がある。 - ハッシュシャーディング（Hash）: シャードキーをハッシュしてシャードを選ぶ。データ分布が均等になりやすいが、範囲クエリが複数シャードにまたがるため高価になる。追加時の再配置を抑えるために一貫ハッシュ（consistent hashing）や仮想ノードを使うことが多い。 - ディレクトリ（ルックアップ）シャーディング: キー→シャードの明示的マップを保持する方式。個別テナントを専用シャードに置けるなど柔軟だが、そのディレクトリが遅延や障害を起こすとルーティングが壊れる依存点になる。 実運用では複合キー（例： ）やサブシャーディング（まずテナントでルーティングし、その内部をハッシュする）といった混合戦略を使うことが多い。

Question 8

シャード化された環境でのクエリはどのように動作しますか？

Accepted Answer

シャード化後のクエリには大きく二通りのパスがあります： - 単一シャードクエリ（高速パス）: リクエストにシャードキーが含まれるか、マップで一意にルーティングできれば一つのシャードに送られる。ネットワーク往復や協調が少なく、レイテンシが低い。 - スキャッター・ギャザー（fan-out）: シャードキーで特定できないクエリは複数（あるいは全て）のシャードにブロードキャストされ、各シャードが部分結果を返し、ルーターがマージする。1つでも遅いシャードがあれば全体の遅延を引き上げる（テールレイテンシ問題）。 クロスシャードの結合や集約は二段階計算（各シャードで部分集計→マージ）が必要になり、コストが高くなります。ローカルインデックスは各シャード内で有効だが、ルーティングを助けない点に注意。グローバルインデックスはルーティングを改善できるが、書き込み負荷や一貫性の問題が増える。

Question 9

シャード間での書き込みやトランザクションはどう扱いますか？

Accepted Answer

書き込みはシャーディングの苦労が最も顕著に出る領域です。 - 単一シャード書き込み（ハッピーパス）: リクエストが一つのシャードにルーティングされる場合、そのシャード内で通常のトランザクション機構が使え、原子性と分離性が保たれます。 - マルチシャード書き込み: 二つ以上のシャードをまたぐ更新（例：口座振替、注文の所有者変更、外部に保存された集計の更新）は分散トランザクションの領域に入り、二相コミットのような協調が必要になります。これらはラウンドトリップが増え、タイムアウトや不確実な失敗状態（片方だけ適用された等）を招きやすいです。 回避パターン： - データローカリティ: 関連データを同一シャードにまとめる - リクエストルーティング: 操作を一つのシャードが“所有”するよう設計し、他は参照にとどめる - デノーマライゼーション: 小さなデータを複製して更新のファンアウトを避ける また、シャーディング環境ではリトライが不可避なので、書き込みを 冪等（idempotent） にすることが重要です。操作IDや冪等キーを使い、既に適用済みマーカーを保存することで、再送による二重適用を防げます。

Question 10

シャーディングとレプリケーションは整合性にどう影響しますか？

Accepted Answer

シャーディングはデータを分割しても冗長性は必要です。各シャード内でのレプリケーションは、ノード障害時の可用性を保ちますが、「今の正しい状態は何か？」を判断するのが難しくなります。

シャード内のレプリケーション: プライマリ（リーダー）が書き込みを受け、レプリカがコピーする。プライマリ障害時はレプリカ昇格で復旧するが、レプリカは数ms〜数秒遅れることがある。
一貫性モデル: 強い一貫性（書き込み成功後はその更新が読める）と最終的一貫性（しばらく古いデータが返る可能性がある）のトレードオフがある。シャード内は強い一貫性を保ちつつ、シャード間では緩い保証になることが多い。

グローバルな制約（ユニーク性、外部キー、グローバルカウンタ）は難題です。例えば全体で一意にするには集中インデックスや専用の制約シャード、アプリ側の予約ワークフローが必要になることがあります。これらの選択は製品上の「正しさ」の定義に直結します。

Question 11

ダウンタイムなしでのリバランシングやリシャードはどう行いますか？

Accepted Answer

リバランシングはシステムを使いやすく保つために不可欠です。データ成長やスキュー、ノード追加や廃棄に伴ってデータの場所を変える必要が出ますが、これはルーティングの変更を伴うため難易度が高い作業です。

よく使われるオンライン移行パターン（コピー→オーバーラップ→カットオーバー）：

コピー: 稼働中にソースからターゲットへバックフィルする
デュアルライト（ときにデュアルリード）: 移行期間中は新しい変更を旧・新両方に書く。読み取りは両方を参照するか「新しい方を優先」ルールを使う
カットオーバー: シャードマップを更新してトラフィックを新しい場所へ向ける
クリーンアップ: デュアルライトを止め、旧コピーを削除してスペースを回収する

Question 12

ホットスポットやスキューはどう発生し、どう検出・対処しますか？

Accepted Answer

シャーディングは「均等分割」を前提とするが、実運用では見かけ上均等でも劇的に不均衡に振る舞うことがあります。

ホットパーティション（ホットキー）: セレブアカウント、人気商品、大きなバッチ処理、あるいは「今日」のような時間ベースのキーが一部のシャードにトラフィックを集中させる。
スキュー（歪み）: データサイズのスキュー（あるシャードが多くのバイトを持つ）とトラフィックスキュー（あるシャードが多くのQPSを処理する）は一致しないことがある。

検出方法：シャードごとのダッシュボード（p95 レイテンシ、QPS、ストレージ使用量等）を素早く確認する。あるシャードのレイテンシだけが上がっていればホットスポットの兆候です。

緩和策：トラフィック分散を優先するシャードキー選定、ホットキーへのバッキング/ソルト（bucketing/salting）、ホットアイテムのキャッシュ、テナントレベルのレート制限、ホットシャードの分割・移動などがあります。

Question 13

シャード化されたシステムでの障害モードとデバッグはどう変わりますか？

Accepted Answer

シャーディングはサーバーの数を増やすだけでなく、故障の種類と調査対象を増やします。多くのインシデントは「データベースが落ちた」ではなく「あるシャードだけ使えない」「どこにデータがあるか合意が取れていない」といった形で現れます。 よくある障害モード： - シャードの利用不可 （クラッシュ、ディスク満杯、長いGCなど）→一部顧客だけ影響を受ける - ルーターの誤ルーティング ：設定変更やデプロイミスで間違ったシャードに送ってしまう - メタデータの陳腐化/不整合 ：移行中に異なるコンポーネントが同じキーを別の場所にルーティングする - 部分的ネットワーク障害 ：ルーターと一部シャード間のタイムアウトがリトライを誘発し負荷を増幅する デバッグ手法の違い：リクエスト追跡のために相関IDを導入し、API層からルーター、シャードまで伝搬させる。分散トレーシングでどのシャードが遅いかを可視化し、メトリクスは必ずシャード単位で分解する。 データ整合性の事故例：リトライによる重複、データ移動後にルーティングが古い場所を指し続けたため行が見つからない、メタデータのスプリットブレインで二つのビューが同じキーを書き受ける等。 バックアップ/リストアとDRは「多くのパーツを正しい順序で戻す」作業になります。メタデータを先に復元し、各シャードを復元してシャード境界とルーティングが復元ポイントに一致していることを検証するリハーサルが必要です。

Question 14

いつシャーディングを避けるべきで、実用的な代替手段は何ですか？

Accepted Answer

シャーディングは便利なスケーリング手段ですが、恒久的にシステムの複雑さを増すため、可能なら避けるべきです。シャード化前にまず試す価値のある選択肢： - インデックスとクエリチューニング ：遅い経路を先に改善する - キャッシュ ：読み取り重めの安定したレスポンスをキャッシュで受ける - リードレプリカ ：読み取りをオフロード（レプリカラグを許容できるなら） - 単一ノードでのテーブルパーティショニング ：テーブル分割で保守性・性能を改善する - 古いデータのアーカイブ シャーディングを安全に進めるには、ルーティングや冪等性、移行ワークフロー、観測性といった“配管”を本格導入前にプロトタイプするのが有効です。 例： Koder.ai のようなツールを使えば、チャットから小さな現実的サービス（管理UI＋バックエンド＋PostgreSQLなど）を素早く立ち上げ、シャードキーに依存するAPIや冪等キー、カットオーバー挙動をサンドボックスで試せます。スナップショットやロールバック、ソースコードエクスポートがあると、設計上の判断を本番スタックに持ち込む前に検証できます。 シャーディングが適するのは、単一ノードの限界を明確に超え、かつ重要なクエリの大半がシャードキーでルーティングできる場合です。一方でアドホックなクエリや頻繁なマルチエンティティトランザクション、グローバル一意制約が多い製品では不向きです。 短いチェックリスト： - ワークロード: ボトルネックはCPUかI/Oかメモリかロック競合か、シャーディング以外で解決できないか？ - クエリパターン: 重要なクエリの90%+をシャードキーでルーティングできるか？ - チーム体制: シャードマップ、オンコールrunbook、シャード横断トランザクションの責任は誰が持つか？ - SLO: あるシャードの部分的劣化や長いテールレイテンシを許容できるか？ 最後に、シャーディングを先延ばしにしても移行経路を設計しておくこと（将来のシャードキーをブロックしない識別子の選択、単一ノード前提をハードコーディングしないこと、最小ダウンタイムの移行手順のリハーサル）が重要です。

データベースのシャーディングの仕組み — 理解が難しい理由

シャーディングとは（そして何ではないか）

1つの論理テーブル、複数の物理配置

レプリケーションでも垂直スケールでもない

シャーディングが自動的に解決しないこと

チームがシャードする理由：解決しようとする問題

シャーディングに駆り立てる痛点

目的：スケールアウト、分離、コスト管理

壁に近づいている初期警告サイン

なぜ通常は最後の手段か

コア要素：シャード、ルーター、メタデータ

シャード：独立したパーティション（各自インデックスを持つ）

ルーター／コーディネータ：リクエストを正しいシャードへ届ける仕組み

メタデータ／設定サービス：シャードマップ、所有権、ヘルス

バックグラウンドジョブ：バランシング、マイグレーション、バックアップ

シャードキーの選定：最初の大きなトレードオフ

良いシャードキーの条件

悪いシャードキーの条件とその影響

実際のトレードオフ：クエリ利便性 vs 分散品質

よくあるシャーディング戦略（レンジ、ハッシュ、ディレクトリ）

レンジシャーディング

ハッシュシャーディング

ディレクトリ（ルックアップ）シャーディング

複合キーとサブシャーディング

クエリの動き：ルーティング対スキャッター・ギャザー

単一シャードクエリ：高速経路

スキャッター・ギャザー読み取り：ファンアウトとテールレイテンシ

シャード間ジョインと集約

インデックスの制約：ローカル vs グローバル

シャード間の書き込みとトランザクション

単一シャード書き込み：ハッピーパス

複数シャード書き込み：複雑さが跳ね上がる場所

シャード越え書き込みを避けるパターン

冪等性と再試行の安全性

よくある質問