2025年11月03日·1 分

レスリー・ランポートと分散システム：時間、順序、正確性

ランポートの分散システムに関する主要概念――論理クロック、順序付け、コンセンサス、正確性――を学び、なぜそれらが現代のインフラ設計で今も重要なのかを解説します。

なぜランポートの考え方が現代の分散システムで重要なのか

レスリー・ランポートは「理論的」な仕事が実際のプロダクションシステムに直接現れる珍しい研究者です。データベースクラスタ、メッセージキュー、ワークフローエンジン、リトライや障害を乗り越える何かを運用したことがあるなら、ランポートが名付けて解いた問題の中に生きています。

彼のアイデアが普遍的である理由は、特定の技術に縛られないからです。複数の機械が1つのシステムのように振る舞おうとするときに必ず現れる不都合な真実を描写しています：時計は一致しない、ネットワークは遅延やパケット落ちを起こす、障害は例外ではなく日常です。

本文で繰り返す3つのテーマ

時間： 分散システムで「今は何時か？」は単純な問いではありません。物理クロックはずれ、機械ごとに観測するイベントの順序が違うことがあるからです。

順序： 単一の時計を信頼できないなら、どのイベントが先に起きたかを話す別の方法が必要です。全員が同じ順序に従わせる必要がある場面もあります。

正確性： 「たいてい動く」では設計になりません。ランポートは安全性（safety）と資産性（liveness）のような明快な定義と、テストだけでなく論理的に検証できる仕様の重要性を業界に促しました。

期待する内容（難解な数式はなし）

概念と直感に焦点を当てます：問題、そのために最低限必要な考え方、そしてそれらの考え方が実践的設計にどう影響するか。

地図は次の通りです：

共有時計がないと単一の時系列は存在しない理由
因果関係（“happened-before”）が論理クロックやランポートタイムスタンプにつながる流れ
部分的順序（partial order）が不十分なときに1つの時系列が必要になる状況
合意（consensus）とPaxosが順序の合意とどう関係するか
順序が共有されるとき状態マシンレプリケーションが動作する理由
仕様における正確性の表現法と、TLA+のようなモデリングツールが役立つ点

コアの問題：共有時計がなければ単一の現実はない

システムが「分散」と呼ばれるのは、複数の機械がネットワークを介して協調して1つの仕事をする場合です。簡単そうに聞こえますが、次の2つの事実を受け入れると話は複雑になります：機械は個別に故障しうる（部分的故障）、そしてネットワークは遅延、破棄、重複、順序入れ替えをすることがある。

一台のコンピュータ上の単一プログラムでは通常「何が先に起きたか」を指し示せます。分散システムでは、別々の機械が異なるイベント列を観測し、どちらも各自のローカル観点では正しいことがあり得ます。

なぜグローバルな時計を信用できないのか

調整のために全てにタイムスタンプを付けるのは魅力的ですが、機械間で頼れる単一の時計は存在しません：

各サーバのハードウェア時計はそれぞれ異なる速度でずれます。
NTPのような時刻同期はベストエフォートであり保証ではありません。
仮想化、CPU負荷、ポーズ（停止）により時刻がジャンプしたり止まったりすることがあります。

したがって、あるホストで「イベントAは10:01:05.123に起きた」と言っても、別のホストの「10:01:05.120」と信頼して比較できません。

遅延が現実をかき回す仕組み

ネットワーク遅延により、見た順序が逆になることがあります。先に送られた書き込みが後に到着することもあります。リトライが元のものより後に届くこともあります。二つのデータセンタが「同じ」リクエストを逆の順序で処理することもあり得ます。

これがデバッグを独特に混乱させます：異なる機械のログが矛盾し、"タイムスタンプでソート"すると実際には起きなかった筋書きを作ってしまうことがあります。

実際の影響

単一の時系列があると仮定すると具体的な失敗が起きます：

二重処理（リトライで支払いが二重請求される）
不整合（最後の1個を二人がそれぞれ「成功」として受け取る）
一見したデータ消失（後から到着した更新が新しいものを上書きする）

ランポートの重要な洞察はここから始まります：時間を共有できないなら、順序を別の形で考える必要がある、ということです。

因果関係とhappened-before関係

分散プログラムはノード（プロセス、サーバ、スレッド）で起きるイベントで構成されます。例として「リクエストを受け取った」「行を書き込んだ」「メッセージを送った」などがイベントです。メッセージはノード間の接続点で、1つのイベントが「送信」で、別のイベントが「受信」です。

ランポートの重要な洞察は、信頼できる共有時計がないシステムでは、追跡できる最も頼りになるものが因果関係であるという点です——どのイベントが他のどのイベントに影響を与え得るか。

happened-before 関係（→）

ランポートは happened-before という単純な規則を定義しました。記号で A → B（イベントAがイベントBより前に起きた）と書きます：

同一プロセス内の順序： AとBが同じプロセス上で起き、プロセス内でAが先に観測されるなら A → B。
メッセージ順序： Aが「メッセージmの送信」でBが「メッセージmの受信」の場合、A → B。
推移性： A → B かつ B → C ならば A → C。

この関係は**部分順序（partial order）**を与えます：いくつかのペアは順序が分かりますが、すべてが順序付けられるわけではありません。

具体的な話：ユーザ → リクエスト → DB → キャッシュ

ユーザが「購入」をクリックする。それがAPIサーバへのリクエスト（イベントA）を引き起こし、サーバがデータベースに注文行を挿入する（イベントB）。書き込み完了後、サーバは「注文作成」メッセージを発行（イベントC）し、キャッシュサービスがそれを受け取りキャッシュを更新する（イベントD）。

ここでは A → B → C → D です。時計が不一致でも、メッセージとプログラム構造が実際の因果リンクを作っています。

「並行（concurrent）」の本当の意味

二つのイベントが並行であるのは、どちらも他方を引き起こしていないときです：A → B でもなく B → A でもない。並行は「同じ時刻」という意味ではなく「因果の経路がつながっていない」という意味です。だから二つのサービスがそれぞれ「私が先にやった」と主張しても、順序付けルールを導入しない限り両方とも正しいことがあります。

論理クロック：ランポートタイムスタンプを平易に説明する

複数の機械にまたがって「どちらが先だったか」を再構成しようとしたことがあるなら、基本問題にぶつかっているはずです：コンピュータは完璧に同期した時計を共有していません。ランポートの回避策は完璧な時刻を追いかけるのをやめ、代わりに順序を追跡することです。

考え方：各イベントに付けるカウンタ

ランポートタイムスタンプは、プロセスごとに重要なイベントに付ける単なる番号です（サービスインスタンス、ノード、スレッドなど、どの単位を使うかは自由）。「このイベントはあのイベントより前に起きた」と言える一貫した方法を与えます—壁時計が信用できないときに。

2つのルール（本当にこれだけ）

ローカルで増やす： イベントを記録する前にローカルカウンタをインクリメントする（例：「DBに書き込んだ」「リクエストを送った」「ログに追記した」）。
受信時は max + 1 を取る： 送信者のタイムスタンプを含むメッセージを受け取ったら、自分のカウンタを次のように設定する：

max(local_counter, received_counter) + 1

そして受信イベントにその値を付けます。

これらのルールは因果関係を尊重するタイムスタンプを保証します：メッセージ経由で情報が流れてAがBに影響を与えうるなら、Aのタイムスタンプは必ず B より小さくなります。

ランポートタイムスタンプができること・できないこと

できること（因果順序について）：

TS(A) < TS(B) なら、A は もしかすると B より前に起きた可能性がある。
もし A が B を（直接または間接的に）引き起こしたなら、必ず TS(A) < TS(B) となります。

できないこと（実時間について）：

小さいタイムスタンプが「秒単位で早かった」ことを意味するわけではありません。
二つのイベントが並行であっても、メッセージのやり取りにより異なるタイムスタンプになることがあります。

したがってランポートタイムスタンプは順序付けには優れるが、レイテンシや「何時だったか」を答える用途には向きません。

実用例：サービス間のログエントリの順序付け

サービスAがサービスBを呼び、両方が監査ログを書く状況を想像してください。因果関係を保持した統一ログビューが欲しいとします。

サービスAはカウンタを増やし「支払い開始」をログに書き、タイムスタンプ42を付けてBにリクエストを送る。
サービスBは42を受け取り、カウンタを max(local, 42) + 1 として例えば43にし、「カード検証済み」をログする。
Bは44で応答し、Aはそれを受け取り45に更新して「支払い完了」をログする。

これで両サービスのログを集約し、(lamport_timestamp, service_id) でソートすれば、壁時計がずれていたりネットワークが遅延していても、実際の因果連鎖に沿った安定した説明可能な時系列が得られます。

部分順序から全順序へ：1つの時系列が必要になるとき

因果関係は部分順序を与えます：あるイベントは明らかに別のイベントより前だと分かる（メッセージや依存関係がある場合）一方で、多くのイベントは単に並行である、という自然な形をしています。

部分順序は多くの問いに十分

「何がこれに影響した可能性があるか？」とデバッグする時や、「返信はリクエストの後でなければならない」といったルールを強制する時、部分順序はちょうど良い道具です。happened-before の辺を尊重すればよく、それ以外は独立と見なせます。

全順序が必要なとき

一方で「どちらの順序でもよい」では困るシステムもあります。特に次のような場合は単一のシーケンスが必要です：

共有オブジェクトに対する書き込み（「残高を設定」「プロファイルを更新」「ログに追記」など）
コマンドをどこでも同じに適用しなければならない場合（状態マシンレプリケーション）
「最後に書かれたものが勝つ（last write wins）」の解釈を全ノードが同じにしなければならない場合

全順序がないと、二つのレプリカがそれぞれローカルでは「正しい」ままグローバルには分岐してしまうことがあります：あるノードはAの後にBを適用し、別のノードはBの後にAを適用すると結果が異なります。

どうやって一つの時系列を得るか

順序を作り出す仕組みを導入します：

シーケンサ／リーダーが各コマンドに単調増加する位置を割り当てる。
または コンセンサス（Paxos風）を使い、遅延や障害があってもクラスタが次のログエントリに合意する。

避けられないトレードオフ

全順序は強力ですが代償があります：

レイテンシ： コーディネーションを待ってからコミットするため遅くなるかもしれません。
スループット： 単一の順序付きログがボトルネックになり得ます。
障害時の可用性： 十分なノードと合意できなければ進捗が止まることがあります。

設計上の選択は単純に言うとこうです：正確性が1つの共有された物語を要求するならば、そのための調整コストを払う必要がある、ということです。

合意（Consensus）：遅延と故障の中での合意取得

本番のように動かす

プロトタイプをデプロイして、パーティションやタイムアウトをテストしながら共有可能に保つ。

アプリをデプロイ

合意は複数のマシンが1つの決定（コミットする値、従うべきリーダー、有効にする構成など）に達する問題です。各マシンは自分のローカルイベントと届いたメッセージだけを見ているので、合意は簡単そうに聞こえますが、分散システムが許す挙動（メッセージの遅延、重複、順序入れ替え、喪失；マシンのクラッシュや再起動；「このノードは確実に死んだ」というクリアな合図がないこと）を思い出すと難しくなります。合意はそうした条件下で安全に合意することを目指します。

なぜ合意は難しいのか

ネットワーク分断があると、各側がそれぞれ勝手に進めようとするかもしれません。もし双方が異なる値を決めてしまうとスプリットブレインが起きます：二人のリーダー、二つの異なる構成、二つの競合する履歴など。

分断がなくても遅延だけで問題になります。あるノードが提案について耳にする頃には他のノードが先に進んでいるかもしれません。共有時計がないので、物理時刻が早いからといって「提案Aが提案Bより先だ」と言い切れないのです。

実システムで合意に出会う場面

日常的には「合意」と呼ばなくても、次のようなインフラで現れます：

リーダー選出（今誰が担当か）
レプリケートされたログ（共有履歴の次のエントリは何か）
構成変更（どのノードが投票／コミットできるか）

いずれもシステムは単一の結果に収束する必要があるか、少なくとも両方が同時に有効と見なされないルールを持たなければいけません。

Paxos：ランポートの解答

ランポートのPaxosは「安全な合意」の基礎的解法です。重要なのはタイムアウトや完璧なリーダーではなく、二つの異なる値が選ばれないことを保証する一連のルールです。

Paxosは 安全性（二つの異なる値を選ばない）と進捗（最終的に何かを決める）の分離を提供します。実運用では安全性を保ちつつ性能をチューニングする設計図として有用です。

Paxosをわかりやすく：安全性の直感

Paxosは読みづらいという評判がありますが、それは「Paxos」が一つの簡潔なアルゴリズムというより、似たパターンの家族であるからです。遅延、重複、マシンの一時的故障があってもグループで合意するための方法群です。

登場人物：提案者、受諾者、そしてクォーラム

役割を分けて考えるとわかりやすくなります：

提案者（Proposers） は値を選ばせようとする（例：「次のログエントリはXだ」）。
受諾者（Acceptors） は提案に投票する。
クォーラム は十分な数の受諾者（通常は過半数）です。

重要な構造的アイデアは：どの二つの過半数も重複するということです。その重複が安全性を支えます。

安全性目標：二つの異なる値を決定しない

Paxosの安全性は単純に言えます：一旦値が決まったら、二度と別の値が決まってはならない—スプリットブレインの防止です。

直感としては、提案には番号（投票IDのようなもの）が付く点が重要です。受諾者は新しい番号を見たら古い番号の提案を無視する約束をします。新しい番号の提案者が動くときは、まずクォーラムに既に受け入れられた値を問い合わせます。

クォーラムが重複するため、新しい提案者は必ず直近で受け入れられた値を覚えている受諾者の少なくとも一つから情報を得ます。ルールは「クォーラムの誰かが何かを既に受け入れていれば、その値（またはその中で最新のもの）を提案しなければならない」というものです。これが二つの異なる値が選ばれることを防ぎます。

進捗（liveness）についての大局的理解

進捗とは合理的な条件下でシステムがやがて何かを決めることを意味します（例えば、安定したリーダーが出る、ネットワークがやがてメッセージを届ける等）。Paxosは混乱のさなかに速度を保障しませんが、正しさを保障し、状況が落ち着けば進捗があることを約束します。

状態マシンレプリケーション：共有順序による正確性

複製ログのプロトタイプを作る

React UI と Go＋PostgreSQL バックエンドで複製ログAPIのプロトタイプを作る。

Koder を試す

状態マシンレプリケーション（SMR）は多くの高可用性システムの基礎パターンです：1台のサーバが決定する代わりに複数のレプリカが同じコマンド列を処理します。

レプリケートされたログの考え方

中心にあるのはレプリケートされたログ："put key=K value=V" や "AからBへ$10転送" のような順序付けられたコマンドのリストです。クライアントはただ各レプリカにただ投げるのではなく、グループにコマンドを提出し、システムはそれらのコマンドの一つの順序に合意し、各レプリカがその順序でローカルに適用します。

なぜ順序が正確性をもたらすか

すべてのレプリカが同じ初期状態から同じコマンドを同じ順序で実行すれば、最終的に同じ状態になります。これが安全性のコア直感です：時間で同期を取ろうとするのではなく、決定論と共有された順序によってマシンを同一にしているのです。

このためにPaxosやRaftのようなコンセンサスがSMRと組み合わされることが多いのです：コンセンサスは次のログエントリを決め、SMRはその決定を各レプリカの一貫した状態へと変換します。

実システムでの出現例

設定やリーダー選出のためのコーディネーションサービス
レプリケートされた書き込みログを持つデータベース
厳格なパーティション順序を必要とするメッセージシステム

エンジニアが無視できない実務的問題

ログは無限に伸びます。管理が必要です：

スナップショット： 定期的に現在の状態を取り、新しいノードが全履歴を再生せずに追いつけるようにする。
ログ圧縮（compaction）： スナップショットに反映され、不要になった古いログエントリを安全に破棄する。
メンバーシップ変更： レプリカの追加・削除も順序付ける必要がある。順序化されていないと、どのノードがグループにいるかで意見が分かれスプリットブレインになる。

SMRは魔法ではなく、"順序の合意"を"状態の一致"に変える規律ある方法です。

正確性：安全性・進捗性、そして明確な仕様の書き方

分散システムは奇妙な形で壊れます：メッセージは遅れて届き、ノードは再起動し、時計は食い違い、ネットワークは分断します。"正確"は感覚ではなく、正確に述べられる約束であり、故障を含むすべての状況に対してチェックできるものでなければなりません。

安全性と進捗性（具体例付き）

**安全性（Safety）**は「悪いことが決して起きない」ことを意味します。例：レプリケートされたキーバリューストアでは、同じログインデックスに二つの異なる値がコミットされてはならない。別例：ロックサービスは同じロックを二人のクライアントに同時に与えてはならない。

**進捗性（Liveness）**は「やがて良いことが起きる」ことを意味します。例：過半数のレプリカが稼働しネットワークが最終的にメッセージを届けるなら、書き込み要求はやがて完了する。ロック要求は有限時間のうちに応答を得られる（永久に待たされない）。

安全性は矛盾を防ぐことで、進捗性は永久停止を避けることです。

不変条件（Invariants）：譲れないもの

不変条件は到達可能な全ての状態で常に成り立たなければならない条件です。例：

「各ログインデックスには高々1つのコミット済み値しかない」
「リーダーの任期番号は減少しない」

もしクラッシュやタイムアウト、再試行、分断の際に不変条件が破られるなら、それは実際には強制されていなかったということです。

ここでの“証明”の意味

証明とは「通常の経路だけでなく、あり得るすべての実行をカバーした議論」です。メッセージの喪失、重複、順序入れ替え、ノードのクラッシュと再起動、競合するリーダー、クライアントの再試行など、全ケースについて考えます。

仕様が驚きを防ぐ

明確な仕様は状態、許されるアクション、守るべき性質を定義します。これにより「システムは一貫であるべきだ」といった曖昧な要件が、本番環境で痛い目を見る前に具体的な期待に変わります。仕様は分断時に何が"コミット"と見なされるか、クライアントが何を信頼できるかを事前に定めます。

理論から実践へ：TLA+でのモデリング

ランポートのもっとも実践的な教訓の一つは、実装コードを書く前に高レベルでプロトコルを設計すべきだということです。スレッド、RPC、リトライループを気にするより前に、許されるルール、状態の変化、そして決して起きてはならないことを書き下してみるのです。

TLA+は何のためにあるか

TLA+は並行・分散システムを記述する仕様言語とモデル検査ツールキットです。システムの単純で数式的なモデル（状態と遷移）と、重要な性質（例えば「リーダーは高々1人」や「コミット済みエントリは消えない」）を書き、モデルチェッカに探索させます。

モデルチェッカは可能なインターリーブやメッセージ遅延、故障を探索して反例（性質を破る具体的な手順）を見つけます。会議で端的に議論する代わりに、実行可能な議論が得られます。

モデルが見つけるバグの例

レプリケートログの“コミット”ステップをコードで書くとき、稀なタイミングで二つの異なるノードが同じインデックスに二つの異なるエントリをコミットしてしまうミスを犯しがちです。

TLA+モデルは次のようなトレースを見つけるかもしれません：

ノードAがクォーラムの応答を得てインデックス10にエントリXをコミットする。
しかし古いデータを持つノードBもクォーラムを形成し、同じインデックス10にエントリYをコミットしてしまう。

これは安全性違反であり、本番では月に一度しか現れないようなバグでも、モデルはすぐに検出します。類似のモデルは消失更新、二重適用、"ackは返すが永続化はしていない"といった問題も発見します。

いつモデリングする価値があるか

TLA+はリーダー選出、メンバーシップ変更、コンセンサスのような順序と障害処理が絡む重要な調整ロジックにこそ価値があります。データが壊れたり手動復旧が必要になったりするような致命的なバグを避けたいなら、小さなモデルを作るコストはデバッグより安いことが多いです。

実務的なワークフローとしては、軽量の仕様を書き、それに従って実装し、仕様の不変条件からテストを生成する、という流れが有効です。Koder.ai のようなプラットフォームは、これらのアイデアを実装する際にスケルトンやデプロイ、スナップショット、ロールバックなどで反復を速める助けになります。

信頼できるシステムを作り運用するための実践的な示唆

所有権を完全に保持

設計が固まったら、生成されたソースコードをリポジトリに送る。

コードをエクスポート

ランポートが実務者に贈った大きな贈り物はマインドセットです：時間と順序を"前提"にするのではなく、"データとしてモデル化"すること。このマインドセットは月曜のエンジニアリング習慣に落とし込めます。

理論を日常の工学に落とし込む

メッセージが遅延、重複、順序入れ替えをする可能性があるなら、その条件下でも安全に動くよう各インタラクションを設計します。

冪等性をデフォルトにする： "もう一度やっても害がない" を目指す。支払い、プロビジョニング、再試行されうる書き込みには冪等キーを使う。
重複排除を伴うリトライ： リトライは必要だが、重複排除がないと二重書き込みを生む。リクエストIDを追跡して「既に処理済み」マーカーを保存する。
少なくとも一度配達（at-least-once）と一度だけの効果（exactly-once effects）： ネットワークが2回配ることを受け入れつつ、状態変化が2回適用されないようにする。

タイムアウトと時計は慎重に扱う

タイムアウトは真実ではなく、方針です。タイムアウトは「相手から時間内に返事がなかった」と言うだけで、「相手が動いていない」ことを断定しません。具体的含意：

タイムアウトを決定的な障害と扱わない。補償や和解パスを設計する。
ノード間のイベント順序にローカル時計を使わない。シーケンス番号、単調カウンタ、因果メタデータ（例えば"この更新はバージョンXを置き換える"）を使用する。

因果関係を尊重した可観測性（Observability）

良いデバッグツールはタイムスタンプだけでなく順序を符号化します。

トレースIDを全てに伝播する： すべてのホップとログ行に相関／トレースIDを渡す。
ログに因果の手がかりを記録する： メッセージID、親リクエストID、意思決定時に「私が信じていた最新バージョン」をログに残す。
決定論的なリプレイ： 入力（コマンド）を記録し、バグがタイミング依存かロジック依存かを再現して確認できるようにする。

出荷前に自問すべき設計質問

分散機能を追加する前に、次の質問で明確化を強制してください：

同じリクエストが二度処理されたらどうなるか？
我々が必要とする順序は何か（あるなら）、どこで強制するか？
どの障害が“安全”か（悪い状態にならない）、“目に見える”か（ユーザに影響が出る）、“静かなもの”か（隠れた破損）？
部分障害やネットワーク分断の後の復旧経路は？
productionでhappened-beforeの物語を再構築するために何をログに残すか？

これらは博士号を要する問いではありません。順序と正確性をプロダクト要件として第一級に扱う習慣が必要なだけです。

結論と次の一歩の提案

ランポートの永続的な贈り物は、システムが時計を共有せず、デフォルトで「何が起きたか」を合意していないときにも明晰に考える方法です。完璧な時刻を追いかけるのではなく、因果（何が何に影響したか）を追跡し、論理時間（ランポートタイムスタンプ）で表現し、製品が単一の履歴を要求する場合は合意（コンセンサス）を用いてすべてのレプリカが同じ決定列を適用するようにします。

この考え方は実践的なエンジニアリングマインドセットにつながります：

まず仕様を書き、その後作る

「決して起きてはならないこと（安全性）」と「やがて起きるべきこと（進捗性）」を書き下してから実装し、遅延・分断・再試行・重複・ノード再起動下でシステムをテストしてください。多くの"原因不明の障害"は実際には「同じリクエストが二度処理され得る」や「リーダーはいつでも変わりうる」といった欠落した前提が原因です。

深堀りのための段階的学習

形式主義に溺れずに深く学びたいなら：

ランポートの "Time, Clocks, and the Ordering of Events in a Distributed System" を読んで happened-before を理解する。
"Paxos Made Simple" を一読して安全性の直感を掴む：一旦値が選ばれるとそれに矛盾することは起きない、という点。
TLA+の入門講演を見て、小さなプロトコル（ロックサービスや二レプリカのレジスタなど）をモデリングしてチェックする。

実地演習を一つ試す

自分が担当しているコンポーネントを選び、1ページの「障害契約（failure contract）」を書いてください：ネットワークとストレージについての前提、どの操作が冪等か、どの順序保証を提供するか。

これをより具体化するなら、小さな「順序付けデモ」サービスを作ってみてください：リクエストAPIがコマンドをログに追記し、バックグラウンドワーカーがそれを適用する。管理画面で因果メタデータやリトライを表示する。Koder.ai のようなプラットフォームを使えば、スキャフォールディングやデプロイ、スナップショット／ロールバックを速く試せます。

適切に行えば、これらのアイデアは暗黙の挙動を減らして障害を減らします。さらに議論が"時間"についてではなく、順序・合意・正確性があなたのシステムにとって何を意味するかに移り、設計が確実に前へ進みます。