Werner Vogels の「You Build It, You Run It」を解説

Q: 「You Build It, You Run It」は実務ではどういう意味ですか？

それは、サービスを設計・構築・デプロイするチームが、 本番運用後に起こること （監視、オンコール対応、インシデント後の改善など）も責任を持つという意味です。 これは単なるツール選定や役職の変更ではなく、責任モデル（誰が所有するかが明確であること）です。

Q: 「run it」は全ての開発者がオプスの専門家になるべきという意味ですか？

全てのエンジニアがインフラの専門家になる必要はありません。 意味するところは： - チームが本番の問題を診断し修正するための アクセス権と権限 を持っていること - 運用作業がチームの通常の計画に組み込まれていること - プラットフォームの仕組み（paved roads）が複雑さを減らし、しかし所有権を奪わないこと

Q: 従来の開発／運用の引き渡しよりなぜ良いのですか？

別チームによる運用の手渡しは、フィードバックが遅れ、責任の所在があいまいになりがちです。\ \ エンドツーエンドの所有は通常、次を改善します： - インシデント対応の速度（ハンドオフが少ない） - リリース品質（チームが安全なロールアウトに投資する） - 長期的な安定性（根本原因が修正され、対処で終わらない）

Q: チームがサービスを「運用する」とき、具体的に何に責任を持つのですか？

「run it」に含まれる典型的な責任は： - ユーザー影響に直結する指標を示す ダッシュボード （レイテンシ、エラー、トラフィック） - インパクトに結びついた アクショナブルなアラート （ノイズでないこと） - インシデントワークフロー（トリアージ、緩和、コミュニケーション、フォローアップ） - よくある障害向けの ランブック と「最初の15分」チェックリスト - キャパシティとコストに関する所有（スケーリング、制限、予算）

Q: 人を燃え尽きさせないオンコール体制はどう作れば良いですか？

人に負担を強いることなく始めるには、人間中心の設計が必要です： - 適切なローテーションと明確なエスカレーション（プライマリ／セカンダリ／ドメイン専門家） - 本当に影響がある場合のみページする（重大度定義） - ランブックで応答者がストレス下で推測しなくて済むようにする - ハードな夜勤の後の回復時間（代休や遅い始業） 良いオンコールの目標は「来月のページが減ること」であり、ヒーロー的対応を常態化させることではありません。

Q: ページとチケットはどう区別すればいいですか？

シンプルなルール： 起こしても結果が変わらないならチケットにする 。 実務的には： - 障害、データ損失の危険、セキュリティインシデント、SLOの重大な違反はページ - 劣化しているが安定している問題は業務時間内に回す（持続する場合を除く） - フラッキーなアラートはフォローアップ作業（チューニングや自動化）に変換する

Q: SLO とエラーバジェットは「You Build It, You Run It」をどう支えるのですか？

SLO とエラーバジェットは測定可能な信頼性目標を提供します： - SLI ：測定するもの（例：リクエスト成功率） - SLO ：その指標の目標（例：99.9%） - エラーバジェット ：SLO を満たしつつ許容できる不具合の量 バジェットを速く消費しているときは信頼性作業を優先し、余裕があるときは機能開発のリスクを取れます。

Q: どんなリリースプラクティスがこのモデルを持続可能にしますか？

不確実性と被害範囲を減らすリリース運用が必要です： - 本番準備の基本（ダッシュボード、アラート、ランブック、ロールバック計画） - プログレッシブデリバリ（フィーチャーフラグ、カナリア、小さなリリース） - リハーサル済みのロールバック／ローリングフォワード手順 - ロードテストと障害テストで「未知」を減らす

ログインはじめる

Werner Vogels の「You Build It, You Run It」を解説 | Koder.ai

「You Build It, You Run It」が実際に意味すること

「You build it, you run it」はストレートな一言で記憶に残りやすいフレーズです。モチベーション用のポスターや「もっとDevOpsになろう」といった掛け声ではありません。これは責任に関する明確な宣言です：サービスをデプロイするチームが、本番でそのサービスがどのように振る舞うかについても説明責任を持つ、ということです。

中核の考え：出荷と運用は同じ仕事

実務では、機能を設計してコードを書く同じプロダクトチームが次も担います：

本番でサービスを監視する
障害が起きたら対応する
時間をかけて信頼性を改善する
新機能と運用作業のトレードオフを判断する

それは誰もが一晩でインフラの専門家になるという意味ではありません。重要なのはフィードバックループが現実になることです：リリースがアウトテージ、ページノイズ、顧客の痛みを増やすなら、そのチームが直接それを感じ、学ぶということです。

スローガンではなく実務モデル

この哲学は繰り返すのは簡単ですが、実装するのは難しいです。期待を明確にした運用モデルとして扱わなければなりません。「run it」は通常、ある形のオンコール、インシデント対応の所有、ランブック作成、ダッシュボードの維持、そして継続的改善を含みます。

また制約も意味します：チームに「run it」を求めるなら、問題を修正するためのツール、アクセス、権限、そしてロードマップ上の時間を与えなければなりません。

誰のためか

プロダクト／サービスチーム： 真のエンドツーエンドの所有と高速な学習のため。
エンジニアリングマネージャー： 「このチームがこのサービスを所有する」といった明確な境界を設定し、運用作業のためのキャパシティを計画するため。
プラットフォームチーム： 製品チームが所有しやすくするために舗装された道（paved paths）を提供する。ただし、プロダクトチームから本番責任をこっそり奪ってはいけない。

なぜこの哲学がチームの出荷方法を変えたのか

「You Build It, You Run It」が広まる前、多くの企業はソフトウェア開発をリレーレースのように組織していました：開発者がコードを書き、それを運用チームに“壁越しに投げる”と、運用チームがデプロイと稼働を引き受ける。

その手渡しは短期的には解決しました（経験ある人が本番を見てくれる）が、より大きな問題を生み出しました。

手渡し問題：フィードバックが遅く、責任があいまいになる

別のオプスチームが本番を所有すると、開発者は問題を遅く（あるいはまったく）知ることになります。バグは数日後に「サービスが遅い」や「CPUが高い」といった曖昧なチケットとして現れるかもしれません。その時点ではコンテキストは失われ、ログはローテーションされ、変更を行った人はもうほかへ移っていることが多いです。

手渡しは所有のあいまいさも生みます。障害が発生したとき、開発は「運用がキャッチするだろう」と思い、運用は「開発がリスクのある変更を出した」と思う。結果は予想どおりです：インシデント解決の遅延、同じ失敗モードの繰り返し、チームが顧客体験より自分の最適化を優先する文化です。

所有が配信を速め、再発を減らす理由

「You Build It, You Run It」はループを短くします。同じチームが変更を出し、その振る舞いに対して説明責任を負うと、実践的な改善が上流で起きます：明確なアラート、安全なロールアウト、見やすいダッシュボード、運用しやすいコード。

皮肉なことに、これは多くの場合、配信を速めます。チームがリリースプロセスを信頼し、本番挙動を理解すると、小さな変更をより頻繁に出せるようになります—ミスの影響範囲が小さくなり、問題の診断も容易になります。

すべてに当てはまるわけではない

すべての組織が同じ人員、コンプライアンス要件、レガシーを抱えているわけではありません。この哲学は方向性であり、スイッチではありません。多くのチームは段階的に採用します—共有オンコール、改善された可観測性、明確なサービス境界から始めて、完全なエンドツーエンドの所有へ移行します。

起源：Werner Vogels とサービス志向の考え方

Amazon の CTO である Werner Vogels は「You build it, you run it」というフレーズを広め、Amazon（と後の AWS）がソフトウェアをプロジェクトとして手渡すのではなく、運用するサービスとして考えてほしいと説明しました。

重要な変化は技術的側面だけでなく心理的な側面でもあります。チームが障害でページされることを知っていると、設計の決定が変わります。標準設定を整えること、明確なアラート、優雅な劣化、ロールバック可能なデプロイ経路を重視するようになります。つまり、ビルドには現実の混沌に備える計画も含まれます。

クラウド時代が要求水準を上げた理由

AWS 時代のサービス思考は、信頼性とスピードを不可欠にしました。クラウドの顧客は API が常に利用可能であることを期待し、改善が四半期ごとの“ビッグリリース”ではなく継続的に届くことを期待します。

その圧力が促したもの：

所有者が明確な小さな長期サービス
コード変更と本番挙動の間の高速なフィードバックループ
運用習慣がプロダクト機能として扱われること（モニタリング、キャパシティ計画、ランブック）

模倣ではなくインスピレーション

Amazon のやり方をそのままテンプレートとしてコピーしたくなりますが、「You Build It, You Run It」は厳格な組織図というよりも方向性です。チーム規模、規制、製品の成熟度、稼働要件によって適応が必要です—共有オンコールやプラットフォームサポート、段階的な導入など。

実用的にこの考えを行動に移すには、/blog/how-to-adopt-you-build-it-you-run-it-step-by-step へ進んでください。

所有とは：チームが「run it」で引き受けるもの

「You Build It, You Run It」は本質的に所有に関する宣言です。チームがサービスを出荷するなら、そのチームは実世界でそのサービスがどう振る舞うかに責任を持ちます—リリース当日のテストが通るかどうかだけではありません。

所有がカバーするもの

サービスを運用することは、成果に対してエンドツーエンドで気を配ることを意味します：

信頼性： ユーザーが依存でき、障害は迅速に対処されること。
性能： 通常時・ピーク時どちらでも十分に高速であること。
コスト： 予算の中で静かに最大コスト項目にならないこと。
セキュリティとコンプライアンス： リスクはデリバリーの一部として扱うこと。
サポート： 顧客や社内ユーザーが明確で迅速な支援を受けられること。

実務としての「run it」に含まれるもの

通常週では「run it」はヒーロー的対応より日常的な運用が中心です：

チームが一目で健全性を把握できるモニタリングとダッシュボードの設定
ユーザー影響に結びつき実行可能なアラートの定義（ノイズにならない）
インシデント対応：トリアージ、緩和、コミュニケーション、フォローアップ作業
キャパシティ管理：スケーリング計画、ロードテスト、リソース制限
ランブックの維持：オンコール担当者が一貫して対応できるよう最新版を保つ

説明責任は非難ではない

このモデルが機能するのは、説明責任が「修正は我々の仕事だ」という意味であり、「誰かを罰するために犯人捜しをする」ことではない場合だけです。何かが壊れたら、目標はシステムのどこがそれを許したか（アラート不足、限界の不明瞭、リスクあるデプロイ）を理解し、その条件を改善することです。

明確な境界と名前付きオーナー

サービスがあいまいだと所有は混乱します。サービス境界（何をするか、依存関係、約束）を定義し、名前付きの所有チームを割り当てましょう。その明確さがハンドオフを減らし、インシデント対応を速め、信頼性と機能が競合するときの優先順位を明確にします。

正しいオンコール（燃え尽きさせないために）

オンコールは「You Build It, You Run It」で中心的な役割を果たします。変更を出すチームが運用影響（レイテンシのスパイク、デプロイ失敗、顧客の苦情）を直接感じることで、優先順位が明確になります：信頼性作業が「誰か他の人の問題」ではなくなり、より多く出荷する最速の方法は多くの場合システムを落ち着かせることになります。

人間に優しいオンコールの作り方

健全なオンコールは予測可能性とサポートが中心です。

チーム規模に合ったローテーション： 過度に負担の大きいスケジュールは避ける。カバレッジが薄ければ範囲を減らすか共有のセカンダリを追加する。
エスカレーション経路： プライマリ、セカンダリ、ドメイン専門家—深夜に誰もが一人で残されないようにする。
きつい夜の後の回復時間： ページのあった翌日は代休や遅めの始業を認める。休息は信頼性の一部。
ランブックと「最初の15分」チェックリスト： 応答者が推測に頼らずに行動できるようにする。

重大度レベル：重要なときにだけページする

重大度レベルを定義して、システムがすべての欠陥でページを飛ばさないようにする。

Sev 1（ページ）: 顧客影響のある大障害、データ損失のリスク、セキュリティインシデント、または重大な SLO 違反。
Sev 2（営業時間にページ、あるいは持続する場合にページ）: 実際のユーザー影響がある劣化。
Sev 3（チケット）： 緊急でないバグ、フラッキーなアラート、小さなエラー率の上昇、容量傾向。

シンプルなルール：起こしても結果が変わらないなら、チケットにする。

真の目標：来月のページを減らすこと

オンコールは罰ではなくシグナルです。ノイジーなアラート、繰り返す障害、手作業の修復はすべてエンジニアリング作業にフィードバックされるべきです：より良いアラート、自動化、安全なリリース、ページを不要にするシステム設計。

SLO、SLI、エラーバジェット：実務的なガードレール

パイロットを構築・実行

チャットワークフローで素早く反復し、自社で運用できる実行可能なアプリに変えましょう。

無料で試す

「you run it」が現実なら、チームは意見戦にならない共通の信頼性の話し方が必要です。SLI、SLO、エラーバジェットがそれを提供します：明確な目標と、速さと安定性の公正なトレードオフです。

SLI と SLO と SLA（平易な言葉で）

SLI（Service Level Indicator）： サービスの振る舞いを測る指標。本番で何が起きているかを表す。
SLO（Service Level Objective）： SLI に対する目標。どのレベルの信頼性を目指すか。
SLA（Service Level Agreement）： 顧客への約束で、罰則やクレジットが伴うことが多い。契約上の保証。

覚え方：SLI = 指標、SLO = 目標、SLA = 外部への約束。

測れる SLI の例

ユーザー体験に結びつく具体的なもの：

レイテンシ：「95% のリクエストが 300ms 未満で完了する」
可用性：「リクエストが 99.9% の時間で成功（5xx ではない）」
ジョブ成功率（非同期）：「夜間エクスポートの 99.5% が午前6時までに完了する」

エラーバジェット：速さと安定のバランス

エラーバジェットは SLO を満たしながら許容できる“悪さ”の量です（例：SLO が 99.9% 可用性なら、月次のエラーバジェットは 0.1% のダウンタイム）。

サービスが健全で予算内なら、チームはより多くの配信リスクを取れます。予算を速く消費しているなら、信頼性作業が優先されます。

SLO が計画を導く方法

SLO は信頼性を計画入力に変えます。エラーバジェットが少ないなら、次のスプリントはレートリミット、安全なロールアウトの導入、フラッキーな依存の修正を優先するかもしれません。予算に余裕があれば、プロダクト作業を自信を持って優先できます。

安全に出荷する：本番準備とリリース運用

「You build it, you run it」は、本番へのデプロイが日常であり、ハイステークスなイベントでないことが前提です。目標はローンチ前の不確実性を減らし、ローンチ後の影響範囲を限定することです。

ローンチ前の必須事項

サービスを“準備完了”とみなす前に、一般的に必要な運用的基盤：

ユーザー向けの健全性を示すダッシュボード（レイテンシ、エラー率、トラフィック）と主要依存性
アクショナブルなアラート（明確な閾値、明確なオーナー、ノイズにならないこと）
よくある障害のランブック：まず何を確認するか、どう緩和するか、いつエスカレートするか
バックアップと復元のドリル（ドリルの方がバックアップと同じくらい重要）と保持ポリシーの文書化

プログレッシブデリバリ：小さく安全に出す

すべてを一度に全員へリリースする代わりに、影響を制限する手法：

フィーチャーフラグ：コードを出しつつ露出を制御し、後でクリーンアップする計画を持つ
カナリアリリース：少量のトラフィックを新バージョンに送り、ベースラインと比較する
迅速なロールバック（またはロールフォワード）：リカバリを自動化・練習しておき、即興で対処しない

ロールバックを標準機能として扱ってください：安全に戻せるほど、実際の「you run it」は現実味を帯びます。

負荷と障害テストで自信を作る

不確実性を減らす2つのテスト：

ロードテスト：キャパシティ仮定を検証し、ボトルネックを事前に明らかにする
障害テスト：依存性のタイムアウトやインスタンス停止、接続喪失などでサービスが優雅に劣化し、アラートが正しく発火するかを確認する

簡単な本番準備チェックリスト

軽量に：リポジトリやチケットテンプレートに1ページのチェックリスト（例：「可観測性」「オンコール準備」「データ保護」「ロールバック計画」「容量テスト」「ランブックへのリンク」）。“準備できていない”を普通の状態にしておく方が、本番で学ぶよりはるかにマシです。

インシデントとポストモーテム：障害を学びに変える

小さな変更をより速くリリース

フルの開発パイプラインを待たずに、アイデアから稼働するWebサービスへ移行できます。

開発を開始

インシデントは「you run it」が現実になる場です：サービスが劣化し、顧客が気付き、チームが迅速かつ明確に対応する必要があります。目標はヒーロー的対応ではなく、影響を減らし改善を生む再現可能なワークフローです。

シンプルなインシデントワークフロー

多くのチームは同じ段階に収束します：

検出：モニタリングアラート、顧客報告、または自動異常検出
トリアージ：何が壊れているかを確認し、重大度を見積もり、インシデントリードを割り当て、タイムラインを開始する
緩和：出血を止める（ロールバック、フィーチャーフラグオフ、スケールアップ、不正トラフィックの遮断）し、その後フルサービスを復旧する
通信：影響範囲、現状、次回の更新時間を一貫して伝える。通信自体が緩和の一部
学習：サービスが安定したら寄与要因を分析し、再発防止を行う

実用的なテンプレートが欲しいなら軽量なチェックリストを常備してください（参照：/blog/incident-response-checklist）。

ブレームレスなポストモーテム（と記録すべきこと）

ブレームレスなポストモーテムは「誰もミスをしていない」という意味ではありません。ミスが本番に到達するのをシステムやプロセスがどのように許したかに焦点を当てる、という意味です。それにより人々が早期に詳細を共有しやすくなり、学習が促進されます。

記録すること：

顧客影響： 誰がどのくらいの時間、どの程度影響を受けたか
タイムライン： 主要イベント、意思決定、信号がいつ現れたか
根本原因と寄与要因： 技術的・プロセス的要因（例：所有権が不明瞭、アラート不足）
うまくいった点／いかなかった点： 通信を含む

再発防止につながるアクションアイテム

良いポストモーテムは、具体的で所有者と期限が決まったフォローアップで終わります。典型的には四つのカテゴリ：ツーリング改善（アラート／ダッシュボード改善）、テスト（回帰やエッジケースの追加）、自動化（安全なデプロイ／ロールバック、ガードレール）、ドキュメント（ランブック、明確な運用手順）。所有者と期日を割り当てないと学びは理論のまま終わります。

サービス所有を楽にするツール群

ツールは「You Build It, You Run It」を持続可能にするレバレッジですが、ツールだけで所有権は生まれません。チームが運用を“誰か別の人の問題”と扱っているなら、一番高級なダッシュボードも混乱を記録するだけです。良いツールは摩擦を減らし、正しい行動（観測、対応、学習）を行いやすくします。

すべてのチームが最低限必要とするもの

サービス所有者は、ソフトウェアが本番で何をしているかを一貫して見て、問題時に迅速に行動できる方法を必要とします：

集中ログ： 検索可能でインシデント調査のために十分な保持期間、可能なら構造化ログ
メトリクス： 黄金のシグナル（レイテンシ、トラフィック、エラー、飽和）とビジネス重要メトリクス
分散トレース： リクエストをサービス横断で追いボトルネックを発見する
アラート： 顧客影響に結びついたアクショナブルなアラート
チケッティング／インシデントワークフロー： 作業を追跡し、インシデントとフォローアップをリンクさせ、修正がデプロイされるようにする

監視が分断していると、チームは調査に多くの時間を費やします。統一的なオブザーバビリティのアプローチが助けになります（参照：/product/observability）。

大規模で所有を可視化する

組織が成長すると「これは誰が所有している？」が信頼性リスクになります。サービスカタログ（内部デベロッパーポータル）がこれを解決します：チーム名、オンコールローテーション、エスカレーション経路、ランブック、依存関係、ダッシュボードへのリンクを一箇所に保持します。

重要なのは所有メタデータを最新に保つことです。ワークフローの一部にしてください：新サービスはオーナーなしで本番に出せない、所有権の変更はコード変更のようにレビューと追跡を行う。

ツールは習慣を後押しするべき

最良のセットアップはチームを健康的な行動に誘導します：ランブックテンプレート、SLO に結びつく自動アラート、数秒で「ユーザーに影響があるか？」に答えるダッシュボード。しかし人の側の仕組みも重要です—チームにはこれらのツールを維持し、アラートを刈り込み、運用方法を継続的に改善する時間が必要です。

プラットフォームチームの役割：所有権を奪わずに支援する

プラットフォームチームは「You Build It, You Run It」を現実にしやすくします。彼らの仕事は皆のために本番を運用することではなく、プロダクトチームが毎スプリント運用を再発明しなくても所有できるような“舗装された道”を提供することです。

舗装路、テンプレート、ガードレール

良いプラットフォームは間違えにくく採用しやすいデフォルトを提供します：

新サービスのゴールデンパステンプレート（リポジトリ構成、ロギング、アラート、ダッシュボード）
カナリアやブルー／グリーン、自動ロールバックといった安全なデプロイオプションを備えた標準 CI/CD パイプライン
本番用の実行時の基礎（ヘルスチェック、レートリミット、設定の扱い方）

ガードレールは出荷を阻害せずリスクを防ぐべきです。"secure by default" を目指す設計が好ましい。

共有サービスと共有所有の違い

プラットフォームチームは共有サービスを運用できるが、プロダクトサービスの所有を奪ってはいけません。

共有サービス： 認証、シークレット管理、コンテナプラットフォーム、アーティファクトレジストリ、オブザーバビリティ基盤等
プロダクト所有： 各チームは自分たちのサービスの信頼性、性能、データ整合性、オンコールを所有する

境界はシンプルです：プラットフォームチームはプラットフォームの稼働とサポートを所有し、プロダクトチームはその上で自分のサービスがどう振る舞うかを所有します。

プラットフォームが認知的負荷を下げる方法

チームが入社初日から CI/CD、認証、シークレットを深く理解しなくてよいとき、サービスの振る舞いとユーザー影響に集中できます。

負担を減らす例：

一クリックでパイプラインを立ち上げる標準テストゲート
サービス間識別をサポートする中央認証
ローテーションポリシー付きの管理されたシークレット
共通メトリクスを自動計測するベース監視

結果は、カスタムな“オプスの雪片”を減らしつつ迅速な配信を実現し、核心の約束を保ちます：作るチームがそのまま運用するということです。

よくある落とし穴とモデルを適応すべき時

ビルドクレジットを増やす

作ったものを共有したり、チームメンバーや同僚を招待してコストを下げましょう。

クレジットを獲得

「You build it, you run it」は信頼性と速度を向上させますが、組織がチームの周囲の条件を変えないと失敗します。標語だけ採用して支える習慣が伴わない失敗例は多いです。

注意すべき失敗モード

繰り返し現れるパターン：

開発者はオンコールだが根本原因を直す時間が与えられない。 ページは夜務になり、バックログは信頼性作業を後回しにする。学習が止まり、無力感が生まれる。
「みんなが所有している」で曖昧になる。 インシデントに五つのチームが絡み決定が誰もできないと、所有は会議になるだけ。
共有依存が多すぎる。 すべてのサービスが中央データベーススキーマや共有ライブラリに依存すると、チームは失敗を受け継ぐだけでそれを減らす手段を持たない。
オンコールが罰やヒーロー礼賛になる。 消防活動が奨励される文化は頻繁な緊急事態へと収束する。

モデルが合わない場合（と適応方法）

特定の環境では調整が必要です：

厳しいコンプライアンスや規制業務： 職務分掌や変更管理、限定的な本番アクセスが必要かもしれない。適応策としては、サービスチームが信頼性成果に対する責任を持ちつつ、認可されたワークフロー（監査済みランブック、事前承認された変更、ブレイクグラスアクセス）を使う。
レガシーモノリス： 絡み合った所有権の単一コードベースでは「run it」は難しい。まず特定モジュールやバッチジョブ、ユーザージャーニー単位で運用所有を切り出し、可観測性とデプロイの安全性に投資してから大規模再編を行う。
重要な共有プラットフォーム： 多くのプロダクトチームを支える単一プラットフォームはプラットフォームチームが運用してもよいが、プロダクトチームは自分のサービス挙動と信頼性目標は所有し続けるべき。

リーダーシップの仕事：信頼性に使うキャパシティを守る

この哲学が最も早く失敗するのは、信頼性作業が「おまけ」と見なされる場合です。リーダーは明確に以下のためのキャパシティを確保する必要があります：

運用負債の返済（アラート、ランブック、自動化）
繰り返すインシデント原因の修正
リスクの高い依存関係の削減

その保護がないと、オンコールは税になり、システムを改善するフィードバックループにはなりません。

「You Build It, You Run It」を段階的に導入する方法

展開は一度に全社で発表するよりも、段階的な変更として進めるのが最良です。小さく始め、所有を可視化し、準備ができたら拡大します。

1）あるサービスでパイロットを行う

境界が明確でリスクが管理しやすい単一サービスを選びます（理想は明確なユーザーと管理可能なリスクを持つもの）。

定義するもの：

ユーザー体験を反映するSLO（例：「99.9% のリクエストが成功する」）
そのサービスのオンコールカバレッジ（最初は営業時間＋エスカレーションでも可）
最上位障害向けのランブック：「何をまず確認するか」「どうロールバックするか」「誰にページするか」

鍵は：変更を出すチームがそのサービスの運用成果も所有すること。

2）拡大前にガードレールを追加する

パイロットを複数サービスに拡大する前に、パイロットチームがヒーローに頼らずに運用できるようにする：

ユーザー影響のある問題でページする基本的なアラート（全指標でページするのではない）
軽量な本番準備チェックリスト（ログ、ダッシュボード、ロールバック経路）
ページとインシデントの定期レビューでノイズを減らし繰り返し問題を修正する

3）正しい導入指標を追う

所有権が出荷と安定を改善しているかを示す少数の指標を使う：

変更失敗率（デプロイがインシデント／ロールバックを引き起こす頻度）
MTTR（平均復旧時間）
ページ量（週あたりのページ数、深夜のページ数）
デプロイ頻度（どれだけ安全に頻繁に出せるか）

30/60/90 日のサンプルプラン

1–30日： パイロットサービスを選ぶ、SLO 定義、ページポリシー設定、初回ランブック作成、ダッシュボード作成。
31–60日： アラート調整（ノイズ削減）、インシデント対応の実践、リリース安全性の向上（ロールバック手順、可能ならカナリア）。
61–90日： 1–2 サービスに拡大、テンプレート（ランブック／SLO ドキュメント）の標準化、指標と作業量の公平性レビュー。

Koder.ai が果たす役割（出荷手法を近代化する場合）

「you build it, you run it」を採用して出荷を速めようとすると、ボトルネックはしばしば同じです：アイデアから本番準備されたサービス（明確な所有権と安全なロールバック経路を持つ）までの距離。

Koder.ai はチャットインターフェースで Web／バックエンド／モバイルアプリを支援するプラットフォームで、サービス所有のオペレーティングモデルに役立つ機能があります：

プランニングモード：コーディング前にサービス境界、依存、ランブック／SLO の期待を定義できる
スナップショットとロールバック：インシデント時に「迅速な巻き戻し」を標準化できる
ソースコードのエクスポート：所有権がツールではなくチーム（とリポジトリ）に残るようにする

次の一手

今週パイロットサービスを決め、最初の SLO、オンコールローテーション、ランブックのオーナーを決める 60 分のキックオフを予定してください。出荷・ロールバック・所有権周りのワークフローを支えるツールを検討する場合は、/pricing で Koder.ai の無料／プロ／ビジネス／エンタープライズ各プランを確認してください—ホスティング、デプロイ、カスタムドメイン等のオプションがあります。

よくある質問

「You Build It, You Run It」は実務ではどういう意味ですか？

それは、サービスを設計・構築・デプロイするチームが、本番運用後に起こること（監視、オンコール対応、インシデント後の改善など）も責任を持つという意味です。

これは単なるツール選定や役職の変更ではなく、責任モデル（誰が所有するかが明確であること）です。

「run it」は全ての開発者がオプスの専門家になるべきという意味ですか？

全てのエンジニアがインフラの専門家になる必要はありません。

意味するところは：

チームが本番の問題を診断し修正するためのアクセス権と権限を持っていること
運用作業がチームの通常の計画に組み込まれていること
プラットフォームの仕組み（paved roads）が複雑さを減らし、しかし所有権を奪わないこと

従来の開発／運用の引き渡しよりなぜ良いのですか？

別チームによる運用の手渡しは、フィードバックが遅れ、責任の所在があいまいになりがちです。

エンドツーエンドの所有は通常、次を改善します：

インシデント対応の速度（ハンドオフが少ない）
リリース品質（チームが安全なロールアウトに投資する）
長期的な安定性（根本原因が修正され、対処で終わらない）

チームがサービスを「運用する」とき、具体的に何に責任を持つのですか？

「run it」に含まれる典型的な責任は：

ユーザー影響に直結する指標を示すダッシュボード（レイテンシ、エラー、トラフィック）
インパクトに結びついたアクショナブルなアラート（ノイズでないこと）
インシデントワークフロー（トリアージ、緩和、コミュニケーション、フォローアップ）
よくある障害向けのランブックと「最初の15分」チェックリスト
キャパシティとコストに関する所有（スケーリング、制限、予算）

人を燃え尽きさせないオンコール体制はどう作れば良いですか？

人に負担を強いることなく始めるには、人間中心の設計が必要です：

適切なローテーションと明確なエスカレーション（プライマリ／セカンダリ／ドメイン専門家）
本当に影響がある場合のみページする（重大度定義）
ランブックで応答者がストレス下で推測しなくて済むようにする
ハードな夜勤の後の回復時間（代休や遅い始業）

良いオンコールの目標は「来月のページが減ること」であり、ヒーロー的対応を常態化させることではありません。

ページとチケットはどう区別すればいいですか？

シンプルなルール：起こしても結果が変わらないならチケットにする。

実務的には：

障害、データ損失の危険、セキュリティインシデント、SLOの重大な違反はページ
劣化しているが安定している問題は業務時間内に回す（持続する場合を除く）
フラッキーなアラートはフォローアップ作業（チューニングや自動化）に変換する

SLO とエラーバジェットは「You Build It, You Run It」をどう支えるのですか？

SLO とエラーバジェットは測定可能な信頼性目標を提供します：

SLI：測定するもの（例：リクエスト成功率）
SLO：その指標の目標（例：99.9%）
エラーバジェット：SLO を満たしつつ許容できる不具合の量

バジェットを速く消費しているときは信頼性作業を優先し、余裕があるときは機能開発のリスクを取れます。

どんなリリースプラクティスがこのモデルを持続可能にしますか？

不確実性と被害範囲を減らすリリース運用が必要です：

本番準備の基本（ダッシュボード、アラート、ランブック、ロールバック計画）
プログレッシブデリバリ（フィーチャーフラグ、カナリア、小さなリリース）
リハーサル済みのロールバック／ローリングフォワード手順
ロードテストと障害テストで「未知」を減らす

インシデントとポストモーテムはこのモデルでどう扱うべきですか？

インシデントは「検出 → トリアージ → 緩和 → 通信 → 学習」の反復プロセスで扱います。

その後、ブレームレスなポストモーテムを書き、システムとプロセスのギャップに焦点を当て、具体的で期限付きのフォローアップを割り当てます。

軽量なチェックリスト（例：/blog/incident-response-checklist）を用意すると標準化に役立ちます。

プラットフォームチームはサービス所有権を奪わずにどう支援すべきですか？

プラットフォームチームは「paved roads」を提供し、再発明を防ぎつつプロダクトチームの所有権を奪わないことが使命です。

実務上の境界：

プラットフォームチームはプラットフォームの稼働時間とサポートを所有
プロダクトチームはそのプラットフォーム上で動く各サービスの信頼性・性能・コストを所有

テンプレート、CI/CD、ガードレール、共通サービス（認証やオブザーバビリティ）で認知負荷を下げます。