Q: 「遅い気がする」ときにまず測るべき指標は何ですか？

まず苦情に合った一つの数値から始めます。通常は特定のエンドポイントと入力に対する p95レイテンシ です。同じ条件（データサイズ、同時実行数、キャッシュの温度）でベースラインを記録し、1つだけ変更して再測定してください。 ベースラインが再現できないなら、まだ測定をしていない — 推測しているだけです。

Question 1

「遅い気がする」ときにまず測るべき指標は何ですか？

Accepted Answer

まず苦情に合った一つの数値から始めます。通常は特定のエンドポイントと入力に対するp95レイテンシです。同じ条件（データサイズ、同時実行数、キャッシュの温度）でベースラインを記録し、1つだけ変更して再測定してください。

ベースラインが再現できないなら、まだ測定をしていない — 推測しているだけです。

Question 2

ベースラインとして何を書いておけば本当に使えるの？

Accepted Answer

有用なベースラインには次が含まれます： - 正確なシナリオ（エンドポイント、入力、同時実行数） - 主要指標（例：p95レイテンシ） - 環境メモ（マシン／コンテナサイズ、ビルドモード、機能フラグ） - キャッシュ状態（コールドかウォームか）とウォームアップ手順 - ばらつきを把握するための十分なサンプル（1回の“最高”ランではない） コードに手を加える前に書き留めて、ゴールポストを動かさないことが大切です。

Question 3

なぜみんな平均レイテンシではなくp95/p99に注目するのですか？

Accepted Answer

パーセンタイルは平均より利用者体験をよく表します。 p50 は「典型値」ですが、ユーザーは遅い尾（tail）について文句を言います。それが p95/p99 です。 p50が改善してもp99が悪化すれば、平均は良く見えても体感は遅くなります。

Question 4

プロファイリングとシンプルなリクエスト計測はいつ使い分けるべき？

Accepted Answer

「遅いか？」と「どれくらい？」を知りたいときはシンプルなタイミング／ログを使いましょう。「時間がどこに消えているか」を知りたいときにプロファイリングを使います。

実用的な流れは：リクエストタイミングで回帰を確認し、遅延が実際にあり範囲が定まってからプロファイラを回します。

Question 5

一度にたくさんのことを測って迷子になるのをどう防ぐ？

Accepted Answer

主要指標を一つに絞り、他はガードレールとして扱います。よくあるセットは： - 主要：p95レイテンシ（またはスループット） - ガードレール：エラー率、p99、CPU、メモリ、DB時間 これで一つのグラフだけ勝って他で失敗している、という誤魔化しを防げます。

Question 6

パフォーマンス作業で「良い仮説」はどんなもの？

Accepted Answer

証拠と予測に結びついた一文で書きます： - (証拠) のために (疑わしい箇所) が (症状) を引き起こしている。 - (特定の振る舞い) を変えれば、 (指標) が (概算の改善量) 改善するはずだ。 証拠と期待する指標変化が書けないなら、その仮説は検証可能とは言えません。

Question 7

なぜ最小限で元に戻せる変更が重要なの？

Accepted Answer

小さく、フォーカスされた、元に戻せる変更にしましょう： - 1コミットにつき1つの変更 - スコープは1つのエンドポイント／ホットパスに限定 - リファクタとパフォーマンス調整を混ぜない - フラグを使ってすぐにオフにできるようにする 小さな差分なら次の測定が意味を持ち、挙動を壊すリスクを下げられます。

Question 8

変更後、速くなっていても何を再確認すべき？

Accepted Answer

ベースラインと同じシナリオ（入力、環境、負荷形状）を再実行します。キャッシュやウォームアップが関係するならそれを明示してください（例：「最初はコールド、次の5回はウォーム」）。

平均値だけで判断せず、p95/p99やスループット、CPU時間を同じように比較します。結果が不安定ならサンプルを増やすか元に戻して仮説を練り直しましょう。

また、次の点を必ずチェックします：

正確性：出力が期待通りか
エラー率：タイムアウトや5xxが増えていないか
メモリ：ピークや継続的な増加がないか
テール：p99が悪化していないか
リソースコスト：CPUやDB負荷が急増していないか

Question 9

時間を無駄にする代表的なミスは？

Accepted Answer

計測と変更のつながりを失うと時間を無駄にします。証拠の鎖を保って、何が良くなったか／悪くなったかを自信を持って説明できるようにしてください。

よくある失敗例：

間違ったターゲットを修正：中央値(p50)は速くなったが尾(p95/p99)はまだ悪い
一度に多くの変更を加える：リファクタ、キャッシュ、クエリ調整を同じコミットで行う
ノイジーな1回の実行を信じる：ローカルベンチがラン間で20%振れるなら証拠にならない
単一のプロファイルを全てとみなす：フレームグラフがJSON解析を示しても実際はDBがボトルネックかもしれない
条件を変えて比較する：データセットやフラグ、ハードウェアを変えて結論を出す

Claude Codeを使うときは提案を短く絞り、証拠に合った1〜2の最小変更だけ出すようにしましょう。必ず再測定計画を求めてください。

Question 10

「速くなった」と言う前に最後に確認することは？

Accepted Answer

テストがあいまいだと速度主張は崩れます。祝う前に、何をどう測ったか、どう変えたかを説明できるようにしましょう。

チェックリスト：

指標とベースラインを環境メモとともに記録している（ハード、設定、データ、ウォーム／コールド）
テスト手順が書かれていて再現可能である
1つの仮説とその予測がある（例：「N+1クエリを除去すればp95は約30%下がる」）
小さく元に戻せる変更を行い、何が動いたかを記録した（ファイル、関数、クエリ、設定）
複数サンプルで再測定し、同条件で比較した

数値が良くなったら、正確性、エラー率、タイムアウト、メモリやDB負荷などの副作用を素早く確認してください。

Question 11

遅いAPIエンドポイントを調査する例をステップバイステップで見せてください

Accepted Answer

次のような手順で段階的に調査します： - ベースラインを設定（同じデータセット・同じ同時実行・同じ期間） - 証拠を集める（トレース、プロファイル、DB統計など） - 仮説を立てる（例：インデックス不足、N+1、シリアライズ負荷） - 最小限の変更を行う（N+1をまとめるクエリにする、インデックスを追加するなど） - 同じ負荷で再測定し比較する 例の結果： - p95: 1.8s → 720ms - 総DB時間: 1.3s → 420ms - CPU: 若干低下、だがスパイクは残る 判断：DBが主要な制約でなくなったので、この修正は採用し、残るギャップは次のサイクルでCPUや他の要因に焦点を当てます。

Question 12

このワークフローをルーチン化するには？

Accepted Answer

各ランを小さな実験として扱い、再現可能にするのが最速で上達する方法です。プロセスが一貫していれば、結果の信頼度が上がり比較や共有がしやすくなります。

1ページの簡単なテンプレートが役に立ちます：

指標と計測方法（ツール、コマンド、データセット）
ベースライン（数値、環境、取得時刻）
仮説（1文、検証可能）
変更（小さな差分、触った箇所）
結果（前／後、結論）

これらのノートを見つけやすい場所に置いてください。サービス横のリポジトリフォルダ、チームのドキュメント、チケットノートなど、ツールは何でも構いません。重要なのは発見可能性です。

スナップショットと簡単なロールバックを習慣にし、大胆なアイデアを恐れず試せるようにしましょう。Koder.aiを使っている場合は、Planning Modeで計測計画と仮説を書き、変更範囲を狭めてから差分を生成し、再測定する流れが便利です。

パフォーマンス調査のための Claude Code：測定に基づくワークフロー

なぜ測定なしだとパフォーマンス作業はうまくいかないのか

ワークフロー：測定→仮説→変更→再測定

指標を選びベースラインを固定する

プロファイリングとシンプルな指標で証拠を集める

証拠を明確な仮説に変える

シンプルな仮説テンプレート

Claude Code を使うときに推測に陥らない方法

最小限で可逆な変更を行う

再測定して次を決める

時間を無駄にする一般的なミス

「速くなった」と言う前の簡単チェックリスト

例：遅いAPIエンドポイントの段階的調査

次のステップ：このワークフローを日常化する

よくある質問