Q: 「隠れた手作業（hidden manual steps）」とは何で、なぜ本番で壊れるのですか？

隠れた手作業は、デモを安定して見せるための“人間の接着剤”で、その人がいなくなると壊れます。 よくある例： - 手で列をクリーンする - 失敗したジョブを手で再実行する - プロンプトや結果をコピー/ペーストする - 悪い入力を手で除去する 対策は、各ステップをアーキテクチャ上で明示し（検証、再試行、フォールバック）、個人ではなくサービスが担うようにすることです。

Q: ノートブックから先に進むとき、どのアーキテクチャ変更が重要ですか？

役割を分離して、どれか一つを変更しても全体が壊れないようにします。主要な分離点は： - クライアント/UI - オーケストレーション（入力検証、ルーティング、状態管理、プロンプトテンプレート、ツール呼び出し） - モデル推論（プロバイダまたはセルフホスト） - データストア（ドキュメント、ベクトルDB、ログ/監査） 運用モード（API、バッチ、リアルタイム）を選び、 タイムアウト、再試行、フォールバック、グレースフルデグラデーション で失敗に備える設計が重要です。

Question 1

AIプロトタイプと本番システムの本当の違いは何ですか？

Accepted Answer

プロトタイプは理想的な条件下で 「これで動くか？」 に答えるものです（小さなデータセット、人間が裏で問題を直す、遅延に寛容など）。本番は 「これを毎日、安定して動かせるか？」 に答える必要があります。 実務上、本番準備はモデルそのものよりも 運用 によって決まります：信頼性目標、安全な失敗モード、監視、コスト管理、責任の所在などです。

Question 2

本番で実際に機能する成功指標はどう定義すればよいですか？

Accepted Answer

まず 正確なユーザーワークフロー とそれが改善すべき ビジネス成果 を定義します。 その上で、以下の少数の指標を選びます： - 品質 （タスク成功率、ルブリックスコア、エラーの重大度） - 遅延 （p95応答時間、time-to-first-token） - コスト （1リクエスト当たり、支出上限） - 導入 （有効化率、完了率、上書き率） 最後に、v1の「完了定義」を書いて、何が「出荷して良いか」を全員で合意します。

Question 3

AI機能をスケールする前の「データ準備」とは何ですか？

Accepted Answer

エンドツーエンドの データフローをマップ します：入力、ラベル/フィードバック、下流の消費者。 次にガバナンスを整えます： - 何をどの期間保存するか、誰がアクセスできるかを決める - データ品質チェックリストを自動化（欠損、重複、外れ値、切り捨て） - 再現性のためにデータやプロンプト/テンプレートをバージョン管理する これにより「デモでは動いたが本番で動かない」という現実世界の混乱を防げます。

Question 4

実ユーザーに公開する前に品質をどう評価すべきですか？

Accepted Answer

小さく代表的な ゴールデンセット （通常50～200件）を作り、ルブリックや参照出力で一貫して採点します。 早い段階でエッジケースを含めます： - 機微／PIIを含む内容 - 曖昧な要求 - 非常に長い入力や乱れたフォーマット - プロンプトインジェクション等の悪意ある入力 事前に閾値と ロールバックトリガー を定めておくと、リリースは制御された実験になります。

Question 5

「隠れた手作業（hidden manual steps）」とは何で、なぜ本番で壊れるのですか？

Accepted Answer

隠れた手作業は、デモを安定して見せるための“人間の接着剤”で、その人がいなくなると壊れます。

よくある例：

手で列をクリーンする
失敗したジョブを手で再実行する
プロンプトや結果をコピー/ペーストする
悪い入力を手で除去する

対策は、各ステップをアーキテクチャ上で明示し（検証、再試行、フォールバック）、個人ではなくサービスが担うようにすることです。

Question 6

ノートブックから先に進むとき、どのアーキテクチャ変更が重要ですか？

Accepted Answer

役割を分離して、どれか一つを変更しても全体が壊れないようにします。主要な分離点は：

クライアント/UI
オーケストレーション（入力検証、ルーティング、状態管理、プロンプトテンプレート、ツール呼び出し）
モデル推論（プロバイダまたはセルフホスト）
データストア（ドキュメント、ベクトルDB、ログ/監査）

運用モード（API、バッチ、リアルタイム）を選び、タイムアウト、再試行、フォールバック、グレースフルデグラデーションで失敗に備える設計が重要です。

Question 7

ローンチ後にコストや遅延が爆発するのをどう防ぎますか？

Accepted Answer

シンプルなコストモデルを作ります： - リクエスト当たり ：トークン入出力（LLMの場合）、推論時間、検索呼び出し等 - インフラ ：CPU/GPU、ストレージ、ネットワーク出力 - 運用オーバーヘッド ：ログ量、監視、再試行 その上で、挙動を変えずに最適化できる点を探します： - キャッシュ（繰り返し入力の結果） - バッチ処理（埋め込みやモデレーションのまとめ処理） - コンテキスト削減（定型文の削除、履歴の上限） 予算上限と異常検出アラート（トークン急増、再試行急増）も設定してください。

Question 8

本番AIに必要なセキュリティとプライバシー対策は？

Accepted Answer

まず簡単な脅威モデルを作ります。想定される悪用や失敗を列挙してください： - プロンプトインジェクション（ルール無視や隠し指示の暴露） - データ漏洩（顧客情報や内部文書が出力やログに出る） - ツールの不適切なアクセス（削除やエクスポート等の高影響操作） 高リスク箇所に対して実用的なガードレールを追加します： - 入力検証（サイズ制限、ファイル種別チェック、悪用フィルタ） - 出力フィルタ／マスキングと安全なフォールバック - ツールの許可リストと、高影響操作は確認を必須にする さらにシークレットはシークレットマネージャに保管し、最小権限でアクセスを制限、保存・保持ポリシー（PIIの扱い、監査ログ、保持期間）を整備します。設定の参考は /privacy を参照してください。

Question 9

いつヒューマン・イン・ザ・ループを入れるべきで、それを効果的にするには？

Accepted Answer

ヒューマン・イン・ザ・ループ（HITL）は自動化の失敗ではなく、品質を保つための制御システムです。

レビューが必要な箇所をリスクに応じて決めます。低影響のタスクは抜き取り検査で良いですが、高影響（方針判断、医療・金融）ではレビューや承認が必須です。

レビューのトリガー例：

低信頼度や引用欠如
機微トピック（法務、医療、人事）
意図が不明確なリクエスト
大きな下流影響（返金、アカウント変更）

フィードバックは使える形で Capture します：理由コード（「事実誤り」「安全性」「トーン」「文脈不足」等）や、元入力と編集後の最終版を保存してください。重大なケースはオンコールやプレイブックのあるエスカレーション経路で処理します。

Question 10

監視（Observability）で何をログ／監視すべきですか？

Accepted Answer

まず「何を再構築すればイベントを追えるか」をログで決めます。AIシステムでは「エラーが起きた」だけでは不十分です。ログに含めるべきは：

リクエスト／入力（機微データはマスキングまたはトークン化）
モデルとプロンプトのバージョン、主要設定（temperature、コンテキストウィンドウ、検索設定）
ツール呼び出しとその結果
レイテンシの内訳（検索時間、モデル時間、下流呼び出し）

ログは構造化（JSON等）にして、テナント／エンドポイント／モデルバージョンでフィルタできるようにします。

監視は単なる稼働率ではなく品質を監視します：入力ドリフト、エラー率、結果のプロキシ（いいね/バッド、タスク完了、サポートへのエスカレーション）、安全性シグナル等。

ダッシュボードとアラートにはランブックを添えて、アラートがページングする条件はユーザー影響に基づくようにチューニングしてください。さらに、シンセティックプローブ（canaryリクエスト）を定期実行してリグレッションを早期検知します。

Question 11

MLOpsのワークフロー（CI/CD、バージョン管理、環境）はどう整えればよいですか？

Accepted Answer

変更は自動化されたパイプラインを通して行うべきです。最低限のCIは： - サービスのビルド（コンテナ/パッケージ） - コアロジックとデータ検証のユニットテスト実行 - 固定データセットでのモデル/プロンプト評価テスト（悪いケース含む） - デプロイ可能なアーティファクトを生成 CDは同じアーティファクトを dev → staging → prod にデプロイすること。再構築せずに同一アーティファクトを昇格させてください。 また、コードだけでなくプロンプト、モデル識別子、構成、評価データセットやラベリングルールまでバージョン管理します。インシデント時に「どのプロンプト＋モデル＋設定で出たか」をすぐ答えられることが目的です。 実務的なチェックリストやテンプレートは /blog と /pricing を参照してください。Koder.ai を使う場合はスナップショット／ロールバック機能や環境設定を同じリリース方針に組み込んでください。

Question 12

本番AIシステムへの変更を安全にローンチする最も安全な方法は？

Accepted Answer

AI機能の出荷は制御された実験です。リスクに応じてローンチ方式を選びます： - シャドウモード ：実トラフィックで並列検証するがユーザーには影響を与えない - カナリア ：小さな割合から徐々にトラフィックを増やす - A/Bテスト ：事前定義した成功指標で比較する - 機能フラグ ：ユーザーセグメント単位で機能を有効化／無効化する 事前に「go/no-go」基準と停止条件を定め、ロールバックは1ステップで元に戻せるようにします。ユーザー対面フローにはルールベースの代替、ヒューマンレビュー、または「回答できません」のような安全なフォールバックを用意してください。 変更内容はサポートとステークホルダーに周知し、短いランブックと内部FAQを提供して「今日AIの回答が変わったのはなぜか？」に速やかに対応できるようにします。

Question 13

ローンチ後の継続的改善はどう進めればよいですか？

Accepted Answer

ローンチは始まりです。初週は学習期間と位置づけ、改善作業を計画的な運用の一部にします。

定期的に評価を現実に合わせて更新します：生産環境の結果をベンチマークと比較し、テストセットを新たに観測された失敗ケースで更新します（例：毎月）。

再学習やプロンプト変更も変更管理を通して行い、提案→オフライン評価→限定ローンチ→本番展開のフローを回します。

定期的なポストローンチレビューではインシデント、コスト、ユーザーフィードバックを統合して、直感ではなく計測に基づいた改善タスクに落としてください。v2は自動化、テストカバレッジ、ガバナンス、監視の改善に焦点を当て、繰り返し起きる問題を減らすことを優先します。

プロトタイプと本番：何が本当に変わるのか

デモが成功して本番が失敗する理由

「本番準備済み」が本当に意味すること

移行時に注意すべき一般的なリスク

このガイドの最後に得られるもの

ゴール、スコープ、成功指標を固定する

ユーザーワークフローから始める

ビジネス成果を定義する

品質だけでなく成功指標を選ぶ

非交渉項目とv1「完了定義」を決める

データ準備：ソース、品質、ガバナンス

データフローをエンドツーエンドでマップする

何をどのくらい保存するか決める

実用的なデータ品質チェックリストを作る

再現性のためにデータセットとプロンプトをバージョン管理する

評価：スケール前にテストを作る

2層の評価を使う

小さく代表的な「ゴールデンセット」を作る

早めにエッジケースを追加する

閾値を設定し、ロールバックトリガーを定義する

アーキテクチャ：ノートブックから信頼できるシステムへ

運用モードを選ぶ（API、バッチ、リアルタイム）

コンポーネントを分離して独立進化を可能にする

失敗を想定して設計する（必ず起きるため）

依存関係と所有権をドキュメント化する

プラットフォームが助ける場面（ロックインに注意）

コスト、遅延、スケーラビリティの計画

ベースラインのコストモデルを作る

挙動を変えずに最適化する

予算と異常アラートを設定する

実トラフィック向けのキャパシティ計画\n

セキュリティ、プライバシー、コンプライアンス要件

単純な脅威モデルから始める

リスクが高い箇所にガードレールを追加する

シークレット、アクセス、コンプライアンスの基本

ヒューマン・イン・ザ・ループと信頼のためのUX

人がレビューする箇所を決める

利用可能なフィードバックを取る

危険なケースをエスカレートする

UIで期待値を設定する

可観測性：ログ、監視、アラート

必要なログを取り、使える形にする

稼働率だけでなく品質を監視する

ダッシュボード、アラート、ランブック

シンセティックプローブ：ユーザー前に問題を検知する

MLOpsワークフロー：CI/CD、バージョン管理、環境

ビルド、テスト、デプロイを自動化する

コード、プロンプト、設定のバージョン管理

環境は段階的に：dev → staging → production

実用的なローンチチェックリストと再利用可能な足場

デプロイとロールアウト戦略

リスクに合わせたローンチモードを選ぶ

ローンチ基準と停止条件を定義する

ロールバックと安全なフォールバックを計画する

変更を伝える

ローンチ後の継続的改善

評価を現実に合わせ続ける

再訓練かプロンプト改良か—変更管理を伴って行う

ポストローンチレビュー：インシデント、コスト、フィードバック

v1 → v2 のロードマップを作る

よくある質問