第36回　モデルとデータの実運用監視：データドリフト検出から再学習までの実践ワークフロー

はじめに：つまずきに寄り添う

自動化ジョブは動いているのに、期待通りの成果が出ない。こうした場面で多くの実務担当者が感じるのは「どこをどう監視すればよいか分からない」という不安です。本記事は、第35回（スケジュール・監視・障害対応）の流れを受け、モデルの入力・出力の『品質監視』を現場で回すための実践的な手順を示します。Pythonで使える短いコード片、閾値の考え方、アラート／対応フロー、再学習トリガーの実務例まで扱います。まずは小さく始め、確実に運用に繋げることを目標にしてください。

監視対象と優先順位付け

限られたリソースで何を最初に監視するか。優先順位の目安を次の表にまとめます。

カテゴリ	監視項目	計測方法（例）	優先度
入力データ	カテゴリ比率、平均・分散、欠損率	pandasでバッチ集計（daily/weekly）	高
出力	予測確率分布、トップカテゴリ比	確率ヒストグラム、累積分布	高
信頼度	予測確度、モデルの信念（confidence）	閾値以下の割合、校正測定	中
KPI	CTR、成約率、解約率等	ビジネスメトリクスとの差分監視	高
性能	レイテンシ、タイムアウト率	APM／ログ集計	中

データドリフトの検出：手順とPython例

代表的な手法として、PSI（Population Stability Index）、KLダイバージェンス、KS検定、カテゴリ差分があります。まずは簡単なバッチ処理で基準（baseline）と最新バッチを比較する運用を勧めます。

実務上の手順（要点）

基準期間（例：過去30日）を決めて分布を保存する。
日次または週次で最新データの分布を算出し、比較指標を計算する。
段階的アラート（情報→注意→緊急）を設定する。緊急では自動停止やロールバックを検討する。

短いPythonスニペット（PSI, KS, カテゴリ差分）

下はそのまま貼って使いやすい最小限の例です。

目的コード（抜粋）

PSI（数値変数）

目的	コード（抜粋）
PSI（数値変数）	import numpy as np def psi(expected, actual, buckets=10): eps = 1e-6 breakpoints = np.linspace(0, 100, buckets+1) expected_perc = np.histogram(expected, bins=np.percentile(expected, breakpoints))[0] / len(expected) actual_perc = np.histogram(actual, bins=np.percentile(expected, breakpoints))[0] / len(actual) expected_perc = np.where(expected_perc==0, eps, expected_perc) actual_perc = np.where(actual_perc==0, eps, actual_perc) return np.sum((expected_perc - actual_perc) * np.log(expected_perc / actual_perc))
KS検定（連続変数）	`from scipy import stats ks_stat, p_value = stats.ks_2samp(baseline_series, current_series) # p_value が小さいと分布差があると判断`
カテゴリ比率差分（pandas）	`import pandas as pd b = baseline_df['cat'].value_counts(normalize=True) c = current_df['cat'].value_counts(normalize=True) diff = (c.reindex(b.index, fill_value=0) - b).abs() # diff の上位を調査対象に`

import numpy as np

def psi(expected, actual, buckets=10):
    eps = 1e-6
    breakpoints = np.linspace(0, 100, buckets+1)
    expected_perc = np.histogram(expected, bins=np.percentile(expected, breakpoints))[0] / len(expected)
    actual_perc = np.histogram(actual, bins=np.percentile(expected, breakpoints))[0] / len(actual)
    expected_perc = np.where(expected_perc==0, eps, expected_perc)
    actual_perc = np.where(actual_perc==0, eps, actual_perc)
    return np.sum((expected_perc - actual_perc) * np.log(expected_perc / actual_perc))

KS検定（連続変数）

from scipy import stats

ks_stat, p_value = stats.ks_2samp(baseline_series, current_series)
# p_value が小さいと分布差があると判断

カテゴリ比率差分（pandas）

import pandas as pd

b = baseline_df['cat'].value_counts(normalize=True)
 c = current_df['cat'].value_counts(normalize=True)
diff = (c.reindex(b.index, fill_value=0) - b).abs()
# diff の上位を調査対象に

閾値の現実的考え方

閾値は業務依存です。目安としては以下のような段階を採ると運用しやすくなります。

レベル	例（PSI）	想定対応
情報	PSI < 0.1	ログ記録、日次レポート
注意	0.1 ≤ PSI < 0.25	担当者に通知、追加確認（サンプル確認）
緊急	PSI ≥ 0.25	自動アラート、場合によりモデル停止/ロールバック

モデル性能監視：ラベル遅延と代理指標

多くの現場ではラベルが遅れて入る（あるいはそもそも入らない）ため、以下のような実務的工夫が必要です。

ラベルが入る場合：遅延を考慮したウィンドウ評価（例：7日遅延を許容し、30日窓で評価）
ラベルがない場合：疑似ラベル、プロキシ指標（例：ユーザー行動の変化、CTRのずれ）を監視する
差分監視：直近期間と基準期間の差を定期レポートにする

方式	利点	注意点
オンライン評価（ラベルあり）	迅速に劣化検知	ラベル遅延の考慮が必要
プロキシ指標（ラベル無し）	早期検知が可能	真の性能とはずれる可能性あり
バッチ評価	安定した集計、再現性あり	検知遅延がある

差分算出（簡易例）

目的	処理（ヒント）
期間ごとの指標差分	期間A（基準）と期間B（最新）で精度、CTR等を算出し、増減率を記録する。増減が閾値超ならアラート。

アラートと対応フロー（実務テンプレート）

重大度ごとのしきい値と対応を整理しておくと、運用が滑らかになります。

重大度	トリガー例	一次対応	通知先・フォーマット
情報	PSI 0.05〜0.1、レイテンシ微増	ログ記録、日次レポート追加	Slack #ai-ops にサマリ投稿
注意	PSI 0.1〜0.25、KPI差分が小幅	担当者がサンプル確認、原因調査	Slack + メール（担当者）
緊急	PSI ≥ 0.25、KPI悪化著明	自動ロールバック、オンコール招集	PagerDuty / Slackアラート（テンプレート下記）

通知テンプレート（Slack/メール例）

チャネル	テンプレート（要約）
Slack	[ALERT] 種類: データドリフト \| レベル: 緊急 \| 指標: PSI=0.28 \| 対応: ロールバックを検討。詳細: https://manageai.online/monitor/123
メール	件名: 【緊急】モデル運用アラート（PSI 0.28）\n本文: 発生時刻、影響範囲、推奨対応（ロールバック/データ収集）を記載。

再学習トリガー設計とパイプライン実行

再学習の起点は複数設計しておくと安全です。代表的なパターンは以下の通り。

トリガー	条件	実務例（起動方法）
閾値ベース	PSI/KPIが閾値超（かつデータ量条件）	AirflowのDagをRESTでトリガー、またはGitHub Actionsを手動/自動で起動
定期再学習	週次/月次で学習を実施	Airflowスケジュール、GHA定期実行
ハイブリッド	性能劣化＋新規データ量が閾値超	再学習を自動で回し、検証後に承認でデプロイ

運用上の注意点

データバージョン管理（DVC 等）で入力データのスナップショットを残す。
モデルの署名（ハッシュ、ハイパーパラメータ）と評価結果をMLflow等に記録する。
自動デプロイ時は必ずカナリア/ブルーグリーンで段階的に流す。

データ／モデルのバージョン管理（運用方針）

ツール	何を保存するか（最小セット）	運用ルール（例）
DVC	学習データのスナップショット、前処理スクリプト	学習実行毎にデータhashをタグ付け
MLflow	モデルアーティファクト、評価指標、環境情報	全モデルに一意のバージョンを付与し、評価結果を必須記録

人手介入と改善ループ（1人でも回せるワークフロー）

疑わしいサンプルを抽出してラベル付け→評価→デプロイを一人で回すための最小フローを示します。

アラート発生→サンプル抽出スクリプトで上位100件をCSV出力。
小さなバッチでラベリング（内部担当 or クラウドソーシング）。
再評価（ローカルでリトレーニング、評価）→結果が改善すればステージングへデプロイ。
運用者は結果を記録し、次のアラート閾値を調整。

チェックポイント	具体例
サンプル抽出基準	PSI上位バケット、予測確率が極端に低いサンプル
ラベリング品質管理	同一サンプルを複数人で確認、コンセンサス率を記録

付録：現場で使えるチェックリストとコード片

まずは下のチェックリストを1つずつ潰してください。

項目	やること
監視項目の棚卸し	現在計測している項目を書き出し、優先度を付ける
基準データの保存	過去30日など、基準期間を固定して分布を保存する
1つのドリフト指標導入	PSIまたはKSを1つ導入し、日次で算出する
簡易アラート設定	Slack通知とメール通知をまず設定する

短いPythonコード片（CSV出力用）