L49:SLOベース監視(Burn Rate)+ダッシュボード設計(Observability)+アラートノイズ削減(Alert Hygiene)+運用レビューの型(TRAINING ONLY/流用禁止)
【重要:本レッスンは訓練専用】
- このレッスンで作る「ダッシュボード設計」「バーンレートアラート」「運用レビュー用サマリ」「アラート改善方針」等は訓練専用です。通常業務でそのまま使用することは禁止します(コピペ流用禁止)。
- 実環境の監視設定・実アラート設定は禁止:本番監視ツール、実通知先、実URL/実IDは扱いません(ダミーのみ)。
- 実データ・個人情報・未公開情報は禁止(実案件名、実ページID、実数値、実取引先、実素材などは書かない)。
- 本番で必要になった場合は、訓練成果物を流用せず、情報を取り直し、別途レビュー/承認を経て新規作成してください。
L48で「SLO/エラーバジェット/Opsレビュー/ロードマップ」を作りました。
L49では、SLOを“見える化(ダッシュボード)”し、SLO違反の兆候を“早期に検知(Burn Rate)”し、さらに現場を壊すアラートノイズ(鳴りすぎ・無意味・フラップ)を減らす型を作ります。
結論は「監視は多いほど良い」ではなく、行動につながる監視だけ残すことです(訓練用ダミーで演習)。
このページの使い方
1レッスン=1LP(1ページ)です。上から順に当日の時間割に沿って進めてください。
各項目の冒頭に EC事業部/文房具カフェ事業部・準備室 の実施時間を併記しています。
※本レッスンはダミーのみで行います(実データ・個人情報・未公開情報は入力しない)。
このレッスンの狙い(到達状態)
- SLOを「紙の目標」ではなく、ダッシュボード(可観測性)として設計できる
- エラーバジェットを「後から集計」ではなく、Burn Rate(消費速度)で早期検知できる
- アラートを「全部通知」ではなく、ページング(緊急)/チケット(非緊急)に分けられる
- アラートノイズ(鳴りすぎ/フラップ/行動不能)を、削る/弱める/集約する判断ができる
- Opsレビューで、グラフ→判断→改善がつながる要約(レビューサマリ)を作れる
受講ルール(共通)
- 実データ禁止:実URL、実ページID、実アカウント、実顧客情報、未公開企画などは禁止
- 訓練成果物の流用禁止:訓練で作った監視/ダッシュボード/アラート設計を通常業務へコピペしない
- 通常業務をしない:訓練日は講義・演習・レビュー・理解度確認に専念する
- 命令系統の具体化をしない:役割は「運用担当」「対応担当」「レビュー担当」「承認担当」など抽象ロール
- 相互レビュー2件以上:前日までの他者成果物に2件以上コメント(本ページの観点を使用)
今日の目標(できた範囲でOK)
受講者のレベル差があるため、強制の提出物は設けません。今日の目標を選び、できた範囲を「今日進めたこと」に記録してください。
- (A)TRN-OBS49 Specヘッダ(v0.1):対象/SLO/観測ポイント/窓
- (B)ダッシュボード設計(v0.1):最低6ウィジェット(目的つき)
- (C)Burn Rateアラート(v0.1):最低3本(短窓+長窓)
- (D)アラート衛生(Hygiene)改善表(v0.1):最低5件(削る/弱める/集約)
- (E)Opsレビューサマリ(v0.1):判断ログ(Go/No-Go/改善優先)につながる要約
基礎:Burn Rate(バジェット消費速度)とは何か(訓練用)
- エラーバジェット:SLOで許容される失敗量(例:SLO=99%なら失敗は1%まで)
- Burn Rate:その失敗量をどれくらいの速度で消費しているか
- 狙い:SLO違反を「月末に気づく」のではなく、短窓で早めに気づく
訓練の前提:監視ツールの具体クエリは作らず、“何をどう数えるか(定義)”と“しきい値の考え方”を設計します。
結論:監視は「行動できる情報」だけ残す
悪い監視(よくある失敗)
- アラートが多すぎて誰も見ない
- 鳴っても何をすれば良いか分からない(Runbookがない)
- フラップ(上がったり下がったり)して信用を失う
- ダッシュボードが「全部グラフ」で、判断に繋がらない
良い監視(狙うべき姿)
- SLO中心(SLOに効く指標だけ優先)
- 短窓+長窓(早期検知と安定傾向を両方見る)
- ページング/チケットを分離(緊急度で通知を分ける)
- アクション可能(RunbookのStep1〜3が一致する)
標準テンプレ(TRAINING ONLY)
A) TRN-OBS49 Specヘッダ(v0.1)
【TRN-OBS49 Specヘッダ(v0.1:訓練専用・流用禁止)】
Spec-ID:TRN-OBS49
版:v0.1
状態:DRAFT / REVIEW / FINAL(訓練内)
対象(ダミー):
* 例:TRN-JS44(擬似API+requestId+cancel+retry+ログ)
* 例:TRN-OPS47(監視/アラート/Runbook)
* 例:TRN-SRE48(SLO/バジェット)
目的(1行):
* 例:SLOに紐づく監視をダッシュボード化し、Burn Rateで早期検知し、アラートノイズを減らす
範囲(やる/やらない):
* やる:ダッシュボード設計、Burn Rateアラート設計、アラート衛生改善、Opsレビューサマリ(ダミー)
* やらない:実監視ツール設定、実通知先設定、実運用への反映
参照(訓練内):
* SLO(L48)
* アラート/Runbook/PM(L47)
* QA/TC(L45)
窓(計測期間:必須):
* 短窓:__(例:5分/30分)
* 長窓:__(例:2時間/1日)
* レビュー窓:__(例:週次/スプリント)
観測ポイント(何で判断する?):
* ログ(FAIL/timeout/RETRY→SUCCESS 等)
* 状態遷移(from→to)
* 再現条件(failSwitch/slowSwitch/category等:ダミー)
* TC結果(回帰テスト)
完了条件(採点可能):
* ダッシュボードが最低6ウィジェット(目的が明記)
* Burn Rateアラートが短窓+長窓で最低3本
* アラート改善が最低5件(削る/弱める/集約/抑制/通知先分離)
* レビューサマリが「判断→改善」につながる(根拠つき)
* 訓練専用明記/実データ混入なし
B) ダッシュボード設計(v0.1:ウィジェット表)
| W-ID | 見るもの(指標) | 定義(数え方) | 目的(何の判断?) | 窓 | しきい値(目安) | 表示(例) | メモ |
|---|---|---|---|---|---|---|---|
| W-01 | 総試行数 | FETCH_START回数 | 負荷/操作量の前提を揃える | 短窓 | — | 折れ線 | 分母の確認 |
| W-02 | error率 | FETCH_FAIL / FETCH_START | SLO-01の状況確認 | 短窓+長窓 | SLO目標に連動 | 折れ線 | timeoutは分離推奨 |
| W-03 | timeout率 | timeout回数 / FETCH_START | 遅延/不安定の兆候 | 短窓+長窓 | SLO目標に連動 | 折れ線 | slowSwitchで再現(訓練) |
| W-04 | 復帰成功率 | (retry→success) / (error+timeout) | SLO-02(復帰導線)判断 | 長窓 | >= 90%(ダミー) | ゲージ/数値 | TC結果で代用可 |
| W-05 | 二重実行兆候 | 1操作あたりFETCH_START回数 | S1事故(増殖)を早期検知 | 短窓 | 1操作で2回以上 | 数値/アラート帯 | AL-03と連動 |
| W-06 | IGNORED比率 | FETCH_IGNORED / FETCH_START | 競合/UX悪化の兆候 | 長窓 | 10回中5回以上(ダミー) | 折れ線 | AL-04の材料 |
C) Burn Rateアラート設計(v0.1:短窓+長窓)
※実クエリは作らず、条件の型を作ります(訓練用)。
| BR-ID | 対象SLO | 短窓(例) | 長窓(例) | 条件(型) | Severity | 通知種別 | 一次対応(Runbook) | 記録 |
|---|---|---|---|---|---|---|---|---|
| BR-01 | SLO-01(error率) | 5分 | 1時間 | 短窓でも長窓でもSLO超過が継続 | S2 | チケット | ログ/条件確認→復帰導線→原因仮説 | INC-xx |
| BR-02 | SLO-01(error率) | 5分 | 30分 | 短窓が大幅超過(急激な悪化) | S1 | ページング | 止血(導線抑制)→No-Go/ロールバック検討 | INC-xx/RB-xx |
| BR-03 | SLO-02(復帰成功率) | 30分 | 1日 | 復帰成功率が目標未満が継続 | S3 | チケット | 復帰導線の仕様/TC見直し→Backlog化 | BL-xx |
D) アラート衛生(Alert Hygiene)改善表(v0.1)
| H-ID | 現状の問題 | 症状(何が起きる?) | 原因(仮説) | 対策(削る/弱める/集約/抑制/通知分離) | 完了条件(採点可能) | 影響(良くなること) |
|---|---|---|---|---|---|---|
| H-01 | 鳴りすぎ | 同種アラートが連発 | しきい値が低すぎ | しきい値を上げる/短窓だけ通知にする | 1日(訓練)で通知回数が半減(ダミー) | 見落としが減る |
| H-02 | 行動不能 | 鳴っても手が打てない | Runbook不在 | Runbook Step1〜3を追加 | アラート→Step実行が可能 | 初動が速くなる |
| H-03 | フラップ | ON/OFFが頻繁 | 短窓のみ・平滑化なし | 短窓+長窓条件に変更 | 連続3回判定など(ダミー) | 信頼が戻る |
| H-04 | 重複 | 同じ事象が複数通知 | 指標が重複 | 集約(親アラートに統合) | 通知が1本に統合 | ノイズ減 |
| H-05 | 緊急度ミス | 軽微でもページング | Severity設計不足 | ページング/チケットを分離 | S1のみページング | オンコール疲弊減 |
E) Opsレビューサマリ(v0.1:判断につなぐ)
【TRN-OBS49 Opsレビューサマリ(v0.1:訓練専用・流用禁止)】
日付:
対象(Spec-ID):
窓(短/長/レビュー):
1. 事実(グラフの読み:数値/傾向)
* error率(短窓/長窓):
* timeout率(短窓/長窓):
* 復帰成功率(長窓):
* Burn Rateアラート(BR-ID):
* アラート件数(S1〜S4):
2. 判断(訓練)
* Go / No-Go / 改善優先(どれ?):
根拠(SLO/バジェット/ログ/TC):
*
3. すぐやる改善(P0:最大2つ)
* BL-xx:完了条件(TC/ログ):
* BL-xx:
4. ノイズ削減(H-ID:最大2つ)
* H-xx:
* H-xx:
5. UNKNOWN(未確定・要確認)
*
ダミー課題(どれか1つでOK)
OBS-49A(易):SLO中心ダッシュボードを6ウィジェット作る
対象(ダミー):
- TRN-JS44 または TRN-OPS47
要求:
* ダッシュボード:最低6ウィジェット
* 各ウィジェットに「目的(何の判断?)」を必ず書く
* 実クエリは作らない(定義でOK)
OBS-49B(中):Burn Rateアラートを短窓+長窓で3本設計する
対象(ダミー):
- L48で作ったSLO(SLO-01/02 推奨)
要求:
* BRアラート3本(S1/S2/S3の使い分け)
* 通知種別(ページング/チケット)
* 一次対応(Runbook Step1〜3)まで書く
OBS-49C(中):アラートノイズ削減(Hygiene)を5件作る
状況(ダミー):
- アラートが鳴りすぎ、フラップ、重複、行動不能が混ざっている想定
要求:
* 改善表を5件(削る/弱める/集約/抑制/通知分離)
* 完了条件は採点可能(通知回数/フラップ回数/Runbook有無など)
ChatGPTに投げるプロンプト(コピペ用)
1) SLOからダッシュボード(ウィジェット表)を作る
【L49 プロンプト①:ダッシュボード設計(訓練用)】
前提(安全):
* 教育訓練用ダミー。実データ・実URLは禁止。
* 成果物は流用禁止。実監視ツール設定はしない。
入力:
* 対象(TRN-JS44/OPS47/SRE48)
* SLO(SLI定義/目標/窓)
* ログイベント一覧(FAIL/timeout/RETRY→SUCCESS等)
出力形式(必須):
* ダッシュボードのウィジェット表(W-ID/指標/定義/目的/窓/しきい値/表示/メモ)
* 最低6ウィジェット
* 「目的(何の判断?)」を必ず書く
2) Burn Rateアラート(短窓+長窓)を設計する
【L49 プロンプト②:Burn Rateアラート(訓練用)】
入力:
* SLO表(最低2本)
* 短窓/長窓の案(例:5分/1時間)
* 既知のインシデント/PM(あれば)
出力形式(必須):
* Burn Rateアラート表(BR-ID/対象SLO/短窓/長窓/条件/Severity/通知種別/一次対応/記録)
* 最低3本
* ページング(S1)とチケット(S2/S3)を区別
3) アラートノイズ削減(Hygiene)案を作る
【L49 プロンプト③:アラート衛生(訓練用)】
入力:
* 現状のアラート一覧(ダミーでOK)
* どれが困っているか(鳴りすぎ/フラップ/重複/行動不能/緊急度ミス)
出力:
* 改善表(H-ID/問題/症状/原因仮説/対策/完了条件/影響)
* 最低5件
* 対策は「削る/弱める/集約/抑制/通知分離」のいずれかに分類
相互レビュー観点(L49専用)
- 訓練専用の担保:流用禁止が明記され、実在情報が混入していないか
- ダッシュボード:ウィジェットが「目的(判断)」を持っているか(眺めるだけになっていないか)
- Burn Rate:短窓+長窓の意味があり、Severity/通知種別が妥当か
- アラート衛生:削る/弱める/集約/抑制/通知分離が具体で、完了条件が採点可能か
- レビューサマリ:事実→判断→改善(P0)につながっているか
レビューコメントテンプレ(コピペ用)
【L49 相互レビューコメント】
対象(TRN-OBS49):
版:
1. 良い点(1つ):
*
2. ダッシュボードは判断に使える?(目的が明記)
* OK / 要改善
改善案(1つ):
*
3. Burn Rateの短窓+長窓は妥当?
* OK / 要改善
不足BR(1つ):
*
4. アラート衛生(Hygiene)は具体?(完了条件あり)
* OK / 要改善
弱い点(1つ):
*
5. Opsレビューサマリは「判断→改善」になってる?
* OK / 要改善
不足(1つ):
*
6. 次の一手(v+0.1で直すなら):
-
本日の流れ(タイムライン)
目次(クリックで移動)
- 出席・当日選択カリキュラムの内容確認
- 時間差相互評価(2件以上コメント)
- 休憩
- 自分への受領レビュー確認・改善方針メモ
- L49 レクチャー本編(講師説明・質疑込み)
- 昼休憩
- 個人演習①:ダッシュボード/Burn Rate設計
- 休憩
- 個人演習②:アラート衛生改善+レビューサマリ
- 休憩
- 復習:共有できる形に整形(できた範囲でOK)
- 質問・コメント・感想の提出(指定スレッド)
1) 出席・当日選択カリキュラムの内容確認
【実施時間】
| 対象 | 時間 |
|---|---|
| EC事業部 | 08:30–09:10 |
| 文房具カフェ事業部/準備室 | 10:00–10:40 |
この時間にやること
- 今日の目標(A〜E)を選ぶ(できた範囲でOK)
- ダミー課題(OBS-49A/B/C)を1つ選ぶ
- 注意点を1行で書く(例:目的のないグラフを作らない/短窓+長窓/流用禁止)
セルフ棚卸し(コピペ用)
【L49 セルフ棚卸し】
1) 今日選ぶダミー課題:
- OBS-49A / OBS-49B / OBS-49C
2. 自分が弱い点(1つ):
* (例:指標の定義/しきい値/Severity判断/ノイズ削減)
3. 今日の目標(1行):
*
2) 時間差相互評価(前日までの他者成果物に2件以上コメント)
【実施時間】
| 対象 | 時間 |
|---|---|
| EC事業部 | 09:10–10:00 |
| 文房具カフェ事業部/準備室 | 10:40–11:30 |
この時間にやること
- 前日までの他者成果物を2件選び、L49レビュー観点でコメントする
- 「多い/綺麗」より、判断できるか/行動できるか/ノイズが減るかを見る
3) 休憩
【実施時間】
| 対象 | 時間 |
|---|---|
| EC事業部 | 10:00–10:15 |
| 文房具カフェ事業部/準備室 | 11:30–11:45 |
休憩:学習作業なし
4) 自分への受領レビュー確認・改善方針メモ(講師レビュー含む)
【実施時間】
| 対象 | 時間 |
|---|---|
| EC事業部 | 10:15–10:45 |
| 文房具カフェ事業部/準備室 | 11:45–12:15 |
改善方針メモ(コピペ用)
【L49 改善方針メモ】
受領した指摘の要点(最大3つ):
1)
2)
3)
## 直す理由(目的がない/短窓のみ/Severity不明/完了条件なし 等):
直し方(どこを改善する?):
* ダッシュボード(目的/窓/しきい値):
* Burn Rate(短窓+長窓/通知種別):
* 衛生改善(削る/弱める/集約/抑制/通知分離):
* レビューサマリ(判断→改善):
今日の最優先ルール(1行):
*
5) 当日選択カリキュラム実施:L49レクチャー本編(講師説明・質疑込み)
【実施時間】
| 対象 | 時間 |
|---|---|
| EC事業部 | 10:45–12:00 |
| 文房具カフェ事業部/準備室 | 12:15–13:30 |
ここからが「読む/聞く」パート
監視は「頑張って見る」ものではなく、判断を早くする仕組みです。
今日は、SLO→ダッシュボード→Burn Rate→ノイズ削減→レビューの意思決定ログ、までを訓練用ダミーでつなげます。
6) 昼休憩
【実施時間】
| 対象 | 時間 |
|---|---|
| EC事業部 | 12:00–13:00 |
| 文房具カフェ事業部/準備室 | 13:30–14:30 |
昼休憩:学習作業なし
7) 個人演習①:ダッシュボード/Burn Rate設計
【実施時間】
| 対象 | 時間 |
|---|---|
| EC事業部 | 13:00–14:30 |
| 文房具カフェ事業部/準備室 | 14:30–16:00 |
演習①のやり方(必須)
- TRN-OBS49 Specヘッダ(v0.1)を埋める(短窓/長窓を必ず決める)
- ダッシュボードのウィジェット表を最低6つ作る(目的必須)
- 余裕があればBurn Rateアラートを最低3本作る(短窓+長窓)
提出用フォーマット(演習①:コピペ用/できた範囲でOK)
【L49 演習① 提出(できた範囲でOK)】
Spec-ID:TRN-OBS49
対象(ダミー):
## (1) Specヘッダ(v0.1):
## (2) ダッシュボード(ウィジェット表:v0.1):
(3) Burn Rateアラート(v0.1:任意):
*
8) 休憩
【実施時間】
| 対象 | 時間 |
|---|---|
| EC事業部 | 14:30–14:45 |
| 文房具カフェ事業部/準備室 | 16:00–16:15 |
休憩:学習作業なし
9) 個人演習②:アラート衛生改善+レビューサマリ
【実施時間】
| 対象 | 時間 |
|---|---|
| EC事業部 | 14:45–15:45 |
| 文房具カフェ事業部/準備室 | 16:15–17:15 |
演習②のやり方(必須)
- アラート衛生改善表を最低5件作る(削る/弱める/集約/抑制/通知分離)
- Opsレビューサマリ(v0.1)を埋める(事実→判断→改善)
- 判断が「推測」になっている場合は、UNKNOWNとして残し、次回の計測/TC追加に落とす
提出用フォーマット(演習②:コピペ用/できた範囲でOK)
【L49 演習② 提出(できた範囲でOK)】
Spec-ID:TRN-OBS49
## (1) アラート衛生改善(v0.1):
## (2) Opsレビューサマリ(v0.1):
(3) 任意:改善バックログ(P0候補):
*
10) 休憩
【実施時間】
| 対象 | 時間 |
|---|---|
| EC事業部 | 15:45–16:00 |
| 文房具カフェ事業部/準備室 | 17:15–17:30 |
休憩:学習作業なし
11) 復習:共有できる形に整形(できた範囲でOK)
【実施時間】
| 対象 | 時間 |
|---|---|
| EC事業部 | 16:00–16:30 |
| 文房具カフェ事業部/準備室 | 17:30–18:00 |
最終チェック(コピペ用)
【L49 最終チェック】
- 訓練専用(流用禁止)が明記されている
- 実データ/実URL/実設定が混入していない
- ダッシュボードが最低6ウィジェットで「目的」が明記されている
- Burn Rateが短窓+長窓で設計されている(最低3本)
- アラート衛生改善が最低5件あり、完了条件が採点可能
- レビューサマリが事実→判断→改善(P0)につながる
12) 講師への質問・コメント・感想の提出(指定スレッド)
【実施時間】
| 対象 | 時間 |
|---|---|
| EC事業部 | 16:30–17:00 |
| 文房具カフェ事業部/準備室 | 18:00–18:30 |
提出先(参考)
EC事業部・文房具カフェ事業部:ChatWork の指定スレッド/準備室:Slack の指定スレッド
提出テンプレ(コピペ用)
【L49 提出(本人レポート)】
1. 今日の学習内容(要約:3行)
*
*
*
2. 今日進めたこと(TRAINING ONLY:流用禁止)
* 対象(OBS-49A/B/C):
* ダッシュボード(ウィジェット数):
* Burn Rate(本数):
* 衛生改善(件数):
* レビューサマリ(有/無):
* UNKNOWN(残ったもの):
3. 一番工夫した点(1つ)
-(例:目的のないウィジェットを削った/短窓+長窓でフラップを減らした/ページング/チケットを分けた 等)
理由:
*
4. 次に改善したい点(1つ)
*
## 理由:
5. 質問(最低1つ)
*