L50:GameDay(障害訓練)+Tabletop演習+オンコール初動10分の精度向上+改善ループ(SLO/Runbook/ダッシュボード接続)(TRAINING ONLY/流用禁止)
【重要:本レッスンは訓練専用】
- このレッスンで作る「GameDay計画」「シナリオ」「注入(Inject)表」「運用連絡文(ダミー)」「評価表」「振り返り(AAR)」「改善バックログ」等は訓練専用です。通常業務でそのまま使用することは禁止します(コピペ流用禁止)。
- 実環境での障害注入・実アラート設定・実顧客連絡は禁止:本番監視ツール、実通知先、実URL/実IDは扱いません(ダミーのみ)。
- 実データ・個人情報・未公開情報は禁止(実案件名、実ページID、実数値、実取引先、実素材などは書かない)。
- 本番で必要になった場合は、訓練成果物を流用せず、情報を取り直し、別途レビュー/承認を経て新規作成してください。
L46〜L49で、変更管理→監視/対応→SLO/バジェット→ダッシュボード/Burn Rate/ノイズ削減まで作りました。
L50はそれらを“机上の設計”から“動く運用”へつなげる回です。
やることはシンプルで、訓練インシデントを意図的に起こした想定で、検知→判断→初動→連絡→復旧→振り返り→改善を一気通貫で回します(すべてダミー)。
このページの使い方
1レッスン=1LP(1ページ)です。上から順に当日の時間割に沿って進めてください。
各項目の冒頭に EC事業部/文房具カフェ事業部・準備室 の実施時間を併記しています。
※本レッスンはダミーのみで行います(実データ・個人情報・未公開情報は入力しない)。
このレッスンの狙い(到達状態)
- GameDay(障害訓練)を手順・役割・注入表として設計できる
- アラート/ダッシュボード/Runbook/SLOを実戦の流れで接続できる
- 初動10分の「やること」を迷わない粒度で実行(シミュレーション)できる
- 連絡(初報/経過/終報)を断定禁止・範囲限定で書ける(訓練用)
- AAR(After Action Review)を改善バックログ(完了条件付き)に落とせる
受講ルール(共通)
- 実データ禁止:実URL、実ページID、実アカウント、実顧客情報、未公開企画などは禁止
- 訓練成果物の流用禁止:訓練で作った計画/連絡/評価表/改善案を通常業務へコピペしない
- 通常業務をしない:訓練日は講義・演習・レビュー・理解度確認に専念する
- 命令系統の具体化をしない:役割は「運用担当」「対応担当」「レビュー担当」「承認担当」「評価担当」など抽象ロール
- 相互レビュー2件以上:前日までの他者成果物に2件以上コメント(本ページの観点を使用)
今日の目標(できた範囲でOK)
受講者のレベル差があるため、強制の提出物は設けません。今日の目標を選び、できた範囲を「今日進めたこと」に記録してください。
- (A)TRN-GD50 GameDay計画ヘッダ(v0.1):目的/対象/役割/成功条件
- (B)シナリオ+注入(Inject)表(v0.1):最低6注入(時刻つき)
- (C)初動10分Runbook(v0.1):Step表(入力/出力/チェック)
- (D)連絡テンプレ(v0.1):初報/経過/終報(ダミー・断定禁止)
- (E)AAR(振り返り)+改善バックログ(v0.1):最低5件(完了条件=TC/ログ)
基礎:GameDay(机上→実戦に近づける訓練)
なぜやる?(L46〜L49の“つなぎ込み”)
- Runbookは作れても、実際の初動で迷うことが多い
- ダッシュボードがあっても、判断と行動が結びつかないことが多い
- ポストモーテムがあっても、改善が完了条件を持たずに消えることが多い
訓練での制約(重要)
- 実障害を起こさない代わりに、再現条件(fail/slow/categoryなどのダミー)で「同じ現象」を作る想定を置く
- 実通知はしない代わりに、連絡文の構造だけ作る
- 実KPIを使わない代わりに、ログ/TC/再現手順を証跡として扱う
標準テンプレ(TRAINING ONLY)
A) TRN-GD50 GameDay計画ヘッダ(v0.1)
【TRN-GD50 GameDay計画ヘッダ(v0.1:訓練専用・流用禁止)】
GD-ID:TRN-GD50
版:v0.1
状態:DRAFT / REVIEW / FINAL(訓練内)
対象(ダミー):
* 例:TRN-REL46(変更管理/GoNoGo/ロールバック)
* 例:TRN-OPS47(監視/Runbook/PM)
* 例:TRN-SRE48(SLO/バジェット/Opsレビュー)
* 例:TRN-OBS49(ダッシュボード/Burn Rate/ノイズ削減)
目的(1行):
* 例:SLO中心の運用を“実行できる形”にし、初動10分の精度と改善の閉ループを作る
範囲(やる/やらない):
* やる:検知→判断→初動→連絡(ダミー)→復旧→AAR→Backlog
* やらない:実顧客対応、実アラート設定、実環境での障害注入、通常業務の代替
役割(抽象ロール):
* 運用担当(司令塔):
* 対応担当(手を動かす):
* レビュー担当(判断の根拠確認):
* 承認担当(Go/No-Go/ロールバック想定):
* 評価担当(観察・採点):
成功条件(採点可能:最低3つ):
1. 初動10分で「状況1行+再現条件+証跡(ログ抜粋)」が揃う
2. 判断(Go/No-Go/改善優先)がSLO/バジェット/ログ/TCで説明できる
3. AARからBacklogが最低5件、完了条件(TC/ログ)つきで作られる
(任意)4) ノイズ削減(Hygiene)が2件以上具体化される
禁止事項:
* 実データ混入、実通知、実公開、成果物の通常業務流用は禁止
B) シナリオシート(v0.1)
【TRN-GD50 シナリオシート(v0.1:訓練専用・流用禁止)】
シナリオ名:
対象(Spec-ID):
想定開始状況(正常):
想定トリガー(何が起きる?):
期待される検知(アラート/ダッシュボード):
想定影響(ダミー:範囲限定):
制約(実通知なし/実設定なし 等):
ゴール(復旧の定義:TC-IDで指定):
ロールバック要否の判断条件(ダミー):
UNKNOWN(未確定):
C) 注入(Inject)タイムライン表(v0.1:最低6注入)
| t | Inject(与える情報/起こす想定) | 期待行動(誰が何をする?) | 観察ポイント(採点) | 証跡(ログ/TC/メモ) | 結果 |
|---|---|---|---|---|---|
| t+0 | BR-02(S1)相当:短窓でerror率が急上昇(ダミー) | 運用担当:INC発行+Severity仮決め | 「状況1行」が断定なしで書ける | INC-xx | OK/NG |
| t+3 | ログにFETCH_FAILが連続(抜粋を提示) | 対応担当:再現条件固定+ログ抜粋確保 | 再現可能(第三者ができる) | ログ3〜8行 | OK/NG |
| t+6 | 復帰導線(retry)で戻らない想定 | 承認担当:No-Go/ロールバック検討 | 判断根拠がSLO/TCで説明できる | TC-ID | OK/NG |
| t+10 | 経過連絡が必要な想定(社内向けダミー) | 運用担当:経過文(断定禁止) | 影響範囲を限定しUNKNOWNを残す | 連絡文 | OK/NG |
| t+20 | 暫定回避策が効いた想定(成功へ戻る) | 対応担当:復旧条件をTCで確認 | 「復旧の定義」が採点可能 | TC結果 | OK/NG |
| t+30 | 終報+AAR作成フェーズへ | レビュー担当:AAR→Backlog化 | Backlogに完了条件がある | BL-xx | OK/NG |
D) 初動10分Runbook(v0.1:最小)
| Step | 作業 | 担当(抽象) | 入力(Input) | 出力(Output) | チェック(品質) | 所要目安 | メモ |
|---|---|---|---|---|---|---|---|
| 1 | INC-IDを発行し、状況を1行で固定する(断定禁止) | 運用担当 | AL/BR通知(ダミー) | INC-xx概要 | 範囲限定+UNKNOWNが書けている | 2分 | 推測で原因断定しない |
| 2 | Severityを仮決め(S1〜S4)し、通知種別を決める | 運用担当 | BR条件/影響想定 | S判定 | 基準が書かれている | 2分 | S1は止血優先 |
| 3 | 再現条件を固定し、再現手順を書く | 対応担当 | 条件(fail/slow等) | 再現手順 | 第三者が再現できる粒度 | 3分 | ランダム禁止 |
| 4 | 証跡(ログ抜粋3〜8行)を確保する | 対応担当 | logBox(訓練) | ログ抜粋 | 時刻/イベント/requestId/状態が読める | 2分 | 根拠を先に取る |
| 5 | 止血(復帰導線 or 操作抑止)を選ぶ | 承認担当 | Runbook/L46ロールバック観点 | 一次対応方針 | 復旧条件(TC)が指定されている | 1分 | 戻すなら復帰TC必須 |
E) 連絡テンプレ(初報/経過/終報:ダミー)
※実顧客へ送らない。訓練用に「構造だけ」練習します。断定禁止・範囲限定・UNKNOWN明記。
【TRN-GD50 連絡文(初報:ダミー)】
件名:【訓練】異常兆候を検知(調査中)
本文:
現在、(対象:ダミー)において異常兆候を検知しました。
事象:____(断定しない)
影響:____(範囲を限定。不明はUNKNOWN)
対応:調査中/初動実施済(INC-ID:__)
次回更新予定:__(時刻は相対でも可)
備考:本連絡は訓練用(流用禁止)。
【TRN-GD50 連絡文(経過:ダミー)】
件名:【訓練】異常兆候(経過報告)
本文:
状況:__(ログ/状態/再現条件の根拠)
一次対応:__(止血/回避策:ダミー)
影響:__(変化があれば更新。UNKNOWNはUNKNOWN)
次の見込み:__(断定はしない)
備考:推測で原因断定しない。
【TRN-GD50 連絡文(終報:ダミー)】
件名:【訓練】異常兆候(復旧)
本文:
復旧:__(完了条件:TC-ID)
原因:__(根拠のある範囲まで)
再発防止:__(Backlog ID)
備考:本連絡は訓練用(流用禁止)。
F) 評価チェックリスト(評価担当用:v0.1)
| 観点 | OK条件(採点可能) | NG例 | 結果 | メモ |
|---|---|---|---|---|
| 初動10分 | INC発行/状況1行/再現条件/ログ抜粋が揃う | 推測で原因断定、証跡なし | OK/NG | |
| 判断根拠 | Go/No-GoがSLO/バジェット/TC/ログで説明できる | 「なんとなく」 | OK/NG | |
| 連絡品質 | 断定禁止/範囲限定/UNKNOWN明記 | 確約、原因断定、影響過大 | OK/NG | |
| 復旧定義 | TC-IDで復旧条件が指定され、結果が記録される | 「直った気がする」 | OK/NG | |
| AAR→Backlog | 最低5件、完了条件(TC/ログ)がある | 抽象改善(頑張る/注意する) | OK/NG |
G) AAR(After Action Review:v0.1)+Backlog化
【TRN-GD50 AAR(v0.1:訓練専用・流用禁止)】
対象(INC-ID / Spec-ID):
日時:
参加(抽象ロール):
1. 何が起きた?(要約:3行)
*
*
*
2. タイムライン(相対でOK)
* t+0:
* t+5:
* t+10:
* t+xx(復旧):
3. うまくいったこと(最大3)
*
*
*
4. うまくいかなかったこと(最大3)
*
*
*
5. 根本原因(断定は根拠のある範囲まで)
* 仮説:
* 根拠(ログ/状態/再現):
* 結論:
6. 改善アクション(Backlog化:最低5件)
* BL-01:内容/理由/完了条件(TC/ログ)/優先(P0/P1/P2)
* BL-02:
* BL-03:
* BL-04:
* BL-05:
7. ノイズ削減(任意:H-ID)
* H-xx:
* H-xx:
8. UNKNOWN(次回までの要確認)
-
ダミー課題(どれか1つでOK)
GD-50A(易):error急増(Burn Rate短窓)→初動10分→AAR
対象(ダミー):
- TRN-OBS49(BR-02相当)+TRN-OPS47(Runbook)
想定:
* error率が短窓で急上昇(S1相当)
* 復帰導線が弱い想定でも可
要求:
* Inject表(最低6)
* 初動10分Runbook
* AAR→Backlog(最低5件)
GD-50B(中):timeout連発→No-Go/ロールバック判断(ダミー)
対象(ダミー):
- TRN-REL46(Go/No-Go/ロールバック)+TRN-SRE48(SLO/バジェット)
想定:
* timeoutが増え、バジェット消費が加速する
* No-Go判断を議事録(サマリ)に残す
要求:
* 判断根拠(SLO/バジェット/TC/ログ)
* 連絡文(初報/経過/終報:ダミー)
* AAR→Backlog(P0を2件以上)
GD-50C(中):二重実行(連打)をS1扱い→止血→ノイズ削減
対象(ダミー):
- TRN-OPS47(AL-03相当)+TRN-OBS49(Hygiene)
想定:
* loadingガード不足で二重実行が発生する想定
* アラートが連発しノイズ化している想定も追加
要求:
* 注入表に「フラップ/重複」も入れる
* Hygiene改善を2件以上Backlog化(完了条件つき)
ChatGPTに投げるプロンプト(コピペ用)
1) GameDay計画+注入表を作る
【L50 プロンプト①:GameDay設計(訓練用)】
前提(安全):
* 教育訓練用ダミー。実データ・実URL・実通知は禁止。
* 成果物は流用禁止。通常業務に使わない。
* 不明はUNKNOWNで残す(推測で断定しない)。
入力:
* 対象(TRN-REL46/OPS47/SRE48/OBS49 など)
* 想定する事象(error急増/timeout/二重実行/ノイズ過多)
* 参照したいもの(SLO/Runbook/ダッシュボード)
出力形式(必須):
* TRN-GD50 計画ヘッダ(v0.1)
* シナリオシート(v0.1)
* 注入(Inject)表:最低6件(t+0, t+3...のように時刻付き)
* 成功条件(採点可能)
2) 初動10分Runbook+連絡文テンプレを作る
【L50 プロンプト②:初動10分+連絡(訓練用)】
入力:
* 注入表(GD-50)
* アラート/BR条件(ダミー)
* 状態/ログイベント一覧
出力形式(必須):
* 初動10分Runbook(Step表:入力/出力/チェック付き)
* 連絡文(初報/経過/終報:断定禁止、範囲限定、UNKNOWN明記)
3) AAR→Backlog(完了条件つき)に落とす
【L50 プロンプト③:AAR→Backlog(訓練用)】
前提:
* 責めない。再発防止の行動に落とす。
* 完了条件はTC/ログで採点可能にする。
入力:
* INC記録(状況1行/再現条件/ログ/一次対応/判断)
* 連絡文(ダミー)
* 失敗した点/迷った点
出力:
* AAR(v0.1)
* 改善バックログ(最低5件:P0/P1/P2、完了条件つき)
* ノイズ削減(Hygiene)候補(任意)
相互レビュー観点(L50専用)
- 訓練専用の担保:流用禁止が明記され、実在情報が混入していないか
- 注入表の品質:期待行動・観察ポイントが採点可能か(曖昧語なし)
- 初動10分:INC/再現条件/ログ抜粋が10分内に揃う設計か
- 判断根拠:Go/No-Go/改善優先がSLO/バジェット/TC/ログで説明できるか
- AAR→Backlog:完了条件(TC/ログ)があり、抽象改善で終わっていないか
レビューコメントテンプレ(コピペ用)
【L50 相互レビューコメント】
対象(TRN-GD50):
版:
1. 良い点(1つ):
*
2. 注入表は採点可能?(期待行動/観察ポイント)
* OK / 要改善
弱いInject(1つ):
*
3. 初動10分は迷わない?
* OK / 要改善
不足(1つ):
*
4. 判断根拠はSLO/TC/ログで説明できる?
* OK / 要改善
曖昧な根拠(1つ):
*
5. AAR→Backlogが再発防止の行動になってる?
* OK / 要改善
弱いBacklog(1つ):
*
6. 次の一手(v+0.1で直すなら):
-
本日の流れ(タイムライン)
目次(クリックで移動)
- 出席・当日選択カリキュラムの内容確認
- 時間差相互評価(2件以上コメント)
- 休憩
- 自分への受領レビュー確認・改善方針メモ
- L50 レクチャー本編(講師説明・質疑込み)
- 昼休憩
- 個人演習①:GameDay設計(計画+注入表)
- 休憩
- 個人演習②:初動10分→連絡→AAR→Backlog
- 休憩
- 復習:共有できる形に整形(できた範囲でOK)
- 質問・コメント・感想の提出(指定スレッド)
1) 出席・当日選択カリキュラムの内容確認
【実施時間】
| 対象 | 時間 |
|---|---|
| EC事業部 | 08:30–09:10 |
| 文房具カフェ事業部/準備室 | 10:00–10:40 |
この時間にやること
- 今日の目標(A〜E)を選ぶ(できた範囲でOK)
- ダミー課題(GD-50A/B/C)を1つ選ぶ
- 注意点を1行で書く(例:初動10分の証跡を最優先/断定禁止/流用禁止)
セルフ棚卸し(コピペ用)
【L50 セルフ棚卸し】
1) 今日選ぶダミー課題:
- GD-50A / GD-50B / GD-50C
2. 自分が弱い点(1つ):
* (例:初動の速さ/判断根拠/連絡文の品質/Backlogの完了条件)
3. 今日の目標(1行):
*
2) 時間差相互評価(前日までの他者成果物に2件以上コメント)
【実施時間】
| 対象 | 時間 |
|---|---|
| EC事業部 | 09:10–10:00 |
| 文房具カフェ事業部/準備室 | 10:40–11:30 |
この時間にやること
- 前日までの他者成果物を2件選び、L50レビュー観点でコメントする
- 「面白さ」より、採点可能/迷わない/改善に落ちるを見る
3) 休憩
【実施時間】
| 対象 | 時間 |
|---|---|
| EC事業部 | 10:00–10:15 |
| 文房具カフェ事業部/準備室 | 11:30–11:45 |
休憩:学習作業なし
4) 自分への受領レビュー確認・改善方針メモ(講師レビュー含む)
【実施時間】
| 対象 | 時間 |
|---|---|
| EC事業部 | 10:15–10:45 |
| 文房具カフェ事業部/準備室 | 11:45–12:15 |
改善方針メモ(コピペ用)
【L50 改善方針メモ】
受領した指摘の要点(最大3つ):
1)
2)
3)
## 直す理由(初動が曖昧/注入が弱い/判断根拠なし/Backlogが抽象 等):
直し方(どこを改善する?):
* 注入表(期待行動/観察ポイント):
* 初動10分(証跡の順番):
* 連絡文(断定禁止/UNKNOWN):
* AAR→Backlog(完了条件):
今日の最優先ルール(1行):
*
5) 当日選択カリキュラム実施:L50レクチャー本編(講師説明・質疑込み)
【実施時間】
| 対象 | 時間 |
|---|---|
| EC事業部 | 10:45–12:00 |
| 文房具カフェ事業部/準備室 | 12:15–13:30 |
ここからが「読む/聞く」パート
L50の結論は、設計(ドキュメント)を“行動”に変えることです。
今日の勝ち筋は「初動10分で証拠が揃う」「判断が根拠で説明できる」「改善が完了条件を持つ」です(訓練用)。
6) 昼休憩
【実施時間】
| 対象 | 時間 |
|---|---|
| EC事業部 | 12:00–13:00 |
| 文房具カフェ事業部/準備室 | 13:30–14:30 |
昼休憩:学習作業なし
7) 個人演習①:GameDay設計(計画+注入表)
【実施時間】
| 対象 | 時間 |
|---|---|
| EC事業部 | 13:00–14:30 |
| 文房具カフェ事業部/準備室 | 14:30–16:00 |
演習①のやり方(必須)
- TRN-GD50 計画ヘッダ(v0.1)を埋める
- シナリオシート(v0.1)を作る
- 注入(Inject)表を最低6件作る(期待行動/観察ポイント/証跡まで)
提出用フォーマット(演習①:コピペ用/できた範囲でOK)
【L50 演習① 提出(できた範囲でOK)】
GD-ID:TRN-GD50
対象(ダミー):
## (1) GameDay計画ヘッダ(v0.1):
## (2) シナリオシート(v0.1):
(3) 注入(Inject)表(v0.1:最低6):
*
8) 休憩
【実施時間】
| 対象 | 時間 |
|---|---|
| EC事業部 | 14:30–14:45 |
| 文房具カフェ事業部/準備室 | 16:00–16:15 |
休憩:学習作業なし
9) 個人演習②:初動10分→連絡→AAR→Backlog
【実施時間】
| 対象 | 時間 |
|---|---|
| EC事業部 | 14:45–15:45 |
| 文房具カフェ事業部/準備室 | 16:15–17:15 |
演習②のやり方(必須)
- 初動10分Runbook(Step表)を作る(証跡の順番を固定)
- 連絡文(初報/経過/終報)を作る(断定禁止・範囲限定・UNKNOWN)
- AARを作り、Backlogを最低5件(完了条件つき)に落とす
提出用フォーマット(演習②:コピペ用/できた範囲でOK)
【L50 演習② 提出(できた範囲でOK)】
GD-ID:TRN-GD50
## (1) 初動10分Runbook(v0.1):
## (2) 連絡文(初報/経過/終報:ダミー):
## (3) AAR(v0.1):
(4) 改善バックログ(v0.1:最低5件):
*
10) 休憩
【実施時間】
| 対象 | 時間 |
|---|---|
| EC事業部 | 15:45–16:00 |
| 文房具カフェ事業部/準備室 | 17:15–17:30 |
休憩:学習作業なし
11) 復習:共有できる形に整形(できた範囲でOK)
【実施時間】
| 対象 | 時間 |
|---|---|
| EC事業部 | 16:00–16:30 |
| 文房具カフェ事業部/準備室 | 17:30–18:00 |
最終チェック(コピペ用)
【L50 最終チェック】
- 訓練専用(流用禁止)が明記されている
- 実データ/実URL/実通知が混入していない
- 注入表が最低6件で、期待行動/観察ポイント/証跡が採点可能
- 初動10分でINC/再現条件/ログ抜粋が揃う設計
- 連絡文が断定禁止・範囲限定・UNKNOWN明記
- AAR→Backlogが最低5件で、完了条件(TC/ログ)がある
12) 講師への質問・コメント・感想の提出(指定スレッド)
【実施時間】
| 対象 | 時間 |
|---|---|
| EC事業部 | 16:30–17:00 |
| 文房具カフェ事業部/準備室 | 18:00–18:30 |
提出先(参考)
EC事業部・文房具カフェ事業部:ChatWork の指定スレッド/準備室:Slack の指定スレッド
提出テンプレ(コピペ用)
【L50 提出(本人レポート)】
1. 今日の学習内容(要約:3行)
*
*
*
2. 今日進めたこと(TRAINING ONLY:流用禁止)
* 選んだ課題(GD-50A/B/C):
* 作ったもの(計画/注入/Runbook/連絡/AAR/Backlog):
* 今日の判断(Go/No-Go/改善優先:訓練):
* 残ったUNKNOWN(要確認):
3. 一番工夫した点(1つ)
-(例:初動10分で証跡を先に確保した/判断根拠をSLO/TCで固定した/Backlogに完了条件を付けた 等)
理由:
*
4. 次に改善したい点(1つ)
*
## 理由:
5. 質問(最低1つ)
*