学習ロードマップ
ログ・メトリクス・トレースの三本柱を、業務システムで回せる形に整えるためのロードマップ。SRE や運用担当者向け。
このロードマップが扱うもの
このロードマップは、本番システムの「何が起きているか」を把握する基盤を整えたい SRE・バックエンド・プラットフォームエンジニアを対象にしています。学び終えたときには、ログ・メトリクス・トレースの三本柱を設計し、アラート基準と障害対応フローまで含めて、チームが安心して運用できる監視基盤を提案・実装できる状態を目指します。
このロードマップの全体像
このロードマップは、本番システムの「何が起きているか」を把握する基盤を整えたい SRE・バックエンド・プラットフォームエンジニアを対象にしています。学び終えたときには、ログ・メトリクス・トレースの三本柱を設計し、アラート基準と障害対応フローまで含めて、チームが安心して運用できる監視基盤を提案・実装できる状態を目指します。
1. 監視とオブザーバビリティの違い: 既知の異常を検知する監視と、未知の振る舞いを説明できる状態のオブザーバビリティを区別します。 2. メトリクス設計: RED / USE などのパターン、SLI/SLO、カーディナリティの管理、ヒストグラムの使い方を押さえます。 3. ログ設計と集約: 構造化ログ、相関 ID、ログレベル、保存期間とコストのバランスをルール化します。 4. 分散トレーシング: サービス境界を跨ぐリクエスト追跡、サンプリング、スパン属性の設計を学びます。 5. アラートとオンコール運用: 症状ベースのアラート、ノイズ対策、ランブック、ポストモーテム文化を整えます。 6. コストとガバナンス: テレメトリ量の管理、保存期間、テナントやサービスごとの責務分担を仕組み化します。
「全部取る」は運用コストとノイズを爆発させ、結果的に何も見ない状態を作ります。SLO と連動させ「何を見て何を見ないか」を決める方針づくりがまず重要です。アラートは増やすより減らす方が難しく、ノイズの多いアラートは現場の注意を削り最終的に無視されます。周辺では、Linux とネットワークの基礎、クラウド / コンテナ / Kubernetes、主要な OSS / SaaS 監視スタック、可視化(ダッシュボード)、障害対応とインシデントマネジメント、コスト管理を並行して理解しておくと、ツール選定と運用ルールが具体化します。
ロードマップ