オブザーバビリティと監視

このロードマップの全体像

このロードマップは、本番システムの「何が起きているか」を把握する基盤を整えたい SRE・バックエンド・プラットフォームエンジニアを対象にしています。学び終えたときには、ログ・メトリクス・トレースの三本柱を設計し、アラート基準と障害対応フローまで含めて、チームが安心して運用できる監視基盤を提案・実装できる状態を目指します。

学習ステップ

1. 監視とオブザーバビリティの違い: 既知の異常を検知する監視と、未知の振る舞いを説明できる状態のオブザーバビリティを区別します。 2. メトリクス設計: RED / USE などのパターン、SLI/SLO、カーディナリティの管理、ヒストグラムの使い方を押さえます。 3. ログ設計と集約: 構造化ログ、相関 ID、ログレベル、保存期間とコストのバランスをルール化します。 4. 分散トレーシング: サービス境界を跨ぐリクエスト追跡、サンプリング、スパン属性の設計を学びます。 5. アラートとオンコール運用: 症状ベースのアラート、ノイズ対策、ランブック、ポストモーテム文化を整えます。 6. コストとガバナンス: テレメトリ量の管理、保存期間、テナントやサービスごとの責務分担を仕組み化します。

注意点と周辺知識

「全部取る」は運用コストとノイズを爆発させ、結果的に何も見ない状態を作ります。SLO と連動させ「何を見て何を見ないか」を決める方針づくりがまず重要です。アラートは増やすより減らす方が難しく、ノイズの多いアラートは現場の注意を削り最終的に無視されます。周辺では、Linux とネットワークの基礎、クラウド / コンテナ / Kubernetes、主要な OSS / SaaS 監視スタック、可視化(ダッシュボード)、障害対応とインシデントマネジメント、コスト管理を並行して理解しておくと、ツール選定と運用ルールが具体化します。

学習ステップ

注意点と周辺知識

6 つのステップで読み進める

実践 OpenTelemetry : オープンなオブザーバビリティ標準を組織に導入する

実践 OpenTelemetry : オープンなオブザーバビリティ標準を組織に導入する

入門 OpenTelemetry : 現代的なオブザーバビリティシステムの構築と運用

New Relic実践入門第2版オブザーバビリティの基礎と実現

AWS継続的セキュリティ実践ガイドログの収集／分析による監視体制の構築

オブザーバビリティ・エンジニアリング

監視資本主義 : 人類の未来を賭けた闘い

オブザーバビリティと監視

学習ステップ

注意点と周辺知識

実践 OpenTelemetry : オープンなオブザーバビリティ標準を組織に導入する

実践 OpenTelemetry : オープンなオブザーバビリティ標準を組織に導入する

入門 OpenTelemetry : 現代的なオブザーバビリティシステムの構築と運用

New Relic実践入門 第2版 オブザーバビリティの基礎と実現

AWS継続的セキュリティ実践ガイド ログの収集／分析による監視体制の構築

オブザーバビリティ・エンジニアリング

監視資本主義 : 人類の未来を賭けた闘い

次に読むロードマップ

エンジニアのための会計入門

AI エージェント開発

AI コーディング / AIペアプログラミング

アルゴリズムとデータ構造

Android を Kotlin で開発

API 設計のベストプラクティス

New Relic実践入門第2版オブザーバビリティの基礎と実現

AWS継続的セキュリティ実践ガイドログの収集／分析による監視体制の構築