SRE(Site Reliability Engineering)入門|インフラエンジニアがSREになるには

キャリアロードマップ|SREへのキャリア
SRE(Site Reliability Engineering)入門|インフラエンジニアがSREになるには
「SREって何をする職種なの?」「インフラエンジニアとSREは何が違うの?」——SREの役割・責任範囲・SLO/SLI/エラーバジェットの概念・SREになるために必要なスキルセットを解説します。
💡 SREはGoogleが提唱した「信頼性をエンジニアリングで解決する」職種。インフラエンジニアとの違いは「システムの信頼性を数値(SLO)で定義して改善し続けるアプローチ」にあります。
1. SREとインフラエンジニアの違い
SRE(Site Reliability Engineer)は「システムの信頼性(Reliability)を、ソフトウェアエンジニアリングのアプローチで継続的に改善するエンジニア」です。インフラエンジニアが「インフラを構築・運用する」のに対し、SREは「信頼性の目標(SLO)を設定してシステムを改善し、エラーバジェットを管理する」という視点の違いがあります。
2. SREの重要な概念
SLI(Service Level Indicator)
「サービスの信頼性を測定する指標」。可用性・レイテンシー・エラー率・スループットが代表的なSLI。
SLO(Service Level Objective)
「SLIの目標値」。例:「APIのP99レイテンシーは200ms以下」「月間可用性99.9%以上」。SLOを設定することが信頼性管理の出発点。
エラーバジェット
「SLOで許容されるエラーの余裕」。100% – 99.9% SLO = 0.1%のエラーバジェット。残量が少なくなったら新機能リリースを停止してインフラ改善を優先する。
3. SREになるために必要なスキル
- プログラミングスキル(Python/Go):SREはコードでシステムを改善する。監視スクリプト・自動化ツール・テスト作成ができることが必須
- 分散システムの理解:マイクロサービス・分散トレーシング・カオスエンジニアリングの知識
- 可観測性の整備:Prometheus・Grafana・Datadog・OpenTelemetryを使ったメトリクス・ログ・トレースの3柱の整備
- ポストモーテム(事後分析)文化:インシデントをブレームレス(責任追及なし)に分析してシステムを改善する姿勢
4. インフラエンジニアからSREへの転換ステップ
1
「Googleのサイト信頼性エンジニアリング」を読む
Google SREチームが書いた書籍「SRE本」が最良の入門書。SREの思想・実践が体系的にまとまっている。
2
自チームにSLO・SLIを設定してみる
既存のシステムに「このシステムのSLOは何か?」を定義するところから始める。SLO/SLIの定義が最初の実践ステップ。
3
Prometheus+GrafanaでSLIダッシュボードを作る
SLIを測定するメトリクスをPrometheusで収集してGrafanaのダッシュボードに可視化する。これをポートフォリオにする。
📌 この記事のポイント
- SREはSLO/SLI/エラーバジェットを使ってシステムの信頼性をエンジニアリングで改善する職種
- インフラエンジニアからSREになるにはPython/Goのプログラミング+可観測性整備のスキルが追加で必要
- 「SLOを定義してSLIを計測してGrafanaで可視化する」が最初の実践ステップ
キャリアの疑問、一緒に解決しませんか?
Route Bloomでは、インフラ系ITエンジニアを目指す方への個別サポートを行っています。2026年7月からフリーランス講師として本格始動予定です。
ABOUT ME




