Skills Boost Infra Academy

SREエンジニアとは何か?インフラエンジニアとの違いと転換方法を現役講師が解説

Site Reliability Engineeringの概念・SLI/SLO・エラーバジェットをわかりやすく解説

SRE(Site Reliability Engineer)はGoogleが提唱した、ソフトウェアエンジニアリングの手法でシステムの信頼性を高める役割です。インフラエンジニアとの違いと転換方法を解説します。

SREはただの「運用エンジニア」ではありません。信頼性の目標(SLO)を定め、エラーバジェットの消費状況でリリース速度と安定性をバランスさせる役割です。
T

吉田たかし|元NWエンジニア・現役IT講師

CCNA/CCNP/LPIC-1/AZ-900取得。14年のインフラエンジニア経験を持つ現役IT講師。DevOps・SRE研修を担当してきた経験から、インフラエンジニアがSREに転換するための実践的な方法を解説します。

📌 この記事のポイント

✅ SREはインフラをコードで管理し・SLI/SLOで信頼性を定量化し・エラーバジェットで開発と運用のバランスを保つ

✅ インフラエンジニアとの違いは「信頼性の指標化」と「自動化によるToil削減」を組織的に推進する点

✅ SREへの転換に必要なのはPython等のプログラミング・Kubernetes・監視スタック(Prometheus/Grafana)

1. SREの核心概念

概念意味
SLI(Service Level Indicator)信頼性を測定する指標可用性・エラー率・レイテンシ・スループット
SLO(Service Level Objective)SLIの目標値可用性99.9%(月あたりダウン許容43分)
SLA(Service Level Agreement)顧客との契約上の約束SLO未達時のペナルティを定めた外部契約
エラーバジェットSLO未達の許容枠可用性99.9%なら0.1%分がエラーバジェット。消費するとリリース停止

2. SREとインフラエンジニアの違い

比較項目インフラエンジニアSREエンジニア
主な仕事サーバー構築・NW設定・運用監視信頼性設計・自動化・インシデント分析
コーディングオプション(Bashが中心)必須(Python・Go等)
指標管理障害件数・対応時間SLO達成率・エラーバジェット残高
障害対応手順書に従って対応ポストモーテムで再発防止策を設計
開発との関係分離している開発チームと一体になって働く

3. インフラエンジニアからSREへの転換ステップ

1

Pythonでスクリプトを書けるレベルに到達する

監視・デプロイ・インシデント対応の自動化スクリプトを書ける力がSREの入口

2

Prometheus+Grafanaで自分のサーバーを監視する

SLI(エラー率・レイテンシ)をダッシュボードで可視化する経験が重要

3

Kubernetes上でのサービス運用経験を積む

Kubernetes標準のリソース(Deployment・Service・HPA)を操作できるレベルを目指す

4

ポストモーテムの作成経験を積む

障害発生後に「何が起きたか・なぜ起きたか・再発防止策」をまとめる文化を実践する

Route Bloom | インフラエンジニアの育成・転職支援

SES案件マッチングから資格取得サポートまで、現役IT講師がトータルで支援します。

無料相談はこちら

※ SREの定義・役割分担は組織によって大きく異なります。GoogleのSREブック(無料公開)も参考にしてください。

ABOUT ME
たから
サラリーマンをしながら開業して経営やってます。 今年、本業で独立・別事業を起業予定です。 ◆経験:IT講師/インフラエンジニア/PM/マネジメント/採用/運用・保守・構築・設計 ◆取得資格:CCNA/CCNP/LPIC-1/AZ-900/FE/サーティファイC言語 ◆サイドビジネス:アパレル事業/複数のWEBメディアを運営