Skills Boost Infra Academy

SREエンジニアとは何か？インフラエンジニアとの違いと転換方法を現役講師が解説

Site Reliability Engineeringの概念・SLI/SLO・エラーバジェットをわかりやすく解説

SRE（Site Reliability Engineer）はGoogleが提唱した、ソフトウェアエンジニアリングの手法でシステムの信頼性を高める役割です。インフラエンジニアとの違いと転換方法を解説します。

SREはただの「運用エンジニア」ではありません。信頼性の目標（SLO）を定め、エラーバジェットの消費状況でリリース速度と安定性をバランスさせる役割です。

吉田たかし｜元NWエンジニア・現役IT講師

CCNA/CCNP/LPIC-1/AZ-900取得。14年のインフラエンジニア経験を持つ現役IT講師。DevOps・SRE研修を担当してきた経験から、インフラエンジニアがSREに転換するための実践的な方法を解説します。

📌 この記事のポイント

✅ SREはインフラをコードで管理し・SLI/SLOで信頼性を定量化し・エラーバジェットで開発と運用のバランスを保つ

✅ インフラエンジニアとの違いは「信頼性の指標化」と「自動化によるToil削減」を組織的に推進する点

✅ SREへの転換に必要なのはPython等のプログラミング・Kubernetes・監視スタック（Prometheus/Grafana）

1. SREの核心概念

概念	意味	例
SLI（Service Level Indicator）	信頼性を測定する指標	可用性・エラー率・レイテンシ・スループット
SLO（Service Level Objective）	SLIの目標値	可用性99.9%（月あたりダウン許容43分）
SLA（Service Level Agreement）	顧客との契約上の約束	SLO未達時のペナルティを定めた外部契約
エラーバジェット	SLO未達の許容枠	可用性99.9%なら0.1%分がエラーバジェット。消費するとリリース停止