2026.03.20I·02장애 대응 프로세스: 포스트모템 작성과 인시던트 관리
장애는 언젠가 반드시 일어난다. 중요한 건 얼마나 빨리 복구하고 무엇을 배우냐다. 인시던트 심각도 분류부터 포스트모템 작성, 실행되는 액션 아이템까지 SRE 실무를 정리했다.
Incident ManagementPostmortemSRE
→2025.09.18I·16SRE란 무엇인가: 운영을 엔지니어링으로 바꾸는 구글의 철학
서비스를 운영하다 보면 장애는 피할 수 없다. 구글의 SRE 책을 읽으면서 '운영'이 단순 노가다가 아니라 고도의 엔지니어링 문제임을 이해했다. SLI, SLO, Error Budget 개념을 통해 소방관에서 건축가로 사고방식이 바뀌는 과정을 정리해본다.
SREDevOpsReliability
→2025.08.05I·10눈을 감고 운전하시겠습니까? (서버 모니터링 도입기)
서비스가 느리다는 항의를 받았는데, 로그파일만 뒤적거리다가 원인을 못 찾았던 경험이 있나요? Prometheus와 Grafana를 도입하여 '눈을 감고 운전하던' 상태에서 벗어난 경험과, 구글이 정의한 모니터링 4대 골든 시그널(Golden Signals)을 공유합니다.
DevOpsMonitoringPrometheus
→2025.05.22I·03카오스 엔지니어링(Chaos Engineering): 일부러 서버를 부수는 이유
왜 넷플릭스는 멀쩡한 서버를 랜덤하게 꺼버릴까요? 시스템의 약점을 찾기 위해 고의로 장애를 주입하는 카오스 엔지니어링의 철학과 실천 방법(GameDay)을 소개합니다.
DevOpsSREInfrastructure
→