장애가 터졌다. 슬랙 채널에 알림이 쏟아지고, 대시보드가 빨갛게 물든다. 이때 대부분의 팀이 가장 먼저 하는 질문이 있다. "뭐가 원인이지?" 우아한형제들 SRE팀은 그 질문을 의도적으로 뒤로 미룬다.
원인보다 먼저, 기계적 완화
우아한형제들이 최근 기술 블로그에 공개한 장애 관리 라이프사이클의 핵심은 'First Action'이라는 개념이다. 장애를 인지한 직후, 원인 분석 이전에 실행하는 사전 정의된 기계적 완화 조치를 뜻한다. 롤백, 스케일 아웃, 트래픽 차단 같은 것들.
포인트는 "추가 판단 없이 바로 실행할 수 있는" 조치라는 점이다. 장애 원인이 배포 실수든 인프라 이슈든 상관없다. 일단 고객에게 가는 영향부터 줄인다. 원인은 나중에 찾아도 된다. 고객은 지금 치킨을 못 시키고 있으니까.
이게 당연한 소리처럼 들릴 수 있다. 하지만 실제로 장애 상황에서 "일단 롤백"을 판단 없이 실행하는 팀은 생각보다 적다. "이번 배포가 원인인지 확실하지 않은데 롤백해야 하나?" 같은 고민이 끼어들기 때문이다. First Action은 그 고민을 사전에 제거하겠다는 선언이다. 의심이 들면 일단 실행하고, 판단은 안정화 이후에 한다.
7단계 라이프사이클, 근데 구조가 좀 독특하다
배민이 정의한 장애 관리 라이프사이클은 총 7단계다. 잠재적 장애 상태(Potential-Incident) 1단계와 실제 장애 상태(Incident) 6단계.
독특한 건 잠재적 장애 상태를 명시적으로 분리한 점이다. 알림은 떴는데 아직 장애인지 확실하지 않은 상태 — 많은 조직이 이 구간을 모호하게 처리한다. "이거 장애 맞아?" 하고 서로 눈치 보는 시간이 생긴다. 배민은 이 모호한 구간 자체를 프로세스에 편입시켜서 대응 시작 시점을 앞당겼다. "아직 모르겠지만, 일단 체계에 들어간다"는 뜻이다.
핵심 메트릭은 결국 First Action까지 걸리는 시간이다. 이 시간을 줄이는 게 전체 장애 대응 시간을 줄이는 가장 효과적인 레버라는 게 배민 SRE팀의 결론이다.
왜 이게 쉽지 않은가
"사전 정의된 조치를 바로 실행한다"는 개념 자체는 단순하다. 어려운 건 조직 문화다.
롤백 권한의 문제. 누가 롤백을 결정하는가? 온콜 엔지니어에게 그 권한이 있는가? 적지 않은 조직에서 롤백은 리드급의 승인이 필요한 행위다. 새벽 3시에 리드가 슬랙을 안 보면 어떻게 되는가? First Action이 작동하려면 의사결정 구조까지 재설계해야 한다. 롤백의 기술적 위험보다 "누가 책임지나"의 조직적 부담이 더 큰 경우가 많다.
원인을 모르는 채로 조치한다는 불안감. 엔지니어는 원인을 파악하고 정확한 조치를 하고 싶어한다. 숙련된 엔지니어일수록 더 그렇다. 하지만 배민의 접근은 명확하다. 고객 영향 시간을 1분 줄이는 게, 원인을 정확히 짚고 나서 5분 뒤에 조치하는 것보다 낫다. TTM(Time To Mitigate)이 MTTD(Mean Time To Detect)보다 중요한 국면이 있다는 거다.
사전 정의 자체의 비용. 어떤 장애 유형에 어떤 기계적 조치를 매핑할지 미리 정리하는 작업은 장애가 없는 평화로운 시간에 해야 한다. 기능 개발에 밀려 이런 작업이 뒤로 빠지기 쉽다. 그런데 이걸 안 해두면 장애가 터졌을 때 결국 판단이 개입하고, First Action은 무너진다.
배민만의 이야기가 아닌 이유
이번 글만 특이한 게 아니다. 최근 1-2년간 한국 테크 기업 블로그에서 장애 대응, 모니터링, 온콜 문화 관련 글이 확실히 늘었다. 데브시스터즈도 장애 대응 원칙을 공개했고, 카카오는 2022년 대규모 장애 이후 내부 프로세스를 여러 차례 손봤다.
배경은 단순하다. 한국 IT 서비스 규모가 커지면서 "서비스가 안 죽는 것"의 비즈니스 가치가 선명해졌다. 배달 앱이 30분 멈추면 수십억 원의 거래가 증발한다. 장애 대응은 더 이상 인프라팀의 야근이 아니라 제품 조직 전체의 역량이 된 셈이다.
그래서 First Action 같은 프레임워크는 단순한 SRE 프랙티스가 아니라, 조직이 "우리는 장애에 이렇게 대응한다"고 선언하는 거버넌스 문서에 가깝다. 배민이 이걸 기술 블로그에 공개한 건, 자기들의 성숙도를 증명하는 동시에 채용 메시지이기도 하다. SRE 문화가 잡힌 조직에서 일하고 싶은 엔지니어에게 이만한 시그널은 드물다.
결국 장애 대응의 핵심은 기술적 역량이 아니라 "원인을 모르는 상태에서도 행동할 수 있는가"라는 조직적 결단이다. 배민이 First Action이라는 이름을 붙인 건, 그 결단을 반복 가능하게 만들겠다는 의지의 표현이다.