본문 바로가기
회고와 후기

장애회고. 더 나은 서비스를 위한 마음가짐

by 방구석개발자 2022. 7. 9.
반응형

최근 한두달 사이에 커다란 장애가 3번 있었다.
db, rabitMq, kafka 가 각각 한번씩 다운 되었다.
우리회사는 모빌리티 회사다.
영업,마케팅 성공(?)으로 인해 우리서비스에 차량설치가 많아 졌고
관제서비스가 트래픽에 감당하지 못했다. 대부분은 출퇴근시간대에 트래픽이 늘어났다.
운영인프라는 내가 권한이 없었으므로 적극적으로 대응하지 못했다.
그러나 권한이 있었다고 하더라도 대응할 수 있었을까 라는 의문이 들었다.
아마 빠르게 대응하지 못했을것이다. 그러면 사용자는 서비스를 신뢰하지 못하고 사용하지 않을 것이다.

서비스 장애에 맞서기 위하여

내가 할수있는일이 없다고 하여 아무것도 하지 않으면 안된다.
지금은 무엇을 할수 있는지, 또 앞으로는 무엇을 해야할지 정리 해서 '다음 소는 잃지 않기 위해' 이글을 적는다.

 

 

  • 장애알림 전파 장애대응을 못한다면 운영팀과 타 부서에게 현 상황과 소요시간을 대략적으로 알려주자.

장애가 난뒤에 운영팀에서 공통적으로 메세지를 보낸게 있다.

언제 해결되고 지금무슨 이유로 장애가 났는지 운영팀에서는 지속적으로 연락이 올것이고 사용자(우리 회사의 경우 렌트카 업체)에게 설명이 필요했을 것이다.

내가 대응을 하지 않고 있다면 대략적이라도 운영팀에게 알려줬어야 했다.

 

 

  • 모니터링을 강화하자.

회사에 모니터링시스템이 있으나 슬랙이나 알림 연동이 몇몇개가 누락되어 있었다. 나는 모니터링이 중요하다고 여겼으나 새로운 기능개발이나 서비스 개선에 더 초점을 맞춰서 업무를 보고 있었다. 장애발생 당일에 운영팀에서 서비스가 잘 안된다고 먼저 연락이 왔었다. 모니터링 시스템을 개선하고 연동해서 제일 빨리 개발팀에게 연락이 되도록 해야겠다.

 

 

  • 인프라 역량 강화에 힘쓰자.

회사에 인프라에 대해 잘 아는 분은 CTO 1분이시다. 그래서 CTO분께서 다 장애대응 해주셨고 설명을 해주셨지만 인프라를 잘 몰랐기에 반정도만 이해하고 있었다.
만약에 휴가중이시거나 대응하지 못하는 상황에서도 누군가는 해야 한다. 그게 내가 될수도 있으므로 인프라 공부에 힘써야겠다. 회사 아키텍처구조를 이해하고 사용하는 서비스에 대해 공부하자.!(aws,k8s, rabitMq, kafka 등)

참고

https://techblog.woowahan.com/2716/

이만 쿠버네티스 공부하러..

반응형

댓글