Infra

[AWS] AWS CloudWatch를 이용해 경보를 보내 보아용

baecode 2022. 12. 7. 12:51
반응형

AWS CloudWatch 에서 service 의 모니터링 지표를 이용하여 특정 정적 임계 값 이상 발생시 알림을 보내거나 자동 인스턴스 재부팅 , 종료 , 중지 등의 작업을 설정 할 수 있다.

aws에서 제공하는 경보 설정 Docs

Example

💡 test-service 에서 발생한 cpu 과다사용으로 인한 서버 다운 현상에 대한 사전 방지 대책

CPU 사용량

35% (주의)

95% (위험)

수신 주제 생성 편집 ( Simple Notificaton Service ) / Amazon SNS

1차 경보 : CPU 사용량이 35% 이상으로 올라갈시 주의 메일 발송

  • 근거
    • CPU 사용량 1개월~3개월 로그를 살펴 봤을때 어드민에서 작은 이슈가 발생하는 시기의 사용량이 30% 넘어가는 지표를 보임
    • 5% 의 사용량 여유를 더 두고 35% 이상으로 기준을 잡음

2차 경보 : CPU 사용량이 95% 이상으로 올라갈시 위험 메일 발송과 인스턴스 재부팅 진행

  • 근거
    • 자동 인스턴스 재부팅 이라는 작업이 필요한 부분이기 때문에 사용량 95% 이상으로 위험 기준을 잡음
    • 22.12.06 에 발생한 서버 컴퓨터 먹통 시간대의 CPU 사용량 로그 확인시 최대 99.8% 의 사용량을 보임
      이후 약 2 시간 가량 70% 에서 80% 대로 사용량 유지 , 이후 인스턴스 재부팅 전 6~70% 에서 모든 작업이 마비 되는 현상 발생

위의 예시가 정답은 아닙니다. 임의의 정적 임계값으로 경보를 설정한 것이고 AWS에서 제공하는 다른 방법 역시 존재합니다.

반응형