반응형
AWS CloudWatch 에서 service 의 모니터링 지표를 이용하여 특정 정적 임계 값 이상 발생시 알림을 보내거나 자동 인스턴스 재부팅 , 종료 , 중지 등의 작업을 설정 할 수 있다.
aws에서 제공하는 경보 설정 Docs
Example
💡 test-service 에서 발생한 cpu 과다사용으로 인한 서버 다운 현상에 대한 사전 방지 대책
CPU 사용량
35% (주의)
95% (위험)
수신 주제 생성 편집 ( Simple Notificaton Service ) / Amazon SNS
1차 경보 : CPU 사용량이 35% 이상으로 올라갈시 주의 메일 발송
- 근거
- CPU 사용량 1개월~3개월 로그를 살펴 봤을때 어드민에서 작은 이슈가 발생하는 시기의 사용량이 30% 넘어가는 지표를 보임
- 5% 의 사용량 여유를 더 두고 35% 이상으로 기준을 잡음
2차 경보 : CPU 사용량이 95% 이상으로 올라갈시 위험 메일 발송과 인스턴스 재부팅 진행
- 근거
- 자동 인스턴스 재부팅 이라는 작업이 필요한 부분이기 때문에 사용량 95% 이상으로 위험 기준을 잡음
- 22.12.06 에 발생한 서버 컴퓨터 먹통 시간대의 CPU 사용량 로그 확인시 최대 99.8% 의 사용량을 보임
이후 약 2 시간 가량 70% 에서 80% 대로 사용량 유지 , 이후 인스턴스 재부팅 전 6~70% 에서 모든 작업이 마비 되는 현상 발생
위의 예시가 정답은 아닙니다. 임의의 정적 임계값으로 경보를 설정한 것이고 AWS에서 제공하는 다른 방법 역시 존재합니다.
반응형
'Infra' 카테고리의 다른 글
도커 컨테이너에서 호스트 파일 접근 권한 문제 (docker uid) (1) | 2023.09.15 |
---|---|
[AWS] AWS EC2 스토리지 용량 확장 (0) | 2022.12.29 |