ex) recieve_server_check_mail_list support_cloudoc@net-id.co.kr
(여러 개의 수신 메일을 설정 시에는 tab으로 구분하여 등록)
확인 항목 |
확인 내용 |
설정 및 기본 기준 값 |
비정상 판단 기준 |
Apache |
서비스 정상 여부 |
- 설정된 Apache 포트와 통신 확인 - pdrive.conf의 file_http_port에 설정된 Apache 포트로 통신 (기본 80) |
Apache 포트(기본80)로 응답 유무 체크하여 무응답 및 오류가 발생할 경우 |
Thread, CPU, RAM 사용량 |
- Apache 서비스 체크 Thread 기준값 check_value_apache_thread 500 - Apache 서비스 체크 CPU 기준값 check_value_apache_cpu 100 - Apache 서비스 체크 Memory 기준값 check_value_apache_memory 20480 |
Thread, CPU, RAM 사용량이 서버 설정 값을 초과할 경우 | |
Tomcat |
서비스 정상 여부 |
- 설정된 Tomcat 포트와 통신 확인 - monitoring.conf의 tomcat_port에 설정된 Tomcat 포트로 통신 (기본 8085) |
Tomcat 포트(기본8085)로 응답 유무 체크하여 무응답 및 오류가 발생할 경우 |
Thread, CPU, RAM 사용량 |
- Tomcat 서비스 체크 Thread 기준값 check_value_tomcat_thread 500 - Tomcat 서비스 체크 CPU 기준값 check_value_tomcat_cpu 70 - Tomcat 서비스 체크 Memory 기준값 check_value_tomcat_memory 10240 |
Thread, CPU, RAM 사용량이 서버 설정 값을 초과할 경우 | |
Mod_jk |
netstat 상태 확인 |
- mod_jk 체크 Timewait 기준값 check_value_modjk_timewait 300 - mod_jk 체크 Closewait 기준값 check_value_modjk_closewait 200 - mod_jk 체크 Established 기준값 check_value_modjk_established 600 |
netstat 에서 8009 포트의 TIME_WAIT, CLOSE_WAIT, ESTABLISHED 항목의 수가 서버 설정 값을 초과할 경우 |
Database |
클라우독 DB 확인 |
pdrive.conf, pdrive_log.conf의 아래 내용에 기입된 정보로 DB연결 확인 # DB 서버 IP database_server # DB 접속계정 database_user # DB password database_password # DB name database_dbname # DB 종류 database_type # DB Port database_port |
클라우독 DB에 연결을 시도하여 연결이 되지 않을 경우 |
인사연동 DB 확인 |
조직도 연동 진행 시 사용 group.conf에 기입된 정보로 DB 연결 확인 # DB 서버 IP orgchart_server # DB Port orgchart_server_port # DB 접속계정 orgchart_server_user # DB password orgchart_server_password # DB name orgchart_server_dbname # DB 종류 orgchart_server_dbtype
로그인 연동 진행 시 사용 custom_login.conf에 기입된 정보로 DB 연결 확인 # DB 서버 IP login_server # DB Port login_port # DB 접속계정 login_db_user # DB password login_db_pass # DB name login_db_name # DB 종류 login_db_type |
인사연동 DB에 연결을 시도하여 연결이 되지 않을 경우 | |
OS |
CPU, Memory, Disk 사용량 |
- 디스크 사용률(%) 기준값 check_value_hdd 95 - 전체 CPU 사용률(%) 기준값 check_value_cpu 100 - 전체 Memory 사용률(%) 기준값 check_value_ram 99 - 전체 Swap 사용률(%) 기준값 check_value_swap 90 |
CPU, Memory, Disk 사용량이 서버 설정 값을 초과할 경우 |
netstat 상태 확인 |
- 통신 상태 체크 Closewait 기준값 check_value_closewait 1000 - 통신 상태 체크 Timewait 기준값 check_value_timewait 5000 |
netstat 에서 전체 TIME_WAIT, CLOSE_WAIT 항목의 수가 서버 설정 값을 초과할 경우 |
Apache 서비스가 응답을 하지 않거나 서비스가 종료되어 응답할 수 없는 경우일 수 있습니다.
응답 없음의 예상되는 원인 1. 요청 처리 지연으로
Apache Thread가 Full이되어 더 이상 응답을
받을 수 없을 경우 2. Apache의 서버엔진 모듈의 오류로 강제 종료되는 경우 |
Apache 요청 처리가 지연되는 경우 또는 요청이 많을 경우, 임계치보다 높아질 수 있습니다.
요청 처리 지연의 예상되는 원인 1. 서버의 CPU, 메모리, 디스크 및 네트워크 대역폭에 영향을 받을 경우
지연됨 2. 웹 응용 프로그램이
처리하는 작업, 데이터베이스 연결 및 처리, 파일 업로드
등이 지연될 경우 3. 인터넷 연결의 문제, 대량의 요청, DDoS 공격 등이 지연을 유발함 |
원인 분석 시 참고:
Apache CPU 사용률이 임계치보다 증가하는 경우 Apache 서비스 확인이 필요합니다.
Apache CPU
증가의 원인 1. 트래픽 증가로 인해 처리해야
하는 요청이 증가 2. 무한루프로 인해 불필요한 작업이
계속 실행되는 경우 3. 서버 메모리 부족하여
서버 성능 저하될 경우 4. 서버 악성코드 감염 |
Apache 메모리 사용률이 임계치보다 증가하는 경우 Apache 서비스 확인이 필요합니다.
Apache 메모리 증가의 원인 1. 트래픽 증가로 인해 처리해야
하는 요청이 증가 2. 무한루프로 인해 불필요한
작업이 계속 실행되는 경우 3. 메모리 누수 |
Tomcat 서비스 이상 또는 네트워크 장애로 인해 통신 안될 경우 응답할 수 없는 경우일 수 있습니다.
응답 없음의 예상되는 원인 1. 메모리 부족으로 인해
서비스 종료된 경우 2. 요청이 많아져서 Thread 부족한 경우 3. 방화벽 또는 네트워크
장애로 인해 통신이 안될 경우 |
원인 분석 시 참고:
1. 요청 처리량의 증가하여 처리해야 할 요청이 증가됨 2. DB와 같은 외부 자원에서 응답
지연되어 Thread가 대기하고 있어 증가됨 |
원인 분석 시 참고:
Tomcat의 CPU 사용률이 임계치보다 증가하는 경우 Tomcat 서비스 확인이 필요합니다.
Tomcat CPU
증가의 원인 1. Tomcat이 처리하는 요청 증가 2. Thread 부족하여 요청 처리가 대기하면서
증가 3. 메모리 부족으로 인하여 GC 발생으로 인한 증가 |
Tomcat의 메모리 사용률이 임계치보다 증가하는 경우 Tomcat 서비스 확인이 필요합니다.
Tomcat 메모리 증가의 원인 1. Tomcat이 처리하는 요청 증가 2. 메모리 누수 |
TIME_WAIT 상태는 TCP 연결이 정상적으로 종료된 후 소켓이 대기(약 60초)하는 동안에는 클라이언트와 서버 간의 연결이 유지되는데, 이를 TIME_WAIT 상태라고 합니다.
TIME_WAIT
증가의 원인 1. 요청이 많은 경우 증가할
수 있음 2. 네트워크 환경이 불안정하여, 패킷 손실이나 지연으로 인해 소켓 연결이 즉시 닫히지 않을 경우 발생 3. Tomcat, Apache 서비스의 장애로 인한 영향 4. 서버의 리소스가 부족으로
인해 발생 5. 기타 네트워크 구성이나 방화벽으로 인한 문제로 소켓 연결이 종료되지 않는 문제 |
CLOSE_WAIT 증가의 원인 1. 요청이 많은 경우 증가할
수 있음 2. 네트워크 오류나 리소스
부족 등으로 인해 소켓이 닫히지 않을 경우 발생 3. Apache에서 요청을 처리하지 못할 경우, 연결이 종료되지 않아 발생 4. Tomcat에서 오랫동안 활성화되어 있는 연결로 인해 발생 5. 기타 네트워크 구성이나 방화벽으로 인한 문제로 소켓 연결이 종료되지 않는 문제 |
ESTABLISHED
증가의 원인 1. 클라이언트 요청이 많아져
Apache – Tomcat 간 연결 증가 2. 애플리케이션 서버에서
응답이 지연되는 경우 3. 네트워크 지연에 따른 증가 |
당사는 MySQL만 장애 발생시 지원가능 합니다.
MySQL 연결 비정상의 원인 1. 잘못된 계정 정보
2. 잘못된 호스트 & 포트 정보
3. MySQL 서비스가 중지되었을 경우
4. 방화벽 또는 네트워크
문제
5. MySQL 사용자 권한 설정 문제
6. 동시 접속자 수 초과되었을
경우
7. MySQL 구성 파일의 문제인 경우
8. 데이터 저장 공간 부족이 문제인 경우 |
원인 분석 시 참고:
전체 netstat에 대해 모니터링하여 남긴 로그입니다. 각 항목이 임계치보다 높은 경우 서버 확인이 필요합니다.
TIME_WAIT 상태는 TCP 연결이 정상적으로 종료된 후 소켓이 대기(약 60초)하는 동안에는 클라이언트와 서버 간의 연결이 유지되는데, 이를 TIME_WAIT 상태라고 합니다.
TIME_WAIT 증가의 원인 1. 연결 요청이 빈번한
경우 2. 종료 명령을 받지 못하는
등의 원인으로 클라이언트에서 연결 종료가 지연될 경우 3. DDoS 공격으로 인해 증가 |
원인 분석 시 참고:
CLOSE_WAIT 상태는 네트워크 소켓이 닫힐 때까지 대기하는 TCP 상태입니다. 이 상태는 일반적으로 소켓을 닫은 측과 수신 측 간의 연결 종료 프로토콜 과정 중 하나가 완료되지 않은 경우 발생할 수 있습니다.
CLOSE_WAIT 증가의 원인 1. 클라이언트에서 소켓을
제대로 닫지 않은 경우 2. 서버에서 FIN 패킷을 제대로 처리하지 못한 경우 3. 네트워크 장비나 방화벽 등에 의해 연결이 종료되지 않은 경우 |
원인 분석 시 참고: