이슈 사항 : pod 내부에서  aws 리소스 (rds.amazon.com)및  외부 서비스 (ex. www.naver.com) timeout 발생

 

 

히스토리:

1. 특정 큰 이벤트 중 발생 (많은 세션 발생)

2. 이벤트에 사용하지 않는 pod에서도 이슈 발생

 

 

원인 추정:

1번 이벤트 중 외부로 나가는 세션이 nat를 타고 나가고 외부 도메인, 내부 리소스 도메인 쿼리를 많이 보내서 coredns에 부하가 있는 것으로 추정 

 

2번 nat 리소스 제한이 걸렸다. (X)

 

조치 : 

1. coredns sale up, out 진행

2. dns configmap  log 설정 (추후 로깅 서비스 추가 필요 elk?)

 

참고 :

coredns 로그 설정 켜기 (다른 로깅 서비스 연결 필요)

----------------
kind: ConfigMap
apiVersion: v1
data:
  Corefile: |
    .:53 {
        log                  # Enabling CoreDNS Logging
        errors
        health
        ...
----------------

로그 확인 및 저장 (임시 테스트)

 

kubectl logs --follow -n kube-system --selector 'k8s-app=kube-dns' --timestamps --since-time "$(date -u +'%Y-%m-%dT%H:%M:%S.%N%:z' --date='-1 hour')" >>  ./corednsyyyymmdd.txt  

 

 

알 수 없는 정보 :

1. fargate node? pod? 리소스 제한 (네트워크 대역폭, i/o 속도) 해당 정보는 aws 서포트팀에서 오픈을 할 수 없다고 합니다.

 

2. coredns 모니터링에서는 cpu, 메모리 이슈는 없었습니다. (어디서 부하가 있었는지 확인이 어렵습니다.)

 

 

fargate 보다는 worker node 사용이 안정적 일 것 같습니다..

 

 

다양한 래퍼런스도 많고......

 

+ Recent posts