이슈 사항 : pod 내부에서 aws 리소스 (rds.amazon.com)및 외부 서비스 (ex. www.naver.com) timeout 발생
히스토리:
1. 특정 큰 이벤트 중 발생 (많은 세션 발생)
2. 이벤트에 사용하지 않는 pod에서도 이슈 발생
원인 추정:
1번 이벤트 중 외부로 나가는 세션이 nat를 타고 나가고 외부 도메인, 내부 리소스 도메인 쿼리를 많이 보내서 coredns에 부하가 있는 것으로 추정
2번 nat 리소스 제한이 걸렸다. (X)
조치 :
1. coredns sale up, out 진행
2. dns configmap log 설정 (추후 로깅 서비스 추가 필요 elk?)
참고 :
coredns 로그 설정 켜기 (다른 로깅 서비스 연결 필요)
----------------
kind: ConfigMap
apiVersion: v1
data:
Corefile: |
.:53 {
log # Enabling CoreDNS Logging
errors
health
...
----------------
로그 확인 및 저장 (임시 테스트)
kubectl logs --follow -n kube-system --selector 'k8s-app=kube-dns' --timestamps --since-time "$(date -u +'%Y-%m-%dT%H:%M:%S.%N%:z' --date='-1 hour')" >> ./corednsyyyymmdd.txt
알 수 없는 정보 :
1. fargate node? pod? 리소스 제한 (네트워크 대역폭, i/o 속도) 해당 정보는 aws 서포트팀에서 오픈을 할 수 없다고 합니다.
2. coredns 모니터링에서는 cpu, 메모리 이슈는 없었습니다. (어디서 부하가 있었는지 확인이 어렵습니다.)
fargate 보다는 worker node 사용이 안정적 일 것 같습니다..
다양한 래퍼런스도 많고......
'AWS > EKS' 카테고리의 다른 글
무중단 배포 (EKS) (0) | 2024.07.07 |
---|---|
프로메테우스 EC2 자동? 메트릭 수집 (Node exporter) (0) | 2024.01.09 |
alb aws-load-balancer-controller error (1) | 2023.11.21 |
EKS 업데이트 참고하면 좋은 tool (0) | 2023.09.19 |
eks worknode 서브넷 그룹 변경 (비용) (2) | 2023.08.12 |