fargate + eks 네트워크 이슈

roki_1213 2023. 3. 6. 22:52

2023. 3. 6. 22:52

이슈 사항 : pod 내부에서 aws 리소스 (rds.amazon.com)및 외부 서비스 (ex. www.naver.com) timeout 발생

히스토리:

1. 특정 큰 이벤트 중 발생 (많은 세션 발생)

2. 이벤트에 사용하지 않는 pod에서도 이슈 발생

원인 추정:

1번 이벤트 중 외부로 나가는 세션이 nat를 타고 나가고 외부 도메인, 내부 리소스 도메인 쿼리를 많이 보내서 coredns에 부하가 있는 것으로 추정

2번 nat 리소스 제한이 걸렸다. (X)

조치 :

1. coredns sale up, out 진행

2. dns configmap log 설정 (추후 로깅 서비스 추가 필요 elk?)

참고 :

coredns 로그 설정 켜기 (다른 로깅 서비스 연결 필요)

----------------
kind: ConfigMap
apiVersion: v1
data:
  Corefile: |
    .:53 {
        log                  # Enabling CoreDNS Logging
        errors
        health
        ...
----------------

로그 확인 및 저장 (임시 테스트)

kubectl logs --follow -n kube-system --selector 'k8s-app=kube-dns' --timestamps --since-time "$(date -u +'%Y-%m-%dT%H:%M:%S.%N%:z' --date='-1 hour')" >> ./corednsyyyymmdd.txt

알 수 없는 정보 :

1. fargate node? pod? 리소스 제한 (네트워크 대역폭, i/o 속도) 해당 정보는 aws 서포트팀에서 오픈을 할 수 없다고 합니다.

2. coredns 모니터링에서는 cpu, 메모리 이슈는 없었습니다. (어디서 부하가 있었는지 확인이 어렵습니다.)

fargate 보다는 worker node 사용이 안정적 일 것 같습니다..

다양한 래퍼런스도 많고......

'AWS > EKS' 카테고리의 다른 글

무중단 배포 (EKS) (0)	2024.07.07
프로메테우스 EC2 자동? 메트릭 수집 (Node exporter) (0)	2024.01.09
alb aws-load-balancer-controller error (1)	2023.11.21
EKS 업데이트 참고하면 좋은 tool (0)	2023.09.19
eks worknode 서브넷 그룹 변경 (비용) (2)	2023.08.12

roki_1213

fargate + eks 네트워크 이슈

'AWS > EKS' 카테고리의 다른 글

+ Recent posts

티스토리툴바