[AI] AI Agent를 활용한 EKS 애플리케이션 및 인프라 트러블슈팅

티스토리 뷰

IT/AI

[AI] AI Agent를 활용한 EKS 애플리케이션 및 인프라 트러블슈팅

Hayley Shim 2025. 10. 24. 16:57

안녕하세요, AWS AI Agent를 활용한 EKS 애플리케이션 및 인프라 트러블슈팅 워크샵을 통해 이해한 내용을 정리했습니다.

Troubleshoot EKS Application and Infrastructure Problems Using AI Agent

This workshop is designed to develop comprehensive observability agent for EKS environments. Participants will first configure Prometheus, Loki and Tempo with ADOT to collect telemetry data from EKS cluster. Then, they will use Strands Agents to set up an

catalog.us-east-1.prod.workshops.aws

[목적] AI Agent를 활용하여 EKS 트러블슈팅을 손쉽게 진행하기 위함

[구성도]

1. 환경 설정

- EKS 옵저버빌리티를 위한 기본 인프라와 텔레메트리 수집 환경 준비

EKS 클러스터 (v1.32, Auto Mode 활성화)
Prometheus (EKS 클러스터 내 Helm 배포)
Grafana (EKS 클러스터 내 Helm 배포, LoadBalancer 서비스)
Loki (분산 배포, S3 백엔드, ALB 인그레스)
Tempo (분산 배포, S3 백엔드, ALB 인그레스)
ADOT 애드온 (EKS 클러스터에 설치)
VS Code Server 인스턴스 (개발 환경)
필요한 IAM 역할, 정책, Pod Identity Association

2. 실제 장애 감지/자동복구 테스트에 사용할 데모 애플리케이션과 MCP 서버를 배포/구축

AI 기반 옵저버빌리티 어시스턴트가 분석할 수 있는 현실적인 텔레메트리 데이터를 생성하는 데모 애플리케이션을 배포하고, MCP(Model Context Protocol) 서버를 설정하여 AI 에이전트가 옵저버빌리티 데이터 소스에 액세스 설정

MCP(Model Context Protocol)

- MCP는 AI 애플리케이션(예: Claude, ChatGPT 등)과 외부 시스템(파일, 데이터베이스, 툴, 워크플로우 등)을 연결해주는 오픈 표준 프로토콜

MCP는 클라이언트-서버 아키텍처를 따름

Host: AI 애플리케이션이 돌아가는 환경.
Client: 호스트와 통신하는 MCP 규격을 구현한 인터페이스.
Server: 외부 시스템(데이터베이스, 파일시스템, API 등)을 MCP 규격으로 노출하는 구성요소

3. AI 옵저버빌리티 어시스턴트

- AI 옵저버빌리티 어시스턴트를 통해 복잡한 쿼리 언어를 배우지 않고도 자연어로 시스템을 분석하고 문제를 해결

Bedrock

- Amazon Bedrock은 AI21 Labs, Anthropic, Cohere, Meta, Stability AI, Amazon 등 선도적인 AI 회사의 고성능 Foundation Model을 단일 API를 통해 사용할 수 있게 해주는 완전 관리형 서비스

Bedrock 주요 기능

다양한 Foundation Model: Claude, Llama, Titan 등 여러 모델 제공
서버리스 경험: 인프라 관리 없이 AI 모델 사용
보안 및 프라이버시: 데이터는 AWS 계정 내에서만 처리
커스터마이징: Fine-tuning 및 RAG(Retrieval Augmented Generation) 지원

옵저버빌리티 어시스턴트 사용 모델

모델 ID: anthropic.claude-sonnet-4-20250514-v1:0
특징: 뛰어난 추론 능력, 긴 컨텍스트 지원, 한국어 지원
용도: 옵저버빌리티 데이터 분석, 문제 진단, 해결책 제안

MCP 서버 라우팅 테스트

- MCP 서버가 AI 모델(또는 MCP 클라이언트/Host) 로부터 정확하게 탐색되고 → 연결되고 → 요청을 받고 → 응답을 되돌려줄 수 있는지 확인하는 테스트

추가 고려사항

AI Agent → MCP 서버 → Observability Stack 연결 구조에 대한 보안 고려

IAM 인증 방식 명확화
- Bedrock 에이전트가 MCP 서버로 접근할 때 → SigV4 인증 or IAM Role for Service Account(IRSA) 사용 여부 정의 필요
Internal only or 외부 노출 여부
- Grafana / Loki / Tempo 등은 기본적으로 Public Exposure 금지
- MCP 서버는 보통 포트 보호 / Private Endpoint or Service Connect 구조 추천
실제 운영하려면 반드시 RBAC + TLS 보호 필수

'IT > AI' 카테고리의 다른 글

[완독 챌린지] 5주차 - AI 엔지니어링 (1)	2025.12.14
[완독 챌린지] 4주차 - AI 엔지니어링 (1)	2025.12.07
[완독 챌린지] 3주차 - AI 엔지니어링 (0)	2025.11.29
[완독 챌린지] 2주차 - AI 엔지니어링 (0)	2025.11.23
[완독 챌린지] 1주차 - AI 엔지니어링 (0)	2025.11.16

공지사항

광고 수익은 기부 활동에 사용됩니다:)

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

글 보관함

create value with tech, not tool

티스토리 뷰

[AI] AI Agent를 활용한 EKS 애플리케이션 및 인프라 트러블슈팅

'IT > AI' 카테고리의 다른 글

티스토리툴바