티스토리 뷰
안녕하세요, AI 엔지니어링을 학습하기 위해 인프런 AI 엔지니어링 완독챌린지에 참여하며 주차별 이해한 내용을 기록합니다.
5주차 독후감
9장과 10장을 통해 AI 모델을 실제 사용자에게 가치 있게 전달하는 과정의 복잡성과 중요성을 이해하게 되었습니다. 단순히 모델을 학습시키는 것을 넘어, 추론 최적화를 통해 모델의 지연 시간과 처리량이라는 사용자 경험의 핵심 요소를 개선하는 기술들은 현실적인 AI 서비스 운영의 필수 요소라는 것을 알게되었습니다. 특히 양자화, 프루닝 같은 모델 최적화 기법들은 제한된 자원에서 최대 효율을 끌어내는 AI 엔지니어의 핵심 역량임을 알게되었습니다.
10장에서 다룬 AI 엔지니어링 아키텍처는 안정적이고 고도화된 서비스 구축을 위해 필수적이라 생각하게되었고 마침 AI 아키텍처에 대해 파악할 수 있는 업무를 하게되어 더욱 와닿았습니다. RAG를 통한 컨텍스트 보강이나 가드레일 도입은 AI의 유용성과 안전성을 동시에 확보하는 전략이고 모델 라우터나 캐싱 전략은 서비스 확장성과 비용 효율성을 고려한 설계의 중요성을 강조했습니다. 마지막으로 사용자 피드백을 지속적으로 수집하고 이를 모델 개선에 활용하는 MLOps의 순환 구조는 AI 엔지니어링이 일회성 개발이 아닌 끊임없는 개선의 과정임을 보여주었습니다.
이 두 장은 AI 서비스의 '운영' 측면에 초점을 맞추어 이론과 현실 사이의 간극을 메워주는 실무적인 지식을 익힐 수 있었습니다.
9장. 추론 최적화
9장은 AI 모델을 실제 서비스에 배포할 때 성능과 효율성을 높이는 추론 최적화 기법에 대해 다룹니다.
- 9.1 추론 최적화 이해하기:
- 추론 개요: 학습된 모델을 이용해 새로운 데이터에 대한 예측(결과)을 생성하는 과정입니다.
- 추론 성능 지표: 주요 지표로는 모델이 결과를 내는 데 걸리는 시간인 지연 시간(Latency), 단위 시간당 처리할 수 있는 요청 수인 처리량(Throughput), 그리고 비용 효율성이 있습니다.
- AI 가속기: CPU의 한계를 극복하고 추론 속도를 높이기 위해 GPU, NPU, ASIC 등 전용 하드웨어를 활용합니다.
- 9.2 추론 최적화:
- 모델 최적화: 모델 자체의 크기를 줄이고 계산 효율을 높이는 기법입니다.
- 양자화(Quantization): 모델의 가중치와 활성화 값을 낮은 비트(예: 32비트 $\to$ 8비트)로 줄여 메모리 사용량과 계산 속도를 개선합니다.
- 가지치기(Pruning): 모델의 성능에 미치는 영향이 적은 가중치 연결을 제거해 모델을 희소하게 만듭니다.
- 지식 증류(Knowledge Distillation): 크고 복잡한 교사 모델의 지식을 작고 빠른 학생 모델에게 전수합니다.
- 추론 서비스 최적화: 모델을 서빙하는 환경과 방법을 최적화합니다.
- 모델 서빙 프레임워크 활용: Triton Inference Server, TorchServe 등을 사용해 효율적인 모델 배포 및 관리를 수행합니다.
- 배치 처리(Batching): 여러 요청을 묶어서 한 번에 처리해 GPU 활용률을 높여 처리량을 개선합니다.
- 모델 최적화: 모델 자체의 크기를 줄이고 계산 효율을 높이는 기법입니다.
10장. AI 엔지니어링 아키텍처와 사용자 피드백
10장은 안정적이고 확장 가능한 AI 서비스 아키텍처를 설계하고 사용자 피드백을 수집하여 모델을 개선하는 순환 구조에 대해 다룹니다.
- 10.1 AI 엔지니어링 아키텍처:
- 컨텍스트 보강(Context Augmentation): RAG(Retrieval-Augmented Generation)와 같이 외부 정보를 활용해 AI 모델의 답변 정확도와 최신성을 높입니다.
- 가드레일(Guardrails): 모델의 부적절하거나 유해한 답변을 사전에 차단하는 안전장치 및 필터를 도입합니다.
- 모델 라우터와 게이트웨이: 여러 모델 중 상황에 맞는 최적의 모델을 선택하거나(라우터), 모든 요청의 진입점을 일원화합니다(게이트웨이).
- 캐시(Cache): 동일한 요청의 결과를 저장해두었다가 재활용하여 지연 시간을 줄입니다.
- 에이전트 패턴: 복잡한 작업을 AI가 여러 도구를 활용하여 단계적으로 해결하도록 설계합니다.
- 모니터링과 관찰 가능성(Observability): 서비스의 성능 지표, 오류, 모델 드리프트 등을 지속적으로 관찰하고 문제를 진단합니다.
- AI 파이프라인과 오케스트레이션: 학습부터 배포, 모니터링까지 전 과정을 자동화하고 관리합니다(MLOps).
- 10.2 사용자 피드백:
- 대화형 피드백 추출: 사용자의 만족도나 답변의 정확성에 대한 명시적/암묵적 피드백을 수집합니다.
- 피드백 설계: 효과적인 모델 개선을 위해 피드백의 유형, 수집 방식, 저장 형태 등을 구조화합니다.
- 피드백의 한계: 수집된 피드백이 실제 사용자의 의도를 완전히 반영하지 못할 수 있고, 악의적인 피드백이나 편향성을 가질 수 있다는 점을 인지해야 합니다.
'IT > AI' 카테고리의 다른 글
| [완독 챌린지] 4주차 - AI 엔지니어링 (1) | 2025.12.07 |
|---|---|
| [완독 챌린지] 3주차 - AI 엔지니어링 (0) | 2025.11.29 |
| [완독 챌린지] 2주차 - AI 엔지니어링 (0) | 2025.11.23 |
| [완독 챌린지] 1주차 - AI 엔지니어링 (0) | 2025.11.16 |
| [AI] AI Agent를 활용한 EKS 애플리케이션 및 인프라 트러블슈팅 (0) | 2025.10.24 |
- Total
- Today
- Yesterday
- ai 엔지니어링
- AI Engineering
- GKE
- SDWAN
- k8s calico
- EKS
- k8s
- GCP
- AI
- security
- CICD
- 혼공단
- VPN
- NW
- 파이썬
- 도서
- S3
- cni
- terraform
- k8s cni
- PYTHON
- AWS
- autoscaling
- NFT
- IaC
- 혼공챌린지
- handson
- cloud
- operator
- 혼공파
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |