Skip to content

[AI] 데이터 기반 사이징 및 모델 서빙 인프라 최적화 #89

@Kim-Yoon

Description

@Kim-Yoon

스프린트 백로그

목표

V2 AI 모델 서버 구축을 위한 데이터 기반 사이징 및 인프라 최적

배경 / 맥락

현재 V2 모델 도입을 위해 L4(24GB)와 A40(48GB) 사이의 하드웨어 선택 필요
막연한 추측이 아닌 **LangSmith 데이터(Token 사용량)**를 기반으로 한 실질적인 VRAM 산정이 필요함.
vLLM 엔진의 효율적인 메모리 점유(gpu_memory_utilization)와 STT 구성 방식(내장 vs Serverless)을 확정하여 아키텍처를 구조화해야 함.

작업 범위

Sub-issues

Metadata

Metadata

Assignees

Labels

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions