[AI] 데이터 기반 사이징 및 모델 서빙 인프라 최적화

# 스프린트 백로그

## 목표
V2 AI 모델 서버 구축을 위한 데이터 기반 사이징 및 인프라 최적


## 배경 / 맥락
현재 V2 모델 도입을 위해 L4(24GB)와 A40(48GB) 사이의 하드웨어 선택 필요
막연한 추측이 아닌 **LangSmith 데이터(Token 사용량)**를 기반으로 한 실질적인 VRAM 산정이 필요함.
vLLM 엔진의 효율적인 메모리 점유(gpu_memory_utilization)와 STT 구성 방식(내장 vs Serverless)을 확정하여 아키텍처를 구조화해야 함.


## 작업 범위