llm-d-modelservice/examples/output-pd.yaml at main · llm-d-incubation/llm-d-modelservice · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
# generated by generate-example-output.sh
---
# Source: llm-d-modelservice/templates/serviceaccount.yaml
apiVersion: v1
kind: ServiceAccount
metadata:
  name: pd-llm-d-modelservice
  labels:
    helm.sh/chart: llm-d-modelservice-v0.4.15
    app.kubernetes.io/version: "v0.4.0"
    app.kubernetes.io/managed-by: Helm
---
# Source: llm-d-modelservice/templates/decode-deployment.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
  name: pd-llm-d-modelservice-decode
  labels:
    helm.sh/chart: llm-d-modelservice-v0.4.15
    app.kubernetes.io/version: "v0.4.0"
    app.kubernetes.io/managed-by: Helm
spec:
  replicas: 1
  selector:
    matchLabels:
      llm-d.ai/inference-serving: "true"
      llm-d.ai/model: facebook-opt-125m
      llm-d.ai/role: decode
  template:
    metadata:
      labels:
        llm-d.ai/inference-serving: "true"
        llm-d.ai/model: facebook-opt-125m
        llm-d.ai/role: decode
    spec:
      initContainers:
        - name: routing-proxy
          args:
            - --port=8000
            - --vllm-port=8200
            - --connector=nixlv2
            - --zap-encoder=json
            - --zap-log-level=debug
            - --secure-proxy=false
          image: ghcr.io/llm-d/llm-d-routing-sidecar:latest
          imagePullPolicy: Always
          ports:
            - containerPort: 8000
          resources: {}
          restartPolicy: Always
          securityContext:
            allowPrivilegeEscalation: false
            runAsNonRoot: true

      serviceAccountName: pd-llm-d-modelservice

      volumes:
        - emptyDir: {}
          name: metrics-volume

        - name: model-storage
          emptyDir:
            sizeLimit: 20Gi


      containers:
        - name: vllm
          image: ghcr.io/llm-d/llm-d-cuda:latest

          command: ["vllm", "serve"]
          args:
            - "facebook/opt-125m"
            - --port
            - "8200"
            - --served-model-name
            - "facebook/opt-125m"


            - --enforce-eager
            - --kv-transfer-config
            - '{"kv_connector":"NixlConnector", "kv_role":"kv_both"}'
          env:
          - name: CUDA_VISIBLE_DEVICES
            value: "0"
          - name: UCX_TLS
            value: cuda_ipc,cuda_copy,tcp
          - name: VLLM_NIXL_SIDE_CHANNEL_HOST
            valueFrom:
              fieldRef:
                fieldPath: status.podIP
          - name: VLLM_NIXL_SIDE_CHANNEL_PORT
            value: "5600"
          - name: VLLM_LOGGING_LEVEL
            value: DEBUG
          - name: DP_SIZE
            value: "1"
          - name: TP_SIZE
            value: "1"
          - name: DP_SIZE_LOCAL
            value: "1"

          - name: HF_HOME
            value: /model-cache

          ports:
          - containerPort: 8200
            protocol: TCP
          - containerPort: 5600
            protocol: TCP
          resources:
            limits:
              cpu: "16"
              memory: 16Gi
              nvidia.com/gpu: "1"
            requests:
              cpu: "16"
              memory: 16Gi
              nvidia.com/gpu: "1"

          volumeMounts:
            - name: model-storage
              mountPath: /model-cache
---
# Source: llm-d-modelservice/templates/prefill-deployment.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
  name: pd-llm-d-modelservice-prefill
  labels:
    helm.sh/chart: llm-d-modelservice-v0.4.15
    app.kubernetes.io/version: "v0.4.0"
    app.kubernetes.io/managed-by: Helm
spec:
  replicas: 1
  selector:
    matchLabels:
      llm-d.ai/inference-serving: "true"
      llm-d.ai/model: facebook-opt-125m
      llm-d.ai/role: prefill
  template:
    metadata:
      labels:
        llm-d.ai/inference-serving: "true"
        llm-d.ai/model: facebook-opt-125m
        llm-d.ai/role: prefill
    spec:

      serviceAccountName: pd-llm-d-modelservice

      volumes:
        - emptyDir: {}
          name: metrics-volume

        - name: model-storage
          emptyDir:
            sizeLimit: 20Gi


      containers:
        - name: vllm
          image: ghcr.io/llm-d/llm-d-cuda:latest

          command: ["vllm", "serve"]
          args:
            - "facebook/opt-125m"
            - --port
            - "8000"
            - --served-model-name
            - "facebook/opt-125m"


            - --enforce-eager
            - --kv-transfer-config
            - '{"kv_connector":"NixlConnector", "kv_role":"kv_both"}'
          env:
          - name: CUDA_VISIBLE_DEVICES
            value: "0"
          - name: UCX_TLS
            value: cuda_ipc,cuda_copy,tcp
          - name: VLLM_NIXL_SIDE_CHANNEL_PORT
            value: "5600"
          - name: VLLM_NIXL_SIDE_CHANNEL_HOST
            valueFrom:
              fieldRef:
                fieldPath: status.podIP
          - name: VLLM_LOGGING_LEVEL
            value: DEBUG
          - name: DP_SIZE
            value: "1"
          - name: TP_SIZE
            value: "1"
          - name: DP_SIZE_LOCAL
            value: "1"

          - name: HF_HOME
            value: /model-cache

          ports:
          - containerPort: 8000
            protocol: TCP
          - containerPort: 5600
            protocol: TCP
          resources:
            limits:
              cpu: "16"
              memory: 16Gi
              nvidia.com/gpu: "1"
            requests:
              cpu: "16"
              memory: 16Gi
              nvidia.com/gpu: "1"

          volumeMounts:
            - name: model-storage
              mountPath: /model-cache