NVIDIA · yhtang · Dec 5, 2025 · Dec 5, 2025 · Dec 5, 2025 · Dec 5, 2025
diff --git a/jax-inference-offloading/jax_inference_offloading/api/param_mapping.proto b/jax-inference-offloading/jax_inference_offloading/api/param_mapping.proto
@@ -28,7 +28,7 @@ message VllmParam {
   }
 
   optional TpSharding tp_sharding = 3;
-  optional string dtype = 4;
+  optional string dtype = 4 [default = 'bfloat16'];
 }
 
 message TensorSlice {
@@ -82,4 +82,4 @@ message ParamMapping {
 
 message TpModelMappingSpecs {
   repeated ParamMapping mappings = 1;
-}
+}
diff --git a/jax-inference-offloading/jax_inference_offloading/vllm/extension.py b/jax-inference-offloading/jax_inference_offloading/vllm/extension.py
@@ -181,7 +181,7 @@ def update_weights(self, mapping_specs: TpModelMappingSpecs):
 
         logger.debug(f'vLLM TP rank {tp_rank} receiving {param.vllm_param.name} ...')
         weight = self.transport.gather(
-          shape, param.vllm_param.dtype or 'bfloat16',
+          shape, param.vllm_param.dtype,
           sharding_specs.aux_dim, sharding_specs.aux_parallelism
         )
         logger.debug(f'vLLM TP rank {tp_rank} received {param.vllm_param.name} shape {weight.shape}')
@@ -200,7 +200,7 @@ def update_weights(self, mapping_specs: TpModelMappingSpecs):
 
         logger.debug(f"vLLM expecting: {param.vllm_param.name} shape {shape.tolist()} raw specs {param}")
 
-        weight = self.transport.recv(shape, param.vllm_param.dtype or 'bfloat16')
+        weight = self.transport.recv(shape, param.vllm_param.dtype)
         self._staged_weights.append((param.vllm_param.name, weight))
 
         # TODO: make it optional
@@ -229,7 +229,7 @@ def update_weights_grouped(self, mapping_specs: TpModelMappingSpecs):
 
         param_specs.append((
           shape,
-          param.vllm_param.dtype or 'bfloat16',
+          param.vllm_param.dtype,
           sharding_specs.aux_dim,
           sharding_specs.aux_parallelism
         ))
@@ -258,7 +258,7 @@ def update_weights_grouped(self, mapping_specs: TpModelMappingSpecs):
         if sharding_specs.parallelism > 0:
           shape[sharding_specs.dim] //= sharding_specs.parallelism
 
-        param_specs.append((shape, param.vllm_param.dtype or 'bfloat16'))
+        param_specs.append((shape, param.vllm_param.dtype))
         param_names.append(param.vllm_param.name)
 
       # Receive all weights in one grouped operation