vgpu-manager: enable kernel module configuration via KernelModuleConfig #1946

shivakunv · 2025-11-29T13:30:56Z

VF-8 Ability to set vGPU host driver options
vGPU host driver options are set via nvidia.ko kernel module parameters in /etc/modprobe.d/nvidia.conf. For example:

options nvidia NVreg_RegistryDwords="RmPVMRL=value"

GPU Operator currently supports setting of kernel module parameters for NVIDIA guest drivers via a module.conf file that's passed to GPU Operator via a ConfigMap.

A similar mechanism will be used to support module parameters for the vGPU host kernel driver.

testing


# git clone https://github.com/NVIDIA/gpu-driver-container.git
# before mering of this PR: 
# git fetch -all 
# git checkout gpumanagerkernelmodulespec 
#build vgpu-manager
# copy NVIDIA-Linux-x86_64-570.124.06-vgpu-kvm.run from smb server to vgpu-manager 
export VGPU_DRIVER_VERSION="570.124.06"
export IMAGE_HOST_NAME="vgpu-manager"
export DIST=ubuntu22.04
export IMAGE_NAME=nvcr.io/ea-cnt/nv_only
#build
VGPU_HOST_DRIVER_VERSION=${VGPU_DRIVER_VERSION} IMAGE_NAME=${IMAGE_NAME}/${IMAGE_HOST_NAME} make build-vgpuhost-${DIST}
#push
VGPU_GUEST_DRIVER_VERSION=${DRIVER_VERSION} IMAGE_NAME=${IMAGE_NAME}/${IMAGE_GUEST_NAME} make push-vgpuguest-${DIST}


# on system (collossus)
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash intel_iommu=on iommu=pt"
sudo update-grub
# reboot


# Complete cleanup
kubectl delete namespace nvidia-gpu-operator --wait=true
kubectl delete secret -n nvidia-gpu-operator ngc-secret
kubectl delete namespace nvidia-gpu-operator
kubectl delete clusterrole gpu-operator
kubectl delete clusterrolebinding  gpu-operator
kubectl delete ClusterPolicy  gpu-operator
kubectl delete clusterpolicy  gpu-operator
kubectl delete clusterpolicy cluster-policy
kubectl delete clusterrole gpu-operator-node-feature-discovery
kubectl delete clusterrole gpu-operator-node-feature-discovery-gc
kubectl delete clusterrolebinding  gpu-operator-node-feature-discovery
kubectl delete clusterrolebinding  gpu-operator-node-feature-discovery-gc
kubectl delete crd -n nvidia-gpu-operator clusterpolicies.nvidia.com nvidiadrivers.nvidia.com
helm uninstall -n nvidia-gpu-operator $(helm list -n nvidia-gpu-operator -q)
kubectl delete clusterpolicy --all



export NGC_API_KEY=ngc_api_key
export REGISTRY_SECRET_NAME=ngc-secret
export PRIVATE_REGISTRY=nvcr.io/ea-cnt/nv_only
export VGPU_DRIVER_VERSION=570.124.06


# Wait 30 seconds for cleanup
sleep 30

# Recreate everything
kubectl create namespace nvidia-gpu-operator
kubectl label --overwrite namespace nvidia-gpu-operator pod-security.kubernetes.io/enforce=privileged

kubectl create secret docker-registry ${REGISTRY_SECRET_NAME} \
  --docker-server=${PRIVATE_REGISTRY} \
  --docker-username='$oauthtoken' \
  --docker-password=${NGC_API_KEY} \
  -n nvidia-gpu-operator

cat <<EOF > nvidia.conf
options nvidia NVreg_EnableGpuFirmwareLogs=1
EOF


# create params configmap
kubectl create configmap kernel-module-params \
  -n nvidia-gpu-operator \
  --from-file=nvidia.conf=./nvidia.conf

# Remove the failing vGPU config label
kubectl label node ipp1-0555 nvidia.com/vgpu.config-

# Install with vGPU Manager
helm install gpu-operator nvidia/gpu-operator \
  -n nvidia-gpu-operator \
  --set operator.repository=ghcr.io/nvidia \
  --set operator.version=280c5460 \
  --set driver.enabled=false \
  --set vgpuManager.enabled=true \
  --set vgpuManager.repository=${PRIVATE_REGISTRY} \
  --set vgpuManager.image=vgpu-manager \
  --set vgpuManager.version="${VGPU_DRIVER_VERSION}" \
  --set vgpuManager.imagePullSecrets[0]="${REGISTRY_SECRET_NAME}" \
  --set vgpuManager.kernelModuleConfig.name="kernel-module-params"




#copy nvidia.com_clusterpolicies.yaml from config/crd/bases/nvidia.com_clusterpolicies.yaml to test system 

kubectl apply -f nvidia.com_clusterpolicies.yaml

kubectl patch clusterpolicy cluster-policy --type='json' -p='[                                                                           
  {
    "op": "add",
    "path": "/spec/vgpuManager/kernelModuleConfig",
    "value": {
      "name": "kernel-module-params"
    }
  }
]'


kubectl patch clusterpolicy cluster-policy --type='merge' -p '{"spec":{"sandboxWorkloads":{"enabled":true,"defaultWorkload":"vm-vgpu"}}}'

kubectl label node ipp1-0555 nvidia.com/gpu.workload.config=vm-vgpu


cat /proc/driver/nvidia/params  | grep EnableGpuFirmwareLogs

should o/p updated value from nvidia.conf configmap

coveralls · 2025-11-29T15:15:29Z

coverage: 25.65% (+0.2%) from 25.43%
when pulling a54b7e1 on gpumanagerkernelmodulespec
into 96351fc on main.

shivakunv · 2025-12-16T17:24:45Z

PTAL:
NVIDIA/gpu-driver-container#512

controllers/object_controls.go

controllers/object_controls_test.go

deployments/gpu-operator/templates/clusterpolicy.yaml

controllers/object_controls.go

install-rhel.sh

rajathagasthya · 2026-01-26T21:56:01Z

@shivakunv Could you rebase this PR?

shivakunv · 2026-01-27T10:27:16Z

@shivakunv Could you rebase this PR?

done

cdesiniotis · 2026-01-08T23:59:14Z

controllers/object_controls.go

+		if config.VGPUManager.KernelModuleConfig != nil && config.VGPUManager.KernelModuleConfig.Name != "" {
+			// note: transformVGPUManagerContainer() will have already created a Volume backed by the ConfigMap.
+			// Only add a VolumeMount for nvidia-vgpu-manager-ctr.
+			volumeMounts, _, err := createConfigMapVolumeMounts(n, config.VGPUManager.KernelModuleConfig.Name, driversDir)
+			if err != nil {
+				return fmt.Errorf("failed to create ConfigMap VolumeMounts for vGPU manager kernel module configuration: %w", err)
+			}
+			obj.Spec.Template.Spec.Containers[i].VolumeMounts = append(obj.Spec.Template.Spec.Containers[i].VolumeMounts, volumeMounts...)
+		}


This should be removed. The transformPeerMemoryContainer() function is only relevant for the main driver daemonset, not the vGPU manager daemonset. The vGPU manager daemonset does not install the nvidia-peermem module.

Suggested change

if config.VGPUManager.KernelModuleConfig != nil && config.VGPUManager.KernelModuleConfig.Name != "" {

// note: transformVGPUManagerContainer() will have already created a Volume backed by the ConfigMap.

// Only add a VolumeMount for nvidia-vgpu-manager-ctr.

volumeMounts, _, err := createConfigMapVolumeMounts(n, config.VGPUManager.KernelModuleConfig.Name, driversDir)

if err != nil {

return fmt.Errorf("failed to create ConfigMap VolumeMounts for vGPU manager kernel module configuration: %w", err)

}

obj.Spec.Template.Spec.Containers[i].VolumeMounts = append(obj.Spec.Template.Spec.Containers[i].VolumeMounts, volumeMounts...)

}

cdesiniotis · 2026-01-09T00:11:05Z

controllers/object_controls_test.go

Can we add some unit tests to transforms_test.go for TransformVGPUManager()? One of the unit tests can verify that the kernel module config map is getting rendered correctly.

Signed-off-by: Shiva Kumar (SW-CLOUD) <shivaku@nvidia.com>

shivakunv self-assigned this Nov 29, 2025

shivakunv force-pushed the gpumanagerkernelmodulespec branch 3 times, most recently from 8468f59 to aa1a34d Compare November 29, 2025 15:09

shivakunv force-pushed the gpumanagerkernelmodulespec branch from aa1a34d to a3d34df Compare November 30, 2025 04:52

shivakunv marked this pull request as ready for review December 1, 2025 03:16

shivakunv requested review from ArangoGutierrez, cdesiniotis, elezar, shivamerla and tariq1890 as code owners December 1, 2025 03:16

shivakunv requested review from rahulait and rajathagasthya December 1, 2025 03:17

shivakunv marked this pull request as draft December 1, 2025 16:27

shivakunv marked this pull request as ready for review December 1, 2025 16:40

rajathagasthya reviewed Dec 16, 2025

View reviewed changes

tariq1890 reviewed Dec 17, 2025

View reviewed changes

deployments/gpu-operator/templates/clusterpolicy.yaml Outdated Show resolved Hide resolved

tariq1890 reviewed Dec 17, 2025

View reviewed changes

deployments/gpu-operator/templates/clusterpolicy.yaml Outdated Show resolved Hide resolved

shivakunv force-pushed the gpumanagerkernelmodulespec branch 4 times, most recently from 2a41292 to 280c546 Compare December 18, 2025 07:30

rajathagasthya reviewed Dec 18, 2025

View reviewed changes

shivakunv force-pushed the gpumanagerkernelmodulespec branch from 280c546 to dae7499 Compare December 18, 2025 15:54

rajathagasthya reviewed Dec 18, 2025

View reviewed changes

install-rhel.sh Outdated Show resolved Hide resolved

shivakunv force-pushed the gpumanagerkernelmodulespec branch from dae7499 to 1ceaafa Compare December 18, 2025 18:48

shivakunv mentioned this pull request Jan 9, 2026

gpu-manager: enable kernel module configuration via KernelModuleConfig NVIDIA/gpu-driver-container#512

Open

shivakunv force-pushed the gpumanagerkernelmodulespec branch from 1ceaafa to b04453a Compare January 27, 2026 10:13

rajathagasthya approved these changes Jan 27, 2026

View reviewed changes

shivakunv force-pushed the gpumanagerkernelmodulespec branch from b04453a to 422e2ff Compare January 27, 2026 17:49

cdesiniotis reviewed Jan 27, 2026

View reviewed changes

shivakunv force-pushed the gpumanagerkernelmodulespec branch from 8430f36 to e4b5dcd Compare January 27, 2026 19:48

vgpu-manager: enable kernel module configuration via KernelModuleConfig

a54b7e1

Signed-off-by: Shiva Kumar (SW-CLOUD) <shivaku@nvidia.com>

shivakunv force-pushed the gpumanagerkernelmodulespec branch from e4b5dcd to a54b7e1 Compare January 27, 2026 19:52

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

vgpu-manager: enable kernel module configuration via KernelModuleConfig #1946

vgpu-manager: enable kernel module configuration via KernelModuleConfig #1946

shivakunv commented Nov 29, 2025 •

edited

Loading

Uh oh!

coveralls commented Nov 29, 2025 •

edited

Loading

Uh oh!

shivakunv commented Dec 16, 2025

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

rajathagasthya commented Jan 26, 2026

Uh oh!

shivakunv commented Jan 27, 2026

Uh oh!

cdesiniotis Jan 8, 2026

Uh oh!

cdesiniotis Jan 9, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

5 participants

vgpu-manager: enable kernel module configuration via KernelModuleConfig #1946

Are you sure you want to change the base?

vgpu-manager: enable kernel module configuration via KernelModuleConfig #1946

Conversation

shivakunv commented Nov 29, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

coveralls commented Nov 29, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

shivakunv commented Dec 16, 2025

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

rajathagasthya commented Jan 26, 2026

Uh oh!

shivakunv commented Jan 27, 2026

Uh oh!

cdesiniotis Jan 8, 2026

Choose a reason for hiding this comment

Uh oh!

cdesiniotis Jan 9, 2026

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

5 participants

shivakunv commented Nov 29, 2025 •

edited

Loading

coveralls commented Nov 29, 2025 •

edited

Loading