model : fix llama_model::n_gpu_layers() (#24188)

ggerganov · web-flow · commit 96fbe0039337 · 2026-06-05T17:11:42.000+03:00
diff --git a/src/llama-model.cpp b/src/llama-model.cpp
@@ -1636,7 +1636,8 @@ const float * llama_model::tensor_split() const {
 }
 
 uint32_t llama_model::n_gpu_layers() const {
-    return params.n_gpu_layers >= 0 ? params.n_gpu_layers : hparams.n_layer() + 1;
+    // note: plus 1 for the "output" layer
+    return params.n_gpu_layers >= 0 ? params.n_gpu_layers : hparams.n_layer_all + 1;
 }
 
 llama_split_mode llama_model::split_mode() const {

Original file line number	Diff line number	Diff line change
`@@ -1636,7 +1636,8 @@ const float * llama_model::tensor_split() const {`
`1636`	`1636`	`}`
`1637`	`1637`
`1638`	`1638`	`uint32_t llama_model::n_gpu_layers() const {`
`1639`		`- return params.n_gpu_layers >= 0 ? params.n_gpu_layers : hparams.n_layer() + 1;`
	`1639`	`+ // note: plus 1 for the "output" layer`
	`1640`	`+ return params.n_gpu_layers >= 0 ? params.n_gpu_layers : hparams.n_layer_all + 1;`
`1640`	`1641`	`}`
`1641`	`1642`
`1642`	`1643`	`llama_split_mode llama_model::split_mode() const {`