Fix compilation errors after 0.10.1 merge: API compat fixes

lukekim · lukekim · commit f9172226e0e6 · 2026-04-11T15:50:46.000-07:00
diff --git a/candle-core/Cargo.toml b/candle-core/Cargo.toml
@@ -46,7 +46,7 @@ criterion = { workspace = true }
 
 [features]
 default = []
-cuda = ["cudarc", "dep:candle-kernels", "float8/cuda", "candle-ug?/cuda"]
+cuda = ["cudarc", "dep:candle-kernels", "candle-ug?/cuda"]
 cudnn = ["cuda", "cudarc/cudnn"]
 nccl = ["cuda", "cudarc/nccl"]
 mkl = ["dep:libc", "dep:intel-mkl-src"]
diff --git a/candle-core/src/cpu_backend/mod.rs b/candle-core/src/cpu_backend/mod.rs
@@ -2745,7 +2745,7 @@ impl BackendStorage for CpuStorage {
             let kernel_l = Layout::contiguous_with_offset((1, n, k), kernel_l.start_offset())
                 .transpose(1, 2)?
                 .broadcast_as((b, k, n))?;
-            col.matmul(kernel, (b, m, n, k), &col_l, &kernel_l)?
+            col.matmul_with_alpha(kernel, None, (b, m, n, k), &col_l, &kernel_l)?
         } else {
             // Make the kernel contiguous if not already the case.
             let mut kernel_c = unsafe {
@@ -2756,7 +2756,7 @@ impl BackendStorage for CpuStorage {
             let kernel_l = Layout::contiguous_with_offset((1, n, k), kernel_l.start_offset())
                 .transpose(1, 2)?
                 .broadcast_as((b, k, n))?;
-            col.matmul(kernel, (b, m, n, k), &col_l, &kernel_l)?
+            col.matmul_with_alpha(kernel, None, (b, m, n, k), &col_l, &kernel_l)?
         };
         let res_l = Layout::contiguous((b, l_out, params.c_out)).transpose(1, 2)?;
         let mut res_t = unsafe { self.device().alloc_uninit(res_l.shape(), res.dtype())? };
@@ -2797,8 +2797,9 @@ impl BackendStorage for CpuStorage {
                     vec![0, k_size * c_out, 1],
                     kernel_l.start_offset(),
                 );
-                self.matmul(
+                self.matmul_with_alpha(
                     kernel,
+                    None,
                     (
                         b_size,
                         /* m */ l_in,
@@ -2942,14 +2943,39 @@ impl BackendStorage for CpuStorage {
         }
     }
 
-    fn matmul(
+    fn matmul_with_alpha_beta(
         &self,
         rhs: &Self,
+        c: &mut Self,
+        s: Option<f64>,
+        bmnk: (usize, usize, usize, usize),
+        lhs_l: &Layout,
+        rhs_l: &Layout,
+        c_layout: &Layout,
+    ) -> Result<()> {
+        let mm = self.matmul_with_alpha(rhs, s, bmnk, lhs_l, rhs_l)?;
+        let mm_l = Layout::contiguous(c_layout.shape());
+        *c = c.binary_impl::<crate::op::Add>(&mm, c_layout, &mm_l)?;
+        Ok(())
+    }
+
+    fn matmul_with_alpha(
+        &self,
+        rhs: &Self,
+        s: Option<f64>,
         bmnk: (usize, usize, usize, usize),
         lhs_l: &Layout,
         rhs_l: &Layout,
     ) -> Result<Self> {
-        MatMul(bmnk).map(self, lhs_l, rhs, rhs_l)
+        let mm = MatMul(bmnk).map(self, lhs_l, rhs, rhs_l)?;
+        match s {
+            None => Ok(mm),
+            Some(alpha) => {
+                let (b, m, n, _) = bmnk;
+                let mm_l = Layout::contiguous((b, m, n));
+                mm.affine(&mm_l, alpha, 0.0)
+            }
+        }
     }
 
     fn device(&self) -> &Self::Device {
diff --git a/candle-core/src/dtype.rs b/candle-core/src/dtype.rs
@@ -237,7 +237,6 @@ with_dtype!(bf16, BF16, bf16::from_f64, bf16::to_f64);
 with_dtype!(f32, F32, |v: f64| v as f32, |v: f32| v as f64);
 with_dtype!(f64, F64, |v: f64| v, |v: f64| v);
 with_dtype!(f8e4m3, F8E4M3, f8e4m3::from_f64, |v: f8e4m3| v.to_f64());
-with_dtype!(f8e4m3, F8E4M3, f8e4m3::from_f64, |v: f8e4m3| v.to_f64());
 
 pub trait IntDType: WithDType + num_traits::Bounded {
     fn is_true(&self) -> bool;
diff --git a/candle-core/src/storage.rs b/candle-core/src/storage.rs
@@ -791,10 +791,9 @@ impl Storage {
             (Self::Metal(lhs), Self::Metal(rhs), Self::Metal(c)) => {
                 lhs.matmul_with_alpha_beta(rhs, c, s, bmnk, lhs_layout, rhs_layout, c_layout)
             }
-            (lhs, rhs, c) => Err(Error::DeviceMismatchBinaryOp3 {
+            (lhs, rhs, _c) => Err(Error::DeviceMismatchBinaryOp {
                 lhs: lhs.device().location(),
                 rhs: rhs.device().location(),
-                c: c.device().location(),
                 op: "matmul_with_alpha_beta",
             }
             .bt()),
diff --git a/candle-core/src/tensor.rs b/candle-core/src/tensor.rs
@@ -1527,8 +1527,9 @@ impl Tensor {
             .bt())?
         }
 
-        let storage = self.storage().matmul(
+        let storage = self.storage().matmul_with_alpha(
             &rhs.storage(),
+            None,
             (batching, m, n, k),
             self.layout(),
             rhs.layout(),
diff --git a/candle-examples/examples/mamba-minimal/model.rs b/candle-examples/examples/mamba-minimal/model.rs
@@ -2,7 +2,7 @@
 /// https://github.com/johnma2006/mamba-minimal/blob/master/model.py
 /// Simple, minimal implementation of Mamba in one file of PyTorch.
 use candle::{IndexOp, Module, Result, Tensor, D};
-use candle_nn::{layer_norm::RmsNormNonQuantized, RmsNorm, VarBuilder};
+use candle_nn::{RmsNorm, VarBuilder};
 
 use candle_transformers::models::with_tracing::{linear, linear_no_bias, Linear};
 
@@ -144,12 +144,12 @@ impl Module for MambaBlock {
 #[derive(Clone, Debug)]
 pub struct ResidualBlock {
     mixer: MambaBlock,
-    norm: RmsNorm<RmsNormNonQuantized>,
+    norm: RmsNorm,
 }
 
 impl ResidualBlock {
     pub fn new(cfg: &Config, vb: VarBuilder) -> Result<Self> {
-        let norm = candle_nn::rms_norm_non_quant(cfg.d_model, 1e-5, vb.pp("norm"))?;
+        let norm = candle_nn::rms_norm(cfg.d_model, 1e-5, vb.pp("norm"))?;
         let mixer = MambaBlock::new(cfg, vb.pp("mixer"))?;
         Ok(Self { mixer, norm })
     }
@@ -166,7 +166,7 @@ impl Module for ResidualBlock {
 pub struct Model {
     embedding: candle_nn::Embedding,
     layers: Vec<ResidualBlock>,
-    norm_f: RmsNorm<RmsNormNonQuantized>,
+    norm_f: RmsNorm,
     lm_head: Linear,
 }
 
@@ -179,7 +179,7 @@ impl Model {
             let layer = ResidualBlock::new(cfg, vb_l.pp(layer_idx))?;
             layers.push(layer)
         }
-        let norm_f = candle_nn::rms_norm_non_quant(cfg.d_model, 1e-5, vb.pp("norm_f"))?;
+        let norm_f = candle_nn::rms_norm(cfg.d_model, 1e-5, vb.pp("norm_f"))?;
         let lm_head = Linear::from_weights(embedding.embeddings().clone(), None);
         Ok(Self {
             embedding,
diff --git a/candle-nn/Cargo.toml b/candle-nn/Cargo.toml
@@ -39,8 +39,6 @@ cudnn = ["candle/cudnn"]
 mkl = ["dep:intel-mkl-src", "candle/mkl"]
 metal = ["candle/metal", "dep:candle-metal-kernels", "dep:objc2-metal"]
 flash-attn = ["cuda", "dep:candle-flash-attn"]
-metal = ["candle/metal", "dep:candle-metal-kernels", "dep:objc2-metal"]
-flash-attn = ["cuda", "dep:candle-flash-attn"]
 
 [[bench]]
 name = "bench_main"
diff --git a/candle-pyo3/Cargo.toml b/candle-pyo3/Cargo.toml
@@ -22,7 +22,6 @@ half = { workspace = true }
 float8 = { workspace = true }
 intel-mkl-src = { workspace = true, optional = true }
 pyo3 = { version = "0.27", features = ["extension-module", "abi3-py313"] }
-float8 = { workspace = true }
 
 [build-dependencies]
 pyo3-build-config = "0.27"
diff --git a/candle-transformers/src/models/based.rs b/candle-transformers/src/models/based.rs
@@ -7,8 +7,8 @@
 
 use candle::{DType, Device, IndexOp, Module, Result, Tensor, D};
 use candle_nn::{
-    conv1d_no_bias, layer_norm::RmsNormNonQuantized, linear, linear_no_bias, ops::softmax_last_dim,
-    rms_norm_non_quant, Conv1d, Conv1dConfig, Func, Linear, RmsNorm, VarBuilder,
+    conv1d_no_bias, linear, linear_no_bias, ops::softmax_last_dim, rms_norm, Conv1d,
+    Conv1dConfig, Func, Linear, RmsNorm, VarBuilder,
 };
 use std::sync::Arc;
 
@@ -459,16 +459,16 @@ impl SequenceMixer {
 #[derive(Debug, Clone)]
 struct DecoderLayer {
     mlp: MLP,
-    norm1: RmsNorm<RmsNormNonQuantized>,
-    norm2: RmsNorm<RmsNormNonQuantized>,
+    norm1: RmsNorm,
+    norm2: RmsNorm,
     mixer: SequenceMixer,
 }
 
 impl DecoderLayer {
     fn new(layer_idx: usize, cfg: &Config, vb: VarBuilder) -> Result<Self> {
         let mlp = MLP::new(cfg, vb.pp("mlp"))?;
-        let norm1 = rms_norm_non_quant(cfg.hidden_size, cfg.layer_norm_epsilon, vb.pp("norm1"))?;
-        let norm2 = rms_norm_non_quant(cfg.hidden_size, cfg.layer_norm_epsilon, vb.pp("norm2"))?;
+        let norm1 = rms_norm(cfg.hidden_size, cfg.layer_norm_epsilon, vb.pp("norm1"))?;
+        let norm2 = rms_norm(cfg.hidden_size, cfg.layer_norm_epsilon, vb.pp("norm2"))?;
 
         let l_attn = cfg.alt_mixer_layers.contains(&layer_idx);
         let sw_attn = cfg.alt_mixer_2_layers.contains(&layer_idx);
@@ -509,7 +509,7 @@ impl DecoderLayer {
 pub struct Model {
     embed_tokens: super::with_tracing::Embedding,
     layers: Vec<DecoderLayer>,
-    norm: RmsNorm<RmsNormNonQuantized>,
+    norm: RmsNorm,
     lm_head: Linear,
     sliding_window: usize,
     device: Device,
@@ -528,7 +528,7 @@ impl Model {
             let layer = DecoderLayer::new(layer_idx, cfg, vb_l.pp(layer_idx))?;
             layers.push(layer)
         }
-        let norm = rms_norm_non_quant(cfg.hidden_size, cfg.layer_norm_epsilon, vb_m.pp("ln_f"))?;
+        let norm = rms_norm(cfg.hidden_size, cfg.layer_norm_epsilon, vb_m.pp("ln_f"))?;
         Ok(Self {
             embed_tokens,
             layers,
diff --git a/candle-transformers/src/models/beit.rs b/candle-transformers/src/models/beit.rs
@@ -86,34 +86,34 @@ impl Attention {
             .contiguous()?;
 
         let relative_coords = relative_coords.slice_assign(
-            &[&(0..w_area), &(0..w_area), &(0..1)],
+            &[0..w_area, 0..w_area, 0..1],
             &(relative_coords.i((0..w_area, 0..w_area, 0..1))? + (WINDOW_SIZE - 1) as f64)?,
         )?;
         let relative_coords = relative_coords.slice_assign(
-            &[&(0..w_area), &(0..w_area), &(1..2)],
+            &[0..w_area, 0..w_area, 1..2],
             &(relative_coords.i((0..w_area, 0..w_area, 1..2))? + (WINDOW_SIZE - 1) as f64)?,
         )?;
         let relative_coords = relative_coords.slice_assign(
-            &[&(0..w_area), &(0..w_area), &(0..1)],
+            &[0..w_area, 0..w_area, 0..1],
             &(relative_coords.i((.., .., 0..1))? * (2. * (WINDOW_SIZE as f64) - 1.))?,
         )?;
 
         Tensor::zeros((w_area + 1, w_area + 1), DType::I64, device)?
-            .slice_assign(&[&(1..), &(1..)], &relative_coords.sum(2)?)?
+            .slice_assign(&[1.., 1..], &relative_coords.sum(2)?)?
             .slice_assign(
-                &[&(0..1), &(0..(w_area + 1))],
+                &[0..1, 0..(w_area + 1)],
                 &(Tensor::ones((1, w_area + 1), DType::I64, device)?
                     * ((num_relative_distance - 3) as f64))?
                     .to_dtype(DType::I64)?,
             )?
             .slice_assign(
-                &[&(0..(w_area + 1)), &(0..1)],
+                &[0..(w_area + 1), 0..1],
                 &(Tensor::ones((w_area + 1, 1), DType::I64, device)?
                     * ((num_relative_distance - 2) as f64))?
                     .to_dtype(DType::I64)?,
             )?
             .slice_assign(
-                &[&(0..1), &(0..1)],
+                &[0..1, 0..1],
                 &(Tensor::ones((1, 1), DType::I64, device)?
                     * ((num_relative_distance - 1) as f64))?
                     .to_dtype(DType::I64)?,
diff --git a/candle-transformers/src/models/chatglm.rs b/candle-transformers/src/models/chatglm.rs
@@ -379,7 +379,7 @@ struct Block {
 impl Block {
     fn new(layer_number: usize, cfg: &Config, vb: VarBuilder) -> Result<Self> {
         let input_layernorm = if cfg.rmsnorm {
-            candle_nn::rms_norm_non_quant(
+            candle_nn::rms_norm(
                 cfg.hidden_size,
                 cfg.layernorm_epsilon,
                 vb.pp("input_layernorm"),
@@ -393,7 +393,7 @@ impl Block {
             )?
         };
         let post_attention_layernorm = if cfg.rmsnorm {
-            candle_nn::rms_norm_non_quant(
+            candle_nn::rms_norm(
                 cfg.hidden_size,
                 cfg.layernorm_epsilon,
                 vb.pp("post_attention_layernorm"),
@@ -465,7 +465,7 @@ impl Transformer {
         }
         let final_layernorm = if cfg.post_layer_norm {
             let ln = if cfg.rmsnorm {
-                candle_nn::rms_norm_non_quant(
+                candle_nn::rms_norm(
                     cfg.hidden_size,
                     cfg.layernorm_epsilon,
                     vb.pp("final_layernorm"),
diff --git a/candle-transformers/src/models/codegeex4_9b.rs b/candle-transformers/src/models/codegeex4_9b.rs
@@ -400,7 +400,7 @@ struct Block {
 impl Block {
     fn new(layer_number: usize, cfg: &Config, vb: VarBuilder) -> Result<Self> {
         let input_layernorm = if cfg.rmsnorm {
-            candle_nn::rms_norm_non_quant(
+            candle_nn::rms_norm(
                 cfg.hidden_size,
                 cfg.layernorm_epsilon,
                 vb.pp("input_layernorm"),
@@ -414,7 +414,7 @@ impl Block {
             )?
         };
         let post_attention_layernorm = if cfg.rmsnorm {
-            candle_nn::rms_norm_non_quant(
+            candle_nn::rms_norm(
                 cfg.hidden_size,
                 cfg.layernorm_epsilon,
                 vb.pp("post_attention_layernorm"),
@@ -486,7 +486,7 @@ impl Transformer {
         }
         let final_layernorm = if cfg.post_layer_norm {
             let ln = if cfg.rmsnorm {
-                candle_nn::rms_norm_non_quant(
+                candle_nn::rms_norm(
                     cfg.hidden_size,
                     cfg.layernorm_epsilon,
                     vb.pp("final_layernorm"),
diff --git a/candle-transformers/src/models/flux/model.rs b/candle-transformers/src/models/flux/model.rs
@@ -1,5 +1,5 @@
 use candle::{DType, IndexOp, Result, Tensor, D};
-use candle_nn::{layer_norm::RmsNormNonQuantized, LayerNorm, Linear, RmsNorm, VarBuilder};
+use candle_nn::{LayerNorm, Linear, RmsNorm, VarBuilder};
 
 // https://github.com/black-forest-labs/flux/blob/727e3a71faf37390f318cf9434f0939653302b60/src/flux/model.py#L12
 #[derive(Debug, Clone)]
@@ -195,16 +195,16 @@ impl candle::Module for MlpEmbedder {
 
 #[derive(Debug, Clone)]
 pub struct QkNorm {
-    query_norm: RmsNorm<RmsNormNonQuantized>,
-    key_norm: RmsNorm<RmsNormNonQuantized>,
+    query_norm: RmsNorm,
+    key_norm: RmsNorm,
 }
 
 impl QkNorm {
     fn new(dim: usize, vb: VarBuilder) -> Result<Self> {
         let query_norm = vb.get(dim, "query_norm.scale")?;
-        let query_norm = RmsNorm::<RmsNormNonQuantized>::new(query_norm, 1e-6);
+        let query_norm = RmsNorm::new(query_norm, 1e-6);
         let key_norm = vb.get(dim, "key_norm.scale")?;
-        let key_norm = RmsNorm::<RmsNormNonQuantized>::new(key_norm, 1e-6);
+        let key_norm = RmsNorm::new(key_norm, 1e-6);
         Ok(Self {
             query_norm,
             key_norm,
diff --git a/candle-transformers/src/models/flux/quantized_model.rs b/candle-transformers/src/models/flux/quantized_model.rs
@@ -2,7 +2,6 @@ use super::model::{attention, timestep_embedding, Config, EmbedNd};
 use crate::quantized_nn::{linear, linear_b, Linear};
 use crate::quantized_var_builder::VarBuilder;
 use candle::{DType, IndexOp, Result, Tensor, D};
-use candle_nn::layer_norm::RmsNormNonQuantized;
 use candle_nn::{LayerNorm, RmsNorm};
 
 fn layer_norm(dim: usize, vb: VarBuilder) -> Result<LayerNorm> {
@@ -35,16 +34,16 @@ impl candle::Module for MlpEmbedder {
 
 #[derive(Debug, Clone)]
 pub struct QkNorm {
-    query_norm: RmsNorm<RmsNormNonQuantized>,
-    key_norm: RmsNorm<RmsNormNonQuantized>,
+    query_norm: RmsNorm,
+    key_norm: RmsNorm,
 }
 
 impl QkNorm {
     fn new(dim: usize, vb: VarBuilder) -> Result<Self> {
         let query_norm = vb.get(dim, "query_norm.scale")?.dequantize(vb.device())?;
-        let query_norm = RmsNorm::<RmsNormNonQuantized>::new(query_norm, 1e-6);
+        let query_norm = RmsNorm::new(query_norm, 1e-6);
         let key_norm = vb.get(dim, "key_norm.scale")?.dequantize(vb.device())?;
-        let key_norm = RmsNorm::<RmsNormNonQuantized>::new(key_norm, 1e-6);
+        let key_norm = RmsNorm::new(key_norm, 1e-6);
         Ok(Self {
             query_norm,
             key_norm,
diff --git a/candle-transformers/src/models/glm4.rs b/candle-transformers/src/models/glm4.rs
@@ -421,7 +421,7 @@ struct Block {
 impl Block {
     fn new(layer_number: usize, cfg: &Config, vb: VarBuilder) -> Result<Self> {
         let input_layernorm = if cfg.rmsnorm {
-            candle_nn::rms_norm_non_quant(
+            candle_nn::rms_norm(
                 cfg.hidden_size,
                 cfg.layernorm_epsilon,
                 vb.pp("input_layernorm"),
@@ -435,7 +435,7 @@ impl Block {
             )?
         };
         let post_attention_layernorm = if cfg.rmsnorm {
-            candle_nn::rms_norm_non_quant(
+            candle_nn::rms_norm(
                 cfg.hidden_size,
                 cfg.layernorm_epsilon,
                 vb.pp("post_attention_layernorm"),
@@ -507,7 +507,7 @@ impl Transformer {
         }
         let final_layernorm = if cfg.post_layer_norm {
             let ln = if cfg.rmsnorm {
-                candle_nn::rms_norm_non_quant(
+                candle_nn::rms_norm(
                     cfg.hidden_size,
                     cfg.layernorm_epsilon,
                     vb.pp("final_layernorm"),
diff --git a/candle-transformers/src/models/llama2_c.rs b/candle-transformers/src/models/llama2_c.rs
diff --git a/candle-transformers/src/models/mamba.rs b/candle-transformers/src/models/mamba.rs
diff --git a/candle-transformers/src/models/metavoice.rs b/candle-transformers/src/models/metavoice.rs
diff --git a/candle-transformers/src/models/mistral.rs b/candle-transformers/src/models/mistral.rs
diff --git a/candle-transformers/src/models/mmdit/projections.rs b/candle-transformers/src/models/mmdit/projections.rs
diff --git a/candle-transformers/src/models/with_tracing.rs b/candle-transformers/src/models/with_tracing.rs
diff --git a/candle-wasm-examples/llama2-c/src/model.rs b/candle-wasm-examples/llama2-c/src/model.rs

Original file line number	Diff line number	Diff line change
`@@ -791,10 +791,9 @@ impl Storage {`
`791`	`791`	`(Self::Metal(lhs), Self::Metal(rhs), Self::Metal(c)) => {`
`792`	`792`	`lhs.matmul_with_alpha_beta(rhs, c, s, bmnk, lhs_layout, rhs_layout, c_layout)`
`793`	`793`	`}`
`794`		`- (lhs, rhs, c) => Err(Error::DeviceMismatchBinaryOp3 {`
	`794`	`+ (lhs, rhs, _c) => Err(Error::DeviceMismatchBinaryOp {`
`795`	`795`	`lhs: lhs.device().location(),`
`796`	`796`	`rhs: rhs.device().location(),`
`797`		`- c: c.device().location(),`
`798`	`797`	`op: "matmul_with_alpha_beta",`
`799`	`798`	`}`
`800`	`799`	`.bt()),`