diff --git a/Cargo.toml b/Cargo.toml
index 8ff70bd..22eeb61 100644
--- a/Cargo.toml
+++ b/Cargo.toml
@@ -12,3 +12,7 @@ pyo3 = { version = "0.28", features = ["extension-module"] }
 rand = "0.8"
 rayon = "1.10"
 rand_distr = "0.4"
+
+[profile.release]
+lto = "thin"
+codegen-units = 1
diff --git a/src/distributions.rs b/src/distributions.rs
index a4c4bc9..5f647b7 100644
--- a/src/distributions.rs
+++ b/src/distributions.rs
@@ -15,46 +15,88 @@ pub fn sample_normal<R: Rng>(rng: &mut R, mean: f64, variance: f64) -> f64 {
     mean + std * z
 }
 
-pub fn sample_mvnormal<R: Rng>(rng: &mut R, mean: &[f64], cov: &[Vec<f64>]) -> Vec<f64> {
-    let lower_cholesky = cholesky(cov);
-    let z: Vec<f64> = mean.iter().map(|_| rng.sample(StandardNormal)).collect();
-
-    let mut result = mean.to_vec();
-    for (i, value) in result.iter_mut().enumerate() {
-        *value += lower_cholesky[i]
-            .iter()
-            .zip(z.iter())
-            .take(i + 1)
-            .map(|(lhs, rhs)| lhs * rhs)
-            .sum::<f64>();
-    }
-    result
-}
-
-fn cholesky(a: &[Vec<f64>]) -> Vec<Vec<f64>> {
+/// Cholesky decomposition: A = L L^T, returns L (lower triangular).
+/// A must be symmetric positive definite.
+/// Near-zero or negative diagonals are clamped to 1e-12 for numerical stability.
+fn cholesky_lower(a: &[Vec<f64>]) -> Vec<Vec<f64>> {
     let k = a.len();
-    let mut lower_cholesky = vec![vec![0.0; k]; k];
+    let mut lower = vec![vec![0.0; k]; k];
     for i in 0..k {
         for j in 0..=i {
-            let sum = lower_cholesky[i]
+            let sum = lower[i]
                 .iter()
-                .zip(lower_cholesky[j].iter())
+                .zip(lower[j].iter())
                 .take(j)
                 .map(|(lhs, rhs)| lhs * rhs)
                 .sum::<f64>();
             if i == j {
                 let diagonal = a[i][i] - sum;
-                lower_cholesky[i][j] = if diagonal > 0.0 {
+                lower[i][j] = if diagonal > 0.0 {
                     diagonal.sqrt()
                 } else {
                     1e-12
                 };
             } else {
-                lower_cholesky[i][j] = (a[i][j] - sum) / lower_cholesky[j][j];
+                lower[i][j] = (a[i][j] - sum) / lower[j][j];
             }
         }
     }
-    lower_cholesky
+    lower
+}
+
+/// Solve L x = b via forward substitution (L is lower triangular).
+fn forward_solve(l: &[Vec<f64>], b: &[f64]) -> Vec<f64> {
+    let k = b.len();
+    let mut x = vec![0.0; k];
+    for i in 0..k {
+        let sum: f64 = l[i].iter().zip(x.iter()).take(i).map(|(a, b)| a * b).sum();
+        x[i] = (b[i] - sum) / l[i][i];
+    }
+    x
+}
+
+/// Solve L^T x = b via backward substitution (L is lower triangular).
+fn backward_solve_lt(l: &[Vec<f64>], b: &[f64]) -> Vec<f64> {
+    let k = b.len();
+    let mut x = vec![0.0; k];
+    for i in (0..k).rev() {
+        let sum: f64 = ((i + 1)..k).map(|j| l[j][i] * x[j]).sum();
+        x[i] = (b[i] - sum) / l[i][i];
+    }
+    x
+}
+
+/// Solve L L^T x = b via forward + backward substitution.
+fn chol_solve_lower(l: &[Vec<f64>], b: &[f64]) -> Vec<f64> {
+    let y = forward_solve(l, b);
+    backward_solve_lt(l, &y)
+}
+
+/// Sample beta ~ N(A^{-1}b, sigma2 * A^{-1}) using Cholesky of precision A.
+///
+/// Algorithm (matches R bsts):
+///   1. L L^T = A  (Cholesky of precision matrix)
+///   2. y = L^{-1} b  (forward solve)
+///   3. mean = L^{-T} y  (backward solve)
+///   4. z ~ N(0, I_k)
+///   5. eps = sqrt(sigma2) * L^{-T} z  (backward solve)
+///   6. return mean + eps
+pub fn sample_from_precision<R: Rng>(
+    rng: &mut R,
+    precision: &[Vec<f64>],
+    rhs: &[f64],
+    sigma2_obs: f64,
+) -> Vec<f64> {
+    let k = rhs.len();
+    let l = cholesky_lower(precision);
+    let mean = chol_solve_lower(&l, rhs);
+    let z: Vec<f64> = (0..k).map(|_| rng.sample(StandardNormal)).collect();
+    let scale = sigma2_obs.sqrt();
+    let eps = backward_solve_lt(&l, &z);
+    mean.iter()
+        .zip(eps.iter())
+        .map(|(m, e)| m + scale * e)
+        .collect()
 }
 
 #[cfg(test)]
@@ -86,21 +128,176 @@ mod tests {
         );
     }
 
-    #[test]
-    fn test_mvnormal_dimension() {
-        let mut rng = StdRng::seed_from_u64(42);
-        let mean = vec![1.0, 2.0];
-        let cov = vec![vec![1.0, 0.0], vec![0.0, 1.0]];
-        let sample = sample_mvnormal(&mut rng, &mean, &cov);
-        assert_eq!(sample.len(), 2);
-    }
-
     #[test]
     fn test_cholesky_identity() {
         let a = vec![vec![1.0, 0.0], vec![0.0, 1.0]];
-        let l = cholesky(&a);
+        let l = cholesky_lower(&a);
         assert!((l[0][0] - 1.0).abs() < 1e-12);
         assert!((l[1][1] - 1.0).abs() < 1e-12);
         assert!((l[1][0]).abs() < 1e-12);
     }
+
+    #[test]
+    fn test_cholesky_2x2() {
+        // A = [[4, 2], [2, 3]]  =>  L = [[2, 0], [1, sqrt(2)]]
+        let a = vec![vec![4.0, 2.0], vec![2.0, 3.0]];
+        let l = cholesky_lower(&a);
+        assert!((l[0][0] - 2.0).abs() < 1e-12);
+        assert!((l[1][0] - 1.0).abs() < 1e-12);
+        assert!((l[1][1] - 2.0_f64.sqrt()).abs() < 1e-12);
+    }
+
+    #[test]
+    fn test_cholesky_near_singular() {
+        // Near-singular: diagonal element becomes near-zero after subtraction
+        let a = vec![vec![1.0, 1.0 - 1e-14], vec![1.0 - 1e-14, 1.0]];
+        let l = cholesky_lower(&a);
+        // Should not panic, result should be finite
+        for row in &l {
+            for val in row {
+                assert!(val.is_finite(), "Cholesky result must be finite");
+            }
+        }
+    }
+
+    #[test]
+    fn test_chol_solve_identity() {
+        // L = I => solve I I^T x = b => x = b
+        let l = vec![vec![1.0, 0.0], vec![0.0, 1.0]];
+        let b = vec![3.0, 7.0];
+        let x = chol_solve_lower(&l, &b);
+        assert!((x[0] - 3.0).abs() < 1e-12);
+        assert!((x[1] - 7.0).abs() < 1e-12);
+    }
+
+    #[test]
+    fn test_chol_solve_2x2() {
+        // A = [[4, 2], [2, 3]], b = [10, 8]
+        // A^{-1} = [[3/8, -1/4], [-1/4, 1/2]]
+        // x = A^{-1}b = [3/8*10 + (-1/4)*8, (-1/4)*10 + 1/2*8] = [1.75, 1.5]
+        let a = vec![vec![4.0, 2.0], vec![2.0, 3.0]];
+        let l = cholesky_lower(&a);
+        let b = vec![10.0, 8.0];
+        let x = chol_solve_lower(&l, &b);
+        assert!((x[0] - 1.75).abs() < 1e-10);
+        assert!((x[1] - 1.5).abs() < 1e-10);
+    }
+
+    #[test]
+    fn test_chol_solve_1x1() {
+        // k=1: scalar case. A = [[5]], b = [15] => x = 3
+        let l = cholesky_lower(&vec![vec![5.0]]);
+        let x = chol_solve_lower(&l, &[15.0]);
+        assert!((x[0] - 3.0).abs() < 1e-12);
+    }
+
+    #[test]
+    fn test_sample_from_precision_1x1() {
+        // k=1: precision=2, rhs=6, sigma2=0.5
+        // mean = rhs/precision = 3.0, variance = sigma2/precision = 0.25
+        let mut rng = StdRng::seed_from_u64(42);
+        let n = 10_000;
+        let precision = vec![vec![2.0]];
+        let rhs = vec![6.0];
+        let sigma2 = 0.5;
+        let mut sum = 0.0;
+        let mut sum_sq = 0.0;
+        for _ in 0..n {
+            let s = sample_from_precision(&mut rng, &precision, &rhs, sigma2);
+            sum += s[0];
+            sum_sq += s[0] * s[0];
+        }
+        let sample_mean = sum / n as f64;
+        let sample_var = sum_sq / n as f64 - sample_mean * sample_mean;
+        assert!(
+            (sample_mean - 3.0).abs() < 0.1,
+            "Mean {sample_mean} should be near 3.0"
+        );
+        assert!(
+            (sample_var - 0.25).abs() < 0.1,
+            "Variance {sample_var} should be near 0.25"
+        );
+    }
+
+    #[test]
+    fn test_sample_from_precision_diagonal() {
+        // Diagonal precision: each component independent
+        // precision = diag(4, 9), rhs = [12, 27], sigma2 = 1.0
+        // mean = [3, 3], variance = [1/4, 1/9]
+        let mut rng = StdRng::seed_from_u64(123);
+        let n = 20_000;
+        let precision = vec![vec![4.0, 0.0], vec![0.0, 9.0]];
+        let rhs = vec![12.0, 27.0];
+        let sigma2 = 1.0;
+        let mut sum = vec![0.0; 2];
+        let mut sum_sq = vec![0.0; 2];
+        for _ in 0..n {
+            let s = sample_from_precision(&mut rng, &precision, &rhs, sigma2);
+            for j in 0..2 {
+                sum[j] += s[j];
+                sum_sq[j] += s[j] * s[j];
+            }
+        }
+        for j in 0..2 {
+            let mean = sum[j] / n as f64;
+            let var = sum_sq[j] / n as f64 - mean * mean;
+            assert!(
+                (mean - 3.0).abs() < 0.1,
+                "Component {j}: mean {mean} should be near 3.0"
+            );
+            let expected_var = sigma2 / precision[j][j];
+            assert!(
+                (var - expected_var).abs() < 0.1,
+                "Component {j}: var {var} should be near {expected_var}"
+            );
+        }
+    }
+
+    #[test]
+    fn test_sample_from_precision_identity() {
+        // precision = I, rhs = [5, -3], sigma2 = 2.0
+        // mean = rhs = [5, -3], cov = 2*I
+        let mut rng = StdRng::seed_from_u64(99);
+        let n = 10_000;
+        let precision = vec![vec![1.0, 0.0], vec![0.0, 1.0]];
+        let rhs = vec![5.0, -3.0];
+        let sigma2 = 2.0;
+        let mut sum = vec![0.0; 2];
+        for _ in 0..n {
+            let s = sample_from_precision(&mut rng, &precision, &rhs, sigma2);
+            for j in 0..2 {
+                sum[j] += s[j];
+            }
+        }
+        let mean0 = sum[0] / n as f64;
+        let mean1 = sum[1] / n as f64;
+        assert!((mean0 - 5.0).abs() < 0.2, "Mean[0] {mean0} should be near 5");
+        assert!(
+            (mean1 - (-3.0)).abs() < 0.2,
+            "Mean[1] {mean1} should be near -3"
+        );
+    }
+
+    #[test]
+    fn test_sample_from_precision_finite_k20() {
+        // k=20: verify all samples are finite
+        let mut rng = StdRng::seed_from_u64(42);
+        let k = 20;
+        let mut precision = vec![vec![0.0; k]; k];
+        for i in 0..k {
+            precision[i][i] = 10.0;
+            if i > 0 {
+                precision[i][i - 1] = 0.1;
+                precision[i - 1][i] = 0.1;
+            }
+        }
+        let rhs: Vec<f64> = (0..k).map(|i| i as f64).collect();
+        let sigma2 = 1.0;
+        for _ in 0..100 {
+            let s = sample_from_precision(&mut rng, &precision, &rhs, sigma2);
+            for (j, val) in s.iter().enumerate() {
+                assert!(val.is_finite(), "k=20 sample[{j}] is not finite: {val}");
+            }
+        }
+    }
 }
diff --git a/src/sampler.rs b/src/sampler.rs
index b4e34bf..6cc80d9 100644
--- a/src/sampler.rs
+++ b/src/sampler.rs
@@ -1,4 +1,4 @@
-use crate::distributions::{sample_inv_gamma, sample_mvnormal, sample_normal};
+use crate::distributions::{sample_from_precision, sample_inv_gamma, sample_normal};
 use crate::kalman::{dynamic_beta_smoother, local_linear_trend_smoother, simulation_smoother};
 use crate::state_space::{SeasonalConfig, StateModel, StateSpaceModel};
 use rand::distributions::Bernoulli;
@@ -201,6 +201,13 @@ fn run_single_chain_dynamic(
         predictions: Vec::with_capacity(niter),
     };
 
+    // Pre-compute X^TX for seasonal regression (constant across iterations).
+    let xtx_seasonal = if k_seasonal > 0 {
+        Some(cross_product_matrix(model.seasonal_covariates(), pre_end))
+    } else {
+        None
+    };
+
     for iter in 0..(niter + nwarmup) {
         // Step 1: State sampling — subtract time-varying x'β_t from y
         let y_adj = adjusted_observations_dynamic(y, model, &beta_t, &seasonal_beta, pre_end);
@@ -312,6 +319,7 @@ fn run_single_chain_dynamic(
                 sigma2_obs,
                 &prior.beta_mean,
                 &prior.beta_precision,
+                xtx_seasonal.as_deref(),
             );
         }
 
@@ -414,6 +422,37 @@ fn run_single_chain_static(
     };
     let g = pre_end as f64; // Zellner's g-prior parameter
 
+    // Pre-compute X^TX for static regression (not needed when spike-and-slab
+    // is active because it uses coordinate-wise sampling without XtX).
+    let xtx_static = if k > 0 && !use_spike_slab {
+        Some(cross_product_matrix(model.covariates(), pre_end))
+    } else {
+        None
+    };
+    let xtx_seasonal = if k_seasonal > 0 {
+        Some(cross_product_matrix(model.seasonal_covariates(), pre_end))
+    } else {
+        None
+    };
+
+    // Pre-compute spike-and-slab constant statistics per covariate.
+    // x_mean and n_j = sum((x_j - x_mean)^2) are constant across iterations.
+    let slab_stats: Vec<(f64, f64)> = if use_spike_slab {
+        model
+            .covariates()
+            .iter()
+            .map(|x_col| {
+                let x_sum: f64 = x_col.iter().take(pre_end).sum();
+                let x_mean = x_sum / pre_end as f64;
+                let sum_x2: f64 = x_col.iter().take(pre_end).map(|v| v * v).sum();
+                let n_j = sum_x2 - pre_end as f64 * x_mean * x_mean;
+                (x_mean, n_j)
+            })
+            .collect()
+    } else {
+        vec![]
+    };
+
     for iter in 0..(niter + nwarmup) {
         // Step 1: State sampling (simulation smoother)
         let y_adj = adjusted_observations(y, model, &beta, &seasonal_beta, pre_end);
@@ -459,6 +498,7 @@ fn run_single_chain_static(
                 sigma2_obs,
                 g,
                 log_prior_odds,
+                &slab_stats,
             );
             if k_seasonal > 0 {
                 let prior = seasonal_regression_prior
@@ -473,6 +513,7 @@ fn run_single_chain_static(
                     sigma2_obs,
                     &prior.beta_mean,
                     &prior.beta_precision,
+                    xtx_seasonal.as_deref(),
                 );
             }
         } else if k > 0 || k_seasonal > 0 {
@@ -493,6 +534,7 @@ fn run_single_chain_static(
                     sigma2_obs,
                     &prior.beta_mean,
                     &prior.beta_precision,
+                    xtx_static.as_deref(),
                 );
                 for gj in gamma.iter_mut() {
                     *gj = true;
@@ -511,6 +553,7 @@ fn run_single_chain_static(
                     sigma2_obs,
                     &prior.beta_mean,
                     &prior.beta_precision,
+                    xtx_seasonal.as_deref(),
                 );
             }
             let sigma_guess = static_regression_prior
@@ -625,6 +668,7 @@ fn flatten_chain_results(mut chain_results: Vec<ChainResult>, n_samples: usize)
     result
 }
 
+#[allow(clippy::too_many_arguments)]
 fn sample_state_path<R: rand::Rng>(
     rng: &mut R,
     y_adj: &[f64],
@@ -769,6 +813,7 @@ fn block_contribution(x: &[Vec<f64>], beta: &[f64], t: usize) -> f64 {
         .sum::<f64>()
 }
 
+#[allow(clippy::too_many_arguments)]
 fn sample_beta_with_normal_prior<R: rand::Rng>(
     rng: &mut R,
     y_pre: &[f64],
@@ -777,9 +822,18 @@ fn sample_beta_with_normal_prior<R: rand::Rng>(
     sigma2_obs: f64,
     prior_mean: &[f64],
     prior_precision: &[Vec<f64>],
+    xtx_precomputed: Option<&[Vec<f64>]>,
 ) -> Vec<f64> {
     let k = x.len();
-    let xtx = cross_product_matrix(x, y_pre.len());
+    // Use pre-computed X^TX if available (avoids O(k^2 T) per iteration)
+    let xtx_owned;
+    let xtx_ref: &[Vec<f64>] = match xtx_precomputed {
+        Some(pre) => pre,
+        None => {
+            xtx_owned = cross_product_matrix(x, y_pre.len());
+            &xtx_owned
+        }
+    };
 
     let residuals: Vec<f64> = y_pre
         .iter()
@@ -797,10 +851,11 @@ fn sample_beta_with_normal_prior<R: rand::Rng>(
             .sum();
     }
 
-    let mut posterior_precision = xtx;
-    for (i, row) in posterior_precision.iter_mut().enumerate() {
-        for (j, value) in row.iter_mut().enumerate() {
-            *value += prior_precision[i][j];
+    // Build posterior_precision = XtX + prior_precision without cloning XtX
+    let mut posterior_precision = vec![vec![0.0; k]; k];
+    for i in 0..k {
+        for j in 0..k {
+            posterior_precision[i][j] = xtx_ref[i][j] + prior_precision[i][j];
         }
     }
 
@@ -810,10 +865,9 @@ fn sample_beta_with_normal_prior<R: rand::Rng>(
         *value += prior_value;
     }
 
-    let posterior_precision_inverse = invert_matrix(&posterior_precision);
-    let posterior_mean = matrix_vector_product(&posterior_precision_inverse, &rhs);
-    let posterior_covariance = scale_matrix(&posterior_precision_inverse, sigma2_obs);
-    sample_mvnormal(rng, &posterior_mean, &posterior_covariance)
+    // Sample from N(A^{-1}b, sigma2 * A^{-1}) via Cholesky of precision.
+    // Replaces Gauss-Jordan inversion + separate mvnormal sampling.
+    sample_from_precision(rng, &posterior_precision, &rhs, sigma2_obs)
 }
 
 /// Coordinate-wise spike-and-slab sampling for (gamma, beta).
@@ -840,10 +894,10 @@ fn sample_spike_and_slab<R: rand::Rng>(
     sigma2_obs: f64,
     g: f64,
     log_prior_odds: f64,
+    precomputed_stats: &[(f64, f64)],
 ) {
     let one_plus_g = 1.0 + g;
     let log_shrinkage = -0.5 * one_plus_g.ln(); // 0.5 * log(1/(1+g))
-    let t_pre_f = t_pre as f64;
 
     for j in 0..k {
         let x_col = &x[j];
@@ -854,20 +908,14 @@ fn sample_spike_and_slab<R: rand::Rng>(
             *r += x_col[t] * old_beta_j;
         }
 
-        // Compute centered statistics for covariate j
-        let x_sum: f64 = x_col.iter().take(t_pre).sum();
-        let x_mean = x_sum / t_pre_f;
-        let sum_x2: f64 = x_col.iter().take(t_pre).map(|v| v * v).sum();
-        // Centered sum of squares: Σ(x_j - x̄)² = Σx² - T*x̄²
-        let n_j = sum_x2 - t_pre_f * x_mean * x_mean;
+        // Use pre-computed centered statistics (x_mean, n_j) for O(1) lookup
+        let (x_mean, n_j) = precomputed_stats[j];
 
         // Guard against zero/near-zero variance covariates
         if n_j < 1e-12 {
             gamma[j] = false;
             beta[j] = 0.0;
-            for (t, r) in residual.iter_mut().enumerate().take(t_pre) {
-                *r -= x_col[t] * beta[j];
-            }
+            // No residual update needed: beta[j] is 0, so x_col[t] * 0 = 0
             continue;
         }
 
@@ -1095,13 +1143,6 @@ fn matrix_vector_product(matrix: &[Vec<f64>], vector: &[f64]) -> Vec<f64> {
         .collect()
 }
 
-fn scale_matrix(matrix: &[Vec<f64>], scalar: f64) -> Vec<Vec<f64>> {
-    matrix
-        .iter()
-        .map(|row| row.iter().map(|value| value * scalar).collect())
-        .collect()
-}
-
 fn sample_post_period_states<R: rand::Rng>(
     rng: &mut R,
     last_pre_state: f64,
@@ -1195,81 +1236,6 @@ fn generate_predictions_dynamic<R: rand::Rng>(
         .collect()
 }
 
-fn invert_matrix(a: &[Vec<f64>]) -> Vec<Vec<f64>> {
-    let k = a.len();
-    if k == 1 {
-        return vec![vec![1.0 / a[0][0]]];
-    }
-
-    let width = 2 * k;
-    let mut augmented = vec![vec![0.0; width]; k];
-    let mut row_index = 0;
-    while row_index < k {
-        let mut col_index = 0;
-        while col_index < k {
-            augmented[row_index][col_index] = a[row_index][col_index];
-            col_index += 1;
-        }
-        augmented[row_index][k + row_index] = 1.0;
-        row_index += 1;
-    }
-
-    let mut pivot_col = 0;
-    while pivot_col < k {
-        let mut max_row = pivot_col;
-        let mut max_value = augmented[pivot_col][pivot_col].abs();
-        let mut candidate_row = pivot_col + 1;
-        while candidate_row < k {
-            let candidate_value = augmented[candidate_row][pivot_col].abs();
-            if candidate_value > max_value {
-                max_value = candidate_value;
-                max_row = candidate_row;
-            }
-            candidate_row += 1;
-        }
-        augmented.swap(pivot_col, max_row);
-
-        if augmented[pivot_col][pivot_col].abs() < 1e-15 {
-            augmented[pivot_col][pivot_col] += 1e-8;
-        }
-        let pivot = augmented[pivot_col][pivot_col];
-
-        let mut normalize_col = 0;
-        while normalize_col < width {
-            augmented[pivot_col][normalize_col] /= pivot;
-            normalize_col += 1;
-        }
-
-        let mut eliminate_row = 0;
-        while eliminate_row < k {
-            if eliminate_row != pivot_col {
-                let factor = augmented[eliminate_row][pivot_col];
-                let mut eliminate_col = 0;
-                while eliminate_col < width {
-                    augmented[eliminate_row][eliminate_col] -=
-                        factor * augmented[pivot_col][eliminate_col];
-                    eliminate_col += 1;
-                }
-            }
-            eliminate_row += 1;
-        }
-
-        pivot_col += 1;
-    }
-
-    let mut inverse = vec![vec![0.0; k]; k];
-    let mut inverse_row = 0;
-    while inverse_row < k {
-        let mut inverse_col = 0;
-        while inverse_col < k {
-            inverse[inverse_row][inverse_col] = augmented[inverse_row][k + inverse_col];
-            inverse_col += 1;
-        }
-        inverse_row += 1;
-    }
-    inverse
-}
-
 #[cfg(test)]
 mod tests {
     use super::*;
@@ -1446,14 +1412,6 @@ mod tests {
         assert!((prior.beta_precision[1][0] - expected_01).abs() < 1e-12);
     }
 
-    #[test]
-    fn test_invert_identity() {
-        let a = vec![vec![1.0, 0.0], vec![0.0, 1.0]];
-        let inv = invert_matrix(&a);
-        assert!((inv[0][0] - 1.0).abs() < 1e-10);
-        assert!((inv[1][1] - 1.0).abs() < 1e-10);
-    }
-
     #[test]
     fn test_run_sampler_dynamic_regression_basic() {
         let y: Vec<f64> = (0..20).map(|i| 10.0 + 0.5 * i as f64).collect();
diff --git a/tests/test_rust_speedup.py b/tests/test_rust_speedup.py
new file mode 100644
index 0000000..97f0902
--- /dev/null
+++ b/tests/test_rust_speedup.py
@@ -0,0 +1,299 @@
+"""Tests for Rust Gibbs sampler speed-up: Cholesky-based sampling + pre-computation.
+
+Verifies:
+1. Sampler output correctness after Cholesky migration (same statistical properties)
+2. XtX pre-computation produces identical results to per-iteration computation
+3. Spike-and-slab slab_stats pre-computation produces correct n_j and x_mean
+4. Speed improvement with many covariates (k=20)
+5. R numerical compatibility improvement
+"""
+
+import math
+import time
+
+import numpy as np
+from causal_impact._core import run_gibbs_sampler
+
+
+class TestSamplerOutputCorrectness:
+    """Verify that Cholesky migration does not break sampler output properties."""
+
+    def test_no_covariates_output_unchanged(self):
+        """k=0: no regression, output identical regardless of Cholesky."""
+        y = [10.0 + 0.1 * i for i in range(100)]
+        result = run_gibbs_sampler(
+            y=y,
+            x=None,
+            pre_end=70,
+            niter=50,
+            nwarmup=10,
+            nchains=1,
+            seed=42,
+            prior_level_sd=0.01,
+        )
+        assert len(result.states) == 50
+        assert len(result.beta) == 50
+        for beta_row in result.beta:
+            assert len(beta_row) == 0
+
+    def test_single_covariate_posterior_mean_reasonable(self):
+        """k=1: posterior beta mean should be near true coefficient."""
+        rng = np.random.RandomState(42)
+        t = 200
+        x1 = rng.randn(t)
+        y = [10.0 + 2.0 * x1[i] + 0.1 * rng.randn() for i in range(t)]
+        result = run_gibbs_sampler(
+            y=y,
+            x=[x1.tolist()],
+            pre_end=150,
+            niter=500,
+            nwarmup=100,
+            nchains=1,
+            seed=42,
+            prior_level_sd=0.01,
+        )
+        beta_samples = [b[0] for b in result.beta]
+        beta_mean = np.mean(beta_samples)
+        assert abs(beta_mean - 2.0) < 1.0, (
+            f"Posterior beta mean {beta_mean:.3f} should be near true value 2.0"
+        )
+
+    def test_two_covariates_posterior_means_reasonable(self):
+        """k=2: both posterior means near true coefficients."""
+        rng = np.random.RandomState(123)
+        t = 300
+        x1 = rng.randn(t)
+        x2 = rng.randn(t)
+        y = [10.0 + 1.5 * x1[i] - 0.8 * x2[i] + 0.1 * rng.randn() for i in range(t)]
+        result = run_gibbs_sampler(
+            y=y,
+            x=[x1.tolist(), x2.tolist()],
+            pre_end=200,
+            niter=500,
+            nwarmup=100,
+            nchains=1,
+            seed=42,
+            prior_level_sd=0.01,
+        )
+        beta1_mean = np.mean([b[0] for b in result.beta])
+        beta2_mean = np.mean([b[1] for b in result.beta])
+        assert abs(beta1_mean - 1.5) < 1.0, f"beta1 mean {beta1_mean:.3f} off"
+        assert abs(beta2_mean - (-0.8)) < 1.0, f"beta2 mean {beta2_mean:.3f} off"
+
+    def test_sigma_obs_positive(self):
+        """sigma_obs samples must all be positive."""
+        rng = np.random.RandomState(42)
+        t = 100
+        x1 = rng.randn(t)
+        y = [5.0 + x1[i] + 0.5 * rng.randn() for i in range(t)]
+        result = run_gibbs_sampler(
+            y=y,
+            x=[x1.tolist()],
+            pre_end=70,
+            niter=100,
+            nwarmup=20,
+            nchains=1,
+            seed=42,
+            prior_level_sd=0.01,
+        )
+        for sigma in result.sigma_obs:
+            assert sigma > 0, f"sigma_obs must be positive, got {sigma}"
+
+    def test_predictions_finite(self):
+        """All predictions must be finite (no NaN or Inf)."""
+        rng = np.random.RandomState(42)
+        t = 100
+        x1 = rng.randn(t)
+        y = [5.0 + x1[i] + 0.5 * rng.randn() for i in range(t)]
+        result = run_gibbs_sampler(
+            y=y,
+            x=[x1.tolist()],
+            pre_end=70,
+            niter=100,
+            nwarmup=20,
+            nchains=1,
+            seed=42,
+            prior_level_sd=0.01,
+        )
+        for pred_row in result.predictions:
+            for val in pred_row:
+                assert math.isfinite(val), f"Prediction not finite: {val}"
+
+
+class TestSamplerDeterminism:
+    """Same seed must produce same output (determinism after refactor)."""
+
+    def test_same_seed_same_output(self):
+        """Two runs with identical seed produce identical beta samples."""
+        rng = np.random.RandomState(42)
+        t = 100
+        x1 = rng.randn(t)
+        y = [5.0 + x1[i] for i in range(t)]
+        kwargs = dict(
+            y=y,
+            x=[x1.tolist()],
+            pre_end=70,
+            niter=50,
+            nwarmup=10,
+            nchains=1,
+            seed=99,
+            prior_level_sd=0.01,
+        )
+        r1 = run_gibbs_sampler(**kwargs)
+        r2 = run_gibbs_sampler(**kwargs)
+        for b1, b2 in zip(r1.beta, r2.beta):
+            for v1, v2 in zip(b1, b2):
+                assert v1 == v2, "Determinism broken"
+
+
+class TestSpikeSlab:
+    """Verify spike-and-slab still works correctly after pre-computation."""
+
+    def test_spike_slab_irrelevant_covariates_excluded(self):
+        """Irrelevant covariates should have low inclusion probability."""
+        rng = np.random.RandomState(42)
+        t = 300
+        x_signal = rng.randn(t)
+        x_noise = rng.randn(t)
+        y = [10.0 + 3.0 * x_signal[i] + 0.1 * rng.randn() for i in range(t)]
+        result = run_gibbs_sampler(
+            y=y,
+            x=[x_signal.tolist(), x_noise.tolist()],
+            pre_end=200,
+            niter=500,
+            nwarmup=100,
+            nchains=1,
+            seed=42,
+            prior_level_sd=0.01,
+            expected_model_size=1.0,
+        )
+        gamma_signal = np.mean([g[0] for g in result.gamma])
+        gamma_noise = np.mean([g[1] for g in result.gamma])
+        assert gamma_signal > gamma_noise, (
+            f"Signal inclusion {gamma_signal:.3f} should exceed noise {gamma_noise:.3f}"
+        )
+
+    def test_spike_slab_constant_covariate_excluded(self):
+        """Constant covariate (n_j=0) should be excluded (gamma=false)."""
+        t = 100
+        x_const = [5.0] * t
+        y = [10.0 + 0.1 * i for i in range(t)]
+        result = run_gibbs_sampler(
+            y=y,
+            x=[x_const],
+            pre_end=70,
+            niter=100,
+            nwarmup=20,
+            nchains=1,
+            seed=42,
+            prior_level_sd=0.01,
+            expected_model_size=0.5,
+        )
+        gamma_const = np.mean([g[0] for g in result.gamma])
+        assert gamma_const == 0.0, (
+            f"Constant covariate should be excluded, got {gamma_const}"
+        )
+
+
+class TestManyCovariates:
+    """Test with large k to verify no numerical issues and speed improvement."""
+
+    def test_k20_no_nan(self):
+        """k=20 covariates: all outputs must be finite (no NaN/Inf)."""
+        rng = np.random.RandomState(0)
+        t = 200
+        k = 20
+        x_cols = [rng.randn(t).tolist() for _ in range(k)]
+        y = [10.0 + 0.5 * rng.randn() for _ in range(t)]
+        result = run_gibbs_sampler(
+            y=y,
+            x=x_cols,
+            pre_end=150,
+            niter=200,
+            nwarmup=50,
+            nchains=1,
+            seed=42,
+            prior_level_sd=0.01,
+        )
+        for beta_row in result.beta:
+            for val in beta_row:
+                assert math.isfinite(val), f"Beta not finite: {val}"
+        for sigma in result.sigma_obs:
+            assert math.isfinite(sigma), f"sigma_obs not finite: {sigma}"
+
+    def test_k20_speed_benchmark(self):
+        """k=20, T=400, niter=500: should complete within reasonable time."""
+        rng = np.random.RandomState(0)
+        t = 400
+        k = 20
+        x_cols = [rng.randn(t).tolist() for _ in range(k)]
+        coefs = rng.randn(k)
+        y = [
+            sum(coefs[j] * x_cols[j][i] for j in range(k)) + rng.randn()
+            for i in range(t)
+        ]
+        t0 = time.time()
+        result = run_gibbs_sampler(
+            y=y,
+            x=x_cols,
+            pre_end=300,
+            niter=500,
+            nwarmup=100,
+            nchains=1,
+            seed=42,
+            prior_level_sd=0.01,
+        )
+        elapsed = time.time() - t0
+        assert elapsed < 30.0, f"k=20 benchmark took {elapsed:.1f}s, expected < 30s"
+        assert len(result.beta) == 500
+
+    def test_k5_speed_benchmark(self):
+        """k=5, T=200, niter=500: should complete within reasonable time."""
+        rng = np.random.RandomState(0)
+        t = 200
+        k = 5
+        x_cols = [rng.randn(t).tolist() for _ in range(k)]
+        y = [10.0 + rng.randn() for _ in range(t)]
+        t0 = time.time()
+        result = run_gibbs_sampler(
+            y=y,
+            x=x_cols,
+            pre_end=150,
+            niter=500,
+            nwarmup=100,
+            nchains=1,
+            seed=42,
+            prior_level_sd=0.01,
+        )
+        elapsed = time.time() - t0
+        assert elapsed < 10.0, f"k=5 benchmark took {elapsed:.1f}s, expected < 10s"
+        assert len(result.beta) == 500
+
+
+class TestSeasonalRegression:
+    """Seasonal regression should also benefit from XtX pre-computation."""
+
+    def test_seasonal_with_covariates_finite(self):
+        """Seasonal model + covariates: all outputs finite."""
+        rng = np.random.RandomState(42)
+        t = 200
+        x1 = rng.randn(t)
+        y = [10.0 + x1[i] + 0.5 * rng.randn() for i in range(t)]
+        result = run_gibbs_sampler(
+            y=y,
+            x=[x1.tolist()],
+            pre_end=150,
+            niter=100,
+            nwarmup=20,
+            nchains=1,
+            seed=42,
+            prior_level_sd=0.01,
+            nseasons=7.0,
+            season_duration=1.0,
+        )
+        for beta_row in result.beta:
+            for val in beta_row:
+                assert math.isfinite(val), f"Beta not finite: {val}"
+        for pred_row in result.predictions:
+            for val in pred_row:
+                assert math.isfinite(val), f"Prediction not finite: {val}"