jerryxyj
diff --git a/‎.github/workflows/scorecard.yml‎
Lines changed: 2 additions & 2 deletions b/‎.github/workflows/scorecard.yml‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎keras/api/_tf_keras/keras/ops/__init__.py‎
Lines changed: 1 addition & 0 deletions b/‎keras/api/_tf_keras/keras/ops/__init__.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎keras/api/_tf_keras/keras/ops/numpy/__init__.py‎
Lines changed: 1 addition & 0 deletions b/‎keras/api/_tf_keras/keras/ops/numpy/__init__.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎keras/api/ops/__init__.py‎
Lines changed: 1 addition & 0 deletions b/‎keras/api/ops/__init__.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎keras/api/ops/numpy/__init__.py‎
Lines changed: 1 addition & 0 deletions b/‎keras/api/ops/numpy/__init__.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎keras/src/backend/jax/numpy.py‎
Lines changed: 5 additions & 0 deletions b/‎keras/src/backend/jax/numpy.py‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎keras/src/backend/jax/random.py‎
Lines changed: 4 additions & 0 deletions b/‎keras/src/backend/jax/random.py‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎keras/src/backend/jax/trainer.py‎
Lines changed: 82 additions & 0 deletions b/‎keras/src/backend/jax/trainer.py‎
Lines changed: 82 additions & 0 deletions
diff --git a/‎keras/src/backend/jax/trainer_test.py‎
Lines changed: 110 additions & 0 deletions b/‎keras/src/backend/jax/trainer_test.py‎
Lines changed: 110 additions & 0 deletions
diff --git a/‎keras/src/backend/numpy/core.py‎
Lines changed: 2 additions & 3 deletions b/‎keras/src/backend/numpy/core.py‎
Lines changed: 2 additions & 3 deletions
@@ -48,14 +48,14 @@ jobs:
       # Upload the results as artifacts (optional). Commenting out will disable uploads of run results in SARIF
       # format to the repository Actions tab.
       - name: "Upload artifact"
-        uses: actions/upload-artifact@b7c566a772e6b6bfb58ed0dc250532a479d7789f # v6.0.0
+        uses: actions/upload-artifact@bbbca2ddaa5d8feaa63e36b76fdaad77386f024f # v7.0.0
         with:
           name: SARIF file
           path: results.sarif
           retention-days: 5
 
       # Upload the results to GitHub's code scanning dashboard.
       - name: "Upload to code-scanning"
-        uses: github/codeql-action/upload-sarif@b20883b0cd1f46c72ae0ba6d1090936928f9fa30 # v3.29.5
+        uses: github/codeql-action/upload-sarif@89a39a4e59826350b863aa6b6252a07ad50cf83e # v3.29.5
         with:
           sarif_file: results.sarif
@@ -251,6 +251,7 @@
 from keras.src.ops.numpy import moveaxis as moveaxis
 from keras.src.ops.numpy import multiply as multiply
 from keras.src.ops.numpy import nan_to_num as nan_to_num
+from keras.src.ops.numpy import nanargmin as nanargmin
 from keras.src.ops.numpy import nancumsum as nancumsum
 from keras.src.ops.numpy import nanmax as nanmax
 from keras.src.ops.numpy import nanmean as nanmean
 
@@ -133,6 +133,7 @@
 from keras.src.ops.numpy import moveaxis as moveaxis
 from keras.src.ops.numpy import multiply as multiply
 from keras.src.ops.numpy import nan_to_num as nan_to_num
+from keras.src.ops.numpy import nanargmin as nanargmin
 from keras.src.ops.numpy import nancumsum as nancumsum
 from keras.src.ops.numpy import nanmax as nanmax
 from keras.src.ops.numpy import nanmean as nanmean
 
@@ -251,6 +251,7 @@
 from keras.src.ops.numpy import moveaxis as moveaxis
 from keras.src.ops.numpy import multiply as multiply
 from keras.src.ops.numpy import nan_to_num as nan_to_num
+from keras.src.ops.numpy import nanargmin as nanargmin
 from keras.src.ops.numpy import nancumsum as nancumsum
 from keras.src.ops.numpy import nanmax as nanmax
 from keras.src.ops.numpy import nanmean as nanmean
 
@@ -133,6 +133,7 @@
 from keras.src.ops.numpy import moveaxis as moveaxis
 from keras.src.ops.numpy import multiply as multiply
 from keras.src.ops.numpy import nan_to_num as nan_to_num
+from keras.src.ops.numpy import nanargmin as nanargmin
 from keras.src.ops.numpy import nancumsum as nancumsum
 from keras.src.ops.numpy import nanmax as nanmax
 from keras.src.ops.numpy import nanmean as nanmean
 
@@ -1043,6 +1043,11 @@ def moveaxis(x, source, destination):
     return jnp.moveaxis(x, source=source, destination=destination)
 
 
+def nanargmin(x, axis=None, keepdims=False):
+    x = convert_to_tensor(x)
+    return jnp.nanargmin(x, axis=axis, keepdims=keepdims)
+
+
 def nancumsum(x, axis=None, dtype=None):
     x = convert_to_tensor(x)
     return jnp.nancumsum(x, axis=axis, dtype=dtype)
 
@@ -69,6 +69,10 @@ def _get_concrete_noise_shape(inputs, noise_shape):
 
 
 def dropout(inputs, rate, noise_shape=None, seed=None):
+    if rate == 1.0:
+        return jax.numpy.zeros_like(inputs)
+    if rate == 0.0:
+        return inputs
     seed = jax_draw_seed(seed)
     keep_prob = 1.0 - rate
     # The `noise_shape` may contain `None` so we need to convert it
 
@@ -916,13 +916,95 @@ def _get_state_sharding_spec(self):
         else:
             optimizer_shardings = []
         metrics_shardings = [v.value.sharding for v in self.metrics_variables]
+
+        self._check_sharding_consistency(
+            trainable_shardings,
+            non_trainable_shardings,
+            optimizer_shardings,
+            metrics_shardings,
+        )
+
         return (
             trainable_shardings,
             non_trainable_shardings,
             optimizer_shardings,
             metrics_shardings,
         )
 
+    def _check_sharding_consistency(
+        self,
+        trainable_shardings,
+        non_trainable_shardings,
+        optimizer_shardings,
+        metrics_shardings,
+    ):
+        """Warn if there is a mix of local and distributed variable shardings.
+
+        When some variables have SingleDeviceSharding (created outside the
+        distribution scope) and others have mesh-aware shardings (created
+        inside), passing them together as `out_shardings` to `jax.jit`
+        raises ``ValueError: Received incompatible devices for jitted
+        computation``. This helper detects the mismatch early and emits
+        an actionable warning.
+        """
+        if distribution_lib.distribution() is None:
+            return
+
+        var_shard_pairs = itertools.chain(
+            zip(self.trainable_variables, trainable_shardings),
+            zip(self.non_trainable_variables, non_trainable_shardings),
+            zip(
+                (
+                    self.optimizer.variables
+                    if hasattr(self, "optimizer") and self.optimizer
+                    else []
+                ),
+                optimizer_shardings,
+            ),
+            zip(self.metrics_variables, metrics_shardings),
+        )
+
+        first_local_var_path = None
+        has_mesh = False
+        for v, s in var_shard_pairs:
+            if isinstance(s, jax.sharding.SingleDeviceSharding):
+                if first_local_var_path is None:
+                    first_local_var_path = v.path
+            else:
+                has_mesh = True
+            # Early exit: we know there is a mix as soon as we have
+            # seen at least one of each kind.
+            if first_local_var_path and has_mesh:
+                break
+
+        if not (first_local_var_path and has_mesh):
+            return
+
+        warnings.warn(
+            "Detected a mix of local (SingleDeviceSharding) and "
+            "distributed (mesh-aware) variables. This will cause "
+            "a 'ValueError: Received incompatible devices for "
+            "jitted computation' when JAX tries to compile the "
+            "training step.\n\n"
+            f"First local variable found: {first_local_var_path!r}\n\n"
+            "This typically happens when the model is built or "
+            "weights are loaded before the distribution is set. "
+            "To fix this, call set_distribution() before creating "
+            "any Keras objects:\n\n"
+            "    import keras\n"
+            "    keras.distribution.set_distribution(distribution)\n"
+            "    model = create_model()\n"
+            "    model.compile(...)\n"
+            "    model.fit(...)\n\n"
+            "Alternatively, use the distribution scope context "
+            "manager:\n\n"
+            "    with distribution.scope():\n"
+            "        model = create_model()\n"
+            "        model.compile(...)\n"
+            "        model.fit(...)\n",
+            stacklevel=3,
+        )
+
     def _purge_model_variables(
         self,
         trainable_variables=False,
 
@@ -0,0 +1,110 @@
+import warnings
+
+import numpy as np
+from absl.testing import parameterized
+
+from keras.src import backend
+from keras.src import layers
+from keras.src import models
+from keras.src import testing
+from keras.src.backend import distribution_lib as backend_dlib
+from keras.src.distribution import distribution_lib
+
+
+class JAXTrainerTest(testing.TestCase, parameterized.TestCase):
+    def _skip_if_not_distributed(self):
+        if backend.backend() != "jax":
+            self.skipTest("Requires JAX backend")
+        if len(backend_dlib.list_devices()) < 2:
+            self.skipTest("Requires at least 2 devices")
+
+    def _make_distribution(self, dist_type):
+        if dist_type == "data_parallel":
+            return distribution_lib.DataParallel()
+        devices = backend_dlib.list_devices()
+        n = len(devices)
+        mesh = distribution_lib.DeviceMesh((n,), ["model"], devices)
+        layout_map = distribution_lib.LayoutMap(mesh)
+        layout_map[".*dense.*kernel"] = distribution_lib.TensorLayout(
+            [None, "model"]
+        )
+        layout_map[".*dense.*bias"] = distribution_lib.TensorLayout(["model"])
+        return distribution_lib.ModelParallel(layout_map=layout_map)
+
+    # ----------------------------------------------------------------
+    # Mixed-sharding warning tests
+    # ----------------------------------------------------------------
+    @parameterized.named_parameters(
+        {"testcase_name": "DataParallel", "dist_type": "data_parallel"},
+        {"testcase_name": "ModelParallel", "dist_type": "model_parallel"},
+    )
+    def test_warns_when_model_built_outside_scope(self, dist_type):
+        """Model built outside distribution -> mixed warning on compile."""
+        self._skip_if_not_distributed()
+        import jax
+
+        n = len(backend_dlib.list_devices())
+        units = n * max(1, 4 // n)
+        dist = self._make_distribution(dist_type)
+
+        # Model created outside any distribution scope — weights are local.
+        model = models.Sequential([layers.Dense(units, input_shape=(16,))])
+
+        for w in model.weights:
+            self.assertIsInstance(
+                w.value.sharding, jax.sharding.SingleDeviceSharding
+            )
+
+        inputs = np.random.normal(size=(8, 16)).astype("float32")
+        labels = np.random.normal(size=(8, units)).astype("float32")
+
+        with dist.scope():
+            model.compile(loss="mse", optimizer="adam")
+            with warnings.catch_warnings(record=True) as caught:
+                warnings.simplefilter("always")
+                model._symbolic_build(data_batch=(inputs[:2], labels[:2]))
+                model._get_state_sharding_spec()
+
+            mixed = [w for w in caught if "mix of local" in str(w.message)]
+            self.assertGreater(
+                len(mixed),
+                0,
+                "Expected a mixed-sharding warning but none was raised",
+            )
+            msg = str(mixed[0].message)
+            self.assertIn("SingleDeviceSharding", msg)
+            self.assertIn("set_distribution", msg)
+
+    @parameterized.named_parameters(
+        {"testcase_name": "DataParallel", "dist_type": "data_parallel"},
+        {"testcase_name": "ModelParallel", "dist_type": "model_parallel"},
+    )
+    def test_no_warning_when_model_built_inside_scope(self, dist_type):
+        """Model built inside distribution scope -> no warning."""
+        self._skip_if_not_distributed()
+
+        n = len(backend_dlib.list_devices())
+        units = n * max(1, 4 // n)
+        dist = self._make_distribution(dist_type)
+
+        # Model created inside scope — weights get proper sharding.
+        with dist.scope():
+            model = models.Sequential([layers.Dense(units, input_shape=(16,))])
+
+        inputs = np.random.normal(size=(8, 16)).astype("float32")
+        labels = np.random.normal(size=(8, units)).astype("float32")
+
+        with dist.scope():
+            model.compile(loss="mse", optimizer="adam")
+            with warnings.catch_warnings(record=True) as caught:
+                warnings.simplefilter("always")
+                model._symbolic_build(data_batch=(inputs[:2], labels[:2]))
+                model._get_state_sharding_spec()
+
+            mixed = [w for w in caught if "mix of local" in str(w.message)]
+            self.assertEqual(
+                len(mixed),
+                0,
+                "Unexpected mixed-sharding warning when model is "
+                "built inside scope",
+            )
@@ -330,9 +330,8 @@ def scatter(indices, values, shape):
     indices = np.reshape(indices, [-1, index_length])
     values = np.reshape(values, [-1] + list(value_shape))
 
-    for i in range(indices.shape[0]):
-        index = indices[i]
-        zeros[tuple(index)] += values[i]
+    idx = tuple(indices.T)
+    np.add.at(zeros, idx, values)
     return zeros