[Hardware] AMD - Replace vllm CuMemAllocator dependency with torch_memory_saver (#444)

yushengsu-thu · web-flow · commit f58bcbf80251 · 2025-10-10T10:58:23.000+08:00
* remove vllm CuMemAllocator dependency

* conduct pre-commit
diff --git a/docker/Dockerfile.rocm b/docker/Dockerfile.rocm
@@ -1,7 +1,8 @@
 #### Use the base image
 
 # The Docker image built with this Dockerfile:
-# Supports at least up to slime commit ID: d4a7741 (Sep 7, 2025) - supported by amd_patch/sglv0.5.0rc0 
+# Supports at least up to slime commit ID: 2710445 (Oct 9, 2025) - supported by amd_patch/sglv0.5.0rc0 
+# Still need to update amd_patch
 
 # You can find the latest pre-built Docker image from here: https://hub.docker.com/r/rlsys/slime/tags
 # Current latest docker img: `rlsys/slime:slime_ubuntu22.04_rocm6.3.4-patch-numa-patch_sglang0.4.9_megatron-patch_ray2.47.1_apex_torch-memory-saver0.0.8-patch-vim` manually add the patch to mitigate checkpoint loading issue. (vim /workspace/Megatron-LM-amd_version/megatron/training/checkpointing.py. Line: 1449 ~ 1457 - comment out if becasue of dismatch number of dist checkpoints
@@ -348,6 +349,15 @@ RUN pip install google-generativeai
 ########################################
 
 
+########################################
+########Additional packages#############
+########################################
+RUN pip install tensorboard
+########################################
+########################################
+########################################
+
+
 WORKDIR /workspace/
 
 CMD ["/usr/bin/bash"]
diff --git a/scripts/run-llama3.2-3B-Instruct-amd.sh b/scripts/run-llama3.2-3B-Instruct-amd.sh
@@ -15,14 +15,14 @@ pkill -9 python
 set -euxo pipefail
 
 ### AMD Support ###
-SLIME_DIR="/home/yushensu/projects/slime" # Need to change to your own path
-export SLIME_DIR=$SLIME_DIR
+SLIME_DIR="${SLIME_DIR:-/home/yushensu/projects/slime}" # Default path if not set in environment
+export SLIME_DIR
 
-MODEL_DIR="/home/yushensu/projects/model" # Need to change to your own path
-export MODEL_DIR=$MODEL_DIR
+MODEL_DIR="${MODEL_DIR:-/home/yushensu/projects/model}" # Default path if not set in environment
+export MODEL_DIR
 
-DATA_DIR="/home/yushensu/projects/data"  # Need to change to your own path
-export DATA_DIR=$DATA_DIR
+DATA_DIR="${DATA_DIR:-/home/yushensu/projects/data}"  # Default path if not set in environment
+export DATA_DIR
 
 # For AMD GPU
 export RAY_EXPERIMENTAL_NOSET_HIP_VISIBLE_DEVICES=${RAY_EXPERIMENTAL_NOSET_HIP_VISIBLE_DEVICES:-"1"} # Must set to 1
@@ -148,7 +148,7 @@ ray start --head --node-ip-address ${MASTER_ADDR} --num-gpus ${NUM_GPUS} --disab
 # Build the runtime environment JSON with proper variable substitution
 RUNTIME_ENV_JSON="{
   \"env_vars\": {
-    \"PYTHONPATH\": \"/workspace/Megatron-LM-amd_version/\",
+    \"PYTHONPATH\": \"/workspace/Megatron-LM/\",
     \"CUDA_DEVICE_MAX_CONNECTIONS\": \"1\"
   }
 }"
diff --git a/scripts/run-qwen3-4B-amd.sh b/scripts/run-qwen3-4B-amd.sh
@@ -15,14 +15,14 @@ set -euxo pipefail
 
 
 ### AMD Support ###
-SLIME_DIR="/home/yushensu/projects/slime" # Need to change to your own path
-export SLIME_DIR=$SLIME_DIR
+SLIME_DIR="${SLIME_DIR:-/home/yushensu/projects/slime}" # Default path if not set in environment
+export SLIME_DIR
 
-MODEL_DIR="/home/yushensu/projects/model" # Need to change to your own path
-export MODEL_DIR=$MODEL_DIR
+MODEL_DIR="${MODEL_DIR:-/home/yushensu/projects/model}" # Default path if not set in environment
+export MODEL_DIR
 
-DATA_DIR="/home/yushensu/projects/data"  # Need to change to your own path
-export DATA_DIR=$DATA_DIR
+DATA_DIR="${DATA_DIR:-/home/yushensu/projects/data}"  # Default path if not set in environment
+export DATA_DIR
 
 # For AMD GPU
 export RAY_EXPERIMENTAL_NOSET_HIP_VISIBLE_DEVICES=${RAY_EXPERIMENTAL_NOSET_HIP_VISIBLE_DEVICES:-"1"} # Must set to 1
diff --git a/scripts/run-qwen3-8B-amd.sh b/scripts/run-qwen3-8B-amd.sh
@@ -19,14 +19,14 @@ set -euxo pipefail
 
 
 ### AMD Support ###
-SLIME_DIR="/home/yushensu/projects/slime" # Need to change to your own path
-export SLIME_DIR=$SLIME_DIR
+SLIME_DIR="${SLIME_DIR:-/home/yushensu/projects/slime}" # Default path if not set in environment
+export SLIME_DIR
 
-MODEL_DIR="/home/yushensu/projects/model" # Need to change to your own path
-export MODEL_DIR=$MODEL_DIR
+MODEL_DIR="${MODEL_DIR:-/home/yushensu/projects/model}" # Default path if not set in environment
+export MODEL_DIR
 
-DATA_DIR="/home/yushensu/projects/data"  # Need to change to your own path
-export DATA_DIR=$DATA_DIR
+DATA_DIR="${DATA_DIR:-/home/yushensu/projects/data}"  # Default path if not set in environment
+export DATA_DIR
 
 # For AMD GPU
 export RAY_EXPERIMENTAL_NOSET_HIP_VISIBLE_DEVICES=${RAY_EXPERIMENTAL_NOSET_HIP_VISIBLE_DEVICES:-"1"} # Must set to 1
diff --git a/slime/backends/megatron_utils/actor.py b/slime/backends/megatron_utils/actor.py
@@ -9,14 +9,9 @@
 import ray
 import torch
 import torch.distributed as dist
-from ray.actor import ActorHandle
-
-if torch.version.hip:
-    from vllm.device_allocator.cumem import CuMemAllocator
-else:
-    from torch_memory_saver import torch_memory_saver
-
 from megatron.core import mpu
+from ray.actor import ActorHandle
+from torch_memory_saver import torch_memory_saver
 from transformers import AutoConfig, AutoTokenizer
 
 from slime.ray.train_actor import TrainRayActor
@@ -164,11 +159,7 @@ def sleep(self, tags: Union[str, Tuple[str, ...]]) -> None:
         if hasattr(mpu, "destroy_process_groups"):
             mpu.destroy_process_groups()
 
-        if not torch.version.hip:
-            torch_memory_saver.pause()
-        else:
-            allocator = CuMemAllocator.get_instance()
-            allocator.sleep(offload_tags=tags)
+        torch_memory_saver.pause()
 
         print_memory("after offload model")
 
@@ -188,11 +179,7 @@ def wake_up(self, tags: Union[str, Tuple[str, ...]]) -> None:
         if isinstance(tags, str):
             tags = (tags,)
 
-        if not torch.version.hip:
-            torch_memory_saver.resume()
-        else:
-            allocator = CuMemAllocator.get_instance()
-            allocator.wake_up(tags)
+        torch_memory_saver.resume()
 
         clear_memory()
         if hasattr(mpu, "reload_process_groups"):
@@ -423,7 +410,7 @@ def update_weights(self) -> None:
             self.weight_updater.connect_rollout_engines(rollout_engines, rollout_engine_lock)
             dist.barrier(group=get_gloo_group())
 
-        with torch_memory_saver.disable() if self.args.offload and not torch.version.hip else nullcontext():
+        with torch_memory_saver.disable() if self.args.offload else nullcontext():
             print_memory("before update_weights")
             self.weight_updater.update_weights()
             print_memory("after update_weights")
diff --git a/slime/backends/megatron_utils/model.py b/slime/backends/megatron_utils/model.py
@@ -2,7 +2,6 @@
 import gc
 import math
 import os
-from contextlib import nullcontext
 from functools import partial
 
 import torch
@@ -26,9 +25,6 @@
 from .loss import loss_function
 from .model_provider import get_model_provider_func
 
-if torch.version.hip:
-    from vllm.device_allocator.cumem import CuMemAllocator
-
 
 def get_optimizer_param_scheduler(args, optimizer):
     """Build the learning rate scheduler."""
@@ -80,71 +76,64 @@ def setup_model_and_optimizer(
 
     model = get_model(get_model_provider_func(args, role), ModelType.encoder_or_decoder, wrap_with_ddp=False)
 
-    with (
-        CuMemAllocator.get_instance().use_memory_pool(tag="model")
-        if args.offload and torch.version.hip
-        else nullcontext()
-    ):
-        config = get_model_config(model[0])
-
-        kwargs = {}
-        for f in dataclasses.fields(DistributedDataParallelConfig):
-            if hasattr(args, f.name):
-                kwargs[f.name] = getattr(args, f.name)
-        kwargs["grad_reduce_in_fp32"] = args.accumulate_allreduce_grads_in_fp32
-        kwargs["check_for_nan_in_grad"] = args.check_for_nan_in_loss_and_grad
-        kwargs["check_for_large_grads"] = args.check_for_large_grads
-        kwargs["bucket_size"] = args.ddp_bucket_size
-        kwargs["pad_buckets_for_high_nccl_busbw"] = args.ddp_pad_buckets_for_high_nccl_busbw
-        kwargs["average_in_collective"] = args.ddp_average_in_collective
-        ddp_config = DistributedDataParallelConfig(**kwargs)
-
-        # In the custom FSDP and DDP use path, we need to initialize the bucket size.
-        # If bucket_size is not provided as an input, use sane default.
-        # If using very large dp_sizes, make buckets larger to ensure that chunks used in NCCL
-        # ring-reduce implementations are large enough to remain bandwidth-bound rather than
-        # latency-bound.
-        if ddp_config.bucket_size is None:
-            ddp_config.bucket_size = max(
-                40000000, 1000000 * mpu.get_data_parallel_world_size(with_context_parallel=True)
-            )
-        # Set bucket_size to infinity if overlap_grad_reduce is False.
-        if not ddp_config.overlap_grad_reduce:
-            ddp_config.bucket_size = None
-
-        model = [
-            DDP(
-                config=config,
-                ddp_config=ddp_config,
-                module=model_chunk,
-                # Turn off bucketing for model_chunk 2 onwards, since communication for these
-                # model chunks is overlapped with compute anyway.
-                disable_bucketing=(model_chunk_idx > 0) or args.overlap_param_gather_with_optimizer_step,
-            )
-            for (model_chunk_idx, model_chunk) in enumerate(model)
-        ]
-
-        # Optimizer
-        kwargs = {}
-        for f in dataclasses.fields(OptimizerConfig):
-            if hasattr(args, f.name):
-                kwargs[f.name] = getattr(args, f.name)
-        config = OptimizerConfig(**kwargs)
-        config.timers = None
-
-        optimizer = get_megatron_optimizer(
-            config,
-            model,
-            no_wd_decay_cond,
-            scale_lr_cond,
-            lr_mult,
-            use_gloo_process_groups=args.enable_gloo_process_groups,
+    config = get_model_config(model[0])
+
+    kwargs = {}
+    for f in dataclasses.fields(DistributedDataParallelConfig):
+        if hasattr(args, f.name):
+            kwargs[f.name] = getattr(args, f.name)
+    kwargs["grad_reduce_in_fp32"] = args.accumulate_allreduce_grads_in_fp32
+    kwargs["check_for_nan_in_grad"] = args.check_for_nan_in_loss_and_grad
+    kwargs["check_for_large_grads"] = args.check_for_large_grads
+    kwargs["bucket_size"] = args.ddp_bucket_size
+    kwargs["pad_buckets_for_high_nccl_busbw"] = args.ddp_pad_buckets_for_high_nccl_busbw
+    kwargs["average_in_collective"] = args.ddp_average_in_collective
+    ddp_config = DistributedDataParallelConfig(**kwargs)
+
+    # In the custom FSDP and DDP use path, we need to initialize the bucket size.
+    # If bucket_size is not provided as an input, use sane default.
+    # If using very large dp_sizes, make buckets larger to ensure that chunks used in NCCL
+    # ring-reduce implementations are large enough to remain bandwidth-bound rather than
+    # latency-bound.
+    if ddp_config.bucket_size is None:
+        ddp_config.bucket_size = max(40000000, 1000000 * mpu.get_data_parallel_world_size(with_context_parallel=True))
+    # Set bucket_size to infinity if overlap_grad_reduce is False.
+    if not ddp_config.overlap_grad_reduce:
+        ddp_config.bucket_size = None
+
+    model = [
+        DDP(
+            config=config,
+            ddp_config=ddp_config,
+            module=model_chunk,
+            # Turn off bucketing for model_chunk 2 onwards, since communication for these
+            # model chunks is overlapped with compute anyway.
+            disable_bucketing=(model_chunk_idx > 0) or args.overlap_param_gather_with_optimizer_step,
         )
-        opt_param_scheduler = get_optimizer_param_scheduler(args, optimizer)
-        for optimizer in optimizer.chained_optimizers:
-            if not getattr(optimizer, "init_state_fn", None):
-                continue
-            optimizer.init_state_fn(optimizer.optimizer, optimizer.config)
+        for (model_chunk_idx, model_chunk) in enumerate(model)
+    ]
+
+    # Optimizer
+    kwargs = {}
+    for f in dataclasses.fields(OptimizerConfig):
+        if hasattr(args, f.name):
+            kwargs[f.name] = getattr(args, f.name)
+    config = OptimizerConfig(**kwargs)
+    config.timers = None
+
+    optimizer = get_megatron_optimizer(
+        config,
+        model,
+        no_wd_decay_cond,
+        scale_lr_cond,
+        lr_mult,
+        use_gloo_process_groups=args.enable_gloo_process_groups,
+    )
+    opt_param_scheduler = get_optimizer_param_scheduler(args, optimizer)
+    for optimizer in optimizer.chained_optimizers:
+        if not getattr(optimizer, "init_state_fn", None):
+            continue
+        optimizer.init_state_fn(optimizer.optimizer, optimizer.config)
 
     return model, optimizer, opt_param_scheduler
 
diff --git a/slime/ray/actor_group.py b/slime/ray/actor_group.py
@@ -2,7 +2,6 @@
 from typing import Optional
 
 import ray
-import torch
 from ray.util.placement_group import PlacementGroup
 from ray.util.scheduling_strategies import PlacementGroupSchedulingStrategy
 
@@ -62,7 +61,7 @@ def _allocate_gpus_for_actor(self, pg, num_gpus_per_actor, wandb_run_id: Optiona
             **{name: "1" for name in NOSET_VISIBLE_DEVICES_ENV_VARS_LIST},
         }
 
-        if not torch.version.hip and self.args.offload:
+        if self.args.offload:
             import torch_memory_saver
 
             dynlib_path = os.path.join(
diff --git a/slime/ray/train_actor.py b/slime/ray/train_actor.py
@@ -57,17 +57,21 @@ def init(self, args, role, wandb_run_id, with_ref=False):
         args.world_size = dist.get_world_size()
 
         try:
-            import pynvml
+            if torch.version.hip is not None:
+                print(f"Detected ROCm/HIP environment, skipping NUMA affinity setup")
+                # will find the coresponding API to implement ROCm version as below
+            else:
+                import pynvml
 
-            pynvml.nvmlInit()
+                pynvml.nvmlInit()
 
-            local_rank = int(os.environ["RANK"]) % args.num_gpus_per_node
+                local_rank = int(os.environ["RANK"]) % args.num_gpus_per_node
 
-            handle = pynvml.nvmlDeviceGetHandleByIndex(local_rank)
-            pynvml.nvmlDeviceSetCpuAffinity(handle)
+                handle = pynvml.nvmlDeviceGetHandleByIndex(local_rank)
+                pynvml.nvmlDeviceSetCpuAffinity(handle)
 
-            print(f"Set NUMA affinity for GPU {local_rank}")
-            pynvml.nvmlShutdown()
+                print(f"Set NUMA affinity for GPU {local_rank}")
+                pynvml.nvmlShutdown()
 
         except ImportError:
             print(f"Warning: pynvml not available, skipping NUMA affinity setup")