AMD-AGI
diff --git a/‎examples/megatron/exp_pretrain.yaml‎
Lines changed: 1 addition & 1 deletion b/‎examples/megatron/exp_pretrain.yaml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/megatron/run_pretrain.sh‎
Lines changed: 32 additions & 11 deletions b/‎examples/megatron/run_pretrain.sh‎
Lines changed: 32 additions & 11 deletions
diff --git a/‎examples/scripts/get_ip_interface.sh‎
100644100755 b/‎examples/scripts/get_ip_interface.sh‎
100644100755
diff --git a/‎examples/scripts/prepare_bookcorpus_megatron_dataset.py‎
Lines changed: 22 additions & 0 deletions b/‎examples/scripts/prepare_bookcorpus_megatron_dataset.py‎
Lines changed: 22 additions & 0 deletions
diff --git a/‎examples/scripts/prepare_dataset.sh‎
Lines changed: 78 additions & 0 deletions b/‎examples/scripts/prepare_dataset.sh‎
Lines changed: 78 additions & 0 deletions
@@ -66,7 +66,7 @@ modules:
       overlap_param_gather: true
 
       # data
-      train_data_path: ${DATA_PATH:/home/azureuser/tas-public/data/deepseek-datasets/mmap_deepseekv2_datasets_text_document}
+      train_data_path: ${TOKENIZED_DATA_PATH:null}
       valid_data_path: null
       test_data_path: null
 
 
@@ -18,13 +18,31 @@ export MEGATRON_PATH=${MEGATRON_PATH:-${PRIMUS_PATH}/../Megatron-LM}
     exit 1
 }
 
-# data
-mkdir -p "${PRIMUS_PATH}"/data/deepseek-datasets
-export HF_HOME="${PRIMUS_PATH}"/data/huggingface
-export DATA_PATH="${PRIMUS_PATH}"/data/deepseek-datasets/mmap_deepseekv2_datasets_text_document
-if [[ ! -f "${DATA_PATH}.bin" || ! -f "${DATA_PATH}.idx" ]]; then
-    echo "Error: Missing required deepseek files. \
-          Please follow the README.md and download ${DATA_PATH}.bin and ${DATA_PATH}.idx."
+# model config
+export MODEL_CONFIG_FILE=$PRIMUS_PATH/primus/configs/models/megatron/${MODEL_CONFIG}.yaml
+EXTRA_TOKENIZER_TYPE=$(grep "^extra_tokenizer_type:" "$MODEL_CONFIG_FILE" | awk -F ': ' '{print $2}')
+TOKENIZER_TYPE=$(grep "^tokenizer_type:" "$MODEL_CONFIG_FILE" | awk -F ': ' '{print $2}')
+if [ -n "$EXTRA_TOKENIZER_TYPE" ]; then
+    TOKENIZER_TYPE=$EXTRA_TOKENIZER_TYPE
+fi
+export TOKENIZER_TYPE
+TOKENIZER_MODEL=$(grep "^tokenizer_model:" "$MODEL_CONFIG_FILE" | awk -F ': ' '{print $2}')
+export TOKENIZER_MODEL
+if [[ ! -f "${MODEL_CONFIG_FILE}" ]]; then
+    echo "Error: Missing model config file: $MODEL_CONFIG_FILE."
+    exit 1
+fi
+
+# dataset
+DATASET=bookcorpus
+export DATA_PATH=${DATA_PATH:-"/apps/tas/0_public/data"}
+export HF_HOME=${HF_HOME:-"${DATA_PATH}"/huggingface}
+export TOKENIZED_DATA_PATH=${TOKENIZED_DATA_PATH:-${DATA_PATH}/${DATASET}/${TOKENIZER_TYPE}/bookcorpus_text_sentence}
+if [[ ! -f "${TOKENIZED_DATA_PATH}.bin" || ! -f "${TOKENIZED_DATA_PATH}.idx" ]]; then
+    echo "Error: Missing required tokenized dataset files. \
+          Please prepare the data with command: \
+          bash ./examples/scripts/prepare_dataset.sh ${DATA_PATH} ${TOKENIZER_TYPE} ${TOKENIZER_MODEL}"
+
     exit 1
 fi
 
@@ -79,7 +97,10 @@ if [ "$NODE_RANK" = "0" ]; then
     echo "[NODE-$NODE_RANK] PRIMUS_PATH: $PRIMUS_PATH"
     echo "[NODE-$NODE_RANK] MEGATRON_PATH: $MEGATRON_PATH"
     echo "[NODE-$NODE_RANK] HF_HOME: $HF_HOME"
-    echo "[NODE-$NODE_RANK] DATA_PATH: $DATA_PATH"
+    echo "[NODE-$NODE_RANK] TOKENIZED_DATA_PATH: $TOKENIZED_DATA_PATH"
+    echo "[NODE-$NODE_RANK] MODEL_CONFIG_FILE: $MODEL_CONFIG_FILE"
+    echo "[NODE-$NODE_RANK] TOKENIZER_TYPE: $TOKENIZER_TYPE"
+    echo "[NODE-$NODE_RANK] TOKENIZER_MODEL: $TOKENIZER_MODEL"
     echo "[NODE-$NODE_RANK] RUN_ENV: $RUN_ENV"
     echo ""
 fi
@@ -161,8 +182,8 @@ if [ "$RUN_ENV" = "torchrun" ]; then
     # build helper_cpp of megatron
     pushd "${MEGATRON_PATH}/megatron/core/datasets" && make && popd || exit 1
 
-    torchrun "${DISTRIBUTED_ARGS[@]}" examples/deepseek/pretrain.py \
-        --exp examples/deepseek/exp_pretrain.yaml \
+    torchrun "${DISTRIBUTED_ARGS[@]}" examples/megatron/pretrain.py \
+        --exp examples/megatron/exp_pretrain.yaml \
         2>&1 | tee $TRAIN_LOG
 
 elif [ "$RUN_ENV" = "slurm" ]; then
@@ -195,7 +216,7 @@ elif [ "$RUN_ENV" = "slurm" ]; then
         --env NCCL_PROTO=$NCCL_PROTO \
         --env RCCL_MSCCL_ENABLE=$RCCL_MSCCL_ENABLE \
         --env HF_HOME=$HF_HOME \
-        --env DATA_PATH=$DATA_PATH \
+        --env TOKENIZED_DATA_PATH=$TOKENIZED_DATA_PATH \
         --env MODEL_CONFIG=$MODEL_CONFIG \
         --env TE_HIPBLASLT_TUNING_RUN_COUNT=$TE_HIPBLASLT_TUNING_RUN_COUNT \
         --env TE_HIPBLASLT_TUNING_ALGO_COUNT=$TE_HIPBLASLT_TUNING_ALGO_COUNT \
 
@@ -0,0 +1,22 @@
+###############################################################################
+# Copyright (c) 2025, Advanced Micro Devices, Inc. All rights reserved.
+#
+# See LICENSE for license information.
+#################################################################################
+
+import argparse
+from pathlib import Path
+
+import nltk
+from datasets import load_dataset
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--out-dir", type=str, required=False, default="tmp/data", help="Path to output JSON")
+    args = parser.parse_args()
+    out_dir = Path(args.out_dir)
+    out_dir.mkdir(exist_ok=True, parents=True)
+    nltk.download("punkt_tab")
+
+    dataset = load_dataset("bookcorpus", split="train", trust_remote_code=True)
+    dataset.to_json(out_dir / "bookcorpus_megatron.json")
@@ -0,0 +1,78 @@
+#!/bin/bash
+###############################################################################
+# Copyright (c) 2025, Advanced Micro Devices, Inc. All rights reserved.
+#
+# See LICENSE for license information.
+#################################################################################
+
+# examples
+# bash ./examples/scripts/prepare_dataset.sh ./data_path DeepSeekV2Tokenizer deepseek-ai/DeepSeek-V2
+
+export DATA_PATH=$1
+# Note: The same type of tokenizer uses the same tokenizer model.
+# For example, `deepseek-ai/DeepSeek-V2` and `deepseek-ai/DeepSeek-V2-Lite` use
+# the same tokenizer model. Therefore, the `tokenizer_type` is the same as `DeepSeekV2Tokenizer`,
+# and the tokenized data path is also the same.
+# Therefore, if you have already preprocessed the data using the same tokenizer model,
+# you don't need to run this script again.
+#
+# tokenizer_type,       tokenizer_model
+# DeepSeekV2Tokenizer,  deepseek-ai/DeepSeek-V2
+# DeepSeekV2Tokenizer,  deepseek-ai/DeepSeek-V2-Lite
+# DeepSeekV3Tokenizer,  deepseek-ai/DeepSeek-V3
+# DeepSeekV3Tokenizer,  deepseek-ai/DeepSeek-V3-base
+#
+# available tokenizer types: Primus/primus/backends/megatron/training/tokenizer/tokenizer.py@build_tokenizer
+# available tokenizer models: https://huggingface.co
+export TOKENIZER_TYPE=$2 # DeepSeekV2Tokenizer
+export TOKENIZER_MODEL=$3 # deepseek-ai/DeepSeek-V2-Lite
+
+# framework path
+PRIMUS_PATH=$(realpath "$(dirname "$0")/../..")
+export PRIMUS_PATH
+export MEGATRON_PATH=${MEGATRON_PATH:-${PRIMUS_PATH}/../Megatron-LM}
+export PYTHONPATH=${MEGATRON_PATH}:${PRIMUS_PATH}:${PYTHONPATH}
+[[ ! -d "${MEGATRON_PATH}" ]] && {
+    echo "Error: MEGATRON_PATH (${MEGATRON_PATH}) does not exist"
+    exit 1
+}
+echo "HF_HOME: $HF_HOME"
+echo "PRIMUS_PATH: $PRIMUS_PATH"
+echo "MEGATRON_PATH: $MEGATRON_PATH"
+
+# bookcorpus dataset
+export DATASET=bookcorpus
+DATASET_PATH="${DATA_PATH}/${DATASET}"
+OUTPUT_PATH="$DATASET_PATH/${TOKENIZER_TYPE}"
+export HF_HOME=${HF_HOME:-"${DATA_PATH}"/data/huggingface}
+mkdir -p "$OUTPUT_PATH"
+
+export TOKENIZED_DATA_PATH=${TOKENIZED_DATA_PATH:-"${OUTPUT_PATH}"/bookcorpus_text_sentence}
+if [[ -f "${TOKENIZED_DATA_PATH}.bin" && -f "${TOKENIZED_DATA_PATH}.idx" ]]; then
+    echo "Tokenized data files ${DATA_PATH}.bin and ${DATA_PATH}.idx exist, skip data preprocess"
+    exit 0
+fi
+
+START_TIME=$(date +%s)
+if [[ -f "${DATASET_PATH}/bookcorpus_megatron.json" ]]; then
+    echo "Find the '${DATASET}' dataset: '${DATASET_PATH}'/bookcorpus_megatron.json, skip download."
+else
+    echo "Downloading '${DATASET}' dataset to '${DATASET_PATH}'..."
+    python3 "${PRIMUS_PATH}"/examples/scripts/prepare_bookcorpus_megatron_dataset.py --out-dir "${DATASET_PATH}"
+fi
+
+END_TIME=$(date +%s)
+ELAPSED_TIME=$((END_TIME - START_TIME))
+echo "Download '${DATASET}' completed. Time: '${ELAPSED_TIME}' s"
+
+START_TIME=$(date +%s)
+python "${PRIMUS_PATH}"/examples/scripts/preprocess_data.py \
+    --input "${DATASET_PATH}"/bookcorpus_megatron.json \
+    --extra-tokenizer-type "${TOKENIZER_TYPE}" \
+    --tokenizer-model "${TOKENIZER_MODEL}" \
+    --output-prefix "${OUTPUT_PATH}"/bookcorpus \
+    --workers "$(nproc)" --split-sentences --partitions 2
+
+END_TIME=$(date +%s)
+ELAPSED_TIME=$((END_TIME - START_TIME))
+echo "Dataset '${DATASET}' preprocess completed. Time: '${ELAPSED_TIME}' s"