[Feat] Add LLaMA2 7B & 70B model configuration files (#20)

Xiaoming-AMD · Xiaoming Peng · web-flow · commit f6aaa5812b9a · 2025-04-09T11:43:27.000+08:00
Co-authored-by: Xiaoming Peng &lt;xiaompen@smc300x-ccs-aus-a16-40.prov.aus.ccs.cpe.ice.amd.com&gt;
diff --git a/examples/megatron/run_pretrain.sh b/examples/megatron/run_pretrain.sh
@@ -20,11 +20,7 @@ export MEGATRON_PATH=${MEGATRON_PATH:-${PRIMUS_PATH}/../Megatron-LM}
 
 # model config
 export MODEL_CONFIG_FILE=$PRIMUS_PATH/primus/configs/models/megatron/${MODEL_CONFIG}.yaml
-EXTRA_TOKENIZER_TYPE=$(grep "^extra_tokenizer_type:" "$MODEL_CONFIG_FILE" | awk -F ': ' '{print $2}')
 TOKENIZER_TYPE=$(grep "^tokenizer_type:" "$MODEL_CONFIG_FILE" | awk -F ': ' '{print $2}')
-if [ -n "$EXTRA_TOKENIZER_TYPE" ]; then
-    TOKENIZER_TYPE=$EXTRA_TOKENIZER_TYPE
-fi
 export TOKENIZER_TYPE
 TOKENIZER_MODEL=$(grep "^tokenizer_model:" "$MODEL_CONFIG_FILE" | awk -F ': ' '{print $2}')
 export TOKENIZER_MODEL
diff --git a/examples/scripts/prepare_dataset.sh b/examples/scripts/prepare_dataset.sh
@@ -68,7 +68,7 @@ echo "Download '${DATASET}' completed. Time: '${ELAPSED_TIME}' s"
 START_TIME=$(date +%s)
 python "${PRIMUS_PATH}"/examples/scripts/preprocess_data.py \
     --input "${DATASET_PATH}"/bookcorpus_megatron.json \
-    --extra-tokenizer-type "${TOKENIZER_TYPE}" \
+    --tokenizer-type "${TOKENIZER_TYPE}" \
     --tokenizer-model "${TOKENIZER_MODEL}" \
     --output-prefix "${OUTPUT_PATH}"/bookcorpus \
     --workers "$(nproc)" --split-sentences --partitions 2
diff --git a/examples/scripts/preprocess_data.py b/examples/scripts/preprocess_data.py
@@ -24,9 +24,7 @@
 
 from megatron.core.datasets import indexed_dataset
 
-from primus.backends.megatron.training.tokenizer.tokenizer import (
-    _add_extra_tokenizer_args as _add_tokenizer_args,
-)
+from primus.backends.megatron.training.tokenizer.tokenizer import _add_tokenizer_args
 
 # isort: off
 from primus.backends.megatron.training.tokenizer.tokenizer import build_tokenizer
@@ -235,15 +233,11 @@ def get_args():
         action="store_true",
         help="Ensure ordering of samples in .jsonl files is " "preserved when using partitions>1.",
     )
+
     args = parser.parse_args()
     args.keep_empty = False
 
-    # if args.tokenizer_type.lower().startswith('bert') and not args.split_sentences:
-    if (
-        args.extra_tokenizer_type is None
-        and args.tokenizer_type.lower().startswith("bert")
-        and not args.split_sentences
-    ):
+    if args.tokenizer_type.lower().startswith("bert") and not args.split_sentences:
         print("Are you sure you don't want to split sentences?")
 
     # some default/dummy values for the tokenizer
diff --git a/primus/backends/megatron/training/tokenizer/tokenizer.py b/primus/backends/megatron/training/tokenizer/tokenizer.py
@@ -1,58 +1,45 @@
-# Copyright (c) 2023, NVIDIA CORPORATION. All rights reserved.
-# Copyright (c) 2023 Alibaba PAI Team.
-# Copyright (c) 2025, Advanced Micro Devices, Inc.
+###############################################################################
+# Copyright (c) 2025, Advanced Micro Devices, Inc. All rights reserved.
 #
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
+# See LICENSE for license information.
+#################################################################################
 
 """Extra Megatron tokenizers."""
 
 import math
 
-from megatron.core.datasets.megatron_tokenizer import MegatronTokenizer
-from megatron.training.arguments import _add_tokenizer_args
+from megatron.training.arguments import (
+    _add_tokenizer_args as megatron_add_tokenizer_args,
+)
 from megatron.training.tokenizer import build_tokenizer as megatron_build_tokenizer
+from megatron.training.tokenizer.tokenizer import _HuggingFaceTokenizer
 
 from primus.modules.module_utils import log_rank_0
 
+CUSTOM_TOKENIZER_TYPES = {
+    "DeepSeekV2Tokenizer",
+    "DeepSeekV3Tokenizer",
+    "Llama2Tokenizer",
+    "Llama3Tokenizer",
+}
+
 
-def _add_extra_tokenizer_args(parser):
-    parser = _add_tokenizer_args(parser)
-    group = parser.add_argument_group(title="extra tokenizer")
-    group.add_argument(
-        "--extra-tokenizer-type",
-        type=str,
-        default=None,
-        choices=["DeepSeekV2Tokenizer", "DeepSeekV3Tokenizer"],
-        help="What extra type of tokenizer to use.",
-    )
+def _add_tokenizer_args(parser):
+    parser = megatron_add_tokenizer_args(parser)
+    tokenizer_arg = next(action for action in parser._actions if action.dest == "tokenizer_type")
+    custom_choices = [t for t in CUSTOM_TOKENIZER_TYPES]
+    tokenizer_arg.choices = list(set(tokenizer_arg.choices).union(custom_choices))
     return parser
 
 
 def build_tokenizer(args, **kwargs):
     """Initialize tokenizer."""
 
+    log_rank_0(f"-building {args.tokenizer_type} tokenizer...")
+
     # Select and instantiate the tokenizer.
-    if args.extra_tokenizer_type is not None:
-        log_rank_0(f"-building extra {args.extra_tokenizer_type} tokenizer...")
-        if args.tokenizer_type is not None:
-            log_rank_0(f"  -skip args.tokenizer_type={args.tokenizer_type}")
-
-        if args.extra_tokenizer_type == "DeepSeekV2Tokenizer":
-            tokenizer = _DeepSeekV2Tokenizer(args.tokenizer_model)
-        elif args.extra_tokenizer_type == "DeepSeekV3Tokenizer":
-            tokenizer = _DeepSeekV3Tokenizer(args.tokenizer_model)
-        else:
-            raise NotImplementedError("{} tokenizer is not " "implemented.".format(args.extra_tokenizer_type))
+    if args.tokenizer_type in CUSTOM_TOKENIZER_TYPES:
+        tokenizer = _HuggingFaceTokenizer(args.tokenizer_model)
     else:
         return megatron_build_tokenizer(args, **kwargs)
 
@@ -77,137 +64,3 @@ def _vocab_size_with_padding(orig_vocab_size, args, logging_enabled=True):
             flush=True,
         )
     return after
-
-
-class _DeepSeekV2Tokenizer(MegatronTokenizer):
-    def __init__(self, tokenizer_path, extra_vocab_size=0):
-        super().__init__(tokenizer_path, extra_vocab_size)
-        try:
-            import transformers
-        except ImportError:
-            raise EnvironmentError(
-                f"The transformers library must be installed to use huggingface_tokenizer_provider"
-            )
-
-        self.tokenizer = transformers.AutoTokenizer.from_pretrained(tokenizer_path, trust_remote_code=True)
-        self.extra_vocab_size = extra_vocab_size
-
-    def __call__(
-        self,
-        text,
-        return_tensors=None,
-        padding=None,
-        max_length=None,
-        truncation=None,
-        add_special_tokens=None,
-    ):
-
-        return self.tokenizer(
-            text,
-            return_tensors=return_tensors,
-            padding=padding,
-            max_length=max_length,
-            truncation=truncation,
-            add_special_tokens=add_special_tokens,
-        )
-
-    @property
-    def vocab_size(self):
-        return self.tokenizer.vocab_size + self.extra_vocab_size
-
-    @property
-    def vocab(self):
-        return self.tokenizer.encoder
-
-    @property
-    def inv_vocab(self):
-        return self.tokenizer.decoder
-
-    def tokenize(self, text):
-        return self.tokenizer.encode(text)
-
-    def detokenize(self, token_ids):
-        return self.tokenizer.decode(token_ids)
-
-    @property
-    def eod(self):
-        return self.tokenizer.eos_token_id
-
-    @property
-    def eos_token(self):
-        return self.tokenizer.eos_token
-
-    @property
-    def pad_token_id(self):
-        return self.tokenizer.pad_token_id
-
-    @property
-    def eos_token_id(self):
-        return self.tokenizer.eos_token_id
-
-
-class _DeepSeekV3Tokenizer(MegatronTokenizer):
-    def __init__(self, tokenizer_path, extra_vocab_size=0):
-        super().__init__(tokenizer_path, extra_vocab_size)
-        try:
-            import transformers
-        except ImportError:
-            raise EnvironmentError(
-                f"The transformers library must be installed to use huggingface_tokenizer_provider"
-            )
-
-        self.tokenizer = transformers.AutoTokenizer.from_pretrained(tokenizer_path, trust_remote_code=True)
-        self.extra_vocab_size = extra_vocab_size
-
-    def __call__(
-        self,
-        text,
-        return_tensors=None,
-        padding=None,
-        max_length=None,
-        truncation=None,
-        add_special_tokens=None,
-    ):
-
-        return self.tokenizer(
-            text,
-            return_tensors=return_tensors,
-            padding=padding,
-            max_length=max_length,
-            truncation=truncation,
-            add_special_tokens=add_special_tokens,
-        )
-
-    @property
-    def vocab_size(self):
-        return self.tokenizer.vocab_size + self.extra_vocab_size
-
-    @property
-    def vocab(self):
-        return self.tokenizer.encoder
-
-    @property
-    def inv_vocab(self):
-        return self.tokenizer.decoder
-
-    def tokenize(self, text):
-        return self.tokenizer.encode(text)
-
-    def detokenize(self, token_ids):
-        return self.tokenizer.decode(token_ids)
-
-    @property
-    def eod(self):
-        return self.tokenizer.eos_token_id
-
-    @property
-    def eos_token(self):
-        return self.tokenizer.eos_token
-
-    @property
-    def pad_token_id(self):
-        return self.tokenizer.pad_token_id
-
-    @property
-    def eos_token_id(self):
-        return self.tokenizer.eos_token_id
diff --git a/primus/configs/models/megatron/deepseek_v2.yaml b/primus/configs/models/megatron/deepseek_v2.yaml
@@ -4,8 +4,7 @@ bases:
 # https://huggingface.co/deepseek-ai/DeepSeek-V2
 # 236B total params, 21B active params
 
-tokenizer_type: null
-extra_tokenizer_type: DeepSeekV2Tokenizer
+tokenizer_type: DeepSeekV2Tokenizer
 tokenizer_model: deepseek-ai/DeepSeek-V2
 
 # model
diff --git a/primus/configs/models/megatron/deepseek_v2_lite.yaml b/primus/configs/models/megatron/deepseek_v2_lite.yaml
@@ -4,8 +4,7 @@ bases:
 # https://huggingface.co/deepseek-ai/DeepSeek-V2-Lite
 # 16B total params, 2.4B active params
 
-tokenizer_type: null
-extra_tokenizer_type: DeepSeekV2Tokenizer
+tokenizer_type: DeepSeekV2Tokenizer
 tokenizer_model: deepseek-ai/DeepSeek-V2-Lite
 
 # model
diff --git a/primus/configs/models/megatron/deepseek_v3.yaml b/primus/configs/models/megatron/deepseek_v3.yaml
@@ -4,8 +4,7 @@ bases:
 # https://huggingface.co/deepseek-ai/DeepSeek-V3
 # 671B total params, 37B active params
 
-tokenizer_type: null
-extra_tokenizer_type: DeepSeekV3Tokenizer
+tokenizer_type: DeepSeekV3Tokenizer
 tokenizer_model: deepseek-ai/DeepSeek-V3
 
 # model
diff --git a/primus/configs/models/megatron/deepseek_v3_17B.yaml b/primus/configs/models/megatron/deepseek_v3_17B.yaml
@@ -3,8 +3,7 @@ bases:
 
 # 17B total params, 3B active params
 
-tokenizer_type: null
-extra_tokenizer_type: DeepSeekV3Tokenizer
+tokenizer_type: DeepSeekV3Tokenizer
 tokenizer_model: deepseek-ai/DeepSeek-V3
 
 # model
diff --git a/primus/configs/models/megatron/deepseek_v3_393B.yaml b/primus/configs/models/megatron/deepseek_v3_393B.yaml
@@ -3,8 +3,7 @@ bases:
 
 # 393B total params, 20B active params
 
-tokenizer_type: null
-extra_tokenizer_type: DeepSeekV3Tokenizer
+tokenizer_type: DeepSeekV3Tokenizer
 tokenizer_model: deepseek-ai/DeepSeek-V3
 
 # model
diff --git a/primus/configs/models/megatron/deepseek_v3_45B.yaml b/primus/configs/models/megatron/deepseek_v3_45B.yaml
@@ -3,8 +3,7 @@ bases:
 
 # 45B total params, 3B active params
 
-tokenizer_type: null
-extra_tokenizer_type: DeepSeekV3Tokenizer
+tokenizer_type: DeepSeekV3Tokenizer
 tokenizer_model: deepseek-ai/DeepSeek-V3
 
 # model
diff --git a/primus/configs/models/megatron/language_model.yaml b/primus/configs/models/megatron/language_model.yaml
@@ -43,9 +43,8 @@ transformer_impl: transformer_engine
 # 'SentencePieceTokenizer', 'GPTSentencePieceTokenizer', 'HuggingFaceTokenizer',
 # 'Llama2Tokenizer', 'TikTokenizer', 'MultimodalTokenizer', 'NullTokenizer',
 # 'NullMultimodalTokenizer'
-tokenizer_type: null # str
 # 'DeepSeekV2Tokenizer', 'DeepSeekV3Tokenizer'
-extra_tokenizer_type: null # str [primus]
+tokenizer_type: null # str [primus]
 tokenizer_model: null
 vocab_size: null # int
 vocab_file: null # str
diff --git a/primus/configs/models/megatron/llama2_70B.yaml b/primus/configs/models/megatron/llama2_70B.yaml
@@ -0,0 +1,13 @@
+bases:
+  - llama2_base.yaml
+
+tokenizer_type: Llama2Tokenizer
+tokenizer_model: meta-llama/Llama-2-7b-hf
+
+ffn_hidden_size: 28672
+hidden_size: 8192
+num_attention_heads: 64
+num_layers: 80
+
+group_query_attention: true
+num_query_groups: 8
diff --git a/primus/configs/models/megatron/llama2_7B.yaml b/primus/configs/models/megatron/llama2_7B.yaml
@@ -0,0 +1,12 @@
+bases:
+  - llama2_base.yaml
+
+tokenizer_type: Llama2Tokenizer
+tokenizer_model: meta-llama/Llama-2-7b-hf
+
+group_query_attention: false 
+
+ffn_hidden_size: 11008
+hidden_size: 4096
+num_attention_heads: 32
+num_layers: 32
diff --git a/primus/configs/models/megatron/llama2_7b.yaml b/primus/configs/models/megatron/llama2_7b.yaml
diff --git a/primus/configs/models/megatron/llama2_base.yaml b/primus/configs/models/megatron/llama2_base.yaml
@@ -0,0 +1,12 @@
+bases:
+  - llama_base.yaml
+
+max_position_embeddings: 4096
+rotary_base: 10000
+norm_epsilon: 1.0e-05
+init_method_std: 0.02
+
+# multi_latent_attention does not support apply_rope_fusion
+apply_rope_fusion: true
+
+masked_softmax_fusion: false
diff --git a/primus/modules/trainer/megatron/trainer.py b/primus/modules/trainer/megatron/trainer.py