Phase 1: Add new files from main (main-to-dev migration) by ilml · Pull Request #3968 · NVIDIA/Megatron-LM

ilml · 2026-03-20T18:31:43Z

Summary

Phase 1 of the main-to-dev code migration. This PR adds 57 new files (+15,771 lines) that exist on main but not on dev. These are pure file additions with zero modifications to existing files, so there should be no merge conflicts.

New files include:

megatron/training/config/ (4 files) -- config src refactor from Move config src files into a dedicated dir #3570
megatron/core/inference/moe/ (5 files) -- inference-optimized MoEs from Add torch grouped gemm bf16 and mxfp8 support w/ cuda graphed + inference_optimized MoEs #3858
megatron/core/ssm/ops/ (9 files) -- SSM/Mamba triton ops from Add speculative decoding support with MTP layers #3594, Inference | Hybrid prefix caching. #3225
megatron/core/inference/contexts/ (2 files) -- KV/Mamba block allocators from Inference | Hybrid prefix caching. #3225
megatron/core/inference/ misc (3 files) -- symmetric memory, mxfp8, text gen server
megatron/core/resharding/ (2 files) -- MXFP8 refit transforms, nvshmem compat
megatron/core/transformer/moe/token_dispatcher_inference.py -- inference dispatcher
megatron/core/models/mimo/partition/utils.py -- Mimo partition utils
25 new unit test files under tests/unit_tests/
Example scripts (gptoss, modelopt)
tools/trigger_internal_ci.py

Source commits on main: Each new file is extracted at the state it was first introduced by its original commit on main. The 57 files come from 23 distinct main-branch commits.

Context

This is part of a larger main-to-dev migration (206 commits). The strategy is:

Phase 1 (this PR): Add new files -- conflict-free, pure additions
Phase 2 (follow-up): Cherry-pick all 131 code commits -- new-file portions will auto-merge since they are already in place, reducing conflict surface to existing-file modifications only

Test plan

No existing tests should break (pure additions, no existing file modifications)
CI passes
New test files are syntactically valid (will be functionally tested in Phase 2 when corresponding code changes land)

Made with Cursor

…NVIDIA#3570) New files: - megatron/training/config/__init__.py - megatron/training/config/common_config.py - megatron/training/config/resilience_config.py - megatron/training/config/training_config.py

…my ep cuda-graphed forward passes (NVIDIA#3525) New files: - tests/unit_tests/inference/test_batch_dimension_utils.py

…A#3058) New files: - tests/unit_tests/transformer/test_mup.py

…tron Bridge (NVIDIA#3018) New files: - examples/gptoss/01_convert_from_hf.py - examples/gptoss/02_train.sh - examples/gptoss/03_convert_to_hf.py

New files: - tests/unit_tests/inference/contexts/test_dynamic_prefix_caching.py

New files: - megatron/core/transformer/moe/token_dispatcher_inference.py - tests/unit_tests/inference/test_moe_inference.py

…VIDIA#3665) New files: - tests/unit_tests/inference/test_dynamic_prefix_caching_coordinator.py

New files: - megatron/core/resharding/nvshmem_copy_service/compat.py

New files: - tools/trigger_internal_ci.py

…NVIDIA#3648) New files: - megatron/core/inference/text_generation_server/dynamic_text_gen_server/text_generation_server.py

…n Encoder (NVIDIA#3293) New files: - tests/unit_tests/transformer/test_vision_cuda_graphs.py

…3384) New files: - tests/unit_tests/fusions/test_rmsnorm_residual_fusion.py

…NVIDIA#2135) New files: - megatron/core/models/mimo/partition/utils.py - tests/unit_tests/models/test_mimo_partition.py

New files: - megatron/core/resharding/transforms.py - tests/unit_tests/resharding/test_mxfp8_refit.py

… to ModelOpt examples (NVIDIA#3805) New files: - examples/post_training/modelopt/conf/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16.sh

…layers (NVIDIA#3594) New files: - megatron/core/ssm/ops/__init__.py - megatron/core/ssm/ops/causal_conv1d_triton.py - megatron/core/ssm/ops/mamba_ssm.py

…VIDIA#3817) New files: - tests/unit_tests/ssm/test_causal_conv1d_triton.py

…rmer-impl inference_optimized (NVIDIA#3851) New files: - megatron/core/inference/symmetric_memory.py

…ort w/ cuda graphed + inference_optimized MoEs (NVIDIA#3858) New files: - megatron/core/inference/moe/__init__.py - megatron/core/inference/moe/activations.py - megatron/core/inference/moe/fused_moe.py - megatron/core/inference/moe/pad.py - megatron/core/inference/moe/permute.py - megatron/core/inference/quantization/mxfp8_quantize.py - tests/unit_tests/inference/test_moe_permute.py - tests/unit_tests/inference/test_mxfp8_utils.py

New files: - tests/unit_tests/test_lion_optimizer.py

…edule (NVIDIA#3129) New files: - tests/unit_tests/pipeline_parallel/test_multimodule_schedules.py

…#3225) New files: - megatron/core/inference/contexts/kv_block_allocator.py - megatron/core/inference/contexts/mamba_slot_allocator.py - megatron/core/ssm/ops/causal_conv1d_varlen.py - megatron/core/ssm/ops/determinism.py - megatron/core/ssm/ops/ssd_bmm.py - megatron/core/ssm/ops/ssd_chunk_scan.py - megatron/core/ssm/ops/ssd_chunk_state.py - megatron/core/ssm/ops/ssd_combined.py - megatron/core/ssm/ops/ssd_state_passing.py - tests/unit_tests/inference/engines/test_mamba_prefix_caching_e2e.py - tests/unit_tests/ssm/ops/test_causal_conv1d_varlen.py - tests/unit_tests/ssm/ops/test_ops_init.py - tests/unit_tests/ssm/ops/test_ssd_bmm.py - tests/unit_tests/ssm/ops/test_ssd_chunk_scan.py - tests/unit_tests/ssm/ops/test_ssd_chunk_state.py - tests/unit_tests/ssm/ops/test_ssd_combined.py - tests/unit_tests/ssm/ops/test_ssd_state_passing.py - tests/unit_tests/ssm/ops/test_ssm_kernel.py

New files: - tests/unit_tests/rl/test_grouped_rollouts.py

copy-pr-bot · 2026-03-20T18:31:50Z

This pull request requires additional validation before any workflows can run on NVIDIA's runners.

Pull request vetters can view their responsibilities here.

Contributors can view more details about this message here.

ilml · 2026-03-20T18:33:56Z

/ok to test b18c7a6

These test files import from existing modules that are modified in Phase 2: - test_rmsnorm_residual_fusion.py: imports TEFusedResidualRMSNorm (added in NVIDIA#3384) - test_mup.py: imports get_mup_config_overrides (added in NVIDIA#3058) - test_multimodule_schedules.py: imports MultiModuleProcessGroupCollection (added in NVIDIA#3129) They will be re-added in Phase 2 when the corresponding code changes land. Made-with: Cursor

These test files import symbols from existing modules that are only added in Phase 2 commits: - test_dynamic_prefix_caching.py: PrefixCachingEvictionPolicy, HASH_PRIME - test_mamba_prefix_caching_e2e.py: PrefixCachingEvictionPolicy - test_dynamic_prefix_caching_coordinator.py: PrefixCachingCoordinatorPolicy - test_moe_inference.py: are_tensors_nvls_eligible, InferenceTopKRouter - test_grouped_rollouts.py: RolloutGroup, ReturnsRaw - test_lion_optimizer.py: HAVE_LION - test_vision_cuda_graphs.py: VisionTECudaGraphHelper, HAVE_TE_GRAPHS They will be re-added in Phase 2 with their corresponding code changes. Made-with: Cursor

ilml · 2026-03-20T21:51:14Z

/ok to test ab305c3

ilml added 23 commits March 20, 2026 18:29

Add new files from b17248a Move config src files into a dedicated dir (…

96c085f

…NVIDIA#3570) New files: - megatron/training/config/__init__.py - megatron/training/config/common_config.py - megatron/training/config/resilience_config.py - megatron/training/config/training_config.py

Add new files from 60a25aa Optimize away add request overheads in dum…

80290bc

…my ep cuda-graphed forward passes (NVIDIA#3525) New files: - tests/unit_tests/inference/test_batch_dimension_utils.py

Add new files from 310082a μP: Maximal Update Parameterization (NVIDI…

3ef2dcb

…A#3058) New files: - tests/unit_tests/transformer/test_mup.py

Add new files from 2f8c9bc Add GPTOSS Example with Megatron-LM + Mega…

40b3e32

…tron Bridge (NVIDIA#3018) New files: - examples/gptoss/01_convert_from_hf.py - examples/gptoss/02_train.sh - examples/gptoss/03_convert_to_hf.py

Add new files from c9312e6 Inference | KV prefix caching. (NVIDIA#3063)

0a26a46

New files: - tests/unit_tests/inference/contexts/test_dynamic_prefix_caching.py

Add new files from 7d1c016 Inference Optimized MoEs (NVIDIA#3496)

e6e48b7

New files: - megatron/core/transformer/moe/token_dispatcher_inference.py - tests/unit_tests/inference/test_moe_inference.py

Add new files from 9b18de4 Prefix caching | Coordinator scheduling. (N…

2212896

…VIDIA#3665) New files: - tests/unit_tests/inference/test_dynamic_prefix_caching_coordinator.py

Add new files from 2570947 Nemo-RL Refit (NVIDIA#3520)

cd962dc

New files: - megatron/core/resharding/nvshmem_copy_service/compat.py

Add new files from 94a903b chore: CLI launch internal CI (NVIDIA#3695)

5743bd1

New files: - tools/trigger_internal_ci.py

Add new files from 0d42bc6 Offload Flask frontend to separate process (…

2fa4c85

…NVIDIA#3648) New files: - megatron/core/inference/text_generation_server/dynamic_text_gen_server/text_generation_server.py

Add new files from 37ca715 [main] Add TE CUDA Graph Support for Visio…

9a3595e

…n Encoder (NVIDIA#3293) New files: - tests/unit_tests/transformer/test_vision_cuda_graphs.py

Add new files from 8318b80 Fused dLN + add in backwards pass (NVIDIA#…

9fecf8b

…3384) New files: - tests/unit_tests/fusions/test_rmsnorm_residual_fusion.py

Add new files from 0e19bf1 Add CP + Sequence Packing support for Mimo (…

e43d5c6

…NVIDIA#2135) New files: - megatron/core/models/mimo/partition/utils.py - tests/unit_tests/models/test_mimo_partition.py

Add new files from fca1679 MXFP8 refit (NVIDIA#3742)

ee8cad9

New files: - megatron/core/resharding/transforms.py - tests/unit_tests/resharding/test_mxfp8_refit.py

Add new files from 5bc89f3 Add NVIDIA-Nemotron-3-Super-120B-A12B-BF16…

87ffced

… to ModelOpt examples (NVIDIA#3805) New files: - examples/post_training/modelopt/conf/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16.sh

Add new files from 8f539df Add speculative decoding support with MTP …

3caae97

…layers (NVIDIA#3594) New files: - megatron/core/ssm/ops/__init__.py - megatron/core/ssm/ops/causal_conv1d_triton.py - megatron/core/ssm/ops/mamba_ssm.py

Add new files from d1b8e27 Add unit tests for speculative decoding (N…

239992b

…VIDIA#3817) New files: - tests/unit_tests/ssm/test_causal_conv1d_triton.py

Add new files from 905c0e3 Nemo-RL integration bugfixes for --transfo…

41e43e8

…rmer-impl inference_optimized (NVIDIA#3851) New files: - megatron/core/inference/symmetric_memory.py

Add new files from 83498ef Add Lion optimizer support (NVIDIA#3813)

1187050

New files: - tests/unit_tests/test_lion_optimizer.py

Add new files from 0ca9b63 Support multimodule pipelining in 1F1B sch…

fdd847c

…edule (NVIDIA#3129) New files: - tests/unit_tests/pipeline_parallel/test_multimodule_schedules.py

Add new files from dde4701 Implement forced lag in RL (NVIDIA#3517)

b18c7a6

New files: - tests/unit_tests/rl/test_grouped_rollouts.py

ilml requested review from a team as code owners March 20, 2026 18:31

svcnvidia-nemo-ci added this to the Core 0.16 milestone Mar 20, 2026

copy-pr-bot bot temporarily deployed to test March 20, 2026 18:35 Inactive

copy-pr-bot bot temporarily deployed to test March 20, 2026 21:52 Inactive

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Phase 1: Add new files from main (main-to-dev migration)#3968

Phase 1: Add new files from main (main-to-dev migration)#3968
ilml wants to merge 25 commits intoNVIDIA:devfrom
ilml:main2dev

ilml commented Mar 20, 2026

Uh oh!

copy-pr-bot bot commented Mar 20, 2026

Uh oh!

ilml commented Mar 20, 2026

Uh oh!

ilml commented Mar 20, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Conversation

ilml commented Mar 20, 2026

Summary

Context

Test plan

Uh oh!

copy-pr-bot bot commented Mar 20, 2026

Uh oh!

ilml commented Mar 20, 2026

Uh oh!

ilml commented Mar 20, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants