MSWA: Refining Local Attention with Multi-Scale Window Attention

Yixing Xu, Shivank Nag, Dong Li, Lu Tian, Emad Barsoum | Paper

Advanced Micro Devices, Inc.

Dependancies

torch == 2.1.2+rocm5.5
numpy == 1.24.4
einops == 0.7.0
peft == 0.10.0
datasets == 2.19.1
deepspeed == 0.14.1
wandb == 0.16.5
transformers == 4.34.0
accelerate == 0.29.2
tokenizers == 0.14.1

Training

Download Redpajama dataset.
Prepare data.
```
python data_prepare.py
```
Run training script.
```
sh script/diff_run.sh
```

Citation

@article{xu2025mswa,
  title={MSWA: Refining Local Attention with Multi-ScaleWindow Attention},
  author={Xu, Yixing and Nag, Shivank and Li, Dong and Tian, Lu and Barsoum, Emad},
  journal={arXiv preprint arXiv:2501.01039},
  year={2025}
}

Name		Name	Last commit message	Last commit date
Latest commit History 22 Commits
.github		.github
ds_configs		ds_configs
scripts		scripts
.gitignore		.gitignore
CONTRIBUTING.md		CONTRIBUTING.md
License		License
README.md		README.md
SECURITY.md		SECURITY.md
data_prepare.py		data_prepare.py
demo.py		demo.py
eval.py		eval.py
eval_distributed.py		eval_distributed.py
fine_tune.py		fine_tune.py
get_trainable_weights.py		get_trainable_weights.py
gptneox_attn_replace.py		gptneox_attn_replace.py
inference-qlora.py		inference-qlora.py
inference.py		inference.py
llama_attn_replace.py		llama_attn_replace.py
llama_attn_replace_sft.py		llama_attn_replace_sft.py
merge_lora_weights_and_save_hf_model.py		merge_lora_weights_and_save_hf_model.py
new_modify_llama.py		new_modify_llama.py
passkey_retrivial.py		passkey_retrivial.py
run_streaming_llama_longalpaca.py		run_streaming_llama_longalpaca.py
supervised-fine-tune-qlora.py		supervised-fine-tune-qlora.py
supervised-fine-tune.py		supervised-fine-tune.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

MSWA: Refining Local Attention with Multi-Scale Window Attention

Dependancies

Training

Citation

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

MSWA: Refining Local Attention with Multi-Scale Window Attention

Dependancies

Training

Citation

About

Topics

Resources

License

Contributing

Security policy

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages