Implementar "Masked Multi-Head Attention" con PyTorch (.py)

- Crear un archivo llamado `masked_multi_head_attention.py`
- Implementar la función `masked_multi_head_attention` usando PyTorch
- Input de la función: output de `positional_encoding`
- Output de la función: input de `add_and_norm`