- Crear un archivo llamado `masked_multi_head_attention.py` - Implementar la función `masked_multi_head_attention` usando PyTorch - Input de la función: output de `positional_encoding` - Output de la función: input de `add_and_norm`