Is this project support DiT based models about speech

There is some model on speech generation based on AdaLayerNorm Attention like [f5-tts](https://github.com/SWivid/F5-TTS). Can it be supported on TurboDiffusion to speedup?