能否获取用户输入音频对应的文本内容？

我们在基于 MiniCPM-o 做实时语音场景集成时，除了模型的回复外，还需要在业务侧展示或记录「用户说了什么」对应的文字（语音转写 / STT），用于字幕、审计、检索等。

不知道目前可有方法能否获取用户输入音频对应的文本内容？
谢谢。