Streaming response by Yosshi999 · Pull Request #1823 · VOICEVOX/voicevox_engine

Yosshi999 · 2025-11-21T13:25:00Z

内容

指定時間単位で音声合成を行いストリーミングでレスポンスを返すエンドポイントを実装。

TODO

stream対応VVMのmetas.jsonを変更する

ストリーム生成に対応しているvvmを読み込むことでストリーム生成を有効化するという設計であるため、非対応のvvmは generate_full_intermediate render_audio_segment 関数を持っておらず、そのまま叩くと以下のpanicを起こしてしまう。

thread '<unnamed>' panicked at crates\voicevox_core\src\core\status.rs:219:17:
missing session set for `ExperimentalTalkDomain` (should be checked in `VoiceModelHeader::new` and `ids_for`)
note: run with `RUST_BACKTRACE=1` environment variable to display a backtrace

また、PythonのCDLLからは関数のリストが取れなさそうなので、叩いてみるまでpanicするかが分からない。

そこで、メタデータのsupported_featuresにstreaming_synthesis項目を追加し、ストリーム生成対応のvvmにはTrueが明示的に埋め込まれていることを仮定している。

この方法がまずかったら指摘してください。resources/character_info/<uuid>/metas.json をいじる羽目になるため筋が良くないかも... ただいずれにせよ、エディタからも各styleの対応状況を知りたいはず（エディタ利用者がやることはストリーム対応VVMのダウンロードとチャンクサイズの設定だけで、普通の生成かストリーム生成かは自動で切り替えてほしいはず？）

Yosshi999 · 2025-11-21T16:34:51Z

メモ：マシンにとって最適なチャンクサイズ(秒)は RTF (1秒の音声を処理する時間）に対して

chunk_length = round(2 * margin_width * RTF / (1 - min(1,RTF))) * 256/24000

Hiroshiba · 2025-11-22T05:14:52Z

@Yosshi999

非対応のvvmは generate_full_intermediate render_audio_segment 関数を持っておらず、そのまま叩くと以下のpanicを起こしてしまう。
エディタ利用者がやることはストリーム対応VVMのダウンロードとチャンクサイズの設定だけで、普通の生成かストリーム生成かは自動で切り替えてほしいはず？

！！！！！！！　たしかに、問題ですね！！！
整理するとこう？

エンジンは原理上いろんなVVMを突っ込める、streaming非対応VVMも。
課題１：現状だとVVMの各スタイルがstreaming対応しているかわかる方法がない
課題２：streaming非対応スタイルで関数を叩くとpanicになる（ので課題１の解決にならない）
課題３：エディタ側でstreaming対応スタイルなのか分かる方法が必要にもなる

課題１と２に関してコア側にissue作りました！！

課題３に関しては、課題１次第で実装が変わってくるかなと思っています。

このPRで書いてくださった @Yosshi999 さんの方法（ENGINEのmetas.jsonに対応有無を書く）もかなり良いのですが、過去のVVMを入れた場合に課題となりそうに感じました！
（ENGINEのmetas.jsonはストリーミングトーク対応と書いてるけど、VVM側は非対応な状況が起こり得る）
あとキャラクター内のスタイルごとに対応している・していないが分かれる可能性があるので、キャラクター単位で可否を書くのも課題になりえそうです！

なんとなくですが、個人的にはスタイルごとのtypeがtalkになっているとこを、ストリーミング対応のスタイルだけstreaming_talkとするのが良いかも？と思ってます。
この実装ならコア側もエンジン側も、あとエディタ側も変更少なめに実装できるかな～～～とか。

ただちょっとコア側の議論次第なので、またになってしまうのですがお待ちいただくことになりそうです。。。 🙇 🙇 🙇

あ！　課題の指摘すごくありがたかったです！！！

Yosshi999 added 6 commits November 21, 2025 20:55

implement endpoint: stream_synthesis

a11a565

response wav instead of pcm

8d97636

apply lint

d93686b

bugfix and more comments

0b047ef

add chunk_length option

c8fbbbc

check supported features to avoid panic caused by the undefined function

0cd40b4

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Streaming response#1823

Streaming response#1823
Yosshi999 wants to merge 6 commits intoVOICEVOX:masterfrom
Yosshi999:streaming-response

Yosshi999 commented Nov 21, 2025

Uh oh!

Yosshi999 commented Nov 21, 2025

Uh oh!

Hiroshiba commented Nov 22, 2025 •

edited

Loading

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Conversation

Yosshi999 commented Nov 21, 2025

内容

関連 Issue

TODO

stream対応VVMのmetas.jsonを変更する

Uh oh!

Yosshi999 commented Nov 21, 2025

Uh oh!

Hiroshiba commented Nov 22, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Hiroshiba commented Nov 22, 2025 •

edited

Loading