Open
Conversation
Contributor
Author
|
メモ:マシンにとって最適なチャンクサイズ(秒)は RTF (1秒の音声を処理する時間)に対して |
This was referenced Nov 22, 2025
Member
!!!!!!! たしかに、問題ですね!!!
課題1と2に関してコア側にissue作りました!!
課題3に関しては、課題1次第で実装が変わってくるかなと思っています。 このPRで書いてくださった @Yosshi999 さんの方法(ENGINEのmetas.jsonに対応有無を書く)もかなり良いのですが、過去のVVMを入れた場合に課題となりそうに感じました! なんとなくですが、個人的にはスタイルごとの ただちょっとコア側の議論次第なので、またになってしまうのですがお待ちいただくことになりそうです。。。 🙇 🙇 🙇 あ! 課題の指摘すごくありがたかったです!!! |
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Add this suggestion to a batch that can be applied as a single commit.This suggestion is invalid because no changes were made to the code.Suggestions cannot be applied while the pull request is closed.Suggestions cannot be applied while viewing a subset of changes.Only one suggestion per line can be applied in a batch.Add this suggestion to a batch that can be applied as a single commit.Applying suggestions on deleted lines is not supported.You must change the existing code in this line in order to create a valid suggestion.Outdated suggestions cannot be applied.This suggestion has been applied or marked resolved.Suggestions cannot be applied from pending reviews.Suggestions cannot be applied on multi-line comments.Suggestions cannot be applied while the pull request is queued to merge.Suggestion cannot be applied right now. Please check back later.
内容
指定時間単位で音声合成を行いストリーミングでレスポンスを返すエンドポイントを実装。
関連:
#1542
関連 Issue
#1492
TODO
stream対応VVMのmetas.jsonを変更する
ストリーム生成に対応しているvvmを読み込むことでストリーム生成を有効化する という設計であるため、非対応のvvmは
generate_full_intermediaterender_audio_segment関数を持っておらず、そのまま叩くと以下のpanicを起こしてしまう。また、PythonのCDLLからは関数のリストが取れなさそうなので、叩いてみるまでpanicするかが分からない。
そこで、メタデータのsupported_featuresにstreaming_synthesis項目を追加し、ストリーム生成対応のvvmにはTrueが明示的に埋め込まれていることを仮定している。
この方法がまずかったら指摘してください。
resources/character_info/<uuid>/metas.jsonをいじる羽目になるため筋が良くないかも... ただいずれにせよ、エディタからも各styleの対応状況を知りたいはず(エディタ利用者がやることはストリーム対応VVMのダウンロードとチャンクサイズの設定だけで、普通の生成かストリーム生成かは自動で切り替えてほしいはず?)