修正TTS有些音色参数过多的问题

Desmond-Dong · Desmond-Dong · commit 4fd031a17840 · 2025-12-10T23:33:24.000+08:00
diff --git a/.claude/settings.local.json b/.claude/settings.local.json
@@ -32,7 +32,8 @@
       "mcp__open-websearch__search",
       "Bash(powershell:*)",
       "Bash(ls:*)",
-      "mcp__serena__think_about_task_adherence"
+      "mcp__serena__think_about_task_adherence",
+      "mcp__serena__search_for_pattern"
     ],
     "deny": [],
     "ask": []
diff --git a/.gitignore b/.gitignore
@@ -1,3 +1,4 @@
 backup/
 .spec-workflow
 .claude/
+/*/*/__pycache__/
diff --git a/custom_components/ai_hub/config_flow.py b/custom_components/ai_hub/config_flow.py
@@ -51,9 +51,6 @@
     CONF_TOP_P,
     CONF_TTS_VOICE,
     CONF_TTS_LANG,
-    CONF_TTS_RATE,
-    CONF_TTS_VOLUME,
-    CONF_TTS_PITCH,
     DEFAULT_AI_TASK_NAME,
     DEFAULT_CONVERSATION_NAME,
     DEFAULT_TITLE,
@@ -76,9 +73,6 @@
     RECOMMENDED_TOP_P,
     TTS_DEFAULT_VOICE,
     TTS_DEFAULT_LANG,
-    TTS_DEFAULT_RATE,
-    TTS_DEFAULT_VOLUME,
-    TTS_DEFAULT_PITCH,
     AI_HUB_CHAT_MODELS,
     AI_HUB_CHAT_URL,
     AI_HUB_IMAGE_MODELS,
diff --git a/custom_components/ai_hub/const.py b/custom_components/ai_hub/const.py
@@ -522,16 +522,10 @@ def _build_edge_tts_languages() -> dict:
 # Edge TTS Configuration Keys
 CONF_TTS_VOICE: Final = "voice"
 CONF_TTS_LANG: Final = "lang"
-CONF_TTS_RATE: Final = "rate"
-CONF_TTS_VOLUME: Final = "volume"
-CONF_TTS_PITCH: Final = "pitch"
 
 # Edge TTS Default Parameters
 TTS_DEFAULT_VOICE: Final = "zh-CN-XiaoxiaoNeural"  # 默认使用晓晓女声
 TTS_DEFAULT_LANG: Final = "zh-CN"
-TTS_DEFAULT_RATE: Final = "+0%"
-TTS_DEFAULT_VOLUME: Final = "+0%"
-TTS_DEFAULT_PITCH: Final = "+0%"
 
 # Silicon Flow STT Configuration
 # STT Configuration Keys
@@ -668,9 +662,6 @@ def _build_edge_tts_languages() -> dict:
     CONF_RECOMMENDED: True,
     CONF_TTS_VOICE: TTS_DEFAULT_VOICE,
     CONF_TTS_LANG: TTS_DEFAULT_LANG,
-    CONF_TTS_RATE: TTS_DEFAULT_RATE,
-    CONF_TTS_VOLUME: TTS_DEFAULT_VOLUME,
-    CONF_TTS_PITCH: TTS_DEFAULT_PITCH,
 }
 
 
diff --git a/custom_components/ai_hub/manifest.json b/custom_components/ai_hub/manifest.json
@@ -9,5 +9,5 @@
   "iot_class": "cloud_polling",
   "issue_tracker": "https://github.com/ha-china/ai_hub/issues",
   "requirements": ["edge-tts", "aiofiles", "aiohttp"],
-  "version": "v2025.12.2"
+  "version": "v2025.12.3"
 }
diff --git a/custom_components/ai_hub/services.py b/custom_components/ai_hub/services.py
@@ -29,6 +29,7 @@
     AI_HUB_IMAGE_GEN_URL,
     AI_HUB_STT_AUDIO_FORMATS,
     AI_HUB_STT_MODELS,
+    AI_HUB_TTS_URL,
     BEMFA_API_URL,
     CONF_API_KEY,
     CONF_BEMFA_UID,
@@ -59,10 +60,7 @@
     SERVICE_TRANSLATE_BLUEPRINTS,
     SILICONFLOW_ASR_URL,
     STT_MAX_FILE_SIZE_MB,
-    TTS_DEFAULT_PITCH,
-    TTS_DEFAULT_RATE,
     TTS_DEFAULT_VOICE,
-    TTS_DEFAULT_VOLUME,
 )
 
 _LOGGER = logging.getLogger(__name__)
@@ -89,9 +87,6 @@
 TTS_SCHEMA = {
     vol.Required("text"): cv.string,
     vol.Optional("voice", default=TTS_DEFAULT_VOICE): vol.In(list(EDGE_TTS_VOICES.keys())),
-    vol.Optional("rate", default=TTS_DEFAULT_RATE): cv.string,
-    vol.Optional("volume", default=TTS_DEFAULT_VOLUME): cv.string,
-    vol.Optional("pitch", default=TTS_DEFAULT_PITCH): cv.string,
     vol.Optional("media_player_entity"): cv.entity_id,
 }
 
@@ -316,11 +311,6 @@ async def handle_tts_speech(call: ServiceCall) -> dict:
                 }
             text = call.data["text"]
             voice = call.data.get("voice", TTS_DEFAULT_VOICE)
-            speed = float(call.data.get("speed", TTS_DEFAULT_VOLUME))
-            volume = float(call.data.get("volume", TTS_DEFAULT_VOLUME))
-            response_format = call.data.get("response_format", TTS_DEFAULT_RATE)
-            encode_format = call.data.get("encode_format", TTS_DEFAULT_VOICE)
-            stream = call.data.get("stream", TTS_DEFAULT_PITCH)
             media_player_entity = call.data.get("media_player_entity")
 
             # 验证参数
@@ -330,18 +320,6 @@ async def handle_tts_speech(call: ServiceCall) -> dict:
             if voice not in EDGE_TTS_VOICES:
                 raise ServiceValidationError(f"不支持的语音类型: {voice}")
 
-            if response_format not in TTS_DEFAULT_RATE:
-                raise ServiceValidationError(f"不支持的响应格式: {response_format}")
-
-            if encode_format not in TTS_DEFAULT_VOICE:
-                raise ServiceValidationError(f"不支持的编码格式: {encode_format}")
-
-            if not 0.25 <= speed <= 4.0:
-                raise ServiceValidationError("语速必须在 0.25 到 4.0 之间")
-
-            if not 0.1 <= volume <= 2.0:
-                raise ServiceValidationError("音量必须在 0.1 到 2.0 之间")
-
             # 构建 TTS API 请求
             headers = {
                 "Authorization": f"Bearer {api_key}",
@@ -352,18 +330,14 @@ async def handle_tts_speech(call: ServiceCall) -> dict:
                 "model": "cogtts",
                 "input": text,
                 "voice": voice,
-                "response_format": response_format,
-                "encode_format": encode_format,
-                "stream": stream,
-                "speed": speed,
-                "volume": volume,
+                "response_format": "wav",
             }
 
             timeout = aiohttp.ClientTimeout(total=DEFAULT_REQUEST_TIMEOUT / 1000)
 
             async with aiohttp.ClientSession(timeout=timeout) as session:
                 async with session.post(
-                    EDGE_TTS_VOICES,
+                    AI_HUB_TTS_URL,
                     headers=headers,
                     json=payload
                 ) as response:
@@ -379,46 +353,15 @@ async def handle_tts_speech(call: ServiceCall) -> dict:
                             "error": f"TTS API 请求失败: {response.status}"
                         }
 
-                    if stream:
-                        # 处理流式响应
-                        response_text = await response.text()
-                        from .helpers import parse_streaming_response, combine_audio_chunks
-
-                        audio_chunks = parse_streaming_response(response_text)
-
-                        if not audio_chunks:
-                            return {"success": False, "error": "未从流式响应中获取到音频数据"}
-
-                        # 合并音频块
-                        combined_audio = audio_chunks[0]  # 对于 TTS，通常第一个块就包含完整数据
+                    # 处理响应
+                    response_data = await response.json()
 
-                        # 如果有多个块，尝试合并
-                        if len(audio_chunks) > 1:
-                            try:
-                                combined_audio = combine_audio_chunks(audio_chunks)
-                            except Exception as exc:
-                                _LOGGER.warning("音频合并失败，使用第一个音频块: %s", exc)
-
-                        audio_base64 = combined_audio
-                    else:
-                        # 处理非流式响应
-                        response_data = await response.json()
-
-                        if "choices" not in response_data or not response_data["choices"]:
-                            return {"success": False, "error": "API 响应格式错误"}
-
-                        # 从非流式响应中提取音频数据
-                        choice = response_data["choices"][0]
-                        if "audio" in choice:
-                            audio_base64 = choice["audio"]["content"]
-                        elif "message" in choice and "content" in choice["message"]:
-                            audio_base64 = choice["message"]["content"]
-                        else:
-                            return {"success": False, "error": "无法从响应中提取音频数据"}
+                    if not response_data:
+                        return {"success": False, "error": "API 响应为空"}
 
                     # 解码音频为 WAV 格式
                     from .helpers import decode_base64_audio
-                    wav_audio_data = decode_base64_audio(audio_base64)
+                    wav_audio_data = decode_base64_audio(response_data)
 
                     # 如果指定了媒体播放器实体，直接播放
                     if media_player_entity:
@@ -467,8 +410,6 @@ async def handle_tts_speech(call: ServiceCall) -> dict:
                         "audio_data": audio_base64,
                         "audio_format": "wav",
                         "voice": voice,
-                        "speed": speed,
-                        "volume": volume,
                     }
 
         except ServiceValidationError as exc:
diff --git a/custom_components/ai_hub/services.yaml b/custom_components/ai_hub/services.yaml
@@ -256,3 +256,43 @@ translate_blueprints:
       default: false
       selector:
         boolean:
+
+tts_speech:
+  name: 文字转语音
+  description: 使用Edge TTS生成语音
+  fields:
+    text:
+      name: 文本内容
+      description: 要转换为语音的文本内容
+      required: true
+      example: "你好，欢迎使用文字转语音服务"
+      selector:
+        text:
+          multiline: true
+    voice:
+      name: 语音
+      description: 选择语音类型
+      required: false
+      default: "zh-CN-XiaoxiaoNeural"
+      selector:
+        select:
+          options:
+            - "zh-CN-XiaoxiaoNeural"
+            - "zh-CN-XiaoyiNeural"
+            - "zh-CN-YunjianNeural"
+            - "zh-CN-YunxiNeural"
+            - "zh-CN-YunxiaNeural"
+            - "zh-CN-YunyangNeural"
+            - "zh-HK-HiuGaaiNeural"
+            - "zh-HK-HiuMaanNeural"
+            - "zh-HK-WanLungNeural"
+            - "zh-TW-HsiaoChenNeural"
+            - "zh-TW-YunJheNeural"
+            - "zh-TW-HsiaoYuNeural"
+    media_player_entity:
+      name: 媒体播放器
+      description: 指定用于播放生成的语音的媒体播放器实体ID（可选）
+      required: false
+      selector:
+        entity:
+          domain: media_player
diff --git a/custom_components/ai_hub/strings.json b/custom_components/ai_hub/strings.json
@@ -107,18 +107,12 @@
             "name": "Name",
             "recommended": "Recommended Mode",
             "voice": "Voice",
-            "lang": "Language",
-            "rate": "Rate",
-            "volume": "Volume",
-            "pitch": "Pitch"
+            "lang": "Language"
           },
           "data_description": {
             "recommended": "Use recommended settings",
             "voice": "Select Edge TTS voice, like Xiaoxiao, Yunxi, etc.",
-            "lang": "Select voice language, like zh-CN for Chinese",
-            "rate": "Speech rate, like +10% faster, -10% slower",
-            "volume": "Speech volume, like +10% louder, -10% quieter",
-            "pitch": "Speech pitch, like +10Hz higher, -10Hz lower"
+            "lang": "Select voice language, like zh-CN for Chinese"
           }
         }
       }
@@ -279,18 +273,6 @@
           "name": "Voice",
           "description": "Select Edge TTS voice, like zh-CN-XiaoxiaoNeural"
         },
-        "rate": {
-          "name": "Rate",
-          "description": "Speech rate adjustment, like +10% faster, -10% slower"
-        },
-        "volume": {
-          "name": "Volume",
-          "description": "Speech volume adjustment, like +10% louder, -10% quieter"
-        },
-        "pitch": {
-          "name": "Pitch",
-          "description": "Speech pitch adjustment, like +10Hz higher, -10Hz lower"
-        },
         "media_player_entity": {
           "name": "Media Player",
           "description": "Media player entity to play speech"
diff --git a/custom_components/ai_hub/translations/en.json b/custom_components/ai_hub/translations/en.json
@@ -107,18 +107,12 @@
             "name": "Name",
             "recommended": "Recommended Mode",
             "voice": "Voice",
-            "lang": "Language",
-            "rate": "Rate",
-            "volume": "Volume",
-            "pitch": "Pitch"
+            "lang": "Language"
           },
           "data_description": {
             "recommended": "Use recommended settings",
             "voice": "Select Edge TTS voice, like Xiaoxiao, Yunxi, etc.",
-            "lang": "Select voice language, like zh-CN for Chinese",
-            "rate": "Speech rate, like +10% faster, -10% slower",
-            "volume": "Speech volume, like +10% louder, -10% quieter",
-            "pitch": "Speech pitch, like +10Hz higher, -10Hz lower"
+            "lang": "Select voice language, like zh-CN for Chinese"
           }
         }
       }
@@ -281,18 +275,6 @@
           "name": "Voice",
           "description": "Select Edge TTS voice, like zh-CN-XiaoxiaoNeural"
         },
-        "rate": {
-          "name": "Rate",
-          "description": "Speech rate adjustment, like +10% faster, -10% slower"
-        },
-        "volume": {
-          "name": "Volume",
-          "description": "Speech volume adjustment, like +10% louder, -10% quieter"
-        },
-        "pitch": {
-          "name": "Pitch",
-          "description": "Speech pitch adjustment, like +10Hz higher, -10Hz lower"
-        },
         "media_player_entity": {
           "name": "Media Player",
           "description": "Media player entity to play speech"
diff --git a/custom_components/ai_hub/translations/zh-Hans.json b/custom_components/ai_hub/translations/zh-Hans.json
@@ -107,18 +107,12 @@
             "name": "名称",
             "recommended": "推荐模式",
             "voice": "语音",
-            "lang": "语言",
-            "rate": "语速",
-            "volume": "音量",
-            "pitch": "音调"
+            "lang": "语言"
           },
           "data_description": {
             "recommended": "使用推荐设置",
             "voice": "选择Edge TTS语音，如晓晓、云熙等",
-            "lang": "选择语音语言，如zh-CN代表中文",
-            "rate": "语音速度，如+10%更快，-10%更慢",
-            "volume": "语音音量，如+10%更响，-10%更轻",
-            "pitch": "语音音调，如+10Hz更高，-10Hz更低"
+            "lang": "选择语音语言，如zh-CN代表中文"
           }
         }
       }
@@ -274,18 +268,6 @@
           "name": "语音",
           "description": "选择Edge TTS语音，如zh-CN-XiaoxiaoNeural"
         },
-        "rate": {
-          "name": "语速",
-          "description": "语音速度调整，如+10%更快，-10%更慢"
-        },
-        "volume": {
-          "name": "音量",
-          "description": "语音音量调整，如+10%更响，-10%更轻"
-        },
-        "pitch": {
-          "name": "音调",
-          "description": "语音音调调整，如+10Hz更高，-10Hz更低"
-        },
         "media_player_entity": {
           "name": "媒体播放器",
           "description": "用于播放语音的媒体播放器实体"

Original file line number	Diff line number	Diff line change
`@@ -9,5 +9,5 @@`
`9`	`9`	`"iot_class": "cloud_polling",`
`10`	`10`	`"issue_tracker": "https://github.com/ha-china/ai_hub/issues",`
`11`	`11`	`"requirements": ["edge-tts", "aiofiles", "aiohttp"],`
`12`		`- "version": "v2025.12.2"`
	`12`	`+ "version": "v2025.12.3"`
`13`	`13`	`}`