fix(openai-realtime): 防打断丢 input_transcript + 清 response.done 状态 + bump model IDs

Hongzhi Wen · claude · Hongzhi Wen · commit 99e48af7fd2b · 2026-04-14T17:27:38.000+08:00
- omni_realtime_client.py: 把 conversation.item.input_audio_transcription.completed
  移到 top-level elif，打断场景下不再被 _interrupted 挡掉导致用户转录丢失
- omni_realtime_client.py: response.done 补 self._print_input_transcript = False，
  防止空响应/被打断时该标志泄漏到下一轮、干扰输出转录路由
- omni_realtime_client.py: 移除默认 system instructions 末尾硬编码的"卡哇伊声音"指令
- api_providers.json: gpt-realtime-mini-2025-12-15 → gpt-realtime-1.5；
  doubao emotion_model 补齐 -260215 版本号

Co-Authored-By: Claude Opus 4.6 (1M context) &lt;noreply@anthropic.com&gt;
diff --git a/config/api_providers.json b/config/api_providers.json
@@ -28,7 +28,7 @@
       "name": "GPT-Realtime（OpenAI）",
       "description": "智能水平最高，但国内无法使用且价格昂贵",
       "core_url": "wss://api.openai.com/v1/realtime",
-      "core_model": "gpt-realtime-mini-2025-12-15"
+      "core_model": "gpt-realtime-1.5"
     },
     "step": {
       "key": "step",
@@ -176,7 +176,7 @@
       "conversation_model": "doubao-seed-2-0-lite-260215",
       "summary_model": "doubao-seed-2-0-lite-260215",
       "correction_model": "doubao-seed-2-0-lite-260215",
-      "emotion_model": "doubao-seed-2-0-mini",
+      "emotion_model": "doubao-seed-2-0-mini-260215",
       "vision_model": "doubao-seed-2-0-lite-260215",
       "agent_model": "doubao-seed-2-0-pro-260215"
     },
diff --git a/main_logic/omni_realtime_client.py b/main_logic/omni_realtime_client.py
@@ -548,7 +548,7 @@ async def connect(self, instructions: str, native_audio=True) -> None:
                 await self.update_session({
                     "type": "realtime",
                     "model": self.model,
-                    "instructions": instructions + '\n请使用卡哇伊的声音与用户交流。\n',
+                    "instructions": instructions,
                     "output_modalities": ['audio'] if 'audio' in self._modalities else ['text'],
                     "audio": {
                         "input": {
@@ -1503,6 +1503,7 @@ async def handle_messages(self) -> None:
                     self._audio_delta_count = 0
                     # 确保 buffer 被清空
                     self._output_transcript_buffer = ""
+                    self._print_input_transcript = False
                     self._image_recognized_this_turn = False
                     self._image_sent_this_turn = False
                     if self.on_response_done:
@@ -1538,6 +1539,9 @@ async def handle_messages(self) -> None:
                     self._client_vad_last_speech_time = time.time()
                 elif event_type == "conversation.item.input_audio_transcription.completed":
                     self._print_input_transcript = True
+                    transcript = event.get("transcript", "")
+                    if self.on_input_transcript:
+                        await self.on_input_transcript(transcript)
                 elif event_type in ["response.audio_transcript.done", "response.output_audio_transcript.done"]:
                     self._print_input_transcript = False
                     if self._output_transcript_buffer and self.on_output_transcript and not self._skip_until_next_response and not self._interrupted:
@@ -1558,10 +1562,6 @@ async def handle_messages(self) -> None:
                         if self.on_audio_delta:
                             audio_bytes = base64.b64decode(event["delta"])
                             await self.on_audio_delta(audio_bytes)
-                    elif event_type == "conversation.item.input_audio_transcription.completed":
-                        transcript = event.get("transcript", "")
-                        if self.on_input_transcript:
-                            await self.on_input_transcript(transcript)
                     elif event_type in ["response.audio_transcript.done", "response.output_audio_transcript.done"]:
                         if self.on_output_transcript and self._is_first_transcript_chunk:
                             transcript = event.get("transcript", "")