Phase 7 покрытие тестом recognition 42% (общий 84%)

momentics · momentics · commit 9c2b752cd71a · 2025-07-30T06:53:22.000+03:00
diff --git a/config/default.yaml b/config/default.yaml
@@ -128,9 +128,16 @@ recognition:
   model: "speechbrain/spkrec-ecapa-voxceleb"  # RECOGNITION_MODEL
   device: "cpu"                              # RECOGNITION_DEVICE
   threshold: 0.7                             # RECOGNITION_THRESHOLD
-  embeddings_path: null                      # RECOGNITION_EMBEDDINGS_PATH
+  embeddings_path: "./volume/models/embeddings" # RECOGNITION_EMBEDDINGS_PATH
   index_path: null                           # RECOGNITION_INDEX_PATH
 
+voices:
+  - name: alice_ivanova
+    embedding: "./volume/models/embeddings/alice_ivanova.vec"
+    phone: "+78001234567"
+    description: "Голос Алисы Ивановой"
+
+
 # Этап CardDAV (связывание контактов)
 carddav:
   enabled: true        # CARDDAV_ENABLED
diff --git a/src/app/annotation.py b/src/app/annotation.py
@@ -167,35 +167,45 @@ def _build_final_annotation(
         # Обработка спикеров
         speakers_map = {}
         speaker_id = 0
-        
+
         diarization_segments = diarization_result.payload.get("segments", []) if diarization_result else []
         recognition_speakers = recognition_result.payload.get("speakers", {}) if recognition_result else {}
         carddav_speakers = carddav_result.payload.get("speakers", {}) if carddav_result else {}
-        
+
+        # Подгрузка из config.voices для расширенного сопоставления
+        known_voices = {v.name: v for v in getattr(self.config, "voices", [])}
+
         for segment in diarization_segments:
             speaker_label = segment.get("speaker", "unknown")
-            
             if speaker_label not in speakers_map:
                 speaker_id += 1
                 speaker_info = FinalSpeaker(
                     id=f"speaker_{speaker_id:02d}",
                     label=speaker_label,
                     segments_count=0,
-                    total_duration=0.0
+                    total_duration=0.0,
+                    voice_embedding=None,
+                    identified=False,
+                    confidence=0.0,
+                    name=None,
+                    contact_info=None,
                 )
-                
+
                 # Добавление информации о распознавании
                 recognition_info = recognition_speakers.get(speaker_label, {})
                 if recognition_info:
                     speaker_info.identified = recognition_info.get("identified", False)
                     speaker_info.name = recognition_info.get("name")
                     speaker_info.confidence = recognition_info.get("confidence", 0.0)
-                
+                    # Пробуем дополнить путь к эмбеддингу из известного голоса
+                    if speaker_info.name and speaker_info.name in known_voices:
+                        speaker_info.voice_embedding = known_voices[speaker_info.name].embedding
+
                 # Добавление информации из CardDAV
                 carddav_info = carddav_speakers.get(speaker_label, {})
                 if carddav_info and carddav_info.get("contact"):
                     speaker_info.contact_info = carddav_info["contact"]
-                
+
                 speakers_map[speaker_label] = speaker_info
         
         # Обработка сегментов и транскрипции
diff --git a/src/app/api/__init__.py b/src/app/api/__init__.py
@@ -1,9 +1,10 @@
 # src/app/api/__init__.py
 
 from fastapi import APIRouter
-from .routers import health, jobs, ws
+from .routers import health, jobs, ws, voices
 
 api_router = APIRouter()
 api_router.include_router(health.router, prefix="/api/v1")
 api_router.include_router(jobs.router, prefix="/api/v1/jobs", tags=["Jobs"])
+api_router.include_router(voices.router, prefix="/api/v1/voices", tags=["Voices"])
 api_router.include_router(ws.router, prefix="/ws", tags=["WebSocket"])
diff --git a/src/app/api/routers/__init__.py b/src/app/api/routers/__init__.py
@@ -1,3 +1,3 @@
 # src/app/api/routers/__init__.py
 
-from . import health, jobs, ws  # noqa: F401
+from . import health, jobs, ws, voices  # noqa: F401
diff --git a/src/app/api/routers/voices.py b/src/app/api/routers/voices.py
@@ -0,0 +1,129 @@
+# src/app/api/routers/voices.py
+"""
+REST API для управления известными голосами и эмбеддингами в CallAnnotate.
+
+Автор: akoodoy@capilot.ru
+Ссылка: https://github.com/momentics/CallAnnotate
+Лицензия: Apache-2.0
+"""
+
+from pathlib import Path
+from typing import List
+
+from fastapi import (
+    APIRouter,
+    HTTPException,
+    UploadFile,
+    File,
+    Form,
+    status,
+    Response,
+)
+
+from ...schemas import VoiceInfo
+from ...config import load_settings
+from ...utils import ensure_directory
+
+router = APIRouter()
+
+CFG = load_settings()
+EMBEDDINGS_DIR = Path(
+    CFG.recognition.embeddings_path or "./volume/models/embeddings"
+).resolve()
+
+
+def _embedding_file_path(name: str) -> Path:
+    return EMBEDDINGS_DIR / f"{name}.vec"
+
+
+def _voice_exists(name: str) -> bool:
+    return _embedding_file_path(name).exists()
+
+
+@router.get("/", response_model=List[VoiceInfo], tags=["Voices"])
+async def list_voices():
+    """Получить список известных голосов."""
+    ensure_directory(str(EMBEDDINGS_DIR))
+    voices: List[VoiceInfo] = [
+        VoiceInfo(name=p.stem, embedding=str(p))
+        for p in EMBEDDINGS_DIR.glob("*.vec")
+    ]
+    return voices
+
+
+@router.post(
+    "/", response_model=VoiceInfo, status_code=status.HTTP_201_CREATED, tags=["Voices"]
+)
+async def create_voice(
+    name: str = Form(..., description="Имя голоса (уникальное, без пробелов)"),
+    embedding_file: UploadFile = File(..., description="Файл эмбеддинга (.vec)"),
+):
+    """Добавить новый голос."""
+    ensure_directory(str(EMBEDDINGS_DIR))
+
+    if not name.isidentifier():
+        raise HTTPException(
+            status.HTTP_400_BAD_REQUEST,
+            "Имя должно быть валидным идентификатором (без пробелов и спецсимволов)",
+        )
+    if _voice_exists(name):
+        raise HTTPException(
+            status.HTTP_409_CONFLICT, f"Голос с именем '{name}' уже существует"
+        )
+
+    content = await embedding_file.read()
+    if not content:
+        raise HTTPException(status.HTTP_400_BAD_REQUEST, "Пустой файл эмбеддинга")
+
+    path = _embedding_file_path(name)
+    with open(path, "wb") as f:
+        f.write(content)
+
+    return VoiceInfo(name=name, embedding=str(path))
+
+
+@router.get("/{name}", response_model=VoiceInfo, tags=["Voices"])
+async def get_voice(name: str):
+    """Получить информацию по голосу."""
+    path = _embedding_file_path(name)
+    if not path.exists():
+        raise HTTPException(status.HTTP_404_NOT_FOUND, "Голос не найден")
+    return VoiceInfo(name=name, embedding=str(path))
+
+
+@router.put("/{name}", response_model=VoiceInfo, tags=["Voices"])
+async def update_voice(
+    name: str,
+    embedding_file: UploadFile = File(..., description="Новый файл эмбеддинга (.vec)"),
+):
+    """Обновить эмбеддинг голоса."""
+    path = _embedding_file_path(name)
+    if not path.exists():
+        raise HTTPException(status.HTTP_404_NOT_FOUND, "Голос не найден")
+
+    content = await embedding_file.read()
+    if not content:
+        raise HTTPException(status.HTTP_400_BAD_REQUEST, "Пустой файл эмбеддинга")
+
+    with open(path, "wb") as f:
+        f.write(content)
+
+    return VoiceInfo(name=name, embedding=str(path))
+
+
+@router.delete("/{name}", status_code=status.HTTP_204_NO_CONTENT, tags=["Voices"])
+async def delete_voice(name: str):
+    """Удалить голос и файл эмбеддинга."""
+    path = _embedding_file_path(name)
+    if not path.exists():
+        raise HTTPException(status.HTTP_404_NOT_FOUND, "Голос не найден")
+
+    try:
+        path.unlink()
+    except Exception as exc:
+        raise HTTPException(
+            status.HTTP_500_INTERNAL_SERVER_ERROR, f"Ошибка при удалении: {exc}"
+        )
+
+    # Возврат 204 No Content без тела
+    return Response(status_code=status.HTTP_204_NO_CONTENT)
diff --git a/src/app/config.py b/src/app/config.py
@@ -73,6 +73,7 @@ class TranscriptionConfig(BaseSettings):
     language: str = Field("ru", description="Язык транскрипции или auto")
     batch_size: int = Field(16, gt=0, description="Размер пакета")
     task: str = Field("transcribe", description="Задача: transcribe или translate")
+
     metrics: MetricsConfig = Field(default_factory=MetricsConfig, description="Настройки сбора метрик")
     
     class Config:
@@ -169,6 +170,11 @@ class VoiceInfo(BaseModel):
     phone: Optional[str] = Field(None, description="Номер телефона")
     description: Optional[str] = Field(None, description="Описание")
 
+class VoiceInfoConfig(BaseModel):
+    name: str
+    embedding: str
+    phone: Optional[str] = None
+    description: Optional[str] = None
 
 class WebhookConfig(BaseModel):
     """Конфигурация веб-хуков"""
@@ -325,6 +331,8 @@ class AppSettings(BaseSettings):
     
     preprocess: PreprocessingConfig = Field(default_factory=PreprocessingConfig)
 
+    voices: List[VoiceInfoConfig] = Field(default_factory=list, description="Известные голоса")
+
 
     @validator('recognition')
     def validate_recognition_paths(cls, v):
diff --git a/src/app/schemas.py b/src/app/schemas.py
@@ -306,3 +306,19 @@ class ErrorDetail(BaseModel):
 class ErrorResponse(BaseModel):
     """Ответ с ошибкой"""
     error: ErrorDetail
+
+
+
+class VoiceInfoBase(BaseModel):
+    name: str = Field(..., description="Уникальное имя голоса")
+    embedding: str = Field(..., description="Путь к файлу эмбеддинга")
+
+class VoiceInfoCreate(VoiceInfoBase):
+    pass
+
+class VoiceInfoUpdate(BaseModel):
+    embedding: str = Field(..., description="Путь к новому файлу эмбеддинга")
+
+class VoiceInfo(VoiceInfoBase):
+    class Config:
+        orm_mode = True
diff --git a/src/app/stages/recognition.py b/src/app/stages/recognition.py
@@ -36,7 +36,12 @@ async def _initialize(self):
         model_name = self.config.get("model", "speechbrain/spkrec-ecapa-voxceleb")
         device = self.config.get("device", "cpu")
         embeddings_path = self.config.get("embeddings_path")
-        
+        self.index = None
+        self.speaker_labels = {}
+
+        if embeddings_path and Path(embeddings_path).exists():
+            self._load_speaker_database(embeddings_path)
+
         self.logger.info(f"Загрузка модели распознавания: {model_name}")
         
         if self.models_registry:
@@ -68,51 +73,46 @@ async def _initialize(self):
         self.logger.info("Модель распознавания загружена успешно")
     
     def _load_speaker_database(self, embeddings_path: str):
-        """Загрузка базы данных голосовых эмбеддингов"""
+        """Загрузка библиотеки голосов и построение индекса FAISS"""
         try:
             embeddings_dir = Path(embeddings_path)
-            
-            # Поиск файлов эмбеддингов
             embedding_files = list(embeddings_dir.glob("*.vec")) + list(embeddings_dir.glob("*.pkl"))
-            
             if not embedding_files:
-                self.logger.warning(f"Не найдены файлы эмбеддингов в {embeddings_path}")
+                self.logger.warning(f"В каталоге эмбеддингов не найдено файлов: {embeddings_path}")
                 return
-            
+
             embeddings = []
             labels = []
-            
+
             for emb_file in embedding_files:
                 try:
                     if emb_file.suffix == '.pkl':
                         with open(emb_file, 'rb') as f:
                             embedding = pickle.load(f)
-                    else:  # .vec файл
+                    else:  # .vec
                         embedding = np.loadtxt(emb_file)
-                    
-                    # Имя спикера из имени файла
+
                     speaker_name = emb_file.stem
-                    
+
                     embeddings.append(embedding)
                     labels.append(speaker_name)
                     self.speaker_labels[len(labels) - 1] = speaker_name
-                    
+
                 except Exception as e:
-                    self.logger.error(f"Ошибка загрузки эмбеддинга {emb_file}: {e}")
-            
-            # Создание FAISS индекса
+                    self.logger.error(f"Ошибка чтения эмбеддинга {emb_file}: {e}")
+
             if faiss and embeddings:
                 embeddings_matrix = np.vstack(embeddings).astype('float32')
                 dimension = embeddings_matrix.shape[1]
-                
-                self.index = faiss.IndexFlatIP(dimension)  # Cosine similarity
+
+                self.index = faiss.IndexFlatIP(dimension)  # Косинусное сходство
                 faiss.normalize_L2(embeddings_matrix)
                 self.index.add(embeddings_matrix)
-                
+
                 self.logger.info(f"Загружено {len(embeddings)} эмбеддингов голосов")
             else:
-                self.logger.warning("FAISS не доступен или нет эмбеддингов")
-                
+                self.logger.warning("FAISS не доступен или эмбеддингов нет")
+
         except Exception as e:
             self.logger.error(f"Ошибка загрузки базы голосов: {e}")
     
diff --git a/src/app/utils.py b/src/app/utils.py
@@ -10,13 +10,14 @@
 import shutil
 import logging.config
 from pathlib import Path
-from typing import Dict, Any, Optional, Union
+from typing import Dict, Any, Optional, Union, List
 from fastapi import UploadFile
 from datetime import datetime, timedelta
 
 import librosa
 
 from .schemas import AudioMetadata
+from .schemas import VoiceInfo
 
 
 class ValidationResult:
@@ -271,3 +272,21 @@ def create_task_metadata(
         meta["websocket_client_id"] = websocket_client_id
     return meta
 
+def load_known_voices_from_embeddings(embeddings_dir: str) -> List[VoiceInfo]:
+    """
+    Загружает список известных голосов из каталога с эмбеддингами.
+
+    Args:
+        embeddings_dir: путь к каталогу с *.vec файлами
+
+    Returns:
+        Список VoiceInfo
+    """
+    path = Path(embeddings_dir).expanduser().resolve()
+    voices: List[VoiceInfo] = []
+    if not path.exists() or not path.is_dir():
+        return voices
+    for f in path.glob("*.vec"):
+        name = f.stem
+        voices.append(VoiceInfo(name=name, embedding=str(f)))
+    return voices
diff --git a/tests/test_api_voices.py b/tests/test_api_voices.py
diff --git a/volume/models/embeddings/conflict.vec b/volume/models/embeddings/conflict.vec

Original file line number	Diff line number	Diff line change
`@@ -1,3 +1,3 @@`
`1`	`1`	`# src/app/api/routers/__init__.py`
`2`	`2`
`3`		`-from . import health, jobs, ws # noqa: F401`
	`3`	`+from . import health, jobs, ws, voices # noqa: F401`