perf: reuse embedding service singleton

anhmtk · anhmtk · commit 4c99e993735c · 2026-02-06T21:19:49.000+07:00
diff --git a/backend/api/main.py b/backend/api/main.py
@@ -10,7 +10,8 @@
 import logging
 
 # Import RAG components
-from backend.vector_db import ChromaClient, EmbeddingService, RAGRetrieval
+from backend.vector_db import ChromaClient, RAGRetrieval
+from backend.vector_db.embeddings import get_embedding_service
 from backend.learning import KnowledgeRetention, AccuracyScorer
 from backend.learning.continuum_memory import ContinuumMemory
 from backend.services.rss_fetcher import RSSFetcher
@@ -281,7 +282,7 @@ def _initialize_rag_components():
         
         # CRITICAL: Initialize EmbeddingService FIRST so we can pass it to ChromaClient
         # This prevents ChromaDB from using default ONNX model (all-MiniLM-L6-v2)
-        embedding_service = EmbeddingService()
+        embedding_service = get_embedding_service()
         logger.info("✓ Embedding service initialized")
         
         # CRITICAL FIX: Only use reset_on_error=True if explicitly requested (force_reset or dashboard_reset)
diff --git a/backend/api/routers/system_router.py b/backend/api/routers/system_router.py
@@ -1135,8 +1135,8 @@ async def re_embed_foundational_knowledge_endpoint(
         if not chroma_client:
             raise HTTPException(status_code=503, detail="ChromaDB client not available")
         
-        from stillme_core.rag.embeddings import EmbeddingService
-        embedding_service = EmbeddingService()
+        from backend.vector_db.embeddings import get_embedding_service
+        embedding_service = get_embedding_service()
         
         # Get collection
         collection = chroma_client.knowledge_collection
@@ -1352,8 +1352,8 @@ async def migrate_collection_to_cosine_endpoint(
         if not chroma_client:
             raise HTTPException(status_code=503, detail="ChromaDB client not available")
         
-        from stillme_core.rag.embeddings import EmbeddingService
-        embedding_service = EmbeddingService()
+        from backend.vector_db.embeddings import get_embedding_service
+        embedding_service = get_embedding_service()
         
         # Check if collection exists
         try:
diff --git a/backend/core/philosophical_detector_semantic.py b/backend/core/philosophical_detector_semantic.py
@@ -81,8 +81,8 @@ def _initialize(self):
         try:
             # Lazy import to avoid circular dependencies
             if self.embedding_service is None:
-                from stillme_core.rag.embeddings import EmbeddingService
-                self.embedding_service = EmbeddingService()
+                from backend.vector_db.embeddings import get_embedding_service
+                self.embedding_service = get_embedding_service()
             
             # Embed all philosophical examples
             logger.info(f"Initializing semantic philosophical detector with {len(PHILOSOPHICAL_EXAMPLES)} examples")
diff --git a/backend/services/codebase_indexer.py b/backend/services/codebase_indexer.py
@@ -491,10 +491,10 @@ def get_codebase_indexer():
         # Fallback: Initialize directly (for scripts/testing)
         try:
             from backend.vector_db.chroma_client import ChromaClient
-            from backend.vector_db.embeddings import EmbeddingService
+            from backend.vector_db.embeddings import get_embedding_service
             
             logger.info("📦 Initializing ChromaDB client and EmbeddingService directly...")
-            embedding_service = EmbeddingService()
+            embedding_service = get_embedding_service()
             chroma_client = ChromaClient(embedding_service=embedding_service)
             
             _codebase_indexer_instance = CodebaseIndexer(
diff --git a/backend/services/git_history_retriever.py b/backend/services/git_history_retriever.py
@@ -472,8 +472,8 @@ def get_git_history_retriever(
         
         # If still None, initialize directly (standalone mode)
         if embedding_service is None:
-            from backend.vector_db import EmbeddingService
-            embedding_service = EmbeddingService()
+            from backend.vector_db.embeddings import get_embedding_service
+            embedding_service = get_embedding_service()
             logger.info("📦 Initializing EmbeddingService directly (standalone mode)")
     
     return GitHistoryRetriever(
diff --git a/backend/vector_db/embeddings.py b/backend/vector_db/embeddings.py
@@ -643,3 +643,15 @@ def batch_encode(self, texts: List[str], batch_size: int = 32) -> List[List[floa
         except Exception as e:
             logger.error(f"Failed to batch encode texts: {e}")
             raise
+
+
+# Global embedding service instance (singleton)
+_embedding_service: Optional["EmbeddingService"] = None
+
+
+def get_embedding_service(model_name: str = "paraphrase-multilingual-MiniLM-L12-v2") -> "EmbeddingService":
+    """Get global embedding service instance (singleton)."""
+    global _embedding_service
+    if _embedding_service is None:
+        _embedding_service = EmbeddingService(model_name=model_name)
+    return _embedding_service