load models at docker build instead of container build

eshaan-mehta · eshaan-mehta · commit 01e39330de9d · 2026-01-21T10:35:17.000-05:00
diff --git a/backend/embeddings/video_embedder.py b/backend/embeddings/video_embedder.py
diff --git a/backend/search/__init__.py b/backend/search/__init__.py
@@ -2,7 +2,7 @@
 Search module for semantic search using CLIP embeddings and Pinecone.
 """
 
-from search.embedder import TextEmbedder
+from search.text_embedder import TextEmbedder
 from search.searcher import Searcher
 
 __all__ = ["TextEmbedder", "Searcher"]
diff --git a/backend/search/searcher.py b/backend/search/searcher.py
@@ -10,7 +10,7 @@
 
 from database.pinecone_connector import PineconeConnector
 from database.r2_connector import R2Connector
-from search.embedder import TextEmbedder
+from search.text_embedder import TextEmbedder
 
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
diff --git a/backend/search/text_embedder.py b/backend/search/text_embedder.py
diff --git a/backend/services/processing.py b/backend/services/processing.py
@@ -21,7 +21,7 @@ class ProcessingService:
     def startup(self):
         """Load CLIP model and initialize all connectors."""
         from preprocessing.preprocessor import Preprocessor
-        from embeddings.embedder import VideoEmbedder
+        from embeddings.video_embedder import VideoEmbedder
         from database.pinecone_connector import PineconeConnector
         from database.job_store_connector import JobStoreConnector
         from database.r2_connector import R2Connector
diff --git a/backend/services/search.py b/backend/services/search.py
@@ -22,7 +22,7 @@ def startup(self):
         """Load CLIP text encoder and initialize connectors."""
         from database.pinecone_connector import PineconeConnector
         from database.r2_connector import R2Connector
-        from search.embedder import TextEmbedder
+        from search.text_embedder import TextEmbedder
 
         env = get_environment()
         logger.info(f"[{self.__class__.__name__}] Starting up in '{env}' environment")
diff --git a/backend/shared/images.py b/backend/shared/images.py
@@ -9,9 +9,23 @@
 
 import modal
 
+def _download_all_clip_models():
+    """Pre-download all CLIP models at image build time."""
+    from transformers import CLIPModel, CLIPProcessor, CLIPTextModelWithProjection, CLIPTokenizer
+    model_name = "openai/clip-vit-base-patch32"
+    # Full model for video processing
+    CLIPModel.from_pretrained(model_name)
+    CLIPProcessor.from_pretrained(model_name, use_fast=True)
+    # Text-only model for search
+    CLIPTokenizer.from_pretrained(model_name)
+    CLIPTextModelWithProjection.from_pretrained(model_name)
+
+
 def get_dev_image() -> modal.Image:
     """
     Create the Modal image for the dev app.
+    
+    Pre-downloads all models at build time to eliminate cold start downloads.
     """
     return (
         modal.Image.debian_slim(python_version="3.12")
@@ -29,6 +43,7 @@ def get_dev_image() -> modal.Image:
             "scenedetect",
             "pillow",
         )
+        .run_function(_download_all_clip_models)
         .add_local_python_source(
             "api",
             "database",
@@ -66,12 +81,22 @@ def get_server_image() -> modal.Image:
         )
     )
 
+def _download_clip_text_model():
+    """Pre-download CLIP text encoder at image build time."""
+    from transformers import CLIPTextModelWithProjection, CLIPTokenizer
+    model_name = "openai/clip-vit-base-patch32"
+    CLIPTokenizer.from_pretrained(model_name)
+    CLIPTextModelWithProjection.from_pretrained(model_name)
+
+
 def get_search_image() -> modal.Image:
     """
     Create the Modal image for the Search app.
 
     Medium dependencies - includes CLIP text encoder only.
     The text encoder (~150MB) is much lighter than the full CLIP model (~350MB).
+    
+    Pre-downloads the model at build time to eliminate cold start downloads.
     """
     return (
         modal.Image.debian_slim(python_version="3.12")
@@ -83,6 +108,7 @@ def get_search_image() -> modal.Image:
             "boto3",
             "numpy",
         )
+        .run_function(_download_clip_text_model)
         .add_local_python_source(
             "database",
             "search",
@@ -92,12 +118,22 @@ def get_search_image() -> modal.Image:
     )
 
 
+def _download_clip_full_model():
+    """Pre-download full CLIP model (vision + text) at image build time."""
+    from transformers import CLIPModel, CLIPProcessor
+    model_name = "openai/clip-vit-base-patch32"
+    CLIPModel.from_pretrained(model_name)
+    CLIPProcessor.from_pretrained(model_name, use_fast=True)
+
+
 def get_processing_image() -> modal.Image:
     """
     Create the Modal image for the Processing app.
     
     Heavy dependencies for video processing pipeline.
     Includes: ffmpeg, opencv, scenedetect, full CLIP model, etc.
+    
+    Pre-downloads the model at build time to eliminate cold start downloads.
     """
     return (
         modal.Image.debian_slim(python_version="3.12")
@@ -113,6 +149,7 @@ def get_processing_image() -> modal.Image:
             "pinecone",
             "boto3",
         )
+        .run_function(_download_clip_full_model)
         .add_local_python_source(
             "database",
             "preprocessing",