confident-ai
diff --git a/‎deepeval/models/llms/amazon_bedrock_model.py‎
Lines changed: 14 additions & 8 deletions b/‎deepeval/models/llms/amazon_bedrock_model.py‎
Lines changed: 14 additions & 8 deletions
diff --git a/‎deepeval/models/llms/anthropic_model.py‎
Lines changed: 13 additions & 6 deletions b/‎deepeval/models/llms/anthropic_model.py‎
Lines changed: 13 additions & 6 deletions
diff --git a/‎deepeval/models/llms/azure_model.py‎
Lines changed: 13 additions & 6 deletions b/‎deepeval/models/llms/azure_model.py‎
Lines changed: 13 additions & 6 deletions
diff --git a/‎deepeval/models/llms/constants.py‎
Lines changed: 16 additions & 0 deletions b/‎deepeval/models/llms/constants.py‎
Lines changed: 16 additions & 0 deletions
diff --git a/‎deepeval/models/llms/deepseek_model.py‎
Lines changed: 13 additions & 6 deletions b/‎deepeval/models/llms/deepseek_model.py‎
Lines changed: 13 additions & 6 deletions
diff --git a/‎deepeval/models/llms/gemini_model.py‎
Lines changed: 14 additions & 7 deletions b/‎deepeval/models/llms/gemini_model.py‎
Lines changed: 14 additions & 7 deletions
diff --git a/‎deepeval/models/llms/grok_model.py‎
Lines changed: 13 additions & 6 deletions b/‎deepeval/models/llms/grok_model.py‎
Lines changed: 13 additions & 6 deletions
diff --git a/‎deepeval/models/llms/kimi_model.py‎
Lines changed: 13 additions & 6 deletions b/‎deepeval/models/llms/kimi_model.py‎
Lines changed: 13 additions & 6 deletions
diff --git a/‎deepeval/models/llms/openai_model.py‎
Lines changed: 14 additions & 10 deletions b/‎deepeval/models/llms/openai_model.py‎
Lines changed: 14 additions & 10 deletions
diff --git a/‎deepeval/synthesizer/chunking/context_generator.py‎
Lines changed: 17 additions & 0 deletions b/‎deepeval/synthesizer/chunking/context_generator.py‎
Lines changed: 17 additions & 0 deletions
@@ -350,14 +350,20 @@ def get_converse_request_body(self, prompt: str) -> dict:
 
     def calculate_cost(
         self, input_tokens: int, output_tokens: int
-    ) -> Optional[float]:
-        if self.model_data.input_price and self.model_data.output_price:
-            input_cost = input_tokens * self.model_data.input_price
-            output_cost = output_tokens * self.model_data.output_price
-            return EvaluationCost(
-                input_cost + output_cost, input_tokens, output_tokens
-            )
-        return None
+    ) -> float:
+        input_cost = (
+            input_tokens * self.model_data.input_price
+            if self.model_data.input_price
+            else 0.0
+        )
+        output_cost = (
+            output_tokens * self.model_data.output_price
+            if self.model_data.output_price
+            else 0.0
+        )
+        return EvaluationCost(
+            input_cost + output_cost, input_tokens, output_tokens
+        )
 
     def load_model(self):
         pass
 
@@ -236,12 +236,19 @@ def generate_content(self, multimodal_input: List[Union[str, MLLMImage]]):
     ###############################################
 
     def calculate_cost(self, input_tokens: int, output_tokens: int) -> float:
-        if self.model_data.input_price and self.model_data.output_price:
-            input_cost = input_tokens * self.model_data.input_price
-            output_cost = output_tokens * self.model_data.output_price
-            return EvaluationCost(
-                input_cost + output_cost, input_tokens, output_tokens
-            )
+        input_cost = (
+            input_tokens * self.model_data.input_price
+            if self.model_data.input_price
+            else 0.0
+        )
+        output_cost = (
+            output_tokens * self.model_data.output_price
+            if self.model_data.output_price
+            else 0.0
+        )
+        return EvaluationCost(
+            input_cost + output_cost, input_tokens, output_tokens
+        )
 
     #########################
     # Capabilities          #
 
@@ -435,12 +435,19 @@ def generate_content(
     ###############################################
 
     def calculate_cost(self, input_tokens: int, output_tokens: int) -> float:
-        if self.model_data.input_price and self.model_data.output_price:
-            input_cost = input_tokens * self.model_data.input_price
-            output_cost = output_tokens * self.model_data.output_price
-            return EvaluationCost(
-                input_cost + output_cost, input_tokens, output_tokens
-            )
+        input_cost = (
+            input_tokens * self.model_data.input_price
+            if self.model_data.input_price
+            else 0.0
+        )
+        output_cost = (
+            output_tokens * self.model_data.output_price
+            if self.model_data.output_price
+            else 0.0
+        )
+        return EvaluationCost(
+            input_cost + output_cost, input_tokens, output_tokens
+        )
 
     ###############################################
     # Capabilities
 
@@ -1059,6 +1059,22 @@ def make_model_data(**kwargs: Any) -> ModelDataFactory:
             input_price=1.00 / 1e6,
             output_price=2.00 / 1e6,
         ),
+        "deepseek-v4-flash": make_model_data(
+            supports_log_probs=False,
+            supports_multimodal=False,
+            supports_structured_outputs=True,
+            supports_json=True,
+            input_price=None,
+            output_price=None,
+        ),
+        "deepseek-v4-pro": make_model_data(
+            supports_log_probs=False,
+            supports_multimodal=False,
+            supports_structured_outputs=True,
+            supports_json=True,
+            input_price=None,
+            output_price=None,
+        ),
     }
 )
 
 
@@ -177,12 +177,19 @@ async def a_generate(
     ###############################################
 
     def calculate_cost(self, input_tokens: int, output_tokens: int) -> float:
-        if self.model_data.input_price and self.model_data.output_price:
-            input_cost = input_tokens * self.model_data.input_price
-            output_cost = output_tokens * self.model_data.output_price
-            return EvaluationCost(
-                input_cost + output_cost, input_tokens, output_tokens
-            )
+        input_cost = (
+            input_tokens * self.model_data.input_price
+            if self.model_data.input_price
+            else 0.0
+        )
+        output_cost = (
+            output_tokens * self.model_data.output_price
+            if self.model_data.output_price
+            else 0.0
+        )
+        return EvaluationCost(
+            input_cost + output_cost, input_tokens, output_tokens
+        )
 
     ###############################################
     # Capabilities
 
@@ -316,13 +316,20 @@ async def a_generate(
 
     def calculate_cost(
         self, input_tokens: int, output_tokens: int
-    ) -> Optional[EvaluationCost]:
-        if self.model_data.input_price and self.model_data.output_price:
-            input_cost = input_tokens * self.model_data.input_price
-            output_cost = output_tokens * self.model_data.output_price
-            return EvaluationCost(
-                input_cost + output_cost, input_tokens, output_tokens
-            )
+    ) -> float:
+        input_cost = (
+            input_tokens * self.model_data.input_price
+            if self.model_data.input_price
+            else 0.0
+        )
+        output_cost = (
+            output_tokens * self.model_data.output_price
+            if self.model_data.output_price
+            else 0.0
+        )
+        return EvaluationCost(
+            input_cost + output_cost, input_tokens, output_tokens
+        )
 
     def _token_cost(self, response) -> EvaluationCost:
         usage = getattr(response, "usage_metadata", None)
 
@@ -226,12 +226,19 @@ def generate_content(
     ###############################################
 
     def calculate_cost(self, input_tokens: int, output_tokens: int) -> float:
-        if self.model_data.input_price and self.model_data.output_price:
-            input_cost = input_tokens * self.model_data.input_price
-            output_cost = output_tokens * self.model_data.output_price
-            return EvaluationCost(
-                input_cost + output_cost, input_tokens, output_tokens
-            )
+        input_cost = (
+            input_tokens * self.model_data.input_price
+            if self.model_data.input_price
+            else 0.0
+        )
+        output_cost = (
+            output_tokens * self.model_data.output_price
+            if self.model_data.output_price
+            else 0.0
+        )
+        return EvaluationCost(
+            input_cost + output_cost, input_tokens, output_tokens
+        )
 
     ###############################################
     # Capabilities
 
@@ -225,12 +225,19 @@ def generate_content(
     ###############################################
 
     def calculate_cost(self, input_tokens: int, output_tokens: int) -> float:
-        if self.model_data.input_price and self.model_data.output_price:
-            input_cost = input_tokens * self.model_data.input_price
-            output_cost = output_tokens * self.model_data.output_price
-            return EvaluationCost(
-                input_cost + output_cost, input_tokens, output_tokens
-            )
+        input_cost = (
+            input_tokens * self.model_data.input_price
+            if self.model_data.input_price
+            else 0.0
+        )
+        output_cost = (
+            output_tokens * self.model_data.output_price
+            if self.model_data.output_price
+            else 0.0
+        )
+        return EvaluationCost(
+            input_cost + output_cost, input_tokens, output_tokens
+        )
 
     ###############################################
     # Capabilities
 
@@ -396,16 +396,20 @@ def generate_samples(
 
     def calculate_cost(
         self, input_tokens: int, output_tokens: int
-    ) -> Optional[float]:
-        if self.model_data.input_price and self.model_data.output_price:
-            input_cost = input_tokens * self.model_data.input_price
-            output_cost = output_tokens * self.model_data.output_price
-            # Carry token counts alongside the cost so metric runs can surface
-            # input/output token usage (EvaluationCost subclasses float, so every
-            # existing `output, cost = generate(...)` caller is unaffected).
-            return EvaluationCost(
-                input_cost + output_cost, input_tokens, output_tokens
-            )
+    ) -> float:
+        input_cost = (
+            input_tokens * self.model_data.input_price
+            if self.model_data.input_price
+            else 0.0
+        )
+        output_cost = (
+            output_tokens * self.model_data.output_price
+            if self.model_data.output_price
+            else 0.0
+        )
+        return EvaluationCost(
+            input_cost + output_cost, input_tokens, output_tokens
+        )
 
     #########################
     # Capabilities          #
 
@@ -27,6 +27,7 @@
     DeepEvalBaseEmbeddingModel,
     DeepEvalBaseLLM,
 )
+from deepeval.errors import DeepEvalError
 from deepeval.utils import update_pbar, add_pbar, remove_pbars
 from deepeval.config.settings import get_settings
 
@@ -209,6 +210,7 @@ def generate_contexts(
             update_pbar(progress, pbar_id, remove=False)
 
             # process each doc end-to-end (sync), with per-doc error logging
+            docs_with_errors: List[str] = []
             for path, chunker in source_file_to_chunker_map.items():
                 collection = None
                 try:
@@ -267,6 +269,7 @@ def generate_contexts(
                     source_files.extend([path] * len(ctxs_for_doc))
 
                 except Exception as exc:
+                    docs_with_errors.append(path)
                     # record and continue with other docs
                     show_trace = bool(get_settings().DEEPEVAL_LOG_STACK_TRACES)
                     exc_info = (
@@ -306,6 +309,12 @@ def generate_contexts(
                     "Not enough chunks in smallest document",
                 )
 
+            if docs_with_errors and not contexts:
+                raise DeepEvalError(
+                    f"Context generation failed for all {len(docs_with_errors)} "
+                    f"document(s). Check the logs above for per-document errors."
+                )
+
             return contexts, source_files, scores
 
         finally:
@@ -432,8 +441,10 @@ async def pipeline(path: str, chunker: DocumentChunker):
             results = await asyncio.gather(*tasks, return_exceptions=True)
 
             # Collect results, surface any errors after cleanup
+            docs_with_errors: List[str] = []
             for path, res in zip(paths, results):
                 if isinstance(res, Exception):
+                    docs_with_errors.append(path)
                     logger.error(
                         "Document pipeline failed for %s",
                         path,
@@ -463,6 +474,12 @@ async def pipeline(path: str, chunker: DocumentChunker):
                     "Not enough chunks in smallest document",
                 )
 
+            if docs_with_errors and not contexts:
+                raise DeepEvalError(
+                    f"Context generation failed for all {len(docs_with_errors)} "
+                    f"document(s). Check the logs above for per-document errors."
+                )
+
             return contexts, source_files, scores
 
         finally: