fix evaluate

kritinv · kritinv · commit a2b5d92ac593 · 2025-06-16T10:09:23.000+07:00
diff --git a/deepeval/openai/evaluate.py b/deepeval/openai/evaluate.py
@@ -1,31 +1,41 @@
-from ast import keyword
+from dataclasses import dataclass
+from typing import List, Dict, Any
 import asyncio
 import atexit
-from dataclasses import dataclass
-from typing import List, Optional, Dict
-from collections import defaultdict
-from deepeval import evaluate
-from deepeval.test_case import LLMTestCase
-from deepeval.metrics import BaseMetric
+
 from deepeval.openai.extractors import InputParameters
-from deepeval.test_run import auto_log_hyperparameters
+from deepeval.test_case import LLMTestCase
 from deepeval.evaluate import AsyncConfig
+from deepeval.metrics import BaseMetric
+from deepeval import evaluate
 
 @dataclass
 class TestCaseMetricPair:
     test_case: LLMTestCase
     metrics: List[BaseMetric]
+    hyperparameters: Dict[str, Any]
 
 @dataclass
 class TestCasesMetricSet:
     test_cases: List[LLMTestCase]
     metrics: List[BaseMetric]
+    hyperparameters: Dict[str, Any]
 
 test_case_pairs: List[TestCaseMetricPair] = []
 
 
-def add_test_case(test_case: LLMTestCase, metrics: List[BaseMetric]):
-    test_case_pairs.append(TestCaseMetricPair(test_case=test_case, metrics=metrics))
+def add_test_case(
+    test_case: LLMTestCase, 
+    metrics: List[BaseMetric],
+    input_parameters: InputParameters,
+):
+    test_case_pairs.append(
+        TestCaseMetricPair(
+            test_case=test_case, 
+            metrics=metrics,
+            hyperparameters=create_hyperparameters_map(input_parameters)
+        )
+    )
 
 ##############################################
 # Evaluation
@@ -41,13 +51,17 @@ async def evaluate_async():
             if key not in grouped:
                 grouped[key] = TestCasesMetricSet(
                     test_cases=[pair.test_case], 
-                    metrics=pair.metrics
+                    metrics=pair.metrics,
+                    hyperparameters=pair.hyperparameters
                 )
             else:
                 grouped[key].test_cases.append(pair.test_case)
     for key, cases in grouped.items():
-        evaluate(test_cases=cases.test_cases, metrics=cases.metrics)
-
+        evaluate(
+            test_cases=cases.test_cases, 
+            metrics=cases.metrics, 
+            hyperparameters=cases.hyperparameters
+        )
 
 def evaluate_sync():
     sync_config = AsyncConfig(run_async=False)
@@ -60,12 +74,18 @@ def evaluate_sync():
             if key not in grouped:
                 grouped[key] = TestCasesMetricSet(
                     test_cases=[pair.test_case], 
-                    metrics=pair.metrics
+                    metrics=pair.metrics,
+                    hyperparameters=pair.hyperparameters
                 )
             else:
                 grouped[key].test_cases.append(pair.test_case)
     for key, cases in grouped.items():
-        evaluate(test_cases=cases.test_cases, metrics=cases.metrics, async_config=sync_config)
+        evaluate(
+            test_cases=cases.test_cases, 
+            metrics=cases.metrics, 
+            hyperparameters=cases.hyperparameters, 
+            async_config=sync_config
+        )
 
 @atexit.register
 def run_evaluations_atexit():
@@ -80,11 +100,12 @@ def run_evaluations_atexit():
         except Exception as e:
             print("⚠️ Could not schedule async evaluation in atexit: ", e)
 
+
 ##############################################
 # Hyperparameters
 ##############################################
 
-def log_hyperparameters(input_parameters: InputParameters):
+def create_hyperparameters_map(input_parameters: InputParameters):
     hyperparameters = {"model": input_parameters.model}
     if input_parameters.instructions:
         hyperparameters["system_prompt"] = input_parameters.instructions
@@ -94,4 +115,4 @@ def log_hyperparameters(input_parameters: InputParameters):
             hyperparameters["system_prompt"] = (
                 system_messages[0] if len(system_messages) == 1 else str(system_messages)
             )
-    auto_log_hyperparameters(hyperparameters)
+    return hyperparameters
diff --git a/deepeval/openai/patch.py b/deepeval/openai/patch.py
@@ -3,12 +3,12 @@
 import inspect
 import uuid
 
-from deepeval.openai.evaluate import log_hyperparameters, add_test_case
 from deepeval.tracing.attributes import LlmAttributes, ToolAttributes
 from deepeval.openai.utils import get_attr_path, set_attr_path
 from deepeval.test_case import LLMTestCase, ToolCall
 from deepeval.tracing import trace_manager, observe
 from deepeval.metrics.base_metric import BaseMetric
+from deepeval.openai.evaluate import add_test_case
 
 from deepeval.tracing.types import (
     TraceSpanStatus,
@@ -113,7 +113,6 @@ async def llm_generation(*args, **kwargs):
                 return await llm_generation(*args, **kwargs)
             else:
                 response = await orig_method(*args, **kwargs)
-                log_hyperparameters(input_parameters)
                 output_parameters = extract_output_parameters(is_completion_method, response, input_parameters)
                 test_case = LLMTestCase(
                     input=input_parameters.input,
@@ -124,7 +123,7 @@ async def llm_generation(*args, **kwargs):
                     tools_called=output_parameters.tools_called,
                     expected_tools=expected_tools
                 )
-                add_test_case(test_case=test_case, metrics=metrics)
+                add_test_case(test_case=test_case, metrics=metrics, input_parameters=input_parameters)
                 return response
 
         return patched_async_openai_method
@@ -171,7 +170,6 @@ def llm_generation(*args, **kwargs):
                 return llm_generation(*args, **kwargs)
             else:
                 response = orig_method(*args, **kwargs)
-                log_hyperparameters(input_parameters)
                 output_parameters = extract_output_parameters(is_completion_method, response, input_parameters)
                 test_case = LLMTestCase(
                     input=input_parameters.input,
@@ -182,7 +180,7 @@ def llm_generation(*args, **kwargs):
                     tools_called=output_parameters.tools_called,
                     expected_tools=expected_tools
                 )
-                add_test_case(test_case=test_case, metrics=metrics)
+                add_test_case(test_case=test_case, metrics=metrics, input_parameters=input_parameters)
                 return response
 
         return patched_sync_openai_method
diff --git a/tests/integrations/test_openai_integration.py b/tests/integrations/test_openai_integration.py
@@ -1,22 +1,24 @@
+from deepeval.metrics import AnswerRelevancyMetric, BiasMetric
 from deepeval.openai import OpenAI
-from deepeval.metrics import AnswerRelevancyMetric
 
 client = OpenAI()
 
-client.chat.completions.create(
-    model="gpt-4o",
-    messages=[
-        {"role": "system", "content": "You are a helpful assistant."},
-        {"role": "user", "content": "Hello, how are you?"}
-    ],
-    metrics=[AnswerRelevancyMetric()]
-)
+for i in range(5):
+    client.chat.completions.create(
+        model="gpt-4o",
+        messages=[
+            {"role": "system", "content": "You are a helpful assistant."},
+            {"role": "user", "content": "Hello, how are you?"},
+        ],
+        metrics=[AnswerRelevancyMetric()],
+    )
 
-client.chat.completions.create(
-    model="gpt-4o",
-    messages=[
-        {"role": "system", "content": "You are a helpful assistant."},
-        {"role": "user", "content": "hiihi"}
-    ],
-    metrics=[AnswerRelevancyMetric()]
-)
+for i in range(5):
+    client.chat.completions.create(
+        model="gpt-4o",
+        messages=[
+            {"role": "system", "content": "You are a helpful chatbot."},
+            {"role": "user", "content": "Hello!"},
+        ],
+        metrics=[AnswerRelevancyMetric(), BiasMetric()],
+    )