confident-ai
diff --git a/‎bb.py‎
Lines changed: 18 additions & 2 deletions b/‎bb.py‎
Lines changed: 18 additions & 2 deletions
diff --git a/‎deepeval/__init__.py‎
Lines changed: 1 addition & 4 deletions b/‎deepeval/__init__.py‎
Lines changed: 1 addition & 4 deletions
diff --git a/‎deepeval/evaluate/utils.py‎
Lines changed: 27 additions & 33 deletions b/‎deepeval/evaluate/utils.py‎
Lines changed: 27 additions & 33 deletions
diff --git a/‎deepeval/event/__init__.py‎
Lines changed: 0 additions & 1 deletion b/‎deepeval/event/__init__.py‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎deepeval/event/api.py‎
Lines changed: 0 additions & 5 deletions b/‎deepeval/event/api.py‎
Lines changed: 0 additions & 5 deletions
diff --git a/‎deepeval/event/event.py‎
Lines changed: 0 additions & 47 deletions b/‎deepeval/event/event.py‎
Lines changed: 0 additions & 47 deletions
diff --git a/‎deepeval/metrics/answer_relevancy/answer_relevancy.py‎
Lines changed: 4 additions & 6 deletions b/‎deepeval/metrics/answer_relevancy/answer_relevancy.py‎
Lines changed: 4 additions & 6 deletions
diff --git a/‎deepeval/metrics/bias/bias.py‎
Lines changed: 4 additions & 6 deletions b/‎deepeval/metrics/bias/bias.py‎
Lines changed: 4 additions & 6 deletions
diff --git a/‎deepeval/metrics/contextual_precision/contextual_precision.py‎
Lines changed: 4 additions & 6 deletions b/‎deepeval/metrics/contextual_precision/contextual_precision.py‎
Lines changed: 4 additions & 6 deletions
diff --git a/‎deepeval/metrics/contextual_recall/contextual_recall.py‎
Lines changed: 4 additions & 6 deletions b/‎deepeval/metrics/contextual_recall/contextual_recall.py‎
Lines changed: 4 additions & 6 deletions
@@ -2,7 +2,8 @@
 from deepeval.test_case.conversational_test_case import TurnParams
 from deepeval.test_case.llm_test_case import ToolCall
 
-test_case = ConversationalTestCase(
+# Conversation 1: Initial contact and address collection
+test_case_1 = ConversationalTestCase(
     chatbot_role="A humble and doubtful wizard",
     turns=[
         Turn(
@@ -28,6 +29,13 @@
             content="Wonderful. Next, I'll need your bank account number where we can link this new account.",
         ),
         Turn(role="user", content="456789123"),
+    ],
+)
+
+# Conversation 2: Account number correction and personal details
+test_case_2 = ConversationalTestCase(
+    chatbot_role="A humble and doubtful wizard",
+    turns=[
         Turn(
             role="assistant",
             content="This account number seems invalid, can you please double-check?",
@@ -49,6 +57,13 @@
             role="assistant",
             content="Excellent. Just a few more details. What is your phone number?",
         ),
+    ],
+)
+
+# Conversation 3: Phone details and final confirmation with tools
+test_case_3 = ConversationalTestCase(
+    chatbot_role="A humble and doubtful wizard",
+    turns=[
         Turn(role="user", content="555-0102"),
         Turn(
             role="assistant",
@@ -122,5 +137,6 @@
 # metric = ConversationRelevancyMetric(verbose_mode=True)
 # metric = ConversationCompletenessMetric(verbose_mode=True)
 # metric = RoleAdherenceMetric(verbose_mode=True)
+from deepeval import evaluate
 
-metric.measure(test_case)
+evaluate(test_cases=[test_case_1, test_case_2, test_case_3], metrics=[metric])
@@ -5,8 +5,7 @@
 # Optionally add telemetry
 from ._version import __version__
 
-from deepeval.event import track
-from deepeval.monitor import monitor, a_monitor, send_feedback, a_send_feedback
+from deepeval.monitor import send_feedback, a_send_feedback
 from deepeval.evaluate import evaluate, assert_test
 from deepeval.test_run import on_test_run_end, log_hyperparameters
 from deepeval.utils import login_with_confident_api_key
@@ -22,8 +21,6 @@
     "login_with_confident_api_key",
     "log_hyperparameters",
     "track",
-    "monitor",
-    "a_monitor",
     "a_send_feedback",
     "send_feedback",
     "evaluate",
 
@@ -2,6 +2,8 @@
 import os, time
 
 
+from deepeval.test_case.conversational_test_case import Turn
+from deepeval.test_run.api import TurnApi
 from deepeval.test_run.test_run import TestRunResultDisplay
 from deepeval.dataset import Golden
 from deepeval.metrics import BaseMetric
@@ -96,13 +98,21 @@ def create_test_result(
             )
 
 
+def create_api_turn(turn: Turn, index: int) -> TurnApi:
+    return TurnApi(
+        role=turn.role,
+        content=turn.content,
+        retrieval_context=turn.retrieval_context,
+        tools_called=turn.tools_called,
+        additional_metadata=turn.additional_metadata,
+        order=index,
+    )
+
+
 def create_api_test_case(
     test_case: Union[LLMTestCase, ConversationalTestCase, MLLMTestCase],
     trace: Optional[TraceApi] = None,
     index: Optional[int] = None,
-    conversational_instance_id: Optional[int] = None,
-    additional_metadata: Optional[Dict] = None,
-    comments: Optional[str] = None,
 ) -> Union[LLMApiTestCase, ConversationalApiTestCase]:
     if isinstance(test_case, ConversationalTestCase):
         order = (
@@ -127,43 +137,29 @@ def create_api_test_case(
             testCases=[],
             additionalMetadata=test_case.additional_metadata,
         )
-        api_test_case.instance_id = id(api_test_case)
+        # api_test_case.instance_id = id(api_test_case)
         api_test_case.turns = [
-            create_api_test_case(
-                test_case=turn,
+            create_api_turn(
+                turn=turn,
                 index=index,
-                conversational_instance_id=api_test_case.instance_id,
-                additional_metadata=turn.additional_metadata,
-                comments=turn.comments,
             )
             for index, turn in enumerate(test_case.turns)
         ]
 
         return api_test_case
     else:
-        if conversational_instance_id:
-            success = None
-            name = f"turn_{index}"
-            order = index
-
-            # Manually set the metadata and comments on conversational test case
-            # to each individual message (test case)
-            test_case.additional_metadata = additional_metadata
-            test_case.comments = comments
-            metrics_data = None
-        else:
-            order = (
-                test_case._dataset_rank
-                if test_case._dataset_rank is not None
-                else index
-            )
+        order = (
+            test_case._dataset_rank
+            if test_case._dataset_rank is not None
+            else index
+        )
 
-            success = True
-            if test_case.name is not None:
-                name = test_case.name
-            else:
-                name = os.getenv(PYTEST_RUN_TEST_NAME, f"test_case_{order}")
-            metrics_data = []
+        success = True
+        if test_case.name is not None:
+            name = test_case.name
+        else:
+            name = os.getenv(PYTEST_RUN_TEST_NAME, f"test_case_{order}")
+        metrics_data = []
 
         if isinstance(test_case, LLMTestCase):
             api_test_case = LLMApiTestCase(
@@ -184,7 +180,6 @@ def create_api_test_case(
                 order=order,
                 additionalMetadata=test_case.additional_metadata,
                 comments=test_case.comments,
-                conversational_instance_id=conversational_instance_id,
                 trace=trace,
             )
         elif isinstance(test_case, MLLMTestCase):
@@ -203,7 +198,6 @@ def create_api_test_case(
                 order=order,
                 additionalMetadata=test_case.additional_metadata,
                 comments=test_case.comments,
-                conversational_instance_id=conversational_instance_id,
             )
         # llm_test_case_lookup_map[instance_id] = api_test_case
         return api_test_case
 
@@ -48,12 +48,11 @@ def __init__(
 
     def measure(
         self,
-        test_case: Union[LLMTestCase, ConversationalTestCase],
+        test_case: LLMTestCase,
         _show_indicator: bool = True,
         _in_component: bool = False,
     ) -> float:
-        if isinstance(test_case, ConversationalTestCase):
-            test_case = test_case.turns[-1]
+
         check_llm_test_case_params(test_case, self._required_params, self)
 
         self.evaluation_cost = 0 if self.using_native_model else None
@@ -92,12 +91,11 @@ def measure(
 
     async def a_measure(
         self,
-        test_case: Union[LLMTestCase, ConversationalTestCase],
+        test_case: LLMTestCase,
         _show_indicator: bool = True,
         _in_component: bool = False,
     ) -> float:
-        if isinstance(test_case, ConversationalTestCase):
-            test_case = test_case.turns[-1]
+
         check_llm_test_case_params(test_case, self._required_params, self)
 
         self.evaluation_cost = 0 if self.using_native_model else None
 
@@ -46,12 +46,11 @@ def __init__(
 
     def measure(
         self,
-        test_case: Union[LLMTestCase, ConversationalTestCase],
+        test_case: LLMTestCase,
         _show_indicator: bool = True,
         _in_component: bool = False,
     ) -> float:
-        if isinstance(test_case, ConversationalTestCase):
-            test_case = test_case.turns[-1]
+
         check_llm_test_case_params(test_case, self._required_params, self)
 
         self.evaluation_cost = 0 if self.using_native_model else None
@@ -88,12 +87,11 @@ def measure(
 
     async def a_measure(
         self,
-        test_case: Union[LLMTestCase, ConversationalTestCase],
+        test_case: LLMTestCase,
         _show_indicator: bool = True,
         _in_component: bool = False,
     ) -> float:
-        if isinstance(test_case, ConversationalTestCase):
-            test_case = test_case.turns[-1]
+
         check_llm_test_case_params(test_case, self._required_params, self)
 
         self.evaluation_cost = 0 if self.using_native_model else None
 
@@ -52,12 +52,11 @@ def __init__(
 
     def measure(
         self,
-        test_case: Union[LLMTestCase, ConversationalTestCase],
+        test_case: LLMTestCase,
         _show_indicator: bool = True,
         _in_component: bool = False,
     ) -> float:
-        if isinstance(test_case, ConversationalTestCase):
-            test_case = test_case.turns[-1]
+
         check_llm_test_case_params(test_case, self._required_params, self)
 
         self.evaluation_cost = 0 if self.using_native_model else None
@@ -96,12 +95,11 @@ def measure(
 
     async def a_measure(
         self,
-        test_case: Union[LLMTestCase, ConversationalTestCase],
+        test_case: LLMTestCase,
         _show_indicator: bool = True,
         _in_component: bool = False,
     ) -> float:
-        if isinstance(test_case, ConversationalTestCase):
-            test_case = test_case.turns[-1]
+
         check_llm_test_case_params(test_case, self._required_params, self)
 
         self.evaluation_cost = 0 if self.using_native_model else None
 
@@ -51,12 +51,11 @@ def __init__(
 
     def measure(
         self,
-        test_case: Union[LLMTestCase, ConversationalTestCase],
+        test_case: LLMTestCase,
         _show_indicator: bool = True,
         _in_component: bool = False,
     ) -> float:
-        if isinstance(test_case, ConversationalTestCase):
-            test_case = test_case.turns[-1]
+
         check_llm_test_case_params(test_case, self._required_params, self)
 
         self.evaluation_cost = 0 if self.using_native_model else None
@@ -93,12 +92,11 @@ def measure(
 
     async def a_measure(
         self,
-        test_case: Union[LLMTestCase, ConversationalTestCase],
+        test_case: LLMTestCase,
         _show_indicator: bool = True,
         _in_component: bool = False,
     ) -> float:
-        if isinstance(test_case, ConversationalTestCase):
-            test_case = test_case.turns[-1]
+
         check_llm_test_case_params(test_case, self._required_params, self)
 
         self.evaluation_cost = 0 if self.using_native_model else None