confident-ai · penguine-ip · Sep 25, 2025 · Sep 18, 2025 · Sep 18, 2025 · Sep 23, 2025
diff --git a/deepeval/dataset/dataset.py b/deepeval/dataset/dataset.py
@@ -458,6 +458,8 @@ def add_goldens_from_csv_file(
         tools_called_col_delimiter: str = ";",
         expected_tools_col_name: Optional[str] = "expected_tools",
         expected_tools_col_delimiter: str = ";",
+        comments_key_name: str = "comments",
+        name_key_name: str = "name",
         source_file_col_name: Optional[str] = None,
         additional_metadata_col_name: Optional[str] = None,
         scenario_col_name: Optional[str] = "scenario",
@@ -526,6 +528,8 @@ def get_column_data(df: pd.DataFrame, col_name: str, default=None):
                 df, expected_tools_col_name, default=""
             )
         ]
+        comments = get_column_data(df, comments_key_name)
+        name = get_column_data(df, name_key_name)
         source_files = get_column_data(df, source_file_col_name)
         additional_metadatas = [
             ast.literal_eval(metadata) if metadata else None
@@ -546,6 +550,8 @@ def get_column_data(df: pd.DataFrame, col_name: str, default=None):
             retrieval_context,
             tools_called,
             expected_tools,
+            comments,
+            name,
             source_file,
             additional_metadata,
             scenario,
@@ -560,6 +566,8 @@ def get_column_data(df: pd.DataFrame, col_name: str, default=None):
             retrieval_contexts,
             tools_called,
             expected_tools,
+            comments,
+            name,
             source_files,
             additional_metadatas,
             scenarios,
@@ -569,14 +577,16 @@ def get_column_data(df: pd.DataFrame, col_name: str, default=None):
         ):
             if scenario:
                 self._multi_turn = True
-                parsed_turns = parse_turns(turns)
+                parsed_turns = parse_turns(turns) if turns else []
                 self.goldens.append(
                     ConversationalGolden(
                         scenario=scenario,
                         turns=parsed_turns,
                         expected_outcome=expected_outcome,
                         user_description=user_description,
                         context=context,
+                        comments=comments,
+                        name=name,
                     )
                 )
             else:
@@ -592,6 +602,8 @@ def get_column_data(df: pd.DataFrame, col_name: str, default=None):
                         expected_tools=expected_tools,
                         additional_metadata=additional_metadata,
                         source_file=source_file,
+                        comments=comments,
+                        name=name,
                     )
                 )
 
@@ -605,6 +617,8 @@ def add_goldens_from_json_file(
         retrieval_context_key_name: Optional[str] = "retrieval_context",
         tools_called_key_name: Optional[str] = "tools_called",
         expected_tools_key_name: Optional[str] = "expected_tools",
+        comments_key_name: str = "comments",
+        name_key_name: str = "name",
         source_file_key_name: Optional[str] = "source_file",
         additional_metadata_key_name: Optional[str] = "additional_metadata",
         scenario_key_name: Optional[str] = "scenario",
@@ -628,7 +642,8 @@ def add_goldens_from_json_file(
                 expected_outcome = json_obj.get(expected_outcome_key_name)
                 user_description = json_obj.get(user_description_key_name)
                 context = json_obj.get(context_key_name)
-
+                comments = json_obj.get(comments_key_name)
+                name = json_obj.get(name_key_name)
                 parsed_turns = parse_turns(turns) if turns else []
 
                 self._multi_turn = True
@@ -639,6 +654,8 @@ def add_goldens_from_json_file(
                         expected_outcome=expected_outcome,
                         user_description=user_description,
                         context=context,
+                        comments=comments,
+                        name=name,
                     )
                 )
             else:
@@ -649,6 +666,8 @@ def add_goldens_from_json_file(
                 retrieval_context = json_obj.get(retrieval_context_key_name)
                 tools_called = json_obj.get(tools_called_key_name)
                 expected_tools = json_obj.get(expected_tools_key_name)
+                comments = json_obj.get(comments_key_name)
+                name = json_obj.get(name_key_name)
                 source_file = json_obj.get(source_file_key_name)
                 additional_metadata = json_obj.get(additional_metadata_key_name)
 
@@ -663,6 +682,8 @@ def add_goldens_from_json_file(
                         tools_called=tools_called,
                         expected_tools=expected_tools,
                         additional_metadata=additional_metadata,
+                        comments=comments,
+                        name=name,
                         source_file=source_file,
                     )
                 )
@@ -928,6 +949,8 @@ def save_as(
                     expected_outcome=golden.expected_outcome,
                     user_description=golden.user_description,
                     context=golden.context,
+                    name=golden.name,
+                    comments=golden.comments,
                 )
                 for golden in self.goldens
             ]
@@ -939,6 +962,8 @@ def save_as(
                     actual_output=golden.actual_output,
                     retrieval_context=golden.retrieval_context,
                     context=golden.context,
+                    name=golden.name,
+                    comments=golden.comments,
                     source_file=golden.source_file,
                 )
                 for golden in self.goldens
@@ -981,6 +1006,8 @@ def save_as(
                             "expected_outcome": golden.expected_outcome,
                             "user_description": golden.user_description,
                             "context": golden.context,
+                            "name": golden.name,
+                            "comments": golden.comments,
                         }
                         for golden in goldens
                     ]
@@ -992,6 +1019,8 @@ def save_as(
                             "expected_output": golden.expected_output,
                             "retrieval_context": golden.retrieval_context,
                             "context": golden.context,
+                            "name": golden.name,
+                            "comments": golden.comments,
                             "source_file": golden.source_file,
                         }
                         for golden in goldens
@@ -1010,6 +1039,8 @@ def save_as(
                             "expected_outcome",
                             "user_description",
                             "context",
+                            "name",
+                            "comments",
                         ]
                     )
                     for golden in goldens:
@@ -1030,6 +1061,8 @@ def save_as(
                                 golden.expected_outcome,
                                 golden.user_description,
                                 context,
+                                golden.name,
+                                golden.comments,
                             ]
                         )
                 else:
@@ -1040,6 +1073,8 @@ def save_as(
                             "expected_output",
                             "retrieval_context",
                             "context",
+                            "name",
+                            "comments",
                             "source_file",
                         ]
                     )
@@ -1061,6 +1096,8 @@ def save_as(
                                 golden.expected_output,
                                 retrieval_context,
                                 context,
+                                golden.name,
+                                golden.comments,
                                 golden.source_file,
                             ]
                         )

diff --git a/docs/docs/evaluation-datasets.mdx b/docs/docs/evaluation-datasets.mdx
@@ -40,7 +40,7 @@ Depending on the type of goldens you supply, datasets are either **single-turn**
 If you don't already have an `EvaluationDataset`, a great starting point is to simply write down the prompts you're currently using to manually eyeball your LLM outputs. You can also do this on Confident AI, which integrates 100% with `deepeval`:
 
 <VideoDisplayer
-  src="https://confident-docs.s3.us-east-1.amazonaws.com/dataset-editor:dataset-annotation.mp4"
+  src="https://confident-docs.s3.us-east-1.amazonaws.com/datasets:create-4k.mp4"
   confidentUrl="/docs/dataset-editor/annotate-datasets"
   label="Learn Dataset Annotation on Confident AI"
 />

diff --git a/docs/docs/metrics-introduction.mdx b/docs/docs/metrics-introduction.mdx
@@ -149,7 +149,7 @@ evaluate(
 If you're logged into [Confident AI](https://confident-ai.com) before running an evaluation (`deepeval login` or `deepeval view` in the CLI), you'll also get entire testing reports on the platform:
 
 <VideoDisplayer
-  src="https://confident-docs.s3.us-east-1.amazonaws.com/evaluation:testing-report.mp4"
+  src="https://confident-docs.s3.us-east-1.amazonaws.com/evaluation:single-turn-e2e-report.mp4"
   confidentUrl="/docs/llm-evaluation/dashboards/testing-reports"
   label="Run Evaluations on Confident AI"
 />