CTLab-ITMO
diff --git a/‎coolprompt/__init__.py‎
Lines changed: 5 additions & 0 deletions b/‎coolprompt/__init__.py‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎coolprompt/assistant.py‎
Lines changed: 55 additions & 2 deletions b/‎coolprompt/assistant.py‎
Lines changed: 55 additions & 2 deletions
diff --git a/‎coolprompt/evaluator/evaluator.py‎
Lines changed: 2 additions & 2 deletions b/‎coolprompt/evaluator/evaluator.py‎
Lines changed: 2 additions & 2 deletions
@@ -0,0 +1,5 @@
+from .assistant import PromptTuner
+
+__all__ = [
+	"PromptTuner",
+]
@@ -151,6 +151,14 @@ def run(
         generate_num_samples: int = 10,
         feedback: bool = True,
         verbose: int = 1,
+        llm_as_judge_criteria: str | list[str] = "relevance",
+        llm_as_judge_custom_templates: Optional[dict[str, str]] = None,
+        llm_as_judge_metric_ceil: int = 10,
+        geval_criteria: Optional[str] = None,
+        geval_evaluation_steps: Optional[list[str]] = None,
+        geval_evaluation_params: Optional[list] = None,
+        geval_strict_mode: bool = False,
+        return_final_prompt: bool = True,
         **kwargs,
     ) -> str:
         """Optimizes prompts using provided model.
@@ -189,6 +197,32 @@ def run(
                 0 - no logging
                 1 - steps logging
                 2 - steps and prompts logging
+            llm_as_judge_criteria (str | list[str]): Criteria for LLM-as-judge metric when
+                metric == 'llm_as_judge'. Accepts a single criterion (e.g., "relevance")
+                or a list of criteria (e.g., ["relevance", "fluency"]). Built‑in
+                keys: "accuracy", "coherence", "fluency", "relevance". Custom
+                names are supported when paired with `llm_as_judge_custom_templates`.
+            llm_as_judge_custom_templates (dict[str, str] | None): Optional mapping
+                from criterion name to a custom judge prompt template. Each
+                template must include placeholders: `{metric_ceil}`, `{request}`
+                and `{response}`; the judge must return ONLY a single number.
+            llm_as_judge_metric_ceil (int): Maximum integer score expected from the
+                judge (1..ceil). Judge outputs are clipped to [0, ceil] and
+                normalized to [0, 1] for averaging.
+            geval_criteria (str | None): High-level natural language description
+                of what GEval should evaluate. Mutually exclusive with
+                `geval_evaluation_steps`. If both are provided, GEvalMetric
+                will raise a ValueError.
+            geval_evaluation_steps (list[str] | None): Explicit step-by-step
+                instructions for GEval. If provided, `geval_criteria` must be
+                None.
+            geval_evaluation_params (list | None): Optional list of
+                LLMTestCaseParams controlling which fields of each
+                LLMTestCase are visible to GEval. Defaults to
+                [INPUT, ACTUAL_OUTPUT, EXPECTED_OUTPUT] inside GEvalMetric
+                when left as None.
+            geval_strict_mode (bool): When True, GEval behaves in strict mode
+                (binary pass/fail with threshold forced to 1).
             **kwargs (dict[str, Any]): other key-word arguments.
 
         Returns:
@@ -229,7 +263,22 @@ def run(
             problem_description,
             validation_size,
         )
-        metric = validate_and_create_metric(task, metric)
+        metric = validate_and_create_metric(
+            task,
+            metric,
+            model=(
+                self._system_model
+                if metric in ("llm_as_judge", "geval")
+                else None
+            ),
+            llm_as_judge_criteria=llm_as_judge_criteria,
+            llm_as_judge_custom_templates=llm_as_judge_custom_templates,
+            llm_as_judge_metric_ceil=llm_as_judge_metric_ceil,
+            geval_criteria=geval_criteria,
+            geval_evaluation_steps=geval_evaluation_steps,
+            geval_evaluation_params=geval_evaluation_params,
+            geval_strict_mode=geval_strict_mode,
+        )
         evaluator = Evaluator(self._target_model, task, metric)
         final_prompt = ""
         generator = SyntheticDataGenerator(self._system_model)
@@ -329,10 +378,14 @@ def run(
         if feedback:
             prompt_assistant = PromptAssistant(self._target_model)
             self.assistant_feedback = correct(
-                prompt=prompt_assistant.get_feedback(start_prompt, final_prompt),
+                prompt=prompt_assistant.get_feedback(
+                    start_prompt, final_prompt
+                ),
                 rule=LanguageRule(self._system_model),
                 start_prompt=start_prompt,
             )
 
             logger.info("=== Assistant's feedback ===")
             logger.info(self.assistant_feedback)
+
+        return final_prompt if return_final_prompt else None
@@ -78,7 +78,7 @@ def evaluate(
             a.content if isinstance(a, AIMessage) else a for a in answers
         ]
 
-        return self.metric.compute(answers, targets)
+        return self.metric.compute(answers, targets, dataset)
 
     def _get_full_prompt(
         self,
@@ -121,4 +121,4 @@ def _get_default_template(self) -> str:
             case Task.CLASSIFICATION:
                 return CLASSIFICATION_TASK_TEMPLATE
             case Task.GENERATION:
-                return GENERATION_TASK_TEMPLATE
+                return GENERATION_TASK_TEMPLATE