confident-ai
diff --git a/‎.github/workflows/full_test_core_for_pr.yml‎
Lines changed: 113 additions & 0 deletions b/‎.github/workflows/full_test_core_for_pr.yml‎
Lines changed: 113 additions & 0 deletions
diff --git a/‎.github/workflows/test_core.yml‎
Lines changed: 34 additions & 7 deletions b/‎.github/workflows/test_core.yml‎
Lines changed: 34 additions & 7 deletions
diff --git a/‎deepeval/dataset/dataset.py‎
Lines changed: 11 additions & 3 deletions b/‎deepeval/dataset/dataset.py‎
Lines changed: 11 additions & 3 deletions
diff --git a/‎deepeval/dataset/types.py‎
Lines changed: 19 additions & 8 deletions b/‎deepeval/dataset/types.py‎
Lines changed: 19 additions & 8 deletions
diff --git a/‎deepeval/dataset/utils.py‎
Lines changed: 31 additions & 3 deletions b/‎deepeval/dataset/utils.py‎
Lines changed: 31 additions & 3 deletions
@@ -0,0 +1,113 @@
+name: Full Tests (maintainer only)
+
+on:
+  workflow_dispatch:
+    inputs:
+      pr:
+        description: "PR number"
+        required: true
+      ref_kind:
+        description: "Which ref to test (merge|head)"
+        required: false
+        default: "merge"
+
+permissions:
+  contents: read
+
+concurrency:
+  group: full-tests-pr-${{ github.event.inputs.pr }}-${{ github.event.inputs.ref_kind }}
+  cancel-in-progress: true
+
+
+jobs:
+  full-tests:
+    if: ${{ github.repository_owner == 'confident-ai' }}
+    runs-on: ubuntu-latest
+    timeout-minutes: 60
+    environment: ci-secrets
+    env:
+      OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}
+
+    steps:
+      - name: Resolve ref
+        id: refsel
+        run: |
+          if [ "${{ github.event.inputs.ref_kind }}" = "head" ]; then
+            echo "ref=refs/pull/${{ github.event.inputs.pr }}/head" >> $GITHUB_OUTPUT
+          else
+            # test what would merge
+            echo "ref=refs/pull/${{ github.event.inputs.pr }}/merge" >> $GITHUB_OUTPUT
+          fi
+
+      - name: Checkout PR ref
+        uses: actions/checkout@v4
+        with:
+          ref: ${{ steps.refsel.outputs.ref }}
+          fetch-depth: 0
+
+      - name: Set up Python
+        id: setup-python
+        uses: actions/setup-python@v4
+        with:
+          python-version: "3.11"
+
+      - name: Install Poetry
+        uses: snok/install-poetry@v1
+        with:
+          virtualenvs-create: true
+          virtualenvs-in-project: true
+          installer-parallel: true
+
+      - name: Cache virtualenv
+        id: cached-poetry-dependencies
+        uses: actions/cache@v3
+        with:
+          path: .venv
+          key: venv-${{ runner.os }}-${{ steps.setup-python.outputs.python-version }}-${{ hashFiles('**/poetry.lock') }}
+
+      # Core deps only (main)
+      - name: Install dependencies (main)
+        if: steps.cached-poetry-dependencies.outputs.cache-hit != 'true'
+        run: poetry install --no-interaction --no-root --only main
+
+      - name: Install project (main)
+        run: poetry install --no-interaction --only main
+
+      #----------------------------------------------
+      #              run test suite
+      #----------------------------------------------
+
+      # Run Core tests
+      - name: Run core tests (with secrets)
+        if: ${{ env.OPENAI_API_KEY != '' }}
+        run: |
+          poetry run pytest -vv -rA --maxfail=1 --capture=tee-sys \
+            tests/test_core/ \
+            --ignore=tests/test_core/test_synthesizer/ \
+            --ignore=tests/test_core/test_datasets/
+
+      - name: Run core tests (no secrets)
+        if: ${{ env.OPENAI_API_KEY == '' }}
+        run: |
+          poetry run pytest -vv -rA --maxfail=1 --capture=tee-sys \
+            tests/test_core/ \
+            --ignore=tests/test_core/test_synthesizer/ \
+            --ignore=tests/test_core/test_datasets/ \
+            --ignore=tests/test_core/test_evaluation/test_end_to_end/test_configs.py \
+            --ignore=tests/test_core/test_tracing/test_dataset_iterator.py
+
+      # Install dev dependencies and run dev tests
+      - name: Install dev dependencies
+        run: poetry install --no-interaction --with dev
+
+      - name: Run dev tests (with secrets)
+        if: ${{ env.OPENAI_API_KEY != '' }}
+        run: |
+          poetry run pytest -vv -rA --maxfail=1 --capture=tee-sys -o faulthandler_timeout=300 \
+            tests/test_core/test_synthesizer/ tests/test_core/test_datasets/
+
+      - name: Run dev tests (no secrets)
+        if: ${{ env.OPENAI_API_KEY == '' }}
+        run: |
+          poetry run pytest -vv -rA --maxfail=1 --capture=tee-sys -o faulthandler_timeout=300 \
+            tests/test_core/test_datasets/
@@ -8,6 +8,10 @@ on:
 jobs:
   test:
     runs-on: ubuntu-latest
+    env:
+      # Expose once at job level because forked PRs can't use secrets.* in `if:` conditions.
+      OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}
+
     steps:
       #----------------------------------------------
       #       check-out repo and set-up python
@@ -54,20 +58,43 @@ jobs:
       #----------------------------------------------
       #              run test suite
       #----------------------------------------------
+
+      # Run tests (with secrets): full suite
       - name: Run tests
-        env:
-          OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}
+        if: ${{ env.OPENAI_API_KEY != '' }}
+        run: |
+          poetry run pytest -vv -rA --maxfail=1 --capture=tee-sys \
+            tests/test_core/ \
+            --ignore=tests/test_core/test_synthesizer/ \
+            --ignore=tests/test_core/test_datasets/
+
+      # Run tests (no secrets): skip e2e that require API keys
+      - name: Run tests (no secrets)
+        if: ${{ env.OPENAI_API_KEY == '' }}
         run: |
-          poetry run pytest -vv -rA --maxfail=1 --capture=tee-sys tests/test_core/ --ignore=tests/test_core/test_synthesizer/ --ignore=tests/test_core/test_datasets/
+          poetry run pytest -vv -rA --maxfail=1 --capture=tee-sys \
+            tests/test_core/ \
+            --ignore=tests/test_core/test_synthesizer/ \
+            --ignore=tests/test_core/test_datasets/ \
+            --ignore=tests/test_core/test_evaluation/test_end_to_end/test_configs.py \
+            --ignore=tests/test_core/test_tracing/test_dataset_iterator.py
 
       #----------------------------------------------
       #    install dev dependencies (including chromadb) and run synthesizer tests
       #----------------------------------------------
       - name: Install dev dependencies
         run: poetry install --no-interaction --with dev
 
-      - name: Run core tests with dev dependencies
-        env:
-          OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}
+      # Dev tests (with secrets)
+      - name: Run dev tests
+        if: ${{ env.OPENAI_API_KEY != '' }}
+        run: |
+          poetry run pytest -vv -rA --maxfail=1 --capture=tee-sys -o faulthandler_timeout=300 \
+          tests/test_core/test_synthesizer/ tests/test_core/test_datasets/
+
+      # Dev tests (no secrets)
+      - name: Run dev tests (no secrets)
+        if: ${{ env.OPENAI_API_KEY == '' }}
         run: |
-          poetry run pytest -vv -rA --maxfail=1 --capture=tee-sys tests/test_core/test_synthesizer/ tests/test_core/test_datasets/
+          poetry run pytest -vv -rA --maxfail=1 --capture=tee-sys -o faulthandler_timeout=300 \
+          tests/test_core/test_datasets/
@@ -1,13 +1,12 @@
 from asyncio import Task
-from typing import Iterator, List, Optional, Union, Literal
+from typing import TYPE_CHECKING, Iterator, List, Optional, Union, Literal
 from dataclasses import dataclass, field
 from opentelemetry.trace import Tracer
 from opentelemetry.context import Context, attach, detach
 from rich.console import Console
 from rich.progress import Progress, SpinnerColumn, TextColumn, BarColumn
 import json
 import csv
-import webbrowser
 import os
 import datetime
 import time
@@ -17,6 +16,7 @@
 
 from deepeval.confident.api import Api, Endpoints, HttpMethods
 from deepeval.dataset.utils import (
+    coerce_to_task,
     convert_test_cases_to_goldens,
     convert_goldens_to_test_cases,
     convert_convo_goldens_to_convo_test_cases,
@@ -54,6 +54,14 @@
 from deepeval.tracing import trace_manager
 from deepeval.tracing.tracing import EVAL_DUMMY_SPAN_NAME
 
+if TYPE_CHECKING:
+    from deepeval.evaluate.configs import (
+        AsyncConfig,
+        DisplayConfig,
+        CacheConfig,
+        ErrorConfig,
+    )
+
 
 valid_file_types = ["csv", "json", "jsonl"]
 
@@ -1230,7 +1238,7 @@ def evals_iterator(
                 )
 
     def evaluate(self, task: Task):
-        global_evaluation_tasks.append(task)
+        global_evaluation_tasks.append(coerce_to_task(task))
 
     def _start_otel_test_run(self, tracer: Optional[Tracer] = None) -> Context:
         _tracer = check_tracer(tracer)
 
@@ -1,17 +1,28 @@
+import asyncio
+
+from typing import Any
+from deepeval.dataset.utils import coerce_to_task
+
+
 class EvaluationTasks:
-    tasks: list = []
 
-    def append(self, t):
-        self.tasks.append(t)
+    def __init__(self):
+        self._tasks: list[asyncio.Future] = []
+
+    def append(self, obj: Any):
+        self._tasks.append(coerce_to_task(obj))
 
-    def get_tasks(self):
-        return self.tasks
+    def get_tasks(self) -> list[asyncio.Future]:
+        return list(self._tasks)
 
     def num_tasks(self):
-        return len(self.tasks)
+        return len(self._tasks)
 
-    def clear_tasks(self):
-        self.tasks.clear()
+    def clear_tasks(self) -> None:
+        for t in self._tasks:
+            if not t.done():
+                t.cancel()
+        self._tasks.clear()
 
 
 global_evaluation_tasks = EvaluationTasks()
@@ -1,10 +1,10 @@
-from typing import List, Optional, Any
+import asyncio
+import inspect
 import json
 import re
 
+from typing import List, Optional, Any
 from opentelemetry.trace import Tracer
-from opentelemetry import trace
-from opentelemetry.trace import NoOpTracerProvider
 
 from deepeval.dataset.api import Golden
 from deepeval.dataset.golden import ConversationalGolden
@@ -174,3 +174,31 @@ def check_tracer(tracer: Optional[Tracer] = None) -> Tracer:
         )
 
     return GLOBAL_TEST_RUN_TRACER
+
+
+def coerce_to_task(obj: Any) -> asyncio.Future[Any]:
+    # already a Task so just return it
+    if isinstance(obj, asyncio.Task):
+        return obj
+
+    # If it is a future, it is already scheduled, so just return it
+    if asyncio.isfuture(obj):
+        # type: ignore[return-value]  # it is an awaitable, gather accepts it
+        return obj
+
+    # bare coroutine must be explicitly scheduled using create_task to bind to loop & track
+    if asyncio.iscoroutine(obj):
+        return asyncio.create_task(obj)
+
+    # generic awaitable (any object with __await__) will need to be wrapped so create_task accepts it
+    if inspect.isawaitable(obj):
+
+        async def _wrap(awaitable):
+            return await awaitable
+
+        return asyncio.create_task(_wrap(obj))
+
+    # not awaitable, so time to sound the alarm!
+    raise TypeError(
+        f"Expected Task/Future/coroutine/awaitable, got {type(obj).__name__}"
+    )