Diting - AI Evaluation Platform

Diting is a domain-driven AI application evaluation system built with TypeScript and Next.js. It provides comprehensive tools for managing evaluation datasets, configuring evaluation targets, and running evaluation experiments with detailed analytics.

Features

Domain-Driven Design: Clean architecture with clear domain boundaries and business logic
Evaluation Dataset Management: Support for creating, managing, and querying evaluation datasets with version control
Multiple Evaluation Targets: Support for Mock, HTTP, and Function-based AI applications
Flexible Evaluators: Built-in accuracy and semantic similarity evaluators with custom evaluator support
Experiment Management: Complete evaluation experiment workflow with progress tracking and FIFO-based experiment flow control
Type Safety: Fully developed in TypeScript with complete type definitions
Monorepo Architecture: Organized with packages for global types, service layer, and web components

Architecture

Core Components

1. Evaluation Dataset

Manages collections of evaluation data with user input, expected output, context, and metadata
Supports multiple file formats (JSONL, Excel) and HuggingFace dataset import/export
Automatic generation from prompts and corpora
Multi-version control and data querying capabilities

2. Evaluation Targets (EvalTarget)

Represents AI applications to be evaluated
Supports three types: Mock, HTTP, and Function
Provides unified invocation interface

3. Evaluators

Implements evaluation logic
Built-in accuracy and semantic similarity evaluators
Support for custom evaluator extensions

4. Evaluation Chain (EvalChain)

Coordinates the entire evaluation workflow
Implements standard evaluation steps
Progress tracking and result aggregation

5. Evaluation Tasks (EvalTask)

Provides experiment flow control
Batch processing and retry mechanisms
Detailed statistics and reporting

6. Infrastructure

Data persistence for business entities
Hook/callback-based tracing for evaluation tasks

Project Structure

diting/
├── packages/
│   ├── global/          # Shared types, constants, and utilities
│   ├── service/         # Domain models and business logic
│   └── web/            # React components and UI utilities
├── projects/
│   └── app/            # Next.js main application
└── examples/           # Usage examples and demonstrations

Getting Started

Prerequisites

Node.js 18+
pnpm 8+

Installation

Clone the repository:

git clone <repository-url>
cd diting

Install dependencies:

pnpm install

Build packages:

pnpm run build:packages

Start the development server:

pnpm run dev

The application will be available at http://localhost:3000.

Development Commands

pnpm run dev - Start development server
pnpm run build - Build all packages and the application
pnpm run typecheck - Run TypeScript type checking
pnpm run lint - Run ESLint

Usage Example

import { 
  EvaluationDataset, 
  EvalTarget, 
  Evaluator, 
  EvalChain,
  EvalExperiment 
} from '@diting/service';
import { generateId } from '@diting/global';

// Create evaluation dataset
const dataset = new EvaluationDataset({
  name: 'QA Dataset',
  version: '1.0.0',
  data: [
    {
      id: generateId(),
      user_input: 'What is the capital of France?',
      expected_output: 'Paris',
      context: 'Geography question'
    }
  ],
  source_type: 'manual'
});

// Create evaluation target
const target = new EvalTarget({
  name: 'Mock AI',
  config: {
    type: 'mock',
    config: {
      responses: [{ output: 'Paris' }]
    }
  }
});

// Create evaluator
const evaluator = new Evaluator({
  name: 'Accuracy',
  config: { type: 'accuracy' }
});

// Run evaluation
const chain = new EvalChain(target, [evaluator]);
const result = await chain.execute(dataset.data[0]);

console.log('Evaluation result:', result);

API Endpoints

Datasets

GET /api/datasets - List all datasets
POST /api/datasets - Create new dataset
GET /api/datasets/:id - Get dataset by ID
PUT /api/datasets/:id - Update dataset
DELETE /api/datasets/:id - Delete dataset

Dashboard

GET /api/dashboard/stats - Get dashboard statistics

Contributing

Fork the repository
Create a feature branch
Make your changes
Add tests if applicable
Submit a pull request

License

[Add your license information here]

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
.claude		.claude
.vscode		.vscode
examples		examples
packages		packages
projects/app		projects/app
.gitattributes		.gitattributes
.gitignore		.gitignore
CLAUDE.md		CLAUDE.md
ISSUE_FIXED_SUMMARY.md		ISSUE_FIXED_SUMMARY.md
README.md		README.md
RUN_GUIDE.md		RUN_GUIDE.md
TESTING.md		TESTING.md
package-lock.json		package-lock.json
package.json		package.json
pnpm-workspace.yaml		pnpm-workspace.yaml
test-all-endpoints.js		test-all-endpoints.js
test-end-to-end.js		test-end-to-end.js
tsconfig.json		tsconfig.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Diting - AI Evaluation Platform

Features

Architecture

Core Components

1. Evaluation Dataset

2. Evaluation Targets (EvalTarget)

3. Evaluators

4. Evaluation Chain (EvalChain)

5. Evaluation Tasks (EvalTask)

6. Infrastructure

Project Structure

Getting Started

Prerequisites

Installation

Development Commands

Usage Example

API Endpoints

Datasets

Dashboard

Contributing

License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Diting - AI Evaluation Platform

Features

Architecture

Core Components

1. Evaluation Dataset

2. Evaluation Targets (EvalTarget)

3. Evaluators

4. Evaluation Chain (EvalChain)

5. Evaluation Tasks (EvalTask)

6. Infrastructure

Project Structure

Getting Started

Prerequisites

Installation

Development Commands

Usage Example

API Endpoints

Datasets

Dashboard

Contributing

License

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages