[Research] Add Cleanlab to Evaluation, Benchmarks & Datasets (#123)

alvinreal · web-flow · commit e365a4f47fa0 · 2026-04-07T10:24:35.000+02:00
- Cleanlab: Data-centric AI package for finding and fixing dataset issues

- 11,410 stars, Apache-2.0 licensed, actively maintained

- Detects label errors, outliers, and ambiguous examples

Co-authored-by: alvinreal &lt;alvinreal@users.noreply.github.com&gt;
diff --git a/README.md b/README.md
@@ -502,6 +502,7 @@
 #### High-quality Open Datasets & Data Tools
 
 - **[Hugging Face Datasets](https://github.com/huggingface/datasets)** ![GitHub stars](https://img.shields.io/github/stars/huggingface/datasets?style=social) - Largest open repository of datasets.
+- **[Cleanlab](https://github.com/cleanlab/cleanlab)** ![GitHub stars](https://img.shields.io/github/stars/cleanlab/cleanlab?style=social) - Data-centric AI package for automatically finding and fixing issues in datasets. Detects label errors, outliers, and ambiguous examples in ML datasets. Apache 2.0 licensed.
 - **[FineWeb / FineWeb-2 (Hugging Face)](https://huggingface.co/datasets/HuggingFaceFW/fineweb)** - Curated 15T+ token web dataset for pre-training.
 - **[OSWorld](https://github.com/xlang-ai/OSWorld)** ![GitHub stars](https://img.shields.io/github/stars/xlang-ai/OSWorld?style=social) - Multimodal agent benchmark dataset.