Dans le chapitre 5, vous avez appris à construire un jeu de données en utilisant la bibliothèque 🤗 Datasets et dans le chapitre 6, vous avez exploré comment finetuner modèles pour certaines tâches courantes de NLP. Dans ce chapitre, vous allez apprendre à utiliser Argilla pour annoter et nettoyer des jeux de données que vous pouvez utiliser pour entraîner et évaluer vos modèles.
La clé pour entraîner des modèles performants est de disposer de données de haute qualité. Bien qu'il existe sur le Hub des jeux de données de qualité que vous pouvez utiliser pour entraîner et évaluer vos modèles, il se peut qu'ils ne soient pas pertinents pour votre application ou votre cas d'utilisation spécifique. Dans ce cas, vous voudrez peut-être construire votre propre jeu de données. Argilla vous aidera à le faire efficacement.
Avec Argilla, vous pouvez :
- transformer des données non structurées en données structurées pour les utiliser dans des tâches de NLP.
- nettoyer un jeu de données pour passer d'un jeu de données de faible qualité à un jeu de données de haute qualité.
- recueillir des retours humains pour les LLM et les modèles multimodaux.
- inviter des experts à collaborer avec vous dans Argilla, ou crowdsourcer des annotations !
Voici quelques-unes des choses que vous apprendrez dans ce chapitre :
- Comment configurer votre propre instance Argilla.
- Comment charger un jeu de données et le configurer en fonction de tâches de NLP populaires.
- Comment utiliser l'interface utilisateur d'Argilla pour annoter votre jeu de données.
- Comment utiliser votre jeu de données annoté et l'exporter vers le Hub.
