Projet Universitaire - Master 1 Big Data > Techniques d'Apprentissage Artificiel
Ce projet vise à développer une solution complète de Machine Learning pour la détection précoce du diabète. Il s'appuie sur une analyse approfondie de données de santé, l'entraînement de modèles prédictifs robustes et le déploiement d'une interface utilisateur web.
L'objectif est de fournir un outil d'aide à la décision capable d'estimer le risque de diabète à partir d'indicateurs cliniques et comportementaux (IMC, tension, cholestérol, etc.).
Une interface interactive permettant de tester le modèle en temps réel est disponible. Cette application web contient un module de prédiction où vous pouvez saisir vos propres données de santé (IMC, âge, taux de cholestérol, etc.). Le modèle analysera ces informations en temps réel pour prédire si le profil présente un risque de diabète.
DÉMO EN LIGNE : Diabetes Prediction Dashboard
├── data
│ └── raw <- Données brutes (diabetes2015.csv)
├── diabetes-dashboard <- Code source de l'application Web (React.js)
├── models <- Modèles sérialisés (.pkl) et historiques d'entraînement
├── reports
│ └── figures <- Visualisations générées (Matrices de confusion, ROC, etc.)
├── src <- Cœur du projet (Pipeline ETL & ML)
│ └── pipeline_run.py <- Script unique d'exécution (End-to-End)
│ └── config.py
│ └── dataset.py
│ └── features.py
│ └── plots.py
│ └── __init__.py
│ └── modeling
│ └── predict.py
│ └── train.py
├── requirements.txt <- Liste des dépendances Python
└── README.md <- Documentation du projet
git clone https://github.com/czsoup/Projet-Diabete-IA.git
py -m venv venv
powershell en administrateur : Set-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope CurrentUser
.\venv\Scripts\activate pip install -r requirements.txt
python -m src.pipeline_run
Nettoyage : Traitement des valeurs manquantes et doublons.
Feature Engineering : Sélection des variables les plus corrélées (Top 15 features).
Normalisation : Mise à l'échelle via StandardScaler.
Rééquilibrage : Utilisation de ADASYN (Adaptive Synthetic Sampling) pour corriger le déséquilibre des classes (Diabétique vs Non-Diabétique).
Comparaison de plusieurs algorithmes supervisés :
Random Forest Classifier (Retenu pour sa robustesse).
XGBoost Classifier.
L'accent a été mis sur la minimisation des Faux Négatifs (cas critiques en médecine).
Optimisation du seuil de décision (Threshold Tuning).
Métriques clés : Recall (Sensibilité) et F1-Score.
Le dossier diabetes-dashboard/ contient le code source de l'interface front-end. Elle permet à un utilisateur de saisir ses paramètres de santé et d'obtenir une prédiction instantanée via le modèle entraîné.
Framework : React.js
Hébergement : GitHub Pages
Projet réalisé dans le cadre du Master 1 Informatique - Parcours Big Data.
Ibtissam ZAID
Caroline ZHENG