Ce projet combine deux volets complémentaires :
- Développement d’un Dashboard interactif de scoring crédit permettant une analyse explicable et dynamique des clients via Streamlit et une API Flask déployée sur Heroku.
- Veille technique en NLP, comparant les modèles BERT-base-uncased et all-MiniLM-L6-v2 pour la classification de produits e-commerce à partir de descriptions textuelles.
realisation_dashboard_veille_technique/
│
├── Martineau_Alexandre_1_dashboard_022025.py # Script principal Streamlit
├── Martineau_Alexandre_2_notebook_veille_022025.ipynb # Notebook de veille technique NLP
│
├── Martineau_Alexandre_3_note_méthodologique_022025.pdf # Note méthodologique - MiniLM vs BERT
├── Martineau_Alexandre_4_presentation_022025.pdf # Présentation PowerPoint du projet
└── README.md
Concevoir une interface interactive et explicable pour visualiser le score de crédit, la probabilité de remboursement, et les caractéristiques influentes d’un client.
- Frontend / Dashboard : Streamlit, Plotly, Seaborn, Matplotlib
- Backend / API : Flask (API déployée sur Heroku : my-scoring-app)
- ML Explainability : SHAP (global + local), Feature Engineering dynamique
- CI/CD & Hébergement : Heroku + GitHub Actions
- Sélection d’un client et affichage de son score de crédit.
- Modification des informations via une barre latérale interactive.
- Recalcul instantané du score et des valeurs SHAP.
- Visualisation :
- Jauge dynamique du score et du seuil d’acceptabilité (52 %).
- Importance globale et locale des variables explicatives.
- Analyses croisées et bi-variées des variables.
- SHAP Global : pondération moyenne des features expliquant les décisions du modèle.
- SHAP Local : explication d’une prédiction individuelle.
- Visualisation dynamique : beeswarm plots, waterfall plots, histograms et scatter plots interactifs.
| Endpoint | Description |
|---|---|
/predict_proba |
Prédiction du score de crédit |
/best_threshold |
Renvoie le seuil de décision optimal |
/download_model |
Téléchargement du modèle entraîné |
/data |
Préparation et transformation des données d’entrée |
Comparer les performances de deux modèles NLP :
- BERT-base-uncased (modèle classique Hugging Face)
- all-MiniLM-L6-v2 (modèle distillé, 3× plus rapide et 3× plus léger)
sur un jeu de données Flipkart e-commerce, afin d’évaluer leur efficacité pour la classification de produits selon leur description textuelle.
- Prétraitement des données : extraction des catégories principales, nettoyage des textes.
- Encodage des descriptions :
- BERT via
TFAutoModel(Hugging Face) - MiniLM via
SentenceTransformer("all-MiniLM-L6-v2")
- BERT via
- Classification :
- Modèle : Régression Logistique
- Évaluation : Accuracy + Classification Report
- Visualisation :
- Réduction de dimension via t-SNE
- Clustering via KMeans
- Calcul de l’ARI (Adjusted Rand Index)
| Modèle | Accuracy | ARI | Commentaire |
|---|---|---|---|
| BERT-base-uncased | 0.93 | 0.31 | Bonne séparation, clusters mélangés |
| all-MiniLM-L6-v2 | 0.95 | 0.71 | Excellente séparation, embeddings plus cohérents |
Les résultats démontrent que MiniLM offre une précision équivalente à BERT tout en étant plus léger et plus rapide, ce qui le rend particulièrement adapté à des contextes de production et de veille technique.
- Machine Learning : scikit-learn, numpy, pandas
- NLP : Hugging Face Transformers, Sentence-Transformers, TensorFlow
- Visualisation : matplotlib, seaborn, Plotly
- Dashboard & API : Streamlit, Flask, Heroku
- Explainability & Monitoring : SHAP
Ce dépôt illustre :
- L’intégration MLOps + DataViz via un dashboard explicable et déployé.
- Une veille NLP approfondie comparant deux modèles de génération d’embeddings modernes.
- Une approche complète du cycle IA, de la collecte de données à l’explicabilité en production.
🔗 API Scoring : https://my-scoring-app-546acd78d8fa.herokuapp.com/
Ce projet associe data science appliquée et veille technologique autour de deux axes :
- un dashboard explicable en production pour la prise de décision en crédit,
- une analyse comparative de modèles NLP pour la classification de produits e-commerce.
Il démontre une maîtrise du cycle complet de la donnée à la visualisation, intégrant transparence, performance et innovation.