Bienvenue sur mon portfolio ! Ici, vous trouverez une sélection de mes projets réalisés dans le cadre de mes études, ainsi que de mes expérimentations personnelles en développement web et en data analytics. Chaque projet met en avant mes compétences dans ces deux domaines, illustrant ma polyvalence et ma passion pour le code et l'analyse des données.
Description :
Ce projet utilise Scala et Apache Spark pour automatiser un pipeline de traitement de données. L'objectif était de manipuler, transformer et analyser des ensembles de données complexes tout en respectant une structure modulaire et des bonnes pratiques d'ingénierie des données.
Les analyses incluent l'extraction, le nettoyage, la transformation et l'agrégation des données avec validation par tests unitaires.
Objectifs principaux :
◾ Extraction : Lecture et ingestion de fichiers CSV, JSON, XML.
◾ Nettoyage : Harmonisation des formats et gestion des valeurs manquantes.
◾ Transformation : Création de nouvelles colonnes (TTC, Statut Contrat).
◾ Analyse : Agrégation des données et génération d'insights.
◾ Validation : Mise en place de tests unitaires avec ScalaTest.
🛠️ Technologies : Scala, Apache Spark, Spark SQL, SBT, ScalaTest, Log4j2
Description :
Ce projet a été réalisé sur Databricks avec Scala et PySpark pour analyser des données complexes. L'objectif était de manipuler, transformer et visualiser les données efficacement, en créant des cubes de données et en réalisant des analyses croisées entre étudiants et professeurs.
Objectifs principaux :
◾ Chargement et traitement des données JSON.
◾ Création de cubes de données pour analyse multi-dimensionnelle.
◾ Réalisation d'analyses croisées entre étudiants et professeurs.
◾ Mise en place d'un système de priorisation et organisation des résultats.
◾ Génération de visualisations et tri logique des résultats.
🛠️ Technologies : Scala, PySpark, SQL, JSON, Databricks
Description :
Ce projet applique le Machine Learning pour analyser les avis sur les films nommés ou récompensés aux Oscars entre 2020 et 2024.
L'objectif est de classifier les critiques en positives, négatives ou neutres, tout en explorant les tendances et en fournissant des insights exploitables.
Objectifs :
◾ Collecte et nettoyage des critiques issues de Allociné, IMDb, Rotten Tomatoes
◾ Feature Engineering avec TF-IDF, Word2Vec et embeddings pré-entraînés
◾ Entraînement de modèles : Logistic Regression, Random Forest, LSTM
◾ Évaluation des performances avec Accuracy, F1-score
◾ Analyse des tendances de notation et d'opinion
🛠️ Technologies :
👉 Voir l'application Streamlit ici
Description :
Ce projet Python vise à explorer et analyser les données d'utilisation des hotspots Wi-Fi à Paris, en mettant en avant des tendances géographiques, temporelles et comportementales. L'application Streamlit propose des visualisations interactives pour examiner les connexions, les appareils, les langues utilisées et les usages.
👉 Accéder à la branche du projet
Objectifs principaux :
◾ Analyse géographique : Répartition des connexions par arrondissement et cartographie interactive.
◾ Analyse temporelle : Évolution des connexions par année, heatmap des connexions par jour et par heure.
◾ Analyse des utilisateurs : Répartition des langues utilisées et tendances d'usage.
◾ WordCloud interactif : Représentation visuelle des concepts principaux dans les données textuelles.
◾ Déploiement d’une application interactive avec Streamlit pour la data visualisation.
🛠️ Technologies : Python, Pandas, Plotly, Streamlit
Description :
Ce projet Python vise à analyser les performances des rameurs sur une distance de 2000m, segmentée par portions de 500m. À travers des visualisations interactives et des analyses avancées, nous avons exploré les facteurs influençant les performances et comparé les rameurs entre eux.
👉 Accéder à la branche du projet
Objectifs principaux :
◾ Préparation des données : Extraction et nettoyage des données JSON, transformation pour obtenir des informations par rameur et par segment.
◾ Analyse exploratoire : Calculs des vitesses moyennes, cadences, calories consommées par kilomètre.
◾ Comparaison des rameurs : Étude des stratégies adoptées et des différences de performances.
◾ Visualisation dynamique : Graphiques interactifs montrant l'évolution des performances sur la course.
◾ Corrélations avancées : Analyse de l'impact de la cadence sur la dépense énergétique et la vitesse finale.
🛠️ Technologies : Python, Pandas, Matplotlib, Seaborn, Plotly, Jupyter
👉 Voir le site ici : Site Tutoriel
Description :
Ce projet est un tutoriel interactif conçu pour enseigner les bases du développement front-end en HTML et CSS.
Accéder à la branche du projet
👉 Voir le site ici : Site Clinique Oscar
Description :
Un site web de prise de rendez-vous pour une clinique d'ostéopathie.
Accéder à la branche du projet
👉 Voir le site ici : SP Conduite
Description :
Ce projet permet aux utilisateurs de suivre leurs expériences de conduite en enregistrant des détails comme la météo, le trafic, et la distance parcourue.
