Analyse de données liées au sommeil et estimation de score de risque d'apnée obstructive du sommeil par modèle de machine learning
L’objectif de ce projet est d’analyser un ensemble de données synthétiques provenant de montres connectées, afin d’étudier différents paramètres liés au sommeil et plus précisément à l’apnée du sommeil.
Plus précisément, nous cherchons à comprendre comment ces montres connectées calculent un score de « risque d’apnée du sommeil » et quels facteurs influencent ce score.
Pour cela, nous avons :
- exploré les relations entre les variables physiologiques et comportementales ;
- cherché à identifier les facteurs les plus impactants ;
- comparé nos observations à des sources médicales et scientifiques ;
- développé un modèle de Machine Learning permettant de prédire ce score ;
Ce projet nous permet de mieux comprendre le fonctionnement des montres connectées, ainsi que l’algorithme derrière l’estimation du score de « risque d’apnée du sommeil ».
L’apnée du sommeil est un trouble fréquent (30% des personnes de plus de 65 ans seraient impactées), et ce projet peut potentiellement permettre de mettre en avant le « score de risque d’apnée du sommeil » affiché par les montres connectées, et sensibiliser davantage les personnes à ce phénomène. Nous avons construit un modèle prédictif basé sur les variables identifiées comme pertinentes, nous permettant de prédire le score de « risque d’apnée du sommeil » affiché par les montres connectées selon les informations récoltées.
L’ensemble de données utilisé provient du site Kaggle. Il s’agit d’un ensemble de données synthétiques mais réalistes sur le suivi du sommeil, généré pour aider les étudiants, les chercheurs, les Data Scientists et les ingénieurs en IA autour de l’analyse du sommeil.
Afin de mener à bien notre projet, nous avons majoritairement utilisé du Python sur Google Colab. Cet outil nous a permis une exploration de grande envergure sur l’ensemble de données, ainsi qu’un nettoyage efficace de l’ensemble de données. Nous avons également fait une recherche approfondie sur les corrélations pouvant exister pour le score d’apnée du sommeil. Enfin nous avons fait des tests de Machine Learning afin de tester et vérifier nos corrélations.
Nous avons utilisé BigQuery afin de stocker notre ensemble de données dans un outil accessible à tous, et sur lequel il est facile d’ajouter/retirer des colonnes dans nos données. Quelques requêtes SQL nous ont permis de nettoyer notre base de données en conséquence.
Enfin nous avons utilisé Looker Studio pour organiser une présentation à la fois visuelle et descriptive, visant à rendre plus claire la relation entre le score de risque d’apnée et les autres variables suivies par les montres connectées.
- Base de données utilisée :
- Sources scientifiques ou spécialisées dans le domaine du sommeil et de l’apnée :
- Huang T, Lin BM, Markt SC, et al | Sex differences in the associations of obstructive sleep apnoea with epidemiological factors | Eur Respir J | 2018 Mar 15 Lien
- Yalım SD | The Impact of Age, Gender and Body Mass Index on the Polysomnography Variables | J Turk Sleep Med | 2021 May 26 Lien
- Iannella G, Pace A, Bellizzi MG et al | The Global Burden of Obstructive Sleep Apnea. Diagnostics | 2025 | 15(9) Lien
- VIDAL
- Inserm
- Info Somnolence
- Fréquence Médicale
- Ameli
Les personnes ayant contribué à ce projet :
- Guillemin Rosi
- Thomas Van Den Broeck
- Charles Silvestre
- Lena Thevenet