-
Notifications
You must be signed in to change notification settings - Fork 5
Feat/190 presentation population communes #194
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
base: main
Are you sure you want to change the base?
Conversation
…esentation_population_communes in order to access data in observations array.
…ep total number at commune level.
…ectly fetched. Updated presentation_population_communes: big cities like paris exists at the commune level. We do not need to group by arrondissements any more.
…s to finish. Limit the data time period to 2022 to make it a bit faster.
…ain cities exists at the commune level in the gold layer.
…ssert big cities exist a generic test so we can reuse it.
… with INSEE data. Uses seeded insee data.
|
J'ai ajouté 2 tests sur gold_presentation_population_communes: je vérifie que les grandes villes avec arrondissements sont présentes avec leur codegeo de commune et je vérifie que les données de population 2022 soient cohérentes avec les données INSEE pour les 50 plus grandes villes. |
wipgarden
left a comment
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Hello @ThomGram,
Merci pour la PR!
J'ai testé ton code et ça fonctionne bien. C'est assez similaire à la logique mise en place pour le calcul de densité (165) notamment pour les enjeux grandes villes.
J'ai seulement quelques petits commentaires, principalement sur la doc.
Merci !
Juliette
dbt_odis/models/silver/stg_presentation_population_communes.sql
Outdated
Show resolved
Hide resolved
dbt_odis/models/silver/stg_presentation_population_communes.sql
Outdated
Show resolved
Hide resolved
…r for presentation population. Gold layer takes data from silver populatio density.
|
Hello @wipgarden, J'ai tenu compte de tes commentaires. En particulier, j'ai supprimé le doublon de source, je me base sur les tables de population superficie. |
Re!
Cette PR ajoute la table gold presentation_population_communes.
Source
J'ai ajouté la source INSEE DS_RP_POPULATION_PRINC depuis l'API Melodi. Je passe des arguments de manière à filtrer: je ne prends que les données au niveau des communes, je prends le total pour toute catégorie d'âge et de genre.
Layers
Bronze
Rien de particulier, je récupère les données depuis le json que renvoit l'API.
Silver
Le code geo est un peu différent ici des autres sources. Je retire le préfix pour ne garder que le code commune.
Gold
Un simple select des colonnes utiles. Il n'y a ni export ni instruction wedodata
Misc
En intégrant cette nouvelle source, je me suis rendu compte qu'il me manquait beaucoup de donnée. Par exemple, je ne récuperais pas la population pour tous les arrondissements de Paris.
Le bug vient de la requête que l'on fait sur l'API Melodi. Si la requête ne contient pas "page=1", le paginateur dans la réponse de l'API manque et on ne récupère que la première page.
Ce bug a un impact sur toutes les sources qui reposent sur l'API Melodi et qui on plus de 10 000 éléments.
J'ai corrigé le bug en passant "page=1" par défaut à l'API.
On récupère beaucoup (beaucoup) plus de donnée. L'extract devient très long. J'ai donc changé les paramètres temporels pour limiter les donnée à 2022.