Ce guide présente quelques exemples d'utilisation des données du
recensement de la population diffusées au format Parquet.
La version mise en forme au format HTML est disponible sur le site web du réseau des data scientists de la statistique publique (https://ssphub.netlify.app/post/parquetrp/).
Ce dépôt accompagne la mise à disposition des données
du recensement de la population au format Parquet
sur le site insee.fr.
Les pages d'informations sur les données, où sont notamment disponibles
la documentation de celles-ci,
se retrouvent sur le site insee.fr aux adresses suivantes:
Ces pages présentent aussi les données détaillées au format CSV. Néanmoins, le format Parquet
est plus intéressant pour le traitement de celles-ci. Les données au format Parquet sont mises à disposition sur
le site data.gouv aux adresses suivantes:
Ce guide propose d'utiliser DuckDB à travers
plusieurs langages pour effectuer des traitements sur les fichiers
détails du recensement.
Par rapport à d'autres approches, DuckDB a été choisi pour son efficacité ainsi que pour son universalité.
Antoine Palazzolo, Lino Galiana, Robin Cura