Skip to content

Billiondon/jaffle-shop-bigquery

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

14 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation


Pipeline Analytics : Jaffle Shop (Édition BigQuery)

Migration et fiabilisation d'un flux décisionnel sur Google Cloud Platform.
Explorer la documentation »

Voir Démo · Signaler un Bug

Table des matières
  1. À propos du projet
  2. Problématique
  3. Protocole suivi
  4. Résultat du test d'effort
  5. Usage & Lineage
  6. Roadmap

À propos du projet

Ce projet détaille la mise en place d'une infrastructure de données robuste sur Google BigQuery. L'objectif central était de migrer et de stabiliser le pipeline de données "Jaffle Shop" en assurant une intégrité totale entre l'extraction des graines (seeds) et la modélisation SQL finale.

Built With

  • [![BigQuery][BigQuery-shield]][BigQuery-url]
  • [![dbt][dbt-shield]][dbt-url]
  • [![GCP][GCP-shield]][GCP-url]
  • [![GitHub][GitHub-shield]][GitHub-url]

(back to top)

Problématique

"Comment garantir une transition fluide entre des sources de données hétérogènes et un entrepôt BigQuery, tout en assurant l'intégrité et la documentation automatique des transformations ?"

Le défi consistait à neutraliser les risques de régression lors de la migration depuis Snowflake et à transformer des sources brutes en actifs informationnels fiables pour le business.

(back to top)

Protocole suivi

L'intervention a été menée selon un protocole strict pour garantir la stabilité du système :

  1. Configuration des accès : Initialisation via Service Account Google Cloud avec gestion sécurisée des clés JSON.
  2. Architecture du projet : Création d'un dépôt GitHub dédié afin d'isoler l'environnement BigQuery et d'éviter toute contamination inter-plateformes.
  3. Injection de données : Chargement et typage des sources brutes (raw_customers, raw_orders, raw_payments) via la fonction dbt seed.
  4. Assurance Qualité : Révision chirurgicale des modèles SQL et correction des anomalies de schéma pour garantir un succès des tests d'intégrité à 100%.

(back to top)

Résultat du test d'effort

Le pipeline est désormais opérationnel et stable.

  • Flux : Circulation des données sans perte de paquets ni latence critique.
  • Intégrité : Validation systématique via dbt test (contraintes unique et not_null).
  • Observabilité : Documentation technique et Lineage Graph à jour, offrant une visibilité souveraine sur la généalogie de la donnée.

(back to top)

Usage

Pour auditer la santé du pipeline :

dbt seed
dbt run
dbt test

About

Projet dbt analytics sur Google BigQuery

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors