Este proyecto realiza un pipeline de datos utilizando Python, DuckDB, y dbt para analizar datos abiertos sobre accidentes de tránsito. Los datos se descargan desde Kaggle y se procesan para generar modelos analíticos y reportes estructurados.
dbt_kaggle_project/
├── data/ # Base de datos y archivos CSV
│ ├── raw/ # Datos originales desde Kaggle
│ └── processed/ # (opcional) Datos transformados
│
├── docker/ # Dockerfile para el entorno dbt
├── kaggle_dbt/ # Proyecto dbt
│ ├── models/ # Modelos dbt
│ └── dbt_project.yml # Configuración principal de dbt
│
├── scripts/ # Scripts auxiliares
│ ├── descargar_kaggle.py
│ ├── cargar_duckdb.py
│ └── explorar_duckdb.py
│
├── docker-compose.yml # Configuración de servicios
└── README.md # Este archivo
-
Clonar el repositorio y posicionarse en la carpeta raíz:
git clone https://github.com/tu-usuario/dbt_kaggle_project.git cd dbt_kaggle_project -
Instalar dependencias necesarias (recomendado: entorno virtual):
pip install -r requirements.txt
-
Descargar el dataset de Kaggle:
Asegúrate de tener configuradas tus credenciales de Kaggle y ejecutá:
python scripts/descargar_kaggle.py
-
Cargar los datos en DuckDB:
python scripts/cargar_duckdb.py
-
Ejecutar el proyecto dbt:
cd kaggle_dbt dbt run dbt show --select accidents_by_year
Leonardo Villegas
Ingeniero en Sistemas, entusiasta de los datos abiertos y la ingeniería de datos.
Este proyecto se distribuye bajo la Licencia MIT.
Ver el archivo LICENSE para más detalles.