Skip to content

Este proyecto es una demostración práctica del uso de dbt (data build tool) con la base de datos DuckDB para transformar y analizar datos abiertos de accidentes de tráfico descargados de Kaggle.

License

Notifications You must be signed in to change notification settings

Leonardorf/dbt_kaggle_project

Repository files navigation

Proyecto ETL con dbt y DuckDB: Análisis de Accidentes de Tránsito

Este proyecto realiza un pipeline de datos utilizando Python, DuckDB, y dbt para analizar datos abiertos sobre accidentes de tránsito. Los datos se descargan desde Kaggle y se procesan para generar modelos analíticos y reportes estructurados.


📁 Estructura del proyecto

dbt_kaggle_project/
├── data/                  # Base de datos y archivos CSV
│   ├── raw/               # Datos originales desde Kaggle
│   └── processed/         # (opcional) Datos transformados
│
├── docker/                # Dockerfile para el entorno dbt
├── kaggle_dbt/            # Proyecto dbt
│   ├── models/            # Modelos dbt
│   └── dbt_project.yml    # Configuración principal de dbt
│
├── scripts/               # Scripts auxiliares
│   ├── descargar_kaggle.py
│   ├── cargar_duckdb.py
│   └── explorar_duckdb.py
│
├── docker-compose.yml     # Configuración de servicios
└── README.md              # Este archivo

🚀 ¿Cómo usar este proyecto?

  1. Clonar el repositorio y posicionarse en la carpeta raíz:

    git clone https://github.com/tu-usuario/dbt_kaggle_project.git
    cd dbt_kaggle_project
  2. Instalar dependencias necesarias (recomendado: entorno virtual):

    pip install -r requirements.txt
  3. Descargar el dataset de Kaggle:

    Asegúrate de tener configuradas tus credenciales de Kaggle y ejecutá:

    python scripts/descargar_kaggle.py
  4. Cargar los datos en DuckDB:

    python scripts/cargar_duckdb.py
  5. Ejecutar el proyecto dbt:

    cd kaggle_dbt
    dbt run
    dbt show --select accidents_by_year

👤 Autor

Leonardo Villegas
Ingeniero en Sistemas, entusiasta de los datos abiertos y la ingeniería de datos.


📄 Licencia

Este proyecto se distribuye bajo la Licencia MIT.
Ver el archivo LICENSE para más detalles.

About

Este proyecto es una demostración práctica del uso de dbt (data build tool) con la base de datos DuckDB para transformar y analizar datos abiertos de accidentes de tráfico descargados de Kaggle.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published