MVP de Engenharia de Dados

Projeto de sprint da Pós-graduação em Data Science & Analytics (PUC-Rio) focado em engenharia de dados e arquitetura Lakehouse.

Visão geral

Projeto desenvolvido como parte da sprint de Engenharia de Dados do programa de Pós-graduação em Data Science & Analytics da PUC-Rio, pensado para compor o portfólio com um caso completo de pipeline analítico em ambiente de Data Lakehouse. O MVP simula o pipeline transacional da 100cep Gateway, cobrindo ingestão, processamento, conciliação e chargebacks, com foco em boas práticas de modelagem, governança e observabilidade de dados.

Este repositório demonstra:

Arquitetura Lakehouse com camadas Bronze → Silver → Gold.
Construção de um esquema estrela para análise de risco, antifraude e receita.
Documentação técnica (catálogo, ETL, análises, autoavaliação) em formato pronto para portfólio.

Organização do repositório:

📁 100cep-gateway
├── 📁 .databricks
│   └── 📁 pipeline
│       ├── 📁 html # contém os arquivos databricks em formato .html
│       └── 📁 notebooks # contém os arquivos databricks em formato .ipynb
├── 📁 datasets 
│   ├── 📁 ai_dataset # contém o dataset gerado pelo modelo OpenAI 5.0
│   └── 📁 olist_dataset # contém os datasets Brazilian E-Commerce Public Dataset by Olist
├── 📁 dbdiagram # contém o código realizado no dbdiagram.io
├── 📁 images
│   ├── 📁 databricks # evidências do databricks
│   ├── 📁 dbdiagram # schema do dbdiagram.io
│   └── 📁 logo # logo da 100cep Gateway

100cep Gateway

A 100cep Gateway é uma empresa fictícia de infraestrutura de pagamentos borderless, criada como cenário de negócio para este MVP de Engenharia de Dados.

O foco da 100cep não é apenas “processar pagamentos”, mas entender o risco, o comportamento de chargebacks e a saúde da operação transacional em métodos de pagamento, regiões e perfis de clientes.

No contexto deste projeto, a 100cep Gateway é posicionada como uma plataforma que:

intermedia pagamentos de e-commerce entre clientes, sellers e provedores financeiros;
monitora indicadores críticos como taxas de aprovação, faturamento e principalmente taxas de chargeback;
utiliza dados históricos de pedidos, pagamentos, logística e reclamações para orientar decisões de risco, antifraude e estratégia comercial.

O nome “100cep” reforça a ideia de uma operação sem fronteiras — sem cidade, estado ou país limitando o fluxo de pagamentos — e justifica a presença de dimensões de geolocalização e análises por região e método de pagamento na camada analítica.

Contexto acadêmico e objetivos

Este projeto foi desenvolvido no contexto da pós-graduação em Data Science & Analytics (PUC-Rio), com foco em engenharia de dados aplicada.

Objetivos principais:

Pipeline transacional: Simular o fluxo de uma adquirente/gateway, ingerindo e organizando dados de pedidos, pagamentos, itens, clientes e sellers.
Visões analíticas de risco: Criar camadas analíticas para monitorar chargebacks, GMV, ticket médio e métricas por método de pagamento, seller e localização.
Portfólio técnico: Entregar código + documentação, evidenciando decisões de arquitetura, qualidade de dados e modelagem dimensional.

Stack técnica

Plataforma de dados: Databricks (Spark, Delta Lake, Unity Catalog).
Linguagem: Python e SQL.
Processamento: Apache Spark (SQL / DataFrames) e Pandas para análises pontuais.
Modelagem: Arquitetura Medallion (Bronze, Silver, Gold) e esquema estrela.
Visualização: Seaborn, Matplotlib e Geopandas.

Dataset

Os dados são baseados no Brazilian E-Commerce Public Dataset by Olist, amplamente utilizado em estudos de ciência e engenharia de dados. O projeto também utiliza um dataset sintético de chargebacks para simular risco e fraude, sem qualquer dado sensível real.

Fluxo de ingestão:

Download dos arquivos CSV a partir do Kaggle.
Upload para Unity Catalog Volumes no Databricks, compondo a área de staging antes da Bronze.

⚠ Nenhum dado pessoal identificável (PII) real é utilizado.

⚠ Escopo 100% educacional e de portfólio.

Fluxo de ingestão: 02_download

Arquitetura e modelagem

O projeto adota um modelo Lakehouse em Databricks, estruturado na arquitetura Medallion (Bronze, Silver, Gold), com governança via Unity Catalog.

🥉 Bronze · dados brutos

CSVs armazenados em Delta quase “como chegaram”.
Foco em auditabilidade e possibilidade de reprocessamento.
Leitura dos CSV a partir do Volume do Unity Catalog.
Persistência em tabelas Delta *_raw.
Normalização básica de nomes de tabelas.

🥈 Silver · dados tratados

Padronização de tipos e normalização de chaves.
Tratamento de nulos e deduplicação.
Criação de tabelas temáticas (pedidos, pagamentos, clientes, itens).
Criação de relacionamentos entre pedidos, pagamentos, itens, clientes e sellers.

🥇 Gold · modelo analítico

Dimensões: clientes, vendedores, pagamentos, data, geolocalização, chargebacks.
Fato: fato_transacoes, consolidando pedidos, valores, status e vínculo com chargebacks.
Modelagem dos dados em Star Schema, conforme indicado na imagem abaixo criada no site dbdiagram.io.

Regras detalhadas de transformação: Documentação do ETL

Código do diagrama: Dbdiagram Schema

Catálogo de dados

O projeto inclui um Data Catalog documentando:

Nome e tipo de cada coluna.
Domínio esperado, faixas de valores e categorias.
Descrição funcional e camada de origem.

Arquivo de referência: Catálogo dos Dados

Como executar

Ajuste nomes de catálogo/schema e caminhos conforme o seu workspace Databricks.

Necessidade de upload manual da tabela chargebacks_dataset no volume imdb.

Configurar ambiente
- Criar o catálogo 100cep_gateway (ou adaptar nos scripts).
- Configurar Unity Catalog e Volumes para staging.
Rodar os scripts em ordem
Explorar análises
- Abrir 06_qualidade para explorar a análise de qualidade.
- Abrir 07_perguntas para responder às perguntas de negócio.
Explorar Comentários
- Abrir 08_catalogo para adicionar comentários nas tabelas de todas as camadas.

Perguntas de negócio

A camada Gold foi desenhada para responder perguntas típicas de risco, antifraude e receita em um gateway de pagamentos.

Qual o método de pagamento mais utilizado pelos clientes da 100cep Gateway?
Qual o histórico de faturamento do ano de 2017?
Qual a proporção de pedidos com e sem solicitação de chargeback?
Quais métodos de pagamento apresentam maior risco de chargeback?
Quais estados apresentam as maiores taxas de chargeback?

Detalhes das análises: Perguntas de Negócio

Autoavaliação

Como parte da sprint, o projeto inclui uma autoavaliação com reflexões técnicas e acadêmicas.

O que foi cumprido dentro do escopo da sprint.
Principais desafios (performance, modelagem, ferramentas).
Próximos passos;

Arquivo: Autoavaliação

Autor

Felipe Pinheiro

Créditos

Dataset: Brazilian E-Commerce Public Dataset by Olist — Olist & André Sionek.

DOI: 10.34740/kaggle/dsv/195341 — Licença CC BY-NC-SA 4.0.

⁂

Name		Name	Last commit message	Last commit date
Latest commit History 79 Commits
.databricks		.databricks
.vscode		.vscode
datasets		datasets
dbdiagram		dbdiagram
images		images
README.md		README.md
autoavaliacao.md		autoavaliacao.md
catalogo.md		catalogo.md
documentacao_etl.md		documentacao_etl.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

MVP de Engenharia de Dados

Visão geral

100cep Gateway

Contexto acadêmico e objetivos

Stack técnica

Dataset

Arquitetura e modelagem

🥉 Bronze · dados brutos

🥈 Silver · dados tratados

🥇 Gold · modelo analítico

Catálogo de dados

Como executar

Perguntas de negócio

Autoavaliação

Autor

Créditos

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

MVP de Engenharia de Dados

Visão geral

100cep Gateway

Contexto acadêmico e objetivos

Stack técnica

Dataset

Arquitetura e modelagem

🥉 Bronze · dados brutos

🥈 Silver · dados tratados

🥇 Gold · modelo analítico

Catálogo de dados

Como executar

Perguntas de negócio

Autoavaliação

Autor

Créditos

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages