Skip to content

feliperamospinheiro/100cep-gateway-pt-br

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

79 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

MVP de Engenharia de Dados

Status Engenharia de Dados Databricks Apache Spark SQL Pandas Seaborn GeoPandas

Projeto de sprint da Pós-graduação em Data Science & Analytics (PUC-Rio) focado em engenharia de dados e arquitetura Lakehouse.


Visão geral

Projeto desenvolvido como parte da sprint de Engenharia de Dados do programa de Pós-graduação em Data Science & Analytics da PUC-Rio, pensado para compor o portfólio com um caso completo de pipeline analítico em ambiente de Data Lakehouse. O MVP simula o pipeline transacional da 100cep Gateway, cobrindo ingestão, processamento, conciliação e chargebacks, com foco em boas práticas de modelagem, governança e observabilidade de dados.

Este repositório demonstra:

  • Arquitetura Lakehouse com camadas Bronze → Silver → Gold.
  • Construção de um esquema estrela para análise de risco, antifraude e receita.
  • Documentação técnica (catálogo, ETL, análises, autoavaliação) em formato pronto para portfólio.

Organização do repositório:

📁 100cep-gateway
├── 📁 .databricks
│   └── 📁 pipeline
│       ├── 📁 html # contém os arquivos databricks em formato .html
│       └── 📁 notebooks # contém os arquivos databricks em formato .ipynb
├── 📁 datasets 
│   ├── 📁 ai_dataset # contém o dataset gerado pelo modelo OpenAI 5.0
│   └── 📁 olist_dataset # contém os datasets Brazilian E-Commerce Public Dataset by Olist
├── 📁 dbdiagram # contém o código realizado no dbdiagram.io
├── 📁 images
│   ├── 📁 databricks # evidências do databricks
│   ├── 📁 dbdiagram # schema do dbdiagram.io
│   └── 📁 logo # logo da 100cep Gateway

100cep Gateway

Logo 100cep Gateway

A 100cep Gateway é uma empresa fictícia de infraestrutura de pagamentos borderless, criada como cenário de negócio para este MVP de Engenharia de Dados.

O foco da 100cep não é apenas “processar pagamentos”, mas entender o risco, o comportamento de chargebacks e a saúde da operação transacional em métodos de pagamento, regiões e perfis de clientes.

No contexto deste projeto, a 100cep Gateway é posicionada como uma plataforma que:

  • intermedia pagamentos de e-commerce entre clientes, sellers e provedores financeiros;
  • monitora indicadores críticos como taxas de aprovação, faturamento e principalmente taxas de chargeback;
  • utiliza dados históricos de pedidos, pagamentos, logística e reclamações para orientar decisões de risco, antifraude e estratégia comercial.

O nome “100cep” reforça a ideia de uma operação sem fronteiras — sem cidade, estado ou país limitando o fluxo de pagamentos — e justifica a presença de dimensões de geolocalização e análises por região e método de pagamento na camada analítica.


Contexto acadêmico e objetivos

Este projeto foi desenvolvido no contexto da pós-graduação em Data Science & Analytics (PUC-Rio), com foco em engenharia de dados aplicada.

Objetivos principais:

  • Pipeline transacional: Simular o fluxo de uma adquirente/gateway, ingerindo e organizando dados de pedidos, pagamentos, itens, clientes e sellers.
  • Visões analíticas de risco: Criar camadas analíticas para monitorar chargebacks, GMV, ticket médio e métricas por método de pagamento, seller e localização.
  • Portfólio técnico: Entregar código + documentação, evidenciando decisões de arquitetura, qualidade de dados e modelagem dimensional.

Stack técnica

  • Plataforma de dados: Databricks (Spark, Delta Lake, Unity Catalog).
  • Linguagem: Python e SQL.
  • Processamento: Apache Spark (SQL / DataFrames) e Pandas para análises pontuais.
  • Modelagem: Arquitetura Medallion (Bronze, Silver, Gold) e esquema estrela.
  • Visualização: Seaborn, Matplotlib e Geopandas.

Dataset

Os dados são baseados no Brazilian E-Commerce Public Dataset by Olist, amplamente utilizado em estudos de ciência e engenharia de dados. O projeto também utiliza um dataset sintético de chargebacks para simular risco e fraude, sem qualquer dado sensível real.

Fluxo de ingestão:

  1. Download dos arquivos CSV a partir do Kaggle.
  2. Upload para Unity Catalog Volumes no Databricks, compondo a área de staging antes da Bronze.

⚠ Nenhum dado pessoal identificável (PII) real é utilizado.

⚠ Escopo 100% educacional e de portfólio.

Fluxo de ingestão: 02_download


Arquitetura e modelagem

O projeto adota um modelo Lakehouse em Databricks, estruturado na arquitetura Medallion (Bronze, Silver, Gold), com governança via Unity Catalog.

🥉 Bronze · dados brutos

  • CSVs armazenados em Delta quase “como chegaram”.
  • Foco em auditabilidade e possibilidade de reprocessamento.
  • Leitura dos CSV a partir do Volume do Unity Catalog.
  • Persistência em tabelas Delta *_raw.
  • Normalização básica de nomes de tabelas.

🥈 Silver · dados tratados

  • Padronização de tipos e normalização de chaves.
  • Tratamento de nulos e deduplicação.
  • Criação de tabelas temáticas (pedidos, pagamentos, clientes, itens).
  • Criação de relacionamentos entre pedidos, pagamentos, itens, clientes e sellers.

🥇 Gold · modelo analítico

  • Dimensões: clientes, vendedores, pagamentos, data, geolocalização, chargebacks.
  • Fato: fato_transacoes, consolidando pedidos, valores, status e vínculo com chargebacks.
  • Modelagem dos dados em Star Schema, conforme indicado na imagem abaixo criada no site dbdiagram.io.

Regras detalhadas de transformação: Documentação do ETL

Código do diagrama: Dbdiagram Schema

Logo 100cep Gateway


Catálogo de dados

O projeto inclui um Data Catalog documentando:

  • Nome e tipo de cada coluna.
  • Domínio esperado, faixas de valores e categorias.
  • Descrição funcional e camada de origem.

Arquivo de referência: Catálogo dos Dados


Como executar

Ajuste nomes de catálogo/schema e caminhos conforme o seu workspace Databricks.

Necessidade de upload manual da tabela chargebacks_dataset no volume imdb.

  1. Configurar ambiente

    • Criar o catálogo 100cep_gateway (ou adaptar nos scripts).
    • Configurar Unity Catalog e Volumes para staging.
  2. Rodar os scripts em ordem

  3. Explorar análises

    • Abrir 06_qualidade para explorar a análise de qualidade.
    • Abrir 07_perguntas para responder às perguntas de negócio.
  4. Explorar Comentários

    • Abrir 08_catalogo para adicionar comentários nas tabelas de todas as camadas.

Perguntas de negócio

A camada Gold foi desenhada para responder perguntas típicas de risco, antifraude e receita em um gateway de pagamentos.

  1. Qual o método de pagamento mais utilizado pelos clientes da 100cep Gateway?
  2. Qual o histórico de faturamento do ano de 2017?
  3. Qual a proporção de pedidos com e sem solicitação de chargeback?
  4. Quais métodos de pagamento apresentam maior risco de chargeback?
  5. Quais estados apresentam as maiores taxas de chargeback?

Detalhes das análises: Perguntas de Negócio


Autoavaliação

Como parte da sprint, o projeto inclui uma autoavaliação com reflexões técnicas e acadêmicas.

  • O que foi cumprido dentro do escopo da sprint.
  • Principais desafios (performance, modelagem, ferramentas).
  • Próximos passos;

Arquivo: Autoavaliação


Autor

Felipe Pinheiro

Gmail LinkedIn


Créditos

Dataset: Brazilian E-Commerce Public Dataset by Olist — Olist & André Sionek.

DOI: 10.34740/kaggle/dsv/195341 — Licença CC BY-NC-SA 4.0.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors