- Inteli - Instituto de Tecnologia e Liderança
- Grupo 01 (DataSemente) - Estrutura e Governança para Anáise de Dados
- Sumário
Este projeto é resultado de uma colaboração entre o CESB e a equipe de desenvolvimento, com o objetivo de criar uma ferramenta capaz de identificar e corrigir automaticamente entradas de dados discrepantes e/ou incorretas, aliada a um dashboard interativo para captura e visualização simplificada das informações de manejo das áreas de soja em formato de gráficos e indicadores. A solução atende à necessidade do CESB de extrair informações estratégicas do banco de dados de forma ágil e precisa, permitindo o compartilhamento de melhores práticas com parceiros comerciais e profissionais do setor, contribuindo diretamente para o incremento sustentável da média produtiva da soja no Brasil.
A documentação do projeto está localizada na pasta docs/ e estruturada por sprints e tópicos complementares:
- Contextualização e Especificação de Requisitos
- Modelagem Dimensional do Data Warehouse
- Gestão Evolutiva do Projeto - Sprint 1
- Contextualização e Especificação de Requisitos
- Modelagem Dimensional do Data Warehouse
- Especificação dos Dashboards em Power BI
- Governança de Dados do Projeto
- Gestão Evolutiva do Projeto - Sprint 2
- Sistema ETL com Orquestração e Observabilidade
- Governança de Dados do Projeto
- Gestão Evolutiva do Projeto - Sprint 3
- Sistema ETL com Orquestração e Observabilidade
- Solução Dashboard
- Gestão Evolutiva do Projeto - Sprint 4
- Documentação Técnica - Sistema de Padronização Automática (SoundexBR)
- Análise Financeira do Projeto
- Solução Dashboard - Versão 2
- Gestão Evolutiva do Projeto - Sprint 5
- Manual de Implementação para o Parceiro
- README - Interface TUI
- Queries ClickHouse para Power BI
- Modelagem Dimensional do Data Warehouse
- BR-Soundex - README
.
├── assets/ # Recursos visuais e documentos do projeto
├── docs/ # Documentação técnica e estratégica
│ ├── sprint1/ # Documentação da Sprint 1
│ ├── sprint2/ # Documentação da Sprint 2
│ ├── sprint3/ # Documentação da Sprint 3
│ └── sprint 4/ # Documentação da Sprint 4
├── src/ # Código-fonte do projeto
│ ├── clickhouse/ # Gerenciamento do ClickHouse
│ │ ├── clickhouse_manager.py
│ │ └── init/
│ ├── data/ # Planilhas de entrada (.xlsx)
│ ├── output/ # Resultados de exportação
│ ├── output_powerbi/ # Arquivos JSON para Power BI
│ ├── vector/ # Configuração do Vector
│ ├── xls-processor/ # Pipeline ETL principal
│ │ ├── clickhouse-init/
│ │ ├── data/
│ │ ├── logs/
│ │ ├── output/
│ │ ├── etl_delta_tracker.py
│ │ ├── etl_delta_tui.py
│ │ ├── prefect_etl_flows.py
│ │ ├── metrics_server.py
│ │ └── ...
│ ├── docker-compose.yml # Orquestração de containers
│ ├── prometheus.yml # Configuração do Prometheus
│ └── ...
├── CONTRIBUTING.md # Diretrizes para contribuição
├── README.md # Este documento
└── requirements-dev.txt # Dependências de desenvolvimento
- Desenvolver uma ferramenta que seja capaz de identificar e corrigir os problemas das entradas de dados discrepantes e/ou errados;
- Criação de um dashboard que facilite a captura, visualização das informações de manejo das áreas de soja de maneira simples;
- Modelar um Data Warehouse com estrutura de governança de dados para análise.
As dependências necessárias para o projeto são instaladas automaticamente pelo CI a partir do arquivo requirements-dev.txt.
Observação: Não é necessário instalar dependências manualmente. Apenas certifique-se de que o Docker e Docker Compose estão instalados.
cd src/docker-compose upDica: Este comando sobe todos os containers necessários para rodar o projeto. Aguarde até que todos os serviços estejam prontos.
Copie suas planilhas para o diretório:
app/dataObs: Todas as planilhas que serão processadas devem estar neste diretório.
Caso queira visualizar a interface TUI (Text User Interface) para interações manuais:
docker exec -it xls-processor python3 /app/etl_delta_tui.pyObservação: Este passo é opcional e útil para debug ou execução interativa do ETL.
-
Certifique-se de que o Docker está rodando antes de iniciar os comandos.
-
O pipeline CI já cuida da instalação de dependências e configuração inicial.
-
Para qualquer problema de permissões, execute os comandos com privilégios adequados (ex:
sudono Linux/macOS).
-
0.1.0 - 15/08/2025
-
0.2.0 - 29/08/2025
-
0.3.0 - 12/09/2025
-
0.4.0 - 26/09/2025
-
0.5.0 - 09/10/2025
[Sprint 1] Contextualização e Especificação de Requisitos, Modelagem Data Warehouse, Especificação dos Dashs em Power BI e Gestão Evolutiva do Projeto
[Sprint 2] Contextualização e Especificação de Requisitos, Modelagem Data Warehouse, Especificação dos Dashs em Power BI, Governança de Dados e Gestão Evolutiva do Projeto
[Sprint 3] Governança de Dados, Sistema ETL e Gestão Evolutiva do Projeto
[Sprint 4] Sistema ETL, Dashboards e Gestão Evolutiva do Projeto
[Sprint 5] Documentação Técnica do Projeto, Análise Financeira do Projeto, Dashboards - Versão 2 e Gestão Evolutiva do Projeto
Fundado em 2008, o CESB nasceu para elevar os patamares de produtividade da soja, fortalecendo uma das cadeias produtivas mais importantes do Brasil.
Prescript by Inteli, Anna Aragão, Eduarda Souza, Erik Freundt, Rafael Coutinho, is licensed under Creative Commons Attribution 4.0 International
