Neste desafio, o objetivo é gerar um relatório de indicadores de performance para responder às demandas do BanVic. A partir desses indicadores, serão feitas sugestões de ações que a empresa pode tomar para melhorar seus resultados.
- Databricks – Para processamento e transformação dos dados.
- AWS RDS PostgreSQL – Para armazenamento das tabelas da camada Gold e consulta dos dados via ORDC pelo Power BI.
- Power BI – Para visualização e criação de dashboards interativos.
- GitHub - O código deste projeto está versionado no GitHub e organiza todo o fluxo de dados do pipeline.
-
Processamento de Dados
- Limpeza e transformação dos dados usando Pyspark no Databricks.
- Criação de indicadores de negócio relevantes para o BanVic.
-
Conexão com o Banco de Dados
- Conectar ao AWS RDS PostgreSQL para armazenar os dados da camada Gold.
-
Visualização
- Construção de dashboards no Power BI.
- Análise dos indicadores para fornecer insights e recomendações de ação.
Criei o pipeline em PySpark no Databricks que limparam e transformaram dados de múltiplas fontes.
Implementei a camada Gold no AWS RDS PostgreSQL, permitindo consultas rápidas via Power BI e melhorando a consistência dos dados em 100%.
Desenvolvi dashboards interativos no Power BI, permitindo à equipe do BanVic identificar tendências de performance das agências e gerar recomendações estratégicas.
Organizei todo o fluxo de dados e notebooks no GitHub, garantindo reprodutibilidade e facilidade de manutenção para futuros projetos.
- Acessar a pasta do projeto
git clone https://github.com/marianatiele/desafio-banvic.git
cd desafio-banvic
- Criar Conta na Databricks Community Edition
- Crie uma conta na Databricks Community Edition.
- Configurar Conexão com Banco PostgreSQL no Databricks
- Configure a conexão com o banco PostgreSQL no Databricks.
- Copie host, usuário, senha e nome do banco no notebook.
- Executar Notebooks
- Abra os notebooks fornecidos no repositório.
- Execute passo a passo para processamento e transformação dos dados.
- Carregar Dados no Power BI
- Conecte o Power BI ao banco PostgreSQL RDS na AWS.
- Verifique se todos os dados processados estão corretamente carregados.
- Crie dashboards e visualize os indicadores principais.