Capacitar profissionais da área de dados a implementar soluções de validação de qualidade de dados, utilizando Python, Soda e PostgreSQL, com foco em práticas eficientes e casos de uso reais.
- Definição e importância.
- Tipos de problemas de qualidade de dados (ex.: duplicidade, valores nulos, inconsistência).
- Impacto direto em análises e decisões.
- Como o uso de data quality aumenta a confiabilidade do projeto
- Exemplos reais de falhas em projetos de dados devido à má qualidade.
- Soluções bem-sucedidas e o papel do data quality.
- Comparação entre ferramentas: Soda, Great Expectations, Pytest e Pydantic
- Construção de uma ferramenta de ingestão com Python
- Construção de uma ferramenta de validação de dados
Os alunos devem ter conhecimento básico em:
- Python: lógica de programação e manipulação de dados.
- Docker (Opcional)
- PostgreSQL: Noções básicas de estrutura de banco de dados.
- Preparação do ambiente (Python, PostgreSQL e Soda CLI).
- Instalação do VsCODE
- Instalação DBeaver
- Configuração e acesso ao Postgres
- Instalação do Postgres no Docker
- Instalação do Soda
- Configuração inicial do Soda
- O que é um contrato de dados e sua importância.
- Como definir regras de validação (ex.: schema, tipos de dados, limites esperados).
- Checando se a tabela existe no Postgres
- Checando as colunas
- Checando os tipos de dados
- Número de linhas iguais
- Soma do id igual
- Criação de alertas e relatórios de qualidade de dados
Clone o respositório
git clone
Deixe o postgres acessível
cd docker/postgres
sudo docker compose up -d
Crie um ambiente virtual
python3 venv venv
source venv/bin/activate
Instale as libs
pip install -r requirements.txt
Consulte a documentação do projeto na pasta docs
https://docs.pytest.org/en/stable/
Desenvolvedor | Portfólio | ||
---|---|---|---|
Wallace Camargo | [email protected] | Portfólio |