Skip to content

Apoena-Stack/curso-qualidade-de-dados-com-soda

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Apoena Stack - Data Quality

Objetivo Geral

Capacitar profissionais da área de dados a implementar soluções de validação de qualidade de dados, utilizando Python, Soda e PostgreSQL, com foco em práticas eficientes e casos de uso reais.

Estrutura do Curso

Aulas Teóricas

1. O que é qualidade de dados?

  • Definição e importância.
  • Tipos de problemas de qualidade de dados (ex.: duplicidade, valores nulos, inconsistência).

2. A importância da qualidade de dados em projetos

  • Impacto direto em análises e decisões.
  • Como o uso de data quality aumenta a confiabilidade do projeto

3. Casos de uso

  • Exemplos reais de falhas em projetos de dados devido à má qualidade.
  • Soluções bem-sucedidas e o papel do data quality.

4. Principais ferramentas de Mercado

  • Comparação entre ferramentas: Soda, Great Expectations, Pytest e Pydantic

Aulas Práticas

Escopo

  • Construção de uma ferramenta de ingestão com Python
  • Construção de uma ferramenta de validação de dados

Pré-Requisitos

Os alunos devem ter conhecimento básico em:

  • Python: lógica de programação e manipulação de dados.
  • Docker (Opcional)
  • PostgreSQL: Noções básicas de estrutura de banco de dados.

1. Instalação e Configuração

  • Preparação do ambiente (Python, PostgreSQL e Soda CLI).
  • Instalação do VsCODE
  • Instalação DBeaver
  • Configuração e acesso ao Postgres
  • Instalação do Postgres no Docker
  • Instalação do Soda
  • Configuração inicial do Soda

2. Criação do Contrato de Dados

  • O que é um contrato de dados e sua importância.
  • Como definir regras de validação (ex.: schema, tipos de dados, limites esperados).

3. Validações de qualidade

  • Checando se a tabela existe no Postgres
  • Checando as colunas
  • Checando os tipos de dados

4. Validações cruzadas

  • Número de linhas iguais
  • Soma do id igual

5. Reports

  • Criação de alertas e relatórios de qualidade de dados

Como utilizar o projeto?

Clone o respositório

git clone 

Deixe o postgres acessível

cd docker/postgres
sudo docker compose up -d

Crie um ambiente virtual

python3 venv venv
source venv/bin/activate

Instale as libs

pip install -r requirements.txt

Como operar com o framework?

Consulte a documentação do projeto na pasta docs

Referências

https://www.soda.io/

https://docs.pytest.org/en/stable/

Developer

Desenvolvedor LinkedIn Email Portfólio
Wallace Camargo LinkedIn [email protected] Portfólio

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published