Skip to content

chironcodes/data_craftsmanship

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

48 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Artesanato de dados (0.9α)

![GitHub repo size](https://img.shields.io/github/repo-size/chironcodes/data_craftsmanship?style=for-the-badge)![GitHub language count](https://img.shields.io/github/languages/count/chironcodes/data_craftsmanship?style=for-the-badge)![GitHub Repo stars](https://img.shields.io/github/stars/chironcodes/data_craftsmanship?style=for-the-badge)

classic ETL template

O intuito principal desse repositório é desenvolver, demonstrar e documentar parte do conhecimento que adquiri através de estudos sobre a área da Ciência/Engenharia de dados. Durante o decorrer desse projeto vamos passar por todas as etapas do fluxo do Big Data, da sua ingestão inicial de dados até a produção dos insights e propostas de intervenção.


RoadMap




Introdução

RoadMap

​ Foi definido como objeto de estudo a MANUFATURA. Apesar de ser um tema bastante amplo, conseguir bases de dados se mostrou um desafio, já que dificilmente uma empresa abriria mão de bases de dados a um terceiro. Tendo em vista o desafio que encontramos ao procurar fontes de dados mais voltadas a players do mercado, passamos a buscar, então, dados públicos e governamentais, dentre eles dados históricos da CNI (Confederação Nacional da Indústria) e dados de reclamações disponibilizados pelo PROCON a nível nacional.

our stack of technology used

Objetivo

Com o processamento e análise desses dados buscamos:

  1. Qualificar a persona que mais abre reclamação.
  2. Identificar quais os problemas no pós-venda.
  3. Propor insights.


Stack

Só agora com a definição mais precisa do escopo de projeto definimos o stack de ferramentas que utilizaremos.

our stack of technology used

  • Hadoop(HDFS/YARN) -

    Sistema de arquivos distribuído com alta tolerância a falha, além de alta disponibilidade e baixo custo de implementação. Apesar de ter entrado em desuso muito por conta da mudança de paradigma da Engenharia de Dados ter se voltado ao PaaS (Plataform as a Service), o HDFS ainda vê os seus dias de gloria como um Data Lake de baixo custo no cenário on-premise e é ele que usaremos como nosso Data Lake.

    YARN é simplesmente o gerenciador de recursos e jobs, componente essencial do ecossistema Hadoop para processamento distribuído.

  • PySpark(Spark) -

    Nada mais é que uma API python para trabalhar sobre o Spark. O Spark, por sua vez, é uma engine de processamento de dados em larga escala, sendo muito mais veloz que o Hadoop M/R. Parte da sua velocidade advém principalmente do fato que o Spark faz uso de armazenamento em memória o que lhe garante ampla vantagem sobre seu irmão mais novo.

  • Jupyter Notebook -

    Ferramenta principal do Cientista de Dados. O Jupyter pode ser configurado para realizar queries e tratamentos fazendo uso da engine Spark e se integra muito bem ao ecossistema Apache/Hadoop/Spark.

  • PostgreSQL -

    SGBD open source número 1 a nível mundial. Famoso pela sua confiabilidade, velocidade e suporte é o mais utilizado no eco sistema de Big Data em todo mundo. É o destino final de nossos dados.

  • Airflow -

    Uma ferramenta para orquestração de fluxo de dados de maneira escalonável e simples. É uma excelente ferramenta para iniciar pelo baixa curva de aprendizado.


1- Extração

Se dá então inicio ao nosso processo ETL.

our stack of technology used



Com alguns poucos providers estabelecemos um fluxo automatizado que faz a sondagem da nossa staging area por novos arquivos e os insere em nosso Data Lake. Nessa fase os dados podem se apresentar nos mais diversos formatos(SQL, XML, CSV, PDF), estruturados e não estruturado. Nessa fase de ingestão inicial a velocidade é fundamental, por isso os dados são ingestados brutos, sem tratamento prévio, mas ainda sim se atentando em manter seus dados catalogáveis e com mínima governança evitando que seu Data Lake vire um Data Swamp(pântano de dados).




2- Transformação

Após finalizado nosso processo de extração, é dado início a nossa fase de transformação. Nessa fase fazemos o tratamento de dados tais quais a limpeza de dados faltantes ou nulos, desnormalização de dados que podem advir de bancos distintos ou pela normalização de tabelas relacionais de um mesmo. Também é pertinente a essa área a filtragem de atributos/colunas que sejam relevantes ou impactantes a análise a ser desenvolvida.


Notebook de tratamento

3- Carregamento

our stack of technology used



Ao final da fase de transformação já é inciada a fase de load, onde os nossos DataFrames com os dados já tratados são finalmente carregados no nosso Data Warehouse para posteriormente serem consumidos. Aqui de fato é


Análise e visualização

Após o fim do nosso processo ETL os dados podem ser consumidos diretamente doData Warehouse por uma ferramenta de BI. Nesse projeto utilizamos o Google Data Studio que já disponibiliza um conector a bancos PostgreSQL.

Em primeira análise observamos um descritivo geral dos motivos da reclamação:

our stack of technology used

Em um segundo gráfico, filtramos apenas as recla¨mações referentes a 'Carro Nacional Zero' e 'Carro importado' podemos visualizar melhor quais as maiores causas de insatisfação dos consumidores na aquisição de um carro novo.

our stack of technology used

A exploração de bases relevantes possibilita a extração de insights que auxiliam a empresa na tomada de decisões. Em uma rápida análise é possível perceber que um dos principais motivos de reclamação é sobre prazos de entrega, que podem ter como causa tanto o questões inerentes a fabricação e montagem, quanto por problemas de logística.

our stack of technology used

Uma análise demográfica mais apurada também nos possibilita identificar onde o nosso público alvo mais se concentra, permitindo um investimento eficaz.

our stack of technology used

Com a análise criteriosa dos dados é possível construir em detalhes quem é a persona do nosso consumidor. Uma vez definido o nosso target podemos, por exemplo, estabelecer uma estratégia de marketing com maior excelência e assertividade no intuíto de melhorar o branding da empresa.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors