Oi, pessoal!
Colocarei aqui todos os arquivos possíveis sobre projetos Full Stack Data Science (Data Engineering, Data Science, Data Analytics, Data Storytelling e outros) que tenho participação.
Até agora tenho:
Hi guys!
Here I'll put all files that possible about Full Stack Data Science (Data Engineering, Data Science, Data Analytics, Data Storytelling and others) projects that I have participation.
Until now I have:
- Máquina Virtual para rodar o Docker e containers;
- MinIO para criar um datalake;
- MySQL para integração com VS Code e Jupyter Notebook;
- VS Code, MS Powershell, Anaconda/Jupyter Notebook para integração e coding em linguagem Python;
- Apache Airflow para orquestrar as ações;
- Streamlit para gerar o dataviz.
O trabalho consiste em conhecer e solucionar o problema da evasão de funcionários e a forma escolhida foi a criação de uma máquina preditiva para indicar o conjunto geral de quando esse funcionário pode decidir deixar a empresa ou a chance de evasão dentro de um conjunto de características individuais do funcionário.
A máquina preditiva resolveu com 76% de certeza esse problema usando a biblioteca Pycaret do Python para descobrir a opção mais performática do que outras e publicar com o serviço Streamlit.
Este trabalho foi emulado para criar o ecossistema completo que o cientista de dados trabalha todos os dias, incluindo criação de conjuntos de dados, descoberta/criação de insights e configurações de ferramentas.
- Virtual Machine to run Docker and some containers;
- MinIO to create a datalake;
- MySQL to integrate with VS Code and Jupyter Notebook;
- VS Code, MS Powershell, Anaconda/Jupyter Notebook to integrate and coding in Python language;
- Apache Airflow to orchestre the steps;
- Streamlit to get the dataviz.
The work consists of knowing and solving the problem of employee evasion and the way chosen was the creation of a predictive machine to indicate overall set when this employee may decide to leave the company or evasions chance within a set of individual employee characteristics.
The predictive machine resolved with 76% certainly that issue using the Python's Pycaret biblioteca to discover the most performatic option to than others and publish with Streamlit service.
This job was emulated to create the complete ecossistem that the data scientist work every day, including dataset creation, insights discover/creation and tools configurations.