Skip to content

Latest commit

 

History

History
215 lines (159 loc) · 5.72 KB

File metadata and controls

215 lines (159 loc) · 5.72 KB

Guia de Início Rápido

🎯 Objetivo

Este guia ajudará você a começar rapidamente com o ambiente de estatística usando Jupyter Notebook com SQL + Clickhouse no GitHub Codespaces.

⚡ Início Rápido (5 minutos)

Passo 1: Criar um Codespace

  1. Vá para o repositório no GitHub
  2. Clique no botão verde Code
  3. Selecione a aba Codespaces
  4. Clique em Create codespace on main
  5. Aguarde a criação (3-5 minutos)

Passo 2: Verificar a Instalação

Quando o Codespace abrir, aguarde a instalação automática completar. Você verá mensagens no terminal mostrando:

  • Instalação do Jupyter
  • Instalação do kernel R (IRkernel)
  • Instalação de pacotes R (ggplot2, dplyr, etc.)

Passo 3: Abrir um Notebook

Existem dois notebooks de exemplo incluídos:

  1. exemplo_estatistica.ipynb - Demonstra análise estatística com R
  2. exemplo_python.ipynb - Demonstra análise de dados com Python

Para abrir:

  1. Clique no notebook no explorador de arquivos
  2. No canto superior direito, clique em Select Kernel
  3. Escolha R (para o notebook R) ou Python 3 (para o notebook Python)

Passo 4: Executar o Código

  1. Clique em uma célula de código
  2. Pressione Shift + Enter para executar
  3. Ou clique no botão ▶️ ao lado da célula

Passo 5 : ClickHouse + Iris (Quick Setup)

  • Objetivo: Instalar o ClickHouse localmente e carregar o dataset Iris em uma tabela para consultas rápidas.

  • Instalação (Ubuntu/Codespaces):

sudo ./clickhouse install

Se pedir, digite a senha 785498 para facilitar o lab.

Ao ser perguntado: Allow server to accept connections from the network (default is localhost only), [y/N]:

A mensagem final deve ser:

ClickHouse has been successfully installed.

Start clickhouse-server with: sudo clickhouse start

Start clickhouse-client with: clickhouse-client --password

# Verificar se está rodando
clickhouse-client --query "SELECT version()"
  • Baixar o dataset Iris (CSV):
mkdir -p meus_dados && cd meus_dados
curl -L -o iris.zip\
  https://www.kaggle.com/api/v1/datasets/download/uciml/iris
unzip iris*
cd -
  • Criar a tabela iris no ClickHouse:
-- Abra o cliente: clickhouse-client
CREATE TABLE iris (
   id int,
   sepal_length Float32,
   sepal_width  Float32,
   petal_length Float32,
   petal_width  Float32,
   species LowCardinality(String)
) ENGINE = MergeTree
ORDER BY (species, sepal_length);

Ctrl + D para sair

  • Carregar o CSV (delimitador por vírgula):
# Se o CSV tiver uma linha de cabeçalho (ex: Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species), use `CSVWithNames` e especifique as colunas na mesma ordem lógica da tabela:
clickhouse-client --query "INSERT INTO iris (id,sepal_length,sepal_width,petal_length,petal_width,species) FORMAT CSVWithNames" < meus_dados/Iris.csv

# Alternativa: remova a primeira linha (cabeçalho) e insira como CSV normal (sem nomes):
tail -n +2 meus_dados/Iris.csv | clickhouse-client --query "INSERT INTO iris FORMAT CSV"
  • Consultas de verificação:
clickhouse-client --query "SELECT COUNT(*) FROM iris"
clickhouse-client --query "SELECT species, avg(petal_length) AS avg_pl FROM iris GROUP BY species ORDER BY avg_pl DESC"
  • Dicas:
  • Se o CSV tiver cabeçalho, use FORMAT CSVWithNames.
  • Para uso via Python, instale clickhouse-driver (opcional):
pip install "clickhouse-driver[numpy]"
  • Exemplo de conexão rápida em Python:
from clickhouse_driver import Client
client = Client('localhost')
rows = client.execute("SELECT species, avg(petal_length) FROM iris GROUP BY species")
print(rows)

📚 Próximos Passos

Criar Seu Próprio Notebook

  1. Clique com o botão direito no explorador de arquivos
  2. Selecione New File
  3. Nomeie o arquivo com extensão .ipynb (ex: meu_notebook.ipynb)
  4. Selecione o kernel desejado (R ou Python)
  5. Comece a codificar!

Instalar Pacotes Adicionais

Para R:

install.packages("nome_do_pacote")

Para Python:

pip install nome_do_pacote

Salvar Seu Trabalho

O Codespace salva automaticamente seus arquivos. Para garantir que suas alterações sejam preservadas:

  1. Use Git para commit:
    git add .
    git commit -m "Meu trabalho de estatística"
    git push

🆘 Solução de Problemas

Kernel R não aparece?

  1. Abra um terminal
  2. Execute:
    R -e "IRkernel::installspec(user = FALSE)"
  3. Recarregue a janela do VS Code (Ctrl+Shift+P → "Reload Window")

Pacote não encontrado?

Instale manualmente no terminal:

# Para R
R -e "install.packages('nome_pacote', repos='https://cloud.r-project.org/')"

# Para Python
pip install nome_pacote

Jupyter não inicia?

  1. Abra um terminal
  2. Execute:
    pip install --upgrade jupyter jupyterlab

💡 Dicas

  1. Use Shift+Enter para executar células rapidamente
  2. Ctrl+/ para comentar/descomentar código
  3. Tab para autocompletar código
  4. Use Markdown em células de texto para documentação rica
  5. Salve frequentemente com Ctrl+S

📖 Recursos Úteis

✅ Checklist de Verificação

Marque quando completar:

  • Codespace criado com sucesso
  • Setup automático completado
  • Kernel R disponível nos notebooks
  • Exemplo de notebook R executado
  • Exemplo de notebook Python executado
  • Primeiro notebook próprio criado

Pronto! Você está preparado para começar suas análises estatísticas! 🎉