Este guia ajudará você a começar rapidamente com o ambiente de estatística usando Jupyter Notebook com SQL + Clickhouse no GitHub Codespaces.
- Vá para o repositório no GitHub
- Clique no botão verde Code
- Selecione a aba Codespaces
- Clique em Create codespace on main
- Aguarde a criação (3-5 minutos)
Quando o Codespace abrir, aguarde a instalação automática completar. Você verá mensagens no terminal mostrando:
- Instalação do Jupyter
- Instalação do kernel R (IRkernel)
- Instalação de pacotes R (ggplot2, dplyr, etc.)
Existem dois notebooks de exemplo incluídos:
- exemplo_estatistica.ipynb - Demonstra análise estatística com R
- exemplo_python.ipynb - Demonstra análise de dados com Python
Para abrir:
- Clique no notebook no explorador de arquivos
- No canto superior direito, clique em Select Kernel
- Escolha R (para o notebook R) ou Python 3 (para o notebook Python)
- Clique em uma célula de código
- Pressione Shift + Enter para executar
- Ou clique no botão
▶️ ao lado da célula
-
Objetivo: Instalar o ClickHouse localmente e carregar o dataset
Irisem uma tabela para consultas rápidas. -
Instalação (Ubuntu/Codespaces):
sudo ./clickhouse installSe pedir, digite a senha 785498 para facilitar o lab.
Ao ser perguntado: Allow server to accept connections from the network (default is localhost only), [y/N]:
A mensagem final deve ser:
ClickHouse has been successfully installed.
Start clickhouse-server with: sudo clickhouse start
Start clickhouse-client with: clickhouse-client --password
# Verificar se está rodando
clickhouse-client --query "SELECT version()"- Baixar o dataset Iris (CSV):
mkdir -p meus_dados && cd meus_dados
curl -L -o iris.zip\
https://www.kaggle.com/api/v1/datasets/download/uciml/iris
unzip iris*
cd -- Criar a tabela
irisno ClickHouse:
-- Abra o cliente: clickhouse-client
CREATE TABLE iris (
id int,
sepal_length Float32,
sepal_width Float32,
petal_length Float32,
petal_width Float32,
species LowCardinality(String)
) ENGINE = MergeTree
ORDER BY (species, sepal_length);Ctrl + D para sair
- Carregar o CSV (delimitador por vírgula):
# Se o CSV tiver uma linha de cabeçalho (ex: Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species), use `CSVWithNames` e especifique as colunas na mesma ordem lógica da tabela:
clickhouse-client --query "INSERT INTO iris (id,sepal_length,sepal_width,petal_length,petal_width,species) FORMAT CSVWithNames" < meus_dados/Iris.csv
# Alternativa: remova a primeira linha (cabeçalho) e insira como CSV normal (sem nomes):
tail -n +2 meus_dados/Iris.csv | clickhouse-client --query "INSERT INTO iris FORMAT CSV"- Consultas de verificação:
clickhouse-client --query "SELECT COUNT(*) FROM iris"
clickhouse-client --query "SELECT species, avg(petal_length) AS avg_pl FROM iris GROUP BY species ORDER BY avg_pl DESC"- Dicas:
- Se o CSV tiver cabeçalho, use
FORMAT CSVWithNames. - Para uso via Python, instale
clickhouse-driver(opcional):
pip install "clickhouse-driver[numpy]"- Exemplo de conexão rápida em Python:
from clickhouse_driver import Client
client = Client('localhost')
rows = client.execute("SELECT species, avg(petal_length) FROM iris GROUP BY species")
print(rows)- Clique com o botão direito no explorador de arquivos
- Selecione New File
- Nomeie o arquivo com extensão
.ipynb(ex:meu_notebook.ipynb) - Selecione o kernel desejado (R ou Python)
- Comece a codificar!
install.packages("nome_do_pacote")pip install nome_do_pacoteO Codespace salva automaticamente seus arquivos. Para garantir que suas alterações sejam preservadas:
- Use Git para commit:
git add . git commit -m "Meu trabalho de estatística" git push
- Abra um terminal
- Execute:
R -e "IRkernel::installspec(user = FALSE)" - Recarregue a janela do VS Code (Ctrl+Shift+P → "Reload Window")
Instale manualmente no terminal:
# Para R
R -e "install.packages('nome_pacote', repos='https://cloud.r-project.org/')"
# Para Python
pip install nome_pacote- Abra um terminal
- Execute:
pip install --upgrade jupyter jupyterlab
- Use Shift+Enter para executar células rapidamente
- Ctrl+/ para comentar/descomentar código
- Tab para autocompletar código
- Use Markdown em células de texto para documentação rica
- Salve frequentemente com Ctrl+S
Marque quando completar:
- Codespace criado com sucesso
- Setup automático completado
- Kernel R disponível nos notebooks
- Exemplo de notebook R executado
- Exemplo de notebook Python executado
- Primeiro notebook próprio criado
Pronto! Você está preparado para começar suas análises estatísticas! 🎉