diff --git a/README.md b/README.md index 003dc00..91a313b 100644 --- a/README.md +++ b/README.md @@ -25,13 +25,17 @@ Fora do horário de aula ou monitoria: ## Slides -| Slide | -|:------| +| Slide | +|:---------------------------------------------------------------------------------------------------| +| [introducao.html](https://curso-r.github.io/202408-intro-estatistica/slides/introducao.html) | +| [probabilidade.html](https://curso-r.github.io/202408-intro-estatistica/slides/probabilidade.html) | ## Scripts utilizados em aula -| Exemplo | -|:--------| +| Exemplo | +|:-------------------------------------------------------------------------------------------------------------| +| [contagens.R](https://curso-r.github.io/202408-intro-estatistica/exemplos_de_aula/contagens.R) | +| [simulacoes_dados.R](https://curso-r.github.io/202408-intro-estatistica/exemplos_de_aula/simulacoes_dados.R) | ## Práticas diff --git a/exemplos_de_aula/contagens.R b/exemplos_de_aula/contagens.R new file mode 100644 index 0000000..a691842 --- /dev/null +++ b/exemplos_de_aula/contagens.R @@ -0,0 +1,151 @@ + +# Dados ------------------------------------------------------------------- + +dados_rolagens <- readRDS("dados/experimento_dado.rds") + + +# Fazendo contagens ------------------------------------------------------- + +X <- dados_rolagens$resultado + +table(X) +# é o jeito de contar do R básico + +contagens <- dados_rolagens |> + count(resultado) +# esse é o jeito do tidyverse + +# Fazer o gráfico --------------------------------------------------------- + +# Jeito 1 +contagens |> + ggplot(aes(x = resultado, y = n)) + + geom_col(fill = "royalblue") + + theme_bw() + + labs(x = "Resultado do dado", y = "Frequência do resultado") +# esse é o jeito com ggplot que é bom porque é flexível + +# Jeito 2 +dados_rolagens |> + ggplot(aes(x = resultado)) + + geom_bar(fill = "royalblue") + + theme_bw() + + labs(x = "Resultado do dado", y = "Frequência do resultado") + +# dados de temperatura ---------------------------------------------------- + +dados_temperatura <- readRDS("dados/chuvas_A701.rds") + +dados_temperatura |> + ggplot(aes(x = `Tair_mean (c)`)) + + geom_bar() + + theme_bw() + +dados_temperatura |> + count(`Tair_mean (c)`) + + +# Como fazer histogramas em R --------------------------------------------- + +# Jeito 1: ggplot2 + +min(dados_temperatura$`Tair_mean (c)`) +max(dados_temperatura$`Tair_mean (c)`) + +(25.15-16.75833)/5 + +dados_temperatura |> + ggplot(aes(x = `Tair_mean (c)`)) + + geom_histogram( + bins = 5 + ) +# quebra as faixas uniformemente entre o minimo e maximo + +dados_temperatura |> + ggplot(aes(x = `Tair_mean (c)`)) + + geom_histogram( + fill = "royalblue", + color = "white", + binwidth = 1, + center = 0.5 + ) + + scale_x_continuous( + breaks = seq(16, 26), + minor_breaks = 1) + + theme_bw() +# quebra as faixas de acordo com a interpretação da faixa + +# Jeito 2: R básico + +hist(dados_temperatura$`Tair_mean (c)`, breaks = "Sturges") + +# o R básico mistura uma fórmula pro numero de quebras +# com um número "bonitinho" +nclass.Sturges + +ceiling(log2(31)+1) + +### existem outros jeitos de criar faixas? + +hist(dados_temperatura$`Tair_mean (c)`, breaks = "FD") + +# Comparação com histogramas ---------------------------------------------- + +dados_peso <- readRDS("dados/dados_pesos.rds") + +hist(dados_peso$wt) + +dados_peso |> + ggplot(aes(x = wt)) + + geom_histogram() +# começou feio + +dados_peso |> + ggplot(aes(x = wt)) + + geom_histogram( + binwidth = 5, center = 2.5, fill = 'royalblue', color = 'white' + ) + +dados_peso |> + ggplot(aes(x = wt, fill = genero)) + + geom_histogram( + binwidth = 5, center = 2.5, color = 'white' + ) + +dados_peso |> count(genero) + +dados_peso |> + ggplot(aes(x = wt, fill = genero)) + + geom_histogram( + binwidth = 5, center = 2.5, color = 'white', position = 'dodge' + ) + +# criando nosso proprio grafico de contagens para histograma -------------- + +dados_peso |> + mutate( + faixa_peso = cut(wt, seq(0, 100, 5)) + ) |> + count(genero, faixa_peso) |> + group_by(genero) |> + mutate( + p = n/sum(n) + ) |> + ggplot(aes(x = faixa_peso, y = p, fill = genero)) + + geom_col(position = 'dodge') + + scale_y_continuous(labels = scales::percent) + + theme_minimal() +# fazendo na mão + + +# Histogramas de variaveis qualitativas? ---------------------------------- + +dados_peso |> + mutate( + genero = factor(genero, c("Mulher", "Homem")) + ) |> + ggplot(aes(x = genero)) + + geom_bar() + +# sim! mas o R precisa ou receber ou criar uma ordem +# entre os valores para conseguir plotar no X diff --git a/exemplos_de_aula/simulacoes_dados.R b/exemplos_de_aula/simulacoes_dados.R new file mode 100644 index 0000000..c1065c8 --- /dev/null +++ b/exemplos_de_aula/simulacoes_dados.R @@ -0,0 +1,137 @@ +# Dados ------------------------------------------------------------------- + +dados_rolagens <- readRDS("dados/experimento_dado.rds") + +# Fazendo contagens ------------------------------------------------------- + +X <- dados_rolagens$resultado + +table(X) +# é o jeito de contar do R básico + +contagens <- dados_rolagens |> + count(resultado) + +# histograma +dados_rolagens |> + ggplot(aes(x = resultado)) + + geom_bar() + +# média +mean(dados_rolagens$resultado) + +#amplitude +max(dados_rolagens$resultado)-min(dados_rolagens$resultado) + +#desvio absoluto medio +mean(abs(dados_rolagens$resultado-3.51)) + +# simulacoes -------------------------------------------------------------- + +NN <- 100 + +infinitos_dados <- sample( + 1:6, + size = NN, + replace = TRUE, + prob = c(1/6, 1/6, 1/6, 1/6, 1/6, 1/6)) + +hist(infinitos_dados) + +mean(infinitos_dados) + +max(infinitos_dados)-min(infinitos_dados) + +mean(abs(infinitos_dados - mean(infinitos_dados))) + +# dois dados -------------------------------------------------------------- + +BB <- 100000 + +dado1 <- sample( + 1:6, + size = BB, + replace = TRUE, + prob = c(1/6, 1/6, 1/6, 1/6, 1/6, 1/6)) + +dado2 <- sample( + 1:6, + size = BB, + replace = TRUE, + prob = c(1/6, 1/6, 1/6, 1/6, 1/6, 1/6)) + +infinitas_somas <- dado1+dado2 + +hist(infinitas_somas) + +mean(infinitas_somas) + +max(infinitas_somas)-min(infinitas_somas) + +mean(abs(infinitas_somas - mean(infinitas_somas))) + + +# dados forjados ---------------------------------------------------------- + +BB <- 10000000 + +dado1_forjado <- sample( + 1:6, + size = BB, + replace = TRUE, + prob = c(1/6, 1/6, 1/6, 1/6, 1/6-1/7, 1/6+1/7)) + +dado2_forjado <- sample( + 1:6, + size = BB, + replace = TRUE, + prob = c(1/6, 1/6, 1/6, 1/6, 1/6-1/10, 1/6+1/10)) + +infinitas_somas_forjada <- dado1_forjado+dado2_forjado + +hist(infinitas_somas_forjada) + +# distribuicao normal ----------------------------------------------------- + +dados_temperatura <- readRDS("dados/chuvas_A701.rds") + +dados_temperatura |> + ggplot(aes(x = `Tair_mean (c)`)) + + geom_histogram( + bins = 7, + fill = "royalblue", + color = "white" + ) + +media_temperatura <- mean(dados_temperatura$`Tair_mean (c)`) +desv_pad_temperatura <- sd(dados_temperatura$`Tair_mean (c)`) + +media_temperatura +desv_pad_temperatura + +# o que é esperado de um histograma de variavel quantitativa conti -------- + +NN <- 8000000 + +amostra_infinita_de_temperatura <- rnorm( + NN, + media_temperatura, + desv_pad_temperatura) + +hist(amostra_infinita_de_temperatura, breaks = "FD") + +mean(amostra_infinita_de_temperatura) +sd(amostra_infinita_de_temperatura) + +# comparando o observado com uma normal teorica razoavel ------------------ + +hist(dados_temperatura$`Tair_mean (c)`, freq = FALSE) + +dados_ordenados <- sort(dados_temperatura$`Tair_mean (c)`) + +# codigo que vai plotar a normal: +lines( + dados_ordenados, + dnorm(dados_ordenados, media_temperatura, desv_pad_temperatura), + col = 'red') + diff --git a/slides/introducao.Rmd b/slides/introducao.Rmd new file mode 100644 index 0000000..69c6c15 --- /dev/null +++ b/slides/introducao.Rmd @@ -0,0 +1,822 @@ +--- +title: "Introdução | Tipos de variáveis e histogramas" +author: "Fernando Corrêa" +date: "Fevereiro de 2024" +output: + xaringan::moon_reader: + lib_dir: libs + nature: + highlightStyle: github + highlightLines: true + countIncrementalSlides: false +--- + +```{r, include = FALSE} +library(tidyverse) + +chuvas <- readRDS("../dados/chuvas_A701.rds") + +knitr::opts_chunk$set(message = FALSE, warning = FALSE, error = FALSE) +``` + + +# Introdução + +Estatística é uma área do conhecimento que aplica Teoria das Probabilidades para quantificar a **incerteza** sobre qualquer observação do mundo + +-- + +Por **incerteza** devemos entender qualquer variabilidade em observações do mundo + +-- + +Se jogarmos um dado de 6 lados 60 vezes não sabemos com certeza quantas vezes vai dar 1 + +-- + +Estatística nos diz que vai ficar perto de 10 e quão difícil é ficar longe de 10 + +-- + +De maneira simples estatística consiste em aplicar a mesma análise que podemos fazer de um jogo de azar para qualquer situação em que haja incerteza + +--- + +# Situação 1: Rolagem de dados + +**Observação**: jogar dois dados, um branco e um vermelho, e anotar a soma dos resultados + +```{r, echo = FALSE, out.width="70%"} +knitr::include_graphics("../images/dados.jpg") +``` + +--- + +# Situação 2: Medição de temperatura + +**Observação**: Todos os dias das 9h às 18h vamos anotar a temperatura de um daqueles termômetros que ficam na rua. Ao final do dia às 18h vamos fazer a média dos números que vimos e calcular a média. + +```{r, out.width="70%", echo = FALSE} +knitr::include_graphics("../images/termometro.jpg") +``` + +--- + +# Situação 3: Medição de chuva (pluviometria) + +**Observação**: quando chover, deixar um medidor na janela. Quando acabar de chover, anotar quanta água tem no copo. Em várias chuvas diferentes o resultado varia + +```{r, echo = FALSE, out.width="70%"} +knitr::include_graphics("../images/Pluviometro-4.jpg") +``` + +--- +# Variabilidade + +A variabilidade que existe em jogos de azar pode ser descrita matematicamente de maneira muito precisa. + +-- + +Em praticamente todos os outros casos a estatística nos dá ferramentas para descrever matematicamente a variabilidade de observações, mas dificilmente é perfeito. + +-- + +"Todos os modelos estão errados, mas alguns são úteis." - George Box + +--- + +# Estatística e Matemática + +Como vamos ver ao longo do curso, para dizer "como que um experimento varia" a **linguagem matemática** tem algumas vantagens: + +-- + +1. É mais preciso. "52% das vezes os lançamentos dos dados foram maiores do que 4" é mais preciso do que "na maior parte das vezes os dados foram maiores do que 4" + +-- + +2. Expressa mais com menos símbolos + +-- + +**Como assim?** + +-- + +Em português: "a média é dada pela soma dos valores da variável dividido pelo número de observações". + +-- + +Em matematiquês: + +$n$: número de observações +$X = (x_1, x_2, ..., x_n)$: observações + +$$\text{Média}(X) = \frac{x_1+x_2+...+x_n}{n} = \frac{\sum_{i=1}^n x_i}{n}$$ + +--- + +# Estatística e Matemática + +Muita gente não gosta de estatística porque não gosta de matemática + +-- + +O uso principal da matemática por **praticantes** de estatística é fornecer uma **linguagem** + +-- + +Também para que você consiga consumir adequadamente os métodos em geral + +-- + +Quanto mais matemática você souber melhor, o imprescindível é: + +- Ler e construir gráficos +- Álgebra elementar + - Interpretar expressões com letras e números + - Abrir contas na mão +- Conjuntos +- Funções +- Logaritmos + +--- + +# Estatística e Matemática + +Muita gente não gosta de estatística porque não gosta de matemática + +O uso principal da matemática por **praticantes** de estatística é fornecer uma **linguagem** + +Também para que você consiga consumir adequadamente os métodos em geral + +Quanto mais matemática você souber melhor, o imprescindível é: + +- **Ler e construir gráficos** +- **Álgebra elementar** [--MUITO IMPORTANTE!--] + - Intepretar expressões com letras e números + - Abrir contas na mão +- Conjuntos +- Funções +- Logaritmos +- **Pensamento matemático** + +Ao longo do curso vamos treinar as traduções de português para matematiquês no contexto estatístico + +--- + +# Caracterizando a variabilidade + +Toda **coluna** de banco de dados, ou até mesmo conjuntos de banco de dados, variam de um jeito particular + +-- + +Em estatística o nome técnico de um fenômeno observado é **variável** + +-- + +Esse nome se deve ao fato de, por premissa, acreditarmos que podemos observar resultados incertos dentro de determinadas possibilidades + +-- + +**Variáveis**, normalmente representadas nas fórmulas por letras maísculas $X$ e $Y$, assumem valores em um **espaço amostral** + +-- + +**espaço amostral** é o **conjunto** de possibilidades para as minhas medições. Em algumas situações esse conjunto é representado pela letra $\Omega$. No geral não vamos usar essa notação. + +--- + +# Situação 1: Rolagem de dados + +**Observação**: jogar dois dados, um branco e um vermelho, e anotar a soma dos resultados + +-- + +$$X = \text{Resultado do dado branco} + \text{Resultado do dado vermelho}$$ +-- + +**Espaço amostral**: $\{2, 3, 4, 6, 7, 8, 9, 10, 11, 12\}$ + +--- + +# Caracterizando a variabilidade + +Vamos dizer que observamos a seguinte amostra de 100 observações da variável $X$: + +```{r, echo = FALSE} +set.seed(1) + +dados = tibble::tibble( + x = sample(1:6, size = 100, replace = TRUE)+sample(1:6, size = 100, replace = TRUE) +) +``` + +-- + +Normalmente registramos esse tipo de medição em tabelas (exemplo de 10 linhas): + +```{r, echo = FALSE} +dados |> + head() |> + mutate(`Observação` = 1:n(), .before = x) |> + knitr::kable() +``` + +--- + +# Caracterizando a variabilidade + +Contagens são o jeito mais básico de caracterizar a variabilidade de uma variável: + +.pull-left[ +```{r, echo = FALSE, out.width="100%"} +dados |> + ggplot( + aes(x = x) + ) + + geom_bar() + + scale_x_continuous(breaks = seq(2,12)) + + labs(x = "Soma dos dados", y = "Contagem") + + theme_bw(20) +``` +] + +-- + +.pull-right[ +- As colunas representam contagens para cada valor observado de x +] +--- + +# Caracterizando a variabilidade + +Contagens são o jeito mais básico de caracterizar a variabilidade de uma variável: + +.pull-left[ +```{r, echo = FALSE, out.width="100%"} +dados |> + mutate( + total = n() + ) |> + count(total, x) |> + ggplot(aes(x = x, y = n/total)) + + geom_col() + + scale_x_continuous(breaks = seq(2,12)) + + labs(x = "Soma dos dados", y = "Frequencia relativa (Contagem/Total)")+ + theme_bw(20) +``` +] + +.pull-right[ +- As colunas representam contagens para cada valor observado de x + +- Se dividirmos a contagem pelo número de observações (que aqui vale 100), teremos percentuais +] + +--- + +# Caracterizando a variabilidade + +Contagens são o jeito mais básico de caracterizar a variabilidade de uma variável: + +.pull-left[ +```{r, echo = FALSE, out.width="100%"} +dados |> + mutate( + total = n() + ) |> + count(total, x) |> + ggplot(aes(x = x, y = n/total)) + + geom_col() + + scale_x_continuous(breaks = seq(2,12)) + + labs(x = "Soma dos dados", y = "Frequencia relativa (Contagem/Total)")+ + theme_bw(20) +``` +] + +.pull-right[ + +Esse padrão de gráfico (contagem em colunas) é útil e bastante usado porque chama a atenção para pontos importantes da distribuição dos dados no eixo X: + +] + +--- + +# Caracterizando a variabilidade + +Contagens são o jeito mais básico de caracterizar a variabilidade de uma variável: + +.pull-left[ +```{r, echo = FALSE, out.width="100%"} +dados |> + mutate( + total = n() + ) |> + count(total, x) |> + ggplot(aes(x = x, y = n/total)) + + geom_col() + + scale_x_continuous(breaks = seq(2,12)) + + labs(x = "Soma dos dados", y = "Frequencia relativa (Contagem/Total)")+ + theme_bw(20) +``` +] + +.pull-right[ + +Esse padrão de gráfico (contagem em colunas) é útil e bastante usado porque chama a atenção para pontos importantes da distribuição dos dados no eixo X: + +- A rolagem mais frequente é 7 + + +] + +--- + +# Caracterizando a variabilidade + +Contagens são o jeito mais básico de caracterizar a variabilidade de uma variável: + +.pull-left[ +```{r, echo = FALSE, out.width="100%"} +dados |> + mutate( + total = n() + ) |> + count(total, x) |> + ggplot(aes(x = x, y = n/total)) + + geom_col() + + scale_x_continuous(breaks = seq(2,12)) + + labs(x = "Soma dos dados", y = "Frequencia relativa (Contagem/Total)")+ + theme_bw(20) +``` +] + +.pull-right[ + +Esse padrão de gráfico (contagem em colunas) é útil e bastante usado porque chama a atenção para pontos importantes da distribuição dos dados no eixo X: + +- A rolagem mais frequente é 7 + +- A rolagem menos frequente é 12 + +] + +--- + +# Caracterizando a variabilidade + +Contagens são o jeito mais básico de caracterizar a variabilidade de uma variável: + +.pull-left[ +```{r, echo = FALSE, out.width="100%"} +dados |> + mutate( + total = n() + ) |> + count(total, x) |> + ggplot(aes(x = x, y = n/total)) + + geom_col() + + scale_x_continuous(breaks = seq(2,12)) + + labs(x = "Soma dos dados", y = "Frequencia relativa (Contagem/Total)")+ + theme_bw(20) +``` +] + +.pull-right[ + +Esse padrão de gráfico (contagem em colunas) é útil e bastante usado porque chama a atenção para pontos importantes da distribuição dos dados no eixo X: + +- A rolagem mais frequente é 7 + +- A rolagem menos frequente é 12 + +- Mais ou menos 25 rolagens resultaram em 9 ou 20 + +] + +--- + +# Caracterizando a variabilidade + +.pull-left[ +Dados brutos (exemplos): + +```{r, echo = FALSE} +set.seed(1) + +dados |> + mutate(`Observação` = 1:n(), .before = x) |> + sample_n(size = 10) |> + knitr::kable() +``` + +] + +.pull-right[ + +Passo 1: Transformar em contagem + +```{r, echo = FALSE} +dados |> + group_by(x) |> + summarise( + `Frequência` = n() + ) |> + knitr::kable() +``` +] + +--- + +# Situação 2: Medição de temperatura + +**Observação**: coletar a temperatura marcada por um termômetro várias vezes por dia, todo dia e tirar a média. Em vário dias esse valor varia + +-- + +$$C = \text{Média das temperaturas marcadas pelo termômetro}$$ +-- + +Em português: + +$$\text{Espaço amostral: qualquer número real}$$ +-- + +Em matematiquês: + +$$\text{Espaço amostral: }\mathbb{R}$$ + +$\mathbb{R}$ é a notação matemática para representar o conjunto dos números reais, que incluem números positivos, negativos, inteiros, quebrados e números especiais como $\pi$. + +Perceba que aqui o matematiquês não tem a unidade da medição, que é milímetros (mm) + +--- + +# Caracterizando a variabilidade + +O gráfico das contagens foi bem legal, será que a gente consegue usar a mesma ideia para fazer um gráfico da medição da temperatura? + +Vamos dar uma olhada em dados reais de um termômetro especial na estação [A701, em São Paulo Capital](https://tempo.inmet.gov.br/TabelaEstacoes/A701). + +```{r, echo = FALSE} +chuvas |> + head(5) |> + select(Date, `Tair_mean (c)`) |> + knitr::kable() +``` + +-- + +Aqui tem muitos números quebrados, a contagem de cada valor não vai ser uma visualização efetiva + +--- + +# Caracterizando a variabilidade + +.pull-left[ + +```{r, echo = FALSE} +chuvas |> + count(`Tair_mean (c)`) |> + ggplot(aes(x = `Tair_mean (c)`, y = n)) + + geom_col() + + labs(x = "Temperatura C", y = "Contagem") + + theme_bw(20) +``` +] + +.pull-right[ + +- Simplesmente não dá para ver nada! + +- Na verdade conseguimos notar que tem dois dias que a temperatura média foi bem menor que as demais + +] + +--- + +# Caracterizando a variabilidade + +A diferença relevante que fez com que em um caso desse para fazer o gráfico de contagem e no outro não é o tipo de espaço amostral + +-- + +- Na rolagem de dados, o espaço amostral tinha apenas 12 valores, então como temos muito mais dados do que valores o gráfico era útil + +-- + +- No exemplo da temperatura, o espaço amostral tem infinitos valores (ou quase), então será muito comum observar cada valor específico do espaço amostral uma única vez + +-- + +- Para que uma contagem seja útil, e consequentemente o gráfico de barras das contagens, precisamos transformar colocar os números quebrados em faixas + +-- + +- Esse tipo de contagem por faixas é conhecida como **histograma** + +--- + +# Caracterizando a variabilidade | Histogramas + +.pull-left[ +```{r, echo = FALSE} +chuvas |> + ggplot(aes(x = `Tair_mean (c)`)) + + geom_histogram(bins = 5, col = 'white', fill = 'royalblue') + + labs(x = "Temperatura (C)", y = "Contagem") + + theme_bw(20) +``` +] + +.pull-right[ + +Esse gráfico lembra um pouco o gráfico da contagem, mas agora temos colunas que representam faixas de valores da variável + +] + +--- + + +# Caracterizando a variabilidade | Histogramas + +.pull-left[ +```{r, echo = FALSE} +chuvas |> + ggplot(aes(x = `Tair_mean (c)`)) + + geom_histogram(bins = 5, col = 'white', fill = 'royalblue') + + labs(x = "Temperatura (C)", y = "Contagem") + + theme_bw(20) +``` +] + +.pull-right[ + +Esse gráfico lembra um pouco o gráfico da contagem, mas agora temos colunas que representam faixas de valores da variável + +Fora essa diferença, tanto a contagem das rolagens de dados quanto esse histograma tem as mesmas características positivas: + +- Podemos identificar observações pouco frequentes e descoladas das demais + +- Podemos identificar as faixas mais comuns + +] + +--- + +# Tipos de variáveis + +Os histogramas precisaram passar por uma pequena alteração para funcionar quando a variável pode assumir muitos valores + +-- + +Isso se deve ao fato de existirem diferentes **tipos de variáveis** + +-- + +Em estatística todos os métodos tanto para analisar quanto para descrever uma variável são fortemente influenciados pelo tipo de variável + +-- + +Os tipos relevantes para este curso são: + +- **Variáveis qualitativas** + - **Variáveis qualitativas ordinais** +- **Variáveis quantitativas** + - **Variáveis quantitativas discretas** + - **Variáveis quantitativas contínuas** +- **Variáveis mistas** +--- + +# Variáveis quantitativas + +Essas variáveis assumem valores em um **espaço amostral** de números. O que define qual é discreta e qual é contínua é se as variações entre os valores dessa variável possuem uma unidade fixa ou não. Se for fixo trata-se de uma variável **discreta**, se não for fixo é uma variável **contínua** + +-- + +**Como assim?** + +-- + +- O número de televisores numa casa (coletado pelo IBGE) é uma variável **discreta**. + +-- + +- Variam sempre de 1 em 1: 0 televisores, 1 televisor, 2 televisores etc + +-- + +- Contagens em geral são assim + +-- + +- Idade é uma variável **contínua**. A diferença de idade entre duas pessoas não é sempre em anos. A diferença de idade entre crianças pode ser medida em meses, semanas ou até dias + +-- + +- Tudo que tem a ver com dinheiro e tempo costuma ser interpretado como uma variável contínua, porque podemos medir tão quebrado quanto quisermos + +--- + +# Variáveis quantitativas contínuas + +Um outro jeito de interpretar a definição anterior é que essas variáveis assumem valores em um **espaço amostral** infinito ou muito muito grande + +-- + +Um termômetro ou pluviômetro meteorológico é capaz de medir temperaturas muito pequenas, com muitas casas decimais depois da vírgula + +-- + +Variáveis medidas em unidades monetárias, como preços, salários, rendas etc. costumam ser interpretadas como variáveis contínuas também. Na prática não existe dinheiro menor do que centavos, mas duas casas depois da vírgula já é suficiente para fazer sentido "arredondar" + +-- + +**Histogramas** funcionam bem para essas variáveis + +--- + +# Variáveis quantitativas contínuas + +Na prática qualquer instrumento de medição tem um limite de precisão. Com uma régua de 15 cm só conseguimos medir precisamente aproximadamente 150 valores diferentes (5 milímetros a cada centímetro). Do ponto de vista prático, a diferença de verdade está mesmo nessa questão da "unidade fixa". Nessa régua temos duas escalas, centímetros e milímetros + +```{r, out.width="50%", echo = FALSE} +knitr::include_graphics("../images/regua-15-cm.jpg") +``` + +--- + +# Variáveis contínuas discretas + +Se o **espaço amostral** é um conjunto ou subconjunto de números inteiros, dizemos que a variável é uma variável contínua discreta + +-- + +Contagens são variáveis contínuas discretas clássicas. As medições desse tipo de variáveis tem sempre a mesma unidade, 1 de o que quer que você esteja medindo + +-- + +Quantidade de televisores numa casa, número de filhos ou filhas de uma família, número de comentários em uma postagem online etc + +-- + +Em alguns casos o espaço amostral é finito, mas continua sendo uma variável discreta, como por exemplo no caso da rolagem dos dois dados + +-- + +**Histogramas** funcionam bem para essas variáveis + +--- + +# Variáveis qualitativas + +Algumas vezes o espaço amostral não é formado por números, mas simples por categorias gerais, que podem significar qualquer coisa no mundo real + +-- + +Se todo dia anotamos em uma planilha se choveu ou se não choveu, o espaço amostral é composto por + +$$\{\text{Choveu}, \text{Não choveu}\}$$ + +-- + +A cor do carro é uma variável qualitativa: + +$$\{\text{Azul}, \text{Preto}, \text{Vermelho}, \text{Prata}\}$$ + +-- + +Para esse tipo de variável histogramas não funcionam tão bem, pois não é garantido que vai ter uma ordem pertinente para colocarmos no eixo X do gráfico + +Aqui **tabelas de contagem**, também conhecidas como **tabelas de contingência** são mais interessantes + +--- + +# Variáveis mistas + +A nossa situação 3, do pluviometro, pode ser considerada uma variável mista. A interpretação sobre o tipo de uma variável deve ser feita por conveniência e adequabilidade do método a ser usado + +Em muitos dias simplesmente não chove, então os 0s do espaço amostral na verdade podem ser considerados como um valor qualitativo $Não choveu$ + +Uma outra situação em que isso acontece é quando um certo número é codificado como erros, como por exemplo $-9999$ em alguns contextos + +--- + +# Como é construído um histograma? + +Existem vários métodos e eles variam inclusive de país para país. + +-- + +Em R o método padrão tanto no ggplot2 quanto no R básico consiste em construir faixas de mesma largura saindo do mínimo da variável e chegando no máximo + +-- + +O número de faixas no R básico é escolhido automaticamente com base em alguns critérios, sendo o básico construir $1.33+\log(n)$ faixas (arredondado). Traduzindo o detalhe matemático pra português isso quer dizer que o número de faixas é **muito** menor do que $n$ + +-- + +No ggplot o número de faixas é fixo em 30, para te incentivar a mudar essa escolha + +--- + +# Histogramas para comparação + +Um uso conveniente de histogramas é comparar duas distribuições diferentes. + +Digamos que tenhamos dados de pesos de 50 homens e 100 mulheres + +```{r, echo = FALSE} +set.seed(2) +# Data in two numeric vectors +women_weight <- rnorm(100, mean = 70, sd = 10) +men_weight <- rnorm(50, mean = 70, sd = 10) +# Create a data frame +dados_pesos <- bind_rows( + tibble( + wt = women_weight, + genero = "Mulher" + ), + tibble( + wt = men_weight, + genero = "Homem" + ) +) + +dados_pesos |> + sample_n(6) |> + knitr::kable() +``` + +--- + +# Histogramas para comparação + +O que aconteceria se simplesmente fizéssemos um sobreposição dos histogramas? + +.pull-left[ +```{r, echo = FALSE} +dados_pesos |> + ggplot(aes(x = wt, fill = genero)) + + geom_histogram(bins = 4, color = 'white', position = 'identity', alpha = 0.5) + + theme(legend.position = 'bottom') + + labs(x = "Peso (kg)", y = "Contagem") +``` +] + +.pull-right[ + +] +--- + +# Histogramas para comparação + +O que aconteceria se simplesmente fizéssemos um sobreposição dos histogramas? + +.pull-left[ +```{r, echo = FALSE} +dados_pesos |> + ggplot(aes(x = wt, fill = genero)) + + geom_histogram(bins = 4, color = 'white', position = 'identity', alpha = 0.5) + + theme(legend.position = 'bottom') + + labs(x = "Peso (kg)", y = "Contagem") +``` +] + +.pull-right[ + +Parece que o peso dos homens é um pouco maior, mas as contagens das mulheres são maiores porque tem mais + +] + +--- + +# Histogramas para comparação + +O que aconteceria se simplesmente fizéssemos um sobreposição dos histogramas? + +.pull-left[ +```{r, echo = FALSE} +dados_pesos |> + ggplot(aes(x = wt, fill = genero)) + + geom_histogram(bins = 4, aes(y=..density..), + color = 'white', position = 'identity', alpha = 0.5) + + theme(legend.position = 'bottom') + + labs(x = "Peso (kg)", y = "Densidade") +``` +] + +.pull-right[ + +Por isso histogramas muitas vezes mostram a **densidade**, para que comparações sejam possíveis + +A densidade é o valor do eixo dos Ys que faz com que a soma das áreas dos retângulos dê sempre 1 + +Isso torna histogramas de tamanhos amostrais diferentes comparáveis + +Além disso a soma das áreas dos retângulos pode ser interpretado como o percentual de dados naquela faixa + +] + +--- diff --git a/slides/introducao.html b/slides/introducao.html new file mode 100644 index 0000000..33de809 --- /dev/null +++ b/slides/introducao.html @@ -0,0 +1,854 @@ + + + + Introdução | Tipos de variáveis e histogramas + + + + + + + + + + + + + + + + + diff --git a/slides/introducao_files/figure-html/unnamed-chunk-10-1.png b/slides/introducao_files/figure-html/unnamed-chunk-10-1.png new file mode 100644 index 0000000..8e74fb8 Binary files /dev/null and b/slides/introducao_files/figure-html/unnamed-chunk-10-1.png differ diff --git a/slides/introducao_files/figure-html/unnamed-chunk-11-1.png b/slides/introducao_files/figure-html/unnamed-chunk-11-1.png new file mode 100644 index 0000000..8e74fb8 Binary files /dev/null and b/slides/introducao_files/figure-html/unnamed-chunk-11-1.png differ diff --git a/slides/introducao_files/figure-html/unnamed-chunk-12-1.png b/slides/introducao_files/figure-html/unnamed-chunk-12-1.png new file mode 100644 index 0000000..8e74fb8 Binary files /dev/null and b/slides/introducao_files/figure-html/unnamed-chunk-12-1.png differ diff --git a/slides/introducao_files/figure-html/unnamed-chunk-13-1.png b/slides/introducao_files/figure-html/unnamed-chunk-13-1.png new file mode 100644 index 0000000..87a0b91 Binary files /dev/null and b/slides/introducao_files/figure-html/unnamed-chunk-13-1.png differ diff --git a/slides/introducao_files/figure-html/unnamed-chunk-14-1.png b/slides/introducao_files/figure-html/unnamed-chunk-14-1.png new file mode 100644 index 0000000..4fb1fd6 Binary files /dev/null and b/slides/introducao_files/figure-html/unnamed-chunk-14-1.png differ diff --git a/slides/introducao_files/figure-html/unnamed-chunk-15-1.png b/slides/introducao_files/figure-html/unnamed-chunk-15-1.png new file mode 100644 index 0000000..87a0b91 Binary files /dev/null and b/slides/introducao_files/figure-html/unnamed-chunk-15-1.png differ diff --git a/slides/introducao_files/figure-html/unnamed-chunk-16-1.png b/slides/introducao_files/figure-html/unnamed-chunk-16-1.png new file mode 100644 index 0000000..7af79c1 Binary files /dev/null and b/slides/introducao_files/figure-html/unnamed-chunk-16-1.png differ diff --git a/slides/introducao_files/figure-html/unnamed-chunk-17-1.png b/slides/introducao_files/figure-html/unnamed-chunk-17-1.png new file mode 100644 index 0000000..8703636 Binary files /dev/null and b/slides/introducao_files/figure-html/unnamed-chunk-17-1.png differ diff --git a/slides/introducao_files/figure-html/unnamed-chunk-18-1.png b/slides/introducao_files/figure-html/unnamed-chunk-18-1.png new file mode 100644 index 0000000..8703636 Binary files /dev/null and b/slides/introducao_files/figure-html/unnamed-chunk-18-1.png differ diff --git a/slides/introducao_files/figure-html/unnamed-chunk-20-1.png b/slides/introducao_files/figure-html/unnamed-chunk-20-1.png new file mode 100644 index 0000000..cb50f16 Binary files /dev/null and b/slides/introducao_files/figure-html/unnamed-chunk-20-1.png differ diff --git a/slides/introducao_files/figure-html/unnamed-chunk-21-1.png b/slides/introducao_files/figure-html/unnamed-chunk-21-1.png new file mode 100644 index 0000000..21b418a Binary files /dev/null and b/slides/introducao_files/figure-html/unnamed-chunk-21-1.png differ diff --git a/slides/introducao_files/figure-html/unnamed-chunk-22-1.png b/slides/introducao_files/figure-html/unnamed-chunk-22-1.png new file mode 100644 index 0000000..21b418a Binary files /dev/null and b/slides/introducao_files/figure-html/unnamed-chunk-22-1.png differ diff --git a/slides/introducao_files/figure-html/unnamed-chunk-23-1.png b/slides/introducao_files/figure-html/unnamed-chunk-23-1.png new file mode 100644 index 0000000..704c575 Binary files /dev/null and b/slides/introducao_files/figure-html/unnamed-chunk-23-1.png differ diff --git a/slides/introducao_files/figure-html/unnamed-chunk-6-1.png b/slides/introducao_files/figure-html/unnamed-chunk-6-1.png new file mode 100644 index 0000000..79087ca Binary files /dev/null and b/slides/introducao_files/figure-html/unnamed-chunk-6-1.png differ diff --git a/slides/introducao_files/figure-html/unnamed-chunk-7-1.png b/slides/introducao_files/figure-html/unnamed-chunk-7-1.png new file mode 100644 index 0000000..7e5eb85 Binary files /dev/null and b/slides/introducao_files/figure-html/unnamed-chunk-7-1.png differ diff --git a/slides/introducao_files/figure-html/unnamed-chunk-8-1.png b/slides/introducao_files/figure-html/unnamed-chunk-8-1.png new file mode 100644 index 0000000..8e74fb8 Binary files /dev/null and b/slides/introducao_files/figure-html/unnamed-chunk-8-1.png differ diff --git a/slides/introducao_files/figure-html/unnamed-chunk-9-1.png b/slides/introducao_files/figure-html/unnamed-chunk-9-1.png new file mode 100644 index 0000000..8e74fb8 Binary files /dev/null and b/slides/introducao_files/figure-html/unnamed-chunk-9-1.png differ diff --git a/slides/probabilidade.Rmd b/slides/probabilidade.Rmd new file mode 100644 index 0000000..3e82a2a --- /dev/null +++ b/slides/probabilidade.Rmd @@ -0,0 +1,572 @@ +--- +title: "Introdução | Medidas descritivas e Probabilidade" +author: "Fernando Corrêa" +date: "Fevereiro de 2024" +output: + xaringan::moon_reader: + lib_dir: libs + nature: + highlightStyle: github + highlightLines: true + countIncrementalSlides: false +--- + +```{r, include = FALSE} +library(tidyverse) + +chuvas <- readRDS("../dados/chuvas_A701.rds") + +knitr::opts_chunk$set(message = FALSE, warning = FALSE, error = FALSE) +``` + + +# Nas últimas aulas... + +(1) Definição: Estatística é o estudo da incerteza usando probabilidade + +-- + +(1) Incerteza para estatística quer dizer variabilidade + +-- + +(1) Exploramos estatísticas como histogramas, contagens e médias como forma de caracterizar a variabilidade (incerteza) percebida em uma amostra de dados + +-- + +(2) Análises estatísticas comparam observações com a **distribuição amostral** esperada em certos cenários + +-- + +Exemplo: A média de 10 lançamentos de dois dados honestos fica ente 4 e 9 na esmagadora maioria das amostras + +--- + +# Distribuições amostrais + +Na última aula conversamos sobre uma ferramenta muito conveniente e poderosa para descobrir distribuições amostrais: + +-- + + + +--- + +# Estatísticas descritivas + +Algumas estatísticas descritivas são muito tradicionais e úteis + +-- + +A média provavelmente é a rainha das estatísticas descritivas + +-- + +Ela serve essencialmente para duas coisas: + +- Representar um "caso típico" dentro de uma amostra +- Caracterizar a distribuição dos dados por um único número +- Ajudar a calcular totais + +--- + +# Estatísticas descritivas | Média + +Passo-a-passo do cálculo da média: + +-- + +Observações numéricas: + +$x_1, x_2, x_3, x_4 = 1, 2, 4, 3$ + +-- + +1. Somar os valores observados: + +$$\text{Total} = x_1+x_2+x_3+x_4 = 1+2+4+3 = 10$$ + +-- + +2. Contar a quantidade de observações. Aqui temos $4$ + +-- + +3. Calcular a média: dividir o total pelo número de observações: + +$$\text{Média} = \frac{Total}{4} = \frac{10}{4} = 2.5$$ + + +--- + +# Estatísticas descritivas | Média + +Passo-a-passo do cálculo da média (caso geral): + +-- + +Observações numéricas: + +$$x_1, x_2, x_3, x_4, x_5, ..., x_n$$ + +$n$ observações + +-- + +1. Somar os valores observados: + +$$\text{Total} = x_1+x_2+x_3+x_4+...+x_n = \sum_{i=1}^n x_i$$ + +$\sum$ quer dizer "soma para todos os índices i entre 1 e $n$ + +-- + +2. Contar a quantidade de observações. Aqui temos $n$ + +-- + +3. Calcular a média: dividir o total pelo número de observações: + +$$\text{Média} = \frac{Total}{n} = \frac{\sum_{i=1}^n x_i}{n}$$ + +--- + +# Estatísticas descritivas | Média + + +Essa é a fórmula da média. Normalmente escrevemos também outros símbolos para representar esse número como por exemplo: + +$$\text{Média} = \bar{x} = \frac{\sum_{i=1}^n x_i}{n}$$ + +$$\text{Média} = \hat{\mu} = \frac{\sum_{i=1}^n x_i}{n}$$ + +--- +# Média e histograma + +```{r, echo = FALSE} +chuvas |> + ggplot(aes(x = `Tair_mean (c)`)) + + geom_histogram( + bins = 6, + color = 'white', + fill = 'royalblue') + + theme_bw(15) + + labs(x = "Temperatura do Ar", + y = "Contagem") + + scale_x_continuous(breaks = seq(16, 26)) +``` + +--- + +# Média e histograma + +```{r, echo = TRUE, eval = FALSE} +chuvas |> + ggplot(aes(x = `Tair_mean (c)`)) + + geom_histogram( + bins = 6, + color = 'white', + fill = 'royalblue') + + theme_bw(15) + + labs(x = "Temperatura do Ar", + y = "Contagem") + + scale_x_continuous(breaks = seq(16, 26)) +``` +--- + +# Média e histograma + +A média nesse caso vale: 22,3º: + +```{r, echo = FALSE} +chuvas |> + ggplot(aes(x = `Tair_mean (c)`)) + + geom_histogram( + bins = 6, + color = 'white', + fill = 'royalblue') + + theme_bw(15) + + labs(x = "Temperatura do Ar", + y = "Contagem") + + scale_x_continuous(breaks = seq(16, 26)) + + geom_vline( + xintercept = mean(chuvas$`Tair_mean (c)`), + color = 'red', + linetype = 2, + size = 2) +``` + +--- + +# Média e histograma + +A média não necessariamente fica na faixa mais alta do histograma + +-- + +A média é muito impactada pelo modo com que os dados se espalham no eixo X + +-- + +Aqueles dias que fizeram mais frio puxaram a média para baixo, porque o mais frequente é a temperatura do dia estar entre 23 e 24 graus. + +--- + +# Estatísticas descritivas | Medidas de dispersão + +A média por si só não diz quão espalhadas estão as observações, só mais ou menos onde elas se concentram + +-- + +Para ter ideia de "espalhamento" precisamos de alguma medida específica pra isso."Medidas de dispersão" ajudam a enteder esse "espalhamento" + +-- + +As mais comuns são o desvio-padrão e desvio-médio, mas existem muitas medidas + +-- + +Por exemplo, podemos adotar a **amplitude**, que inclusive é fácil de ver no histograma: + +$$\text{Máximo}(x_1, x_2, ..., x_n) - \text{Mínimo}(x_1, x_2, ..., x_n)$$ + +--- + +# Estatísticas descritivas | Medidas de dispersão + +A média pode ser $10$ e a amplitude pode ser qualquer valor: + +-- + +$$\text{Amostra_}1 = \{0, 10, 20\}$$ + +-- + +Total = $20+10+0$ = $30$ + +Média = $30/3 = 10$ + +-- + +Amplitude = $Máximo(\text{Amostra_}1)-Mínimo(\text{Amostra_}2) = 20-0 = 20$ + +-- + +$$\text{Amostra_}2 = \{9, 10, 11\}$$ + +Total = $9+10+11$ = $30$ + +Média = $30/3 = 10$ + +-- + +Amplitude = $Máximo(\text{Amostra_}1)-Mínimo(\text{Amostra_}2) = 11-9 = 2$ + +--- + +# Estatísticas descritivas | Desvio absoluto + +Outra opção para caracterizar o "espalhamento" é uma medida como o **desvio absoluto** + +-- + +A **amplitude** às vezes é muito grande porque existem muitos valores longe da média + +-- + +O **desvio médio** trabalha com a ideia de "qual é a diferença média com relação a média" + +-- + +Ou seja, vão existir valores que se distanciam mais e menos da média do que o desvio médio, mas muitos vão estar perto + +--- + +# Estatísticas descritivas | Desvio absoluto + +Passo-a-passo do cálculo do desvio absoluto: + +-- + +Observações numéricas: + +$x_1, x_2, x_3, x_4 = 1, 2, 4, 3$ + +-- + +1. Calcule a média:: + +$$\text{Média} = \frac{x_1+x_2+x_3+x_4}{4} = \bar{x} = \frac{1+2+4+3}{4} = \frac{10}{4} = 2.5$$ + +-- + +2. Calcular os desvios (com relação a média): + +$$\text{Desvio-}1 = x_1-\bar{x} = 1-2.5 = -1.5$$ +$$\text{Desvio-}2 = x_2-\bar{x} = 2-2.5 = -0.5$$ +$$\text{Desvio-}3 = x_3-\bar{x} = 4-2.5 = 1.5$$ +$$\text{Desvio-}4 = x_4-\bar{x} = 3-2.5 = 0.5$$ + +--- + +# Estatísticas descritivas | Desvio absoluto + +3. Calcule os desvios absolutos: + +$$\text{Desvio-Absoluto-}1 = |x_1-\bar{x}| = |1-2.5| = |-1.5| = 1.5$$ +$$\text{Desvio-Absoluto-}2 = |x_2-\bar{x}| = |2-2.5| = |-0.5| = 0.5$$ +$$\text{Desvio-Absoluto-}3 = |x_3-\bar{x}| = |4-2.5| = |1.5| = 1.5$$ +$$\text{Desvio-Absoluto-}4 = |x_4-\bar{x}| = |3-2.5| = |0.5| = 0.5$$ +-- + +4. Calcule a média dos desvios absolutos (desvio absoluto médio): + +$$\text{Desvio Absoluto Médio} = \frac{1.5+0.5+1.5+0.5}{4} = \frac{4}{4} = 1$$ + +--- + +# Para que caracterizamos a incerteza? + +Até o momento aprendemos a caracterizar um conjunto de observações por: + +-- + +Contagem em geral (tabelas) + +-- + +Histograma + +-- + +Média + +-- + +Amplitude + +-- + +Desvio médio + +--- + +# Para que caracterizamos a incerteza? + +Tudo isso serve para termos coisas para falar quando nos depararmos com uma base de dados, tabela, amostra, experimento etc + +-- + +**Estatísticas** no fundo no fundo são só pequenos resuminhos que fazemos sobre o que acontece nos dados + +-- + +A grande utilidade da estatística está no fato de, em várias situações, sabermos o que devemos esperar sobre essas estatísticas + +--- + +# Avaliando o lançamento de dados + +Vamos voltar ao primeiro exemplo da aula passada, do lançamento dos dois dados: + +```{r, echo = FALSE, out.width="70%"} +knitr::include_graphics("../images/dados.jpg") +``` + +-- + +O que deveríamos esperar sobre esses lançamentos? Médias indo de quanto a quanto? Qual deve ser o formato esperado do histograma? etc + +--- + +# Avaliando o lançamento de dados + +Situações reais são mais ou menos assim: + +-- + +Estou jogando um jogo de tabuleiro e estou achando os resultados dos dados meio estranhos + +-- + +"Só sai 7!" + +-- + +Suspeito que meu amigo esteja usando dados ruins, ou falsos ou qualquer coisa assim + +-- + +Pra tentar usar meus conhecimentos de estatística lanço 10 vezes os dois dados juntos e quero comparar com o "esperado" + +--- + +# Avaliando o lançamento de dados + +"O que deveríamos esperar sobre esses lançamentos?" é uma pergunta muito importante, mas não é a MAIS importante + +-- + +A mais importante, a pergunta chave em TODA análise estatística deve ser: + +-- + +(isso é muito importante, nunca se esqueça disso!!!!) + +-- + +Como os meus dados foram gerados? + +-- + +Responder essa pergunta, sem ser muito técnico num primeiro momento, é **contar uma história** sobre a geração dos dados e construir um diagrama que represente essa história + +--- + +# Avaliando o lançamento de dados + +História: + +1. Lançamos o dado branco e o vermelho ao mesmo tempo, com as duas mãos. + +2. Somamos os dois resultados na variável "Soma". + +-- + +Essa história combina com esse diagrama: + +```{r, echo = FALSE, fig.height=3.5, dpi = 700} +library(dagitty) +library(ggdag) +library(ggplot2) + +dag <- dagify(Soma ~ DV + DB) + +dag |> + ggdag(layout = "kk") + + theme_dag_blank() +``` + +--- + +# Avaliando o lançamento de dados + +```{r, echo = FALSE, fig.height=3.5, dpi = 700} +library(dagitty) +library(ggdag) +library(ggplot2) + +dag <- dagify(Soma ~ DV + DB) + +dag |> + ggdag(layout = "kk") + + theme_dag_blank() +``` + +Não tem flecha de um dado pro outro porque os lançamentos são ao mesmo tempo e sem relação + +-- + +As flechas saem de **DB** e **DV** e apontam para **Soma** pois essa variável é calculada a partir das anteriores + +--- + +# Modelo gerador de dados + +Em posse da **história**, e consequentemente do **diagrama**, o passo seguinte é responder à pergunta "O que deveríamos esperar sobre esses lançamentos?" + +-- + +Existem dois jeitos principais de responder essa pergunta: + +-- + +- Estudar o que a matemática envolvida nos lançamentos de dados + +-- + +(vamos deixar esse para depois) + +-- + +- Simular o nosso banco de dados várias vezes e estudar as características dessa amostra + +--- + +# Modelo gerador de dados + +No geral é mais complicado, mas para o caso do dado podemos simular quantos bancos de dados quisermos: + +-- + +Fisicamente poderíamos pegar um par de dados do nosso jogo de tabuleiro favorito + +-- + +Basta que a gente **confie** que esses dados não privilegiam nenhum número em particular + +-- + +Podemos fazer simulações programando! + +-- + +```{r, eval = FALSE} +dados_vermelho <- sample(1:6, size = 1) + +dados_branco <- sample(1:6, size = 1) +``` + +-- + +```{r} +lancamentos_dados_branco_5x <- sample(1:6, size = 5, replace = TRUE) +``` + +--- + +# Distribuições amostrais + +Finalmente podemos responder à pergunta: + +"O que esperamos que aconteça com as **estatísticas amostrais**?" + +-- + +Essas "expectativas" são o que chamamos de **distribuição amostral** + +-- + +Respostas que podemos obter a partir de simulações: + +-- + +Em uma amostra de tamanho $n=10$ lançamentos + +"Qual % das amostras eu não observo nenhum 6?" + +-- + +"Qual % das amostras eu não observado nenhum 7?" + +-- + +"Qual percentual as amostras eu não observo nenhum 12?" + +--- + +# Distribuições amostrais + +Tudo em estatística se baseia em conhecermos distribuições amostrais + +-- + +Uma pergunta bem importante de tentarmos responder é: + +"Será que a amostra que eu observei é compatível com o esperado?" + +-- + +Em outras palavras: o dado é honesto? + +--- diff --git a/slides/probabilidade.html b/slides/probabilidade.html new file mode 100644 index 0000000..46359f0 --- /dev/null +++ b/slides/probabilidade.html @@ -0,0 +1,678 @@ + + + + Introdução | Medidas descritivas e Probabilidade + + + + + + + + + + + + + + + + + diff --git a/slides/probabilidade_files/figure-html/unnamed-chunk-2-1.png b/slides/probabilidade_files/figure-html/unnamed-chunk-2-1.png new file mode 100644 index 0000000..e9cf105 Binary files /dev/null and b/slides/probabilidade_files/figure-html/unnamed-chunk-2-1.png differ diff --git a/slides/probabilidade_files/figure-html/unnamed-chunk-3-1.png b/slides/probabilidade_files/figure-html/unnamed-chunk-3-1.png new file mode 100644 index 0000000..d931326 Binary files /dev/null and b/slides/probabilidade_files/figure-html/unnamed-chunk-3-1.png differ diff --git a/slides/probabilidade_files/figure-html/unnamed-chunk-4-1.png b/slides/probabilidade_files/figure-html/unnamed-chunk-4-1.png new file mode 100644 index 0000000..ea21c8a Binary files /dev/null and b/slides/probabilidade_files/figure-html/unnamed-chunk-4-1.png differ diff --git a/slides/probabilidade_files/figure-html/unnamed-chunk-6-1.png b/slides/probabilidade_files/figure-html/unnamed-chunk-6-1.png new file mode 100644 index 0000000..40bc122 Binary files /dev/null and b/slides/probabilidade_files/figure-html/unnamed-chunk-6-1.png differ diff --git a/slides/probabilidade_files/figure-html/unnamed-chunk-7-1.png b/slides/probabilidade_files/figure-html/unnamed-chunk-7-1.png new file mode 100644 index 0000000..40bc122 Binary files /dev/null and b/slides/probabilidade_files/figure-html/unnamed-chunk-7-1.png differ