-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathindex.Rmd
681 lines (479 loc) · 20.8 KB
/
index.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
---
title: "Estatística, Ciência de Dados e Sociedade"
date: ' `r icon::fa("user-circle")` [**Prof. Steven Dutt Ross**](https://steven.metodosquantitativos.com/) <br><br> `r icon::fa("chalkboard-teacher")` [**Atividades**](https://atividades.metodosquantitativos.com/) <br> `r icon::fa("user-graduate")` [**Aulas**](https://aulas.metodosquantitativos.com/) <br> `r icon::fa("book-reader")` [**Livro**](https://livro.metodosquantitativos.com/docs/) <br>'
categories: ["Estatística","Ciência de Dados","UNIRIO"]
tags: ["Estatística","Ciência de Dados","UNIRIO"]
output:
xaringan::moon_reader:
lib_dir: libs
nature:
highlightStyle: github
highlightLines: true
ratio: "16:9"
---
```{r setup, include=FALSE}
options(htmltools.dir.version = FALSE)
knitr::opts_chunk$set(cache=TRUE)
knitr::opts_chunk$set(echo = TRUE)
library(highcharter)
library(dplyr)
library(viridis)
library(ggplot2)
```
## Por que usar o R?
<P>1 . O R é a principal ferramenta para estatística e para análise de dados. É mais do que um software estatístico, é uma linguagem de programação.
<P>2. Você pode usá-lo facilmente em qualquer lugar.
<P>3. É grátis. Você pode usa-lo em qualquer empresa, escola, em qualquer local sem ter que convencer o chefe a comprar uma licença.
<P>4. Existem mais de 10.000 pacotes de contribuições de usuários disponíveis no site do R (cran). Muitos pacotes são colocados pelos membros mais proeminentes de seus respectivos campos.
<P>5. R tem uma grande (e crescente) comunidade de usuários. As listas de discussões fornecem acesso a muitos usuários e autores de pacotes que são especialistas em seus campos.
<BR>
<P>OBS - Esses slides foram feitos no R
---
## Por que usar o R?
```{r, echo=FALSE, fig.height=5, fig.width=10}
library(png)
library(grid)
img <- readPNG("C:/Users/Hp/Desktop/R/Apresentacoes/Companies using R.png")
#img <- readPNG("C:/Users/Steven/Google Drive/google maps e R/R Markdown/Slidify/teste 1/teste/Companies using R.png")
grid.raster(img)
#![] (https://1.bp.blogspot.com/-CytixCJHq6w/WGOlcgvciDI/AAAAAAAAFvY/TkNVgC_bA5oEHutbmETCOXnxmzsaOJDzwCLcB/s1600/Companies%2Busing%2BR.png)
#![] (C:/Users/Steven/Google Drive/google maps e R/R Markdown/Slidify/teste 1/teste/Companies using R.png)
#
#<img src="Companies using R.png" width="1000px" height="200px" />
```
<BR>
Outras organizações que utilizam o R: IBGE, FGV, IBOPE, Ministério do planejamento, etc...
---
## Grandes organizações que usam o R
1. Facebook - For behavior analysis related to status updates and profile pictures.
2. Google - For advertising effectiveness and economic forecasting.
3. Twitter - For data visualization and semantic clustering
4. Microsoft - Acquired Revolution R company and use it for a variety of purposes.
5. Uber - For statistical analysis
6. Airbnb - Scale data science.
7. IBM - Joined R Consortium Group
8. ANZ - For credit risk modeling
9. HP
10. Ford
11. Roche
12. New York Times - For data visualization
13. Mckinsey
- [Fonte](http://www.listendata.com/2016/12/companies-using-r.html?m=1)
---
## R nas melhores revistas científicas
```{r, echo=FALSE, fig.height=5, fig.width=10}
library(png)
library(grid)
img11 <- readPNG("C:/Users/Hp/Documents/GitHub/aulaunirio.github.io/R em Revistas Científicas.png")
grid.raster(img11)
```
[Fonte](http://estatisticacomr.com.br/r-nas-revistas-cientificas/)
---
## Análises Desenvolvidas no R
[Transparência](https://duttross.shinyapps.io/transparencia1/)
[Engajamento Orçamentário](https://duttross.shinyapps.io/Engajamento/)
[Mapa da Rocinha](https://dataunirio.github.io/Rocinha/)
[Unirio em números](http://rpubs.com/StevenDuttRoss/unirioemnumeros)
[Gráfico Interativo DATAUNIRIO](https://dataunirio.github.io/streetview/)
[Gráfico Interativo GAE](http://gae.uniriotec.br/4/visualizacao.html)
---
# Minha resposta a afirmação:
# "Não sou você (estatístico), nunca vou conseguir fazer isso"
## Análise Desenvolvida no R pelos(as) alunos()
[Trabalhos dos alunos (as)](https://dataunirio.github.io/Trabalhos_alunos_UNIRIO/)
---
## Entender não basta
Ideia: Quero desenvolver!
```{r, echo=FALSE, fig.height=6, fig.width=8, warning=FALSE, message=FALSE}
library(ggplot2)
library(ggthemes)
df <- read.csv("buzzfeed_linkbait_headlines.csv", header=T)
ggplot(df, aes(x=listicle_size, y=num_fb_shares)) +
geom_point(alpha=0.05, color="#c0392b") +
scale_x_continuous(breaks=seq(0,50, by=5)) +
scale_y_log10(breaks=10^(0:6)) +
geom_hline(yintercept=1, size=0.4, color="black") +
geom_smooth(alpha=0.25, color="black", fill="black") +
labs(x="num de palavras no artigo", y="Num de compartilhamentos no Facebook", title="Facebook vs. tamanho do artigo")
```
###Parece interessante?
---
## Letramento (Literacia) e Numeramento (Numeracia)
"Saber em uso",**saber agir no cotidiano** para resolver situações reais (em oposição ao"saber inerte", **acumulação de conteúdos** sem saber como utilizá-los)
## Aplicação de conceitos
A ênfase será na compreensão e aplicação de conceitos e técnicas, em vez da demonstração de teoremas. O curso é baseado na aplicação prática usando a linguagem computacional R ou Python.
### Sobre o trabalho final da disciplina
Você deve **formular** um problema em seu contexto do mundo real, **planejar** seu trabalho estatístico em detalhes, **resolver** o problema através dos gráficos e estatísticas necessárias, e **concluir**, explicando que suas descobertas dizem sobre o contexto do mundo real (parecer).
---
## Registros e variáveis
Os registros são objetos descritos por um conjunto de dados, podendo ser pessoas, animais, municípios, estados ou objetos.
Uma variável é qualquer característica do registro. Uma variável pode assumir valores diferentes para registros diferentes
---
## Classificação de Variáveis qualitativas e quantitativas
**Variáveis qualitativas** posiciona um registro em um dos diversos grupos ou categorias. Também chamada de **Variável categórica**
**Variáveis quantitativa** assume valores númericos com os quais faz sentido efetuarem-se operações aritméticas, tais como adição e cálculo de médias. Os valores de uma variável quantitativa são usualmente registrados em uma unidade de medida, tal como segundos ou quilogramas.
---
## Variáveis qualitativas e quantitativas
Variável qualitativa **Nominal** não existe hierarquia/ordenação entre as categorias. Exemplos: *sexo, cor, bairro, fumante/não fumante, doente/sadio*.
Variável qualitativa **Ordinal** existe uma hierarquia/ordenação entre as categorias. Exemplos: *escolaridade (1o, 2o, 3o graus), patente militar (soldado, cabo, sargento), avaliação (péssimo, ruim, regular, bom, ótimo)*
Variável quantitativa **Discreta** características mensuráveis que podem assumir apenas um número finito ou infinito contável de valores e, assim, somente fazem sentido valores inteiros. Geralmente são o resultado de contagens. Exemplos: *número de filhos, número de pessoas na família, número de cigarros fumados por dia.*
Variável quantitativa **Contínua** características mensuráveis que assumem valores em uma escala contínua, para as quais valores fracionais fazem sentido. Exemplos: *renda, preço, peso, altura, tempo.*
- [Fonte](http://leg.ufpr.br/~silvia/CE055/node8.html)
---
## O que é um banco de dados
Iris Data: 50 flores de 03 espécies
```{r iris, echo=FALSE}
knitr::kable(head(iris, 10), 'html')
#DT::datatable(
# head(iris, 10),
# fillContainer = FALSE, options = list(pageLength = 5))
```
Cada linha é um registro e cada coluna é um atributo (que chamamos de variável)
---
## Outro exemplo: Swiss Data
Províncias da Suiça
```{r swiss, eval=require('DT'), tidy=FALSE, echo=FALSE}
data("swiss")
DT::datatable(
head(swiss, 10),
fillContainer = FALSE, options = list(pageLength = 5))
#Standardized fertility measure and socio-economic indicators for each of 47 French-speaking provinces of Switzerland at about 1888.
#Fertility Ig, ‘common standardized fertility measure’
#Agriculture % of males involved in agriculture as occupation
#Examination % draftees receiving highest mark on army examination
#Education % education beyond primary school for draftees.
#Catholic % ‘catholic’ (as opposed to ‘protestant’).
#Infant.Mortality live births who live less than 1 year.
```
---
## Outro exemplo: Midwest Data
Informações Demográficas dos municípios do Meio-Oeste
```{r midwest, echo=FALSE}
data(midwest)
dim(midwest)
DT::datatable(
head(midwest, 10),
fillContainer = FALSE, options = list(pageLength = 5))
```
---
## Outro exemplo: Mtcars Data
Performance de carros (10 informações)
```{r, echo=FALSE}
data(mtcars)
knitr::kable(head(mtcars, 10), 'html')
#DT::datatable(
# head(mtcars, 10),
# fillContainer = FALSE, options = list(pageLength = 5))
```
---
## Geralmente acompanhado de um DICIONÁRIO DE DADOS
Por exemplo:
* mpg: Miles/(US) gallon
* cyl: Number of cylinders
* disp: Displacement (cu.in.)
* hp: Gross horsepower
* drat:Rear axle ratio
* wt: Weight (1000 lbs)
* qsec: 1/4 mile time
* vs: V/S
* am: Transmission (0 = automatic, 1 = manual)
* gear: Number of forward gears
* carb: Number of carburetors
---
Por exemplo, esse banco de dados que estamos trabalhando tem 32 carros e 11 variáveis. No R isso pode ser verificado pelo comando dim(mtcars), e names(mtcars)
```{r, echo=TRUE}
dim(mtcars)
names(mtcars)
```
---
## O objetivo é extrair informações de um banco de dados
Por exemplo:
Valor médio das variáveis HP & mpg e tabela dos CyL dos carros desse banco de dados
```{r, echo=FALSE}
mean(mtcars$hp)
mean(mtcars$mpg)
table(mtcars$cyl)
```
---
## Outro modo de fazer isso é por meio de gráficos
```{r, echo=FALSE}
library(ggplot2)
qplot(wt, mpg, data = mtcars)
```
---
## Atribuir um objeto no R
O R é uma linguagem orientada a objetos que permite a manipulação e a análise de dados.
AA <- 5 <br>
BB <- 7 <br>
CC <- AA^2 <br>
DD <-AA+BB <br>
---
## Criando vetores
O comando *c()* pode ser usada para criar vetores de objetos juntando coisas.
```{r vetor}
x <- c(0.3, 0.9, 1.1) ## numerico
y <- c(TRUE, FALSE, FALSE) ## logico
y <- c(T, F, F) ## logico
z <- c("a", "b", "c") ## caracter
w <- 10:20 ## inteiro
k <- c(1+9i, 2+4i, 8+2i) ## complexo
l <- c("red","blue","green") ## cores
```
---
## Data.Frame: O seu banco de dados no R
Podemos utilizar mais informações do que apenas dados de uma mesma classe, como um vetor ou uma matriz. Uma base de dados, em geral, é feita de dados de diversas classes diferentes.
Como guardar informações de diversas classes diferentes? A resposta para isso é o data.frame. Por exemplo, se eu tivesse um departamento de uma empresa com esses funcionarios:
```{r, echo=TRUE}
Funcionarios <- data.frame(nome = c("Marx", "Weber", "Durkheim","Arendt", "Maquiavel"),
sexo = c("M", "M", "M", "F","M"),
salario = c(1000, 1200, 1300, 2000, 500),
stringsAsFactors = FALSE)
Funcionarios
```
---
## Data.Frame: Outro banco de dados
Outro exemplo. Se eu tivesse uma turma desse semestre com esses alunos:
```{r turma, echo=TRUE}
Turma <- data.frame(nome_aluno = c("Jurgen Habermas", "Karl Popper", "John Rawls","Paulo Freire"),
sexo = c("M", "M", "M","M"),
CR = c(6.98, 7.01, 7.03, 8.88), stringsAsFactors = FALSE)
```
```{r turma2, echo=FALSE}
library(DT)
Turma
#datatable(Turma)
```
---
## Data.Frame: Outro banco de dados
Para selecionar colunas em um *data.frame* é utilizado o simbolo $
```{r}
Funcionarios$nome
Turma$nome_aluno
```
---
## Exploração dos dados
1. Inicie pelo exame de cada variável por si mesma. Em seguida, estude as relações entre essas variáveis.
<p>
2. Sugestão: Tente fazer duas ações. 1) Inicie pelo gráfico. 2) Adicione então resumos numéricos (exemplo média, moda, mediana) de aspectos específicos dos dados.
## Distribuição de uma variável
* A Distribuição de uma variável nos diz quais os valores assumidos por ela e qual a frequência com que ela os assume.
* Os valores de uma variável categórica são rótulos para as categorias. A distribuição de uma variável categorica lista as categorias e dá a contagem e o percentual de registros que estão em cada uma delas.
---
background-image: url(http://www.planwallpaper.com/cool-background#static/images/cool-background.jpg)
background-position: 50% 50%
class: center, bottom, inverse
## Distribuição de uma variável quantitativa
---
## Distribuição de uma variável quantitativa
variáveis quantitativas geralmente assumem muitos valores. A distribuição nos diz quais valores ela assume e com qual frequência os assume. O gráfico da distribuição torna-se mais claro se agrupamos valores próximos. O gráfico mais comum da distribuição de uma variável quantitativa é o **histograma**.
```{r hist, echo=FALSE, fig.height=4, fig.width=6}
hist(mtcars$hp, col="red", main = "Histograma do HP")
```
---
## Análise de um histograma
1. Em qualquer gráfico de dados, procure pelo **padrão geral** e por **desvios** notáveis desse padrão.
2. Você pode descrever o padrão geral de um histograma por sua ** forma, centro e dispersão.**
Um tipo importante de desvio é o **outlier** (valor atípico), um valor individual que está fora do padrão geral.
Um histograma interessante pode ser visto [aqui](http://tinlizzie.org/histograms/)
---
## Medida de centro: média, mediana, moda
Relembrando...
A Média é a soma de todos os valores de um conjunto de observações dividido pelo número de observações.
```
```
$$\bar{X}=\frac{1}{n}\sum_{i=1}^nX_i$$
A Mediana (Md) é o ponto no meio de uma distribuição, o número tal que metade das observações é menor que ele e metade , maior.
<p>
A Moda é a observação que mais se repete
---
background-image: url(http://www.planwallpaper.com/cool-background#static/images/cool-background.jpg)
background-position: 50% 50%
class: center, bottom, inverse
## Média, mediana e moda
---
## Medida de centro: média, mediana, moda
Quando a Mediana é melhor do que a média para representar o centro de um conjunto de dados?
Para responder isso, vamos criar dois vetores no R:
<p>
vetor1<- c(1,2,3,4,5)
e
<p> vetor2<- c(1,2,3,4,50000)
---
## Medida de centro: média, mediana, moda
Quando a Mediana é melhor do que a média para representar o centro de um conjunto de dados?
Agora vamos calcular a média e a mediana desses vetores.
```{r mean, echo=TRUE}
vetor1<- c(1,2,3,4,5)
vetor2<- c(1,2,3,4,50000)
mean(vetor1)
mean(vetor2)
median(vetor1)
median(vetor2)
```
---
## Medida de centro: média, mediana, moda
Quando a Mediana é melhor do que a Média para representar o centro de um conjunto de dados?
<p>
A média e a mediana de uma distribuição razoavelmente simétrica estão bem próximas uma da outra. Se a distribuição for exatamente simétrica, a média e a mediana serão exatamente iguais. Em uma distribuição assimétrica, a média está numa posição mais extrema do que a mediana. A média também é mais sensível aos outliers.
---
## Para calcular os quartis
1. Ordene as observações em ordem crescente e localize a mediana.
2. O **primeiro quartil Q1** é a mediana das observações localizadas a esquerda da mediana
3. O **terceiro quartil Q3** é a mediana das observações localizadas a direita da mediana
---
## O resumo dos cinco números
O resumo dos cinco números consiste no menor valor, no primeiro quartil, na mediana, no terceiro quartil e no maior valor. Estes cinco números oferecem uma descrição razoavelmente completa do cento e da dispersão dos dados. No R podemos obter esse resumo com o comando summary( )
```{r quartil, echo=TRUE}
summary(vetor1)
summary(vetor2)
```
---
## O resumo dos cinco números
O resumo dos cinco números para a variável HP do banco de dados Mtcars
```{r quartil1, echo=TRUE}
summary(mtcars$hp)
```
O resumo dos cinco números para a variável MPG do banco de dados Mtcars
```{r quartil2, echo=TRUE}
summary(mtcars$mpg)
```
O resumo dos cinco números para a variável popdensity do banco de dados Midwest
```{r quartil3, echo=TRUE}
summary(midwest$popdensity)
```
---
## Poderíamos representar graficamente o resumo dos cinco números?
---
## Poderíamos representar graficamente o resumo dos cinco números?
### O BOX PLOT
```{r quartil4, echo=FALSE, fig.height=6, fig.width=8}
boxplot(mtcars$hp, col="royalblue")
```
---
background-image: url(http://www.planwallpaper.com/cool-background#static/images/cool-background.jpg)
background-position: 50% 50%
class: center, bottom, inverse
## O Box-Plot e a Amplitude interquartil
---
### O BOX PLOT
O Box-Plot é o gráfico do resumo dos cinco números.
1. A caixa central abarca os quartis Q1 e Q3.
2. Uma linha central marca a mediana.
3. Linhas se estendem da caixa até o menor e o maior valor
---
### O BOX PLOT
A Amplitude interquartil AIQ é a distância entre o primeiro e o terceiro quartil
```{r quartil5, echo=FALSE, fig.height=6, fig.width=8, warning=FALSE, message=FALSE}
a<-rnorm(1000, 50, 10)
b<-rnorm(1000, 50, 30)
c<-rep("a",1000)
d<-rep("b",1000)
e<-data.frame(a,b,c,d)
suppressWarnings(library(reshape))
mdata <- melt(e, id=c("c","d"))
boxplot(mdata$value ~ mdata$variable, col=c("tomato","royalblue"),data=mdata)
```
---
### O BOX PLOT
A Amplitude interquartil - AIQ é a distância entre o primeiro e o terceiro quartil.
```
```
$$AIQ=Q3-Q1$$
### A Regra do 1,5*AIQ
Uma observação é um *outlier* se ela for maior que 1,5*AIQ acima do terceiro quartil (ou menor que o primeiro quartil). No caso do HP:
```
```
$$ Q3+1,5*AIQ = 180+1,5*(180-96,5) = 180 + 125.25 = 305,5 $$
<br>
[Fonte](http://www.purplemath.com/modules/boxwhisk3.htm)
---
background-image: url(http://www.planwallpaper.com/cool-background#static/images/cool-background.jpg)
background-position: 50% 50%
class: center, bottom, inverse
## Medidas de dispersão: Variância e Desvio Padrão
---
## Medidas de dispersão: Variância e Desvio Padrão
Para mostrar a variância e o Desvio Padrão, vamos criar quatro conjuntos de dados hipotéticos
```{r variancia, echo=TRUE}
conjunto1<-c(4,4,4,10,16,16,16)
conjunto2<-c(4,6,8,10,12,14,16)
conjunto3<-c(7,8,9,10,11,12,13)
conjunto4<-c(10,10,10,10,10,10,10)
```
---
## Medidas de dispersão: Variância e Desvio Padrão
```{r variancia2, echo=TRUE}
conjunto1<-c(4,4,4,10,16,16,16)
conjunto2<-c(4,6,8,10,12,14,16)
conjunto3<-c(7,8,9,10,11,12,13)
conjunto4<-c(10,10,10,10,10,10,10)
```
Vamos agora calcular a média desses conjuntos de dados
```{r variancia3, echo=TRUE}
mean(conjunto1)
mean(conjunto2)
mean(conjunto3)
mean(conjunto4)
```
---
## Todos os conjuntos tem a mesma média (mesma medida central).
## Eles são a iguais? Qual a diferença entre eles?
---
## Medidas de dispersão: Variância e Desvio Padrão
Vamos olhar esses conjuntos graficamente. Para isso, vou construir um eixo auxiliar.
```{r variancia4, echo=TRUE, eval=FALSE}
eixo1<-c(1,1,1,1,1,1,1)
eixo2<-c(2,2,2,2,2,2,2)
eixo3<-c(3,3,3,3,3,3,3)
eixo4<-c(4,4,4,4,4,4,4)
plot(conjunto1,eixo1, col="red",ylim=c(0,5),pch=16, main = "Quatro conjuntos de dados",ylab="conjuntos", xlab="valores")
points(conjunto2,eixo2, col="blue",pch=16)
points(conjunto3,eixo3, col="green",pch=16)
points(conjunto4,eixo4, col="black",pch=16)
```
---
## Medidas de dispersão: Variância e Desvio Padrão
```{r variancia5, echo=FALSE}
eixo1<-c(1,1,1,1,1,1,1)
eixo2<-c(2,2,2,2,2,2,2)
eixo3<-c(3,3,3,3,3,3,3)
eixo4<-c(4,4,4,4,4,4,4)
plot(conjunto1,eixo1, col="red",ylim=c(0,5),pch=16, main = "Quatro conjuntos de dados",ylab="conjuntos", xlab="valores",cex=3)
points(conjunto2,eixo2, col="blue",pch=16,cex=3)
points(conjunto3,eixo3, col="green",pch=16,cex=3)
points(conjunto4,eixo4, col="black",pch=16,cex=3)
#variancia populacional $$\sigma^2 = \frac{\sum_{i=1}^{n}(x_i - \mu)^2} {n}$$
```
---
## Medidas de dispersão: Variância e Desvio Padrão
* Os conjuntos de dados são diferentes.
* A dispersão dos pontos é diferente em cada conjunto
* O conjunto 2 tem um espalhamento maior que o conjunto 3.
* O conjunto 1 é aquele em que há maior dispersão em torno da média
---
## Medidas de dispersão: Variância e Desvio Padrão
A medida para mensurar a dispersão dos dados é chamada de variância.
```
```
$$S^2 = \frac{\sum_{i=1}^{n}(x_i - \bar{X})^2} {n-1}$$
---
## Medidas de dispersão: Variância e Desvio Padrão
O Desvio padrão é a raiz quadrada da Variância, ou seja:
$$S = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{X})^2} {n-1}}$$
Ou simplesmente:
$$S = \sqrt{S^2}$$
---
## Medidas de dispersão: Variância e Desvio Padrão
Para fazer o desvio padrão no R você precisa escrever sd(nome do conjunto)
sd = Standard Deviation (Desvio Padrão em inglês)
```{r variancia6, echo=TRUE}
sd(conjunto1)
sd(conjunto2)
sd(conjunto3)
sd(conjunto4)
```
---
\begin{equation}
f(x) = \frac{1}{2\pi\sigma^{2}} e^{-\frac{1}{2 \sigma^{2}} (x - \mu)^{2}}
\end{equation}
---