Apostila de Estatística
Apostila de Estatística
Apostila de Estatística
de
Estatística
2º Semestre/2009
Professora: Janaina Pereira
IFRJ - Instituto Federal de Educação, Ciência e
Tecnologia - Rio de Janeiro
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira
CAPITULO 1
O que é estatística?
- Crítica dos dados: Para verificar possíveis erros por parte dos informantes, por
distração ou má interpretação das perguntas que lhe forem feitas.
2
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira
Quantitativa: Quando seus valores são expressos em números. Podem ser subdivididas
em discretas (assumem valores enumeráveis, números inteiros não-negativos, contagens)
e contínuas (assumem valores num certo intervalo, medições).
3
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira
EXERCÍCIO DE FIXAÇÃO
1) O que é estatística?
2) O que é população?
3) O que é amostra?
4) A Estatística se divide em duas partes. Cite e explique cada uma delas.
5) Quais são as fases do método estatístico?
6) Qual a diferença entre variável qualitativa e quantitativa?
7) Classifique as variáveis em qualitativas, quantitativas contínuas ou quantitativas
discreta.
a) População: Alunos de uma escola.
Variável: Cor da pele ___________________________
b) População: Casais residentes em um bairro.
Variável: Nº de filhos ___________________________
c) População: Jogadas de um dado.
Variável: O ponto obtido em cada jogada______________________
d) População: Peças produzidas por certa máquina.
Variável: Número de peças produzidas por hora_________________
e) População: Aparelho produzido em uma linha de montagem.
Variável: Nº de defeitos por unidade__________________________
f) População: Pessoas residentes em uma cidade.
Variável: Idade ___________________________
g) População: Bolsa de valores de São Paulo.
Variável: Nº de ações negociadas_________________________
h) População: Funcionários de uma empresa.
Variável: Salário ___________________________
i) População: Pregos produzidos por uma máquina.
Variável: Comprimento do prego_________________________
j) População: Casais residentes em uma cidade.
Variável: Sexo dos filhos ___________________________
8) Dizer quais dos seguintes itens representam dados discretos e quais representam dados
contínuos.
4
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira
9) Estabelecer quais dos dados seguintes são discretos e quais são contínuos.
GABARITO
7.
a) QUALITATIVA
b) QUANT. DISCRETA
c) QUANT. DISCRETA
d) QUANT. DISCRETA
e) QUANT. DISCRETA
f) QUANT. CONTÍNUA
g) QUANT. DISCRETA
h) QUANT. DISCRETA
i) QUANT. CONTÍNUA
j) QUALITATIVA
8.
a) CONTÍNUA
b) CONTÍNUA
c) DISCRETA
d) DISCRETA
e) DISCRETA
9.
a) CONTÍNUA
b) CONTÍNUA
c) CONTÍNUA
5
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira
CAPITULO 2
O objetivo da estatística é sintetizar os valores que uma ou mais variáveis podem assumir
e isso ela consegue apresentando esses valores em TABELAS E GRÁFICOS.
TABELAS ESTATÍSTICAS
COLUNA
Produção de café TÍTULO
INDICADORA
Brasil - 1978-82
ANOS
PRODUÇÃO CABEÇALHO
(1.000 T)
1978 2.535 CASA OU CÉLULA
CORPO 1979 2.666
1980 2.122 LINHAS
1981 3.750
1982 2.007
Fonte: IBGE
RODAPÉ
COLUNA NUMÉRICA
SÉRIES ESTATÍSTICAS
2005 51.138
2006 52.223
FONTE: IBGE.
6
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira
DURAÇÃO MÉDIA
DOS ESTUDOS
SUPERIORES 1994
NÚMERO
PAÍSES
DE ANOS
Itália 7,5
Alemanha 7,0
França 7,0
Holanda 5,9
FONTE: APA.
QUANTIDADE
PRODUTOS (em bilhões de
toneladas)
Grãos 20,5
Farelo 14,2
Óleo 2,4
7
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira
GRÁFICOS ESTATÍSTICOS
Sempre que possível a escala vertical deve ser escolhida de modo a aparecer na
A escala horizontal deve ser lida da esquerda para direita e a escala vertical deve
8
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira
REBANHOS BRASILEIROS
BRASIL 1988
Bovinos
Suínos
Ovinos
Caprinos
9
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira
EXERCÍCIO DE FIXAÇÃO
a) Dados referentes à produção de borracha natural nos anos de 1991 (29.243 toneladas),
1992 (30.712 toneladas) e 1993 (40.663 toneladas). Fonte IBGE.
b) Dados referentes à Avicultura Brasileira no ano de 1992 segundo as seguintes espécies:
galinhas (204.160 cabeças), Galos, frangos, frangas e pintos (435.465 cabeças) e
Codornas (2.488 cabeças). Fonte IBGE.
c) Dados referentes ao total de vacinação contra a Poliomilite no ano de 1993 segundo as
seguintes regiões: Norte (211.209), Nordeste (631.040), Sudeste (1.119.708), Sul
(418.785) e Centro-oeste (185.823). Fonte Ministério da saúde.
GABARITO
1.
a) TEMPORAL
b) ESPECÍFICA
c) GEOGRÁFICA
10
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira
CAPITULO 3
Por exemplo:
TABELA 1: ALTURA DOS ALUNOS
166 160 161 150 162 160 165 167 164 160
162 161 168 163 156 173 160 155 164 168
155 152 163 160 155 155 169 151 170 164
154 161 156 172 153 157 156 158 158 161
Observe que os dados não estão organizados. Dessa forma ela recebe o nome de DADOS
BRUTOS.
Obteremos uma segunda ordenação que receberá o nome de ROL (seqüência ordenada
dos dados brutos).
Dessa forma podemos saber com facilidade qual a menor altura (150) e qual a maior
(173); qual a amplitude de variação (173-150=23cm); qual o ponto médio (160+161)/2 =
160,5.
Ainda assim, a variável observada (altura dos alunos) será mais facilmente estudada
quando dispusermos os valores ordenados em uma coluna e ao lado de cada valor o
número de vezes que aparece repetido. Obtemos dessa forma uma tabela que recebe o
nome de DISTRIBUIÇÃO DE FREQÜÊNCIA.
11
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira
Outra solução aceitável e mais conveniente para diminui o tamanho da tabela quando o
número de valores da variável é grande, seria agrupá-los em vários intervalos. Nesse caso
a tabela passa a ser denominada: DISTRIBUIÇÃO DE FREQÜÊNCIA POR
INTERVALO DE CLASSE.
Lê-se: 4 alunos têm altura entre 150 e 154 anos (exclusive) – intervalo fechado à
esquerda.
12
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira
CRITÉRIO DA RAIZ
AT
Amplitude do intervalo de classe que chamaremos de h é determinada por: h , onde
i
AT é a Amplitude Total e i n
Exemplo:
n = 40
Então, i 40 = 6,324, portanto o inteiro mais próximo é 6.
Devemos trabalhar com o inteiro mais próximo da raiz de n, o inteiro imediatamente
anterior e o inteiro imediatamente superior.
Logo, as opções para i são: 5, 6 ou 7.
Então, a amplitude do intervalo de classe (h) é determinada por:
AT L (Max) - l (min) 173 - 150
h 3,833 4
i i 6
13
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira
AT = L(Max) – l(min)
AT
k 24/4 = 6 (6 = Número total de classes)
hi
TIPOS DE FREQÜÊNCIA:
Exemplo:
14
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira
3
F3 f1 f 2 f 3 f i 4 9 11 24 , ou seja, existem 24 alunos com estatura inferior a
i 1
162 cm.
f
i 1
i
Exemplo:
f3 11
fr3 40
0,275
40
f
i 1
i
Fi
Fri k
f
i 1
i
15
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira
F3 24
Fr3 40
0,600
40
f
i 1
i
Polígono de freqüências
Freqüência Simples:
Freqüência Acumulada: As bases dos retângulos vão estar centradas nos pontos médios
das classes.
16
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira
Exemplo:
17
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira
CAPITULO 4
x
i 1
i , onde ( x ) é a média aritmética, ( xi ) os valores da variável e (n) o número
x
n
de valores.
Ex.: Produção leiteira diária da vaca A, durante uma semana, foi de 10, 14, 13, 15, 16, 18
e 12 litros. Qual a produção média da semana.
10 14 13 15 16 18 12 98
x 14litros
7 7
x
i 1
i fi
x n , observe que f i é a freqüência simples de cada variável que neste caso
f
i 1
i
18
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira
Exemplo:
x
i 1
i fi
50
x 4
5
10
f
i 1
i
IDADES fi fixi
2
5
6
8
Total
x
i 1
i fi
x n ,
f
i 1
i
Exemplo:
pm
i 1
i fi
46
x 5
4,6
10
fi 1
i
19
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira
É o valor que ocorre com maior freqüência em uma série de dados. Quando uma série
de dados não apresentar moda chamaremos de AMODAL. Dois valores na série, duas
modas, chamaremos de BIMODAL.
Uma vez agrupado os dados basta fixar o valor da variável de MAIOR freqüência. A
moda nesse caso é 3.
20
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira
A classe que apresentar a maior freqüência é denominada CLASSE MODAL que servirá
de base para os seguintes cálculos:
f pos
a) Moda de KING: Mo l h*
*
f ant f pos
D1
b) Moda de CZUBER: Mo l h*
*
D1 D2
Onde :
l * é o limite inferior da classe modal
f pos é a freqüência simples da classe posterior a classe modal
f ant é a freqüência simples da classe anterior a classe modal
f * é a freqüência simples da classe modal
h * é a amplitude do intervalo da classe modal
D1 f *
f ant
D2 f *
f pos
Resposta.: 50
Observação:
21
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira
2) A moda é uma medida de posição, pois indica a região das máximas freqüências.
É o valor que divide o conjunto de dados ordenados em duas metades, com metade dos
valores acima da mediana e a metade dos valores abaixo dela. Quando o número de
observações (n) é ímpar, a mediana é o valor que ocupa a posição central. Quando n for
par, há duas posições centrais no conjunto, então a mediana é a média aritmética dos dois
valores que ocupam as posições centrais.
2) Se n for par, o rol admite dois termos centrais que ocupam as posições. O de ordem
n n
e 1 , então, a mediana será a média dos valores que ocupam estas posições.
2 2
Exemplos:
Exemplo:
1)
Nº de meninos fi Fi
0 2 2
1 6 8
2 10 18
3 12 30
4 4 34
Total 34 A mediana vai ser a média entre o 17º valor e o 18º
22
valor da série => Md 2 meninos.
2
2)
22
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira
X fi Fi
12 1 1
14 2 3
15 1 4
16 2 6
17 1 7
20 1 8
Total 8
15 16
A mediana será a média entre o 4º e o 5º elemento da série => Md 15,5
2
n
Fant
2
Md l * h*
f*
Onde:
Exemplo:
idade fi Fi total 19
3 |--- 6 2 2 n
Fant
6 |--- 9 5 7 2 h* =
Md l *
9 |--- 12 7 14 f *
12 |--- 15 3 17
9
9,5 7 3
15 |--- 18 2 19 =10,1
7
Salário fi Fi
450 |--- 550 8
23
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira
Observação:
n
No caso de existir uma freqüência acumulada exatamente igual a , a Mediana será o
2
limite superior da classe correspondente.
Por exemplo:
Classes fi Fi
0 |---10 1 1 n
10 |---20 3 4 Fant
2 = 20 13 4 10 =3
20 |---30 9 13 Md l
*
h *
9
f*
30 |---40 7 20 0
40 |---50 4 24
50 |---60 2 26
total 26
Nota:
1) A mediana pode coincidir ou não com um elemento da série. Vimos que, quando
tivermos um número de elementos ímpar na série de dados, há coincidência.
Quanto o número de elementos de uma série é par, na há coincidência.
2) A mediana depende da posição e não dos valores centrais na série ordenada.
3) Usamos a mediana quando desejamos obter o ponto que divide a distribuição em
partes iguais e quando há valores extremos afetando de uma maneira acentuada a
média.
24
(3) SEPARATRIZES
As separatrizes, como o próprio nome sugere são medidas que separam a série em partes
iguais.
QUARTIS: São valores de uma série que a dividem em 4 partes iguais. Assim temos:
Q1 = 1º quartil: Separa a seqüência ordenada deixando 25% dos valores a sua esquerda
e 75% dos valores a sua direita.
Q2 = 2º quartil: Separa a seqüência ordenada deixando 50% dos valores a sua esquerda
e 50% dos valores a sua direita.
Q3 = 3º quartil: Separa a seqüência ordenada deixando 75% dos valores a sua esquerda
e 25% dos valores a sua direita.
Pode-se observar que o 2º quartil e a mediana tem os mesmos valores, pois ambos
dividem uma série ordenada em duas partes iguais.
!---------!---------!---------!---------!
Q1 Q2 Q3
!-------------------!-------------------!
Md
Cálculo do QUARTIL
É o mesmo cálculo de mediana sendo que
n
deve ser substituído por k f i
, onde k é
2 4
o número de ordem do quartil.
k fi
Fant .h *
4
Qk l * *
f
Exemplo:
k
f i
1
12
3
4 4
Q1 = 5
24
Calcule o Q1 e Q3
k
f i
1
40
10 (classe 2) k
f i
3
40
30 (classe4)
4 4 4 4
Q1 154
10 4. 4 156,67 Q3 162
30 24. 4 165
9 8
QUINTIS: Quando dividimos uma série em 5 partes iguais, cada parte ficará com 20%
dos elementos da série. Assim temos:
K1 = 1º quintil – separa a seqüência ordenada deixando 20% dos valores a sua esquerda
e 80% dos valores a sua direita.
K 2 = 2º quintil – separa a seqüência ordenada deixando 40% dos valores a sua esquerda
e 60% dos valores a sua direita.
K 3 = 3º quintil – separa a seqüência ordenada deixando 60% dos valores a sua esquerda
e 40% dos valores a sua direita.
K 4 = 4º quintil – separa a seqüência ordenada deixando 80% dos valores a sua esquerda
e 20% dos valores a sua direita.
!---------!---------!---------!---------!---------!
K1 K2 K3 K4
Cálculo do QUINTIL
25
É o mesmo cálculo de mediana sendo que
n
deve ser substituído por k f i
, onde k é
2 5
o número de ordem do quintil.
k fi
Fant .h *
5
Kk l* *
f
f i 40
k 2 158
16 13. 4 159
k 2 16 (classe 3)
5 5 11
26
DECIS: Quando dividimos uma série em 10 partes iguais, cada parte ficará com 10% dos
elementos da série. Assim temos:
D1 = 1º decil – separa a seqüência ordenada deixando 10% dos valores a sua esquerda e
90% dos valores a sua direita.
D2 = 2º decil – separa a seqüência ordenada deixando 20% dos valores a sua esquerda
e 80% dos valores a sua direita.
D3
= 3º decil – separa a seqüência ordenada deixando 30% dos valores a sua esquerda e
70% dos valores a sua direita.
.
.
.
D8 = 8º decil – separa a seqüência ordenada deixando 80% dos valores a sua esquerda e
20% dos valores a sua direita.
D9 = 9º decil – separa a seqüência ordenada deixando 90% dos valores a sua esquerda e
10% dos valores a sua direita.
!---!---!---!---!---!---!---!---!---!---!
D1 D2 D3 D4 D5 D6 D7 D8 D9
Cálculo do DECIL
deve ser substituído por k i , onde k é
n f
É o mesmo cálculo de mediana sendo que
2 10
o número de ordem do decil.
k fi
Fant .h *
10
Dk l *
f*
Exemplo: Considerando a tabela de distribuição de freqüência por intervalo de classe,
calcule D3.
k
fi 3 40 12 (classe 2)
10 10
D 2 154
12 4. 4 154 3,555 157,55
9
27
Exercício: Uma empresa de aviação observou em seus registros recentes, o tempo de
mão-de-obra gasto na revisão completa de um motor de jato. O seguinte quadro foi
obtido. Calcule o decil de ordem 3. Resposta: 9,44
PERCENTIS ou CENTIL: São valores de uma série que a dividem em 100 partes
iguais. Cada parte ficará com 1% dos elementos da série. Assim temos:
!---!---!---!---!---!---!---!---!---!---!
P10 P20 P30 P40 P50 P60 P70 P80 P90
Cálculo do PERCENTIL
deve ser substituído por k i , onde k é
n f
É o mesmo cálculo de mediana sendo que
2 100
o número de ordem do percentil.
k fi
Fant .h *
100
Pk l * *
f
28
Exemplo: Considerando a tabela de distribuição de freqüência por intervalo de classe,
calcule P8.
f i 40
P8 150
3,2 0. 4 153,2
k 8 3,2 (classe 1)
100 100 4
Podemos notar que os quartis, quintis e decis podem ser expressos em termos dos
precentis.
29
CAPITULO 5:
AT = L (Max) – l (min)
Variância e Desvio Padrão: A variância e o desvio padrão são medidas que levam em
consideração a totalidade dos valores da variável em estudo, o que faz delas índices de
variabilidade bastante estáveis e, por isso mesmo, os mais geralmente empregados.
(x i x) 2
(x i x) 2 fi
(2x ) i 1
ou (2x ) i 1
n
n
f
i 1
i
n 2
5. - Dividir a soma por (n-1) quando se tratar de dados amostrais, ou simplesmente por
n se os dados representam todos os valores de uma população.
30
Sendo a variância calculada a partir dos quadrados dos desvios, ela é um número em
unidade quadrada em relação à variável em questão, o que, sob o ponto de vista prático, é
um inconveniente.
Por isso mesmo, imaginou-se uma nova medida que tem a interpretação prática,
denominada desvio padrão, definida como a raiz quadrada da variância.
Desvio Padrão: ( x ) x2
Observação:
(1) O desvio padrão sempre será positivo!
(2) O desvio padrão de uma série indica o quanto os dados estão afastados da média e,
que se os dados são iguais, o valor da medida é zero.
31
Observamos no exemplo, que a média das provas, foi estimada em 7,32 com desvio
padrão em 1,77. Concluímos que a maioria das notas concentrou-se em 9,09 e 5,55.
Exercício: Calcular a média aritmética e o desvio padrão dos seguintes dados relativos à
dosagem de hemoglobina verificada numa amostra de 12 animais bovinos (mg).
15 14 13 11 13 14 13,5 12 16 14,5 12 9
( x)
O coeficiente de variação: CV ( x ) . É a razão entre o desvio padrão e a média
x
32
CAPITÚLO 6:
DEFINIÇÕES:
EXPERIMENTO ALEATÓRIO: São aqueles que, mesmo repetidos várias vezes sob
condições semelhantes, apresentam resultados imprevisíveis.
Ex.: Em uma jogada de futebol, é provável que seu time: perca; que ele ganha; que ele
empate.
Eventos:
33
Seja S o seu espaço amostral. Se todos os elementos de S tem a mesma chance de
acontecer, então, chamamos de PROBABILIDADE DE UM EVENTO A, A S , o
número real P(A), tal que:
n ( A)
P ( A)
n( S ) , onde n(A) é o número de elementos de A e n(S) é o número de
elementos de S.
1
S= {Ca, Co} n(S) = 2 A = {Ca} n(A) = 1 P(A) =
2
EVENTOS COMPLEMENTARES
1
Considere estas evidências as mais comuns entre pacientes. Suponha também que as evidências acima
sejam exclusivas.
34
EVENTOS MUTUAMENTE EXCLUSIVOS
P(AB) = P(A) + P(B), a probabilidade de que um ou outro se realize é igual a soma das
probabilidades.
EVENTOS INDEPENDENTES
35
Exemplo: Se dois por cento da população apresenta esquizofrenia. A probabilidade de se
encontrar duas pessoas com esquizofrenia ausente é:
Resolução:
P( Esquizofrenia Esquizofrenia) P( Esquizofrenia) P( Esquizofrenia) 0,98 0,98 0,9604
Ou seja, a chance de ambos apresentarem esquizofrenia é de 96,04%.
EVENTOS DEPENDENTES
P ( BeA) P ( B A)
P(B/A) = =
P ( A) P ( A)
SEXO
NACIONALIDADE Total
M F
Brasileiro (B) 20 15 35
Estrangeiro (E) 5 10 15
Total 25 25 50
36
EXERCÍCIO DE FIXAÇÃO
6) Uma urna A contém: 3 bolas brancas, 4 pretas, 2 verdes; Uma urna B contém: 5
bolas brancas, 2 pretas, 1 verde; Uma urna C contém: 2 bolas brancas, 3 pretas e 4
verdes. Uma bola é retirada de cada urna. Qual a probabilidade de as 3 bolas
retiradas da primeira, segunda e terceira urnas serem, respectivamente, branca,
preta e verde?
37
GABARITO
38
CAPÍTULO 07
DISTRIBUIÇÃO DE PROBABILIDADE
Quando conhecemos todos os valores de uma variável aleatória juntamente com suas
respectivas probabilidade, temos uma distribuição de probabilidade.
Os valores denotados 0+
representam probabilidades muito
pequenas;
i 1
39
EXERCÍCIO DE FIXAÇÃO
Resposta: 2 e 1
2)Seja X uma variável aleatória discreta assumido valores no conjunto {1, 2, 3} e com
distribuição de probabilidade dada por:
3)O tempo T, em minutos, necessário para um operário processar certa peça é uma
variável aleatória com a seguinte distribuição de probabilidade:
Vimos que uma variável aleatória associa um valor numérico a cada resultado de um
experimento aleatório e uma distribuição de probabilidade associa uma probabilidade a
cada valor de uma variável aleatória.
Veremos agora como determinar as probabilidades para uma categoria importante de
distribuição de probabilidades: OS EXPERIMENTOS BINOMIAIS.
Os experimentos binomiais têm a característica de apresentarem exatamente dois
resultados complementares: SUCESSO E FRACASSO.
Exemplo: Em processos industriais: as peças falham ou não falham.
Na medicina: um paciente sobrevive ou morre.
Em propaganda, um consumidor reconhece um produto ou não.
Definição:
41
Notação:
p => probabilidade de sucesso
q => probabilidade de fracasso
x => denota um número específico de sucessos em n provas, podendo ser qualquer inteiro
entre 0 e n, inclusive.
P(x) => denota a probabilidade de obter exatamente x sucessos em n provas.
Parâmetros da Distribuição Binomial: X ~ B (n, p )
Cálculo da Probabilidade de uma Distribuição Binomial:
P X x ( nx ). p x .(1 p ) n x
n!
P X x ( nx ). p x .(1 p ) n x C n , x . p x .(1 p ) n x . p x .q n x
( n x)! x!
Para x = 0, 1, 2, .....,n
Exercício:
42
EXERCÍCIO DE FIXAÇÃO
2) Uma firma afirma que 20% de suas pastilhas de chocolate M&M são vermelhas.
Determine a probabilidade de que, em 15 pastilhas M&M escolhidas
aleatoriamente, exatamente 20%, ou seja, 3 pastilhas sejam vermelhas.
Resposta: 0,250
3) Acredita-se que 20% dos moradores das proximidades de uma grande indústria
siderúrgica têm alergia aos poluentes lançados ao ar. Admitindo que este
percentual de alérgicos é real (correto), calcule a probabilidade de que pelo menos
4 moradores tenham alergia entre 13 selecionados ao acaso.
Resposta: 0,252
4) Três em cada quatro alunos de uma universidade fizeram cursinho antes de prestar
vestibular. Se 16 alunos são selecionados ao acaso, qual é a probabilidade de que:
Respostas
a) Pelo menos 12 tenham feito cursinho? (0,6302)
b) No máximo 13 tenham feito cursinho? (0,8029)
c) Exatamente 12 tenham feito cursinho? (0,2252)
43
44
45
46
47
(2) DISTRIBUIÇÃO NORMAL OU GAUSS (contínua)
2
Π (Pi): (≈ 3,14159)
e: (≈ 2,71828).
48
Distribuição Normal Padrão:
Exemplo:
b) P(-1,25<Z<0) =
c) P(0,8<Z<1,23) =
d) P(Z>0,6) =
Obs.: Quando temos uma variável aleatória com distribuição Normal, nosso principal
interesse é obter a probabilidade de essa variável aleatória assumir um valor em um
determinado intervalo.
49
Tabela: Probabilidades da Distribuição Normal
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,000000 0,003989 0,007978 0,011966 0,015953 0,019939 0,023922 0,027903 0,031881 0,035856
0,1 0,039828 0,043795 0,047758 0,051717 0,055670 0,059618 0,063559 0,067495 0,071424 0,075345
0,2 0,079260 0,083166 0,087064 0,090954 0,094835 0,098706 0,102568 0,106420 0,110261 0,114092
0,3 0,117911 0,121720 0,125516 0,129300 0,133072 0,136831 0,140576 0,144309 0,148027 0,151732
0,4 0,155422 0,159097 0,162757 0,166402 0,170031 0,173645 0,177242 0,180822 0,184386 0,187933
0,5 0,191462 0,194974 0,198468 0,201944 0,205401 0,208840 0,212260 0,215661 0,219043 0,222405
0,6 0,225747 0,229069 0,232371 0,235653 0,238914 0,242154 0,245373 0,248571 0,251748 0,254903
0,7 0,258036 0,261148 0,264238 0,267305 0,270350 0,273373 0,276373 0,279350 0,282305 0,285236
0,8 0,288145 0,291030 0,293892 0,296731 0,299546 0,302337 0,305105 0,307850 0,310570 0,313267
0,9 0,315940 0,318589 0,321214 0,323814 0,326391 0,328944 0,331472 0,333977 0,336457 0,338913
1,0 0,341345 0,343752 0,346136 0,348495 0,350830 0,353141 0,355428 0,357690 0,359929 0,362143
1,1 0,364334 0,366500 0,368643 0,370762 0,372857 0,374928 0,376976 0,379000 0,381000 0,382977
1,2 0,384930 0,386861 0,388768 0,390651 0,392512 0,394350 0,396165 0,397958 0,399727 0,401475
1,3 0,403200 0,404902 0,406582 0,408241 0,409877 0,411492 0,413085 0,414657 0,416207 0,417736
1,4 0,419243 0,420730 0,422196 0,423641 0,425066 0,426471 0,427855 0,429219 0,430563 0,431888
1,5 0,433193 0,434478 0,435745 0,436992 0,438220 0,439429 0,440620 0,441792 0,442947 0,444083
1,6 0,445201 0,446301 0,447384 0,448449 0,449497 0,450529 0,451543 0,452540 0,453521 0,454486
1,7 0,455435 0,456367 0,457284 0,458185 0,459070 0,459941 0,460796 0,461636 0,462462 0,463273
1,8 0,464070 0,464852 0,465620 0,466375 0,467116 0,467843 0,468557 0,469258 0,469946 0,470621
1,9 0,471283 0,471933 0,472571 0,473197 0,473810 0,474412 0,475002 0,475581 0,476148 0,476705
2,0 0,477250 0,477784 0,478308 0,478822 0,479325 0,479818 0,480301 0,480774 0,481237 0,481691
2,1 0,482136 0,482571 0,482997 0,483414 0,483823 0,484222 0,484614 0,484997 0,485371 0,485738
2,2 0,486097 0,486447 0,486791 0,487126 0,487455 0,487776 0,488089 0,488396 0,488696 0,488989
2,3 0,489276 0,489556 0,489830 0,490097 0,490358 0,490613 0,490863 0,491106 0,491344 0,491576
2,4 0,491802 0,492024 0,492240 0,492451 0,492656 0,492857 0,493053 0,493244 0,493431 0,493613
2,5 0,493790 0,493963 0,494132 0,494297 0,494457 0,494614 0,494766 0,494915 0,495060 0,495201
2,6 0,495339 0,495473 0,495604 0,495731 0,495855 0,495975 0,496093 0,496207 0,496319 0,496427
2,7 0,496533 0,496636 0,496736 0,496833 0,496928 0,497020 0,497110 0,497197 0,497282 0,497365
2,8 0,497445 0,497523 0,497599 0,497673 0,497744 0,497814 0,497882 0,497948 0,498012 0,498074
2,9 0,498134 0,498193 0,498250 0,498305 0,498359 0,498411 0,498462 0,498511 0,498559 0,498605
3,0 0,498650 0,498694 0,498736 0,498777 0,498817 0,498856 0,498893 0,498930 0,498965 0,498999
3,1 0,499032 0,499065 0,499096 0,499126 0,499155 0,499184 0,499211 0,499238 0,499264 0,499289
3,2 0,499313 0,499336 0,499359 0,499381 0,499402 0,499423 0,499443 0,499462 0,499481 0,499499
3,3 0,499517 0,499534 0,499550 0,499566 0,499581 0,499596 0,499610 0,499624 0,499638 0,499651
3,4 0,499663 0,499675 0,499687 0,499698 0,499709 0,499720 0,499730 0,499740 0,499749 0,499758
3,5 0,499767 0,499776 0,499784 0,499792 0,499800 0,499807 0,499815 0,499822 0,499828 0,499835
3,6 0,499841 0,499847 0,499853 0,499858 0,499864 0,499869 0,499874 0,499879 0,499883 0,499888
3,7 0,499892 0,499896 0,499900 0,499904 0,499908 0,499912 0,499915 0,499918 0,499922 0,499925
3,8 0,499928 0,499931 0,499933 0,499936 0,499938 0,499941 0,499943 0,499946 0,499948 0,499950
3,9 0,499952 0,499954 0,499956 0,499958 0,499959 0,499961 0,499963 0,499964 0,499966 0,499967
4,0 0,499968 0,499970 0,499971 0,499972 0,499973 0,499974 0,499975 0,499976 0,499977 0,499978
50
EXERCÍCIO DE FIXAÇÃO
51
CAPITULO 8
INTRODUÇÃO
(1) CORRELAÇÃO
Definição: Quando duas variáveis estão ligadas por uma relação estatística, dizemos que
existe correlação entre elas.
Por exemplo:
- A circunferência C e o raio r estão perfeitamente correlacionados, porque C 2 r.
- As variáveis altura e peso de indivíduos revelariam alguma correlação.
52
Por exemplo:
Um dos objetivos dos pesquisadores neste estudo é encontrar uma maneira de conhecer o
peso do urso através de uma medida mais fácil de se obter do que a direta (carregar uma
balança para o meio da selva e colocar os ursos em cima dela) como, por exemplo, uma
medida de comprimento (altura, perímetro do tórax, etc.).
O problema estatístico aqui é encontrar uma variável que tenha uma relação forte com o
peso, de modo que, a partir de seu valor medido, possa ser calculado (estimado) o valor
peso indiretamente, através de uma equação matemática.
O primeiro passo para encontrar esta variável é fazer o diagrama de dispersão das
variáveis candidatas (eixo horizontal) versus o peso (eixo vertical), usando os pares de
informações de todos os ursos. Você pode tentar as variáveis: idade, altura, comprimento
da cabeça, largura da cabeça, perímetro do pescoço e perímetro do tórax.
A Figura mostra a relação entre peso e altura e entre peso e perímetro do tórax.
Analisando o gráfico:
1) Podemos ver que, tanto a altura quanto o perímetro do tórax são fortemente associados
ao peso do urso, no sentido de que quanto mais alto o urso ou quanto maior a medida de
seu tórax, mais pesado ele será.
2) Note que este crescimento é linear para o perímetro do tórax e não-linear para a altura.
3) Os pontos estão mais dispersos no gráfico da altura, a variável mais adequada para
estimar o peso é o perímetro do tórax.
53
Observação: A correlação entre duas variáveis pode ser POSITIVA, NULA ou
NEGATIVA.
Gráfico 3 (nula)
Definição: Dado n pares de valores (x1, y1), (x2, y2), ..., (xn, yn), o coeficiente entre as
duas variáveis X e Y é dado pela média dos valores dos produtos padronizados das
variáveis.
n x i y i x i y i
r
n x 2
i
2
x i n y i y i
2 2
Indica o grau de intensidade entre duas variáveis e ainda o sentido dessa correlação
(positivo ou negativo).
Só deve ser utilizado com variáveis contínuas.
A partir dos valores de r, podemos verificar o tipo da correlação existente entre as
variáveis estudadas, conforme tabela seguinte:
Valor de r Correlação
0,0 Nula
0,0 ----| 0,3 Fraca
0,3 ----| 0,6 Media
0,6 ----| 0,9 Forte
0,9 ----| 0,99 Fortíssima
1,0 Perfeita
54
Exemplo: Considerando uma amostra aleatória, formada por dez dos 98 alunos de uma
classe da faculdade A e pelas notas obtidas por eles em Matemática e Estatística:
55
EXERCÍCIO DE FIXAÇÃO
56
(2) REGRESSÃO
Objetivo: A regressão linear simples constitui uma tentativa de estabelecer uma equação
matemática linear (linha reta) que descreva o relacionamento entre duas variáveis.
Para obter uma reta de regressão, n pares de observações das variáveis são utilizados.
Considerando Y como a variável dependente ou variável resposta e, X como a variável
independente ou preditora, a reta de regressão é dada por:
Y = + X + u
Graficamente:
Y + X + u
+ X
X X+1 X
57
O erro é determinado por:
ei yi yˆ i tal que ei yi (a bxi )
x y i i nx y
bˆ i 1
n aˆ y bˆx
x
i 1
2
i nx 2
Exemplo:
Temperatura 30 36 50 54 60 73 78 82 91 95
Potência 38 43 32 26 33 19 27 23 14 21
r 0,882
Podemos concluir que o gráfico se trata de uma correlação retilínea, de modo a permitir o
ajustamento de uma reta, imagem da função Y = + X + u. (se não houvesse uma
correlação significativa, nossa melhor predição da potência do antibiótico seria
y 27,6 ).
58
Então, precisamos calcular os valores dos parâmetros da equação Y â bˆX que é uma
estimativa da verdadeira equação da reta de regressão, onde Y é o estimado.
x y i i nx y
16.320 (10)(64,9)(27,6) 1592,4
bˆ i 1
0,35114
n
46.655 10(64,9) 2 4534,9
x
i 1
2
i nx 2
(Coef. Linear)
Logo,
Y 50,389 0,35114 X
Interpretação da reta de regressão: cada ponto da reta de regressão fornece uma
estimativa do valor médio ou esperado de Y correspondente ao valor X escolhido; O valor
b̂ =-0,35114, que mede a declividade da reta, mostra que, dento da escala da amostra de
X entre 30ºC e 95ºC, quando X aumenta em , digamos 1ºC, a potência estimada do
antibiótico diminui em 0,35ºC. O valor de â 50,389, que é o intercepto da reta, indica o
nível médio da potência do antibiótico quando a temperatura é zero.
Coeficiente
Intercepto 4,3424
Coef. Linear 0,0465
59
Resposta:
Y = variável dependente = quantidade apostada
X = variável independente = freqüência do público
A equação da reta será: Yˆ aˆ bˆX 4,3424 0,0465 X
Assim, o valor apostado quando a freqüência é zero (0) é de 4,3424 mil dólares.
Além disso, para cada 100 pessoas a mais na pista o total apostado subirá em 0,0465.
60
EXERCÍCIO DE FIXAÇÃO
61
r 2 : COEFICIENTE DE DETERMINAÇÃO
( yˆ i y) 2
SQE
r2 i 1
n
SQT
(y
i 1
i y) 2
A variabilidade total (soma dos quadrados total) pode ser calculada como:
n
(y
i 1
i y) 2 .
62
Observação:
y 27,6
n
(y
i 1
i y) 2 720,4
n
( yˆ
i 1
i y) 2 559,02
R2 0,7759
63
EXERCÍCIO DE FIXAÇÃO
Uma amostra de 5 ratos da raça Wistar foi obtida e suas idades (em dias) e pesos (em
gramas) são apresentados na tabela abaixo:
64
Bibliografia
65