Apostila de Estatística

Fazer download em doc, pdf ou txt
Fazer download em doc, pdf ou txt
Você está na página 1de 66

Apostila

de
Estatística

2º Semestre/2009
Professora: Janaina Pereira
IFRJ - Instituto Federal de Educação, Ciência e
Tecnologia - Rio de Janeiro
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira

CAPITULO 1

O que é estatística?

É a ciência que fornece métodos para coleta, organização, descrição, análise e


interpretação dos dados e para utilização dos mesmos na tomada de decisões.

A Estatística trabalha com fenômenos coletivamente típicos, isto é, com fenômenos


ligados a coletividade e que podem ser repetidos.
 Fenômenos determinísticos: Já se conhece a priori o resultado.
Ex.: Preço total a pagar pela aquisição de uma determinada quantidade de um
produto.
 Fenômeno aleatório: Conhecemos todos os possíveis resultados, mas não se sabe
o resultado concreto que irá acontecer.
Ex.: lançamento de um dado honesto.

A estatística se divide em duas partes:

(1) ESTATÍSTICA DESCRITIVA: Responsável pela coleta, organização e descrição


dos dados observados.

(2) ESTATÍSTICA INDUTIVA OU INFERENCIAL: Responsável pela análise e


interpretação dos dados.

A estatística trabalha com fenômenos de natureza aleatória, logo o cálculo das


probabilidades é essencial para o estudo da Estatística indutiva.

Fases do método estatístico:

- Coleta dos dados: Feito através de registros – nascimento, casamento, óbitos,


importação e exportação de mercadoria, banco de dados de empresas, questionários,....

- Crítica dos dados: Para verificar possíveis erros por parte dos informantes, por
distração ou má interpretação das perguntas que lhe forem feitas.

- Exposição ou apresentação dos dados: Tabulação e gráficos.

- Análise dos resultados: Conclusão sobre o todo (POPULAÇÃO) a partir de


informações fornecidas por parte representativa do todo (AMOSTRA).

POPULAÇÃO: é o conjunto de indivíduos ou objetos que apresentam pelo menos uma


característica comum.

AMOSTRA: é um subconjunto finito de uma população.

2
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira

Exemplo: Digamos que a Secretaria Estadual de Educação queira pesquisar o grau de


satisfação dos alunos no que se refere à qualidade da merenda escolar.

População: Alunos da rede estadual.


Amostra: Parte do total de alunos que representa o todo (população).
Variável em estudo: variáveis que possam informar a satisfação dos alunos com a
merenda escolar.

As variáveis podem ser QUANTITATIVAS ou QUALITATIVAS.

Qualitativas: quando seus valores são expressos por atributos.

Exemplos: População: Candidatos a um exame de vestibular.


Variável: sexo (masculino ou feminino).

Quantitativa: Quando seus valores são expressos em números. Podem ser subdivididas
em discretas (assumem valores enumeráveis, números inteiros não-negativos, contagens)
e contínuas (assumem valores num certo intervalo, medições).

Exemplos: População: casais residentes em uma cidade.


Variáveis: Número de filhos (quantitativa discreta)
Idade (quantitativa continua)
Peso dos alunos (quantitativa contínua)

3
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira

EXERCÍCIO DE FIXAÇÃO

1) O que é estatística?
2) O que é população?
3) O que é amostra?
4) A Estatística se divide em duas partes. Cite e explique cada uma delas.
5) Quais são as fases do método estatístico?
6) Qual a diferença entre variável qualitativa e quantitativa?
7) Classifique as variáveis em qualitativas, quantitativas contínuas ou quantitativas
discreta.
a) População: Alunos de uma escola.
Variável: Cor da pele ___________________________
b) População: Casais residentes em um bairro.
Variável: Nº de filhos ___________________________
c) População: Jogadas de um dado.
Variável: O ponto obtido em cada jogada______________________
d) População: Peças produzidas por certa máquina.
Variável: Número de peças produzidas por hora_________________
e) População: Aparelho produzido em uma linha de montagem.
Variável: Nº de defeitos por unidade__________________________
f) População: Pessoas residentes em uma cidade.
Variável: Idade ___________________________
g) População: Bolsa de valores de São Paulo.
Variável: Nº de ações negociadas_________________________
h) População: Funcionários de uma empresa.
Variável: Salário ___________________________
i) População: Pregos produzidos por uma máquina.
Variável: Comprimento do prego_________________________
j) População: Casais residentes em uma cidade.
Variável: Sexo dos filhos ___________________________

8) Dizer quais dos seguintes itens representam dados discretos e quais representam dados
contínuos.

a) Altura de precipitação da chuva em centímetros, de uma cidade durante vários


meses do ano.____________________________
b) Velocidade de um automóvel em km/h._________________________
c) Número de notas de vinte dólares em circulação nos Estados Unidos, em qualquer
época._________________________________
d) Valor total das ações vendidas diariamente na Bolsa de
Valores.______________________
e) Número de estudantes matriculados em uma universidade, em certo número de
anos._____________________________

4
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira

9) Estabelecer quais dos dados seguintes são discretos e quais são contínuos.

a) Temperatura registrada a cada meia hora em um posto de


meteorologia.______________________
b) Vida média das válvulas de televisão produzidas por uma determinada
companhia.___________________________
c) Comprimento de 1000 parafusos produzidos numa fábrica. __________________

GABARITO

7.
a) QUALITATIVA
b) QUANT. DISCRETA
c) QUANT. DISCRETA
d) QUANT. DISCRETA
e) QUANT. DISCRETA
f) QUANT. CONTÍNUA
g) QUANT. DISCRETA
h) QUANT. DISCRETA
i) QUANT. CONTÍNUA
j) QUALITATIVA

8.
a) CONTÍNUA
b) CONTÍNUA
c) DISCRETA
d) DISCRETA
e) DISCRETA

9.
a) CONTÍNUA
b) CONTÍNUA
c) CONTÍNUA

5
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira

CAPITULO 2

O objetivo da estatística é sintetizar os valores que uma ou mais variáveis podem assumir
e isso ela consegue apresentando esses valores em TABELAS E GRÁFICOS.

TABELAS ESTATÍSTICAS

 TABELA É UM QUADRO QUE RESUME UM CONJUNTO DE


OBSERVAÇÕES

COLUNA
Produção de café TÍTULO
INDICADORA
Brasil - 1978-82
ANOS
PRODUÇÃO CABEÇALHO
(1.000 T)
1978 2.535 CASA OU CÉLULA
CORPO 1979 2.666
1980 2.122 LINHAS
1981 3.750
1982 2.007
Fonte: IBGE
RODAPÉ
COLUNA NUMÉRICA

SÉRIES ESTATÍSTICAS

Definição: Série Estatística é toda tabela que apresenta a distribuição de um conjunto de


dados em função da época, do local ou da espécie.

Classificação das Séries Estatísticas:

 SÉRIE HISTÓRICA, CRONOLÓGICA, TEMPORAIS: Descrevem valores


da variável, em determinado local, discriminados segundo intervalos de tempo.
(OS DADOS VARIAM COM O TEMPO).

PRODUÇÃO MEDIA DE SOJA NO


BRASIL - 2005-2006

ANOS PRODUÇÃO (1.000 t)

2005 51.138
2006 52.223

FONTE: IBGE.

6
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira

 SÉRIES GEOGRÁFICAS, ESPACIAIS, TERRITORIAIS OU DE


LOCALIZAÇÃO: Descrevem valores da variável, em determinado instante,
discriminados segundo regiões. (OS DADOS VARIAM NO LOCAL).

DURAÇÃO MÉDIA
DOS ESTUDOS
SUPERIORES 1994

NÚMERO
PAÍSES
DE ANOS

Itália 7,5
Alemanha 7,0
França 7,0
Holanda 5,9

FONTE: APA.

 SÉRIES ESPECÍFICAS OU CATEGÓRICAS: Descrevem valores da variável


em determinado tempo e local, discriminados segundo especificações e categorias
(OS DADOS VARIAM DE ACORDO COM A ESPÉCIE OU QUALIDADE DO
FENÔMENO).
EXPORTAÇÃO
BRASILEIRA2005

QUANTIDADE
PRODUTOS (em bilhões de
toneladas)

Grãos 20,5
Farelo 14,2
Óleo 2,4

FONTE: Companhia Nacional de


Abastecimento (Conab).

 SÉRIES CONJUGADAS, TABELAS DE DUPLA ENTRADA: Quando


precisamos apresentar em uma única tabela a variação de valores de mais de uma
variável (OS DADOS SÃO RELATIVOS A 2 OU 3 ASPECTOS
SIMULTANEAMENTE).

7
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira

GRÁFICOS ESTATÍSTICOS

O gráfico estatístico é uma forma de apresentar os dados estatísticos, com o objetivo de


mostrar uma impressão mais rápida do fenômeno em estudo, com simplicidade, clareza e
veracidade.

 Títulos completos e o mais claro possível;

 Sempre que possível a escala vertical deve ser escolhida de modo a aparecer na

linha o valor zero;

 A escala horizontal deve ser lida da esquerda para direita e a escala vertical deve

ser lida de baixo para cima.

Tipos mais comuns de gráficos:

 Gráfico em colunas ou em barras

8
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira

 Gráfico de linhas ou em curva

 Gráfico em setores ou de pizza:


Rebanhos Brasileiros
Brasil - 1988
Espécie Quantidades
(milhões de cabeças)
Bovinos 140
Suínos 32
Ovinos 20
Caprinos 11
Total 203
Fonte: IBGE

REBANHOS BRASILEIROS
BRASIL 1988

Bovinos
Suínos
Ovinos
Caprinos

9
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira

EXERCÍCIO DE FIXAÇÃO

1) Construa as tabelas referentes aos dados pesquisados e classifique-as:

a) Dados referentes à produção de borracha natural nos anos de 1991 (29.243 toneladas),
1992 (30.712 toneladas) e 1993 (40.663 toneladas). Fonte IBGE.
b) Dados referentes à Avicultura Brasileira no ano de 1992 segundo as seguintes espécies:
galinhas (204.160 cabeças), Galos, frangos, frangas e pintos (435.465 cabeças) e
Codornas (2.488 cabeças). Fonte IBGE.
c) Dados referentes ao total de vacinação contra a Poliomilite no ano de 1993 segundo as
seguintes regiões: Norte (211.209), Nordeste (631.040), Sudeste (1.119.708), Sul
(418.785) e Centro-oeste (185.823). Fonte Ministério da saúde.

GABARITO

1.
a) TEMPORAL
b) ESPECÍFICA
c) GEOGRÁFICA

10
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira

CAPITULO 3

Após a coleta de dados relativos a um determinado fenômeno em estudo, que compõem


uma amostra, obtemos um conjunto de dados que será tabulado.

Por exemplo:
TABELA 1: ALTURA DOS ALUNOS
166 160 161 150 162 160 165 167 164 160
162 161 168 163 156 173 160 155 164 168
155 152 163 160 155 155 169 151 170 164
154 161 156 172 153 157 156 158 158 161

Observe que os dados não estão organizados. Dessa forma ela recebe o nome de DADOS
BRUTOS.

Precisamos organizar os dados através de uma ordenação crescente ou decrescente.

TABELA 2: ALTURA DOS ALUNOS


150 154 155 157 160 161 162 164 166 169
151 155 156 158 160 161 162 164 167 170
152 155 156 158 160 161 162 164 168 172
153 155 156 160 160 161 162 164 168 173

Obteremos uma segunda ordenação que receberá o nome de ROL (seqüência ordenada
dos dados brutos).

Dessa forma podemos saber com facilidade qual a menor altura (150) e qual a maior
(173); qual a amplitude de variação (173-150=23cm); qual o ponto médio (160+161)/2 =
160,5.

Ainda assim, a variável observada (altura dos alunos) será mais facilmente estudada
quando dispusermos os valores ordenados em uma coluna e ao lado de cada valor o
número de vezes que aparece repetido. Obtemos dessa forma uma tabela que recebe o
nome de DISTRIBUIÇÃO DE FREQÜÊNCIA.

11
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira

Outra solução aceitável e mais conveniente para diminui o tamanho da tabela quando o
número de valores da variável é grande, seria agrupá-los em vários intervalos. Nesse caso
a tabela passa a ser denominada: DISTRIBUIÇÃO DE FREQÜÊNCIA POR
INTERVALO DE CLASSE.

Lê-se: 4 alunos têm altura entre 150 e 154 anos (exclusive) – intervalo fechado à
esquerda.

12
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira

Critério para calcular o número de classes a ser utilizado.


Observação: Não é obrigatório! O bom senso também funciona.

CRITÉRIO DA RAIZ

Se a seqüência estatística contém n elementos e se indicarmos por i o número de classes a


ser utilizado, então:

i n Onde n = número total de observações.

AT
Amplitude do intervalo de classe que chamaremos de h é determinada por: h  , onde
i
AT é a Amplitude Total e i n

Exemplo:
n = 40
Então, i 40 = 6,324, portanto o inteiro mais próximo é 6.
Devemos trabalhar com o inteiro mais próximo da raiz de n, o inteiro imediatamente
anterior e o inteiro imediatamente superior.
Logo, as opções para i são: 5, 6 ou 7.
Então, a amplitude do intervalo de classe (h) é determinada por:
AT L (Max) - l (min) 173 - 150
h    3,833  4
i i 6

ELEMENTOS DE UMA DISTRIBUIÇÃO DE FREQÜÊNCIA.

(1) CLASSE (i): São intervalos de variação da variável.

Ex.: Intervalo 150 a 154 define a 1ª classe (i=1),


i = 1, 2, 3,......, k
i = classe
k = número total de classes.

(2) LIMITES DE CLASSE: São os extremos de cada classe.


l i = Limite inferior Li = Limite superior

Ex.: Na primeira classe: l i = 150 e Li = 154.

13
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira

(3) AMPLITUDE DE UM INTERVALO DE CLASSE ( hi ): É a medida do intervalo


que define a classe. Diferença entre o limite superior e inferior da classe.

Ex.: Na primeira classe: l i = 150 e Li = 154.


hi = Li – l i = 154 – 150 = 4 cm.

(4) AMPLITUDE TOTAL DA DISTRIBUIÇÃO (AT): É a diferença entre o Limite


superior da ultima classe e o Limite inferior da primeira classe.

AT = L(Max) – l(min)

Ex.: 174 – 150 = 24 cm

Observe que quando as classes possuem o mesmo intervalo vale a relação:

AT
k 24/4 = 6 (6 = Número total de classes)
hi

(5) PONTO MÉDIO DE UMA CLASSE ( pm i ): É o ponto que divide o intervalo de


classe em duas partes iguais.

Ex.: Classe 1: (150 + 154)/2 = 152 cm

TIPOS DE FREQÜÊNCIA:

(1) FREQÜÊNCIA SIMPLES OU ABSOLUTA ( f i ): É o número de observações


correspondentes a classe ou a um valor.
Exemplo:

f 1 = 4 => freqüência da classe 1 e f 2 = 9 => freqüência da classe 2.


k
A soma de todas as freqüências será: f
i 1
i  n , n = número total de observações.

(2) FREQÜÊNCIA ACUMULADA ( Fi ): É o total das freqüências de todos os valores


inferiores ao limite superior do intervalo de classe.
k
Fi  f1  f 2  .....  f k   f i
i 1

Exemplo:

14
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira

3
F3  f1  f 2  f 3   f i  4  9  11  24 , ou seja, existem 24 alunos com estatura inferior a
i 1
162 cm.

(3) FREQÜÊNCIA RELATIVA ( fri ): É a razões entre a freqüência simples a


freqüência total.
fi
fri  k

f
i 1
i

Exemplo:

f3 11
fr3  40
  0,275
40
f
i 1
i

(4) FREQÜÊNCIA ACUMULADA RELATIVA ( Fri ): É a freqüência acumulada da


classe dividida pela freqüência total da distribuição.

Fi
Fri  k

f
i 1
i

15
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira

F3 24
Fr3  40
  0,600
40
f
i 1
i

REPRESENTAÇÃO GRÁFICA DE UMA DISTRIBUIÇÃO DE FREQÜÊNCIA.


Histograma
 Consiste em um conjunto de retângulos, tantos quantos forem às classes de uma
distribuição.
 As classes são as bases dos retângulos (tantas partes quantas forem às classes)
 A escala para marcação dos pontos no eixo Y corresponde às freqüências.
Exemplo:

Polígono de freqüências

Freqüência Simples:

Freqüência Acumulada: As bases dos retângulos vão estar centradas nos pontos médios
das classes.

16
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira

Exemplo:

17
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira

CAPITULO 4

MEDIDAS DE POSIÇÃO: MÉDIA, MODA e MEDIANA;

O estudo sobre a Distribuição de Freqüência permitiu descrever, de um modo geral, os


valores que uma variável pode assumir. Agora precisamos de um “indicativo”
generalizado.
O modo mais comum de se obter esse tipo de informação é através das MEDIDAS DE
POSIÇÃO, estatística que representa à posição relativa da distribuição em relação ao eixo
horizontal.
As medidas de posição mais importantes são as MEDIDAS DE TENDÊNCIA
CENTRAL – recebem esse nome pelo fato dos dados observados, em geral, se agruparem
em torno dos valores centrais.

São elas: MÉDIA ARITMÉTICA, MODA, MEDIANA, SEPARATRIZES, QUARTIS e


PERCENTIS.

Essas medidas quando bem interpretadas, podem fornecer-nos informações muito


valiosas com respeito às séries estatísticas, ou seja, com estas medidas tenta-se encontrar
um valor numérico que represente o comportamento típico da serei em estudo.

(1) MÉDIA ARITMÉTICA SIMPLES ( x )

MÉDIA PARA DADOS NÃO AGRUPADOS (dados brutos ou rol): Quando


desejamos conhecer a média dos dados não agrupados, determinamos a média
aritmética simples.
n

x
i 1
i , onde ( x ) é a média aritmética, ( xi ) os valores da variável e (n) o número
x
n
de valores.

Ex.: Produção leiteira diária da vaca A, durante uma semana, foi de 10, 14, 13, 15, 16, 18
e 12 litros. Qual a produção média da semana.

10  14  13  15  16  18  12 98
x   14litros
7 7

MÉDIA PARA DADOS AGRUPADOS SEM INTERVALO DE CLASSE.


n

x
i 1
i fi
x n , observe que f i é a freqüência simples de cada variável que neste caso
f
i 1
i

funciona como fator de ponderação (MÉDIA ARITMÉTICA PONDERADA).

18
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira

Exemplo:

x
i 1
i fi
50
x 4
 5
10
f
i 1
i

Exercício: Calcule a Média.

Variável estudada X(idade): 2, 5, 5, 5, 5, 6, 6, 6, 8, 8 Resposta: 5,6

IDADES fi fixi
2
5
6
8
Total

MÉDIA PARA DADOS AGRUPADOS COM INTERVALO DE CLASSE.


n

x
i 1
i fi
x n ,
f
i 1
i

( pmi ) é o ponto médio de cada intervalo de classe.


( f i ) a freqüência simples de cada intervalo de classe.

Exemplo:

 pm
i 1
i fi
46
x 5
  4,6
10
fi 1
i

19
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira

Exercício: Resposta: 161 cm

(2) MODA (Mo)

É o valor que ocorre com maior freqüência em uma série de dados. Quando uma série
de dados não apresentar moda chamaremos de AMODAL. Dois valores na série, duas
modas, chamaremos de BIMODAL.

MODA PARA DADOS NÃO AGRUPADOS (dados brutos ou rol)


Exemplo:

MODA PARA DADOS AGRUPADOS SEM INTERVALO DE CLASSE.

Basta verificar o valor da variável de maior freqüência.

Uma vez agrupado os dados basta fixar o valor da variável de MAIOR freqüência. A
moda nesse caso é 3.

20
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira

Exercício: Qual a moda e o tipo para os dados agrupados em freqüência:

DADOS AGRUPADOS COM INTERVALO DE CLASSE.

A classe que apresentar a maior freqüência é denominada CLASSE MODAL que servirá
de base para os seguintes cálculos:

f pos
a) Moda de KING: Mo  l   h*
*

f ant  f pos

D1
b) Moda de CZUBER: Mo  l   h*
*

D1  D2

Onde :
l * é o limite inferior da classe modal
f pos é a freqüência simples da classe posterior a classe modal
f ant é a freqüência simples da classe anterior a classe modal
f * é a freqüência simples da classe modal
h * é a amplitude do intervalo da classe modal
D1  f *
 f ant
D2  f *
 f pos

Exercício: Calcule a moda utilizando os dois métodos

Resposta.: 50

Observação:

21
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira

1) A moda é utilizada quando desejamos obter uma medida rápida e aproximada de


posição ou quando o valor da distribuição deve ser o valor mais típico da distribuição.

2) A moda é uma medida de posição, pois indica a região das máximas freqüências.

(3) MEDIANA (Md)

É o valor que divide o conjunto de dados ordenados em duas metades, com metade dos
valores acima da mediana e a metade dos valores abaixo dela. Quando o número de
observações (n) é ímpar, a mediana é o valor que ocupa a posição central. Quando n for
par, há duas posições centrais no conjunto, então a mediana é a média aritmética dos dois
valores que ocupam as posições centrais.

MEDIANA PARA DADOS AGRUPADOS SEM INTERVALO DE CLASSE.



 n 1
1) Se n for ímpar (n=número de observações), o valor mediano será o de ordem   ,
 2 
ou seja, o valor do elemento que ocupa está posição será a mediana.

2) Se n for par, o rol admite dois termos centrais que ocupam as posições. O de ordem
 
n n 
  e   1 , então, a mediana será a média dos valores que ocupam estas posições.
2 2 

Exemplos:

Exemplo:
1)
Nº de meninos fi Fi
0 2 2
1 6 8
2 10 18
3 12 30
4 4 34
Total 34 A mediana vai ser a média entre o 17º valor e o 18º
22
valor da série => Md   2 meninos.
2

2)

22
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira

X fi Fi
12 1 1
14 2 3
15 1 4
16 2 6
17 1 7
20 1 8
Total 8
15  16
A mediana será a média entre o 4º e o 5º elemento da série => Md   15,5
2

Exercícios: Calcule a mediana. Resposta: 8

MEDIANA PARA DADOS AGRUPADOS COM INTERVALO DE CLASSE.

n 
  Fant 
 2 
Md  l *   h*
f*
Onde:

l * é o limite inferior da classe mediana


n
é a posição da mediana na série
2
Fant é a freqüência acumulada da classe anterior à classe mediana
f * é a freqüência simples da classe mediana
h * é a amplitude do intervalo de classe que contém a mediana

Exemplo:
idade fi Fi total 19
3 |--- 6 2 2 n 
  Fant 
6 |--- 9 5 7 2   h* =
Md  l *  
9 |--- 12 7 14 f *

12 |--- 15 3 17
 9
 9,5  7   3
15 |--- 18 2 19 =10,1
7

Exercício: Calcule a mediana para o caso da distribuição de freqüência abaixo:

Salário fi Fi
450 |--- 550 8
23
IFRJ – Instituto Federal de Educação, Ciência e Tecnologia – Rio de Janeiro
Professora: Janaina Pereira

550 |--- 650 10


650 |--- 750 11
750 |--- 850 16
850 |--- 950 13
950 |--- 1.050 5
1.050 |-- 1.150 1
total 64

Observação:
n
No caso de existir uma freqüência acumulada exatamente igual a , a Mediana será o
2
limite superior da classe correspondente.

Por exemplo:

Classes fi Fi
0 |---10 1 1 n 
10 |---20 3 4   Fant 
 2  =  20  13  4  10 =3
20 |---30 9 13 Md  l 
*
h *
9
f*
30 |---40 7 20 0
40 |---50 4 24
50 |---60 2 26
total 26

Nota:

1) A mediana pode coincidir ou não com um elemento da série. Vimos que, quando
tivermos um número de elementos ímpar na série de dados, há coincidência.
Quanto o número de elementos de uma série é par, na há coincidência.
2) A mediana depende da posição e não dos valores centrais na série ordenada.
3) Usamos a mediana quando desejamos obter o ponto que divide a distribuição em
partes iguais e quando há valores extremos afetando de uma maneira acentuada a
média.

24
(3) SEPARATRIZES

As separatrizes, como o próprio nome sugere são medidas que separam a série em partes
iguais.

QUARTIS: São valores de uma série que a dividem em 4 partes iguais. Assim temos:

Q1 = 1º quartil: Separa a seqüência ordenada deixando 25% dos valores a sua esquerda
e 75% dos valores a sua direita.

Q2 = 2º quartil: Separa a seqüência ordenada deixando 50% dos valores a sua esquerda
e 50% dos valores a sua direita.

Q3 = 3º quartil: Separa a seqüência ordenada deixando 75% dos valores a sua esquerda
e 25% dos valores a sua direita.

Pode-se observar que o 2º quartil e a mediana tem os mesmos valores, pois ambos
dividem uma série ordenada em duas partes iguais.

!---------!---------!---------!---------!
Q1 Q2 Q3
!-------------------!-------------------!
Md
Cálculo do QUARTIL
É o mesmo cálculo de mediana sendo que
n
deve ser substituído por k f i
, onde k é
2 4
o número de ordem do quartil.

 k fi 
  Fant .h *
 4 
Qk  l *   *
f

Exemplo:

1. Calcule o Q1 da seqüência X: 2, 5, 8, 5, 5, 10, 1, 12, 12, 11, 13, 15.

Ordenar a série: X: 1, 2, 5, 5, 5, 8, 10, 11, 13, 15

k
f i
1
12
3
4 4

Q1 = 5

24
Calcule o Q1 e Q3

k
f i
1
40
 10 (classe 2) k
f i
3
40
 30 (classe4)
4 4 4 4

Q1  154 
10  4. 4  156,67 Q3  162 
 30  24. 4  165
9 8

Exercício: Para os dados agrupados em freqüência, encontre o primeiro e segundo quartil.


Resposta: 4 e 6

QUINTIS: Quando dividimos uma série em 5 partes iguais, cada parte ficará com 20%
dos elementos da série. Assim temos:

K1 = 1º quintil – separa a seqüência ordenada deixando 20% dos valores a sua esquerda
e 80% dos valores a sua direita.

K 2 = 2º quintil – separa a seqüência ordenada deixando 40% dos valores a sua esquerda
e 60% dos valores a sua direita.

K 3 = 3º quintil – separa a seqüência ordenada deixando 60% dos valores a sua esquerda
e 40% dos valores a sua direita.

K 4 = 4º quintil – separa a seqüência ordenada deixando 80% dos valores a sua esquerda
e 20% dos valores a sua direita.

!---------!---------!---------!---------!---------!
K1 K2 K3 K4
Cálculo do QUINTIL
25
É o mesmo cálculo de mediana sendo que
n
deve ser substituído por k f i
, onde k é
2 5
o número de ordem do quintil.

 k fi 
  Fant .h *
 5 
Kk  l*   *
f

Exemplo: Considerando a tabela de distribuição de freqüência por intervalo de classe,


calcule K2.

f i 40
k 2  158 
16  13. 4  159
k 2  16 (classe 3)
5 5 11

Exercício: A distribuição de freqüência abaixo representa o consumo por nota de 54 notas


fiscais emitidas durante um dia em uma loja de departamentos. Calcule o quintil de
ordem 2.

Consumo por nota (R$) Nº de notas


0 |---- 50 10
50 |---- 100 28
100 |---- 150 12
150 |---- 200 2
200 |---- 250 1
250 |---- 300 1
Total 54 Resposta: 70,71

26
DECIS: Quando dividimos uma série em 10 partes iguais, cada parte ficará com 10% dos
elementos da série. Assim temos:

D1 = 1º decil – separa a seqüência ordenada deixando 10% dos valores a sua esquerda e
90% dos valores a sua direita.

D2 = 2º decil – separa a seqüência ordenada deixando 20% dos valores a sua esquerda
e 80% dos valores a sua direita.

D3
= 3º decil – separa a seqüência ordenada deixando 30% dos valores a sua esquerda e
70% dos valores a sua direita.
.
.
.
D8 = 8º decil – separa a seqüência ordenada deixando 80% dos valores a sua esquerda e
20% dos valores a sua direita.

D9 = 9º decil – separa a seqüência ordenada deixando 90% dos valores a sua esquerda e
10% dos valores a sua direita.

!---!---!---!---!---!---!---!---!---!---!
D1 D2 D3 D4 D5 D6 D7 D8 D9

Cálculo do DECIL
deve ser substituído por k  i , onde k é
n f
É o mesmo cálculo de mediana sendo que
2 10
o número de ordem do decil.

 k fi 
  Fant .h *
 10 
Dk  l *  
f*
Exemplo: Considerando a tabela de distribuição de freqüência por intervalo de classe,
calcule D3.
k
 fi  3 40  12 (classe 2)
10 10
D 2  154 
12  4. 4  154  3,555  157,55
9

27
Exercício: Uma empresa de aviação observou em seus registros recentes, o tempo de
mão-de-obra gasto na revisão completa de um motor de jato. O seguinte quadro foi
obtido. Calcule o decil de ordem 3. Resposta: 9,44

PERCENTIS ou CENTIL: São valores de uma série que a dividem em 100 partes
iguais. Cada parte ficará com 1% dos elementos da série. Assim temos:

P1 = 1º percentil: separa a seqüência ordenada deixando 1% dos valores a sua esquerda e


99% dos valores a sua direita.

P2 = 2º percentil: separa a seqüência ordenada deixando 2% dos valores a sua esquerda e


98% dos valores a sua direita.

P3 = 3º percentil: separa a seqüência ordenada deixando 3% dos valores a sua esquerda e


97% dos valores a sua direita.
.
.
P98 = 98º percentil: separa a seqüência ordenada deixando 98% dos valores a sua
esquerda e 2% dos valores a sua direita.
P99 = 99º percentil: separa a seqüência ordenada deixando 99% dos valores a sua
esquerda e 1% dos valores a sua direita.

!---!---!---!---!---!---!---!---!---!---!
P10 P20 P30 P40 P50 P60 P70 P80 P90

Cálculo do PERCENTIL
deve ser substituído por k  i , onde k é
n f
É o mesmo cálculo de mediana sendo que
2 100
o número de ordem do percentil.

 k  fi 
  Fant .h *
 100 
Pk  l *   *
f

28
Exemplo: Considerando a tabela de distribuição de freqüência por intervalo de classe,
calcule P8.

f i 40
P8  150 
 3,2  0. 4  153,2
k 8  3,2 (classe 1)
100 100 4

Podemos notar que os quartis, quintis e decis podem ser expressos em termos dos
precentis.

Q1=P25 K1=P20 D1=P10


Q2=P50 K2=P40 D2=P20
Q3=P75 K3=P60 D3=P30
K4=P80 D4=P40
D5=P50
D6=P60
D7=P70
D8=P80
D9=P90

29
CAPITULO 5:

MEDIDAS DE DISPERSÃO OU VARIABILIDADE

As medidas de dispersão ou variabilidade servem para avaliar o quanto os dados são


semelhantes, descreve então o quanto os dados distam do valor central.

Dessas medidas, estudaremos as seguintes:


- Medidas de variação absoluta: Amplitude total, Variância e o Desvio Padrão.
- Medidas de variação relativa: Coeficiente de Variação.

(1) MEDIDAS DE VARIAÇÃO ABSOLUTA

Amplitude Total: É a diferença entre o maior e o menor valor observado. Tem o


inconveniente de só levar em conta os dois valores extremos da série, não levando em
consideração os valores intermediários. Ela é apenas uma indicação aproximada da
dispersão ou variabilidade.

AT = L (Max) – l (min)

Variância e Desvio Padrão: A variância e o desvio padrão são medidas que levam em
consideração a totalidade dos valores da variável em estudo, o que faz delas índices de
variabilidade bastante estáveis e, por isso mesmo, os mais geralmente empregados.

Cálculo da Variância (  x ): A variância é a média aritmética do quadrado dos desvios


2

(em relação à média).


n n

 (x i  x) 2
 (x i  x) 2 fi
 (2x )  i 1
ou  (2x )  i 1
n
n
f
i 1
i

Etapas do cálculo da Variância:

1. - Calcular a média aritmética X


2. - Subtrair a média X de cada valor x i do conjunto xi  x , o que chamamos de
desvio;
3. - Elevar cada desvio ao quadrado ( x i  x )
2

n 2

4. - Somar os quadrados dos desvios   xi


i 1
 x

5. - Dividir a soma por (n-1) quando se tratar de dados amostrais, ou simplesmente por
n se os dados representam todos os valores de uma população.

30
Sendo a variância calculada a partir dos quadrados dos desvios, ela é um número em
unidade quadrada em relação à variável em questão, o que, sob o ponto de vista prático, é
um inconveniente.
Por isso mesmo, imaginou-se uma nova medida que tem a interpretação prática,
denominada desvio padrão, definida como a raiz quadrada da variância.
Desvio Padrão:  ( x )   x2

Observação:
(1) O desvio padrão sempre será positivo!
(2) O desvio padrão de uma série indica o quanto os dados estão afastados da média e,
que se os dados são iguais, o valor da medida é zero.

Exemplo 7: Em uma turma de aluno, verificaram-se através da análise das notas de 15


alunos (amostra), os seguintes desempenhos:
 Xi Alunos
X
2
Conceito na Prova
1 4,3 9,1204
2 4,5 7,9524
3 9 2,8224
4 6 1,7424
5 8 0,4624
6 6,7 0,3844
7 7,5 0,0324
8 10 7,1824
9 7,5 0,0324
10 6,3 1,0404
11 8 0,4624
12 5,5 3,3124
13 9,7 5,6644
14 9,3 3,9204
152 7,5 0,0324
 
n
 Xi Total
X 109,8 44,16
i 1
Média 7,32 3,155 Variância
Desvio Padrão 1,77

31
Observamos no exemplo, que a média das provas, foi estimada em 7,32 com desvio
padrão em 1,77. Concluímos que a maioria das notas concentrou-se em 9,09 e 5,55.

Exercício: Calcular a média aritmética e o desvio padrão dos seguintes dados relativos à
dosagem de hemoglobina verificada numa amostra de 12 animais bovinos (mg).

15 14 13 11 13 14 13,5 12 16 14,5 12 9

Resp.: Média = 13,083mg Variância = 3,583mg2 Desvio padrão = 1,892mg

(2) MEDIDAS DE VARIAÇÃO RELATIVA

 ( x)
O coeficiente de variação: CV ( x )  . É a razão entre o desvio padrão e a média
x

aritmética da série dos dados. Pode ser expresso em percentual . Usado

para comparar a variabilidade de diferentes grupos de dados.

Exercício: Os dados abaixo referem-se as medidas da altura de parafusos e do diâmetro


de rolamentos. Determine o coeficiente de variação, para verificar em relação a qual
medida (parafuso ou rolamento) a variabilidade é maior, sabendo-se que o desvio padrão
dos parafusos é de 0,46 cm e dos rolamentos é de 0,27 cm?

Parafusos (cm) 10,2 10,6 9,8 10,0 9,8 10,4 9,2


Rolamentos (cm) 2,2 2,5 1,8 1,9 2,0 1,7 1,9

Resposta: CVp = 4,6 e CVr = 13,5. Os rolamentos apresentam maior variabilidade.

32
CAPITÚLO 6:

EXPERIMENTO ALEATÓRIO, ESPAÇO AMOSTRAL, EVENTOS E


PROBABILIDADE.

DEFINIÇÕES:

EXPERIMENTO ALEATÓRIO: São aqueles que, mesmo repetidos várias vezes sob
condições semelhantes, apresentam resultados imprevisíveis.

Ex.: Em uma jogada de futebol, é provável que seu time: perca; que ele ganha; que ele
empate.

ESPAÇO AMOSTRAL (S): Cada experimento aleatório corresponde, em geral, a vários


resultados possíveis. O conjunto desses resultados possíveis recebe o nome de espaço
amostral ou conjunto universo, representado por S.

Exemplo: Lançamento de uma moeda: S = {Ca, Co}

Lançamento de um dado: S={1, 2, 3, 4, 5, 6}

Cada um dos elementos de “S” que correspondem a um resultado recebe o nome de


PONTO AMOSTRAL, por exemplo, 2  a S => 2 é um ponto amostral de S (no caso do
lançamento do dado).

EVENTOS (A): Chamamos de evento qualquer subconjunto do espaço amostral S de um


experimento aleatório.

Exemplo: Lançamento de um dado:

Espaço amostral: S={1, 2, 3, 4, 5, 6}

Eventos:

a) Obter um número par na face superior:

A={2, 4, 6} => A  S , logo, A é um evento de S.

33
Seja S o seu espaço amostral. Se todos os elementos de S tem a mesma chance de
acontecer, então, chamamos de PROBABILIDADE DE UM EVENTO A, A  S , o
número real P(A), tal que:

n ( A)
P ( A) 
n( S ) , onde n(A) é o número de elementos de A e n(S) é o número de

elementos de S.

Exemplos: Considere o lançamento de uma moeda e o evento A “obter cara”.

1
S= {Ca, Co} n(S) = 2 A = {Ca} n(A) = 1 P(A) =
2

EVENTOS COMPLEMENTARES

Exemplo: Pesquisa afirma que de um grupo de 100 pacientes fumantes aparecem as


seguintes evidências1.
Eventos (evidências): e1 = Normal; e2 = Bronquite; e3 = Câncer no Pulmão;
e4 = Tuberculose
Espaço Amostral: = {Normal; Bronquite; Câncer no Pulmão; Tuberculose}

Evidências Normal Bronquite Câncer no Pulmão Tuberculose


Nº de Pacientes 25 60 10 5

Se a probabilidade de um paciente apresentar tuberculose é de 0,05. Então se abordarmos


um paciente, ao acaso, qual a probabilidade de que ele tenha tuberculose ausente.
Resolução:
5
“e4”: paciente tem tuberculose: P (e 4 )   0,05
100
Como: P(e 4 )  P(e 4 )  1 Então, P(e 4 )  1  P (e 4 )  1  0,05  0,95 onde e4
significa: paciente tem tuberculose ausente.
Assim, a chance de abordarmos um paciente que tem tuberculose ausente é 95%.

1
Considere estas evidências as mais comuns entre pacientes. Suponha também que as evidências acima
sejam exclusivas.
34
EVENTOS MUTUAMENTE EXCLUSIVOS

Se os mesmos elementos não podem ocorrer simultaneamente.

P(AB) = P(A) + P(B), a probabilidade de que um ou outro se realize é igual a soma das
probabilidades.

Exemplo: Considerando os dados do exemplo (1).

Evidências Normal Bronquite Câncer no Pulmão Tuberculose


Nº de Pacientes 25 60 10 5

Se abordarmos um paciente, ao acaso, qual é a probabilidade de que ele tenha câncer de


pulmão ou tuberculose?
10 5 15
Resolução: P(e3  e 4 )  P (e3 )  P (e 4 )     0,15
100 100 100

EVENTOS QUE NÃO SÃO MUTUAMENTE EXCLUSIVOS

P(AB) = P(A) + P(B) - P(AB)

De um grupo de 80 pessoas considere:

SITUAÇÃO SITUAÇÃO ESCOLAR


Total
EMPREGATÍCIA Até o Nível Médio Nível Superior
Empregada 10 35 45
Desempregada 15 20 35
Total 25 55 80

A probabilidade de uma pessoa estar desempregada ou ter nível superior.


Resolução:
35 55 20 70
P ( D  S )  P ( D)  P ( S )  P ( D  S )      0,8750
80 80 80 80

EVENTOS INDEPENDENTES

Dois eventos são independentes quando a ocorrência ou a não ocorrência de um evento


não tem efeito algum na probabilidade de ocorrência do outro evento. Quando lançamos
dois dados, o resultado obtido em um deles independe do resultado obtido no outro.

P(A e B) = P(AB) = P(A)P(B)

35
Exemplo: Se dois por cento da população apresenta esquizofrenia. A probabilidade de se
encontrar duas pessoas com esquizofrenia ausente é:

Resolução:
P( Esquizofrenia  Esquizofrenia)  P( Esquizofrenia)  P( Esquizofrenia)  0,98  0,98  0,9604
Ou seja, a chance de ambos apresentarem esquizofrenia é de 96,04%.

EVENTOS DEPENDENTES

Quando dois eventos são dependentes, o conceito de probabilidade condicional é


empregado para indicar a probabilidade de ocorrência de um evento relacionado. A
expressão P(B/A) indica a probabilidade de ocorrer o evento B, dado que tenha ocorrido
o evento A. Note que “B/A” não é uma fração.

P ( BeA) P ( B  A)
P(B/A) = =
P ( A) P ( A)

Exemplo: Em um grupo de 50 turistas temos as seguintes variáveis descritas abaixo:

SEXO
NACIONALIDADE Total
M F
Brasileiro (B) 20 15 35
Estrangeiro (E) 5 10 15
Total 25 25 50

Calcule as seguintes probabilidades:

a) O turista ser masculino se é brasileiro. e) O turista ser brasileiro se é masculino.


20 20
P(M / B)   0,5714 P( B / M )   0,80
35 25
b) O turista ser masculino se é estrangeiro. f) O turista ser estrangeiro se é masculino.
P(M / E )  (0,3333) P( E / M )  (0,20)
c) O turista ser feminino se é brasileiro. g) O turista ser brasileiro se é feminino.
15 15
P(F / B)   0,4286 P(B / F)   0,60
35 25
d) O turista ser feminino se é estrangeiro. h) O turista ser estrangeiro se é feminino.
P( F / E )  (0,6667) P( E / F )  (0,40)

36
EXERCÍCIO DE FIXAÇÃO

1) Qual a probabilidade de sair ás de ouros quanto retiramos uma carta de um


baralho de 52 cartas?

2) Qual a probabilidade de sair um rei quanto retiramos uma carta de um baralho de


52 cartas?

3) Um lote de 12 peças, 4 são defeituosas. Sendo retirada uma peça, calcule?

a- A probabilidade de essa peça ser defeituosa:

b- A probabilidade de essa peça não ser defeituosa:

4) No lançamento de dois dados, calcule a probabilidade de se obter soma igual a 5.

5) De dois baralhos de 52 cartas retiram-se, simultaneamente, uma carta do primeiro


baralho e uma carta do segundo baralho. Qual a probabilidade de a carta do
primeiro baralho ser um rei e a do segundo baralho ser o 5 de paus?

6) Uma urna A contém: 3 bolas brancas, 4 pretas, 2 verdes; Uma urna B contém: 5
bolas brancas, 2 pretas, 1 verde; Uma urna C contém: 2 bolas brancas, 3 pretas e 4
verdes. Uma bola é retirada de cada urna. Qual a probabilidade de as 3 bolas
retiradas da primeira, segunda e terceira urnas serem, respectivamente, branca,
preta e verde?

7) De um baralho de 52 cartas retiram-se, ao acaso, duas cartas sem reposição. Qual


a probabilidade de a primeira carta ser o ás de paus e a segunda ser o rei de paus?

8) Qual a probabilidade de sair uma figura quando retiramos uma carta de um


baralho de 52 cartas?

9) Qual a probabilidade de sair uma carta de copas ou de ouros quando retiramos


uma carta de um baralho de 52 cartas?

10) No lançamento de um dado, qual a probabilidade de se obter um número não


inferior a 5?

37
GABARITO

1. A = sair ás de ouros P(A)=1/52


2. A = sair rei P(A)=4/52
3.
a) A= a peça ser defeituosa P(A)=4/12
b) B=a peça ser perfeita P(B)=8/12

4. A= a soma ser 5 A={(1,4), (2,3), (3,2), (4,1)} P(A) = 4/36


5. A= sair rei
B= sair 5 de paus
P(A E B) = P(A)x P(B) = 4/52 x 1/52 = 4/2704
6.
A= 3 bolas retiradas da primeira, segunda e terceira urnas serem, respectivamente,
branca, preta e verde
P(A)= 3/9 x 2/8 x 4/9 = 24/648

7. C= sair ás de paus e reis de paus


P(C1 e C2)= P(C1). P(C2/C1) = 1/52 x 1/51 = 1/2652
8.
Figuras = valete, dama e rei
A= sair uma figura
P(A) = 12/52
9. A= sair copas ou ouros P(A)=13/52 + 13/52 = 26/52

10. A= número maior que 5 P(A)=1/6

38
CAPÍTULO 07

DISTRIBUIÇÃO DE PROBABILIDADE

Quando conhecemos todos os valores de uma variável aleatória juntamente com suas
respectivas probabilidade, temos uma distribuição de probabilidade.

Exemplo: Distribuição de probabilidade no número de acidentes aéreos com a GOL,


dentre sete acidentes.

 A probabilidade de 0 acidentes com


a GOL (dentre sete acidentes) é
0,210;

 Os valores denotados 0+
representam probabilidades muito
pequenas;

A representação gráfica de uma DISTRIBUIÇÃO DE PROBABILIDADES é feita


através do HISTOGRAMA DE PROBABILIDADES, semelhantes ao HISTOGRAMA
DE FREQÜÊNCIA, sendo que a escala vertical apresenta probabilidades, em lugar das
correspondentes freqüências.

Condições para uma DISTRIBUIÇÃO DE PROBABILIDADE:

1) A soma de todas as probabilidades individuais é 1:  p x   1


2) Para qualquer evento A implica que p(x) deve estar entre 0 e 1 para qualquer valor de
x: 0  P ( x)  1

MÉDIA DE UMA DISTRIBUIÇÃO DE PROBABILIDADE


n
E  X      xi p xi 
i 1
VARIÂNCIA DE UMA DISTRIBUIÇÃO DE PROBABILIDADE
n
VAR  X    2    xi  E  X   p xi 
2

i 1

39
EXERCÍCIO DE FIXAÇÃO

1) Determine se é dada uma distribuição de probabilidade. Nos casos em que não é


descrita uma distribuição de probabilidade, identifique a condição que não é satisfeita. E
quando for descrita uma distribuição de probabilidade, determine sua média e desvio
padrão.
a) Se sua faculdade contrata os 4 próximos funcionários sem distinção de sexo e o
conjunto de candidatos é grande, com números iguais de homens e mulheres, a
tabela a seguir dá a distribuição de probabilidade do número x de mulheres
contratadas.

Resposta: 2 e 1

b) Ao avaliar riscos de crédito, Jefferson investiga o número de cartões de crédito


que a pessoa tem. Com x sendo o número de cartões de crédito que os adultos
possuem a tabela a seguir dá a distribuição de probabilidade para um conjunto de
solicitantes.

Resposta: 2,8 e 2,52

2)Seja X uma variável aleatória discreta assumido valores no conjunto {1, 2, 3} e com
distribuição de probabilidade dada por:

a. Calcule a média de X. (resposta: 2,165)


b. Calcule a ( P  x  2  (resposta: 0,666)
c. Calcule a ( P x  2  (resposta: 0,5)

3)O tempo T, em minutos, necessário para um operário processar certa peça é uma
variável aleatória com a seguinte distribuição de probabilidade:

Calcule o tempo médio de processamento. Resposta: 4,6 minutos

DISTRIBUIÇÕES ESTATÍSTICAS: DISCRETA E CONTÍNUA


40
(1) DISTRIBUIÇÃO BINOMIAL (discreta)

Vimos que uma variável aleatória associa um valor numérico a cada resultado de um
experimento aleatório e uma distribuição de probabilidade associa uma probabilidade a
cada valor de uma variável aleatória.
Veremos agora como determinar as probabilidades para uma categoria importante de
distribuição de probabilidades: OS EXPERIMENTOS BINOMIAIS.
Os experimentos binomiais têm a característica de apresentarem exatamente dois
resultados complementares: SUCESSO E FRACASSO.
Exemplo: Em processos industriais: as peças falham ou não falham.
Na medicina: um paciente sobrevive ou morre.
Em propaganda, um consumidor reconhece um produto ou não.

Definição:

Um experimento binomial é um experimento que satisfaz as seguintes condições:


1. O experimento deve comportar um número fixo de provas (n).
2. As provas devem ser independentes (o resultado de qualquer prova não afeta
as probabilidades das outras provas.)
3. Cada prova deve ter todos os resultados classificados em duas categorias
(sucesso e fracasso).
4. As probabilidades devem permanecer constantes para cada prova.

Quando fazemos um experimento binomial, a distribuição da variável aleatória x é


chamada uma DISTRIBUIÇÃO BINOMIAL.

41
Notação:
p => probabilidade de sucesso
q => probabilidade de fracasso
x => denota um número específico de sucessos em n provas, podendo ser qualquer inteiro
entre 0 e n, inclusive.
P(x) => denota a probabilidade de obter exatamente x sucessos em n provas.
Parâmetros da Distribuição Binomial: X ~ B (n, p )
Cálculo da Probabilidade de uma Distribuição Binomial:

P X  x  ( nx ). p x .(1  p ) n  x
n!
P  X  x  ( nx ). p x .(1  p ) n  x  C n , x . p x .(1  p ) n  x  . p x .q n  x
( n  x)! x!
Para x = 0, 1, 2, .....,n

Média de uma Distribuição Binomial: E(x) = np

Variância da Distribuição Binomial: V(x) = npq

Obs.: lembrando que 0! = 1 (por definição)

Exercício:

1) Aplicando a fórmula da probabilidade binomial, determine a probabilidade de


obter 3 estudantes canhotos em uma turma de 15 estudantes, dado que 10% da
população são canhotos. Isto é determine P(3), se n=15, x=3, p=0,1 e 1=0,9.
Resposta: 0,1285

42
EXERCÍCIO DE FIXAÇÃO

1) Suponha que em um experimento binomial, uma prova se repita n vezes.


Determine a probabilidade de x sucessos, dada a probabilidade p de sucesso em
uma prova: Respostas:
a) n = 3, x= 2, p=0,9 (0,243)
b) n=8, x=7, p=0,99 (0,0745)
c) n=10, x=4, p=0,30 (0,2001)
d) n=6, x=1, p=0,05 (0,2321)

2) Uma firma afirma que 20% de suas pastilhas de chocolate M&M são vermelhas.
Determine a probabilidade de que, em 15 pastilhas M&M escolhidas
aleatoriamente, exatamente 20%, ou seja, 3 pastilhas sejam vermelhas.
Resposta: 0,250
3) Acredita-se que 20% dos moradores das proximidades de uma grande indústria
siderúrgica têm alergia aos poluentes lançados ao ar. Admitindo que este
percentual de alérgicos é real (correto), calcule a probabilidade de que pelo menos
4 moradores tenham alergia entre 13 selecionados ao acaso.
Resposta: 0,252
4) Três em cada quatro alunos de uma universidade fizeram cursinho antes de prestar
vestibular. Se 16 alunos são selecionados ao acaso, qual é a probabilidade de que:
Respostas
a) Pelo menos 12 tenham feito cursinho? (0,6302)
b) No máximo 13 tenham feito cursinho? (0,8029)
c) Exatamente 12 tenham feito cursinho? (0,2252)

43
44
45
46
47
(2) DISTRIBUIÇÃO NORMAL OU GAUSS (contínua)

Se X é uma variável aleatória contínua, então X assume todos os valores em um intervalo


de números reais ().

- A distribuição de probabilidade de X é descrita por uma curva de densidade, ou função


de densidade.
2
1  x 
1   
f  x  .e 2  

 2
 Π (Pi): (≈ 3,14159)

 e: (≈ 2,71828).

- A probabilidade de qualquer evento é a área sob a curva de densidade entre os valores


de X que compõe o evento.

- A área total sob qualquer curva de densidade é 1, de modo que a probabilidade de um


evento varia entre 0 e 1.

- Parâmetros da Distribuição Normal X ~ N (  ,  2 )

Média da Distribuição Normal: E(X) = 


Variância da Distribuição Normal: VAR(X) =  2
Algumas propriedades da Distribuição Normal:
 P(X=x) = f(X) = 0 (pois não existe a probabilidade no ponto e sim na área)
 f(X) é simétrica ao redor da média, ou seja, a probabilidade de ocorrer valor
menor do que a média é igual a probabilidade de ocorrer valor menor do que a
média.
 A curva normal depende de duas constantes,  e 2:
-  corresponde ao centro da simetria da curva e 2 graficamente, fornece a
distância do centro da simetria aos pontos onde a curva muda de sentido.

48
Distribuição Normal Padrão:

Na prática desejamos calcular probabilidades para diferentes valores de  e . Para isso,


a variável cuja distribuição é X ~ N (  ,  2 ) é transformada numa forma padronizada
com distribuição X ~ N (0,1) (distribuição normal padrão), pois tal distribuição é
tabelada. A quantidade é dada por:
X 
Z

Exemplo:

1) Se já X a variável aleatória que representa os diâmetros dos parafusos produzidos por


certa máquina. Suponha que essa variável tenha Distribuição Normal com média 2cm e
desvio padrão 0,04cm.
a) A probabilidade de um parafuso ter um diâmetro com valor entre 2 e 2,05 é:
2  2 X   2,05  2
P (2  X  2,05)  P (   )  P (0  Z  1,25)  0,3944
0,04  0,04

b) P(-1,25<Z<0) =

c) P(0,8<Z<1,23) =

d) P(Z>0,6) =

Obs.: Quando temos uma variável aleatória com distribuição Normal, nosso principal
interesse é obter a probabilidade de essa variável aleatória assumir um valor em um
determinado intervalo.

49
Tabela: Probabilidades da Distribuição Normal

Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 0,000000 0,003989 0,007978 0,011966 0,015953 0,019939 0,023922 0,027903 0,031881 0,035856

0,1 0,039828 0,043795 0,047758 0,051717 0,055670 0,059618 0,063559 0,067495 0,071424 0,075345

0,2 0,079260 0,083166 0,087064 0,090954 0,094835 0,098706 0,102568 0,106420 0,110261 0,114092

0,3 0,117911 0,121720 0,125516 0,129300 0,133072 0,136831 0,140576 0,144309 0,148027 0,151732

0,4 0,155422 0,159097 0,162757 0,166402 0,170031 0,173645 0,177242 0,180822 0,184386 0,187933

0,5 0,191462 0,194974 0,198468 0,201944 0,205401 0,208840 0,212260 0,215661 0,219043 0,222405

0,6 0,225747 0,229069 0,232371 0,235653 0,238914 0,242154 0,245373 0,248571 0,251748 0,254903

0,7 0,258036 0,261148 0,264238 0,267305 0,270350 0,273373 0,276373 0,279350 0,282305 0,285236

0,8 0,288145 0,291030 0,293892 0,296731 0,299546 0,302337 0,305105 0,307850 0,310570 0,313267

0,9 0,315940 0,318589 0,321214 0,323814 0,326391 0,328944 0,331472 0,333977 0,336457 0,338913

1,0 0,341345 0,343752 0,346136 0,348495 0,350830 0,353141 0,355428 0,357690 0,359929 0,362143

1,1 0,364334 0,366500 0,368643 0,370762 0,372857 0,374928 0,376976 0,379000 0,381000 0,382977

1,2 0,384930 0,386861 0,388768 0,390651 0,392512 0,394350 0,396165 0,397958 0,399727 0,401475

1,3 0,403200 0,404902 0,406582 0,408241 0,409877 0,411492 0,413085 0,414657 0,416207 0,417736

1,4 0,419243 0,420730 0,422196 0,423641 0,425066 0,426471 0,427855 0,429219 0,430563 0,431888

1,5 0,433193 0,434478 0,435745 0,436992 0,438220 0,439429 0,440620 0,441792 0,442947 0,444083

1,6 0,445201 0,446301 0,447384 0,448449 0,449497 0,450529 0,451543 0,452540 0,453521 0,454486

1,7 0,455435 0,456367 0,457284 0,458185 0,459070 0,459941 0,460796 0,461636 0,462462 0,463273

1,8 0,464070 0,464852 0,465620 0,466375 0,467116 0,467843 0,468557 0,469258 0,469946 0,470621

1,9 0,471283 0,471933 0,472571 0,473197 0,473810 0,474412 0,475002 0,475581 0,476148 0,476705

2,0 0,477250 0,477784 0,478308 0,478822 0,479325 0,479818 0,480301 0,480774 0,481237 0,481691

2,1 0,482136 0,482571 0,482997 0,483414 0,483823 0,484222 0,484614 0,484997 0,485371 0,485738

2,2 0,486097 0,486447 0,486791 0,487126 0,487455 0,487776 0,488089 0,488396 0,488696 0,488989

2,3 0,489276 0,489556 0,489830 0,490097 0,490358 0,490613 0,490863 0,491106 0,491344 0,491576

2,4 0,491802 0,492024 0,492240 0,492451 0,492656 0,492857 0,493053 0,493244 0,493431 0,493613

2,5 0,493790 0,493963 0,494132 0,494297 0,494457 0,494614 0,494766 0,494915 0,495060 0,495201

2,6 0,495339 0,495473 0,495604 0,495731 0,495855 0,495975 0,496093 0,496207 0,496319 0,496427

2,7 0,496533 0,496636 0,496736 0,496833 0,496928 0,497020 0,497110 0,497197 0,497282 0,497365

2,8 0,497445 0,497523 0,497599 0,497673 0,497744 0,497814 0,497882 0,497948 0,498012 0,498074

2,9 0,498134 0,498193 0,498250 0,498305 0,498359 0,498411 0,498462 0,498511 0,498559 0,498605

3,0 0,498650 0,498694 0,498736 0,498777 0,498817 0,498856 0,498893 0,498930 0,498965 0,498999

3,1 0,499032 0,499065 0,499096 0,499126 0,499155 0,499184 0,499211 0,499238 0,499264 0,499289

3,2 0,499313 0,499336 0,499359 0,499381 0,499402 0,499423 0,499443 0,499462 0,499481 0,499499

3,3 0,499517 0,499534 0,499550 0,499566 0,499581 0,499596 0,499610 0,499624 0,499638 0,499651

3,4 0,499663 0,499675 0,499687 0,499698 0,499709 0,499720 0,499730 0,499740 0,499749 0,499758

3,5 0,499767 0,499776 0,499784 0,499792 0,499800 0,499807 0,499815 0,499822 0,499828 0,499835

3,6 0,499841 0,499847 0,499853 0,499858 0,499864 0,499869 0,499874 0,499879 0,499883 0,499888

3,7 0,499892 0,499896 0,499900 0,499904 0,499908 0,499912 0,499915 0,499918 0,499922 0,499925

3,8 0,499928 0,499931 0,499933 0,499936 0,499938 0,499941 0,499943 0,499946 0,499948 0,499950

3,9 0,499952 0,499954 0,499956 0,499958 0,499959 0,499961 0,499963 0,499964 0,499966 0,499967

4,0 0,499968 0,499970 0,499971 0,499972 0,499973 0,499974 0,499975 0,499976 0,499977 0,499978

50
EXERCÍCIO DE FIXAÇÃO

1) Determinar o valor, ou valores, de z em cada um dos casos, nos quais as áreas


referem-se às limitadas pela curva normal:
Resposta:
a) a área entre 0 e z é 0,3770 (z= 1,16)
b) a área a esquerda de z é 0,8621 (z=1,09)

2) O peso médio de 500 estudantes do sexo masculino de uma determinada


universidade é 75,5kg e o desvio padrão é de 7,5 kg. Admitindo-se que os pesos
estão distribuídos normalmente, determinar quantos estudantes pesam:
Resposta
a) entre 60 e 77,5kg (P(-2,06<z<0,266)=0,6 => 300 estudantes)
b) mais do que 92,5kg (P(z>2,26)=0,0119 = > 6 estudantes)
3) A média dos diâmetros internos de uma amostra de 200 arruelas produzidas por
certa máquina é 0,502 polegadas e o desvio padrão é 0,005 polegadas. A
finalidade para a qual essas arruelas são fabricadas permite a tolerância máxima,
para o diâmetro, de 0,496 a 0,508 polegadas; se isso não se verifica, as arruelas
serão consideradas defeituosas. Determinar a porcentagem de arruelas defeituosas
produzidas pela máquina, admitindo-se que os diâmetros são distribuídos
normalmente. Resposta: 23,02%

4) Se z é normalmente distribuída, com média zero e variância 1, determinar:


Resposta:
a) P(z>-1,64) = (0,9495)
b) P(-1,96<z<1,96) = (0,95)
c) P(0<z<1,44) = (0,4251)
d) P(-0,85<z<0) = (0,3023)
e) P(-1,48<z<2,05) = (0,9104)
f) P(0,72<z<1,86) = (0,2044)

51
CAPITULO 8

INTRODUÇÃO

A REGRESSÃO e a CORRELAÇÃO são técnicas utilizadas para estimar uma


relação que possa existir na população, enquanto as técnicas anteriormente estudadas
(Medidas de Tendência Central e de Dispersão: Média, Desvio Padrão, Variância, etc.)
servem para estimar um único parâmetro populacional.
A análise de correlação e regressão compreende a análise de dados amostrais para
saber se e como duas ou mais variáveis estão relacionadas uma com a outra numa
população.
A correlação mede a força, ou grau, de relacionamento entre duas variáveis; a
regressão dá a equação que descreve o relacionamento em termos matemáticos.

(1) CORRELAÇÃO

Definição: Quando duas variáveis estão ligadas por uma relação estatística, dizemos que
existe correlação entre elas.
Por exemplo:
- A circunferência C e o raio r estão perfeitamente correlacionados, porque C  2 r.
- As variáveis altura e peso de indivíduos revelariam alguma correlação.

Diagrama de dispersão: O diagrama de dispersão é um gráfico onde pontos no espaço


cartesiano XY são usados para representar simultaneamente os valores de duas variáveis
quantitativas medidas em um conjunto de dados.

52
Por exemplo:
Um dos objetivos dos pesquisadores neste estudo é encontrar uma maneira de conhecer o
peso do urso através de uma medida mais fácil de se obter do que a direta (carregar uma
balança para o meio da selva e colocar os ursos em cima dela) como, por exemplo, uma
medida de comprimento (altura, perímetro do tórax, etc.).

O problema estatístico aqui é encontrar uma variável que tenha uma relação forte com o
peso, de modo que, a partir de seu valor medido, possa ser calculado (estimado) o valor
peso indiretamente, através de uma equação matemática.

O primeiro passo para encontrar esta variável é fazer o diagrama de dispersão das
variáveis candidatas (eixo horizontal) versus o peso (eixo vertical), usando os pares de
informações de todos os ursos. Você pode tentar as variáveis: idade, altura, comprimento
da cabeça, largura da cabeça, perímetro do pescoço e perímetro do tórax.
A Figura mostra a relação entre peso e altura e entre peso e perímetro do tórax.

Analisando o gráfico:
1) Podemos ver que, tanto a altura quanto o perímetro do tórax são fortemente associados
ao peso do urso, no sentido de que quanto mais alto o urso ou quanto maior a medida de
seu tórax, mais pesado ele será.
2) Note que este crescimento é linear para o perímetro do tórax e não-linear para a altura.
3) Os pontos estão mais dispersos no gráfico da altura, a variável mais adequada para
estimar o peso é o perímetro do tórax.

53
Observação: A correlação entre duas variáveis pode ser POSITIVA, NULA ou
NEGATIVA.

Gráfico 1 (+) Gráfico 2 (-)

Gráfico 3 (nula)

Cálculo do Coeficiente de Correlação Linear de Pearson

Definição: Dado n pares de valores (x1, y1), (x2, y2), ..., (xn, yn), o coeficiente entre as
duas variáveis X e Y é dado pela média dos valores dos produtos padronizados das
variáveis.

n x i y i    x i   y i 
r
 n x 2
i
2

   x i  n y i    y i 
2 2

Indica o grau de intensidade entre duas variáveis e ainda o sentido dessa correlação
(positivo ou negativo).
Só deve ser utilizado com variáveis contínuas.
A partir dos valores de r, podemos verificar o tipo da correlação existente entre as
variáveis estudadas, conforme tabela seguinte:

Valor de r Correlação
0,0 Nula
0,0 ----| 0,3 Fraca
0,3 ----| 0,6 Media
0,6 ----| 0,9 Forte
0,9 ----| 0,99 Fortíssima
1,0 Perfeita
54
Exemplo: Considerando uma amostra aleatória, formada por dez dos 98 alunos de uma
classe da faculdade A e pelas notas obtidas por eles em Matemática e Estatística:

Calcule o coeficiente de correlação e interprete seu valor.

10 x 473  65 x65 4730  4225 505 505


r     0,911
(10 x 481  65 )(10 x 475  65 )
2 2
(4810  4225)(4750  4225) 585 x525 554,18
Conclusão: O resultado nos indica uma correlação linear positiva altamente significativa
entre as duas variáveis.

Se o relacionamento entre X e Y for consistente e necessitamos fazer uma predição para o


valor de Y, conhecido um valor de X, através de uma formula matemática adequada,
podemos aplicar a chamada ANÁLISE DE REGRESSÃO SIMPLES.

55
EXERCÍCIO DE FIXAÇÃO

1) Observou-se que o volume mensal de lixo gerado em uma cidade, em função do


número de dormitórios das residências, é o seguinte (em m3):
No Dormitórios 1 2 3 4
Volume de lixo 0,15 0,29 0,45 0,57

a) Calcular o coeficiente de correlação de Pearson. (0,9986)

2) A função de demanda de um produto está representada na tabela abaixo:

Preço (R$) 56,00 60,00 63,00 68,00 74,00


Demanda (un.) 100 93 87 81 75

a) Calcular o coeficiente de correlação de Pearson. (-0,983)

3) Os gastos com propaganda e o respectivo volume de vendas gerado, de um certo


produto, são dados abaixo:

Gastos com propaganda (em 20 40 10 100 70


milhares de R$)
Volume de vendas (em milhares de 1.110 1.250 1.000 1950 1600
R$)

a) Calcular o coeficiente de correlação de Pearson. (0,9969)

56
(2) REGRESSÃO

Objetivo: A regressão linear simples constitui uma tentativa de estabelecer uma equação
matemática linear (linha reta) que descreva o relacionamento entre duas variáveis.

Para obter uma reta de regressão, n pares de observações das variáveis são utilizados.
Considerando Y como a variável dependente ou variável resposta e, X como a variável
independente ou preditora, a reta de regressão é dada por:

Y = + X + u

 é o coeficiente linear (intercepto), ou seja, é o ponto onde a reta corta o eixo Y;

 é o coeficiente angular, ou seja, determina a inclinação da reta.

Graficamente:

Y + X + u

+ X

X X+1 X

 u representa o incremento em Y quando X aumenta em uma unidade;

ESTIMADORES DE  E  PARA O MODELO DE REGRESSÃO LINEAR

Os valores de a e b serão determinados, através do Método dos Mínimos Quadrados


(MMQ). O objetivo é encontrar a e b tal que a soma dos erros quadráticos médios seja o
menor possível.

57
O erro é determinado por:
ei  yi  yˆ i tal que ei  yi  (a  bxi )

Os valores de a e b são encontrados através da seguinte fórmula:

x y i i  nx y
bˆ  i 1
n aˆ  y  bˆx

x
i 1
2
i  nx 2

É importante observar que:

- b mede a variação que ocorre em Y por unidade de variação de X.



- Quando não houver relação entre X e Y teremos Y  Y , pois b=0
- Quando as relações entre X e Y forem proporcionais, a reta passa na origem e

a = 0, logo Y  bX

Exemplo:

1) Um laboratório está interessado em medir o efeito da temperatura sobre a potência de


um antibiótico. Dez amostras de 50 gramas cada foram guardadas a diferentes
temperaturas, e após 15 dias, mediu-se a potência. Os resultados estão no quadro abaixo.

Temperatura 30 36 50 54 60 73 78 82 91 95
Potência 38 43 32 26 33 19 27 23 14 21

r  0,882

Podemos concluir que o gráfico se trata de uma correlação retilínea, de modo a permitir o
ajustamento de uma reta, imagem da função Y = + X + u. (se não houvesse uma
correlação significativa, nossa melhor predição da potência do antibiótico seria
y  27,6 ).

58

Então, precisamos calcular os valores dos parâmetros da equação Y  â  bˆX que é uma

estimativa da verdadeira equação da reta de regressão, onde Y é o estimado.

Identificação das variáveis:

Variável dependente: Potência do antibiótico


Variável independente: Temperatura

Estimadores da reta de regressão:

x y i i  nx y
16.320  (10)(64,9)(27,6)  1592,4
bˆ  i 1
   0,35114
n
46.655  10(64,9) 2 4534,9
x
i 1
2
i  nx 2

(Coef. Linear)

aˆ  y  bˆx  27,6  (0,35114 )  64,9  50,389 (Coef. Angular ou Intercepto)

Logo,

Y  50,389  0,35114 X
Interpretação da reta de regressão: cada ponto da reta de regressão fornece uma
estimativa do valor médio ou esperado de Y correspondente ao valor X escolhido; O valor
b̂ =-0,35114, que mede a declividade da reta, mostra que, dento da escala da amostra de
X entre 30ºC e 95ºC, quando X aumenta em , digamos 1ºC, a potência estimada do
antibiótico diminui em 0,35ºC. O valor de â  50,389, que é o intercepto da reta, indica o
nível médio da potência do antibiótico quando a temperatura é zero.

Determinar a potência do antibiótico quando a exposição for de 65oC.



Y  50,389  0,35114(65)  50,389  22,8141  27,5749

Exemplo 2: Um funcionário de uma pista de corrida local gostaria de desenvolver um


modelo para prever a quantia apostada (em mil dólares) com base na freqüência do
público (por 100 apostadores). Após realizar a reta de regressão, o funcionário obteve os
resultados abaixo. Escreve a equação da reta e interprete-a:

Coeficiente
Intercepto 4,3424
Coef. Linear 0,0465

59
Resposta:
Y = variável dependente = quantidade apostada
X = variável independente = freqüência do público
A equação da reta será: Yˆ  aˆ  bˆX  4,3424  0,0465 X

Assim, o valor apostado quando a freqüência é zero (0) é de 4,3424 mil dólares.
Além disso, para cada 100 pessoas a mais na pista o total apostado subirá em 0,0465.

Uma importante função de determinar a reta de regressão para duas variáveis é a


possibilidade de realizar previsões, ou seja, uma vez que obtemos a reta de regressão,
podemos escolher um valor de interesse para a variável independente (X) e determinar o
valor esperado para a variável dependente (Y).

60
EXERCÍCIO DE FIXAÇÃO

1) Observou-se que o volume mensal de lixo gerado em uma cidade, em função do


número de dormitórios das residências, é o seguinte (em m3):
No Dormitórios 1 2 3 4
Volume de lixo 0,15 0,29 0,45 0,57

a) Determinar a equação da reta de regressão. (y = 0,142x + 0,01)


b) Estimar o volume de lixo para uma residência com 5 dormitórios. (0,11082)

2) A função de demanda de um produto está representada na tabela abaixo:

Preço (R$) 56,00 60,00 63,00 68,00 74,00


Demanda (un.) 100 93 87 81 75

c) Determinar a equação da reta de regressão. (y = -1,3831x + 176)


d) Estimar a demanda se o preço for R$ 80,00. (65,352)

3) Os gastos com propaganda e o respectivo volume de vendas gerado, de um certo


produto, são dados abaixo:

Gastos com propaganda (em 20 40 10 100 70


milhares de R$)
Volume de vendas (em milhares de 1.110 1.250 1.000 1950 1600
R$)

a) Determinar a equação da reta de regressão. (v=10,496p+878,175)


b) Estimar o volume de vendas para um gasto de R$ 150,00 em propaganda.
(2.452,575)
c) Caso não se faça nenhum investimento em propaganda, qual o volume de vendas
esperado? (878,175)

d) Se a expectativa de vendas for de R$ 1.500,00, quando se deve investir em


propaganda para esse produto? (59,24)

61
r 2 : COEFICIENTE DE DETERMINAÇÃO

Uma das formas de determinar se o modelo encontrado é satisfatório para explicar


os dados é calculando o COEFICIENTE DE DETERMINAÇÃO do modelo. Esse
coeficiente compara a variabilidade do modelo com a variabilidade total dos dados.
CÁLCULO DO r 2 :
n

 ( yˆ i  y) 2
SQE
r2  i 1
n

SQT
(y
i 1
i  y) 2

 A variabilidade do modelo (variabilidade explicada ou soma dos quadrados


n
explicada) pode ser calculada como:  ( yˆ
i 1
i  y)2 .

 A variabilidade total (soma dos quadrados total) pode ser calculada como:
n

(y
i 1
i  y) 2 .

62
Observação:

Exemplo 1: Calcular e interpretar o coeficiente de determinação R2 para os dados do


primeiro exercício.

Temperatura Potência Valores ( yi  y ) 2 ( yˆ i  y ) 2


(X) (Y) preditos ( ŷ )
30 38 39.86 108.16 150.21
36 43 37.75 237.16 103.01
50 32 32.83 19.36 27.40
54 26 31.43 2.56 14.67
60 33 29.32 29.16 2.97
73 19 24.76 73.96 8.07
78 27 23.00 0.36 21.13
82 23 21.60 21.16 36.01
91 14 18.44 184.96 83.92
95 21 17.03 43.56 111.63

y 27,6
n

(y
i 1
i  y) 2 720,4
n

 ( yˆ
i 1
i  y) 2 559,02

R2 0,7759

Interpretação: o modelo Yˆ  50,3892  0,3511 X explica 77,59% da variabilidade total


de Y. Em outras palavras, a variabilidade da potência do antibiótico é 77,59% explicada
pela sua temperatura de armazenamento.

63
EXERCÍCIO DE FIXAÇÃO

Uma amostra de 5 ratos da raça Wistar foi obtida e suas idades (em dias) e pesos (em
gramas) são apresentados na tabela abaixo:

Idade (dias) Peso médio (gramas)


30 63,94
34 74,91
38 81,65
42 95,05
46 105,89

a. Esboce um diagrama de dispersão para essas variáveis.


b. Calcule o coeficiente de correlação de Pearson.
c. Com base nos itens (a) e (b), você acha que há relação entre as duas variáveis? Que
tipo de relação é essa?
d. Deseja-se obter uma reta que explique o peso médio dos ratos em função das suas
idades. Qual deve ser a variável independente e qual deve ser a variável dependente?
e. Obtenha e interprete a reta de regressão.
f. Calcule o coeficiente de determinação para a reta obtida. Você acha que o modelo se
ajusta bem aos dados observados? Por quê?
g. Qual o peso médio, em gramas, para ratos com 32, 40, 43 e 49 dias?

64
Bibliografia

TRIOLA, Mário F., Introdução à ESTATÍSTICA - 7ª Edição – Rio de


Janeiro: LTC – Livros Técnicos e Científicos Editora S.A.

CRESPO, Antônio Arnot, Estatística Fácil – 18ª Edição – São Paulo,


2002.

65

Você também pode gostar