0% acharam este documento útil (0 voto)
18 visualizações26 páginas

Aula 10

Enviado por

Fernanda Castro
Direitos autorais
© © All Rights Reserved
Formatos disponíveis
Baixe no formato PDF, TXT ou leia online no Scribd
Fazer download em pdf ou txt
0% acharam este documento útil (0 voto)
18 visualizações26 páginas

Aula 10

Enviado por

Fernanda Castro
Direitos autorais
© © All Rights Reserved
Formatos disponíveis
Baixe no formato PDF, TXT ou leia online no Scribd
Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1/ 26

CEDERJ – CENTRO DE EDUCAÇÃO SUPERIOR A DISTÂNCIA

DO ESTADO DO RIO DE JANEIRO

DISCIPLINA: Estatística Aplicada à Segurança Pública


CONTEUDISTA: Doriam Borges

Aula 10 – Distribuição Amostral e Intervalo de


Confiança

Metas
Introduzir novos conceitos fundamentais sobre a estatística inferencial, como a
estimação de parâmetros populacionais. Além disso, nesta aula será
apresentado um dos teoremas mais importantes da estatística: o Teorema do
Limite Central. Ao final, será mostrado como calcular o tamanho de uma
amostra, e quais são os elementos básicos para este cálculo.

Objetivos

Ao final desta aula, você deverá ser capaz de:

1. Entender o conceito de Distribuição Amostral


2. Usar o Teorema do Limite Central.
3. Utilizar o Intervalo de Confiança para estimar parâmetros
4. Descobrir como achar o tamanho de uma amostra
Descobrindo novas distribuições...

Nesta aula estudaremos distribuição amostral e intervalo de confiança. Para


falarmos de intervalo de confiança, temos que aprender sobre distribuição
amostral. Mas o que é distribuição amostral? A distribuição amostral é a
distribuição de uma amostra de estatísticas. Embora o conceito de uma
distribuição de um conjunto de números seja intuitivo para a maioria dos
estudantes, o conceito de uma distribuição de um conjunto de estatísticas não
é. Portanto, vamos rever a ideia de “distribuições” antes do conceito de
distribuição amostral ser apresentado.

A distribuição de uma amostra é a distribuição resultante da coleta de dados


reais. Uma das principais características de uma amostra é que ela contém um
número finito (contável) de pontos. Esse número é representado pela letra n
(tamanho da amostra). Por exemplo, imagine que você tome uma amostra de
dados de uma determinada população, e encontre os seguintes dados:

32 34 39 36
35 37 40 39
42 40 33 33
33 38 30 31
36 36 35 40
38 35 37 37
37 31 39 34
33 37 32 34
38 36 39 37
36 33 37
35 36 35

Estes números constituem a distribuição de uma amostra, sendo n=42 de uma


população fictícia. Usando os procedimentos discutidos na aula sobre
distribuições de frequência, construímos o seguinte gráfico de frequência
relativa para retratar esses dados:

Gráfico 1 – Distribuição de Frequência Relativa da Amostra


18%

16%

14%

12%

10%

8%

6%

4%

2%

0%
30 31 32 33 34 35 36 37 38 39 40 42

Olhando o Gráfico 1, você pode verificar quais são os números mais e menos
frequentes, ou seja, conhecer a distribuição da amostra que representa a
população em estudo. Essa é a ideia principal da “distribuição”: conhecer o
comportamento do conjunto de dados que se está trabalhando

Para além da distribuição de frequência, a distribuição de uma amostra


também pode ser descrita através de números, chamados de estatísticas. Você
já conhece algumas dessas estatísticas: a média, a mediana, a moda, o desvio
padrão, por exemplo. As estatísticas e os procedimentos para o seu cálculo já
foram discutidos em aulas anteriores.

Agora gostaríamos de introduzir uma nova ideia. Se tomarmos uma amostra


diferente de uma mesma população, os pontos poderão ser diferentes. Com
isso, o gráfico de frequência relativa pode apresentar uma pequena mudança
com a nova amostra, assim como as estatísticas calculadas a partir da
segunda amostra. Dessa forma, é importante que você tenha consciência de
que os resultados das estatísticas podem variar de amostra para amostra
(ainda que essa variação seja pequena). Os resultados estatísticos com base
em amostras devem incluir uma medida de quanto você espera que esses
resultados variem de amostra para amostra. Nesta aula vamos discutir como
fazer isso em termos de médias e por proporções amostrais. Tanto o conceito
de distribuição amostral quanto aprender a calcular o intervalo de confiança
serão importantes nesta etapa.

1 – Distribuição Amostral

Um aspecto crítico das estatísticas é a estimativa


de parâmetros com estatísticas a partir da amostra. Estatísticas amostrais
são utilizadas como estimadores dos parâmetros correspondentes do modelo
de população. Por exemplo, a média e o desvio padrão da amostra são
utilizadas como estimativas da média e do desvio padrão populacional,
correspondentes aos parâmetros µ e σ. Existem textos na área de estatística
que dedicam um esforço considerável para definir quais os procedimentos para
encontrar boas estimativas de parâmetros.

Para tentar resumir os conceitos de parâmetros e estimativas e suas relações,


apresentamos o seguinte esquema a seguir:

POPULAÇÃO PARÂMETROS:

AMOSTRAS ESTIMADORES:

Com base na população temos os parâmetros (θ). Entretanto, como já


discutimos na aula sobre amostragem, muitas vezes trabalhar com a população
pode ser muito caro e difícil, então a solução é selecionar uma amostra
representativa. Em outras palavras, podemos inferir algumas características
dessa população ao selecionar uma amostra representativa desta. Com essa
amostra podemos encontrar os estimadores (θ̂) dos parâmetros da população
(θ). Como por exemplo, suponha que estivessemos interessados em saber o
tempo médio que os policiais estão na instituição. Neste caso, o valor que se
quer conhecer é o parâmetro média populacional µ (tempo médio na instituição
a partir das informações de todos os policiais da instituição). Como já foi visto
na aula sobre amostragem, trabalhar com todos os componentes da população
nem sempre é a solução mais viável, seja por conta de recursos financeiros ou
devido a dificuldades operacionais. Então, a solução é trabalhar com uma
amostra representativa da população que se está estudando. Após selecionar
uma amostra, é possível encontrar o estimador do parâmetro, ou seja, do
tempo médio na instituição em anos. Neste exemplo, o estimador é a média
̅, isto é, a média do tempo na instituição calculada a partir das
amostral 𝐗
informações dos policiais selecionados na amostra.

Agora que você já sabe o que é um parâmetro e um estimador, podemos iniciar


a discussão sobre a distribuição amostral. A distribuição amostral é um modelo
de distribuição de pontos, como uma distribuição de frequência de uma
população, exceto pelo fato dos pontos não serem valores brutos, mas
estatísticas, como a média amostral. Mas como a média amostral poderia ter
uma distribuição? Vamos pensar sobre isso? Imagine que uma pessoa tome
repetidamente amostras de tamanho n de uma mesma população, e calcule
uma estatística específica em cada seleção? A distribuição resultante das
estatísticas encontradas neste exercício é chamada de distribuição amostral
dessa estatística. Vamos fazer um teste?

Distribuição amostral para a média

Exemplo:
Vamos supor uma população X: 1, 2, 3, 4, 5. O tamanho desta população é
N=5.

O cálculo do parâmetro média populacional µ é o seguinte:


5
𝑥𝑖 1 + 2 + 3 + 4 + 5 15
𝜇= ∑ = = =3
5 5 5
𝑖=1

E o cálculo do parâmetro variância populacional 𝜎 2 é:


5
2
(𝑥𝑖 − 𝜇)2 (1 − 3)2 + (2 − 3)2 + (3 − 3)2 + (4 − 3)2 + (5 − 3)2
𝜎 =∑ = =2
5 5
𝑖=1

Agora vamos selecionar todas as amostras possíveis com reposição de


tamanho n=2 dessa população. Encontraremos 25 amostras possíveis, como
veremos a seguir. Em cada amostra selecionada, devemos calcular a média
amostral (𝐗̅𝐢 ), e vamos ver qual o resultado?

Amostras 𝐗̅𝐢
1 (1, 1) 1,0
2 (1, 2) 1,5
3 (1, 3) 2,0
4 (1, 4) 2,5
5 (1, 5) 3,0
6 (2, 1) 1,5
7 (2, 2) 2,0
8 (2, 3) 2,5
9 (2, 4) 3,0
10 (2, 5) 3,5
11 (3, 1) 2,0
12 (3, 2) 2,5
13 (3, 3) 3,0
14 (3, 4) 3,5
15 (3, 5) 4,0
16 (4, 1) 2,5
17 (4, 2) 3,0
18 (4, 3) 3,5
19 (4, 4) 4,0
20 (4, 5) 4,5
21 (5, 1) 3,0
22 (5, 2) 3,5
23 (5, 3) 4,0
24 (5, 4) 4,5
25 (5, 5) 5,0

Observe que a média amostral 𝐗̅𝐢 varia de amostra para amostra, então
concluímos que 𝐗̅𝐢 é uma variável aleatória (ou seja, possui uma distribuição de
probabilidade). Se isso é verdade, podemos conhecer o comportamento (ou
distribuição) desta variável (média amostral).

̅
Gráfico 2 – Distribuição da variável X
6

0
1 1,5 2 2,5 3 3,5 4 4,5 5

No Gráfico 2 podemos visualizar a distribuição da estatística ̅


X, que é uma
variável. Também podemos calcular a média das médias amostrais e a
variância das médias amostrais.

Média das médias amostrais:


25
1 1,0 + 1,5 + 2,0 + ⋯ + 4,5 + 5,0
̅) = 𝜇𝑋̅ =
𝐸(X ∑ 𝑋̅𝑖 = =3
25 25
𝑖=1
E a variância das médias amostrais:

25
1 (1,0 − 3,0)2 + ⋯ + (5,0 − 3,0)2
̅) =
𝑉(X 𝜎𝑋2̅ = ∑(𝑋̅𝑖 − 𝜇𝑋̅ )2 = =1
25 25
𝑖=1

Então, encontramos os seguintes valores:

Média populacional: Média das médias amostrais:


μ=3 μX̅ = 3
Variância populacional: Variância das médias amostrais:
σ2 = 2 σ2X̅ = 1

Diante desses valores chegamos as seguintes conclusões:

Proposição 1
̅) = 𝜇𝑋̅ é igual à média µ populacional,
A média das médias amostrais ou 𝐸(X
̅) = 𝜇𝑋̅ = 𝜇.
ou 𝐸(X

̅) = 𝜇𝑋̅ = 𝜇=3.
Associando esta proposição ao exemplo, verificamos que 𝐸(X

Proposição 2
A variância da média amostral é igual à variância populacional divida pelo
𝜎2
̅) = 𝜎𝑋2̅ =
tamanho da amostra, ou 𝑉(X .
𝑛

2
̅) = 𝜎𝑋2̅ = 1 = 𝜎 = 2
Conforme vimos no exemplo, 𝑉(X 𝑛 2

Portanto, na Distribuição Amostral se X~N(μ, σ2 ) e se extrairmos uma amostra


σ 2
aleatória de tamanho n, então ̅
X~N (μ, n ). Ou seja, a distribuição da média

amostral ̅
X será Normal com a mesma média populacional e uma variância n
vezes menor da populacional. Em outras palavras, a medida que o tamanho da
̅ diminui, ou seja, esse estimador torna-se
amostra aumenta, a variância de X
mais preciso quanto maior o tamanho da amostra.
Teorema do Limite Central

A Inferência Estatística é baseada no importantíssimo Teorema do Limite


Central que pode ser enunciado da seguinte maneira:

Na medida em que aumenta o tamanho da amostra (n), a distribuição da média


̅) de uma amostra aleatória, extraída de qualquer população, tende para uma
(X
2
distribuição Normal com média 𝜇 e variância 𝜎 ⁄𝑛 (ou desvio padrão 𝜎/√𝑛 ).

Dessa forma, o Teorema do Limite Central garante que se estivermos


trabalhando com uma amostra grande (n>30) e podermos obter uma
quantidade exaustiva dessas amostras de uma população e calcularmos a
média dos valores em cada amostra selecionada, o resultado será uma
distribuição de frequência de médias. Esta distribuição de médias será uma
Curva Normal.

Isso significa que o Teorema do Limite Central torna possível o cálculo de


probabilidade de variáveis que sejam médias sob a Curva Normal.

Exemplo:
Se na população X tem média 500 e desvio padrão 100, qual a probabilidade
de, tendo-se tirado uma amostra de 25 indivíduos, a média de minha amostra
estar entre 480 e 520?

População:

480 − 500
𝑍1 = = −1 ⇒ 𝑝(𝑍1 ) = 0,3413
20
520 − 500
𝑍2 = = +1 ⇒ 𝑝(𝑍2 ) = 0,3413
20

𝑃(480 ≤ 𝑋̅ ≤ 520) = 0,3413 + 0,3413 = 0,6826


Suponhamos agora que n=100. Qual então seria a resposta?

𝜎𝑋 100
= = 10
√𝑛 √100
480 − 500
𝑍1 = = −2 ⇒ 𝑝(𝑍1 ) = 0,4772
10
520 − 500
𝑍2 = = +2 ⇒ 𝑝(𝑍2 ) = 0,4772
10

𝑃(480 ≤ 𝑋̅ ≤ 520) = 0,9544

Ou 95,44% das amostras possíveis de tamanho 100 terão médias entre 480 e
520.

Distribuição Amostral para proporção

Seja uma população da qual se investiga a proporção ou a frequência relativa


de uma determinada característica de interesse. Suponha que seja possível
selecionar desta população todas as amostras possíveis de tamanho n>30.
Para cada amostra obtida, verifica-se a proporção da realização da
característica de interesse. Se as proporções observadas nas amostras
coletadas forem apuradas e descritas em uma distribuição de frequência, o
resultado de tal operação será a Distribuição Amostral da Proporção.

Chama-se p a proporção de sucessos na população e p̂ a proporção de


sucessos na amostra, da característica que se está estudando na população.

Seja p conhecida. A população pode ser definida como uma variável X tal que:

X = 1, se o elemento da população possui a característica


X = 0, se o elemento da população não possui a característica

Assim, P(X = 1) = p,
e a P(X = 0) = q = 1 - p,

sendo p + q = 1

A média da variável X é: μ = E(X) = p

E a variância de X é: σ2 = V(X) = pq = p(1 − p)

Tendo selecionado uma amostra de tamanho n dessa população, e definindo x


como o número de sucessos na amostra, ou seja, o número de casos na
amostra que possui a característica que se quer estudar, então o estimador de
p será p̂:

x
p̂ = n, a proporção de sucessos na amostra.

A média e a variância de p̂ são:

Média: μp̂ =E(p̂) = p

pq
Variância: σ2p̂ = V(p̂) =
n

Desvio Padrão: σp̂ = DP(p̂) = √pq/n

Pelo Teorema do Limite Central p̂ é aproximadamente normal.

pq
p̂ ≈ N (p, )
n

Isto significa que:

p̂ − p
Z= ≈ N(0,1)
pq

n
Exemplo:
Suponhamos que eu esteja observando um conjunto de 5 indivíduos. A cada
um pergunto “em quem vai votar”. As respostas a essa pergunta eu codifico da
seguinte forma: =1 se for votar no Brizola e =0 se for votar em outro candidato
Suponhamos agora que obtive as seguintes respostas: eleitores: 𝑋 =
{1,0,1,1,0}.
a) Calcule a média de X;
b) Qual a proporção votando em Brizola?

𝜇𝑋 = 𝑚é𝑑𝑖𝑎 = (1 + 0 + 1 + 1 + 0)⁄5 = 3⁄5 = 0,6


𝑝 = 𝑝𝑟𝑜𝑝𝑜𝑟çã𝑜 𝑣𝑜𝑡𝑎𝑛𝑑𝑜 𝑒𝑚 𝐵𝑟𝑖𝑧𝑜𝑙𝑎 = 3⁄5 = 0,6

Ou seja: 𝜇𝑋 = 𝑝 e vice-versa.

Uma proporção é uma média de uma variável codificada 1 para os casos


favoráveis e 0 para os desfavoráveis.

O desvio-padrão dessa variável é também fácil de calculas, sendo dado por

𝜎𝑝 = √𝑝(1 − 𝑝)

Onde p é a proporção. No nosso exemplo p=0,6, logo

𝜎𝑝 = √0,6 (1 − 0,6) = √(0,6)(0,4) = √0,24 = 0,49

Podemos, pois proceder normalmente como no caso de uma média qualquer.

Por exemplo, podemos perguntar, “Qual a probabilidade de, tirando uma


amostra de tamanho n=100, obter uma proporção amostral de eleitoras do
Brizola entre 0,55 e 0,65, sendo a proporção na população igual a 0,6?

Distribuição Amostral da Proporção:


Sendo:
𝜎𝑝 √0,60 × 0,40 0,49 0,49
= = = ≈ 0,05
√𝑛 √100 √100 10

𝑃(0,55 < 𝑝̂ < 0,65) =?


0,55 − 0,6 −0,05
p1 = = = −1
0,05 0,05
0,65 − 0,6 0,05
p2 = = =1
0,05 0,05

P(34% < p̂ < 45%) = P(−1 < p̂ < 1) = 0,6826

Como 0,55 e 0,65 definem o intervalo +- 1 desvio-padrão em torno da média,


então sabemos que essa probabilidade é de 0,6826.

ATIVIDADE 1

Atende aos objetivos 1 e 2

Em uma cidade, a proporção de pessoas que se sentem inseguras durante ao


andar na vizinhança durante a noite é de 40%. Retiramos uma amostra de 300
pessoas dessa população. Determinar a seguinte probabilidade:

P(34% < p̂ < 45%) =?

Sendo:
𝜎𝑝 √0,40 × 0,60 0,49
= = ≈ 0,03
√𝑛 √300 17,3

𝑃(0,34 < 𝑝̂ < 0,45) =?


0,34 − 0,4 −0,06
p1 = = = −2
0,03 0,03
0,45 − 0,4 0,05
p2 = = = 1,66
0,03 0,03

P(34% < p̂ < 45%) = P(−2 < p̂ < 1,66) = 0,4773 + 0,4515 = 0,9288

FIM DA ATIVIDADE 1

2 - Intervalo de Confiança

Antes de falarmos sobre Intervalo de Confiança, precisamos entender a ideia


de inferência estatística e estimação.

Inferência estatística é a parte da estatística que realiza conclusões sobre


parâmetros populacionais de interesse através de informações da amostra
dessa população. A inferência estatística possui dois problemas básicos: a
estimação e o teste de hipótese. Vamos trabalhar com a estimação nesta aula
e com o teste de hipótese na próxima.

A estimação é o processo inferencial pela qual se toma o valor de um


parâmetro populacional de interesse pelo valor de uma estimativa ou um
intervalo de estimativas amostrais considerados. É importante considerar que o
que se obtém é um valor ou um intervalo de valores que são aproximações do
parâmetro populacional desconhecido. Quando encontramos um valor único,
temos uma estimativa pontual, como por exemplo, a média amostral. Já
quando achamos um intervalo de valores (ou intervalo de estimativas), estamos
falando de intervalo de confiança.

O intervalo de confiança (IC) é utilizado com a finalidade de estimar um


parâmetro da população por meio de estatísticas. Por exemplo, você pode
estimar a renda familiar média dos agentes penitenciários de um Estado
(parâmetro) com base na renda familiar média de uma amostra aleatória de
1.000 funcionários (estatística). No entanto, como os resultados das amostras
varia (possui variância), você precisa adicionar uma medida de variabilidade
para a sua estimativa. Esta medida de variabilidade é chamada de margem de
erro, que é o coração do intervalo de confiança. A sua amostra estatística, mais
e menos a sua margem de erro, vai lhe dar uma os valores prováveis
(estimativa) para o parâmetro. Em outras palavras, o intervalo de confiança.

A margem de erro é a quantidade de "mais ou menos" (ou para cima e para


baixo) que é adicionado à estimativa pontual, que informa com certeza o
domínio em que deve estar o parâmetro populacional desconhecido. Essa
certeza é quantificada em termos de probabilidades de que o verdadeiro valor
do parâmetro está dentro do intervalo, e é chamada de nível de confiança
(1 − α). Já a probabilidade do intervalo não conter o parâmetro populacional é
chamado de nível de significância α.

Intervalo de confiança para a média:

𝑃(−𝑍𝛼 < 𝜇 < 𝑍𝛼 ) = (1 − 𝛼)

Ou seja, nós temos certeza de (1 − α) probabilidade de que o verdadeiro valor


de μ está entre o intervalo –Z e Z.

Nível de Confiança

Nível de Significância Nível de Significância


(1- ) 
2 2
-

Procedimentos para encontrar o Intervalo de Confiança para a média 𝜇:


1. Selecione uma amostra aleatória de n elementos de uma população.

̅.
2. Calcule a média amostral X

3. Calcule o desvio padrão da média amostral 𝜎𝑋̅ = 𝜎/√𝑛.

4. Escolha o seu nível de confiança (1 − α).

A fórmula para o cálculo do Intervalo de Confiança (IC) para a média 𝜇 é:

σ σ
̅ − zα
P (X <μ<̅
X + zα ) = (1 − α)
√n √n

ou

σ
̅ ± margem de erro = X
IC(1−𝛼) (μ) = X ̅ ± (z𝛼 )
√n

onde

zα é o valor do eixo horizontal no gráfico de uma distribuição Normal


Padronizada N(0,1). Isso significa que para achar o valor de zα é necessário
utilizar a Tabela de Probabilidade da Normal Padrão.

σ
(z𝛼 ) é a margem de erro.
√n

Exemplo:
Suponha que para certa população saibamos que seu desvio padrão é 𝜎 = 3.
Extraindo uma amostra de n = 100 indivíduos obtemos uma média amostral de
̅ = 18. Qual o intervalo de confiança a 99% para a estimativa da média da
X
população?

O intervalo de confiança a 99% é dado por


σ σ
̅ − zα
P (X ̅ + zα
<μ<X ) = (1 − α)
√n √n
3 3
P (18 − 2,57 < μ < 18 + 2,57 ) = 99%
√100 √100
P(18 − 0,77 < μ < 18 + 0,77) = 99%
P(17,2 < μ < 18,8) = 99%

99%

17,2 X

Ou seja, temos 99% de certeza que a média da população está entre 17,2 e
18,8, aproximadamente. A nossa margem de erro é de ± 0,77 com 99% de
confiança.

ATIVIDADE 2

Atende ao objetivo 3

Um Comandante propôs-se a melhorar o atendimento do 190 em seu Batalhão


de Polícia Militar. Como não havia recursos para contratar mais policiais, ele
decidiu tornar o atendimento mais eficiente. Para estimar o tempo médio gasto
entre a chamada e o atendimento, ele sorteou aleatoriamente 64 pessoas que
haviam solicitado o serviço do 190: essa amostra indicou que o tempo médio
entre a chamada e o atendimento era de 10 minutos, com desvio padrão de 3
minutos. Com base nisso, determine um intervalo de confiança de 90% para o
tempo médio entre a chamada no 190 e o atendimento ao solicitante.

RESPOSTA

O intervalo de confiança a 90% é dado por


σ σ
̅ − zα
P (X ̅ + zα
<μ<X ) = (1 − α)
√n √n
3 3
P (10 − 1,65 < μ < 10 + 1,65 ) = 90%
√64 √64
P(10 − 0,62 < μ < 10 + 0,62) = 90%
P(9,38 < μ < 10,62) = 99%

FIM DA ATIVIDADE 2

Intervalo de confiança para a proporção:

Consideremos que estamos interessados em encontrar o Intervalo de


Confiança para a proporção de sucessos de um determinado evento em uma
população. A distribuição amostra de p não é Normal. Neste caso, para garantir
a distribuição aproximadamente Normal, é necessário uma amostra n>30 e
recorrermos ao Teorema do Limite Central para podermos construir um
intervalo de confiança para o parâmetro p.

𝑝𝑞
Lembrando que 𝑝̂ ≈ 𝑁 (𝑝, )
𝑛

Para achar o Intervalo de Confiança para p (proporção de sucessos), é preciso:

1. Selecione uma amostra aleatória de n elementos de uma população.

2. Calcule a média amostralp̂.

3. Calcule o desvio padrão da média amostral 𝜎p̂ = √𝑝𝑞/𝑛.

4. Escolha o seu nível de confiança (1 − α).

A fórmula para o cálculo do Intervalo de Confiança (IC) para a proporção p é:


pq pq
P (p̂ − zα √ < p < p̂ + zα √ ) = (1 − α)
n n

ou

pq
IC(1−𝛼) (p) = p̂ ± margem de erro = p̂ ± (z𝛼 √ )
n

Exemplo:

Pouco antes da eleição presidencial de 1972 nos EUA, uma pesquisa Gallup
feita junto a 2000 eleitores acusou 760 favoráveis ao McGovern e 1240
favoráveis a Nixon. Calcular o intervalo de confiança de 95% para a proporção
na população (p) que votou a favor de McGovern.

A amostra n=2000 e a proporção na amostra é p̂ = 760/2000=0,38

O desvio-padrão, como já sabemos, no caso de uma proporção é função de p:

𝑆𝑝 = √𝑝(1 − 𝑝) = √0,38(1 − 0,38) = √0,236

Portanto, a estimativa da proporção na população p num intervalo de confiança


de 95% é dada por:

pq √0,236
IC(1−𝛼) (p) = p̂ ± (z𝛼 √ ) = 0,38 ± 1,96 ≈ 0,38 ± 0,02
n √100

Ou seja, temos 95% de certeza de que a proporção de eleitores que votarão


em McGovern está entre 36 e 40% da população. O erro de estimativa total é
de ±2%.
95%

36% 40% X

(De fato, a proporção dos que votaram em McGovern naquela eleição foi de
38,2%).

Se quiséssemos fazer uma estimativa com 99% de confiança, teríamos que


fazer

pq √0,236
IC(1−𝛼) (p) = p̂ ± (z𝛼 √ ) = 0,38 ± 2,57 ≈ 0,38 ± 0,03
n √100

Ou seja, temos 99% de certeza de que a proporção de eleitores que votarão


em McGovern está entre 35 e 41% da população. O erro de estimativa é agora
de ±3%.

99%

35% 41% X

É assim que as estimativas das prévias são, ou melhor, deveriam ser feitas.
ATIVIDADE 3

Atende aos objetivos 2 e 3

Uma amostra de 100 pessoas escolhidos ao acaso num certo município


indicam que 18% deles já haviam sido vítimas de roubo. Achar os limites de
confiança (intervalo de confiança) para a proporção vitimizadas por roubo ao
nível de confiança de 95%

RESPOSTA

Lembrando do Teorema do Limite Central, podemos considerar a proporção


amostral de vitimizados por roubo aproximadamente Normal. Logo, é possível
encontrar o intervalo de confiança.

pq √0,18 ∗ 0,82 √0,15


IC(1−𝛼) (p) = p̂ ± (z𝛼 √ ) = 0,18 ± 1,96 = 0,18 ± 1,96
n √100 √100
≈ 0,18 ± 0,08

Ou seja, temos 95% de certeza de que a proporção de vitimizados por roubo


está entre 10% e 26% da população.

FIM DA ATIVIDADE 2

3 - Tamanho da Amostra

Finalmente, algo também muito importante:

Observe que a expressão para o erro de estimativa a um nível de confiança de


95% é
𝜎𝑋
e𝑟𝑟𝑜 = 1,96
√𝑛
(Valor de Z correspondente a 95%: 𝑍95% )

Para 99% de confiança é


𝜎𝑋
e𝑟𝑟𝑜 = 2,57
√𝑛
(Valor de Z correspondente a 99%: 𝑍99% )

Ou seja, de modo genérico, vimos que:


𝜎𝑋
e𝑟𝑟𝑜 = 𝑧𝛼
√𝑛

Isso nos permite escrever que n, o tamanho da amostra é dado por:

𝑧𝛼 𝜎𝑋 𝑍 𝜎 2
𝛼 𝑋
√𝑛 = e𝑟𝑟𝑜
⟹ 𝑛 = ( e𝑟𝑟𝑜 )

Observe que o tamanho da amostra pode ser visto como função de:
1. O nível de confiança que eu quero ter na minha inferência: quanto maior o
nível de confiança (isto é 𝑍𝛼 ), maior o tamanho da amostra necessária;

2. A heterogeneidade da população (isto é 𝜎𝑋 ): quanto mais heterogêneo o


fenômeno que eu estiver querendo observar, maior a amostra necessária para
observá-lo;

3. O erro (absoluto) que eu estou disposto a incorrer: quanto maior o erro que
eu quiser admitir, menor a amostra que eu preciso.

Assim, o tamanho da amostra n não tem nada a ver com o tamanho da


população. Ele é função apenas do nível de confiança, da heterogeneidade da
população e do erro de estimativa que eu quero cometer. Portanto, a rigor, não
faz muito sentido (teórico) dizer “vou tirar uma amostra de 5% da população” ou
qualquer outra coisa parecida.
𝑍 𝜎 2
𝛼 𝑋
Em termos práticos, a expressão 𝑛 = ( e𝑟𝑟𝑜 ) nos dá a maneira de calcular o

tamanho da amostra quando vou fazer um levantamento.

Exemplo
Suponhamos que eu saiba (através do Censo, por exemplo) que a média de
escolaridade na minha população é de 8 anos e o desvio padrão é de 4 anos.
Eu quero fazer uma pesquisa e só admito um erro máximo na minha estimativa
de 0,5 ano. Pretendo trabalhar com um nível de confiança de 95%. Qual o
tamanho da amostra que eu necessito para a minha pesquisa?

1,96∗4 2
Resposta: 𝑛 = ( ) ≈ 246
0,5

Ou seja, necessito de uma amostra de aproximadamente 246 indivíduos. A um


nível de confiança de 99% seriam necessários

2,57 ∗ 4 2
𝑛=( ) ≈ 423 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜𝑠
0,5

Exemplo:
Imagine agora o caso de uma prévia eleitoral. Qual o número de casos na
minha amostra necessários para fazer inferência a 95% de confiança e
incorrendo num erro máximo de 3%?

Observe que a pior situação possível é aquela em que a proporção votando


num candidato é 50%: nesse caso, o desvio-padrão (a heterogeneidade) é
máximo e, portanto, configura uma situação limite para o tamanho da amostra.

Vamos, portanto, supor que, na pior das hipóteses, p=0,5. Logo:


𝑆𝑝 = √0,5(1 − 0,5) = √0,25 = 0,5
Assim,
1,96 ∗ 0,5 2
𝑛=( ) ≈ 1067 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜𝑠 𝑛𝑜 𝑚á𝑥𝑖𝑚𝑜.
0,03

Se eu estou disposto a admitir um erro maior, digamos ±4%, o valor de n será


1,96 ∗ 0,5 2
𝑛=( ) ≈ 600 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜𝑠 𝑛𝑜 𝑚á𝑥𝑖𝑚𝑜.
0,04

ATIVIDADE 4

Atende ao objetivo 4

Qual o tamanho de amostra para uma pesquisa sobre a percepção de


segurança em uma cidade? A pesquisa deve ter um nível de confiança de 99%
e aceitamos um erro máximo de 5%.

RESPOSTA

A pior situação possível é aquela em que 50% das pessoas se sentem seguras
e 50% inseguras. Com isso, o desvio padrão será o mais alto (maior
heterogeneidade). Então, supondo p=0,5, teremos:
𝑆𝑝 = √0,5(1 − 0,5) = √0,25 = 0,5
Assim,
2,58 ∗ 0,5 2
𝑛=( ) ≈ 666 𝑖𝑛𝑑𝑖𝑣í𝑑𝑢𝑜𝑠 𝑛𝑜 𝑚á𝑥𝑖𝑚𝑜.
0,05

FIM DA ATIVIDADE 4

4 - Conclusão

Uma das principais metas da estatística é usar as informações coletadas a


partir de uma amostra para obter um resultado mais próximo possível da a
população que se está estudando, uma vez que realizar levantamentos em
toda a população (censo), em geral, é muito caro e trabalhoso. Os valores
desconhecidos que resumem a população são chamados de parâmetros
populacionais. Os pesquisadores normalmente querem obter uma estimativa
sobre esses parâmetros através de resultados amostrais. Uma forma de fazer
isso é através de intervalo de confiança. O intervalo de confiança é a
probabilidade de que o parâmetro populacional esteja entre um limite superior e
um limite inferior de uma distribuição de probabilidade.

Para a construção do intervalo de confiança é necessário conhecer a


distribuição amostral do estimador, que pode ser a média ou a proporção
amostral, e o Teorema do Limite Central, que ajusta uma distribuição (ainda
que ela não seja Normal) para aproximadamente Normal. Com essas
estatísticas é possível estimar diferentes parâmetros.

RESUMO

A grande ideia de um intervalo de confiança é construir um intervalo de valores


possíveis para um parâmetro da população desconhecido. O nível de confiança
é uma medida representa a chance ou a probabilidade de que o verdadeiro
valor do parâmetro esteja contido no intervalo de confiança. Em outras
palavras, o nível de confiança, é a possibilidade do verdadeiro valor estar no
intervalo definido. A fórmula geral para um intervalo de confiança é

Intervalo de confiança = Amostra estatística ± Margem de erro

No caso da média, a fórmula é a seguinte:

σ
̅ ± margem de erro = X
IC(1−𝛼) (μ) = X ̅ ± (z𝛼 )
√n

Com isso, verificamos que é possível achar o tamanho da amostra a partir da


margem de erro (ou erro absoluto), do nível de confiança e da heterogeneidade
(medida pelo desvio padrão).
𝑍𝛼 𝜎𝑋 2
𝑛=( )
e𝑟𝑟𝑜

É importante ter clareza que todas as pesquisas amostrais possuem margem


de erro, já que não se está entrevistando todas as pessoas da população.

Leitura Recomendada

AGRESTI, Alan; Barbara FINLAY. Métodos Estatísticos para Ciências Sociais.


Ed. Penso, 2012

BARBETTA, Pedro Alberto. Estatística aplicada às ciências sociais. Ed. UFSC,


2008.

Você também pode gostar