Apostila Estatística Unicarioca
Apostila Estatística Unicarioca
Apostila Estatística Unicarioca
Apresentação
Este material é parte integrante da Disciplina Estatística. Você acessa o ambiente virtual de
aprendizagem: estuda, realiza as atividades, esclarece as dúvidas com seu professor-tutor! Aqui,
você reforça o seu estudo, ainda tem a possibilidade de realizar mais atividades, aprimorando,
assim, o seu aprendizado.
Para ajudá-lo a consolidar seus conhecimentos, ao longo do material, você encontrará ícones com
funções e objetivos distintos. Observe.
Fique atento: destaca alguma informação importante que não deve ser esquecida por
você. Também pode acrescentar um conhecimento novo ou uma experiência ao tema
tratado.
Dica: traz novos conhecimentos em relação ao tema tratado ou pode indicar alguma
fonte de pesquisa para que você aprofunde ainda mais seus conhecimentos no futuro.
Aproveite! Você tem em mão a chance de desenvolver ou aprofundar seus conhecimentos na área
de Estatística.
1
2
Sumário
Unidade I – Conceitos básicos ..................................................................................................... 6
3
3.4 Mediana .............................................................................................................................. 33
Unidade V – Probabilidade........................................................................................................ 53
5
6
Unidade I – Conceitos básicos
7
1.1 Estatística
De origem muito antiga, a Estatística teve durante séculos um caráter meramente
descritivo e de registro de ocorrências. As primeiras atividades datam de cerca de 2000 a.C. e se
referem a iniciativas como o recenseamento das populações agrícolas chinesas.
O que modernamente se conhece como Ciências Estatísticas, ou simplesmente Estatística, é
um conjunto de técnicas e métodos de pesquisa que, entre outros tópicos, envolve o planejamento
do experimento a ser realizado, a coleta qualificada dos dados, a inferência e o processamento e
análise das informações. Grande parte das informações divulgadas pelos meios de comunicação
atual provém de pesquisas e estudos estatísticos.
Estatística Descritiva (ou Dedutiva) que trabalha com a coleta, análise e interpretação de dados
relativos a uma população. Por exemplo, análise dos dados do censo realizado periodicamente no
Brasil.
Estatística Indutiva (ou Inferencial) é aquela que partir de dados de uma amostra, permite a
tomada de decisão sobre a população de origem. Consiste em concluir ou prever a evolução de
fenômenos ao longo do tempo. Um exemplo típico são as pesquisas de intenção de voto realizadas
durante o período eleitoral. Os institutos de pesquisa (IBOPE, DataFolha etc.) não perguntam a
todos os eleitores em quem eles vão votar, pois esse processo é inviável do ponto de vista
operacional e também porque tem custo muito elevado. As entrevistas são realizas apenas com
uma pequena parte dos eleitores - uma amostra (que represente bem essa população de
eleitores)!
Por meio das análises feitas a partir de dados organizados podemos, em muitos casos, fazer
previsões, determinar tendências, auxiliar na tomada de decisões e, portanto, elaborar um
planejamento com mais precisão. No estudo que faremos aqui veremos como organizar um grupo
de dados em tabelas e como construir gráficos a partir desses dados.
População é o total do grupo a ser observado (universo) e que possui pelo menos uma
característica em comum. Por exemplo, a população dos alunos do curso de Administração da
UniCarioca. Uma população pode ser finita ou infinita.
8
Por exemplo:
- a população dos alunos do curso de Administração da UniCarioca.
- a população dos eleitores do município do Rio de Janeiro.
Infinita - Quando apresenta um número infinito de elementos, ou seja, é aquela cujos elementos
não podem ser contados.
Por exemplo:
- os pontos de uma reta.
- a população de insetos (formigas, por exemplo!).
Alunos do curso de Pedagogia da UniCarioca Cada aluno que estuda no Curso de Pedagogia
Atributos - São as características que não podem ser medidas numericamente (são qualitativas),
como por exemplo: religião, estado civil, cor etc. Quando alguém pergunta a sua religião você não
pode responder simplesmente: minha religião é 2,8! Ou dizer que seu estado civil é 1,9! Religião e
estado civil são atributos - ou variáveis qualitativas! Assim, não podem assumir valores numéricos.
Variáveis - São as características que podem ser medidas numericamente (quantitativas), como
por exemplo: peso, altura, taxas de inflação, salário etc. Assim, se alguém pergunta o seu peso você
pode responder tranquilamente: 57,3 kg! Aqui peso não é qualidade, mas uma variável que pode
ser mensurada (medida) numericamente!
As variáveis podem ser discretas ou contínuas.
Variáveis Discretas - São aquelas que usualmente assumem valores inteiros (contagens). Exemplo:
número de automóveis, número de ligações, número de habitantes, número de dependentes,
número de filhos etc. Assim, se alguém perguntar quantos filhos você tem - você não pode
responder que tem 2,8 filhos! Você vai responder que tem um número inteiro de filhos, 0,1,2,3,4....
Variáveis Contínuas - São aquelas que podem assumir qualquer valor em um intervalo de
observação. Exemplo: rendimentos, taxas de inflação, peso, altura etc. Por exemplo, qual o seu
peso? Meu peso é 57,3 Kg! Quanto foi a taxa de inflação mês passado? 2,19 %!
Fração amostral (FA) - É o tamanho da amostra (n) dividido pelo tamanho da população (N). FA =
n/N
Por exemplo, se o tamanho da População (N) é 50 e o tamanho da Amostra (n) é 10 então
a Fração Amostral FA = 10/50 = 20%.
Rol - É uma lista em que os valores da variável de estudo estão organizados em ordem crescente ou
decrescente.
Exemplos:
1 ; 4 ; 6 ; 10 esse é um Rol crescente.
8; 6 ; 2 ; 1 esse é um Rol decrescente.
E esse? 1 ; 4; 6; 6; 10 crescente ou decrescente?
10
Exemplos:
E1 - retirar uma carta de um baralho com 52 cartas e observar o resultado.
E2 - retirar com reposição bolas de uma urna que contém 5 bolas brancas e 6 pretas.
E3 - jogar uma moeda 10 vezes e observar o número de caras.
No experimento E1, por exemplo, você nunca sabe qual carta vai ser sorteada (são 52)!
Será que a Megassena é um experimento aleatório? E o Jogo do Bicho?
1.4.2 Evento
É qualquer subconjunto do espaço amostral S de um Experimento Aleatório.
Exemplo:
No lançamento de um dado o Espaço Amostral é S = {1,2,3,4,5,6}
Então podemos ter os seguintes eventos:
A = {2,4,6} S é um evento de S, pois A está contido () em S.
B = {1,2,3,4,5,6} S é um evento de S denominado Evento Certo.
C = {4} S é um evento de S
D = Ø S é um evento de S denominado Evento Impossível.
Um evento pode ser definido por uma sentença, logo os eventos acima podem ser assim
definidos:
A obter um número par na face superior
B obter um número menor ou igual a 6 na face superior
C obter o número 4 na face superior
D obter um número maior que 6 na face superior! Não é possível obter um número
maior do que 6 no lançamento de um dado! Por essa razão ele é chamado de evento impossível.
Exemplo:
Suponha o espaço amostral (S) relativo ao “lançamento simultâneo” de duas moedas.
Assim o nosso Espaço Amostra S = { (Ca,Ca), (Ca,Co), (Co,Ca), (Co,Co) }. Ou seja, não existe
outra possibilidade de ocorrência quando lançamos 2 moedas além dessas quatro. Se escolhermos
X para representar o “número de caras” que aparecem, podemos associar a cada ponto do espaço
amostral (cada par (.,.)) um número para X. Esta associação está na tabela que se segue:
11
Ponto Amostral X
(Ca,Ca) 2
(Ca,Co) 1
(Co,Ca) 1
(Co,Co) 0
Você saberia dizer qual a chance (a probabilidade!) de se obter 2 caras nesse experimento?
Pense... Quantas possibilidades (pontos amostrais) nos temos?
Observação: tabela é uma das formas mais simples que nós seres humanos utilizamos para
armazenar dados!
12
Tabela - É um quadro (linhas e colunas) que resume um conjunto de observações.
Observe o exemplo.
13
Observação
De acordo com a Resolução nº 886 da Fundação IBGE, nas casas e células devemos colocar:
um traço horizontal ( - ) quando o valor for zero, não só quanto à natureza dos dados, como
quanto ao resultado.
três pontos (...) quando não temos dados.
um ponto de interrogação (?) quando temos dúvidas quanto à exatidão de determinado
valor.
zero(0) quando o valor é muito pequeno para ser expresso pela unidade utilizada.
Coleta direta: quando é feita sobre elementos informativos de registro obrigatório como os
nascimentos, os casamentos e os óbitos, a importação/exportação de mercadorias. Ou ainda,
quando os dados são coletados (coligidos) pelo próprio pesquisador, através de inquéritos e
questionários, como é o caso das notas de verificação, exames e do censo demográfico.
Contínua: quando é feita continuamente, como nascimentos, óbitos, frequência de alunos às aulas.
Periódica: quando é feita em intervalos constantes de tempo, como os censos (10/10 anos), as
avaliações mensais de alunos.
Ocasional: quando é feita ocasionalmente, com o objetivo de atender a uma conjuntura ou a uma
emergência, como no caso de epidemias.
Coleta indireta: quando é inferida a partir de elementos conseguidos pela coleta direta, ou através
do conhecimento de outros fenômenos que, de algum modo, estejam relacionados com o
fenômeno em questão. Um exemplo é uma pesquisa sobre mortalidade infantil, que é feita através
de dados colhidos por uma coleta direta (óbitos).
14
4. Apuração dos dados: consiste em resumir os dados através de sua contagem e
agrupamento. A apuração pode ser manual, mecânica ou eletrônica (mais usada).
15
Unidade II – Organização de dados estatísticos
16
2.1 Série estatística
É toda tabela que apresenta a distribuição de um conjunto de dados estatísticos em função
da época, do local ou da espécie. Nessas tabelas os dados podem estar grupados ou não agrupados.
17
Série específica ou categórica: a variável é o fenômeno descrito.
Fi Fri Fri
Classe SM fi fri Xi Fi
(Abaixo de) (abaixo de) (Acima de)
1 1 ├─ 3 90 90 0.45 0,45 2 200 1,00
2 3├─ 5 50 140 0.25 0,70 4 110 0,55
3 5 ├─ 7 30 170 0.15 0,85 6 60 0,30
4 7 ├─ 9 20 190 0.10 0,95 8 30 0,15
5 9 ├─ 11 10 200 0.05 1,00 10 10 0,05
200 1.00
Tabela1 – Rendimento dos empregados de uma empresa do ABC paulista em salários mínimos (SM).
Notação
O símbolo ├─ significa que o intervalo é FECHADO À ESQUERDA e ABERTO À DIREITA.
Por exemplo, o intervalo 3 ├─ 5 significa que o 3 pertence ao intervalo, mas o 5 não pertence. Nesse
intervalo estão os empregados que ganham 3 SM (inclusive) até os que ganham menos que 5 SM (4,99 SM
por exemplo!). Assim, um empregado que ganha exatamente 5 SM pertence ao intervalo de classe 3 (5 ├─ 7)
e não ao intervalo de classe 2 (3 ├─ 5). O entendimento dessa notação é fundamental para trabalharmos com
esse tipo de tabela.
18
Um intervalo fechado à esquerda pode ser representado de duas formas:
Exemplo para 3 e 5 : 3├─ 5 ou [ 3 , 5).
Limite inferior da DF: valor a partir do qual são contadas as observações da distribuição. Logo, no
nosso exemplo Li = 1 SM
Limite superior da DF: valor até o qual são contadas as observações da distribuição. No nosso
exemplo Ls = 11 SM
Amplitude da DF: é a diferença entre o limite superior (Ls) e o limite inferior (Li).
Amplitude = Ls - Li = 11 - 1 = 10 SM
Classes da DF: são os subintervalos nos quais são contadas as observações da variável. Ou seja, são
os intervalos que você (pesquisador) usou para dividir a variável que está sendo estudada. Que
variável é essa? O rendimento dos empregados de uma empresa do ABC paulista! Como a
amplitude total é 10 e dividimos a distribuição em 5 classes, cada uma delas terá amplitude igual a
2 (10/5 = 2!).
Limite superior da classe: valor até o qual são contadas as observações dentro da classe.
Exemplos:
ls2 = 5 o limite superior da classe2 é 5
ls5 = 11 o limite superior da classe5 é 11
19
Sabe dizer por que é inclusive 1 e exclusive 3?
Pense um pouco, já falamos sobre esse assunto em NOTAÇÃO!
f5 = 10 significa que 10 empregados ganham entre 9 (inclusive) e 11 (exclusive) salários
mínimos!
Frequência acumulada absoluta “abaixo de” (Fi): é o número de observações da variável da classe
1 até a classe considerada (i). Assim Fk = f1 + f2 + f3 + ... + fk
Exemplos:
F1 = 90 = f1 = 90
F2 = f1 + f2 = 90 + 50 = 140
F3 = f1 + f2 + f3 = 90 + 50 + 30 = 170
F5 = f1 + f2 + f3 + f4 + f5 = 200 soma de todas as frequências, da classe 1 até a classe 5!
Tem uma forma mais rápida (e racional) de calcular as frequências acumuladas?
Veja F3 = f1 + f2 + f3 =, mas f1 + f2 = F2! (que já foi calculada!)
Assim, F3 = F2 + f3 = 140 + 30 = 170! Muito mais fácil e rápido!
Frequência acumulada absoluta “acima de” (Fi): é o número de observações existentes com
valores maiores ou iguais ao limite inferior da classe.
Exemplo:
F1 = 200 todos ganham 1 ou mais salários mínimos!
F2 = 110 são os que ganham 3 ou mais salários mínimos. Confira na Tabela1!
F5 = 10 somente 10 ganham 9 ou mais salários mínimos!
Observe agora o seguinte: muitas vezes o pesquisador (ou o gestor - o que decide!) está mais
interessado em percentuais do que em valores absolutos! Os próximos elementos que vamos
trabalhar calculam esses percentuais!
Frequência simples relativa (fri): é a relação entre a frequência simples da classe (fi) e a frequência
total (soma das frequências Σfi).
fri = fi / Σfi
Na nossa tabela Σfi = 200.
Exemplos: fr1 = f1 / Σfi = 90/200 = 0,45 = 45%
fr4 = f4 / Σfi = 20/200 = 0,10 = 10%
fr5 = f5 / Σfi = 10/200 = 0,05 = 5%
20
Frequência acumulada relativa (Fri): é a relação entre a frequência acumulada (Fi) e a frequência
total (Σfi).
Fri = Fi / Σfi
Exemplos:
Fr1 = F1 / Σfi = 90/200 = 0,45 = 45%
Fr4 = F4 / Σfi = 190/200 = 0,95 = 95%
Você seria capaz agora de reconstruir a Tabela 1 a partir das frequências simples?
Observe abaixo a Tabela 1 apenas com as frequências simples.
1 1 ├─ 3 90
2 3 ├─ 5 50
3 5 ├─ 7 30
4 7 ├─ 9 20
5 9 ├─ 11 10
200
21
Tabela 2 – A tabela acima exibe o número de empregados com 0, 1, 2, 3, 4 ou 5 dependentes.
2.3 Gráficos
É uma forma de apresentação de dados estatísticos, com o objetivo de produzir no
investigador uma impressão mais rápida do fenômeno em estudo. A representação gráfica deve
obedecer aos seguintes requisitos:
clareza - O gráfico deve possibilitar uma correta interpretação dos valores representativos do
fenômeno em estudo.
22
Esta tabela exibe as notas de Estatística em uma turma com 25 alunos. Todos os intervalos
têm a mesma amplitude (2) e são fechados à esquerda e abertos à direita (como na maioria das
distribuições). A coluna de frequência relativa (fri) está exibida de duas formas, no formato decimal
usual (0,16 para a classe1, por exemplo) e no formato percentual (16%).
Histograma
É a representação gráfica de uma distribuição de frequência usando-se retângulos
justapostos (um ao lado do outro). A base corresponde aos intervalos de classes (eixo das abscissas-
horizontal), e a altura (proporcional à frequência de cada classe) é colocada no eixo das ordenadas
(vertical). Na construção do histograma, as amplitudes dos intervalos de classe (base dos
retângulos) são iguais. Dessa forma, as áreas de cada retângulo do histograma são proporcionais às
frequências de cada classe.
HISTOGRAMA DA TABELA3
Pergunta 1 - O que fornece um resultado mais imediato sobre o desempenho dos 25 alunos nessa
prova, a Tabela3 ou o Histograma?
Pergunta 2 - Vamos imaginar que na construção do Histograma em vez das frequências simples (fi)
você tivesse usado as frequências relativas (fri). O que iria mudar no Histograma? Ele seria o
mesmo? Teria o mesmo formato?
Polígono de frequência
É construído ligando-se os pontos médios dos topos dos retângulos de um histograma.
Observação: a soma das áreas dos retângulos do histograma = Área total limitada pelo polígono de
frequência e o eixo dos x.
23
Polígono de frequência acumulada “abaixo de”
24
Exemplificaremos os demais tipos de gráficos a partir da tabela abaixo
25
Colunas justapostas
É aquele em que os retângulos são dispostos um ao lado do outro.
Barras múltiplas
As barras são colocadas uma ao lado da outra.
Colunas Superpostas
26
Barras Superpostas
Gráfico de setores
Representado por meio de setores em um círculo. Cada setor representa uma parte de um
todo.
Esse tipo de gráfico é utilizado quando desejamos observar as parte de um todo como no
exemplo acima.
27
Unidade III – Medidas de Posição
28
3.1 Medidas de Posição
São aquelas que indicam a posição da distribuição no eixo das abcissas. Se dividem em
Medidas de Tendência Central e Separatrizes.
Usando a fórmula x
x i
temos:
N
̅
frequência da classe i.
29
Neste caso, como as frequências são números indicadores da intensidade de cada valor da
variável, elas funcionam como fatores de ponderação (média ponderada). Vamos ver em um
exemplo prático como fazer.
Exemplo
Calcular a média aritmética da seguinte distribuição (dados agrupados):
x 2 3 5 7 9
f 4 6 10 3 2
Antes de fazer os cálculos entenda o significado da tabela. O valor 2 ocorreu 4 vezes, o valor
3 ocorreu 6 vezes, e assim por diante...
Temos: ̅
Perceba que N é a soma das frequências, ou seja, N = 4+6+10+3+2 = 25!
Na tabela abaixo estão listadas as alturas (em cm) de um grupo de 40 pessoas. Calcular a
média aritmética e os desvios da distribuição.
1 150 ˫ 154 4
2 154 ˫ 158 9
3 158 ˫ 162 11
4 162 ˫ 166 8
5 166 ˫ 170 5
6 170 ˫ 174 3
40
30
Precisamos preencher cada uma das colunas desta tabela para calcular a Média e os
respectivos desvios di. Vamos começar calculando a coluna dos Pontos Médios!
O Ponto Médio em cada classe (nesse caso são 6 classes) é igual a média aritmética entre os
limites da classe.
Temos então:
Não! Basta calcular o da primeira classe (152) e somar a amplitude de cada intervalo de
classe (no nosso exemplo essa amplitude vale 4).
Assim se x1 = 152,
x2 = 152 + 4 = 156,
x3 = 156 + 4 = 160, e assim por diante...
Refaça então o cálculo dos pontos médios dessa forma. Perceba que é muito mais fácil e
muito mais rápido!
Agora que os pontos médios estão prontos e colocados na tabela vamos calcular a coluna
correspondente a fi xi. Nesse caso basta multiplicar cada valor da frequência pelo ponto médio da
classe. Observa na tabela abaixo. Perceba que a soma dessa coluna é 6.440!
40 6.440
31
Agora já podemos calcular o valor da Média Aritmética.
Temos: ̅ , mas e
Logo: ̅
Então a altura média dessas 40 pessoas é 161cm, ou 1,61m (1 metro e 61 cm!)
Veja, se cada ponto médio é igual ao anterior mais 4, então cada desvio é igual ao anterior
mais 4!
Fácil e imediato:
-9 + 4 = -5
-5 + 4 = -1
-1 + 4 = 3 e assim por diante!
Agora basta preencher na tabela a coluna dos desvios e depois multiplicar pelas frequências
- não esqueça que essa tabela se chama Distribuição de Frequência!
40 6.440 0
3.4 Mediana
É o valor que ocupa a posição central de um conjunto de N dados ordenados. Assim, se N
for par, a mediana será a média aritmética entre os dois termos centrais. Se N for ímpar a mediana
é o termo central. Observe os exemplos a seguir.
Ordenando vem:
2 5 6 9 10 13 15 16 18
1 2 3 4 5 6 7 8 9
Termo central
1 2 3 4 5 6 7 8
Termos centrais
Observações
1. O valor da mediana pode ou não coincidir com um elemento da série, como vimos.
Quando o número de elementos da série é ímpar, há a coincidência. O mesmo não
acontece, em geral, quando esse número é par.
2. A mediana e a média aritmética não têm necessariamente, o mesmo valor.
33
3. A mediana depende da posição e não dos valores dos elementos na série ordenada. Essa
é uma das diferenças entre a mediana e a média (que é muito influenciada pelos valores
extremos - outliers).
4. A mediana é designada muitas vezes por valor mediano.
Fórmula Geral
, onde:
Regra Prática
1. Determinar a frequência acumulada.
Exemplo
Determinar a mediana da seguinte distribuição de frequência:
1 150 ˫ 154 4 4
2 154 ˫ 158 9 13
Classe da
3 158 ˫ 162 11 24
Mediana
4 162 ˫ 166 8 32
5 166 ˫ 170 5 37
6 170 ˫ 174 3 40
40
34
Aplicando a regra prática para determinar a mediana vem:
= 20, logo a classe mediana é a Classe 3, pois 24 é a primeira frequência acumulada
maior do que 20!
= 158 limite inferior da classe da mediana
= 13 frequência acumulada anterior à classe da mediana
= 4 amplitude da classe da mediana = (162-158)
= 11 frequência simples da classe da mediana
Vem:
( )
3.5 Moda
É o valor que ocorre com mais frequência (mais vezes) em um conjunto de dados.
Moda Czuber
Fórmula de CZUBER
, onde:
Exemplo:
Determinar a moda da seguinte distribuição de frequência (Fórmula de Czuber).
Classe i Estrutura (cm) fi
1 150 ˫ 154 4
2 154 ˫ 158 9
Classe Modal (maior
3 158 ˫ 162 11
frequência - 11)
4 162 ˫ 166 8
5 166 ˫ 170 5
6 170 ˫ 174 3
40
Temos:
A maior frequência é 11, logo, a classe modal é a de ordem i = 3.
Temos então:
= 158
= 162 – 158 = 4
D1 = = 11 – 9 = 2
D2 = = 11 – 8 = 3
36
3.6 Posição relativa da média, mediana e moda
A posição relativa da Média, Moda e Mediana é importante para conhecermos o tipo de
distribuição que estamos trabalhando. Em uma distribuição simétrica, por exemplo, as três
medidas de posição são iguais, porém, quanto mais assimétrica for a curva, maior será a diferença
entre essas medidas. Para uma distribuição em forma de sino (Normal) pode-se visualizar essas
diferenças nos exemplos que se seguem.
Figura A
Em todas essas figuras marcamos os valores da média, mediana e da moda no eixo
horizontal e no eixo vertical marcamos as frequências. Perceba que em todas as figuras o valor da
Moda corresponde ao ponto mais alto da curva (o que tem a maior frequência!).
Figura B
Nesse tipo de distribuição a Média( ̅ ) é maior que a Mediana (Md) que por sua vez é maior
que a Moda (Mo).
Em uma distribuição com assimetria negativa (à esquerda), verifica-se que: ̅
(média < mediana < moda) (Figura C).
37
Figura C
Aqui a Média é menor que a Mediana que por sua vez é menor que a Moda.
Percebeu que a Mediana está entre a Média e a Moda?
Percebeu também que a Moda corresponde sempre ao ponto mais alto do gráfico - o de
maior frequência!
QUARTIS
Dividem os valores de uma série em 4 (quatro) partes iguais, ou seja, cada uma delas tem a
mesma frequência – a mesma quantidade de dados!
Temos então:
Q1 (1º quartil): é um valor tal que a quarta parte (25%) dos dados é menor que ele.
Q2 (2º quartil): coincide com a mediana, deixa 50% dos valores abaixo e 50% acima dele.
Q3 (3º quartil): é um valor tal que (75%) dos valores é menor que ele.
38
[
f i
Faa ]
Temos, Md li
2
h
f md
Onde:
= Limite inferior da classe do quartil k
= Frequência acumulada da classe anterior à classe do quartil k
= Frequência simples da classe do quartil k
Assim,
[ ]
k = 1 (1/4=25%)
[ ]
k = 2 (2/4=50%), ou seja, Q2 = Mediana!
[ ]
k = 3 (3/4=75%)
Observação: os QUARTIS são três: Q1, Q2 e Q3.
DECIS
Separatrizes que dividem a série em 10 partes iguais (de mesma frequência).
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
D1 D2 D3 D4 D5 D6 D7 D8 D9
Assim, se k = 1 temos 1/10 = 10%, se k=2 temos 2/10 = 20%, se k = 3 temos 3/10 = 30%, se
k=4 temos 4/10 = 40%, se k = 5 temos 5/10 =50% e assim por diante...
Observações:
Os DECIS são nove: D1 , D2 , D3 , D4 , D5 , D6 , D7 , D8 , D9!
D5 = Md, ou seja, o quinto DECIL é igual a MEDIANA!
39
PERCENTIS
São os valores que dividem uma série em 100 partes iguais.
Observações
Os PERCENTIS são 99 P1, P2, P3,................................,P97, P98, P99
P25 = Q1 (o percentil 25 é igual ao 1º quartil - Q1)
P50 = Q2 (o percentil 50 é igual ao 2º quartil - Q2) = MEDIANA
P75 = Q3 (o percentil 75 é igual ao 3º quartil - Q3)
Da mesma forma:
P10 = D1 (o percentil 10 é igual ao 1º decil - D1)
P50 = D5 = Q2 = Md (o percentil 50 é igual ao 5º decil-D5 que é igual a o 2º quartil-Q2 que é
igual a Mediana!
P90 = D9 (o percentil 90 é igual ao 9º decil - D9).
40
Exercícios - Resolução
1 - Temos
Primeiro Quartil
Vamos determinar a classe do Primeiro Quartil!
Perceba que esse valor está no intervalo que vai de 154 até 158 (como era
esperado!)
Terceiro Quartil
Perceba que esse valor está no intervalo que vai de 162 até 166 (como também era
esperado!).
41
Unidade IV – Medidas de Dispersão
42
Medidas de Dispersão
As medidas de posição (média, mediana e moda) não são suficientes para caracterizar
perfeitamente um conjunto de dados. Duas distribuições (dois conjuntos de dados) podem ter a
mesma média, mediana e moda, mas serem diferentes. Em uma delas, os valores podem se
concentrar fortemente em torno da média, na outra, podem se espalhar nos dois lados desse valor
médio. Os conjuntos X e Y a seguir exemplificam este fato.
Apesar dos dois conjuntos de dados terem a mesma média, é fácil notar que o conjunto X é
mais homogêneo que o conjunto Y. Ou seja, os valores do conjunto X, “variam menos” que os
valores do conjunto Y.
Y Y
X X
GRÁFICO - A GRÁFICO - B
43
4.2 Principais Medidas de Dispersão
Dados Agrupados
̅
Exemplo
Determinar a amplitude total e o desvio médio do seguinte conjunto de dados:
X = 4; 10; 2; 6; 8
Amplitude total = Maior valor - Menor valor:
Ampl = 10 - 2 = 8
Cálculo dos Desvios
Vamos calcular os desvios em relação à média aritmética.
Média aritmética: ̅
̅
Como os dados são não agrupados a fórmula é:
4.2.3 Variância
É a média aritmética dos quadrados dos desvios em relação à média.
Dados não Agrupados
( ̅)
, onde n = número de observações.
Não esqueça! Desvio ̅
Desenvolvendo-se a expressão acima, obtém-se uma fórmula mais simples para a variância.
( ) , ou seja: ̅
Através da fórmula simplificada acima, pode-se então definir a variância como sendo:
“a média dos quadrados, menos o quadrado da média”.
É quase poético! A média dos quadrados... Menos o quadrado da média!
Dados Agrupados
( ) ou ̅
Perceba que quando os dados estão agrupados a única diferença é termos que usar
frequências! Ou seja, cada valor xi tem que ser multiplicado pela sua respectiva frequência!
Variância é uma das três principais medidas de Dispersão, mas ela tem um pequeno
problema que será analisado a seguir.
Como a variância é calculada a partir dos quadrados dos desvios, ela possui a unidade de
medida diferente da dos dados originais. Por exemplo, se os dados estão medidos em cm a
2 2
variância está medida em cm . Se os dados estão medidos em kg a variância está em kg e assim
por diante! Objetivando eliminar este inconveniente, usa-se outra medida de dispersão chamada
Desvio Padrão que veremos a seguir.
45
( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
Propriedades da Variância
1. Somando-se ou subtraindo-se uma constante a todos os elementos de um conjunto de
dados, a variância deste conjunto não de altera.
Crie um novo conjunto de dados Z = 2X, ou seja, os valores do conjunto Z são os valores do
conjunto X multiplicados pela constante 2. Assim, se X = {2; 4; 3; 6; 10} , Z = { 4; 8 ; 6 ; 12; 20}.
Ou seja, se multiplicamos todos os elementos de um conjunto por uma constante (no nosso
caso 2) a Variância fica multiplicada pelo quadrado da constante (4)! Assim Var(Z) = 4 × Var(X) =
4×8 = 32!
Faça os cálculos e comprove esse resultado!
46
Propriedades do Desvio Padrão
1. Somando-se ou subtraindo-se uma constante a todos os valores de um conjunto de
dados, o desvio padrão não se altera.
2. Multiplicando-se ou dividindo-se todos os valores de um conjunto de dados por uma
constante (diferente de zero), o desvio padrão ficará multiplicado ou dividido por essa constante.
3. O desvio-padrão não tem interpretação física como ocorre com a média, a mediana e a
moda.
4. Em uma distribuição normal tem-se entre:
[ ̅ ̅ ] - 68,25% das observações
[ ̅ ̅ ] - 95,46% das observações
[ ̅ ̅ ] - 99,73% das observações
Observação - Perceba que o Coeficiente de Variação (CV) é adimensional, pois é a relação entre
dois valores (Desvio Padrão e Média) que são medidos na mesma unidade. Assim, o CV é sempre
expresso em percentual (%) como veremos nos exemplos seguintes.
47
Exemplo - 1
Para um conjunto de dados relativos a estaturas têm-se:
Média =161 cm e Desvio Padrão S =5,57 cm.
Achar o CV deste conjunto de dados.
Temos: aplicação direta da nossa fórmula!
Medidas x S
Estatura 175 cm 5,0 cm
Peso 68 Kg 2,0 Kg
Veja, aqui não podemos comparar o Desvio Padrão das Estaturas medido em cm (5,0 cm)
com Desvio Padrão do Peso medido em kg (2 kg)! Essa é uma das grandes limitações da utilização
do Desvio Padrão para comparar dispersão de conjuntos de dados que estão medidos em unidades
diferentes.
Logo, os pesos (2,94%) apresentam maior grau de dispersão RELATIVA que as alturas
(2,85%), embora a dispersão ABSOLUTA (desvio padrão) seja maior para as alturas (5 cm).
Veja, aqui fizemos referência a dois conceitos - Dispersão Absoluta e Dispersão Relativa!
Da mesma forma que a Variância e o Desvio Padrão o Coeficiente de Variação tem também
as suas propriedades. Esse assunto será apresentado no próximo item.
48
4.2.7 Propriedades do coeficiente de variação
Vamos fazer uma reflexão e tentar comprovar essas propriedades usando o nosso
conhecimento sobre as propriedades dos elementos que são usados no cálculo do Coeficiente de
Variação, ou seja, o Desvio Padrão e a Média. Observe.
49
Propriedade 2. Subtraindo-se uma constante positiva de todos os elementos de um conjunto de
dados o coeficiente de variação aumenta. No entanto, não é possível determinar o novo valor a
partir apenas do valor original.
50
Realize os exercícios e depois confira a resposta na próxima página.
Lembre-se: Não vale olhar antes!
51
Exercícios – Resolução (continuação)
Cálculo da Variância
e ( ) ( )
( )
Coeficiente de Variação
S 5,57
CV 0,0345 3,45%
x 161
52
Unidade V – Probabilidade
53
5.1 Introdução
Exemplos
Experimento 1 - Retirar uma carta de um baralho com 52 cartas e observar o seu naipe;
Espaço amostral S1 = {Ouro, Paus, Espada, Copas} só existem estes 4 naipes no baralho.
54
Lembra como podemos descrever este evento? Obter um número maior que 6 no
lançamento de um dado. É impossível obter o número 9 no lançamento de um dado!
( )
( ) , onde:
( )
( ) = nº de elementos de A
( ) = de elementos de S
55
5.2.2 Eventos independentes
Dois eventos são independentes quando a realização ou não realização de um deles não
afeta a probabilidade de realização ou não do outro e vice-versa.
Exemplo
Lançamento de dois dados. A probabilidade de obtermos 1 no primeiro dado é p1 = 1/6. A
probabilidade de obtermos 5 no segundo dado é p2 = 1/6. A probabilidade de obtermos
simultaneamente 1 no primeiro e 5 no segundo é:
56
ESPAÇO AMOSTRAL
Quantos elementos ele possui?
36 elementos!
Somente o que tem 1 no primeiro dado e 5 no segundo dado (1,5) ! Logo a probabilidade
desse evento ocorrer é p = 1/6!
Exemplo
Lançamento de um dado. A probabilidade de se tirar o 3 ou o 5 é:
57
5.4 Probabilidade condicional
Se A e B são eventos de um espaço amostral S com P(B) 0, então a probabilidade
condicional do evento A, tendo ocorrido o evento B é indicada por P(A/B) e dada por:
( )
( ⁄ ) esta é a probabilidade do evento A ocorrer dado que o evento B já ocorreu!
( )
Ou ainda:
( ⁄ )
Exemplo
Um número é sorteado ao acaso entre os inteiros: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15.
Se o número sorteado for PAR, qual a probabilidade de que seja o número 6?
Temos:
S = {1,2,3,4,5,6,7,8,9,10,11,12,13,14,15} Espaço Amostral
A = {o número 6} B = {o número par}
Temos então:
( ⁄ )
Observação
Sem a informação da ocorrência de B, P(A) seria 1/15!
Perceba nesse exemplo simples o valor da INFORMAÇÃO!
O fato de saber que o número sorteado é PAR aumenta nossa chance de acerto!
Ou seja, passa de 1/15 (7%) para 1/7 (14%)!
Exemplo
Retiram-se sem reposição duas peças de um lote de 10 peças onde 4 são boas. Qual a
probabilidade de que ambas sejam defeituosas?
Temos: 10 peças 4 Boas e 6 Defeituosas !
A - {a 1ª peça ser defeituosa}
B - {a 2ª peça ser defeituosa}
Precisamos calcular P(A∩B) (ocorrência simultânea), ou seja, a primeira ser Defeituosa e a
segunda também ser Defeituosa.
58
Temos, P(A∩B) = P(A) x P(B/A)
P(A) = 6/10 – essa é a probabilidade de se tirar uma peça defeituosa! Como são 6 peças
defeituosas em um total de 10 a probabilidade é 6/10!
Vamos calcular agora a probabilidade da segunda peça retirada também ser defeituosa!
Veja, agora só temos 9 peças! Como a primeira peça retirada foi defeituosa, destas 9
restantes nos temos 4 boas e 5 defeituosas!
Exemplo
Retiram-se com reposição duas cartas de um baralho com 52 cartas. Qual a probabilidade
de que ambas sejam de “paus”?
Temos:
A = {a 1ª carta é de paus} P(A) = 13/52
B = {a 2ª carta é de paus} P(B) = 13/52
( )
Veja, aqui como é com reposição o Espaço Amostral não se altera, ou seja, continuamos a
ter as 52 cartas originais!
FIGURA 5.1
Assim, dizemos que uma variável aleatória X que pode ser representada por um gráfico
como o da figura acima tem distribuição Normal com média e desvio padrão , e representamos
da seguinte maneira X. Ou seja, X é uma Normal com Média e Desvio Padrão
A equação da curva Normal é dada pela expressão abaixo, onde x é o valor da variável
aleatória considerada e e são parâmetros conhecidos da variável, ou seja, média e desvio
padrão.
x
2
1
f ( x) . e 2
2
60
Obviamente não podemos trabalhar com uma equação complexa como essa, pois exigiria
conhecimento mais aprofundado de Cálculo Diferencial e Integral.
FIGURA 5.2
FIGURA 5.3
61
Perceba que como a curva é simétrica a soma das probabilidades à esquerda da
Média é igual a soma dos valores das probabilidades à direita da média (50% à esquerda e
50% à direita). Essa propriedade é fundamental, pois vai nos ajudar a resolver muitos
problemas.
FIGURA 5.4
Obviamente as pessoas possuem inteligências múltiplas, ou seja, essa medida não é única
como se pensava (mais) antigamente. No entanto, uma pessoa como Chico Anísio, por exemplo,
era dotado de inteligências múltiplas em altíssimo grau! Entre outras habilidades mais conhecidas
(autor, ator, humorista, comediante, diretor, escritor, diretor, pintor...) era também compositor!
Certamente você já cantou várias músicas composta por ele - Rio Antigo, Praça Onze...!
Onde será que Madonna, Shakira, Sharon Stone e Nicole Kidman estão nesse gráfico? E o
Stephen Hawking...Bill Gates? Veja, para ter sucesso na vida não basta ter QI alto, são necessários
também outros ingredientes! Muitas pessoas têm QI altíssimo, mas não têm determinação, por
exemplo! No entanto, quando esses atributos estão juntos o sucesso é quase uma certeza!
62
Intervalo Probabilidade (%)
68,26%
95,45%
99,73%
Esse fato nos leva a seguinte reflexão: para cada variável (Normal) devemos ter uma Tabela
que especifique os valores das probabilidades em cada um dos intervalos, já essas probabilidades
dependem da Média e do Desvio Padrão (que são diferentes para cada variável)! Ora, mas isso é
impossível, pois se assim fosse seriam necessárias infinitas tabelas - uma para cada variável.
Nesse ponto é que entra a Normal Padronizada, ou seja, fazemos uma transformação de
variável de tal forma que essa variável transformada tenha propriedades que permitam que seja
utilizada uma única Tabela - a Tabela Normal Padrão!
Normal Padrão
Dizemos que a variável aleatória Z tem distribuição normal padrão quando tem
e, isto é, Z N(0,1). Ou seja, Z tem Média 0 (zero) e Desvio Padrão 1!
Toda variável X N() pode ser reduzida a uma variável com distribuição normal padrão
(Z) através da seguinte transformação:
X
Z , onde Xe
Ou seja, a variável Z é obtida subtraindo-se de cada valor observado de X sua média e em
seguida dividindo-se pelo seu desvio padrão . As probabilidades associadas à distribuição normal
padrão (Z) são encontradas em tabelas, não sendo necessário realizar cálculos para determiná-las.
Assim, para resolver nossos exercícios precisamos saber como usar essa Tabela Normal Padrão que
está disponível na nossa Midiateca.
Exemplo - Seja X a variável aleatória que representa os diâmetros de parafusos produzidos por
determinada máquina. Suponha que esta variável tenha distribuição normal com média = 2 cm e
desvio padrão = 0,04 cm. Calcular a probabilidade de um parafuso produzido pela máquina ter
um diâmetro com valor entre 2 cm e 2,05 cm.
Temos: X ~ N( 2 ; 0,04) X tem distribuição Normal com Média 2 e Desvio Padrão 0,04.
Queremos calcular P( 2 < x < 2,05 ).
Para poder utilizar os valores tabelados da distribuição normal padrão precisamos
transformar os valores da variável X em valores da variável Z utilizando a transformação:
X
Z
63
Temos então:
x1 = 2 x2 = 2,05 =2 e = 0,04
22 2,05 2
z1 0 z2 1,25
0,04 0,04
A nossa tabela já nos fornece esse valor diretamente, pois o que está tabulado é sempre a
área entre 0 (zero) e o valor que você quer (no nosso caso x=2,05 que corresponde a z=1,25).
Observação: o que está sendo exibido é apenas uma parte da Tabela Normal necessária para
resolver o nosso problema.
Segunda decimal de z
0 1 2 3 4 5 6 7 8 9
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
64
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
Usamos a parte inteira e a primeira decimal (1,2) de z para entrar na primeira coluna da
tabela.
Usamos a segunda decimal (5) para a outra coluna. Assim o valor que corresponde a z =
1,25 é 0,3944. Observe na tabela acima.
Se z = 1,24 esse valor seria 0,3925, se z = 1,26 esse valor seria 0,3962! Simples e imediato!
Então P(2 < X < 2,05 ) = P( 0 < Z < 1,25) = 0,3944 (39,44%), ou seja, a probabilidade da
máquina produzir uma peça com diâmetro entre 2,0 cm e 2,05 cm é 39,44% .
65
Exercícios - Resolução
1- Temos:
Espaço Amostral S {1,2,3,4,5,6} n(S) = 6
Face ímpar, evento A = {1,3,5} n(A) = 3
P(A) = n(A)/n(S) = 3/6 = ½ = 0,5 ou 50%
66
Unidade VI – Correlação e Regressão
67
6.1 Correlação
Um dos maiores problemas do investigador de fenômenos humanos e físicos é estabelecer
um modelo matemático que descreva e explique o fenômeno real com uma boa aproximação. Para
isso, é necessário que se consiga medir e avaliar o grau de relação existente entre as variáveis do
modelo. Assim, correlação é o estudo da interdependência entre duas ou mais variáveis
quantitativas. Podemos medir, por exemplo, se a demanda de um produto decresce linearmente
com o acréscimo do seu preço ou se o número de filhos de uma família tem uma relação forte com
o grau de instrução dos pais. Podemos avaliar, por exemplo, se o aumento da ação fiscal tem um
impacto direto no aumento de arrecadação ou se o gasto com propaganda em uma empresa tem
uma relação direta com aumento das vendas?
Correlação Linear Múltipla: quando se estuda a relação entre mais de duas variáveis.
68
Neste caso o valor do coeficiente de correlação r está no intervalo 0 < r < 1!
Ou seja, a correlação linear entre X e Y é POSITIVA r > 0!
69
6.2.4 Correlação linear negativa perfeita
Quando os pontos estão perfeitamente alinhados em sentidos opostos, ou seja, valores
crescentes de Y correspondem a valores decrescentes de X e vice-versa. (r = -1)
Neste caso os pontos estão perfeitamente alinhados sobre uma reta sinalizando que as
variáveis X e Y estão fortemente correlacionadas negativamente com r = -1. Ou seja, se X cresce, Y
decresce, mas de uma forma uniforme e constante.
OBSERVAÇÕES
1- Observando os diagramas de dispersão conclui-se que, quanto mais os pontos estiverem
próximos da reta, mais forte será a correlação, ou seja, r estará mais próximo de 1. Quanto mais
fraca for a correlação, mais próximo de zero (0) será o valor do coeficiente de correlação(r).
70
2- Se duas variáveis aleatórias X e Y são independentes o coeficiente de correlação entre elas será
zero (0). O contrário nem sempre é verdadeiro!
Y X X2 Y2 XxY
ΣY ΣX ΣX2 ΣY2 ΣXxY
Exemplo
Calcular o coeficiente de correlação linear para as variáveis X e Y da tabela abaixo.
X Y
2 10
4 8
6 6
8 10
10 12
ΣX=30 ΣY= 46
Precisamos criar novas colunas na tabela para calcular os valores que serão necessários
para utilizar a fórmula do coeficiente de correlação.
Observe na tabela abaixo que criamos uma coluna para X2, uma para Y2 e outra para o
produto de X por Y (X ×Y).
Observação X Y X2 Y2 XxY
1 2 10 4 100 20
2 4 8 16 64 32
3 6 6 36 36 36
4 8 10 64 100 80
5 10 12 100 144 120
30 46 220 444 288
Não esqueça que a última linha dessa matriz contém a soma de cada coluna e que o
número de observações é n=5.
71
√[ ( ) ] [ ( ) ]
Substituindo os valores da tabela na fórmula temos:
√[ ] [ ]
6.3 Covariância
A covariância representa a variação entre duas variáveis aleatórias X e Y, e é assim definida:
̅̅̅̅
, ou
Onde:
SXY - covariância entre as variáveis X e Y
̅ - média aritmética de X
̅ - média aritmética de Y
n - número de observações
Outra fórmula também muito utilizada para a covariância é:
( ̅ )( ̅)
Média dos Produtos dos Desvios
onde:
72
Assim, para calcular o Coeficiente de Correlação Linear entre X e Y precisamos calcular
antes:
Sxy Covariância entre X e Y
Sx desvio-padrão de X (DPx)
Sy desvio-padrão de Y (DPy)
Temos:
Média de X ̅ = 30/5 = 6
Variância de X ̅
Desvio Padrão de X = Raiz Quadrada da Variância
√
Variância de Y ̅
Desvio Padrão de Y = Raiz Quadrada da Variância
√
r = 0,416
Perceba que esse valor é igual ao calculado anteriormente, utilizando a fórmula original.
6.4 Regressão
A Análise de Regressão tem por objetivo descrever através de um modelo matemático, a
relação existente entre duas variáveis (X e Y) a partir de n observações dessas variáveis. Supondo X
a variável explicativa (independente) e Y a variável explicada (dependente) pode-se escrever que:
73
Considera-se que Y é uma variável aleatória e que a relação entre X e Y não é regida
apenas por uma lei matemática. Assim, a relação entre X e Y deve ser escrita de forma mais correta
como:
Y= f (X) + e
onde e é uma variável que irá captar as influências sobre Y não decorrentes de X. Assim, a
regressão linear simples busca determinar a equação de uma reta que descreva a relação entre
duas variáveis. A reta que é descrita por esta equação chama-se Reta de Regressão.
Este processo consiste em minimizar a soma dos quadrados dos desvios entre Y e ̂ .
74
SXY é a COVARIÂNCIA entre X e Y e é a VARIÂNCIA de X.
Então, de posse dessas fórmulas para a e b, podemos ajustar uma reta de regressão a partir
de um conjunto de dados conhecidos.
6.4.2 Propriedades
Covariância (SXY)
75
Nosso contexto: uma empresa coletou ao longo de 10 anos os valores de Investimento em
Publicidade (X) e os respectivos Lucros obtidos (Y). A tabela seguinte exibe esses valores em
milhares de euros.
Ano Xi Yi
2001 50 500
2002 40 400
2003 80 750
2004 100 900
2005 120 1 300
2006 90 800
2007 150 1 550
2008 140 1 600
2009 120 1 250
2010 160 1 750
Será que existe correlação entre Investimento em Publicidade (X) e o Lucro obtido (Y)?
Nesse caso a nossa variável explicativa será o X e a variável explicada será o Y! Ou seja,
Investimento em Propaganda explica o Lucro (ou uma parte dele).
Primeiro Passo
Considerar o modelo linear de regressão estudado:
̂ onde a e b são os parâmetros do modelo.
Segundo Passo
Determinar os parâmetros do modelo, ou seja, o a e o b usando as fórmulas abaixo.
̅ ̅
Para isso vamos ter que abrir novas colunas na nossa tabela, uma para X2, outra para Y2 e
outra para X×Y! A coluna do Y2 não será usada agora, mas já aproveitamos para fazer os cálculos.
76
Preenchendo a tabela original com estas colunas temos:
2 2
Ano X Y X Y XY
2001 50 500 2.500 250.000 25.000
2002 40 400 1.600 160.000 16.000
2003 80 750 6.400 562.500 60.000
2004 100 900 10.000 810.000 90.000
2005 120 1.300 14.400 1.690.000 156.000
2006 90 800 8.100 640.000 72.000
2007 150 1.550 22.500 2.002.500 232.500
2008 140 1.600 19.600 2.560.000 224.000
2009 120 1.250 14.400 1.562.500 150.000
2010 160 1.750 25.600 3.062.500 280.000
1.050 10.800 125.100 13.700.000 1.305.500
Fórmula do b:
Você saberia explicar o que significa uma Covariância positiva entre Investimento em
Publicidade (X) e o Lucro (Y)? Pense um pouco, reveja o conceito de Covariância!
Cálculo da Variância de X
Variância de X ̅
Cálculo do valor de b
77
Substituindo os valores de SXY e S2X na fórmula acima vem:
Cálculo do valor de a
̅ ̅
Será que a partir desse modelo podemos gerar previsões confiáveis para o Lucro a partir
dos Investimentos em Publicidade?
Já calculada anteriormente!
Logo, √
Cálculo da Variância de Y
Variância de Y ̅
78
O Coeficiente de Correlação é dado por:
Como o valor da Correlação entre X e Y é alto (98,63%) podemos usar o nosso modelo de
regressão para gerar previsões de Lucro a partir de Investimentos em Publicidade. Outra maneira
de testar a qualidade do modelo ajustado é calcular os valores previstos para anos anteriores e
comparar com os valores reais obtidos. Por exemplo, vamos calcular o valor do Lucro Estimado
(previsto) usando o modelo para o ano de 2003 e comparar com o valor do Lucro Real obtido
nesse ano.
Temos então:
Valor REAL do Lucro em 2003 Y_Real = 750
Valor ESTIMADO do Lucro em 2003 usando o modelo Y_Estimado = 791,374
Diferença YReal – YEstimado = 750 - 791,374 = -41,374
Esse é o Erro ABSOLUTO!
Muitas vezes o valor do Erro Absoluto não é o mais indicado para o efeito de avaliação da
qualidade do ajuste. Nesses casos podemos usar o Erro Relativo que é um valor expresso em
percentual (%) e mais fácil de ser analisado.
Da mesma forma que fizemos o cálculo do erro para o ano de 2003 podemos fazer para
todos os anos anteriores e verificar se o modelo conseguiria prever os resultados com um nível de
precisão aceitável.
79
A tabela abaixo exibe os seguintes valores para cada ano considerado:
Ano considerado
X - Investimento em Publicidade
YReal - Lucro Real obtido
YEstimado - Lucro Estimado pelo modelo
Erro_Absoluto = YReal – YEstimado
E_Relativo = Erro Relativo = Erro_Absoluto/YReal
YReal -
Ano X YReal YEstimado E_Relativo
YEstimado
2001 50 500 444,8148 55,18519 -11,0%
2002 40 400 329,3266 70,6734 -17,7%
2003 80 750 791,2795 -41,2795 5,5%
2004 100 900 1022,256 -122,256 13,6%
2005 120 1300 1253,232 46,76768 -3,6%
2006 90 800 906,7677 -106,768 13,3%
2007 150 1550 1599,697 -49,697 3,2%
2008 140 1600 1484,209 115,7912 -7,2%
2009 120 1250 1253,232 -3,23232 0,3%
2010 160 1750 1715,185 34,81481 -2,0%
1050 10800
Em qual ano o Erro de estimação foi maior?
Essa empresa pode não investir em Publicidade?
Observação - Existe outro indicador importante para medir a qualidade de ajuste em um Modelo
Linear de Regressão que é o Coeficiente de Determinação definido da seguinte maneira:
2
No nosso modelo o valor de r = 0,9863, assim, R = (0,9863)2 = 0,9728 !
Esse valor significa que: o Investimento em Publicidade explica 97% do Lucro dessa
empresa. Portanto o Investimento em Publicidade é uma boa variável explicativa para o Lucro.
80
1. O que é Correlação? Por que ela é importante para a estatística?
2. O que é Covariância?
3. O que é Regressão? Quais as suas propriedades?
4. O que significa o Coeficiente de Determinação (R2)?
81
Referências (Obras utilizadas como referência para a produção do material de apoio)
82
© 2014 by Centro Universitário Carioca
Organizador do Conteúdo
Manuel Martins
Design Instrucional
Evandro Almeida
Revisão e Copidesque
Lucia Venina
83