Texto Revisão - Estatística Aplicada Aos Negócios - ADM240 - Rev
Texto Revisão - Estatística Aplicada Aos Negócios - ADM240 - Rev
Texto Revisão - Estatística Aplicada Aos Negócios - ADM240 - Rev
Texto de revisão
Este material de revisão abordará os seguintes tópicos como uma preparação para a prova final:
cálculo dos quartis, cálculo da média, cálculo do desvio-padrão, cálculo de probabilidades usando
a distribuição normal, conceitos básicos de testes de hipóteses (ou testes de significância), análise
de variância (ANOVA) de fator único e regressão.
É importante destacar que a prova requererá alguns cálculos simples para os quais será permitida
a utilização de calculadora científica. Fórmulas e tabelas da distribuição normal necessárias à
resolução dos exercícios serão fornecidas nas próprias questões de prova. Adicionalmente, não
será necessário utilizar nenhum software para resolução das questões, as saídas de resultados dos
softwares serão fornecidas na questão quando for o caso. Tampouco será exigido que você realize
os testes de hipóteses manualmente, para as perguntas sobre esse conteúdo, você deverá saber
interpretar as saídas do software.
1) Cálculo da média
A média, junto à mediana e à moda, é uma medida de posição ou medida de tendência central, que
retorna o centro da distribuição da variável estudada. A média aritmética (denotada como x ̅) é uma
das medidas mais conhecidas e amplamente utilizadas da estatística. Para calculá-la, deve-se
realizar a soma de todos os valores da série de dados (denominamos cada valor como x) e dividir
essa soma pelo número de casos na série de dados (denominamos o tamanho da série como n).
Vejamos o seguinte exemplo:
13 18 7 22 34
∑ 𝑥𝑖 13 + 18 + 7 + 22 + 34
𝑥̅ = = = 18,8
𝑛 5
1
2) Cálculo do desvio-padrão
O desvio-padrão é uma medida de variabilidade ou dispersão, junto de variância (desvio-padrão
elevado ao quadrado), quartis e amplitude. O desvio-padrão oferece uma medida de quanto os
dados estão dispersos (acima ou abaixo) da média. Ele pode ser obtido pela seguinte fórmula:
∑(𝑥𝑖 − 𝑥̅ )2
𝑠=√
𝑛−1
Majoritariamente, trabalhamos com dados amostrais, por isso o desvio-padrão é denominado “s” e
o denominador da fórmula subtrai 1 de n (n-1). Para a série de dados a seguir, qual seria o desvio-
padrão?
13 18 7 22 34
Temos:
𝑑𝑒𝑠𝑣𝑖𝑜 − 𝑝𝑎𝑑𝑟ã𝑜
𝑐𝑣 = × 100
𝑚é𝑑𝑖𝑎
10,18
𝑐𝑣 = × 100 = 54,15%
18,8
Uma regra de interpretação dos valores de cv é: se cv < = 30% dados são considerados
homogêneos, valores de cv acima de 30% representam alta heterogeneidade, sendo que quanto
maior o cv, mais heterogêneos os dados. Neste caso, temos uma série com alta heterogeneidade
(54,15%).
13 18 7 22 34
7
13
2
18
22
34
n é o tamanho da amostra, neste caso, n = 5, k aponta o caso da amostra que se refere ao quartil
desejado. Para o quartil 1, aplicamos:
𝑛+1 5+1
𝐾𝑄1 = = = 1,5 → 𝑝𝑜𝑠𝑖çã𝑜 𝑑𝑜 𝑞𝑢𝑎𝑟𝑡𝑖𝑙 1 é 𝑜 𝑐𝑎𝑠𝑜 1,5
4 4
Como não há caso 1,5, fazemos a média dos casos 1 e 2, então:
7 + 13
𝑄1 = = 10
2
Para o quartil 2, temos:
𝑛+1 5+1
𝐾𝑄2 = = =3
2 2
Neste caso, o terceiro caso da amostra é o valor 18, representando o quartil 2 ou a mediana.
Para o quartil 3, temos:
3(𝑛 + 1) 3(5 + 1)
𝐾𝑄3 = = = 4,5
4 4
Como não há um caso 4,5, devemos fazer a média entre o caso 4 e o caso 5, logo, o quartil 3 tem
o valor de 28 (média entre 22 e 34).
O quartil 4 é obtido por:
𝐾𝑄4 = n = 5
Logo, o quartil 4 tem o valor do caso 5 da amostra, neste caso, 34.
3
Fonte:
https://www.researchgate.net/publication/315950996_Controle_de_qualidade_aplicado_a_dados_gravimetricos/figures?l
o=1
Para encontrar a área abaixo da curva normal equivalente ao valor z = 2,57, devemos identificar a
linha 2,5 e a coluna 0,07. A interseção das duas apresenta a área de -∞ até o valor z = 2,57. Neste
caso, a área é de 0,9949.
Observando a figura a seguir, temos que, até z = 2,57, pela tabela, a área é de 0,9949, mas
queremos saber qual é a área à esquerda de z, que representa P(x>40).
4
Área = 0,9949
Z = 2,57
P(x>40) = 1 - 0,9949 = 0,0051 ou 0,51%. Subtrai-se a área da tabela de 1, pois a área total da curva
vale 1. Neste caso, a probabilidade de se fazer uma venda com valor superior a R$ 40,00 é muito
baixa, de apenas 0,51%.
Caso nos interessasse a probabilidade de se fazer uma venda com valor inferior a R$ 40,00, a
probabilidade desejada seria exatamente a da tabela ou P(x<40)=0,9949 ou 99,49%.
Semana 3
5) Intervalos de confiança
Os intervalos de confiança são uma técnica para estimar um intervalo de variação para os valores
da média considerando um determinado nível de confiança. Em inferência sempre trabalhamos com
amostras com intuito de obter informações sobre a população. Por exemplo, se temos uma loja de
cookies artesanais, com ticket médio de R$ 22,00 calculado a partir de uma amostra de n = 300
clientes e desvio-padrão populacional de R$ 7,00. Qual o intervalo de confiança para o ticket médio
considerando confiança de 95%?
Primeiramente, é necessário reconhecer que, ao se trabalhar com inferência, sempre estaremos
sujeitos a um nível de erro. Neste caso, estamos considerando um erro de 5% (confiança de 95%),
o que quer dizer que se eu estimar 100 intervalos, 95 deles conterão o valor real da média e em 5
deles o valor real da média não estará contido (5 intervalos estarão errados). Como um intervalo
tem limite inferior e superior, dividimos o erro em duas partes, deixando, neste exemplo, 2,5% de
erro no lado inferior do intervalo e 2,5% de erro no lado superior do intervalo.
Tem-se as seguintes fórmulas para o intervalo:
𝑥 ± 𝑚 arg 𝑒 𝑚_𝑒𝑟𝑟𝑜
𝜎
𝑚 arg 𝑒 𝑚_𝑒𝑟𝑟𝑜 = 𝑧𝛼/2
√𝑛
5
O valor de z para alfa dividido por 2 (erro) deve ser obtido na tabela da distribuição normal. Como
se observa na figura da tabela a seguir, a área que representa 2,5% de erro é igual a 0,975 (1-
0,025), e o valor de z correspondente a essa área é de z=1,96.
7 7
22 − 1,96 < 𝜇 < 22 + 1,96
√300 √300
Com isso, temos um intervalo de [21,21; 22,79], ou seja, o ticket médio na população de clientes
está entre 21,21 e 22,79.
Semana 4
6
H0: o ticket médio em dias de semana >= ticket médio aos finais de semana
H1: ticket médio em dias de semana < ticket médio aos finais de semana
Repare que a diferença está em H1 (ticket em final de semana é maior do que em dia de semana)
e H0 contém o complementar da H1, ou seja, a igualdade, a inexistência de diferença de ticket
médio entre dia de semana e finais de semana.
Os dados da amostra são as evidências empíricas que serão usadas para podermos, a um
determinado nível de erro alfa, rejeitar ou não H0. Ao se rejeitar H0, significa que conseguimos
provar H1.
Qualquer teste de hipóteses segue os seguintes passos básicos:
- Definir H0 e H1, respeitando a regra de que H1 contém a possível diferença a ser provada e H0 a
igualdade, complementando H1.
- Escolha do teste adequado. Em nossa disciplina vimos o teste t para duas amostras independentes
(compara dois grupos independentes, por exemplo, dia de semana e finais de semana), teste t para
duas amostras relacionadas (testes do tipo antes de depois, mede-se resultados antes de um
estímulo e após o estímulo para verificar se houve efeito) e ANOVA (teste para 3 ou mais amostras
independentes).
- Escolha do valor do erro alfa, este é o erro máximo que se aceita cometer no teste. Os valores
padrão são 1%, 5%, 10%, sendo que o analista deve optar por algum deles.
- Cálculo das estatísticas de teste. Utilizamos na disciplina um software para nos auxiliar nos
cálculos (análise de dados do Excel ou PSPP), porém as contas podem ser feitas aplicando-se as
fórmulas que constam no texto-base (ANDERSON, D R. et al. Estatística Aplicada a
Administração e Economia. 8 ed. São Paulo: Cengage Learning Brasil, 2020. Link:
https://integrada.minhabiblioteca.com.br/#/books/9786555583991 - Capítulo 9).
- Tomada de decisão do teste: comparar o valor-p obtido pelo passo anterior com o valor de alfa
fixado pelo analista, se valor-p < alfa, H0 deve ser rejeitado, se valor p >= alfa, H0 pode ser aceito.
7) Teste-t
O teste-t é apropriado em dois tipos de problemas: 1) comparações das médias entre dois grupos
independentes, por exemplo homens e mulheres, estudantes e profissionais já formados, setor de
serviços e indústrias, dentre outros; 2) estudos sobre a diferença de médias antes e depois de um
estímulo, por exemplo comparar se houve aumento de vendas após a implantação de um programa
de fidelidade.
Vejamos um exemplo para o teste-t de duas amostras independentes. Considere que a loja de
cookies deseja saber se as vendas aos finais de semana são maiores do que durante dias de
semana. Coletou uma amostra de 150 vendas.
As hipóteses seriam:
H0: ticket médio em dias de semana > = ticket médio aos finais de semana
H1: ticket médio em dias de semana < ticket médio aos finais de semana
O teste adequado é o teste-t para duas amostras independentes, pois as vendas em final de semana
são independentes das vendas em dia de semana. Vamos considerar alfa = 5%.
Os cálculos realizados no Excel indicam os resultados da tabela a seguir. Os valores coloridos em
vermelho indicam as médias de venda em dia de semana e aos finais de semana, sendo que nos
finais de semana, as vendas médias (média = 30,87) são ligeiramente maiores do que aos dias de
semana (média = 29,69). Como definimos um teste unicaudal (ou unilateral), devemos olhar o valor-
p destacado em roxo na tabela.
7
Fim de Dia de
semana semana
Média 30,86667 29,69333
Variância 134,982 181,9993
Observações 75 75
Hipótese da diferença de
média 0
gl 145
Stat t 0,570736
P(T<=t) unicaudal 0,284531
t crítico unicaudal 1,65543
P(T<=t) bicaudal 0,569062
t crítico bicaudal 1,97646
Neste caso, como o valor-p = 0,2845 > alfa = 0,05, não podemos rejeitar H0, ou seja, a diferença
de vendas nos dias de semana e aos finais de semana é muito pequena e não pode ser considerada
significativamente diferente.
Agora imagine que a loja de cookies tenha criado um programa de fidelidade para tentar aumentar
a recorrência das vendas e o ticket médio. O programa consiste de um cartão fidelidade em que, a
cada compra de 4 ou mais cookies se recebe um selo. Ao se juntarem 10 selos, o cliente recebe
um cookie gratuitamente. A loja extraiu uma amostra de 30 clientes e verificou quantos cookies
compravam em cada transação antes do programa e fez a mesma mensuração com os mesmos
clientes 60 dias após a implantação do programa. Será que os clientes passaram a comprar mais
cookies com a implantação do cartão fidelidade?
As hipóteses para esse teste são:
H0: média de cookies comprados antes do programa > = média cookies comprados após o
programa (programa não aumentou a quantidade de cookies comprados)
H1: média de cookies comprados antes do programa < média cookies comprados após o programa
(programa não aumentou a quantidade de cookies comprados)
O teste adequado é o teste-t para duas amostras relacionadas, pois trata-se de um estudo antes e
depois com os mesmos sujeitos. O valor de alfa adotado é igual a 5%. Os cálculos foram obtidos
com a ajuda do Microsoft Excel, como apresenta a tabela a seguir. Os valores em vermelho
representam a média, observa-se que a média de cookies comprados antes do programa era de
4,03 e depois passou a 4,47, ou seja, houve um aumento, mas esse aumento é estatisticamente
significante? Para isso, precisamos olhar o valor-p (em roxo) para o teste unilateral.
8
antes depois
Média 4,033333 4,466667
Variância 4,929885 6,257471
Observações 30 30
Correlação de Pearson -0,11465
Hipótese da diferença de
média 0
gl 29
Stat t -0,67237
P(T<=t) unicaudal 0,253336
t crítico unicaudal 1,699127
P(T<=t) bicaudal 0,506671
t crítico bicaudal 2,04523
Como o valor-p do teste unilateral é igual a 0,2533, não podemos rejeitar H0, ou seja, o programa
de fidelidade não teve efeito em aumentar significativamente o número médio de cookies comprados
pelos clientes.
Semana 5
8) ANOVA
A ANOVA é o terceiro tipo de teste visto na disciplina e é utilizado para comparar as médias de três
ou mais grupos simultaneamente. Os grupos devem ser independentes, por exemplo, setores da
economia, cursos de uma universidade, regiões de um país etc. Para a ANOVA, todos os passos
vistos de desenvolvimento de um teste devem ser seguidos. As hipóteses são padrão e sempre
serão postuladas da seguinte maneira:
H0: as médias dos grupos são iguais
H1: pelo menos um dos grupos apresenta média diferente dos demais
9
O valor-p em roxo tem valor 0,534, que é maior que alfa = 0,05, logo, neste caso não há diferença
entre as vendas médias dos sabores.
ANOVA
Fonte da
variação SQ gl MQ F valor-P F crítico
Entre grupos 93,27273 2 46,63636 0,641892 0,533371 3,31583
Dentro dos
grupos 2179,636 30 72,65455
Total 2272,909 32
Agora, vamos imaginar que vamos testar um quarto sabor, triple chocolate. Rodamos novamente a
ANOVA incluindo o quarto sabor e temos os resultados:
As médias dos grupos representadas em vermelho indicam que a média do sabor triple é a mais
alta (média = 29,4), mas será a diferença de valores significante?
O valor-p = 0,00 (destacado em roxo) indica rejeição de H0, pois é menor que 5%, logo, pelo menos
um sabor tem média de vendas diferente dos demais. Mas quais sabores são diferentes?
ANOVA
Fonte da
variação SQ gl MQ F valor-P F crítico
Total 5222,813 47
É importante destacar que a ANOVA não aponta em qual par de sabores está a diferença, se H0 é
rejeitada, para identificar quais pares são diferentes, é necessário realizar um teste entre os pares.
Pode-se realizar um teste post hoc de Bonferoni no PSPP ou testar os pares pelo teste-t para
amostras independentes no próprio Excel. Na prova, os resultados das comparações para os pares
são apresentados da seguinte forma:
Comparação Valor-p
Crispy x nozes 0,089
Crispy x velvet 0,123
Crispy x triple 0,000
Nozes x velvet 0,589
Nozes x triple 0,000
Velvet x triple 0,000
10
As hipóteses são:
H0: média do sabor 1 = média sabor 2
H1: média sabor 1 é diferente da média do sabor 2
Semana 6
10) Correlação
A correlação (r) é uma medida da associação linear entre duas variáveis. Avaliamos uma correlação
pelo sinal e por seu valor.
Sinal positivo: relação direta. Exemplo: a correlação entre velocidade e quantidade de acidentes
fatais em SP é r= 0,87, ou seja, quanto maior a velocidade permitida na via, maior a quantidade de
acidentes fatais.
Sinal negativo: relação inversa. Exemplo: a correlação entre inflação e consumo é r= - 0,62, ou seja,
quanto maior a inflação, menor o consumo das famílias.
Depois de olhar o sinal, devemos checar o valor da correlação em módulo, sendo:
Fraca: r<=|0,5|
Moderada: |0,5| < r <= |0,7|
Forte: r>|0,7|
Nos exemplos acima temos uma relação direta e forte entre velocidade e acidentes fatais e uma
relação inversa e moderada entre inflação e consumo.
Vale destacar que esses valores foram adotados como referência para a disciplina, porém outros
autores e outras áreas de conhecimento podem utilizar valores de referência diferentes dos
apresentados.
Semana 7
Estatística de regressão
R múltiplo 0,767577
R-Quadrado 0,589174
R-quadrado
ajustado 0,587937
Erro padrão 140,2271
Observações 1000
A tabela ANOVA a seguir não deve ser confundida com o teste ANOVA para amostras
independentes. No caso da regressão, a ANOVA testa se pelo menos um coeficiente Beta de
regressão (ou uma variável x colocada no modelo) consegue influenciar y a ponto de ser possível
criar um modelo de regressão.
Neste caso, o valor-p (nomeado como F de significação) é igual a 0,00, como é menor que alfa =
5%, rejeitamos H0 e podemos concluir que é possível fazer uma regressão, pois pelo menos uma
variável x consegue influenciar y.
ANOVA
F de
gl SQ MQ F significação
Regressão 3 28087279 9362426 476,1288 0,00
Resíduo 996 19584988 19663,64
Total 999 47672267
Na tabela a seguir temos os resultados do modelo em si. Primeiro olhamos os valores-p de cada
variável x do modelo. Todas devem ter valor-p menor do que 0,05 para podermos dizer que são
significantes. Caso alguma tenha valor-p maior que 5%, ela não é significante e deve ser removida
do modelo e devemos rodá-lo novamente. No exemplo temos todos os valores-p das variáveis x
(amarelo) menores do que 5%, logo, todas as variáveis são significantes, ou seja, influenciam y.
Como todas as variáveis são significantes, podemos olhar a stat t (vermelho) que nos dá uma ordem
de importância das variáveis. Quanto maior o valor de stat t, mais importante a variável. Neste
caso, temos que a variável mais importante é contratos, seguida de cartões e renda.
12
Os coeficientes (verde) são usados para criar a equação de regressão que de fato será usada para
fazer previsões. Neste caso, a equação será:
Vale destacar que a interseção (intercepto vertical) tem o valor-p maior do que 5%, portanto não é
considerado significante. Porém, para se evitar mudar a forma da reta, mantemos seu valor na
equação.
Fechamento: A revisão aqui apresentada buscou esclarecer os pontos de dúvidas trazidos pela
turma ao longo do bimestre. Além disso, cobre de forma fidedigna o conteúdo abordado pela
disciplina e que será cobrado como checagem de aprendizado na prova final.
13