Analise Fatorial
Analise Fatorial
Analise Fatorial
ESTATÍSTICA MULTIVARIADA 2
CAPÍTULO # 2
ANÁLISE FATORIAL
2º SEMESTRE DE 2013
Capítulo 2 – Análise Fatorial
2. ANÁLISE FATORIAL
2.1. INTRODUÇÃO:
Do mesmo modo que a análise de componentes principais, a análise fatorial tem
como objetivo principal descrever a variabilidade original do vetor aleatório X, em termos
de um número menor m de variáveis aleatórias, chamadas fatores comuns e que estão
relacionadas com o vetor original X através de um modelo linear. Neste modelo, parte da
variabilidade de X é atribuída aos fatores comuns, sendo o restante da variabilidade X
atribuído as variáveis que não foram incluídas no modelo, ou seja, ao erro aleatório.
A origem da Análise Fatorial (AF) data do início do século 20, quando Spearman
(1904) desenvolveu um método para a criação de um índice geral de inteligência (fator
"g") com base nos resultados de vários testes (escalas), que supostamente refletiriam
essa aptidão. Tratava-se de um primeiro método de AF, adequado para a estimação de
um único fator.
O desenvolvimento inicial de métodos de AF esteve muito ligado ao problema da
avaliação de escalas cognitivas e foi responsabilidade de uma série de pesquisadores da
área de psicologia (Spearman, 1904; Thurstone, 1935, 1947 e Burt, 1941, por exemplo).
No início, os métodos apresentavam uma característica mais empírica do que formal. Em
1940, com Lawley, surge um primeiro trabalho com maior rigor matemático (em termos
de inferência estatística), o que fez com que se aumentasse a aceitação dessas técnicas,
nesse meio.
Uma situação comum em várias áreas do conhecimento e, em particular,
na psiquiatria, é aquela na qual, para cada elemento de uma amostra, observa-
se um grande número de variáveis. Essas variáveis podem ser, por exemplo, um
conjunto de itens de uma escala ou os escores obtidos por um indivíduo em
diferentes escalas de avaliação. Diante de um quadro como esse, o pesquisador
enfrenta dois problemas, que podem ser resolvidos através da análise fatorial:
a) a caracterização dos avaliados, levando-se em conta um conjunto eventualmente
grande de variáveis, e
b) a descrição da inter-relação dessas variáveis, eventualmente explicitando uma
estrutura de interdependência subjacente aos dados.
Reis (1997) define a AF como "um conjunto de técnicas estatísticas cujo objetivo é
representar ou descrever um número de variáveis iniciais a partir de um menor número de
variáveis hipotéticas". Trata-se de uma técnica estatística multivariada que, a partir da
estrutura de dependência existente entre as variáveis de interesse (em geral representada
pelas correlações ou covariâncias entre essas variáveis), permite a criação de um conjunto
menor de variáveis (variáveis latentes, ou fatores) obtidas como função das variáveis
originais.
Além disso, é possível saber o quanto cada fator está associado a cada variável e o
quanto o conjunto de fatores explica da variabilidade geral dos dados originais. Note que
isso vem de encontro à resolução do problema (a), haja vista que, quando a análise
fatorial é bem sucedida, o pesquisador pode trabalhar com um número reduzido de
variáveis sem uma perda muito grande de informações. O problema (b) também é
solucionado, já que cada um desses fatores pode representar uma característica
subjacente aos dados. Tome por exemplo Spearman (1904), que interpretou o fator "g"
como uma medida de inteligência que estaria implicitamente ligada ao desempenho de um
conjunto de testes.
1 0.83 0.78
R= 1 0.67
1
X1 notas em clássico
X2 notas em Francês
X3 notas em Inglês
r (R) = 3, p=3 em p=1
X 1 = λ11 f 1 + µ1 + ε 1
X 2 = λ21 f1 + µ 2 + ε 2
X 3 = λ31 f1 + µ3 + ε 3
JOHNSON & WICHERN (1999) afirmam que o propósito essencial da análise fatorial
é descrever, se possível, as (inter-relações) relações de covariâncias entre diversas
variáveis em termos de algumas quantidades aleatórias, não observáveis, chamadas
fatores. Basicamente, o modelo fatorial é motivado pelo seguinte argumento:
• Suponhamos que as variáveis podem ser agrupadas por suas correlações, isto é,
suponhamos que todas as variáveis dentro de um particular grupo sejam altamente
correlacionadas entre si, mas tenham correlações relativamente pequenas com
variáveis em grupos diferentes.
• Então, é admissível que cada grupo de variáveis represente um único fator, que é
responsável pelas correlações observadas. Por exemplo (Spearman): os escores em
francês, inglês, matemática e música sugeriram a definição de um fator associado à
"inteligência". Um segundo grupo de variáveis, representando os escores de aptidão
física, se disponível, pode corresponder a um outro fator. É este tipo de estrutura que a
análise fatorial pretende confirmar.
Afirmaram ainda que a análise fatorial pode ser entendida como uma
extensão da análise de com ponentes principais. Ambas podem ser vistas como
tentativas de aproximar a matriz de covariâncias Σ , mas a aproximação
baseada no m odelo de análise fatorial é mais elaborada. Uma questão primária
na análise fatorial é se os dados são consistentes com uma estrutura prescrita.
modo que a matriz L é a matriz de cargas fatoriais. Note que o i-ésimo fator específico ε i
µ i = média da variável i
ε i = i-ésimo fator específico
Fj = j-ésimo fator comum
Este modelo fatorial ortogonal implica uma estrutura de covariâncias para Y. Do modelo
(4-4), temos
(Y − µ)(Y − µ)' = (LF + ε )(LF + ε )' = (LF + ε )((LF)' + ε ')
= LFF'L' + ε F'L' + LF ε ' + ε ε '
de modo que
Σ = cov(Y) = E(Y − µ)(Y − µ)'
= LE(FF')L' + E( ε F')L' + LE(F ε ') + E( ε ε ') = LL' + Ψ
De (4-4) temos ainda que:
(Y − µ)F' = (LF + ε )F' = LFF' + ε F'
⇒ cov(Y, F) = E(Y − µ)F' = E(LFF' + ε F') = LE(FF') + E( ε F') = L
σ ii =
2 2
( li1 + li 2 + ... + lim )
2
+ ψi
σ ii = hi2 + ψ i , i = 1, 2, ..., p
A i-ésima comunalidade é a soma de quadrados das cargas fatoriais da i-ésima variável
nos m fatores comuns.
Exemplo 2.1. (pág.480 ed5 J & W ). Verificar a igualdade Σ = LL' + Ψ , em que:
19 30 2 12 4 1 2 0 0 0
30 57 5 23 7
2 4 7 − 1 1 0 4 0 0
Σ= = +
2 5 38 47 − 1 6 1 2 6 8 0 0 1 0
12 23 47 68 1 8 0 0 0 3
I σ ii hi2 ψi hi2 / σ ii
1 19 17 2 89,5%
2 57 53 4 93,0%
3 38 37 1 97,4%
4 68 65 3 95,6%
com Y3 .
IMPORTANTE:
• O modelo fatorial assume que p + p(p−1)/2 = p(p+1)/2 parâmetros de variâncias e de
covariâncias podem ser reproduzidos por pm fatores de carga (ou cargas fatoriais) lij
1 0.9 0.7
Exemplo 2.2. (p = 3 e m = 1) e matriz de covariâncias Σ = 0.9 1 0.4
0.7 0.4 1
Usando o modelo (4-4), obtemos
Y1 − µ1 = l11 F1 + ε1
Y2 − µ 2 = l 21 F1 + ε 2
Y3 − µ 3 = l31 F1 + ε 3
A estrutura de covariâncias Σ = LL' + Ψ implica que
1 = l11 + ψ1
2
0.90 = l11 l 21 0.70 = l11 l31
1 = l 21 + ψ 2
2
0.40 = l 21 l31
1 = l31 + ψ 3
2
0.40
• O par de equações 0.70 = l11 l31 e 0.40 = l 21 l31 implica que l 21 = l11 , que
0.70
2
substituída em 0.90 = l11 l 21 , tem-se l11 = 1.575 ou l11 = ±1.255.
IMPORTANTE (continuação)
As cargas fatoriais
L∗ = LT e L (4-9)
proporcionam a mesma representação. As comunalidades fornecidas pelos elementos
∗ ∗
da diagonal de LL' = ( L )( L )' não são afetadas pela escolha da matriz ortogonal
T.
OBSERVAÇÕES:
• A matriz S estima Σ e se as covariâncias em S (ou as correlações em R ) forem
pequenas (próximas a zero) o modelo de análise fatorial não será conveniente.
• Se Σ não é uma matriz diagonal então o objetivo da análise consiste em estimar as
cargas fatoriais lij e as variâncias específicas ψ i .
Σ = λ1 e1 e1t + λ 2 e 2 e 2t + ... + λ p e p e pt
λ1 e t 1
λ2 e t 2
= [ λ1 e1 , λ 2 e 2 , ..., λp ep ] (4-10)
λ p e p
t
que ajusta a matriz de covariâncias pelo modelo de análise fatorial tendo tantos fatores
quanto variáveis (m = p) e variâncias específicas ψ i = 0, para todo i. A matriz de cargas
Σ = L Lt + 0 = LL' (4-11)
(pxp) (pxp) (pxp) (pxp) (pxp)
e não permite qualquer variação nos fatores específicos ε em (4-4). Preferimos modelos
Σ ≅ λ1 e1 e1t + λ 2 e 2 e 2t + ... + λ m e m e mt
Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho Página 10
Capítulo 2 – Análise Fatorial
λ1 e t 1
λ2 e t 2
≅ [ λ1 e1 , λ 2 e 2 , ..., λm em ] ≅ L Lt (4-12)
(px m ) ( m xp)
λ m e m
t
m
onde ψ i = σ ii − ∑ lij2 , para i = 1, 2, ..., p.
j =1
y j1 − y1
y − y
2
yj −y =
j2
, j = 1, 2, ..., n (9-14)
y j p − y p
Nos casos em que as unidades das variáveis não são
com ensuráveis , é usualmente desejável trabalhar com variáveis
padronizadas
y j1 − y1
s 11
y j2 − y 2
z j = s 22 , j = 1, 2, ..., n
jp
y − y p
s pp
Estatística Multivariada 2 – 2o Semestre de 2013 – Prof. Pedro Ferreira Filho Página 11
Capítulo 2 – Análise Fatorial
m ~
∑ lij2 = ( λ̂1 ê1 )'( λ̂1 ê1 ) = λ̂1
j =1
desde que o autovetor ê1 tem comprimento unitário. Em geral, temos que a proporção
λˆ j
para a análise fatorial baseada em S
s11 + s 22 + ... + s pp
λˆ j
, para a análise fatorial baseada em R
p
⇒ o número de fatores comuns retidos no modelo é aumentado até que uma
proporção "conveniente" do total das variâncias amostrais tenha sido explicada.
• Outra convenção (adotada em pacotes estatísticos) consiste em tomar os m autovalores
de R maiores que a unidade, se a matriz de correlações é fatorada, ou igual ao número
de autovalores positivos de S se a matriz de covariâncias é fatorada.
• O ideal é reter poucos fatores no modelo, assumindo que eles dão uma "satisfatória"
interpretação dos dados e produzem um ajuste "satisfatório" de S e R.
Observações iniciais:
• Essa estrutura nos indica que as estrutura das variáveis poderá ser explicada por
um conjunto de até três fatores comuns.
Usando SAS IML;
proc iml;
R={1 .02 .96 .42 .01,
.02 1 .13 .71 .85,
.96 .13 1 .5 .11,
.42 .71 .5 1 .79,
.01 .85 .11 .79 1};
Av=eigval(R);
AT=eigvec(R);
print R;
print Av;
print At;
l={ 0 0, 0 0, 0 0, 0 0, 0 0};
do i=1 to 5;
do j=1 to 2;
l[i,j]=sqrt(av[j])*at[i,j];
end;
end;
print l;
quit;
MATRIZ DE CORRELAÇÃO
AUTOVALORES
2.8530904
1.8063325
0.2044902
0.1024095
0.0336774
AUTOVALORES
CARGAS FATORIAIS
0.5598618 0.8160981
0.7772594 -0.524202
0.6453364 0.7479464
0.9391057 -0.104919
0.7982069 -0.543228
~~ ~
Observação: L L '+ Ψ = R
Veja:
1) Exemplo 9.4, pagina 489 5a ed. J & W
2) Abordagem Modificada – Solução Fator Principal (J & W 5ª ed, paginas 490-491);
−1
L' Ψ L = ∆ seja uma matriz diagonal (4-26)
Resultado 2.1. Seja Y1 , ..., Yn uma amostra aleatória de uma N p (µ, Σ ) , em que
OBSERVAÇÕES:
• As estimativas de máxima verossimilhança para L e Ψ são obtidas por maximização
numérica (processo iterativo)
seja apropriada para S e não para R, esta prática é equivalente a obter as EMV's L̂ e
Considerando m = 2, temos:
Para máxima verossimilhança:
0 .005 − .004 − .024 − .004
0 − .003 − .004 .000
ˆ =
R1 − Lˆ Lˆ '−Ψ 0 .031 − .004
0 .000
0
Factor Pattern
Factor1 Factor2
Y1 Y1 0.78344 -0.21665
Y2 Y2 0.77251 -0.45794
Y3 Y3 0.79432 -0.23439
Y4 Y4 0.71268 0.47248
Y5 Y5 0.71209 0.52373
Factor1 Factor2
2.8564869 0.8091185
Y1 Y2 Y3 Y4 Y5
Factor Pattern
Factor1 Factor2
Y1 Y1 0.68323 -0.19151
Y2 Y2 0.69240 -0.51867
Y3 Y3 0.68027 -0.25058
Y4 Y4 0.62085 0.07033
Y5 Y5 0.79388 0.43971
Y1 0.50348430 2.01404172
Y2 0.74844143 3.97523005
Y3 0.52555956 2.10773953
Y4 0.39040646 1.64043382
Y5 0.82359299 5.66869997
expliquem pelo menos um montante especificado de variância. Nenhuma base absoluta foi
adotada para todas as aplicações. No entanto, em ciências naturais, o procedimento de
obtenção de fatores não deveria ser parado ate os fatores extraídos explicarem pelo
menos 95% da variância ou até último fator explicar apenas uma pequena parcela
(menos que5%). Em contraste, em ciências socia is, na qual as informações geralmente
são menos precisas, não é raro considerar uma solução que explique 60% da variância
total (e em alguns casos até menos) como satisfatória. Uma variante deste critério envolve
a seleçao de fatores suficientes para atingir uma comunalidade pré-especificada para cada
variável. Se razões teóricas ou práticas requerem uma certa comunalidade para ca-
da variável, então a pesquisa incluirá tantos fatores quanto necessários para representar
adequadamente cada uma das variáveis originais. Isso difere de focalizar somente o
montante total de variância explicada, que negligência o grau de explicação para as
variáveis individuais.
Ho: Σ = L Lt + Ψ (4-33)
(pxp) (px m) (mxp) (pxp)
1 −1 n
ˆ ∑ (y j − y )(y j − y ) '
−n 2
Σ
ˆ exp − tr Σ
2 j =1
ˆL
= L ˆ'+ Ψ
ˆ −n 2 1
exp − tr LL' + Ψ
2
[(
)−1 S n ] (4-35)
−n 2
Σ
=−2 ln ˆ −1S n ) − p]
+ n[tr( Σ (4-36)
Sn
com graus de liberdade
1 1
ν − νo = p ( p + 1) − [ p (m + 1) − m(m − 1) ]
2 2
1
= [( p − m) 2 − p − m] (4-37)
2
ˆ −1S n ) − p = 0 [ver Suplemento 9-A J & W] temos que Σ̂ = L
Como tr( Σ ˆLˆ ' + Ψ̂ é EMV
Lˆ Lˆ '+ Ψ
ˆ
(n −1 − (2p + 4m + 5)/6) ln
> χ2 (4-39)
Sn [( p − m ) 2 − p − m ] / 2
desde que n e n − p sejam grandes.
Uma condição necessária para a aplicação do teste (4-39), já que o número de
graus de liberdade é um número positivo, consiste em verificar que
1
m< (2 p+ 1 − 8 p+ 1) (4-40)
2
Exemplo 2.6. (Continuação exemplo 2.5)
O objetivo desse exemplo é testar se o modelo com m = 2 fatores comuns é adequado,
ou seja, testar a hipótese Ho: Σ = LL' + Ψ , com m = 2 ao nível α = 5%.
A estatística do teste em (9-39) é baseado na razão de variâncias generalizadas
Σ Lˆ Lˆ '+ Ψ
ˆ
=
Sn Sn
que pode ser escrita como (ver demonstração na pág. 539):
Σ Lˆ z Lˆ z '+ Ψ
ˆz
= (9-41)
Sn R
Do Exemplo 9.5, temos que
1.000
0.572 1.000
0.513 0.602 1.000
0.411 0.393 0.405 1.000
0.458
= L̂ z L̂ z '+ Ψz
ˆ
0.322 0.430 0.523 1.000 = 1.0065
R = 1.000
0.577 1.000
0.509 0.599 1.000
0.387 0.389 0.436 1.000
0.462 0.322 0.426 0.523 1.000
(10 + 8 + 5
100 − 1 − 6 ln (1.0065) = 0.62
1
e desde que [( p − m) 2 − p − m] = 1, o valor crítico χ12 (5%) = 3,84 não é excedido,
2
indicando que a hipótese Ho não deva ser rejeitada. Como P( χ1 > o.62) ≅ o.43, a
2
90 graus. Também é possível rotacionar os eixos sem manter o ângulo de 90 graus entre
os eixos de referencia. Quando não há a restrição de ser ortogonal, o procedimento de
rotação se chama rotação obliqua. Rotações fatoriais ortogonais
e obliquas são demonstradas nas figuras 2.2. e 2.3., respectivamente.
ˆL ∗
ˆ ' + Ψ̂ ) = S n − ( L̂ L̂ ' + Ψ̂ ), as∗
Essa equação indica que a matriz de resíduos S n − ( L
determinada graficamente. Um gráfico dos pares de cargas fatoriais ( lˆi1 , lˆi 2 ), com p
∗
pontos, dá uma idéia do ângulo de rotação ( φ )ideal. As novas cargas fatoriais li j são
Lˆ ∗ = L̂ T (9-44)
( px 2 ) (px2) ( 2x 2 )
onde
cos φ sen φ
T= se a rotação for no sentido horário
− sen φ cos φ
cos φ − sen φ
T= se a rotação for no sentido anti-horário
sen φ cos φ
Exemplo 2.7 (página 502 J & W): Lawley & Maxwell (1971), com p = 6 variáveis m = 2
fatores comuns e n = 220 estudantes do sexo masculino, estudam o aproveitamento
em 6 disciplinas. A matriz de correlações é dada por:
Gaelic English History Arithmetic A lg ebra Geometry
1
0.439 0.410 0.288 0.329 0.248
1 0.351 0.354 0.320 0.329
R= 1 0.164 0.190 0.181
1 0.595 0.470
1 0.464
1
O gráfico de dispersão com as cargas fatoriais ( lˆi1 , lˆi 2 ), figura 2.4., sugeriu uma
rotação dos eixos de φ = 20° no sentido anti-horário (este ângulo pode ser determinado
ou medindo-se diretamente no gráfico, ou por cálculo). A partir das novas cargas
fatoriais (Tabela 2.3) podemos perceber que:
• as variáveis associadas à matemática têm cargas fatoriais positivas e altas no fator
F1∗ , e as demais, cargas muito baixas. O primeiro fator pode ser chamado de fator
de habilidade matemática.
• similarmente, as três variáveis associadas às línguas têm cargas fatoriais altas no
∗ ∗
fator F2 e moderadas e baixas com F1 . O segundo fator pode ser chamado de
• vale observar que com a rotação, a interpretação dos dois fatores ficou mais simples
e que a comunalidade das variáveis não foi alterada.
1 m p ˆ* 4 1 m p *2
2
VQ = ∑∑ lij − ∑∑ lij
pm j =1 i =1 pm j =1 i =1
onde lˆij* é o coeficiente da i-ésima variável no j-ésimo fator após a rotação. O
Lembre-se que, nas abordagens QUARTlMAX, muitas variáveis podem ter cargas altas ou
próximas de altas no mesmo fator, pois a técnica se concentra em sim plificar as linhas.
Com a abordagem rotacional VARIMAX, há uma tendência para algumas cargas altas (isto
e, próximas de -1 ou +1) e algumas cargas próximas de 0 em cada coluna da matriz. A
lógica é que a interpretação é mais fácil quando as correlações variável-fator são (1)
próximas de +1 ou -1, indicando assim uma clara associação positiva ou negativa entre a
variável e o fator; ou (2) próximas de 0, apontando para uma clara falta de associação.
Essa estrutura é fundamentalmente simples. Apesar de a solução QUARTlMAX ser
analiticamente mais simples do que a solução VARIMAX, esta parece fornecer uma
separação mais clara dos fatores. Em geral, Kaiser indica que o padrão fatorial obtido por
rotação VARIMAX tende a ser mais invariante do que o obtido pelo método QUARTlMAX
quando diferentes subconjuntos de variáveis são analisados. O método VARIMAX tem sido
muito bem-sucedido como uma abordagem analítica para a obtenção de uma rotação
ortogonal.
O método varimax busca a melhor rotação de eixos, de modo que a nova matriz de
∗
cargas L = LT tenha o maior número de coeficientes nulos. Embora essa estrutura
facilite a interpretação dos fatores, raramente existe em soluções fatoriais de dados reais
(Morrison, 1976).
Kaiser (1958) definiu a simplicidade de um fator j como a variância de suas cargas
fatoriais ao quadrado, isto é
( ) ( )
2
1 p ~∗ 4 1 p ~∗ 2 ~
V j = ∑ lij − 2 ∑ lij , onde lij∗ = li∗j / ĥi , para j = 1, 2, ..., m
p i =1 p i =1
Quando a variância atinge um máximo, o fator tem maior interpretabilidade ou
simplicidade, no sentido de que as cargas desse fator tendem à unidade ou à zero. O
critério é definido como a maximização da soma dessas simplicidades, ou seja,
1 n p ~∗
( ) ( )
2
4 p ~ 2
V= ∑ ∑ lij − ∑ lij∗ p (4-45)
p j =1i =1 i =1
~∗
Depois que a transformação T é determinada, as cargas fatoriais lij são multiplicadas por
Exemplo 2.8 (página 505 J & W), referente à análise fatorial de dados de preferência de
consumo, já avaliados no Exemplo 2.3.
Tabela 2.4.
Cargas fatoriais
Cargas fatoriais COMUNALIDADE
Variável rotacionadas
F1 F2 F1∗ F2 ∗ ĥi2
Sabor 0.56 0.82 0.02 0.99 0.98
Boa compra 0.78 -0.52 0.94 -0.01 0.88
Gosto 0.65 0.75 0.13 0.98 0.98
Apropriado para
0.94 -0.10 0.84 0.43 0.89
snack
Fornece energia 0.80 -0.54 0.97 -0.02 0.93
Com base na Tabela 2.4., que apresenta as cargas fatoriais das variáveis antes e depois
da rotação feita através do método varim ax , podemos perceber que:
• (as variáveis 2, 4 e 5 definem o primeiro fator, pois apresentam cargas altas no fator 1 e
baixas no fator 2). O fator 1 pode er chamado de fator nutricional.
• as variáveis 1 e 3 definem o segundo fator, que pode ser chamado de fator de sabor.
A análise desse exemplo pode ser feita utilizando-se o PROC FACTOR, com os
seguinte comandos:
title 'Análise Fatorial '
title2 'Método Componentes Principais - Rotação Varimax';
data consumo (type=corr);
_type_='CORR';
input _name_ $ Taste Money Flavor Snack Energy;
cards;
Taste 1.00 . . . .
Money 0.02 1.00 . . .
Flavor 0.96 0.13 1.00 . .
Snack 0.42 0.71 0.50 1.00 .
Energy 0.01 0.85 0.11 0.79 1.00
;
proc factor res data=consumo method=prin nfact=2 rotate=varimax
preplot plot;
var taste money flavor snack energy;
run;
Factor Pattern
Factor1 Factor2
Factor Pattern
Factor1 Factor2
Factor1 Factor2
2.8530904 1.8063325
1 2
1 0.83571 0.54917
2 -0.54917 0.83571
Factor1 Factor2
Factor1 Factor2
2.5373960 2.1220269
Factor1
1
D
.9
EB .8
.7
C
.6
A
.5
.4
.3
.2
F
.1 a
c
-1 -.9-.8-.7-.6-.5-.4-.3-.2-.1 0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1.0t
o
-.1 r
2
-.2
-.3
-.4
-.5
-.6
-.7
-.8
-.9
-1
Factor1
1
B
.9
D
.8
.7
.6
.5
.4
.3
.2
F C
.1 a
c
-1 -.9-.8-.7-.6-.5-.4-.3-.2-.1 0 .1 .2 .3 .4 .5 .6 .7 .8 .9 A.0t
o
-.1 r
2
-.2
-.3
-.4
-.5
-.6
-.7
-.8
-.9
-1
Nota:
Observe que nesse caso, para entrada de dados nos SAS foi utilizado diretamente a matriz
de correlações.Esta opção permite somente fazer a análise fatorial, mas não conseguimos
calcular os escores fatoriais dos indivíduos como veremos a seguir.
Y5 Y5 0.79388 0.43971
Y−µ = L F + ε
(px 1) (pxm) (mx1) (px 1)
dos m ínim os quadrados ponderados seja usado para estimar os valores dos
fatores comuns. A soma dos quadrados dos erros, ponderados pelo recíproco de
suas variâncias é igual a
p ε i2
∑ ψ = ε' Ψ -1ε = (y − µ − Lf )' Ψ -1 (y − µ − Lf ) (4-47)
i =1 i
ˆ −1 Lˆ ' Ψ
= ∆ ˆ -1 (y j − y ) , j = 1, 2, ..., n
j = 1, 2, ..., n.
• Se as cargas fatoriais forem obtidas pelo m étodo dos com ponentes
principais , os escores fatoriais são calculados por
f̂ j = (L' L) −1 Lˆ ' (y j − y )
ou
f̂ j = (Ltz L z ) −1 Lˆ tz z j
Σ ∗ dada por
LL' + Ψ L
∗ (pxm)
Σ =
( pxp )
(4-52)
( m+ p ) x ( m+ p ) (mxp)
L' I
(mxm)
e
−1 −1
covariância: Cov(F | y) = I − L' Σ L = I − L' (LL' + Ψ ) L (4-54)
−1
As quantidades L' (LL' + Ψ ) em (4-53) são os coeficientes de uma regressão
ˆ ' (L
L ˆL ˆ ) −1 = ( I + L
ˆ'+ Ψ ˆΨˆ −1L
ˆ ) −1 L ˆ −1
ˆ'Ψ (4-56)
regres-são, que denotaremos por f̂ jR ,com aqueles (9-5o) gerados pelo método dos
temos que
f̂ jM Q = ( I + (L
ˆΨˆ −1Lˆ ) −1 ) f jR (4-57)
ˆ'Ψ
Para estimativas de máxima verossimilhança temos que (L ˆ −1 ˆ −1
L) ˆ −1 e se
= ∆
−1 2
onde z j = D (y j − y ) e ρ̂ = Lˆ z Lˆ tz + Ψ̂z
A condição básica para uso da análise fatorial é de que existe uma estrutura
de dependência entre as variáveis envolvidas. Esta dependência pode ser
identificada a partir da matriz de variância-covariâncias ou matriz de correlações. A
existência desta estrutura significa que uma variável pode, dentro de certos limites,
ser “prevista” pelas demais. A verificação deste fato pode ser feita a partir do
calcula dos coeficientes de correlação parcial entre os pares de variáveis, eliminado
o efeito das demais variáveis. Espera-se que os valores obtidos sejam baixos. A
matriz anti-imagem é definida por esses coeficientes com sinais invertidos.
Tabela 3.1
KMO Interpretação
0.90 – 1.00 Excelente
0.80 – 0.89 Ótimo
0.70 - 0.79 Bom
0.60 – 0.69 Regular
0.50 – 0.60 Ruim
0.00 – 0.49 Inadequado
0.80 – 1.00 Excelente
0.70 - 0.79 Ótimo
0.60 – 0.69 Bom
0.50 – 0.60 Regular
0.00 – 0.49 Insuficiente
∑𝑝𝑝𝑗𝑗=1 𝑟𝑟𝑖𝑖𝑖𝑖2
𝑀𝑀𝑀𝑀𝑀𝑀𝑖𝑖 =
∑𝑝𝑝𝑗𝑗=1 𝑟𝑟𝑖𝑖𝑖𝑖2 + ∑𝑝𝑝𝑗𝑗=1 𝑎𝑎𝑖𝑖𝑖𝑖2
Como uma medida resumo, é possível calcular a média dos MASi para se ter
uma idéia do desempenho do conjunto das variáveis.
𝑝𝑝
𝑀𝑀𝑀𝑀𝑀𝑀𝑖𝑖
������
𝑀𝑀𝑀𝑀𝑀𝑀 = �
𝑝𝑝
𝑖𝑖=1
Matriz de Correlações:
Obs _Var_ V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17
1 V1 1.00 0.15 0.99 0.74 0.64 -0.20 0.28 -0.31 0.94 0.71 0.98 0.97 0.08 0.01 -0.08 0.19 0.22
2 V2 0.15 1.00 0.01 0.10 0.18 0.13 -0.07 0.01 0.04 0.03 0.20 0.03 0.20 0.03 0.09 -0.10 -0.08
3 V3 0.99 0.01 1.00 0.74 0.62 -0.22 -0.27 -0.32 0.95 0.71 0.99 0.99 0.66 0.01 -0.09 0.20 0.24
4 V4 0.74 0.10 0.74 1.00 0.94 -0.08 0.39 0.31 0.63 0.33 0.71 0.70 0.66 -0.24 -0.27 -0.48 -0.45
5 V5 0.64 0.18 0.62 0.94 1.00 0.27 0.43 0.48 0.54 0.27 0.60 0.59 0.01 -0.22 -0.20 -0.52 -0.41
6 V6 -0.20 0.13 -0.22 -0.08 0.27 1.00 0.14 0.53 -0.16 -0.12 -0.22 -0.22 0.47 0.04 0.18 -0.18 -0.17
7 V7 0.28 -0.07 -0.27 0.39 0.43 0.14 1.00 0.91 -0.35 -0.40 -0.29 -0.30 0.75 -0.29 -0.23 -0.93 -0.92
8 V8 -0.31 0.01 -0.32 0.31 0.48 0.53 0.91 1.00 -0.37 -0.39 -0.34 -0.35 0.84 -0.23 -0.14 -0.86 -0.86
9 V9 0.94 0.04 0.95 0.63 0.54 -0.16 -0.35 -0.37 1.00 0.73 0.95 0.94 -0.03 0.09 0.22 0.29 0.33
10 V10 0.71 0.03 0.71 0.33 0.27 -0.12 -0.40 -0.39 0.73 1.00 0.72 0.73 -0.22 0.69 0.12 0.36 0.42
11 V11 0.98 0.20 0.99 0.71 0.60 -0.22 -0.29 -0.34 0.95 0.72 1.00 0.99 0.03 0.03 -0.06 0.23 0.26
12 V12 0.97 0.03 0.99 0.70 0.59 -0.22 -0.30 -0.35 0.94 0.73 0.99 1.00 0.00 0.04 -0.04 0.23 0.30
13 V13 0.08 0.20 0.66 0.66 0.01 0.47 0.75 0.84 -0.03 -0.22 0.03 0.00 1.00 -0.34 -0.25 -0.82 -0.83
14 V14 0.01 0.03 0.01 -0.24 -0.22 0.04 -0.29 -0.23 0.09 0.69 0.03 0.04 -0.34 1.00 0.27 0.30 0.34
15 V15 -0.08 0.09 -0.09 -0.27 -0.20 0.18 -0.23 -0.14 0.22 0.12 -0.06 -0.04 -0.25 0.27 1.00 0.24 0.28
16 V16 0.19 -0.10 0.20 -0.48 -0.52 -0.18 -0.93 -0.86 0.29 0.36 0.23 0.23 -0.82 0.30 0.24 1.00 0.96
17 V17 0.22 -0.08 0.24 -0.45 -0.41 -0.17 -0.92 -0.86 0.33 0.42 0.26 0.30 -0.83 0.34 0.28 0.96 1.00
Factor Pattern
V1 V2 V3 V4 V5 V6
Observações:
• os quatro primeiros fatores explicam 87,3% da variância total das variáveis origi-
nais;
• as cargas fatoriais, quando a análise é feita a partir da matriz de
correlações amostrais, são os coeficientes de correlação entre as
variáveis e os fatores comuns. Neste exemplo, considerou-se importantes na
construção dos fatores, as variáveis com coeficiente de correlação (cargas
fatoriais) iguais ou superiores a 0.60, em valor absoluto.
• o Fator 1: Explica 40% da variabilidade total e envolve as variáveis:
V1: Área Cultivada;
V 3: Números de pés plantados;
V9: Quantidade de adubo empregado;
V10: Quantidade de inseticida empregado;
V11: Lenha Consumida
V12: Mão de obra
Fator: Investimento
• o Fator 2: Explica 31,6% da variabilidade total e envolve as variáveis:
V4: Fumo Produzido;
V5: Rendimento Bruto;
V7: Rendimento kg/ha;
V8: Rendimento CR$/ha;
V13: Renda Líquida;
V16: Lenha Consumida por kg de fumo;
2.11.1 CONCEITO:
Uma das perguntas mais freqüentemente feitas pelos leitores e pelos próprios
pesquisadores é: até onde podemos confiar nos dados coletados para o desenvol-
vimento da pesquisa? Teríamos como exemplo: Será que medidas escolhidas para
mensurar as perspectivas dos clientes em relação ao produto A estarão coerentes
com os propósitos da pesquisa?
Análise da confiabilidade dos dados permite analisar as escalas de mensuração,
assim calcula um número de mensurações geralmente usadas de confiabilidade de
escalas e também fornece informação sobre as relações entre os itens individuais
em uma determinada escala. Assim, utilizando-se a análise da confiabilidade
podemos determinar a extensão em que os itens estão relacionados com os demais.
Alguns modelos para análise da confiabilidade são:
• Alfa de Cronbach - esse é um modelo de consistência interna baseada na
correlação média entre os itens.
• Split-half- esse modelo separa a escala em duas partes e examina a cor-
relação entre as partes.
• Guttman - este modelo calcula o limite inferior de Guttman para a con-
fiabilidade verdadeira.
• Paralelo - esse modelo assume que todos os itens tenham variâncias iguais e
variâncias de erros iguais.
• Paralelo estrito - esse modelo faz a preposição do modelo paralelo e
também assume a igualdade de médias entre os itens
envolvem testes com vários itens, que abrangem variáveis aleatórias latentes, por
exemplo, a avaliação da qualidade de um questionário com uma métrica de perfil-
latente.
k ((cov/ var)
α=
1 + (k − 1)(cov/ var )
Onde
k = número de variáveis consideradas
cov = média das covariâncias
var = média das variâncias
Forma Alternativa:
O valor assumido pelo Alfa está entre O e 1, e quanto mais próximo de 1 estiver
seu valor, maior a fidedignidade das dimensões do construto. Segundo Nunnaly
(1978) apud Miguel (2002) e Dutra (2000), o valor mínimo para o Alfa de Cronbach
deve ser 0,7 para pesquisa preliminar, 0,8 para pesquisa básica e de 0,9 para
pesquisa aplicada. Hair (1998) trata 0,7 como mínimo ideal, mas também pode se
aceitar 0,6 para pesquisas exploratórias. Entretanto, não existe consenso quanto à
regra colocada acima.
Segundo Pereira (2004, p. 87), uma das possibilidades de interpretação do Alfa
de Cronbach seria considerá-lo como um coeficiente de correlação ao quadrado;
assim, por exemplo, quando um estudo tiver um alfa igual a 0,75, estaríamos
medindo 75% do impacto real das variáveis.
2.11.4 APLICAÇÃO:
INTRODUÇÃO:
Durante o início de 2008, foi realizada a análise da pesquisa relacionada a
religiosidade e dependência química, realizada por um profissional da área da
saúde.
A pesquisa envolveu 138 indivíduos, divididos em cinco grupos de diferentes
origens: evangélicos, católicos, alcoólicos anônimos, serviço público e grupo não
religioso.
O objetivo geral deste trabalho é estudar o grau de religiosidade, mensurado
através da versão traduzida e adaptada transculturalmente para o Brasil do
instrumento Spirituality Self Rating Scale (SSRS), para os cinco grupos existentes.
OBJETIVO:
Avaliar o desempenho da versão traduzida e adaptada transculturalmente
para o Brasil do instrumento Spirituality Self Rating Scale (SSRS).
Resultados:
No SAS:
ods html;
ods graphics on;
Variables Alpha
Raw 0.531475
Standardized 0.534598
EXEMPLO 2:
INTRODUÇÃO:
Uma empresa do ramo de calçados populares gostaria de entender melhor a
forma de relacionamento de algumas variáveis e como este relacionamento pode
interferir na condução de seu negócio. Para isso resolveu encomendar uma
pesquisa com outras empresas do ramo para identificar a importância de algumas
variáveis.
As variáveis observadas foram:
V1 – Automação
V2 – Crescimento do PIB
V3 – Parceria com fornecedores
V4 – Novos concorrentes
V5 – Diversidade de Produtos
V6 – Controle de Despesas
V7 – Câmbio
V8 – Estabilidade econômica
1 – Não interfere
2 – Interfere Pouco
3 – Interfere
4 – Interfere Muito
5 – Fundamental
Dados Observados:
Obs Empresa V1 V2 V3 V4 V5 V6 V7 V8
1 c1 4 1 2 2 2 4 1 3
2 c2 4 1 2 2 2 4 1 3
3 c3 2 2 1 3 1 3 2 4
4 c4 5 4 3 3 3 5 2 4
5 c5 4 2 3 3 1 3 2 4
6 c6 4 2 2 3 3 4 2 4
7 c7 5 3 3 4 5 5 4 5
8 c8 2 1 1 4 6 3 5 5
9 c9 3 2 1 3 3 5 2 4
10 c10 4 2 2 3 1 3 2 4
11 c11 3 2 1 3 1 3 2 4
12 c12 3 2 1 3 2 4 6 4
13 c13 3 3 1 4 2 4 3 5
14 c14 3 3 1 4 2 4 3 5
15 c15 5 3 3 4 1 3 3 5
16 c16 3 1 1 2 2 4 1 3
17 c17 3 3 1 4 2 4 3 5
Obs Empresa V1 V2 V3 V4 V5 V6 V7 V8
18 c18 5 2 3 3 3 5 2 4
19 c19 3 3 1 4 1 3 3 5
20 c20 3 2 1 3 3 5 2 4
21 c21 3 2 1 2 3 5 3 2
22 c22 4 3 2 3 1 3 2 3
23 c23 4 5 2 4 1 3 3 5
24 c24 4 3 2 4 3 5 3 5
25 c25 4 2 2 3 2 4 2 4
26 c26 4 3 2 4 3 5 3 5
27 c27 5 3 3 4 2 4 3 5
28 c28 5 3 3 4 2 4 3 5
29 c29 4 3 2 4 2 4 3 5
30 c30 5 3 3 4 2 4 3 5