Análise de Correlação Abordagem Teórica e de
Análise de Correlação Abordagem Teórica e de
Análise de Correlação Abordagem Teórica e de
CURITIBA
2004
CURITIBA
2004
ii
AGRADECIMENTOS
iii
SUMRIO
viii
LISTA DE QUADROS.......................................................................................................
ix
RESUMO...........................................................................................................................
xi
ABSTRACT.......................................................................................................................
xii
1 INTRODUO ..............................................................................................................
1.1 PRELIMINARES.........................................................................................................
10
10
10
11
12
14
16
17
19
24
26
26
27
28
28
28
28
30
iv
30
33
34
35
39
41
45
50
62
66
69
69
70
70
3.2.1.10.1.1
76
3.2.1.10.1.2
78
3.2.1.10.1.3
79
80
3.2.1.10.2.1
Confiabilidade estrutural.............................................................................
81
3.2.1.10.2.2
82
84
86
86
87
88
89
91
91
91
94
94
95
96
96
97
( ) ....................................................................
158
DOS
COEFICIENTES
DE
CORRELAO
DE
vii
LISTA DE TABELAS
79
80
viii
LISTA DE QUADROS
67
85
90
b ) E ERRO PADRO,
16 COEFICIENTE DE CORRELAO BISSERIAL (
SEGUNDO
t ) E
17 COEFICIENTE DE CORRELAO TETRACRICO (
ERRO
PADRO, SEGUNDO O
ix
LISTA DE GRFICOS
31
31
31
32
58
58
60
68
68
RESUMO
A Anlise de Correlao uma ferramenta importante para as diferentes reas do
conhecimento, no somente como resultado final, mas como uma das etapas para a
utilizao de outras tcnicas de anlise. Dentre as principais tcnicas que utilizam o
Coeficiente de Correlao esto a Anlise de Confiabilidade, a Anlise da Estrutura de
Varincia-Covarincia e o Teste de Normalidade ou Gaussianidade. importante,
desse modo, conhecer teoricamente os diferentes mtodos e as suposies bsicas
requeridas para a sua utilizao de forma adequada. Este trabalho apresenta os
mtodos de Anlise de Correlao, envolvendo variveis medidas em nvel intervalar,
nominal e ordinal e a Anlise de Correlao Cannica. Os Coeficientes de Correlao
Simples abordados no trabalho foram: Coeficiente Linear de Pearson, Coeficiente de
Correlao Bisserial, Coeficiente de Correlao Ponto Bisserial, Coeficiente de
Correlao Tetracrico, Coeficiente de Correlao Eta, Coeficiente de Correlao de
Spearman, Coeficiente de Correlao por Postos de Kendall, Coeficiente de
Correlao Phi e Coeficiente de Contingncia. O presente trabalho discutiu alguns
estudos realizados em diferentes reas de pesquisa, os quais mostram as aplicaes
dos diferentes coeficientes de correlao.
Palavras-chave: Coeficiente de Correlao; Medida de Associao; Anlise da
Estrutura de Varincia-Covarincia.
xi
ABSTRACT
Different research areas consider Correlation Analysis to be an important tool not
only as a final result, but also as one of the steps of other analysis techniques.
Among the main techniques making use of a Correlation Coefficient we can mention
Reliability Analysis, Variance-covariance Structure Analysis and Normality or
Gaussian Test. Thus, theoretically it is important to know different methods and the
basic assumptions required to using such methods adequately. The present work
shows Correlation Analysis methods involving variables measured at interval,
nominal and ordinal levels, and Canonical Correlation Analysis. This work addresses
the following Simple Correlation Coefficients: Pearson Linear Correlation Coefficient,
Biserial Correlation Coefficient, Point Biserial Correlation Coefficient, Tetrachoric
Correlation Coefficient, Eta Correlation Coefficient, Spearman Correlation Coefficient,
Kendall Rank Correlation Coefficient, Phi Correlation Coefficient and Contingency
Coefficient. The present work discusses some studies, carried out in different
research areas, showing different uses of different correlation coefficients.
Key words: Correlation Coefficient; Association Measure; Variance-covariance
Structure Analysis.
xii
1.1
INTRODUO
PRELIMINARES
A Anlise de Correlao e a Anlise de Regresso so mtodos estatsticos
pode constituir o objetivo precpuo de uma pesquisa (...). Mas tambm representar
apenas um passo, ou estgio, de uma pesquisa com outros objetivos, como, por
exemplo, quando empregamos medidas de correlao para comprovar a confiabilidade
de nossas observaes".
Dado um conjunto de variveis, pode haver somente uma relao
numrica, sem relao causal. Diz-se, neste caso, que a correlao entre as
variveis envolvidas espria, devido apenas coincidncia.
1.2
OBJETIVOS
Os objetivos deste trabalho foram:
a) Apresentar a teoria da Anlise de Correlao;
b) Discutir os principais mtodos e as suposies bsicas de cada
mtodo;
c) Comparar, mediante simulao, o Coeficiente de Correlao Linear de
Pearson com os Coeficientes de Correlao Bisserial e Tetracrico;
d) Apresentar as principais utilidades da Anlise de Correlao com
aplicaes.
1.3
JUSTIFICATIVA
A Anlise de Correlao uma ferramenta importante para as diferentes
reas do conhecimento, no somente como resultado final, mas como uma das
etapas para a utilizao de outras tcnicas de anlise.
A importncia de conhecer teoricamente e em conjunto os diferentes
mtodos e as suposies bsicas requeridas por parte de cada um deles
fundamental, para que no se utilize medida de correlao inadequada.
comum o uso do Coeficiente de Correlao Linear de Pearson, por ser o
mais conhecido, mas em muitas situaes isto se d sem que se tenha a clareza de
que este coeficiente mede a relao linear entre duas variveis.
J alguns mtodos de uso mais restrito, tais como o Coeficiente de
Correlao Bisserial, Ponto Bisserial e o Tetracrico, so pouco abordados nas
literaturas clssicas de Estatstica.
Ao apresentar os diferentes mtodos de Anlise de Correlao e as
suposies bsicas para a sua utilizao, pretendeu-se contribuir para o uso
adequado de cada um deles, ilustrando com algumas aplicaes, atravs de
trabalhos j realizados em diferentes reas do conhecimento.
1.4
RESUMO HISTRICO
A teoria da anlise de correlao teve incio na segunda metade do
sculo XIX. Francis Galton (1822-1911) foi quem usou pela primeira vez os termos
correlao e regresso. Publicou em 1869 o livro Hereditary Genius, sobre a teoria
da regresso (SCHULTZ e SCHULTZ, 1992).
1.5
1Dois
2.1
REVISO DE LITERATURA
comprovar. Para isso faz-se necessria a definio de variveis, atravs das quais
pode-se aferir as questes de interesse. Assim, possvel entender que a varivel
uma primeira forma de operacionalizar a construo terica. E pode-se afirmar que a
varivel uma caracterstica que pode ser medida. Uma varivel pode se apresentar
das seguintes formas, quanto aos valores assumidos:
1.o Escala nominal: aquela que permite o agrupamento da unidade de
observao (unidade da pesquisa) de acordo com uma classificao
qualitativa em categorias definidas, ou seja, consiste simplesmente em
nomear ou rotular, no sendo possvel estabelecer graduao ou
ordenamento. Ao se trabalhar com essa escala, cada unidade de
observao deve ser classificada em uma e somente uma categoria,
isto , deve ser mutuamente excludente. Citando um exemplo bastante
comum, considerando que X seja a varivel produo diria de peas
de automveis de uma determinada indstria, possvel classificar as
peas em perfeitas e defeituosas. Neste caso, a varivel X assume as
categorias perfeita e defeituosa, sendo denominada dicotmica.
Quando assume mais de duas categorias denominada politmica.
2.o Escala ordinal: permite o agrupamento da unidade de observao de
acordo com uma ordem de classificao. A escala ordinal fornece
informaes sobre a ordenao das categorias, mas no indica a
grandeza das diferenas entre os valores. Considerando a produo
diria das mquinas de uma fbrica de peas de equipamentos
eletrnicos, possvel classific-las em: primeira em produo,
segunda em produo, terceira em produo, e assim por diante.
2.2
VARIVEL ALEATRIA
Varivel aleatria aquela cujo valor numrico no conhecido antes da
2.3
PARMETROS
O parmetro uma medida que descreve de forma reduzida uma
x P (X = x )
i
i=1
(2.1)
(2.2)
xf ( x )dx
(2.3)
onde:
E( X 2 ) = x i2 PX ( X = x i )
(2.4)
i=1
x 2 f ( x ) dx
(2.5)
(2.6)
3O
mtodo de estimao de parmetros, denominado Mtodo dos Momentos, foi uma das
contribuies de Karl Pearson.
10
[ ] e
m( t ) = E e tx =
tx
p( x )
(2.7)
x =0
[ ]
m( t ) = E e tx =
e tx f ( x ) dx
(2.8)
t=0
[ ]
= E X r = mr
(2.9)
2.4
DISTRIBUIES DE PROBABILIDADES
2.4.1
Distribuio Discreta
Dentre as distribuies de probabilidades discreta cita-se a de Bernoulli,
Distribuio de Bernoulli
Uma varivel aleatria X tem distribuio de Bernoulli, segundo CHAVES
11
PX ( X = 1) =
e PX ( X = 0) = 1
(2.10)
PX ( X = x ) = x (1 )1 x , x = 0, 1
, 0 < <1
(2.11)
Prova:
x P (X = x )
i
i=1
logo, E( X) = 0 0 (1 )
] + 1 [ (1 ) ] =
0
(2.12)
logo, E( X 2 ) = 0 2 0 (1 )
] + 1 [ (1 ) ] =
2
portanto, V( X) = [] = (1 ) .
2
(2.13)
2.4.2
Distribuies Contnuas
Dentre as distribuies contnuas, uma das mais importantes a
12
f X ( X) =
1
2
( ) , < <
X
(2.14)
V( X) = 2 .
Prova:
E( X) =
xf ( x )dx
Fazendo z =
4Esta
( ) dx
1 X 2
, tem-se que dz =
dx
13
E( X) =
E( X) =
E( X) =
( z + )
1
2
( z + ) e
1 2
z
2
dz
1 2
z
2
dz
1 2
z
0 + e 2 dz
2
1
=
e
dz
=
144424443
=1
(2.15)
onde: E( X 2 ) = x 2 f ( x )dx
logo, E( X ) = x
2
Fazendo z =
( ) dx
1 x 2
2
, tem-se que dz =
1
ento: E( X 2 ) = ( z + ) 2
E( X ) =
E( X ) =
1
2
1
2
Fazendo: ze
z e
2
Para calcular
1 2
z
2
v = e
z e
= dv
1
z
2
1 2
z
2
dz
+ 2
1 2
z
2
dz
( z + 2z + ) e
2
dx
1 2
z
2
dz
1 2
z
2
dz
1 2
z
2
dz
+
ze
e
2
2
14442444
3
144
42444
3
=0
=1
1 2
z
2
dz
z=u
dz = du
14
Obtm-se:
1
2
1 2
z
1
2
2 z
z e 2
z e 2 dz = 2
1
2
1 2
z
2
e
dz
E( X 2 ) = 2 (0 + 1) + 2 = 2 + 2
V( X) = 2 + 2 2 = 2
(2.16)
f z ( z) =
1
2
z2
e 2
(2.17)
zR
(2.18)
1 1 1
fx (x) = x 2 e 2 , x > 0 , > 0
( 2 ) 2
(2.19)
15
E( X) =
xf ( x )dx =
1
E( X) =
2 2 (2 )
x
2 2 (2 )
1 x
2 dx
xx 2 e
1 x
x 2 e 2 dx
2 2 (2 )
x 2 e
x
2 dx
xm e
ax n
m +1
n
dx = m+1
na
(2.20)
+ 1 1
2
1
1
=
E( X) =
+1
2 2 1 1 2 2 2
2
2
2
2 2
1 2
2
+1
E( X) =
1
2 2 .2 2
(2.21)
onde: E( X ) = x f ( x )dx = x
2
E( X ) =
22
2 2
2
1 x
x 2 e 2 dx
x>0
+1 x
x 2 e 2 dx
0
442443
1
Gama generalizada
2
+ 1 + 1 1
1
1
2
2
2
E( X ) =
+1+1
2
2 2 1 1 2
2 2
2
2
Portanto, V( X) = 2 + 2 2 = 2
+ 1
2 2
1 2
2
+2
= 2 + 2
(2.22)
16
fX (x) =
, x R , > 0
1
( +1)
2
(2.23)
x
1 +
2
2
, >2
Prova:
Z
Tem-se que f ( z ) =
1
2
1 2
z
2
onde Z ~ N(0,1) e U ~ 2v
U
V
, z R
(2.24)
1 1 1
fx (x) = x 2 e 2 , x > 0 , > 0
( 2 ) 2
Z
1
= V E
= V E [Z] E
U V
U
U
Ento E(T ) = E
mas, E 1 =
U
f (u) du =
1 2
E
=
2
2
1
2
( )
2
u
2
du =
2 , portanto E(T ) =
v
2
2
u 2 e 2 du
0
1442443
gama generalizada
2
1
V 0E
=0
U
(2.25)
17
2
Z
1
onde: E(T ) = E
= VE Z 2 E
U
U V
[ ]
[ ]=
EZ
1 2
z
2
dz
e,
z e
1 2
z
2
dz
1 2
z
2
dz
z e
0
1
44244
3
=1
gama generalizada
mas,
1
E =
U
1
f (u)du =
u
22
(
)
u
2
u
2 du
22
u
2 du
u e
0
44244
3
1
gama generalizada
2
2
ento, E =
, portanto E (T 2 ) = 1
e V(T) =
.
=
2 2
2
U 2
(2.26)
x2
1
1 + 2
1
x
1 +
2
x R , 1, 2 > 0
(2.27)
2 2
2 > 2
e V( X ) =
2 22 ( 1 + 2 2)
1 ( 2 2) 2 ( 2 4 )
2 > 4
Prova:
Seja
X=
U 1
~ F1, 2
V 2
U 1 2 U
E
=
V 2 1 V
ento E( X) = E
(2.28)
18
E( X) =
2
1
E [U].E
1
V
E(U) = 1
1
1
E =
2
V
2 2 2
2
1 22 2 V2
v
e dv
v
1
E =
V
1
2 2
2
1
2 2
2
v
2
dv
0 4
1
4244
3
gama generalizada
2
( 2 2 )
2
2
2
2
2 1 1
1
1
E =
=
2 2
2 2
V
2
2
2
2
1
=
1
1 2 2 2 2
V( X) = E( X 2 ) [E( X)]
U 2 2 U 2 2
1
1
= 2 E 2 = 2 E U 2 E 2
E( X 2 ) = E
V
V 1
V
2
[ ]
( )
E U 2 = u 2 f (u)du = u 2
0
( )
E U2 =
( )
E U2 =
1
1 2
2
1 1
2
e 2 du
1 + 1
u
1
2
2
u
e
du
1 21
0
2
142
4 43
4
2
Gama generalizada
1
1
1 2 2
2
+ 1 1 + 1
2
2
= ( + 2)
1
1
1
+2
2
1
2
(2.29)
19
1
E 2 =
V
1
E 2 =
V
1
2
2 2 2
2
1
2 2
2
1
v
2
2
v
2
2
2
dv =
v
2
dv
2 2
2
1
2 2
2
2
2
1
2
2
2
( 2 4)( 2 2)
E X2 =
22
1
1 ( 1 + 2)
2
( 2 4 )( 2 2)
1
V( X) =
22
2 22 ( 2 + 1 2 )
22
1
(
)
+
2
1
1
( 2 4 )( 2 2) ( 2 2)2 1 ( 2 4 )( 2 2)2
12
( )
(2.30)
( ),
1 X 2
X
= (X ) 2
( )
(X )
generalizada de X at .
) (
20
1 / 2
1 / 2
f X ( X) =
(2)p / 2 1/ 2
1
X 1 X
(2.31)
R p , definida no negativa.
Representa-se esta funo densidade por Np (, ) , onde a matriz de
varincia-covarincia, ou seja, V( X) = E [( X ) ( X )] e E ( X) =
Os estimadores de mxima verossimilhana de e so apresentados a
seguir, conforme demonstrados em JOHNSON e WICHERN (1988, p.140):
= X
onde S =
1
=
n
1
n 1
(X
n
j=1
(n 1)S
X Xj X =
n
)(
(X X)(X X)
(2.32)
(2.33)
j =1
1
2XY
X X 2
1
X X Y Y Y Y
+
exp
2
2
X Y Y
1 2
2(1 ) X
X R , Y R , X R , Y R , X R+ , Y R+ e 1 1
(2.34)
21
t1 X + t 2 Y +
1 2 2
t1 X + 2t1t 2 X Y + t 22 2Y
2
(2.35)
m( t 1, t 2 )
t 1
E ( X) = e
t1 X + t 2 Y +
t1, t 2 = 0
1 2 2
t1 X + 2t1t 2 X Y + t 22 2Y
2
X + t 1 X + t 2 X Y
2
t 1, t 2 = 0
E ( X) = X
(2.36)
E (Y) =
m(t 1, t 2 )
t 2
E (Y) = e
t1 X + t 2 Y +
E (Y) = Y
t1, t 2 = 0
1 2 2
t1 X + 2t1t 2 X Y + t 22 2Y
2
Y + t 22Y + t1XY
t1, t 2 = 0
(2.37)
22
2 m ( t 1, t 2 )
t 12
t1, t 2 = 0
E(X 2 ) = 2X + 2X
(2.38)
(2.39)
= x, y =
, definida por:
COV( X, Y )
XY
Prova:
(2.40)
2 m( t 1, t 2 )
t 1t 2
t 1, t 2 = 0
23
E(XY ) X Y = X Y
E [(X X )(Y Y )] = X Y
= x, y =
COV( X, Y )
(2.41)
XY
seja, 1 1.
Prova: A correlao entre duas variveis X e Y definida por:
= x, y =
COV ( X, Y )
XY
Y o desvio padro de Y;
COV( X, Y ) a covarincia entre X e Y.
(2.42)
X
Y
X Y
1
2
X
V( X) +
1+ 1+
1+
XY
XY =
XY
COV( X, Y ) 0
COV( X, Y )
XY
V( Y ) +
2
Y
COV( X, Y )
XY
COV( X, Y ) 0
24
De forma anloga:
X
Y
0
V
X Y
X
V
X
1
2
X
V( X) +
1+ 1
1
Y
+ V
Y
1
XY
x,y =
X Y
2COV
,
X Y
V( Y )
2
Y
XY
COV( X, Y ) 0
COV( X, Y ) 0
COV( X, Y )
XY
(2.43)
COV( X, Y )
XY
Portanto:
1 x, y 1
2.5
(2.44)
onde T = estimador
= parmetro
25
] [
Isto significa dizer que, medida que se aumenta o tamanho da amostra (n),
a diferena entre a estimativa e o parmetro diminui, chegando a coincidir quando
n = N (tamanho da populao).
4.o Ser suficiente
O estimador ou estatstica suficiente para estimar um parmetro
quando uma funo dos valores da amostra, e resume todas as informaes que a
mesma tem sobre o parmetro. Portanto, um estimador suficiente aquele que
depende somente dos dados amostrais.
Uma forma simples de obter-se estatsticas suficientes usar propriedades
das distribuies da famlia exponencial uniparamtrica ou k-paramtrica, conforme
definies apresentadas em CHAVES NETO (2002a).
Definio 1: Uma varivel aleatria em R possui distribuio da famlia exponencial
26
[X1, X 2 ,..., Xn ]
Suficientes e Completas:
Seja
{P
/ }
uma
famlia
exponencial
p( X, ) = exp c i ()Ti ( X ) + d( ) + S( X ) I A ( X ) .
i=1
Suponha
k-paramtrica
que
dada
por
variao
de
2.6
2.6.1
27
()
i=1
XA,
e seja C que
Se as equaes:
{c ( ( X)), c
1
} C ,
2 ( ( X )),..., c k ( ( X ))
ento
verossimilhana de .
2.6.2
1
n
j
i
, j = 1, 2, 3,..., k
i=1
Formando as equaes:
Mj = mj = f (1, 2 ,..., k ) , j = 1, 2, 3,..., k
28
2.7
2.7.1
2.7.2
Testes No-Paramtricos
Um teste no-paramtrico quando no h suposies formuladas sobre a
29
d = max F( x ) G( x )
e da
(foi f ei )2
i=1
f ei
(2.45)
da varivel;
n=
i=1
foi =
ei
i=1
30
3.1
MEDIDAS DE CORRELAO
INTRODUO
Em estudos que envolvem duas ou mais variveis, comum o interesse
fornecendo
um
nmero,
indicando
como
as
variveis
variam
31
GRFICO 1 - CORRELAO LINEAR POSITIVA PERFEITA ENTRE
AS VARIVEIS X E Y
Y
1200
1000
800
600
400
200
0
-200
-100
-200 0
100
200
300
X
-400
FONTE: A autora
250
200
150
100
50
0
-40
-20
-50 0
20
40
60
-100
80
X
-150
FONTE: A autora
200
100
0
-400
-200
-100
-200
-300
-400
-500
FONTE: A autora
200
400
600
800
X
32
GRFICO 4 - CORRELAO NO-LINEAR ENTRE AS VARIVEIS X E Y
18
16
14
12
10
8
6
4
2
0
-20
-10
10
20
30
40
50
X
FONTE: A autora
SQRegr
SQ Total
, detalhada na seo
3.3.2. Evidentemente, o relacionamento entre Y e X1, X2, ..., Xp pode ser expresso
pelo hiperplano Y = 0 + 1 X1 + 2 X 2 + ... + p X p , admitindo relao linear entre Y e X1,
X2, ..., Xp.
33
se
as
suposies
(tais
como
Gaussianidade,
homocedasticidade,
3.2
34
3.2.1
1
2XY 1 2
exp
2
2(1 )
X Y Y
X Y
Y
2
(3.1)
R , R , R + , R + e 1 +1
X
5Esta
35
X,Y = =
COV ( X, Y )
XY
X,Y
XY
(3.2)
(3.3)
COV( X, Y )
XY
E [(X X )(Y Y )]
XY
X X Y Y
= E
= COV (Z X , Z Y )
X Y
(3.4)
[(x 1, y 1 ), (x 2 , y 2 ),..., (x n , y n )]
do vetor
[X, Y ] ~ (, ) , com
2
f X,Y ( X, Y ) =
2
= [ X , Y ] e = X
Y X
1
2 X Y
X Y
e f.d.p. igual a
2Y
X X 2
1
X X Y Y Y Y
exp
+
2
X Y Y
2(1 ) X
1 2
X = X , Y = Y , 2X =
1
n
(X
n
i =1
2Y =
X ,
1
n
(Y Y )
n
i=1
36
(X
)(
X Yi Y
i =1
(X X) (Y Y )
n
i =1
i =1
por:
n
n X 2
n X X Y Y
X
i
2 i
exp 1 i
2
2
(
1
)
i
1
i
1
=
=
x
X
Y
1
fX, Y ( X, Y ) =
2 1 2
X Y
n Yi Y
i =1
Y
fX, Y ( X, Y ) = exp n ln 2 X Y 1 2
2
(
1
2 )
n
i =1
n
X
2
X
i =1
1
f X, Y ( X, Y ) = exp n ln 2 X Y 1 2
2(1 2 ) 2X
1
2(1 2 ) 2Y
i =1
(1 ) X Y
Xi
i =1
(1 2 ) 2Y
i =1
X
2
(1 ) X Y
2
i
i =1
n 2Y
2(1 2 ) 2Y
i =1
Y
i
Y
n
+
Y
i =1
(1 2 ) 2X
i =1
Y
i
n 2X
2(1 2 ) 2X
(1 2 ) X Y
X Y
i i
i =1
(1 ) X Y
n X Y
2
c 2 ( ) =
c 3 ( ) =
c 4 ( ) =
c 5 ( ) =
X
(1 2 ) 2X
Y
(1 2 ) 2Y
1
2(1 2 ) 2X
1
2(1 2 ) 2Y
(1 2 ) X Y
Y
(1 2 ) X Y
X
(1 2 ) X Y
T1 ( X ) =
i=1
T2 ( Y ) =
i=1
T3 ( X ) =
2
i
i=1
T4 ( Y ) =
i=1
T5 ( X, Y ) =
X Y
i i
i=1
37
T1 ( X) =
i=1
E[T1 ( X)] =
i=1
n X =
i=1
X =
i=1
=X
(3.5)
i=1
E[T2 ( Y )] =
i=1
n Y =
i=1
Y =
i=1
=Y
2
i
i=1
E[T3 ( X)] =
X
i =1
2
i
(3.6)
38
[V( X ) + E
n
] X
n
(Xi ) =
i=1
2
i
i=1
n 2X + n 2X =
2
i
i=1
2X = X i2 n 2X = (X i X )
n
n
1
i=1
i=1
(3.7)
T4 ( Y ) =
i=1
E[T4 ( Y )] =
i=1
[V( Y ) + E
n
] Y
( Yi ) =
i =1
i =1
n 2Y + n 2Y =
2
i
i =1
2Y = Yi2 n 2Y = (Yi Y )
n
n
1
i=1
i=1
X Y
i i
i=1
E[T5 ( X, Y )] = T5 ( X, Y )
n
E X i Yi =
i=1
X Y
i i
i=1
i=1
i=1
i=1
i =1
[E( X i )E( Yi ) + X Y ] = X i Yi
n X Y + n X Y =
X Y
i
i=1
(3.8)
39
n
X,Y =
i=1
X Y
n
(X
n
X,Y =
i=1
Xi
i=1
X
n
(X
n
nXY
X i Yi
i=1
)(
Yi
)(
Yi
)
(3.9)
X Y
n
Yi
i=1
(X
n
Y
n
)(
Yi
i=1
(X
n
i =1
) (
n
Yi
(3.10)
i=1
X,Y =
x y
i
x y
i =1
i =1
x i2
n
i =1
x y
i
i =1
X Y
n
y i2
n
i =1
i =1
x i2
(3.11)
y i2
i =1
X,Y =
Z
i=1
x i Z Yi
(3.12)
onde:
Z Xi =
Xi X
e Z Yi =
Yi Y
40
41
1
z = e angular arc sen y .
y
+ X , onde
descreve a interdependncia entre as variveis X e Y, com a forma Y =
e so constantes.
A interpretao do coeficiente quando
seguir:
S
Y,X = Y,X X
SY
(3.13)
42
onde: x i = X i X
n
Sx =
e y i = Yi Y
n
x i2
i=1
e SY =
n 1
2
i
i=1
n 1
Prova:
n
n
X i Yi
i =1 i =1
n
X i Yi
n
i =1
Xi
i =1
n
X i2
n
i =1
x y
i
i =1
n
(3.14)
x i2
i =1
se os denominadores (n 1) , com S x =
x i2
i=1
n 1
e SY =
x y
i
i=1
(n - 1) S x S Y
, utilizando-
2
i
i=1
n 1
X Y nXY
i
Y,X =
i =1
(3.15)
(n - 1) S X S Y
6Equaes
normais da reta:
Yi = n 0 + 1
i =1
n
i =1
i =1
X i Yi = 0
i =1
X i + 1
X
i =1
2
i
43
X,Y =
X Y nXY
i
i =1
X i2
nX
(3.16)
i =1
(n - 1) S X S Y Y,X S X S Y
Y,X S Y
Y,X = Y,Xn
=
=
2
(X X)
SX
S XS Y
i =1
S
Portanto: Y,X = Y,X X
SY
invariante frente s
(Y Y )
n
i=1
(Y Y ) = (Y Y ) + (Y Y )
n
i=1
i=1
i=1
(3.17)
44
Prova:
Fazendo:
Y = Yi Y + Yi Yi
Yi
(Y Y ) = [(Y Y )+ (Y Y )]
2
(Y Y ) = (Y Y )
n
i=1
(Y Y )(Y Y ) + (Y Y )
n
+2
i=1
i=1
i=1
(Y Y )(Y Y )= 0
i
i=1
(Yi Yi ) = i
Sabe-se que
Ento
(Y Y )
n
=2
i=1
Mas
(Y ) 2 Y
i
i=1
= 0
i=1
i=1
i i
=2
i=1
i i
= 2 0
i=1
i i
= 2 1
i=1
i i
= 2 1
i=1
i=1
+ 2 X
i
i=1
X (Y
n
1 X i
i =1
+ 1 X i
i=1
i=1
X = 0 ,
i
pois
i=1
X i (Yi 0 1 X i ) =
[X Y X X ]= X Y X X
n
i=1
i=1
i=1
i=1
2
i
= 0
(Y Y ) = (Y Y ) + (Y Y )
n
i=1
i =1
i=1
45
Os desvios
2X,Y =
R 2 =
(
n
Yi
i=1
(Y Y )
n
VE
VT
SQ
Regr
SQ
(3.18)
Total
i=1
(Y Y )
n
O valor de R = X,Y =
i =1
(Y Y )
n
i =1
46
X,Y
variabilidade expresso por: (X,Y )T =
S XT
SX
X,Y + X,Y
1
2
ou (X,Y )T =
X,Y S X
XT
(3.19)
S
S
S X 1 X,Y 1
2
X T
(3.20)
S
S
onde:
(X,Y )T o coeficiente de correlao entre as variveis X e Y estimado para o grupo
total;
X,Y
SX
S XT
Prova:
47
S
S
Sabe-se, do resultado 3.2, que = X , portanto = Y e se as duas
SY
SX
S YT
SY
= ( X,Y )T
SX
S XT
(3.21)
(3.22)
onde:
(X,Y )T o coeficiente de correlao entre as variveis X e Y estimado para o grupo
total;
X,Y
SX
S XT
SY
SYT
YT
X,Y S Y S X
(X, Y ) S X
(3.23)
(3.24)
48
S S
X,Y Y X T
S 2Y (1 2X,Y ) =
( X,Y ) S X
T
(1 2( X,Y ) )
T
(1
2
X,Y
2
X,Y
)=
(2X,Y )T =
2X,Y S 2XT
(1 2(X,Y )T )
(2X,Y )T S 2X
2X,Y S 2XT
2( X,Y )T S 2X
2X,Y S 2XT
2
SX
2X,Y S 2XT
2(X,Y )T S 2X
2X,Y S 2XT
2
S X X,Y S X + X,Y S XT
S2XT
S2X
1 X,Y + X,Y
Portanto: (X,Y )T =
S2XT
S2X
X,Y
2
S XT
SX
2
1 X,Y + XY
S2XT
S2X
49
E[X] = E[Y ] = 0 e
V [X ] = V [X] + V[u]
V [Y ] = V [Y ] + V [v ]
Cov[X , Y ] = E[X Y ] E[X ] E[Y ] = E[XY] + E[uv ] + E[Xv ] + E[Yu]
Cov[X , Y ] = E[XY] E[X] E[Y ] = Cov[X, Y ]
X,Y =
X,Y =
Y,X =
Cov [X , Y ]
V[X ] V [Y ]
Cov[X, Y ]
X,Y
V [u]
V[v ]
1 +
1 +
V [X]
V [Y ]
Y,X
V [u]
V[v ]
1 +
1 +
V [X]
V [Y ]
ou
(3.25)
(3.26)
50
(3.27)
V[X]
Y,X =
V [Y ]
V [X ]
V[u]
V[v ]
1 +
1 +
V [X]
V [Y ]
YX
V [u]
1 +
V [X]
(3.28)
7FISHER,
51
) =
f (
(n 2) (n 1)(1
n 1
) 2 (1
n
1
2 n (1 ) 2
2
n 4
) 2
1 (
+ 1) 9
+ 1) 2
(
1 +
+
+ ...
4 2n 1 16 2(2n 1)(2n + 1)
(3.29)
Prova:
1
2 X Y
X
1
exp
2
2
1
2(1 ) X
X X
2
X
Y Y
Y Y
+
Y
onde: X R , Y R , 2X R + , 2Y R + e 1 +1
Fazendo: t =
e u=
f ( t, u) =
1
exp
t 2 2tu + u 2
2
2
2 1
2(1 )
f ( t, u) =
1
(u t )2 + 1 2 t 2
exp
2
2(1 )
2 1
) ]
(u t )2
1 2 t 2
f ( t, u) =
exp
2(1 2 )
2(1 2 )
2 1 2
1
8HOTELLING,
Harold. New light on the correlation coefficient and its transforms. J. Roy.
Stat. Soc. , B, v. 15, p. 193-225, 1953.
52
u t
Fazendo v =
, para v = u tem-se = 0
(1 2 )
v
t
v2 t2
1
1 2 2
e ento f ( t, u) =
=
e e
exp
2
2 2
2
2
i
~ n2 .
i=1
1 =
u i t i
vi =
i =1
(1 )
2
i=1
(1
)
i=1
u i t i
=
n
n
(1 2 )
(u t )
Ento, tem-se
2
u t
n
n 2
1
i
i2 = v i2 = i
u
2
ui t i + 2
=
i
2
2
(1 ) i=1
i=1
i=1
i=1 (1 )
i=1
i2 =
i=1
n
2
i
i=1
)(
n
n
2
u
u
2
ui u t i t + 2
i
2
(1 ) i=1
i=1
1
(1 2 )
[S
2
2
i=1
2
i
i=1
2
2
+ nu 2nut + 2 nt
S 2 S1 + 2 S12 + 12
2
S12 =
onde
(t
n
(t t )
n
S 22 =
i=1
(u
n
i=1
portanto,
n
i= 2
2
i
1
(1
[S
)
2
2
Escolhe-se agora 2 =
1
S1
(t
n
t v i , que ortogonal a 1 .
i=1
(3.30)
53
1
S1
2 =
u t
1
i
i
=
2
2
(1 ) S1 (1 )
(t t )
n
i=1
(t
n
2 =
S 1 (1 2 )
)[(
i =1
S2
S 1S 2
1 =
S 1
(1 2 ) S 1
1
(1 2 )
t (u i t i )
)(
n t t u u
n
ti t
i
i
2
S1
S1
i =1
(1 ) i=1
)]
) (
i=1
t ui u t i t =
2 =
(t
n
[ S
S 1
22 =
1
1 2
[ S
2
S1S 2 + 2 S12
2
2
2
(3.31)
2
i
i= 3
2
i
i=3
1
(1
[
)
S 22
S 2 S1 +
2
S12
2
i
22
i= 2
] [
S 2 S1
(1 2 )
2
S 22 1
(1 )
2
~ n22
~ n21
i=1
1
b=
2
c=
f (a ) =
1
2
1
2
a2
2
(1 2 )
=
2
i
(t
n
S 1
2
S2 1
2
2 (1 2 )
i =3
i=1
[ S
a = 2 =
S12
2
~ N(0,1)
2
~ n
2
(3.32)
2
~ n
1
54
1
1
f (b) =
n 2 2
n2
2
n 4
2
b
2
na seo 2.4.2.2.
1
f (c ) =
n 1 2
2
1
n 1
2
n 3
2
c
2
na seo 2.4.2.2.
a, b e c so independentes, portanto:
f (a, b, c ) =
n3
2
n 2 n 1
2
2 2
S 22 (1
2 )
=
2
2 (1 )
S2
= 1
2
f (a, b, c ) =
f (a, b, c ) =
a2
n 4
2
n 3
2
n4
2
n 3
2
n2
2
n4
2
b e
b
2
1
n 1 2
2
1
n 4
2
S1n3
n 3
2 2
2)
S n2 4 (1
n 4
2 2 (1
S n2 4 S1n3 e
2 (1 2 )
n3
c 2e
n 4
2
n4
) 2
, portanto
n 2 n 1
2
2 2
n 4
2
n 1
2
a2
+b + c
2
a2
1
S1S 2
+b+c =
S12 + S 22 2
2
2
2(1 )
2)
(1
1
n 2 2
2
1
n 4
2
7
2
S n2 4 (1
n 4
2 2 (1
2 )
n 4
2
n 4
2
) 2
2
2
S1 + S 2 2
2(1 2 )
S1n3
n 3
2 2
S1S 2
n 2 n 1
2 2
2
2
S1 + S 2 2
2(1 2 )
S1S 2
c
2
55
,
S
S
1,
2
0
S1
(1 2 )S 2 = (1 2 ) 3 / 2 S 1S 22
0
ento,
, S 1, S 2 ) =
f (
)
(1
n4
S 1S 22 S n2 4 S1n 3
n4
3
2
2 2
2
2 (1 )
(1 ) 2
1
2 (1 2 )
7
2
2
S 1
S 1 S 2
+ S 22 2
n 2 n 1
2 2
) =
f (
(1
n 4
) 2
1
2
2
S1S 2
S1 + S 2 2
n2 n2
2(1 2 )
S 2 S1
n 1
7
n
n 2 n 1
2 2
) 2 2
2 (1
dS 1dS 2
2 2
1 1/ 2
2
J=
1
e / 2 1/ 2
2
e / 2
9FISHER,
1/ 2 e / 2
1
2
1/ 2 e / 2
56
f (S 1, S 2 / , ) =
(1
n4
) 2
1/ 2
/ 2 n 2
1/ 2
/ 2
n2
2 2 (1 2 )
2)
(1
f (S1, S 2 / , ) =
n 4
2
2 2 (1
n2
2(1 2 )
n 1
7
n
2 2 2
2(1 2 )
7
n 1
n
2 2
) 2 2
1 / 2 e / 2
1 / 2 e / 2 1 / 2 e / 2
+ 1 / 2 e / 2 2
n 2 n 1
2 2
( e + e 2
n 2 n 1
2 2
1 z
e + e z = cosh( z ) , e pela Frmula de Duplicao de
2
2
1
n
n
Legendre 2 n3
= (n 2) , ento
2 2
Tem-se que
f (S1, S 2 / , ) =
(1
n4
) 2
n2
2(1 2 )
) =
f (
) =
f (
) =
f (
(1
(1
n 4
) 2
n 4
2
(n 2)
n 4
) 2
n 1
2 2
)
n 4
) 2
n2
(n 2)(1
d d
(n 2 )
)
(cosh
n2
(12 )
(n 1)(1 2 )n1
(cosh )
(n 2 )
n 1
2 2
)
n 1
(n 2)
n 4
) 2 (1
(n 2)
(12 )
n 1
2 2
)
(n 1)(1 2 ) n1
n 1
2
)
(cosh
2(1
n 1
2 2
)
2(1
) =
f (
(1
2(1
2(1
) =
f (
2)
(1
)
(cosh
(12 )
n 1
) 2
d d
(cosh )
n 1
(cosh )
0
n 1
(3.33)
57
(cosh )
n 1
1 1 2n 1
+ 1
(n 1)
) (n3 / 2 ) F ; ;
(1
;
1
2 2
2
2
(n )
2
1/ 2
(3.34)
ab
a(a + 1)b(b + 1) 2
z+
z + ...
1! c
2! c(c + 1)
(3.35)
) =
f (
(n 2)(n 1)(1 )
2
n 1
2
)
(1
2
n
1
) 2
2 n (1
2
n4
2
+ 1)
+ 1) 2
(
1 (
9
1 +
+
+ ...
4 2n 1
16 2(2n 1)(2n + 1)
58
(I) n = 29 e = 0,80
GRFICO 5 - DISTRIBUIO AMOSTRAL DO COEFICIENTE DE CORRELAO DE PEARSON
PARA = 0,80
7,0
6,0
Freqncia
5,0
4,0
3,0
2,0
1,0
0,0
0,40
0,45
0,50
0,55
0,60
0,65
0,70
0,75
0,80
0,85
0,90
0,95
1,00
Coeficiente de correlao
FONTE: A autora
(II) n = 29 e = 0,80
GRFICO 6 - DISTRIBUIO AMOSTRAL DO COEFICIENTE DE CORRELAO DE PEARSON
PARA = 0,80
7,0
6,0
Freqncia
5,0
4,0
3,0
2,0
1,0
0,0
-1,00 -0,96 -0,93 -0,89 -0,85 -0,81 -0,78 -0,74 -0,70 -0,66 -0,63 -0,59 -0,55 -0,51 -0,48 -0,44 -0,40
Coeficiente de correlao
FONTE: A autora
59
1
2)
(n 1)(1
2
) =
f (
1
(n 2 )
2
n 4
2
(3.36)
Prova:
) =
f (
2)
(n 2)(1
n 4
2 (1
2 )
n 1
2
(cosh )
0
=
2
n 1
(n 2)(1
n4
) 2
(n 1) 1 1 2n 1 1
F ; ;
; =
1 2 2
2
2 2
(n )
2
1/ 2
ento,
(cosh )
0
logo, f ( ) =
n 1
=
2
(n 2)(1
1/ 2
n 4
) 2
(n 1)
1
(n )
2
(n 1)
1
(n )
2
2 ) (n 4 ) / 2 2 ( 3 / 2) n
(n 2)(1
2
1
(n ) 2 ( 3 / 2 ) n
2
2
n
2
(n 1) 2 ( 3 / 2)n
n
2
(n 1)
n
2
(cosh )
1
(n ) 2 ( 3 / 2 ) n
1 1 2n 1 1
2
F ; ;
; =
2
2
2
2 2
n
Pois,
) =
f (
1/ 2
n 1
(cosh )
n 1
1
(n )2 ( 3 / 2 ) n
2
2
n
2
60
2 2
Assim,
) =
f (
) =
f (
)
(n 2)(1
2
(n 4 ) / 2
3 / 2 n
2 ) (n 4 ) / 2 2 1
(n 2)(1
1 / 2
n2
n n 1
2 2
n
2
n 1
n 1
2 (n 4 ) / 2
(
n
2
)(
1
)
2
2
=
(n 2) n 2
n
2
2
2
2
2 ) (n 4 ) / 2
(n 1)(1
2
) =
f (
1
(n 2 )
2
Freqncia
2,0
1,5
1,0
0,5
0,0
-1,0 -0,9 -0,8 -0,7 -0,6 -0,5 -0,4 -0,3 -0,2 -0,1 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
Coeficiente de correlao
FONTE: A autora
61
) = 0 ,
E(
n 1
e =
(3.37)
n 1
Prova:
A curva de freqncias de Pearson tipo II, citado por ELDERTON (1953, p. 51a),
apresentada a seguir, simtrica tendo a mdia como origem, que coincide com a
moda e portanto E( y ) = 0 .
y 2
f ( y ) = y 0 1
a
2 ) (n 4 ) / 2
(n 1)(1
2
) =
f (
1
(n 2 )
2
(n 1)
2
y
2
Fazendo y 0 =
, 2 =
1
a
(n 2)
2
e m = (n 4) / 2 , as duas funes
E( 2 ) =
-1
1
Fazendo 2 = x , ento = x 1/2 e d = x 1/2 dx e tem-se 1 1 ento
2
0 x 1.
62
1
(n 1)(1 x) (n 4 )/2
2
1 1/2
Portanto: E( 2 ) = 2E(X) = 2 1 x
x dx
2
0
1
(n 2 )
2
(n 1)
1
(n 4 ) / 2
2
2 ) = 2E( X) =
x 1/ 2 (1 x )
dx
E(
0
1
1
4
4
4
4
2
4
4
4
4
3
(n 2 )
2
Funo Beta
a 1
(1 x)
b 1
dx =
Tem-se que a =
(a)(b)
(a + b)
, a > 0, b > 0
(3.38)
3
n2
e b=
, portanto:
2
2
(n 1)
2
2 ) = 2E( X) = 2
E(
1
(n 2 )
2
3 n2
2 2
3 n 2
+
2
2
1
1 1
(n 1)
(n 1)
(n 2 )
2
2
2
2
2
=
= 1
2 ) = 2E( X) =
E(
(n 1)
1
n + 1
n 1 1
(n 2 )
(n 1)
2
2 2
2 = E( 2 ) [E( )] =
e
2
1
1
0 =
n 1
n 1
1
n 1
63
n 2
~ t n2
2
1
(3.39)
Prova:
S
= X
SY
SX
onde S X =
2
i
i=1
n 1
Xi
= Xi X
2
i
i =1
SY =
S
= Y
e portanto
e y i = Yi Y
n 1
xy
i=1
n
x
i=1
onde x i = X i X e y i = Yi Y
2
i
x (Y Y )
xy
i=1
n
x
i=1
i=1
2
i
i=1
Sabe-se que
2
i
i=1
x i Yi Y
2
i
xi
n
i=1
wi =
i=1
x
i=1
n
=0
x i2
i=1
w
i=1
2
i
2
i
i=1
n 2
xi
i=1
1
n
x
i=1
2
i
(3.40)
= 0 e fazendo w i =
i=1
i=1
i=1
x i2
, tem-se:
64
n
w i Xi =
i=1
(
n
) w x
w i xi + X =
i=1
+X
i=1
wi =
i=1
x x
i
w ixi =
i=1
i=1
n
=1
x i2
i =1
i =1
i =1
i =1
i =1
i =1
i =1
e, portanto, = w i + w i X i + w i i = + w i i
A esperana e a varincia de sero:
E( ) = E( +
w i i ) = E() +
i =1
w E( )
i
(3.41)
i =1
(3.42)
V( i ) = 2
(3.43)
i =1
i=1
i=1
e V( ) = V( + w i i ) = V() + w i2 V( i ) = w i2 V( i )
w
i=1
2
i
1
n
i =1
V( ) =
2
n
i =1
x i2
, portanto
x i2
em (3.44) tem-se:
(3.44)
65
2
~ N ,
n
2
xi
i=1
[Y ( + X )]
n
1
Mas S 2 =
n2
y i2 2
i=1
x
i =1
n2
i=1
2
i
o estimador no-
S
e 2 = 2 Y
S
X
=
2
2
i
i =1
n
ento
x i2
i =1
2 x i2
i=n
S2 =
Tem-se que U =
2 x i2
i=1
n2
(n 2)S 2
2
=
1
2
i=1
n2
n
2
i
t=
Z
U
n2
~ t n2
Ento, U =
(n 2)S 2
Fazendo Z =
2
n
x
i =1
2
i
(n 2)
2 1
2 x i 2 1
i=1
n2
~ N(0,1) , ento
n
1
2 x i2 2 1
i=1
~ 2
n 2
66
t=
Z
U
n2
( ) n 2
2 1
2 2 x i 2 1
i=1
2
i
( ) n 2
1
2 2 1
i =1
t=
( ) n 2
t=
2
1
2
n 2
2
1
( ) n 2
, mas se = 0 ento
~ t n2
1 1 +
ln
= tanh 1
2 1
(3.45)
1 1+
ln
+
2 1 2n 1
(3.46)
V( Z ) =
4 2
1
+
n 1 2 (n 1) 2
(3.47)
Fazendo k =
forma a seguir:
4 2
, a varincia (expresso 3.47) pode ser escrita na
2
67
1
k
1+
n 1 n 1
V1 =
(3.48)
1
quando k = 2 e medida
n 1 k
V1 =
1
n 1
20
30
50
100
200
1 + n 1
0,05817
0,03686
0,02124
0,01031
0,00508
V2 =
1
n 1 2
0,05882
0,03704
0,02128
0,01031
0,00508
FONTE: A autora
2Z =
1
n3
Z =
1
n3
(3.49)
2Z =
1 1+
ln
e varincia
+
2 1 2n 1
1
.
n3
10DAVID,
68
1
Z 2
1 Z E(Z)
2
Z
Freqncia
2,0
1,5
1,0
0,5
0,0
0,00
0,20
0,40
0,60
0,80
1,00
1,20
1,40
1,60
1,80
2,00
Z
FONTE: A autora
(II) Para n = 29 e = 0
GRFICO 9 - DISTRIBUIO AMOSTRAL DE Z PARA = 0
Freqncia
2,5
2,0
1,5
1,0
0,5
0,0
-1,00
-0,80
-0,60 -0,40
-0,20
0,00
0,20
0,40
0,60
0,80
Z
FONTE: A autora
1,00
69
Z Z
, que
1 1 +
ln
2 1
Z =
1 1 +
ln
2 1
(3.50)
Z=
Z1 Z 2
+
2
Z1
2
Z2
Z1 =
onde
1
n1 3
e Z2 =
1
n2 3
(3.51)
1 1 + 1
ln
2 1 1
Z2 =
1 1 + 2
ln
2 1 2
70
Z < Z < Z + Z 2 Z ] = 1
P [ Z Z 2
(3.52)
Z
Z 1 = Z Z 2
Z
Z 2 = Z + Z 2
3.2.1.10
2 Z 1
2 Z 1
1
+1
2 =
2 Z 2
2 Z 2
+1
(3.53)
Confiabilidade
3.2.1.10.1
71
Prova:
(3.54)
X 2i = X i + e 2i
(3.55)
(X1i ) = (X i ) + e1i
(X 2 i ) = (X i ) + e 2 i
e fazendo o produto das duas equaes tem-se:
i=1
N1 2
(X
i=1
1i
N1 2
)(X 2i )
N1 2
i=1
(X
i=1
) +
2
(X
i=1
) e 2i +
e (X
1i
i=1
N1 2
) +
e
i=1
1i
e 2i
72
i=1
i=1
(X1i )(X 2i ) (X i )2
N1 2
1 X2
N1 2
2
i
2
i 2
2
, logo
i2
2
(3.56)
1 X2
S i2
S2
(3.57)
Pi
, e a varincia S i2 = p i (1 p i ) = p i qi .
N
73
N
X=
j =1
(X
N
j=1
S 2X =
N 1
2
i
+2
i=1
n 1
S S
ij
, mas S i2 = p i (1 p i ) = p i qi
i=1 j=i+1
2
i
n 1
S S
=2
i=1
ij
i=1 j =i+1
n 1
e S 2X p i qi = 2 ij S i S j
i =1
i=1 j=i+1
p q
i
i=1
XX =
S 2V
S 2X
S 2X
=
p q
i =1
S 2X
no item d, a seguir.
74
a) Mtodo do Teste-Reteste
Neste mtodo, o mesmo instrumento de medida aplicado em duas
ocasies distintas para a mesma amostra. Calcula-se, ento, o
Coeficiente de Correlao Linear de Pearson para o conjunto de medidas.
O tempo decorrido entre a aplicao dos testes importante, pois quanto
maior o tempo transcorrido entre os dois testes menor a correlao. O
teste freqentemente utilizado para calcular a confiabilidade de testes
escritos, sendo conhecido como coeficiente de estabilidade.
b) Mtodo da Forma Paralela
tambm conhecido como forma equivalente. Neste mtodo,
administra-se um teste da forma A para um grupo de pessoas, e
imediatamente aps administra-se um teste da forma B, com o
mesmo contedo. As duas formas so feitas com os mesmos tipos de
itens. O Coeficiente de Correlao Linear de Pearson calculado para
o conjunto de escores dos dois testes.
c) Mtodo Split-Half
Sua vantagem que necessita somente de um conjunto de dados. Neste
mtodo, normalmente considera-se o nmero de acertos das questes
pares e o nmero de acertos das questes mpares. Ou, ainda, as duas
primeiras questes para o primeiro escore, as duas seguintes para o
segundo escore, e assim alternadamente. No aconselhvel fazer a
diviso dos itens exatamente ao meio, pois comum as primeiras
questes serem mais fceis do que as ltimas. O Coeficiente de
Correlao Linear de Pearson calculado para o conjunto de escores.
d) Mtodo de Consistncia Interna
Este mtodo era inicialmente utilizado para escores dicotmicos, como,
por exemplo, 1 para certo e zero para errado. Conforme citado por
FERGUSON (1981, p. 438), KUDER e RICHARDSON desenvolveram um
75
XX =
n
n 1
S 2X
p i qi
i=1
S 2X
n
1
=
n 1
p q
i
i=1
S 2X
(3.58)
(escj esc )
N
j =1
N 1
p q
i i
i=1
S2
2
i
i=1
2
S i2
n
1 i=1 2
=
n 1
S
(3.59)
(escj esc )
N
j =1
N 1
(escij esc )
N
j =1
N 1
76
3.2.1.10.1.1
X,Y =
X,Y
X,X Y,Y
(3.60)
77
n
X,Y =
i=1
( X i X ) 2
n
( X i X ) ( Yi Y )
i =1
i=1
( Yi Y ) 2
n
x y
i=1
X Y
n
X,Y =
(x
i=1
X,Y =
+ u i )( y i + v i )
X Y
n
xiyi +
i =1
i =1
xivi +
(x y
i
+ x i v i + y iu i + u i v i )
i =1
y iui +
i =1
X Y
n
n
u v
i
i =1
X Y
n
X,Y =
xiyi
i =1
X Y
n
ento X,Y =
, mas X,Y =
x y
i
x y
e portanto
i=1
X Y
n
X,Y n X Y
=
i =1
X,Y n X Y
Y
X,Y X
=
X Y
n
X
X,X e
=
Y,Y
=
X,Y
X,X
Y,Y
e possvel
78
[(1 )S ]
n
11Os
onde:
y = 1
2
i
i =1
S 2y
x
i =1
S i2 = varincia do escore Xi
S 2y = varincia do escore y
79
Correlao Linear de Pearson entre os escores obtidos nos dois concursos para
cada par de provas e o coeficiente de correlao desatenuado.
TABELA 1 - COEFICIENTES DE CONFIABILIDADE E DE CORRELAO ENTRE OS ESCORES DAS
PROVAS DO CONCURSO VESTIBULAR DA UFRGS E DA PUCRS - 1999
COEFICIENTE DE CONFIABILIDADE
PROVA
PUCRS
Biologia e Qumica
Matemtica e Fsica
Histria e Geografia
Lngua Estrangeira e
Lngua Brasileira
Lngua Portuguesa
Nmero total de acertos
nas 9 provas
UFRGS
COEFICIENTE DE COEFICIENTE DE
CORRELAO DE
CORRELAO
PEARSON
DESATENUADO
0,84
0,84
0,83
0,79
0,84
0,79
0,80
0,78
0,80
0,98
0,93
0,99
0,81
0,66
O,84
0,69
0,79
0,52
0,96
0,92
0,95
0,96
0,92
0,96
80
6.516 candidatos comuns aos dois concursos, 4.184 tiveram a redao avaliada no
CV-UFRGS.
PROVA
CV-PUCRS
0,29
0,28
0,24
0,20
0,32
0,29
0,47
0,49
0,49
0,55
0,41
0,39
0,38
0,36
0,34
0,40
0,38
0,47
0,46
0,44
0,46
0,41
81
3.2.1.10.2.1
Confiabilidade estrutural
82
2X1
cov (X 1, X 2 )
2X2
cov (X 2 , X1 )
[C] =
...
...
cov (X n , X 1 ) cov (X n , X 2 )
... cov (X 2 , X n )
...
...
...
2Xn
(3.61)
X i Xi
(i = 1, 2,..., n) , ento
Xn ,X1
X ,X
1
1
...
X ,X
n
... X1,Xn
... X2 ,Xn
...
...
...
1
(3.62)
3.2.1.10.2.2
Confiabilidade de sistemas
83
Pi = ( i )
(3.63)
Pij = ( i , j , ij )
(3.64)
ij
( )
i , j , ij = ( i ) j +
ij
0
( i, j , z )dz
(3.65)
1
2 1 2
1 x 2 + y 2 2
exp
1 2
2
(3.66)
i , j , ij = ( i ) j +
ij
0
( i , j , z )dz
84
(x, y, ) =
2 1 2
1 x 2 + y 2 2
exp
1 2
2
, conforme j apresentado
anteriormente.
3.2.1.11
(X
n
)(
X Mi M
i =1
(X
n
i =1
) (M M)
2 n
(3.67)
2
i =1
mi
apresentada a seguir:
1 mn
para i = 1
0,51/ n
para i = n
(3.68)
85
i
1
2
3
Xi
-66,08907
-55,34452
-54,64370
4
-33,28091
5
-29,60415
6
-14,42701
7
-10,38914
8
-9,61244
9
-8,57903
10
-7,46465
11
-5,66421
.
.
.
.
.
.
196
200,60562
197
211,89209
198
212,51855
199
222,03666
200
247,78060
FONTE: A autora
( X i X)
-158,93062
-148,18607
-147,48525
-126,12246
-122,44570
-107,26856
-103,23069
-102,45399
-101,42058
-100,30620
-98,50576
.
.
.
107,76407
119,05054
119,67700
129,19511
154,93905
mi
0,00346
0,00840
0,01339
0,01838
0,02337
0,02836
0,03335
0,03834
0,04333
0,04832
0,05332
.
.
.
0,97663
0,98162
0,98661
0,99160
0,99654
Mi
-2,70067
-2,39106
-2,21471
-2,08842
-1,98865
-1,90547
-1,83369
-1,77029
-1,71329
-1,66137
-1,61348
.
.
.
1,98865
2,08842
2,21471
2,39106
2,70067
86
(X
i=1
(X
n
= 669. 048,10709 ;
i=1
M
i=1
2
1
= 195,55906
(X
n
X Mi
i=1
(X
n
i=1
) M
2
(3.69)
2
i
i=1
3.2.2
3.2.2.1 Introduo
O Coeficiente de Correlao Bisserial uma estimativa do Coeficiente de
Correlao Linear de Pearson entre uma varivel contnua X e uma varivel latente
YL (contnua e normal), subjacente varivel dicotmica Y (LORD e NOVICK, 1967),
87
b =
Xp X t p
St
y
b =
Xp X q p q
St
y
ou
(3.70)
(3.71)
Z2
2
88
b =
pq
b2
y
n
(3.72)
b =
pq
y
n
(3.73)
pq
torna-se maior. Para p = 0,94 , o valor da ordenada y igual a 0,1200 e
y
89
esta razo igual a 2,0. Para p = 0,5 , o valor de y 0,3989 , e a razo assume o
menor valor, igual a 1,25. Esta , segundo GUILFORD (1950), a razo pela qual se
recomenda que a dicotomizao de Y seja feita mais prxima da mediana.
GUILFORD ainda se refere diferena entre as mdias para o clculo do
educacional, tanto a Teoria Clssica, quanto a Teoria de Resposta ao Item (TRI) nos
seus vrios aspectos.
Para CHAVES NETO e TURIM (2003), o instrumento de medida educacional
um dos aspectos mais importantes da avaliao escolar. E, para eles, os bons
instrumentos de avaliao normalmente tm as seguintes propriedades: validade,
confiabilidade, objetividade e praticabilidade.
Ainda, desejvel, segundo os autores, que os itens que compem o
instrumento tenham as caractersticas do grau de discriminao e de dificuldade,
conhecidos a priori. Assim, possvel classificar os examinandos (alunos) em trs
grupos: bom, mdio e fraco.
Foram aplicados testes avaliativos em 5 escolas da rede municipal, do
perodo matutino, envolvendo as disciplinas de Lngua Portuguesa e Matemtica, do
90
COEFICIENTE DE CORRELAO
Pearson
0,356
0,325
0,471
0,492
0,476
0,469
0,382
0,451
0,540
0,495
0,433
0,551
0,505
0,423
0,207
0,366
0,433
0,523
0,511
0,451
Bisserial
0,539
0,460
0,593
0,631
0,602
0,589
0,494
0,609
0,691
0,663
0,620
0,785
0,640
0,530
0,317
0,466
0,573
0,692
0,684
0,669
91
3.2.3
3.2.3.1 Introduo
Embora seja usada normalmente como medida de correlao entre
escores e itens de testes, a Correlao Ponto Bisserial pode ser empregada em
outras situaes, onde a varivel dicotmica pode ser, a ttulo de exemplo, gnero
masculino ou feminino, pessoas normais ou neurticas, etc.
O Coeficiente de Correlao Ponto Bisserial ( pb )
derivado do
92
i=1
x y
2
i
i=1
(X
n
2
i
i=1
xiyi
i=1
) (Y Y )
n
x y
i
i =1
xiyi
i=1
x y
n
(3.74)
i =1
(X
n
x =
i=1
= Sx
resultado 2.1).
Desenvolvendo (3.74) tem-se:
x y = (X
n
i=1
n
xiyi =
i=1
n
)(
X Yi Y
i=1
[X Y X Y XY + XY ]
n
i=1
xiyi =
i=1
X Y nXY
i
(3.75)
i=1
X Y nXY
i
i =1
nS x pq
mas
X Y
i
i=1
e n X Y = n X p = n p X , ento,
np X p np X
nS x pq
= np X p
93
p Xp p X
Xp X p
=
=
S x pq
S x pq
(X X) p
= p
pb
Sx
ou
(3.76)
X Xq
pb = p
pq
Sx
valor 1);
q a proporo de casos do grupo inferior (grupo cuja varivel Y assume
valor 0).
=
pb
2
1 pb
n2
(3.77)
pb o erro padro;
onde:
2
pb
o quadrado do Coeficiente de Correlao Ponto Bisserial;
94
b = pb
pq
y
e pb = b
y
pq
n 2
~ t n2
2
1
95
96
= 0,04 .
Cabe destacar que o objetivo foi mostrar que, embora a varivel renda no
seja normalmente distribuda e tenha sofrido uma transformao logartmica, os
resultados no sofreram grandes alteraes, o que mostra a propriedade do
Coeficiente de Correlao de Pearson ser quase-invariante frente s transformaes
monotnicas (ANDERBERG , 1973).
3.2.4
3.2.4.1 Introduo
O Coeficiente de Correlao Tetracrico uma estimativa do Coeficiente
de Correlao Linear de Pearson entre uma varivel latente ( X L ) e uma varivel
latente ( YL ) (ambas contnuas e normais), subjacentes s variveis dicotmicas
X e Y efetivamente observadas (LORD e NOVICK, 1967), (FERGUSON, 1976) e
(WHERRY, 1984).
O Coeficiente de Correlao Tetracrico utilizado na aplicao da Teoria
de Resposta ao Item (TRI). Para determinar a dimensionalidade de uma medida, um
dos ndices utilizados com base na Anlise Fatorial a partir da matriz dos
Coeficientes de Correlao Tetracrico. possvel encontrar um maior detalhamento
sobre o assunto em NOJOSA (2001).
As literaturas iniciais sobre a anlise de dados categricos tratavam este
coeficiente como ndice de associao. O assunto causou intenso debate entre
estatsticos, como Karl Pearson e G. Udny Yule, sobre como medir a associao. Karl
Pearson pensou na tabela de classificao cruzada de uma distribuio contnua
bivariada. O Coeficiente de Correlao Tetracrico uma medida de associao para
variveis contnuas, porm transformadas em tabela 2x2 (AGRESTI, 1990).
97
)(
)(
)(
2
2
2
2
4
2
4
2
ad bc
2 zz
3 z 1 z 1
4 z z 3 z 3
5 z 6z + 3 z 6z + 3
+
t
t
t
t
t
2
6
24
120
yy n 2
+ 6t
)(
)(
z z 4 10z 2 + 15 z z 4 10z 2 + 15
z 6 15z 4 + 45z 2 15 z 6 15z 4 + 45z 2 + 15
+ 7t
+ ...
720
5040
(3.78)
TOTAL
Varivel 1
a+b
c+d
a+c
b+d
TOTAL
p=
(c + d)
(a + b)
e q=
= 1 p
n
n
(3.79)
p' =
(b + d)
(a + c)
e q' =
= 1 p'
n
n
(3.80)
n = a + b + c + d (total de observaes)
98
e 0
2
= 0,39894
Z2
2
(tabela de
Z2
2
ad bc
zz
= t + 2t
2
2
yyn
(3.81)
zz
de a, tem-se uma equao do 2. grau:
2
a 2t + b t + c = 0
(3.82)
b b 2 4ac
2a
99
t = cos
ad + bc
(3.83)
t =
y y n
sen 1
t
1
1
o
90
2
t
(3.84)
t o erro padro;
onde:
t o Coeficiente de Correlao Tetracrico;
t o arco seno de t ;
sen 1
n = (a + b + c + d) o nmero de observaes da amostra.
t
, o erro padro poder ser calculado considerando apenas a
t
t =
p q p q
y y n
12Conforme
(3.85)
100
Correlao Tetracrico a partir de dados empricos. Dentre eles, cita-se o que ela
denomina de Weinreich data. Uma amostra foi composta de 802 pacientes, e estes
foram submetidos a um teste alrgico, em que a resposta para cada um dos 5 itens
(causas de alergia) nenhuma reao ou reao positiva. Os Coeficientes de
Correlao Tetracrico foram obtidos para cada par de diferentes causas de alergia e
a matriz de correlao tetracrica apresentada no quadro 4. Os 5 tipos de itens do
teste alrgico foram: 1) onion couch; 2) fescue grass; 3) couch grass; 4) cock's foot
grass; 5) rye grass.
13A
101
QUADRO 4 - MATRIZ DE CORRELAO TETRACRICA SEGUNDO ITENS DO TESTE
ALRGICO
ITENS
Fescue grass
Couch grass
Cocks foot grass
Rye grass
ONION
COUCH
FESCUE
GRASS
COUCH
GRASS
0,90
0,88
0,91
0,81
1,00
0,89
0,87
0,87
0,89
1,00
0,88
0,85
COCKS
FOOT GRASS
0,87
0,88
1,00
0,81
O quadro acima indica que existe alta correlao entre os cinco itens do
teste alrgico. Um paciente que apresenta reao positiva a um tipo de item
tambm apresenta para os demais. A correlao maior entre os itens onion couch
e cock's foot grass, com t = 0,91. Em seguida, entre os itens onion couch e fescue
grass, com t = 0,90. Os itens que apresentam correlaes menores so rye grass
3.2.5
3.2.5.1 Introduo
Este coeficiente o mais antigo e tambm o mais conhecido para variveis
mensuradas em nvel ordinal, chamado tambm de Coeficiente de Correlao por
Postos de Spearman, designado rho e representado por s . Quando as amostras
so pequenas, este mtodo deve ser usado, segundo GUILFORD (1950), em
substituio ao Coeficiente de Correlao do Momento Produto. conveniente para
nmero de pares menor que 30 e quando os dados j esto ordenados.
Para as variveis cuja mensurao em nvel ordinal, pode-se citar os
Coeficientes de Correlao Ordinal de Spearman e Postos de Kendall.
importante enfatizar, segundo BUNCHAFT e KELLNER (1999), que as
correlaes ordinais no podem ser interpretadas da mesma maneira que as
correlaes de Pearson. Inicialmente, no mostram necessariamente tendncia
linear, mas podem ser consideradas como ndices de monotonicidade, ou seja, para
102
x y
i
i=1
(3.86)
x y
2
i
i=1
2
i
i=1
onde: x i = X i X
y i = Yi Y
Pode-se escrever:
i=1
n(n + 1)
onde n = postos = 1, 2, 3,..., n
2
Ento
2
i
i=1
Assim,
Xi
i=1
i=1
i=1
i=1
X i
i=1
X i2
n
[n(n + 1) / 2]
n(n + 1)(2n + 1)
6
n
(n 2 + n)(2n + 1) n(n 2 + 2n + 1)
6
4
n3 n
12
Xi
Xi
i=1
n
(X X) =
n
Xi
i=1
n(n + 1)(2n + 1)
6
(3.87)
103
n3 n
12
y2 =
i=1
(3.88)
fazendo o somatrio:
n
2
i
x + y
i=1
2
i
i=1
2
i
i=1
x y
i
(3.89)
i =1
fazendo s =
x y
i
i=1
, tem-se que
x y
2
i
i =1
s
xi yi =
i=1
2
i
y
i =1
x i2
2
i
(3.90)
i=1
i=1
i=1
12
n
y
i =1
x i2
2
i
i=1
Assim, obtm-se:
n
s = 1
2
i
i=1
n(n 2 1)
(3.91)
104
s
t=
n2
2s
1
~ t n2
(3.92)
105
MICRORREGIO
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
POPULAO MIGRANTE
TOTAL
(X)
POPULAO
ECONOMICAMENTE
ATIVA NAS ATIVIDADES
URBANAS (Y)
42 116
2 448
250
137
1 845
14 796
750
613
3 580
623
7 401
28 528
7 172
86 938
39 501
36 216
32 740
45 510
26 437
1 387
40 978
27 713
3 637
6 268
226 657
21 064
690
803
10 792
48 967
3 304
2 434
11 085
2 455
13 957
45 664
9 219
111 618
47 809
37 141
34 848
42 589
29 485
2 482
48 198
23 832
17 125
14 318
106
3.2.6
3.2.6.1 Introduo
O Coeficiente de Correlao por Postos de Kendall ( ) uma medida de
correlao utilizada para dados ordinais, como no caso do Coeficiente de Correlao
de Spearman. Ambas as variveis devem ser medidas no mnimo em nvel ordinal,
de forma que seja possvel atribuir postos a cada uma das variveis.
3.2.6.2
S
1
n(n 1)
2
(3.93)
107
Quando n maior que 10, de acordo com SIEGEL (1975), pode ser
considerado distribudo normalmente com mdia ( ) igual a zero e desvio padro
) dado por:
=
2(2n + 5)
9n(n 1)
e pode-se obter Z =
(3.94)
108
3.2.7
3.2.7.1 Introduo
O Coeficiente de Correlao Phi utilizado na aplicao da Teoria de
Resposta ao Item (TRI). Para determinar a dimensionalidade de uma medida, um
dos ndices utilizados com base na Anlise Fatorial a partir da matriz dos
coeficientes de Correlao Phi. possvel encontrar um maior detalhamento sobre o
assunto em NOJOSA (2001).
Este coeficiente tambm utilizado na anlise de confiabilidade, j
apresentada na seo 3.2.1.10.1.
Em algumas situaes, as variveis so medidas em nvel nominal ou por
categorias discretas e expressas em forma de freqncias. Nesses casos, no
possvel a utilizao de nenhum dos mtodos vistos anteriormente.
O Coeficiente de Correlao Phi deve ser utilizado quando ambas as variveis
correlacionadas so dicotomizadas (ao serem medidas) ou genuinamente dicotmicas.
George Udny Yule publicou, em 1912, no Journal of Royal Statistical Society, um artigo
sobre o Coeficiente de Correlao Phi. Yule acreditava que era possvel definir um
coeficiente sem assumir a distribuio contnua. Ele defendia que variveis como
vacinado e no vacinado, ou morreu e sobreviveu", so inerentemente discretas e
que mesmo o melhor coeficiente considerando distribuio normal poderia somente
dizer como essas variveis hipotticas se correlacionariam entre si (AGRESTI, 1990).
109
Varivel X
1
TOTAL
Varivel 1
np
nq
np '
n q'
TOTAL
pb =
(X
Xp =
mas
p=
X
Sx
(a + b)
n
p
q
a
a
=
np a + b
n p ' n q'
n n
Xq =
c
c
=
nq c + d
(3.96)
(c + d)
e q=
X = p X p + qX q =
Sx =
(3.95)
(3.97)
(a + b)
n
(c + d) c = (a + c )
a
+
(a + b) n (c + d)
n
(a + c ) (b + d) 1
=
(a + c )(b + d)
n
n
n
(3.98)
(3.99)
a
(a + c )
(a + b)
n
=
1
(a + c )(b + d)
n
na (a + b )(a + c )
(a + b)
n(a + b)
=
(a + c ) 1 (a + c )(b + d)
n
(a + b)
(a + c )
(a + b )
(a + b ) (a + c )(b + d) (a + c )
na (a + b )(a + c )
=
(ad bc )
(a + b)(a + c)(b + d)(c + d)
(3.100)
110
O coeficiente Phi est relacionado com 2 para a tabela 2x2, dada pela
expresso a seguir, como apresentada em FERGUSON (1981):
2
n
ou 2 = n 2
(3.101)
onde p i p j 0,5
(3.102)
onde p i p j
(3.103)
111
Varivel i
TOTAL
1
0
Varivel k
1
0
a
b
c
d
a+c
b+d
TOTAL
a+b
c+d
n
(ad bc )
(a + b)(a + c )(b + d)(c + d)
112
GNERO
Homem
Ocupados
Desempregados
TOTAL
2 896
221
3 117
Mulher
2 157
251
2 408
TOTAL
5 053
472
5 525
3.2.8
Coeficiente de Contingncia
3.2.8.1 Introduo
Quando se pretende relacionar dados em nvel nominal, dispostos em
tabelas politmicas, utiliza-se o coeficiente de contingncia C. Este no exige
nenhuma suposio quanto forma da distribuio populacional dos escores, sendo
necessrio, apenas, que a varivel seja medida em nvel nominal.
113
3.2.8.2
seguir:
C=
2
n + 2
(3.104)
(foi f ei )2
i=1
f ei
2 =
(3.105)
114
C mx =
l 1
l
(3.106)
115
3.2.9
3.2.9.1 Introduo
O coeficiente de correlao a ser calculado quando se tem uma varivel
quantitativa Y e outra varivel categrica ou nominal X, conforme descrito em
SILVEIRA (1999), o Coeficiente de Correlao Eta. Este resulta sempre em um
116
3.2.9.2
expresso a seguir:
soma de quadrados entre grupos
soma de quadrados total
2y,x =
(3.107)
2
y, x
1 2y,x
nk
(3.108)
14
2
117
Para
testar
significncia
do
Coeficiente
de
Correlao
Eta
2y,x /(k 1)
F=
(1 2y,x ) /(n k )
(3.109)
118
3.2.10
Ponto Bisserial
pb
Bisserial
b
t
Tetracrico
Phi
Spearman
VARIVEIS
INTERVALO
DE VARIAO
1 1
1 pb 1
Contnua
Contnua
Contnua
Dicotmica
1 b 1
1 t 1
1 1
Contnua
Dicotmica
Dicotmica
Dados em ranks ou
passveis de serem
transformados
Dados em ranks
Nominal
Dados em ranks ou
passveis de serem
transformados
Dados em ranks
Nominal
Contnua ou discreta; pode
assumir valores nominais ou
outros tipos de valores
1 s 1
Kendall
Contingncia
1 1
0 C<1
Eta
0 1
Contnua
119
3.3
3.3.1
Matriz de Correlaes
Quando se tem p > 2 variveis, e o interesse conhecer as correlaes
21
= 31
...
n1
12
1
13
23
...
1
...
32
n2
n3
...
...
...
...
...
1p
2p
3p matriz de correlao populacional
...
(3.110)
21
= 31
...
n1
12
1
32
...
n2
13
23
1
...
n3
...
...
...
...
...
1p
2p
3p
...
(3.111)
120
...
...
...
+ ...
+ .. . + ...
(3.112)
Yp = e p X = e1p X 1 + e 2p X 2 + ... + e pp X p
com i = 1, 2,..., p
As componentes principais so as combinaes lineares Y1, Y2 ,..., Yp , no
correlacionadas, cujas varincias so to grandes quanto possvel.
A primeira componente principal a combinao linear l 1 X , que maximiza
Var (l 1 X) , sujeito a l 1 l 1 = 1 . A segunda componente a combinao linear l 2 X ,
= i
COV( Yi , Yk ) = e i e k = 0
i = 1, 2,..., p
(3.113)
i k = 1, 2,..., p
(3.114)
( Yi , X k ) =
COV( Yi , X k )
Var ( Yi )Var ( X k )
i e ki
i
kk
e ki i
kk
i, k = 1, 2,..., p
(3.115)
121
da mesma forma como foi descrita acima, apenas substituindo por e , quando se
trata de amostra, substituindo por S e .
Os escores obtidos para cada unidade observacional e para cada cada
uma das componentes principais podem ser utilizados como dados de entrada, ou
seja, variveis independentes, para a anlise de regresso mltipla.
FILHO
(2001),
cujo
objetivo
foi
estudar
possibilidade
de
TM1
TM2
TM3
TM4
TM5
TM7
1,000
0,902
0,840
0,715
0,689
0,728
0,902
1,000
0,946
0,851
0,764
0,812
0,840
0,946
1,000
0,841
0,863
0,898
0,715
0,851
0,841
1,000
0,711
0,715
0,689
0,764
0,863
0,711
1,000
0,959
0,728
0,812
0,898
0,715
0,959
1,000
122
AUTOVALORES
Abs.
2 683
581
491
223
89
44
AUTOVETORES
TM1
68
13
11
5
2
1
0,083
0,116
0,199
0,249
0,610
0,711
TM2
0,187
0,304
0,344
0,311
0,458
0,699
TM3
TM4
TM5
TM7
0,332
0,300
0,430
0,412
-0,642
0,199
0,302
0,771
-0,454
-0,324
0,019
0,063
0,640
-0,383
-0,522
0,409
0,042
0,045
0,595
-0,255
0,423
-0,631
0,065
0,019
123
(3.116)
(3.117)
(3.118)
124
E() = 0
(3.119)
(3.120)
COV(,F) = E( F) = 0
(3.121)
Ento, o modelo
com m = p
(3.122)
(3.123)
Fazendo h i2 = l 2i1 + l 2i2 + ... + l 2im , tem-se V( Xi) = h i2 + i , i = 1,2,..., p , onde hi2
a comunalidade e i a varincia especfica.
O modelo fatorial ortogonal procura representar de forma adequada o
conjunto de dados, atravs de um nmero menor de fatores. A matriz de covarincia S
um estimador da matriz populacional desconhecida e , geralmente, usada, pois
no se conhece o parmetro , ou, ainda, o estimador de , , usado quando se
faz a anlise a partir da matriz de correlao.
Conforme apresentado em JOHNSTON e WICHERN (1988), se os
elementos fora diagonal de S (matriz de covarincia amostral) so baixos, ou na
matriz de correlao amostral so praticamente nulos, as variveis no so
relacionadas e a anlise fatorial no til. Contudo, se S significativamente
diferente de uma matriz diagonal, ento possvel utilizar o modelo fatorial. Para tal
deve-se estimar os carregamentos l ij e as varincias especficas i . A estimao
poder ser feita pelo mtodo das Componentes Principais, que o preferido, ou pelo
mtodo da Mxima Verossimilhana.
A matriz de carregamentos estimados l ij dada por:
L = 1 e1, 2 e 2 ,..., m e m
(3.124)
125
...
...
...
...
...
...
0
i = S ii
com
...
p
j =1
i = 1
l 2ij ou
2
ij
(3.125)
j =1
f j = L L L x j x
1
(3.126)
126
especialmente
protegidas,
chamadas
de
faxinais
do
Estado
do
Paran,
NMERO DE FAXINAIS
14
3
2
1
127
So Pedro
Iva - Anta Gorda
Ponte Nova
Linha Braslia
Patos Velhos
Papanduva de Baixo
Queimadas
Cachoeira do Palmital
Rio dos Couros
Rio do Meio
Tijuco Preto
Paran - Anta Gorda
Guanabara
Salto
Taboozinho
Dos Mellos
Marmeleiro de Baixo
Dos Krieger
Marmeleiro de Cima
Rio Bonito
ESCORES BRUTOS
406,0385
255,5732
163,4198
150,4757
116,3825
92,0459
71,1442
62,9660
2,5779
-9,2271
-11,4835
-19,0331
-71,2905
-101,9150
-105,5850
-113,3440
-123,3310
-202,2800
-264,0430
-299,0920
ESCORES
PADRONIZADOS
1,8000
1,4586
1,2495
1,2201
1,1427
1,0875
1,0401
1,0215
0,8845
0,8577
0,8526
0,8355
0,7169
0,6474
0,6391
0,6215
0,5988
0,4197
0,2795
0,2000
128
3.3.2
3.3.2.1 Introduo
O Coeficiente de Correlao Mltipla indica o grau de relacionamento entre
as variveis independentes representado pelo vetor X , onde X = [X1, X 2 , X 3 ,..., X p ] e
a varivel dependente (Y).
Os princpios gerais do mtodo para a Correlao Mltipla constituem
apenas uma extenso direta dos conceitos e raciocnios apresentados para o
Coeficiente Linear de Pearson.
A Correlao Mltipla no simplesmente a soma de correlaes da
varivel dependente com as independentes tomadas separadamente (GUILFORD,
1950). Uma das razes que as variveis independentes so normalmente
intercorrelacionadas, conhecidas tambm como multicolineares. Quando as
intercorrelaes forem iguais a zero, ento o quadrado do coeficiente de correlao
mltipla ser a soma dos quadrados dos coeficientes de cada varivel independente
com a dependente.
A Correlao Mltipla aumenta quando aumenta o tamanho da correlao
entre as variveis dependentes e independentes e quando o tamanho das
intercorrelaes entre as variveis independentes diminui (GUILFORD, 1950).
Da mesma forma que a anlise de correlao simples e a regresso
simples esto ligadas, a correlao e regresso mltipla tambm esto.
A anlise de regresso mltipla tratada atravs do modelo linear geral:
Y = X +
(3.127)
129
E (i) = 0
, i = 1, 2, ..., n
(3.128)
(ii)
VAR (i) = 2
, i = 1, 2, ..., n
(3.129)
(3.130)
130
i = 1, 2, ..., n
(3.131)
i = 1, 2, 3,... , n
(3.132)
(3.133)
2
i
i=1
(Y Y ) = (Y b
n
i=1
b1 X1i b 2 X 2 i
(3.134)
i=1
(Y b
b 1 X 1i b 2 X 2 i = 0
i=1
Y nb
i
i=1
n
i=1
b1
= nb 0 + b 1
1i
i=1
i =1
2i
i=1
b2
1i
+ b2
X
i =1
2i
=0
131
(3.135)
i=1
i=1
i2 = y i 1x 1i 2 x 2 i
i2
= 2
i=1
x 1i y i + 1
i=1
x 12i + 2
i=1
1i x 2i
i=1
i2
= 2
i=1
x 2i y i + 1
i=1
x 1i x 2i + 2
i =1
2
2i
i=1
Logo:
n
x 1i y i = 1
i=1
n
x 12i + 2
i=1
x 2i y i = 1
i=1
1i x 2i
i=1
x 1i x 2i + 2
i=1
2
2i
i=1
1 =
1 =
y i x 1i
i =1
i=1
x 12i
i=1
x 22i
i=1
Y,X Y,X X ,X
1
1 ( X ,X
1
x 22i
y i x 2i
i=1
SY
S X1
i=1
x
i=1
x 1i x 2i
1i x 2i
(3.136)
132
2 =
y i x 2i
i=1
x 12i
i=1
n
x 12i
i=1
i=1
2 = Y,X Y,X X2,X
1 ( X ,X )
2
x 22i
i=1
y i x 1i
1i x 2i
i=1
x 1i x 2i
i=1
SY
(3.137)
S X2
S2 =
Mas
1
n 1
2
(y i y i )
1
n 1
i=1
2
i
i=1
i=1
i=1
i2 = i y i 1x 1i 2 x 2 i
n
i=1
i=1
i=1
Logo (n 1) S 2 = i y i 1 i x 1i 2 i x 2i ,
mas
x
i
1i
i=1
2
i
i=1
n
i=1
y
i
i=1
2
i
i=1
= 0 , ento
2i
i=1
y (y
n
1x 1i 2 x 2 i
2
i
1 y i x 1i 2 y i x 2i
i=1
2
i
y
i=1
i =1
i=1
Tem-se que: = 1
2
i2
i =1
n
= 1
y i2
i=1
e, 2 =
i=1
y i2 1
y i x 1i 2
i=1
x 2i
i=1
2
i
i=1
1 y i x 1i + 2 y i x 2i
i=1
i =1
i =1
y i2
(3.138)
133
2Y,X ,X =
1
X1,X2
1
(3.139)
Y,X ,X =
1
2X ,Y + 2X ,Y 2 X ,Y X ,Y X ,X
2X ,X
1
1
(3.140)
SQ Re gr
(3.141)
SQ Total
c2 = 1 (1 2 )
(n 1)
(n m)
logo:
c = 1 (1 2 )
(n 1)
(n m)
(3.142)
o coeficiente de correlao;
n o tamanho da amostra (nmero de observaes da amostra);
m o nmero de variveis correlacionadas.
134
2 / k
2 ) /(n k 1)
(1
(3.143)
(3.144)
X 2 i = a 23 + b 23 X 3 i + u i
(3.145)
135
u v
i
12,3 =
i =1
(3.146)
u v
2
i
i=1
2
i
i=1
(x
n
12,3 =
1i
)(
13 x 3 i x 2 i 23 x 3 i
i=1
(3.147)
u i2
i=1
v i2
i=1
(Y Y )
n
2X, Y =
i =1
(Y Y )
n
(Y Y )
n
= 1
(Y Y )
n
i=1
2
i
= 1
i =1
i =1
Portanto:
i =1
2
i
i =1
n
(3.148)
y i2
i =1
y (1 )
n
2
i
2
X,Y
i=1
u i2 =
i=1
(
n
12,3
x 12i 1
i=1
v i2 =
i=1
x (1 )
n
2
2i
2
2,3
i =1
S
S
Tem-se ainda que 13 = 13 1 e 23 = 23 2 , logo:
S3
12,3 =
i =1
13
x 1i x 2 i
S1
S3
S3
23
x 2i x 3i
i =1
n
x x
i =1
2
1i
i=1
2
2i
S2
S3
13 23
x 1i x 3 i +
i=1
2
13
1
223
1
S1 S 2
S3 S3
x
i =1
2
3i
136
12,3 =
12 nS1S 2 13 23
nS1S 2
2
13
nS 1S 2 1
223
1
Desse modo, o Coeficiente de Correlao Parcial pode ser obtido atravs de:
12,3 =
12 13 23
(1 132 )(1 223 )
(3.149)
(h f h o )
I
do solo (cm);
a diferena entre a umidade volumtrica da frente de umi-
137
EMEPA, em Joo Pessoa. Demarcou-se uma rea de 5.000 m , e foi traada uma
COEFICIENTE
DE
CORRELAO
138
VARIVEL DEPENDENTE
COEFICIENTES DE REGRESSO
a
-0,01
0,00
0,09
0,09
b
0,04
0,00
-0,02
0,02
c
1,35
0,24
3,94
1,50
0,09
0,00
0,01
0,00
2,17
0,17
COEFICIENTE
DE
CORRELAO
MLTIPLA
0,82
0,35
0,43
0,59
0,57
0,30
e w, x, y = 0,57 ,
respectivamente.
3.3.3
3.3.3.1 Introduo
A anlise de correlao cannica uma tcnica para a identificao e
quantificao da associao entre dois grupos de variveis. Conforme descrito em
CHAVES NETO (2002b), o objetivo dessa tcnica determinar as combinaes
139
U = c1 X
e V = c 2 Y
Ento Corr(U, V ) =
[(
)(
Onde: E U U V V
COV (U, V )
V(U)V( V )
)]
[(
)(
E UU V V
)]
V(U)V( V )
(3.150)
= E U c 1 1 V c 2 2 = c 1 12 c 2
V( V ) = V(c 2 Y ) = c 2 COV( Y ) = c 2 22 c 2
Portanto, Corr(U, V ) =
c 1 12 c 2
c 1 11 c 1 c 2 22 c 2
(3.151)
140
e p
1 2 ... q .
2
1/ 2
bk = f k 22
tem-se Vk = bk Y e so
(3.152)
3.3.3.2
141
142
0,734628
3
0,48529
0,44777
5
0,3558
0,30075
0,979863
0,909272
0,707575
0,621093
0,515732
143
4.1
RESULTADOS E DISCUSSO
INTRODUO
O objetivo deste captulo foi fazer a comparao entre os coeficientes de
4.2
144
QUADRO 12 - PARMETROS UTILIZADOS NO PROCESSO DE SIMULAO PARA A OBTENO
DAS AMOSTRAS NORMAIS BIVARIADAS
NMERO
DA
AMOSTRA
TAMANHO
DA
AMOSTRA
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
SEMENTE
100
100
100
200
200
200
300
300
300
500
500
500
1 000
1 000
1 500
2 000
2 500
3 000
4 000
5 000
10 000
123
123
123
123
123
123
123
123
123
123
123
123
123
123
123
123
123
123
123
123
123
PARMETROS
2X
10
5
5
40
15
30
20
15
20
5
80
60
80
60
30
45
35
15
65
10
90
4
2
3
5
5
8
7
5
10
2
25
35
30
25
20
25
15
9
30
6
30
2Y
20
20
20
50
20
20
25
25
35
20
70
50
75
45
45
30
70
25
55
14
60
4
2
3
5
5
8
7
5
10
2
25
35
30
25
20
25
15
9
30
6
30
0,90
-0,80
0,40
0,85
-0,70
0,30
0,80
-0,90
0,25
0,80
-0,75
0,35
0,80
-0,85
0,70
0,90
0,80
0,75
0,85
0,70
0,90
FONTE: A autora
TAMANHO
DA
AMOSTRA
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
FONTE: A autora
100
100
100
200
200
200
300
300
300
500
500
500
1 000
1 000
1 500
2 000
2 500
3 000
4 000
5 000
10 000
VARIVEL X
Mdia
9,9202
4,9436
4,9309
39,8386
14,8386
29,7958
19,9017
14,9169
19,8825
4,9445
79,8038
59,7679
79,8360
59,8503
29,9193
44,8611
34,8761
14,9222
64,8446
9,95013
89,9673
Desvio
Padro
1,7577
1,2429
1,5222
2,1135
2,1135
2,6734
2,9462
2,1096
2,9835
1,3392
4,7347
5,6022
5,2155
4,7611
4,3006
4,9314
3,8223
2,9479
5,4385
2,4390
5,4623
VARIVEL Y
Mediana
9,8322
4,8814
4,8547
39,7528
14,7528
29,6873
19,8717
14,8916
19,8467
4,93319
79,7638
59,7205
79,7644
59,7849
29,8879
44,8338
34,8867
14,9211
64,8399
9,92922
89,9417
Mdia
19,8159
19,9359
19,7680
49,7350
19,9398
19,6461
24,8569
25,0352
34,8463
19,9088
69,9646
49,6130
74,6442
44,9471
44,7371
29,6962
39,7716
24,8472
54,7883
13,9267
59,9408
Desvio
Padro
1,8250
1,2252
1,6310
2,1916
2,1338
2,8529
2,6341
2,0558
3,1624
1,3715
4,7565
5,8221
5,3334
4,7972
4,4488
4,9960
3,8559
2,9957
5,4910
2,4621
5,5036
Mediana
19,7586
19,9187
19,6763
49,6677
19,9827
19,5381
24,8305
25,0609
34,9224
19,8967
69,9133
49,5430
74,5860
45,0081
44,7477
29,6922
39,7339
24,7976
54,7473
13,9141
59,9822
145
definida como:
F=
S12
S 22
(4.1)
TAMANHO DA
AMOSTRA
100
100
100
200
200
200
300
300
300
500
500
500
1 000
1 000
1 500
2 000
2 500
3 000
4 000
5 000
10 000
SX
1,7577
1,2429
1,5222
2,1135
2,1135
2,6734
2,9462
2,1096
2,9835
1,3392
4,7347
5,6022
5,2155
4,7611
4,3006
4,9314
3,8223
2,9479
5,4385
2,4390
5,4623
Sy
1,8250
1,2252
1,6310
2,1916
2,1338
2,8529
2,6341
2,0558
3,1624
1,3715
4,7565
5,8221
5,3334
4,7972
4,4488
4,9960
3,8559
2,9957
5,4991
2,4621
5,5036
F
0,9276
1,0291
0,8711
0,9308
0,9811
0,8781
0,8980
1,0531
0,8900
0,9534
0,9909
0,9259
0,9563
0,9850
0,9345
0,9743
0,9826
0,9684
0,9778
0,9813
0,9851
VALOR-P
0,7093
0,8867
0,4935
0,6138
0,8929
0,3599
0,3527
0,6551
0,3143
0,5940
0,9183
0,3900
0,4798
0,8110
0,1897
0,5606
0,6617
0,3791
0,4769
0,5055
0,4520
FONTE: A autora
146
4.2.1
(X
X )( Yi Y )
i =1
(X
i =1
X)
(4.2)
(Y Y)
i
i =1
147
1
n -1
(4.3)
TAMANHO DA
AMOSTRA
100
100
100
200
200
200
300
300
300
500
500
500
1 000
1 000
1 500
2 000
2 500
3 000
4 000
5 000
10 000
0,89704
-0,76775
0,43492
0,84261
-0,66200
0,32073
0,80669
-0,88534
0,31393
0,79475
-0,73125
0,35775
0,78949
-0,83720
0,68755
0,89782
0,79524
0,74349
0,84814
0,70072
0,90049
0,10050
0,10050
0,10050
0,07089
0,07089
0,07089
0,05783
0,05783
0,05783
0,04477
0,04477
0,04477
0,03164
0,03164
0,02583
0,02237
0,02000
0,01826
0,01581
0,01414
0,01000
FONTE: A autora
(4.4)
pq
y
=
n
(4.5)
148
QUADRO 16 - COEFICIENTE DE CORRELAO BISSERIAL ( b ) E ERRO
PADRO, SEGUNDO O TAMANHO DA AMOSTRA
NMERO DA
AMOSTRA
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
TAMANHO DA
AMOSTRA
100
100
100
200
200
200
300
300
300
500
500
500
1 000
1 000
1 500
2 000
2 500
3 000
4 000
5 000
10 000
b
0,94610
-0,78635
0,45559
0,89507
-0,69485
0,37090
0,85043
-0,88661
0,27665
0,83054
-0,71946
0,29871
0,81672
-0,82284
0,68462
0,90806
0,80552
0,74258
0,85946
0,70337
0,90574
0,12533
0,12534
0,12534
0,08862
0,08862
0,08863
0,07236
0,07236
0,07236
0,05605
0,05605
0,05605
0,03963
0,03963
0,03236
0,02803
0,02507
0,02288
0,01982
0,01773
0,01253
FONTE: A autora
+
+
=
t
t
t
2
6
yy n 2
+ ....
(4.6)
=
t
p q p q
y y n
(4.7)
149
( t ) E
TAMANHO DA
AMOSTRA
100
100
100
200
200
200
300
300
300
500
500
500
1 000
1 000
1 500
2 000
2 500
3 000
4 000
5 000
10 000
t
0,95110
-0,68450
0,58780
0,89100
-0,63740
0,36810
0,85540
-0,85540
0,30900
0,83750
-0,68450
0,33280
0,84090
-0,79780
0,69970
0,91400
0,80750
0,74590
0,85830
0,70260
0,90850
0,15705
0,15714
0,15712
0,11103
0,11114
0,11112
0,09079
0,09079
0,09068
0,07013
0,07020
0,07027
0,04956
0,04962
0,04055
0,03521
0,03131
0,02863
0,02481
0,02217
0,01565
FONTE: A autora
4.2.2
mtodos. interessante observar que a razo entre os erros padro dos Coeficientes
de Correlao Bisserial e de Pearson aproximadamente de 1,25, ou seja, o primeiro
25% superior, confirmando o que foi observado por GUILFORD (1950) e apresentado
na seo 3.2.2.3. Em relao razo entre os erros padro dos Coeficientes de
Correlao Tetracrico e de Pearson, esta de aproximadamente 1,56, ou seja, o
erro padro do Coeficiente de Correlao Tetracrico cerca de 56% superior ao de
Pearson, tambm observado por GUILFORD (1950), discutido na seo 3.2.4.3.
150
QUADRO 18 - ERROS PADRO DOS COEFICIENTES DE CORRELAO LINEAR DE PEARSON,
BISSERIAL E TETRACRICO, SEGUNDO O TAMANHO DA AMOSTRA
NMERO DA
AMOSTRA
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
TAMANHO
DA
AMOSTRA
100
100
100
200
200
200
300
300
300
500
500
500
1 000
1 000
1 500
2 000
2 500
3 000
4 000
5 000
10 000
0,10050
0,10050
0,10050
0,07089
0,07089
0,07089
0,05783
0,05783
0,05783
0,04477
0,04477
0,04477
0,03164
0,03164
0,02583
0,02237
0,02000
0,01826
0,01581
0,01414
0,01000
0,12533
0,12534
0,12534
0,08862
0,08862
0,08863
0,07236
0,07236
0,07236
0,05605
0,05605
0,05605
0,03963
0,03963
0,03236
0,02803
0,02507
0,02288
0,01982
0,01773
0,01253
0,15705
0,15714
0,15712
0,11103
0,11114
0,11112
0,09079
0,09079
0,09068
0,07013
0,07020
0,07027
0,04956
0,04962
0,04055
0,03521
0,03131
0,02863
0,02481
0,02217
0,01565
1,24702
1,24706
1,24708
1,25014
1,25014
1,25024
1,25115
1,25129
1,25120
1,25203
1,25204
1,25207
1,25269
1,25261
1,25295
1,25314
1,25311
1,25285
1,25333
1,25333
1,25330
/
t
1,56261
1,56352
1,56334
1,56632
1,56777
1,56756
1,56989
1,56989
1,56800
1,56663
1,56826
1,56970
1,56652
1,56843
1,57003
1,57407
1,56543
1,56796
1,56919
1,56762
1,56471
FONTE: A autora
4.2.3
b) =
erp(
)
100
t) =
erp(
100
(4.8)
onde:
erp ( b )
151
erp ( t )
TAMANHO DA
AMOSTRA
100
100
100
200
200
200
300
300
300
500
500
500
1 000
1 000
1 500
2 000
2 500
3 000
4 000
5 000
10 000
0,89704
-0,76775
0,43492
0,84261
-0,66200
0,32073
0,80669
-0,88534
0,31393
0,79475
-0,73125
0,35775
0,78949
-0,83720
0,68755
0,89782
0,79524
0,74349
0,84814
0,70072
0,90049
b
0,94610
-0,78635
0,45559
0,89507
-0,69485
0,37090
0,85043
-0,88661
0,27665
0,83054
-0,71946
0,29871
0,81672
-0,82284
0,68462
0,90806
0,80552
0,74258
0,85946
0,70337
0,90574
t
0,95110
-0,68450
0,58780
0,89100
-0,63740
0,36810
0,85540
-0,85540
0,30900
0,83750
-0,68450
0,33280
0,84090
-0,79780
0,69970
0,91400
0,80750
0,74590
0,85830
0,70260
0,90850
erp( b )
5,46910
2,42266
4,75260
6,22589
4,96224
15,64244
5,42216
0,14345
11,87526
4,50330
1,61231
16,50314
3,44906
1,71524
0,42615
1,14054
1,29269
0,12240
1,33469
0,37818
0,58302
erp( t )
6,02649
10,84337
35,15129
5,74287
3,71601
14,76943
6,03826
3,38175
1,57041
5,37905
6,39316
6,97414
6,51180
4,70616
1,76714
1,80214
1,54167
0,32415
1,19792
0,26830
0,88952
FONTE: A autora
4.3
152
Pearson para todos os tamanhos de amostra, sendo o erro relativo percentual maior
para amostras de tamanho menor.
Para todos os tamanhos de amostra os Coeficientes de Correlao
Bisserial e o Tetracrico fornecem estimativas maiores do que o Coeficiente de
Correlao Linear de Pearson. Embora os erros relativos diminuam medida que se
aumenta o tamanho da amostra, devemos considerar que os erros padro dos
Coeficientes de Correlao Bisserial so aproximadamente 25% superiores aos do
Coeficiente de Correlao Linear de Pearson e os do Coeficiente de Correlao
Tetracrico, em torno de 56% superiores.
importante destacar que estas so as situaes ideais, em que se tem
distribuies normais bivariadas com varincias homogneas, o que na prtica
dificilmente ocorre, e, ainda, utilizando as medianas como pontos de dicotomizao.
Para a utilizao dos Coeficientes de Correlao Bisserial e Tetracrico
necessrio que se atenda suposio da existncia de variveis subjacentes
(latentes) s variveis medidas como dicotmicas, normalmente distribudas, caso
contrrio no possvel a sua utilizao.
Dentre os trs mtodos discutidos, prefervel, sempre que possvel,
utilizar o Coeficiente de Correlao Linear de Pearson.
153
CONCLUSES E RECOMENDAES
154
Ainda, possvel utilizar o recurso dos ranks (atribuindo uma ordem aos dados) e
utilizar o Coeficiente de Correlao Linear de Pearson.
Apresenta-se a seguir, de forma resumida, as situaes em que se pode
utilizar cada um dos mtodos de coeficientes de correlao envolvendo duas
variveis, discutidos neste trabalho.
a) Coeficiente de Correlao Linear de Pearson: este mtodo pode ser
utilizado em situaes que envolvem variveis medidas em nvel
intervalar e ordinal e variveis dicotmicas.
b) Coeficiente de Correlao Bisserial: pode ser empregado quando se
tem uma varivel medida em nvel intervalar e outra dicotmica ou
dicotomizada (ao serem medidas), porm a suposio da existncia de
uma varivel normalmente distribuda, subjacente varivel dicotmica,
deve ser atendida.
c) Coeficiente de Correlao Ponto Bisserial: trata-se do Coeficiente de
Correlao Linear de Pearson, quando calculado para uma varivel
dicotmica e outra medida em nvel intervalar.
d) Coeficiente de Correlao Tetracrico: este mtodo deve ser utilizado
quando se tem duas variveis dicotmicas ou dicotomizadas (ao serem
medidas), porm a suposio da existncia de variveis normalmente
distribudas, subjacentes s variveis dicotmicas, deve ser atendida;
e) Coeficiente de Correlao de Spearman: o Coeficiente de Correlao
Linear de Pearson quando se tem duas variveis medidas em nvel
ordinal.
f)
155
REFERNCIAS
AGRESTI, Alan. Categorical data analysis. New York: J. Wiley & Sons, 1990. 557p.
ALMEIDA FILHO, Raimundo. Processamento digital de imagens Landsat-TM na deteco
de reas de microexsudao de hidrocarbonetos, regio da Serra do Tona, Bahia. In:
SIMPSIO BRASILEIRO DE SENSORIAMENTO REMOTO, 10., 2001, Foz do Iguau.
Anais. So Jos dos Campos: INPE, p. 235-242, 2001.
ANDERBERG, Michael R. Cluster analysis for applications. New York: Academic Press,
1973. 359p.
ANDERSON, T. W. An introduction to multivariate statistical analysis. New York: J.
Wiley & Sons, 1958. 375p.
BROWNLEE, K. A. Statistical theory and methodology in science and engineering. New
York: J. Wiley & Sons, 1960. 570p.
BRYANT, Edward C. Statistical analysis. New York: McGraw-Hill Book, 1960. 303p.
BUNCHAFT, Guenia; KELLNER, Sheilah R.O. Estatstica sem mistrios. 2.ed. Petrpolis:
Vozes, 1999. v.2, 303p.
CALLEGARI-JACQUES, Sidia M. Bioestatstica: princpios e aplicaes. Porto Alegre:
Artemed, 2003. 255p.
CHAVES NETO, Anselmo. Probabilidade e estatstica matemtica II. Curitiba: UFPR, 1.o
semestre de 2002a. Notas de aula.
CHAVES NETO, Anselmo. Anlise multivariada aplicada pesquisa. Curitiba: UFPR, 2.o
semestre de 2002b. Notas de aula.
CHAVES NETO, Anselmo. Probabilidade e estatstica matemtica I. Curitiba: UFPR, 1.o
semestre de 2003. Notas de aula.
CHAVES NETO, Anselmo; TURIM, Maria Elisa. Anlise de itens pela teoria clssica da
avaliao e TRI em dados reais do ensino fundamental. In:SEMINRIO IASI DE
ESTATSTICA APLICADA, 9., Anais. Rio de Janeiro, 2003.
CHEN, Peter Y.; POPOVICH, Paula M. Correlation: parametric and nonparametric
measures. London: Sage, 2002. 95p.
COCHRAN, William G. Tcnicas de amostragem. Rio de Janeiro: Fundo de Cultura,
1965. 555p.
CRONBACH, Lee J. Coefficient alpha and the internal structure of testes. Psychometrika, v.
16, n. 3, p. 297-333, Sept. 1951.
DOWNIE, N. M.; HEATH, R. W. Basic statistical methods. New York: Harper & Brothers,
1959. 289p.
156
ELDERTON, William P. Frequency curves and correlation. 4.ed. Washington: Harren Press,
1953. 272p.
FACHEL, Jandyra M. G. Anlise fatorial. So Paulo, 1976. 81p. Dissertao (Mestrado) IME, USP.
FACHEL, Jandyra M. G. The C-type distribution as an underlying model for categorical
data and its use in factor analysis. London, 1986. 235p. Tese (Doutorado).
FERGUSON, G. A. Statistical analysis in psycology and education. Tokyo: McGraw-Hill
Kogagusha, 1976.
FERGUSON, George A. Statistical analysis in psychology and education. 5.ed. New
York: McGraw-Hill book, 1981. 549p.
FEY NETO, Emlio Rudolfo. Anlise de correlao cannica aplicada em sistema de
produo contnuo. Curitiba, 1999. 150p. Dissertao (Mestrado) - Departamento de
Informtica, Curso de Informtica Aplicada, PUC-PR.
FILLIBEN, James J. The Probability plot correlation coefficient test for normality.
Technometrics, v. 17, n. 1, p. 111-117, Feb. 1975.
FURTADO, Emerson Marcos. Automao do ranqueamento qualitativo de reas
especialmente protegidas do Estado do Paran atravs da anlise fatorial.Curitiba,
1999. 220 p. Dissertao (Mestrado) - Setor de Cincias Exatas, UFPR.
FURTADO, Emerson Marcos; CHAVES NETO, Anselmo et al. Ranqueamento de faxinais do
Estado do Paran. Revista de Cincias Exatas e Naturais, v.5, n.1, jan.-jun. 2003.
GALTON, Francis. Correlations and their measurement, chiefly from antropometric data.
Nature, p. 238, 3 Jan. 1889.
GUILFORD, J. P. Fundamental statistics in psychology and education. 4.ed. New York:
McGraw-hill Book, 1950. 605p.
HALDAR, A.; MAHADEVAN, S. Probability, reliability and statistical methods in
engineering design. New York: J. Willey & Sons, 2000. 320p.
JAMES, Barry R. Probabilidade: um curso em nvel intermedirio. Rio de Janeiro: Instituto
de Matemtica Pura e Aplicada, 1981. 304p.
JOHNSON, Richard A.; WICHERN, Dean W. Applied multivariate statistical analysis. 2.
ed. New Jesery: Prentice Hall International, 1988. 607p.
KENNEY, J. F.; KEEPING, E. S. Mathematics of statistics. 2.ed. Princeton, Van
Nostrand, 1951. 429p.
LIMA, Ccero A. G.; SILANS, Alain P. de. Variabilidade espacial da infiltrao de gua no
solo. Pesquisa Agropecuria Brasileira, Braslia, v. 34, n. 12, p. 2311-2320, dez. 1999.
LORD, F. e NOVICK, M. R. Statistical theories of mental test scores. Reading: AddisonWesley, 1967. 568p.
157
McNEMAR, Quinn. Psychological statistics. 4. ed. New York: J. Wiley & Sons, 1969. 529p.
MENEZES, Antnio C. F.; FAISSOL, Speridio; FERREIRA, Marilourdes L. Anlise da
matriz geogrfica: estruturas e inter-relaoes. In: IBGE. Tendncias atuais da geografia
urbano/regional: teorizao e quantificao. Rio de Janeiro, 1978. p. 67-109.
MOOD, Alexander M.; GRAYBILL, Franklin A.; BOES, Duane C. Introduction to the theory
of statistics. 3. ed. Singapore: McGraw-Hill Book, 1974. 564p.
NETER, John et al. Applied linear statistical models. New York: McGraw-Hill, 1996. 1408p.
NOJOSA, Ronald T. Modelos multidimensionais para a teoria da resposta ao item.
Recife, 2001. 66p. Dissertao (Mestrado), UFPE.
NUNNALLY, Jum C. Introduccion a la medicion psicologica. Buenos Aires: McGraw-Hill,
1970. 619 p.
SCHULTZ, Duane P.; SCHULTZ, Sydney Ellen. Histria da psicologia moderna. 16. ed.
So Paulo: Cultrix, 1992. 439 p.
SIEGEL, Sidney. Estatstica no-paramtrica: para as cincias do comportamento. So
Paulo: McGraw-Hill do Brasil, 1975. 350 p.
SILVEIRA, Fernando L. Um exemplo de anlise multivariada aplicada pesquisa
quantitativa em ensino de cincias: explicando o desempenho dos candidatos ao concurso
vestibular de 1999 da Universidade Federal do Rio Grande do Sul. Investigaes em
Ensino de Cincias, Porto Alegre, v. 4, n. 2, p. 161-180, 1999.
SILVEIRA, Fernando L.; PINENT, Carlos E. C. A questo de redao no concurso vestibular
universidade: validade e poder decisrio. Estudos em Avaliao Educacional, So
Paulo, v. 24, p. 147-162, 2001.
SIQUEIRA, Arminda Lucia. Uso de transformao em anlise de varincia e anlise de
regresso. So Paulo, 1983. 154p. Dissertao (Mestrado), USP/IME.
SNEDECOR, George W.; COCHRAN, William G. Statistical methods. 7.ed. Ames: Iowa
Sate University, 1980. 507p.
TOBO, Natividad et al. Cumplimiento del rgimen teraputico y su relacin con las
caractersticas biolgicas y sociales del individuo con insuficiencia renal crnica terminal en
hemodilisis. Colombia Mdica, Colombia, v. 26, p. 141-145, 1995.
UFRJ.COPPE.PEC. COC796-Confiabilidade estrutural. Mtodos analticos para anlise
de confiabilidade. Disponvel em: http://www.ufrj/coppe/Coc796.doc Acesso em: 2 semestre
de 2003.
WANNACOTT, Ronald J.; WANNACOTT, Thomas H. Econometria. 2.ed. So Paulo: Livros
Tcnicos e Cientficos, 1978. 424p.
WHERRY, R. J. Contributions to correlational analysis. Orlando: Academic Press,
1984. 463p.
158
)
CORRELAO LINEAR DE PEARSON (
159
)
PEARSON (
f( ) =
2 (n 4)/2
(n 1)(n 1)(1 )
(1 )
1
(n 3/2)
2 n (1 )
2
1 ( + 1)
9
( + 1) 2
+
1 +
4 2n 1
16 2(2n 1)(2n + 1)
2 14
2 25/2
(27) (28)(1 0,8 ) (1 )
57
55/2
2
(1 0,8 )
2
2 25/2
f( ) =
0,00000125 6(1 )
55/2
(1 0,8 )
1 (0,8 + 1)
9 (0,8 + 1) 2
+
+
1
4
57
16 2 57 59
(0,8 + 1) 9 (0,8 + 1) 2
+
1 +
228
2 53 808
DE
CORRELAO
LINEAR
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
FONTE: A autora
DE
f( )
0,00009
0,00074
0,00577
0,04373
0,30834
1,78533
5,72350
1,94955
0,00000
160
2 14
2 25/2
(27) (28)(1 ( 0,8) ) (1 )
57
55/2
2
(1 ( 0,8) )
2
2 25/2
f( ) =
0,00000125 6(1 )
55/2
(1 + 0,8 )
1 ( 0,8 + 1)
9 ( 0,8 + 1) 2
+
+
1
4
57
16 2 57 59
( 0,8 + 1) 9 ( 0,8 + 1) 2
+
+
1
228
2 53 808
-1,00
-0,90
-0,80
-0,70
-0,60
-0,50
-0,40
-0,30
-0,20
f( )
f( )
0,00000
1,94955
5,72350
1,78533
0,30834
0,04373
0,00577
0,00074
0,00009
FONTE: A autora
1
(n 1)
2
f( ) =
(1 2 )(n 4)/2
1
(n 2)
2
161
(28)
[14]
2
f( ) =
(1 2 ) 25/2 =
(1 2 ) 25/2 = 2,0563864(1 2 ) 25/2
1
(27)
(27)
2
-1,0
-0,8
-0,6
-0,4
-0,2
-0,0
0,2
0,4
0,6
0,8
1,0
FONTE: A autora
f( )
f( )
0,00000
0,00001
0,00776
0,23231
1,23300
2,05386
1,23300
0,23231
0,00776
0,00001
0,00000
162
163
DISTRIBUIES AMOSTRAIS DE Z
f(Z) =
Z 2
com:
E( Z ) =
1 1 +
ln
+
2 1 2n 1
Z =
1
n3
2Z =
1 1 0
+
=0
ln
2 1 57
1
29 3
Z = 0,1961
1
0,1961 2
Z
1
2 0,1961
= 2,0344e
Z
1
2 0,1961
f(Z)
f(Z)
0,00000
0,00049
0,01886
0,25407
1,20939
2,03340
1,20939
0,25407
0,01886
0,00049
0,00000
164
2Z =
1 1 + 0,8 0,8
+
= 1,1126
ln
2 1 0,8 57
1
29 3
Z = 0,1961
1
0,1961
1 Z 1,1126
2
0,1961
= 2,0344e
1 Z 1,1126
2
0,1961
f(Z)
f(Z)
0,00000
0,00004
0,00276
0,06679
0,57101
1,72521
1,84205
0,69506
0,09268
0,00437
0,00007
0,00000
165
166
VARIVEL X
ORDEM
VARIVEL X
ORDEM
VARIVEL X
ORDEM
VARIVEL X
ORDEM
VARIVEL X
72,18700
41
8,12555
81
212,51855
121
147,14338
161
17,44974
42
41,55470
82
169,85026
122
97,03626
162
164,82585
183,53943
102,67841
43
3,79202
83
162,01862
123
152,89828
163
102,36524
160,48252
44
68,67889
84
95,32578
124
80,69527
164
97,12284
156,10761
45
87,18117
85
89,10925
125
45,33027
165
192,85433
186,05545
46
90,57455
86
114,40728
126
149,25564
166
86,61525
-33,28091
47
70,92790
87
87,57117
127
56,41797
167
52,21369
75,88585
48
211,89209
88
29,93820
128
118,89907
168
139,81303
150,32126
49
-8,57903
89
-10,38914
129
119,56322
169
88,44523
10
28,14476
50
47,75729
90
135,38656
130
71,27952
170
147,19482
11
50,34857
51
-55,34452
91
113,87657
131
64,31710
171
113,34344
12
-5,66421
52
170,06952
92
123,60274
132
12,50440
172
170,38835
13
-14,42701
53
17,33324
93
100,95450
133
200,60562
173
82,21271
14
34,25275
54
52,39952
94
31,49187
134
57,27668
174
35,14380
15
45,68360
55
131,43197
95
158,33893
135
93,82323
175
2,83909
16
-29,60415
56
115,13586
96
71,57206
136
75,88139
176
-54,64370
17
57,19621
57
137,97809
97
41,96438
137
247,78060
177
94,77852
18
66,37334
58
122,36154
98
43,01682
138
159,11080
178
105,75475
19
96,55177
59
12,17640
99
64,97641
139
138,33079
179
88,00390
20
68,53239
60
26,51864
100
63,61176
140
163,60119
180
100,22796
21
70,68852
61
127,86369
101
59,66748
141
99,52077
181
103,46104
22
68,26653
62
107,06764
102
136,56805
142
119,34963
182
171,66572
23
164,18793
63
36,36909
103
117,73961
143
75,02128
183
93,77593
24
84,22407
64
75,50692
104
54,93497
144
20,61910
184
26,46274
25
78,57517
65
96,36600
105
162,07885
145
159,93437
185
11,16490
26
60,26039
66
120,23667
106
-9,61244
146
72,82231
186
99,72138
27
199,44387
67
96,76804
107
119,83202
147
15,87099
187
142,26056
28
137,47769
68
37,98617
108
82,48876
148
131,79823
188
4,50761
29
222,03666
69
194,55137
109
91,33751
149
132,91981
189
54,84214
118,31782
30
52,32523
70
116,28309
110
52,37297
150
112,97667
190
31
182,04153
71
93,04538
111
58,22274
151
111,61737
191
76,86138
32
-1,29427
72
135,47110
112
136,56193
152
52,70658
192
69,75953
33
119,18111
73
137,27243
113
133,97053
153
129,49351
193
79,84534
34
139,52272
74
53,35424
114
114,55931
154
118,41611
194
64,37847
35
196,45927
75
37,30127
115
127,71663
155
149,20216
195
44,05315
36
84,26704
76
151,22657
116
180,31494
156
-66,08907
196
125,10860
37
59,66748
77
21,73399
117
106,01921
157
114,97364
197
92,29407
38
126,80775
78
1,70204
118
121,98375
158
171,15971
198
159,75330
39
67,64586
79
128,83419
119
192,75883
159
-7,46465
199
103,68259
40
131,42624
80
124,75075
120
70,20881
160
91,54767
200
92,19966
FONTE: A autora
NOTA: Mdia = 92,84155 e Desvio Padro=57,98319
167
2 TESTE DE NORMALIDADE
X i ORDE-
DEM
NADA
mi
Mi
(X X)
(X X) M
(X X)
Mi2
- 66,08907
0,00346
-2,70067
-158,93062
429,21915
25 258,94075
7,29362
- 55,34452
0,00840
-2,39106
-148,18607
354,32178
21 959,11020
5,71717
- 54,64370
0,01339
-2,21471
-147,48525
326,63705
21 751,89783
4,90494
- 33,28091
0,01838
-2,08842
-126,12246
263,39666
15 906,87395
4,36150
- 29,60415
0,02337
-1,98865
-122,44570
243,50163
14 992,94851
3,95473
- 14,42701
0,02836
-1,90547
-107,26856
204,39702
11 506,54314
3,63082
- 10,38914
0,03335
-1,83369
-103,23069
189,29308
10 656,57456
3,36242
- 9,61244
0,03834
-1,77029
-102,45399
181,37327
10 496,81928
3,13393
- 8,57903
0,04333
-1,71329
-101,42058
173,76286
10 286,13327
2,93536
10
- 7,46465
0,04832
-1,66137
-100,30620
166,64571
10 061,33299
2,76015
11
- 5,66421
0,05332
-1,61348
-98,50576
158,93707
9 703,38399
2,60332
12
- 1,29427
0,05831
-1,56912
-94,13582
147,71039
8 861,55188
2,46214
13
1,70204
0,06330
-1,52765
-91,13951
139,22927
8 306,40958
2,33371
14
2,83909
0,06829
-1,48865
-90,00246
133,98216
8 100,44211
2,21608
15
3,79202
0,07328
-1,45179
-89,04953
129,28121
7 929,81811
2,10769
16
4,50761
0,07827
-1,41681
-88,33394
125,15240
7 802,88428
2,00735
17
8,12555
0,08326
-1,38348
-84,71600
117,20289
7 176,80000
1,91402
18
11,16490
0,08825
-1,35161
-81,67665
110,39497
6 671,07453
1,82685
19
12,17640
0,09324
-1,32107
-80,66515
106,56430
6 506,86580
1,74523
20
12,50440
0,09823
-1,29171
-80,33715
103,77230
6 454,05705
1,66851
21
15,87099
0,10322
-1,26342
-76,97056
97,24614
5 924,46651
1,59623
22
17,33324
0,10822
-1,23605
-75,50831
93,33204
5 701,50430
1,52782
23
17,44974
0,11321
-1,20964
-75,39181
91,19694
5 683,92443
1,46323
24
20,61910
0,11820
-1,18404
-72,22245
85,51427
5 216,08173
1,40195
25
21,73399
0,12319
-1,15919
-71,10756
82,42717
5 056,28454
1,34372
26
26,46274
0,12818
-1,13504
-66,37881
75,34260
4 406,14591
1,28832
27
26,51864
0,13317
-1,11153
-66,32291
73,71990
4 398,72788
1,23550
28
28,14476
0,13816
-1,08863
-64,69679
70,43086
4 185,67414
1,18512
29
29,93820
0,14315
-1,06628
-62,90335
67,07258
3 956,83096
1,13695
30
31,49187
0,14814
-1,04445
-61,34968
64,07667
3 763,78276
1,09088
31
34,25275
0,15313
-1,02310
-58,58880
59,94220
3 432,64703
1,04673
32
35,14380
0,15812
-1,00222
-57,69775
57,82584
3 329,02991
1,00444
33
36,36909
0,16311
-0,98176
-56,47246
55,44240
3 189,13830
0,96385
34
37,30127
0,16811
-0,96166
-55,54028
53,41086
3 084,72227
0,92479
35
37,98617
0,17310
-0,94199
-54,85538
51,67322
3 009,11229
0,88735
36
41,55470
0,17809
-0,92267
-51,28685
47,32083
2 630,34059
0,85132
37
41,96438
0,18308
-0,90369
-50,87717
45,97719
2 588,48604
0,81666
38
43,01682
0,18807
-0,88503
-49,82473
44,09638
2 482,50334
0,78328
39
44,05315
0,19306
-0,86668
-48,78840
42,28393
2 380,30760
0,75113
40
45,33027
0,19805
-0,84861
-47,51128
40,31854
2 257,32136
0,72014
41
45,68360
0,20304
-0,83081
-47,15795
39,17929
2 223,87189
0,69025
42
47,75729
0,20803
-0,81328
-45,08426
36,66612
2 032,59015
0,66142
43
50,34857
0,21302
-0,79599
-42,49298
33,82398
1 805,65302
0,63360
44
52,21369
0,21801
-0,77893
-40,62786
31,64626
1 650,62270
0,60673
168
QUADRO A.3.2 - ESTATSTICAS DA VARIVEL ALEATRIA X
OR-
X i ORDE-
DEM
NADA
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
52,32523
52,37297
52,39952
52,70658
53,35424
54,84214
54,93497
56,41797
57,19621
57,27668
58,22274
59,66748
59,66748
60,26039
63,61176
64,31710
64,37847
64,97641
66,37334
67,64586
68,26653
68,53239
68,67889
69,75953
70,20881
70,68852
70,92790
71,27952
71,57206
72,18700
72,82231
75,02128
75,50692
75,88139
75,88585
76,86138
78,57517
79,84534
80,69527
82,21271
82,48876
84,22407
84,26704
86,61525
87,18117
87,57117
88,00390
88,44523
89,10925
90,57455
91,33751
91,54767
92,19966
mi
Mi
(X X)
0,22301
0,22800
0,23299
0,23798
0,24297
0,24796
0,25295
0,25794
0,26293
0,26792
0,27291
0,27791
0,28290
0,28789
0,29288
0,29787
0,30286
0,30785
0,31284
0,31783
0,32282
0,32781
0,33281
0,33780
0,34279
0,34778
0,35277
0,35776
0,36275
0,36774
0,37273
0,37772
0,38271
0,38770
0,39270
0,39769
0,40268
0,40767
0,41266
0,41765
0,42264
0,42763
0,43262
0,43761
0,44260
0,44760
0,45259
0,45758
0,46257
0,46756
0,47255
0,47754
0,48253
-0,76207
-0,74545
-0,72904
-0,71282
-0,69678
-0,68093
-0,66524
-0,64971
-0,63434
-0,61912
-0,60404
-0,58906
-0,57425
-0,55956
-0,54499
-0,53054
-0,51619
-0,50196
-0,48782
-0,47378
-0,45983
-0,44597
-0,43217
-0,41848
-0,40486
-0,39132
-0,37785
-0,36445
-0,35112
-0,33785
-0,32463
-0,31148
-0,29837
-0,28532
-0,27229
-0,25933
-0,24642
-0,23354
-0,22071
-0,20791
-0,19515
-0,18241
-0,16971
-0,15703
-0,14438
-0,13173
-0,11912
-0,10653
-0,09396
-0,08141
-0,06886
-0,05633
-0,04381
-40,51632
-40,46858
-40,44203
-40,13497
-39,48731
-37,99941
-37,90658
-36,42358
-35,64534
-35,56487
-34,61881
-33,17407
-33,17407
-32,58116
-29,22979
-28,52445
-28,46308
-27,86514
-26,46821
-25,19569
-24,57502
-24,30916
-24,16266
-23,08202
-22,63274
-22,15303
-21,91365
-21,56203
-21,26949
-20,65455
-20,01924
-17,82027
-17,33463
-16,96016
-16,95570
-15,98017
-14,26638
-12,99621
-12,14628
-10,62884
-10,35279
-8,61748
-8,57451
-6,22630
-5,66038
-5,27038
-4,83765
-4,39632
-3,73230
-2,26700
-1,50404
-1,29388
-0,64189
(X X) M
continua
(X X)
30,87627
30,16730
29,48385
28,60901
27,51397
25,87494
25,21697
23,66476
22,61126
22,01892
20,91114
19,54152
19,05021
18,23111
15,92994
15,13336
14,69236
13,98718
12,91172
11,93721
11,30033
10,84115
10,44238
9,65936
9,16309
8,66892
8,28007
7,85828
7,46814
6,97814
6,49884
5,55066
5,17213
4,83907
4,61687
4,14414
3,51552
3,03513
2,68080
2,20984
2,02035
1,57191
1,45518
0,97772
0,81725
0,69427
0,57626
0,46834
0,35069
0,18456
0,10357
0,07288
0,02812
1 641,57187
1 637,70566
1 635,55748
1 610,81551
1 559,24735
1 443,95487
1 436,90852
1 326,67690
1 270,58999
1 264,85970
1 198,46174
1 100,51866
1 100,51866
1 061,53174
854,38040
813,64403
810,14670
776,46581
700,56594
634,82260
603,93142
590,93507
583,83395
532,77947
512,24075
490,75657
480,20789
464,92097
452,39104
426,61028
400,76982
317,56189
300,48926
287,64690
287,49563
255,36571
203,52949
168,90137
147,53202
112,97216
107,18018
74,26090
73,52216
38,76676
32,03986
27,77686
23,40282
19,32760
13,93003
5,13927
2,26212
1,67412
0,41202
Mi2
0,58075
0,55570
0,53150
0,50811
0,48550
0,46367
0,44254
0,42212
0,40239
0,38331
0,36486
0,34699
0,32976
0,31311
0,29701
0,28147
0,26645
0,25196
0,23797
0,22447
0,21144
0,19889
0,18677
0,17513
0,16391
0,15313
0,14277
0,13282
0,12329
0,11414
0,10538
0,09702
0,08902
0,08141
0,07414
0,06725
0,06072
0,05454
0,04871
0,04323
0,03808
0,03327
0,02880
0,02466
0,02085
0,01735
0,01419
0,01135
0,00883
0,00663
0,00474
0,00317
0,00192
169
QUADRO A.3.2 - ESTATSTICAS DA VARIVEL ALEATRIA X
OR-
X i ORDE-
DEM
NADA
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
92,29407
93,04538
93,77593
93,82323
94,77852
95,32578
96,36600
96,55177
96,76804
97,03626
97,12284
99,52077
99,72138
100,22796
100,95450
102,36524
102,67841
103,46104
103,68259
105,75475
106,01921
107,06764
111,61737
112,97667
113,34344
113,87657
114,40728
114,55931
114,97364
115,13586
116,28309
117,73961
118,31782
118,41611
118,89907
119,18111
119,34963
119,56322
119,83202
120,23667
121,98375
122,36154
123,60274
124,75075
125,10860
126,80775
127,71663
127,86369
128,83419
129,49351
131,42624
131,43197
131,79823
mi
Mi
0,48752
0,49251
0,49750
0,50250
0,50749
0,51248
0,51747
0,52246
0,52745
0,53244
0,53743
0,54242
0,54741
0,55240
0,55740
0,56239
0,56738
0,57237
0,57736
0,58235
0,58734
0,59233
0,59732
0,60231
0,60730
0,61230
0,61729
0,62228
0,62727
0,63226
0,63725
0,64224
0,64723
0,65222
0,65721
0,66220
0,66719
0,67219
0,67718
0,68217
0,68716
0,69215
0,69714
0,70213
0,70712
0,71211
0,71710
0,72209
0,72709
0,73208
0,73707
0,74206
0,74705
-0,03129
-0,01878
-0,00627
0,00627
0,01878
0,03129
0,04381
0,05633
0,06886
0,08141
0,09396
0,10653
0,11912
0,13173
0,14438
0,15703
0,16971
0,18241
0,19515
0,20791
0,22071
0,23354
0,24642
0,25933
0,27229
0,28532
0,29837
0,31148
0,32463
0,33785
0,35112
0,36445
0,37785
0,39132
0,40486
0,41848
0,43217
0,44597
0,45983
0,47378
0,48782
0,50196
0,51619
0,53054
0,54499
0,55956
0,57425
0,58906
0,60404
0,61912
0,63434
0,64971
0,66524
(X X)
-0,54748
0,20383
0,93438
0,98168
1,93697
2,48423
3,52445
3,71022
3,92649
4,19471
4,28129
6,67922
6,87983
7,38641
8,11295
9,52369
9,83686
10,61949
10,84104
12,91320
13,17766
14,22609
18,77582
20,13512
20,50189
21,03502
21,56573
21,71776
22,13209
22,29431
23,44154
24,89806
25,47627
25,57456
26,05752
26,33956
26,50808
26,72167
26,99047
27,39512
29,14220
29,51999
30,76119
31,90920
32,26705
33,96620
34,87508
35,02214
35,99264
36,65196
38,58469
38,59042
38,95668
(X X) M
continua
(X X)
0,01713
-0,00383
-0,00586
0,00616
0,03638
0,07773
0,15441
0,20900
0,27038
0,34149
0,40227
0,71154
0,81953
0,97301
1,17135
1,49551
1,66941
1,93710
2,11563
2,68478
2,90844
3,32236
4,62674
5,22164
5,58246
6,00171
6,43457
6,76465
7,18474
7,53213
8,23079
9,07410
9,62621
10,00784
10,54965
11,02258
11,45600
11,91706
12,41103
12,97926
14,21615
14,81786
15,87862
16,92911
17,58522
19,00613
20,02702
20,63014
21,74100
22,69196
24,47581
25,07258
25,91554
0,29973
0,04155
0,87307
0,96370
3,75187
6,17142
12,42177
13,76576
15,41735
17,59562
18,32948
44,61203
47,33211
54,55911
65,82002
90,70074
96,76389
112,77365
117,52823
166,75083
173,65082
202,38175
352,53156
405,42321
420,32765
442,47223
465,08088
471,66127
489,82958
497,03643
549,50598
619,91358
649,04053
654,05832
678,99455
693,77262
702,67851
714,04785
728,48568
750,49281
849,26805
871,43004
946,25105
1 018,19729
1 041,16276
1 153,70300
1 216,27147
1 226,55056
1 295,47041
1 343,36645
1 488,77860
1 489,22081
1 517,62322
Mi2
0,00098
0,00035
0,00004
0,00004
0,00035
0,00098
0,00192
0,00317
0,00474
0,00663
0,00883
0,01135
0,01419
0,01735
0,02085
0,02466
0,02880
0,03327
0,03808
0,04323
0,04871
0,05454
0,06072
0,06725
0,07414
0,08141
0,08902
0,09702
0,10538
0,11414
0,12329
0,13282
0,14277
0,15313
0,16391
0,17513
0,18677
0,19889
0,21144
0,22447
0,23797
0,25196
0,26645
0,28147
0,29701
0,31311
0,32976
0,34699
0,36486
0,38331
0,40239
0,42212
0,44254
170
QUADRO A.3.2 - ESTATSTICAS DA VARIVEL ALEATRIA X
OR-
X i ORDE-
DEM
NADA
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
132,91891
133,97053
135,38656
135,47110
136,56193
136,56805
137,27243
137,47769
137,97809
138,33079
139,52272
139,81303
142,26056
147,14338
147,19482
149,20216
149,25564
150,32126
151,22657
152,89828
156,10761
158,33893
159,11080
159,75330
159,93437
160,48252
162,01862
162,07885
163,60119
164,18793
164,82585
169,85026
170,06952
170,38835
171,15971
171,66572
180,31494
182,04153
183,53943
186,05545
192,75883
192,85433
194,55137
196,45927
199,44387
200,60562
211,89209
212,51855
222,03666
247,78060
TOTAL
FONTE: A autora
mi
Mi
(X X)
0,75204
0,75703
0,76202
0,76701
0,77200
0,77699
0,78199
0,78698
0,79197
0,79696
0,80195
0,80694
0,81193
0,81692
0,82191
0,82690
0,83189
0,83689
0,84188
0,84687
0,85186
0,85685
0,86184
0,86683
0,87182
0,87681
0,88180
0,88679
0,89178
0,89678
0,90177
0,90676
0,91175
0,91674
0,92173
0,92672
0,93171
0,93670
0,94169
0,94668
0,95168
0,95667
0,96166
0,96665
0,97164
0,97663
0,98162
0,98661
0,99160
0,99654
0,68093
0,69678
0,71282
0,72904
0,74545
0,76207
0,77893
0,79599
0,81328
0,83081
0,84861
0,86668
0,88503
0,90369
0,92267
0,94199
0,96166
0,98176
1,00222
1,02310
1,04445
1,06628
1,08863
1,11153
1,13504
1,15919
1,18404
1,20964
1,23605
1,26342
1,29171
1,32107
1,35161
1,38348
1,41681
1,45179
1,48865
1,52765
1,56912
1,61348
1,66137
1,71329
1,77029
1,83369
1,90547
1,98865
2,08842
2,21471
2,39106
2,70067
40,07736
41,12898
42,54501
42,62955
43,72038
43,72650
44,43088
44,63614
45,13654
45,48924
46,68117
46,97148
49,41901
54,30183
54,35327
56,36061
56,41409
57,47971
58,38502
60,05673
63,26606
65,49738
66,26925
66,91175
67,09282
67,64097
69,17707
69,23730
70,75964
71,34638
71,98430
77,00871
77,22797
77,54680
78,31816
78,82417
87,47339
89,19998
90,69788
93,21390
99,91728
100,01278
101,70982
103,61772
106,60232
107,76407
119,05054
119,67700
129,19511
154,93905
0,00000
(X X) M
continua
(X X)
27,28988
28,65785
30,32694
31,07865
32,59136
33,32266
34,60855
35,52992
36,70865
37,79292
39,61411
40,70925
43,73731
49,07202
50,15014
53,09113
54,25118
56,43128
58,51464
61,44404
66,07824
69,83855
72,14270
74,37442
76,15304
78,40874
81,90842
83,75221
87,46246
90,14045
92,98285
101,73390
104,38210
107,28445
110,96196
114,43615
130,21727
136,26636
142,31586
150,39877
165,99958
171,35090
180,05588
190,00278
203,12753
214,30503
248,62754
265,04986
308,91327
418,43925
11 424,30554
1 606,19509
1 691,59331
1 810,07820
1 817,27886
1 911,47196
1 912,00714
1 974,10344
1 992,38534
2 037,30759
2 069,27131
2 179,13199
2 206,32030
2 442,23893
2 948,68916
2 954,27838
3 176,51879
3 182,54998
3 303,91750
3 408,81101
3 606,81128
4 002,59484
4 289,90729
4 391,61401
4 477,18280
4 501,44701
4 575,30134
4 785,46755
4 793,80424
5 006,92720
5 090,30649
5 181,74000
5 930,34201
5 964,15994
6 013,50679
6 133,73479
6 213,25038
7 651,59463
7 956,63712
8 226,10613
8 688,83187
9 983,46361
10 002,55693
10 344,88827
10 736,63270
11 364,05545
11 613,09561
14 173,03199
14 322,58525
16 691,37744
24 006,11041
Mi2
0,46367
0,48550
0,50811
0,53150
0,55570
0,58075
0,60673
0,63360
0,66142
0,69025
0,72014
0,75113
0,78328
0,81666
0,85132
0,88735
0,92479
0,96385
1,00444
1,04673
1,09088
1,13695
1,18512
1,23550
1,28832
1,34372
1,40195
1,46323
1,52782
1,59623
1,66851
1,74523
1,82685
1,91402
2,00735
2,10769
2,21608
2,33371
2,46214
2,60332
2,76015
2,93536
3,13393
3,36242
3,63082
3,95473
4,36150
4,90494
5,71717
7,29362
171
(X
n
(X
n
i =1
Tem-se que:
) M
n
2
i
i=1
2
i
i =1
(X
n
i =1
i =1
X Mi = 11. 424,30554 ;
(X
X = 669. 048,10709 ;
i =1
= 195,55906
i=1
= 0,99876 , superior ao valor crtico igual a 0,98700 (Quadro A.2.1 do Anexo 2),
para nvel de significncia de 5%. Portanto, aceita-se a hiptese H0 de que a
varivel aleatria X normalmente distribuda.
172
173
ARQUIVO DE DADOS
174
QUADRO A.4.1 - RENDA DAS PESSOAS OCUPADAS, SEGUNDO GNERO, NA RMC - AGO 2003
concluso
RENDA
RENDA
OBS.
GNERO
OBS.
GNERO
(R$ 1,00)
(R$ 1,00)
48
350
1
111
1 500
0
49
1 200
1
112
2 000
0
50
2 400
1
113
1 200
0
51
800
1
114
2 100
0
52
600
1
115
300
0
53
3 000
1
116
800
0
54
520
1
117
1 500
0
55
800
1
118
740
0
56
400
1
119
900
0
57
600
1
120
800
0
58
1 200
1
121
600
0
59
350
1
122
340
0
60
1 300
1
123
280
0
61
1 000
1
124
860
0
62
1 500
1
125
600
0
63
810
1
FONTE: PME-IPARDES/IBGE
NOTAS: Pessoas ocupadas na condio de empregados com carteira de trabalho assinada no setor
privado, no grupo de atividades relativa a intermediao financeira e ativiades imobilirias,
aluguis e servios prestados s empresas, com 11 anos ou mais de estudo e que
trabalharam entre 35 e 45 horas, na semana de referncia.
A varivel gnero assume os valores 0 e 1, sendo: 1= masculino; 0=feminino.
GNERO
Homem
68,00
350,00
4 000,00
1 212,51
900,00
910,19
Mulher
TOTAL
Tamanho da amostra
57,00
125,00
Mnimo (R$ 1,00)
240,00
240,00
Mximo (R$ 1,00)
4 000,00
4 000,00
Mdia (R$ 1,00)
901,93
1 070,89
Mediana (R$ 1,00)
700,00
800,00
Desvio Padro (R$ 1,00)
729,73
843,55
FONTE: PME IPARDES/IBGE
NOTAS: Pessoas ocupadas na condio de empregados com carteira de trabalho assinada no setor
privado, no grupo de atividades relativa a intermediao financeira e ativiades imobilirias, aluguis
e servios prestados s empresas, com 11 anos ou mais de estudo e que trabalharam entre 35 e
45 horas, na semana de referncia.
175
Estatsticas de Kolmogorov:
DN = 0,221489
Valor-p aproximado = 0,00000943433
Concluso: Sendo o valor-p menor que 0,05, podemos rejeitar H0 e concluir
que a distribuio da varivel em estudo no provm de uma distribuio normal.
Estatsticas de Kolmogorov:
DN = 0,086597
Valor-p aproximado = 0,307337
Concluso: Sendo o valor-p maior que 0,05, pode-se aceitar H0 e concluir
que a distribuio da varivel em estudo provm de uma distribuio normal.
176
QUADRO A.4.2 - COEFICIENTES DE CORRELAO PONTO BISSERIAL E LINEAR DE
PEARSON ENTRE AS VARIVEIS EM ESTUDO
VARIVEIS
pb
Significncia
Significncia
Renda e gnero
0, 18412
0,04
0,18412
0,04
Ln de renda e gnero
0,21544
0,02
0,21544
0,02
177
178
POPULAO
POPULAO
MIGRANTE
ECONOMICAMENTE
TOTAL (X)
ATIVA (Y)
POSTO DE X POSTO DE Y
(1)
(2)
ELEMENT0S ELEMENTOS
SUPERIORES INFERIORES
(3)
(4)
S
(5)
704
137
803
22
21
703
250
690
22
22
708
613
2 434
21
21
710
623
2 455
20
20
707
750
3 304
18
17
720
1 387
2 482
18
18
705
1 845
10 792
16
15
702
2 448
21 064
13
11
709
3 580
11 085
14
13
723
3 637
17 125
10
12
11
724
6 268
14 318
11
11
11
713
7 172
9 219
12
12
12
711
7 401
13 957
13
10
11
11
706
14 796
48 967
14
22
-6
719
26 437
29 485
15
15
722
27 713
23 832
16
14
712
28 528
45 664
17
19
717
32 740
34 848
18
16
716
36 216
37 141
19
17
715
39 501
47 809
20
20
721
40 978
48 198
21
21
701
42 116
226 657
22
24
-2
718
45 510
42 589
23
18
714
86 938
111 618
24
23
TOTAL
216
216
0,5 24 23
= 0,782609
179
180
data a500;
keep x y;
m1=5; m2=20; v1=2; v2=10; ro=0.80;
do i=1 to 500; /* tamanho da amostra */
x=m1+sqrt(v1)*rannor(123);
y=(m2+ro*(sqrt(v2)/sqrt(v1))*(x-m1))+ sqrt(v2*(1-ro**2))*rannor(123);
output;
end;
run;
2 PROGRAMAS PARA OS CLCULOS DOS COEFICIENTES DE CORRELAO
set dados;
if y>=116854 then dicoty=1 /* ponto de dicotomizao*/;
else dicoty=0;
run;
181
var dicoty x;
output out=temp(keep=p stdx n) mean=p std=stdy stdx n=n;
run;
by descending dicoty;
run;
by notsorted dicoty;
var x;
output out=out2 mean=m1;
run;
var m1;
run;
182
*******************************************************
* ESTE PROGRAMA CALCULA O COEFICIENTE DE CORRELAO *
* TETRACRICO *
*******************************************************
* define o ponto de dicotomizao*;
data arq;
set dados;
if y>=23.2831 then dicoty=1;
else dicoty=0;
if x>=6.98211 then dicotx=1;
else dicotx=0;
run;
183
*****************************************************************;
*define a varivel dicotmica*;
data arq;
set dados;
dicoty=y;
x=x;
run;
var dicoty x;
output out=temp(keep=p stdx n) mean=p std=stdy stdx n=n;
run;
184
by descending dicoty;
run;
by notsorted dicoty;
var x;
output out=out2 mean=m1;
run;
var m1;
run;
var dicoty x;
run;
set temp1(rename=(x=pbis));
if _TYPE_='CORR' and dicoty<>1 then output;
run;
185
186
187
www.mugu.com/galton/statistician.html
188
identical scale-value. The particular unit that I shall employ is the value of the probable error of any single
measure in its own group. In that of the cubit, the probable error is 0.56 inch = 1.42 cm.; in the stature it
is 1.75 inch = 4.44 cm. Therefore the measured lengths of the cubit in inches will be transmuted into
terms of a new scale in which each unit = 0.56 inch, and the measured lengths of the stature will be
transmuted into terms of another new scale in which each unit is 1.75 inch. After this has been done, we
shall find the deviation of the cubit as compared to the mean of the corresponding deviations of the
stature, to be as 1 to 0.8. Conversely, the deviation of the stature as compared to the mean of the
corresponding deviations of the cubit will also be as l to 0.8. Thus the existence of the co-relation is
established, and its measure is found to be 0.8.
Now as to the evidence of all this. The data were obtained at my anthropometric laboratory
at South Kensington. They are of males of 21 years and upwards, but as a large proportion of them
were students, and barely 21 years of age, they were not wholly full-grown; but neither that fact nor the
small number of observations is prejudicial to the conclusions that will be reached. They were
measured in various ways, partly for the purpose of this inquiry. It will be sufficient to give some of
them as examples. The exact number of 350 is not preserved throughout, as injury to some limb or
other reduced the available number by 1, 2, or 3 in different cases. After marshalling the measures of
each limb in the order of their magnitudes, I noted the measures in each series that occupied the
positions of the first, second and third quarterly divisions. Calling these measures in any one series
Q1, M and Q3, I take M, which is the median or middlemost value, as that whence the deviations are to
be measured, and [1/2]{Q3Q3}=Q as the probable error of any single measure in the series. This is
practically the same as saying that one-half of the deviations fall within the distance of
Q from the
mean value, because the series run with fair symmetry. In this way I obtained the following values of M
and Q, in which the second decimal must be taken as only roughly approximate. The M and Q of any
particular series may be identified by a suffix, thus Mc, Qc might stand for those of the cubit, and Mi, Qi
for those of the stature.
Table I.
M
Inch.
Q
Cubit.
Inch.
Cubit.
Head length
7.62
19.35
0.19
0.48
Head breadth
6.00
15.24
0.18
0.46
67.20
170.69
1.75
4.44
4.54
11.53
0.15
0.38
Stature
Left middle finger
Left cubit
18.05
45.70
0.56
1.42
20.50
52.00
0.80
2.03
NOTE.-The head length is its maximum length measured from the notch between and just
below the eyebrows. The cubit is measured from the hand prone and without taking off the coat; it is the
distance between the elbow of the bent left arm and the tip of the middle finger. The height of the knee is
taken sitting when the knee is bent at right angles, less the measured thickness of the heel of the boot.
Tables were then constructed, each referring to a different pair the above elements, like
Tables II and III, which will suffice as examples of the whole of them. It will be understood that the Q
value is a universal unit applicable to the most varied measurements, such as breathing capacity,
strength, memory, keenness of eyesight, and enables them to be compared together on equal terms
189
notwithstanding their intrinsic diversity. It does not only refer to measures of length, though partly for
the sake of compactness, it is only those of length that will be here given as examples. It is
unnecessary to extend the limits of Table II, as it includes every line and column in my MS table that
contains not less than twenty entries. None of the entries lying within the flanking lines and columns of
Table II were used.
Table II.
Length of left cubit in inches, 348 adult males.
Stature in
inches.
Under
16.5
16.5
17.0
17.5
18.0
18.5
19.0
and
and
and
and
and
and
17.5
18.0
18.5
19.0
19.5
15
Total
19.5
cases.
and
above
71 and above
..
..
..
30
70
..
..
..
13
11
..
30
69
..
25
15
..
50
68
..
14
48
67
..
15
28
..
61
66
..
18
15
..
..
48
65
..
10
12
..
..
36
64
..
11
..
..
..
21
Below 64
12
10
..
..
..
34
Totals
25
49
61
102
55
38
348
The measures were made and recorded to the nearest tenth of an inch. The heading of 70
inches of stature includes all records between 69.5 and 70.4 inches; that of 69 includes all between
68.5 and 69.4, and so on.
190
Table III.
Stature Ms = 67.2 inches; Qs = 1.75 inch. Left Cubit Mc = 18.05 inches; Qc = 0.56 inch.
No. of Stature.
Cases
Deviation from Ms
reckoned in
Inches.
inches.
inches.
Smoothed
Values
Added to
Multiplied
Mc.
by Qc.
30
70.0
+2.8
+1.60
18.8
+0.8
+1.42
+1.30
+0.73
18.8
50
69.0
+1.8
+1.03
18.3
+0.3
+0.53
+0.84
+0.47
18.5
38
68.0
+0.8
+0.46
18.2
+0.2
+0.36
+0.38
+0.21
18.3
61
67.0
-0.2
-0.11
18.1
+0.1
+0.18
-0.08
-0.04
18.0
48
66.0
-1.2
-0.69
17.8
-0.2
-0.36
-0.54
-0.30
17.8
36
65.0
-2.2
-1.25
17.7
-0.3
-0.53
-1.00
-0.56
17.5
21
64.0
-3.2
-1.83
17.2
-0.8
-1.46
-1.46
-0.80
17.2
No. of
cases.
Left
cubit.
Deviation from Mc
reckoned in
Inches.
Units of
Qc.
inches.
Smoothed
values
Added to
Multiplied
Ms
by Qs.
inches.
38
19.25
+1.20
+2.14
70.3
+3.1
+1 8
+1.70
+3.0
70.2
55
18 75
+0.70
+1.25
68.7
+1.5
+0.9
+1.00
+1.8
69.0
102
18.25
+0.20
+0.36
67.4
+0.8
+0.1
+0.28
+0.5
67.7
61
17.75
-0.30
-0.53
86.3
-0.9
-0.5
-0.43
-0.8
66.4
98
17.25
-0.80
-1.43
66.0
-2.2
-1.3
-1.15
-2.0
65.2
26
18.75
-1.30
-2.31
63.7
-3.S
-2.0
-1.85
-3.2
64.0
The values derived from Table II, and from other similar tables, are entered in Table III,
where they occupy all the columns up to the three last, the first of which is headed "smoothed." These
smoothed values were obtained by plotting the observed values, after transmuting them as above
described into their respective Q units, upon a diagram such as is shown in the figure. The deviations
of the "subject" are measured parallel to the axis of y in the figure, and those of the mean of the
corresponding values of the "relative" are measured parallel to the axis of x. When the stature is taken
as the subject, the median positions of the corresponding cubits, which are given in the successive
lines of Table III, are marked with small circles. When the cubit is the subject, the mean positions of
the corresponding statures are marked with crosses. The firm line in the figure is drawn to represent
the general run of the small circles and crosses. It is here seen to be a straight line, and it was
similarly found to be straight in every other figure drawn from the different pairs of co-related variables
that I have as yet tried. But the inclination of the line to the vertical differs considerably in different
cases. In the present one the inclination is such that a deviation of 1 on the part of the subject,
whether it be stature or cubit, is accompanied by a mean deviation on the part of the relative, whether
it be cubit or stature, of 0.8. This decimal fraction is consequently the measure of the closeness of the
correlation. We easily retransmute it into inches. If the stature be taken as the subject, then Qs is
associated with Qc0.8; that is, a deviation of 1.75 inches in the one with 0.56 0.8 of the other. This is
the same as 1 inch of stature being associated with a mean length of cubit equal to 0.26 inch.
191
Conversely, if the cubit he taken as the subject, then Qc is associated with Qs0.8; that is, a deviation
of 0.56 inch in the one with 1.750.8 of the other. This is the same as 1 inch of cubit being associated
with a mean length of 2.5 inches of stature. If centimetre be read for inch the same holds true. Six
other tables are now given in a summary form, to show how well calculation on the above principle
agrees with observation.
Table IV.
Mean of corresponding
No.
Length
statures.
Mean of corresponding
No.
of
of
of
cases.
head.
cases.
lengths of head.
Height
Observed. Calculated.
Observed. Calculated.
32
7.90
68.5
68.1
26
70.5
7.72
7.75
41
7.80
67.2
67.8
30
69.5
7.70
7.72
46
7.70
67.6
67.5
50
68.5
7.65
7.68
52
7.60
66.7
67.2
49
67.5
7.65
7.64
58
7.50
66.8
66.8
56
66.5
7.57
7.60
34
7.40
66.0
66.5
43
65.5
7.57
7.69
26
7.30
66.7
66.2
31
64.5
7.54
7.65
Mean of corresponding
No.
of
lengths of left
Height.
middle finger.
cases.
Length
Mean of corresponding
No.
of left
statures.
of
middle
cases.
finger.
Observed. Calculated.
Observed. Calculated.
30
70.5
4.71
4.74
23
4.80
70.2
69.4
50
69.5
4.55
4.68
49
4.70
68.1
68.5
37
68.5
4.57
4.62
62
4.60
68.0
67.7
62
67.5
4.58
4.56
63
4.50
67.3
66.9
48
66.5
4.59
4.50
57
4.40
66.0
66.1
37
65.5
4.47
4.44
35
4.30
65.7
65.3
20
64.5
4.33
4.38
Mean of corresponding
No.
Left
of
middle
cases. finger.
Mean of corresponding
No.
Length
of
of left
finger.
cases.
cubit.
Observed. Calculated.
Observed. Calculated.
23
4.80
18.97
18.80
29
19.00
4.76
4.75
50
4.70
18.55
18.49
32
18.70
4.64
4.69
62
4.60
18.24
18.18
48
18.40
4.60
4.62
62
4.50
18.00
17.87
70
18.10
4.56
4.55
57
4.40
17.72
17.55
37
17.80
4.49
4.48
34
4.30
17.27
17.24
31
17.50
4.40
4.41
28
17.20
4.37
4.34
24
16.90
4.32
4.28
192
Mean of corresponding
No.
Length
of
of
cases.
head.
breadths of head.
Mean of corresponding
No.
Breadth
of
of
cases.
head.
Observed. Calculated.
lengths of head.
Observed. Calculated.
32
7.90
6.14
6.12
27
6.30
7.72
7.84
41
7.80
6.05
6.08
36
6.20
7.72
7.75
46
7.70
6.14
6.04
53
6.10
7.65
7.65
52
7.60
5.98
6.00
58
6.00
7.68
7.60
34
7.40
5.96
5.91
37
5.80
7.55
7.50
26
7.30
5.85
5.87
30
5.70
7.45
7.46
No.
Height
of
of
cases.
knee.
Mean of corresponding
No.
of
heights of knee.
Stature.
cases.
Mean of corresponding
Observed. Calculated.
statures.
Observed. Calculated.
30
70.0
21.7
21.7
23
22.2
70.5
70.6
50
69.0
21.1
21.3
32
21.7
69.8
69.6
38
68.0
20.7
20.9
50
21.2
68.7
68.6
61
67.0
20.5
20.5
68
20.7
67.3
67.7
49
66.0
20.2
20.1
74
20.2
66.2
66.7
36
65.0
19.7
19.7
41
19.7
65.5
65.7
26
19.2
64.3
64.7
No.
Height
Mean of corresponding
No.
heights of knee.
Mean of corresponding
of
Left
of
of
cases.
cubit.
cases.
knee.
Observed. Calculated.
left cubit.
Observed. Calculated.
29
19.0
21.5
21.6
23
22.25
18.98
18.97
32
18.7
21.4
21.2
30
21.75
18.68
18.70
48
18.4
20.8
20.9
52
21.25
18.38
18.44
70
17.1
20.7
20.6
69
20.75
18.15
18.17
37
17.8
20.4
20.2
70
20.25
17.75
17.90
31
17.5
20.0
19.9
41
19.75
17.55
17.63
28
17.2
19.8
19.6
27
19.25
17.02
17.36
23
16.9
19.3
19.2
From Table IV the deductions given in Table V can be made; but they may be made
directly from tables of the form of Table III, whence Table IV was itself derived.
193
Table V.
In units of Q.
In units of ordinary
measure.
Subject.
Relative.
Stature
Cubit
Cubit
Stature
Stature
Head length
Head length
Stature
Stature
Middle finger
Middle finger
Stature
Middle finger
Cubit
Cubit
Middle finger
Head length
Head breadth
Head breadth
Head length
Stature
Height of knee
r.
0.8
0.35
0.7
0.85
0.45
0.9
{(1 )}
As 1 to
=.
to
0.6
0.93
0.72
0.61
0.89
0.44
Height of knee
0.8
0.60
f.
0.26
0.45
2.5
1.4
0.38
1.63
3.2
0.17
0.06
0.10
8.2
1.26
3.13
0.34
0.21
0.09
0.43
0.16
0.48
0.17
0.41
0.35
1.20
0.77
1.14
0.64
0.56
0.45
When the deviations of the subject and those of the mean of the relatives are severally
measured in units of their own Q, there is always a regression in the value of the latter. This is precisely
analogous to what was observed in kinship, as I showed in my paper read before this Society on
``Hereditary Stature'' (`Roy. Soc. Proc.,' vol. 40, 1886, p. 42). The statures of kinsmen are co-related
variables; thus, the stature of the father is correlated to that of the adult son, and the stature of the adult
son to that of the father; the stature of the uncle to that of the adult nephew, and the stature of the adult
nephew to that of the uncle, and so on; but the index of correlation which is what I there called
``regression,'' is different in the different cases. In dealing with kinships there is usually no need to
reduce the measures to units of Q, because the Q values are alike in all the kinsmen, being of the same
value as that of the population at large. It however happened that the very first case that I analysed was
different in this respect. It was the reciprocal relation between the statures of what I called the ``midparent'' and the son. The mid-parent is an ideal progenitor, whose stature is the average of that of the
father on the one hand and of that of the mother on the other, after her stature had been transmuted into
its male equivalent by the multiplication of the factor of 1.08. The Q of the mid-parental stature was found
to be 1.2, that of the population dealt with was 1.7. Again, the mean deviation measured in inches of the
statures of the sons was found to be two-thirds of the deviation of the mid-parents, while the mean
deviation in inches of the mid-parent was one-third of the deviation of the sons. Here the regression,
194
when calculated in Q units, is in the first case from [ 1/1.2] to [ 2/3]1.7=1 to 0.47, and in the second
case from [ 1/1.7] to [ 1/3][ 1/1.2]=1 to 0.44 which is practically the same.
The rationale of all this will be found discussed in the paper on ``Hereditary Stature,'' to
which reference has already been made, and in the appendix to it by Mr. J. D. Hamilton Dickson. The
entries in any table, such as Table II, may be looked upon as the values of the vertical ordinates to a
surface of frequency, whose mathematical properties were discussed in the above-mentioned
appendix, therefore I need not repeat them here. But there is always room for legitimate doubt whether
conclusions based on the strict properties of the ideal law of error would be sufficiently correct to be
serviceable in actual cases of correlation between variables that conform only approximately to that
law. It is therefore exceedingly desirable to put the theoretical conclusions to frequent test, as has
been done with these anthropometric data. The result is that anthropologists may now have much less
hesitation than before, in availing themselves of the properties of the law of frequency of error.
I have given in Table V a column headed {(1r2)}=f. The meaning of f is explained in the
paper on ``Hereditary Stature.'' It is the Q value of the distribution of any system of x values, as x1, x2,
x3, &c., round the mean of all of them, which we may call X. The knowledge of f enables dotted lines to
be drawn, as in the figure above, parallel to the line of M values, between which one half of the x
observations, for each value of y, will be included. This value of f has much anthropological interest of
its own, especially in connexion with M. Bertillon's system of anthropometric identification, to which I
will not call attention now.
It is not necessary to extend the list of examples to show how to measure the degree in
which one variable may be correlated with the combined effect of n other variables, whether these be
themselves correlated or not. To do so, we begin by reducing each measure into others, each having the
Q of its own system for a unit. We thus obtain a set of values that can be treated exactly in the same way
as the measures of a single variable were treated in Tables II and onwards. Neither is it necessary to
give examples of a method by which the degree may be measured, in which the variables in a series
each member of which is the summed effect of n variables, may be modified by their partial correlation.
After transmuting the separate measures as above, and then summing them, we should find the
probable error of any one of them to be n if the variables were perfectly independent, and n if they were
rigidly and perfectly co-related. The observed value would be almost always somewhere intermediate
between these extremes, and would give that information that is wanted.
To conclude, the prominent characteristics of any two correlated variables, so far at least
as I have as yet tested them, are four in number. It is supposed that their respective measures have
been first transmuted into others of which the unit is in each case equal to the probable error of a since
single measure in its own series. Let y=the deviation of the subject, whichever of the two variables may
be taken in that capacity; and let x1, x2, x3, &c., be the corresponding deviations of the relative, and let
the mean of these be X. Then we find: (1) that y=rX for all values of y; (2) that r is the same, whichever
of the two variables is taken for the subject; (3) that r is always less than 1; (4) that r measures the
closeness of correlation.
195
196
QUADRO A.2.1 - VALORES CRTICOS DO COEFICIENTE DE CORRELAO SEGUNDO NVEIS DE
SIGNIFICNCIA E TAMANHO DA AMOSTRA
TAMANHO
DA AMOSTRA
3
4
5
TAMANHO
DA AMOS0,100
TRA
0,891
32
0,894
33
0,902
34
NVEIS DE SIGNIFICNCIA
0,010
0,025
0,050
0,869
0,822
0,822
0,872
0,845
0,855
0,879
0,868
0,879
6
7
8
9
10
0,835
0,847
0,859
0,868
0,876
0,868
0,876
0,886
0,893
0,900
0,890
0,899
0,905
0,912
0,917
0,911
0,916
0,924
0,929
0,934
11
12
13
14
15
0,883
0,889
0,895
0,901
0,907
0,906
0,912
0,917
0,921
0,925
0,922
0,926
0,931
0,934
0,937
16
17
18
19
20
0,912
0,916
0,919
0,923
0,925
0,928
0,931
0,934
0,937
0,939
21
22
23
24
25
0,928
0,930
0,933
0,936
0,937
26
27
28
29
30
31
NVEIS DE SIGNIFICNCIA
0,010
0,025
0,050
0,100
0,949
0,950
0,951
0,959
0,960
0,960
0,966
0,967
0,967
0,972
0,973
0,973
35
36
37
38
39
0,952
0,953
0,955
0,956
0,957
0,961
0,962
0,962
0,964
0,965
0,968
0,968
0,968
0,970
0,971
0,974
0,974
0,974
0,975
0,976
0,938
0,941
0,944
0,947
0,950
40
41
42
43
44
0,958
0,958
0,959
0,959
0,960
0,966
0,967
0,967
0,967
0,968
0,972
0,972
0,973
0,973
0,973
0,977
0,977
0,978
0,978
0,978
0,940
0,942
0,945
0,947
0,950
0,952
0,954
0,956
0,958
0,960
45
46
47
48
49
0,961
0,962
0,963
0,963
0,964
0,969
0,969
0,970
0,970
0,971
0,974
0,974
0,974
0,975
0,975
0,978
0,979
0,979
0,980
0,980
0,942
0,944
0,947
0,949
0,950
0,952
0,954
0,955
0,957
0,958
0,961
0,962
0,964
0,965
0,966
50
55
60
65
70
0,965
0,967
0,970
0,972
0,974
0,972
0,974
0,976
0,977
0,978
0,977
0,978
0,980
0,981
0,982
0,981
0,982
0,983
0,984
0,985
0,939
0,941
0,943
0,945
0,947
0,952
0,933
0,955
0,956
0,957
0,959
0,960
0,962
0,962
0,964
0,967
0,968
0,969
0,969
0,970
75
80
85
90
95
0,975
0,976
0,977
0,978
0,979
0,979
0,980
0,981
0,982
0,983
0,983
0,984
0,985
0,985
0,986
0,986
0,987
0,987
0,988
0,989
0,948
0,958
0,965
0,971
100
0,981
0,984
0,987
0,989