Análise de Correlação Abordagem Teórica e de

UNIVERSIDADE FEDERAL DO PARAN
ANLISE DE CORRELAO: ABORDAGEM TERICA E DE

CONSTRUO DOS COEFICIENTES COM APLICAES
CURITIBA
2004
SACHIKO ARAKI LIRA
ANLISE DE CORRELAO: ABORDAGEM TERICA E DE

CONSTRUO DOS COEFICIENTES COM APLICAES
Dissertao apresentada ao Curso de PsGraduao em Mtodos Numricos em

Engenharia dos Setores de Cincias
Exatas e de Tecnologia da Universidade
Federal do Paran, como requisito parcial
obteno do Grau de "Mestre em
Cincias".
Orientador: Prof. Dr. Anselmo Chaves Neto
CURITIBA
2004
ii
AGRADECIMENTOS
Ao orientador e amigo Prof. Anselmo Chaves Neto, pelos conhecimentos

transmitidos desde o curso da graduao, pelo incentivo para fazer o Mestrado e pela
orientao na realizao deste trabalho.
Aos professores, colegas e amigos do Programa de Curso de PsGraduao em Mtodos Numricos em Engenharia.
Ao Prof. Fernando Lang da Silveira, da Universidade Federal do Rio Grande
do Sul, que, mesmo sem me conhecer pessoalmente, gentilmente enviou-me seus
trabalhos e sugeriu-me algumas leituras sobre diversas questes relacionadas ao tema.
Ao Instituto Paranaense de Desenvolvimento Econmico e Social (Ipardes),
que me apoiou na deciso de fazer o Curso de Mestrado, e possibilitou a utilizao do
software SAS e dos microdados da Pesquisa Mensal de Emprego (PME).
Ana Rita Barzick Nogueira e Estelita S. de Matias, que muito me
ajudaram na editorao e reviso final do texto.
Maria Luiza Pillati Loureno, pela orientao quanto s normas para as
referncias citadas no trabalho.
minha sobrinha Josiane, pela valiosa contribuio na localizao de
livros e trabalhos na biblioteca da UFRGS.
Ao meu esposo Herbert, pelo apoio irrestrito, pelo incentivo, carinho e
compreenso em todos os momentos, no s durante o desenvolvimento deste
trabalho, mas desde o momento em que decidi fazer o Curso de Mestrado.
Aos meus filhos Herbert Jnior e Bernard, pela compreenso nos
momentos em que estive ausente.
A todas as pessoas que, direta ou indiretamente, estiveram presentes na
realizao deste trabalho.
iii
SUMRIO
LISTA DE TABELAS ........................................................................................................
viii
LISTA DE QUADROS.......................................................................................................
ix
LISTA DE GRFICOS ......................................................................................................
RESUMO...........................................................................................................................
xi
ABSTRACT.......................................................................................................................
xii
1 INTRODUO ..............................................................................................................
1.1 PRELIMINARES.........................................................................................................
1.2 OBJETIVOS ...............................................................................................................
1.3 JUSTIFICATIVA .........................................................................................................
1.4 RESUMO HISTRICO...............................................................................................
1.5 APRESENTAO DOS CAPTULOS........................................................................
2 REVISO DE LITERATURA ........................................................................................
2.1 VARIVEL QUALITATIVA, QUANTITATIVA E ESCALAS ........................................
2.2 VARIVEL ALEATRIA.............................................................................................
2.3 PARMETROS ..........................................................................................................
2.4 DISTRIBUIES DE PROBABILIDADES .................................................................
10
2.4.1 Distribuio Discreta................................................................................................
10
2.4.1.1 Distribuio de Bernoulli.......................................................................................
10
2.4.2 Distribuies Contnuas...........................................................................................
11
2.4.2.1 Distribuio normal univariada .............................................................................
12
2.4.2.2 Distribuio 2 (qui-quadrado).............................................................................
14
2.4.2.3 Distribuio t de Student ....................................................................................
16
2.4.2.4 Distribuio F de Snedecor ..................................................................................
17
2.4.2.5 Distribuio normal multivariada ..........................................................................
19
2.5 ESTIMADORES DOS PARMETROS ......................................................................
24
2.6 MTODOS DE ESTIMAO DOS PARMETROS ..................................................
26
2.6.1 Mtodo de Mxima Verossimilhana.......................................................................
26
2.6.2 Mtodo dos Momentos ............................................................................................
27
2.7 TESTES PARAMTRICOS E NO-PARAMTRICOS..............................................
28
2.7.1 Testes Paramtricos................................................................................................
28
2.7.2 Testes No-Paramtricos........................................................................................
28
2.7.2.1 Testes de aderncia .............................................................................................
28
3 MEDIDAS DE CORRELAO .....................................................................................
30
iv
3.1 INTRODUO ...........................................................................................................
30
3.2 MEDIDAS DE CORRELAO ENTRE DUAS VARIVEIS.......................................
33
3.2.1 Coeficiente de Correlao Linear de Pearson e a Distribuio Normal

Bivariada .................................................................................................................
34
3.2.1.1 Estimadores de mxima verossimilhana ..........................................................
35
3.2.1.2 Suposies bsicas para a utilizao do Coeficiente de Correlao Linear

de Pearson ..........................................................................................................
39
3.2.1.3 Interpretao do Coeficiente de Correlao Linear de Pearson .........................
41
3.2.1.4 Fatores que afetam o Coeficiente de Correlao Linear de Pearson .................
45
3.2.1.5 Distribuio Amostral do Coeficiente de Correlao Linear de Pearson.............
50
3.2.1.6 Teste de hiptese para = 0 .............................................................................
62
3.2.1.7 Transformao Z de Fisher .................................................................................
66
3.2.1.8 Teste de hiptese para 0 ..............................................................................
69
3.2.1.9 Intervalo de confiana para .............................................................................
69
3.2.1.10 Confiabilidade ...................................................................................................
70
3.2.1.10.1 Confiabilidade de instrumentos de medida.....................................................
70
3.2.1.10.1.1
Correo de atenuao do coeficiente de correlao................................
76
3.2.1.10.1.2
Aplicao da correo de atenuao .........................................................
78
3.2.1.10.1.3
Aplicao da correo para restrio em variabilidade.............................
79
3.2.1.10.2 Confiabilidade em Sistemas de Engenharia ...................................................
80
3.2.1.10.2.1
Confiabilidade estrutural.............................................................................
81
3.2.1.10.2.2
Confiabilidade de sistemas ........................................................................
82
3.2.1.11 Teste de normalidade (Gaussianidade) ............................................................
84
3.2.2 Coeficiente de Correlao Bisserial ........................................................................
86
3.2.2.1 Introduo ............................................................................................................
86
3.2.2.2 Estimador do Coeficiente de Correlao Bisserial e do erro padro....................
87
3.2.2.3 Suposies bsicas para a utilizao do Coeficiente de Correlao Bisserial ....
88
3.2.2.4 Aplicao do Coeficiente de Correlao Bisserial................................................
89
3.2.3 Coeficiente de Correlao Ponto Bisserial ..............................................................
91
3.2.3.1 Introduo ............................................................................................................
91
3.2.3.2 Estimador do Coeficiente de Correlao Ponto Bisserial e do erro padro .........
91
3.2.3.3 Suposies bsicas para a utilizao do Coeficiente de Correlao Ponto

Bisserial................................................................................................................
94
3.2.3.4 Coeficiente de Correlao Ponto Bisserial e teste de mdias..............................
94
3.2.3.5 Aplicao do Coeficiente de Correlao Ponto Bisserial .....................................
95
3.2.4 Coeficiente de Correlao Tetracrico ....................................................................
96
3.2.4.1 Introduo ............................................................................................................
96
3.2.4.2 Estimador do Coeficiente de Correlao Tetracrico e do erro padro ...............
97
3.2.4.3 Suposies bsicas para a utilizao do Coeficiente de Correlao

Tetracrico ........................................................................................................... 100
3.2.4.4 Aplicao do Coeficiente de Correlao Tetracrico ........................................... 100
3.2.5 Coeficiente de Correlao de Spearman ................................................................ 101
3.2.5.1 Introduo ............................................................................................................ 101
3.2.5.2 Estimador do Coeficiente de Correlao de Spearman e significncia................ 102
3.2.5.3 Suposies para a utilizao do Coeficiente de Correlao de Spearman.......... 104
3.2.5.4 Aplicao do Coeficiente de Correlao de Spearman........................................ 104
3.2.6 Coeficiente de Correlao por Postos de Kendall................................................... 106
3.2.6.1 Introduo ............................................................................................................ 106
3.2.6.2 Estimador do Coeficiente de Correlao por Postos de Kendall e significncia....... 106
3.2.6.3 Aplicao do Coeficiente de Correlao por Postos de Kendall .......................... 107
3.2.7 Coeficiente de Correlao Phi................................................................................. 108
3.2.7.1 Introduo ............................................................................................................ 108
3.2.7.2 Estimador do Coeficiente de Correlao Phi e significncia ................................ 108
3.2.7.3 O Coeficiente de Correlao Phi e a Anlise de Agrupamento............................ 111
3.2.7.4 Aplicao do Coeficiente de Correlao Phi ........................................................ 111
3.2.8 Coeficiente de Contingncia.................................................................................... 112
3.2.8.1 Introduo ............................................................................................................ 112
3.2.8.2 Estimador do Coeficiente de Contingncia e significncia................................... 113
3.2.8.3 Aplicao do Coeficiente de Contingncia ........................................................... 114
3.2.9 Coeficiente de Correlao Eta................................................................................. 115
3.2.9.1 Introduo ............................................................................................................ 115
3.2.9.2 Estimador do Coeficiente de Correlao Eta e significncia................................ 116
3.2.9.3 O Coeficiente de Correlao Eta e a Anlise de Varincia .................................. 117
3.2.9.4 Aplicao do Coeficiente de Correlao Eta ........................................................ 117
3.2.10 Resumo dos Coeficientes de Correlao entre Duas Variveis............................ 118
3.3 MEDIDAS DE CORRELAO ENTRE DIVERSAS VARIVEIS............................... 119
3.3.1 Matriz de Correlaes ............................................................................................. 119
3.3.1.1 Anlise de Componentes Principais..................................................................... 119
3.3.1.1.1 Introduo ......................................................................................................... 119
3.3.1.1.2 Aplicao da Anlise de Componentes Principais ............................................ 121
3.3.1.2 Anlise Fatorial..................................................................................................... 122
3.3.1.2.1 Introduo ......................................................................................................... 122
vi
3.3.1.2.2 Aplicao da Anlise Fatorial ............................................................................ 126

3.3.2 Coeficiente de Correlao Mltipla e Parcial........................................................... 128
3.3.2.1 Introduo ............................................................................................................ 128
3.3.2.2 Suposies para a utilizao do Coeficiente de Correlao Mltipla................... 129
3.3.2.3 Estimador do Coeficiente de Correlao Mltipla ................................................ 130
3.3.2.4 Aplicao do Coeficiente de Correlao Mltipla ................................................. 136
3.3.3 Anlise de Correlao Cannica ............................................................................. 138
3.3.3.1 Introduo ............................................................................................................ 138
3.3.3.2 Aplicao da Anlise de Correlao Cannica .................................................... 140
4 RESULTADOS E DISCUSSO .................................................................................... 143
4.1 INTRODUO ........................................................................................................... 143

4.2 COEFICIENTES DE CORRELAO LINEAR DE PEARSON, BISSERIAL E
TETRACRICO ......................................................................................................... 143
4.2.1 Clculo dos Coeficientes de Correlao ................................................................. 146
4.2.2 Comparao dos Erros Padro ............................................................................... 149
4.2.3 Comparao dos Coeficientes de Correlao Estimados ....................................... 150
4.3 AVALIAO DOS RESULTADOS ............................................................................. 151
CONCLUSES E RECOMENDAES ........................................................................... 153
REFERNCIAS ................................................................................................................. 155
APNDICE 1 - DISTRIBUIES AMOSTRAIS DO COEFICIENTE DE CORRELAO
LINEAR DE PEARSON
( ) ....................................................................
158
APNDICE 2 - DISTRIBUIES AMOSTRAIS DE Z ...................................................... 162

APNDICE 3 - TESTE DE NORMALIDADE .................................................................... 165
APNDICE 4 - APLICAO DO COEFICIENTE DE CORRELAO PONTO
BISSERIAL .............................................................................................. 172
APNDICE 5 - CLCULO
DOS
COEFICIENTES
DE
CORRELAO
DE
SPEARMAN E POR POSTOS DE KENDALL ......................................... 177

APNDICE 6 - PROGRAMAS UTILIZADOS ................................................................... 179
ANEXO 1 - CO-RELATIONS AND THEIR MEASUREMENT, CHIEFLY FROM
ANTHROPOMETRIC DATA ......................................................................... 186
ANEXO 2 - VALORES CRTICOS DO COEFICIENTE DE CORRELAO ................... 195
vii
LISTA DE TABELAS
1 COEFICIENTES DE CONFIABILIDADE E DE CORRELAO ENTRE OS ESCORES DAS

PROVAS DO CONCURSO VESTIBULAR DA UFRGS E DA PUCRS - 1999.............................................
2
COEFICIENTE DE CORRELAO ENTRE OS ESCORES DA PROVA DE REDAO E OUTRAS

PROVAS DO CONCURSO VESTIBULAR DA UFRGS E DA PUCRS - 1999.............................................
79
80
POPULAO MIGRANTE TOTAL E ECONOMICAMENTE ATIVA NAS ATIVIDADES URBANAS,

SEGUNDO MICRORREGIES DO PARAN - 1970.................................................................................. 105
SITUAO OCUPACIONAL DA POPULAO ECONOMICAMENTE ATIVA SEGUNDO GNERO,

NA RMC - AGOSTO 2003 ............................................................................................................................ 112
COEFICIENTE DE CORRELAO ENTRE VARIVEIS DAS EQUAES DE INFILTRAO E

PORCENTAGEM DE ARGILA E SILTE, EM JOO PESSOA .................................................................... 137
COEFICIENTES DE REGRESSO E CORRELAO MLTIPLA.............................................................. 138
viii
LISTA DE QUADROS
1 VALORES DE V1 E V2 SEGUNDO TAMANHO DA AMOSTRA ................................................................
67
2 ESTATSTICAS DA VARIVEL ALEATRIA X, SEGUNDO A ORDEM CRESCENTE...............................
85
3 COEFICIENTES DE CORRELAO DE PEARSON E BISSERIAL ENTRE A PONTUAO

TOTAL E RESPOSTA DE CADA ITEM, NO TESTE DE INTERPRETAO DE TEXTO DA 3.
SRIE, DAS ESCOLAS MUNICIPAIS DE ANDIR .....................................................................................
90
4 MATRIZ DE CORRELAO TETRACRICA SEGUNDO ITENS DO TESTE ALRGICO......................... 101

5 RESUMO DOS COEFICIENTES DE CORRELAO ENTRE DUAS VARIVEIS...................................... 118
6 MATRIZ DE CORRELAO ENTRE AS BANDAS LANDSAT-TM EM MACURUR - OUTUBRO 1987 ......... 121
7 AUTOVALORES E AUTOVETORES SEGUNDO COMPONENTES PRINCIPAIS ...................................... 122
8 NMERO DE FAXINAIS, SEGUNDO MUNICPIOS DA REGIO CENTRO-SUL DO PARAN AGOSTO 1997-JULHO 1998 ....................................................................................................................... 126
9 RANQUEAMENTO DOS FAXINAIS DA REGIO CENTRO-SUL DO PARAN - AGOSTO 1997JULHO 1998................................................................................................................................................. 127
10 CORRELAES CANNICAS ENTRE AS VARIVEIS DO GRUPO 1 E GRUPO 2 ................................. 142
11 CORRELAES CANNICAS ENTRE AS VARIVEIS DO GRUPO 2 E GRUPO 3 ................................. 142
12 PARMETROS UTILIZADOS NO PROCESSO DE SIMULAO PARA A OBTENO DAS
AMOSTRAS NORMAIS BIVARIADAS ......................................................................................................... 144
13 MDIA, DESVIO PADRO E MEDIANA DAS VARIVEIS ALEATRIAS X E Y, SEGUNDO O
TAMANHO DA AMOSTRA ........................................................................................................................... 144
14 DESVIOS PADRO DAS VARIVEIS X E Y, RAZO F E VALOR-P, SEGUNDO O TAMANHO DA
AMOSTRA.................................................................................................................................................... 145
) E ERRO PADRO, SEGUNDO O

15 COEFICIENTE DE CORRELAO LINEAR DE PEARSON (
b ) E ERRO PADRO,
16 COEFICIENTE DE CORRELAO BISSERIAL (
SEGUNDO
TAMANHO DA AMOSTRA .......................................................................................................................... 148
t ) E
17 COEFICIENTE DE CORRELAO TETRACRICO (
ERRO
PADRO, SEGUNDO O

18 ERROS PADRO DOS COEFICIENTES DE CORRELAO LINEAR DE PEARSON, BISSERIAL
E TETRACRICO, SEGUNDO O TAMANHO DA AMOSTRA................................................................... 150
19 COEFICIENTES DE CORRELAO LINEAR DE PEARSON, BISSERIAL E TETRACRICO E
ERROS RELATIVOS PERCENTUAIS, BISSERIAL E TETRACRICO, SEGUNDO O TAMANHO
DA AMOSTRA.............................................................................................................................................. 151
ix
LISTA DE GRFICOS
CORRELAO LINEAR POSITIVA PERFEITA ENTRE AS VARIVEIS X E Y..........................................
31
CORRELAO LINEAR NULA ENTRE AS VARIVEIS X E Y ...................................................................
31
CORRELAO LINEAR NEGATIVA PERFEITA ENTRE AS VARIVEIS X E Y ........................................
31
CORRELAO NO-LINEAR ENTRE AS VARIVEIS X E Y.....................................................................
32
DISTRIBUIO AMOSTRAL DO COEFICIENTE DE CORRELAO DE PEARSON PARA

= 0,80 ......................................................................................................................................................
58
DISTRIBUIO AMOSTRAL DO COEFICIENTE DE CORRELAO DE PEARSON PARA

= 0,80 ...................................................................................................................................................
58
DISTRIBUIO AMOSTRAL DO COEFICIENTE DE CORRELAO DE PEARSON PARA = 0 .........
60
DISTRIBUIO AMOSTRAL DE Z PARA = 0,80 ...................................................................................
68
DISTRIBUIO AMOSTRAL DE Z PARA = 0 ........................................................................................
68
RESUMO
A Anlise de Correlao uma ferramenta importante para as diferentes reas do
conhecimento, no somente como resultado final, mas como uma das etapas para a
utilizao de outras tcnicas de anlise. Dentre as principais tcnicas que utilizam o
Coeficiente de Correlao esto a Anlise de Confiabilidade, a Anlise da Estrutura de
Varincia-Covarincia e o Teste de Normalidade ou Gaussianidade. importante,
desse modo, conhecer teoricamente os diferentes mtodos e as suposies bsicas
requeridas para a sua utilizao de forma adequada. Este trabalho apresenta os
mtodos de Anlise de Correlao, envolvendo variveis medidas em nvel intervalar,
nominal e ordinal e a Anlise de Correlao Cannica. Os Coeficientes de Correlao
Simples abordados no trabalho foram: Coeficiente Linear de Pearson, Coeficiente de
Correlao Bisserial, Coeficiente de Correlao Ponto Bisserial, Coeficiente de
Correlao Tetracrico, Coeficiente de Correlao Eta, Coeficiente de Correlao de
Spearman, Coeficiente de Correlao por Postos de Kendall, Coeficiente de
Correlao Phi e Coeficiente de Contingncia. O presente trabalho discutiu alguns
estudos realizados em diferentes reas de pesquisa, os quais mostram as aplicaes
dos diferentes coeficientes de correlao.
Palavras-chave: Coeficiente de Correlao; Medida de Associao; Anlise da
Estrutura de Varincia-Covarincia.
xi
ABSTRACT
Different research areas consider Correlation Analysis to be an important tool not
only as a final result, but also as one of the steps of other analysis techniques.
Among the main techniques making use of a Correlation Coefficient we can mention
Reliability Analysis, Variance-covariance Structure Analysis and Normality or
Gaussian Test. Thus, theoretically it is important to know different methods and the
basic assumptions required to using such methods adequately. The present work
shows Correlation Analysis methods involving variables measured at interval,
nominal and ordinal levels, and Canonical Correlation Analysis. This work addresses
the following Simple Correlation Coefficients: Pearson Linear Correlation Coefficient,
Biserial Correlation Coefficient, Point Biserial Correlation Coefficient, Tetrachoric
Correlation Coefficient, Eta Correlation Coefficient, Spearman Correlation Coefficient,
Kendall Rank Correlation Coefficient, Phi Correlation Coefficient and Contingency
Coefficient. The present work discusses some studies, carried out in different
research areas, showing different uses of different correlation coefficients.
Key words: Correlation Coefficient; Association Measure; Variance-covariance
Structure Analysis.
xii
1.1
INTRODUO
PRELIMINARES
A Anlise de Correlao e a Anlise de Regresso so mtodos estatsticos
amplamente utilizados para estudar o grau de relacionamento entre variveis.

A Anlise de Correlao fornece um nmero, indicando como duas
variveis variam conjuntamente. Mede a intensidade e a direo da relao linear ou
no-linear entre duas variveis. um indicador que atende necessidade de se
estabelecer a existncia ou no de uma relao entre essas variveis sem que, para
isso, seja preciso o ajuste de uma funo matemtica. No existe a distino entre a
varivel explicativa e a varivel resposta, ou seja, o grau de variao conjunta entre
X e Y igual ao grau de variao entre Y e X.
J a anlise de regresso, alm de medir a associao entre uma varivel

resposta Y e um conjunto de variveis independentes (X1, X2,..., Xp), tambm estima os
parmetros do comportamento sistemtico entre as mesmas. Necessita a especificao
da forma funcional que relaciona a varivel resposta s outras covariveis.
Quando o objetivo estudar a relao entre as variveis, nem sempre
necessrio um detalhamento como o da Anlise de Regresso, mas apenas determinar
o grau de relacionamento entre as variveis analisadas. Conforme descreve SIEGEL
(1975, p. 220): O estabelecimento da existncia de uma correlao entre duas variveis
pode constituir o objetivo precpuo de uma pesquisa (...). Mas tambm representar
apenas um passo, ou estgio, de uma pesquisa com outros objetivos, como, por
exemplo, quando empregamos medidas de correlao para comprovar a confiabilidade
de nossas observaes".
Dado um conjunto de variveis, pode haver somente uma relao
numrica, sem relao causal. Diz-se, neste caso, que a correlao entre as
variveis envolvidas espria, devido apenas coincidncia.
Para o desenvolvimento terico da Anlise de Correlao, so feitas

determinadas suposies sobre as variveis envolvidas na anlise. Na Anlise de
Regresso, as suposies so com relao aos erros do modelo ajustado.
Entretanto, na prtica, nem sempre possvel atender a tais suposies.
Quando as suposies no forem atendidas para a Anlise de Correlao,
so possveis os seguintes procedimentos:
-
utilizar os mtodos no-paramtricos;
adequar os dados s suposies atravs de uma transformao das

variveis envolvidas na anlise.
Foram abordadas, no presente trabalho, a Anlise de Correlao Simples

Linear e No-linear, Linear Mltipla, Anlise de Componentes Principais, Anlise
Fatorial e Correlao Cannica.
A Anlise de Correlao amplamente utilizada em Anlise de Confiabilidade, Anlise da Estrutura de Varincia-Covarincia e Teste de Normalidade
(Gaussianidade).
1.2
OBJETIVOS
Os objetivos deste trabalho foram:
a) Apresentar a teoria da Anlise de Correlao;
b) Discutir os principais mtodos e as suposies bsicas de cada
mtodo;
c) Comparar, mediante simulao, o Coeficiente de Correlao Linear de
Pearson com os Coeficientes de Correlao Bisserial e Tetracrico;
d) Apresentar as principais utilidades da Anlise de Correlao com
aplicaes.
Considerando que se trata de um assunto bastante amplo, o objetivo no

foi o de esgotar, mas de esclarecer algumas questes tericas, de forma a contribuir
na utilizao adequada dos mtodos discutidos na literatura que aborda o tema.
Assim, procurou-se fazer um detalhamento terico das tcnicas.
1.3
JUSTIFICATIVA
A Anlise de Correlao uma ferramenta importante para as diferentes
reas do conhecimento, no somente como resultado final, mas como uma das
etapas para a utilizao de outras tcnicas de anlise.
A importncia de conhecer teoricamente e em conjunto os diferentes
mtodos e as suposies bsicas requeridas por parte de cada um deles
fundamental, para que no se utilize medida de correlao inadequada.
comum o uso do Coeficiente de Correlao Linear de Pearson, por ser o
mais conhecido, mas em muitas situaes isto se d sem que se tenha a clareza de
que este coeficiente mede a relao linear entre duas variveis.
J alguns mtodos de uso mais restrito, tais como o Coeficiente de
Correlao Bisserial, Ponto Bisserial e o Tetracrico, so pouco abordados nas
literaturas clssicas de Estatstica.
Ao apresentar os diferentes mtodos de Anlise de Correlao e as
suposies bsicas para a sua utilizao, pretendeu-se contribuir para o uso
adequado de cada um deles, ilustrando com algumas aplicaes, atravs de
trabalhos j realizados em diferentes reas do conhecimento.
1.4
RESUMO HISTRICO
A teoria da anlise de correlao teve incio na segunda metade do
sculo XIX. Francis Galton (1822-1911) foi quem usou pela primeira vez os termos
correlao e regresso. Publicou em 1869 o livro Hereditary Genius, sobre a teoria
da regresso (SCHULTZ e SCHULTZ, 1992).
Galton adotou o termo regresso quando observou que filhos de homens

altos no so, em mdia, to altos quanto os pais, mas os filhos de homens baixos so,
em mdia, mais altos do que os pais. Deve-se a Galton a forma grfica de representar
as propriedades bsicas do coeficiente de correlao. O termo co-relao foi proposto
por Galton, pela primeira vez, em 1888 (SCHULTZ e SCHULTZ, 1992).
A correlao foi observada analisando-se medidas antropomtricas e
definida da seguinte forma1: Two organs are said to be co-related or correlated,
when variations in the one are generally accompanied by variations in the other, in
the same direction, while the closeness of the relation differs in different pairs of
organs. (GALTON, 1889, p. 238).
Seu aluno, Karl Pearson, desenvolveu a frmula matemtica que usamos
hoje e que tem seu nome em homenagem. O smbolo do coeficiente de correlao
amostral r vem da primeira letra da palavra regresso, em reconhecimento a Galton
(SCHULTZ e SCHULTZ, 1992).
No anexo 1, encontra-se o artigo sobre co-relao escrito pelo autor, na
ntegra.2
1.5
APRESENTAO DOS CAPTULOS

No segundo captulo, apresenta-se uma rpida reviso de literatura sobre
alguns conceitos, distribuies de probabilidades discreta e contnua, estimadores

de mxima verossimilhana e de momentos, testes paramtricos e noparamtricos, importantes para o desenvolvimento do terceiro captulo.
1Dois
rgos so ditos correlacionados quando a variao de um deles geralmente

acompanhada pela variao do outro, e na mesma direo, enquanto a proximidade da relao difere
em diferentes pares de rgos.
2O
artigo foi obtido no endereo eletrnico: <http://www.mugu.com/galton>.
O terceiro captulo trata da questo central deste trabalho, sendo

apresentados, alm da Teoria Estatstica da Correlao, os diferentes Mtodos de
Correlao para variveis medidas em nvel intervalar, ordinal e nominal, e suas
suposies bsicas e a Anlise de Correlao Cannica. Discutem-se, ainda, as
principais utilidades dos diferentes Mtodos de Anlise de Correlao com suas
aplicaes, atravs de trabalhos realizados em diversas reas do conhecimento.
No quarto captulo so feitas comparaes entre o Coeficiente de
Correlao Linear de Pearson e os Coeficientes de Correlao Tetracrico e
Bisserial, a partir de diferentes tamanhos de amostras, geradas por meio do
processo de simulao.
Finalmente, faz-se recomendaes para a utilizao dos diferentes
Mtodos de Anlise de Correlao envolvendo duas variveis e a possibilidade da
utilizao do Coeficiente de Correlao Linear de Pearson mesmo em situaes que
no envolvam variveis medidas em nvel intervalar.
2.1
REVISO DE LITERATURA
VARIVEL QUALITATIVA, QUANTITATIVA E ESCALAS

Toda pesquisa envolve construes tericas que o pesquisador deseja
comprovar. Para isso faz-se necessria a definio de variveis, atravs das quais
pode-se aferir as questes de interesse. Assim, possvel entender que a varivel
uma primeira forma de operacionalizar a construo terica. E pode-se afirmar que a
varivel uma caracterstica que pode ser medida. Uma varivel pode se apresentar
das seguintes formas, quanto aos valores assumidos:
1.o Escala nominal: aquela que permite o agrupamento da unidade de
observao (unidade da pesquisa) de acordo com uma classificao
qualitativa em categorias definidas, ou seja, consiste simplesmente em
nomear ou rotular, no sendo possvel estabelecer graduao ou
ordenamento. Ao se trabalhar com essa escala, cada unidade de
observao deve ser classificada em uma e somente uma categoria,
isto , deve ser mutuamente excludente. Citando um exemplo bastante
comum, considerando que X seja a varivel produo diria de peas
de automveis de uma determinada indstria, possvel classificar as
peas em perfeitas e defeituosas. Neste caso, a varivel X assume as
categorias perfeita e defeituosa, sendo denominada dicotmica.
Quando assume mais de duas categorias denominada politmica.
2.o Escala ordinal: permite o agrupamento da unidade de observao de
acordo com uma ordem de classificao. A escala ordinal fornece
informaes sobre a ordenao das categorias, mas no indica a
grandeza das diferenas entre os valores. Considerando a produo
diria das mquinas de uma fbrica de peas de equipamentos
eletrnicos, possvel classific-las em: primeira em produo,
segunda em produo, terceira em produo, e assim por diante.
3.o Escala intervalar: ocorre quando as unidades de observao, alm de

estarem numa ordem de classificao, possibilitam quantificar as
diferenas entre elas. Quando o zero est includo como uma medida,
chamada escala de razo. Como exemplo, seja a varivel X o nmero
de peas de automveis defeituosas produzidas diariamente numa certa
indstria, essa varivel pode assumir valores: 0, 1, 2, 3, ..., 1.000.
Sempre que possvel, prefervel utilizar a medida de escala de razo,
pois a partir desta pode-se transformar em escala intervalar, ordinal ou nominal, no
ocorrendo o inverso.
De acordo com o nvel de mensurao, a varivel pode ser classificada em
qualitativa ou quantitativa. Varivel qualitativa aquela cujo nvel de mensurao
nominal ou ordinal, enquanto a quantitativa aquela em que o nvel de mensurao
intervalar ou de razo.
A varivel quantitativa pode ser discreta ou contnua, sendo a primeira
resultante de contagem, assumindo somente valores inteiros, e a ltima de
medies, assumindo qualquer valor no campo dos nmeros reais.
Outra diferena entre os dois tipos de variveis est na interpretao de
seus resultados. A varivel discreta assume exatamente o valor a ela atribudo. Por
exemplo, quando se diz que uma mquina produziu 100 peas durante o dia, isto
significa dizer que a mquina produziu exatamente 100 peas no dia.
J a interpretao de um valor de uma varivel contnua a de ser um
valor aproximado, por no existirem instrumentos de medida capazes de medir com
preciso absoluta, e mesmo porque pode no haver interesse em se determinar um
valor contnuo com tanta preciso, considerando todas as suas casas decimais.
Portanto, se a varivel de interesse for o dimetro externo de uma pea, e este for
de 10,76 mm, o valor exato pode ser um valor entre 10,775 mm e 10,777 mm.
2.2
VARIVEL ALEATRIA
Varivel aleatria aquela cujo valor numrico no conhecido antes da
sua observao. Esta tem uma distribuio de probabilidades associada, o que

permite calcular a probabilidade de ocorrncia de certos valores.
A funo p(x), que associa as probabilidades aos valores da varivel,
chamada de funo de probabilidade (f.p.), no caso da varivel aleatria discreta, e
de funo densidade de probabilidade (f.d.p.), para varivel aleatria contnua.
Existem distribuies tericas de probabilidades para variveis discretas e
contnuas, que sero descritas adiante.
2.3
PARMETROS
O parmetro uma medida que descreve de forma reduzida uma
caracterstica, representada pela varivel, da populao ou universo. O parmetro

normalmente desconhecido, e deseja-se estim-lo atravs de dados amostrais.
Populao ou universo composto pelos distintos elementos (unidades
populacionais) que apresentam pelo menos uma caracterstica em comum, aos
quais os resultados do estudo devero ser inferidos.
importante distinguir a populao-alvo da populao amostrada, que
aquela da qual selecionada a amostra para o estudo. A populao-alvo ou
populao-objetivo aquela da qual se desejam informaes, e que deve coincidir
com a amostrada, porm algumas vezes, por razes de operacionalidade ou
comodidade, a populao amostrada mais restrita que a populao-objetivo. Neste
caso, deve-se ter claro que os resultados fornecidos pela amostra so vlidos para a
populao amostrada (COCHRAN, 1965).
A esperana matemtica E(X) de uma varivel aleatria X, que a mdia
da distribuio, definida, em CHAVES NETO (2003), por:
E( X) =
x P (X = x )
i
i=1
(2.1)
para varivel aleatria discreta, e por

E( X) =
(2.2)
xf ( x )dx
para varivel aleatria contnua.

A varincia da varivel aleatria, representada por V( X) ou 2 , definida
por:
V( X) = 2 = E(X E( X)) = E( X 2 ) [E( X)] 2
2
(2.3)
onde:
E( X 2 ) = x i2 PX ( X = x i )
(2.4)
i=1
para varivel aleatria discreta, e

E( X 2 ) =
x 2 f ( x ) dx
(2.5)
para varivel aleatria contnua.

Segundo MOOD, GRAYBILL e BOES (1974), se X uma varivel aleatria, o
r-simo momento3 de X, representado por mr , definido como mr = E( X r ) , se a
esperana existe. Observe-se que se r = 1 , tem-se m1 = E( X) = x , a mdia aritmtica.
Se X uma varivel aleatria, o r-simo momento centrado em "a"
definido como E [( X a)r ] . Se a = x , o r-simo momento centrado em x ser
m r = E [( X x )r ] . Fazendo r = 2 , obtm-se a varincia de X, como se pode verificar:
m 2 = E [( X x ) 2 ]
(2.6)
Uma funo que representa todos os momentos chamada funo

geradora de momentos (f.g.m.). A f.g.m., representada por mx(t) ou m(t), dada por:
3O
mtodo de estimao de parmetros, denominado Mtodo dos Momentos, foi uma das
contribuies de Karl Pearson.
10
[ ] e
m( t ) = E e tx =
tx
p( x )
(2.7)
x =0
se a varivel aleatria discreta, e por
[ ]
m( t ) = E e tx =
e tx f ( x ) dx
(2.8)
se a varivel aleatria contnua.

Conforme apresentado em MOOD, GRAYBILL e BOES (1974), se a funo
geradora de momentos existe, ento m( t ) continuamente diferencivel em alguma
vizinhana da origem. Calculando-se a diferencial da funo geradora de momentos
r vezes em relao a t, e fazendo t=0, tem-se:
r m(t)
t
t=0
[ ]
= E X r = mr
(2.9)
Se r = 1, tem-se E( X) = m1 (0) , e para r = 2 , E( X 2 ) = m2 (0) .

Portanto, uma vez conhecida a f.g.m. da distribuio da varivel aleatria,
a derivada primeira da f.g.m. em relao a t, no ponto t=0, fornece a E( X) , ou seja, a
mdia da distribuio, e a derivada segunda a E( X 2 ) .
2.4
DISTRIBUIES DE PROBABILIDADES
2.4.1
Distribuio Discreta
Dentre as distribuies de probabilidades discreta cita-se a de Bernoulli,
importante para o desenvolvimento do estimador do Coeficiente de Correlao Ponto

Bisserial, a ser tratada na seo 3.2.3.
2.4.1.1
Distribuio de Bernoulli
Uma varivel aleatria X tem distribuio de Bernoulli, segundo CHAVES
NETO (2003), se assume somente um de dois valores, 1 ou 0. A probabilidade de
assumir o valor 1 e a de assumir 0 (1 ) , ou seja:
11
PX ( X = 1) =
e PX ( X = 0) = 1
(2.10)
A funo de probabilidade (f.p.) de X dada por:
PX ( X = x ) = x (1 )1 x , x = 0, 1
, 0 < <1
(2.11)
Resultado 2.1: Os parmetros da distribuio de Bernoulli so: E( X) = e

V( X) = (1 ) .
Prova:
A esperana matemtica de uma varivel aleatria discreta definida por:

E( X) =
x P (X = x )
i
i=1
logo, E( X) = 0 0 (1 )
] + 1 [ (1 ) ] =
0
(2.12)
A varincia de uma varivel aleatria definida por: V( X) = E( X 2 ) [E( X)]
onde: E(X 2 ) = X i2PX (X = X i )

i=1
logo, E( X 2 ) = 0 2 0 (1 )
] + 1 [ (1 ) ] =
2
portanto, V( X) = [] = (1 ) .
2
(2.13)
Uma das aplicaes da Distribuio de Bernoulli est na anlise de

discriminao de um item, onde a resposta ao item certo ou errado.
2.4.2
Distribuies Contnuas
Dentre as distribuies contnuas, uma das mais importantes a
distribuio normal ou distribuio de Gauss.
12
Adolph Quetelet, estatstico belga, foi o primeiro a aplicar a curva normal

de probabilidade em 18704. Quetelet demonstrou que medidas antropomtricas de
amostras aleatrias de pessoas formavam uma curva normal. Ele utilizou o termo
lhomme moyen (o homem mdio) para exprimir a descoberta de que a maioria dos
indivduos se concentra em torno da mdia (centro da distribuio), e medida que

se afasta encontra-se um nmero cada vez menor (SCHULTZ e SCHULTZ, 1992).
A distribuio de muitas estatsticas de testes normal (Gaussiana) ou segue
alguma forma que derivada da distribuio normal, tais como t, 2 (qui-quadrado) e F.
2.4.2.1 Distribuio normal univariada

Uma varivel aleatria X tem distribuio normal ou distribuio Gaussiana,
segundo CHAVES NETO (2003), quando a sua funo densidade de probabilidade
(f.d.p.) dada por:
1
f X ( X) =
1
2
( ) , < <
X
, >0, < x <
(2.14)
Resultado 2.2: Os parmetros da distribuio normal univariada so: E( X) =
V( X) = 2 .
Prova:
A esperana matemtica de uma varivel aleatria contnua definida por:

E( X) =
E( X) =
xf ( x )dx
Fazendo z =
4Esta
( ) dx
1 X 2
, tem-se que dz =
dx
informao foi obtida no site:

http://stat-www.berkeley.edu/users/nrabbee/stat2/lecture5.pdf
13
E( X) =
E( X) =
E( X) =
( z + )
1
2
( z + ) e
1 2
z
2
dz
1 2
z
2
dz
1 2
z
0 + e 2 dz
2
1
=
e
dz
=
144424443
=1
(2.15)
A varincia obtida atravs de: V( X) = E( X 2 ) [E( X)]2
onde: E( X 2 ) = x 2 f ( x )dx
logo, E( X ) = x
2
Fazendo z =
( ) dx
1 x 2
2
, tem-se que dz =
1
ento: E( X 2 ) = ( z + ) 2
E( X ) =
E( X ) =
1
2
1
2
Fazendo: ze
z e
2
Para calcular
1 2
z
2
v = e
z e
= dv
1
z
2
1 2
z
2
dz
+ 2
1 2
z
2
dz
( z + 2z + ) e
2
dx
1 2
z
2
dz
1 2
z
2
dz
1 2
z
2
dz
+
ze
e
2
2
14442444
3
144
42444
3
=0
=1
1 2
z
2
dz
, faz-se integrao por partes.
z=u
dz = du
14
Obtm-se:
1
2
1 2
z
1
2
2 z
z e 2
z e 2 dz = 2
1
2
1 2
z
2
e
dz
E( X 2 ) = 2 (0 + 1) + 2 = 2 + 2
V( X) = 2 + 2 2 = 2
(2.16)
Quando se tem mdia=0 e varincia=1, a distribuio chamada normal

padro e representada pela varivel aleatria contnua Z. Ento,
X
Z=
~ N (0,1)

f z ( z) =
1
2
z2
e 2
(2.17)
zR
(2.18)
A Distribuio Normal tem grandes aplicaes na inferncia estatstica,

como testes de hipteses e intervalos de confiana.
2.4.2.2 Distribuio 2 (qui-quadrado)

Uma varivel aleatria X tem distribuio 2 , segundo CHAVES NETO
(2003), se sua funo densidade de probabilidade (f.d.p.) dada por:
1 1 1
fx (x) = x 2 e 2 , x > 0 , > 0
( 2 ) 2
Resultado 2.3: Os parmetros da distribuio 2 so: E( X) = e V( X) = 2

Prova: Tem-se que:
(2.19)
15
E( X) =
xf ( x )dx =
1
E( X) =
2 2 (2 )
x
2 2 (2 )
1 x
2 dx
xx 2 e
1 x
x 2 e 2 dx
2 2 (2 )
x 2 e
A funo gama generalizada definida por:
x
2 dx
xm e
ax n
m +1
n
dx = m+1
na
(2.20)
Assim, tem-se que:
+ 1 1
2
1
1
=
E( X) =

+1

2 2 1 1 2 2 2
2
2
2

2 2
1 2

2
+1
E( X) =
1
2 2 .2 2
(2.21)
A varincia da varivel X obtida por: V( X) = E( X 2 ) [E( X)]2
onde: E( X ) = x f ( x )dx = x
2
E( X ) =
22
2 2
2
1 x
x 2 e 2 dx
x>0
+1 x
x 2 e 2 dx
0
442443
1
Gama generalizada
2
+ 1 + 1 1
1
1
2
2
2
E( X ) =
+1+1

2
2 2 1 1 2
2 2
2

2
Portanto, V( X) = 2 + 2 2 = 2

+ 1
2 2
1 2

2
+2
= 2 + 2
(2.22)
16
Dentre as aplicaes da Distribuio Qui-quadrado cita-se a construo de

intervalos de confiana para varincias e testes de hipteses.
2.4.2.3 Distribuio t de Student

Uma varivel aleatria X tem distribuio t com graus de liberdade se
sua funo densidade de probabilidade (f.d.p.) dada por:
( + 1)
fX (x) =
, x R , > 0
1
( +1)
2
(2.23)
x
1 +
2
2
Resultado 2.4: Os parmetros da distribuio t so: E(T ) = 0 e V(T ) =
, >2
Prova:
Z
A distribuio t dada por T =
Tem-se que f ( z ) =
1
2
1 2
z
2
onde Z ~ N(0,1) e U ~ 2v
U
V
, z R
(2.24)
1 1 1
fx (x) = x 2 e 2 , x > 0 , > 0
( 2 ) 2
Z
1
= V E
= V E [Z] E
U V
U
U
Ento E(T ) = E
mas, E 1 =
U
f (u) du =
1 2
E
=
2
2
1
2
( )
2
u
2
du =

2 , portanto E(T ) =
v
2
2
A varincia dada por: V (T ) = E (T 2 ) [E (T )]2
u 2 e 2 du
0
1442443
gama generalizada
2
1
V 0E
=0
U
(2.25)
17
2
Z
1
onde: E(T ) = E
= VE Z 2 E
U
U V
[ ]
[ ]=
EZ
1 2
z
2
dz
e,
z e
1 2
z
2
dz
1 2
z
2
dz
z e
0
1
44244
3
=1
gama generalizada
mas,
1
E =
U
1
f (u)du =
u
22
(
)
u
2
u
2 du
22
u
2 du
u e
0
44244
3
1
gama generalizada
2

2
ento, E =
, portanto E (T 2 ) = 1
e V(T) =
.
=
2 2
2
U 2
(2.26)
Dentre as utilizaes da Distribuio t, citam-se os testes de hipteses e

intervalos de confiana para amostras pequenas (n < 30) e testes de hipteses para
coeficiente de correlao amostral.
2.4.2.4 Distribuio F de Snedecor

A varivel aleatria X tem distribuio F de Snedecor com 1 e 2 graus de
liberdade se sua funo densidade de probabilidade (f.d.p.) dada por:
1

( 1 + 2 ) 1
2
2
fx (x) =

1 2
2 2
x2
1
1 + 2
1
x
1 +
2
x R , 1, 2 > 0
(2.27)
Resultado 2.5: Os parmetros da distribuio F de Snedecor so:

E( X) =
2 2
2 > 2
e V( X ) =
2 22 ( 1 + 2 2)
1 ( 2 2) 2 ( 2 4 )
2 > 4
Prova:
Seja
X=
U 1
~ F1, 2
V 2
U 1 2 U
E
=
V 2 1 V
ento E( X) = E
(2.28)
18
E( X) =
2
1
E [U].E
1
V
E(U) = 1
1
1
E =
2
V
2 2 2
2
1 22 2 V2
v
e dv
v
1
E =
V
1

2 2
2
1
2 2
2
v
2
dv
0 4
1
4244
3
gama generalizada
2
( 2 2 )
2
2
2
2
2 1 1
1
1
E =
=

2 2
2 2
V
2
2
Ento, tem-se que E(X ) =
2
2
1
=
1
1 2 2 2 2
V( X) = E( X 2 ) [E( X)]
U 2 2 U 2 2
1
1
= 2 E 2 = 2 E U 2 E 2
E( X 2 ) = E
V
V 1
V
2
[ ]
( )
E U 2 = u 2 f (u)du = u 2
0
( )
E U2 =
( )
E U2 =
1

1 2
2
1 1
2
e 2 du
1 + 1
u
1
2
2
u
e
du
1 21
0
2
142
4 43
4
2
Gama generalizada
1
1
1 2 2
2
+ 1 1 + 1
2
2
= ( + 2)
1
1
1
+2
2
1

2
(2.29)
19
1
E 2 =
V
1
E 2 =
V
1
2
2 2 2
2
1

2 2
2
1
v
2
2
v
2
2
2
dv =
v
2
dv
2 2
2
1

2 2
2
2
2
1

2
2
2
( 2 4)( 2 2)
E X2 =
22
1
1 ( 1 + 2)
2
( 2 4 )( 2 2)
1
V( X) =
22
2 22 ( 2 + 1 2 )
22
1
(
)
+
2
1
1
( 2 4 )( 2 2) ( 2 2)2 1 ( 2 4 )( 2 2)2
12
( )
(2.30)
Dentre as aplicaes da Distribuio F possvel citar a anlise de

varincia (ANOVA) e anlise de regresso.
2.4.2.5 Distribuio normal multivariada
A funo densidade de probabilidade da distribuio normal multivariada
uma generalizao da normal univariada para p 2 dimenses (JOHNSON e
WICHERN, 1988).
Relembrando a funo densidade de probabilidade da distribuio normal

univariada, apresentada na seo 2.4.2.1, que :
f X ( X) =
( ),
1 X 2
< < , > 0, < x <
esta notao poder ser estendida para o caso multivariado. O termo

2
X
= (X ) 2
( )
(X )
pode ser generalizado para o vetor X de dimenso p 1
de observaes de vrias variveis como X 1 (X ) . O vetor de dimenso

p 1 representa o valor esperado do vetor aleatrio X e a matriz de dimenso
p p sua matriz de varincia-covarincia. Assume-se que a matriz simtrica
definida positiva e, ento, a expresso X 1 X o quadrado da distncia
generalizada de X at .
) (
20
A funo densidade da distribuio normal multivariada obtida

substituindo a distncia univariada pela distncia generalizada multivariada. Quando
isto feito, a constante (2)1/ 2 ( 2 )
1 / 2
deve ser substituda para uma constante que
represente o volume sob a superfcie da funo densidade multivariada. Isto pode

ser feito, conforme descrito em JOHNSON e WICHERN (1988), quando esta
constante for (2)p / 2
1 / 2
, onde p a dimenso do vetor aleatrio X = [X1, X 2 ,..., Xp ] .
A funo densidade de probabilidade ser dada por:
f X ( X) =
(2)p / 2 1/ 2
1
X 1 X
, < X i < , i = 1, 2,..., p
(2.31)
R p , definida no negativa.
Representa-se esta funo densidade por Np (, ) , onde a matriz de
varincia-covarincia, ou seja, V( X) = E [( X ) ( X )] e E ( X) =
Os estimadores de mxima verossimilhana de e so apresentados a
seguir, conforme demonstrados em JOHNSON e WICHERN (1988, p.140):
= X
onde S =
1
=
n
1
n 1
(X
n
j=1
(n 1)S
X Xj X =
n
)(
(X X)(X X)
(2.32)
(2.33)
j =1
A distribuio normal bivariada um caso particular da multivariada para

p = 2.
Se as variveis aleatrias X e Y, normalmente distribudas, tm distribuio
normal bivariada, ento sua funo densidade de probabilidade (f.d.p.) dada por:
fX,Y ( X, Y ) =
1
2XY
X X 2
1
X X Y Y Y Y
+
exp
2
2
X Y Y
1 2
2(1 ) X
X R , Y R , X R , Y R , X R+ , Y R+ e 1 1
(2.34)
21
A funo geradora de momentos desta distribuio, conforme apresentada

em MOOD, GRAYBILL e BOES (1974), :
m ( t 1, t 2 ) = e
t1 X + t 2 Y +
1 2 2
t1 X + 2t1t 2 X Y + t 22 2Y
2
(2.35)
Tem-se, assim, os seguintes resultados:

Resultado 2.6: As mdias (parmetros) das variveis aleatrias X e Y, com
distribuio normal bivariada, so X e Y , respectivamente.

Prova:
Calculando-se a derivada primeira da funo geradora de momentos em

relao a t1, no ponto t1 e t2 iguais a zero, tem-se:
E ( X) =
m( t 1, t 2 )
t 1
E ( X) = e
t1 X + t 2 Y +
t1, t 2 = 0
1 2 2
t1 X + 2t1t 2 X Y + t 22 2Y
2
X + t 1 X + t 2 X Y
2
t 1, t 2 = 0
E ( X) = X
(2.36)
Da mesma forma, calculando-se a derivada primeira da funo geradora de

momentos em relao a t2, no ponto t1 e t2 iguais a zero, tem-se:
E (Y) =
m(t 1, t 2 )
t 2
E (Y) = e
t1 X + t 2 Y +
E (Y) = Y
t1, t 2 = 0
1 2 2
t1 X + 2t1t 2 X Y + t 22 2Y
2
Y + t 22Y + t1XY
t1, t 2 = 0
(2.37)
22
Resultado 2.7: As varincias (parmetros) das variveis aleatrias X e Y, com
distribuio normal bivariada, so 2X e 2Y , respectivamente.

Prova:
Calculando-se a derivada segunda da funo geradora de momentos em

relao t 1 , no ponto t 1 e t 2 iguais a zero, tem-se:
E (X2 ) =
2 m ( t 1, t 2 )
t 12
t1, t 2 = 0
E(X 2 ) = 2X + 2X
Tem-se que V(X) = E(X 2 ) [E(X)]2 , logo

V(X) = 2X
(2.38)
Da mesma forma, obtm-se:

E(Y 2 ) = 2Y + 2Y e V(Y) = 2Y
(2.39)
Resultado 2.8: O coeficiente de correlao (parmetro) entre as variveis aleatrias

X
e Y, com distribuio normal bivariada, igual a
= x, y =
, definida por:
COV( X, Y )
XY
Prova:
A covarincia de X e Y dada por:

E[(X X )(Y Y )] = E[XY X X Y Y + X Y ] = E[XY] X Y
(2.40)
Para se obter momentos conjunto, diferencia-se m( t 1, t 2 ) , r vezes em

relao a t 1 e s vezes em relao a t 2 e faz-se t 1 e t 2 iguais a zero.
Ento, tem-se que: E ( XY ) =
E(XY ) = X Y + X Y
2 m( t 1, t 2 )
t 1t 2
t 1, t 2 = 0
23
E(XY ) X Y = X Y
E [(X X )(Y Y )] = X Y
onde o coeficiente de correlao entre X e Y e pode-se escrever:
= x, y =
COV( X, Y )
(2.41)
XY
Resultado 2.9: O Coeficiente de Correlao populacional varia entre 1 e +1, ou
seja, 1 1.
Prova: A correlao entre duas variveis X e Y definida por:
= x, y =
COV ( X, Y )
XY
onde: X o desvio padro de X;
Y o desvio padro de Y;
COV( X, Y ) a covarincia entre X e Y.
A varincia de qualquer valor sempre positiva, por definio. Assim:

Y
X
+
V
0
X Y
(2.42)
Usando a propriedade da varincia, tem-se:

X
Y
X Y
V
,
+ V
+ 2COV
0
X
Y
X Y
1
2
X
V( X) +
1+ 1+
1+
XY
XY =
XY
COV( X, Y ) 0
COV( X, Y )
XY
V( Y ) +
2
Y
COV( X, Y )
XY
COV( X, Y ) 0
24
De forma anloga:
X
Y
0
V
X Y
X
V
X
1
2
X
V( X) +
1+ 1
1
Y
+ V
Y
1
XY
x,y =
X Y
2COV
,
X Y
V( Y )
2
Y
XY
COV( X, Y ) 0
COV( X, Y ) 0
COV( X, Y )
XY
(2.43)
COV( X, Y )
XY
Portanto:
1 x, y 1
2.5
(2.44)
ESTIMADORES DOS PARMETROS

No caso das distribuies de probabilidades tericas descritas na seo
anterior (2.4), os parmetros podero ser estimados atravs de estimador ou estatstica.

Estimador ou estatstica uma funo dos valores da amostra, ou seja, uma
varivel aleatria, pois depende dos elementos selecionados para compor a amostra.
Deve-se sempre levar em conta as qualidades de um estimador. Um bom
estimador deve possuir as seguintes propriedades:
1.o Ser no-viciado, ou seja, E(T ) =
onde T = estimador
= parmetro
2.o Ser eficiente (mnima varincia)

Tendo dois estimadores T1 e T2 , a serem utilizados para estimar o mesmo
parmetro , T1 ser dito mais eficiente que T2 se para um mesmo tamanho de
25
] [
amostra E (T1 )2 < E (T2 )2 , sendo T1 e T2 estimadores no-viciados de . Esta

condio indica que a varincia de T1 menor que a varincia de T2 .
3.o Ser consistente
Um estimador dito consistente se lim P( T ) = 0 , > 0 .

n
Se o estimador for no-viciado, a condio de consistncia equivale a dizer

que sua varincia tende a zero quando n tende a crescer infinitamente, ou seja,
lim V(T ) = 0 e lim E(T ) = , onde o parmetro.
n
Isto significa dizer que, medida que se aumenta o tamanho da amostra (n),
a diferena entre a estimativa e o parmetro diminui, chegando a coincidir quando
n = N (tamanho da populao).
4.o Ser suficiente
O estimador ou estatstica suficiente para estimar um parmetro
quando uma funo dos valores da amostra, e resume todas as informaes que a
mesma tem sobre o parmetro. Portanto, um estimador suficiente aquele que
depende somente dos dados amostrais.
Uma forma simples de obter-se estatsticas suficientes usar propriedades
das distribuies da famlia exponencial uniparamtrica ou k-paramtrica, conforme
definies apresentadas em CHAVES NETO (2002a).
Definio 1: Uma varivel aleatria em R possui distribuio da famlia exponencial
uniparamtrica se a sua funo de probabilidade (f.p.) ou funo densidade de

probabilidade (f.d.p.) da forma f ( x / ) = {exp[c()T( x ) + d() + S( x )] }I A ( x ) , onde ,
intervalo aberto de R e o conjunto A = {x / f ( x / ) > 0} independente de , com I
sendo a funo indicadora.
Definio 2: A famlia de distribuio {P ; } dita famlia exponencial com k
parmetros ou k-paramtrica se existem as funes de valor real c 1, c 2 ,..., c k e d() ,

e, ainda, T1, T2 ,..., Tk , funes de varivel real, e tambm S, definidas em R n , e um
conjunto A R n , tal que a f.d.p. (ou f.p.) P pode ser escrita na forma:
26
p( X, ) = exp c i ()Ti ( X ) + d() + S( X ) I A ( X )

i=1
Pelo Teorema da Fatorizao o vetor T( X) = [T1 ( X ),..., Tk ( X)] suficiente para

= (1, 2 ,..., k ) .
Teorema da Fatorizao ou de Neyman-Fisher: Seja uma amostra aleatria
[X1, X 2 ,..., Xn ]
de uma distribuio f ( x; ) , . A estatstica T( X) suficiente para
se e somente se existe funo g( t, ) , definida para todo t e para todo , e

h ( X)
definida em R n tal que: P ( X,) = g (T ( X ),) h ( X ) .

Cita-se, ainda, o Teorema da Famlia Exponencial para Estatsticas
Suficientes e Completas:
Seja
{P
/ }
uma
famlia
exponencial
p( X, ) = exp c i ()Ti ( X ) + d( ) + S( X ) I A ( X ) .
i=1
C = [C 1 (), C 2 (),..., C k ()]
Suponha
k-paramtrica
que
dada
por
variao
de
tenha um interior no-vazio. Ento T( X ) = [T1( X ),..., Tk ( X )]
uma estatstica suficiente e completa.
2.6
MTODOS DE ESTIMAO DOS PARMETROS

Diferentes mtodos foram desenvolvidos para a estimao dos parmetros.
Citam-se os mtodos de mxima verossimilhana e o dos momentos.
2.6.1
Mtodo de Mxima Verossimilhana

Tem-se que X a varivel aleatria, e o parmetro. A funo de
verossimilhana L a funo onde passa a ser a varivel e X uma informao

dada, de forma que L(, X ) = p(, X ) .
No mtodo da mxima verossimilhana, procura-se achar o valor u( x ) do
parmetro que maximiza L(, X ) para cada valor de X. Sendo possvel isso, u( x ) o
estimador de mxima verossimilhana de .
27
Sendo a funo logaritmo natural (ln) uma funo estritamente crescente, o

valor mximo de p(, X ) ir ocorrer no mesmo ponto do valor mximo de ln[L(, X )] .
()
Existindo o estimador de mxima verossimilhana , deve-se verificar:

ln[p(, X )]
= 0 em =
Deve-se citar um teorema importante para a obteno do estimador de

mxima verossimilhana, apresentado em CHAVES NETO (2002a):
Teorema da Famlia Exponencial para Estimador de Mxima Verossimilhana
i=1
Seja p( X, ) = exp c i ()Ti ( X) + d() + S( X) I A ( X) ,

denota o interior da variao de c(),
XA,
e seja C que
{c 1(), c 2 (), c 3 (),..., c k ()} .
Se as equaes:
E Ti ( X ) = Ti ( X ) para i = 1, 2, 3,..., k tm soluo = 1 ( X), 2 ( X ),..., k ( X ) para as quais
{c ( ( X)), c
1
} C ,
2 ( ( X )),..., c k ( ( X ))
ento
o nico estimador de mxima
verossimilhana de .
2.6.2
Mtodo dos Momentos

um mtodo para obter estimadores de parmetros, baseado na
combinao do momento amostral com a correspondente distribuio de momentos.

Seja mj = E(X j ) , que representa o j-simo momento de X no ponto 0.
Seja Mj o j-simo momento amostral dado por:
Mj =
1
n
j
i
, j = 1, 2, 3,..., k
i=1
Formando as equaes:
Mj = mj = f (1, 2 ,..., k ) , j = 1, 2, 3,..., k
Admitindo-se que tem soluo nica, j ( X1, X 2 ,..., X k ) , j = 1, 2, 3,..., k . Estes

k
estimadores, soluo do sistema de equaes, so os estimadores dos
parmetros pelo mtodo dos momentos.
28
2.7
2.7.1
TESTES PARAMTRICOS E NO-PARAMTRICOS

Testes Paramtricos
Quando possvel conhecer a distribuio de probabilidades terica da
varivel em estudo, pode-se estimar os parmetros e realizar testes de hipteses

para os mesmos de forma otimizada. Estes testes so conhecidos como testes
paramtricos.
Os testes paramtricos incluem o requisito de que a varivel em anlise
tenha distribuio de probabilidade conhecida. Tambm supem que a varivel tenha
sido medida no mnimo em nvel intervalar, e para alguns casos h a necessidade de
as variveis envolvidas terem as varincias homogneas (homocedasticidade).
2.7.2
Testes No-Paramtricos
Um teste no-paramtrico quando no h suposies formuladas sobre a
natureza ou a forma das distribuies populacionais. Estes testes so chamados

tambm de testes livres de distribuio. Dentre os testes no-paramtricos citam-se
os de aderncia.
2.7.2.1 Testes de aderncia

A hiptese a ser testada refere-se forma da distribuio da populao.
Admite-se, por hiptese, que a distribuio da varivel em estudo siga o
comportamento de uma distribuio terica de probabilidade, na populao.
Dentre os testes de aderncia mais comuns cita-se o Qui-quadrado e de
Kolmogorov-Smirnov.
No mtodo de Kolmogorov-Smirnov a estatstica do teste a maior
diferena observada entre a funo de distribuio acumulada da distribuio terica
e a da varivel em estudo.
29
O teste consiste na verificao do valor
d = max F( x ) G( x )
e da
comparao com um valor crtico tabelado em funo do nvel de significncia ( ) e

o tamanho da amostra (n). O teste unilateral, rejeitando-se a hiptese H0 de que a
varivel em estudo segue a distribuio de probabilidade ajustada na populao, se
d for maior que o valor crtico.
No mtodo qui-quadrado calcula-se a estatstica atravs da expresso:

2 =
(foi f ei )2
i=1
f ei
(2.45)
onde: 2 o qui-quadrado calculado;

foi a freqncia observada de uma determinada classe ou valor da varivel;
fei a freqncia esperada, segundo modelo testado, dessa classe ou valor
da varivel;
n=
i=1
foi =
ei
o nmero de observaes da amostra;
i=1
k o nmero de classes ou valores distintos observados na amostra.
O teste tambm unilateral e rejeita-se H0 quando o valor de 2 calculado

for superior ao valor crtico.
30
3.1
MEDIDAS DE CORRELAO
INTRODUO
Em estudos que envolvem duas ou mais variveis, comum o interesse
em conhecer o relacionamento entre elas, alm das estatsticas descritivas

normalmente calculadas.
A medida que mostra o grau de relacionamento entre duas variveis, como
se viu no Captulo 2, chamada de coeficiente de correlao. tambm conhecida
como medida de associao, de interdependncia, de intercorrelao ou de relao
entre as variveis.
Diferentes formas de correlao podem existir entre as variveis. O caso
mais simples e mais conhecido a correlao simples, envolvendo duas variveis, X
e Y. A relao entre duas variveis ser linear quando o valor de uma pode ser
obtido aproximadamente por meio da equao da reta. Assim, possvel ajustar
uma reta da forma Y = + X aos dados. Neste caso, a correlao linear simples.
Entretanto, quando no for possvel o ajuste da equao anterior, no
significa que no existe correlao entre elas. Poder haver correlao no-linear
entre as mesmas.
Uma forma simples de verificar o tipo de correlao existente entre duas
variveis atravs do grfico chamado diagrama de disperso. Trata-se de um
grfico onde so representados os pares ( X i , Yi ) , i = 1, 2,..., n , onde n = nmero total
de observaes. Os grficos 1, 2, 3 e 4 representam o diagrama de disperso entre
as variveis X e Y.
O mtodo que permite estudar as relaes ou associaes conhecido
como Anlise de Correlao. Esta anlise mostra o grau de relacionamento entre as
variveis,
fornecendo
um
nmero,
indicando
como
as
variveis
variam
conjuntamente. No h a necessidade de definir as relaes de causa e efeito, ou

seja, qual a varivel dependente e a independente. Os diagramas de disperso a
seguir mostram os tipos de correlaes entre duas variveis.
31
GRFICO 1 - CORRELAO LINEAR POSITIVA PERFEITA ENTRE
AS VARIVEIS X E Y
Y
1200
1000
800
600
400
200
0
-200
-100
-200 0
100
200
300
X
-400
FONTE: A autora
GRFICO 2 - CORRELAO LINEAR NULA ENTRE AS VARIVEIS

X EY
Y
250
200
150
100
50
0
-40
-20
-50 0
20
40
60
-100
80
X
-150
FONTE: A autora
GRFICO 3 - CORRELAO LINEAR NEGATIVA PERFEITA ENTRE

AS VARIVEIS X E Y
Y
200
100
0
-400
-200
-100
-200
-300
-400
-500
FONTE: A autora
200
400
600
800
X
32
GRFICO 4 - CORRELAO NO-LINEAR ENTRE AS VARIVEIS X E Y
18
16
14
12
10
8
6
4
2
0
-20
-10
10
20
30
40
50
X
FONTE: A autora
Quando a anlise envolve grande nmero de variveis e h interesse em

conhecer a correlao duas a duas, comum a construo de uma matriz de
correlaes. Esta uma matriz formada pelas correlaes entre as variveis X i e
X j , i j , fora da diagonal e 1 na diagonal, indicando a correlao das variveis Xi e
X j , sendo i = j .
Pode ocorrer, ainda, situao onde se tem dois conjuntos de variveis, um

composto por uma varivel (Y) e o outro com p variveis (X1, X2, ..., Xp), e se deseja
analisar a correlao entre a varivel Y e a varivel X i , i = 1, 2,..., p . Neste caso a
correlao chamada de mltipla e calculada por R =
SQRegr
SQ Total
, detalhada na seo
3.3.2. Evidentemente, o relacionamento entre Y e X1, X2, ..., Xp pode ser expresso
pelo hiperplano Y = 0 + 1 X1 + 2 X 2 + ... + p X p , admitindo relao linear entre Y e X1,
X2, ..., Xp.
Ainda, se o interesse analisar a correlao entre dois conjuntos de

variveis, Xi , i = 1, 2,..., p e Yj , j = 1, 2,..., q sendo p q , possvel utilizar a tcnica de
Anlise Multivariada, conhecida como Anlise de Correlao Cannica.
possvel, resumidamente, reunir os mtodos de Anlise de Correlao,
os quais foram tratados neste trabalho em: Anlise de Correlao Simples Linear e
No-linear, Anlise de Correlao Linear Mltipla e Anlise de Correlao Cannica.
33
Antes de aplicar qualquer mtodo estatstico paramtrico necessrio

verificar
se
as
suposies
(tais
como
Gaussianidade,
homocedasticidade,
independncia) do modelo esto sendo razoavelmente satisfeitas, atravs de uma

anlise exploratria dos dados. Para SIQUEIRA (1983), a falha de uma das
suposies altera o nvel de significncia do teste estatstico. O pesquisador pode
pensar estar testando, por exemplo, a um nvel de significncia de 5%, e na
realidade estar testando a um nvel maior. Alm disso, possvel causar perda de
preciso das estimativas obtidas.
3.2
MEDIDAS DE CORRELAO ENTRE DUAS VARIVEIS

Para McNEMAR (1969), as situaes mais freqentes, na prtica, para as
quais as medidas de correlao simples so necessrias, podem ser agrupadas

como se segue:
a) ocorrem medida contnua para uma varivel e duas categorias para a
outra varivel;
b) ambas as variveis so dicotomizadas;
c) ocorrem trs ou mais categorias para uma varivel e duas ou mais para
a segunda;
d) ocorrem trs ou mais categorias para uma varivel e uma medida
contnua para outra;
e) quando os dados so postos (ranks);
f) as duas variveis so contnuas.
Segundo DOWNIE e HEATH (1959), existem situaes em que o
relacionamento entre as duas variveis no linear, ou uma delas no contnua,
ou o nmero de pares das medidas muito pequeno. Ento, para cada uma dessas
situaes h necessidade de uma medida adequada de associao entre as
variveis.
34
3.2.1
Coeficiente de Correlao Linear de Pearson e a Distribuio Normal

Bivariada
O mtodo usualmente conhecido para medir a correlao entre duas
variveis o Coeficiente de Correlao Linear de Pearson, tambm conhecido como

Coeficiente de Correlao do Momento Produto. Este foi o primeiro mtodo de
correlao, estudado por Francis Galton e seu aluno Karl Pearson, em 18975
(SCHULTZ e SCHULTZ, 1992).
Este coeficiente de correlao utilizado na Anlise de Componentes
Principais, Anlise Fatorial, Anlise de Confiabilidade, entre outras, que sero
apresentadas neste trabalho.
O coeficiente de correlao populacional (parmetro) e sua estimativa
amostral esto intimamente relacionados com a distribuio normal bivariada,
definida na seo 2.4.2.5.
Considerando a populao normal bivariada, onde X uma varivel
normalmente distribuda, com mdia x e desvio padro x , e Y varivel tambm
normalmente distribuda com mdia y
e desvio padro y , a expresso
matemtica da distribuio (funo densidade de probabilidade) dada pela

expresso abaixo, conforme j apresentada na seo 2.4.2.5 do Captulo 2.
fX,Y ( X, Y ) =
1
2XY 1 2
exp
2
2(1 )
X Y Y
X Y
Y
2
(3.1)
onde a variao dos parmetros :
R , R , R + , R + e 1 +1
X
Essa funo contm os parmetros obtidos no Captulo 2: X , Y , 2X ,
2Y e , onde o coeficiente de correlao para a populao normal bivariada, e

varia entre 1 e +1. O coeficiente de correlao definido como:
5Esta
informao foi obtida no site: www.ime.br/~abe/cronologiajaneiro02.doc
35
X,Y = =
COV ( X, Y )
XY
X,Y
XY
(3.2)
A covarincia uma medida que expressa a variao conjunta de duas

variveis, cuja expresso dada por:
COV ( X, Y ) = E [(X X )(Y Y )]
(3.3)
Ela depende da escala das medidas, o que impossibilita a idia de como

as duas variveis esto relacionadas. Quando se padroniza as variveis tem-se o
coeficiente de correlao, conforme expresso (3.2) acima, ou seja,
COV( X, Y )
XY
E [(X X )(Y Y )]
XY
X X Y Y
= E
= COV (Z X , Z Y )
X Y
(3.4)
e, claro, a noo de associao entre as varveis percebida mais facilmente.

3.2.1.1
Estimadores de mxima verossimilhana
Os estimadores de mxima verossimilhana dos parmetros X , Y , 2X ,
e so obtidos pelo resultado a seguir.

2
Resultado 3.1: Sejam n pares de observaes
[(x 1, y 1 ), (x 2 , y 2 ),..., (x n , y n )]
do vetor
aleatrio [X, Y ] que se distribui conforme a distribuio normal bivariada, ou seja,
[X, Y ] ~ (, ) , com
2
f X,Y ( X, Y ) =
2
= [ X , Y ] e = X
Y X
1
2 X Y
X Y
e f.d.p. igual a
2Y
X X 2
1
X X Y Y Y Y
exp
+

2
X Y Y
2(1 ) X
1 2
Ento, os estimadores de mxima verossimilhana dos parmetros so:
X = X , Y = Y , 2X =
1
n
(X
n
i =1
2Y =
X ,
1
n
(Y Y )
n
i=1
36
(X
)(
X Yi Y
i =1
(X X) (Y Y )
n
i =1
i =1
Prova: A f.d.p. na forma da funo distribuio de probabilidade conjunta dada
por:
n
n X 2
n X X Y Y
X
i
2 i
exp 1 i
2

2
(
1
)
i
1
i
1
=
=
x
X
Y
1
fX, Y ( X, Y ) =
2 1 2
X Y
n Yi Y
i =1
Y
Passando para a forma da famlia exponencial:
fX, Y ( X, Y ) = exp n ln 2 X Y 1 2
2
(
1
2 )
n

i =1

n
X
2
X
i =1
1
f X, Y ( X, Y ) = exp n ln 2 X Y 1 2
2(1 2 ) 2X
1
2(1 2 ) 2Y
i =1
(1 ) X Y
Xi
i =1
(1 2 ) 2Y
i =1
X
2
(1 ) X Y
2
i
i =1
n 2Y
2(1 2 ) 2Y
i =1
Y
i
Y
n
+
Y
i =1
(1 2 ) 2X
i =1
Y
i
n 2X
2(1 2 ) 2X
(1 2 ) X Y
X Y
i i
i =1
(1 ) X Y
n X Y
2
Pelo teorema da famlia exponencial k-paramtrica (definio 2 da seo

2.5) para estatsticas suficientes, tem-se que:
c 1 ( ) =
c 2 ( ) =
c 3 ( ) =
c 4 ( ) =
c 5 ( ) =
X
(1 2 ) 2X
Y
(1 2 ) 2Y
1
2(1 2 ) 2X
1
2(1 2 ) 2Y
(1 2 ) X Y
Y
(1 2 ) X Y
X
(1 2 ) X Y
T1 ( X ) =
i=1
T2 ( Y ) =
i=1
T3 ( X ) =
2
i
i=1
T4 ( Y ) =
i=1
T5 ( X, Y ) =
X Y
i i
i=1
37
Aplicando o Teorema da Famlia Exponencial para Estimador de Mxima

Verossimilhana (seo 2.6.1) para a obteno dos estimadores:
E[Ti ( X )] = Ti ( X)
Estimador de Mxima Verossimilhana (EMV) para X

n
T1 ( X) =
i=1
E[T1 ( X)] =
i=1
n X =
i=1
X =
i=1
=X
(3.5)
Estimador de Mxima Verossimilhana (EMV) para Y

T2 ( Y ) =
i=1
E[T2 ( Y )] =
i=1
n Y =
i=1
Y =
i=1
=Y
Estimador de Mxima Verossimilhana (EMV) para 2X

T3 ( X) =
2
i
i=1
E[T3 ( X)] =
X
i =1
2
i
(3.6)
38
[V( X ) + E
n
] X
n
(Xi ) =
i=1
2
i
i=1
n 2X + n 2X =
2
i
i=1
2X = X i2 n 2X = (X i X )
n
n
1
i=1
i=1
(3.7)
Estimador de Mxima Verossimilhana (EMV) para 2Y
T4 ( Y ) =
i=1
E[T4 ( Y )] =
i=1
[V( Y ) + E
n
] Y
( Yi ) =
i =1
i =1
n 2Y + n 2Y =
2
i
i =1
2Y = Yi2 n 2Y = (Yi Y )
n
n
1
i=1
i=1
Estimador de Mxima Verossimilhana (EMV) para

T5 ( X, Y ) =
X Y
i i
i=1
E[T5 ( X, Y )] = T5 ( X, Y )
n
E X i Yi =
i=1
X Y
i i
i=1
i=1
i=1
[E( X i )E( Yi ) + cov( X i , Yi )] = X i Yi

n
i=1
i =1
[E( X i )E( Yi ) + X Y ] = X i Yi
n X Y + n X Y =
X Y
i
i=1
(3.8)
39
n
X,Y =
i=1
X Y
n
(X
n
X,Y =
i=1
Xi
i=1
X
n
(X
n
nXY
X i Yi
i=1
)(
Yi
)(
Yi
)
(3.9)
X Y
n
Yi
i=1
(X
n
Y
n
)(
Yi
i=1
(X
n
i =1
) (
n
Yi
(3.10)
i=1
Ento, pelo Teorema da Famlia Exponencial para Estimador de Mxima

Verossimilhana, o nico estimador de mxima verossimilhana de .
Fazendo x i = X i X e y i = Yi Y a expresso acima poder ser escrita da
seguinte forma:
n
X,Y =
x y
i
x y
i =1
i =1
x i2
n
i =1
x y
i
i =1
X Y
n
y i2
n
i =1

i =1
x i2
(3.11)
y i2
i =1
Este coeficiente de correlao tambm chamado de "coeficiente de

correlao do momento produto", porque calculado multiplicando-se os escores Z
de duas variveis (produto de duas variveis) e ento calcula-se a mdia (momento)
do produto de um grupo de n observaes (CHEN e POPOVICH, 2002).
n
X,Y =
Z
i=1
x i Z Yi
(3.12)
onde:
Z Xi =
Xi X
e Z Yi =
Yi Y
3.2.1.2 Suposies bsicas para a utilizao do Coeficiente de Correlao Linear

de Pearson
A suposio bsica para a utilizao deste coeficiente de que o
relacionamento entre as duas variveis seja linear, ou seja, adequado para medir o
relacionamento linear.
40
A segunda hiptese de que as variveis envolvidas sejam aleatrias e

que sejam medidas no mnimo em escala intervalar.
Uma terceira hiptese de que as duas variveis tenham uma distribuio
normal bivariada conjunta, o que equivale a dizer que para cada X dado, a varivel Y
normalmente distribuda. Esta hiptese necessria para fazer inferncias
estatsticas (teste de hiptese e intervalo de confiana), sendo dispensvel quando
se tratar de estudos amostrais.
Esta ltima hiptese imprescindvel para amostras pequenas, segundo
BUNCHAFT e KELLNER (1999), e diminui a importncia medida que aumenta o
tamanho da amostra, o que justificado pelo Teorema Central do Limite para

distribuies multivariadas apresentado em JOHNSON e WICHERN (1988, p.145).
Segundo SNEDECOR e COCHRAN (1980), na prtica muitas vezes a
distribuio bivariada de interesse est longe de ser normal. Assim, possvel fazer
uma transformao de variveis de forma que se aproxime da distribuio normal
bivariada conjunta. Assim, torna-se possvel estimar na nova escala. Um dos objetivos
das transformaes, segundo SIQUEIRA (1983), a correo da no-normalidade e
tambm a homogeneizao da varincia das variveis envolvidas na anlise.
As transformaes so lineares quando envolvem apenas uma mudana
de origem e/ou de escala, podendo-se citar, como exemplo, a padronizao de uma
varivel ( Z ) . Este tipo de transformao no afeta as caractersticas essenciais de
uma anlise estatstica (SIQUEIRA, 1983). A transformao linear no afeta a
heterogeneidade das varincias, e se a varivel Y no normal, uma transformao
linear de Y no ser normal. Entretanto, as transformaes mais importantes so as
no-lineares, em que um certo incremento na escala original normalmente no
corresponde ao mesmo incremento na nova escala, que o fator responsvel pelo
efeito da correo dos desvios das suposies.
Uma caracterstica importante na transformao que esta mantenha a
relao de ordem, ou seja, que a ordenao das observaes seja preservada. Uma
41
transformao g( Y ) chamada monotnica estritamente crescente se para y > y

implica necessariamente que g( y ) > g( y ).
As transformaes no-lineares usuais so: logartmica (qualquer base,
embora as mais utilizadas sejam a base 10 e a natural), raiz quadrada, recproca
1
z = e angular arc sen y .
y
3.2.1.3 Interpretao do Coeficiente de Correlao Linear de Pearson

Na prtica, o coeficiente ( ) interpretado como um indicador que
+ X , onde
descreve a interdependncia entre as variveis X e Y, com a forma Y =
e so constantes.
A interpretao do coeficiente quando
= 1 de que existe correlao
linear perfeita entre as variveis X e Y. A correlao linear perfeita positiva quando
= 1 e linear perfeita negativa quando = 1. Quando se tem = 0 , no existe

correlao linear entre as variveis X e Y.
Entretanto, na prtica ocorrem diferentes valores de ( ) . A interpretao
do valor de depende muito dos objetivos de sua utilizao e as razes pelas quais
este calculado. Segundo CALLEGARI-JACQUES (2003, p. 90), o coeficiente de
correlao pode ser avaliado qualitativamente da seguinte forma:
se 0,00 < < 0,30 , existe fraca correlao linear;
se 0,30 < 0,60 , existe moderada correlao linear;
se 0,60 < 0,90 , existe forte correlao linear;
se 0,90 < 1,00 , existe correlao linear muito forte.
Resultado 3.2: A relao existente entre o coeficiente da correlao estimado ( ) e
o coeficiente angular estimado ( ) pode ser expressa conforme apresentada a
seguir:
S
Y,X = Y,X X
SY
(3.13)
42
onde: x i = X i X
n
Sx =
e y i = Yi Y
n
x i2
i=1
e SY =
n 1
2
i
i=1
n 1
Prova:
Resolvendo as equaes normais6 da reta pelo mtodo dos mnimos

quadrados,
tem-se que Y,X =
n
n
X i Yi
i =1 i =1
n
X i Yi
n
i =1
Xi
i =1
n
X i2
n
i =1
x y
i
i =1
n
(3.14)
x i2
i =1
A expresso (3.11) poder ser escrita como Y,X =

n
se os denominadores (n 1) , com S x =
x i2
i=1
n 1
e SY =
x y
i
i=1
(n - 1) S x S Y
, utilizando-
2
i
i=1
n 1
Esta expresso poder ser escrita como se segue:

n
X Y nXY
i
Y,X =
i =1
(3.15)
(n - 1) S X S Y
6Equaes
normais da reta:
Yi = n 0 + 1
i =1
n
i =1
i =1
X i Yi = 0
i =1
X i + 1
X
i =1
2
i
43
A expresso (3.13) poder ser escrita da seguinte forma:

n
X,Y =
X Y nXY
i
i =1
X i2
nX
(3.16)
i =1
Substituindo a expresso (3.15) em (3.16) e dividindo por (n - 1), tem-se:
(n - 1) S X S Y Y,X S X S Y
Y,X S Y
Y,X = Y,Xn
=
=
2
(X X)
SX
S XS Y
i =1
S
Portanto: Y,X = Y,X X
SY
O coeficiente de correlao de X e Y o mesmo que Y e X. O valor absoluto

do coeficiente no afetado por qualquer transformao linear de X ou Y. Para
ANDERBERG (1973), o coeficiente de correlao
invariante frente s
transformaes lineares e quase-invariante em relao s transformaes

monotnicas.
Outra forma de interpretar o Coeficiente de Correlao em termos de 2 ,
denominado Coeficiente de Determinao ou de Explicao. Quando multiplicado
por 100, o 2 = R 2 fornece a percentagem da variao em Y (varivel dependente),
que pode ser explicada pela variao em X (varivel independente), ou seja, o
quanto de variao comum s duas variveis.
Resultado 3.3: A variao total da varivel resposta Y definida como
(Y Y )
n
i=1
pode ser decomposta em variao no-explicada mais a variao explicada pelo

modelo Y = f(X) + , e pode ser escrita sob a forma:
(Y Y ) = (Y Y ) + (Y Y )
n
i=1
i=1
i=1
(3.17)
44
Prova:
Fazendo:
Y = Yi Y + Yi Yi
Yi
e elevando ambos os membros ao quadrado, tem-se:
(Y Y ) = [(Y Y )+ (Y Y )]
2
Desenvolvendo o binmio e fazendo o somatrio, obtm-se:
(Y Y ) = (Y Y )
n
i=1
(Y Y )(Y Y ) + (Y Y )
n
+2
i=1
i=1
i=1
Tem-se que mostrar que 2
(Y Y )(Y Y )= 0
i
i=1
(Yi Yi ) = i
Sabe-se que
Ento
(Y Y )
n
=2
i=1
Mas
(Y ) 2 Y
i
i=1
= 0
i=1
i=1
i i
=2
i=1
i i
= 2 0
i=1
i i
= 2 1
i=1
i i
= 2 1
i=1
i=1
+ 2 X
i
i=1
X (Y
n
1 X i
i =1
+ 1 X i
i=1
i=1
X = 0 ,
i
pois
i=1
X i (Yi 0 1 X i ) =
[X Y X X ]= X Y X X
n
i=1
i=1
i=1
i=1
2
i
= 0
Pois a 2. equao normal do sistema de equaes do mtodo dos

mnimos quadrados (ver nota de rodap referente ao resultado 3.2).
Logo:
(Y Y ) = (Y Y ) + (Y Y )
n
i=1
i =1
i=1
45
Os desvios
(Y Y ) tm um padro definido, enquanto (Y Y ) comportam-se

i
de forma imprevisvel ou casual. O coeficiente entre a variao explicada (VE) pelo

modelo e a variao total (VT) chamado de coeficiente de determinao ( 2 ) , como
apresentado a seguir:
2X,Y =
R 2 =
(
n
Yi
i=1
(Y Y )
n
VE
VT
SQ
Regr
SQ
(3.18)
Total
i=1
Este coeficiente indica a proporo da variao total de Y explicada pelo

ajuste do modelo.
(Y Y )
n
O valor de R = X,Y =
i =1
(Y Y )
n
o coeficiente de correo mltipla,
i =1
quando se tem o modelo Y = f ( x ) + = f (X1, X 2 ,...,X p ) + .
3.2.1.4 Fatores que afetam o Coeficiente de Correlao Linear de Pearson

Dentre os fatores que afetam a intensidade do coeficiente de correlao ,
bem como a preciso ao estimar a correlao populacional , podem ser citados o
tamanho da amostra, principalmente quando pequena, os outliers (valores
discrepantes), a restrio da amplitude de uma das variveis ou de ambas e erros de
medidas.
Os outliers afetam o coeficiente de correlao, principalmente quando a
amostra pequena. Quando a amostra grande, eles tm menor efeito sobre o
coeficiente de correlao. Estes podem ser detectados na anlise exploratria de
dados, atravs de teste e grficos prprios.
A restrio da amplitude de uma das variveis ou de ambas pode ocorrer
quando o pesquisador seleciona amostra homognea para o estudo. Este fator
conhecido como restrio da variabilidade. Quando a amostra homognea, o
46
valor do coeficiente de correlao tende a diminuir, pois um dos fatores que

influenciam na intensidade da correlao a variabilidade da amostra. Quanto maior
a variabilidade das variveis envolvidas na anlise, maior a correlao entre elas.
McNEMAR (1969), SILVEIRA e PINENT (2001) e CHEN e POPOVICH (2002)
expem o coeficiente de correlao sem a restrio da variabilidade, isto , o

coeficiente de correlao para o grupo total, com base no coeficiente de correlao
do grupo restrito. Um exemplo de aplicao pode ser encontrado na seo
3.2.1.10.1.3.
Resultado 3.4: O estimador do coeficiente de correlao sem a restrio da
X,Y
variabilidade expresso por: (X,Y )T =
S XT
SX
X,Y + X,Y
1
2
ou (X,Y )T =
X,Y S X
XT
(3.19)
S
S
S X 1 X,Y 1
2
X T

(3.20)
S
S
onde:
(X,Y )T o coeficiente de correlao entre as variveis X e Y estimado para o grupo
total;
X,Y
o coeficiente de correlao entre as variveis X e Y do grupo restrito;
SX
o desvio padro da varivel X do grupo restrito;
S XT
o desvio padro da varivel X do grupo total.
Prova:
Deve-se considerar duas suposies bsicas, que so a linearidade da

regresso de Y em X e a homocedasticidade da distribuio normal bivariada. Com
base na suposio de linearidade possvel igualar a declividade da linha de
regresso do grupo restrito declividade da linha de regresso do grupo total,
considerando as duas regresses paralelas.
47
S
S
Sabe-se, do resultado 3.2, que = X , portanto = Y e se as duas
SY
SX
regresses so paralelas possvel a seguinte igualdade:

X,Y
S YT
SY
= ( X,Y )T
SX
S XT
(3.21)
A suposio de homocedasticidade implica a igualdade dos erros padro

da estimativa (S) das duas regresses. O erro padro da estimativa, que ser
discutido no resultado 3.9, pode ser obtido atravs de:
S = S Y 1 2
Igualando-se os erros padro, tem-se:

S Y 1 2X,Y = S YT 1 2(X,Y )T
(3.22)
onde:
(X,Y )T o coeficiente de correlao entre as variveis X e Y estimado para o grupo
total;
X,Y
o coeficiente de correlao entre as variveis X e Y do grupo restrito;
SX
o desvio padro da varivel X do grupo restrito;
S XT
o desvio padro da varivel X do grupo total;
SY
o desvio padro da varivel Y do grupo restrito;
SYT
o desvio padro da varivel Y do grupo total.

De (3.21) tem-se:
YT
X,Y S Y S X
(X, Y ) S X
(3.23)
De (3.22) segue-se que:

S 2Y (1 2X,Y ) = S 2YT (1 2(X,Y )T )
(3.24)
48
Substituindo o valor de S YT (3.23) em (3.24) tem-se:

2
S S
X,Y Y X T
S 2Y (1 2X,Y ) =
( X,Y ) S X
T
(1 2( X,Y ) )
T
Dividindo ambos os membros por S 2Y tem-se:

(1 2X,Y ) =
(1
2
X,Y
2
X,Y
)=
(2X,Y )T =
2X,Y S 2XT
(1 2(X,Y )T )
(2X,Y )T S 2X
2X,Y S 2XT
2( X,Y )T S 2X
2X,Y S 2XT
2
SX
2X,Y S 2XT 2(X,Y )T

2(X,Y )T S 2X
2X,Y S 2XT
2(X,Y )T S 2X
2X,Y S 2XT
2
S X X,Y S X + X,Y S XT
Dividindo por S 2X obtm-se:

2X,Y
2( X,Y )T =
S2XT
S2X
1 X,Y + X,Y
Portanto: (X,Y )T =
S2XT
S2X
X,Y
2
S XT
SX
2
1 X,Y + XY
S2XT
S2X
Os erros de medidas, devido a uma medio incorreta das variveis, por

diversas razes, tambm tm efeito sobre a correlao. BROWNLEE (1960)
apresenta os efeitos de erros de medidas no coeficiente de correlao.
49
Resultado 3.5: O coeficiente de correlao entre as variveis observadas X e
Y ( X,Y ), com erros de medidas, menor do que o coeficiente de correlao entre

as variveis verdadeiras X e Y ( X ,Y ).
Prova:
Representando-se por X e Y as verdadeiras variveis e por X e Y as

variveis observadas, com erros de medidas, tem-se:
X = X + u
Y = Y + v
onde u e v so os erros de medidas, normalmente distribudas com mdia zero e

varincia u2 e 2v . Assumindo que os erros so independentes entre si e de X e Y,
tem-se: Cov[u, v ] = Cov[X, u] = Cov[Y, v ] = Cov[X, v ] = Cov [Y, u] = 0
Supondo, por convenincia, que
tm mdia zero, ento
E[X] = E[Y ] = 0 e
V [X ] = V [X] + V[u]
V [Y ] = V [Y ] + V [v ]
Cov[X , Y ] = E[X Y ] E[X ] E[Y ] = E[XY] + E[uv ] + E[Xv ] + E[Yu]
Cov[X , Y ] = E[XY] E[X] E[Y ] = Cov[X, Y ]
A correlao entre as variveis observadas X e Y ser:
X,Y =
X,Y =
Y,X =
Cov [X , Y ]
V[X ] V [Y ]
Cov[X, Y ]
(V[X] + V[u])(V[Y ] + V[v ])
X,Y
V [u]
V[v ]
1 +
1 +
V [X]
V [Y ]
Y,X
V [u]
V[v ]
1 +
1 +
V [X]
V [Y ]
ou
(3.25)
(3.26)
50
evidente que o coeficiente de regresso Y,X tambm afetado, pois

existe relao entre e , como apresentado a seguir:
S
V [Y ]
Y,X = Y,X Y = Y,X
SX
(3.27)
V[X]
Substituindo (3.26) em (3.27) tem-se:

V[Y ]
Y, X
Y,X = Y,X
=
V [X ]
Y,X =
V [Y ]
V [X ]
V[u]
V[v ]
1 +
1 +
V [X]
V [Y ]
YX
V [u]
1 +
V [X]
(3.28)
Se X medido com erro, ento o coeficiente de regresso das variveis

observadas um estimador viesado do coeficiente de regresso das verdadeiras
variveis X e Y . No entanto, se X medido sem erro, ento Y,X = Y,X .
A presena de erro em Y no causa vis no coeficiente de regresso,
como se pode observar na expresso (3.28).
3.2.1.5 Distribuio Amostral do Coeficiente de Correlao Linear de Pearson

Como qualquer outra estatstica, esperado que difira do seu parmetro .
A distribuio de no simtrica; esta depende do tamanho de e do tamanho da
amostra (GUILFORD, 1950).
Fisher7, em 1915, citado por ANDERSON (1958, p. 69), foi quem
desenvolveu a distribuio de . Hotelling8, em 1953, citado por ANDERSON (1958,
p. 69), fez um estudo exaustivo e recomendou a forma apresentada a seguir.
7FISHER,
R. A. Frequency distribution of the values of the correlation coefficient in samples

from an indefinitely large population. Biometrika, v. 10, p. 507-521, 1915.
51
Resultado 3.6: O coeficiente de correlao , estimado a partir da amostra de
tamanho n, proveniente de distribuio normal bivariada com 0, distribudo

com funo densidade de probabilidade dada por:
) =
f (
(n 2) (n 1)(1
n 1
) 2 (1
n
1
2 n (1 ) 2
2
n 4
) 2
1 (
+ 1) 9
+ 1) 2
(
1 +
+
+ ...
4 2n 1 16 2(2n 1)(2n + 1)
(3.29)
Prova:
A funo densidade de probabilidade da distribuio normal bivariada,

conforme apresentada na seo 2.4.2.5, :
f X,Y ( X, Y ) =
1
2 X Y
X
1
exp
2
2
1
2(1 ) X
X X
2
X
Y Y
Y Y
+
Y
onde: X R , Y R , 2X R + , 2Y R + e 1 +1
Fazendo: t =
e u=
ento, tem-se que:
f ( t, u) =
1
exp
t 2 2tu + u 2
2
2
2 1
2(1 )
f ( t, u) =
1
(u t )2 + 1 2 t 2
exp
2
2(1 )
2 1
) ]
(u t )2
1 2 t 2
f ( t, u) =
exp
2(1 2 )
2(1 2 )
2 1 2
1
8HOTELLING,
Harold. New light on the correlation coefficient and its transforms. J. Roy.
Stat. Soc. , B, v. 15, p. 193-225, 1953.
52
u t
Fazendo v =
, para v = u tem-se = 0
(1 2 )
v
t
v2 t2
1
1 2 2
e ento f ( t, u) =
=
e e
exp
2
2 2
2
Assim, t e v so variveis normais padro e portanto
2
i
~ n2 .
i=1
Fazendo uma transformao ortogonal de v i para um novo conjunto de

variveis 1, 2 ,..., N , onde se escolhe
1
1 =
u i t i
vi =
i =1
(1 )
2
i=1
(1
)
i=1
u i t i
=
n
n
(1 2 )
(u t )
Ento, tem-se
2
u t
n
n 2
1
i
i2 = v i2 = i
u
2
ui t i + 2
=
i
2
2
(1 ) i=1
i=1
i=1
i=1 (1 )
i=1
i2 =
i=1
n
2
i
i=1
)(
n
n
2
u
u
2
ui u t i t + 2
i
2
(1 ) i=1
i=1
1
(1 2 )
[S
2
2
i=1
2
i
i=1
2
2
+ nu 2nut + 2 nt
S 2 S1 + 2 S12 + 12
2
S12 =
onde
(t
n
(t t )
n
S 22 =
i=1
(u
n
i=1
portanto,
n
i= 2
2
i
1
(1
[S
)
2
2
S 2 S1 + 2 S12 com distribuio n21

2
Escolhe-se agora 2 =
1
S1
(t
n
t v i , que ortogonal a 1 .
i=1
Substituindo o valor de v i em 2 tem-se:
(3.30)
53
1
S1
2 =
u t
1
i
i
=
2
2
(1 ) S1 (1 )
(t t )
n
i=1
(t
n
2 =
S 1 (1 2 )
)[(
i =1
S2
S 1S 2
1 =
S 1
(1 2 ) S 1
1
(1 2 )
t (u i t i )
)(
n t t u u
n
ti t
i
i
2
S1
S1
i =1
(1 ) i=1
)]
) (
i=1
t ui u t i t =
2 =
(t
n
[ S
S 1
Tem-se, ento, que:
22 =
1
1 2
[ S
2
S1S 2 + 2 S12
2
2
2
De (3.30) e (3.31) tem-se que:
(3.31)
2
i
i= 3
2
i
i=3
1
(1
[
)
S 22
S 2 S1 +
2
Alm disso, S12 = t i t
S12
2
i
22
i= 2
] [
S 2 S1
(1 2 )
2
S 22 1
(1 )
2
~ n22
~ n21
i=1
Tem-se trs variveis independentes:
1
b=
2
c=
f (a ) =
1
2
1
2
a2
2
(1 2 )
=
2
i
(t
n
S 1
2
S2 1
2
2 (1 2 )
i =3
i=1
[ S
a = 2 =
S12
2
~ N(0,1)
2
~ n
2
(3.32)
2
~ n
1
f.d.p da distribuio normal padro apresentada na seo 2.4.2.1.
54
1
1
f (b) =

n 2 2
n2
2
n 4
2
b
2
f.d.p da distribuio Qui-quadrado ( 2 ) apresentada
na seo 2.4.2.2.
1
f (c ) =

n 1 2
2
1
n 1
2
n 3
2
c
2
f.d.p da distribuio Qui-quadrado ( 2 ) apresentada
na seo 2.4.2.2.
a, b e c so independentes, portanto:
f (a, b, c ) = f (a)f (b)f (c ) =
f (a, b, c ) =
n3
2
n 2 n 1
2
2 2
S 22 (1
2 )
=
2
2 (1 )
S2
= 1
2
f (a, b, c ) =
f (a, b, c ) =
a2
Mas tem-se que:
n 4
2
n 3
2
n4
2
n 3
2
n2
2
n4
2
b e
b
2
1

n 1 2
2
1
n 4
2
S1n3
n 3
2 2
2)
S n2 4 (1
n 4
2 2 (1
S n2 4 S1n3 e
2 (1 2 )
n3
c 2e
n 4
2
n4
) 2
, portanto
n 2 n 1
2
2 2
n 4
2
n 1
2
a2
+b + c
2
a2
1
S1S 2
+b+c =
S12 + S 22 2
2
2
2(1 )
2)
(1
1

n 2 2
2
1
n 4
2
7
2
S n2 4 (1
n 4
2 2 (1
2 )
n 4
2
n 4
2
) 2
2
2
S1 + S 2 2
2(1 2 )
S1n3
n 3
2 2
S1S 2
n 2 n 1
2 2
2
2
S1 + S 2 2
2(1 2 )
S1S 2
c
2
55
Trocando-se as variveis a, b, c por , S1, S 2 . De (3.32), o Jacobiano de

transformao :
S2
a, b, c
2 3 / 2
= (1 )
J =
S 22
,
S
S
1,
2
0
S1
(1 2 )S 2 = (1 2 ) 3 / 2 S 1S 22
0
ento,
, S 1, S 2 ) =
f (
)
(1
n4
S 1S 22 S n2 4 S1n 3
n4
3
2
2 2
2
2 (1 )
(1 ) 2
1
2 (1 2 )
7
2
2
S 1
S 1 S 2
+ S 22 2
n 2 n 1
2 2
A funo densidade de obtida integrando em relao a S1 e S 2 no

intervalo de zero a .
) =
f (
(1
n 4
) 2
1
2
2
S1S 2
S1 + S 2 2
n2 n2
2(1 2 )
S 2 S1
n 1
7
n
n 2 n 1
2 2
) 2 2
2 (1
dS 1dS 2
2 2
Devido dificuldade para calcular a integral, FISHER9, citado por KENNY e

KEEPING (1951, p. 219), utilizou a seguinte transformao:
S 1 = 1/ 2 e / 2
S 2 = 1 / 2 e / 2
1 1/ 2
2
J=
1
e / 2 1/ 2
2
e / 2
9FISHER,
1/ 2 e / 2
1
2
1/ 2 e / 2
R. A. Frequency distribution of the values of the correlation coefficient in samples

from an indefinitely large population. Biometrika, v. 10, p. 507-521, 1915.
56
O Jacobiano de transformao igual a -1/2, portanto:
f (S 1, S 2 / , ) =
(1
n4
) 2
1/ 2
/ 2 n 2
1/ 2
/ 2
n2
2 2 (1 2 )
2)
(1
f (S1, S 2 / , ) =
n 4
2
2 2 (1
n2
2(1 2 )
n 1
7
n
2 2 2
2(1 2 )
7
n 1
n
2 2
) 2 2
1 / 2 e / 2
1 / 2 e / 2 1 / 2 e / 2
+ 1 / 2 e / 2 2
n 2 n 1
2 2
( e + e 2
n 2 n 1
2 2
1 z
e + e z = cosh( z ) , e pela Frmula de Duplicao de
2
2
1
n
n
Legendre 2 n3

= (n 2) , ento
2 2
Tem-se que
f (S1, S 2 / , ) =
(1
n4
) 2
n2
2(1 2 )
) =
f (
) =
f (
) =
f (
(1
(1
n 4
) 2
n 4
2
(n 2)
n 4
) 2
n 1
2 2
)
n 4
) 2
n2
(n 2)(1
d d
(n 2 )
)
(cosh
n2
(12 )
(n 1)(1 2 )n1
(cosh )
(n 2 )
n 1
2 2
)
n 1
(n 2)
n 4
) 2 (1
(n 2)
(12 )
n 1
2 2
)
(n 1)(1 2 ) n1
n 1
2
)
(cosh
2(1
n 1
2 2
)
2(1
) =
f (
(1
2(1
2(1
) =
f (
2)
(1
)
(cosh
(12 )
n 1
) 2
d d
(cosh )
n 1
(cosh )
0
n 1
(3.33)
57
A integral pode ser expressa como uma funo hipergeomtrica,

apresentada em KENNEY e KEEPING (1951, p. 219):
(cosh )
n 1
1 1 2n 1
+ 1
(n 1)
) (n3 / 2 ) F ; ;
(1
;
1
2 2
2
2
(n )
2
1/ 2
(3.34)
A funo hipergeomtrica tem a seguinte soluo:

F(a; b; c; z ) = 1 +
ab
a(a + 1)b(b + 1) 2
z+
z + ...
1! c
2! c(c + 1)
(3.35)
e f ( ) pode ser escrita na forma de srie convergente, como segue:
) =
f (
(n 2)(n 1)(1 )
2
n 1
2
)
(1
2
n
1
) 2
2 n (1
2
n4
2
+ 1)
+ 1) 2
(
1 (
9
1 +
+
+ ...
4 2n 1
16 2(2n 1)(2n + 1)
Para valores altos e positivos de , a distribuio assimtrica negativa, e

no caso de serem altos e negativos, a distribuio assimtrica positiva, como
mostram os grficos a seguir.
Para um mesmo valor de , quanto menor o tamanho da amostra maior a
assimetria da distribuio. medida que aumenta o tamanho da amostra, tende para
uma distribuio simtrica.
Os grficos 5 e 6 apresentam a distribuio amostral de para amostra
de tamanho n = 29 e = 0,80 e = 0,80 , respectivamente. A escolha do tamanho
da amostra foi arbitrria. Os clculos para a obteno dos valores de f ( )
encontram-se no Apndice 1.
58
(I) n = 29 e = 0,80
GRFICO 5 - DISTRIBUIO AMOSTRAL DO COEFICIENTE DE CORRELAO DE PEARSON
PARA = 0,80
7,0
6,0
Freqncia
5,0
4,0
3,0
2,0
1,0
0,0
0,40
0,45
0,50
0,55
0,60
0,65
0,70
0,75
0,80
0,85
0,90
0,95
1,00
Coeficiente de correlao
FONTE: A autora
(II) n = 29 e = 0,80
PARA = 0,80
7,0
6,0
Freqncia
5,0
4,0
3,0
2,0
1,0
0,0
-1,00 -0,96 -0,93 -0,89 -0,85 -0,81 -0,78 -0,74 -0,70 -0,66 -0,63 -0,59 -0,55 -0,51 -0,48 -0,44 -0,40
FONTE: A autora
59
Resultado 3.7: O coeficiente de correlao , estimado a partir da amostra de
tamanho n, proveniente de distribuio normal bivariada com = 0 , distribudo

com funo densidade de probabilidade dada por:
1
2)
(n 1)(1
2
) =
f (
1
(n 2 )
2
n 4
2
(3.36)
Prova:
Tem-se, da expresso (3.33), que:
) =
f (
2)
(n 2)(1
n 4
2 (1
2 )
n 1
2
(cosh )
0
=
2
n 1
(n 2)(1
n4
) 2
(n 1) 1 1 2n 1 1
F ; ;
; =
1 2 2
2
2 2
(n )
2
1/ 2
ento,
(cosh )
0
logo, f ( ) =
n 1
=
2
(n 2)(1
1/ 2
n 4
) 2
(n 1)
1
(n )
2
(n 1)
1
(n )
2
2 ) (n 4 ) / 2 2 ( 3 / 2) n
(n 2)(1
2
1
(n ) 2 ( 3 / 2 ) n
2
2
n

2
(n 1) 2 ( 3 / 2)n
n

2
(n 1)
n

2
(cosh )
1
(n ) 2 ( 3 / 2 ) n
1 1 2n 1 1
2
F ; ;
; =
2
2
2
2 2
n
Pois,
) =
f (
1/ 2
n 1
Mas se = 0 , tem-se que: f ( ) =
(cosh )
n 1
1
(n )2 ( 3 / 2 ) n
2
2
n

2
60
Pela frmula de duplicao de Legendre tem-se que:

n
n 1
(n 1) = 2 n2
2 2
Assim,
) =
f (
) =
f (
)
(n 2)(1
2
(n 4 ) / 2
3 / 2 n
2 ) (n 4 ) / 2 2 1
(n 2)(1
1 / 2
n2
n n 1

2 2
n

2
n 1
n 1
2 (n 4 ) / 2
(
n
2
)(
1
)
2
2
=
(n 2) n 2
n
2
2
2
2
2 ) (n 4 ) / 2
(n 1)(1
2
) =
f (
1
(n 2 )
2
Segundo BRYANT (1960), quando = 0 a distribuio simtrica, embora

no exatamente Gaussiana. O grfico 7 mostra a distribuio amostral de para
amostra de tamanho n = 29. Manteve-se o mesmo tamanho de amostra dos grficos
5 e 6, para possibilitar a comparao entre os mesmos. Os clculos de f( )
PARA = 0
2,5
Freqncia
2,0
1,5
1,0
0,5
0,0
-1,0 -0,9 -0,8 -0,7 -0,6 -0,5 -0,4 -0,3 -0,2 -0,1 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
FONTE: A autora
61
Resultado 3.8: Se = 0 , a distribuio amostral de ser simtrica com

1
2 =
) = 0 ,
E(
n 1
e =
(3.37)
n 1
Prova:
A curva de freqncias de Pearson tipo II, citado por ELDERTON (1953, p. 51a),
apresentada a seguir, simtrica tendo a mdia como origem, que coincide com a
moda e portanto E( y ) = 0 .
y 2
f ( y ) = y 0 1
a
A funo densidade de uma curva de freqncias de Pearson do tipo II,

como se pode observar na comparao de ambas. Como j apresentada no
resultado 3.7, a f.d.p. de quando = 0 :
1
2 ) (n 4 ) / 2
(n 1)(1
2
) =
f (
1
(n 2 )
2
(n 1)
2
y
2
Fazendo y 0 =
, 2 =
1
a
(n 2)
2
e m = (n 4) / 2 , as duas funes
so equivalentes. Portanto, a f.d.p. de simtrica com E( ) = 0 .

O estimador da varincia obtido atravs de V( ) = E( 2 ) [E( )]
E( 2 ) =
-1
f( )d , apresentados na seo 2.3.
1
Fazendo 2 = x , ento = x 1/2 e d = x 1/2 dx e tem-se 1 1 ento
2
0 x 1.
62
1
(n 1)(1 x) (n 4 )/2
2
1 1/2
Portanto: E( 2 ) = 2E(X) = 2 1 x
x dx
2
0
1
(n 2 )
2
(n 1)
1
(n 4 ) / 2
2
2 ) = 2E( X) =
x 1/ 2 (1 x )
dx
E(
0
1
1
4
4
4
4
2
4
4
4
4
3
(n 2 )
2
Funo Beta
A funo beta definida por:

B(a, b) =
a 1
(1 x)
b 1
dx =
Tem-se que a =
(a)(b)
(a + b)
, a > 0, b > 0
(3.38)
3
n2
e b=
, portanto:
2
2
(n 1)
2
2 ) = 2E( X) = 2
E(
1
(n 2 )
2
3 n2

2 2
3 n 2
+
2
2
1
1 1
(n 1)
(n 1)
(n 2 )
2
2
2
2
2
=
= 1
2 ) = 2E( X) =
E(
(n 1)
1
n + 1
n 1 1
(n 2 )
(n 1)
2
2 2
2 = E( 2 ) [E( )] =
e
2
1
1
0 =
n 1
n 1
1
n 1
3.2.1.6 Teste de hiptese para = 0

A forma simtrica da distribuio quando = 0 torna possvel testar a
hiptese H 0 : = 0 contra a hiptese H1 : 0 , atravs da distribuio t de Student.
63
Resultado 3.9: A estatstica para testar a hiptese H0 : = 0 contra H1 : 0 , tem
distribuio t com n - 2 graus de liberdade, ou seja:

t=
n 2
~ t n2
2
1
(3.39)
Prova:
Testar a hiptese H0 : = 0 equivale a testar a hiptese de que H 0 : = 0 ,

devido relao entre os dois coeficientes, como j apresentado no resultado 3.2.
n
S
= X
SY
SX
onde S X =
2
i
i=1
n 1
Xi
= Xi X
2
i
i =1
SY =
S
= Y
e portanto
e y i = Yi Y
n 1
Das equaes normais da reta pelo mtodo dos mnimos quadrados

n
obtm-se (expresso 3.14): =
xy
i=1
n
x
i=1
onde x i = X i X e y i = Yi Y
2
i
A expresso acima pode ser reescrita como:
x (Y Y )
xy
i=1
n
x
i=1
i=1
2
i
i=1
Sabe-se que
2
i
i=1
x i Yi Y
2
i
xi
n
i=1
wi =
i=1
x
i=1
n
=0
x i2
i=1
w
i=1
2
i
2
i
i=1
n 2
xi
i=1
1
n
x
i=1
2
i
(3.40)
= 0 e fazendo w i =
i=1
i=1
i=1
x i2
, tem-se:
64
n
w i Xi =
i=1
(
n
) w x
w i xi + X =
i=1
+X
i=1
wi =
i=1
x x
i
w ixi =
i=1
i=1
n
=1
x i2
i =1
A expresso (3.40) poder ser reescrita da seguinte forma:

n
i =1
i =1
= w i Yi = w i ( + X i + i ) , pois tem-se do modelo de regresso

linear simples que Y = + X +
n
i =1
i =1
i =1
i =1
e, portanto, = w i + w i X i + w i i = + w i i
A esperana e a varincia de sero:
E( ) = E( +
w i i ) = E() +
i =1
w E( )
i
(3.41)
i =1
Porm, tem-se no modelo de regresso linear simples as seguintes

suposies sobre os erros:
E( i ) = 0
(3.42)
V( i ) = 2
(3.43)
Assim, substituindo (3.42) em (3.41) tem-se:

E( ) = E() =
n
i =1
i=1
i=1
e V( ) = V( + w i i ) = V() + w i2 V( i ) = w i2 V( i )
Substituindo (3.43) e o valor de
w
i=1
2
i
1
n
i =1
V( ) =
2
n
i =1
x i2
, portanto
x i2
em (3.44) tem-se:
(3.44)
65
2
~ N ,
n
2
xi
i=1
[Y ( + X )]
n
1
Mas S 2 =
n2
y i2 2
i=1
x
i =1
n2
i=1
2
i
o estimador no-
viesado de 2 (WONNACOTT e WONNACOTT, 1978, p. 50),

n
S
e 2 = 2 Y
S
X
=
2
2
i
i =1
n
ento
x i2
i =1
2 x i2
i=n
S2 =
Tem-se que U =
2 x i2
i=1
n2
(n 2)S 2
2
=
1
2
i=1

n2
n
2
i
t=
~ n22 (NETER, et. al.,1996, p. 75) e
Z
U
n2
~ t n2
(JAMES, 1981, p. 85)
Ento, U =
(n 2)S 2
Fazendo Z =
2
n
x
i =1
2
i
(n 2)
2 1
2 x i 2 1
i=1
n2
~ N(0,1) , ento
n
1
2 x i2 2 1
i=1
~ 2
n 2
66
t=
Z
U
n2
( ) n 2
2 1
2 2 x i 2 1
i=1
2
i
( ) n 2
1
2 2 1
i =1
t=
( ) n 2
t=
2
1
2
n 2
2
1
( ) n 2
, mas se = 0 ento
~ t n2
3.2.1.7 Transformao Z de Fisher

Devido s divergncias entre a distribuio amostral de e a distribuio
normal e as limitaes para interpretao, Ronald A. Fisher desenvolveu uma
estatstica em que qualquer valor de pode ser transformado. Esta estatstica
chamada de Z, que no a distribuio normal padronizada (GUILFORD, 1950).
Z=
1 1 +
ln
= tanh 1

2 1
(3.45)
onde ln o logaritmo natural.

A mdia e a varincia da distribuio amostral de Z apresentada a seguir
e se encontra em KENNEY e KEEPING (1951, p. 222):
E( Z) =
1 1+
ln
+
2 1 2n 1
(3.46)
V( Z ) =
4 2
1
+
n 1 2 (n 1) 2
(3.47)
Fazendo k =
forma a seguir:
4 2
, a varincia (expresso 3.47) pode ser escrita na
2
67
1
k
1+
n 1 n 1
V1 =
(3.48)
A expresso (3.48) se aproxima de V2 =
1
quando k = 2 e medida
n 1 k
que o tamanho da amostra (n) aumenta, como se pode observar no quadro 1:

QUADRO 1 - VALORES DE V1 E V2 SEGUNDO TAMANHO DA AMOSTRA
TAMANHO DA AMOSTRA
(n)
V1 =
1
n 1
20
30
50
100
200
1 + n 1
0,05817
0,03686
0,02124
0,01031
0,00508
V2 =
1
n 1 2
0,05882
0,03704
0,02128
0,01031
0,00508
FONTE: A autora
Para valores de n moderado, verificando-se a igualdade das expresses

apresentada no quadro, possvel utilizar os estimadores para varincia e erro
padro apresentados a seguir:
2Z =
1
n3
Z =
1
n3
(3.49)
Em 1938, DAVID10, citado por ANDERSON (1958, p. 75), fez algumas

comparaes entre as probabilidades tabeladas e calculadas, assumindo Z como
sendo distribuio Gaussiana. Segundo a autora, para n > 25 possvel tratar Z
como normalmente distribuda com mdia E( Z) =
2Z =
1 1+
ln
e varincia
+
2 1 2n 1
1
.
n3
A funo densidade de probabilidade da distribuio normal ou Gaussiana

j foi apresentada na seo 2.4.2.1.
10DAVID,
F. N. Tables of the ordinates and Probability Integral of the Distribution of the

Correlation Coefficient in Small Samples. Biometrika, 1938.
68
Para n > 25 , como discutido anteriormente, a distribuio de Z ter a

seguinte f.d.p.: f (Z) =
1
Z 2
1 Z E(Z)

2
Z
Os grficos 8 e 9 mostram a distribuio amostral de Z para as situaes

apresentadas nos grficos 5 (n = 29 e = 0,80) e 7 (n = 29 e = 0) , mostrando as
distribuies amostrais de . Os clculos para a obteno dos f(Z) encontram-se no
Apndice 2.
(I) Para n = 29 e = 0,80
GRFICO 8 - DISTRIBUIO AMOSTRAL DE Z PARA = 0,80
2,5
Freqncia
2,0
1,5
1,0
0,5
0,0
0,00
0,20
0,40
0,60
0,80
1,00
1,20
1,40
1,60
1,80
2,00
Z
FONTE: A autora
(II) Para n = 29 e = 0
GRFICO 9 - DISTRIBUIO AMOSTRAL DE Z PARA = 0
Freqncia
2,5
2,0
1,5
1,0
0,5
0,0
-1,00
-0,80
-0,60 -0,40
-0,20
0,00
0,20
0,40
0,60
0,80
Z
FONTE: A autora
1,00
69
3.2.1.8 Teste de hiptese para 0

A transformao abordada anteriormente til, tambm, quando se deseja
testar a hiptese H0 : = 0 contra H1 : 0 .
Neste caso, pode-se usar o teste Z, calculado atravs de Z =
Z Z
, que
aproximadamente normal (BRYANT, 1960); os valores de Z e Z podem ser

obtidos atravs das expresses a seguir:
Z =
1 1 +
ln
2 1
Z =
1 1 +
ln
2 1
(3.50)
onde o parmetro populacional que se est testando e a estimativa

amostral.
Ainda, a significncia da diferena de coeficientes de correlao de duas
amostras pode ser testada por:
H 0 : 1 2 = 0
H1 : 1 2 0
A estatstica do teste definida por:
Z=
Z1 Z 2
+
2
Z1
2
Z2
Z1 =
onde
1
n1 3
e Z2 =
1
n2 3
(3.51)
Os valores de Z1 e Z 2 podem ser obtidos substituindo-se os valores de 1

e 2 na expresses a seguir:
Z1 =
1 1 + 1
ln
2 1 1
Z2 =
1 1 + 2
ln
2 1 2
3.2.1.9 Intervalo de confiana para

Os limites de confiana, de nvel 1 para o parmetro , apresentados
em BRYANT (1960), podem ser obtidos atravs de:
70
Z < Z < Z + Z 2 Z ] = 1
P [ Z Z 2
(3.52)
onde Z o valor de Z correspondente ao valor do coeficiente de correlao

amostral, e Z 2 o valor da rea sob a distribuio normal padro para um nvel de
significncia de 2 .
A partir dos limites de confiana obtidos para Z , obtm-se os limites para ,
fazendo:
Z
Z 1 = Z Z 2
Z
Z 2 = Z + Z 2
Ento, o intervalo de confiana para ser obtido a partir da expresso
1 < < 2 = 1 , onde 1 e 2 sero obtidos a partir de:

P
1 =
3.2.1.10
2 Z 1
2 Z 1
1
+1
2 =
2 Z 2
2 Z 2
+1
(3.53)
Confiabilidade
3.2.1.10.1
Confiabilidade de instrumentos de medida
A Anlise de Correlao bastante til em instrumentos de avaliao,

particularmente os de educao (testes), quando se est estudando a confiabilidade
do instrumento.
Entende-se por confiabilidade em educao a consistncia dos escores
obtidos pelos examinandos (alunos) em determinado teste.
Um instrumento confivel quando um aluno obtm grau X no teste, hoje,
e dias aps obtm um grau muito prximo daquele. Esta consistncia expressa a
confiabilidade do teste. Para medir a confiabilidade utiliza-se a Anlise de
Correlao.
Resultado 3.10:
O coeficiente de confiabilidade estimado pelo coeficiente de correlao.
71
Prova:
Considerando que cada medida possa ser avaliada em dois momentos

distintos, tem-se, ento, duas observaes para cada elemento ou indivduo.
Supondo que ambas so referentes a uma mesma caracterstica e ambas sujeitas a
erro, ento possvel escrever, conforme apresentado em FERGUSON (1981):
X1i = X i + e1i
(3.54)
X 2i = X i + e 2i
(3.55)
onde: X1i a primeira medida obtida para indivduo i;

X 2i a segunda medida obtida para indivduo i;
Xi a medida verdadeira do indivduo i;
e1i o erro da primeira medida do indivduo i;
e 2i o erro da segunda medida do indivduo i.
Assim, possvel escrever os modelos:
(X1i ) = (X i ) + e1i
(X 2 i ) = (X i ) + e 2 i
e fazendo o produto das duas equaes tem-se:
(X1i )(X 2i ) = {[(X i ) + e1i ] [(X i ) + e 2i ]}

(X1i )(X 2i ) = [(X i )2 + (X i ) e 2i + e1i (X i ) + e1i e 2i ]
e fazendo o somatrio e dividindo por N1 2 , obtm-se:
(X1i )(X 2i ) [(X i )2 + (X i ) e 2i + e1i (X i ) + e1i e 2i ]

N
i=1
N1 2
(X
i=1
1i
N1 2
)(X 2i )
N1 2
i=1
(X
i=1
) +
2
(X
i=1
) e 2i +
e (X
1i
i=1
N1 2
) +
e
i=1
1i
e 2i
72
E, ainda, supondo que os erros sejam aleatrios e no correlacionados

com a verdadeira medida, os trs ltimos termos da expresso acima so iguais a
zero e 1 = 2 = . Assim, obtm-se:
N
i=1
i=1
(X1i )(X 2i ) (X i )2
N1 2
1 X2
N1 2
2
i
2
i 2
2
, logo
i2
2
(3.56)
onde: X1 X2 o coeficiente de confiabilidade;

i2 a varincia verdadeira;
2 a varincia observada.
Como se pode observar, X1X2 o coeficiente de correlao entre as duas

medidas, que representa o coeficiente de confiabilidade. Quando as medidas
referem-se s amostras, o coeficiente de confiabilidade ser obtido a partir de:
1 X2
S i2
S2
(3.57)
onde: X1 X2 o coeficiente de confiabilidade amostral;

S i2 a varincia amostral verdadeira;
S 2 a varincia amostral observada.
possvel ainda considerar um teste constitudo por n itens, aplicado a

uma amostra de N indivduos. Seja P1, P2 ,..., Pn o nmero total de escores obtidos em
cada um dos itens, pelos N indivduos. A proporo mdia de acertos do item i
pi =
Pi
, e a varincia S i2 = p i (1 p i ) = p i qi .
N
Representando-se por X1 , X 2 ,..., X N o total de acertos (escores) de N

indivduos, tem-se:
73
N
X=
j =1
, a mdia de escores do teste
(X
N
j=1
S 2X =
, a varincia de escores do teste
N 1
Em testes constitudos por diferentes itens, cada item est correlacionado

com os outros itens. Assim, possvel obter a varincia total S 2X atravs de
S 2X =
2
i
+2
i=1
n 1
S S
ij
onde ij o Coeficiente de Correlao Phi, que
, mas S i2 = p i (1 p i ) = p i qi
i=1 j=i+1
ser apresentado na seo 3.2.7

S 2X
2
i
n 1
S S
=2
i=1
ij
i=1 j =i+1
n 1
e S 2X p i qi = 2 ij S i S j
i =1
i=1 j=i+1
Segundo GUILFORD (1950), a verdadeira varincia est na covarincia

(expresso direita da igualdade da equao acima). Assim, a verdadeira varincia
poder ser definida como se segue:
S 2V = S 2X
p q
i
i=1
dividindo-se a expresso acima por S 2X
XX =
S 2V
S 2X
S 2X
=
p q
i =1
S 2X
, que o mtodo de consistncia interna, descrito
no item d, a seguir.
A partir dos modelos apresentados foram desenvolvidos diferentes

mtodos para estimar a confiabilidade:
74
a) Mtodo do Teste-Reteste
Neste mtodo, o mesmo instrumento de medida aplicado em duas
ocasies distintas para a mesma amostra. Calcula-se, ento, o
Coeficiente de Correlao Linear de Pearson para o conjunto de medidas.
O tempo decorrido entre a aplicao dos testes importante, pois quanto
maior o tempo transcorrido entre os dois testes menor a correlao. O
teste freqentemente utilizado para calcular a confiabilidade de testes
escritos, sendo conhecido como coeficiente de estabilidade.
b) Mtodo da Forma Paralela
tambm conhecido como forma equivalente. Neste mtodo,
administra-se um teste da forma A para um grupo de pessoas, e
imediatamente aps administra-se um teste da forma B, com o
mesmo contedo. As duas formas so feitas com os mesmos tipos de
itens. O Coeficiente de Correlao Linear de Pearson calculado para
o conjunto de escores dos dois testes.
c) Mtodo Split-Half
Sua vantagem que necessita somente de um conjunto de dados. Neste
mtodo, normalmente considera-se o nmero de acertos das questes
pares e o nmero de acertos das questes mpares. Ou, ainda, as duas
primeiras questes para o primeiro escore, as duas seguintes para o
segundo escore, e assim alternadamente. No aconselhvel fazer a
diviso dos itens exatamente ao meio, pois comum as primeiras
questes serem mais fceis do que as ltimas. O Coeficiente de
Correlao Linear de Pearson calculado para o conjunto de escores.
d) Mtodo de Consistncia Interna
Este mtodo era inicialmente utilizado para escores dicotmicos, como,
por exemplo, 1 para certo e zero para errado. Conforme citado por
FERGUSON (1981, p. 438), KUDER e RICHARDSON desenvolveram um
mtodo para obter o coeficiente de confiabilidade usando estatstica de

teste de itens. Uma estimativa da confiabilidade dada por:
75
XX =
n
n 1
S 2X
p i qi
i=1
S 2X
n
1
=
n 1
p q
i
i=1
S 2X
(3.58)
onde: XX o coeficiente de confiabilidade de KUDER e RICHARDSON;

n o nmero de itens;
(escj esc )
N
S 2X a varincia de escores do teste obtida por: S 2x =
j =1
N 1
N o total de examinados (participantes do teste);

escj o total de escores do teste para cada examinando;
esc a mdia dos escores do teste;
n
p q
i i
a soma do produto de propores de acertos e erros em cada item i.
i=1
Lee Cronbach generalizou a expresso de KUDER e RICHARDSON para o

caso em que os itens no so todos dicotmicos (CRONBACH, 1951). Esta
expresso recebeu o nome de alfa de Cronbach, apresentada a seguir:
n
=
n 1
S2
2
i
i=1
2
S i2
n
1 i=1 2
=
n 1
S
(3.59)
onde: o coeficiente alfa de CRONBACH;

n o nmero de itens;
(escj esc )
N
S 2 a varincia dos escores do teste obtida por: S 2 =
j =1
N 1
N o total de examinados (participantes do teste);

escj o total de escores do teste para cada examinando;
esc a mdia dos escores do teste;
(escij esc )
N
S i2 a varincia dos escores no item i obtida por: S i2 =

escij o escore do examinando j no item i;
esc i a mdia dos escores do item i.
j =1
N 1
76
3.2.1.10.1.1
Correo de atenuao do coeficiente de correlao
Uma importante utilizao do coeficiente de confiabilidade, apresentada

por GUILFOD (1950) e FERGUSON (1981), para solucionar o problema de erros de
medida.
importante considerar a possibilidade de erros de medida das variveis
envolvidas. Tais erros, j descritos, tm influncia direta no coeficiente de
correlao. Os erros normalmente tendem a diminuir o coeficiente de correlao
entre as duas variveis.
Resultado 3.11: O estimador do coeficiente de correlao corrigido ou desatenuado
conforme a expresso a seguir:
X,Y =
X,Y
X,X Y,Y
(3.60)
onde: X,Y o coeficiente de correlao corrigido ou desatenuado;
X,Y o coeficiente de correlao entre as variveis X e Y (observadas);

X,X o coeficiente de confiabilidade da varivel X (observada);
Y,Y o coeficiente de confiabilidade da varivel Y (observada).
Prova:
Sejam as variveis observadas:

X = X + u
Y = Y + v
onde: X e Y so as variveis observadas;

X e Y so as variveis verdadeiras (sem erros de medidas);
u e v so os erros de medidas das variveis X e Y, respectivamente.
O coeficiente de correlao entre as variveis observadas X e Y

conforme a expresso (3.11) do resultado 3.1:
77
n
X,Y =
i=1
( X i X ) 2
n
( X i X ) ( Yi Y )
i =1
i=1
( Yi Y ) 2
n
x y
i=1
X Y
n
As variveis observadas podem ser substitudas pelas verdadeiras, mais

os erros de medidas.
Utilizaram-se as seguintes notaes para cada uma das variveis:
x i = X i X , y i = Yi Y , x i = X i X e y i = Yi Y .
Reescrevendo a expresso anterior tem-se:

n
X,Y =
(x
i=1
X,Y =
+ u i )( y i + v i )
X Y
n
xiyi +
i =1
i =1
xivi +
(x y
i
+ x i v i + y iu i + u i v i )
i =1
y iui +
i =1
X Y
n
n
u v
i
i =1
X Y
n
Supondo que os erros sejam independentes entre si e de x e y, tem-se

n
X,Y =
xiyi
i =1
X Y
n
ento X,Y =
, mas X,Y =
x y
i
x y
e portanto
i=1
X Y
n
X,Y n X Y
=
i =1
X,Y n X Y
Y
X,Y X
=
X Y
n

X
Tem-se, do resultado 3.10 (expresso 3.57), que o coeficiente de

confiabilidade medido pela razo entre a varincia verdadeira e a varincia
observada da varivel X. Assim, tem-se
X,X e
=
Y,Y
=
escrever a expresso como segue:

X,Y = X,Y X,X
Y,Y , e portanto X,Y =
X,Y
X,X
Y,Y
e possvel
78
3.2.1.10.1.2 Aplicao da correo de atenuao

A aplicao descrita a seguir refere-se ao trabalho realizado por SILVEIRA
e PINENT (2001), cujo objetivo foi estudar a validade e o poder decisrio da redao
em concursos de ingresso universidade no Brasil.
O estudo foi elaborado com os dados dos participantes do Concurso
Vestibular de 1999 da Universidade Federal do Rio Grande do Sul (CV-UFRGS) e da
Pontifcia Universidade Catlica do Rio Grande do Sul (CV-PUCRS). O total de
candidatos foi de 35.787 e 10.547, respectivamente da UFRGS e da PUCRS. Destes,
6.516 candidatos participaram dos dois concursos, os quais foram objeto do estudo.
Os candidatos do CV-UFRGS receberam o total de escores entre zero e
trinta para cada uma das nove provas a que se submeteram, mais o escore final da
redao, entre zero e vinte. Com relao aos candidatos do CV-PUCRS, os
candidatos receberam o total de escores em quatro pares de provas (Biologia e
Qumica, Fsica e Matemtica, Histria e Geografia, Lngua Estrangeira e Literatura
Brasileira), acrescidos das provas de Lngua Portuguesa e de Redao. Para os
pares de provas os escores variaram entre zero e cinqenta, para Lngua
Portuguesa de zero a vinte e cinco, e para a prova de Redao entre zero e quatro.
A tabela 1 apresenta os resultados obtidos, pelos autores, de coeficientes
de confiabilidade11 das provas nos CV-UFRGS e CV-PUCRS, os coeficientes de
[(1 )S ]
n
11Os
onde:
autores utilizaram a seguinte expresso:
y = 1
2
i
i =1
S 2y
y = coeficiente de confiabilidade do escore obtido da soma de dois ou mais escores X i

i = coeficiente de confiabilidade do escore X i
y = escore total ou y =
x
i =1
S i2 = varincia do escore Xi
S 2y = varincia do escore y
79
Correlao Linear de Pearson entre os escores obtidos nos dois concursos para
cada par de provas e o coeficiente de correlao desatenuado.
TABELA 1 - COEFICIENTES DE CONFIABILIDADE E DE CORRELAO ENTRE OS ESCORES DAS
PROVAS DO CONCURSO VESTIBULAR DA UFRGS E DA PUCRS - 1999
COEFICIENTE DE CONFIABILIDADE
PROVA
PUCRS
Biologia e Qumica
Matemtica e Fsica
Histria e Geografia
Lngua Estrangeira e
Lngua Brasileira
Lngua Portuguesa
Nmero total de acertos
nas 9 provas
UFRGS
COEFICIENTE DE COEFICIENTE DE
CORRELAO DE
CORRELAO
PEARSON
DESATENUADO
0,84
0,84
0,83
0,79
0,84
0,79
0,80
0,78
0,80
0,98
0,93
0,99
0,81
0,66
O,84
0,69
0,79
0,52
0,96
0,92
0,95
0,96
0,92
0,96
FONTE: SILVEIRA e PINENT (2001)
Conforme os autores, os coeficientes de confiabilidade das provas da

PUCRS e UFRGS que versam sobre os mesmos contedos (por exemplo, biologia e
qumica, matemtica e fsica, etc.) so semelhantes, aproximadamente iguais aos

coeficientes de correlao linear de Pearson.
Os coeficientes de correlao desatenuado ou corrigido so prximos de
um, indicando que as provas do CV-UFRGS e do CV-PUCRS medem os mesmos
contedos.
3.2.1.10.1.3 Aplicao da correo para restrio em variabilidade

No trabalho apresentado na seo 3.2.1.10.1.2, de SILVEIRA e PINENT (2001),
pode-se encontrar a aplicao da Correo para a Restrio em Variabilidade
(resultado 3.4), quando apresentam os coeficientes de correlao para os 6.516
candidatos das duas universidades, obtidos a partir de estatsticas de um grupo menor
de candidatos.
No CV-UFRGS, as redaes so avaliadas somente quando o candidato faz
mais de 108 acertos (40%) do total de 270 questes de escolha mltipla. Do total de
80
6.516 candidatos comuns aos dois concursos, 4.184 tiveram a redao avaliada no
CV-UFRGS.
A partir do grupo composto por 4.184 candidatos, foram estimados os

coeficientes de correlao dos escores na redao do CV-UFRGS de todos os
candidatos (6.516), com as demais provas dos dois concursos, incluindo a redao
do CV-PUCRS (tabela 2).
TABELA 2 - COEFICIENTE DE CORRELAO ENTRE OS ESCORES DA PROVA DE REDAO E

OUTRAS PROVAS DO CONCURSO VESTIBULAR DA UFRGS E DA PUCRS - 1999
PROVA
COEFICIENTE DE CORRELAO ENTRE OS ESCORES

DA PROVA DE REDAO E OUTRAS PROVAS
CV-UFRGS
Biologia e Qumica - PUCRS

Biologia e Qumica - UFGRS
Matemtica e Fsica - PUCRS
Matemtica e Fsica - UFRGS
Histria e Geografia - PUCRS
Histria e Geografia - UFRGS
Lngua Estrangeira e Lngua Brasileira - PUCRS
Lngua Estrangeira e Lngua Brasileira - UFRGS
Lngua Portuguesa - PUCRS
Lngua Portuguesa - UFRGS
Redao - PUCRS
Redao - UFRGS
CV-PUCRS
0,29
0,28
0,24
0,20
0,32
0,29
0,47
0,49
0,49
0,55
0,41
0,39
0,38
0,36
0,34
0,40
0,38
0,47
0,46
0,44
0,46
0,41
FONTE: SILVEIRA e PINENT (2001)
Os coeficientes de correlao apresentados na tabela 2 so relativamente

baixos, podendo indicar que, segundo os autores, a questo de redao avalia
aspectos independentes aos que so medidos em questo de mltipla escolha.
Ainda, os autores concluem que h fortes indcios de que a confiabilidade
dos escores de redao pequena, de forma que a correlao entre a redao e
outra prova no poder ser grande.
3.2.1.10.2 Confiabilidade em Sistemas de Engenharia

O objetivo da confiabilidade em sistemas de engenharia avaliar a segurana
de um sistema. Assim, tem-se a avaliao da probabilidade de no haver falha durante
a sua vida til, atendendo aos objetivos para os quais o sistema foi projetado.
81
3.2.1.10.2.1
Confiabilidade estrutural
A avaliao da probabilidade de falha tem como base a funo de

performance do sistema, conhecida como funo de estado limite, ou funo de
falha ou margem de segurana, representada por g( X) , onde X o vetor de
variveis aleatrias envolvidas na anlise. A avaliao da probabilidade de falha
usualmente identificada como anlise de confiabilidade estrutural.
Sendo f x ( X) a funo densidade de probabilidades conjunta das variveis
aleatrias X , a probabilidade de falha pode ser obtida atravs de:
P(falha) =
f x ( X)dx onde F indica o domnio de falha (g( X) 0) .
A avaliao da expresso acima no simples, pois envolve a avaliao

de uma integral n-dimensional com domnio (g( X) 0) , onde n o nmero de
variveis aleatrias de X . Em funo da dificuldade, mtodos alternativos so
utilizados. Citem-se dois mtodos analticos bastante utilizados:
(i) First Order Reliability Method (FORM): Quando se tem uma funo de
falha linear, a confiabilidade pode ser obtida atravs da distncia da
funo at a origem.
Neste mtodo, as variveis aleatrias X , com distribuies quaisquer,
podendo ser dependentes ou no entre si, so transformadas em
variveis normais padres X , estatisticamente independentes.
(ii) Second Order Reliability Method (SORM): A diferena deste mtodo
para o anterior est na aproximao feita para a superfcie de falha.
Neste mtodo, faz-se uma aproximao por uma superfcie no-linear
(quadrtica), em vez de linear.
Os mtodos FORM e SORM assumem implicitamente (HALDAR e
MAHADEVAN, 2000) que as variveis ( X1, X2 ,..., Xn ) so no correlacionadas. Deve-se,
inicialmente, portanto, obter a matriz de correlao dessas variveis. Considerando a
funo de estado limite g (X1, X2 ,..., Xn ) , a matriz de covarincia ser representada como:
82
2X1
cov (X 1, X 2 )
2X2
cov (X 2 , X1 )
[C] =
...
...
cov (X n , X 1 ) cov (X n , X 2 )
... cov (X1, X n )
... cov (X 2 , X n )
...
...
...
2Xn
Definindo as variveis padronizadas como: Xi =
(3.61)
X i Xi
(i = 1, 2,..., n) , ento
a matriz [C] ser:

1
[C] = X...2 ,X1
Xn ,X1
X ,X
1
1
...
X ,X
n
... X1,Xn
... X2 ,Xn
...
...
...
1
(3.62)
onde Xi ,X j o coeficiente de correlao entre X i e X j .

Os mtodos FORM e SORM podero ser utilizados se as variveis
( X1, X 2 ,..., X n ) forem transformadas para variveis no-correlacionadas. Em grande
parte dos problemas prticos, as variveis correlacionadas podem ser transformadas

em no-correlacionadas atravs de uma transformao ortogonal da forma:
Y = L1( X) onde L a matriz triangular inferior obtida pela fatorao de Cholesky da
matriz [C] (HALDAR e MAHADEVAN, 2000).
3.2.1.10.2.2
Confiabilidade de sistemas
Existem situaes em que mais de uma funo de performance ou estado

limites envolvida. Neste caso possvel calcular a probabilidade de falha para
cada modo ou componente, usando o mtodo FORM, e depois calcular a
probabilidade do sistema como um todo, levando-se em conta a contribuio de
cada um dos componentes.
Um sistema chamado em srie quando a falha de um de seus
componentes leva a falhar o sistema. A probabilidade de falha de um sistema em
srie pode ser obtida atravs de (UFRJ. COPPE. PEC):
83
Pi = ( i )
(3.63)
Pij = ( i , j , ij )
(3.64)
onde: i , j so os ndices de confiabilidade de cada um dos componentes;
ij
a correlao entre os dois componentes, ou seja, ij = i j , onde i e j

so os vetores normais nos pontos de mnimo de cada um dos
componentes;
a funo cumulativa de probabilidade normal padro;
(,, ) a funo cumulativa bidimensional normal padro dada por:
( )
i , j , ij = ( i ) j +
ij
0
( i, j , z )dz
(3.65)
e (,, ) a funo densidade de probabilidade bidimensional padro dada por:

(x, y, ) =
1
2 1 2
1 x 2 + y 2 2
exp
1 2
2
(3.66)
Um sistema chamado em paralelo quando a falha do sistema ocorre aps

a falha de todos os seus componentes ou modos.
A probabilidade de falha de um sistema em paralelo, utilizando o mtodo
FORM, para o caso de dois componentes, pode ser obtida atravs de:
Pij = ( i , j , ij )
onde: i , j so os ndices de confiabilidade de cada um dos componentes;
ij a correlao entre os dois componentes, ou seja, ij = i j , onde i e j

so os vetores normais nos pontos de mnimo de cada um dos componentes;
(
a funo cumulativa de probabilidade normal padro;
(,, ) a funo cumulativa bidimensional normal padro dada por:
i , j , ij = ( i ) j +
ij
0
( i , j , z )dz
84
e (,, ) a funo densidade de probabilidade bidimensional padro dada

por:
1
(x, y, ) =
2 1 2
1 x 2 + y 2 2
exp
1 2
2
, conforme j apresentado
anteriormente.
3.2.1.11
Teste de normalidade (Gaussianidade)

FILLIBEN (1975) prope o teste de normalidade de uma varivel atravs do
clculo do coeficiente de correlao, utilizando a mediana da distribuio normal

padronizada.
O autor apresenta algumas vantagens de se utilizar a mediana, em vez da
mdia, pois segundo ele esta ltima medida apresenta algumas propriedades
indesejveis, tais como: a tcnica de integrao para o clculo da mdia varia
drasticamente de uma distribuio para outra; para algumas distribuies, as mdias
so difceis de serem obtidas ou requerem grande tempo de clculo e precisam ser
aproximadas e, ainda, em algumas distribuies, a mdia pode no ser definida.
A proposta apresentada para o clculo do coeficiente de correlao :
(X
n
)(
X Mi M
i =1
(X
n
i =1
) (M M)
2 n
(3.67)
2
i =1
Os valores de Mi necessrios para o clculo da estatstica so os

inversos da funo densidade acumulada da distribuio N(0,1) de m i , ou seja,
Mi = 1 (m i ) . Os valores de
mi
podem ser obtidos atravs da expresso
apresentada a seguir:
1 mn
para i = 1
m i = (i 0,3175 ) /(n + 0,365 ) para i = 2, 3,..., n 1
0,51/ n
para i = n
(3.68)
85
Os valores de m i correspondem s reas sob a curva normal e, os de Mi ,

aos respectivos valores de z (distribuio normal padro).
Para um exemplo prtico, considere-se uma amostra aleatria com n = 200
observaes obtida atravs do processo de simulao. A varivel aleatria
normalmente distribuda com mdia igual a 92,84155 e varincia igual a (57,98319 )2 .
Os resultados da simulao so apresentados resumidamente a seguir. A amostra
aleatria e as estatsticas calculadas encontram-se no Apndice 3.
Os valores da varivel so ordenados em ordem crescente e os m i so
obtidos conforme a expresso apresentada anteriormente.
Calculou-se inicialmente o m 200 = 0,5 (1/ 200 ) = 0,99654 , e, aps, obteve-se o
m1 = 1 m 200 = 1 0,99654 = 0,00346 . A partir de m 2 , at m199 , basta substituir o valor de
i em: (i 0,3175 ) /(n + 0,365 ) . O m 2 ser obtido por: (2 0,3175 ) /( 200 + 0,365 ) = 0,00840 ;
m 3 = (3 0,3175 ) /( 200 + 0,365 ) = 0,01339 e assim at m199 (quadro 2).
Para m1 = 0,00346 , o valor de z correspondente -2,70 (reas sob a curva

normal); para m 2 = 0,00840 , o valor de z -2,39 e assim at m 200 = 0,99654 , cujo valor
de z correspondente 2,70.
QUADRO 2 - ESTATSTICAS DA VARIVEL ALEATRIA X, SEGUNDO
A ORDEM CRESCENTE
i
1
2
3
Xi
-66,08907
-55,34452
-54,64370
4
-33,28091
5
-29,60415
6
-14,42701
7
-10,38914
8
-9,61244
9
-8,57903
10
-7,46465
11
-5,66421
.
.
.
.
.
.
196
200,60562
197
211,89209
198
212,51855
199
222,03666
200
247,78060
FONTE: A autora
( X i X)
-158,93062
-148,18607
-147,48525
-126,12246
-122,44570
-107,26856
-103,23069
-102,45399
-101,42058
-100,30620
-98,50576
.
.
.
107,76407
119,05054
119,67700
129,19511
154,93905
mi
0,00346
0,00840
0,01339
0,01838
0,02337
0,02836
0,03335
0,03834
0,04333
0,04832
0,05332
.
.
.
0,97663
0,98162
0,98661
0,99160
0,99654
Mi
-2,70067
-2,39106
-2,21471
-2,08842
-1,98865
-1,90547
-1,83369
-1,77029
-1,71329
-1,66137
-1,61348
.
.
.
1,98865
2,08842
2,21471
2,39106
2,70067
86
Foram obtidos os seguintes valores, necessrios para o clculo de :

X = 92,84155 ; M = 0 ;
(X
X)(Mi ) = 11. 424,30554 ;
i=1
(X
n
= 669. 048,10709 ;
i=1
M
i=1
2
1
= 195,55906
A expresso (3.67) pode ser apresentada de forma resumida, pois M = 0 .
(X
n
X Mi
i=1
(X
n
i=1
) M
2
(3.69)
2
i
i=1
Substituindo os valores na expresso acima, obtm-se o coeficiente de

correlao = 0,99876 . Este coeficiente superior ao valor crtico (quadro A.2.1 do
Anexo 2) igual a 0,98700, para nvel de significncia de 5%. Portanto, aceita-se a
hiptese H0 de que a varivel aleatria X normalmente distribuda.
3.2.2
Coeficiente de Correlao Bisserial
3.2.2.1 Introduo
O Coeficiente de Correlao Bisserial uma estimativa do Coeficiente de
Correlao Linear de Pearson entre uma varivel contnua X e uma varivel latente
YL (contnua e normal), subjacente varivel dicotmica Y (LORD e NOVICK, 1967),
(FERGUSON, 1976) e (WHERRY, 1984).

Uma aplicao possvel deste coeficiente na anlise de itens (questes
que geram escores dicotmicos do tipo certo ou errado) de uma prova; utiliza-se
ento a hiptese de que, subjacente resposta de cada item, exista uma varivel
latente, contnua e normal, que determina o resultado (certo ou errado, zero ou um)
no item. O Coeficiente Bisserial estima o Coeficiente de Pearson entre o escore total
na prova ( X) e a varivel latente, subjacente ao item.
87
De acordo com GUILFORD (1950), o Coeficiente Bisserial utilizado em

situaes em que ambas as variveis correlacionadas so passveis de ser medidas
como contnuas, mas, por alguma razo, uma delas foi reduzida a duas categorias.
Esta reduo pode ser em conseqncia de ser a nica forma de obteno dos
dados, como, por exemplo, a situao em que o aluno foi aprovado ou reprovado,
conforme algum critrio.
Quando uma das variveis (Y) medida como dicotmica, ou seja,
reduzida a duas categorias por alguma razo, e a outra contnua, o Coeficiente de
Correlao Bisserial ( b ) utilizado, descrito em GUILFORD (1950), DOWNIE e
HEATH (1959), McNEMAR (1969) e BUNCHAFT e KELLNER (1999).
3.2.2.2 Estimador do Coeficiente de Correlao Bisserial e do erro padro
b =
Xp X t p
St
y
b =
Xp X q p q
St
y
ou
(3.70)
(3.71)
onde: b o Coeficiente de Correlao Bisserial;

Xp a mdia dos valores de X para o grupo superior (grupo cujos valores de
X esto acima do ponto de dicotomizao da varivel Y);

X q a mdia dos valores de X para o grupo inferior (grupo cujos valores de X
esto abaixo do ponto de dicotomizao da varivel Y);

X t a mdia total de X da amostra;
S t o desvio padro total de X da amostra;
p a proporo de casos do grupo superior (grupo cujos valores de X esto
acima do ponto de dicotomizao da varivel Y);

q a proporo de casos do grupo inferior (grupo cujos valores de X esto
abaixo do ponto de dicotomizao da varivel Y);

y a ordenada da distribuio normal no ponto de dicotomizao (p) da
varivel Y. Inicialmente obtm-se o valor de z, correspondente rea
menor ou igual a p e calcula-se y = f (z), dada por f (z) =
Z2
2
88
Erro padro do Coeficiente de Correlao Bisserial:
b =
pq
b2
y
n
(3.72)
onde: b o erro padro;
b2 o quadrado do Coeficiente de Correlao Bisserial;

n o nmero de observaes da amostra.
Para testar a hiptese nula de que b = 0 o estimador do erro padro ser:
b =
pq
y
n
(3.73)
3.2.2.3 Suposies bsicas para a utilizao do Coeficiente de Correlao Bisserial

As suposies bsicas para a utilizao da Correlao Bisserial so
apresentadas em GUILFORD (1950), McNEMAR (1969) e BUNCHAFT e KELLNER
(1999). A primeira que a varivel Y seja medida como dicotmica, porm existindo
uma varivel normal e contnua, subjacente a ela. Como segunda suposio, a
varivel X deve ser contnua.
Segundo GUILFORD (1950), a utilizao das quantidades p, q, e y, na
expresso (3.70) e (3.71), est diretamente associada distribuio normal da
varivel subjacente varivel dicotmica. No sendo normalmente distribuda,
recair numa estimativa no confivel da correlao.
Finalmente, a varivel Y deve ser dicotomizada (ao ser medida) em um
ponto mais prximo possvel da mediana.
Quando b = 0,00 , o erro padro de b pelo menos 25% maior que de ,
para o mesmo tamanho de amostra. medida que p se aproxima de 1,0 ou 0,0, a
razo
pq
torna-se maior. Para p = 0,94 , o valor da ordenada y igual a 0,1200 e
y
89
esta razo igual a 2,0. Para p = 0,5 , o valor de y 0,3989 , e a razo assume o
menor valor, igual a 1,25. Esta , segundo GUILFORD (1950), a razo pela qual se
recomenda que a dicotomizao de Y seja feita mais prxima da mediana.
GUILFORD ainda se refere diferena entre as mdias para o clculo do
Coeficiente de Correlao Bisserial, como pode ser visto em (3.71). A diferena no

muito estvel, a no ser que as amostras sejam grandes. Segundo ele, mesmo
que a amostra seja de 1.000 casos, se apenas 1% dos casos estiver em uma das
categorias (0 ou 1), a mdia baseada em 10 casos, o que no favorvel para
realizar estimativas com base nessa mdia.
Comparando-se as caractersticas das duas correlaes, a de Pearson e a
Bisserial, sempre que possvel prefervel utilizar a primeira, principalmente quando
a amostra pequena (GUILFORD, 1950).
3.2.2.4 Aplicao do Coeficiente de Correlao Bisserial

A aplicao descrita a seguir refere-se ao trabalho realizado por CHAVES
NETO e TURIM (2003). O objetivo do estudo foi abordar as teorias da avaliao
educacional, tanto a Teoria Clssica, quanto a Teoria de Resposta ao Item (TRI) nos
seus vrios aspectos.
Para CHAVES NETO e TURIM (2003), o instrumento de medida educacional
um dos aspectos mais importantes da avaliao escolar. E, para eles, os bons
instrumentos de avaliao normalmente tm as seguintes propriedades: validade,
confiabilidade, objetividade e praticabilidade.
Ainda, desejvel, segundo os autores, que os itens que compem o
instrumento tenham as caractersticas do grau de discriminao e de dificuldade,
conhecidos a priori. Assim, possvel classificar os examinandos (alunos) em trs
grupos: bom, mdio e fraco.
Foram aplicados testes avaliativos em 5 escolas da rede municipal, do
perodo matutino, envolvendo as disciplinas de Lngua Portuguesa e Matemtica, do
90
municpio de Andir. Participaram todos os alunos devidamente matriculados nas 3.a e

4.a sries do ensino fundamental regular, num total de aproximadamente 1.400 alunos.
O teste de Lngua Portuguesa, aplicado nas 3a. e 4a. sries, compreendeu
trs partes:
-
parte I: interpretao de textos;
parte II: produo de textos;
parte III: leitura de textos.
A discriminao de cada item foi estimada tanto pela Teoria de Resposta

ao Item (TRI), quanto pela Teoria Clssica. Na anlise utilizando a Teoria Clssica, a
estimao da discriminao do item foi feita calculando-se o Coeficiente de
Correlao Bisserial e o Coeficiente de Correlao de Pearson.
O quadro 3 apresenta os Coeficientes de Correlao de Pearson e
Bisserial, calculados entre a pontuao total ( X) e resposta de cada item ( Y ) , no
teste de interpretao de texto dos alunos da 3.a srie, totalizando 369 examinandos
(alunos).
QUADRO 3 - COEFICIENTES DE CORRELAO DE PEARSON E BISSERIAL
ENTRE A PONTUAO TOTAL E RESPOSTA DE CADA ITEM, NO
TESTE DE INTERPRETAO DE TEXTO DA 3. SRIE, DAS
ESCOLAS MUNICIPAIS DE ANDIR
TOTAL DE
ALUNOS
ACERTOS
EXAMINANDOS
01
369
311
02
369
292
03
369
208
04
369
237
05
369
150
06
369
202
07
369
126
08
369
272
09
369
233
10
369
268
11
369
296
12
369
294
13
369
221
14
369
187
15
369
314
16
369
226
17
369
261
18
369
261
19
369
268
20
369
306
FONTE: CHAVES NETO e TURIM (2003)
NMERO DO
ITEM
COEFICIENTE DE CORRELAO
Pearson
0,356
0,325
0,471
0,492
0,476
0,469
0,382
0,451
0,540
0,495
0,433
0,551
0,505
0,423
0,207
0,366
0,433
0,523
0,511
0,451
Bisserial
0,539
0,460
0,593
0,631
0,602
0,589
0,494
0,609
0,691
0,663
0,620
0,785
0,640
0,530
0,317
0,466
0,573
0,692
0,684
0,669
91
Quanto maior o coeficiente de correlao, maior a discriminao do item.

Observa-se, no quadro, que o item de maior discriminao o 12, pois apresenta
Coeficiente de Correlao Bisserial igual a 0,785.
3.2.3
Coeficiente de Correlao Ponto Bisserial
3.2.3.1 Introduo
Embora seja usada normalmente como medida de correlao entre
escores e itens de testes, a Correlao Ponto Bisserial pode ser empregada em
outras situaes, onde a varivel dicotmica pode ser, a ttulo de exemplo, gnero
masculino ou feminino, pessoas normais ou neurticas, etc.
O Coeficiente de Correlao Ponto Bisserial ( pb )
derivado do
Coeficiente de Correlao de Pearson. Este mtodo indicado quando uma das

variveis (Y) dicotmica e a outra contnua.
Conforme apresentado em FERGUSON (1981), a Correlao Ponto Bisserial
fornece uma medida da relao entre uma varivel contnua, como escores de testes, e
outra varivel com duas categorias ou dicotmicas, como aprovado ou reprovado.
Segundo GUILFORD (1950), DOWNIE e HEATH (1959) e FERGUSON
(1981), a Correlao Ponto Bisserial a Correlao do Momento Produto. Se se
atribuir 1 para observaes de uma categoria e zero para outra, e se calcular o
Coeficiente de Correlao do Momento Produto, o resultado ser o Coeficiente
Ponto Bisserial. Ele interpretado da mesma forma que .
3.2.3.2 Estimador do Coeficiente de Correlao Ponto Bisserial e do erro padro

O estimador do Coeficiente de Correlao Ponto Bisserial foi obtido a partir
do estimador do Coeficiente de Correlao Linear de Pearson, conforme
apresentado em GUILFORD (1950).
92
Fazendo x i = X i X e y i = Yi Y , o estimador do coeficiente linear de

Pearson (resultado 3.1):
n
i=1
x y
2
i
i=1
(X
n
2
i
i=1
xiyi
i=1
) (Y Y )
n
x y
i
i =1
xiyi
i=1
x y
n
(3.74)
i =1
X uma varivel aleatria contnua e Y uma varivel aleatria com

distribuio de Bernoulli, tem-se, ento, que, por convenincia:
(X
n
x =
i=1
= Sx
S y = pq , onde p = e q = (1 - ) da distribuio de Bernoulli (conforme
resultado 2.1).
Desenvolvendo (3.74) tem-se:
x y = (X
n
i=1
n
xiyi =
i=1
n
)(
X Yi Y
i=1
[X Y X Y XY + XY ]
n
i=1
xiyi =
i=1
X Y nXY
i
(3.75)
i=1
Substituindo (3.75) em (3.74) tem-se:

n
X Y nXY
i
i =1
nS x pq
mas
X Y
i
i=1
e n X Y = n X p = n p X , ento,
np X p np X
nS x pq
= np X p
93
Dividindo por n, tem-se:
p Xp p X
Xp X p
=
=
S x pq
S x pq
Dividindo por p , tem-se que
(X X) p
= p
pb
Sx
ou
(3.76)
X Xq
pb = p
pq
Sx
onde: pb o Coeficiente de Correlao Ponto Bisserial;

Xp a mdia dos valores de X para o grupo superior (grupo cuja varivel Y
assume valor 1);

X a mdia total de X da amostra;
S x o desvio padro total de X da amostra;
p a proporo de casos do grupo superior (grupo cuja varivel Y assume
valor 1);
q a proporo de casos do grupo inferior (grupo cuja varivel Y assume
valor 0).
Erro padro do Coeficiente de Correlao Ponto Bisserial:
=
pb
2
1 pb
n2
(3.77)
pb o erro padro;
onde:
2
pb
o quadrado do Coeficiente de Correlao Ponto Bisserial;
A relao existente entre os Coeficientes de Correlao Bisserial e Ponto

Bisserial apresentada em GUILFORD (1950):
94
b = pb
pq
y
e pb = b
y
pq
3.2.3.3 Suposies bsicas para a utilizao do Coeficiente de Correlao Ponto

Bisserial
Sendo o Coeficiente de Correlao Ponto Bisserial igual ao Coeficiente de
Correlao do Momento Produto, a suposio de relao linear.
O que difere este coeficiente do Coeficiente de Correlao Bisserial que,
neste, a varivel Y originalmente dicotmica, no necessitando ser contnua e nem
normalmente distribuda
(BUNCHAFT e KELLNER, 1999). Este mtodo mais
utilizado do que o Coeficiente de Correlao Bisserial, pois no exige que a varivel

Y tenha distribuio normal na populao. Havendo qualquer dvida a respeito da
distribuio da varivel dicotmica, deve-se utilizar este coeficiente.
3.2.3.4 Coeficiente de Correlao Ponto Bisserial e teste de mdias

O clculo do Coeficiente de Correlao Ponto Bisserial pode ser
comparado ao teste de hipteses para diferena de duas mdias (GUILFORD, 1950)
e (CHEN e POPOVICH, 2002). A varivel contnua (X) representa a caracterstica de
interesse para o estudo e a varivel dicotmica (Y) representa os grupos. Quando
testada a hiptese de que H0 : pb = 0 , isto equivale a testar a hiptese de que
H0 : 1 2 = 0 . Aceitando-se a hiptese H0 : pb = 0 , pode-se concluir que as
mdias dos grupos so iguais.

possvel testar as hipteses H0 : pb = 0 e H1 : pb 0 utilizando-se a
estatstica t, pois o Coeficiente de Correlao Ponto Bisserial o Coeficiente de
Correlao Linear de Pearson. A estatstica do teste foi obtida no resultado 3.9, dada
por:
t=
n 2
~ t n2
2
1
95
onde: t a estatstica do teste;
pb = o coeficiente de correlao amostral;

3.2.3.5 Aplicao do Coeficiente de Correlao Ponto Bisserial

Os dados utilizados foram obtidos a partir da Pesquisa Mensal de Emprego
(PME) na Regio Metropolitana de Curitiba (RMC). A PME uma pesquisa domiciliar
de periodicidade mensal que tem por objetivo acompanhar a situao do mercado
de trabalho na RMC. So pesquisadas mensalmente cerca de 10.000 pessoas com
10 anos e mais de idade.
As variveis da anlise foram a renda recebida no trabalho principal pelas
pessoas ocupadas na semana de referncia, na condio de empregados com
carteira de trabalho assinada no setor privado, no grupo de atividade relativa a
intermediao financeira e atividades imobilirias, aluguis e servios prestados s
empresas, com 11 anos ou mais de estudo e que trabalharam entre 35 e 45 horas,
na semana de referncia e gnero. Tem-se uma situao em que uma varivel
medida em nvel intervalar e outra dicotmica. Os dados referentes a esta aplicao
Tendo em vista que a varivel renda no normalmente distribuda, fez-se
uma transformao logartmica na varivel, pois, conforme descreve SIQUEIRA
(1983), a transformao logartmica reduz a varincia, mesmo que a varivel original
seja bastante heterognea, e muitas vezes esta transformao tambm resolve o
problema da no-normalidade, pois deixa a nova varivel mais prxima da normal.
Aps a transformao, calculou-se o Coeficiente de Correlao Ponto
Bisserial e o Coeficiente de Correlao Linear de Pearson entre as variveis
logaritmo natural da renda (ln renda) e gnero. O coeficiente estimado foi
pb = = 0,21544 , significativo para = 0,02 . Evidentemente que as estimativas so

iguais, pois trata-se do mesmo coeficiente de correlao.
96
Calculou-se tambm o Coeficiente Linear de Pearson entre a varivel

original renda e gnero. O coeficiente estimado foi = 0,18412 , significativo para
= 0,04 .
Cabe destacar que o objetivo foi mostrar que, embora a varivel renda no
seja normalmente distribuda e tenha sofrido uma transformao logartmica, os
resultados no sofreram grandes alteraes, o que mostra a propriedade do
Coeficiente de Correlao de Pearson ser quase-invariante frente s transformaes
monotnicas (ANDERBERG , 1973).
3.2.4
Coeficiente de Correlao Tetracrico
3.2.4.1 Introduo
O Coeficiente de Correlao Tetracrico uma estimativa do Coeficiente
de Correlao Linear de Pearson entre uma varivel latente ( X L ) e uma varivel
latente ( YL ) (ambas contnuas e normais), subjacentes s variveis dicotmicas
X e Y efetivamente observadas (LORD e NOVICK, 1967), (FERGUSON, 1976) e
(WHERRY, 1984).
O Coeficiente de Correlao Tetracrico utilizado na aplicao da Teoria
de Resposta ao Item (TRI). Para determinar a dimensionalidade de uma medida, um
dos ndices utilizados com base na Anlise Fatorial a partir da matriz dos
Coeficientes de Correlao Tetracrico. possvel encontrar um maior detalhamento
sobre o assunto em NOJOSA (2001).
As literaturas iniciais sobre a anlise de dados categricos tratavam este
coeficiente como ndice de associao. O assunto causou intenso debate entre
estatsticos, como Karl Pearson e G. Udny Yule, sobre como medir a associao. Karl
Pearson pensou na tabela de classificao cruzada de uma distribuio contnua
bivariada. O Coeficiente de Correlao Tetracrico uma medida de associao para
variveis contnuas, porm transformadas em tabela 2x2 (AGRESTI, 1990).
97
Esse coeficiente utilizado, segundo DOWNIE e HEATH (1959), McNEMAR

(1969) e BUNCHAFT e KELLNER (1999), para se relacionar duas variveis X e Y
contnuas, mas dicotomizadas (ao serem medidas) pelo pesquisador, por alguma razo.
3.2.4.2 Estimador do Coeficiente de Correlao Tetracrico e do erro padro

Apresenta-se, a seguir, a equao tetracrica. A demonstrao para a
obteno desta equao, a partir da transformao da distribuio normal bivariada
em variveis dicotmicas, pode ser encontrada em ELDERTON (1953, p. 175).
)(
)(
)(
2
2
2
2
4
2
4
2
ad bc
2 zz
3 z 1 z 1
4 z z 3 z 3
5 z 6z + 3 z 6z + 3
+
t
t
t
t
t
2
6
24
120
yy n 2
+ 6t
)(
)(
z z 4 10z 2 + 15 z z 4 10z 2 + 15
z 6 15z 4 + 45z 2 15 z 6 15z 4 + 45z 2 + 15
+ 7t
+ ...
720
5040
(3.78)
Aps a dicotomizao das variveis X e Y, obtm-se a tabela 2x2, como se

segue:
Varivel X
1
TOTAL
Varivel 1
a+b
c+d
a+c
b+d
TOTAL
p=
(c + d)
(a + b)
e q=
= 1 p
n
n
(3.79)
p' =
(b + d)
(a + c)
e q' =
= 1 p'
n
n
(3.80)
n = a + b + c + d (total de observaes)
Assim, tem-se que:

a,b,c,d so as freqncias da tabela 2x2;
z o valor correspondente rea menor ou igual a p. Por exemplo, se p = 0,50,
ento tem-se que z = 0 (tabela de reas sob a curva normal);
98
z o valor correspondente rea menor ou igual a p . Se p = 0,50, ento tem-se

que z = 0;
y o valor da ordenada no ponto p e pode ser obtida fazendo-se y = f(z) =
Para o exemplo citado, se z = 0, ento y = f (0) =
e 0
2
= 0,39894
Z2
2
(tabela de
ordenadas da curva normal);

y o valor da ordenada no ponto p e pode ser obtida fazendo-se y = f ( z) =
Z2
2
GUILFORD (1950) apresenta uma soluo aproximada do clculo do
Coeficiente de Correlao Tetracrico, ignorando os termos de grau superior a 2, na

expresso (3.78):
ad bc
zz
= t + 2t
2
2
yyn
(3.81)
onde: t o Coeficiente de Correlao Tetracrico;

z o valor correspondente rea menor ou igual a p;
z o valor correspondente rea menor ou igual a p ;
y o valor da ordenada no ponto p;
y o valor da ordenada no ponto p ;
n = (a + b + c + d) o nmero de observaes da amostra.
Chamando o primeiro termo da expresso (3.81) de c; o coeficiente de t

de b ; e
zz
de a, tem-se uma equao do 2. grau:
2
a 2t + b t + c = 0
que poder ser resolvida atravs de: t =
(3.82)
b b 2 4ac
2a
99
Uma outra expresso apresentada em GUILFORD (1950), utilizando o

cosseno12:
180 bc
t = cos
ad + bc
(3.83)
Quando o produto bc igual a ad, o ngulo 90 o e o cosseno igual a

zero, conseqentemente t = 0 .
Erro Padro aproximado do Coeficiente de Correlao Tetracrico:
p q p q
t =
y y n
sen 1
t
1
1
o
90
2
t
(3.84)
t o erro padro;
onde:
t o Coeficiente de Correlao Tetracrico;
t o arco seno de t ;
sen 1
Para testar a hiptese de que t = 0 , o que poder ser feito atravs da

estatstica t =
t
, o erro padro poder ser calculado considerando apenas a

t
primeira parte da expresso (3.84), como apresenta McNEMAR (1969):
t =
p q p q
y y n
12Conforme
(3.85)
demonstrado em WONNACOTT e WONNACOTT (1978), existe uma relao

e o cos , = cos e 1 cos +1 .
entre o Coeficiente de Correlao
100
3.2.4.3 Suposies bsicas para a utilizao do Coeficiente de Correlao

Tetracrico
As suposies bsicas para a utilizao do Coeficiente de Correlao
Tetracrico so de que as variveis X L e YL (latentes) devem ser contnuas e
normalmente distribudas, relacionadas linearmente; ainda, X e Y devem ser
dicotomizadas (ao serem medidas) o mais prximo possvel mediana.
O Coeficiente de Correlao Tetracrico ( t ) menos confivel que o de
Pearson, sendo que sua variabilidade cerca de 50% maior (GUILFORD, 1950),
quando = 0 . Para obter a mesma confiabilidade13 para o Coeficiente de Correlao
Tetracrico que a obtida no Coeficiente de Correlao de Pearson, necessrio o
dobro do tamanho da amostra. Recomenda-se que se utilizem amostras superiores
a 300.
3.2.4.4 Aplicao do Coeficiente de Correlao Tetracrico

FACHEL (1986) apresenta exemplos de aplicao do Coeficiente de
Correlao Tetracrico a partir de dados empricos. Dentre eles, cita-se o que ela
denomina de Weinreich data. Uma amostra foi composta de 802 pacientes, e estes
foram submetidos a um teste alrgico, em que a resposta para cada um dos 5 itens
(causas de alergia) nenhuma reao ou reao positiva. Os Coeficientes de
Correlao Tetracrico foram obtidos para cada par de diferentes causas de alergia e
a matriz de correlao tetracrica apresentada no quadro 4. Os 5 tipos de itens do
teste alrgico foram: 1) onion couch; 2) fescue grass; 3) couch grass; 4) cock's foot
grass; 5) rye grass.
13A
confiabilidade, aqui, usada como sinnimo de erro padro.
101
QUADRO 4 - MATRIZ DE CORRELAO TETRACRICA SEGUNDO ITENS DO TESTE
ALRGICO
ITENS
Fescue grass
Couch grass
Cocks foot grass
Rye grass
ONION
COUCH
FESCUE
GRASS
COUCH
GRASS
0,90
0,88
0,91
0,81
1,00
0,89
0,87
0,87
0,89
1,00
0,88
0,85
COCKS
FOOT GRASS
0,87
0,88
1,00
0,81
FONTE: FACHEL (1986)

NOTA: Assumindo que as variveis so realmente contnuas e normais.
O quadro acima indica que existe alta correlao entre os cinco itens do
teste alrgico. Um paciente que apresenta reao positiva a um tipo de item
tambm apresenta para os demais. A correlao maior entre os itens onion couch
e cock's foot grass, com t = 0,91. Em seguida, entre os itens onion couch e fescue
grass, com t = 0,90. Os itens que apresentam correlaes menores so rye grass
com os itens onion couch ( t = 0,81) e cock's foot grass ( t = 0,81) .
3.2.5
Coeficiente de Correlao de Spearman
3.2.5.1 Introduo
Este coeficiente o mais antigo e tambm o mais conhecido para variveis
mensuradas em nvel ordinal, chamado tambm de Coeficiente de Correlao por
Postos de Spearman, designado rho e representado por s . Quando as amostras
so pequenas, este mtodo deve ser usado, segundo GUILFORD (1950), em
substituio ao Coeficiente de Correlao do Momento Produto. conveniente para
nmero de pares menor que 30 e quando os dados j esto ordenados.
Para as variveis cuja mensurao em nvel ordinal, pode-se citar os
Coeficientes de Correlao Ordinal de Spearman e Postos de Kendall.
importante enfatizar, segundo BUNCHAFT e KELLNER (1999), que as
correlaes ordinais no podem ser interpretadas da mesma maneira que as
correlaes de Pearson. Inicialmente, no mostram necessariamente tendncia
linear, mas podem ser consideradas como ndices de monotonicidade, ou seja, para
102
aumentos positivos da correlao, aumentos no valor de X correspondem a

aumentos no valor de Y, e para coeficientes negativos ocorre o oposto. O quadrado
do ndice de correlao no pode ser interpretado como a proporo da varincia
comum s duas variveis.
3.2.5.2 Estimador do Coeficiente de Correlao de Spearman e significncia

Seu estimador foi derivado a partir do estimador do Coeficiente de
Correlao Linear de Pearson, conforme apresentado em SIEGEL (1975).
n
x y
i
i=1
(3.86)
x y
2
i
i=1
2
i
i=1
onde: x i = X i X
y i = Yi Y
Pode-se escrever:
i=1
n(n + 1)
onde n = postos = 1, 2, 3,..., n
2
Os quadrados dos postos so: 12 , 2 2 , 3 2 ,..., n 2

n
Ento
2
i
i=1
Assim,
Xi
i=1
i=1
i=1
i=1
X i
i=1
X i2
n
[n(n + 1) / 2]
n(n + 1)(2n + 1)
6
n
(n 2 + n)(2n + 1) n(n 2 + 2n + 1)
6
4
n3 n
12
Xi
Xi
i=1
n
(X X) =
n
Xi
i=1
n(n + 1)(2n + 1)
6
(3.87)
103
Da mesma forma, obtm-se que:

n
n3 n
12
y2 =
i=1
(3.88)
Fazendo a diferena de postos:

di = x i y i
elevando ao quadrado tem-se:

di2 = (x i y i ) = x i2 2x i y i + y i2
2
fazendo o somatrio:
n
2
i
x + y
i=1
2
i
i=1
2
i
i=1
x y
i
(3.89)
i =1
fazendo s =
x y
i
i=1
, tem-se que
x y
2
i
i =1
s
xi yi =
i=1
2
i
y
i =1
x i2
2
i
(3.90)
i=1
i=1
substituindo (3.87), (3.88) e (3.90) em (3.89) tem-se:

n3 n
2
s
d 2i = 2
i=1
12
n
y
i =1
x i2
2
i
i=1
Assim, obtm-se:
n
s = 1
2
i
i=1
n(n 2 1)
onde: s o Coeficiente de Correlao de Spearman;

di a diferena entre as ordenaes;
n o nmero de pares de ordenaes.
(3.91)
104
Quando a seleo dos elementos que compem a amostra feita de forma

aleatria, a partir de uma populao, possvel determinar se as variveis em
estudo so associadas, na populao. Ou seja, possvel testar a hiptese de que
as duas variveis esto associadas na populao.
Para amostras superiores a 10, segundo SIEGEL (1975), a significncia de
um valor obtido de s pode ser verificada atravs de t calculado pelo estimador
apresentado a seguir.
s
t=
n2
2s
1
~ t n2
(3.92)
onde: t a estatstica do teste;
s o Coeficiente de Correlao de Spearman;

n o nmero de pares de ordenaes.
Para n grande (n 10 ) , a expresso acima tem distribuio t de Student

com n-2 graus de liberdade.
3.2.5.3 Suposies para a utilizao do Coeficiente de Correlao de Spearman

Segundo SIEGEL (1975), o Coeficiente de Correlao de Spearman uma
medida que exige que as duas variveis se apresentem em escala de mensurao
pelo menos ordinal, de forma que os elementos (indivduos ou objetos) em estudo
formem duas sries ordenadas.
3.2.5.4 Aplicao do Coeficiente de Correlao de Spearman

A aplicao apresentada a seguir refere-se ao trabalho de MENEZES,
FAISSOL e FERREIRA (1978), que utilizaram o Coeficiente de Correlao de
Spearman para analisar a correlao entre populao total migrante de destino

urbano e origem rural e populao economicamente ativa nas atividades urbanas,
105
denominadas de X e Y, respectivamente. Tomaram como unidades observacionais

as microrregies homogneas do Estado do Paran. Os dados apresentados na
tabela 3 so referentes ao Censo Demogrfico de 1970.
TABELA 3 - POPULAO MIGRANTE TOTAL E ECONOMICAMENTE ATIVA

NAS ATIVIDADES URBANAS, SEGUNDO MICRORREGIES DO
PARAN - 1970
MICRORREGIO
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
POPULAO MIGRANTE
TOTAL
(X)
POPULAO
ECONOMICAMENTE
ATIVA NAS ATIVIDADES
URBANAS (Y)
42 116
2 448
250
137
1 845
14 796
750
613
3 580
623
7 401
28 528
7 172
86 938
39 501
36 216
32 740
45 510
26 437
1 387
40 978
27 713
3 637
6 268
226 657
21 064
690
803
10 792
48 967
3 304
2 434
11 085
2 455
13 957
45 664
9 219
111 618
47 809
37 141
34 848
42 589
29 485
2 482
48 198
23 832
17 125
14 318
FONTE: MENEZES, FAISSOL e FERREIRA (1978)

NOTA: Populao migrante total de destino urbano e origem rural.
O Coeficiente de Correlao de Spearman obtido foi de 0,92, indicando que

existe forte correlao entre a populao migrante e economicamente ativa,
considerando as microrregies. Os clculos encontram-se no Apndice 5 do trabalho.
106
3.2.6
Coeficiente de Correlao por Postos de Kendall
3.2.6.1 Introduo
O Coeficiente de Correlao por Postos de Kendall ( ) uma medida de
correlao utilizada para dados ordinais, como no caso do Coeficiente de Correlao
de Spearman. Ambas as variveis devem ser medidas no mnimo em nvel ordinal,
de forma que seja possvel atribuir postos a cada uma das variveis.
3.2.6.2
Estimador do Coeficiente de Correlao por Postos de Kendall e

significncia
O estimador do Coeficiente de Correlao por Postos de Kendall definido
como apresentado a seguir:
S
1
n(n 1)
2
(3.93)
onde: o Coeficiente de Correlao por Postos de Kendall;

n o nmero de elementos aos quais se atriburam postos em X e Y;
S a soma do nmero de postos da varivel Y direita que so superiores
menos o nmero de postos direita que so inferiores.

Para o clculo do Coeficiente de Correlao por Postos de Kendall ordena-se
inicialmente uma das variveis em ordem crescente de postos e o S correspondente
a cada elemento ser obtido fazendo o nmero de elementos cujo posto superior
ao que se est calculando menos o nmero de elementos cujo posto inferior ao
mesmo.
Encontra-se, no Apndice 5, o clculo detalhado do exemplo de aplicao
da seo 3.2.6.3.
107
Quando n maior que 10, de acordo com SIEGEL (1975), pode ser
considerado distribudo normalmente com mdia ( ) igual a zero e desvio padro
) dado por:
=
2(2n + 5)
9n(n 1)
e pode-se obter Z =
(3.94)
, que tem distribuio normal com mdia zero e varincia
unitria. A significncia de z pode ser obtida mediante a tabela da distribuio

normal.
Ainda, o autor faz uma comparao entre Coeficiente de Correlao de
Spearman e Coeficiente de Correlao por Postos de Kendall. Os valores numricos
no so iguais, quando calculados para os mesmos pares de postos, e no so
comparveis numericamente. Contudo, pelo fato de utilizarem a mesma quantidade
de informao contida nos dados, ambos tm o mesmo poder de detectar a
existncia de associao na populao, e rejeitaro a hiptese da nulidade para um
mesmo nvel de significncia.
3.2.6.3 Aplicao do Coeficiente de Correlao por Postos de Kendall

MENEZES, FAISSOL e FERREIRA (1978) calcularam o Coeficiente de
Correlao de Kendall para os dados apresentados na tabela 3. O Coeficiente de

Correlao obtido foi de 0,79. Apesar de inferior ao obtido pelo mtodo do
Coeficiente de Correlao de Spearman, indica que h correlao entre as duas
variveis. Segundo SIEGEL (1975), tanto s como apresentam o mesmo poder na
rejeio da hiptese de que no h correlao entre as duas variveis (H0 ) e tem
eficincia de 91% quando comparados ao . Os clculos vm apresentados no
Apndice 5.
108
3.2.7
Coeficiente de Correlao Phi
3.2.7.1 Introduo
O Coeficiente de Correlao Phi utilizado na aplicao da Teoria de
Resposta ao Item (TRI). Para determinar a dimensionalidade de uma medida, um
dos ndices utilizados com base na Anlise Fatorial a partir da matriz dos
coeficientes de Correlao Phi. possvel encontrar um maior detalhamento sobre o
assunto em NOJOSA (2001).
Este coeficiente tambm utilizado na anlise de confiabilidade, j
apresentada na seo 3.2.1.10.1.
Em algumas situaes, as variveis so medidas em nvel nominal ou por
categorias discretas e expressas em forma de freqncias. Nesses casos, no
possvel a utilizao de nenhum dos mtodos vistos anteriormente.
O Coeficiente de Correlao Phi deve ser utilizado quando ambas as variveis
correlacionadas so dicotomizadas (ao serem medidas) ou genuinamente dicotmicas.
George Udny Yule publicou, em 1912, no Journal of Royal Statistical Society, um artigo
sobre o Coeficiente de Correlao Phi. Yule acreditava que era possvel definir um
coeficiente sem assumir a distribuio contnua. Ele defendia que variveis como
vacinado e no vacinado, ou morreu e sobreviveu", so inerentemente discretas e
que mesmo o melhor coeficiente considerando distribuio normal poderia somente
dizer como essas variveis hipotticas se correlacionariam entre si (AGRESTI, 1990).
3.2.7.2 Estimador do Coeficiente de Correlao Phi e significncia

O Estimador do Coeficiente de Correlao Phi foi obtido a partir do
estimador do Coeficiente Linear de Pearson, bastando fazer com que a varivel X
tambm seja dicotmica e distribuda conforme apresentada a seguir:
109
Varivel X
1
TOTAL
Varivel 1
np
nq
np '
n q'
TOTAL
Tem-se, da expresso (3.76), que:
pb =
(X
Xp =
mas
p=
X
Sx
(a + b)
n
p
q
a
a
=
np a + b
n p ' n q'
n n
Xq =
c
c
=
nq c + d
(3.96)
(c + d)
e q=
X = p X p + qX q =
Sx =
(3.95)
(3.97)
(a + b)
n
(c + d) c = (a + c )
a
+
(a + b) n (c + d)
n
(a + c ) (b + d) 1
=
(a + c )(b + d)
n
n
n
(3.98)
(3.99)
Ento, substituindo as expresses (3.96), (3.97), (3.98) e (3.99) em (3.95),

tem-se:
a
(a + c )
(a + b)
n
=
1
(a + c )(b + d)
n
na (a + b )(a + c )
(a + b)
n(a + b)
=
(a + c ) 1 (a + c )(b + d)
n
(a + b)
(a + c )
(a + b )
(a + b ) (a + c )(b + d) (a + c )
na (a + b )(a + c )
=
(ad bc )
(a + b)(a + c)(b + d)(c + d)
onde: o Coeficiente de Correlao Phi;

(3.100)
110
O coeficiente Phi est relacionado com 2 para a tabela 2x2, dada pela
expresso a seguir, como apresentada em FERGUSON (1981):
2
n
ou 2 = n 2
(3.101)
Por essa razo, pode-se testar a significncia de calculando o valor de
2 = n 2 e comparando com o valor de 2 , com 1 grau de liberdade (FERGUSON,

1981).
Os valores de variam entre -1 e +1. Entretanto, para BUNCHAFT e
KELLNER (1999) suficiente que a e d indiquem ou concordncia ou discordncia,
o mesmo acontecendo com b e c.

Devido crescente utilizao do Coeficiente Phi, particularmente
relacionado com intercorrelao em teste de item, tornou-se importante conhecer o
valor mximo que esse coeficiente pode assumir. O valor mximo do Coeficiente de
Correlao Phi pode ser calculado atravs de:
p q
mx = j i
q j p i
onde p i p j 0,5
(3.102)
onde: mx o valor mximo do Coeficiente de Correlao Phi;

pi a maior proporo marginal da tabela de contingncia 2x2;
p j a maior proporo marginal na outra varivel;
qi e q j so seus complementares.
Quando pi = p j o valor mximo de igual a 1.

Quando obtiver um valor do Coeficiente de Correlao Phi negativo, este
pode ser comparado com o valor de Phi mnimo, dado por:
q q
min = i j
p i p j
onde p i p j
(3.103)
111
onde: min o valor mnimo do Coeficiente de Correlao Phi;

pi a menor proporo marginal da tabela de contingncia 2x2;
p j a menor proporo marginal na outra varivel;
qi e q j so seus complementares.
Quando p i = p j o valor mnimo de igual a -1.
3.2.7.3 O Coeficiente de Correlao Phi e a Anlise de Agrupamento

A Anlise de Agrupamento uma tcnica de estatstica multivariada que
permite agrupar unidades semelhantes com base nas distncias ou similaridades.
Quando as unidades observacionais so agrupadas, a proximidade
normalmente indicada por algum tipo de distncia. Entretanto, as variveis so
usualmente agrupadas com base nos coeficientes de correlao ou em outras
medidas de avaliao.
Conforme apresentado em CHAVES NETO (2002b), quando as variveis
so binrias pode-se obter uma tabela de contingncia. Para cada par de variveis,
existem n objetos categorizados, conforme se mostra a seguir:
Varivel i
TOTAL
1
0
Varivel k
1
0
a
b
c
d
a+c
b+d
TOTAL
a+b
c+d
n
Como uma medida de similaridade entre i e k, poder ser tomado o

coeficiente de correlao obtido atravs de:
(ad bc )
(a + b)(a + c )(b + d)(c + d)
3.2.7.4 Aplicao do Coeficiente de Correlao Phi

Os dados utilizados para a aplicao a seguir foram obtidos a partir da
Pesquisa Mensal de Emprego (PME) na Regio Metropolitana de Curitiba (RMC).
112
Dentre os diversos indicadores disponibilizados pela PME, foram

escolhidas duas variveis dicotmicas, uma delas indicando a situao ocupacional
das pessoas (pessoas com trabalho e pessoas desempregadas, ou seja, aquelas
pessoas sem trabalho, e que efetivamente procuraram trabalho no perodo de
referncia da pesquisa) e a outra que caracteriza o gnero (masculino e feminino). A
seguir, apresenta-se a tabela 2X2.
TABELA 4 - SITUAO OCUPACIONAL DA POPULAO ECONOMICAMENTE ATIVA
SEGUNDO GNERO, NA RMC - AGOSTO 2003
SITUAO
OCUPACIONAL
GNERO
Homem
Ocupados
Desempregados
TOTAL
2 896
221
3 117
Mulher
2 157
251
2 408
TOTAL
5 053
472
5 525
FONTE: PME - IPARDES/IBGE

NOTA: A tabulao dos dados foi feita pela autora.
O Coeficiente de Correlao Phi obtido foi = 0,05913 com significncia

< 0,005 , indicando que existe correlao, embora muito pequena, ou seja, existe uma
fraca tendncia no sentido de que a incidncia de desemprego entre as mulheres seja

maior do que entre homens.
evidente que ao calcular o Coeficiente de Correlao Linear de Pearson
para as variveis dicotmicas, obtm-se o mesmo valor, pois trata-se do mesmo
coeficiente.
3.2.8
Coeficiente de Contingncia
3.2.8.1 Introduo
Quando se pretende relacionar dados em nvel nominal, dispostos em
tabelas politmicas, utiliza-se o coeficiente de contingncia C. Este no exige
nenhuma suposio quanto forma da distribuio populacional dos escores, sendo
necessrio, apenas, que a varivel seja medida em nvel nominal.
113
Este coeficiente no pode ser comparado a qualquer outro coeficiente de

correlao, podendo-se comparar vrios coeficientes de contingncia quando estes
forem provenientes de tabelas de mesmas dimenses.
Outra limitao de C que os dados devem satisfazer aos requisitos para
o clculo de 2 . Conforme descrito em SIEGEL (1975), a prova 2 somente pode
ser utilizada adequadamente se menos de 20% das clulas apresentam freqncia
esperada ( fe ) menor que 5, sendo que nenhuma clula deve ter freqncia esperada
menor que 1.
3.2.8.2
Estimador do Coeficiente de Contingncia e significncia

O estimador do Coeficiente de Contingncia conforme apresentado a
seguir:
C=
2
n + 2
(3.104)
onde: C o Coeficiente de Contingncia;
2 o qui-quadrado calculado para os dados;

n o nmero de elementos da amostra.
O 2 calculado atravs de:
n
(foi f ei )2
i=1
f ei
2 =
(3.105)
onde: fo a freqncia observada;

fe a freqncia esperada.
O valor mximo do Coeficiente de Contingncia nunca atinge a unidade,

mesmo que as variveis sejam perfeitamente correlacionadas, embora seja nulo
quando no h correlao.
O valor de C mx poder ser calculado se o nmero de linhas (l ) for igual
ao nmero de colunas (c), atravs de:
114
C mx =
l 1
l
(3.106)
Para verificar se o valor observado de C indica existncia de associao

entre duas variveis na populao, utiliza-se o valor de 2 observado com
gl=( l -1)(c-1). Se 2 calculado para a amostra for significativo, a um certo nvel de
significncia, pode-se concluir que a associao entre as duas variveis diferente
de zero.
3.2.8.3 Aplicao do Coeficiente de Contingncia

O trabalho discutido a seguir, intitulado Cumplimento del rgimen teraputico
y su relacin con las caractersticas biolgicas y sociales del indivduo con insuficincia
renal crnica terminal en hemodilisis, foi desenvolvido por TOBO et al. (1995).
O estudo foi realizado com amostra de 68 pessoas com insuficincia renal

crnica terminal, que se submeteram a hemodilise em 3 unidades da cidade de
Cali, Colmbia, no perodo de setembro a outubro de 1994. O objetivo foi determinar
a relao entre as caractersticas biolgicas e psicolgicas com o cumprimento do
regime teraputico.
A seleo da amostra foi aleatria e o tamanho determinado por meio de
uma prova estatstica para estudos descritivos, com 94% de confiana e 6% de
margem de erro.
O estudo consistiu no clculo de estatsticas descritivas, teste 2 (Quiquadrado), Coeficiente de Correlao Phi e Coeficiente de Contigncia (C).
As informaes foram obtidas mediante um questionrio, com trs
enfoques: dados de identificao, caractersticas sociais e biolgicas e cumprimento
do regime teraputico.
As caractersticas sociais e biolgicas contempladas foram: idade, sexo,
enfermidade associada, limitao fsica, escolaridade, estado civil, tempo de
hemodilise, opinio sobre a doena e tratamento, condio socioeconmica e apoio
familiar.
115
Alguns dos resultados alcanados foram: (i) a escolaridade relaciona-se

significativamente com os nveis sricos de nitrognio urico, potssio, clcio,
fsforo e albumina, sendo o coeficiente de contingncia resultante igual a C = 0,32 ,
indicando uma correlao moderada; (ii) a associao entre o tempo de hemodilise
e o cumprimento da terapia dialtica apresentou Coeficiente de Contingncia igual a
C = 0,35 , indicando que a correlao entre estas variveis moderada, ou seja,
quanto menor o tempo de hemodilise, maior o cumprimento desta terapia; (iii) a

associao entre as variveis conhecimento da doena e do tratamento e volume
total de sangue teve um resultado estatisticamente significativo, apresentando
coeficiente igual a = 0,31 .
3.2.9
Coeficiente de Correlao Eta
3.2.9.1 Introduo
O coeficiente de correlao a ser calculado quando se tem uma varivel
quantitativa Y e outra varivel categrica ou nominal X, conforme descrito em
SILVEIRA (1999), o Coeficiente de Correlao Eta. Este resulta sempre em um
valor no intervalo fechado 0 e 1.

Conforme descreve FERGUSON (1981) e CHEN e POPOVICH (2002), a
Correlao Eta tem sido apresentada como a medida apropriada para descrever a
relao no-linear entre duas variveis. Se uma das variveis - digamos, a
independente - uma varivel nominal, e a outra varivel intervalar ou de razo, a
idia de linearidade ou no-linearidade praticamente no tem sentido.
Para DOWNIE e HEATH (1959), o coeficiente correto quando a relao
entre dois conjuntos de dados curvilnea o Coeficiente Eta. Os valores de Eta e
devem ser idnticos, quando a relao linear. Se a relao curvilnea, Eta

maior que , e a diferena entre os dois indica o grau de distncia da linearidade.
Conforme apresenta CHEN e POPOVICH (2002), o Coeficiente Eta
tambm um caso especial de . Se os valores de Y (varivel nominal) forem
substitudos pela mdia de X, correspondente a cada categoria, o resultado ser
equivalente ao .
116
3.2.9.2
Estimador do Coeficiente de Correlao Eta e significncia

O estimador do Coeficiente de Correlao Eta a raiz quadrada da
expresso a seguir:
soma de quadrados entre grupos
soma de quadrados total
2y,x =
(3.107)
O erro padro do quadrado do Coeficiente Eta dado por:
2
y, x
1 2y,x
nk
(3.108)
2y,x o erro padro do quadrado do Coeficiente Eta;

onde:
2y,x o quadrado Coeficiente Eta;
n o nmero de observaes da amostra;
k o nmero de categorias da varivel nominal.
Na Anlise da Varincia (ANOVA) a um critrio de classificao ou

experimento de um fator so envolvidas duas variveis, sendo que a varivel
independente normalmente do tipo nominal e a dependente medida em nvel
intervalar ou de razo.
Na ANOVA, a soma de quadrados total dividida em soma de quadrados
entre grupos e soma de quadrados dentro dos grupos. A soma de quadrados entre
grupos a parte da variao atribuda varivel independente, e dentro dos grupos
a outros fatores.
A Correlao Eta ao quadrado a razo entre a soma de quadrados entre
grupos e a soma de quadrados total, equivalente ao 2 do modelo de regresso
linear simples14.
14
2
= variao explicada/variao total.
117
Para
testar
significncia
do
Coeficiente
de
Correlao
Eta
( H0 : = 0 e H1 : 0 ), usa-se a razo F (que exatamente a razo F da ANOVA),

dada por:
2y,x /(k 1)
F=
(1 2y,x ) /(n k )
(3.109)
onde: F a estatstica do teste;

k o nmero de categorias da varivel nominal;
n o nmero total de observaes.
3.2.9.3 O Coeficiente de Correlao Eta e a Anlise de Varincia

A Anlise de Varincia utilizada para testar a hiptese de diferena entre
duas ou mais mdias. A hiptese a ser testada ser H0 : 1 = 2 = 3 = ... = k .
possvel, atravs do Coeficiente de Correlao Eta, testar a hiptese de
diferena entre duas ou mais mdias. Neste caso, a varivel nominal ou ordinal
assume duas ou mais categorias. Da mesma forma que no caso anterior, a hiptese
a ser testada ser de H0 : = 0 .
Rejeitando-se a hiptese de que a correlao igual a zero, est-se
aceitando a hiptese de que pelo menos uma das mdias diferente. Para
identificar qual mdia difere das demais, pode-se utilizar, entre outros, os testes de
Diferena Mnima Significante (DMS), Duncan e Scheff, abordados em SNEDECOR e
COCHRAN (1980).
3.2.9.4 Aplicao do Coeficiente de Correlao Eta

A aplicao apresentada a seguir refere-se ao trabalho realizado por
SILVEIRA (1999), em que se utilizou o Coeficiente de Correlao Eta para estudar a
relao entre o desempenho na prova de Biologia do Concurso Vestibular de 1999
118
da Universidade Federal do Rio Grande do Sul, e o tipo de ensino mdio cursado

pelos candidatos.
O desempenho na prova de Biologia, de um total de 35.463 candidatos, foi
correlacionado com o tipo de ensino mdio que cursaram, a saber: noprofissionalizante, profissionalizante, magistrio, militar e supletivo. A prova de
Biologia era composta de 30 itens de mltipla escolha, com resposta nica.
O Coeficiente de Correlao Eta obtido foi = 0,27 , o que indica a
existncia de alguma relao entre as variveis. Foi possvel tambm observar,
atravs dos resultados, que os candidatos que cursaram o ensino mdio em escolas
militares apresentaram, em mdia, melhor desempenho, com mdia em torno de 15
acertos. Por outro lado, os que cursaram o supletivo tiveram o pior desempenho,
com mdia em torno de 9 acertos.
3.2.10
Resumo dos Coeficientes de Correlao entre Duas Variveis

Apresenta-se, no quadro 5, o resumo dos diferentes mtodos para
obteno do coeficiente de correlao entre duas variveis.

QUADRO 5 - RESUMO DOS COEFICIENTES DE CORRELAO ENTRE DUAS VARIVEIS
COEFICIENTE SMBOLO
Pearson
Ponto Bisserial
pb
Bisserial
b
t
Tetracrico
Phi
Spearman
VARIVEIS
INTERVALO
DE VARIAO
1 1
1 pb 1
Contnua
Contnua
Contnua
Dicotmica
1 b 1
1 t 1
1 1
Contnua
Contnua, mas dicotomizada
Dicotmica
Dicotmica
Dados em ranks ou
passveis de serem
transformados
Dados em ranks
Nominal
Dados em ranks ou
passveis de serem
transformados
Dados em ranks
Nominal
Contnua ou discreta; pode
assumir valores nominais ou
outros tipos de valores
1 s 1
Kendall
Contingncia
1 1
0 C<1
Eta
0 1
FONTE: DOWNIE e HEATH (1959)
Contnua
119
3.3
3.3.1
MEDIDAS DE CORRELAO ENTRE DIVERSAS VARIVEIS
Matriz de Correlaes
Quando se tem p > 2 variveis, e o interesse conhecer as correlaes
existentes entre as variveis, duas a duas, ou seja, X i com X j , i j . A partir de

coeficientes simples obtm-se a matriz de correlaes, representada da seguinte forma:
1
21
= 31
...
n1
12
1
13
23
...
1
...
32
n2
n3
...
...
...
...
...
1p
2p
3p matriz de correlao populacional
...
(3.110)
A matriz um parmetro populacional estimado por:

1
21
= 31
...
n1
12
1
32
...
n2
13
23
1
...
n3
...
...
...
...
...
1p
2p
3p
...
matriz de correlao amostral
(3.111)
Uma das principais aplicaes da matriz de correlao est na anlise da

estrutura de varincia-covarincia de um vetor aleatrio X .
3.3.1.1 Anlise de Componentes Principais

3.3.1.1.1 Introduo
Uma das importantes aplicaes no estudo da Anlise de Covarincia e
Correlao est a Anlise de Componentes Principais. Como se sabe, a matriz
(covarincia) ou (correlao) resume a estrutura de associao entre as p
variveis de um vetor aleatrio X .
A partir de ou de inicia-se o procedimento da Anlise de
Componentes Principais, conforme descrita a seguir.
120
Seja o vetor aleatrio X = [X1, X 2 ,..., X p ] , que tem a matriz de covarincia
, com autovalores 1 2 ... p 0 . Considerando-se as seguintes combinaes

lineares:
Y1 = e 1 X = e11 X1 + e 21 X 2 + ... + e p1 X p
Y2 = e 2 X = e12 X1 + e 22 X 2 + ... + e p2 X p
...
...
...
+ ...
+ .. . + ...
(3.112)
Yp = e p X = e1p X 1 + e 2p X 2 + ... + e pp X p
com i = 1, 2,..., p
As componentes principais so as combinaes lineares Y1, Y2 ,..., Yp , no
correlacionadas, cujas varincias so to grandes quanto possvel.
A primeira componente principal a combinao linear l 1 X , que maximiza
Var (l 1 X) , sujeito a l 1 l 1 = 1 . A segunda componente a combinao linear l 2 X ,
que maximiza Var (l 2 X) , sujeito a l 2 l 2 = 1 e COV(l 1 X, l 2 X) = 0 , e assim at a

i-sima componente principal.
Ento, conforme descrito em JOHNSTON e WICHERN (1988), tem-se:
Var ( Yi ) = e i e i
= i
COV( Yi , Yk ) = e i e k = 0
i = 1, 2,..., p
(3.113)
i k = 1, 2,..., p
(3.114)
Os pares ( 1, e1 ), ( 2 , e 2 ),..., ( p , e p ) , com 1 2 ... p 0 , so os pares de

autovalores e autovetores de . possvel calcular os coeficientes de correlao
entre as componentes Yi e as variveis X k , atravs de:
( Yi , X k ) =
COV( Yi , X k )
Var ( Yi )Var ( X k )
i e ki
i
kk
e ki i
kk
i, k = 1, 2,..., p
(3.115)
As componentes principais podem ser obtidas, ainda, a partir da matriz de

correlao , obtendo-se os autovalores e autovetores e as componentes, exatamente
121
da mesma forma como foi descrita acima, apenas substituindo por e , quando se
trata de amostra, substituindo por S e .
Os escores obtidos para cada unidade observacional e para cada cada
uma das componentes principais podem ser utilizados como dados de entrada, ou
seja, variveis independentes, para a anlise de regresso mltipla.
3.3.1.1.2 Aplicao da Anlise de Componentes Principais

A aplicao apresentada a seguir refere-se ao trabalho desenvolvido por
ALMEIDA
FILHO
(2001),
cujo
objetivo
foi
estudar
possibilidade
de
microexsudao de hidrocarbonetos ter criado alteraes mineralgicas e/ou

associaes rocha-solo-vegetao, na regio localizada no Estado da Bahia,
municpio de Macurur, regio de influncia da cidade de Paulo Afonso. Para
viabilizar o estudo, foram analisadas imagens do Landsat Thematic Mapper (TM).
Foram utilizadas imagens multiespaciais do dia 7 de outubro de 1987. A
seleo de conjunto de imagens mais antigas (sem cobertura de nuvens), conforme
descreve o autor, visou minimizar possveis influncias de atividade antrpica na
cobertura vegetal.
Segundo o autor, uma caracterstica marcante das imagens multiespaciais
que as informaes referentes a distintas bandas so muitas vezes redundantes,
fazendo com que as correlaes entre elas sejam elevadas. O quadro 6 apresenta
os coeficientes de correlaes entre as bandas.
QUADRO 6 - MATRIZ DE CORRELAO ENTRE AS BANDAS LANDSAT-TM EM
MACURUR - OUTUBRO 1987
BANDAS
TM1
TM2
TM3
TM4
TM5
TM7
TM1
TM2
TM3
TM4
TM5
TM7
1,000
0,902
0,840
0,715
0,689
0,728
0,902
1,000
0,946
0,851
0,764
0,812
0,840
0,946
1,000
0,841
0,863
0,898
0,715
0,851
0,841
1,000
0,711
0,715
0,689
0,764
0,863
0,711
1,000
0,959
0,728
0,812
0,898
0,715
0,959
1,000
FONTE: ALMEIDA FILHO (2001)
122
Utilizou-se a tcnica de Anlise de Componentes Principais para evitar as

correlaes entre as bandas e separar as informaes que so especficas de cada
banda espectral. Os autovalores e autovetores obtidos a partir da matriz de
covarincia encontram-se no quadro 7.
QUADRO 7 - AUTOVALORES E AUTOVETORES SEGUNDO COMPONENTES PRINCIPAIS
COMPONENTE
PRINCIPAL
1
2
3
4
5
6
AUTOVALORES
Abs.
2 683
581
491
223
89
44
AUTOVETORES
TM1
68
13
11
5
2
1
0,083
0,116
0,199
0,249
0,610
0,711
TM2
0,187
0,304
0,344
0,311
0,458
0,699
TM3
TM4
TM5
TM7
0,332
0,300
0,430
0,412
-0,642
0,199
0,302
0,771
-0,454
-0,324
0,019
0,063
0,640
-0,383
-0,522
0,409
0,042
0,045
0,595
-0,255
0,423
-0,631
0,065
0,019
FONTE: ALMEIDA FILHO (2001)
A anlise se concentrou nas componentes 3, 4 e 5, que embora tenham

totalizado apenas 18% da variao dos dados, segundo o autor, as informaes
espectrais contidas nessas componentes, isentas das contribuies de albedo
(componente 1) e da cobertura vegetal (componente 2), esto relacionadas ao
comportamento espectral de feies do terreno.
Conforme analisa o autor, a componente 3 pode ser entendida como
expressando respostas de solo, enquanto a componente 4 sugere influncia de
resposta espectral de argilas, podendo tambm estar sendo influenciada pelo
material barbontico.
A componente 5 denominada pelas bandas do visvel, podendo-se inferir,
como afirma o autor, a contribuio de material limontico.
3.3.1.2 Anlise Fatorial

3.3.1.2.1 Introduo
Uma aplicao importante da Anlise de Covarincia e Correlao est na
tcnica conhecida como Anlise Fatorial. Esta tcnica parte da matriz de covarincia
ou de correlao , que resume a estrutura de relacionamento entre as variveis.
123
Ento, da matriz de dados X de ordem n x p, onde n o nmero de observaes e p

o nmero de variveis, obtm-se a matriz de covarincia ou de correlao de
ordem pxp. A partir da inicia-se a tcnica de Anlise Fatorial, descrita
a seguir.
O objetivo principal da anlise fatorial descrever a estrutura de
covarincia dos relacionamentos do conjunto com p variveis atravs de variveis
no observveis chamadas fatores.
Supondo que as variveis possam ser agrupadas por suas correlaes,
tem-se grupos cujas variveis so altamente correlacionadas entre si, porm com
correlaes relativamente baixas com as variveis de outros grupos, podendo-se,
assim, dizer que cada grupo de variveis representa um fator.
Seja X o vetor aleatrio com p componentes, ento X ~ (, ) . O modelo
fatorial postula, segundo CHAVES NETO (2002), que X linearmente dependente de
algumas variveis aleatrias no observveis F1, F2 ,..., Fm , chamadas fatores comuns
e p fontes de variao aditivas, 1, 2 ,..., p , chamadas erros, ou fatores especficos.
Assim, tem-se o modelo na forma matricial, como segue:
X = LF +
(3.116)
onde L a matriz de carregamentos dos fatores, e o elemento da i-sima linha e

j-sima coluna, coeficiente l ij , chamado de carregamento do j-simo fator na
i-sima varivel.
Os desvios X1 1, X 2 2 ,..., X p p so expressos em termos de p + m
variveis aleatrias: F1, F2 ,..., Fm , 1, 2 ,..., p , que no so observveis. A diferena
entre este modelo e o de regresso mltipla est, justamente, no fato de que as
variveis independentes (Fi ) i= 1, 2,..., n no so observveis.
Assumem-se algumas suposies:
E(F) = 0
(3.117)
COV(F) = E(FF ) = I (matriz identidade)
(3.118)
124
E() = 0
(3.119)
COV() = E( ) = (matriz das varincias especficas)
(3.120)
COV(,F) = E( F) = 0
(3.121)
Ento, o modelo
com m = p
X = LF + chamado modelo fatorial ortogonal e
pode ser escrito como: X = + LF + .

A parte da varincia da i-sima varivel aleatria X, devida contribuio
dos m fatores comuns, chamada de comunalidade, e a parte devida ao fator
especfico chamada de varincia especfica. Assim, tem-se:
V( X i ) = V( i + l i1F1 + l i2F2 + ... + l imFm + i )
(3.122)
V( X i ) = l 2i1 + l 2i2 + ... + l 2im + i
(3.123)
Fazendo h i2 = l 2i1 + l 2i2 + ... + l 2im , tem-se V( Xi) = h i2 + i , i = 1,2,..., p , onde hi2
a comunalidade e i a varincia especfica.
O modelo fatorial ortogonal procura representar de forma adequada o
conjunto de dados, atravs de um nmero menor de fatores. A matriz de covarincia S
um estimador da matriz populacional desconhecida e , geralmente, usada, pois
no se conhece o parmetro , ou, ainda, o estimador de , , usado quando se
faz a anlise a partir da matriz de correlao.
Conforme apresentado em JOHNSTON e WICHERN (1988), se os
elementos fora diagonal de S (matriz de covarincia amostral) so baixos, ou na
matriz de correlao amostral so praticamente nulos, as variveis no so
relacionadas e a anlise fatorial no til. Contudo, se S significativamente
diferente de uma matriz diagonal, ento possvel utilizar o modelo fatorial. Para tal
deve-se estimar os carregamentos l ij e as varincias especficas i . A estimao
poder ser feita pelo mtodo das Componentes Principais, que o preferido, ou pelo
mtodo da Mxima Verossimilhana.
A matriz de carregamentos estimados l ij dada por:
L = 1 e1, 2 e 2 ,..., m e m
(3.124)
125
onde 1, 2 ,..., m so os autovalores de S e e1, e 2 ,..., e m , os autovetores e m o

nmero de fatores, quando se faz a anlise a partir de S ou, ento, tem-se
estimativas equivalentes quando a anlise a partir de .
As varincias especficas so estimadas por:
...
...
...
...
...
...
0
i = S ii
com
...
p
j =1
i = 1
l 2ij ou
2
ij
(3.125)
j =1
Na Anlise Fatorial, a interpretao dos fatores ser facilitada pela rotao

dos mesmos. A rotao poder ser ortogonal (com independncia dos fatores
extrados) ou oblquos (os fatores so correlacionados). Na rotao ortogonal, os
mtodos mais utilizados so o quartimax e o varimax. O primeiro mtodo procura
maximizar a carga fatorial de uma varivel com um fator e minimizar com os outros
fatores. J o segundo mtodo busca, inversamente, simplificar as colunas da matriz
de cargas fatoriais, isto , procura definir mais claramente quais variveis esto
associadas com um determinado fator e quais no esto. Mais detalhes podero ser
obtidos em FACHEL (1976) e JOHNSON e WICHERN (1988).
Em muitas aplicaes, os valores estimados dos fatores comuns,
denominados escores fatoriais, so importantes e se necessita obter.
Os escores fatoriais so estimativas dos valores para os vetores fatoriais
aleatrios no observveis F j , j = 1, 2,..., m . Uma tcnica bastante utilizada na
estimao o mtodo dos mnimos quadrados ponderados, desenvolvido por
Bartlett, embora existam outras, tais como a da Regresso e a da Regresso para
Fatores Correlacionados.
O estimador dos escores fatorais pelo mtodo de Mnimos Quadrados
Ponderados para o j-simo fator dado por:
f j = L L L x j x
1
(3.126)
A Anlise Fatorial pode ser utilizada a partir da matriz de covarincia , ou de

correlao , como j se citou. Se o estudo for realizado a partir dos dados amostrais,
tem-se a matriz de varincia e de correlao amostral S e , respectivamente.
126
Em FACHEL (1986) so apresentadas as diferentes matrizes de correlao

que so utilizadas como dados de entrada (input), na anlise fatorial, estando,
dentre elas, as matrizes formadas pelos coeficientes tetracrico e Phi. Faz-se uma
comparao entre diferentes mtodos de Anlise Fatorial e a Anlise Fatorial de
Bartholomew, para dados categricos.
3.3.1.2.2 Aplicao da Anlise Fatorial

A aplicao apresentada a seguir refere-se ao trabalho realizado por
FURTADO (1999), cujo objetivo foi fazer um ranqueamento (hierarquizao) de reas
especialmente
protegidas,
chamadas
de
faxinais
do
Estado
do
Paran,
considerando as variveis avaliadas pelo Instituto Ambiental do Paran (IAP).

Os faxinais so entendidos, de acordo com o Decreto Estadual no.
3.446/97, conforme descreve o autor, como um sistema tradicional, caracterstico da
regio Centro-Sul do Paran, que tem como caracterstica marcante o uso coletivo
da terra para a produo animal e a conservao ambiental.
As informaes levantadas neste trabalho referem-se ao ano agrcola de
agosto de 1997 a julho de 1998. Os questionrios foram aplicados s famlias e
lideranas locais. O universo de famlias foi de 1.947 e foram aplicados os
questionrios em uma amostra de 316 famlias, tendo sido adotada uma preciso da
estimativa de 5,5%, considerando-se um nvel de confiana de 95%.
Os dados foram coletados atravs da aplicao de questionrios s
famlias selecionadas para compor a amostra, que se distribuem em 20 faxinais
pertencentes a 4 municpios. Os faxinais esto localizados conforme mostra o
quadro 8, apresentado a seguir:
QUADRO 8 - NMERO DE FAXINAIS, SEGUNDO MUNICPIOS
DA REGIO CENTRO-SUL DO PARAN AGOSTO 1997-JULHO 1998
MUNICPIO
Prudentpolis
Rebouas
Irati
Boa Ventura de So Roque
FONTE: FURTADO (1999)
NMERO DE FAXINAIS
14
3
2
1
127
Criou-se uma matriz composta de 20 linhas e 80 colunas, em que 20 o

nmero de faxinais e 80 o nmero de variveis. As descries das variveis
podero ser encontradas detalhadamente em FURTADO (1999) e FURTADO e
CHAVES NETO (2003).
Estimou-se a matriz de correlao das variveis e, em seguida, os pares de

autovalores e autovetores dessa matriz. Considerando os autovalores superiores a 1,
foram escolhidos 17 fatores, que correspondem a um grau de explicao de 97,764%.
A matriz de carregamentos fatoriais foi obtida a partir de autovalores e
autovetores associados. Utilizou-se o mtodo varimax normal para a obteno da
matriz de carregamentos fatoriais rotacionados e, aps, foram determinadas as
comunalidades e as varincias especficas de cada varivel.
Os escores fatoriais foram estimados pelo mtodo de mnimos quadrados
ponderados. Os escores de cada Faxinal foram obtidos ponderando-os pela
importncia de cada fator, ou seja, pelo autovalor.
O quadro a seguir apresenta o ranqueamento dos faxinais estudados. Os
escores brutos foram obtidos atravs de mdia aritmtica dos 17 escores fatoriais,
ponderada pelos autovalores da matriz de correlao. Na seqncia, os escores
foram colocados na escala entre 0 e 2.
QUADRO 9 - RANQUEAMENTO DOS FAXINAIS DA REGIO CENTRO-SUL DO
PARAN - AGOSTO 1997-JULHO 1998
FAXINAL
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
So Pedro
Iva - Anta Gorda
Ponte Nova
Linha Braslia
Patos Velhos
Papanduva de Baixo
Queimadas
Cachoeira do Palmital
Rio dos Couros
Rio do Meio
Tijuco Preto
Paran - Anta Gorda
Guanabara
Salto
Taboozinho
Dos Mellos
Marmeleiro de Baixo
Dos Krieger
Marmeleiro de Cima
Rio Bonito
FONTE: FURTADO (1999)
ESCORES BRUTOS
406,0385
255,5732
163,4198
150,4757
116,3825
92,0459
71,1442
62,9660
2,5779
-9,2271
-11,4835
-19,0331
-71,2905
-101,9150
-105,5850
-113,3440
-123,3310
-202,2800
-264,0430
-299,0920
ESCORES
PADRONIZADOS
1,8000
1,4586
1,2495
1,2201
1,1427
1,0875
1,0401
1,0215
0,8845
0,8577
0,8526
0,8355
0,7169
0,6474
0,6391
0,6215
0,5988
0,4197
0,2795
0,2000
128
3.3.2
Coeficiente de Correlao Mltipla e Parcial
3.3.2.1 Introduo
O Coeficiente de Correlao Mltipla indica o grau de relacionamento entre
as variveis independentes representado pelo vetor X , onde X = [X1, X 2 , X 3 ,..., X p ] e
a varivel dependente (Y).
Os princpios gerais do mtodo para a Correlao Mltipla constituem
apenas uma extenso direta dos conceitos e raciocnios apresentados para o
Coeficiente Linear de Pearson.
A Correlao Mltipla no simplesmente a soma de correlaes da
varivel dependente com as independentes tomadas separadamente (GUILFORD,
1950). Uma das razes que as variveis independentes so normalmente
intercorrelacionadas, conhecidas tambm como multicolineares. Quando as
intercorrelaes forem iguais a zero, ento o quadrado do coeficiente de correlao
mltipla ser a soma dos quadrados dos coeficientes de cada varivel independente
com a dependente.
A Correlao Mltipla aumenta quando aumenta o tamanho da correlao
entre as variveis dependentes e independentes e quando o tamanho das
intercorrelaes entre as variveis independentes diminui (GUILFORD, 1950).
Da mesma forma que a anlise de correlao simples e a regresso
simples esto ligadas, a correlao e regresso mltipla tambm esto.
A anlise de regresso mltipla tratada atravs do modelo linear geral:
Y = X +
onde: Y o vetor das observaes (respostas) de dimenso n;

X a matriz de dados de ordem n p ;
vetor dos parmetros de dimenso p ;
vetor dos erros de dimenso n .
(3.127)
129
comum que algumas ou todas as variveis explicativas (independentes)

estejam correlacionadas umas com as outras, o que dificulta isolar suas influncias
separadamente e obter uma estimativa razoavelmente precisa de seus efeitos relativos.
Uma das formas de resolver a multicolinearidade atravs da utilizao de
componentes principais (NETER et al., 1996), uma vez que as componentes
principais so combinaes lineares independentes. Mais uma vez necessita-se da
matriz de correlao, agora das variveis explicativas.
A anlise de componentes principais procura, segundo CHAVES NETO
(2002b), explicar a estrutura de varincia-covarincia da matriz de dados a partir de
combinaes lineares no correlacionadas das p variveis originais. Freqentemente,
a maior parte da variabilidade do conjunto de variveis pode ser explicada por um
nmero menor, k, de componentes principais. As k componentes principais contm
quase a mesma quantidade de informaes que as p variveis originais. possvel,
assim, utilizar as componentes principais em substituio das variveis originais.
3.3.2.2 Suposies para a utilizao do Coeficiente de Correlao Mltipla

A primeira suposio para a utilizao da Correlao Mltipla que as
variveis sejam aleatrias. Como segunda suposio, deve-se considerar que as
relaes entre as variveis sejam lineares e, finalmente, as varincias sejam iguais
(homocedasticidade) e as distribuies condicionais todas normais.
Uma vez que existe relao entre a anlise de correlao mltipla e
regresso mltipla, possvel, atravs da segunda, obter-se o coeficiente de
correlao mltipla. Neste caso, as suposies sobre o erro do modelo de regresso
mltipla devem ser consideradas. As suposies usuais sobre a componente so
as seguintes:
(i)
E (i) = 0
, i = 1, 2, ..., n
(3.128)
(ii)
VAR (i) = 2
, i = 1, 2, ..., n
(3.129)
(iii) COV (i, j) = 0 , i, j = 1, 2, ..., n, i j
(3.130)
130
Conforme descrito em SIQUEIRA (1983), para fazer inferncias estatsticas

(teste de hipteses e estimao por intervalos) necessrio atender suposio de
que:
(iv) i ~ N (0, 2),
i = 1, 2, ..., n
(3.131)
Quando as suposies no so atendidas, possvel fazer alguma

transformao nas variveis, conforme j apresentado na seo 3.2.1.2.
3.3.2.3 Estimador do Coeficiente de Correlao Mltipla

Seja Y a varivel dependente e X 1 e X 2 as independentes. O modelo de
regresso linear poder ser escrito sob a forma:
Yi = 0 + 1 X1i + 2 X 2 i + i ,
i = 1, 2, 3,... , n
(3.132)
A estimativa do modelo poder ser escrita na forma:

Yi = b 0 + b1X1i + b 2 X 2 i + i
(3.133)
onde tem-se que i = Yi Yi , que representa o erro.

A soma de quadrados dos erros representada pela expresso a
seguir:
n
2
i
i=1
(Y Y ) = (Y b
n
i=1
b1 X1i b 2 X 2 i
(3.134)
i=1
Derivando-se parcialmente a expresso acima em relao a b 0 e

igualando-se a zero, tem-se:
n
(Y b
b 1 X 1i b 2 X 2 i = 0
i=1
Y nb
i
i=1
n
i=1
b1
= nb 0 + b 1
1i
i=1
i =1
2i
i=1
b2
1i
+ b2
X
i =1
2i
=0
131
Dividindo por n tem-se:

Y = b 0 + b1 X1 + b 2 X 2
(3.135)
Subtraindo (3.135) de (3.133) tem-se:

y i = 1x 1i + 2 x 2 i
Escrevendo a soma de quadrados dos erros na forma:
i=1
i=1
i2 = y i 1x 1i 2 x 2 i
Derivando-se parcialmente em relao a 1 e 2 tem-se as duas equaes

normais:
n
i2
= 2
i=1
x 1i y i + 1
i=1
x 12i + 2
i=1
1i x 2i
i=1
i2
= 2
i=1
x 2i y i + 1
i=1
x 1i x 2i + 2
i =1
2
2i
i=1
Logo:
n
x 1i y i = 1
i=1
n
x 12i + 2
i=1
x 2i y i = 1
i=1
1i x 2i
i=1
x 1i x 2i + 2
i=1
2
2i
i=1
Resolvendo as equaes tem-se:
1 =
1 =
y i x 1i
i =1
i=1
x 12i
i=1

x 22i

i=1
Y,X Y,X X ,X
1
1 ( X ,X
1
x 22i
y i x 2i
i=1
SY
S X1
i=1
x
i=1
x 1i x 2i
1i x 2i
(3.136)
132
2 =
y i x 2i
i=1

x 12i
i=1

n
x 12i
i=1
i=1

2 = Y,X Y,X X2,X
1 ( X ,X )
2
x 22i
i=1
y i x 1i
1i x 2i
i=1
x 1i x 2i
i=1
SY
(3.137)
S X2
A varincia do erro dada por:
S2 =
Mas
1
n 1
2
(y i y i )
1
n 1
i=1
2
i
i=1
i=1
i=1
i2 = i y i 1x 1i 2 x 2 i
n
Ento tem-se que (n 1) S 2 = i y i 1x 1i 2 x 2 i

i=1
i=1
i=1
i=1
Logo (n 1) S 2 = i y i 1 i x 1i 2 i x 2i ,
mas
x
i
1i
i=1
2
i
i=1
n
i=1
y
i
i=1
2
i
i=1
= 0 , ento
2i
i=1
y (y
n
1x 1i 2 x 2 i
2
i
1 y i x 1i 2 y i x 2i
i=1
2
i
y
i=1
i =1
i=1
Tem-se que: = 1
2
i2
i =1
n
= 1
y i2
i=1
e, 2 =
i=1
y i2 1
y i x 1i 2
i=1
x 2i
i=1
2
i
i=1
1 y i x 1i + 2 y i x 2i
i=1
i =1
i =1
y i2
(3.138)
133
Substituindo (3.136) e (3.137) em (3.138) tem-se:
2Y,X ,X =
1
2Y,X + 2Y,X 2 Y,X Y,X X ,X

1
X1,X2
1
(3.139)
Portanto, o estimador do Coeficiente de Correlao Mltipla entre trs

variveis obtido atravs de:
Y,X ,X =
1
2X ,Y + 2X ,Y 2 X ,Y X ,Y X ,X
2X ,X
1
1
(3.140)
Ou ainda, atravs da raiz quadrada do coeficiente de determinao ou

explicao, dada por:
SQ Re gr
(3.141)
SQ Total
Quando se tratar de amostras pequenas, deve-se fazer a seguinte

correo (BUNCHAFT e KELLNER, 1999):
c2 = 1 (1 2 )
(n 1)
(n m)
logo:
c = 1 (1 2 )
(n 1)
(n m)
(3.142)
onde: c o coeficiente de correlao corrigido;
o coeficiente de correlao;
n o tamanho da amostra (nmero de observaes da amostra);
m o nmero de variveis correlacionadas.
Quanto maior a amostra e menor o nmero de variveis, menor ser a

diferena entre os coeficientes. Uma amostra pequena, bem como um nmero
grande de variveis, levam ao aumento do coeficiente de correlao.
134
A significncia do Coeficiente de Correlao Mltipla calculada atravs

da razo F:
F=
2 / k
2 ) /(n k 1)
(1
(3.143)
onde: 2 o coeficiente de determinao;

n o tamanho da amostra (nmero de observaes da amostra);
k o nmero de variveis independentes.
J o Coeficiente de Correlao Parcial usado quando se deseja conhecer

a correlao entre duas variveis quaisquer, quando os efeitos das outras variveis
forem controlados, ou seja, desconsiderados. Para representar a correlao
amostral entre as variveis X1 e X2, controlando X3, utiliza-se a correlao parcial
com notao 12,3 . Esta notao pode se estender a qualquer nmero de variveis
controladas, acrescentando-se, direita da vrgula, as outras variveis.
Para calcular o coeficiente 12,3 , elimina-se a influncia linear de X 3 de X1
e de X 2 . Sejam as regresses lineares entre X1 e X 3 e X 2 e X 3 dadas por:
X1i = a13 + b13 X 3 i + u i
(3.144)
X 2 i = a 23 + b 23 X 3 i + u i
(3.145)
Escrevendo-as nas formas de desvios, tem-se:

x 1i = 13 x 3 i + u i
x 2 i = 23 x 3 i + u i
Os resduos no explicados de X1 e X 2 das regresses so dados por:

u i = X1i a13 b13 X 3 i = x 1i 13 x 3 i
v i = X 2 i a 23 b 23 X 3 i = x 2 i 23 x 3 i
135
O coeficiente de correlao entre X1 e X 2 , com X 3 fixo, obtido

calculando-se o coeficiente de correlao simples entre ui e v i , ou seja:
n
u v
i
12,3 =
i =1
(3.146)
u v
2
i
i=1
2
i
i=1
u i e v i so resduos (erros) das regresses de mnimos quadrados,
portanto tm mdias iguais a zero. Assim, possvel escrever:
(x
n
12,3 =
1i
)(
13 x 3 i x 2 i 23 x 3 i
i=1
(3.147)
u i2
i=1
v i2
i=1
Tem-se da expresso (3.18) na seo 3.2.1.3, que:
(Y Y )
n
2X, Y =
i =1
(Y Y )
n
(Y Y )
n
= 1
(Y Y )
n
i=1
2
i
= 1
i =1
i =1
Portanto:
i =1
2
i
i =1
n
(3.148)
y i2
i =1
y (1 )
n
2
i
2
X,Y
i=1
Da mesma forma tem-se que:

n
u i2 =
i=1
(
n
12,3
x 12i 1
i=1
v i2 =
i=1
x (1 )
n
2
2i
2
2,3
i =1
S
S
Tem-se ainda que 13 = 13 1 e 23 = 23 2 , logo:
S3
12,3 =
i =1
13
x 1i x 2 i
S1
S3
S3
23
x 2i x 3i
i =1
n
x x
i =1
2
1i
i=1
2
2i
S2
S3
13 23
x 1i x 3 i +
i=1
2
13
1
223
1
S1 S 2
S3 S3
x
i =1
2
3i
136
12,3 =
12 nS1S 2 13 23
nS1S 2
2
13
nS 1S 2 1
223
1
Desse modo, o Coeficiente de Correlao Parcial pode ser obtido atravs de:
12,3 =
12 13 23
(1 132 )(1 223 )
(3.149)
A expresso acima representa o Coeficiente de Correlao Parcial de

primeira ordem entre as variveis X1 e X 2 , com X 3 fixa.
3.3.2.4 Aplicao do Coeficiente de Correlao Mltipla

A aplicao apresentada refere-se ao trabalho de LIMA e SILANS (1999), que
estudaram a variabilidade espacial da infiltrao e dos parmetros hidrodinmicos do
solo das equaes de Philip e de Green e Ampt, apresentadas a seguir.
A Equao de Philip dada pela expresso: I = St 1/ 2 + At
onde: I a lmina de gua infiltrada no solo (cm);
S a absortividade (cm / min 1/ 2 ) ;
t o tempo (min);
A a constante da equao de Philip.
E a Equao de Green e Ampt, dada por: I = K o t (h f h o ) ln1
(h f h o )
I
onde: I a lmina de gua infiltrada no solo (cm);

K o condutividade hidrulica saturao (cm/min);
h f a suco na frente de umedecimento do solo (cm);
h o a carga hidrulica acima do plano representada pela superfcie
do solo (cm);
a diferena entre a umidade volumtrica da frente de umi-
dificao e a umidade volumtrica inicial do solo (cm 3 / cm 3 ) .
137
A parcela selecionada para o estudo situa-se na Fazenda Experimental da

2
EMEPA, em Joo Pessoa. Demarcou-se uma rea de 5.000 m , e foi traada uma
malha retangular com espaamento de 15 m, com um total de 32 ns. Em cada n

efetuaram-se testes de infiltrao com durao de 90 minutos, com infiltrmetro
duplo-anel de carga constante. Utilizando-se o mtodo gravimtrico-padro,
determinaram as umidades volumtricas de amostras coletadas antes e depois do
teste de infiltrao. O peso especfico aparente do solo seco foi determinado a partir
de amostras nos 20 primeiros centmetros do solo. Tambm a anlise
granulomtrica foi efetuada em ponto de medio, e obtida a porcentagem da frao
de argila + silte.
Foram calculados os coeficientes de correlao simples entre a
porcentagem de argila + silte e as demais variveis das equaes de infiltrao de
Philip e Green e Ampt, conforme apresentada na tabela 5.
TABELA 5 - COEFICIENTE DE CORRELAO ENTRE VARIVEIS DAS EQUAES DE INFILTRAO E
PORCENTAGEM DE ARGILA E SILTE, EM JOO PESSOA
VARIVEL
DEPENDENTE
VARIVEIS DAS EQUAES DE INFILTRAO
COEFICIENTE
DE
CORRELAO
Teor da umidade do solo, aps o teste de infiltrao

-0,16
Absortividade
-0,32
Porcentagem
Constante
da
equao
de
Philip
0,09
(argila + silte)
Condutividade hidrulica na superfcie em regime permanente de infiltrao
0,02
Variao do teor de umidade volumtrica
-0,09
FONTE: LIMA E SILANS (1999)
NOTAS: Equaes de Philip e Green e Ampt.
A rea selecionada para o estudo situa-se na fazenda experimental da Empresa de Estudos e
Pesquisas Agropecurias do Estado da Paraba, em Joo Pessoa.
Segundo os autores, no existem correlaes significativas entre o fator

textual (porcentagem de argila + silte) e as propriedades hidrodinmicas do solo
(variveis das equaes de infiltrao).
Utilizando a Correlao Mltipla, os autores procuraram detectar a
existncia de uma possvel direo privilegiada das propriedades fsicas e
hidrodinmicas do solo. Foi utilizado um sistema de referncia ortogonal, onde o
eixo das ordenadas orientado na direo longitudinal da malha. Procuraram
estabelecer a relao linear da seguinte forma: W = aX + bY + c .
138
Na tabela 6 apresentam-se os coeficientes de regresso e correlao

mltipla, obtidos pelos autores.
TABELA 6 - COEFICIENTES DE REGRESSO E CORRELAO MLTIPLA
VARIVEL DEPENDENTE
Porcentagem de argila + silte

Teor da umidade do solo, aps o teste de infiltrao
Absortividade
Constante da equao de Philip
Condutividade hidrulica na superfcie em regime
permanente de infiltrao
Variao do teor de umidade volumtrica
FONTE: LIMA E SILANS (1999)
COEFICIENTES DE REGRESSO
a
-0,01
0,00
0,09
0,09
b
0,04
0,00
-0,02
0,02
c
1,35
0,24
3,94
1,50
0,09
0,00
0,01
0,00
2,17
0,17
COEFICIENTE
DE
CORRELAO
MLTIPLA
0,82
0,35
0,43
0,59
0,57
0,30
Os resultados da tabela acima indicam que a porcentagem de argila + silte

fortemente correlacionada com a direo ( w, x, y = 0,82) . possvel observar,
ainda, que 67,0% (coeficiente de explicao) da varincia da porcentagem de argila
+ silte na parcela explicada pela posio do ponto de amostragem (direo).
Aproximadamente 35% das varincias da constante da Equao de Philip (A) e
condutividade hidrulica na superfcie (K 0 ) so explicadas pela posio do ponto de
amostragem, mas sem a indicao de uma direo previlegiada, verificada atravs
dos coeficientes de correlao mltipla iguais a w, x, y = 0,59
e w, x, y = 0,57 ,
respectivamente.
3.3.3
Anlise de Correlao Cannica
3.3.3.1 Introduo
A anlise de correlao cannica uma tcnica para a identificao e
quantificao da associao entre dois grupos de variveis. Conforme descrito em
CHAVES NETO (2002b), o objetivo dessa tcnica determinar as combinaes
lineares U = c 1 X e V = c 2 Y tais que tenham a maior correlao possvel. A Anlise

de Correlao Cannica pode ser entendida como uma extenso da Anlise de
139
Regresso Mltipla. Na Anlise de Regresso Mltipla, as variveis formam o

conjunto das covariveis X (variveis independentes) com p variveis e a varivel
resposta Y (varivel dependente). No problema de Anlise de Regresso, a
soluo est em achar a combinao linear X que altamente correlacionada
com Y e na anlise de correlao cannica o conjunto Y contm p 1 variveis,
devendo-se achar os vetores c 1 e c 2 para os quais a correlao entre U = c 1 X e
V = c 2 Y mxima.
Tem-se interesse em medir a associao entre os dois grupos de variveis.

O primeiro grupo de p variveis representado pelo vetor aleatrio X (p 1) e o
segundo de q variveis Y (q 1) , sendo p q .
Tem-se para os vetores aleatrios:
E( X) = 1 ; COV (X ) = 11 ; E( Y ) = 2 ; COV (Y ) = 22 ; COV (X, Y ) = 12 = 21
Sejam as combinaes lineares:
U = c1 X
e V = c 2 Y
Ento Corr(U, V ) =
[(
)(
Onde: E U U V V
COV (U, V )
V(U)V( V )
)]
[(
)(
E UU V V
)]
V(U)V( V )
(3.150)
= E U c 1 1 V c 2 2 = c 1 12 c 2
V(U) = V(c 1 X) = c 1 COV( X) = c 1 11 c 1
V( V ) = V(c 2 Y ) = c 2 COV( Y ) = c 2 22 c 2
Portanto, Corr(U, V ) =
c 1 12 c 2
c 1 11 c 1 c 2 22 c 2
(3.151)
O primeiro par de variveis cannicas so as combinaes lineares U1, V1 ,

com varincia unitria que maximiza a correlao (3.151).
O segundo par de variveis cannicas so as combinaes lineares, com
varincia unitria, que maximiza a correlao (3.151) entre todas as escolhas que
140
no so correlacionadas com o primeiro par de variveis cannicas. E assim, at a

k-sima varivel cannica.
Sendo os vetores X e Y de dimenso p e q com matrizes de covarincias 1 e
2 , respectivamente, e covarincia cruzada 12 , com combinaes lineares U = c 1 X e
V = c 2 Y . A correlao mxima Corr(U,.V ) alcanada em Corr(U, V ) = 1 com
c 1 = e111/ 2 e c 2 = f 1 21/ 2 , onde e1 o autovetor correspondente ao maior

autovalor 1
de 11/ 2 12 21 2111/ 2 com p autovalores 1 2 ... p

2
e p
autovetores e k , k = 1, 2, 3,..., p . J f 1 o autovetor correspondente ao maior autovalor

de 21/ 2 21 11 12 12/ 2 que tem q autovetores f k correspondentes aos autovalores
1 2 ... q .
2
As variveis cannicas Uk com k = 1, 2, 3,..., p so da forma Uk = ek 111 / 2 X , e

as variveis cannicas Vk com k = 1, 2, 3,..., p , da forma Vk = f k 221/ 2 Y . Sendo
1 / 2
a k = e k 11
tem-se que Uk = ak X e sendo
1/ 2
bk = f k 22
tem-se Vk = bk Y e so
formados os pares de variveis cannicas U1 e V1 , U2 e V2 , ..., Up e Vp , sendo que

a mxima correlao cannica obtida para o primeiro par.
Assim, a correlao entre U1 e V1 dada por: Corr(U1, V1 ) = 1 = 1 . Da
2
mesma forma at k-simas variveis cannicas, quando se tem:

Corr(Uk , Vk ) = k = k
(3.152)
As matrizes de covarincias podem ser substitudas pelas matrizes de

correlao . Em se tratando de estudos a partir de dados amostrais, a matriz de
covarincia e de correlao sero R e , respectivamente. As correlaes
cannicas sero obtidas da mesma forma, a partir da matriz de covarincia ou de
correlao.
3.3.3.2
Aplicao da Anlise de Correlao Cannica

A aplicao apresentada a seguir refere-se ao trabalho de FEY NETO (1999),
que utilizou a Anlise de Correlao Cannica, com o objetivo de estimar o grau de
141
associao entre o grupo de variveis que representam as caractersticas da qualidade

do papel, e o que representa as caractersticas da matria-prima (madeira) e as
caractersticas do processo (pasta). O objetivo da pesquisa era identificar o grupo de
variveis mais fortemente relacionado com a qualidade (madeira ou pasta).
O trabalho foi realizado com dados levantados em uma indstria de
fabricao de papel, PISA - Papel de Imprensa S.A., no perodo de 23 de julho de
1998 a 31 de maro de 1999.
So duas as etapas fundamentais na elaborao do papel. A primeira etapa
consiste no recebimento da matria-prima, em que esta picada e transformada em
cavaco. Na segunda etapa, o cavaco produzido na etapa anterior transformado em
pasta, e por sucessivas operaes obtm-se o papel. O problema est na
identificao das etapas que tm maior influncia na qualidade do papel.
Foram definidas as variveis que caracterizam cada uma das etapas e a
qualidade do papel, conforme descritas a seguir.
Grupo 1 - Variveis que caracterizam a madeira
Totalizam um conjunto de 15 variveis: densidade bsica; umidade; resina;

espessura da fibra 4 mm; espessura da fibra 6 mm; espessura da fibra 8 mm;
espessura da fibra 18 mm; comprimento dos cavacos finos; comprimento dos
cavacos palitos; comprimento do cavaco > 45 mm; comprimento do cavaco < 45 mm;
largura da fibra; dimetro do lmem; comprimento da fibra e espessura da fibra.
Grupo 2 - Variveis que caracterizam a qualidade
So 5 as variveis deste grupo: alvura, trao, rasgo, densidade e csf.

Grupo 3 - Variveis que caracterizam a elaborao da pasta
Este grupo composto por 27 variveis: produo; cs-04; csf-04; gapte-04;

gapde-04; presso Te-04; presso De-04; diluio-04; presso de operao do
disco -04; potncia-04; cee-04; durabilidade disco externo-04; durabilidade disco
interno estator-04; durabilidade disco interno rotor-04; cs-05; csf-05; gapte-05;
142
gapde-05; presso Te-05; presso De-05; diluio-05; presso de operao do

disco-05; potncia-05; cee-05; durabilidade disco externo-05; durabilidade disco
interno; estator-05 e durabilidade disco interno rotor-05.
Foi inicialmente obtida a matriz de correlao, a partir das correlaes
simples para cada par de variveis do grupo 1 (caractersticas da madeira), em
seguida para o grupo 2 (caractersticas da qualidade do papel), e finalmente entre as
variveis dos grupos 1 e 2.
A partir da matriz de correlao foram obtidas as seguintes correlaes
cannicas entre variveis do grupo 1 (caractersticas da madeira) e grupo 2
(caractersticas da qualidade do papel):
QUADRO 10 - CORRELAES CANNICAS ENTRE AS VARIVEIS DO GRUPO 1 E GRUPO 2
0,734628
3
0,48529
0,44777
5
0,3558
0,30075
FONTE: FEY NETO (1999)
Da mesma forma, foi obtida a matriz de correlao, a partir das correlaes

simples para cada par de variveis do grupo 3 (caractersticas da elaborao da
pasta) e a matriz de correlao entre cada par de variveis dos grupos 2 e 3.
As correlaes cannicas entre as variveis dos grupos 2 e 3 vm
apresentadas a seguir:
QUADRO 11 - CORRELAES CANNICAS ENTRE AS VARIVEIS DO GRUPO 2 E GRUPO 3
0,979863
0,909272
0,707575
0,621093
0,515732
FONTE: FEY NETO (1999)
As correlaes cannicas entre os grupos de variveis que representam as

caractersticas do processo de elaborao da pasta (grupo 3) e qualidade do papel
(grupo 2) so superiores s correlaes entre os grupos de variveis referentes
madeira (grupo 1) e qualidade do papel (grupo 2). O que significa que a qualidade do
papel depende mais fortemente das variveis do processo de produo (elaborao
de pasta) do que das variveis que caracterizam a matria-prima (papel).
143
4.1
RESULTADOS E DISCUSSO
INTRODUO
O objetivo deste captulo foi fazer a comparao entre os coeficientes de
correlao estimados pelo mtodo de Correlao Linear de Pearson e os mtodos

de Correlao Bisserial e Tetracrico, utilizando amostras de diferentes tamanhos e
mediana como ponto de dicotomizao. As amostras foram obtidas pelo processo de
simulao.
Utilizou-se o programa disponibilizado pelo Statistical Analysis Software
(SAS), para obter as amostras com distribuies normais bivariadas. Os programas
Para o clculo do Coeficiente de Correlao Linear de Pearson utilizou-se
a Procedure Correlation (PROC CORR). O Coeficiente de Correlao Bisserial foi
calculado atravs do programa desenvolvido tambm no SAS, e o Coeficiente de
Correlao Tetracrico foi obtido atravs da opo PLCORR, disponvel na
Procedure Frequency (PROC FREQ). Este procedimento adota o mtodo iterativo
para o clculo do Coeficiente de Correlao Tetracrico, atravs do algoritmo de

Newton-Raphson, permitindo definir o nmero mximo de iteraes e o critrio de
convergncia.
4.2
COEFICIENTES DE CORRELAO LINEAR DE PEARSON, BISSERIAL E

TETRACRICO
Para avaliar os mtodos de Correlao de Pearson, Bisserial e Tetracrico,
utilizaram-se amostras com distribuies normais bivariadas, de diferentes tamanhos

e
parmetros, obtidas pelo processo de simulao. O quadro 12 apresenta os
tamanhos de amostra e parmetros adotados. No quadro 13 esto apresentadas as

mdias, desvios padro e as medianas das variveis X e Y.
144
QUADRO 12 - PARMETROS UTILIZADOS NO PROCESSO DE SIMULAO PARA A OBTENO
DAS AMOSTRAS NORMAIS BIVARIADAS
NMERO
DA
AMOSTRA
TAMANHO
DA
AMOSTRA
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
SEMENTE
100
100
100
200
200
200
300
300
300
500
500
500
1 000
1 000
1 500
2 000
2 500
3 000
4 000
5 000
10 000
123
123
123
123
123
123
123
123
123
123
123
123
123
123
123
123
123
123
123
123
123
PARMETROS
2X
10
5
5
40
15
30
20
15
20
5
80
60
80
60
30
45
35
15
65
10
90
4
2
3
5
5
8
7
5
10
2
25
35
30
25
20
25
15
9
30
6
30
2Y
20
20
20
50
20
20
25
25
35
20
70
50
75
45
45
30
70
25
55
14
60
4
2
3
5
5
8
7
5
10
2
25
35
30
25
20
25
15
9
30
6
30
0,90
-0,80
0,40
0,85
-0,70
0,30
0,80
-0,90
0,25
0,80
-0,75
0,35
0,80
-0,85
0,70
0,90
0,80
0,75
0,85
0,70
0,90
FONTE: A autora
QUADRO 13 - MDIA, DESVIO PADRO E MEDIANA DAS VARIVEIS ALEATRIAS X E Y, SEGUNDO O

TAMANHO DA AMOSTRA
AMOSTRA
TAMANHO
DA
AMOSTRA
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
FONTE: A autora
100
100
100
200
200
200
300
300
300
500
500
500
1 000
1 000
1 500
2 000
2 500
3 000
4 000
5 000
10 000
VARIVEL X
Mdia
9,9202
4,9436
4,9309
39,8386
14,8386
29,7958
19,9017
14,9169
19,8825
4,9445
79,8038
59,7679
79,8360
59,8503
29,9193
44,8611
34,8761
14,9222
64,8446
9,95013
89,9673
Desvio
Padro
1,7577
1,2429
1,5222
2,1135
2,1135
2,6734
2,9462
2,1096
2,9835
1,3392
4,7347
5,6022
5,2155
4,7611
4,3006
4,9314
3,8223
2,9479
5,4385
2,4390
5,4623
VARIVEL Y
Mediana
9,8322
4,8814
4,8547
39,7528
14,7528
29,6873
19,8717
14,8916
19,8467
4,93319
79,7638
59,7205
79,7644
59,7849
29,8879
44,8338
34,8867
14,9211
64,8399
9,92922
89,9417
Mdia
19,8159
19,9359
19,7680
49,7350
19,9398
19,6461
24,8569
25,0352
34,8463
19,9088
69,9646
49,6130
74,6442
44,9471
44,7371
29,6962
39,7716
24,8472
54,7883
13,9267
59,9408
Desvio
Padro
1,8250
1,2252
1,6310
2,1916
2,1338
2,8529
2,6341
2,0558
3,1624
1,3715
4,7565
5,8221
5,3334
4,7972
4,4488
4,9960
3,8559
2,9957
5,4910
2,4621
5,5036
Mediana
19,7586
19,9187
19,6763
49,6677
19,9827
19,5381
24,8305
25,0609
34,9224
19,8967
69,9133
49,5430
74,5860
45,0081
44,7477
29,6922
39,7339
24,7976
54,7473
13,9141
59,9822
145
Verificou-se, inicialmente, a homogeneidade das varincias das amostras

atravs de testes de hipteses.
A hiptese H0 : 2 = 2 contra H1 : 2X 2Y
X
foi testada pela razo F
definida como:
F=
S12
onde: F a estatstica do teste;
S 22
(4.1)
S12 a varincia da primeira amostra;

S 22 a varincia da segunda amostra.
O quadro 14 apresenta os desvios padro da varivel X e Y, a razo F e o

valor-p.
QUADRO 14 - DESVIOS PADRO DAS VARIVEIS X E Y, RAZO F E VALOR-P,
SEGUNDO O TAMANHO DA AMOSTRA
AMOSTRA
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
TAMANHO DA
AMOSTRA
100
100
100
200
200
200
300
300
300
500
500
500
1 000
1 000
1 500
2 000
2 500
3 000
4 000
5 000
10 000
SX
1,7577
1,2429
1,5222
2,1135
2,1135
2,6734
2,9462
2,1096
2,9835
1,3392
4,7347
5,6022
5,2155
4,7611
4,3006
4,9314
3,8223
2,9479
5,4385
2,4390
5,4623
Sy
1,8250
1,2252
1,6310
2,1916
2,1338
2,8529
2,6341
2,0558
3,1624
1,3715
4,7565
5,8221
5,3334
4,7972
4,4488
4,9960
3,8559
2,9957
5,4991
2,4621
5,5036
F
0,9276
1,0291
0,8711
0,9308
0,9811
0,8781
0,8980
1,0531
0,8900
0,9534
0,9909
0,9259
0,9563
0,9850
0,9345
0,9743
0,9826
0,9684
0,9778
0,9813
0,9851
VALOR-P
0,7093
0,8867
0,4935
0,6138
0,8929
0,3599
0,3527
0,6551
0,3143
0,5940
0,9183
0,3900
0,4798
0,8110
0,1897
0,5606
0,6617
0,3791
0,4769
0,5055
0,4520
FONTE: A autora
Os valores-p referentes aos testes de hipteses para verificar a

homogeneidade das varincias, apresentados no quadro acima, so todos
superiores a 0,05; portanto, aceita-se a hiptese H0 de que as varincias so iguais
para todos os tamanhos de amostra.
146
Tem-se, ento, as variveis X e Y com distribuio normal bivariada e

varincias homogneas.
4.2.1
Clculo dos Coeficientes de Correlao

Os quadros 15, 16 e 17 apresentam os coeficientes de correlao obtidos
pelos mtodos de Pearson, Bisserial e Tetracrico, calculados para os diferentes

tamanhos de amostras. Utilizou-se a mediana como ponto de dicotomizao da
varivel Y, para o mtodo de Coeficiente de Correlao Bisserial e das variveis X e
Y para o mtodo de Coeficiente de Correlao Tetracrico.
Os estimadores utilizados para os clculos dos coeficientes de correlao e

os erros padro j foram apresentados no Captulo 3 e transcritos a seguir.
A distribuio amostral do Coeficiente Linear de Pearson ( ) discutida na
seo 3.2.1.5, assimtrica quando o parmetro populacional () diferente de
zero, dificultando a sua interpretao. Para resolver este problema, Ronald A. Fisher
desenvolveu a estatstica Z, discutida na seo 3.2.1.7. Contudo, no existem
estatsticas equivalentes a Z, para os mtodos de Correlao Bisserial e Tetracrico.
Portanto, para os clculos dos erros padro, considerou-se o coeficiente de
correlao populacional (parmetro) iguais a zero, para os trs mtodos.
Calculou-se tambm o erro relativo percentual, com o objetivo de avaliar os
erros entre o Coeficiente de Correlao Linear de Pearson e o Coeficiente de
Correlao Bisserial e entre o Coeficiente de Correlao Linear de Pearson e o
Coeficiente de Correlao Tetracrico, para diferentes tamanhos de amostras.
a) Estimadores do Mtodo de Coeficiente de Correlao Linear de Pearson

I) Coeficiente de Correlao
n
(X
X )( Yi Y )
i =1
(X
i =1
X)
(4.2)
(Y Y)
i
i =1
147
II) Erro padro
1
n -1
(4.3)
QUADRO 15 - COEFICIENTE DE CORRELAO LINEAR DE PEARSON ( )

E ERRO PADRO, SEGUNDO O TAMANHO DA AMOSTRA
NMERO DA
AMOSTRA
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
TAMANHO DA
AMOSTRA
100
100
100
200
200
200
300
300
300
500
500
500
1 000
1 000
1 500
2 000
2 500
3 000
4 000
5 000
10 000
0,89704
-0,76775
0,43492
0,84261
-0,66200
0,32073
0,80669
-0,88534
0,31393
0,79475
-0,73125
0,35775
0,78949
-0,83720
0,68755
0,89782
0,79524
0,74349
0,84814
0,70072
0,90049
0,10050
0,10050
0,10050
0,07089
0,07089
0,07089
0,05783
0,05783
0,05783
0,04477
0,04477
0,04477
0,03164
0,03164
0,02583
0,02237
0,02000
0,01826
0,01581
0,01414
0,01000
FONTE: A autora
b) Estimadores do Mtodo de Coeficiente de Correlao Bisserial

I) Coeficiente de correlao
X X p
b = p t
St
y
(4.4)
II) Erro padro
pq
y
=
n
(4.5)
148
QUADRO 16 - COEFICIENTE DE CORRELAO BISSERIAL ( b ) E ERRO
PADRO, SEGUNDO O TAMANHO DA AMOSTRA
NMERO DA
AMOSTRA
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
TAMANHO DA
AMOSTRA
100
100
100
200
200
200
300
300
300
500
500
500
1 000
1 000
1 500
2 000
2 500
3 000
4 000
5 000
10 000
b
0,94610
-0,78635
0,45559
0,89507
-0,69485
0,37090
0,85043
-0,88661
0,27665
0,83054
-0,71946
0,29871
0,81672
-0,82284
0,68462
0,90806
0,80552
0,74258
0,85946
0,70337
0,90574
0,12533
0,12534
0,12534
0,08862
0,08862
0,08863
0,07236
0,07236
0,07236
0,05605
0,05605
0,05605
0,03963
0,03963
0,03236
0,02803
0,02507
0,02288
0,01982
0,01773
0,01253
FONTE: A autora
c) Estimadores do Mtodo de Coeficiente de Correlao Tetracrico

I) Coeficiente de correlao
2
2
ad bc
2 zz
3 ( z 1) ( z 1)
+
+
=
t
t
t
2
6
yy n 2
+ ....
(4.6)
II) Erro padro
=
t
p q p q
y y n
(4.7)
149
( t ) E
QUADRO 17 - COEFICIENTE DE CORRELAO TETRACRICO
ERRO PADRO, SEGUNDO O TAMANHO DA AMOSTRA

NMERO DA
AMOSTRA
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
TAMANHO DA
AMOSTRA
100
100
100
200
200
200
300
300
300
500
500
500
1 000
1 000
1 500
2 000
2 500
3 000
4 000
5 000
10 000
t
0,95110
-0,68450
0,58780
0,89100
-0,63740
0,36810
0,85540
-0,85540
0,30900
0,83750
-0,68450
0,33280
0,84090
-0,79780
0,69970
0,91400
0,80750
0,74590
0,85830
0,70260
0,90850
0,15705
0,15714
0,15712
0,11103
0,11114
0,11112
0,09079
0,09079
0,09068
0,07013
0,07020
0,07027
0,04956
0,04962
0,04055
0,03521
0,03131
0,02863
0,02481
0,02217
0,01565
FONTE: A autora
4.2.2
Comparao dos Erros Padro

O quadro 18 apresenta a comparao dos erros padro estimados pelos trs
mtodos. interessante observar que a razo entre os erros padro dos Coeficientes
de Correlao Bisserial e de Pearson aproximadamente de 1,25, ou seja, o primeiro
25% superior, confirmando o que foi observado por GUILFORD (1950) e apresentado
na seo 3.2.2.3. Em relao razo entre os erros padro dos Coeficientes de
Correlao Tetracrico e de Pearson, esta de aproximadamente 1,56, ou seja, o
erro padro do Coeficiente de Correlao Tetracrico cerca de 56% superior ao de
Pearson, tambm observado por GUILFORD (1950), discutido na seo 3.2.4.3.
150
QUADRO 18 - ERROS PADRO DOS COEFICIENTES DE CORRELAO LINEAR DE PEARSON,
BISSERIAL E TETRACRICO, SEGUNDO O TAMANHO DA AMOSTRA
NMERO DA
AMOSTRA
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
TAMANHO
DA
AMOSTRA
100
100
100
200
200
200
300
300
300
500
500
500
1 000
1 000
1 500
2 000
2 500
3 000
4 000
5 000
10 000

0,10050
0,10050
0,10050
0,07089
0,07089
0,07089
0,05783
0,05783
0,05783
0,04477
0,04477
0,04477
0,03164
0,03164
0,02583
0,02237
0,02000
0,01826
0,01581
0,01414
0,01000
0,12533
0,12534
0,12534
0,08862
0,08862
0,08863
0,07236
0,07236
0,07236
0,05605
0,05605
0,05605
0,03963
0,03963
0,03236
0,02803
0,02507
0,02288
0,01982
0,01773
0,01253
0,15705
0,15714
0,15712
0,11103
0,11114
0,11112
0,09079
0,09079
0,09068
0,07013
0,07020
0,07027
0,04956
0,04962
0,04055
0,03521
0,03131
0,02863
0,02481
0,02217
0,01565
1,24702
1,24706
1,24708
1,25014
1,25014
1,25024
1,25115
1,25129
1,25120
1,25203
1,25204
1,25207
1,25269
1,25261
1,25295
1,25314
1,25311
1,25285
1,25333
1,25333
1,25330
/
t
1,56261
1,56352
1,56334
1,56632
1,56777
1,56756
1,56989
1,56989
1,56800
1,56663
1,56826
1,56970
1,56652
1,56843
1,57003
1,57407
1,56543
1,56796
1,56919
1,56762
1,56471
FONTE: A autora
4.2.3
Comparao dos Coeficientes de Correlao Estimados

As comparaes entre os Coeficientes de Correlao Linear de Pearson e
os Coeficientes de Correlao Bisserial e Tetracrico foram feitas atravs do clculo

do erro relativo percentual. Este erro indica relativamente o quanto o Coeficiente de
Correlao Bisserial e o Tetracrico diferem do Coeficiente de Correlao Linear de
Pearson.
O erro relativo percentual foi obtido pela expresso:
b) =
erp(
)
100
t) =
erp(
100
(4.8)
onde:
erp ( b )
o erro relativo percentual do Coeficiente de Correlao Bisserial em

relao ao Coeficiente de Correlao Linear de Pearson
151
erp ( t )
o erro relativo percentual do Coeficiente de Correlao Tetracrico em

relao ao Coeficiente de Correlao Linear de Pearson
o Coeficiente de Correlao Linear de Pearson estimado

b o Coeficiente de Correlao Bisserial estimado
t o Coeficiente de Correlao Tetracrico estimado
O quadro 19 apresenta os erros relativos percentuais entre o Coeficiente
de Correlao Bisserial e o de Pearson e entre os do Coeficiente de Correlao
Tetracrico e de Pearson.
QUADRO 19 - COEFICIENTES DE CORRELAO LINEAR DE PEARSON, BISSERIAL E TETRACRICO E
ERROS RELATIVOS PERCENTUAIS, BISSERIAL E TETRACRIcO, SEGUNDO O TAMANHO
DA AMOSTRA
NMERO DA
AMOSTRA
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
TAMANHO DA
AMOSTRA
100
100
100
200
200
200
300
300
300
500
500
500
1 000
1 000
1 500
2 000
2 500
3 000
4 000
5 000
10 000
0,89704
-0,76775
0,43492
0,84261
-0,66200
0,32073
0,80669
-0,88534
0,31393
0,79475
-0,73125
0,35775
0,78949
-0,83720
0,68755
0,89782
0,79524
0,74349
0,84814
0,70072
0,90049
b
0,94610
-0,78635
0,45559
0,89507
-0,69485
0,37090
0,85043
-0,88661
0,27665
0,83054
-0,71946
0,29871
0,81672
-0,82284
0,68462
0,90806
0,80552
0,74258
0,85946
0,70337
0,90574
t
0,95110
-0,68450
0,58780
0,89100
-0,63740
0,36810
0,85540
-0,85540
0,30900
0,83750
-0,68450
0,33280
0,84090
-0,79780
0,69970
0,91400
0,80750
0,74590
0,85830
0,70260
0,90850
erp( b )
5,46910
2,42266
4,75260
6,22589
4,96224
15,64244
5,42216
0,14345
11,87526
4,50330
1,61231
16,50314
3,44906
1,71524
0,42615
1,14054
1,29269
0,12240
1,33469
0,37818
0,58302
erp( t )
6,02649
10,84337
35,15129
5,74287
3,71601
14,76943
6,03826
3,38175
1,57041
5,37905
6,39316
6,97414
6,51180
4,70616
1,76714
1,80214
1,54167
0,32415
1,19792
0,26830
0,88952
FONTE: A autora
4.3
AVALIAO DOS RESULTADOS

A anlise do quadro 19 mostra que tanto o Coeficiente Correlao Bisserial
quanto o Coeficiente de Correlao Tetracrico diferem do Coeficiente Linear de
152
Pearson para todos os tamanhos de amostra, sendo o erro relativo percentual maior
para amostras de tamanho menor.
Para todos os tamanhos de amostra os Coeficientes de Correlao
Bisserial e o Tetracrico fornecem estimativas maiores do que o Coeficiente de
Correlao Linear de Pearson. Embora os erros relativos diminuam medida que se
aumenta o tamanho da amostra, devemos considerar que os erros padro dos
Coeficientes de Correlao Bisserial so aproximadamente 25% superiores aos do
Coeficiente de Correlao Linear de Pearson e os do Coeficiente de Correlao
Tetracrico, em torno de 56% superiores.
importante destacar que estas so as situaes ideais, em que se tem
distribuies normais bivariadas com varincias homogneas, o que na prtica
dificilmente ocorre, e, ainda, utilizando as medianas como pontos de dicotomizao.
Para a utilizao dos Coeficientes de Correlao Bisserial e Tetracrico
necessrio que se atenda suposio da existncia de variveis subjacentes
(latentes) s variveis medidas como dicotmicas, normalmente distribudas, caso
contrrio no possvel a sua utilizao.
Dentre os trs mtodos discutidos, prefervel, sempre que possvel,
utilizar o Coeficiente de Correlao Linear de Pearson.
153
CONCLUSES E RECOMENDAES
O Coeficiente de Correlao Linear de Pearson, conhecido tambm como

Coeficiente de Correlao do Momento Produto, , sem dvida, o mais importante e
o mais utilizado, como as aplicaes apresentadas no Captulo 3.
As Tcnicas de Anlise Multivariada, como a Anlise Fatorial, Anlise de
Componentes Principais e Anlise Cannica, utilizam a matriz de correlaes,
constituda a partir de Coeficientes Linear de Pearson, para cada par de variveis
envolvidas na anlise.
As Anlises de Confiabilidade em Sistemas de Engenharia e de
Instrumentos de Medidas tambm fazem uso do Coeficiente de Correlao Linear de
Pearson.
Comprovou-se que possvel a utilizao do Coeficiente Linear de
Pearson em situaes que envolvem duas variveis dicotmicas, uma varivel
dicotmica e outra medida em nvel intervalar e duas variveis medidas em nvel
ordinal. Os Coeficientes de Correlao Ponto Bisserial, Correlao Phi e Correlao
de Spearman fornecem a mesma estimativa do Coeficiente de Correlao Linear de
Pearson, pois os seus estimadores so derivados deste ltimo.
J no caso dos Coeficientes de Correlao Bisserial e Tetracrico, s so
possveis as suas utilizaes se existirem variveis subjacentes (latentes) s variveis
medidas como dicotmicas, normalmente distribudas. Observou-se que os erros
padro destes coeficientes so superiores aos do Coeficiente de Correlao Linear de
Pearson. Alm disso, as estimativas dos coeficientes de correlao tambm so
maiores se comparadas s do Coeficiente de Correlao Linear de Pearson.
Quando se tratar de amostras pequenas (normalmente consideradas para
n < 30 ), deve-se verificar a suposio da normalidade das variveis envolvidas na
anlise. possvel verificar a normalidade das variveis utilizando o mtodo

apresentado na seo 3.2.1.11 (Teste de Normalidade).
Em situaes que no atendem suposio da normalidade das variveis
possvel fazer alguma transformao, como as apresentadas na seo 3.2.1.2.
154
Ainda, possvel utilizar o recurso dos ranks (atribuindo uma ordem aos dados) e
utilizar o Coeficiente de Correlao Linear de Pearson.
Apresenta-se a seguir, de forma resumida, as situaes em que se pode
utilizar cada um dos mtodos de coeficientes de correlao envolvendo duas
variveis, discutidos neste trabalho.
a) Coeficiente de Correlao Linear de Pearson: este mtodo pode ser
utilizado em situaes que envolvem variveis medidas em nvel
intervalar e ordinal e variveis dicotmicas.
b) Coeficiente de Correlao Bisserial: pode ser empregado quando se
tem uma varivel medida em nvel intervalar e outra dicotmica ou
dicotomizada (ao serem medidas), porm a suposio da existncia de
uma varivel normalmente distribuda, subjacente varivel dicotmica,
deve ser atendida.
c) Coeficiente de Correlao Ponto Bisserial: trata-se do Coeficiente de
Correlao Linear de Pearson, quando calculado para uma varivel
dicotmica e outra medida em nvel intervalar.
d) Coeficiente de Correlao Tetracrico: este mtodo deve ser utilizado
quando se tem duas variveis dicotmicas ou dicotomizadas (ao serem
medidas), porm a suposio da existncia de variveis normalmente
distribudas, subjacentes s variveis dicotmicas, deve ser atendida;
e) Coeficiente de Correlao de Spearman: o Coeficiente de Correlao
Linear de Pearson quando se tem duas variveis medidas em nvel
ordinal.
f)
Coeficiente de Correlao por Postos de Kendall: as duas variveis

envolvidas na anlise so medidas em nvel ordinal.
g) Coeficiente de Correlao Phi: o Coeficiente de Correlao Linear de

Pearson quando se tem duas variveis dicotmicas.
h) Coeficiente de Contingncia: as duas variveis so medidas em nvel
nominal.
i)
Coeficiente de Correlao Eta: uma varivel medida em nvel

intervalar e a outra em nvel nominal.
155
REFERNCIAS
AGRESTI, Alan. Categorical data analysis. New York: J. Wiley & Sons, 1990. 557p.
ALMEIDA FILHO, Raimundo. Processamento digital de imagens Landsat-TM na deteco
de reas de microexsudao de hidrocarbonetos, regio da Serra do Tona, Bahia. In:
SIMPSIO BRASILEIRO DE SENSORIAMENTO REMOTO, 10., 2001, Foz do Iguau.
Anais. So Jos dos Campos: INPE, p. 235-242, 2001.
ANDERBERG, Michael R. Cluster analysis for applications. New York: Academic Press,
1973. 359p.
ANDERSON, T. W. An introduction to multivariate statistical analysis. New York: J.
Wiley & Sons, 1958. 375p.
BROWNLEE, K. A. Statistical theory and methodology in science and engineering. New
York: J. Wiley & Sons, 1960. 570p.
BRYANT, Edward C. Statistical analysis. New York: McGraw-Hill Book, 1960. 303p.
BUNCHAFT, Guenia; KELLNER, Sheilah R.O. Estatstica sem mistrios. 2.ed. Petrpolis:
Vozes, 1999. v.2, 303p.
CALLEGARI-JACQUES, Sidia M. Bioestatstica: princpios e aplicaes. Porto Alegre:
Artemed, 2003. 255p.
CHAVES NETO, Anselmo. Probabilidade e estatstica matemtica II. Curitiba: UFPR, 1.o
semestre de 2002a. Notas de aula.
CHAVES NETO, Anselmo. Anlise multivariada aplicada pesquisa. Curitiba: UFPR, 2.o
semestre de 2002b. Notas de aula.
CHAVES NETO, Anselmo. Probabilidade e estatstica matemtica I. Curitiba: UFPR, 1.o
semestre de 2003. Notas de aula.
CHAVES NETO, Anselmo; TURIM, Maria Elisa. Anlise de itens pela teoria clssica da
avaliao e TRI em dados reais do ensino fundamental. In:SEMINRIO IASI DE
ESTATSTICA APLICADA, 9., Anais. Rio de Janeiro, 2003.
CHEN, Peter Y.; POPOVICH, Paula M. Correlation: parametric and nonparametric
measures. London: Sage, 2002. 95p.
COCHRAN, William G. Tcnicas de amostragem. Rio de Janeiro: Fundo de Cultura,
1965. 555p.
CRONBACH, Lee J. Coefficient alpha and the internal structure of testes. Psychometrika, v.
16, n. 3, p. 297-333, Sept. 1951.
DOWNIE, N. M.; HEATH, R. W. Basic statistical methods. New York: Harper & Brothers,
1959. 289p.
156
ELDERTON, William P. Frequency curves and correlation. 4.ed. Washington: Harren Press,
1953. 272p.
FACHEL, Jandyra M. G. Anlise fatorial. So Paulo, 1976. 81p. Dissertao (Mestrado) IME, USP.
FACHEL, Jandyra M. G. The C-type distribution as an underlying model for categorical
data and its use in factor analysis. London, 1986. 235p. Tese (Doutorado).
FERGUSON, G. A. Statistical analysis in psycology and education. Tokyo: McGraw-Hill
Kogagusha, 1976.
FERGUSON, George A. Statistical analysis in psychology and education. 5.ed. New
York: McGraw-Hill book, 1981. 549p.
FEY NETO, Emlio Rudolfo. Anlise de correlao cannica aplicada em sistema de
produo contnuo. Curitiba, 1999. 150p. Dissertao (Mestrado) - Departamento de
Informtica, Curso de Informtica Aplicada, PUC-PR.
FILLIBEN, James J. The Probability plot correlation coefficient test for normality.
Technometrics, v. 17, n. 1, p. 111-117, Feb. 1975.
FURTADO, Emerson Marcos. Automao do ranqueamento qualitativo de reas
especialmente protegidas do Estado do Paran atravs da anlise fatorial.Curitiba,
1999. 220 p. Dissertao (Mestrado) - Setor de Cincias Exatas, UFPR.
FURTADO, Emerson Marcos; CHAVES NETO, Anselmo et al. Ranqueamento de faxinais do
Estado do Paran. Revista de Cincias Exatas e Naturais, v.5, n.1, jan.-jun. 2003.
GALTON, Francis. Correlations and their measurement, chiefly from antropometric data.
Nature, p. 238, 3 Jan. 1889.
GUILFORD, J. P. Fundamental statistics in psychology and education. 4.ed. New York:
McGraw-hill Book, 1950. 605p.
HALDAR, A.; MAHADEVAN, S. Probability, reliability and statistical methods in
engineering design. New York: J. Willey & Sons, 2000. 320p.
JAMES, Barry R. Probabilidade: um curso em nvel intermedirio. Rio de Janeiro: Instituto
de Matemtica Pura e Aplicada, 1981. 304p.
JOHNSON, Richard A.; WICHERN, Dean W. Applied multivariate statistical analysis. 2.
ed. New Jesery: Prentice Hall International, 1988. 607p.
KENNEY, J. F.; KEEPING, E. S. Mathematics of statistics. 2.ed. Princeton, Van
Nostrand, 1951. 429p.
LIMA, Ccero A. G.; SILANS, Alain P. de. Variabilidade espacial da infiltrao de gua no
solo. Pesquisa Agropecuria Brasileira, Braslia, v. 34, n. 12, p. 2311-2320, dez. 1999.
LORD, F. e NOVICK, M. R. Statistical theories of mental test scores. Reading: AddisonWesley, 1967. 568p.
157
McNEMAR, Quinn. Psychological statistics. 4. ed. New York: J. Wiley & Sons, 1969. 529p.
MENEZES, Antnio C. F.; FAISSOL, Speridio; FERREIRA, Marilourdes L. Anlise da
matriz geogrfica: estruturas e inter-relaoes. In: IBGE. Tendncias atuais da geografia
urbano/regional: teorizao e quantificao. Rio de Janeiro, 1978. p. 67-109.
MOOD, Alexander M.; GRAYBILL, Franklin A.; BOES, Duane C. Introduction to the theory
of statistics. 3. ed. Singapore: McGraw-Hill Book, 1974. 564p.
NETER, John et al. Applied linear statistical models. New York: McGraw-Hill, 1996. 1408p.
NOJOSA, Ronald T. Modelos multidimensionais para a teoria da resposta ao item.
Recife, 2001. 66p. Dissertao (Mestrado), UFPE.
NUNNALLY, Jum C. Introduccion a la medicion psicologica. Buenos Aires: McGraw-Hill,
1970. 619 p.
SCHULTZ, Duane P.; SCHULTZ, Sydney Ellen. Histria da psicologia moderna. 16. ed.
So Paulo: Cultrix, 1992. 439 p.
SIEGEL, Sidney. Estatstica no-paramtrica: para as cincias do comportamento. So
Paulo: McGraw-Hill do Brasil, 1975. 350 p.
SILVEIRA, Fernando L. Um exemplo de anlise multivariada aplicada pesquisa
quantitativa em ensino de cincias: explicando o desempenho dos candidatos ao concurso
vestibular de 1999 da Universidade Federal do Rio Grande do Sul. Investigaes em
Ensino de Cincias, Porto Alegre, v. 4, n. 2, p. 161-180, 1999.
SILVEIRA, Fernando L.; PINENT, Carlos E. C. A questo de redao no concurso vestibular
universidade: validade e poder decisrio. Estudos em Avaliao Educacional, So
Paulo, v. 24, p. 147-162, 2001.
SIQUEIRA, Arminda Lucia. Uso de transformao em anlise de varincia e anlise de
regresso. So Paulo, 1983. 154p. Dissertao (Mestrado), USP/IME.
SNEDECOR, George W.; COCHRAN, William G. Statistical methods. 7.ed. Ames: Iowa
Sate University, 1980. 507p.
TOBO, Natividad et al. Cumplimiento del rgimen teraputico y su relacin con las
caractersticas biolgicas y sociales del individuo con insuficiencia renal crnica terminal en
hemodilisis. Colombia Mdica, Colombia, v. 26, p. 141-145, 1995.
UFRJ.COPPE.PEC. COC796-Confiabilidade estrutural. Mtodos analticos para anlise
de confiabilidade. Disponvel em: http://www.ufrj/coppe/Coc796.doc Acesso em: 2 semestre
de 2003.
WANNACOTT, Ronald J.; WANNACOTT, Thomas H. Econometria. 2.ed. So Paulo: Livros
Tcnicos e Cientficos, 1978. 424p.
WHERRY, R. J. Contributions to correlational analysis. Orlando: Academic Press,
1984. 463p.
158
APNDICE 1 - DISTRIBUIES AMOSTRAIS DO COEFICIENTE DE
)
CORRELAO LINEAR DE PEARSON (
159
DISTRIBUIES AMOSTRAIS DO COEFICIENTE DE CORRELAO LINEAR DE
)
PEARSON (
(I) PARA QUANDO 0

A funo densidade de probabilidade de para quando 0 conforme
apresentado no resultado 3.6:
2 (n 1)/2
f( ) =
2 (n 4)/2
(n 1)(n 1)(1 )
(1 )
1
(n 3/2)
2 n (1 )
2
1 ( + 1)
9
( + 1) 2
+
1 +
4 2n 1
16 2(2n 1)(2n + 1)
Considerando a amostra de tamanho n = 29 e = 0,80 tem-se:

f( ) =
2 14
2 25/2
(27) (28)(1 0,8 ) (1 )
57
55/2
2
(1 0,8 )
2
2 25/2
f( ) =
0,00000125 6(1 )
55/2
(1 0,8 )
1 (0,8 + 1)
9 (0,8 + 1) 2
+
+
1
4
57
16 2 57 59
(0,8 + 1) 9 (0,8 + 1) 2
+
1 +
228
2 53 808
Substituindo valores para , obtm-se os correspondentes para f( ) . Para

a construo do grfico 5, utilizou-se intervalo para igual a 0,0125, iniciando em
0,20. A tabela a seguir apresenta alguns valores como exemplo.
TABELA A.1.1 - COEFICIENTE
DE
CORRELAO
LINEAR
PEARSON ( ) E RESPECTIVO VALOR DE f( )
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
FONTE: A autora
DE
f( )
0,00009
0,00074
0,00577
0,04373
0,30834
1,78533
5,72350
1,94955
0,00000
160
Considerando a amostra de tamanho n=29 e = 0,80 tem-se:

f( ) =
2 14
2 25/2
(27) (28)(1 ( 0,8) ) (1 )
57
55/2
2
(1 ( 0,8) )
2
2 25/2
f( ) =
0,00000125 6(1 )
55/2
(1 + 0,8 )
1 ( 0,8 + 1)
9 ( 0,8 + 1) 2
+
+
1
4
57
16 2 57 59
( 0,8 + 1) 9 ( 0,8 + 1) 2
+
+
1
228
2 53 808
Substituindo valores para , obtm-se os correspondentes para f( ) .

Alguns valores so apresentados na tabela a seguir. Para a construo do grfico 6,
o intervalo utilizado para foi de 0,0125 e o valor inicial igual a -1,0.
TABELA A.1.2 - COEFICIENTE DE CORRELAO LINEAR DE
PEARSON ( )E RESPECTIVO VALOR DE
-1,00
-0,90
-0,80
-0,70
-0,60
-0,50
-0,40
-0,30
-0,20
f( )
f( )
0,00000
1,94955
5,72350
1,78533
0,30834
0,04373
0,00577
0,00074
0,00009
FONTE: A autora
(II) PARA QUANDO = 0

A funo densidade de probabilidade de para quando = 0 conforme
apresentada no Resultado 3.7 :
1
(n 1)
2
f( ) =
(1 2 )(n 4)/2
1
(n 2)
2
Considerando o tamanho da amostra n = 29 e substituindo na expresso

acima tem-se:
161
(28)
[14]
2
f( ) =
(1 2 ) 25/2 =
(1 2 ) 25/2 = 2,0563864(1 2 ) 25/2
1
(27)
(27)
2
Substituindo valores para , obtm-se os correspondentes para f( ) .

Alguns valores so apresentados na tabela a seguir. Para a construo do grfico 7,
o intervalo utilizado para foi de 0,05, iniciando em -1,0.
TABELA A.1.3 - COEFICIENTE DE CORRELAO LINEAR DE
PEARSON ( ) E RESPECTIVO VALOR DE
-1,0
-0,8
-0,6
-0,4
-0,2
-0,0
0,2
0,4
0,6
0,8
1,0
FONTE: A autora
f( )
f( )
0,00000
0,00001
0,00776
0,23231
1,23300
2,05386
1,23300
0,23231
0,00776
0,00001
0,00000
162
APNDICE 2 - DISTRIBUIES AMOSTRAIS DE Z
163
DISTRIBUIES AMOSTRAIS DE Z
Conforme apresentado na seo 3.2.1.7, a funo densidade de Z, para

n > 25 :
1 Z E( Z )
2
f(Z) =
Z 2
com:
E( Z ) =
1 1 +
ln
+
2 1 2n 1
Z =
1
n3
Assim, para amostra de tamanho n = 29 e = 0 tem-se:

E( Z ) =
2Z =
1 1 0
+
=0
ln
2 1 57
1
29 3
Z = 0,1961
Portanto, f(Z) ser:

f(Z) =
1
0,1961 2
Z
1
2 0,1961
= 2,0344e
Z
1
2 0,1961
A tabela a seguir mostra alguns valores de z e os correspondentes f(Z) .

Para a construo do grfico 8, utilizou-se intervalo para Z igual a 0,05, iniciando-se
em -1,0.
TABELA A.2.1 - VARIVEL Z E RESPECTIVO VALOR DE
Z
-1,0
-0,8
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
FONTE: A autora
NOTA: Z a transformao de Fisher.
f(Z)
f(Z)
0,00000
0,00049
0,01886
0,25407
1,20939
2,03340
1,20939
0,25407
0,01886
0,00049
0,00000
164
Para amostra de tamanho n = 29 e = 0,80 , tem-se:

E( Z ) =
2Z =
1 1 + 0,8 0,8
+
= 1,1126
ln
2 1 0,8 57
1
29 3
Z = 0,1961
Portanto, f(Z) ser:

f(Z) =
1
0,1961
1 Z 1,1126
2
0,1961
= 2,0344e
1 Z 1,1126
2
0,1961
Alguns valores de f(Z) , para cada valor de Z so apresentados na tabela a

seguir. Para a construo do grfico 9, utilizou-se o valor inicial para Z igual a 0,00, e
o intervalo de 0,05.
TABELA A.2.2 - VARIVEL Z E RESPECTIVO VALOR DE
Z
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
2,2
FONTE: A autora
NOTA: Z a transformao de Fisher.
f(Z)
f(Z)
0,00000
0,00004
0,00276
0,06679
0,57101
1,72521
1,84205
0,69506
0,09268
0,00437
0,00007
0,00000
165
APNDICE 3 - TESTE DE NORMALIDADE
166
1 AMOSTRA ALEATRIA GERADA PELO PROCESSO DE SIMULAO
O quadro abaixo apresenta a amostra aleatria de 200 observaes

gerada atravs do processo de simulao.
QUADRO A.3.1 - VARIVEL ALEATRIA X GERADA PELO PROCESSO DE SIMULAO
ORDEM
VARIVEL X
ORDEM
VARIVEL X
ORDEM
VARIVEL X
ORDEM
VARIVEL X
ORDEM
VARIVEL X
72,18700
41
8,12555
81
212,51855
121
147,14338
161
17,44974
42
41,55470
82
169,85026
122
97,03626
162
164,82585
183,53943
102,67841
43
3,79202
83
162,01862
123
152,89828
163
102,36524
160,48252
44
68,67889
84
95,32578
124
80,69527
164
97,12284
156,10761
45
87,18117
85
89,10925
125
45,33027
165
192,85433
186,05545
46
90,57455
86
114,40728
126
149,25564
166
86,61525
-33,28091
47
70,92790
87
87,57117
127
56,41797
167
52,21369
75,88585
48
211,89209
88
29,93820
128
118,89907
168
139,81303
150,32126
49
-8,57903
89
-10,38914
129
119,56322
169
88,44523
10
28,14476
50
47,75729
90
135,38656
130
71,27952
170
147,19482
11
50,34857
51
-55,34452
91
113,87657
131
64,31710
171
113,34344
12
-5,66421
52
170,06952
92
123,60274
132
12,50440
172
170,38835
13
-14,42701
53
17,33324
93
100,95450
133
200,60562
173
82,21271
14
34,25275
54
52,39952
94
31,49187
134
57,27668
174
35,14380
15
45,68360
55
131,43197
95
158,33893
135
93,82323
175
2,83909
16
-29,60415
56
115,13586
96
71,57206
136
75,88139
176
-54,64370
17
57,19621
57
137,97809
97
41,96438
137
247,78060
177
94,77852
18
66,37334
58
122,36154
98
43,01682
138
159,11080
178
105,75475
19
96,55177
59
12,17640
99
64,97641
139
138,33079
179
88,00390
20
68,53239
60
26,51864
100
63,61176
140
163,60119
180
100,22796
21
70,68852
61
127,86369
101
59,66748
141
99,52077
181
103,46104
22
68,26653
62
107,06764
102
136,56805
142
119,34963
182
171,66572
23
164,18793
63
36,36909
103
117,73961
143
75,02128
183
93,77593
24
84,22407
64
75,50692
104
54,93497
144
20,61910
184
26,46274
25
78,57517
65
96,36600
105
162,07885
145
159,93437
185
11,16490
26
60,26039
66
120,23667
106
-9,61244
146
72,82231
186
99,72138
27
199,44387
67
96,76804
107
119,83202
147
15,87099
187
142,26056
28
137,47769
68
37,98617
108
82,48876
148
131,79823
188
4,50761
29
222,03666
69
194,55137
109
91,33751
149
132,91981
189
54,84214
118,31782
30
52,32523
70
116,28309
110
52,37297
150
112,97667
190
31
182,04153
71
93,04538
111
58,22274
151
111,61737
191
76,86138
32
-1,29427
72
135,47110
112
136,56193
152
52,70658
192
69,75953
33
119,18111
73
137,27243
113
133,97053
153
129,49351
193
79,84534
34
139,52272
74
53,35424
114
114,55931
154
118,41611
194
64,37847
35
196,45927
75
37,30127
115
127,71663
155
149,20216
195
44,05315
36
84,26704
76
151,22657
116
180,31494
156
-66,08907
196
125,10860
37
59,66748
77
21,73399
117
106,01921
157
114,97364
197
92,29407
38
126,80775
78
1,70204
118
121,98375
158
171,15971
198
159,75330
39
67,64586
79
128,83419
119
192,75883
159
-7,46465
199
103,68259
40
131,42624
80
124,75075
120
70,20881
160
91,54767
200
92,19966
FONTE: A autora
NOTA: Mdia = 92,84155 e Desvio Padro=57,98319
167
2 TESTE DE NORMALIDADE
O mtodo utilizado para testar a normalidade da varivel aleatria X foi o

proposto por FILLIBEN (1975). O quadro A.3.2 apresenta as estatsticas da varivel
aleatria X necessrias para a aplicao do mtodo proposto.
QUADRO A.3.2 - ESTATSTICAS DA VARIVEL ALEATRIA X
continua
OR-
X i ORDE-
DEM
NADA
mi
Mi
(X X)
(X X) M
(X X)
Mi2
- 66,08907
0,00346
-2,70067
-158,93062
429,21915
25 258,94075
7,29362
- 55,34452
0,00840
-2,39106
-148,18607
354,32178
21 959,11020
5,71717
- 54,64370
0,01339
-2,21471
-147,48525
326,63705
21 751,89783
4,90494
- 33,28091
0,01838
-2,08842
-126,12246
263,39666
15 906,87395
4,36150
- 29,60415
0,02337
-1,98865
-122,44570
243,50163
14 992,94851
3,95473
- 14,42701
0,02836
-1,90547
-107,26856
204,39702
11 506,54314
3,63082
- 10,38914
0,03335
-1,83369
-103,23069
189,29308
10 656,57456
3,36242
- 9,61244
0,03834
-1,77029
-102,45399
181,37327
10 496,81928
3,13393
- 8,57903
0,04333
-1,71329
-101,42058
173,76286
10 286,13327
2,93536
10
- 7,46465
0,04832
-1,66137
-100,30620
166,64571
10 061,33299
2,76015
11
- 5,66421
0,05332
-1,61348
-98,50576
158,93707
9 703,38399
2,60332
12
- 1,29427
0,05831
-1,56912
-94,13582
147,71039
8 861,55188
2,46214
13
1,70204
0,06330
-1,52765
-91,13951
139,22927
8 306,40958
2,33371
14
2,83909
0,06829
-1,48865
-90,00246
133,98216
8 100,44211
2,21608
15
3,79202
0,07328
-1,45179
-89,04953
129,28121
7 929,81811
2,10769
16
4,50761
0,07827
-1,41681
-88,33394
125,15240
7 802,88428
2,00735
17
8,12555
0,08326
-1,38348
-84,71600
117,20289
7 176,80000
1,91402
18
11,16490
0,08825
-1,35161
-81,67665
110,39497
6 671,07453
1,82685
19
12,17640
0,09324
-1,32107
-80,66515
106,56430
6 506,86580
1,74523
20
12,50440
0,09823
-1,29171
-80,33715
103,77230
6 454,05705
1,66851
21
15,87099
0,10322
-1,26342
-76,97056
97,24614
5 924,46651
1,59623
22
17,33324
0,10822
-1,23605
-75,50831
93,33204
5 701,50430
1,52782
23
17,44974
0,11321
-1,20964
-75,39181
91,19694
5 683,92443
1,46323
24
20,61910
0,11820
-1,18404
-72,22245
85,51427
5 216,08173
1,40195
25
21,73399
0,12319
-1,15919
-71,10756
82,42717
5 056,28454
1,34372
26
26,46274
0,12818
-1,13504
-66,37881
75,34260
4 406,14591
1,28832
27
26,51864
0,13317
-1,11153
-66,32291
73,71990
4 398,72788
1,23550
28
28,14476
0,13816
-1,08863
-64,69679
70,43086
4 185,67414
1,18512
29
29,93820
0,14315
-1,06628
-62,90335
67,07258
3 956,83096
1,13695
30
31,49187
0,14814
-1,04445
-61,34968
64,07667
3 763,78276
1,09088
31
34,25275
0,15313
-1,02310
-58,58880
59,94220
3 432,64703
1,04673
32
35,14380
0,15812
-1,00222
-57,69775
57,82584
3 329,02991
1,00444
33
36,36909
0,16311
-0,98176
-56,47246
55,44240
3 189,13830
0,96385
34
37,30127
0,16811
-0,96166
-55,54028
53,41086
3 084,72227
0,92479
35
37,98617
0,17310
-0,94199
-54,85538
51,67322
3 009,11229
0,88735
36
41,55470
0,17809
-0,92267
-51,28685
47,32083
2 630,34059
0,85132
37
41,96438
0,18308
-0,90369
-50,87717
45,97719
2 588,48604
0,81666
38
43,01682
0,18807
-0,88503
-49,82473
44,09638
2 482,50334
0,78328
39
44,05315
0,19306
-0,86668
-48,78840
42,28393
2 380,30760
0,75113
40
45,33027
0,19805
-0,84861
-47,51128
40,31854
2 257,32136
0,72014
41
45,68360
0,20304
-0,83081
-47,15795
39,17929
2 223,87189
0,69025
42
47,75729
0,20803
-0,81328
-45,08426
36,66612
2 032,59015
0,66142
43
50,34857
0,21302
-0,79599
-42,49298
33,82398
1 805,65302
0,63360
44
52,21369
0,21801
-0,77893
-40,62786
31,64626
1 650,62270
0,60673
168
OR-
X i ORDE-
DEM
NADA
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
52,32523
52,37297
52,39952
52,70658
53,35424
54,84214
54,93497
56,41797
57,19621
57,27668
58,22274
59,66748
59,66748
60,26039
63,61176
64,31710
64,37847
64,97641
66,37334
67,64586
68,26653
68,53239
68,67889
69,75953
70,20881
70,68852
70,92790
71,27952
71,57206
72,18700
72,82231
75,02128
75,50692
75,88139
75,88585
76,86138
78,57517
79,84534
80,69527
82,21271
82,48876
84,22407
84,26704
86,61525
87,18117
87,57117
88,00390
88,44523
89,10925
90,57455
91,33751
91,54767
92,19966
mi
Mi
(X X)
0,22301
0,22800
0,23299
0,23798
0,24297
0,24796
0,25295
0,25794
0,26293
0,26792
0,27291
0,27791
0,28290
0,28789
0,29288
0,29787
0,30286
0,30785
0,31284
0,31783
0,32282
0,32781
0,33281
0,33780
0,34279
0,34778
0,35277
0,35776
0,36275
0,36774
0,37273
0,37772
0,38271
0,38770
0,39270
0,39769
0,40268
0,40767
0,41266
0,41765
0,42264
0,42763
0,43262
0,43761
0,44260
0,44760
0,45259
0,45758
0,46257
0,46756
0,47255
0,47754
0,48253
-0,76207
-0,74545
-0,72904
-0,71282
-0,69678
-0,68093
-0,66524
-0,64971
-0,63434
-0,61912
-0,60404
-0,58906
-0,57425
-0,55956
-0,54499
-0,53054
-0,51619
-0,50196
-0,48782
-0,47378
-0,45983
-0,44597
-0,43217
-0,41848
-0,40486
-0,39132
-0,37785
-0,36445
-0,35112
-0,33785
-0,32463
-0,31148
-0,29837
-0,28532
-0,27229
-0,25933
-0,24642
-0,23354
-0,22071
-0,20791
-0,19515
-0,18241
-0,16971
-0,15703
-0,14438
-0,13173
-0,11912
-0,10653
-0,09396
-0,08141
-0,06886
-0,05633
-0,04381
-40,51632
-40,46858
-40,44203
-40,13497
-39,48731
-37,99941
-37,90658
-36,42358
-35,64534
-35,56487
-34,61881
-33,17407
-33,17407
-32,58116
-29,22979
-28,52445
-28,46308
-27,86514
-26,46821
-25,19569
-24,57502
-24,30916
-24,16266
-23,08202
-22,63274
-22,15303
-21,91365
-21,56203
-21,26949
-20,65455
-20,01924
-17,82027
-17,33463
-16,96016
-16,95570
-15,98017
-14,26638
-12,99621
-12,14628
-10,62884
-10,35279
-8,61748
-8,57451
-6,22630
-5,66038
-5,27038
-4,83765
-4,39632
-3,73230
-2,26700
-1,50404
-1,29388
-0,64189
(X X) M
continua
(X X)
30,87627
30,16730
29,48385
28,60901
27,51397
25,87494
25,21697
23,66476
22,61126
22,01892
20,91114
19,54152
19,05021
18,23111
15,92994
15,13336
14,69236
13,98718
12,91172
11,93721
11,30033
10,84115
10,44238
9,65936
9,16309
8,66892
8,28007
7,85828
7,46814
6,97814
6,49884
5,55066
5,17213
4,83907
4,61687
4,14414
3,51552
3,03513
2,68080
2,20984
2,02035
1,57191
1,45518
0,97772
0,81725
0,69427
0,57626
0,46834
0,35069
0,18456
0,10357
0,07288
0,02812
1 641,57187
1 637,70566
1 635,55748
1 610,81551
1 559,24735
1 443,95487
1 436,90852
1 326,67690
1 270,58999
1 264,85970
1 198,46174
1 100,51866
1 100,51866
1 061,53174
854,38040
813,64403
810,14670
776,46581
700,56594
634,82260
603,93142
590,93507
583,83395
532,77947
512,24075
490,75657
480,20789
464,92097
452,39104
426,61028
400,76982
317,56189
300,48926
287,64690
287,49563
255,36571
203,52949
168,90137
147,53202
112,97216
107,18018
74,26090
73,52216
38,76676
32,03986
27,77686
23,40282
19,32760
13,93003
5,13927
2,26212
1,67412
0,41202
Mi2
0,58075
0,55570
0,53150
0,50811
0,48550
0,46367
0,44254
0,42212
0,40239
0,38331
0,36486
0,34699
0,32976
0,31311
0,29701
0,28147
0,26645
0,25196
0,23797
0,22447
0,21144
0,19889
0,18677
0,17513
0,16391
0,15313
0,14277
0,13282
0,12329
0,11414
0,10538
0,09702
0,08902
0,08141
0,07414
0,06725
0,06072
0,05454
0,04871
0,04323
0,03808
0,03327
0,02880
0,02466
0,02085
0,01735
0,01419
0,01135
0,00883
0,00663
0,00474
0,00317
0,00192
169
OR-
X i ORDE-
DEM
NADA
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
92,29407
93,04538
93,77593
93,82323
94,77852
95,32578
96,36600
96,55177
96,76804
97,03626
97,12284
99,52077
99,72138
100,22796
100,95450
102,36524
102,67841
103,46104
103,68259
105,75475
106,01921
107,06764
111,61737
112,97667
113,34344
113,87657
114,40728
114,55931
114,97364
115,13586
116,28309
117,73961
118,31782
118,41611
118,89907
119,18111
119,34963
119,56322
119,83202
120,23667
121,98375
122,36154
123,60274
124,75075
125,10860
126,80775
127,71663
127,86369
128,83419
129,49351
131,42624
131,43197
131,79823
mi
Mi
0,48752
0,49251
0,49750
0,50250
0,50749
0,51248
0,51747
0,52246
0,52745
0,53244
0,53743
0,54242
0,54741
0,55240
0,55740
0,56239
0,56738
0,57237
0,57736
0,58235
0,58734
0,59233
0,59732
0,60231
0,60730
0,61230
0,61729
0,62228
0,62727
0,63226
0,63725
0,64224
0,64723
0,65222
0,65721
0,66220
0,66719
0,67219
0,67718
0,68217
0,68716
0,69215
0,69714
0,70213
0,70712
0,71211
0,71710
0,72209
0,72709
0,73208
0,73707
0,74206
0,74705
-0,03129
-0,01878
-0,00627
0,00627
0,01878
0,03129
0,04381
0,05633
0,06886
0,08141
0,09396
0,10653
0,11912
0,13173
0,14438
0,15703
0,16971
0,18241
0,19515
0,20791
0,22071
0,23354
0,24642
0,25933
0,27229
0,28532
0,29837
0,31148
0,32463
0,33785
0,35112
0,36445
0,37785
0,39132
0,40486
0,41848
0,43217
0,44597
0,45983
0,47378
0,48782
0,50196
0,51619
0,53054
0,54499
0,55956
0,57425
0,58906
0,60404
0,61912
0,63434
0,64971
0,66524
(X X)
-0,54748
0,20383
0,93438
0,98168
1,93697
2,48423
3,52445
3,71022
3,92649
4,19471
4,28129
6,67922
6,87983
7,38641
8,11295
9,52369
9,83686
10,61949
10,84104
12,91320
13,17766
14,22609
18,77582
20,13512
20,50189
21,03502
21,56573
21,71776
22,13209
22,29431
23,44154
24,89806
25,47627
25,57456
26,05752
26,33956
26,50808
26,72167
26,99047
27,39512
29,14220
29,51999
30,76119
31,90920
32,26705
33,96620
34,87508
35,02214
35,99264
36,65196
38,58469
38,59042
38,95668
(X X) M
continua
(X X)
0,01713
-0,00383
-0,00586
0,00616
0,03638
0,07773
0,15441
0,20900
0,27038
0,34149
0,40227
0,71154
0,81953
0,97301
1,17135
1,49551
1,66941
1,93710
2,11563
2,68478
2,90844
3,32236
4,62674
5,22164
5,58246
6,00171
6,43457
6,76465
7,18474
7,53213
8,23079
9,07410
9,62621
10,00784
10,54965
11,02258
11,45600
11,91706
12,41103
12,97926
14,21615
14,81786
15,87862
16,92911
17,58522
19,00613
20,02702
20,63014
21,74100
22,69196
24,47581
25,07258
25,91554
0,29973
0,04155
0,87307
0,96370
3,75187
6,17142
12,42177
13,76576
15,41735
17,59562
18,32948
44,61203
47,33211
54,55911
65,82002
90,70074
96,76389
112,77365
117,52823
166,75083
173,65082
202,38175
352,53156
405,42321
420,32765
442,47223
465,08088
471,66127
489,82958
497,03643
549,50598
619,91358
649,04053
654,05832
678,99455
693,77262
702,67851
714,04785
728,48568
750,49281
849,26805
871,43004
946,25105
1 018,19729
1 041,16276
1 153,70300
1 216,27147
1 226,55056
1 295,47041
1 343,36645
1 488,77860
1 489,22081
1 517,62322
Mi2
0,00098
0,00035
0,00004
0,00004
0,00035
0,00098
0,00192
0,00317
0,00474
0,00663
0,00883
0,01135
0,01419
0,01735
0,02085
0,02466
0,02880
0,03327
0,03808
0,04323
0,04871
0,05454
0,06072
0,06725
0,07414
0,08141
0,08902
0,09702
0,10538
0,11414
0,12329
0,13282
0,14277
0,15313
0,16391
0,17513
0,18677
0,19889
0,21144
0,22447
0,23797
0,25196
0,26645
0,28147
0,29701
0,31311
0,32976
0,34699
0,36486
0,38331
0,40239
0,42212
0,44254
170
OR-
X i ORDE-
DEM
NADA
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
132,91891
133,97053
135,38656
135,47110
136,56193
136,56805
137,27243
137,47769
137,97809
138,33079
139,52272
139,81303
142,26056
147,14338
147,19482
149,20216
149,25564
150,32126
151,22657
152,89828
156,10761
158,33893
159,11080
159,75330
159,93437
160,48252
162,01862
162,07885
163,60119
164,18793
164,82585
169,85026
170,06952
170,38835
171,15971
171,66572
180,31494
182,04153
183,53943
186,05545
192,75883
192,85433
194,55137
196,45927
199,44387
200,60562
211,89209
212,51855
222,03666
247,78060
TOTAL
FONTE: A autora
mi
Mi
(X X)
0,75204
0,75703
0,76202
0,76701
0,77200
0,77699
0,78199
0,78698
0,79197
0,79696
0,80195
0,80694
0,81193
0,81692
0,82191
0,82690
0,83189
0,83689
0,84188
0,84687
0,85186
0,85685
0,86184
0,86683
0,87182
0,87681
0,88180
0,88679
0,89178
0,89678
0,90177
0,90676
0,91175
0,91674
0,92173
0,92672
0,93171
0,93670
0,94169
0,94668
0,95168
0,95667
0,96166
0,96665
0,97164
0,97663
0,98162
0,98661
0,99160
0,99654
0,68093
0,69678
0,71282
0,72904
0,74545
0,76207
0,77893
0,79599
0,81328
0,83081
0,84861
0,86668
0,88503
0,90369
0,92267
0,94199
0,96166
0,98176
1,00222
1,02310
1,04445
1,06628
1,08863
1,11153
1,13504
1,15919
1,18404
1,20964
1,23605
1,26342
1,29171
1,32107
1,35161
1,38348
1,41681
1,45179
1,48865
1,52765
1,56912
1,61348
1,66137
1,71329
1,77029
1,83369
1,90547
1,98865
2,08842
2,21471
2,39106
2,70067
40,07736
41,12898
42,54501
42,62955
43,72038
43,72650
44,43088
44,63614
45,13654
45,48924
46,68117
46,97148
49,41901
54,30183
54,35327
56,36061
56,41409
57,47971
58,38502
60,05673
63,26606
65,49738
66,26925
66,91175
67,09282
67,64097
69,17707
69,23730
70,75964
71,34638
71,98430
77,00871
77,22797
77,54680
78,31816
78,82417
87,47339
89,19998
90,69788
93,21390
99,91728
100,01278
101,70982
103,61772
106,60232
107,76407
119,05054
119,67700
129,19511
154,93905
0,00000
(X X) M
continua
(X X)
27,28988
28,65785
30,32694
31,07865
32,59136
33,32266
34,60855
35,52992
36,70865
37,79292
39,61411
40,70925
43,73731
49,07202
50,15014
53,09113
54,25118
56,43128
58,51464
61,44404
66,07824
69,83855
72,14270
74,37442
76,15304
78,40874
81,90842
83,75221
87,46246
90,14045
92,98285
101,73390
104,38210
107,28445
110,96196
114,43615
130,21727
136,26636
142,31586
150,39877
165,99958
171,35090
180,05588
190,00278
203,12753
214,30503
248,62754
265,04986
308,91327
418,43925
11 424,30554
1 606,19509
1 691,59331
1 810,07820
1 817,27886
1 911,47196
1 912,00714
1 974,10344
1 992,38534
2 037,30759
2 069,27131
2 179,13199
2 206,32030
2 442,23893
2 948,68916
2 954,27838
3 176,51879
3 182,54998
3 303,91750
3 408,81101
3 606,81128
4 002,59484
4 289,90729
4 391,61401
4 477,18280
4 501,44701
4 575,30134
4 785,46755
4 793,80424
5 006,92720
5 090,30649
5 181,74000
5 930,34201
5 964,15994
6 013,50679
6 133,73479
6 213,25038
7 651,59463
7 956,63712
8 226,10613
8 688,83187
9 983,46361
10 002,55693
10 344,88827
10 736,63270
11 364,05545
11 613,09561
14 173,03199
14 322,58525
16 691,37744
24 006,11041
Mi2
0,46367
0,48550
0,50811
0,53150
0,55570
0,58075
0,60673
0,63360
0,66142
0,69025
0,72014
0,75113
0,78328
0,81666
0,85132
0,88735
0,92479
0,96385
1,00444
1,04673
1,09088
1,13695
1,18512
1,23550
1,28832
1,34372
1,40195
1,46323
1,52782
1,59623
1,66851
1,74523
1,82685
1,91402
2,00735
2,10769
2,21608
2,33371
2,46214
2,60332
2,76015
2,93536
3,13393
3,36242
3,63082
3,95473
4,36150
4,90494
5,71717
7,29362
669 048,10709 195,55906
171
As hipteses a serem testadas:

H0 : A varivel aleatria X normalmente distribuda
H1 : A varivel aleatria X no normalmente distribuda
O coeficiente de correlao calculado atravs da seguinte expresso:
(X
n
(X
n
i =1
Tem-se que:
) M
n
, pois M = Mi =0 (ver total da 4.a coluna, do quadro acima)
2
i
i=1
2
i
i =1
(X
n
i =1
i =1
X Mi = 11. 424,30554 ;
(X
X = 669. 048,10709 ;
i =1
= 195,55906
i=1
Substituindo-se os valores na expresso acima, obtm-se o valor
= 0,99876 , superior ao valor crtico igual a 0,98700 (Quadro A.2.1 do Anexo 2),
para nvel de significncia de 5%. Portanto, aceita-se a hiptese H0 de que a
varivel aleatria X normalmente distribuda.
172
APNDICE 4 - APLICAO DO COEFICIENTE DE CORRELAO

PONTO BISSERIAL
173
ARQUIVO DE DADOS
O arquivo de dados utilizado para os clculos apresentado no quadro a

seguir.
QUADRO A.4.1 - RENDA DAS PESSOAS OCUPADAS, SEGUNDO GNERO, NA RMC - AGO 2003
continua
RENDA
RENDA
OBS.
GNERO
OBS.
GNERO
(R$ 1,00)
(R$ 1,00)
1
350
1
64
450
1
2
600
1
65
2 900
1
3
900
1
66
600
1
4
2 300
1
67
1 000
1
5
500
1
68
1 500
1
6
350
1
69
320
0
7
800
1
70
530
0
8
4 000
1
71
400
0
9
1 500
1
72
360
0
10
1 000
1
73
1 000
0
11
350
1
74
400
0
12
700
1
75
400
0
13
1 000
1
76
800
0
14
800
1
77
650
0
15
400
1
78
1 000
0
16
500
1
79
900
0
17
800
1
80
240
0
18
380
1
81
400
0
19
591
1
82
300
0
20
3 000
1
83
500
0
21
900
1
84
300
0
22
600
1
85
1 000
0
23
2 300
1
86
900
0
24
900
1
87
2 200
0
25
2 500
1
88
900
0
26
400
1
89
400
0
27
1 400
1
90
3 000
0
28
2 000
1
91
700
0
29
2 200
1
92
450
0
30
1 500
1
93
330
0
31
1 000
1
94
2 000
0
32
1 500
1
95
1 200
0
33
500
1
96
480
0
34
1 700
1
97
500
0
35
1 800
1
98
1 700
0
36
4 000
1
99
250
0
37
2 500
1
100
590
0
38
1 500
1
101
1 600
0
39
680
1
102
800
0
40
400
1
103
600
0
41
500
1
104
1 900
0
42
470
1
105
500
0
43
1 200
1
106
4 000
0
44
900
1
107
350
0
45
1 000
1
108
900
0
46
3 500
1
109
900
0
47
500
1
110
240
0
174
QUADRO A.4.1 - RENDA DAS PESSOAS OCUPADAS, SEGUNDO GNERO, NA RMC - AGO 2003
concluso
RENDA
RENDA
OBS.
GNERO
OBS.
GNERO
(R$ 1,00)
(R$ 1,00)
48
350
1
111
1 500
0
49
1 200
1
112
2 000
0
50
2 400
1
113
1 200
0
51
800
1
114
2 100
0
52
600
1
115
300
0
53
3 000
1
116
800
0
54
520
1
117
1 500
0
55
800
1
118
740
0
56
400
1
119
900
0
57
600
1
120
800
0
58
1 200
1
121
600
0
59
350
1
122
340
0
60
1 300
1
123
280
0
61
1 000
1
124
860
0
62
1 500
1
125
600
0
63
810
1
FONTE: PME-IPARDES/IBGE
NOTAS: Pessoas ocupadas na condio de empregados com carteira de trabalho assinada no setor
privado, no grupo de atividades relativa a intermediao financeira e ativiades imobilirias,
aluguis e servios prestados s empresas, com 11 anos ou mais de estudo e que
trabalharam entre 35 e 45 horas, na semana de referncia.
A varivel gnero assume os valores 0 e 1, sendo: 1= masculino; 0=feminino.
ESTATSTICAS DESCRITIVAS DA VARIVEL RENDA
TABELA A.4.1 - ESTATSTICAS DESCRITIVAS DA RENDA DAS PESSOAS OCUPADAS SEGUNDO

GNERO E TOTAL NA RMC - AGOSTO 2003
ESTATSTICAS DESCRITIVAS
GNERO
Homem
68,00
350,00
4 000,00
1 212,51
900,00
910,19
Mulher
TOTAL
Tamanho da amostra
57,00
125,00
Mnimo (R$ 1,00)
240,00
240,00
Mximo (R$ 1,00)
4 000,00
4 000,00
Mdia (R$ 1,00)
901,93
1 070,89
Mediana (R$ 1,00)
700,00
800,00
Desvio Padro (R$ 1,00)
729,73
843,55
FONTE: PME IPARDES/IBGE
privado, no grupo de atividades relativa a intermediao financeira e ativiades imobilirias, aluguis
e servios prestados s empresas, com 11 anos ou mais de estudo e que trabalharam entre 35 e
45 horas, na semana de referncia.
TESTE DE NORMALIDADE DA VARIVEL RENDA

H0 : a varivel renda provm de uma distribuio normal
H1 : a varivel renda no provm de uma distribuio normal
175
Estatsticas de Kolmogorov:
DN = 0,221489
Valor-p aproximado = 0,00000943433
Concluso: Sendo o valor-p menor que 0,05, podemos rejeitar H0 e concluir
que a distribuio da varivel em estudo no provm de uma distribuio normal.
TRANSFORMAO DA VARIVEL RENDA
Tendo em vista que a varivel renda no normalmente distribuda, fez-se

uma transformao logartmica (base e) na varivel, e testou-se a hiptese da
normalidade.
H0 : a varivel ln renda provm de uma distribuio normal
H1 : a varivel ln renda no provm de uma distribuio normal
Estatsticas de Kolmogorov:
DN = 0,086597
Valor-p aproximado = 0,307337
Concluso: Sendo o valor-p maior que 0,05, pode-se aceitar H0 e concluir
que a distribuio da varivel em estudo provm de uma distribuio normal.
CLCULO DOS COEFICIENTES DE CORRELAO
O Coeficiente Linear de Pearson foi obtido utilizando-se a Procedure

Correlation (PROC CORR) disponvel no Statistical Software Analysis (SAS) e o
Coeficiente de Correlao Ponto Bissserial, utilizando-se o programa que se

encontra no Apndice 6.
176
QUADRO A.4.2 - COEFICIENTES DE CORRELAO PONTO BISSERIAL E LINEAR DE
PEARSON ENTRE AS VARIVEIS EM ESTUDO
VARIVEIS
COEFICIENTE DE CORRELAO PONTO BISSERIAL
pb
Significncia
COEFICIENTE DE CORRELAO LINEAR DE PEARSON
Significncia
Renda e gnero
0, 18412
0,04
0,18412
0,04
Ln de renda e gnero
0,21544
0,02
0,21544
0,02
FONTE: PME - IPARDES/IBGE

privado, no grupo de atividades relativa a intermediao financeira e ativiades imobilirias,
aluguis e servios prestados s empresas, com 11 anos ou mais de estudo e que
trabalharam entre 35 e 45 horas, na semana de referncia.
Observa-se no quadro acima que as estimativas dos dois coeficientes de

correlao so exatamente iguais, o que correto, pois trata-se do mesmo
coeficiente.
177
APNDICE 5 - CLCULO DOS COEFICIENTES DE CORRELAO DE

SPEARMAN E POR POSTOS DE KENDALL
178
1 CLCULO DOS COEFICIENTES DE CORRELAO DE SPEARMAN E POR

POSTOS DE KENDALL
TABELA A.5.1 - POPULAO MIGRANTE TOTAL E ECONOMICAMENTE ATIVA NAS ATIVIDADES URBANAS, POSTO
DE X E Y, ELEMENTOS SUPERIORES E INFERIORES E S
MICRORREGIES
POPULAO
POPULAO
MIGRANTE
ECONOMICAMENTE
TOTAL (X)
ATIVA (Y)
POSTO DE X POSTO DE Y
(1)
(2)
ELEMENT0S ELEMENTOS
SUPERIORES INFERIORES
(3)
(4)
S
(5)
704
137
803
22
21
703
250
690
22
22
708
613
2 434
21
21
710
623
2 455
20
20
707
750
3 304
18
17
720
1 387
2 482
18
18
705
1 845
10 792
16
15
702
2 448
21 064
13
11
709
3 580
11 085
14
13
723
3 637
17 125
10
12
11
724
6 268
14 318
11
11
11
713
7 172
9 219
12
12
12
711
7 401
13 957
13
10
11
11
706
14 796
48 967
14
22
-6
719
26 437
29 485
15
15
722
27 713
23 832
16
14
712
28 528
45 664
17
19
717
32 740
34 848
18
16
716
36 216
37 141
19
17
715
39 501
47 809
20
20
721
40 978
48 198
21
21
701
42 116
226 657
22
24
-2
718
45 510
42 589
23
18
714
86 938
111 618
24
23
TOTAL
216
FONTE DOS DADOS: Menezes, Faissol e Ferreira (1978)

NOTAS: Populao migrante total de destino urbano e origem rural. As colunas (1), (2), (3), (4) e (5) foram elaboradas pela
autora.
O Coeficiente de Correlao de Spearman calculado a partir dos postos foi

s = 0,922609 . Este coeficiente o Coeficiente de Correlao Linear de Pearson.
Coeficiente de Correlao por Postos de Kendall obtido foi:

=
216
0,5 24 23
= 0,782609
179
APNDICE 6 - PROGRAMAS UTILIZADOS
180
1 PROGRAMA PARA GERAR AMOSTRA NORMAL BIVARIADA
O Programa que deu origem a este, foi obtido no site:

www.sas.com_>service and support_>tecnical support_
data a500;
keep x y;
m1=5; m2=20; v1=2; v2=10; ro=0.80;
do i=1 to 500; /* tamanho da amostra */
x=m1+sqrt(v1)*rannor(123);
y=(m2+ro*(sqrt(v2)/sqrt(v1))*(x-m1))+ sqrt(v2*(1-ro**2))*rannor(123);
output;
end;
run;
2 PROGRAMAS PARA OS CLCULOS DOS COEFICIENTES DE CORRELAO
2.1 COEFICIENTE DE CORRELAO BISSERIAL

****************************************************************
* ESTE PROGRAMA CALCULA O COEFICIENTE DE CORRELAO BISSERIAL *
****************************************************************
data arq;
set dados;
if y>=116854 then dicoty=1 /* ponto de dicotomizao*/;
else dicoty=0;
run;
181
* calcula a proporo da varivel dicotmica,desvio padro e n *;

proc means data=arq noprint;
var dicoty x;
output out=temp(keep=p stdx n) mean=p std=stdy stdx n=n;
run;
* ordena a varivel dicotmica*;

proc sort data=arq;
by descending dicoty;
run;
*calcula a mdia da varivel continua *;

by notsorted dicoty;
var x;
output out=out2 mean=m1;
run;
* organiza a mdia calculada acima *;

proc transpose data=out2 out=out3(rename=(col1=mx1 col2=mx0));
var m1;
run;
* calcula o coeficiente de correlao bisserial *;

data out4;
set out3(drop= _name_);

run;
182
*calcula o coeficiente bisserial *;

data out5;
merge temp out4;

z=probit(1-p);
y=exp(-z*z/2)/sqrt(2*arcos(-1));
bis=p*(1-p)*(mx1-mx0)/stdx/y;
rbis=((((sqrt(p*(1-p))/y)-(bis*bis)))/sqrt(n));
run;
proc print data=out5;
title1 ' correlao bisserial';

var bis rbis p u mx1 mx0;
format bis rbis p u mx1 mx0 comma15.4;
run;
2.2 COEFICIENTE DE CORRELAO TETRACRICO
*******************************************************
* ESTE PROGRAMA CALCULA O COEFICIENTE DE CORRELAO *
* TETRACRICO *
*******************************************************
* define o ponto de dicotomizao*;
data arq;
set dados;
if y>=23.2831 then dicoty=1;
else dicoty=0;
if x>=6.98211 then dicotx=1;
else dicotx=0;
run;
183
proc freq data=arq;
title1 'ponto de dicotomizao: mediana';

tables dicotx*dicoty / measures chisq plcorr converge=0.0001
maxiter=200;
run;
2.3 COEFICIENTE DE CORRELAO PONTO BISSERIAL

*****************************************************************
* PROGRAMA PARA CALCULAR O COEFICIENTE DE CORRELAO PONTO *
* BISSERIAL
*****************************************************************;
*define a varivel dicotmica*;
data arq;
set dados;
dicoty=y;
x=x;
run;
* calcula a proporo da varivel binria,

desvio padro da varivel continua, e n *;
var dicoty x;
output out=temp(keep=p stdx n) mean=p std=stdy stdx n=n;
run;
184
* ordena a varivel dicotmica *;

proc sort data=arq;
by descending dicoty;
run;
*calcula a mdia da varivel continua *;

by notsorted dicoty;
var x;
output out=out2 mean=m1;
run;
* organiza o arquivo gerado acima*;

proc transpose data=out2 out=out3(rename=(col1=mx1 col2=mx0));
var m1;
run;
* calcula o coeficiente ponto bisserial *;

data out4;
set out3(drop= _name_);

run;
proc corr data=arq noprint outp=temp1;
var dicoty x;
run;
* retira o coeficiente ponto bisserial da matriz *;

data temp2(keep=pbis);
set temp1(rename=(x=pbis));
if _TYPE_='CORR' and dicoty<>1 then output;
run;
185
*calculo do coeficiente de correlao ponto bisserial *;

data out5;
merge temp2 temp out4;

if pbis=1 then delete;
rpbis=sqrt(((1-(pbis*pbis)))/(n-2));
keep mx1 mx0 p pbis rpbis;
run;
proc print data=out5;
title1 'correlao ponto bisserial';

var pbis rpbis p mx1 mx0;
format pbis rpbis p mx1 mx0 comma10.6;
run;
186
ANEXO 1 - CO-RELATIONS AND THEIR MEASUREMENT, CHIEFLY

FROM ANTHROPOMETRIC DATA
187
www.mugu.com/galton/statistician.html
CO-RELATIONS AND THEIR MEASUREMENT, CHIEFLY FROM

ANTHROPOMETRIC DATA
By FRANCIS GALTON, F.R.S.
Received December 5, 1888.
[Proceedings of the Royal Society of London 45 (1888), 135-145.]
"Co-relation or correlation of structure" is a phrase much used in biology, and not least in
that branch of it which refers to heredity, and the idea is even more frequently present than the phrase;
but 1 am not aware of any previous attempt to define it clearly, to trace its mode of action in detail, or
to show how to measure its degree.
Two variable organs are said to be co-related when the variation of the one is
accompanied on the average by more or less variation of the other, and in the same direction. Thus
the length of the arm is said to be correlated with that of the leg, because a person with a long arm has
usually a long log, and conversely. If the correlation be close, then a person with a very long arm
would usually have a very long leg; if it be moderately close, then the length of the leg would usually
be only long, not very long; and if there were no correlation at all then the length of the leg would on
the average be mediocre. It is easy to see that correlation must be the consequence of the variations
of the two organs being partly due to common causes. If they were wholly due to common causes, the
correlation would be perfect, as is approximately the case with the symmetrically disposed parts of the
body. If they were in no respect due to common causes, the co-relation would be nil. Between these
two extremes are an number of intermediate cases, and it will be shown how the closeness of
correlation in any particular case admits of being expressed by a simple number.
To avoid the possibility of misconception, it is well to point out that the subject in hand has
nothing whatever to do with the average proportions between the various limbs, in different races,
which have been often discussed from early times up to the present day, both by artists and by
anthropologists. The fact that the average ratio between the stature and the cubit is as 100 to 37, or
thereabouts, does not give the slightest information about the nearness with which they vary together.
It would be an altogether erroneous inference to suppose their average proportion to be maintained so
that when the cubit might be expected to be one-twentieth longer than the average cubit, the stature
might be expected to be one-twentieth greater than the average stature, and conversely. Such a
supposition is easily shown to be contradicted both by fact and theory.
The relation between the cubit and the stature will be shown to be such that for every inch,
centimetre, or other unit of absolute length that the cubit deviates from the mean length of cubits, cubits,
the stature will on the average deviate from the mean length of statures to the amount of 2.5 units, and in
the same direction. Conversely, for each unit of deviation of stature, the average deviation of the cubit
will he 0.26 unit. These relations are not numerically reciprocal, but the exactness of the co-relation
becomes established when we have transmuted the inches or other measurement of the cubit and of the
stature into units dependent on their respective scales of variability. We thus cause a long cubit and an
equally long stature, as compared to the general run of cubits and statures, to be designated by an
188
identical scale-value. The particular unit that I shall employ is the value of the probable error of any single
measure in its own group. In that of the cubit, the probable error is 0.56 inch = 1.42 cm.; in the stature it
is 1.75 inch = 4.44 cm. Therefore the measured lengths of the cubit in inches will be transmuted into
terms of a new scale in which each unit = 0.56 inch, and the measured lengths of the stature will be
transmuted into terms of another new scale in which each unit is 1.75 inch. After this has been done, we
shall find the deviation of the cubit as compared to the mean of the corresponding deviations of the
stature, to be as 1 to 0.8. Conversely, the deviation of the stature as compared to the mean of the
corresponding deviations of the cubit will also be as l to 0.8. Thus the existence of the co-relation is
established, and its measure is found to be 0.8.
Now as to the evidence of all this. The data were obtained at my anthropometric laboratory
at South Kensington. They are of males of 21 years and upwards, but as a large proportion of them
were students, and barely 21 years of age, they were not wholly full-grown; but neither that fact nor the
small number of observations is prejudicial to the conclusions that will be reached. They were
measured in various ways, partly for the purpose of this inquiry. It will be sufficient to give some of
them as examples. The exact number of 350 is not preserved throughout, as injury to some limb or
other reduced the available number by 1, 2, or 3 in different cases. After marshalling the measures of
each limb in the order of their magnitudes, I noted the measures in each series that occupied the
positions of the first, second and third quarterly divisions. Calling these measures in any one series
Q1, M and Q3, I take M, which is the median or middlemost value, as that whence the deviations are to
be measured, and [1/2]{Q3Q3}=Q as the probable error of any single measure in the series. This is
practically the same as saying that one-half of the deviations fall within the distance of
Q from the
mean value, because the series run with fair symmetry. In this way I obtained the following values of M
and Q, in which the second decimal must be taken as only roughly approximate. The M and Q of any
particular series may be identified by a suffix, thus Mc, Qc might stand for those of the cubit, and Mi, Qi
for those of the stature.
Table I.
M
Inch.
Q
Cubit.
Inch.
Cubit.
Head length
7.62
19.35
0.19
0.48
Head breadth
6.00
15.24
0.18
0.46
67.20
170.69
1.75
4.44
4.54
11.53
0.15
0.38
Stature
Left middle finger
Left cubit
18.05
45.70
0.56
1.42
Height of right knee
20.50
52.00
0.80
2.03
NOTE.-The head length is its maximum length measured from the notch between and just
below the eyebrows. The cubit is measured from the hand prone and without taking off the coat; it is the
distance between the elbow of the bent left arm and the tip of the middle finger. The height of the knee is
taken sitting when the knee is bent at right angles, less the measured thickness of the heel of the boot.
Tables were then constructed, each referring to a different pair the above elements, like
Tables II and III, which will suffice as examples of the whole of them. It will be understood that the Q
value is a universal unit applicable to the most varied measurements, such as breathing capacity,
strength, memory, keenness of eyesight, and enables them to be compared together on equal terms
189
notwithstanding their intrinsic diversity. It does not only refer to measures of length, though partly for
the sake of compactness, it is only those of length that will be here given as examples. It is
unnecessary to extend the limits of Table II, as it includes every line and column in my MS table that
contains not less than twenty entries. None of the entries lying within the flanking lines and columns of
Table II were used.
Table II.
Length of left cubit in inches, 348 adult males.
Stature in
inches.
Under
16.5
16.5
17.0
17.5
18.0
18.5
19.0
and
and
and
and
and
and
under under under under under under

17.0
17.5
18.0
18.5
19.0
19.5
15
Total
19.5
cases.
and
above
71 and above
..
..
..
30
70
..
..
..
13
11
..
30
69
..
25
15
..
50
68
..
14
48
67
..
15
28
..
61
66
..
18
15
..
..
48
65
..
10
12
..
..
36
64
..
11
..
..
..
21
Below 64
12
10
..
..
..
34
Totals
25
49
61
102
55
38
348
The measures were made and recorded to the nearest tenth of an inch. The heading of 70
inches of stature includes all records between 69.5 and 70.4 inches; that of 69 includes all between
68.5 and 69.4, and so on.
190
Table III.
Stature Ms = 67.2 inches; Qs = 1.75 inch. Left Cubit Mc = 18.05 inches; Qc = 0.56 inch.
No. of Stature.
Cases
Deviation from Ms reckoned in

Mean of
Corresponding
Inches.
Units of Qc.
left
cubits.
Units of Q,.
Observed. Smoothed.
Deviation from Ms
reckoned in
Inches.
inches.
inches.
Smoothed
Values
Added to
Multiplied
Mc.
by Qc.
30
70.0
+2.8
+1.60
18.8
+0.8
+1.42
+1.30
+0.73
18.8
50
69.0
+1.8
+1.03
18.3
+0.3
+0.53
+0.84
+0.47
18.5
38
68.0
+0.8
+0.46
18.2
+0.2
+0.36
+0.38
+0.21
18.3
61
67.0
-0.2
-0.11
18.1
+0.1
+0.18
-0.08
-0.04
18.0
48
66.0
-1.2
-0.69
17.8
-0.2
-0.36
-0.54
-0.30
17.8
36
65.0
-2.2
-1.25
17.7
-0.3
-0.53
-1.00
-0.56
17.5
21
64.0
-3.2
-1.83
17.2
-0.8
-1.46
-1.46
-0.80
17.2
No. of
cases.
Left
cubit.
Deviation from Mc
reckoned in
Inches.
Units of
Qc.
inches.
Deviation from Ms, reckoned in

Mean of
Inches
Units of Qs.
corresponding
statures.
Observed. Smoothed.
Smoothed
values
Added to
Multiplied
Ms
by Qs.
inches.
38
19.25
+1.20
+2.14
70.3
+3.1
+1 8
+1.70
+3.0
70.2
55
18 75
+0.70
+1.25
68.7
+1.5
+0.9
+1.00
+1.8
69.0
102
18.25
+0.20
+0.36
67.4
+0.8
+0.1
+0.28
+0.5
67.7
61
17.75
-0.30
-0.53
86.3
-0.9
-0.5
-0.43
-0.8
66.4
98
17.25
-0.80
-1.43
66.0
-2.2
-1.3
-1.15
-2.0
65.2
26
18.75
-1.30
-2.31
63.7
-3.S
-2.0
-1.85
-3.2
64.0
The values derived from Table II, and from other similar tables, are entered in Table III,
where they occupy all the columns up to the three last, the first of which is headed "smoothed." These
smoothed values were obtained by plotting the observed values, after transmuting them as above
described into their respective Q units, upon a diagram such as is shown in the figure. The deviations
of the "subject" are measured parallel to the axis of y in the figure, and those of the mean of the
corresponding values of the "relative" are measured parallel to the axis of x. When the stature is taken
as the subject, the median positions of the corresponding cubits, which are given in the successive
lines of Table III, are marked with small circles. When the cubit is the subject, the mean positions of
the corresponding statures are marked with crosses. The firm line in the figure is drawn to represent
the general run of the small circles and crosses. It is here seen to be a straight line, and it was
similarly found to be straight in every other figure drawn from the different pairs of co-related variables
that I have as yet tried. But the inclination of the line to the vertical differs considerably in different
cases. In the present one the inclination is such that a deviation of 1 on the part of the subject,
whether it be stature or cubit, is accompanied by a mean deviation on the part of the relative, whether
it be cubit or stature, of 0.8. This decimal fraction is consequently the measure of the closeness of the
correlation. We easily retransmute it into inches. If the stature be taken as the subject, then Qs is
associated with Qc0.8; that is, a deviation of 1.75 inches in the one with 0.56 0.8 of the other. This is
the same as 1 inch of stature being associated with a mean length of cubit equal to 0.26 inch.
191
Conversely, if the cubit he taken as the subject, then Qc is associated with Qs0.8; that is, a deviation
of 0.56 inch in the one with 1.750.8 of the other. This is the same as 1 inch of cubit being associated
with a mean length of 2.5 inches of stature. If centimetre be read for inch the same holds true. Six
other tables are now given in a summary form, to show how well calculation on the above principle
agrees with observation.
Table IV.
Mean of corresponding
No.
Length
statures.
No.
of
of
of
cases.
head.
cases.
lengths of head.
Height
Observed. Calculated.
32
7.90
68.5
68.1
26
70.5
7.72
7.75
41
7.80
67.2
67.8
30
69.5
7.70
7.72
46
7.70
67.6
67.5
50
68.5
7.65
7.68
52
7.60
66.7
67.2
49
67.5
7.65
7.64
58
7.50
66.8
66.8
56
66.5
7.57
7.60
34
7.40
66.0
66.5
43
65.5
7.57
7.69
26
7.30
66.7
66.2
31
64.5
7.54
7.65
No.
of
lengths of left
Height.
middle finger.
cases.
Length
No.
of left
statures.
of
middle
cases.
finger.
30
70.5
4.71
4.74
23
4.80
70.2
69.4
50
69.5
4.55
4.68
49
4.70
68.1
68.5
37
68.5
4.57
4.62
62
4.60
68.0
67.7
62
67.5
4.58
4.56
63
4.50
67.3
66.9
48
66.5
4.59
4.50
57
4.40
66.0
66.1
37
65.5
4.47
4.44
35
4.30
65.7
65.3
20
64.5
4.33
4.38
No.
Left
of
middle
lengths of left cubit.
cases. finger.
No.
Length
lengths of left middle
of
of left
finger.
cases.
cubit.
23
4.80
18.97
18.80
29
19.00
4.76
4.75
50
4.70
18.55
18.49
32
18.70
4.64
4.69
62
4.60
18.24
18.18
48
18.40
4.60
4.62
62
4.50
18.00
17.87
70
18.10
4.56
4.55
57
4.40
17.72
17.55
37
17.80
4.49
4.48
34
4.30
17.27
17.24
31
17.50
4.40
4.41
28
17.20
4.37
4.34
24
16.90
4.32
4.28
192
No.
Length
of
of
cases.
head.
breadths of head.
No.
Breadth
of
of
cases.
head.
lengths of head.
32
7.90
6.14
6.12
27
6.30
7.72
7.84
41
7.80
6.05
6.08
36
6.20
7.72
7.75
46
7.70
6.14
6.04
53
6.10
7.65
7.65
52
7.60
5.98
6.00
58
6.00
7.68
7.60
34
7.40
5.96
5.91
37
5.80
7.55
7.50
26
7.30
5.85
5.87
30
5.70
7.45
7.46
No.
Height
of
of
cases.
knee.
No.
of
heights of knee.
Stature.
cases.
statures.
30
70.0
21.7
21.7
23
22.2
70.5
70.6
50
69.0
21.1
21.3
32
21.7
69.8
69.6
38
68.0
20.7
20.9
50
21.2
68.7
68.6
61
67.0
20.5
20.5
68
20.7
67.3
67.7
49
66.0
20.2
20.1
74
20.2
66.2
66.7
36
65.0
19.7
19.7
41
19.7
65.5
65.7
26
19.2
64.3
64.7
No.
Height
No.
heights of knee.
of
Left
of
of
cases.
cubit.
cases.
knee.
left cubit.
29
19.0
21.5
21.6
23
22.25
18.98
18.97
32
18.7
21.4
21.2
30
21.75
18.68
18.70
48
18.4
20.8
20.9
52
21.25
18.38
18.44
70
17.1
20.7
20.6
69
20.75
18.15
18.17
37
17.8
20.4
20.2
70
20.25
17.75
17.90
31
17.5
20.0
19.9
41
19.75
17.55
17.63
28
17.2
19.8
19.6
27
19.25
17.02
17.36
23
16.9
19.3
19.2
From Table IV the deductions given in Table V can be made; but they may be made
directly from tables of the form of Table III, whence Table IV was itself derived.
193
Table V.
In units of Q.
In units of ordinary
measure.
Subject.
Relative.
Stature
Cubit
Cubit
Stature
Stature
Head length
Head length
Stature
Stature
Middle finger
Middle finger
Stature
Middle finger
Cubit
Cubit
Middle finger
Head length
Head breadth
Head breadth
Head length
Stature
Height of knee
r.
0.8
0.35
0.7
0.85
0.45
0.9
{(1 )}
As 1 to
=.
to
0.6
0.93
0.72
0.61
0.89
0.44
Height of knee Stature

Cubit
Height of knee
Height of knee Cubit
0.8
0.60
f.
0.26
0.45
2.5
1.4
0.38
1.63
3.2
0.17
0.06
0.10
8.2
1.26
3.13
0.34
0.21
0.09
0.43
0.16
0.48
0.17
0.41
0.35
1.20
0.77
1.14
0.64
0.56
0.45
When the deviations of the subject and those of the mean of the relatives are severally
measured in units of their own Q, there is always a regression in the value of the latter. This is precisely
analogous to what was observed in kinship, as I showed in my paper read before this Society on
``Hereditary Stature'' (`Roy. Soc. Proc.,' vol. 40, 1886, p. 42). The statures of kinsmen are co-related
variables; thus, the stature of the father is correlated to that of the adult son, and the stature of the adult
son to that of the father; the stature of the uncle to that of the adult nephew, and the stature of the adult
nephew to that of the uncle, and so on; but the index of correlation which is what I there called
``regression,'' is different in the different cases. In dealing with kinships there is usually no need to
reduce the measures to units of Q, because the Q values are alike in all the kinsmen, being of the same
value as that of the population at large. It however happened that the very first case that I analysed was
different in this respect. It was the reciprocal relation between the statures of what I called the ``midparent'' and the son. The mid-parent is an ideal progenitor, whose stature is the average of that of the
father on the one hand and of that of the mother on the other, after her stature had been transmuted into
its male equivalent by the multiplication of the factor of 1.08. The Q of the mid-parental stature was found
to be 1.2, that of the population dealt with was 1.7. Again, the mean deviation measured in inches of the
statures of the sons was found to be two-thirds of the deviation of the mid-parents, while the mean
deviation in inches of the mid-parent was one-third of the deviation of the sons. Here the regression,
194
when calculated in Q units, is in the first case from [ 1/1.2] to [ 2/3]1.7=1 to 0.47, and in the second
case from [ 1/1.7] to [ 1/3][ 1/1.2]=1 to 0.44 which is practically the same.
The rationale of all this will be found discussed in the paper on ``Hereditary Stature,'' to
which reference has already been made, and in the appendix to it by Mr. J. D. Hamilton Dickson. The
entries in any table, such as Table II, may be looked upon as the values of the vertical ordinates to a
surface of frequency, whose mathematical properties were discussed in the above-mentioned
appendix, therefore I need not repeat them here. But there is always room for legitimate doubt whether
conclusions based on the strict properties of the ideal law of error would be sufficiently correct to be
serviceable in actual cases of correlation between variables that conform only approximately to that
law. It is therefore exceedingly desirable to put the theoretical conclusions to frequent test, as has
been done with these anthropometric data. The result is that anthropologists may now have much less
hesitation than before, in availing themselves of the properties of the law of frequency of error.
I have given in Table V a column headed {(1r2)}=f. The meaning of f is explained in the
paper on ``Hereditary Stature.'' It is the Q value of the distribution of any system of x values, as x1, x2,
x3, &c., round the mean of all of them, which we may call X. The knowledge of f enables dotted lines to
be drawn, as in the figure above, parallel to the line of M values, between which one half of the x
observations, for each value of y, will be included. This value of f has much anthropological interest of
its own, especially in connexion with M. Bertillon's system of anthropometric identification, to which I
will not call attention now.
It is not necessary to extend the list of examples to show how to measure the degree in
which one variable may be correlated with the combined effect of n other variables, whether these be
themselves correlated or not. To do so, we begin by reducing each measure into others, each having the
Q of its own system for a unit. We thus obtain a set of values that can be treated exactly in the same way
as the measures of a single variable were treated in Tables II and onwards. Neither is it necessary to
give examples of a method by which the degree may be measured, in which the variables in a series
each member of which is the summed effect of n variables, may be modified by their partial correlation.
After transmuting the separate measures as above, and then summing them, we should find the
probable error of any one of them to be n if the variables were perfectly independent, and n if they were
rigidly and perfectly co-related. The observed value would be almost always somewhere intermediate
between these extremes, and would give that information that is wanted.
To conclude, the prominent characteristics of any two correlated variables, so far at least
as I have as yet tested them, are four in number. It is supposed that their respective measures have
been first transmuted into others of which the unit is in each case equal to the probable error of a since
single measure in its own series. Let y=the deviation of the subject, whichever of the two variables may
be taken in that capacity; and let x1, x2, x3, &c., be the corresponding deviations of the relative, and let
the mean of these be X. Then we find: (1) that y=rX for all values of y; (2) that r is the same, whichever
of the two variables is taken for the subject; (3) that r is always less than 1; (4) that r measures the
closeness of correlation.
195
ANEXO 2 - VALORES CRTICOS DO COEFICIENTE DE CORRELAO
196
QUADRO A.2.1 - VALORES CRTICOS DO COEFICIENTE DE CORRELAO SEGUNDO NVEIS DE
SIGNIFICNCIA E TAMANHO DA AMOSTRA
TAMANHO
DA AMOSTRA
3
4
5
TAMANHO
DA AMOS0,100
TRA
0,891
32
0,894
33
0,902
34
NVEIS DE SIGNIFICNCIA
0,010
0,025
0,050
0,869
0,822
0,822
0,872
0,845
0,855
0,879
0,868
0,879
6
7
8
9
10
0,835
0,847
0,859
0,868
0,876
0,868
0,876
0,886
0,893
0,900
0,890
0,899
0,905
0,912
0,917
0,911
0,916
0,924
0,929
0,934
11
12
13
14
15
0,883
0,889
0,895
0,901
0,907
0,906
0,912
0,917
0,921
0,925
0,922
0,926
0,931
0,934
0,937
16
17
18
19
20
0,912
0,916
0,919
0,923
0,925
0,928
0,931
0,934
0,937
0,939
21
22
23
24
25
0,928
0,930
0,933
0,936
0,937
26
27
28
29
30
31
NVEIS DE SIGNIFICNCIA
0,010
0,025
0,050
0,100
0,949
0,950
0,951
0,959
0,960
0,960
0,966
0,967
0,967
0,972
0,973
0,973
35
36
37
38
39
0,952
0,953
0,955
0,956
0,957
0,961
0,962
0,962
0,964
0,965
0,968
0,968
0,968
0,970
0,971
0,974
0,974
0,974
0,975
0,976
0,938
0,941
0,944
0,947
0,950
40
41
42
43
44
0,958
0,958
0,959
0,959
0,960
0,966
0,967
0,967
0,967
0,968
0,972
0,972
0,973
0,973
0,973
0,977
0,977
0,978
0,978
0,978
0,940
0,942
0,945
0,947
0,950
0,952
0,954
0,956
0,958
0,960
45
46
47
48
49
0,961
0,962
0,963
0,963
0,964
0,969
0,969
0,970
0,970
0,971
0,974
0,974
0,974
0,975
0,975
0,978
0,979
0,979
0,980
0,980
0,942
0,944
0,947
0,949
0,950
0,952
0,954
0,955
0,957
0,958
0,961
0,962
0,964
0,965
0,966
50
55
60
65
70
0,965
0,967
0,970
0,972
0,974
0,972
0,974
0,976
0,977
0,978
0,977
0,978
0,980
0,981
0,982
0,981
0,982
0,983
0,984
0,985
0,939
0,941
0,943
0,945
0,947
0,952
0,933
0,955
0,956
0,957
0,959
0,960
0,962
0,962
0,964
0,967
0,968
0,969
0,969
0,970
75
80
85
90
95
0,975
0,976
0,977
0,978
0,979
0,979
0,980
0,981
0,982
0,983
0,983
0,984
0,985
0,985
0,986
0,986
0,987
0,987
0,988
0,989
0,948
0,958
0,965
0,971
100
0,981
0,984
0,987
0,989
FONTE: FILLIBEN (1975)

Análise de Correlação Abordagem Teórica e de

Enviado por

Direitos autorais:

Formatos disponíveis

Análise de Correlação Abordagem Teórica e de

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Análise de Correlação Abordagem Teórica e de

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL DO PARAN

ANLISE DE CORRELAO: ABORDAGEM TERICA E DE

SACHIKO ARAKI LIRA

ANLISE DE CORRELAO: ABORDAGEM TERICA E DE

Dissertao apresentada ao Curso de PsGraduao em Mtodos Numricos em

Ao orientador e amigo Prof. Anselmo Chaves Neto, pelos conhecimentos

LISTA DE TABELAS ........................................................................................................

LISTA DE GRFICOS ......................................................................................................

1.2 OBJETIVOS ...............................................................................................................

1.3 JUSTIFICATIVA .........................................................................................................

1.4 RESUMO HISTRICO...............................................................................................

1.5 APRESENTAO DOS CAPTULOS........................................................................

2 REVISO DE LITERATURA ........................................................................................

2.1 VARIVEL QUALITATIVA, QUANTITATIVA E ESCALAS ........................................

2.2 VARIVEL ALEATRIA.............................................................................................

2.3 PARMETROS ..........................................................................................................

2.4 DISTRIBUIES DE PROBABILIDADES .................................................................

2.4.1 Distribuio Discreta................................................................................................

2.4.1.1 Distribuio de Bernoulli.......................................................................................

2.4.2 Distribuies Contnuas...........................................................................................

2.4.2.1 Distribuio normal univariada .............................................................................

2.4.2.2 Distribuio 2 (qui-quadrado).............................................................................

2.4.2.3 Distribuio t de Student ....................................................................................

2.4.2.4 Distribuio F de Snedecor ..................................................................................

2.4.2.5 Distribuio normal multivariada ..........................................................................

2.5 ESTIMADORES DOS PARMETROS ......................................................................

2.6 MTODOS DE ESTIMAO DOS PARMETROS ..................................................

2.6.1 Mtodo de Mxima Verossimilhana.......................................................................

2.6.2 Mtodo dos Momentos ............................................................................................

2.7 TESTES PARAMTRICOS E NO-PARAMTRICOS..............................................

2.7.1 Testes Paramtricos................................................................................................

2.7.2 Testes No-Paramtricos........................................................................................

2.7.2.1 Testes de aderncia .............................................................................................

3 MEDIDAS DE CORRELAO .....................................................................................

3.1 INTRODUO ...........................................................................................................

3.2 MEDIDAS DE CORRELAO ENTRE DUAS VARIVEIS.......................................

3.2.1 Coeficiente de Correlao Linear de Pearson e a Distribuio Normal

3.2.1.1 Estimadores de mxima verossimilhana ..........................................................

3.2.1.2 Suposies bsicas para a utilizao do Coeficiente de Correlao Linear

3.2.1.3 Interpretao do Coeficiente de Correlao Linear de Pearson .........................

3.2.1.4 Fatores que afetam o Coeficiente de Correlao Linear de Pearson .................

3.2.1.5 Distribuio Amostral do Coeficiente de Correlao Linear de Pearson.............

3.2.1.6 Teste de hiptese para = 0 .............................................................................

3.2.1.7 Transformao Z de Fisher .................................................................................

3.2.1.8 Teste de hiptese para 0 ..............................................................................

3.2.1.9 Intervalo de confiana para .............................................................................

3.2.1.10 Confiabilidade ...................................................................................................

3.2.1.10.1 Confiabilidade de instrumentos de medida.....................................................

Correo de atenuao do coeficiente de correlao................................

Aplicao da correo de atenuao .........................................................

Aplicao da correo para restrio em variabilidade.............................

3.2.1.10.2 Confiabilidade em Sistemas de Engenharia ...................................................

Confiabilidade de sistemas ........................................................................

3.2.1.11 Teste de normalidade (Gaussianidade) ............................................................

3.2.2 Coeficiente de Correlao Bisserial ........................................................................

3.2.2.1 Introduo ............................................................................................................

3.2.2.2 Estimador do Coeficiente de Correlao Bisserial e do erro padro....................

3.2.2.3 Suposies bsicas para a utilizao do Coeficiente de Correlao Bisserial ....