Asociere

Descărcați ca pdf sau txt
Descărcați ca pdf sau txt
Sunteți pe pagina 1din 13

CAPITOLUL 4.

METODE STATISTICE DE STUDIU A LEGĂTURILOR


DINTRE VARIABILE

Analiza statistică a legăturilor dintre variabile este realizată prin metode diferite, metode ce depind de
scala pe care se măsoară variabilele studiate. Astfel, în cazul unor variabile măsurate pe scala nominală
modalităţile de analiză sunt tabelele de contingenţă, utilizarea coeficienţilor de asociere şi a testelor de
concordanţă. Dacă variabilele sunt măsurate pe scala ordinală, pe lângă metodele prezentate pentru variabilele
nominale mai putem utiliza coeficienţi de corelaţie ai rangurilor (Spearman şi Kendall). Este bine cunoscut faptul
că trecând la alte scale de măsurare (de raport sau de interval) păşim deja în sfera variabilelor cantitative unde
putem aplica metode de corelaţie parametrică. O reprezentare sintetică a diferitelor tipuri de abordări
recomandate în funcţie de forma variabilelor studiate este prezentată în tabelul următor:
Tabel 4.1. Modalităţi de abordare statistică a variabilelor calitative158
Variabile/ Scala Nominală Ordinală
de măsurare
Dihotomice Coeficienţii φ, Q, Y, J şi d2
Indicele de coincidenţă
Coeficientul de corelaţie rd

Testul χ2
Regresie categorială de tip Logit şi Probit
Polihotomice Coeficienţii φ, C, V, T, λ ,τ
* *
Coeficientul Spearman ρ
(categoriale)
Coeficienţii lui Kendall ( τ )
Testul χ2
Coeficienţii d, γ
Coeficientul de incertitudine U*
Regresie ordinală de tip Logit şi
Regresie logistică multinomială
Probit
Regresie utilizând variabile în formă
Regresie utilizând variabile în formă
stratificată
stratificată

4.1. Corelaţia neparametrică


Tabelele de contingenţă sunt tabele cu dublă intrare unde pe coloane sunt trecute categoriile (clasele)
unui fenomen iar pe linii categoriile celuilalt fenomen. În funcţie de numărul de categorii pe care îl posedă
fiecare fenomen, în analiza statistică distingem două direcţii de abordare.
Este vorba în primul rând despre cazurile în care studiem două variabile dihotomice, iar în al doilea
rând este vorba despre cazurile în care cel puţin una dintre cele două variabile studiate este polihotomică.

4.1.1. Analiza pentru variabile dihotomice159


160
Să presupunem că studiem două variabile dihotomice. În primul rând variabila „naţionalitate” având
două categorii român/ non-român şi, în al doilea rând, „religie” cu variantele ortodox/ non-ortodox. Tabelul de
asociere, cu ajutorul căruia se va studia eventuala legătură dintre variabile, va fi de forma:

158
Modalităţile de abordare care au menţiunea “*” sunt asimetrice. Aceasta înseamnă că folosirea lor implică specificarea statutului de
variabilă dependentă sau independentă pentru fiecare variabilă analizată.
159
Acest subcapitol a fost publicat: Herţeliu, C. Consideraţii asupra abordărilor statistice a legăturilor dintre variabilele calitative,
Revista Română de Statistică nr. 4/2004, pag. 54-59
160
Vom considera, într-o primă etapă, variabilele naţionalitate şi religie ca fiind dihotomice, urmând ca la următoarele secţiuni să le
transformăm în variabile polihotomice.

85
Tabel 4.2. Distribuţia persoanelor în funcţie de naţionalitate şi religie
Religia/ Naţionalitatea Român Non-român Total
Ortodox n11 n12 n1.
Non-ortodox n21 n22 n2.
Total n.1 n.2 N
Coeficienţii de asociere sunt mărimi abstracte şi variază fie în intervalul [0;1] atunci când arată doar
intensitatea legăturii, fie în intervalul [-1;1] când pe lângă intensitatea legaturii este evidenţiată şi direcţia
acesteia (o valoare negativă pentru o legătură inversă şi o valoare pozitivă pentru o legătură directă).
Situaţia în care cele două variabile nu sunt asociate poartă numele de independenţă statistică şi este
întâlnită atunci când proporţiile distribuirii indivizilor în clasele unei variabile sunt identice în interiorul claselor
celeilalte variabile. În acest caz avem următoarele situaţie:
ni. * n. j
nij = (4.1.)
n
Aeastă formulă este, în fapt, condiţia generală de independenţă statistică şi poate fi aplicată şi în
cazul variabilelor polihotomice. În funcţie de modul în care sunt distribuite frecvenţele în interiorul tabelului de
contingenţă distingem următoarele situaţii:
- independenţă statistică (aşa cum am arătat în paragrafele precedente);
- existenţa unei asocieri de intensitate medie;
- asocierea totală sau maximă (situaţie în care una din frecvenţele interioare este egală cu zero);
- asocierea perfectă (când frecvenţele interioare sunt situate pe diagonala principală – în cazul unei
legaturi directe – sau pe diagonala secundară – în cazul unei legături inverse).
Prezentăm în continuare principalii coeficienţi folosiţi în analiza asocierii unor variabile dihotomice:
Coeficientul φ
ϕ = ± δ rel * δ nat (4.2.)

n11 n21
unde δ rel = − (4.3.)
n1. n2.
n11 n12
şi δ nat = − (4.4.)
n.1 n.2
De obicei, aceste două mărimi ( δ rel şi δ nat ) nu sunt egale. Dar ele nu sunt nici foarte diferite. Aceste
mărimi au două proprietăţi: în primul rând dacă una este nulă atunci şi cealaltă este nulă, iar în al doilea rând
aceste două mărimi au acelaşi semn.
O formulă alternativă de calcul a coeficientului ϕ şi care depinde doar de frecvenţele absolute este
următoarea:
n * n11 − n1. * n.1
ϕ= (4.5.)
n1. * n2. * n.1 * n.2
În această formulă apare o singură frecvenţă absolută din interiorul tabelului. Date fiind frecvenţele
marginale restul de 3 frecvenţe absolute au posibilităţi unice. Deci putem concluziona că un tabel de
contingenţă pentru două variabile dihotomice are un singur grad de libertate.
Coeficientului φ ia valori între –1 şi 1. Interpretarea acestuia este dublă. În primul rând semnul indică
direcţia legăturii. În al doilea rând intensitatea legăturii este dată de valoarea absolută a coeficientului. Pentru 2
variabile statistice independente valoarea coeficientului este 0. Cu cât se apropie de 1, cu atât intensitatea
legăturii este mai ridicată.

86
Testul de concordanţă χ 2 161
Acest test este folosit mai ales pentru a verifica legătura dintre două variabile nominale. Ipoteza de la
care se pleacă în acest test este aceea de a compara două distribuţii. O distribuţie teoretică (bazată pe situaţia
de independenţă – ecuaţia 4.1.) şi distribuţia empirică. Pentru a se putea folosi acest test trebuie să existe cel
puţin 20-30 de cazuri.
Se formează astfel două ipoteze:
H0: cele două variabile sunt independente (distribuţia empirică nu diferă de cea independentă)
H1: există o diferenţă, semnificativă statistic, între distribuţia teoretică (ce presupune independenţa) şi
cea empirică
Pentru a putea alege, cu un prag de semnificaţie α, una dintre cele două ipoteze se apelează la
statistica:

=∑
( nij − mij ) 2
χ calc
2
mij (4.6.)
i, j

ni. * n. j
unde mij = (4.1.) bis
n
(frecvenţele interioare calculate în cazul existenţei independenţei între variabile – utilizând ecuaţia 4.1.).

În cazul în care χ calc


2
> χ α ,1
2
unde χ α2 ,1 este valoarea tabelară corespunzătoare nivelului de
semnificaţie α şi numărului gradelor de libertate (1) se alege ipoteza H1. Altfel, ipoteza nulă este confirmată şi
asistăm la independenţa celor două variabile.

Deoarece valoarea lui χ calc


2
creşte pe măsură ce n creşte acest test nu arată decât existenţa sau
inexistenţa legăturii. Intensitatea legăturii nu se poate măsura cu ajutorul acestui test.

Între coeficientul ϕ şi testului χ2 există următoarea relaţie:

χ calc
2
ϕ =± (4.7.)
n
semnul se atribuie în funcţie de modul în care sunt distribuite frecvenţele în tabelul de contingenţă.
Coeficientul Q162
A fost introdus de statisticianul englez Yule. Formula sa de calcul este:

n11 * n22 − n12 * n21


Q= (4.8.)
n11 * n22 + n12 * n21
Acesta ia valori tot între –1 şi 1. Dacă în cazul coeficientului φ la apariţia unei valori nule marimea
calculată nu atinge valorile maxime, în cazul coeficientului Q apariţia unei valori nule duce la atingerea valorii
maxime pozitive sau negative. În cazul unor variabile independente, ca şi la φ valoarea coeficientului Q este
nulă.
O altă formă sub care se poate scrie Q este:

161
Pentru a putea folosi testul χ 2 , în analiza a două variabile dihotomice, nici un nij nu trebuie sa fie sub 5.

162
În memoria lui Quételet (1796-1874), savant belgian, care a fost printre primii care au început sa aplice rezultatele teoriei probabilităţilor
şi a statisticii matematice în studiul fenomenelor sociale.

87
n11 * n22
−1
n12 * n21
Q= (4.9.)
n11 * n22
+1
n12 * n21

n11 * n22
unde expresia este cunoscută sub denumirea de „odd ratio”163 şi se mai poate scrie sub forma
n12 * n21
n11 n21
: .
n12 n22
Coeficientul Y
Paternitatea acestui coeficient o are tot Yule. Diferenţa faţă de coeficientul Q este dată de extragerea
prealabilă a rădăcinii pătrate din fiecare grup de produse de frecvenţe ce apare în formulă.

n11 * n22 − n12 * n21


Y= (4.10.)
n11 * n22 + n12 * n21

Proprietăţile şi interpretările pentru coeficientul Y sunt aceleaşi ca şi în cazul coeficientului Q.

Coeficientul J al lui Jaccard


Formula de calcul este:

n11
J= (4.11.)
n11 + n12 + n21
După cum se observă din formulă, acest coeficient poate să atingă valoarea maximă (1) doar în cazul
în care frecvenţele interioare sunt distribuite de-a lungul diagonalei secundare. Acest lucru se întâmplă atunci
când toate persoanele sunt non-ortodoxe şi non-române. Valoarea minimă (0) este atinsă atunci când nu există
nici un ortodox de naţionalitate română.

Indicele de coincidenţă - IC
Se calculează cu ajutorul următoarei formule:

2 * n11
IC = (4.12.)
2 * n11 + n12 + n21
Asemănarea cu coeficientul J este evidentă. Deosebirea este aceea că, de regulă, valoarea lui IC
este superioară lui J. Valorile minimă (0) şi maximă (1) se ating în aceleaşi condiţii.
Coeficientul de asociere d2
Formula de calcul a acestui coeficient este:

(n11 * n22 − n21 * n12 ) 2


d 2 = n* (4.13.)
n1. * n.1 * n2. * n.2

163
Este vorba, aici, despre raportul şanselor. Practic, este vorba despre compararea unor mărimi relative de coordonare în cazul unor
variabile calitative bidimensionale.

88
Coeficientul de corelaţie rd

d 2 (n11 * n22 − n21 * n12 )


rd = = (4.14.)
n n1. * n.1 * n2. * n.2

Se poate demonstra164 că proprietăţile şi valoarea acestuia sunt similare coeficientului liniar de


corelaţie simplă ( ρ ) Bravis-Pearson.

4.1.2. Cazul variabilelor polihotomice165


Vom transforma cele două variabile dihotomice folosite la secţiunea precedentă în variabile
polihotomice prin detalierea variantelor non-român şi non-ortodox. În acest caz, tabelul de asociere va avea p
coloane şi r linii.
Tabel 4.3. Distribuţia persoanelor în funcţie de naţionalitate şi religie
Religia/ Total
Maghiară
Română

Naţionalitatea

General

Slovaci

Altele
.

.
Ortodoxă N11 n12 . . . n1j . . . n1p-1 n1p n1.
Romano- N21 n22 . . . n2j . . . n2p-1 n2p n2.
catolică
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
General ni1 ni2 . . . nij . . . nip-1 nip ni.
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
Musulmană nr-11 nr-12 . . . nr-1j . . . nr-1p-1 nr-1p nr-1.
Altele nr1 nr2 . . . nrj . . . nrp-1 nrp nr.
Total n.1 n.2 . . . n.j . . . n.p-1 n.p n
166
Având în vedere faptul că orice variabilă polihotomică se poate transforma în una de tip dihotomic,
coeficienţii şi testele folosite la secţiunea precedentă se pot utiliza şi aici.
Testul de concordanţă χ2
Deoarece formula de calcul a acestui test este cea din ecuaţia (4.6.) putem utiliza cu succes acest
test şi pentru cazul polihotomic167. Practic, în loc să adunăm 4 termeni ai sumei vom avea de însumat r*p
termeni.

=∑
( nij − mij ) 2
χ calc
2
mij (4.6.)
i, j

164
Vezi Andrei, T., Stancu, S., Pele, D. T. (2002) Statistica. Teorie şi aplicaţii, Ed. Economică, Bucureşti, 2002, pag 321-322
165
Acest subcapitol a fost publicat: Herţeliu, C. Posibilităţi de abordare în analiza legăturilor statistice dintre variabilele nominale
polihotomice şi/ sau ordinale, Revista Română de Statistică nr. 3/2005, pag. 31-40
166
Nevoia de a converti variabilele continue în variabile polihotomice sau dihotomice este mare. Totuşi urmările aceastei împărţiri artificiale
nu au fost, încă, suficient studiate studiate. O lucrare destul de recentă, MacCallum, R. C., Zhang, S., Preacher, K. J., & Rucker, D. D. On
the practice of dichotomization of quantitative variables, Psychological Methods, Vol. 7, No. 1, 2002, pag. 19-40, atrage atenţia asupra
unor consecinţe care urmează aplicării acestor metode.

167
Este recomandat, totuşi, să nu se folosească testul χ2 dacă există cel puţin un nij mai mic decât 1 sau dacă mai mult de 20% dintre nij
sunt mai mici decât 5. De asemenea, restricţia relativ la numărul minim de cazuri (20-30) rămâne valabilă.

89
În cazul în care χ calc
2
> χ α ,( r −1)( p −1)
2
unde χ α2 ,( r −1)( p −1) este valoarea tabelară corespunzătoare nivelului
de semnificaţie α , şi numărului gradelor de libertate (r-1)(p-1) se alege ipoteza H1. Altfel, ipoteza nulă este
confirmată şi asistăm la independenţa celor două variabile.
Coeficientul φ
Menţiunea care trebuie făcută, în acest caz, este aceea că se foloseşte, pentru calcul, doar varianta
care face referire la testul χ 2 . La cazul dihotomic, coeficientul lua valori între –1 şi 1. Dar semnul era stabilit
168
(dacă se utiliza formula 4.7.) de către utilizator pentru că din calcule s-ar fi ajuns tot timpul la o valoare
pozitivă. Acest lucru nu îl mai putem efectua în cazul variabilelor polihotomice. Rezultă că, de data aceasta,
coeficientul va lua valori doar pe ramura pozitivă. O altă caracteristică a coeficientului calculat pentru variabile
polihotomice este aceea că nu se mai încadrează strict între 0 şi 1. Formula sa de calcul va fi:
χ calc
2
ϕ= (4.7.) bis
n

Inconvenientul care apare (referitor la faptul că, teoretic, acest coeficient poate lua şi valori
supraunitare) a dus la mai multe variante de îmbunătăţire a formulei de calcul.
Coeficientul C
Una dintre variantele propuse îi aparţine lui Karl Pearson. Formula propusă este:

χ calc
2
C= (4.15.)
n + χ calc
2

Evident că valoarea acestui coeficient este subunitară. Problema este că în acest caz nu se mai
atinge valoarea 1. S-a trecut, deci, în extrema cealaltă. Valoarea maximă a acestui coeficient creşte, pe măsură
cresc r şi p. Pe de altă parte, la nişte valoari ale lui r şi p prea mari se pierde o parte din capacitatea intuitivă de
analiză a problemei. Se recomandă folosirea acestui coeficient în cazul în care numărul de căsuţe ale tabelului
de contingenţă este mai mare de 80-100.
169
Coeficientul V al lui Cramer
Cramer a găsit o variantă de îmbunătăţire a modalităţii de calcul astfel încât să poate să fie atinsă
valoarea 1. Pentru aceasta la numitor apare produsul dintre n şi minimul dintre r şi p. Formula de calcul este:

χ calc
2
V = (4.16.)
n * [min(r , p)]
Coeficientul T al lui Ciuprov (Tchuprov)
Varianta propusă de acesta este:
χ calc
2
T= (4.17.)
n * ( p − 1) * (r − 1)
Şi în acest caz se obţine aducerea valorii rezultate între 0 şi 1.
Coeficientul λ al lui Goodman şi Kruskal170
După cum am amintit, avem de-a face cu un coeficient asimetric. Aceasta înseamnă că trebuie să
desemnăm variabila cauză şi respectiv pe cea efect. În cazul nostru, presupunem că variabila cauză este
naţionalitatea şi variabila efect este religia. Atunci coeficientul λ pentru religie ( λrel ) se va calcula printr-un
raport. Numărătorul se obţine însumând valorile maxime ale frecvenţelor de pe fiecare coloană (deci pentru

168
Semnul avea sens în cazul variabilelor dihotomice pentru că acolo ne aflăm în situaţia în care ne alegem o categorie favorabilă căreia
putem să-i atribuim semnul “+” arbitrar şi putem proceda similar şi pentru varianta alternativă.
169
Unii autori recomandă folosirea acestui coeficient doar în cazul în care analizăm legătura dintre o variabilă nominală şi una ordinală.
170
Goodman şi Kruskal au introdus aceşti coeficienţi în practica statistică în anul 1954.

90
fiecare naţionalitate) din care se scade maximul înregistrat în cazul frecvenţelor marginale corespunzătoare
coloanelor. La numitor vom avea diferenţa dintre numărul total de cazuri (n) şi aceeaşi valoare maximă situată
printre frecvenţele marginale corespunzătoare coloanelor (deci variabilei naţionalitate). Formula de calcul este:
⎡ ⎤
⎢∑ max(nij )⎥ − max(n. j )
=⎣ ⎦
j
λrel (4.18.)
n − max(n. j )
Suntem, deci, în situaţia de a calcula o mărime relativă de structură. Aceasta deoarece numărătorul
poate fi cel mult egal cu numitorul. Aceasta se realizează atunci când toate frecvenţele din interiorul tabelului de
contingenţă sunt localizate în max(r , p) căsuţe. Valoarea coeficientului λ este, de obicei, inferioară
coeficienţilor bazaţi pe χ 2
.

Se poate calcula λ şi pentru variabila naţionalitate ( λnat ). În acest caz formula va fi:

⎡ ⎤
⎢∑ max(nij )⎥ − max(ni. )
λnat =⎣ i ⎦ (4.18.) bis
n − max(ni. )
Coeficientul τ al lui Goodman şi Kruskal
Şi acest coeficient este tot unul asimetric. Formulele de calcul sunt:

∑ − ∑ nni .
nij2 2

n. j

τ rel = i, j i
(4.19.)
n − ∑ nni .
2

i
pentru religie şi respectiv

∑ −∑
nij2 n.2j
n. j n

τ nat = i, j j
(4.19.) bis
n−∑
n.2j
n
j

pentru naţionalitate. Valorile lui τ sunt, de regulă, mai mici decât cele ale lui λ . Deci, ambii coeficienţi propuşi
de Goodman şi Kruskal iau valori mai mici decât cei calculaţi în urma testului χ2.
Coeficientul de incertitudine U
Acest instrument de măsură este la rândul său o construcţie asimetrică. Aduce, prin modul de
construcţie, cu gradul de determinaţie. Formula de calcul a acestui coeficient este:


nij n*n
n log( ni .*nij. j )
i, j
U rel = (4.20.)
∑ i
ni .
n log( nni . )

dar, ţinând cont de ecuaţia (3.1.) bis se poate scrie:


nij n
n log( mijij )
i, j
U rel = (4.21.)
∑ i
ni .
n log( nni . )

Similar, pentru naţionalitate vom avea:

∑ ∑
nij n*n nij n
n log( ni .*nij. j ) n log( mijij )
i, j i, j
U nat = = (4.21.) bis
∑ ∑
n. j n. j n. j n
n log( ) n n log( n. j )
j j

91
4.1.3. Cazul variabilelor măsurate pe scala ordinală
Pentru variabilele ordinale coeficienţii şi testele utilizate la secţiunea precedentă pot fi folosiţi cu
succes în cazul în care datele sunt prezentate sub forma unor tabele de contingenţă. În plus, pe lângă valoarea
efectivă a coeficienţilor calculaţi, se poate stabili şi sensul legăturii dintre variabile. Considerăm două variabile
ordinale X (frecvenţa participării la serviciile religioase) şi Y (starea de spririt). Variabilele studiate sunt
prezentate în tabelul 4.4. Variantele variabilei X se vor scrie pe coloane, iar în ceea ce priveşte variantele pentru
Y, acestea se vor scrie pe linii.
Tabel 4.4. Distribuţia persoanelor în funcţie de starea de spirit şi de frecvenţa participării la serviciile religioase
Sensul ordonării celor Total
două variabile

Frecventarea Zilnic Săptămânal Lunar De Paşte Niciodată


bisericii/ Starea de şi Crăciun
spirit

Foarte mulţumit N11 n12 n13 n14 n15 n1.

Mulţumit N21 n22 n23 n24 n25 n2.

Indiferent n31 n32 n33 n34 n35 n3.

Nemulţumit n41 n42 n43 n44 n45 n4.

Profund nemulţumit n51 n52 n53 n54 n55 n5.

Total n.1 n.2 n.3 n.4 n.5 n

În funcţie de modul cum sunt distribuite frecvenţele în acest tabel, putem concluziona asupra direcţiei
legăturii. Dacă majoritatea frecvenţelor se situează de-a lungul diagonalei principale atunci avem de-a face cu o
legatură directă. Dacă însă acestea se aşează aproximativ de-a lungul diagonalei secundare atunci, între cele
două variabile, avem o legătură inversă. În cazul unei legături inverse, putem asocia semnul “-” coeficienţilor
calculaţi.
Coeficienţii lui Kendall
Aproape toţi coeficienţii prezentaţi în continuare au la bază noţiunea de concordanţă şi discordanţă.
Aceste concordanţe şi discordanţe apar în urma ierarhizării după una dintre variabile. Comparând caz cu caz
poziţia ierarhică în cele două ierarhii putem avea concordanţe (CD) când după ambele variabile cazul respectiv
este în aceeaşi poziţie şi respectiv discordanţe (DC) când există diferenţe între ierarhizarea aceluiaşi caz în
funcţie de cele două variabile. În acest caz primul coeficient al lui Kendall va fi:
CD − DC
τa = (4.22.)
TOT
Practic, avem diferenţa dintre concordanţe şi discordanţe raportată la numărul total de perechi.
Numărul total de perechi este:
n * (n − 1)
C n2 = (4.23.)
2
De altfel, dacă înlocuim numărul total de cazuri din (4.23.) în (4.22.) se obţine formula consacrată
(clasică) 171
2 * (CD − DC )
τa = (4.22) bis
n(n − 1)
În cazul în care avem şi ranguri egale (după una dintre variabile nu putem ierarhiza perfect - cu
ranguri distincte - toate cazurile) punerea problemei se nuanţează puţin172. Astfel se introduc două elemente

171
Am denumit astfel acest coeficient al lui Kendall pentru că este primul coeficient al lui Kendall pe care l-am întâlnit şi care apare în toate
manualele de statistică teoretică şi economică. O altă denumire, sub care este cunoscut în literatura de specialitate, este aceea de
coeficient de corelaţie al rangurilor unde face pereche cu coeficientul (ρ) lui Spearman.

92
ajutătoare xi şi yi care pot lua valorile: -1 dacă xi<xi-1 în cazul lui x şi respectiv yi<yi-1 în cazul lui y; 0 dacă xi=xi-1
în cazul lui x şi respectiv yi=yi-1 în cazul lui y; +1 dacă xi>xi-1 în cazul lui x şi respectiv yi>yi-1 în cazul lui y.
Avem, deci, următoarele situaţii posibile:
Tabel 4.5. Notaţii utilizate în situaţia apariţiei perechilor legate173
Forma perechii (xi,yi) Concluzie
(-1,-1) sau (+1,+1) concordanţă (CD)
(-1,+1) sau (+1,-1) discordanţă (DC)
(0,+1) sau (0,-1) legare după x ( Tx )
*

(-1,0) sau (+1,0) legare după y ( T y )


*

(0,0) legare şi după x şi după y ( Txy )


*

Notând numărul total de cazuri cu TOT, vom avea:


TOT = CD + DC + Tx* + Ty* + Txy* (4.24.)
Cu aceste notaţii, al doilea coeficient τ al lui Kendall va fi:
CD − DC
τb = (4.25.)
(CD + DC + Tx* ) * (CD + DC + T y* )
Dacă nu există ranguri legate atunci ajungem tot la formula (4.22.). În cazul în care datele sunt
prezentate sub forma unui tabel de contingenţă (vezi tabelul 4.3.) atunci formula celui de-al doilea coeficient τ
al lui Kendall va fi:
2 * (CD − DC )
τb = (4.25.) bis
⎛ 2 ⎞ ⎛ ⎞
⎜ n − ∑ k i2. ⎟ * ⎜⎜ n 2 − ∑ k.2j ⎟⎟
⎝ r ⎠ ⎝ p ⎠
Al treilea coeficient τ are şi o formă de calcul uşor mai accesibilă:
2 * [min(r , p )] * (CD − DC )
τc = (4.26.)
n 2 * [min(r , p ) − 1]
Coeficientul γ al lui Goodman şi Kruskal
Este, practic, o formă derivată a coeficientului τ a al lui Kendall. Doar că nu se iau în considerare
rangurile legate (chiar dacă ele există). Formula acestui coeficient este:
CD − DC
γ= (4.27.)
CD + DC
Acest coeficient, ia valori între –1 şi +1. valorile extreme se ating în cazul lipsei discordanţelor sau
concordanţelor. Valoarea 0 (care implică lipsa legăturii) este realizată în cazul în care numărul concordanţelor
este egal cu cel al discordanţelor. Evident, în cazul în care nu avem ranguri legate, valoarea acestui coeficient
este egală cu cea a coeficientului τa al lui Kendall.
Coeficientul d al lui Somer
Este vorba de un coeficient asimetric formulele de calcul sunt:
- în cazul în care considerăm variabila dependentă ca fiind Y (starea de spirit):
CD − DC
dy = (4.28.)
CD + DC + Ty* + *xy

172
O prezentare în detaliu a modalităţii de abordare (cu exemplificări) este realizată în Rotariu, T (coord.), Bădescu, G., Culic, I., Mezei, E.,
Mureşan, C. Metode statistice aplicate în ştiinţele sociale, Ed. Polirom, Iaşi, 2000, pag. 145-151.
173
Notaţiile au fost preluate din lucrarea citată anterior Rotariu, T. ibidem. Prin perechi legate ne referim la acele perechi în care, din
punctul de vedere a cel puţin o variabilă, nu putem realiza o ierarhizare absolută (apar ranguri egale).

93
- iar în cazul în care considerăm variabila dependentă ca fiind X (frecvenţa participării la serviciile
religioase:
CD − DC
dy = (4.28.) bis
CD + DC + Tx* + *xy
Coeficientul lui Spearman ρ174
În cazul coeficientului de corelaţie al rangurilor al lui Spearman avem de-a face, în fapt, cu un artificiu
de calcul folosit în cazul coeficientului de corelaţie liniară simplă al lui Bravis-Pearson ( ρ ). În acest caz se
calculează coeficientul ρ pentru rangurile atribuite în urma ierarhizării după o variabilă. Dacă notam cu i şi
respectiv Ri cele două ranguri atunci una din variantele de calcul ale lui r este:

ρ=
cov(i, Ri )
=
∑ (i − i ) * ( R − R )
i
(4.29.)
σ i * σ Ri ∑ (i − i ) * ( R − R )
2
i
2

unde cov(i,Ri) este covarianţa dintre cele două ranguri, i , R sunt mediile celor două şiruri de ranguri, iar
σ i ,σ R i
sunt abaterile standard ale celor două şiruri de ranguri.

Se poate demonstra175 că se ajunge la următoarea formulă de calcul a coeficientului de corelaţie al lui


Spearman (ρ):

6
ρ = 1− * ∑ d i2 (4.30.)
n −n
3

unde d i = i − Ri (4.31.)

Nu este recomandată folosirea coeficientului lui Spearman în cazul în care apar ranguri legate. Pentru
un număr suficient de mare de perechi de valori este adevărată următoarea ecuaţie:
2
* ρ ≈τa (4.32.)
3
deci coeficientul lui Kendall este egal cu aproximativ două treimi din coeficientul lui Spearman.
Fiind un derivat al coeficientului (r) Bravis-Pearson coeficientul lui Spearman are aceleaşi proprietăţi.

4.2. Utilizarea metodei regresiei


Metodele Logit si Probit intră în categoria analizelor logliniare. Pe lângă analiza logliniară am inclus în
această secţiune şi o prezentare a unei metode/ tehnici de abordare în cazul variabilelor calitative publicată
anterior.

4.2.1. Modelele Logit şi Probit şi folosirea lor pentru variabile dihotomice – analiza logliniară
Modelele Logit şi Probit se folosesc în cazul în care variabila dependentă dintr-un model de regresie
este dihotomică. Pentru aceasta funcţia de regresie va avea drept rezultat o probabilitate (evident în intervalul
[0,1]) care va depinde de variabilele independente şi în funcţie de valoarea căreia se va alege alternativa 0 sau
alternativa 1 a variabilei dependente studiate. Modelul de tip Probit (Normit) se foloseşte atunci când variabila
reziduală176 este aproximativ normală. În cazul în care variabila reziduală cumulată urmează aproximativ o
funcţie logistică se foloseşte un model de tip Probit.

174
Acest coeficient, potrivit unor autori, este notat cu litera grecească ρ
175
Din lipsă de spaţiu nu facem aici acest lucru. Cititorii interesaţi pot găsi această demonstraţie în, de ex., Andrei, T., Stancu, S., Pele, D.
T. Statistica. Teorie şi aplicaţii, Ed. Economică, Bucureşti, 2002, pag. 307.
176
Prin variabilă reziduală înţelegem variabila formată de erorile ce apar în urma aplicării unui model de regresie.

94
În cazul unor variabile dihotomice se consideră toate variabilele implicate în model ca fiind
independente şi se consideră variabila dependentă ca fiind numărul de cazuri din tabelul de contingenţă. Practic
dacă vom considera ca analizăm tabelul 3.2. vom avea de estimat valorile n11 , n12 , n 21 şi n 22 .
Pentru început să considerăm regresia utilizând o funcţie logistică. Ea este de forma:
log( p
1− p
) = a + b * X + c *Y (4.33.)
unde p este proporţia unei variabile dihotomice.
În cazul nostru, în care variabilele independente nu sunt continue ci dihotomice (religia (REL) şi
naţionalitatea (ETN)), ecuaţia (4.33.) se va scrie ca un sistem de 4 ecuaţii (câte una pentru fiecare combinaţie:
ortodox-român; ortodox-non-român; non-ortodox-român şi non-ortodox-non-român).
p
log( 1− pij ij ) = μ + λi + λ j (4.34.)

În modelul (4.34.) μ este o constantă care măsoară şi efectul de volum al eşantionului şi practic este
o medie a logaritmilor tuturor combinaţiilor posibile de categorii dintre Religie şi Naţioanlitate (în cazul nostru 4
combinaţii posibile).
μ = ln(n) (4.35.)
Parametrul λi este o consecinţă a efectului a aparţine religiei ortodoxe şi respectiv non-ortodoxe a

variabilei R iar λj reprezintă efectul de a aparţine naţionalităţii române şi respectiv non-românte din variabila N.
Modelul logliniar se construieşte în aşa fel încât:

∑λ
i
i = 0 şi ∑λj
j =0 (4.36.)

În general:

λi = μ i − μ şi λj = μj − μ (4.37.)

unde μ i = ln(n.i ) şi μ j = ln(n j . ) (4.38.)


iar
λij = ln(k ij ) − ( μ + λi + λ j ) (4.39.)

unde i şi j = 1,2 .
Deci parametrii lamda marginali se calculează ca diferenţă între logaritmul aşa numitului efect al
volum de eşantion (n) şi respectiv logaritmul frecvenţei marginale corespunzătoare. Logaritmul unei frecvenţe
marginale este, în fapt, chiar media aritmetică a valorilor logaritmilor celulelor de pe linia sau coloana
respectivă. Parametrii lambda corespunzători celulelor se calculează prin scăderea din logaritmul celulelor a
parametrilor lamda marginali corespunzători şi respectiv a logaritmului volumului de eşantion.
Cu aceste notaţii putem scrie modelul logliniar pentru cele două variabile dihotomice:
ln(k ij ) = μ + λi + λ j + λij (4.40.)
Acest model în care apare şi efectul de interacţiune dintre cele două variabile se mai numeşte şi
model saturat. Fiecare parametru lambda implicat în model este verificat cu ajutorul unui test statistic (z) ce
urmează o repartiţie normală faţă de care se calculează nivelul de semnificaţie al respectivului parametru.
Pentru comparaţie se poate testa şi ipoteza de independeţă, calculându-se un aşa numit model de
independenţă. Ca şi la utilizarea testului χ2, se porneşte tot de la utilizarea frecvenţelor mij calculate pentru
cazul de independenţă cu ajutorul formulei (4.1.) bis. Ecuaţia (4.1.) bis, prin logaritmare, se poate rescrie :
ln(mij ) = ln(ni. ) + ln(n. j ) − ln(n) (4.41.)
Varianta prezentată în ecuaţia precedentă poartă numele de model de independenţă.
Într-o formă echivalentă (folosind notaţiile precedente):
ln(mij ) = μ i + μ j − μ (4.40.) bis
Dacă efectuăm un artificiu de calcul putem obţine o altă formă:
ln(mij ) = μ i + μ j − μ = μ i + μ j − μ + μ − μ = μ + λi + λ j (4.41)

95
Prin compararea celor două modele (4.40) şi (4.41) remarcăm faptul că în modelul logliniar faţă de
modelul de independenţă apare λij . Deci informaţia pe care o aduce în plus un model logliniar faţă de modelul
de independenţă este dată de aşa numitul efect de interacţiune a fenomenului religie cu naţionalitate.

4.2.2. Utilizarea metodei regresiei în cazul variabilelor polihotomice177


Diferenţa dintre tehnica prezentată şi cea clasică este similară, de fapt, cu modalitatea datelor
înregistrate print-un sondaj stratificat sau printr-un sondaj simplu. În urma organizării sondajului stratificat seriile
de date obţinute sunt structurate după factori relativ independenţi în subgrupe “omogene” (totuşi datele care
sunt supuse analizei nu trebuie să provină neapărat dintr-un sondaj, această tehnică poate fi aplicată indiferent
de modul în care au fost obţinute datele). Pentru fiecare dintre aceste subgrupe formate după variabile
independente se va estima un anumit parametru (coeficient) de regresie. Acest parametru caracteristic unei
singure subgrupe de valori va genera o deplasare faţă de valorile reale mai mică decât ar fi generat-o un
parametru care ar fi fost acelaşi pentru tot şirul de valori. Deci, în final, într-un astfel de model de regresie,
pentru fiecare variabilă independentă se vor estima parametri diferiţi pentru fiecare subgrupă a şirului de valori.
a) Cazul modelului liniar unifactorial
Să luăm cazul modelului liniar unifactorial. În varianta clasică acest model arată astfel:
Y=a+b*X, (4.42.)
unde Y este variabila dependentă, X variabila independentă iar a şi b cei doi parametri de regresie
care trebuie estimaţi.
Acest model în noua variantă de analiză devine:
⎡ (x1inf ; x1sup ]⎤
⎢(x ; x
⎢ 2 inf 2 sup ]⎥⎥
Y = a + [b1 b2 . . bn ]* ⎢ . ⎥, (4.43.)
⎢ ⎥
⎢ . ⎥
⎢(x n inf ; x n sup
⎣ ]⎥

unde Y este variabila dependentă iar x1inf şi x1sup sunt limita inferioară şi respectiv superioară a primei
subgrupe a variabilei independente X, pentru această subgrupă se va calcula parametrul b1, similar se
procedează şi pentru celelalte subgrupe ale variabilei X. Aceste subgrupe sunt doar în mod ipotetic fixate,
deoarece, în realitate şirurile de valori rămân intacte, diferenţa este dată doar de faptul că se estimează câte un
parametru diferit corespunzător fiecărei subgrupe ipotetice.
Funcţia care se minimizează este tot suma pătratelor abaterilor individuale faţă de dreapta(ele) de
regresie.

Avantajele regresiei stratificate


1. Un astfel de model va da rezultate mai bune decât unul clasic tocmai datorită faptului ca se elimină
dispersia dintre subgrupe, deoarece există un parametru caracteristic fiecărei subgrupe. În total vom avea de
estimat pentru cazul unifactorial n+1 parametri. Modelul de regresie liniar unifactorial în varianta clasică ar
deveni în acest fel un caz particular (cu şirul de valori grupat într-o singură grupă) al modelului din noua
variantă.
Evident că estimarea practică a parametrilor este de data aceasta mai dificilă, dar, cu ajutorul produselor
software statisice acest lucru este posibil, bune rezultate se pot obţine cu ajutorul programului Statistica.
2. Un alt mare avantaj care decurge din utilizarea acestei tehnici de analiză este faptul că putem include
în model şi variabile calitative. În acest caz se va estima câte un parametru de regresie pentru fiecare
alternativă a unei variabile calitative independente. Aceată tehnică aduce, deci, în plus faţă de modelele
logliniare faptul că includem toate alternativele unei variabile calitative polihotomice, nu doar o variabilă de tip
“dummy” care este dihotomică.

177
Acest subcapitol a fost publicat: Herţeliu, C. O privire comparativă asupra unor tehnici de analiză folosind metoda regresiei,
Revista Română pentru Statistică, nr. 4, Bucureşti, 2002, pag. 47-56.

96
b) Cazul unui model liniar multifactorial178
Să presupunem că avem un fenomen dependent Y (cantitativ) pe care vrem să-l modelăm cu ajutorul
a 4 fenomene independente, dintre care 2 (fenomenele X şi Z) sunt cantitative şi 2 (fenomenele α şi β) sunt
calitative polihotomice, α având j alternative şi β având k alternative.
După ce stabilim limite inferioare şi superioare pentru n subgrupe în cazul fenomenului X şi m
subgrupe în cazul fenomenului Z, modelul de regresie se poate scrie în felul următor:

⎡ (x1inf ; x1sup ]⎤ ⎡ (z1inf ; z1sup ]⎤


⎢(x ; x
⎢ 2 inf 2 sup ]⎥⎥ ⎢ (z ; z
⎢ 2 inf 2 sup ] ⎥⎥
Y = a + [b1 b2 . . bn ]* ⎢ . ⎥ + [d1 d2 . . d m ]* ⎢ . ⎥+
⎢ ⎥ ⎢ ⎥
⎢ . ⎥ ⎢ . ⎥
⎢(x n inf ; x n sup
⎣ ]⎥

⎢(z min f ; z m sup
⎣ ]

⎡ alternativa α1⎤ ⎡ alternativa β 1 ⎤


⎢alternativa α 2⎥ ⎢alternativa β 2⎥ (4.44.)
⎢ ⎥ ⎢ ⎥
[
+ r1 r2 ]
. . rj * ⎢ . ⎥ + [ p1 p2 . . p k ]* ⎢ . ⎥
⎢ ⎥ ⎢ ⎥
⎢ . ⎥ ⎢ . ⎥
⎢⎣ alternativa αj ⎥⎦ ⎢⎣ alternativa βk ⎥⎦

Deci vom avea de calculat în total n+m+j+k+1 parametri de regresie pentru cele 4 fenomene
(variabile) independente.
În practică, cu bune rezultate, am utilizat o variantă în care termenul liber a, l-am fixat şi l-am
considerat a fi chiar media fenomenul dependent Y. Apoi rescris modelul sub următoare formă:



⎡ (x1inf ; x1sup ]⎤ ⎡ (z1inf ; z1sup ]⎤

⎢(x ; x
⎢ 2 inf 2 sup ]⎥⎥ ⎢ (z ; z
⎢ 2 inf 2 sup ] ⎥⎥

Y = Y * ⎜ [b1 b2 . . bn ] * ⎢ . ⎥ + [d1 d2 . . d m ]* ⎢ . ⎥+
⎢ ⎥ ⎢ ⎥
⎜ ⎢ . ⎥ ⎢ . ⎥
⎜⎜

⎢(x n inf ; x n sup
⎣ ]⎥

⎢(z min f ; z m sup
⎣ ]

⎡ alternativa α1 ⎤ ⎡ alternativa β 1 ⎤ ⎞ (4.45.)


⎢alternativa α 2⎥ ⎢alternativa β 2⎥ ⎟
⎢ ⎥ ⎢ ⎥⎟
[
+ r1 r2 . . rj * ⎢ ] . ⎥ + [ p1 p2 . . p k ]* ⎢ . ⎥⎟
⎢ ⎥ ⎢ ⎥⎟
⎢ . ⎥ ⎢ . ⎥⎟
⎢⎣ alternativa αj ⎥⎦ ⎢⎣ alternativa βk ⎥⎦ ⎟⎠

astfel, în paranteză se obţine pentru fiecare individ statistic în parte un coeficient individual care corectează
media fenomenului Y în funcţie de parametrii de regresie corespunzători şi de valorile (alternativele) pe care
individul statistic le înregistrează la cele 4 fenomene.

178
Această metodă de abordare am utilizat-o pentru prima dată în: Angelescu, C., Bran, P., Damian, R. M., Dinu, M., Işfănescu, A., Isaic-
Maniu, A., Prunea, P., Erhan, I., Panait, R., Herţeliu, C., Măntăluţă, O., Cojocea, B., Bocşa, M., Litoi, V., Lazăr, P., Pătruţă, C., Popa, C.,
Pusok, V., Stamu, E., Stan, C., Tănase, I., Toboş, E., Vasile, E., Dogaru, I. Finanţarea învăţământului preuniversitar de stat, Ed.
Economică, Bucureşti, 2001, pag. 93-95

97

S-ar putea să vă placă și