Asociere
Asociere
Asociere
Analiza statistică a legăturilor dintre variabile este realizată prin metode diferite, metode ce depind de
scala pe care se măsoară variabilele studiate. Astfel, în cazul unor variabile măsurate pe scala nominală
modalităţile de analiză sunt tabelele de contingenţă, utilizarea coeficienţilor de asociere şi a testelor de
concordanţă. Dacă variabilele sunt măsurate pe scala ordinală, pe lângă metodele prezentate pentru variabilele
nominale mai putem utiliza coeficienţi de corelaţie ai rangurilor (Spearman şi Kendall). Este bine cunoscut faptul
că trecând la alte scale de măsurare (de raport sau de interval) păşim deja în sfera variabilelor cantitative unde
putem aplica metode de corelaţie parametrică. O reprezentare sintetică a diferitelor tipuri de abordări
recomandate în funcţie de forma variabilelor studiate este prezentată în tabelul următor:
Tabel 4.1. Modalităţi de abordare statistică a variabilelor calitative158
Variabile/ Scala Nominală Ordinală
de măsurare
Dihotomice Coeficienţii φ, Q, Y, J şi d2
Indicele de coincidenţă
Coeficientul de corelaţie rd
Testul χ2
Regresie categorială de tip Logit şi Probit
Polihotomice Coeficienţii φ, C, V, T, λ ,τ
* *
Coeficientul Spearman ρ
(categoriale)
Coeficienţii lui Kendall ( τ )
Testul χ2
Coeficienţii d, γ
Coeficientul de incertitudine U*
Regresie ordinală de tip Logit şi
Regresie logistică multinomială
Probit
Regresie utilizând variabile în formă
Regresie utilizând variabile în formă
stratificată
stratificată
158
Modalităţile de abordare care au menţiunea “*” sunt asimetrice. Aceasta înseamnă că folosirea lor implică specificarea statutului de
variabilă dependentă sau independentă pentru fiecare variabilă analizată.
159
Acest subcapitol a fost publicat: Herţeliu, C. Consideraţii asupra abordărilor statistice a legăturilor dintre variabilele calitative,
Revista Română de Statistică nr. 4/2004, pag. 54-59
160
Vom considera, într-o primă etapă, variabilele naţionalitate şi religie ca fiind dihotomice, urmând ca la următoarele secţiuni să le
transformăm în variabile polihotomice.
85
Tabel 4.2. Distribuţia persoanelor în funcţie de naţionalitate şi religie
Religia/ Naţionalitatea Român Non-român Total
Ortodox n11 n12 n1.
Non-ortodox n21 n22 n2.
Total n.1 n.2 N
Coeficienţii de asociere sunt mărimi abstracte şi variază fie în intervalul [0;1] atunci când arată doar
intensitatea legăturii, fie în intervalul [-1;1] când pe lângă intensitatea legaturii este evidenţiată şi direcţia
acesteia (o valoare negativă pentru o legătură inversă şi o valoare pozitivă pentru o legătură directă).
Situaţia în care cele două variabile nu sunt asociate poartă numele de independenţă statistică şi este
întâlnită atunci când proporţiile distribuirii indivizilor în clasele unei variabile sunt identice în interiorul claselor
celeilalte variabile. În acest caz avem următoarele situaţie:
ni. * n. j
nij = (4.1.)
n
Aeastă formulă este, în fapt, condiţia generală de independenţă statistică şi poate fi aplicată şi în
cazul variabilelor polihotomice. În funcţie de modul în care sunt distribuite frecvenţele în interiorul tabelului de
contingenţă distingem următoarele situaţii:
- independenţă statistică (aşa cum am arătat în paragrafele precedente);
- existenţa unei asocieri de intensitate medie;
- asocierea totală sau maximă (situaţie în care una din frecvenţele interioare este egală cu zero);
- asocierea perfectă (când frecvenţele interioare sunt situate pe diagonala principală – în cazul unei
legaturi directe – sau pe diagonala secundară – în cazul unei legături inverse).
Prezentăm în continuare principalii coeficienţi folosiţi în analiza asocierii unor variabile dihotomice:
Coeficientul φ
ϕ = ± δ rel * δ nat (4.2.)
n11 n21
unde δ rel = − (4.3.)
n1. n2.
n11 n12
şi δ nat = − (4.4.)
n.1 n.2
De obicei, aceste două mărimi ( δ rel şi δ nat ) nu sunt egale. Dar ele nu sunt nici foarte diferite. Aceste
mărimi au două proprietăţi: în primul rând dacă una este nulă atunci şi cealaltă este nulă, iar în al doilea rând
aceste două mărimi au acelaşi semn.
O formulă alternativă de calcul a coeficientului ϕ şi care depinde doar de frecvenţele absolute este
următoarea:
n * n11 − n1. * n.1
ϕ= (4.5.)
n1. * n2. * n.1 * n.2
În această formulă apare o singură frecvenţă absolută din interiorul tabelului. Date fiind frecvenţele
marginale restul de 3 frecvenţe absolute au posibilităţi unice. Deci putem concluziona că un tabel de
contingenţă pentru două variabile dihotomice are un singur grad de libertate.
Coeficientului φ ia valori între –1 şi 1. Interpretarea acestuia este dublă. În primul rând semnul indică
direcţia legăturii. În al doilea rând intensitatea legăturii este dată de valoarea absolută a coeficientului. Pentru 2
variabile statistice independente valoarea coeficientului este 0. Cu cât se apropie de 1, cu atât intensitatea
legăturii este mai ridicată.
86
Testul de concordanţă χ 2 161
Acest test este folosit mai ales pentru a verifica legătura dintre două variabile nominale. Ipoteza de la
care se pleacă în acest test este aceea de a compara două distribuţii. O distribuţie teoretică (bazată pe situaţia
de independenţă – ecuaţia 4.1.) şi distribuţia empirică. Pentru a se putea folosi acest test trebuie să existe cel
puţin 20-30 de cazuri.
Se formează astfel două ipoteze:
H0: cele două variabile sunt independente (distribuţia empirică nu diferă de cea independentă)
H1: există o diferenţă, semnificativă statistic, între distribuţia teoretică (ce presupune independenţa) şi
cea empirică
Pentru a putea alege, cu un prag de semnificaţie α, una dintre cele două ipoteze se apelează la
statistica:
=∑
( nij − mij ) 2
χ calc
2
mij (4.6.)
i, j
ni. * n. j
unde mij = (4.1.) bis
n
(frecvenţele interioare calculate în cazul existenţei independenţei între variabile – utilizând ecuaţia 4.1.).
χ calc
2
ϕ =± (4.7.)
n
semnul se atribuie în funcţie de modul în care sunt distribuite frecvenţele în tabelul de contingenţă.
Coeficientul Q162
A fost introdus de statisticianul englez Yule. Formula sa de calcul este:
161
Pentru a putea folosi testul χ 2 , în analiza a două variabile dihotomice, nici un nij nu trebuie sa fie sub 5.
162
În memoria lui Quételet (1796-1874), savant belgian, care a fost printre primii care au început sa aplice rezultatele teoriei probabilităţilor
şi a statisticii matematice în studiul fenomenelor sociale.
87
n11 * n22
−1
n12 * n21
Q= (4.9.)
n11 * n22
+1
n12 * n21
n11 * n22
unde expresia este cunoscută sub denumirea de „odd ratio”163 şi se mai poate scrie sub forma
n12 * n21
n11 n21
: .
n12 n22
Coeficientul Y
Paternitatea acestui coeficient o are tot Yule. Diferenţa faţă de coeficientul Q este dată de extragerea
prealabilă a rădăcinii pătrate din fiecare grup de produse de frecvenţe ce apare în formulă.
n11
J= (4.11.)
n11 + n12 + n21
După cum se observă din formulă, acest coeficient poate să atingă valoarea maximă (1) doar în cazul
în care frecvenţele interioare sunt distribuite de-a lungul diagonalei secundare. Acest lucru se întâmplă atunci
când toate persoanele sunt non-ortodoxe şi non-române. Valoarea minimă (0) este atinsă atunci când nu există
nici un ortodox de naţionalitate română.
Indicele de coincidenţă - IC
Se calculează cu ajutorul următoarei formule:
2 * n11
IC = (4.12.)
2 * n11 + n12 + n21
Asemănarea cu coeficientul J este evidentă. Deosebirea este aceea că, de regulă, valoarea lui IC
este superioară lui J. Valorile minimă (0) şi maximă (1) se ating în aceleaşi condiţii.
Coeficientul de asociere d2
Formula de calcul a acestui coeficient este:
163
Este vorba, aici, despre raportul şanselor. Practic, este vorba despre compararea unor mărimi relative de coordonare în cazul unor
variabile calitative bidimensionale.
88
Coeficientul de corelaţie rd
Naţionalitatea
General
Slovaci
Altele
.
.
Ortodoxă N11 n12 . . . n1j . . . n1p-1 n1p n1.
Romano- N21 n22 . . . n2j . . . n2p-1 n2p n2.
catolică
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
General ni1 ni2 . . . nij . . . nip-1 nip ni.
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
Musulmană nr-11 nr-12 . . . nr-1j . . . nr-1p-1 nr-1p nr-1.
Altele nr1 nr2 . . . nrj . . . nrp-1 nrp nr.
Total n.1 n.2 . . . n.j . . . n.p-1 n.p n
166
Având în vedere faptul că orice variabilă polihotomică se poate transforma în una de tip dihotomic,
coeficienţii şi testele folosite la secţiunea precedentă se pot utiliza şi aici.
Testul de concordanţă χ2
Deoarece formula de calcul a acestui test este cea din ecuaţia (4.6.) putem utiliza cu succes acest
test şi pentru cazul polihotomic167. Practic, în loc să adunăm 4 termeni ai sumei vom avea de însumat r*p
termeni.
=∑
( nij − mij ) 2
χ calc
2
mij (4.6.)
i, j
164
Vezi Andrei, T., Stancu, S., Pele, D. T. (2002) Statistica. Teorie şi aplicaţii, Ed. Economică, Bucureşti, 2002, pag 321-322
165
Acest subcapitol a fost publicat: Herţeliu, C. Posibilităţi de abordare în analiza legăturilor statistice dintre variabilele nominale
polihotomice şi/ sau ordinale, Revista Română de Statistică nr. 3/2005, pag. 31-40
166
Nevoia de a converti variabilele continue în variabile polihotomice sau dihotomice este mare. Totuşi urmările aceastei împărţiri artificiale
nu au fost, încă, suficient studiate studiate. O lucrare destul de recentă, MacCallum, R. C., Zhang, S., Preacher, K. J., & Rucker, D. D. On
the practice of dichotomization of quantitative variables, Psychological Methods, Vol. 7, No. 1, 2002, pag. 19-40, atrage atenţia asupra
unor consecinţe care urmează aplicării acestor metode.
167
Este recomandat, totuşi, să nu se folosească testul χ2 dacă există cel puţin un nij mai mic decât 1 sau dacă mai mult de 20% dintre nij
sunt mai mici decât 5. De asemenea, restricţia relativ la numărul minim de cazuri (20-30) rămâne valabilă.
89
În cazul în care χ calc
2
> χ α ,( r −1)( p −1)
2
unde χ α2 ,( r −1)( p −1) este valoarea tabelară corespunzătoare nivelului
de semnificaţie α , şi numărului gradelor de libertate (r-1)(p-1) se alege ipoteza H1. Altfel, ipoteza nulă este
confirmată şi asistăm la independenţa celor două variabile.
Coeficientul φ
Menţiunea care trebuie făcută, în acest caz, este aceea că se foloseşte, pentru calcul, doar varianta
care face referire la testul χ 2 . La cazul dihotomic, coeficientul lua valori între –1 şi 1. Dar semnul era stabilit
168
(dacă se utiliza formula 4.7.) de către utilizator pentru că din calcule s-ar fi ajuns tot timpul la o valoare
pozitivă. Acest lucru nu îl mai putem efectua în cazul variabilelor polihotomice. Rezultă că, de data aceasta,
coeficientul va lua valori doar pe ramura pozitivă. O altă caracteristică a coeficientului calculat pentru variabile
polihotomice este aceea că nu se mai încadrează strict între 0 şi 1. Formula sa de calcul va fi:
χ calc
2
ϕ= (4.7.) bis
n
Inconvenientul care apare (referitor la faptul că, teoretic, acest coeficient poate lua şi valori
supraunitare) a dus la mai multe variante de îmbunătăţire a formulei de calcul.
Coeficientul C
Una dintre variantele propuse îi aparţine lui Karl Pearson. Formula propusă este:
χ calc
2
C= (4.15.)
n + χ calc
2
Evident că valoarea acestui coeficient este subunitară. Problema este că în acest caz nu se mai
atinge valoarea 1. S-a trecut, deci, în extrema cealaltă. Valoarea maximă a acestui coeficient creşte, pe măsură
cresc r şi p. Pe de altă parte, la nişte valoari ale lui r şi p prea mari se pierde o parte din capacitatea intuitivă de
analiză a problemei. Se recomandă folosirea acestui coeficient în cazul în care numărul de căsuţe ale tabelului
de contingenţă este mai mare de 80-100.
169
Coeficientul V al lui Cramer
Cramer a găsit o variantă de îmbunătăţire a modalităţii de calcul astfel încât să poate să fie atinsă
valoarea 1. Pentru aceasta la numitor apare produsul dintre n şi minimul dintre r şi p. Formula de calcul este:
χ calc
2
V = (4.16.)
n * [min(r , p)]
Coeficientul T al lui Ciuprov (Tchuprov)
Varianta propusă de acesta este:
χ calc
2
T= (4.17.)
n * ( p − 1) * (r − 1)
Şi în acest caz se obţine aducerea valorii rezultate între 0 şi 1.
Coeficientul λ al lui Goodman şi Kruskal170
După cum am amintit, avem de-a face cu un coeficient asimetric. Aceasta înseamnă că trebuie să
desemnăm variabila cauză şi respectiv pe cea efect. În cazul nostru, presupunem că variabila cauză este
naţionalitatea şi variabila efect este religia. Atunci coeficientul λ pentru religie ( λrel ) se va calcula printr-un
raport. Numărătorul se obţine însumând valorile maxime ale frecvenţelor de pe fiecare coloană (deci pentru
168
Semnul avea sens în cazul variabilelor dihotomice pentru că acolo ne aflăm în situaţia în care ne alegem o categorie favorabilă căreia
putem să-i atribuim semnul “+” arbitrar şi putem proceda similar şi pentru varianta alternativă.
169
Unii autori recomandă folosirea acestui coeficient doar în cazul în care analizăm legătura dintre o variabilă nominală şi una ordinală.
170
Goodman şi Kruskal au introdus aceşti coeficienţi în practica statistică în anul 1954.
90
fiecare naţionalitate) din care se scade maximul înregistrat în cazul frecvenţelor marginale corespunzătoare
coloanelor. La numitor vom avea diferenţa dintre numărul total de cazuri (n) şi aceeaşi valoare maximă situată
printre frecvenţele marginale corespunzătoare coloanelor (deci variabilei naţionalitate). Formula de calcul este:
⎡ ⎤
⎢∑ max(nij )⎥ − max(n. j )
=⎣ ⎦
j
λrel (4.18.)
n − max(n. j )
Suntem, deci, în situaţia de a calcula o mărime relativă de structură. Aceasta deoarece numărătorul
poate fi cel mult egal cu numitorul. Aceasta se realizează atunci când toate frecvenţele din interiorul tabelului de
contingenţă sunt localizate în max(r , p) căsuţe. Valoarea coeficientului λ este, de obicei, inferioară
coeficienţilor bazaţi pe χ 2
.
Se poate calcula λ şi pentru variabila naţionalitate ( λnat ). În acest caz formula va fi:
⎡ ⎤
⎢∑ max(nij )⎥ − max(ni. )
λnat =⎣ i ⎦ (4.18.) bis
n − max(ni. )
Coeficientul τ al lui Goodman şi Kruskal
Şi acest coeficient este tot unul asimetric. Formulele de calcul sunt:
∑ − ∑ nni .
nij2 2
n. j
τ rel = i, j i
(4.19.)
n − ∑ nni .
2
i
pentru religie şi respectiv
∑ −∑
nij2 n.2j
n. j n
τ nat = i, j j
(4.19.) bis
n−∑
n.2j
n
j
pentru naţionalitate. Valorile lui τ sunt, de regulă, mai mici decât cele ale lui λ . Deci, ambii coeficienţi propuşi
de Goodman şi Kruskal iau valori mai mici decât cei calculaţi în urma testului χ2.
Coeficientul de incertitudine U
Acest instrument de măsură este la rândul său o construcţie asimetrică. Aduce, prin modul de
construcţie, cu gradul de determinaţie. Formula de calcul a acestui coeficient este:
∑
nij n*n
n log( ni .*nij. j )
i, j
U rel = (4.20.)
∑ i
ni .
n log( nni . )
∑
nij n
n log( mijij )
i, j
U rel = (4.21.)
∑ i
ni .
n log( nni . )
∑ ∑
nij n*n nij n
n log( ni .*nij. j ) n log( mijij )
i, j i, j
U nat = = (4.21.) bis
∑ ∑
n. j n. j n. j n
n log( ) n n log( n. j )
j j
91
4.1.3. Cazul variabilelor măsurate pe scala ordinală
Pentru variabilele ordinale coeficienţii şi testele utilizate la secţiunea precedentă pot fi folosiţi cu
succes în cazul în care datele sunt prezentate sub forma unor tabele de contingenţă. În plus, pe lângă valoarea
efectivă a coeficienţilor calculaţi, se poate stabili şi sensul legăturii dintre variabile. Considerăm două variabile
ordinale X (frecvenţa participării la serviciile religioase) şi Y (starea de spririt). Variabilele studiate sunt
prezentate în tabelul 4.4. Variantele variabilei X se vor scrie pe coloane, iar în ceea ce priveşte variantele pentru
Y, acestea se vor scrie pe linii.
Tabel 4.4. Distribuţia persoanelor în funcţie de starea de spirit şi de frecvenţa participării la serviciile religioase
Sensul ordonării celor Total
două variabile
În funcţie de modul cum sunt distribuite frecvenţele în acest tabel, putem concluziona asupra direcţiei
legăturii. Dacă majoritatea frecvenţelor se situează de-a lungul diagonalei principale atunci avem de-a face cu o
legatură directă. Dacă însă acestea se aşează aproximativ de-a lungul diagonalei secundare atunci, între cele
două variabile, avem o legătură inversă. În cazul unei legături inverse, putem asocia semnul “-” coeficienţilor
calculaţi.
Coeficienţii lui Kendall
Aproape toţi coeficienţii prezentaţi în continuare au la bază noţiunea de concordanţă şi discordanţă.
Aceste concordanţe şi discordanţe apar în urma ierarhizării după una dintre variabile. Comparând caz cu caz
poziţia ierarhică în cele două ierarhii putem avea concordanţe (CD) când după ambele variabile cazul respectiv
este în aceeaşi poziţie şi respectiv discordanţe (DC) când există diferenţe între ierarhizarea aceluiaşi caz în
funcţie de cele două variabile. În acest caz primul coeficient al lui Kendall va fi:
CD − DC
τa = (4.22.)
TOT
Practic, avem diferenţa dintre concordanţe şi discordanţe raportată la numărul total de perechi.
Numărul total de perechi este:
n * (n − 1)
C n2 = (4.23.)
2
De altfel, dacă înlocuim numărul total de cazuri din (4.23.) în (4.22.) se obţine formula consacrată
(clasică) 171
2 * (CD − DC )
τa = (4.22) bis
n(n − 1)
În cazul în care avem şi ranguri egale (după una dintre variabile nu putem ierarhiza perfect - cu
ranguri distincte - toate cazurile) punerea problemei se nuanţează puţin172. Astfel se introduc două elemente
171
Am denumit astfel acest coeficient al lui Kendall pentru că este primul coeficient al lui Kendall pe care l-am întâlnit şi care apare în toate
manualele de statistică teoretică şi economică. O altă denumire, sub care este cunoscut în literatura de specialitate, este aceea de
coeficient de corelaţie al rangurilor unde face pereche cu coeficientul (ρ) lui Spearman.
92
ajutătoare xi şi yi care pot lua valorile: -1 dacă xi<xi-1 în cazul lui x şi respectiv yi<yi-1 în cazul lui y; 0 dacă xi=xi-1
în cazul lui x şi respectiv yi=yi-1 în cazul lui y; +1 dacă xi>xi-1 în cazul lui x şi respectiv yi>yi-1 în cazul lui y.
Avem, deci, următoarele situaţii posibile:
Tabel 4.5. Notaţii utilizate în situaţia apariţiei perechilor legate173
Forma perechii (xi,yi) Concluzie
(-1,-1) sau (+1,+1) concordanţă (CD)
(-1,+1) sau (+1,-1) discordanţă (DC)
(0,+1) sau (0,-1) legare după x ( Tx )
*
172
O prezentare în detaliu a modalităţii de abordare (cu exemplificări) este realizată în Rotariu, T (coord.), Bădescu, G., Culic, I., Mezei, E.,
Mureşan, C. Metode statistice aplicate în ştiinţele sociale, Ed. Polirom, Iaşi, 2000, pag. 145-151.
173
Notaţiile au fost preluate din lucrarea citată anterior Rotariu, T. ibidem. Prin perechi legate ne referim la acele perechi în care, din
punctul de vedere a cel puţin o variabilă, nu putem realiza o ierarhizare absolută (apar ranguri egale).
93
- iar în cazul în care considerăm variabila dependentă ca fiind X (frecvenţa participării la serviciile
religioase:
CD − DC
dy = (4.28.) bis
CD + DC + Tx* + *xy
Coeficientul lui Spearman ρ174
În cazul coeficientului de corelaţie al rangurilor al lui Spearman avem de-a face, în fapt, cu un artificiu
de calcul folosit în cazul coeficientului de corelaţie liniară simplă al lui Bravis-Pearson ( ρ ). În acest caz se
calculează coeficientul ρ pentru rangurile atribuite în urma ierarhizării după o variabilă. Dacă notam cu i şi
respectiv Ri cele două ranguri atunci una din variantele de calcul ale lui r este:
ρ=
cov(i, Ri )
=
∑ (i − i ) * ( R − R )
i
(4.29.)
σ i * σ Ri ∑ (i − i ) * ( R − R )
2
i
2
unde cov(i,Ri) este covarianţa dintre cele două ranguri, i , R sunt mediile celor două şiruri de ranguri, iar
σ i ,σ R i
sunt abaterile standard ale celor două şiruri de ranguri.
6
ρ = 1− * ∑ d i2 (4.30.)
n −n
3
unde d i = i − Ri (4.31.)
Nu este recomandată folosirea coeficientului lui Spearman în cazul în care apar ranguri legate. Pentru
un număr suficient de mare de perechi de valori este adevărată următoarea ecuaţie:
2
* ρ ≈τa (4.32.)
3
deci coeficientul lui Kendall este egal cu aproximativ două treimi din coeficientul lui Spearman.
Fiind un derivat al coeficientului (r) Bravis-Pearson coeficientul lui Spearman are aceleaşi proprietăţi.
4.2.1. Modelele Logit şi Probit şi folosirea lor pentru variabile dihotomice – analiza logliniară
Modelele Logit şi Probit se folosesc în cazul în care variabila dependentă dintr-un model de regresie
este dihotomică. Pentru aceasta funcţia de regresie va avea drept rezultat o probabilitate (evident în intervalul
[0,1]) care va depinde de variabilele independente şi în funcţie de valoarea căreia se va alege alternativa 0 sau
alternativa 1 a variabilei dependente studiate. Modelul de tip Probit (Normit) se foloseşte atunci când variabila
reziduală176 este aproximativ normală. În cazul în care variabila reziduală cumulată urmează aproximativ o
funcţie logistică se foloseşte un model de tip Probit.
174
Acest coeficient, potrivit unor autori, este notat cu litera grecească ρ
175
Din lipsă de spaţiu nu facem aici acest lucru. Cititorii interesaţi pot găsi această demonstraţie în, de ex., Andrei, T., Stancu, S., Pele, D.
T. Statistica. Teorie şi aplicaţii, Ed. Economică, Bucureşti, 2002, pag. 307.
176
Prin variabilă reziduală înţelegem variabila formată de erorile ce apar în urma aplicării unui model de regresie.
94
În cazul unor variabile dihotomice se consideră toate variabilele implicate în model ca fiind
independente şi se consideră variabila dependentă ca fiind numărul de cazuri din tabelul de contingenţă. Practic
dacă vom considera ca analizăm tabelul 3.2. vom avea de estimat valorile n11 , n12 , n 21 şi n 22 .
Pentru început să considerăm regresia utilizând o funcţie logistică. Ea este de forma:
log( p
1− p
) = a + b * X + c *Y (4.33.)
unde p este proporţia unei variabile dihotomice.
În cazul nostru, în care variabilele independente nu sunt continue ci dihotomice (religia (REL) şi
naţionalitatea (ETN)), ecuaţia (4.33.) se va scrie ca un sistem de 4 ecuaţii (câte una pentru fiecare combinaţie:
ortodox-român; ortodox-non-român; non-ortodox-român şi non-ortodox-non-român).
p
log( 1− pij ij ) = μ + λi + λ j (4.34.)
În modelul (4.34.) μ este o constantă care măsoară şi efectul de volum al eşantionului şi practic este
o medie a logaritmilor tuturor combinaţiilor posibile de categorii dintre Religie şi Naţioanlitate (în cazul nostru 4
combinaţii posibile).
μ = ln(n) (4.35.)
Parametrul λi este o consecinţă a efectului a aparţine religiei ortodoxe şi respectiv non-ortodoxe a
variabilei R iar λj reprezintă efectul de a aparţine naţionalităţii române şi respectiv non-românte din variabila N.
Modelul logliniar se construieşte în aşa fel încât:
∑λ
i
i = 0 şi ∑λj
j =0 (4.36.)
În general:
λi = μ i − μ şi λj = μj − μ (4.37.)
unde i şi j = 1,2 .
Deci parametrii lamda marginali se calculează ca diferenţă între logaritmul aşa numitului efect al
volum de eşantion (n) şi respectiv logaritmul frecvenţei marginale corespunzătoare. Logaritmul unei frecvenţe
marginale este, în fapt, chiar media aritmetică a valorilor logaritmilor celulelor de pe linia sau coloana
respectivă. Parametrii lambda corespunzători celulelor se calculează prin scăderea din logaritmul celulelor a
parametrilor lamda marginali corespunzători şi respectiv a logaritmului volumului de eşantion.
Cu aceste notaţii putem scrie modelul logliniar pentru cele două variabile dihotomice:
ln(k ij ) = μ + λi + λ j + λij (4.40.)
Acest model în care apare şi efectul de interacţiune dintre cele două variabile se mai numeşte şi
model saturat. Fiecare parametru lambda implicat în model este verificat cu ajutorul unui test statistic (z) ce
urmează o repartiţie normală faţă de care se calculează nivelul de semnificaţie al respectivului parametru.
Pentru comparaţie se poate testa şi ipoteza de independeţă, calculându-se un aşa numit model de
independenţă. Ca şi la utilizarea testului χ2, se porneşte tot de la utilizarea frecvenţelor mij calculate pentru
cazul de independenţă cu ajutorul formulei (4.1.) bis. Ecuaţia (4.1.) bis, prin logaritmare, se poate rescrie :
ln(mij ) = ln(ni. ) + ln(n. j ) − ln(n) (4.41.)
Varianta prezentată în ecuaţia precedentă poartă numele de model de independenţă.
Într-o formă echivalentă (folosind notaţiile precedente):
ln(mij ) = μ i + μ j − μ (4.40.) bis
Dacă efectuăm un artificiu de calcul putem obţine o altă formă:
ln(mij ) = μ i + μ j − μ = μ i + μ j − μ + μ − μ = μ + λi + λ j (4.41)
95
Prin compararea celor două modele (4.40) şi (4.41) remarcăm faptul că în modelul logliniar faţă de
modelul de independenţă apare λij . Deci informaţia pe care o aduce în plus un model logliniar faţă de modelul
de independenţă este dată de aşa numitul efect de interacţiune a fenomenului religie cu naţionalitate.
177
Acest subcapitol a fost publicat: Herţeliu, C. O privire comparativă asupra unor tehnici de analiză folosind metoda regresiei,
Revista Română pentru Statistică, nr. 4, Bucureşti, 2002, pag. 47-56.
96
b) Cazul unui model liniar multifactorial178
Să presupunem că avem un fenomen dependent Y (cantitativ) pe care vrem să-l modelăm cu ajutorul
a 4 fenomene independente, dintre care 2 (fenomenele X şi Z) sunt cantitative şi 2 (fenomenele α şi β) sunt
calitative polihotomice, α având j alternative şi β având k alternative.
După ce stabilim limite inferioare şi superioare pentru n subgrupe în cazul fenomenului X şi m
subgrupe în cazul fenomenului Z, modelul de regresie se poate scrie în felul următor:
Deci vom avea de calculat în total n+m+j+k+1 parametri de regresie pentru cele 4 fenomene
(variabile) independente.
În practică, cu bune rezultate, am utilizat o variantă în care termenul liber a, l-am fixat şi l-am
considerat a fi chiar media fenomenul dependent Y. Apoi rescris modelul sub următoare formă:
⎛
⎜
⎡ (x1inf ; x1sup ]⎤ ⎡ (z1inf ; z1sup ]⎤
⎜
⎢(x ; x
⎢ 2 inf 2 sup ]⎥⎥ ⎢ (z ; z
⎢ 2 inf 2 sup ] ⎥⎥
⎜
Y = Y * ⎜ [b1 b2 . . bn ] * ⎢ . ⎥ + [d1 d2 . . d m ]* ⎢ . ⎥+
⎢ ⎥ ⎢ ⎥
⎜ ⎢ . ⎥ ⎢ . ⎥
⎜⎜
⎝
⎢(x n inf ; x n sup
⎣ ]⎥
⎦
⎢(z min f ; z m sup
⎣ ]
⎥
⎦
astfel, în paranteză se obţine pentru fiecare individ statistic în parte un coeficient individual care corectează
media fenomenului Y în funcţie de parametrii de regresie corespunzători şi de valorile (alternativele) pe care
individul statistic le înregistrează la cele 4 fenomene.
178
Această metodă de abordare am utilizat-o pentru prima dată în: Angelescu, C., Bran, P., Damian, R. M., Dinu, M., Işfănescu, A., Isaic-
Maniu, A., Prunea, P., Erhan, I., Panait, R., Herţeliu, C., Măntăluţă, O., Cojocea, B., Bocşa, M., Litoi, V., Lazăr, P., Pătruţă, C., Popa, C.,
Pusok, V., Stamu, E., Stan, C., Tănase, I., Toboş, E., Vasile, E., Dogaru, I. Finanţarea învăţământului preuniversitar de stat, Ed.
Economică, Bucureşti, 2001, pag. 93-95
97