Asocierea Chi Patrat
Asocierea Chi Patrat
Asocierea Chi Patrat
Testul Chi‐pătrat
Conf. Dr. Adrian Hatos
Asocierea se testează pentru a verifica dacă există relație (asociere) între variabile categorice.
Problemă: Există asociere între sexul elevilor şi fumat?
Cele două variabile fiind categorice vom fi nevoiți să rezolvăm problema prin analize de asociere. Vom
dezvolta tema în trei etape:
‐ Realizarea tabelului de asociere
‐ Identificarea modelului de asociere prin inspectare vizuală a tabelului de asociere
‐ Testarea statistică a asocierii
Realizarea tabelului de asociere (contingenţă)
Tabelul de asociere este un tabel cu dublă intrare în care pe linii se trec valorile variabilei anterioare
(posibil cauză) iar pe coloane valorile variabilei subsecvente (posibil efect). Tabelul de asociere se
realizează pentru scop de analiză din meniul Descriptives iar pentru scop de raportare recomand
folosirea meniului Custom Tables.
Realizarea unui tabel de asociere simplu cu comanda crosstabs
Denumirea englezească a tabelelor de asociere este Crosstabs.
Pentru a obține tabele de asociere simple vom introduce la linii (rows) variabila gen (anterioară
celeilalte) iar pe coloane variabile variabila a43 (Starea cu fumatul). Fără a mai selecta vreo opțiune,
apăsăm pe OK. Rezultatul, exportat în html este prezentat mai jos:
Frecvențe interioare. În
Case Processing Summary
baza de date avem 134
Cases
de băieți care declară
Valid Missing Total
fumători.
N Percent N Percent N Percent
Sex * Starea cu fumatul 955 95,5% 45 4,5% 1000 100,0%
Frecvențe
marginale (total pe
Sex * Starea cu fumatul Crosstabulation
Count linii). Numărul
Starea cu fumatul Total total de băieți care
Nefumator mereu Am incercat doar Sunt/am fost fumator Nefumator mereu
au dat răspunsuri
valide la întrebare
Barbat 121 171 134 426
Sex este de 426.
Femeie 183 230 116 529
Total 304 401 250 955
Identificarea asocierilor folosind procentele pe linii
Frecvențele interioare sunt, cel mai adesea, inutile când se încearcă identificarea asocierii din variabile.
O procedură care poate ajuta la stabilirea aproximativă a existenței unei legături între variabile
categorice constă în compararea procentelor pe linii cu procentele de pe linia totalurilor. Aceasta se
poate realiza tot în meniul crosstabs sau în meniul Custom Tables.
Având deschisă fereastra de dialog a meniului crosstabs apăsăm butonul Cells (dreapta jos). În fereastra
de dialog selectăm opțiunea Row (de la capitolul percentages) şi deselectăm opțiunea Observed (de la
Counts). Deselectarea fercvențelor observate va ajuta la lectura rezultatelor.
Pentru executarea comenzii, apăsăm Continue apoi OK. Rezultatul, în html, este prezentat mai jos:
Intuitiv, ştim că în cazul în care nu ar exista asociere, procentele de pe linii din căsuțele interioare ar
trebui să fie asemănătoare, între ele şi apropiate de cele de pe linia totalurilor. Observăm că acest lucru
este valabil pentru procentul celor care spun că au încercat doar să fumeze (între 40 şi 43,5%). În
schimb, pentru celelalte categorii ale variabilei Starea cu fumatul avem diferențe mult mai mari:
procentul fetelor care declară că sunt nefumătoare este cu aproape 16,2% mai mare decât al băieților
aflați în situație similară în timp ce procentul băieților care se declară fumători este cu 9,6% mai mare
decât în cazul fetelor. Din aceste comparații simple rezultă că între cele două variabile există o anumită
legătură, băieții având o şansă mai mare decât fetele să de declare fumători.
Testarea statistică a asocierii
Adeseori însă nici procentele pe linii nu sunt suficiente pentru a identifica relații de asociere. În orice caz,
stabilirea fermă a unei astfel de relații nu se poate baza doar pe inspecție vizuală ci trebuie să aibă la
bază testul statistic al asocierii. Cel mai important astfel de test, aplicabil în aproape toate cazurile de
asociere – indiferent de numărul de categorii al variabilelor introduse, de calitatea ordinală sau nu a
acestora – este testul chi‐pătrat. Testul acesta compară statistic frecvențele interioare observate cu
frecvențele teoretice, corespunzătoare ipotezei de independență. De ex. pe noi ne interesează dacă
există o relație între categoria de gen a adolescenților din eşantion şi fumat? Pentru a rezolva această
problemă va trebui să calculăm frecvențele interioare pentru ipoteza de independență a celor două
variabile.
Plecăm de la probabilități: am învățat că două evenimente A şi B sunt independente dacă P(A şi
B)=P(A)P(B)
Aplicând formula la tabelul de mai sus, evenimentul de a fi băiat şi de a se declara fumător sunt
independente dacă probabilitatea evenimentului conjugat este egală cu produsele
probabilităților celor două evenimente separate.
P(Băiat)=0,446
P(fumător)=0,262
P(Băiat fumător)=0,446X0,262=0,117, ceea ce este mai puțin decât probabilitatea
empirică, de 0,14
Frecvența teoretică se obține înmulțind probabilitatea teoretică cu numărul de cazuri:
0,117X955=111,7
Acest calcul se repetă pentru fiecare căsuță a tabelului de asociere.
Măsura abaterii frecvențelor empirice de cele teoretice se obține aplicând formula lui chi‐pătrat:
Chi‐pătrat=∑ (t‐o)2/t
Unde:
T – frecvențele teoretice
O – frecvențele observate
Semnificația statistică a lui Chi‐pătrat va fi dată de mărimea testului de semnificație. Dacă acesta este
mai mic de 0,05 respingem ipoteza nulă şi declarăm existența asocierii dintre cele două variabile.
Executarea testului chi‐pătrat în SPSS este simplă. Din fereastra Crosstabs apăsați butonul Statistics iar
dintre opțiunile activate selectați‐o pe prima: Chi‐square.
Apăsați Continue, ceea ce duce la închiderea ferestrei Crosstabs: Statistics şi apăsați butoul Cells din
Fereastra Crosstabs. Din fereastra care se deschide activăm mai multe opțiuni: Observed şi Expected la
Counts, Unstandardized şi Adjusted Standardized la Residuals. Rezultatele pe care aceste opțiuni ni le
vor furniza nu sunt necesare în toate analizele de asociere. Le vom solicita în acest caz pentru a explica
mai bine logica testului Chi‐pătrat.
Apăsăm Continue apoi OK în fereastra de dialog Crosstabs. Rezultatul scris în output este prezentat în
continuare (în format .doc).
Cases
Valid Missing Total
N Percent N Percent N Percent
Sex * Starea cu fumatul 955 95,5% 45 4,5% 1000 100,0%
Chi-Square Tests
Testele de semnificație ale
Asymp. Sig.
(2-sided)
primelor două măsuri ale asocierii
Value df
au valori mai mici de 0,05. Se
Pearson Chi-Square 11,648(a) 2 ,003
Likelihood Ratio 11,613 2 ,003 respinge, prin urmare, ipoteza
Linear-by-Linear
10,094 1 ,001 nulă şi constatăm faptul că între
Association
N of Valid Cases sexul adolescentului şi fumat
955 i ă i
a 0 cells (,0%) have expected count less than 5. The minimum expected count is 111,52.
Toate detaliile de mai sus sunt clare, mai puțin reziduurile standardizate ajustate. Acestea sunt rezultatul
transformării reziduurilor astfel încât să fie comparabile şi să aibă ca unitate de măsură abaterea
standard a distribuției reziduurilor. Valoarea absolută a reziduului ajustat standardizat indică căsuțele
care au abateri semnificative de la frecvențele teoretice (când reziduul ajustat e mai mare de 2) iar
semnul indică direcția abaterii. În cazul căsuței folosite de mine ca referință, reziduul ajustat
standardizat este ‐2, ceea ce indică o abatere negativă semnificativă. În cazul căsuței discutate mai sus
(băiat fumător) abaterea este chiar mai mare dar pozitivă (3,3).
Testele de asociere (în rezultat avem mai multe, primul este chi‐pătrat iar al doilea este un test similar)
arată că între cele două variabile există asociere: fumatul depinde de sex, băieții având un risc mult mai
mare decât fetele de a se declara fumătoare.
Reguli pentru realizarea unui test chi‐pătrat corect
1. Se lucrează doar cu frecvențe, nu cu procente!
2. Toate căsuțele tabelului trebuie să fie nevide.
3. Procentul căsuțelor cu frecvențe teoretice mai mici de 5 nu poate depăşi 20% din totalul
căsuțelor.
În cazul în care regulile 2 şi/sau 3 nu sunt realizate trebuie modificată distribuția variabilei, prin
proceduri de recodificare, de obicei.
Alte măsuri asociate testului chi‐pătrat
Testul exact al lui Fisher (Fisher’s exact test)
Testul exact Fisher este raportat doar la tabele de 2 x 2. El poate fi folosit în loc de chi‐pătrat când una
sau mai multe din frecvențele teoretice are o valoare mai mică de 5.
Linear by linear measure of association
Această măsură a asocierii este adecvată numai dacă atât variabila de pe rând cât şi cea de pe coloană
sunt cel puțin ordinale.