Ghid SPSS
Ghid SPSS
Ghid SPSS
1.1 Numele variabilei Numele variabilei se editeaz n coloana Name innd cont de urmtoarele restricii : s fie unic s aib cel mult 8 caractere primul caracter s fie o liter ultimul caracter s nu fie _ (underscore) poate s conin litere, cifre, i simbolurile @,#, _ , $ s nu conin spaii sau simboluri speciale folosite n SPSS
De exemplu ntrebrii din baza de date 1 (vezi anexa 1) Consumai produse alimentare certificate ca fiind ecologice ? i se va ataa variabila consumat nume ce va fi trecut n capul de tabel. 1.2 Tipul variabilei Se realizeaz n coloana Type . La poziionarea cursorului pe ptratul gri din dreapta csuei corespunztoare caracteristicii Type ( vezi Figura 3 sgeata) apare fereastra cu ajutorul creia se poate alege tipul variabilei: Numeric ( cu zecimale separate prin virgul Comma sau punct Dot ) , Data, nsoite de un simbol financiar ( de exemplu Dolar) sau sub forma unui ir de caractere String (n cazul n care dorim s introducem un cuvnt sau o fraz). Figura 3: Introducerea atributelor unor variabile
La rubrica Label se introduce eticheta variabilei (Figura 4 Sageata 1) . Aceast etichet reprezint explicaiile care vor aprea lng rapoarte ( grafice sau tabele) atunci cnd vor fi realizate.
Atunci cnd variabilele sunt nominale (categoriale) acestea vor fi introduse codificat de exemplu rspunsurile la ntrebarea 1 vor fi codate astfel: 1 dac rspunsul a fost Deseori 2 dac rspunsul a fost Cteodat 3 dac rspunsul a fost Nu Acestea vor fi introduse n fereastra ce apare acionnd celula corespunztoare coloanei Values (Figura 4 sgeata 2) Introducerea valorii se face acionnd butonul Add , modificarea unor valori se face folosind butonul Change iar pentru tergere butonul Remove din aceeai fereastr. Pentru a face efective aceste schimbri e necesar s se acioneze butonul OK Figura 4: Definirea etichetei pentru variabilele statistice
1 2
In practica anchetelor de sondaj se folosesc pentru rspunsurile invalide, codurile: 97 pentru nonrspuns, 98 - pentru neaplicabil, 99 - pentru rspuns ilizibil Analog se introduc toate variabilele necesare.
Recodificarea unei variabile se face fie n aceeai variabil atunci cnd vechea variabil dispare ( opiunea Into Same Variables) sau n alt variabil ( opiunea Into Different Variables). In cazul n care a fost aleas opiunea schimbrii variabilei ntr-o alt variabil diferit apare fereastra Recode into Different Variables
De exemplu dorim ca vrsta respondenilor s fie recodificat astfel: - Pentru cei cu vrsta sub 35 ani codificat iniial cu valorile 1 i 2 s atribuim cuvntul tineri - Pentru vrsta ntre 35 i 65 ani codificat cu 3 i 4 atributul maturi - Pentru vrsta mai mare de 65 ani codificat cu 5 atributul vrstnici Astfel n fereastra de mai sus (figura 6 sgeata 1), n fereastra Recode into different values se selecteaz variabila Vrsta, care, cu ajutorul butonului sgeat din fereastr se mut n fereastra Numeric Variable ->Output Variable In caseta Nume se trece numele noii variabile Vrsta1 iar mai jos n caseta Label se trece eticheta. Se acioneaz apoi butonul Change pentru a face schimbrile efective. Prin acionarea butonului Old and new values apare apoi fereastra Recode into Different Variables , Old and New Values (figura 6, sgeata 2) . In aceast fereastr se selecteaz opiunea Output Variables are Strings pentru a putea defini noua variabil ca i string (ir de caractere). Pentru a schimba valorile 1 i 2 cu valoarea
tineri se selecteaz butonul Range iar casetele de editare corespunztoare sunt folosite pentru a stabili limita inferioar i superioar a intervalului dorit (through de la- pn la). Se scrie 1 n caseta din stnga i 2 n caseta din dreapta. Apoi se selecteaz butonul de opiuni Value i se scrie tineri n caseta de editare dup care se acioneaz butonul Add . Se procedeaz analog pentru toate categoriile. Prin clic pe butonul de comand Continue se revine n fereastra Recode into Different Variables. Prin butonul de comanda OK se va declana recodificarea variabilei. Noua foaie de date apare n foaia de date Data View cu datele de cod corespunztoare fiecrui caz. O comand asemntoare comenzii Recode este comanda Compute.
Pentru aceasta se acioneaz butonul de comand If care va deschide fereastra Select cases n care se introduce condiia de filtrare consumat =2, consumat fiind numele variabilei prin care au fost codificate rspunsurile la ntrebarea Consumai produse alimentare certificate ca fiind ecologice ( vezi anexa ). Butonul de comand Continue determin revenirea la fereastra Select Cases n care se activeaz butonul de comand OK pentru a obine fiierul filtrat. Astfel n foaia Data View din fereastra Data Editor, cazurile anulate sunt tiate printrun slash (/ -linie oblic) ( vezi sgeata din figura de mai sus). Aceste cazuri nu vor fi folosite la nici o raportare.
Din partea din stnga a ferestrei Frequencies se selecteaz variabila dorit prin click de mouse, apoi este mutat prin acionarea butonului sgeat n caseta Variables. Prin butonul de comand OK se obine Tabelul de frecven afiat n fereastra de rezultate Output Viewer. Intr-un tabel de frecven sunt prezentate pentru fiecare variabil selectat, urmtoarele elemente: valorile sau clasele de valori ale variabilei, efectivul procentele procentele cumulate corespunztoare ( suma procentelor categoriilor inferioare)
10
11
Dup ce se selecteaz aceast opiune , apare pe monitor fereastra Crosstabs n cadrul creia selectm variabile pentru rnduri i coloane. Se observ n fereastra Crosstabs posibilitatea de a alege mai multe opiuni care apar n fereastr (figura 10): Numere observate- Observed Efective sperate - Expected Percentages: - Pe rnduri Row, pe coloane Column, pe total Total Residuals: se refer la abateri Standardizate , nestandardizate, ajustate. Figura 10: Alegerea opiunilor pentru alctuirea tabelelor
12
Line- Diagrama liniar Pie- diagrama pe structur plcint Boxplot Diagrama cutia cu musti este folosit pentru a prezenta amplitudinea, intervalul interquartilic i mediana unei distribuii Error Bar - Diagrama bara erorilor este folosit pentru a arta media i intervalul de ncredere de 95% pentru media respectiv. Scatter Diagrama norul de puncte este folosit pentru a reprezenta relaiile dintre variabile Histograma Este folosit pentru a arta forma unei distribuii dup o variabil nregistrat asupra unei colectiviti.
13
6.1 Histograma permite vizualizarea formei unei distribuii statistice, dup o variabil cantitativ continu divizat pe intervale egale sau inegale. Construcia histogramei se face ntr-un sistem de de dou axe rectangulare: pe abscis se nscriu valorile variabilei cantitative sub form de intervale (clase de valori) iar pe ordonat numrul de observaii sau frecvena corespunztoare fiecrui interval. Pentru variabila cantitativ se ia un numr de intervale (k) egal cu rdcina ptrat din numrul de observaii (n) sau k= 1+ 3.322lg n. Comanda Histogram se obine din meniul Graphs. ( vezi figura 12 de mai jos). In fereastra Histogram se poate alege opiunea Display normal curve (vezi sgeata) pentru redarea distribuiei normale. Figura 12: Obinerea histogramei din comanda Graphs
14
Forma grafic a histogramei este redat n figura de mai jos. Figura 13: Forma grafic a histogramei
30
20
10
Std. Dev = .59 Mean = 2.0 0 1.0 2.0 3.0 4.0 N = 38.00
Varsta aproximativa
O alt modalitate de obinere a histogramei este alegerea comenzii Interactive cu opiunea Histogram din meniul Graphs . A treia modalitate const n accesarea meniului Analyze -> Descriptive Statistics -> Frequencies -> Charts -> Histogram. 6.2 Diagrama Boxplot - Diagrama Boxplot este folosit pentru prezentarea unei distribuii dup o variabil numeric , chiar atunci cnd numrul datelor de care dispunem este mic. Construcia sa presupune ordonarea datelor i mprirea lor n patru grupe , fiecare variabil reprezentnd 25% din distribuie. Sunt marcate astfel cinci valori ale variabilei i anume: valoarea minim i valoarea maxim, fr outlieri , quartila 1, quartila 2 i mediana ( vezi figura) Figura 14. Diagrama BoxPlot
15
7. Distribuii statistice
In general, un fenomen pentru a putea fi descris n termeni statistici trebuie s evalueze dup o anumit lege- adic s-i poat fi descris evoluia dup anumite coordonate. Cea mai cunoscut lege , inclusiv n agricultur este distribuia normal. Exemple de distribuie normal: producia de gru la hectar la nivelul fermelor, cantitatea de precipitaii czute n luna iulie din ultimii 100 ani , samd. De exemplu, putem considera producia medie de gru la hectar n ultimii 30 de ani, ca fiind 3000 kg/ha (figura de mai jos) Aceasta nu nseamn c n fiecare an s-au obinut recolte de 3000 kg /ha ci nseamn c s-au obinut recolte mai mici sau mai mari n jurul acestei valori. Totui putem spune c este mult mai probabil s ntlnim o recolt de 3500 kg/ha dect o recolt de 10.000 de kg/ha. Deci cu ct ne ndeprtm de valoarea medie cu att producia respectiv este mai greu de obinut. Acest aspect este redat de curba de mai jos care reflect distribuia de probablitate ntr-un astfel de caz , distribuie numit normal . O astfel de distribuie se numete normal i se caracterizeaz prin doi parametrii: media i abaterea medie ptratic (deviaia standard) 1. Media se noteaz cu = populaiei 2. Abaterea medie ptratic (deviaia standard) msoar dispersia n jurul mediei i se calculeaz ca rdcin ptrat din varian = 2 unde
N N
x
i =1
2 =
(x
i =1
)2
16
17
k =
(x
i =1
x) k
Coeficientul de asimetrie a unei distribuii exprim gradul de dezechilibru al unei distribuii i se calculeaz ca raport dintre momentul centrat de ordin trei 3 la puterea a doua i momentul centrat de ordin doi 2 la puterea a treia dup relaia:
32 = 3 adic = 2
n ( xi x) 3
i =1
( ( xi x ) 2 ) 3 / 2
i =1
Figura 16: Distribuia asimetric cu abaterea spre stnga respectiv spre dreapta
Acest indicator se numete Skewness iar atunci cnd ia valori ntre 1 i 0 indic prezena unei distribuii asimetrice negative cu abatere spre stnga iar cnd variaz ntre 0 i 1 indic o distribuie cu abatere spre dreapta ( vezi figura). Valoarea 0 indic prezena unei distribuii simetrice. Coeficientul de boltire sau aplatizare (kurtosis) e o msur a rspndirii fiecrei observaii n jurul valorii centrale. Pentru o distribuie normal , valoarea kurtosis-ului statistic e 0 i se numete distribuie mezocurtic. Atunci cnd coeficientul este mai mare ca zero indic o grupare mai puternic a valorilor n jurul valorii centrale, curba este mai boltit dect o distribuie normal i se numete distribuie leptocurtic. Atunci cnd coeficientul este mai mic dect zero,
18
indic o grupare mai slab n jurul valorii centrale , curba frecvenelor este mai aplatizat i se numete distribuie platicurtic ( vezi figura 17)
Kurtosis-ul: =
n ( xi x) 4 ( ( xi x) )
i =1 i =1 n _ 2 2
19
) n
20
Mai exist dou modaliti pe care le putei aborda pentru a obine calculul indicatorilor statisticii descriptive prin opiunea Frequencies. Din Meniul Analyze comanda Descriptive Statistics opiunea Frequencies Din Meniul Analyze comanda Reports opiunea Case Summaries (Tabel 1)
Tabel 1: Raport obinut prin comanda Case Summaries privind frecvena consumului de produse ecologice
Case Summaries Consumati produse alimentare certificate ca fiind ecologice ? Varsta aproximativa <18 ani 18-35 ani 35-50 ani 50-65 ani Total Mean 2.50 1.93 2.67 3.00 2.11 Sum 15 54 8 3 80 Variance .300 .439 .333 . .475 Std. Error of Mean .22 .13 .33 . .11 Std. Deviation .55 .66 .58 . .69 N 6 28 3 1 38
21
22
S-a obinut urmtorul tabel: Tabel 2: Tabel privind frecvena consumului n funcie de vrst
Consumati produse alimentare certificate ca fiind ecologice ? * Varsta aproximativa Crosstabulation Varsta aproximativa 18-35 ani 35-50 ani 7 100.0% 3 15.0% 3 27.3% 6 15.8% 16 80.0% 5 45.5% 28 73.7% 1 5.0% 2 18.2% 3 7.9% 1 9.1% 1 2.6%
<18 ani Consumati produse alimentare certificate ca fiind ecologice ? deseori Count % within Consumati produse alimentare certificate ca fiind ecologice ? Count % within Consumati produse alimentare certificate ca fiind ecologice ? Count % within Consumati produse alimentare certificate ca fiind ecologice ? Count % within Consumati produse alimentare certificate ca fiind ecologice ?
50-65 ani
cateodata
nu
Total
23
24
Pentru vizualizarea formei grafice a distribuiei considerm procedeul histogramei. Reamintim: meniul GraphsHistogram se bifeaz caseta de validare Display normal curve (vezi figura 21 de mai jos) i alegem de exemplu variabila rand2004.
25
Figura 21: Comenzi pentru vizualizarea distribuiei normale prin diagrama Histogram
10
Std. Dev = 1.25 Mean = 3.3 0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 N = 48.00
RAND2004
26
Alte modaliti grafice sunt procedeele Q-Q plot i P-P plot (vezi figurile 22,23 ) Q-Q plot compar valorile ordonate ale variabilei observata cu valorile quantilice ale distribuiei teoretice specificate (n cazul nostru distribuia normal). Dac distribuia variabilei testate este normal , atunci punctele Q-Q contureaz o linie care se suprapune cu dreapta care reprezint distribuia teoretic adic trece prin origine i are panta egal cu unu. In diagram Q-Q plot se observ c punctele nu sunt serios deviate de la linia dreapt n cazul randamentelor obinute n anul 2004 ceea ce arat o distribuie normal. Aceeai interpretare grafic avem i pentru diagrama PP plot care compar funcia de repartiie a distribuiei unei variabile empirice cu funcia de repartiie a unei distribuii teoretice specificate (n cazul nostru, funcia distribuiei normale standard). Figura 22: Diagrama Q-Q plot
Normal Q-Q Plot of RAND2004
7 6 5 4
3 2 1 0 0 2 4 6 8 10
Observed Value
.75
.50
.25
27
Observaie: Procedeele grafice sunt procedee intuitive, bazate pe impresii vizuale fiind astfel ncrcate cu subiectivism. Putem doar s estimm veridicitatea ipotezei distribuiei normale a variabilelor. O alt modalitate de a verifica normalitatea pentru o anumit variabil n cazul nostru- randamentele obinute n anul 2003 respectiv 2004 este urmtoarea ( aplicarea testului Kolmogorov Smirnov-Lilliefors): Selectarea opiunii: Analyze ->Nonparametric Tests 1 Sample K-S (figura 24) Figura 24: Selectarea testului Kolmogorov-Smirnof pentru verificarea normalitii
28
La rubrica Test Variable List se alege variabila de testat: rand2003 obinndu-se urmtorul tabel: Tabel 3: Raport privind testul Kolmogorov-Smirnov
One-Sample Kolmogorov-Smirnov Test N a,b Normal Parameters Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed) a. Test distribution is Normal. b. Calculated from data. RAND2003 48 2.7192 .9157 .138 .138 -.079 .957 .320
Concluzia normalitii o putem trage din studiul coeficientului sig. (ultimul rnd). Acest coeficient ia valori ntre 0 i 1. In funcie de valoarea acestuia ipoteza de nul Distribuia nu e normal se respinge sau se accept! Astfel: dac valoarea coeficientului sig<0,05 ipoteza de nul se respinge cu o probabilitate de 95% - dac valoarea coeficientului sig<0,01 ipoteza de nul se respinge cu o probabilitate de 99% In cazul de fa valoarea lui Sig de 0,320 este mai mare dect 0,05 n consecin acceptm ipoteza de normalitate. Procedm analog i pentru variabila rand2004 i observm c i n acest caz distribuia este normal.
29
30
Obinem un tabel de forma (tabel 4): Tabel 4: Raport privind indicatorii statisticii descriptive
Statistics RAND2004 N Mean Median Std. Deviation Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis Valid Missing 48 45 3.3402 3.1000 1.2478 1.571 .343 6.008 .674
O alt modalitate de calcul a acestor indici este: Meniul Analyze Reports Case Summaries. Aceast opiune deschide fereastra Summary Report: Statistics, de unde se pot selecta parametrii dorii (vezi figura 26):
Summaries
31
32
Dup apsarea butonului OK se va obine probabilitatea P(rand2004<3)= 0.39 care apare n celula de sub numele variabilei prob3. Putem spune astfel c probabilitatea ca un fermier s obin la gru o recolt de sub 3t/ha este de 39% , i n acelai timp, putem spune c probabilitatea de a obine o recolt de peste 3t/ha este de 61 % (100%-39%). Dac dorim ca s aflm probabilitatea ca recolta unui fermier s fie ntre 3 i 4 tone calculm P(rand2004<4) P(rand2004<3) urmrind acelai demers. Se obine astfel o probabilitate de 0,31% ca un fermier s aib o producie de gru, ntre 3 i 4 tone/hectar (vezi sgeata figura 28)
33
Pentru operaiunea invers, adic de a afla care este valoare distribuiei pentru care probabilitatea este mai mic de o anumit valoare se folosete funcia IDF.NORMAL(prob,mean,stddev). Astfel, dac vrem s aflm valoarea sub care n anul 2004 au cobort 10% din fermieri vom calcula valoarea funciei IDF.NORMAL(0.1,3.34,1.24) urmrind acelai demers ca cel descris pentru funcia CDF.NORMAL. Valoarea obinut este de 1.75 t/ha. Putem spune deci, c 10% dintre fermieri au obinut o recolt de sub 1.75 t/ha la gru n anul 2004.
34
35
36
Se obine raportul de mai jos (Tabel 5): Tabel 5: Raport privind estimarea prin interval de ncredere
Descriptives RAND2004 Mean 95% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Statistic 3.3402 2.9779 3.7025 3.2489 3.1000 1.557 1.2478 .75 8.62 7.87 1.4219 1.571 6.008 Std. Error .1801
.343 .674
37
In dreptul meniunii Mean (media) observm valoarea media a eantionului, 3,3402 t/ha randament mediu la gru n anul 2004. Limitele intervalului de ncredere se gsesc n dreptul meniunii 95% Confidence Interval for Mean cu limita inferioar Lower Bound = 2.9779 i limita superioar Upper Bound = 3.7025. Putem spune aadar cu o ncredere de 95% c producia medie la hectarul de gru, pentru anul 2004 este ntre 2,97 t/ha i 3,7 t/ha. Cu alte cuvinte, dac s-ar repeta studiul de 100 de ori ( adic dac s-ar nregistra 100 de eantioane, independente i identic observate) datele obinute pentru 95 de eantioane s-ar ncadera n acelai interval de ncredere,numai 5 din cele 100 de eantioane fiind susceptibile s dea valori n afara limitelor intervalului de ncredere calculat.
38
39
Figura 30: Demersul alegerii testului student pentru compararea unui eantion cu o valoare constant One_Sample T Test
40
RAND2003
t 9.769
df 47
In raportul One-Sample Statistics sunt redate - N- mrimea eantionului (numrul de rspunsuri din eantion -48) Mean media eantionului Std. Deviation deviaia standard Std. Error Mean eroarea standard a mediei Test Value valoarea cu care s-a comparat media eantionului T rezultatul statisticii Student df- numrul gradelor de libertate ale statisticii ( se calculeaz ca mrimea eantionului (48) 1) Sig. gradul de siguran al acceptrii ipotezei de nul. Explicaia acestui coeficient a mai fost oferit pe parcursul acestui caiet ( Vezi verificarea ipotezei de normalitate testul Kolmogorov-Smirnof-Lillefors) Mean Difference diferena dintre media eantionului i valoarea testat ( Mean Test Value adic 2.7192 1.428 = 1.2912 )
41
95% Confidence Interval of the difference - Intervalul de ncredere al valorii Mean Difference cu limita inferioar (lower) i limita superioar ( upper)
Ipoteza de nul n cazul de fa este H0: media eantionului nu difer foarte mult de producia medie nregistrat n agricultura Romniei . Pentru acceptarea/respingerea acestei ipoteze studiem valoarea coeficientului Sig. Se observ din valoarea acestuia: Sig= 0.000 c ipoteza de nul este respins cu o probabilitate de 100 % sau c este acceptat cu o probabilitate de 0%. Concluzia de respingere a ipotezei de nul poate fi respins i studiind intervalul de ncredere al Mean Difference interval ce nu conine valoarea zero. Faptul c acest interval nu conine valoarea zero nseamn c diferena celor 2 medii ( a eantionului i valoarea testat) nu poate fi zero deci mediile nu pot fi egale. Tragem deci concluzia c ntre media randamentele nregistrate la gru , pentru eantionul considerat n anul 2003 i media randamentelor nregistrate pe ar la gru, exist o diferen cu 1.2912 t/ha ( Mean Difference).
42
43
Figura 30: Demersul alegerii testului student pentru compararea unui eantion cu o valoare constant One_Sample T Test
Intervalul de ncredere al ipotezei de nul se poate modifica ( implicit e 95%) apsnd butonul Options - Prin apsarea butonului de comand OK se obine output-ul prezentat mai jos. Tabelul 8: Raportul Paired Samples Statistics
Paired Samples Statistics Mean 2.8285 3.3161 N 41 41 Std. Deviation .9183 .9485 Std. Error Mean .1434 .1481
Pair 1
RAND2003 RAND2004
t -4.602
df 40
44
In tabelul Paired Samples Statistics la rubrica Mean sunt prezentate mediile celor dou eantioane rand2003 respectiv rand2004 . In tabelul Paired Samples Statistics studiem valoarea lui Sig., care este 0.000. De asemenea constatm c intervalul de ncredere nu conine valoarea zero. Ipoteza de nul se respinge, adic putem afirma c ntre randamentele nregistrate n anul 2003 respectiv 2004 exist diferene semnificative. Astfel n acelai tabel la rubrica Mean putem constata valoarea acestei diferene : -0.4876. Putem spune deci c, pe ansamblu , randamentele obinute la gru n anul 2003 sunt mai mici dect cele obinute n anul 2004, n medie cu 487,6 kg/ha.
45
17. Testarea egalitii mediilor a dou eantioane independente (Independent Samples T Test)
Independent Samples T Test este un procedeu care se aplic n cazul eantioanelor independente. Prin acest procedeu se testeaz dac mediile a dou grupe sunt egale. Exemplu: (Folosim din nou, baza de date IEA.sav aflat pe CD) Dorim s aflm dac ntre dou categorii de vrst ale consumatorilor exist diferene semnificative cu privire la frecvena consumului de alimente ecologice. Demersul testrii folosind SPSS este: meniul Analyze comanda Compare Means opiunea Independent-Samples T Test Figura 31: Demersul alegerii testului student pentru compararea egalitii mediilor a dou eantioane independente (Independent-Samples T Test)
In fereastra Test Variable(s) (figura 31 )mutm variabila consumat iar n fereastra Grouping Variable mutm variabila vrsta. Acionm apoi butonul Define Groups i definim cele dou grupuri ce aparin variabilei vrsta:
46
2 care descrie categoria de respondenii ntre 18-35 ani i 3 care descrie categoria de respondeni ntre 35 i 50 ani ( vezi categoriile variabilei vrsta aa cum au fost definite). Se obin tabelele de mai jos (tabelul 10 i tabelul 11): Tabelul 10: Raport generat de aplicarea testului Independent Samples Test
Group Statistics Varsta. 18-35ani 35-50ani N 120 58 Mean 2.08 2.12 Std. Deviation .75 .68 Std. Error Mean 6.82E-02 8.89E-02
F consumati produse Equal variances alimentare certificate assumed ca fiind ecologice Equal variances not assumed .950
Sig. .331
t -.394 -.408
df 176 123.229
Calculul statisticii test pentru compararea mediilor a dou populaii cere s se verifice dac deviaiile standard la nivelul celor dou grupe sunt semnificativ diferite, deoarece prin ipoteza de nul se presupune c cele dou populaii au variane egale. Se folosete n acest scop testul Levene de egalitate a varianelor ( Levenes test for equality of Variances) Dac nivelul de semnificaie observat pentru acest test este mic ( de exemplu mai mic de 0,05) atunci se folosesc variane distincte (Equal variance not assumed) pentru testarea mediilor. Dac acest nivel este mare, ca n cazul considerat ( Sig. al testului Levene este egal cu 0,331 sgeata 1 figura ) atunci se folosesc variane comune ( Equal variances assumed). In aceast ipotez se observ c coeficientul Sig. al testului t ( sgeata 2 tabelul 11) este de 0.694 (mai mare dect 0,05) i ne arat c pentru mediile celor dou grupe nu se poate trage concluzia c difer semnificativ. Aceeai
47
concluzie o putem trage din studierea intervalului de ncredere a diferenelor (sgeata 3, tabelul 11), interval care conine valoarea 0. In concluzie nu se poate trage concluzia c diferena dintre valorile medii ale celor dou grupe este semnificativ.
48
49
De exemplu: Utilizm baza de date IEA.sav Dorim s vedem dac pentru cele trei categorii de intervievai (cu frecvena definit ca: deseori, cteodat i niciodat respectiv variabila consumat) exit diferene n ceea ce privete vrsta acestora. Adic dac cei care consum deseori sunt mai tineri dect celelalte dou categorii. Pentru aceasta , din fereastra Variable View vom exclude variabilele lips prin excluderea variabilelor ce conin 99 adic non-rspuns. Pentru variabila Vrsta se d Click pe celula corespunztoare coloanei Missing ( Figura 32 sgeata 1 ) iar n fereastra Missing Values se introduce valoarea 99 (sgeata 2). Figura 32: Excluderea valorilor indezirabile prin comanda Missing Values
1
2 Dup selectarea opiunii One-Way ANOVA , se parcurg urmtorii pai: - In fereastra de dialog One-Way ANOVA alegem variabila consumat pe care o mutm n zona Dependent List i variabila Vrsta pe care o mutm n zona Factor; Prin butonul de comand Options (vezi figura i sgeata) se deschide fereastra One-Way ANOVA :Options n care se bifeaz casetele de validare Descriptive,
50
Homogenity of variance i Means plot pentru a se verifica ndeplinirea restriciilor de normalitate, homoscedaticitate i independen impuse unei analize ANOVA (figura 33). Figura 33: Alegerea parametrilor analizei ANOVA
Restricia de homoscedaticitate. Una din restriciile aplicrii ANOVA o constituie homoscedasticitatea, adic se presupune c varianele grupelor sunt egale. Se poate verifica aceast ipotez cu ajutorul testului Levene-Test of Homogenity of Variances. ( vezi Tabelul 11 de mai jos)
51
Mean Std. Deviation Std. Error 2.60 .84 .12 2.51 .82 8.24E-02 2.58 .95 .11 2.55 .86 5.88E-02
Minimum 2 1 1 1
Maximum 5 5 5 5
In noile condiii , valoarea Sig. (0.391) pentru testul de omogenitate a varianelor este mai mare ca 0,05 sugernd c varianele pentru cele trei categorii de consumatori sunt egale, deci restricia de homoscedasticitate este ndeplinit i astfel se poate aplica ANOVA. Tabelul ANOVA corespunztor pentru cele trei categorii de vrst selectate sunt prezentate n tabelul 13 . Tabelul 13: Raportul generat de testul ANOVA pentru trei categorii de vrst
ANOVA Varsta. Sum of Squares 95.160 9322.840 9418.000 df 2 213 215 Mean Square 47.580 43.769 F 1.087 Sig. .339
In tabelul ANOVA sunt prezentate statistica test F (vezi testul Fisher din manualul de Statistic) , valoarea Sig. precum i elementele de calcul pentru statistica test F.
2 SE Reamintim , statistica test F se calculeaz dup relaia: F = 2 SR
52
medie a ptratelor abaterilor mediei fiecrei grupe fa de media pe ansamblul grupelor i arat variana datorat influenei factorului de grupare;
2 SR reprezint estimatorul mediei varianelor de grup i arat variana din interiorul
fiecrei grupe (Within Groups) , variana datorat influenelor aleatorii. Cu ct mediile grupelor au valori mai diferite ntre ele , cu att variaia dintre grupe este mai mare; cu ct o variaie , n interiorul grupelor, este relativ mai mic, cu att statistica test F este mai mare, artnd c ipoteza nul poate fi respins. In exemplul considerat statistica test F este mic (1.087) cu o probabilitate asociat Sig. ( 0.339) mai mare dect 0,05 evideniaz c ipoteza de egalitate a mediilor pe grupe nu se respinge, deci nclinaiile spre consum a clienilor nu difer semnificativ n raport cu vrsta.
53
54
Se apas butonul de comand OK i se declaneaz obinerea raportului (vezi Tabelul 14) Tabelul 14: Raportul generat de Binomial Test
Binomial Test Category <= 1 >1 N 93 62 155 Observed Prop. .60 .40 1.00 Test Prop. .75 Asymp. Sig. (1-tailed) a,b .000
a. Alternative hypothesis states that the proportion of cases in the first group < .75. b. Based on Z Approximation.
Astfel se observ c proporia observat n eantion pentru grupa consumatorilor mulumii e de 60% . Datorit faptului c valoarea Sig. asociat testului este mai mic dect 0.01, se poate concluziona cu o ncredere de 99% c proporia celor mulumii de produsele agroalimentare ecologice difer semnificativ de proportia de 75%. Adic , mai puin de trei sferturi dintre consumatori sunt mulumii de calitatea acestor produse.
55
56
Prin clic pe butonul de comand Continue , se revine n fereastra Chi-Square Test , din care se selecteaz OK, care comand lansarea procedurii de obinere a rapoartelor de mai jos (figura )
Interpretare
frecvenele teoretice ( ateptate conform ipotezei de nul), pentru fiecare categorie i. Diferenele sunt prezentate pe categorii n coloana Residual. Exemplele teoretice ateptate de noi n cazul de fa sunt: (din totalul de 216 respondeni) 216 x 30 % = 64.8 pentru rspuns deseori 216 x 40% = 86.4 pentru rspuns cateodata 216 x 30 % = 64.8 pentru rspuns nu consum
57
In tabelul Chi Square Test se prezint valoarea statisticii Hi-ptrat (Chi-Square) gradele de libertate (df) i valoarea semnificaiei (Asymp. Sig). Tabelul 16: Rezultatul testului Hi-ptrat
Test Statistics consumati produse alimentare certificate ca fiind ecologice Chi-Squarea 6.330 df 2 Asymp. Sig. .042 a. 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 64.8.
In exemplul dat, valoarea estimat a statisticii Hi-ptrat este semnificativ la un nivel de ncredere de 95% deoarece valoarea Asimp. Sig< 0,01. Ca urmare ipoteza nul este respins. Se poate trage concluzia c cele trei categorii de consumatori nu au proporia specificat: 30:40:30. Exemplul 2: Dorim s calculm deviaia de la frecvenele teoretice pentru o distribuie de 2 variabile: presupunem varsta i consumat . Selectm doar categoriile de vrst ntre 18-65 de ani , cele mai numeroase n sondajul nostru. Pentru aceasta filtrm doar categoriile de vrst 2, 3,4 ( Vezi Data Select Cases) condiia (varsta >1 & varsta < 5)
58
Demersul este urmtorul (Figura 35): Meniul Analyze Descriptive statistics Crosstabs In fereastra Crosstabs la rubrica Row(s) trecem variabila consumat iar la rubrica column(s) trecem variabila varsta Acionnd butonul Cells (sgeata) se deschide fereastra Cells Display unde se selecteaz la rubrica Counts afiarea valorilor observate Observed i a valorilor teoretice ateptate Expected. Analog acionnd butonul Statistics se obine o nou fereastr din care bifm opiunea Chi-Square ( vezi sgeata din figura 36)
59
Dup acionarea butoanelor Continue i OK se obin rapoartele de mai jos: Tabel 17: Raport privitor la frecvenele observate i teoretice pentru variabilele consumat i vrsta
60
consumati produse alimentare certificate ca fiind ecologice * Varsta. Crosstabulation Varsta. 35-50ani 10 13.6 31 26.4 17 18.0 58 58.0
Total
In tabelul
expected count. Astfel au fost primite 29 de rspunsuri pentru consumul frecvent de produse ecologice deseori de ctre consumatorii cu vrste ntre 18-35 ani. Frecvena teoretic expected count a fost calculat innd cont de urmtoarele aspecte: Numrul total al tinerilor de 18-35 ani din eantion este (vezi tabel Total-Count) de 120 n timp ce numrul respondenilor este de 200. Aceasta nseamn c proporia tinerilor din eantion este: p= 120/200* 100% = 60% Numrul total al celor care au rspuns cu deseori privind frecvena consumului este (vezi Tabel 17) de 47. adic 28,2 In figura de mai jos avem rezultatele testului Hi-ptrat. Se observ coeficientul Sig. >0.05 ceea ce nseamn c ipoteza de nul nu se respinge. Adic frecvenele observate , nu difer de cele teoretice pentru nici una din cele trei categorii de consumatori. Cu alte cuvinte, comportamentul consumatorilor n ceea ce privete consumul de produse ecologice nu este influenat de vrst. Teoretic ne atepm deci ( n cazul ipotezei de nul) ca 60 % din acetia s fie tineri ntre 18-35 ani. Frecvena teoretic este deci : ft= 47x 60%
61
Chi-Square Tests Value 4.371 a 4.312 .138 200 df 4 4 1 Asymp. Sig. (2-sided) .358 .365 .710
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 5.17.
62
63
Orz total
In raport sunt prezentate statisticile pentru fiecare variabil , precum i valoarea coeficientului de corelaie Pearson, cu nivelul de semnificaie (Sig.) corespunztor.
64
Tabelul Correlations este un tabel cu matricea coeficienilor de corelaie. Valorile sunt distribuite simetric, de o parte i de alta a diagonalei coeficienilor de corelaie egali cu 1, corespunztori corelaiei fiecrei variabile cu ea nsi. De o parte i de alta a diagonalei tabelului sunt prezentate valorile coeficienilor de corelaie dintre variabile, luate dou cte dou i valorile pragului de semnificaie (Sig.) corespunztor , precum i numrul observaiilor considerate, N. Reamintim c valoarea coeficientului de corelaie Pearson este cuprins ntre 1 i 1 Dac coeficientul ia valoarea 0, atunci ntre variabile nu exist legtur. Valoarea coeficientului indic intensitatea legturii i anume: cu ct se apropie mai mult de 1, cu att legtura e mai puternic, respectiv cu ct se apropie mai mult de zero, cu att legtura este mai slab. Un coeficient de corelaie egal cu +1 indic o legtur direct perfect ntre variabile. Un coeficient de corelaie egal cu 1 arat o legtur invers perfect. Pentru exemplul considerat s-a obinut un coeficient de corelaie Pearson egal cu 0,893 ceea ce sugereaz c ntre variabile exist o corelaie direct puternic , valoarea coeficientului fiind foarte apropiat de 1. Valoarea Sig. corespunztoare egal cu 0.000 evideniaz c s-a obinut un coeficient de corelaie semnificativ la 0.01 adic sunt anse mai mici de 1% de a grei dac afirmm c ntre cele dou variabile exist o corelaie semnificativ. Putem spune deci c culturile de gru i orz sunt corelate din punct de vedere al randamentelor obinute annual. In tabelul urmtor se observ c o astfel de corelaie nu exist ntre randamentele obinute la gru i cartof. Tabelul 20: Raportul de corelaie randamente gru - cartofi
Correlations Grau total Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Grau total 1.000 . 14 -.278 .336 14 Cartof total -.278 .336 14 1.000 . 14
Cartof total
65
ANEXA CHESTIONAR Universitatea de tiine Agricole i Medicin Veterinar a iniiat acest studiu care urmrete s evalueze gradul de cunoatere, n rndul consumatorilor a produselor alimentare ecologice , precum i prerile lor n legtur cu acest subiect. Datele personale, furnizate de dvs., vor fi considerate strict confideniale. Astfel, V rugm s avei amabilitatea de a ne rspunde la urmtoarele 10 ntrebri: I ) Consumai produse alimentare certificate ca fiind ecologice? 1) Deseori 2) Cteodat 3) Nu
I b) V rugm explicai de ce ai ales una din aceste opiuni: .. Dac rspunsul a fost Nu cunosc aceste produse se pun ntrebrile III i IV, se iau date le personale, -(intrebarile X, XI, varsta) apoi se ncheie interviul. II) Cum identificai produsele alimentare ecologice ntr-un magazin?
2) Dup spaiile special amenajate
3)
Dac n urma ntrebrilor I i II observm c intervievatul nu cunoate noiunea de produs ecologic se pun ntrebrile III i IV, se iau datele personale (intrebarile X si XI, varsta) apoi se ncheie interviul. Dac se cunoate noiunea de produs alimentar ecologic, se trece direct la ntrebarea cu numrul V fara a se mai pune intrebarile III si IV. III ) Dac ai ti c produsele ecologice sunt mai sntoase pentru c nu conin substane chimice i n plus sunt obinute prin protejarea mediului, ai fi dispus s achiziionai aceste produse? 1) Sigur da Sigur nu IV) 2) Cred c da 3) Nu tiu 4) Mai degrab nu 5)
Dar dac ai ti c preul produselor ecologice ar fi cu 40% mai mare dect cele clasice ai mai cumpra? 1) Sigur da 2) Cred c da 3) Nu tiu 4) Mai degrab nu 5) Sigur
66
4)Altele:. VI) Cum credei c ar trebui ncurajat consumul de produse ecologice? 1) Prin scderea preurilor 2) Prin publicitate mai intens 3) Prin informarea consumatorilor asupra avantajelor acestui tip de produs 4) Altele .. VII) piata? 1) DA 2) Partial 3 ) NU VIII) Suntei mulumit () de calitatea produselor ecologice ce se afl pe pia ? 1) DA ? IX) De unde ai aflat despre existena produselor alimentare ecologice? 2 ) Din reviste 3) Din magazine 4) De la un prieten 2) Parial 3) NU Sunteti multumit() de numarul de produse ecologice ce se afla pe
1 ) De la TV
5) De pe Internet
6) De la mine 7) Altele
X) V rugm s ne spunei ce ocupaie avei ( sau ai avut nainte de pensionare, omaj etc) . XI) V rugm s ne spunei numele i nr. dvs de telefon:
V mulumim foarte mult pentru atenia acordat ! Se va nota apoi vrsta aproximativ a intervievatului aa cum o apreciai dvs. !
1) < 18 ani 2) 18-35 ani 3) 35-50 ani 4) 50- 65 ani 5 ) 65 ani
67