ANCOVA
ANCOVA
ANCOVA
Statistica este peste tot. Oriunde te uiți găsești statistică, fie că navighezi pe internet,
asculți muzică, faci sport sau mergi la cumpărături. Atunci când căutăm pe internet informații
despre un anumit subiect ne sunt afișate numărul de rezultate și timpul în care acestea au fost
descoperite. Aceasta este un exemplu cât se poate de simplu de statistică descriptivă, unde ne
este prezentată frecvența link-urilor în care este prezent subiectul nostru de interes. Statistica
face parte din viața noastră într-o măsura mai mare decât ne putem imagina, ea oferind suport
pentru fizică, sociologie, psihologie, economie, biologie, etc. Pentru a putea înțelege un
fenomen încercăm să îl cuantificăm, să observăm în ce situații apare sau îl comparăm cu alte
evenimente. Toate aceste operații au la bază numere.
Fără a ne da seama folosim statistica în cele mai multe dintre momentele pe care le trăim
zi de zi. Să ne imaginăm situația în care am văzut un film care ne-a plăcut foarte mult, iar peste
doi ani apare partea a doua a acestui film. Decizia de a viziona partea a doua a filmului se
bazează pe un algoritm probabilistic. Amintirile primei părți, reputația actorilor și impresia
lăsată de alte filme în care au mai apărut actorii ne vor face să presupunem că acest nou film va
fi bun și că ne vă plăcea. Tot un algoritm probabilistic se află și în spatele regizorului care
hotărăște să lucreze la partea a doua a filmului. Pornind de la încasări, de la numărul de persoane
care au vizionat filmul și de la numărul feedback-urilor pozitive regizorul poate prezice că a
doua parte se va bucura de un succes asemănător. De asemenea, când conducem folosim
cunoștințe de statistică. În funcție de experiențele anterioare, de oră sau ziua din săptămână ne
stabilim traseul pe care vom merge, astfel încât să ajungem la destinație în timp util și fără
incidente. În acest fel ne dăm seama că exemplele ar putea continua la nesfârșit. „Toate ființele
vii funcționează ca niște mecanisme statistice fine și sofisticate, chiar dacă actele lor nu decurg
în mod normal din prelucrări statistice” (Popa, 2008, p. 15). Pentru a fi mai specifici, iată câteva
exemple de afirmații pe care le putem auzi în orice moment al zilei (afirmațiile de mai jos au
caracter de exemplu, nefiind afirmații reale!):
• 9 din 10 pediatri recomandă utilizarea cremei Soft baby pentru copii cu vârsta sub 2 ani.
• Aproximativ 80% din incidența cancerului la plămâni la bărbați și 35% la femei este
asociată cu fumatul.
• Aproximativ 65% din persoanele private de libertate erau consumatoare de droguri în
momentul comiterii infracțiunii.
• În procent de 74% proba de maraton de la Jocurile Olimpice a fost câștigată de sportivi
din Africa.
• Studentul „A” a obținut la un test de inteligență scorul 115. Astfel, 16% din populație
ar avea un nivel al inteligenței mai ridicat decât al studentului „A”.
Toate aceste afirmații au un fundament statistic și ne pot fi cunoscute. Dacă nu, cu
siguranță ați auzit alte exemple asemănătoare. Ceea ce putem observa din aceste exemple este
diversitatea lor. Sunt exemple din medicină, sport, psihologie sau marketing.
Statistica ne ajută să înțelegem un set de date care par să nu aibă nici o logică. Statistica
este o știință care descrie fenomenele cu ajutorul numerelor, folosind calculul probabilităților
și are rolul de a ne oferi informații relevante despre un volum de date foarte bogat și diversificat.
Cu alte cuvinte statistica face ca ceea ce este complex să devină simplu. De exemplu, o
persoană pasionată de sport nu trebuie să urmărească toate scorurile echipei favorite pentru a
calcula numărul de puncte și poziția din clasament. Are nevoie să doar să privească clasamentul.
Acesta prezintă într-o manieră unitară toate informațiile esențiale despre istoricul unei echipe
pe parcursul unui sezon competițional (numărul de meciuri jucate, numărul de victorii, numărul
de meciuri terminate la egalitate, numărul de înfrângeri, numărul de puncte etc).
Statistica este știința care se ocupă cu recoltarea, descrierea și analiza datelor în vederea
extragerii unor concluzii (inferențe) pe baza acestora (Popa, 2008). În general, statistica se
referă la o paletă de tehnici și proceduri de analiză, interpretare și luare a deciziilor pornind
de la un set de date.
Învățăm statistică deoarece dorim să fim bine informați. Cu ajutorul analizelor statistice
reușim să dăm sens datelor pe care le obținem prin diferite instrumente de măsurare. Astfel,
putem face anumite descoperiri și putem să tragem concluzii cu privire la setul de date analizat.
Uneori reușim să punem în lumină o problemă, alteori nu. Indiferent de rezultatul pe care îl
obținem, prin statistică putem aduce o contribuție la dezvoltarea cunoașterii, chiar și atunci când
concluzia este „această metodă nu este eficientă, nu o mai folosi în viitor”. Dacă nu analizăm
statistic datele obținute nu putem fi capabili să extragem concluziile potrivite. Pe scurt, dacă nu
facem analiză statistică, nu avem de unde să știm ce este eficient.
Exemplu
Să ne imaginăm că un terapeut utilizează o anumită tehnică în tratarea clienților cu
anxietate. La un moment dat, se hotărăște să testeze dacă tehnica utilizată de el este eficientă.
Pentru a verifica eficiența acestei tehnici, terapeutul nostru se va folosi de analiza statistică.
Înainte de a începe procesul terapeutic, el va aplica un instrument de evaluare a anxietății
fiecărui client. La finalul procesului, terapeutul va aplica din nou instrumentul de evaluare a
anxietății și va compara rezultatele obținute inițial cu cele obținute la finalul ședințelor de
psihoterapie. Astfel, există posibilitatea ca terapeutul să observe vă anxietatea pacienților a
scăzut semnificativ statistic sau că nu există modificări semnificative la nivelul anxietății.
Indiferent de concluzia la care ajunge, terapeutul află ceva, poate lua o decizie referitoare la
modalitatea de lucru în cazul pacienților cu anxietate – folosește tehnica în continuare sau o
schimbă.
Exemplu
Producătorul de înghețată „Statistics Icecream” introduce în luna mai o campanie
publicitară foarte intensă în mass-media. La începutul lunii septembrie managerul „Statistics
Icecream” constată că vânzările au crescut cu 30% și este foarte mulțumit de acțiunea sa.
Putem considera campania publicitară ca fiind eficientă?
Eroarea pe care o face managerul, atunci când interpretează datele, provine din faptul
că nu ține cont de perioada în care face analiza. Acesta a analizat vânzările în lunile iunie,
iulie și august, perioadă a anului în care temperaturile sunt foarte mari și se știe că oamenii
consumă mai multă înghețată comparativ cu celelalte luni ale anului.
Exercițiu
Atribuiți coduri numerice fiecărei valori a variabilelor din lista de mai jos.
Atunci când realizează un studiu, cercetătorul controlează una sau mai multe variabilele.
Atunci când o variabilă este manipulată de cercetător este denumită variabilă independentă.
Variabila care primește efectul variabilei independente poartă numele de variabilă
dependentă. Variabila independentă este cea care generează efecte asupra variabilei
dependente.
De exemplu, într-o cercetare dorim să studiem influența consumului de alcool asupra
timpului de reacție. În acest caz, timpul de reacție variază în funcție de consumul de alcool.
Astfel, consumul de alcool este variabila independentă, iar timpul de reacție, cel care suportă
efectul, este variabila dependentă. Într-un alt studiu, cercetătorul dorește să verifice ipoteza
conform căreia în anotimpurile reci ale anului se consumă mai mult alcool. În acest exemplu,
variabila dependentă este consumul de alcool, iar variabila dependentă este anotimpul. De
această dată consumul de alcool este cel care suportă un efect din partea anotimpului. În acest
exemplu observăm cum consumul de alcool, care în primul exemplu era variabilă independentă,
în al doilea studiu îndeplinește rol de variabilă dependentă.
Variabila dependentă este obiectul măsurării cu scopul extragerii unor concluzii, iar
variabila independentă este cea care generează o influență și prin intermediul studiului vom
evidenția efectele ei asupra variabilei dependente.
Exemplele amintite mai sus ne permit să înțelegem că o variabilă nu are rol unic de
independentă sau dependentă. Caracteristica de a fi de un tip sau altul depinde de rolul pe care
îl atribuie cercetătorul în studiul pe care dorește să îl desfășoare. Este esențial să identificăm
corect tipul variabilelor pentru a putea folosi în fundamentarea inferențelor procedurile
statistice corespunzătoare.
Exemplu
S-a observat că fructele de pădure au un efect pozitiv asupra memoriei. Într-un studiu,
studenții participanți au primit timp de 4 săptămâni trei tipuri de diete: cu fructe de pădure,
portocale și morcov. După această dietă studenții au intrat în sesiune și s-a observat că cei
care au ținut dieta cu fructe de pădure au avut note mai mari decât studenții care au consumat
portocale sau morcovi.
Exercițiu
O variabilă este continuă atunci când poate lua orice valoare numerică. Altfel spus, o
variabilă între ale cărei valori numerice nu există „întreruperi” poartă denumirea de variabilă
continuă. Acest tip de variabilă primește teoretic un număr infinit de valori. Greutatea, înălțimea
sau timpul de reacție sunt exemple de variabile continue.
Prin variabilă discretă ne referim la o variabilă care poate primi un număr finit de
valori, acestea fiind numere întregi. Numărul copiilor dintr-o familie, numărul răspunsurilor
corecte la un test, numărul de repetări în vederea memorării unui material sunt exemple de
variabile discrete.
Experiența umană presupune lucrul cu variabile care pot fi observate direct (timp de
reacție, înălțime), dar și cu o serie de constructe latente, care nu pot fi măsurate direct (depresie,
anxietate, sociabilitate, etc). În cazul celor din urmă trebuie să găsim indicatori care ne vor
permite estimarea constructului latent. Astfel, în cazul sociabilității vom adresa întrebări
precum „Preluați cuvântul când intrați într-un grup în care nu se vorbește?”, „Vă face plăcere
să cunoașteți persoane noi?”, „Vă plac reuniunile?”. Fiecare întrebare reprezintă o variabilă
observată încărcată cu sociabilitate. Dacă pentru fiecare răspuns care indică o atitudine
încărcată cu sociabilitate oferim un punct, sociabilitatea se estimează ca sumă a punctelor
obținute. Astfel, întrebările dintr-un chestionar care își propune să măsoare sociabilitatea devin
indicatori ai acesteia. Majoritatea constructelor utilizate în psihologie sunt variabile latente.
Exemplu
Agresivitatea este o variabilă latentă, deoarece nu o putem măsura prin simpla privire
a unei persoane. Pentru a putea estima agresivitatea trebuie să identificăm indicatori
comportamentali ai agresivității care să ne permită măsurarea ei. Iată câțiva dintre acești
indicatori comportamentali:
Lovește
Țipă
Jignește
Trântește
Strânge din pumni
Exercițiu
Primarul din Statistics City, domnul Boxplot, își pregătește campania electorală pentru
alegerile care vor avea loc peste șase luni. În acest sens, solicită celor din echipa sa să realizeze
un sondaj de opinie pentru a afla ce procent din alegători îi vor acorda votul. Echipa de
campanie află că în Statistics City sunt 32150 de persoane cu drept de vot. Pentru a afla
procentul exact de alegători care îl vor vota pe domnul Boxplot, echipa de cercetare ar trebui
să investigheze pe toți cei 32150 de locuitori cu drept de vot. Acest lucru este posibil? Oare
resursele implicate (timp, chestionare, anchetatori) nu ar presupune cheltuieli foarte mari?
Pentru a obține un rezultat cât mai fidel și cu cheltuieli eficiente, echipa de campanie
analizează populația cu drept de vot din oraș și selectează pentru investigare un lot de 1886 de
persoane.
Exemplu
În această situație populația este formată din toți studenții anului I, iar eșantionul constă
în cei 20 de studenți care se aflau în primul rând. Eroarea pe care a făcut-o profesorul în
selecția eșantionului provine din faptul că acesta ar putea să nu fie reprezentativ. Studenții
care stau în primul rând ar putea prezenta tendința de a fi mai conștiincioși și, în consecință,
să fi avut o performanță mai bună la matematică. Astfel, eșantionul ar putea avea performanțe
superioare comparativ cu populația.
Exercițiu
O unitate militară trimite în teatrele de operațiuni din Orientul Mijlociu 148 de militari.
Misiunea durează 6 luni, timp în care militarii s-au confruntat cu acțiuni de eliberare a unor
ostatici, eliberarea unor orașe aflate sub conducerea teroriștilor sau cu misiuni de menținere
a păcii. Din fericire toți militarii s-au întors în țară sănătoși și fără să fi suferit răni în timpul
acțiunilor. În schimb, în una din misiuni doi soldați americani și-au pierdut viața, iar alți 6 au
fost grav răniți. Psihologul unității militare se gândește că soldații ar putea să sufere de
sindromul de stres post-traumatic și selectează 45 de militari pe care îi investighează.
Identificați populația și eșantionul cercetării.
Tabelul 1.1 – Numărul de medalii câștigate de țările participante la J.O. din Londra 2012
Țara Număr medalii
Statele Unite ale Americii 103
China 88
Marea Britanie 65
Rusia 81
Coreea de Sud 28
Germania 44
România 9
Acest exemplu ne permite să ne facem o imagine despre performanțele sportive ale țărilor
participante la Jocurile Olimpice din Londra.
Statistica inferențială reprezintă un set de instrumente statistice utilizate pentru a trage
concluzii cu privire la populație pe baza rezultatelor obținute la nivelul eșantionului. Rezultatele
majorității experimentelor se bazează pe statistica inferențială. Să ne reamintim exemplul cu
studiul referitor la efectul dietei (cu fructe de pădure, cu portocale sau cu morcovi) asupra
rezultatelor din sesiune. Cercetătorul este interesat să studieze ce dietă este mai eficientă în
obținerea unor note mai mari în sesiune. Statistica inferențială ne pune la dispoziție
instrumentele necesare pentru a testa, cu o anumită probabilitate, dacă există diferențe
semnificative între notele studenților în funcție de dieta ținută. Pe baza acestui exemplu, putem
înțelege că statistica inferențială este un instrument fundamental al cercetării științifice.
1.5 Procesul de măsurare în psihologie
Înainte de a începe o analiză statistică trebuie să măsurăm variabilele care vor fi supuse
analizei. Modalitatea exactă după care se va face măsurarea depinde de tipul variabilei pe care
o vom analiza. Pentru a măsura timpul de reacție la un stimul vom folosi un cronometru. Pentru
a măsura preferința pentru un anumit tip de muzică vom folosi o scală likert (dezacord total,
dezacord, neutru, acord și acord total). Să ne imaginăm că suntem în situația în care intervievăm
un set de alpiniști la ce altitudine au resimțit primele simptome ale hipoxiei în timpul escaladării
Vârfului Everest. Astfel, un alpinist din România va exprima în metri altitudinea la care a
resimțit primele efecte ale hipoxiei, pe când un alpinist din Statele Unite va preciza altitudinea
în „picioare”. Un profesor de educație fizică trebuie să selecteze copiii pentru a forma o echipă
de baschet. În acest sens suntem interesați să măsurăm anumite caracteristici, una din cele mai
importante fiind înălțimea candidaților. Aceasta poate fi exprimată în metri (1,95, 1,88) sau în
centimetri (195, 188). Din aceste exemple înțelegem faptul că orice măsurătoare presupune un
aspect convențional stabilit de cel care măsoară.
A măsura înseamnă a atribui numere sau simboluri unui aspect al realității în funcție de
anumite aspecte cantitative sau calitative care le caracterizează. Modul în care sunt atribuite
anumite numere sau simboluri pentru a măsura ceva se numește scală de măsurare.
Scala nominală permite etichetarea valorilor și plasarea lor în anumite categorii, dar fără
a realiza comparații. În această situație o valoare nu este mai mare sau mai mică decât alta. Un
exemplu de variabilă măsurată pe scală nominală este starea civilă (necăsătorit, căsătorit,
divorțat). În acest exemplu valoarea variabilei este una simbolică, ea putând deveni numerică
prin atribuirea unui cod: 0 = necăsătorit; 1 = căsătorit; 2 = divorțat. Alte exemple de variabile
măsurate pe scală nominală sunt: anotimpurile (primăvară, vară, toamnă, iarnă), naționalitatea
(română, turcă, maghiară), tipul de personalitate (introvert, extravert), lateralitatea (stângaci,
dreptaci, ambidextru).
Acest tip de scală nu permite operații matematice (adunări, scăderi, calcularea mediei) și
nu precizează dacă o valoarea este mai mare sau mai mică decât alta. De exemplu, atunci când
clasificăm persoanele după sportul preferat nu are sens să spunem că cei care preferă fotbalul
sunt mai buni decât cei care preferă tenisul. Totuși, sunt permise operații descriptive (numărare,
procente). Scala nominală reprezintă cel mai slab nivel de măsurare.
Scala ordinală este utilizată în situația în care dorim să stabilim o ierarhie, dar fără a
preciza cu cât o valoare este mai mare sau mai mică decât alta. Candidatul cu cel mai mare
punctaj la concursul de admitere primește codul 1, iar cel cu al doilea scor primește codul 2. În
această situație putem preciza că cel de primul loc a fost mai bun decât cel de 2, dar fără a
specifica intensitatea diferenței dintre ei. Cel de pe primul loc nu este de trei ori mai bun decât
al treilea clasat. Exemple de variabile măsurate pe scală de tip ordinal: ierarhia într-un concurs
de admitere, nivelul de școlarizare, categoria de vârstă. Codurile valorilor ordinale sunt
arbitrare, dar ele trebuie să indice ordinea. Acest tip de scală nu permite operații matematice.
Scala de interval are caracter cantitativ, este exprimată numeric, are intervale egale și ne
exprimă ordinea valorilor. Cu alte cuvinte, diferența intre 3 și 4 este aceeași cu diferența dintre
5 și 6 – o unitate. Astfel, 4 minute urmează la 1 minut după 3minute, iar 6 minute urmează la 1
minut după 5 minute. De această dată putem stabili intensitatea diferenței dintre valorile
variabilei măsurate. De exemplu, despre un student care termină un test în 8 minute știm că a
fost mai rapid cu 2 minute decât cel care termină în 10 minute și de trei ori mai rapid decât cel
care a terminat testul în 24 de minute. Exemple: temperatura (când termometrul înregistrează 7
grade putem spune că sunt cu 5 grade mai mult decât atunci când sunt înregistrate 2 grade),
depresia (un pacient care obține un scor de 10 puncte are cu 4 mai multe decât cel care prezintă
6 indicatori).
O caracteristică a acestei scale este absența lui 0 absolut. Prin lipsa lui 0 absolut înțelegem
faptul că înregistrarea unui scor 0 atunci când facem o măsurătoare nu înseamnă lipsa
constructului măsurat. De exemplu, 0 grade Celsius nu înseamnă lipsa temperaturii.
Temperatura de 0ºC este stabilită convențional ca fiind temperatura la care apa trece din stare
lichidă în stare solidă și invers. Un alt exemplu de construct unde nu există 0 absolut îl
reprezintă cunoștințele de matematică. Dacă la un test o persoană obține scorul 0, nu înseamnă
că el nu are cunoștințe de matematică, ci cunoștințele solicitate de test sunt superioare nivelului
de cunoștințe al persoanei evaluate. Majoritatea constructelor psihologice sunt măsurate pe
scală de raport. Acest tip de scală suportă toate tipurile de operații matematice.
Scala de raport deține cel mai înalt grad de măsurare. Pe lângă egalitatea intervalelor,
specifică scalei de interval, cuprinde și valoarea 0 absolut. Exemple: numărul de erori la un
examen, numărul de absențe la un seminar, viteza, numărul de răspunsuri corecte la un test etc.
În psihologie sunt foarte puține variabile măsurate pe scala de raport, deoarece foarte rar
se operează cu constructe care pot lua valoarea 0 absolut. Asemenea scalei de interval, scala de
raport suportă toate tipurile de operații matematice. Din acest motiv, în practică, valorile
măsurate pe scală de interval sau de raport sunt considerate similare, fiind prelucrate cu același
tip de proceduri statistice. Prin urmare, în această situație, precizăm că variabila este măsurată
pe scală de interval/raport.
Orice măsurare cuprinde o cantitate mai mică sau mai mare de eroare. Din acest motiv,
constructul măsurat este format din manifestarea reală a respectivului construct (scor real) și o
cantitate de eroare
X=T+E
Atunci când aplicăm un test de inteligență, scorul obținut (120) exprimă performanța la
test a unui participant. O analiză amănunțită a unui astfel de scor nu ne permite să trecem peste
faptul că acest scor este afectat de o cantitate de imprecizie, care poate proveni din calitatea
instructajului, a construcției testului (erori grafice), precum și ca urmare a unor influențe din
partea mediului de testare (zgomot, temperatură, luminozitate etc). Este datoria cercetătorului
de a se asigura că mărimea erorii este cât mai mică, astfel încât să atribuie o explicație corectă
rezultatelor obținute.
Erorile sunt de două tipuri: aleatorii și sistematice. Eroarea aleatorie este produsă de
diferite surse care pot afecta valorile măsurate atât în sens crescător, cât și în sens descrescător.
De exemplu, la un concurs de tir, unii participanți poți fi afectați de oboseală, iar performanța
tinde să scadă, în timp ce alți candidați sunt odihniți și obțin un plus de performanță. Dacă starea
de oboseală se împrăștie omogen asupra participanților, atunci plusul și deficitul de performanță
s-ar neutraliza și ar reduce nivelul erorii. Trebuie să ținem cont de faptul că eroarea aleatorie nu
are o sursă unică. În exemplul de mai sus, performanța poate fi influențată de motivație, de
numărul antrenamentelor, distanța parcursă până la locul competiției, etc. Eroarea aleatorie mai
este cunoscută și sub numele de eroare de stare.
Eroarea sistematică, spre deosebire de cea aleatorie care putea afecta valorile în orice
sens, afectează scorurile într-un singur sens (mai mic sau mai mare) față de scorul adevărat. De
exemplu, dacă la un test de cunoștințe pe calculator, la una din întrebări nu sunt activate
variantele de răspuns, scorul final la test nu va ține cont de răspunsul oferit la itemul respectiv.
Astfel, toți participanții care știau să răspundă la acea întrebare vor avea scorurile vor fi mai
mici cu un punct. Eroarea sistematică conduce fie spre creșterea scorurilor, fie spre scăderea
lor, în funcție de orientarea ei. Eroarea sistematică se mai numește bias.