Referat Informatica Si Statistica
Referat Informatica Si Statistica
Referat Informatica Si Statistica
REFERAT
DISCIPLINA:INFORMATICA SI STATISTICA SOCIALA TEMA:INDICATORI STATISTICI SI COEFICIENTI DE CORELATIE
CONSTANTA,2012
INDICATORI STATISTICI
Noiunea de indicator i funciile indicatorilor Cercetarea statistic a fenomenelor i proceselor socio-economice are ca obiectiv principal analiza aspectelor cantitative nemijlocit sesizabile pentru a afla i caracteriza esena i calitatea acestora. Definiie: Indicatorul statistic reprezint expresia numeric a unor fenomene i procese social-economice, definite n timp, spaiu i structur organizatoric.( Benea, M, Munteanu, G , 2007, p. 59). Indicatorii statistici pot fi primari sau derivai. Indicatorii primari exprim direct nivelul real de dezvoltare a caracteristicii cercetate, caracteriznd fenomenul/procesul la modul cel mai general din punct de vedere cantitativ. Ei rezult n urma observrii i centralizrii statistice a datelor individuale de mas, fie prin nregistrarea curent, fie prin nsumare parial sau total a datelor individuale de acelai fel. Indicatorii derivai se obin prin prelucrarea mrimilor absolute ale indicatorilor primari. Prelucrarea se face prin comparare, abstractizare, generalizare i alte procedee de calcul statistic. Compararea se face prin diferen sau prin raport. Prin diferen se compar numai indicatorii absolui cu acelai coninut i exprimai n aceeai unitate de msur. Prin raport se pot compara indicatorii cu acelai coninut sau coninut diferit, dar aflai n relaie de interdependen.
INDICATORI AI TENDINEI CENTRALE Indicatorii tendinei centrale sunt indicatori sintetici cu ajutorul crora se exprim ntr-o singur msur ceea ce este tipic, esenial, stabil, obiectiv i caracteristic ntr-o serie de date numerice. Un indicator al tendinei centrale trebuie s ndeplineasc urmtoarele condiii: s fie definit n mod precis i obiectiv, eliminnd aprecierea subiectiv a cercettorului; s fie expresia tuturor observaiilor fcute; s nu aib caracter matematic prea abstract i s posede proprieti simple i evidente; s poat fi calculat cu uurin; s fie ct mai puin afectat de fluctuaiile de selecie (la extragerea mai multor eantioane dintr-o colectivitate general, mediile s nu fie sensibil diferite). Indicatorii fundamentali ai tendinei centrale sunt: media aritmetic, modul i mediana. 1)Media aritmetic Considerm c termenul de medie este cel mai uor de neles din ntreaga statistic. Au fost nenumrate situaiile n care am ntlnit media: media la chimie s vedem dac am promovat anul sau avem restane, media de la coala general care ne ridic sau ne coboar ansele de admitere la liceu sau media cheltuielilor zilnice care ne ajut s ne planificm mai bine bugetul. Astfel la ntrebarea Ce este media aritmetic? putem spune c este indicatorul care se utilizeaz cel mai frecvent pentru caracterizarea tendinei centrale.
Media reprezint valoarea care nlocuind toi termenii unei serii nu modific nivelul totalizator i se calculeaz ca suma valorilor unei variabile raportat la numrul msurtorilor. Aceasta este media aritmetic (C. Opariuc-Dan, 2009), deoarece n statistic mai discutm i de media geometric, media caracteristicilor alternative, media ptratic, media rangurilor etc. Aceste concepte le ntlnim ns mai rar n domeniul tiinelor socio-umane i prin urmare nu vom face dect s le amintim. 2)Modul (M0 ) Modul este categoria cu frecvena cea mai mare, el reprezint valoarea cel mai des ntlnit ntr-o serie statistic sau cea care are cea mai mare frecven de apariie. Modul se mai numete i dominanta seriei sau valoarea modal. Grafic, ntr-o histogram ori poligon al frecvenelor el reprezint valoarea de pe abscis corespunztoare vrfului reprezentrii.n cazul datelor cantitative,n determinarea modului se ine cont de felul n care acestea au fost sistematizate. Pentru o serie statistic simpl de forma valoarea modal, M0 = 32. Pentru o serie de distribuie de frecvene alctuit dup o variabil cantitativ discret, determinarea modului se face prin identificarea valorii creia i corespunde frecvena maxim. n cazul seriilor de distribuie de frecvene pe intervale de variaie, determinarea modului presupune mai nti identificarea intervalului cu frecven maxim:unde:
XinfMo reprezint limita inferioar a intervalului modal; HMo reprezint mrimea intervalului modal;
d1 = diferena dintre frecvena intervalului modal i a celui precedent; d2 = diferena din frecvena intervalului modal i a celui urmtor; Dac d1 = d2 atunci modul va fi egal cu centrul intervalului modal.
O serie de date statistice poate s aib una sau mai multe valori modale. O distribuie cu un singur mod se numete unimodal, dac are dou valori dominante se numete bimodal, iar dac are mai mult de dou moduri se numete multimodal. 3)Mediana (Me) Mediana este o alt msur a tendinei centrale i reprezint valoarea care mparte irul de msurtori n dou pri egale; jumtate din irul de date vor avea valori mai mici dect mediana n timp ce cealalt jumtate vor avea valori mai mari dect mediana. (C. Opariuc-Dan, 2009, p. 83). Mediana prezint valoarea/varianta din mijlocul unei serii de date, serie n care observaiile au fost ordonate cresctor (sau descresctor). Mediana este situat n centrul (mijlocul) seriei. Mediana poate fi folosit n caracterizarea tendinei centrale pentru o serie de date msurate pe o scal ordinal. Mediana ia n considerare doar poziia observaiilor n serie, nu i magnitudinea lor efectiv. Pentru a determina mediana introducem noiunea de ranguri, adic, numere de ordine asociate observaiilor (cea mai mic rang 1; cea mai mare rang n). Locul medianei (LocMe) va fi rangul unitii din mijlocul distribuiei. Pentru seriile simple la determinarea valorii din mijloc trebuie s lum n consideraie situaiile: a)dac n este un numr impar pentru date cantitative mediana este exact valoarea din mijlocul seriei. Ordonnd un ir, putem preciza poziia fiecrui element n cadrul acelui ir. Altfel spus, mediana nu este altceva dect poziia rangului din mijloc n irul ordonat de date. ntr-o serie de la 1 la 7, poziia din mijlocul irului este evident, poziia 4. Acesta este de altfel i locul n care gsim mediana. b)dac n este un numr par, exist dou valori situate n mijlocul seriei.
dac datele sunt cantitative, mediana este media celor dou valori din mijloc Pentru a calcula mediana, primul pas este acela de a ordona cresctor sau descresctor aceste date. c)pentru o serie de distribuie de frecvene variate determinarea medianei presupune calcularea mai nti a frecvenelor cumulate. Prima frecven cumulat mai mare dect (n+1)/2 (locul medianei) ne indic varianta median Mediana prezint unele avantaje fa de medie: este mai puin afectat de valorile extreme, lund n considerare doar poziia valorilor nu i magnitudinea lor efectiv; poate fi folosit ntr-o distribuie pe intervale chiar i n cazul n care primul sau ultimul interval sunt deschise; este un indicator ce poate fi folosit i pentru date ordinale; Dezavantajele medianei: mediana nu poate fi supus la fel de uor calculelor algebrice; media este preferabil n procesul de inferen statistic.
DESCRIEREA NUMERICA A VARIABILELOR Medie,variaie i dispersie 1)Introducerea datelor i efectuarea analizei Pentru realizarea acestui exemplu am selectat un numr de 0 subieci cu vrste cuprinse ntre 15-35 ani. Pasul 1:n Variable View din Data Editor se denumete prima coloan Vrst.Se ndeprteaz cele 2 zecimale i se scrie 0. Pasul 2:n Data Viewdin Data Editor se introduc vrstele n prima coloan Pasul 3:Se selecteaz Analize Descriptives statisticsiFrequencies... Pasul 4:Se selecteaz vrstai butonul pentru a introduce n lista de variabile. Se deselecteaz
butonul Display frequencys tables i se ignor mesajul de avertizare. Se d clic pe Statistics Pasul 5: Se selecteaz Mean; Median; Mode. Se d clic pe Continue. Se apas OK din ecranul anterior, care reapare. 2. Interpretarea output-ului. Exist 10 cazuri cu date valide pe care se bazeaz analiza.Nu sunt date lips (0).Media de vrst, media aritmetic=22,8 ani. Mediana de vrst (vrsta persoanei aflate la mijlocul liniei de vrste de la cea mai mic la cea mai mare) este de 21.5 ani.Valoarea mod de vrst este 17. Alte caracteristici: n csuele de dialog de la pasul 5 se pot observa mai multe valori statistice adiionale care pot fi calculate: 1. centilele indic punctele de separaie pentru procentajele scorurilor. Exemplu: Al 90-lea centil este valoarea numeric care separ cele 90% de valori de dedesubt, din punct de vedere al mrimii. 2. Cvartilele sunt valorile distribuiei care indic punctele de separare pentru cele ai mici 20%, cele mai mici 50% i cele mai mici 75% dintre scoruri. 3. Suma indic totalul scorurilor pentru o variabil. Skewness Este un indicator de asimetrie sau nclinare a distribuiei scorurilor pentru o variabil. Valoarea este pozitiv dac valorile sunt asimetrice spre stnga, sau negativ dac valorile sunt asimetrice spre dreapta.
5. Kurtosis este un index care arat ct de ascuit sau turtit este distribuia scorurilor pentru o variabil, comparativ cu distribuia normal. Va fi cu semnul + pentru curbe de frecvene ascuite i cu semnul - pentru curbe de frecvene turtite. 6. Abaterea standard (estimat) este o evaluare a msurii n care scorurile difer n medie fa de media scorurilor pentru o variabil particular. 7. Variaia (estimat) este o evaluare a msurii n care scorurile variaz n medie fa de media scorurilor pentru variabila respectiv. 8. Rang diferena dintre cel mai mare i cel mai mic scor obinut pentru o variabil. 9. Minim (scor) valoarea celui mai mic scor al datelor pentru o variabil particular. 10. Maxim (scor) valoarea celui mai mare scor al datelor pentru o variabil particular. 11. Eroarea standard (ES medie) valoarea medie cu care mediile eantioanelor extrase dintr-o populaie, difer fa de media populaiei. Coeficieni de corelaie Coeficieni de corelaie Pearson i Spearman. Corelaia este o metod statistic utilizat pentru a determina relaiile dintre dou sau mai multe variabile. Exist mai multe tipuri de corelaii att parametrice ct i neparametrice. Coeficientul de corelaie este o valoare cantitativ ce descrie relaia dintre dou sau mai multe variabile. El variaz ntre (-1 si +1), unde valorile extreme presupun o relaie perfect ntre variabile n timp ce 0 nseamn o lipsa totala de relaie liniar. O interpretare mai adecvat a valorilor obinute se face prin compararea
rezultatului obinut cu anumite valori prestabilite n tabele de corelaii n funcie de numrul de subieci, tipul de legtur i pragul de semnificaie dorit. Cel mai comun i cel mai folositor este coeficientul de corelaie Pearson i coeficientul de corelaie Spearman. Corelaia Pearson(r) evalueaz gradul de asociere dintre dou variabile msurate pe scal de interval/raport. Aceasta se refer la intensitatea i sensul de variaie concomitent a valorilor unei variabile n raport cu cealalt, dup un model de tip liniar. Dac valorile unei variabile urmeaz, n sens direct, cresctor, sau invers, descresctor, valorile celeilalte variabile, atunci cele dou variabile coreleaz ntre ele. Domeniul de variaie a coeficientului de corelaie Pearson(r) este ntre r = -1 (corelaie perfect negativ: ceea ce nseamn c n timp ce scorurile unei variabile cresc, scorurile pentru cealalt variabil descresc) i r = +1 (corelaie perfect pozitiv: ceea ce nseamn c scorurile unei variabile se mresc odat cu creterea scorurilor celeilalte variabile). Absena oricrei legturi (corelaii) dintre variabile se traduce prin r =0. O corelaie de 1,00 indic o asociere perfect ntre cele dou variabile. Cu alte cuvinte, o diagram scatter a celor dou variabile va arta c toate punctele sunt coninute de o singur dreapt. O valoare de 0,00 indic faptul c toate punctele din diagrama scatter sunt dispersate aleatoriu n jurul oricrei drepte desenate pe aceast diagram a datelor sau sunt aranjate ntr-o manier curbilinie. n continuare vom ilustra calculul corelaiei Pearson, o diagram scatter i coeficientul de corelaie Spearman, folosind pentru aceasta datele din tabelul urmtor, care reprezint scoruri ale abilitilor muzicale i matematice pentru 10 copii. muzica:3,7,8,9,9,6,4,3,4,7 matematic:7,5,4,4,5,8,9,9,7,6
1)Introducerea datelor. Pasul 1: n Variable View din Data Editor se denumete primul rnd muzic i al doilea rnd matematic.Se nltur cele dou zecimale. Pasul 2: n Data View din Data editor se introduc datele pentru: muzic n prima coloan; matematic n a doua coloan. Corelaia Pearson. Pasul 1: Se selecteaz: Analyze, Corelate, Bivariate Pasul 2: Se selecteaz Muzic i Matematic i apoi se apas butonul pentru a le introduce n lista de variabile aa cum este artat n figura din dreapta.Se apas OK. Interpretarea output-ului. Corelaia dintre matematic i muzic este - 0,845 La un test de semnificaie, two-tailed la nivelul de probabilitate 0,01 sau mai mic, corelaia este statistic semnificativ. Numrul cazurilor pe care este bazat corelaia este 10. Informaia apare i n aceast celul. Raportarea output-ului. Corelaia dintre abilitile muzicale i cele matematice este 0,845.
Se obinuiete s se rotunjeasc corelaia cu dou zecimale, deci aceasta va deveni 0,90, acesta fiind un rezultat mult mai precis pentru majoritatea msurtorilor psihologice. Nivelul de semnificaie exact, cu trei zecimale, este 0,002. nseamn c nivelul de semnificaie este mai mic dect 0,01. Interpretarea psihologic va fi: Exist o relaie negativ semnificativ ntre abilitile muzicale i cele matematice , ceea ce nseamn c, copii cu nivel ridicat al abilitilor muzicale au un nivel sczut al abilitii matematice.Un coeficient de corelatie poate fi calculat corect numai cnd datele ambelor variabile se refera la esantioane si fiecare este ales independent. Un coeficient de corelatie poate fi apropiat de 1, deci ne va indica o corelatie puternica, dar ea poate fi nesemnificativa din cauza volumului mic a esantionului studiat. Corelatia nu trebuie identificata cu cauzalitatea, in sensul ca observatiile a 2 variabile se pot corela foarte bine fara sa avem motive logice si stiintifice ca una dintre variabile poate fi cauza celeilalte. Coeficientul de corelaie Spearman. Pasul 1: Identic corelaiei Pearson se selecteaz Analyze, Correlate, Bivariate i variabilele care se doresc pentru corelaie. Se selecteaz Spearman i se deselecteaz Pearson (dac nu se dorete ca i corelaie).Se apas OK. Interpretarea output-ului. Coeficientul de corelaie Spearman.Numrul cazurilor este 10. ntre muzic i matematic este 0,842. Nivelul de semnificaie este 0,001 sau mai mic, deci corelaia este statistic semnificativ.
Raportarea output-ului. Corelaia raportat cu dou zecimale este 0,84. Interpretarea psihologic va fi: Exist o corelaie negativ semnificativ ntre abilitile muzicale i cele matematice, ceea ce semnific faptul c, cei cu un nivel ridicat al abilitii muzicale au abiliti matematice sczute i viceversa. Coeficientul de corelatie al rangurilor (Spearman) testeaza gradul de corelare intre 2 variabile calitative; este alternativa neparametrica a coeficientului de corelatie Pearson. Acest coeficient variaza intre -1 si +1. O valoare apropiata de +1, inseamna ca suma patratelor diferentelor este aproape nula, deci avem clasamente identice. O valoare apropiata de 0, inseamna necorelarea variabilelor, iar valoarea apropiata de -1 pune in evidenta discordanta maxima a variabilelor. Diagrama scatter. Pasul 1: Se selecteaz: Graphs Scatter/Dot Pasul 2: Se selecteaz define din moment ce simple este deja selectat. Pasul 3: Pentru a avea variabila muzic ca ax vertical, se selecteaz i apoi se apas butonul de lng csua Y Axis Pentru a avea variabila matematic ca ax orizontal, se selecteaz apoi se apas butonul de lng csua X Axis.Se apas OK. Interpretarea output-ului. n diagrama scatter, rspndirea punctelor este relativ ngust, ceea ce indic o corelaie mare.
Forma mprtierii rezultatelor este relativ n linie dreapt, indicnd mai degrab o relaie n linie dreapt dect o relaie curbilinie. Linia este de la colul stnga sus pn n dreapta jos, ceea ce indic o corelaie negativ. Dac relaia este curbilinie atunci corelaiile Pearson i Spearman pot fi neltoare. Raportarea output-ului. Despre diagrama scatter s-ar putea scrie urmtoarele afirmaii: A fost examinat o diagram scatter pentru relaia dintre abilitile muzicale i matematice. Nu exist nicio dovad privind o relaie curbilinie sau asupra influenei avute de rezultatele atipice.