Carte Statistica 2010 Gogu Emilia UCDC
Carte Statistica 2010 Gogu Emilia UCDC
Carte Statistica 2010 Gogu Emilia UCDC
STATISTICA TEORETICĂ
CUPRINS:
1
CONF. UNIV. DR. EMILIA GOGU STATISTICA
2
CONF. UNIV. DR. EMILIA GOGU STATISTICA
3
CONF. UNIV. DR. EMILIA GOGU STATISTICA
4
CONF. UNIV. DR. EMILIA GOGU STATISTICA
Legea numerelor mari este un principiu fundamental al cercetării statistice care presupune
luarea în considerare a unei colectivităŃi suficient de numeroase de cazuri individuale, astfel încât
abaterile întâmplătoare, intr-un sens sau altul, se poate compensa, punându-se în evidenta o
anumita marime/valoare care este tipica pentru întreaga colectivitate.
DefiniŃie. "Statistica este ştiinŃa care studiază aspectele cantitative ale determinărilor
calitative ale fenomenelor de masă, fenomene care sunt supuse acŃiunii legilor statistice ce se
manifesta în condiŃii concrete, variabile în timp şi spaŃiu. "
Fenomenele de masă se mai numesc şi :
fenomene de tip colectiv deoarece legea este valabilă pentru întregul ansamblu şi
numai întâmplător se verifică în fiecare caz în parte,
fenomene de tip statistic sau stochastic pentru că ele se supun legilor statistice1;
fenomene aleatoare pentru că între factorii de influenŃă există şi o componenŃă
aleatoare,
fenomene atipice pentru că forma lor de manifestare individuală este diferită;
fenomene nedeterministe ca urmare a faptului că modul de asociere a factorilor
esenŃiali cu cei neesenŃiali, a celor sistematici cu cei aleatori se poate schimba în timp, în spaŃiu
sau ca formă organizaŃională,
f) Estimare statistică.
g) Eroare statistică
6
CONF. UNIV. DR. EMILIA GOGU STATISTICA
Gruparea combinată presupune sistematizarea datelor după două sau mai multe
caracteristici de grupare (cel mult 4) care pot fi variabile numerice şi/sau calitative.
Gruparea combinată impune stabilirea ordinii de grupare pe baza relaŃiei de
interdependenŃă dintre variabile. Grupele formate după prima caracteristică se regrupează
după cea de a doua ş.a.m.d.
Clasificarea (gruparea pentru variabile calitative) se efectuează după variabile
nenumerice (calitative) şi presupune includerea în aceeaşi grupă (clasă) a tuturor
7
CONF. UNIV. DR. EMILIA GOGU STATISTICA
a) Seriile statistice
Enumerarea datelor statistice într-o anumită ordine se numeşte serie statistică.
Seria statistică se reprezintă ca două şiruri de date. Primul şir este criteriul de enumerare
(valori , variante) al doilea şir conŃine datele numerice.
Seriile statistice sunt de următoarele feluri
1. Serii de repartiŃie sau de distribuŃie
2. Serii cronologice (ale dinamicii )sau serii de timp.
3. Serii teritoriale sau de spaŃiu.
4. Serii descriptive sau enumerative (lista candidaŃilor admişi, facultatea, media de
liceu , media examenelor, şcoala absolvită etc.)
5. Serii unidimensionale şi multidimensionale
La rândul lor seriile statistice pot fi atât numerice (cantitative) cât şi nenumerice
(calitative).
b) Tabele statistice. Prezentarea datelor sub forma unui tabel statistic permite atât o
bună vizualizare cât şi mai ales, efectuarea diverselor calcule în procesul de prelucrare a
datelor.
Pot fi tabele cu o singură intrare şi cu două sau mai multe intrări, tabele de lucru şi
de prezentare a rezultatelor.
În elaborarea unui tabel se identifică următoarele elemente şi reguli principale:
titlul tabelului
macheta tabelului
subiectul tabelului - colectivitatea şi componentele ei
predicatul tabelului - constituie variantele şi indicatorii cu care caracterizăm statistic
colectivitatea studiată.
Unitatea de măsură
Sursa datelor (sub tabel)
Numerotarea tabelelor (sus)
c) Reprezentări grafice – Cu ajutorul graficilor se vizualizează informaŃiile statistice
facilitând perceperea pe ansamblu a datelor, aspecte privind: variaŃia valorilor observate,
repartiŃia lor, legăturile existente între ele, a evoluŃiei valorilor în timp ş.a.
Graficul trebuie să cuprindă:
Titlul – (precizându-se şi limitele fenomenului)
Legenda
Sistemul axelor rectingulare (ox, oy, oz)
Principalele tipuri de grafice sunt:
8
CONF. UNIV. DR. EMILIA GOGU STATISTICA
grafice de volum
grafice de structură
grafice prin benzi
grafice prin coloane simple sau în aflux
cronogramă (historiogramă) pe scară uniformă sau logaritmică
diagrama polară (radială)
histograma
poligonul frecvenŃelor
curba cumulativă a frecvenŃelor
graficul lui Lorentz
cartograma
cartodiagrama.
9
CONF. UNIV. DR. EMILIA GOGU STATISTICA
În cea mai mare parte mărimile relative în satistică nu prezintă o dificultate de calcul. Cele
mai multe dificultăŃi apar în comparaŃiile internaŃionale, unde indicatorii provin din diferite surse
sau sunt calculaŃi după metodologii diferite.
xi
x *i = * 100
∑ xi
- daca se determina pentru frecventa fiecărei grupe se numesc ponderi iar daca se
determina pentru valorile centralizate ale diferitelor caracteristici se numesc greutăŃi specifice
10
CONF. UNIV. DR. EMILIA GOGU STATISTICA
specifice care se obŃin ca mărimi relative de structură raportând frecvenŃa fiecărei grupe (ni , fi )
k k
la totalul frecvenŃelor ( ∑n ,∑ f
i =1
i
i =1
i ) după relaŃia:
fi ni
- f i (%) * = k
* 100; ni (%) * = k
* 100 .
∑f
i =1
i ∑n
i =1
i
FrecvenŃele relative permit analiza structurii unei serii de distribuŃie în funcŃie de una sau
mai multe variabile (caracteristici) şi compararea repartiŃiilor empirice cu cele teoretice.
Având caracter de mărimi relative se pot exprima sub formă de coeficienŃi sau în
procente şi fiind “eliberate” de aspectul concret al exprimării unităŃilor centralizate pe grupe
devin comparabile pentru orice fel de serie şi mai ales cu probabilităŃile din distribuŃiile teoretice.
c) ale dinamicii – se obŃine ca raport a doi indicatori al aceluiaşi fenomen dar aflate între
două momente /perioade diferite.
Pentru a studia în dinamică recurgem la serii cronologice.
În generale o serie statistică este formată din 2 şiruri de date în care I şir reprezintă criteriul de
sistematizare (factorul e grupare) al II -lea şir variabila dependentă de factorul de grupare
Analiza se face atât în bază fixă cât şi mobilă (în lanŃ).
*Indicatorii relativi obŃinuŃi prin raportare exprimă indicele de variaŃie
X
- cu bază fixă K i / 0 = i *100
X0
XI
- cu bază mobilă (în lanŃ) K i / i −1 = * 100
X i −1
Putem calcula mărimi relative ale dinamicii la nivelul ansamblului, dacă variabila este
aditivă direct:
kt / 0 =
∑x t
respectiv k t / t −1 =
∑x t
∑x 0 ∑x t −1
Ele se exprimă atât sub formă de coeficienŃi dar mai adesea sub formă % .
Reprezentarea grafică: Mărimile relative d. se reprezintă grafic prin:
- cronograme (histograme)
11
CONF. UNIV. DR. EMILIA GOGU STATISTICA
• k pl / 0 =
∑ x pl ∑x
k1 / pl =
1
respectiv
∑ x0 ∑x pl
De cele mai multe ori mărimile relative de dinamică şi mărimile relative ale planului se
exprimă procentual.
e) Mărimile relative de intensitate se obŃin prin raportarea a doi indicatori absoluŃi de natura
diferita, dar care se află într-un raport de interdependenŃă.
RelaŃia de calcul este:
• la nivel parŃial: X = Y i
Zi
Aceste mărimi se pot calcula pentru fiecare grupa de unităŃi în parte sau pentru întreaga
colectivitate.
• la nivelul ansamblului: X i =
∑ YI sau x = ∑ X i Z i
∑ Zi ∑Zi
Ex: Densitatea populaŃiei (loc/km2,) Productivitatea muncii (lei/munc).
Mărimile relative de intensitate au numerose aplicaŃii în:
- industrie ( coeficientul mecanizării, automatizării, utilizării intensive etc.)
- agricultură (coeficientul chimizări, irigaŃiilor, recolta medie la ha);
- turism (indicatorii eficienŃei activităŃii de turism, productivitatea muncii etc)
- demografice (coeficientul mişcării naturale, migratorii a populaŃiei)
12
CONF. UNIV. DR. EMILIA GOGU STATISTICA
13
CONF. UNIV. DR. EMILIA GOGU STATISTICA
frecvenŃelor de apariŃie a acestora. În acest sens, fiecare serie are o structură condiŃionată de
valorile pe care le ia caracteristica (variabila) în condiŃiile date de timp, spaŃiu şi organizatorice.
De aceea, analiza seriilor de repartiŃie debutează de obicei cu calculul indicatorilor determinaŃ i
pe baza frecvenŃelor de apariŃie ale valorilor individuale ale caracteristicii.
Indicatorii de nivel ai seriei pot fi exprimaŃi în cazul variabilelor numerice prin variante
în cazul grupării pe variante. În cazul intervalelor de variaŃie se utilizează ca indicator de nivel
centrul (mijlocul) intervalului de grupare.
În grupa indicatorilor de frecvenŃă deosebim: frecvenŃe absolute, frecvenŃe relative ş i
frecvenŃe cumulate.
FrecvenŃele absolute notate în unele lucrări cu "fi" sau "ni " în altele, reprezintă numărul
de unităŃi care corespunde grupelor de unităŃi (variante sau intervale de valori) obŃinut ca rezultat
al centralizării statistice. FrecvenŃele absolute se exprimă în unităŃi concrete (număr de salariaŃi,
număr de agenŃi comerciali, număr de unităŃi turistice, număr de depunători CEC etc.).
FrecvenŃele absolute stau la baza calculului frecvenŃelor relative.
FrecvenŃele relative permit analiza structurii unei serii de distribuŃie în funcŃie de una sau
mai multe variabile (caracteristici) şi compararea repartiŃiilor empirice cu cele teoretice.
FrecvenŃele cumulate sunt comparabile între ele indiferent de felul de intervalului de
grupare. De asemenea ele stau la baza stabilirii medianei şi a celorlalte medii de structură sau
poziŃie – indicatori care vor fi prezentaŃi într-un subcapitol din acest capitol.
14
CONF. UNIV. DR. EMILIA GOGU STATISTICA
Mărimile medii fiind o sinteză a tuturor valorilor seriei reflectă ceea ce este esenŃial ş i
tipic în nivelul de dezvoltare a fenomenului fără să caracterizeze şi modul de repartiŃie a
frecvenŃelor în cadrul seriei.
De aceea, pentru completarea analizei seriilor de distribuŃie este necesar să se calculeze ş i
anumite valori medii de poziŃie sau medii de structură, care să evidenŃieze şi forma de repartiŃie a
frecvenŃelor. Dintre acestea, mediana şi modul sunt cel mai frecvent utilizate, fiind considerate
tot ca indicatori ai tendinŃei centrale.
Mediana (Me) reprezintă valoarea centrală a unei serii statistice, ordonate crescător sau
descrescător, care împarte termenii seriei în două părŃi egale.
Indiferent de tipul seriei (simplă sau cu frecvenŃe) la calculul medianei se cer rezolvate
două
Modul (Mo) unei distribuŃii statistice reprezint ă acea valoare a caracteristicii care
corespunde celui mai mare efectiv sau celei mai mari frecvenŃe.
Cu alte cuvinte, modul este valoarea cea mai frecvent întâlnită, motiv pentru care mai
este cunoscut în literatura de specialitate şi sub denumirea de dominanta seriei.
Pentru serii simple (date negupate) modul se calculează dacă întâlnim o valoare a
variabilei care se repetă de mai multe ori.
Cuartilele sunt acele valori ale caracteristicii, care separă seria în patru părŃi egale:
cuartila inferioară, notată cu Q1, este mai mare sau egală de 25% din termenii seriei şi
mai mică sau egală de 75% dintre ei;
cuartila a doua Q2 coincide cu Me şi separă seria în două părŃi egale ca efectiv;
cuartila superioară Q3 este mai mare sau egală de 75% din numărul termenilor şi mai
mică sau egală de 25% din numărul lor.
Într-o colectivitate statistică valorile individuale (variantele) diferă mai mult sau mai
puŃin unele faŃă de altele. Ele pot fi mai apropiate sau mai împrăştiate. Or după cum s-a precizat
la metodele grupării, valorile pot fi omogene între ele numai dacă prezintă variaŃie minimă ş i
media ca sinteză a acestor valori va fi o valoare tipică, reprezentativă. De aceea, comparaŃia se
face, în principal, cu media aritmetică, considerată ca fiind valoarea cea mai reprezentativă
pentru colectivitatea studiată. De cele mai multe ori este important de cunoscut cât de departe
sunt valorile variantelor seriei faŃă de această medie, sau cu alte cuvinte care este dispersia
variantelor în cadrul seriei sau câmpul de variaŃie a caracteristicii înregistrate.
Se apreciază că dacă variantele au valori mai apropiate de valoarea mediei seriei, deci
prezintă abateri mici, media este reprezentativă.
În practica statistică de cele mai multe ori datele care trebuie să fie analizate sunt extrem
de numeroase şi de regulă cu o amplitudine mare a variaŃiei. De aceea este necesar să separăm ş i
să stabilim intensitatea cu care activează cele două grupe de factori esenŃiali şi întâmplători
având drept consecinŃă imediată un anumit grad de variabilitate.
Dacă am limita analiza numai la determinarea şi interpretarea mărimii medii nu ar fi
posibilă cunoaşterea condiŃiilor concrete în care apar şi se dezvoltă fenomenele şi nici depistarea
tendinŃelor evolutive ale variabilităŃii acestor fenomene.
Cu cât fenomenele sunt mai complexe, deci dependente de mai mulŃi factori, cu atât
variaŃia este mai mare şi utilizarea mărimilor medii devine insuficientă fără verificări riguroase
15
CONF. UNIV. DR. EMILIA GOGU STATISTICA
16
CONF. UNIV. DR. EMILIA GOGU STATISTICA
caracteristicii înregistrat
0 1 2 3
x1 = 1 DA M (numărul unităŃilor care
posedă caracteristica)
x2 = 0 NU (N-M) N−M
q= = 1− p
(numărul de unităŃi care nu N
posedă caracteristica)
Total N=M+(N-M) p+q = 1
p+q
p
σ 2p = p ⋅ q sau σ 2p = p ⋅ (1 − p)
Dispersia caracteristicii alternative este egală cu produsul dintre cele două frecvenŃe
relative.
Abaterea medie pătratică se determină potrivit metodologiei clasice - ca rădăcină
pătrată din dispersie:
σ p = p⋅q
Aceşti indicatori sunt folosiŃi pe scară largă în cercetările selective şi mai ales în controlul
statistic al calităŃii produselor.
Dispersia şi abaterea medie pătratică a caracteristicii alternative prezintă anumite
particularităŃi:
a) dispersia poate lua numai valori cuprinse în intervalul 0 ≤ σ 2p ≤ 0,25 iar abaterea
medie pătratică numai valori cuprinse în intervalul 0 ≤ σ p ≤ 0,5 ;
b) când p=q dispersia şi abaterea standard ating valorile maxime: σ 2p = 0,25; σ p = 0,5;
c) dacă p<q şi p creşte uniform în cadrul intervalului: 0 < p < 0,5 atât σ 2p cât şi σ p
înregistrează o creştere mai rapidă la început şi mai lentă către limita superioară;
d) dacă p > q şi p continuă să crească uniform în cadrul intervalului: 0,5 < p < 1,
dispersia şi abaterea medie pătratică înregistrează o scădere în acelaşi ritm în care a avut loc şi
creşterea.
În cazul în care colectivitatea este împărŃită în grupe şi se studiază variaŃia unei
caracteristici alternative, atunci se calculează dispersiile din fiecare grupă, media lor, dispersia
dintre grupe şi dispersia colectivităŃii totale, după formulele:
Dispersia de grupă pentru o caracteristică alternativă ( σ 2pi ) se calculează după
relaŃia:
σ 2p = pi qi sau σ 2p = pi (1 − pi )
i i
în care :
17
CONF. UNIV. DR. EMILIA GOGU STATISTICA
∑(p q )N i i i
σ = 2
p
i =1
r
∑N i
i =1
în care Ni - reprezintă numărul total al unităŃilor observate în fiecare grupă.
Dispersia dintre grupe pentru o caracteristică alternativă (δ p2 ) se calculează pe baza
abaterilor mediilor caracteristicii alternative din fiecare grupă şi media pe întreaga colectivitate:
r
∑ ( pi − p) N i
2
δ p2 = i =1
r
∑ Ni
i =1
M
în care p este media caracteristicii alternative pe întreaga colectivitate ( p =).
N
Dispersia totală a caracteristicii alternative (σ 2p ) se calculează pe baza celor două
greutăŃi specifice (p, q) din colectivitatea totală:
σ p2 = p ⋅ q
Regula adunării dispersiilor se păstrează şi în cazul unei caracteristici alternative:
σ 2p = σ p2 + δ p2
4.6. Asimetria
Pentru caracterizarea seriilor de distribuŃie unidimensionale şi unimodale un interes
deosebit îl prezintă şi cunoaşterea gradului de oblicitate, de îndepărtare a acestor distribuŃii de la
simetrie. În practica statistică acest aspect este cunoscut sub numele de asimetrie.
La interpretarea gradului de asimetrie se porneşte de la poziŃia şi valorile pe care le au cei
trei indicatori ai tendinŃei centrale: media, mediana şi modul prin raportare la proprietăŃile
distribuŃiei normale.
Într-o distribuŃie simetrică cei trei indicatori: mod, mediană şi media aritmetică se
confundă ca în diagrama din figura 4.8.
y y
x x
Mo = Me = x Mo < Me < x
Figura 4.8 Figura 4.9
18
CONF. UNIV. DR. EMILIA GOGU STATISTICA
x
x < Me < Mo
Figura 4.10
19
CONF. UNIV. DR. EMILIA GOGU STATISTICA
În cazul distribuŃiei normale, de tip teoretic, valorile caracteristicii X pot lua valori de la
-∞ la +∞. Pentru a uşura înŃelegerea acestui tip de distribuŃie se consideră în mod convenŃional
ca origine a variaŃiei caracteristicii X, valoarea ei medie ( x =0), iar pe grafic se vor reprezenta
abaterile individuale ale caracteristicii X faŃă de media seriei (xi- x ), Ńinând seama de frecvenŃele
lor de apariŃie. În acelaşi timp, se vor considera frecvenŃele de apariŃie a diferitelor valori ale
caracteristicii X drept frecvenŃe relative, care în cazul distribuŃiei teoretice se transformă în
probabilit ăŃi de apariŃie. În cazul distribuŃiei normale teoretice suma probabilităŃilor de apariŃie a
tuturor valorilor caracteristicii (X) este egală cu 1.
Pe baza celor arătate şi considerând pe x =0, probabilităŃile de apariŃie se vor distribui în
mod simetric de ambele părŃi ale ordonatei maxime. Pe baza acestei probabilităŃi s-au determinat
care sunt probabilit ăŃile de apariŃie a diferitelor abateri (xi- x ), considerând ca erori faŃă de
medie, corespunzătoare ordonatei dispuse la un anumit interval faŃă de ordonata maximă, adică:
( xi − x ) 2
1 −
yi = ⋅e 2σ 2
σ 2Π
în care:
yi – probabilitatea de apariŃie a abaterii (xi- x ),
σ2 – dispersia caracteristicii x;
σ - abaterea medie pătratică a caracteristici X
Π =3,14
e – baza logaritmilor naturali =2,71828
xi- x - abaterea individuală a caracteristicii Xde la media lor, considerată ca o valoare
scontată câtre care tinde să se concentreze întreaga distribuŃie de frecvenŃă.
În mod corespunzător se poate determina şi valoarea ordonatei maxime unde abaterea (xi-
x ), este egală cu zero, deci:
1
y0 =
σ 2Π
în care y0 – ordonata maximă considerată în punctul central al seriei.
Aplicate unei serii empirice, aceste formule de calcul servesc la determinarea
frecvenŃelor relative teoretice de apariŃie a diferitelor valori ale caracteristicii, considerată ca
fiind distribuită normal dacă pentru o serie de distribuŃie se cunoaşte media şi abaterea medie
pătratică.
Dacă se cunoaşte şi volumul colectivităŃii (N) în locul frecvenŃelor teoretice relative se
pot determina frecvenŃele teoretice absolute înlocuind pe 1 (suma frecvenŃelor relative) cu N
(volumul absolut al întregii colectivităŃi). În acest caz frecvenŃa teoretică absolută
corespunzătoare unui punct definită prin axa absciselor prin abaterea sa faŃă de mediei va fi:
( xi − x ) 2
N −
yi = ⋅e 2σ 2
σ 2Π
Interpretând această formulă rezultă că în cazul distribuŃiei normale, forma de distribuŃie
depinde în principal de valorile luate de abaterea media pătratică (σ). Dacă abaterea medie
pătratică are o valoare mare, ea corespunde unei variaŃii mari a termenilor seriilor în jurul mediei
şi deci gradul de alungire a curbei este mai mare şi invers, deoarece în acest caz abaterile (x- x )
nu fac decât să se mute dintr-o parte în alta pe abscisă. Din această cauză aria de întindere a
curbei se poate măsura în unităŃi de abatere normate determinate ca raport între abaterile
x−x
individuale şi abaterea medie tip ( )
σ
În cazul distribuŃiei normale se demonstrează în mod teoretic, că între distribuŃia dintre
diferitele ordonate şi ordonata maximă există o anumită proporŃionalitate şi aceste relaŃii se
găsesc calculate şi tabelate. Ele corespund diferitelor probabilităŃi de apariŃie a diferitelor valori
în raport cu media şi abaterea lor medie pătratică. Aceasta înseamnă că diferitele valori şi
20
CONF. UNIV. DR. EMILIA GOGU STATISTICA
probabilitatea lor de apariŃie se pot măsura în unit ăŃi de abateri tip şi că, deci, pot fi calculate ş i
interpretate în sens probabilistic fără să fie necesară cunoaşterea distribuŃiei empirice, cu condiŃia
ca variabila să urmeze legea de distribuŃie normală a erorilor.
Într-o distribuŃie normală, cu probabilităŃi de apariŃie perfect simetrice într-un sens şi altul
se poate observa pe grafic că punctele de curbură ale curbei se găsesc în dreptul ordonatelor
corespunzătoare unităŃilor de măsură ale abaterii medii pătratice şi mărimea medie.
21
CONF. UNIV. DR. EMILIA GOGU STATISTICA
C= ∑g 2
i unde i = 1, n
22
CONF. UNIV. DR. EMILIA GOGU STATISTICA
1
Coeficientul Gini ia valori în intervalul ,1 . Atunci când cele n unităŃi au ponderi
n
1
egale în colectivitate, adică repartiŃia studiată este absolut uniformă, rezultă C = , iar dacă
n
variabila cercetată se concentrează într-o singură unitate, C=1.
Pentru a înlătura dezavantajul legat de faptul că limita inferioară a intervalului de variaŃie
a indicatorului este variabilă depenzând de numărul termenilor seriei se foloseşte un alt indicator
propus de R. Struck:
n∑ g i2 − 1
C=
n −1
Interpretarea valorii acestui coeficient se face în intervalul (0;1). Cu cât coeficientul este
mai aproape de limita inferioară, el exprimă o mai uniformă repartizare a elementelor
colectivităŃi pe tipurile calitative observate.
O apropiere de limita superioară sugerează o concentrare pe un anumit tip sau pe câteva
tipuri calitative.
23
CONF. UNIV. DR. EMILIA GOGU STATISTICA
24
CONF. UNIV. DR. EMILIA GOGU STATISTICA
dintre două fenomene legate printr-o relaŃie de cauzalitate directă, cât şi interacŃiunea dintre
factori.
Studiul statistic al interdependenŃei dintre fenomene necesită identificarea legăturilor
studiate de la cauză la efect, precum şi legăturile realizate prin intermediul unui şir de cauzalităŃi.
în acest sens, este necesar ca relaŃiile de cauzalitate din interiorul fenomenelor complexe să fie
studiate şi prezentate tot sub o formă de tendinŃă valabilă la nivelul întregului ansamblu şi nu la
nivelul unor valori individuale izolate. Aceasta conduce în mod obligatoriu la folosirea unor
metode statistice m care să se Ńină seama de formele de distribuŃie de frecvenŃă ale fenomenelor
pentru care se studiază interdependenŃele dintre ele şi care nu pot fi interpretate decât pe baza
indicatorilor medii şi a celor de variaŃie.
Înainte de aplicarea modelelor statistice de analiza interdependenŃa, este necesar să facem
distincŃia între corelaŃie şi covariaŃie.
CovariaŃia presupune existenŃa unor forme de repartiŃie în timp, spaŃiu sau organizare,
pentru 2 sau mai multe variabile, dar care sunt independente între ele.
CorelaŃia se poate defini ca interdependenŃa existentă între diferitele fenomene sau
caracteristici exprimate prin numere (cantitativ) sau prin cuvinte (calitativ) manifestată în cadrul
fenomenelor social-economice de masă. CorelaŃia presupune găsirea funcŃiei analitice cu care să
descriem statistic legătura dintre variabilele studiate. Trebuie precizat că metoda corelaŃiei nu
poate da rezultate bune decât dacă se lucrează cu un număr suficient de mare de cazuri
individuale în care distribuŃia abaterilor este aproximativ normală.
25
CONF. UNIV. DR. EMILIA GOGU STATISTICA
şi variabil, iar ceilalŃi factori ar avea acŃiune comună cu caracter constant, chiar dacă în realitate,
ei au o influenŃă hotărâtoare şi variabilă asupra productivităŃii muncii.
Trebuie remarcat că legăturile de tip statistic pot fi reciproce, adică efectul se transformă,
la rândul lui, în cauză imediată sau mediată prin intermediul unor relaŃii de cauzalitate în lanŃ.
Pentru a studia legăturile de tip statistic este necesar să se identifice şi să se ierarhizeze
factorii esenŃiali, precum şi formele sub care se manifestă relaŃiile de cauzalitate. Acest lucru este
posibil numai dacă se înregistrează toate unităŃile care formează colectivitatea de fenomene ce
depinde de aceleaşi cauze esenŃiale.
Când analiza relaŃiilor de cauzalitate se studiază pe baza unor observări parŃiale este
necesar să se verifice, în prealabil, gradul de reprezentativitate al colectivităŃii de selecŃie şi să se
verifice apoi gradul de semnificaŃie al indicatorilor de corelaŃie care s-au calculat, prin aplicarea
unor teste de semnificaŃie. Şi aici, interpretarea relaŃiilor de cauzalitate, folosind datele de
selecŃie, se face în sens probabilist.
Varietatea formelor de manifestare a legăturilor statistice necesită m continuare o
clasificare a lor după mai multe criterii. Un prim criteriu este acela al numărului factorilor
înregistraŃi.
După numărul caracteristicilor-factori luate în studiu, legăturile statistice pot fi:
legături simple şi legături multiple.
Legăturile simple sunt acelea în care caracteristica rezultativă se studiază numai în funcŃie
de o singură caracteristică factorială considerată principală şi variabilă, iar celelalte caracteristici
factoriale, chiar dacă au fost identificate şi înregistrate, se consideră cu acŃiune constantă în toate
cazurile individuale înregistrate.
Legăturile multiple presupun să se studieze dependenŃa unei caracteristici rezultative în
funcŃie de mai mulŃi factori înregistraŃi. Interpretarea statistică a legăturilor multiple implică ş i
analiza legăturilor simple dintre toate caracteristicile înregistrate pentru calculul corelaŃiei
multiple.
După conŃinutul caracteristicilor incluse în analiza de corelaŃie, legăturile pot fi: de
asociaŃie şi de corelaŃie.
AsociaŃia statistică exprimă relaŃia de interdependenŃă dintre două sau mai multe
caracteristici exprimate calitativ sau între o caracteristică numerică şi una calitativă. De exemplu,
între aptitudini şi profesia aleasă există o legătură de tip stocastic sau între gradul de îndemânare
şi productivitatea muncii.
La folosirea caracteristicilor calitative este necesar să se găsească o posibilitate de
cuantificare, pentru a putea trece apoi la calculul indicatorilor
de corelaŃie.
CorelaŃia statistică exprimă relaŃia de interdependenŃă dintre două sau mai multe
caracteristici exprimate numeric şi se poate măsura prin indicatori statistici de corelaŃie. De
exemplu, între nivelul de productivitate a muncii, vechimea în producŃie şi nivelul salariilor
există legături de corelaŃie, care pot fi analizate atât ca legături simple, cât şi ca o legătură
multiplă.
După direcŃia în care se produc, legăturile pot fi: directe şi inverse.
Legăturile directe sau în acelaşi sens se produc atunci când, pe măsură ce se modifică
nivelul de dezvoltare a caracteristicii factoriale, se modifică în acelaşi sens şi nivelul
caracteristicii rezultative. În exemplul precedent, atât productivitatea muncii, cât şi vechimea în
producŃie influenŃează m acelaşi sens variaŃia salariaŃilor.
Legăturile inverse sunt acelea în care, pe măsură ce se modifice nivelul de dezvoltare a
caracteristicii factoriale, se modifică m sens contrai nivelul caracteristicii rezultative. De
exemplu, între nivelul productivităŃi muncii şi nivelul costului unitar există o legătură statistică
inversă.
După forma legăturii, ele pot fi: rectiliniare, exprimate prin ecuaŃia funcŃiei liniei drepte
şi curbiliniare, exprimate prin ecuaŃia unei funcŃii exponenŃiale, parabolice, hiperbolice etc.
26
CONF. UNIV. DR. EMILIA GOGU STATISTICA
27
CONF. UNIV. DR. EMILIA GOGU STATISTICA
łinând seama de aceste două aspecte, la cercetarea legăturilor dintre fenomene se pot
folosi atât metode simple de interpretare a legăturii, cât şi metode analitice, bazate pe
interpretarea formei de dependenŃă.
în principal, metodele de analiză a corelaŃiei dintre fenomenele de masă se pot clasifica în
două grupe:
• metode şi procedee cu ajutorul cărora se pot constata existenŃa sau lipsa corelaŃiei; verifica
direcŃia în care se realizează şi permit o apreciere vizuală a tendinŃei de manifestare a
intensităŃii legăturii dintre fenomenele supuse corelaŃiei. Pentru aceasta, cel mai frecvent se
pot folosi: metoda seriilor statistice interdependente;
metoda grupărilor; metoda grafică; tabelul de corelaŃie; tabelul de asociere; metoda balanŃelor;
analiza dispersională;
• metode şi procedee analitice de calcul şi interpretare statistică prin care se măsoară existenŃa şi
direcŃia legăturii, precum şi forma şi gradul de intensitate în care se realizează. Aceste metode
şi procedee permit, deci, exprimarea raporturilor de interdependenŃă dintre fenomene, printr-
un sistem de indicatori de corelaŃie, printre care cei mai folosiŃi sunt ecuaŃiile de regresie,
coeficienŃii de corelaŃie simplă, parŃială şi multiplă, coeficienŃii de corelaŃie a rangurilor,
coeficienŃii de asociere.
Pentru interpretarea legăturilor dintre fenomene se pot folosi metode de sistematizare şi
verificare a legăturilor:
A. Metode parametrice simple şi analitice,
B. Metode neparametrice
A. METODE PARAMETRICE SIMPLE
Metodele de sistematizare şi verificare a corelaŃiei sunt:
a) seriile interdependente,
b) metoda tabelului de corelaŃie
c) metoda grupării,
d) metoda grafică,
e) metoda balanŃelor
28
CONF. UNIV. DR. EMILIA GOGU STATISTICA
29
CONF. UNIV. DR. EMILIA GOGU STATISTICA
Una din sarcinile statisticii este aceea de a studia fenomenele şi procesele social-
economice de masă de-a lungul diferitelor perioade de timp sub aspectul evoluŃiei
volumului acestora şi al schimbărilor intervenite în structura lor, a interdependenŃelor
dintre fenomene de natură diferită etc.
În analiza dezvoltării fenomenelor în timp, statistica foloseşte ca instrument
principal de cercetare indicatorii obŃinuŃi din prelucrarea statistică a seriilor cronologice.
Calculul acestor indicatori este precedat de elucidarea noŃiunii de "serie cronologică" şi
precizarea particularităŃilor acesteia.
Seria cronologică este formată din două şiruri de date paralele, în care primul îşi
arată variaŃia caracteristicii de timp, iar cel de-al doilea şir variaŃia fenomenului sau
caracteristicii cercetate, de la o unitate de timp la alta. Seriile cronologice se mai numesc
şi serii de timp sau serii ale dinamicii.
La analiza seriilor cronologice trebuie avut în vedere unele proprietăŃi ale acestora
şi anume:
- variabilitatea,
- omogenitatea,
- periodicitatea,
- interdependenŃa termenilor prezentaŃi.
Variabilitatea termenilor unei serii cronologice provine din faptul că fiecare
termen se obŃine prin centralizarea unor date individuale diferite ca nivel de dezvoltare.
Aceste diferenŃieri apar pe de o parte ca urmare a acŃiunii factorilor întâmplători şi pe de
altă parte ca urmare a faptului că în dinamică legile sociale şi economice se manifestă ca
tendinŃă imprimând fenomenelor forme diferite de variaŃie. Cu cât acŃiunea comună a
acestor factori este mai puternică cu atât variaŃia în cadrul seriei este mai mare şi
tendinŃele de scurtă şi lungă durată mai greu de sesizat.
Având în vedere această trăsătură, este necesar ca analizând o serie cronologică să
se măsoare atât gradul şi forma de influenŃă a factorilor esenŃiali, care imprimă
fenomenului o lege specifică de evoluŃie, cât şi gradul de abatere de la această tendinŃă
generală rezultată din influenŃa factorilor neesenŃiali, cu caracter întâmplător.
Omogenitatea termenilor trebuie înŃeleasă în sensul că în aceeaşi serie nu pot fi
înscrise decât fenomene de acelaşi gen, care sunt rezultatul acŃiunii aceloraşi cauze
esenŃiale. Asigurarea omogenităŃii observaŃiilor de-a lungul unei perioade de timp
presupune menŃinerea aceleiaşi metodologii de calcul şi evaluare a indicatorilor care
urmează să fie analizaŃi în dinamică a criteriilor de clasificare a colectivităŃii studiate şi
nomenclatoarelor şi lungimii intervalelor de grupare, menŃinerea unităŃii social-
economice sau administrativ teritoriale asupra căreia s-au făcut observaŃii, cât şi a unităŃii
de măsurare a timpului. Practic, înseamnă că de fiecare dată, când se analizează o serie
statistică trebuie să se verifice dacă datele provin din aceeaşi sursă, are acelaşi grad de
cuprindere a unităŃilor şi au fost folosite aceleaşi principii şi metode de prelucrare, cu alte
cuvinte este asigurată comparabilitatea datelor înscrise în aceeaşi serie.
O altă trăsătură caracteristică a seriilor cronologice o constituie periodicitatea
termenilor din care este formată seria, ceea ce înseamnă de fapt asigurarea continuităŃii
datelor din punct de vedere a variabilei de timp şi care poate da posibilitatea interpretării
30
CONF. UNIV. DR. EMILIA GOGU STATISTICA
31
CONF. UNIV. DR. EMILIA GOGU STATISTICA
32
CONF. UNIV. DR. EMILIA GOGU STATISTICA
∑y t
y= t =1
n
• pentru o serie de momente cu intervale egale între momente (media cronologică
simplă ):
y1 y
+ y 2 + y 3 + ... + y i +... + y n−1 + n
y cr = 2 2
n −1
• pentru o serie de momente cu intervale neegale între momente (media cronologică
ponderată):
d d +d d +d d
y1 1 + y2 1 2 +...yi i −1 i + ...+ yn n−1
ycr = 2 2 2
2
n−1
∑di i =1
∆=
∑ ∆ t / t −1 sau ∆ = yn − y1
n −1 n −1
Indicele mediu de dinamică ( I ) :
yn
I = n−1 ∏ I t / t −1 sau I = n −1
y1
Dacă dispunem de mai mulŃi indici medii ce caracterizează mai multe subperioade
succesive de timp, indicele mediu ce caracterizează întreaga perioadă se calculează astfel:
k
∑ ni
I = i =1
I 1n1 ⋅ I 2n2 ⋅ ... ⋅ I ini ⋅ ... I kn k
în care:
I - indicele mediu general de dinamică;
Ii - indicii medii parŃiali de dinamică;
ni - numărul indicilor cu bază în lanŃ ce intră în componenŃa fiecărui indice
mediu parŃial;
k - numărul subperioadelor, adică al indicilor medii parŃiali.
Ritmul mediu de dinamică
R = (I (%) ) − 100%
33
CONF. UNIV. DR. EMILIA GOGU STATISTICA
σ =
2 i
y
n
( )
Dispersia termenilor seriei de la valorile ajustate σ y / r sintetizează influenŃa
2
factorilor reziduali - factori neînregistraŃi - (în cazul seriilor cronologice toŃi factorii cu
excepŃia factorului timp) şi se calculează cu formula:
34
CONF. UNIV. DR. EMILIA GOGU STATISTICA
∑ (y )
2
− Yti
σ =
2 i
y/r
n
în care Yti reprezintă valoarea teoretică a variabilei y în funcŃie de timp.
Dispersia valorilor ajustate de la valoarea medie σ y / t sintetizează variaŃia
2
35
CONF. UNIV. DR. EMILIA GOGU STATISTICA
Yti = y 0 ⋅ I ti
unde,:
y0 reprezintă termenul luat ca bază de ajustare;
ti reprezintă variabila de timp în raport cu baza de ajustare folosită (poziŃie pe
care termenul respectiv o are faŃă de termenul ales ca bază).
b. Metode analitice de ajustare
Metodele analitice au la bază un model matematic, în care tendinŃa centrală a
evoluŃiei se exprimă ca o funcŃie de timp:
yi = f(ti) numită funcŃie de ajustare,
în care:
ti - reprezintă valorile variabilei independente (timpul);
yi - reprezintă valorile variabilei dependente (fenomenele) care sunt prezentate în
seria cronologică.
Alegerea tipului de funcŃie care se potriveşte cel mai bine pentru exprimarea
trendului se face pe baza următoarelor criterii aplicabile opŃional:
criteriul bazat pe reprezentarea grafică. Se construieşte cronograma şi se
apreciază forma tendinŃei de evoluŃie;
criteriul diferenŃelor. Se procedează la calculul diferenŃelor absolute cu
bază în lanŃ de ordinul unu, doi etc. până când obŃinem diferenŃele de ordin
i aproximativ constante, ajustarea făcându-se după polinomul de gradul i.
Dacă fenomenul cercetat s-a dezvoltat în progresie geometrică, adică indicii cu
bază în lanŃ sunt constanŃi (It/t-1 = constant), admitem că seria cronologică respectivă
prezintă o tendinŃă exponenŃială.
În urma alegerii funcŃiei de ajustare după criteriile prezentate se impune estimarea
parametrilor acestor funcŃii utilizând metoda celor mai mici pătrate. Această metodă are
ca funcŃie obiectiv minimizarea sumei pătratelor abaterilor valorilor reale de la cele
ajustate deci:
min ∑ ( y i − Yt ) ti= 1, 2, ... ,n timpul
2
i
Trend liniar
Yti = a + b ti
în care:
Yti - reprezintă valorile ajustate calculate în funcŃie de valorile caracteristicii
factoriale (ti);
a - reprezintă parametrul care are sens de mărime medie şi arată ce nivel ar fi
atins y dacă influenŃa tuturor factorilor cu excepŃia celui înregistrat, ar fi fost constantă pe
toată perioada;
b - reprezintă parametrul care sintetizează numai influenŃa caracteristicii
factoriale (t):
ti - reprezintă valorile caracteristicii factoriale care, în cazul seriilor cronologice,
este timpul.
Parametrii a şi b se determină prin rezolvarea sistemului de ecuaŃii normale
obŃinut prin metoda celor mai mici pătrate ( ∑ [ y i − (a + bt i )]2 = min ):
na + b ∑ t i = ∑ y i
a ∑ t i + b ∑ t i = ∑ t i y i
2
36
CONF. UNIV. DR. EMILIA GOGU STATISTICA
∑ ti2
VariaŃia de timp trebuie centrată şi pentru seriile impare se măsoară în unităŃi iar
pentru cele pare în jumătăŃi de interval între termenii seriei
Înlocuind valorile calculate ale celor doi parametri în ecuaŃia de regresie şi apoi
înlocuind succesiv valorile variabilei timp se obŃin valorile ajustate ale caracteristicii
rezultative.
Extrapolarea datelor unei serii statistice are la bază metodele şi procedeele folosite
la ajustare.
Pentru a face distincŃie între termenii ajustaŃi (Yti) şi cei extrapolaŃi - care sunt
consideraŃi tot termenii teoretici - se vor nota termenii extrapolaŃi cu Yt′i , iar variabila de
timp cu ti’.
Deci, formulele de calcul vor fi:
• pentru extrapolarea pe baza sporului mediu:
Yt′i = y 0 + t i' ∆
• pentru extrapolarea pe baza indicelui mediu de creştere:
Yti′ = y 0 ⋅ I ± ti
'
Aceste formule se aplică atunci când se folosesc valorile parametrilor (∆, I ) din
perioada expirată. În cazul când aceştia se modifică, formulele se modifică cu un
coeficient K, astfel:
Yt′ = y 0 + t i' ∆ ′
i
în care: ∆' = k ⋅ ∆
Yt′ = y 0 ⋅ I ′ ± t ′
în care: I′ = k I
Coeficientul k poate să fie mai mare sau mai mic decât 1.
Dacă k<1, atunci înseamnă că se reduce variaŃia medie absolută sau relativă, după
cum se aplică la primul sau la al doilea procedeu.
Dacă k>1, atunci înseamnă că valoarea parametrilor folosiŃi în extrapolare este
mai mare decât în perioada de analizat.
Pentru extrapolarea pe baza metodelor analitice de calcul se pune, în primul rând,
condiŃia ca datele să se determine astfel încât să nu modifice originea variaŃiei de timp
care este în mijlocul seriei cronologice şi pentru care Σti = 0. Deci, variaŃia de timp se
extinde în ambele sensuri, deşi interesează numai tendinŃa obŃinută prin extinderea seriei
pentru perioada următoare.
37