Cursuri Bazele Statisticii
Cursuri Bazele Statisticii
Cursuri Bazele Statisticii
4.1. Probabilități
a. Definiția clasică a probabilității (Bernoulli și Laplace) - Probabilitatea ca un eveniment
să se realizeze reprezintă raportul dintre numărul de evenimente elementare favorabile şi
numărul evenimentelor egal posibile.
m
p
n
m este numărul cazurilor favorabile şi
n este numărul cazurilor posibile
unde 0 ≤ m ≤ n, ceea ce implică 0 ≤ p ≤ 1.
Valoarea p=0 corespunde evenimentului imposibil, iar valoarea p=1 corespunde
evenimentului cert sau sigur.
NB: Aceasta probabilitate mai poarta denumirea de probabilitate a priori deoarece poate
fi calculata pe baza unui rationament logic cunoscandu-se valoarea ei inaintea producerii
experimentului si are caracter de lege!!!
x
Variabila aleatoare discretă este definită prin: X : i
pi
Variabilele aleatoare continue sunt definite cu ajutorul unei funcţii f(x), care se numeşte funcţie
densitate de probabilitate.
Funcţia densitate de probabilitate are următoarele proprietăţi:
() x R, f ( x) 0
f ( x) dx 1
() x R, 0 F ( x) 1
() a,b R, a b, F(a) F(b)
lim F ( x) 1
x
lim F ( x) 0
x
Pentru variabila discretă, funcţia de repartiţie este F ( x) p
{ xi x}
i
x
Pentru variabila continuă, F ( x) f (t ) dt , () x R
xi f ( xi )
Media unei v.a. discrete X este: i
xf ( x )dx
Media unei v.a. continue X este:
2 V (X )
Varianţa unei v.a. discrete X:
2 ( xi )2 f ( xi )
i
2
Distribuţia normală este modelul de distribuţie cel mai des întâlnit în cazul v.a.
continue.
Distribuţia normală are rol fundamental în teoria selecţiei, analiza de regresie,
analiza variaţiei şi covariaţiei.
1
F( z ) ( z )
Funcţia de repartiţie este: 2
zi
1
P ( Z zi )
5. 2
1
6. P(Z>zi)=1-P(Z<zi)= ( zi )
2
Pe baza funcţiei lui Laplace, se poate determina, de exemplu, probabilitatea ca variabila
aleatoare normală standard să ia valori într-un interval simetric de tipul (- zi; zi). Această
probabilitate este:
d) Distribuţia Student
- O variabilă aleatoare repartizată după o lege Student, simbolizată t(υ), unde υ reprezintă
numărul de grade de libertate, parametrul acestei distribuţii.
Exemplu: Pentru o variabilă aleatoare care urmează o lege de repartiţie Student cu v = 17
grade de libertate (X ~ t (17)), să se citească valoarea teoretică t0.05,17 și t0.025,17.
e) Distribuţia Snedecor-Fisher
O variabilă aleatoare repartizată după o lege Snedecor-Fisher, simbolizată , unde υ1 şi
υ2 reprezintă grade de libertate, parametrii repartiţiei Snedecor-Fisher.
Exemplu: Pentru o variabilă X ~ F(30, 5), se cere citească valoarea teoretică F0.05,30,5 ,
F0.01,30,5.
Exercitii:
1. Se arunca un zar de 55 ori obtinandu-se pentru cifra 1=> 7 aparitii, pentru cifra 2 =>18
aparitii, pentru cifra 3 => 9 aparitii, pentru cifra 4 => 4 aparitii, pentru cifra 5 =>12
aparitii, pentru cifra 6 =>5 aparitii.
X N 6,16
2. O variabilă aleatoare . Precizați valoarea mediei, varianței și abaterii
standarad a variabilei aleatoare X.
3. Pentru un esantion de 111 de studenti s-a inregistrat punctajul obtinut la un test astfel:
punctaj 3 4 5 6 7 8 9 10
nr.studenti 9 11 22 15 19 15 13 7
a. P(X>19)
b. P (X< 12)
c. P(11<X<14)
7. O variabilă aleatoare Z N 0,1 . Determinați valoarea lui a dacă P a Z a 0,95 .
8. Știind ca punctajele obținute la un test de catre o serie de studenti X ~ N(55, 36), să se
precizeze cum sunt distribuite punctajele în rândul studenților.
9. Într-o clasă s-au obț inut următoarele note:
5 de către 8 elevi
7 de către 3 elevi
8 de către ? elevi
10 de către 4 elevi.
Care este probabilitatea ca un student să ia nota 8? Calculaț i media și dispersia
pentru variabila considerată.
10. Pentru exerciț iul anterior calculaț i : Z~(0,1)- distribuț ia normal standardizată
11. Pentru o variabilă X N , 2 , să se afle P( X ) .
X N 4 , 25
12. O variabilă . Se cere să se calculeze și să se interpreteze:
a. P(4<X<10)
b. P(1<X<4)
c. P(X>4)
d. P(X<4)
e. P(X>7)
f. P(X<2)
g. P(7<X<11)
h. P(0<X<2)
i. P(1<X<6)
j. P(X>1)
k. P(X<13)
Exercitii:
1. Se arunca un zar de 55 ori obtinandu-se pentru cifra 1=> 7 aparitii, pentru cifra 2 =>18
aparitii, pentru cifra 3 => 9 aparitii, pentru cifra 4 => 4 aparitii, pentru cifra 5 =>12 aparitii,
pentru cifra 6 =>5 aparitii.
xi
X :
pi 1 2 3 4 5 6
X: (0.12 0.32 0.16 0.07 0.21 0.09
)
Rezolvare:
Media 6
Varianța 2 16
Abaterea standard 4
3. Pentru un esantion de 111 de studenti s-a inregistrat punctajul obtinut la un test astfel:
punctaj 3 4 5 6 7 8 9 10
nr.studenti 9 11 22 15 19 15 13 7
Se cere:
c. Determinati frecventa relativa de aparitie a notelor:
punctaj 3 4 5 6 7 8 9 10
Interpretare: Probabilitatea ca la aruncarea unui zar faț a să fie impară este de 50%
xi 69−65
zi => zi = = 1.33 Valoarea lui φ(1.33) se ia din tabelul Laplace
3
a. P(X>19)
xi 19−15
aplicam un procedeu de standardizare pentru a obtine Z => zi zi = =2
2
xi 12−15 −3
zi zi = = = −1,5
2 2 Folosind proprieteate 3 obtinem φ(-1.5)= - φ(1.5)
zi
1
P ( Z zi )
2
P (X < 12) = P (Z < +1.5) = 0.5 + φ(-1.5) = 0.5 + (- φ(1.5)) = 0.5 - φ(1.5) = 0.5 – 0.4332 = 0.0668
Exista 6,68 % (0.0668* 100) sanse sa se obtina o masuratoare mai mica de 12 mA.
Sau: cel mai probabil, 6,68 % dintre masuratori o sa inregistreze o valoare mai mica de 12 mA.
c. P(11<X<14)
xi
zi
11−15 −4
z1 = 2
= 2
= −2
14−15 −1
z2 = 2
= 2
= −0.5
P(11< X <14) = P ( z1< Z < z2) = P (-2 < Z < -0.5) = φ (z2) - φ (z1) = φ(-0.5) - φ(-2) = -φ(0.5) + φ(2)
= -0.1915 + 0.4772 = 0.2857
Exista 28,57 % (0.2857* 100) sanse sa se obtina o masuratoare curpinsa intre 11 si 14 mA.
Sau: cel mai probabil, 28,57 % dintre masuratori o sa inregistreze o valoare curpinsa intre 11 si 14
mA.
Rezolvare
P a Z a 0,95
a a a a 2 a
2 a
=0,95
a 0, 475 a 1, 96
5 de către 8 elevi
7 de către 3 elevi
8 de către ? elevi
10 de către 4 elevi.
Funcț ie de probabilitate- suma tuturor probabilităț ilor este 1 Eveniment imposibil și
are probabilitatea de apariț ie 0.
Evenimentul cert și este evenimentul ca eu alegând un elev din cei 20, el să aibă una
din cele 4 note posibile.
10. Pentru exerciț iul anterior calculaț i : Z~(0,1)- distribuț ia normal standardizată
X N 4 , 25
12. O variabilă . Se cere să se calculeze și să se interpreteze:
l. P(4<X<10)
m. P(1<X<4)
n. P(X>4)
o. P(X<4)
p. P(X>7)
q. P(X<2)
r. P(7<X<11)
s. P(0<X<2)
t. P(1<X<6)
u. P(X>1)
v. P(X<13)
Rezolvare:
Pentru că valorile funcției normale standard sunt tabelate vom transforma probabilitățile
cerute din X în Z după relația:
xi
zi
X
N , 2 Z N 0,1
a) P(4<X<10)
44
x1 4 z1 0
5
10 4 6
x2 10 z2 1, 2
5 5
P(4<X<10)=P(0<Z<1,2)= 1, 2 =0,3849
b) P(1<X<4)
1 4 3
x1 1 z1 0, 6
5 5
44
x2 4 z2 0
5
P(1<X<4)= P(-0,6<Z<0)= 0 0, 6 0 0 , 6 =0+0,2257=0,2257
c) P(X>4)
44
x1 4 z1 0
5
1
P(X>4)=P(Z>0)= (0) =0,5
2
d) P(X<4)
44
x1 4 z1 0
5
1
P(X<4)=P(Z<0)= (0) =0,5
2
e) P(X>7)
74 3
x1 7 z1 0, 6
5 5
1
P(X>7)=P(Z>0,6)= (0, 6) 0, 5 0, 2257 0, 2743
2
f) P(X<2)
2 4 2
x1 2 z1 0, 4
5 5
1 1
P(X<2)=P(Z<-0,4)= (0, 4) (0, 4) =0,5-0,1554=0,3446
2 2
g) P(7<X<11)
74 3
x1 7 z1 0, 6
5 5
11 4 7
x2 11 z2 1, 4
5 5
P(7<X<11)=P(0,6<Z<1,4)= 1, 4 0 , 6 0 , 4192 0 , 2257 =0,1935
h) P(0<X<2)
0 4 4
x1 0 z1 0, 8
5 5
2 4 2
x2 2 z2 0, 4
5 5
P(0<X<2)=P(-0,8<Z<-0,4)= 0, 4 0 , 8 0 , 8 0 , 4
0, 2881 0,1554 0,1327
i) P(1<X<6)
1 4 3
x1 1 z1 0, 6
5 5
64
x2 6 z2 0,10
5
P(1<X<6)=P(-0,6<Z<0,10)= 0,1 0, 6 0,1 0, 6 0, 0398 0, 2257
=0,2655
j) P(X>1)
1 4 3
x1 1 z1 0, 6
5 5
0, 6 0, 5 0, 6 0, 5 0, 2257 0, 7257
1
P(X>1)=P(Z>-0,6)=
2
k) P(X<13)
13 4 9
x1 13 z1 1, 8
5 5
0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359
0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753
0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141
0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517
0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879
0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224
0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549
0.7 0.2580 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852
0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133
0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389
1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621
1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830
1.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015
1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177
1.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319
1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441
1.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545
1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633
1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706
1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767
2.0 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817
2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857
2.2 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890
2.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916
2.4 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936
2.5 0.4938 0.4940 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952
2.6 0.4953 0.4955 0.4956 0.4957 0.4959 0.4960 0.4961 0.4962 0.4963 0.4964
2.7 0.4965 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4972 0.4973 0.4974
2.8 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.4980 0.4981
2.9 0.4981 0.4982 0.4982 0.4983 0.4984 0.4984 0.4985 0.4985 0.4986 0.4986
3.0 0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.4990 0.4990
Repartiţia Student
dL dU dL dU dL dU dL dU dL dU
Repartiţia Fisher
df2/df1 1 2 3 4 5 6 7
Df2/df1 1 2 3 4 5 6 7
Problema 1
Media 6
Varianța 2 16
Abaterea standard 4
Problema 2.
Precizați caracteristicile distribuției normale standard.
Rezolvare:
O distribuție normală standard este simetrică, mezocurtică și are media, varianța și modul egale
cu 0.
Problema 3
a) P(4<X<10)
b) P(1<X<4)
c) P(X>4)
d) P(X<4)
e) P(X>7)
f) P(X<2)
g) P(7<X<11)
h) P(0<X<2)
i) P(1<X<6)
j) P(X>1)
k) P(X<13)
215
Rezolvare:
Pentru că valorile funcției normale standard sunt tabelate vom transforma
probabilitățile cerute din X în Z după relația:
xi
zi
X
N , 2 Z N 0,1
a) P(4<X<10)
44
x1 4 z1 0
5
10 4 6
x2 10 z2 1, 2
5 5
b) P(1<X<4)
1 4 3
x1 1 z1 0, 6
5 5
44
x2 4 z2 0
5
c) P(X>4)
44
x1 4 z1 0
5
1
P(X>4)=P(Z>0)= (0) =0,5
2
d) P(X<4)
44
x1 4 z1 0
5
1
P(X<4)=P(Z<0)= (0) =0,5
2
e) P(X>7)
74 3
x1 7 z1 0, 6
5 5
216
1
P(X>7)=P(Z>0,6)= (0, 6) 0, 5 0, 2257 0, 2743
2
f) P(X<2)
2 4 2
x1 2 z1 0, 4
5 5
1 1
P(X<2)=P(Z<-0,4)= (0, 4) (0, 4) =0,5-0,1554=0,3446
2 2
g) P(7<X<11)
74 3
x1 7 z1 0, 6
5 5
11 4 7
x2 11 z2 1, 4
5 5
h) P(0<X<2)
0 4 4
x1 0 z1 0, 8
5 5
2 4 2
x2 2 z2 0, 4
5 5
i) P(1<X<6)
1 4 3
x1 1 z1 0, 6
5 5
64
x2 6 z2 0,10
5
j) P(X>1)
1 4 3
x1 1 z1 0, 6
5 5
217
k) P(X<13)
13 4 9
x1 13 z1 1, 8
5 5
Problema 4
Pentru o variabilă X
N , 2 , să se afle P( X ) .
Rezolvare
x1 z1
1
x2 z2
1
Problema 5
Rezolvare
P a Z a 0,95
a a a a 2 a
2 a =0,95
a 0, 475 a 1, 96
Problema 6
Pentru o populație se înregistrează punctajul obținut la un test (X) și se observă că
variabila X N 79 , 9 . Să se afle:
218
d) proporția persoanelor care au obținut un punctaj cuprins între 72 și 84 puncte.
219
Estimarea parametrilor unei populații
Parametri
Parametrii modelului econometric, numiţi şi coeficienţi de regresie, sunt mărimi reale, fixe
dar necunoscute care apar în model în diferite expresii alături de variabile (θ).
Estimaţii
Estimaţiile sunt valori posibile ale estimatorilor calculate la nivelul unui eşantion sau set de
date observate din realitate.
Estimatori
Variabile aleatoare determinate din totalul esantioanelor de volum n, extrase din populatia de
referinta N.
220
Parametru estimator estimație => Un parametru este estimat prin
intermediul unui estimator, cu ajutorul unei estimații.
M (ˆ)
- convergenţa – un estimator este convergent dacă varianţa sa tinde spre 0 atunci când
volumul eşantionului tinde spre volumul populaţiei
V (ˆ) 0, când n N
- eficienţa – estimatorul este eficient dacă are varianţa cea mai mică dintre toţi estimatorii
posibili pentru parametrul
V (ˆ) min im
a) Media de selecție : 2
ˆ ~ N ( , )
n
Nedeplasarea;
Convergența;
Eficiența.
1
b) Dispersia de selecție: S’2 = 𝑛−1 ∑(𝑥𝑖− 𝑥̅ )2
221
c) Proporția de selecție: (1 )
ˆ ~ N ( , )
n
Proprietățile distribuției de selecție:
Nedeplasarea;
Convergența;
Eficiența.
Aplicație
Considerăm 5 firme, care desfășoară un anumit tip de activitate de comerț, distribuite după
cifra de afaceri zilnică, exprimată în zeci de milioane: 2, 5, 4, 5, 7.
a) Să se afle câte eșantioane de volum n = 2 pot fi extrase din populația N = 5 firme
(folosind selecția aleatoare repetată)
b) Să se formeze eșantioanele și să se calculeze media lor.
c) să se formeze distribuț ia mediei de selecț ie.
d) să se calculeze media si varianta distribuț iei formate
e) să se precizeze daca media de selecț ie este un estimator nedeplasat si
urmeaza o lege normala
2
ˆ ~ N ( , )
n
222
Estimarea parametrilor unei populații
Parametri
Parametrii modelului econometric, numiţi şi coeficienţi de regresie, sunt mărimi reale, fixe dar
necunoscute care apar în model în diferite expresii alături de variabile (θ).
Estimaţii
Estimaţiile sunt valori posibile ale estimatorilor calculate la nivelul unui eşantion sau set de
date observate din realitate.
Estimatori
Variabile aleatoare determinate din totalul esantioanelor de volum n, extrase din populatia de
referinta N.
223
Parametru estimator estimație => Un parametru este estimat prin
intermediul unui estimator, cu ajutorul unei estimații.
M (ˆ)
- convergenţa – un estimator este convergent dacă varianţa sa tinde spre 0 atunci când volumul
eşantionului tinde spre volumul populaţiei
V (ˆ) 0, când n N
- eficienţa – estimatorul este eficient dacă are varianţa cea mai mică dintre toţi estimatorii posibili
pentru parametrul
V (ˆ) min im
224
3. Statistici uzuale în inferența statistică
d) Media de selecție : 2
ˆ ~ N ( , )
n
Nedeplasarea;
Convergența;
Eficiența.
1
e) Dispersia de selecție: S’2 = 𝑛−1 ∑(𝑥𝑖− 𝑥̅ )2
Aplicație
Considerăm 5 firme, care desfășoară un anumit tip de activitate de comerț, distribuite după cifra
de afaceri zilnică, exprimată în zeci de milioane: 2, 5, 4, 5, 7.
f) Să se afle câte eșantioane de volum n = 2 pot fi extrase din populația N = 5 firme
(folosind selecția aleatoare repetată)
g) Să se formeze eșantioanele și să se calculeze media lor.
h) să se formeze distribuț ia mediei de selecț ie.
i) să se calculeze media si varianta distribuț iei formate
j) să se precizeze daca media de selecț ie este un estimator nedeplasat si
urmeaza o lege normala
2
ˆ ~ N ( , )
n
Rezolvare:
a) În primul rând, extragem toate cele k eșantioane de volum n = 2 și calculam mediile cifrei
de afaceri pentru toate eșantioanele.
Numarul total de esantioane de extras:
225
k=Nn=52= 25 eșantioane
b) Formarea eșantioanelor si media lor
Eșantionul Media eșantionului Eșantionul Media eșantionului
25 3,5 47 5,5
24 3 44 4
25 3,5 52 3,5
27 4,5 54 4,5
22 2 55 5
52 3,5 57 6
54 4,5 55 5
55 5 72 4,5
57 6 75 6
55 5 74 5,5
42 3 75 6
45 4,5 77 7
45 4,5
227
Estimarea punctuală și prin interval de încredere
Problema 1. Pentru o populație formată din 5 firme determinați câte eșantioane se pot extrage
aleator repetat și nerepetat de volum egal cu 3.
Rezolvare:
N=5
n=3
- Extragere aleatoare nerepetată
N! 5! 5! 1 2 3 4 5
K CNn
( N n)! n ! 5 3 ! 3! 2 ! 3! 1 2 1 2 3
3 4 5
K 10 eșantioane
23
Interpretare: Din populația de 5 firme se pot extrage aleator nerepetat 10 eșantioane de volum
n=3.
- Extragere aleatoare repetată
K=Nn
K=53=125 eșantioane
Interpretare: Din populația de 5 firme se pot extrage aleator repetat 10 eșantioane de volum
n=3.
N! 4! 4! 1 2 3 4
K CNn
( N n)! n ! 4 2 ! 2 ! 2 ! 2 ! 1 2 1 2
3 4
K 6 eșantioane
1 2
228
b)
Eșantioane Eșantion 1 Eșanti Eșanti Eșanti Eșanti Eșanti
on 2 on 3 on 4 on 5 on 6
xi 2 2 2 4 4 6
4 6 8 6 8 8
xj
x x i i
3 4 5 5 6 7
n 2
x x 2 3 4 3
2 2 2
s 2
i 2
s 2
j
n 1 1
2 1
xj ni
3 1
4 1
5 2
6 1
7 1
TOTAL 6
(eșantioane)
Se cere:
1. Să se estimeze punctual media, abaterea standard și varianța vitezei de lucru a tuturor
studenților.
2. Să se estimeze prin interval de încredere media vitezei de lucru a studenților considerând
un risc de 5%.
Rezolvare:
10, 2x i
x 1,7 min
i 1
n 6
Interpretare: Viteza medie de lucru a tuturor studenților este de 1,7 minute.
b) Estimarea punctuală a varianței:
229
6
x x
2
i
s 2 i 1
0,30824
n 1
c) Estimarea punctuală a abaterii standard:
6
x x
2
i
s i 1
0 ,30824 0 ,555 min
n 1
Interpretare: Viteza de lucru a tuturor studenților se abate în medie de la nivelul mediu
cu 0,555 minute în ambele sensuri, pozitiv și negativ.
2. Estimarea prin interval de încredere a mediei
s
x t / 2;n1
n
t / 2;n1 t0 ,025;5 2,571
0,555
1,7 2,571
6
0,555
1,7 2,571 1,7 0,5826
2, 449
1,1174; 2,2826
Interpretare: Cu o probabilitate de 0,95 estimăm că viteza medie de lucru a studenților
este acoperită de intervalul 1,1174; 2, 2826 .
SAU
Ne asumăm un risc de 0,05 ca viteza medie de lucru a tuturor studenților să nu fie
acoperită de intervalul 1,1174; 2, 2826
Pentru un eșantion format din 100 persoane, extras aleator simplu și repetat, se constată
că numărul persoanelor cu o vârstă de până la 25 ani este de 8. Se cere să se estimeze punctual
și prin interval de încredere proporția acestei categorii de vârstă, la nivelul întregii populații din
care a fost extras eșantionul, considerând un risc de 0,10.
nA 8 persoane
n 100 persoane
0,10
?
Rezolvare:
1. Estimare punctuală a proporției persoanelor cu o vârstă de până la 25 ani
nA
p
n
8
p 0, 08
100
Interpretare: 8% din persoane au vârsta de până la 25 ani
230
2. Estimarea prin interval de încredere a proporției persoanelor cu o vârstă de până la 25 ani
p 1 p p 1 p
p t /2,n 1 ; p t /2, n 1
n n
t /2,n 1 t0,05;99 1, 645
0, 08 1 0, 08 0, 08 1 0, 08
0, 08 1, 645 ;0, 08 1, 645 sau
100 100
0, 08 1 0, 08
0, 08 1, 645
100
0, 0736
0, 08 1, 645
100
0,08 0,0446
0,0354;0,1246
Interpretare: Cu o probabilitate de 0,90 estimăm că proporția persoanelor din populație
cu vârsta de până la 25 ani aparține intervalului 0,0354;0,1246
SAU
Ne asumăm un risc de 0,10 ca proporția persoanelor din populație cu vârsta de până la
25 ani să nu aparțină intervalului 0,0354;0,1246 .
z2 / 2 2
n
2
2 z 0,95 z 0, 475 din tabel z 1,96
z /2 1,96
1,962 0, 25 3,8416 0, 25 0,9604
n 1067,11 1067
0,032 0,0009 0,0009
231
2. Eroare maxim admisibilă de 2%.
Problema 6.
Pentru un eșantion de 64 angajați ai unei firme s-a estimat salariul mediu ca fiind de 2,6
mii lei. Dintr-o cercetare anterioară se cunoaște că abaterea standard a salariului este de 1,2 mii
lei. Estimați prin interval de încredere salariul mediu al angajaților acestei firmei garantând
rezultatele cu o probabilitate de 0,975.
x 2, 6 mii lei
1,2 mii lei
2 z 0,975
?
Rezolvare:
2 z 0,975 z 0, 4875 z 2, 24
1, 2
x z / 2 2,6 2, 24 2,6 0,336 2,264; 2,936
n 64
Problema 7
Din cele 42 județe ale României selectați aleator un eșantion de 10 județe pentru care s-
a înregistrat rata divorțurilor. Valorile sunt prezentate în tabelul de mai jos:
232
Se cere:
1. Să se estimeze punctual pentru rata divorțurilor: media, abaterea standard și varianța.
2. Să se estimeze prin interval de încredere rata medie a divorțurilor în județele
României considerând un risc de 5%.
3. Să se estimeze punctual și prin interval de încredere ponderea județelor care au rata
divorțurilor mai mare de 1,37%, garantând rezultatele cu o probabilitate de 90%.
x
s
s 2
233
1. Estimarea parametrilor unei populații
a) Punctual: 𝑿 ̅ , S’, p
- punctuală: presuspune aflarea unei valori posibile a estimatorului;
Ex: Se cunosc următoarele rezultate privind vârsta înregistrată pentru un eșantion format din 10
persoane:
19, 20, 19, 22, 24, 26, 20, 28, 19, 20
Să se estimeze punctual proporția persoanelor care au o vârstă de până la 25 ani la nivelul
întregii populații din care a fost extras acest eșantion
𝑚
p= 𝑛
m=8
n = 10
8
p = 10 *100 = 80%
p= 8/10=0,8
b) Prin interval de încredere (IC)
Estimarea prin interval de încredere a mediei unei populații (𝝁):
Estimarea prin interval de î ncredere (IC): presupune calculul limitelor (Li – Lower Bound
și Ls – Upper Bound) î n care se găsește un parametru cu o anumită probabilitate.
2
ˆ ~ N ( , ) Z ~ N (0,1)
n
ˆ
z
/ n
P( ˆ z / 2 ˆ z / 2 ) (1 )
n n
1−𝛼
- 𝑧𝛼/2 este acel z pt care φ(z) =
2
234
Ex: La nivelul unui eșantion format din 100 de persoane se înregistrează salariul lunar obținut și
se obține ̅
X= 1500 lei, σ = 300 lei. Se cere să se estimeze prin IC salariul mediu al întregii
populații din care a fost extras eșantionul considerând un risc de 5%.
1−0.05
𝛼 = 0,05 => = 0.475 = > z=1.96
2
300 300
IC: [ 1500-1.96 * ; 1500+1.96 * ]
√100 √100
unde:
𝑠′
𝑡𝛼/2 ∗ este eroarea maximă admisibilă sau eroarea limită (Confidence Level);
√𝑛
𝑠′
este eroarea medie de selecț ie sau de reprezentativitate (Standard Error sau Standard
√𝑛
Error of Mean);
t
- valoarea / 2 se citeşte din tabelul Student pentru: P( t t / 2 ) / 2
Ex2: La nivelul unui eșantion de 25 de persoane extras aleator simplu s-au obținut următoarele
rezultate privind vârsta: ̅
X= 35 ani, S’ = 2 ani.
Să se estimeze prin interval de încredere vârsta medie a întregii populații din care a fost extras
eșantionul, considerând un risc de 5%.
235
s' s'
x t /2 , x t /2
n n
𝛼 = 0,05, 𝑡𝛼/2,𝑛−1 = t0,025, 24 = 2.064
2 2
IC: [ 35-2.064 * ; 35+2.064 * ]
√25 √25
ˆ z /2 ,
ˆ z /2
n n
- când nu se cunoaşte varianţa variabilei alternative:
p(1 p ) p (1 p )
p t /2
, pt /2
n
n
p(1 p ) p (1 p )
p t /2
, pt /2
n
n
√0.56(1−0.56) √0.56(1−0.56)
IC: [ 0.56 – 1.96 * ; 0.56 +1.96 * ]
√1500 √1500
IC: [0,54;0,58]
Sau
236
√56(100−56) √56(100−56)
IC: [ 56 – 1.96 * ; 0.56 +1.96 * ]
√1500 √1500
IC: [54;58]
Interpretare: Cu o probabilitate de 95% se poate garanta că proporția persoanelor care votează
pentru candidatul A la nivelul întregii populații este cuprinsă între 54% și 58%.
z / 2
Eroarea maxim admisibilă: n
z2 / 2 2
n
2
unde:
237
Exercitii:
a) o probabilitate de 95%.
b) o probabilitate de 99%.
3. În urma prelucrării datelor privind valoarea vânzărilor anuale (mil. lei) î nregistrate
pentru un eșantion de firme, s-au obț inut următoarele rezultate:
Să se calculeze și să se interpreteze IC pentru media populaț iei, considerând un risc de 5%.
4. În urma prelucrării datelor privind vârsta (ani) î nregistrate pentru un eșantion de
persoane, s- au obț inut următoarele rezultate:
238
Se cere:
a) să se precizeze valoarea erorii limită (erorii maxime admisibile).
5. În urma prelucrării datelor privind nota obț inută la un examen de către o serie de
studenț i, s- au obț inut următoarele rezultate:
Se cere
a) să se precizeze eroarea maxim admisibilă;
b) să se interpreteze IC pentru media populaț iei.
6. Pentru un eșantion format din 10000 persoane, se observă că 75% sunt de acord
cu mărirea pedepselor pentru anumite infracț iuni. Să se estimeze prin IC proporț ia
persoanelor care consideră că este necesară mărirea pedepselor pentru anumite
infracț iuni la nivelul populaț iei din care a fost extras eșantionul (α=0,10).
239
240
Disciplina ”Bazele statisticii”
Seminar 12
Testarea statistică
I. Testarea statistică
1. Ipoteze statistice:
- ipoteza nulă (H0)
- ipoteza alternativă (H1)
2. Tipuri de teste:
- test bilateral
H0: 𝜃 = 𝜃0
H1: 𝜃 ≠ 𝜃0
Se verifca egalitatea unui
prametru fata de o valoare
fixa.
H0: 𝜃 = 𝜃0
H1: 𝜃 > 𝜃0
Se verifca daca un prametru
este mai mare decat o
valoare fixa.
Observație: Valoarea teoretică se alege din tabel pentru un risc α
H0: 𝜃 = 𝜃0
H1: 𝜃 < 𝜃0
Se verifca daca un prametru
este mai mic decat o
valoare fixa.
241
3) Regula de decizie:
- O valoare calculată a statisticii test (luată în modul) mai mare decât valoarea teoretică duce
la respingerea ipotezei H0 cu o probabilitate α.
e) Regula de decizie:
242
- dacă |𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑡 | ≤ 𝑡𝛼;𝑛−1 , nu se respinge ipoteza H0 cu o
2
probabilitate de (1-α).
e) Regula de decizie:
- este similară cu regula definită la testarea mediei unei populații.
IV. Exemple
Test medie bilateral
1. Pentru un eșantion format din 25 persoane se înregistrează salariul lunar obținut și se obțin
următoarele rezultate: 𝑥̅=1500 (lei) și s’ = 200 (lei). Se cere să se testeze dacă există diferențe
243
semnificative între salariul mediu al întregii populații din care a fost extras eșantionul și
salariul mediu pe economie, de 1300(lei). Se consideră un risc de 0.01
2.La nivelul unui eșantion n=100 persoane se înregistrează salariul lunar și se obține: 𝑥̅=1400
(lei) și σ = 400 (lei). Se cere să se testeze dacă există diferențe semnificative între salariul
mediu al întregii populații din care a fost extras eșantionul și salariul mediu pe economie de
1450(lei). Se consideră un risc de 0.05.
244
Exercitii:
1) Pentru un eșantion format din 25 de persoane, se înregistrează salariul lunar obţinut şi se obţin
următoarele rezultate: 𝑥̅ = 15 sute lei și s’= 2 sute lei. Se cere să se testeze dacă există diferenţe
semnificative între salariul mediu al întregii populaţii din care a fost extras eşantionul (𝜇) şi
salariul mediu pe economie, de 13 sute lei. Se consideră un risc de 0,05.
2) Pentru un eșantion format din 100 de persoane, se obțin următoarele rezultate privind nota
obținută la un test: media este 7 și varianța corectată (modificată) este 4. Să se testeze dacă există
diferențe semnificative între nota medie obținută de ansamblul studenților din care a fost extras
eșantionul și nota medie obținută în anul anterior, de 8. Riscul asumat este de 0,10.
3) În urma prelucrării datelor privind valoarea vânzărilor anuale (mil. lei) înregistrate pentru un
eșantion de firme, s-au obținut următoarele rezultate:
Column1
Mean 12.15
Median 12
Mode 10
Standard Deviation 1.8994
Sample Variance 3.6079
Kurtosis -1.31
Skewness 0.4274
Count 20
Să se testeze dacă există diferențe semnificative între valoarea vânzărilor anuale pentru
ansamblul firmelor din care a fost extras eșantionul și vânzările medii înregistrate în anul
anterior, de 14 mil. lei, considerând un risc de 5%.
245
4) O firmă dorește să introducă un nou procedeu de fabricație. Pentru vechiul procedeu, se cunosc
durata medie de viață a produselor de 1200 ore și abaterea standard de 300 de ore. Pentru a testa
noul procedeu, se extrage un eșantion format din 100 de produse și se obține o durată medie de
viață de 1265 de ore. Pentru un risc de 0,05. Să se testeze dacă noul procedeu de fabricație este
mai bun.
5) La nivelul unui eşantion de volum n=25 de persoane, se observă că ponderea persoanelor care
votează pentru candidatul A este de 49%. Se cere să se testeze dacă există diferenţe semnificative
între proporţia persoanelor care votează pentru candidatul A la nivelul întregii populaţii şi
proporţia persoanelor care au votat pentru acest candidat la alegerile anterioare, de 51%. Se
consideră un risc de 5%.
246
Testarea ipotezelor privind doua esantioane (cazul esantioanelor independete)
În cazul eşantioanelor independente, statistica test folosită în testarea ipotezelor statistice este
statistica Z sau t.
Ipoteze statistice:
H0: μ1 -μ2 = 0 (Nu exista diferente intre mediile celor doua grupe)
Alegerea pragului de semnificaţie şi citirea din tabel a valorii critice a statisticii test
VT=VE+VR
247
TSS = ESS + RSS
VT sau TSS -> Varianta totala (Tabel SPSS: Total)
VE sau ESS -> Varianta intergrupe - variaţ ia variabilei X explicată de factorul de grupare
(Tabel SPSS: Between Groups)
VR sau RSS -> Varianta intragrupe- variaţ ia reziduală (Tabel SPSS: Within Groups)
Ipoteze:
H0 : μ1 =μ2 =...=μk
H1 : mediile a cel putin doua populatii sunt diferite
Se alege pragul de semnificaţie α şi se citeşte valoarea critică a testul F din tabelul repartiţiei Fisher,
pentru riscul α admis, şi υ1=k-1 și υ2=n-k grade de libertate
Regula de decizie:
sau
248
sig (p-value) < 𝛼 - se respinge ipoteza H0 cu o probabilitate de α
sig ≥ 𝛼 - nu se respinge ipoteza H0 cu o probabilitate de (1-α).
249
1. Producția internă de aluminiu în perioada 1992-2000 este prezentată în tabelul 1.1.
Producția de
aluminiu
Anul
( mii tone) (yt)
nivelul absolut
1992 120
1993 116
1994 122
1995 144
1996 145
1997 164
1998 175
1999 176
2000 178
total 1340
(Volumul absolut)
250
Indicatori ai seriilor de timp
- serie de timp este o serie care prezintă valorile înregistrate de un fenomen Y în diferite momente
de timp, t=1,n.
- Indicatorii care măsoară dinamica unui fenomen pot fi calculaţi:
C. Sporul absolut - Δt
- arata cu cat s-a modificat nivelul unei variabile la un moemnt curent(t), fata de un alt moment
anterior, numit moment de referinta.
251
Sporul absolut cu baza fixa: ∆t/0 = yt-y0:
∆2/0= -4 -> Productia de aluminiu in 1993 fata de 1992 a scazut cu 4 mii tone .
∆3/0= 2 -> Productia de aluminiu in 1994 fata de 1992 a crescut 2 mii tone.
252
Rata de Rata de crestere
crestere(sporului) (sporului)
Producția de Rata(indicele) Rata(indicele) de Baza fixa Baza mobila
aluminiu de variație variație
Anul t rt/0= 𝛥 t/0/y0(*100) rt/t-1= 𝛥 t/t-1/yt-1(*100)
( mii tone) (yt) Cu baza fixa Cu baza mobila
it/0=yt/y0 it/t-1=yt/yt-1 sau sau
nivelul absolut
it/0-1(*100) it/t-1-1(*100)
1992 120 1 1 1
1993 116 2 0,96 0,96 -4(0,96-1*100) -4(096-1*100)
1994 122 3 1,01 1,05 1(1.01-1*100) 5(1.05-1*100)
1995 144 4 1,20 1,18 20(1.2-1*100) 18(1.18-1*100)
1996 145 5 1,20 1,00 20(1.20-1*100) 0(1.00-1*100)
1997 164 6 1,36 1,13 36.(1.36-1*100) 13(1.13-1*100
1998 175 7 1,45 1,06 45(1.45-1*100) 6(1.06-1*100)
1999 176 8 1,46 1,00 46(1.46-1*100) 0(1.00-1*100)
2000 178 9 1,48 1,01 48(1.48-1*100) 1(1.01-1*100)
total 1340 - -
(Volumul
absolut)
Daca it >1, atunci fenomenul a inregistrat o crestere in momenul t fata de alt moment
Daca 0< it <1, atunci fenomenul a inregistrat o scadere in momenul t fata de alt moment
𝑦
Rata (indicele) de variatie cu baza fixa: 𝑖𝑡/0 = 𝑦𝑡 (𝑥100)
0
- Perioada de referinta = y0 = y1992=120
i2/0 = 0.96 - > Productia de aluminiu in 1993 fata de 1992 a scazut de 0.96 ori.
sau
i2/0 = 0.96*100 =96% - > Productia de aluminiu din 1993 reprezintă 96% din productia din anul
1992
i3/0 = 1.01 -> Productia de aluminiu a crescut in 1994 de 1.01 ori fata de productia din 1993.
sau
i3/0 = 1.01*100 = 101% -> Productia de aluminiu din 1994 reprezinta 101% din productia din anul
1993.
253
𝑦𝑡
Rata (indicele) de variație cu baza in lant: 𝑖𝑡/𝑡−1 = 𝑦 (𝑥100)
𝑡−1
i3/2 = 1.05-> Productia de alumiu in 1994 fata de 1993 a crescut de 1.05 ori.
sau
i3/2 = 1.05*100 = 105% -> Productia de alumiu din 1994 reprezinta 105% din productia din anul
1993
I4/3 = 1.18 - > Productia de aluminiu a crescut in 1995 de 1.18 ori fata de productia din anul 1994.
sau
I4/3 = 1.18*100 = 118% - > Productia de aluminiu din 1995 reprezinta 118% din productia din anul
1994.
B. Rata sporului (de crestere) - rt: exprimă cu cât s-a modificat, în mărime relativă
nivelul fenomenului Y în momentul curent, t, faţă de un alt moment (de referinţă).
Daca rt >0, atunci fenomenul a inregistrat o crestere in momenul t fata de alt moment
Daca rt <0, atunci fenomenul a inregistrat o scadere in momenul t fata de alt moment
Rata sporului (de crestere) cu baza fixa:
𝛥𝑡/0 𝑦𝑡 −𝑦0
𝑟𝑡/0 = (𝑥100) = (𝑥100) = 𝑖𝑡/0 − 1 (𝑥100)
𝑦0 𝑦0
INDICATORI MEDII:
∑ 𝒚𝒕
A. Nivelul mediu - 𝒚̄ = :
𝒏
254
1340
𝑦̄ = = 148.88 -> Pe perioada analizata, productia medie anuala de aluminiu a fost de 148.88
9
mii tone.
𝜟 𝒚𝒏−𝒚𝟏
B. Sporul mediu - 𝜟̄ = 𝒏−𝟏
𝒏/𝟏
= 𝒏−𝟏
:
Δn/0 yn −y1 178−120 58
Δ̄ = n−1 = n−1 = 9−1 = 8 = 7.25 mii tone -> In medie, cresterea anuala in perioada 1992-
2000 a fost de 7,25 mii tone.
∑Δ 58
Δ̄ = t/t−1 = = 7.25 mii tone -> In medie, in perioada 1992-2000, productia de aluminiu a
n−1 8
crescut cu 7.25 mii tone anual.
𝑛−1 𝑦𝑛
C. Rata medie de variatie: 𝑖̄ = √𝑦 (y0 este tot una cu y1)
0
In concluzie:
Cum ne dam seama ce indicator trebuie calculat?
Cand se compara o perioada cu alta perioada:
Daca vrem sa aflam cu cate unitati a crescut sau a scazut y, atunci se
calculeaza sporul absolut
Daca vrem sa aflam de cate ori a crescut/scazut y, se calculeaza rata de
variatie
Daca vrem sa aflam cu cat % a crescut / scazut y, se calculeaza rata sporului
255
Ex1. Consumul anual de lapte (l) din România a cunoscut în perioada 1992-1998
următoarea evoluție:
1288.2
Nivelul mediu: 𝑦̄ = =184.02
7
Sporul mediu:
yn −y1 194.4−163.7 30.7
Δ̄ = n−1 = = 6 = 5.11
7−1
∑ Δt/t−1 30.7
Δ̄ = n−1 = 6 = 5.11
256
TIPURI DE ÎNTREBĂRI GRILĂ
1) La un examen, punctajele obţinute de studenţi sunt distribuite normal cu media 500 şi abaterea
standard 100. Un student a obţinut punctajul X = 650. Ce procent din studenţi au obţinut un
punctaj mai mare decât el?
a) 4,3%
b) 1,5%
c) 6,7%
a) 0,289
b) 0,532
c) 0,341
3) Într-un sondaj aleator simplu de 400 studenţi, pentru variabila nota la un test, s-a obţinut o
valoare medie de 8,25 şi o abatere standard de eşantion modificată egală cu 1,8. Intervalul de
încredere pentru parametrul medie, cu o probabilitate de 0,95, este
a) (7,5260 - 9,3424)
b) (8,1280 - 9,2020)
c) (8,0736 - 8,4264)
4) În urma prelucrării datelor privind venitul lunar (sute euro) realizat pentru un eşantion de
persoane, s-au obţinut următoarele rezultate:
Column1
Mean 10
257
Median 9
Mode 9
Kurtosis 1.36942
Skewness 1.082532
Minimum 7
Maximum 15
Sum 100
Count 10
b) există diferenţe semnificative între venitul mediu al populaţiei şi venitul mediu al ţărilor din UE,
de 15 sute euro;
d) ipoteza H0 este 1 2 3
6). Nivelul vânzărilor unei firme a înregistrat în perioada 2010 - 2013 următoarea evoluţie:
258
Volumul vânzărilor ( mld. lei ) 2 8 10 12
7). Nivelul cifrei de afaceri (mld.lei) a unei firme pe trimestre a înregistrat în perioada 2010-2011
următoarea evoluţie:
2010 2011
Trim. I 1 3
Trim. II 3 5
Trim. III 2 4
Trim. IV 4 7
b) cifra de afaceri medie a firmei a crescut în medie cu 0,85 mld. lei pe trimestru;
Intergrupe 2
Intragrupe 320
259
Variabila numerică este "Salariul", iar variabila (factorul) de grupare este "Regiunea". În această
situaţie, considerând un risc de 0,05, se poate afirma că:
b) ipoteza H0 este 1 2 3
c) se respinge ipoteza H0
c). are varianţa cea mai mică posibil faţă de varianţa oricărui alt estimator calculat pentru acelaşi
eşantion
sexul_pers
Cumulative
Frequency Percent Valid Percent Percent
Valid Masculin 4 40.0 40.0 40.0
Feminin 6 60.0 60.0 100.0
Total 10 100.0 100.0
a) condiţia de normalitate
b) condiţia de homoscedasticitate
c) condiţia de independenţă
260
b) variaţia sub influenţa factorilor aleatori (întâmplători)
Reziduală (intragrupe) 21
Totală 500 24
Variabila numerică este "Salariul", iar variabila (factorul) de grupare este "Regiunea". În această
situaţie, se poate afirma că:
b) ipoteza H0 este
1 2 3 4
261
15. Aplicând metoda ANOVA s-au obţinut următoarele rezultate:
Variabila numerică este "Venitul", iar variabila (factorul) de grupare este "Regiunea". În această
situaţie, se poate afirma că:
a) există diferenţe semnificative între veniturile medii pe regiuni la nivelul populaţiilor, pentru un
risc de 5%
c) se respinge ipoteza H 0 : 1 2 3
262