Intervale de Confidenta Curs
Intervale de Confidenta Curs
Intervale de Confidenta Curs
INTERVAL DE CONFIDENȚĂ
Graficul următor exprimă vizual ideea demonstrată prin teorema limită centrală.
Populaţia de
studiu
Lot Medie
Li Distribuţia mediilor este
Ln 1 M1 de tip (Gauss Laplace)
L1
2 M2
L7 L2
3 M3
Calculăm media fiecărui eșantion și creăm astfel o nouă populație definită de aceste
medii.
0.13
0.2
0.28
0.35
0.43
0.5
0.58
0.65
0.73
0.8
0.88
0.95
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 More
Observaţii
1 – Dacă distribuţia populaţiei este normală, atunci în mod sigur distribuţia mediilor
eşantioanelor este normală şi pentru valori mici ale eşantionului (aici trebuie discutat ce
înseamnă în statistică set de date mic ca volum).
2 – Media valorilor medii ale eşantioanelor este media populaţie. Aceasta arată că nu
există eroare de deplasare. Matematic putem scrie: M ( X 1 , X 2 ,... X n ) .
3 – Deviaţia standard a mediilor eşantioanelor este de radical din n ori mai mică decât
deviaţia standard a întregii populaţii. Avem astfel: X , unde n reprezintă
volumul eşantionului n
Se poate demonstra (după cum am amintit deja) că dacă avem mai multe
eşantioane dintr-o populaţie normală, media de selecţie este o variabilă aleatoare
repartizată normal N(,2/n). Pentru a o centra şi normaliza vom aplica formula
X
(se scade media şi se raportează la dispersie): z
/ n
PZ1 Z Z 2 0,95 1
- α este nivelul de semnificație și pentru interval simetric avem: α1= α2= α/2.
Nivelul de încredere este 1- α (notat și β).
Putem scrie în continuare:
X
Z (1 / 2) Z (1 / 2) X Z (1 / 2) X Z (1 / 2)
/ n n n
- se numește eroare standard, este deviația standard a distribuției mediilor eșantioanelor.
n AVEM ASTFEL METODA DE CALCUL A INTERVALULUI DE CONFIDENȚĂ !!!
Microsoft Excel - funcții pentru determinarea intervalului de încredere
-3.20
-2.80
-2.00
-1.60
-0.80
-0.40
-3.60
-2.40
-1.20
0.00
1.20
2.40
3.60
0.40
0.80
1.60
2.00
2.80
3.20
4.00
Abscisa corespunzătoare :
NORM.S.INV(0.3) = -0.524
Cazul 2 – Valoarea dispersiei este necunoscută / volum mic.
Dacă eșantioanele au volum mic (sub 30) sau dacă repartiția datelor nu este de tip
Gauss-Laplace sau dacă nu se cunoaște valoarea dispersiei populației, atunci folosirea
distribuției Z în estimarea intervalului de confidență a mediei va genera erori mari.
Se folosește pentru aceste situații distribuția t sau student, ce dă rezultate bune în
situațiile critice prezentate mai sus. Dacă volumul eșantionului crește distribuția student
tinde către cea normală – deci nu este nici o greșeală folosirea acesteia în situația în care
forma normală este aplicabilă.
Distribuția t (student) depinde de parametrul numit grade de libertate ce se
calculează funcție de volumul eșantionului. Pentru estimarea intervalului de confidență a
mediei unei variabile continue acest parametru este egal cu numărul de cazuri minus 1.
Excel
T.INV(probability, deg of freedom) – calculează abscisa (deci valoarea t)
corespunzătoare probabilității cerute și a gradelor de libertate ce definesc distribuția).
Formula de calcul a intervalului de confidență se păstrează aproximativ , în sensul că
în loc de Z folosim t. Comparativ t vs Z prob=0.975
S S volum invers-t invers-Z
X t (1 / 2, n 1) X t (1 / 2, n 1) 10 2.262157 1.959964
n n
30 2.04523 1.959964
Iată în tabelul din dreapta pentru comparare 50 2.009575 1.959964
Cele două distribuții Z și t calculate în paralel: 150 1.976013 1.959964
300 1.96793 1.959964
Excel
Funcții pentru calculul intervalului de confidență al mediei – variabilă continuă:
Eroarea standard (Standard Error) este : , este deviația standard a mediilor de selecție.
n
Precizia (Confidence level*Std. error) este : Z (1 / 2) . , Precizia = Interval de confidență
n
Pentru eșantioane mici se folosește distribuția t(student) în loc de Z.
Exemplu de calcul cu formule detaliat:
Exemplu de calcul cu rezultate comparative:
Observație
Rețineți:
Problema se repetă şi generic putem considera un set format din mai multe
eşantioane pentru care calculăm şi studiem proporţia de realizare a unui anumit
eveniment de interes.
În situaţia în care loturile sunt consistente în informaţie, deci conţin date în număr
suficient pentru a păstra proprietăţile populaţiei, distribuţia mediilor este de tip normal şi
putem calcula relativ uşor limitele de confidenţă.
Se pleacă de la formula generală ce exprimă probabilitatea pentru o distribuţie
normală.
Notăm: P - probabilitatea, p - proporţia din eşantion, π - proporţia reală a populaţiei,
α - nivelul semnificaţiei ce este de 5% de obicei.
Wilson:
1
~
p 1 p
~ n1 z 21 / 2
~
Agresti-Coull: p z1 / 2 , unde ~
p 2
n z 21 / 2 n z 21 / 2
Interval de confidență pentru raportul cotelor (ODD RATIO)
AFECȚIUNE
Cota pentru grupul expuși factorului: + - total
+ a b a+b
a /(a b) a
C AF FACTOR - c d c+d
b /(a b) b total a+c b+d a+c+b+d
Este demonstrat că logaritmul natural din raportul cotelor are o distribuție normală.
Ca urmare se va logaritma , se va calcula intervalul de confidență apoi se va
exponenția pentru a reveni la raportul cotelor.
1 1 1 1
Eroarea standard pentru LN(OR) este : ES LN (OR )
a b c d
1 1 1 1
Pentru LN(OR) avem intervalul de confidență: LN (OR) z1 / 2
a b c d
În final:
1 1 1 1
OR(limita inf.) este: exp LN (OR) z1 / 2
a b c d
1 1 1 1
OR(limita sup.) este: exp LN (OR) z1 / 2
a b c d
Interval de confidență pentru riscul relativ (RISK RATIO)
RA pentru grupul 1
Raportul riscurilor =
RA pentru grupul 2
AFECȚIUNE
Riscul pentru grupul expuși factorului: + - total
+ a b a+b
a FACTOR - c d c+d
RAF
ab total a+c b+d a+c+b+d
Riscul pentru grupul neexpuși factorului:
c
RAF
cd
a (c d )
Astfel raportul cotelor (RISK RATIO): RR
c ( a b)
Este demonstrat că logaritmul natural din raportul riscurilor are o distribuție normală.
Ca urmare se va logaritma , se va calcula intervalul de confidență apoi se va
exponenția pentru a reveni la raportul riscurilor.
b d
Eroarea standard pentru LN(RR) este : ES LN ( RR )
a ( a b ) c (c d )
În final obținem:
b d
RR(limita inf.) este: exp LN ( RR) z1 / 2
a (a b) c (c d )
b d
RR(limita sup.) este: exp LN ( RR) z1 / 2
a (a b) c (c d )
Observație
Intervalul de confidență atât pentru RR cât și pentru OR este simetric în forma
logaritmică !
În forma normală acest interval nu este simetric.
Intervalele de confidență pentru media unei variabile de tip continuu respectiv pentru
frecvența unui eveniment sunt simetrice – observație utilă în verificarea analizelor.
Interpretare – pentru intervalul de confidență 95%
Tehnica bootstrap constă în generarea de subseturi de date chiar din lotul sursă,
folosind alegeri de tip aleatoriu (metoda Monte Carlo). Noile seturi sunt formate din
elementele eșantionului sursă, iar dacă selecția este cu înlocuire (elementul ales este
reintrodus în sursă) atunci apare posibilitatea ca un element să se găsească de mai multe
ori într-un set nou.
Excel
Metodă:
1 – Se definește setul sursă cu un nume (variabilă): Formulas+Define Name. În acest
fel lucrăm optim (ex. numim sursa esantion).
2 – Se aplică funcția INDEX(array, row_num, [column_num]) pentru a alege aleatoriu
valori din setul denumit mai devreme.
Numărul rândului respectiv a coloanei sunt valori întregi. Pentru a avea o alegere
aleatoare avem funcția rand() care generează aleatoriu un număr zecimal în domeniul
[0,1).
Ca urmare funcția ce alege aleator se poate scrie astfel:
=INDEX(esantion,ROWS(esantion)*RAND()+1,COLUMNS(esantion)*RAND()+1)
Obs. Se adaugă 1 deoarece rand() poate genera valoarea 0 – rând sau coloană 0 nu
există.
Realizare practică
http://stattrek.com/estimation/estimation-in-statistics.aspx?Tutorial=AP
http://onlinestatbook.com/2/estimation/mean.html
http://www.stat.yale.edu/Courses/1997-98/101/confint.htm
http://www.gla.ac.uk/sums/users/jdbmcdonald/PrePost_TTest/confid3.html
http://www.stat.wmich.edu/s160/book/node46.html