Correzione di Bessel

In statistica, la correzione di Bessel è l'uso di n - 1 invece di n nella formula per la varianza campionaria e per la deviazione standard campionaria,^[1] dove n è il numero di osservazioni in un campione. Questo metodo corregge il bias nella stima della varianza della popolazione. Corregge anche parzialmente il bias nella stima della deviazione standard della popolazione. Tuttavia, la correzione spesso aumenta l'errore quadratico medio in queste stime. Questa tecnica prende il nome da Friedrich Bessel.

Nella stima della varianza della popolazione da un campione, quando la media della popolazione è sconosciuta, la varianza del campione non corretta è la media dei quadrati delle deviazioni dei valori del campione dalla media del campione (cioè utilizzando un fattore moltiplicativo 1 / n). In questo caso, la varianza campionaria è uno stimatore distorto della varianza della popolazione.

Moltiplicando la varianza campionaria non corretta per il fattore

{\frac {n}{n-1}}

si ottiene uno stimatore imparziale della varianza della popolazione. Alcune fonti^[2]^[3] chiamano questo fattore correzione di Bessel.

Si può pensare alla correzione di Bessel come i gradi di libertà del vettore dei residui (dei residui, non degli errori, perché la media della popolazione è sconosciuta):

(x_{1}-{\overline {x}},\,\dots ,\,x_{n}-{\overline {x}}),

quando ${\overline {x}}$ è la media del campione. Sebbene ci siano n osservazioni indipendenti nel campione, ce ne sono solo n - 1 residui indipendenti, in quanto la loro somma è 0. Per una spiegazione più intuitiva della necessità della correzione di Bessel, vedere bias in statistica.

Generalmente la correzione di Bessel è un approccio per ridurre il bias dovuto alla dimensione finita del campione. Tale correzione della distorsione di un campione finito è necessaria anche per altre stime come la simmetria e la curtosi, ma in queste le imprecisioni sono spesso significativamente maggiori. Per rimuovere completamente tale distorsione sarebbe necessario eseguire una stima multiparametrica più complessa. Ad esempio, una correzione corretta per la deviazione standard dipende dalla curtosi (4° momento centrale normalizzato), ma anche questa ha una distorsione campionaria finita e dipende dalla deviazione standard, cioè entrambe le stime devono essere unite.

Avvertenze

Ci sono tre avvertenze da considerare quando si usa la correzione di Bessel:

Non fornisce uno stimatore imparziale della deviazione standard.
Lo stimatore corretto ha spesso un errore quadratico medio (MSE) più elevato rispetto allo stimatore non corretto.^[4] Inoltre, non esiste una distribuzione della popolazione per la quale si trovi l'MSE minimo, perché è sempre possibile scegliere un fattore di scala diverso per ridurre al minimo l'MSE.
È necessario solo quando la media della popolazione è sconosciuta (e stimata come media campionaria). In pratica, questo è ciò che generalmente accade.

In primo luogo, mentre la varianza campionaria (utilizzando la correzione di Bessel) è uno stimatore imparziale della varianza della popolazione, la sua radice quadrata, la deviazione standard campionaria, è una stima distorta della deviazione standard della popolazione; poiché la radice quadrata è una funzione concava, il bias è verso il basso, per la disuguaglianza di Jensen. Non esiste una formula generale per uno stimatore imparziale della deviazione standard della popolazione, sebbene ci siano fattori di correzione per distribuzioni particolari, come la normale. Un'approssimazione del fattore di correzione esatto per la distribuzione normale è data usando n - 1.5 nella formula: il bias decade in modo quadratico (piuttosto che lineare, come nella forma non corretta e nella forma corretta di Bessel).

In secondo luogo, lo stimatore imparziale non minimizza l'errore quadratico medio (MSE) e generalmente ha un MSE peggiore dello stimatore non corretto (questo varia con l'eccesso della curtosi). L'MSE può essere ridotto al minimo utilizzando un fattore diverso. Il valore ottimale dipende dall'eccesso della curtosi, come discusso nell'errore quadratico medio per la varianza; per la distribuzione normale si ottimizza dividendo per n + 1 (al posto del n - 1 o n).

In terzo luogo, la correzione di Bessel è necessario solo quando la media della popolazione è nota, e uno sta valutando sia media della popolazione e la varianza popolazione da un dato campione, utilizzando la media campionaria per stimare la media della popolazione. In quel caso ci sono n gradi di libertà in un campione di n punti, e la stima simultanea di media e varianza significa che un grado di libertà va alla media campionaria e i restanti n - 1 gradi di libertà (i residui) vanno alla varianza campionaria. Tuttavia, se la media della popolazione è nota, le deviazioni delle osservazioni dalla media della popolazione hanno n gradi di libertà (poiché la media non viene stimata, le deviazioni non sono residui ma errori) e la correzione di Bessel non è applicabile.

Fonti di bias

Più semplicemente, per capire il bias che deve essere corretto, si consideri un caso estremo. Supponiamo che la popolazione sia (0,0,0,1,2,9), e che abbia una media della popolazione di 2 e una varianza della popolazione di 10+1/3. Viene disegnato un campione di n = 1 e risulta essere $x_{1}=0.$ La migliore stima della media della popolazione è ${\bar {x}}=x_{1}/n=0/1=0.$ Ma cosa succede se usiamo la formula $(x_{1}-{\bar {x}})^{2}/n=(0-0)/1=0$ per stimare la varianza? La stima della varianza sarebbe zero --- e la stima sarebbe zero per ogni popolazione e ogni campione con n = 1. Il problema è che nella stima della media campionaria, il processo ha già reso la nostra stima della media vicina al valore campionato - identico, per n = 1. Nel caso di n = 1, la varianza non può essere stimata, perché non c'è variabilità nel campione.

Consideriamo invece n = 2. Supponiamo che il campione sia (0, 2). Allora ${\bar {x}}=1$ e $[(x_{1}-{\bar {x}})^{2}+(x_{2}-{\bar {x}})^{2}]/n=(1+1)/2=1$ , ma con la correzione di Bessel, $[(x_{1}-{\bar {x}})^{2}+(x_{2}-{\bar {x}})^{2}]/(n-1)=(1+1)/1=2$ , che è una stima imparziale (se vengono presi tutti i possibili campioni di n = 2 e viene utilizzato questo metodo, la stima media sarà 10+1/3.)

Per capire più in dettaglio, si consideri il seguente esempio. Supponiamo che la media dell'intera popolazione sia 2050, ma lo statistico non la conosca e debba quindi stimarla sulla base di questo piccolo campione scelto a caso dalla popolazione:

2051,\quad 2053,\quad 2055,\quad 2050,\quad 2051

Si può calcolare la media campionaria:

{\frac {1}{5}}\left(2051+2053+2055+2050+2051\right)=2052

Questo può servire come stima osservabile della media della popolazione non osservabile, che è 2050. Ora affrontiamo il problema della stima della varianza della popolazione. Questa è la media dei quadrati delle deviazioni da 2050. Se sapessimo che la media della popolazione è 2050, potremmo procedere come segue:

{\begin{aligned}{}&{\frac {1}{5}}\left[(2051-2050)^{2}+(2053-2050)^{2}+(2055-2050)^{2}+(2050-2050)^{2}+(2051-2050)^{2}\right]\\[6pt]={}&{\frac {36}{5}}=7.2\end{aligned}}

Ma la nostra stima della media della popolazione è la media campionaria, 2052. La media effettiva, 2050, è sconosciuta. Quindi bisogna usare la media campionaria, 2052:

{\begin{aligned}{}&{\frac {1}{5}}\left[(2051-2052)^{2}+(2053-2052)^{2}+(2055-2052)^{2}+(2050-2052)^{2}+(2051-2052)^{2}\right]\\[6pt]={}&{\frac {16}{5}}=3.2\end{aligned}}

La varianza ora è molto più piccola. Come dimostrato di seguito, la varianza sarà quasi sempre inferiore se calcolata utilizzando la somma delle distanze al quadrato alla media campionaria, rispetto alla somma delle distanze al quadrato dalla media della popolazione. L'unica eccezione è quando la media campionaria è uguale alla media della popolazione, nel qual caso anche la varianza è uguale.

Per capire perché questo accade, usiamo una semplice identità algebrica:

(a-b)^{2}=a^{2}-2ab+b^{2}

Con $a$ che rappresenta la deviazione di un singolo campione dalla media campionaria e $b$ che rappresenta la deviazione della media campionaria dalla media della popolazione. Si noti che abbiamo semplicemente scomposto la deviazione effettiva di un singolo campione dalla media della popolazione (sconosciuta) in due componenti: la deviazione del singolo campione dalla media campionaria, che possiamo calcolare, e la deviazione aggiuntiva della media campionaria da la popolazione significa, cosa che non possiamo. Ora, applichiamo questa identità ai quadrati delle deviazioni dalla media della popolazione:

{\begin{aligned}{[}\,\underbrace {2053-2050} _{\begin{smallmatrix}{\text{Deviation from}}\\{\text{the population}}\\{\text{mean}}\end{smallmatrix}}\,]^{2}&=[\,\overbrace {(\,\underbrace {2053-2052} _{\begin{smallmatrix}{\text{Deviation from}}\\{\text{the sample mean}}\end{smallmatrix}}\,)} ^{{\text{This is }}a.}+\overbrace {(2052-2050)} ^{{\text{This is }}b.}\,]^{2}\\&=\overbrace {(2053-2052)^{2}} ^{{\text{This is }}a^{2}.}+\overbrace {2(2053-2052)(2052-2050)} ^{{\text{This is }}2ab.}+\overbrace {(2052-2050)^{2}} ^{{\text{This is }}b^{2}.}\end{aligned}}

Ora applichiamo questo a tutte e cinque le osservazioni e osserviamo alcuni patterni:

{\begin{alignedat}{2}\overbrace {(2051-2052)^{2}} ^{{\text{This is }}a^{2}.}\ &+\ \overbrace {2(2051-2052)(2052-2050)} ^{{\text{This is }}2ab.}\ &&+\ \overbrace {(2052-2050)^{2}} ^{{\text{This is }}b^{2}.}\\(2053-2052)^{2}\ &+\ 2(2053-2052)(2052-2050)\ &&+\ (2052-2050)^{2}\\(2055-2052)^{2}\ &+\ 2(2055-2052)(2052-2050)\ &&+\ (2052-2050)^{2}\\(2050-2052)^{2}\ &+\ 2(2050-2052)(2052-2050)\ &&+\ (2052-2050)^{2}\\(2051-2052)^{2}\ &+\ \underbrace {2(2051-2052)(2052-2050)} _{\begin{smallmatrix}{\text{The sum of the entries in this}}\\{\text{middle column must be 0.}}\end{smallmatrix}}\ &&+\ (2052-2050)^{2}\end{alignedat}}

La somma delle voci nella colonna centrale deve essere zero perché il termine a verrà aggiunto su tutte e 5 le righe, che a sua volta deve essere uguale a zero. Questo perché a contiene i 5 campioni individuali (il lato sinistro tra parentesi) che, quando aggiunti, hanno naturalmente la stessa somma di 5 volte la media campionaria di quei 5 numeri (2052). Ciò significa che una sottrazione di queste due somme deve essere uguale a zero. Il fattore 2 e il termine b nella colonna centrale sono uguali per tutte le righe, il che significa che la differenza relativa tra tutte le righe nella colonna centrale rimane la stessa e può quindi essere ignorata. Le seguenti affermazioni spiegano il significato delle restanti colonne:

La somma delle voci nella prima colonna (a²) è la somma dei quadrati della distanza dal campione alla media campionaria;
La somma delle voci nell'ultima colonna (b²) è la somma delle distanze al quadrato tra la media campionaria misurata e la media corretta della popolazione
Ogni singola riga è ora composta da coppie di a² (distorta, perché viene utilizzata la media campionaria) eb ² (correzione del bias, perché tiene conto della differenza tra la media "reale" della popolazione e la media campionaria imprecisa). Pertanto la somma di tutte le voci della prima e dell'ultima colonna rappresenta ora la varianza corretta, il che significa che ora viene utilizzata la somma della distanza al quadrato tra i campioni e la media della popolazione
La somma delle colonne a² e b² deve essere maggiore della somma degli elementi della colonna a², poiché tutti gli elementi all'interno di b² sono positivi (eccetto quando la media della popolazione è uguale alla media del campione, nel qual caso saranno tutti i numeri nell'ultima colonna saranno 0).

Perciò:

La somma dei quadrati della distanza dai campioni dalla media della popolazione sarà sempre maggiore della somma dei quadrati della distanza dalla media campionaria, tranne quando la media campionaria coincide con la media della popolazione, nel qual caso le due sono uguali.

Questo è il motivo per cui la somma dei quadrati delle deviazioni dalla media campionaria è troppo piccola per fornire una stima imparziale della varianza della popolazione quando viene trovata la media di quei quadrati. Più piccola è la dimensione del campione, maggiore è la differenza tra la varianza del campione e la varianza della popolazione.

Terminologia

Questa correzione è così comune che i termini "varianza campionaria" e "deviazione standard campionaria" sono spesso usati per indicare gli stimatori corretti (variazione campionaria imparziale, deviazione standard campionaria meno distorta), utilizzando n - 1. Tuttavia è necessaria cautela: alcune calcolatrici e pacchetti software possono prevedere entrambe o solo la formulazione più insolita. Questo articolo utilizza i seguenti simboli e definizioni:

μ è la media della popolazione

{\overline {x}}

è la media del campione

σ ² è la varianza della popolazione

s _n ² è la varianza del campione distorta (cioè senza la correzione di Bessel)

s ² è la varianza campionaria non distorta (cioè con la correzione di Bessel)

Le deviazioni standard saranno quindi le radici quadrate delle rispettive varianze. Poiché la radice quadrata introduce bias, la terminologia "non corretto" e "corretto" è preferita per gli stimatori della deviazione standard:

s _n è la deviazione standard del campione non corretto (cioè senza la correzione di Bessel)

s è la deviazione standard del campione corretta (cioè con la correzione di Bessel), che è meno distorta, ma comunque distorta

Formula

La media campionaria è data da

{\overline {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}.

La varianza del campione distorta viene quindi scritta:

s_{n}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}={\frac {\sum _{i=1}^{n}\left(x_{i}^{2}\right)}{n}}-{\frac {\left(\sum _{i=1}^{n}x_{i}\right)^{2}}{n^{2}}}

e la varianza del campione imparziale è:

s^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}={\frac {\sum _{i=1}^{n}\left(x_{i}^{2}\right)}{n-1}}-{\frac {\left(\sum _{i=1}^{n}x_{i}\right)^{2}}{(n-1)n}}=\left({\frac {n}{n-1}}\right)\,s_{n}^{2}.

Dimostrazione di correttezza - Alternativa 1

Come fatto di base, usiamo l'identità $E[x^{2}]=\mu ^{2}+\sigma ^{2}$ che deriva dalla definizione di deviazione standard e linearità dell'aspettativa.

Un'osservazione molto utile è che per qualsiasi distribuzione, la varianza è uguale alla metà del valore atteso di $(x_{1}-x_{2})^{2}$ quando $x_{1},x_{2}$ sono un campione indipendente da quella distribuzione. Per dimostrare questa osservazione lo useremo $E[x_{1}x_{2}]=E[x_{1}]E[x_{2}]$ (che deriva dal fatto che sono indipendenti) e linearità di aspettativa:

E[(x_{1}-x_{2})^{2}]=E[x_{1}^{2}]-E[2x_{1}x_{2}]+E[x_{2}^{2}]=(\sigma ^{2}+\mu ^{2})-2\mu ^{2}+(\sigma ^{2}+\mu ^{2})=2\sigma ^{2}

Ora che l'osservazione è provata, è sufficiente mostrare che la differenza quadratica attesa di due osservazioni dalla popolazione campione $x_{1},\ldots ,x_{n}$ è uguale a $(n-1)/n$ volte la differenza quadratica attesa di due osservazioni dalla distribuzione originale. Per vedere questo, nota che quando scegliamo $x_{u}$ e $x_{v}$ tramite u, v essendo numeri interi selezionati in modo indipendente e uniforme da 1 a n, una frazione $n/n^{2}=1/n$ del tempo avremo u = v e quindi la differenza quadratica campionata è zero indipendentemente dalla distribuzione originale. Il resto $1-1/n$ del tempo, il valore di $E[(x_{u}-x_{v})^{2}]$ è la differenza quadratica attesa tra due osservazioni indipendenti dalla distribuzione originale. Pertanto, dividendo la differenza quadratica attesa del campione per $(1-1/n)$ o moltiplicando in modo equivalente per $1/(1-1/n)=n/(n-1),$ fornisce una stima imparziale della differenza quadratica attesa originale.

Dimostrazione di correttezza - Alternativa 2

Riciclando un'identità per la varianza ,

{\begin{aligned}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}&=\sum _{i=1}^{n}\left(x_{i}^{2}-2x_{i}{\overline {x}}+{\overline {x}}^{2}\right)\\&=\sum _{i=1}^{n}x_{i}^{2}-2{\overline {x}}\sum _{i=1}^{n}x_{i}+\sum _{i=1}^{n}{\overline {x}}^{2}\\&=\sum _{i=1}^{n}x_{i}^{2}-2n{\overline {x}}^{2}+n{\overline {x}}^{2}\\&=\sum _{i=1}^{n}x_{i}^{2}-n{\overline {x}}^{2}\end{aligned}}

così

{\begin{aligned}\operatorname {E} \left(\sum _{i=1}^{n}\left[(x_{i}-\mu )-\left({\overline {x}}-\mu \right)\right]^{2}\right)&=\operatorname {E} \left(\left(\sum _{i=1}^{n}(x_{i}-\mu )^{2}\right)-n({\overline {x}}-\mu )^{2}\right)\\&=\left(\sum _{i=1}^{n}\operatorname {E} \left((x_{i}-\mu )^{2}\right)\right)-n\operatorname {E} \left(({\overline {x}}-\mu )^{2}\right)\\&=\left(\sum _{i=1}^{n}\operatorname {Var} (x_{i})\right)-n\operatorname {Var} \left({\overline {x}}\right)\end{aligned}}

e per definizione,

{\begin{aligned}\operatorname {E} (s^{2})&=\operatorname {E} \left(\sum _{i=1}^{n}{\frac {(x_{i}-{\overline {x}})^{2}}{n-1}}\right)\\&={\frac {1}{n-1}}\operatorname {E} \left(\sum _{i=1}^{n}\left[(x_{i}-\mu )-\left({\overline {x}}-\mu \right)\right]^{2}\right)\\&={\frac {1}{n-1}}\left[\left(\sum _{i=1}^{n}\operatorname {Var} (x_{i})\right)-n\operatorname {Var} ({\overline {x}})\right]\end{aligned}}

Nota che, poiché x ₁ , x ₂ , . . . , x _n sono un campione casuale di una distribuzione con varianza σ ², ne segue che per ogni i = 1, 2, . . . , n :

\operatorname {Var} (x_{i})=\sigma ^{2}

e anche

\operatorname {Var} ({\overline {x}})={\frac {\sigma ^{2}}{n}}

Questa è una proprietà della varianza di variabili non correlate, derivante dalla formula Bienaymé . Il risultato richiesto si ottiene quindi sostituendo queste due formule:

\operatorname {E} (s^{2})={\frac {1}{n-1}}\left[\sum _{i=1}^{n}\sigma ^{2}-n\sigma ^{2}/n\right]={\frac {1}{n-1}}(n\sigma ^{2}-\sigma ^{2})=\sigma ^{2}.

Dimostrazione di correttezza - Alternativa 3

La discrepanza attesa tra lo stimatore distorto e la varianza reale è

{\begin{aligned}\operatorname {E} \left[\sigma ^{2}-s_{n}^{2}\right]&=\operatorname {E} \left[{\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}-{\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\right]\\&=\operatorname {E} \left[{\frac {1}{n}}\sum _{i=1}^{n}\left((x_{i}^{2}-2x_{i}\mu +\mu ^{2})-(x_{i}^{2}-2x_{i}{\overline {x}}+{\overline {x}}^{2})\right)\right]\\&=\operatorname {E} \left[{\frac {1}{n}}\sum _{i=1}^{n}\left(\mu ^{2}-{\overline {x}}^{2}+2x_{i}({\overline {x}}-\mu )\right)\right]\\&=\operatorname {E} \left[\mu ^{2}-{\overline {x}}^{2}+{\frac {1}{n}}\sum _{i=1}^{n}2x_{i}({\overline {x}}-\mu )\right]\\&=\operatorname {E} \left[\mu ^{2}-{\overline {x}}^{2}+2({\overline {x}}-\mu ){\overline {x}}\right]\\&=\operatorname {E} \left[\mu ^{2}-2{\overline {x}}\mu +{\overline {x}}^{2}\right]\\&=\operatorname {E} \left[({\overline {x}}-\mu )^{2}\right]\\&=\operatorname {Var} ({\overline {x}})\\&={\frac {\sigma ^{2}}{n}}\end{aligned}}

Quindi, il valore atteso dello stimatore distorto sarà

\operatorname {E} \left[s_{n}^{2}\right]=\sigma ^{2}-{\frac {\sigma ^{2}}{n}}={\frac {n-1}{n}}\sigma ^{2}

Quindi, uno stimatore imparziale dovrebbe essere fornito da

s^{2}={\frac {n}{n-1}}s_{n}^{2}

Intuizione

Nello stimatore distorto, usando la media campionaria invece della media vera, si sta sottostimando ogni x _i − µ per x − µ. Sappiamo che la varianza di una somma è la somma delle varianze (per variabili non correlate). Quindi, per trovare la discrepanza tra lo stimatore di parte e la varianza reale, dobbiamo solo trovare il valore atteso di ( x − µ ) ² .

Questa è solo la varianza della media campionaria, che è σ ² / n . Quindi, ci aspettiamo che lo stimatore distorto sottostimi σ ² di σ ² / n, e quindi lo stimatore distorto = (1 − 1 / n ) × lo stimatore imparziale = ( n − 1) / n × lo stimatore imparziale.

Note

^ (EN) Nicole M Radziwill, Statistics (the easier way) with R, 2017, ISBN 978-0-9969160-5-9, OCLC 1030532622.
^ W. J. Reichmann, W. J. (1961) Use and abuse of statistics, Methuen. Reprinted 1964–1970 by Pelican. Appendix 8.
^ Upton, G.; Cook, I. (2008) Oxford Dictionary of Statistics, OUP. ISBN 978-0-19-954145-4 (entry for "Variance (data)")
^ Jeffrey S. Rosenthal, The Kids are Alright: Divide by n when estimating variance, in Bulletin of the Institute of Mathematical Statistics, December 2015, 2015, p. 9.

Voci correlate

Collegamenti esterni

Portale Statistica: accedi alle voci di Wikipedia che trattano di statistica

[1] (EN) Nicole M Radziwill, Statistics (the easier way) with R, 2017, ISBN 978-0-9969160-5-9, OCLC 1030532622.

[2] W. J. Reichmann, W. J. (1961) Use and abuse of statistics, Methuen. Reprinted 1964–1970 by Pelican. Appendix 8.

[3] Upton, G.; Cook, I. (2008) Oxford Dictionary of Statistics, OUP. ISBN 978-0-19-954145-4 (entry for "Variance (data)")

[4] Jeffrey S. Rosenthal, The Kids are Alright: Divide by n when estimating variance, in Bulletin of the Institute of Mathematical Statistics, December 2015, 2015, p. 9.

[1]

[2]

[3]

[4]