Distribuzione a priori coniugata

Nell'ambito della teoria della probabilità bayesiana, se le distribuzioni a posteriori p(θ|x) sono nella stessa famiglia della distribuzione a priori p(θ), le due distribuzioni sono definite coniugate, e la distribuzione a priori è chiamata distribuzione a priori coniugata per la verosimiglianza. Per esempio, la famiglia della distribuzione gaussiana è coniugata a sé stessa (o auto-coniugata) rispetto ad una funzione di verosimiglianza gaussiana: se la funzione di verosimiglianza è gaussiana, scegliendo per la media una distribuzione a priori gaussiana assicurerà che anche la distribuzione a posteriori (della media) sarà ancora gaussiana. Questo significa che la distribuzione gaussiana è una distribuzione a priori coniugata per la verosimiglianza la quale è pure gaussiana. Il concetto, come pure il termine "distribuzione a priori coniugata" (conjugate prior), furono introdotti da Howard Raiffa e Robert Schlaifer nel loro lavoro sulla teoria delle decisioni bayesiana.^[1] Un concetto simile fu scoperto indipendentemente da George Alfred Barnard.^[2]

Consideriamo il problema generale di inferire una distribuzione per un parametro θ sulla scorta del dato o dei dati x. Dal teorema di Bayes, la distribuzione di probabilità a posteriori è uguale al prodotto della funzione di verosimiglianza $\theta \mapsto p(x\mid \theta )$ e della distribuzione di probabilità a priori p(θ), normalizzato (diviso) per la probabilità dei dati p(x):

p(\theta |x)={\frac {p(x|\theta )\,p(\theta )}{\int p(x|\theta )\,p(\theta )\,d\theta }}.

Sia la funzione di verosimiglianza considerata fissata; la funzione di verosimiglianza è solitamente ben determinata in base ad ipotesi sul processo di generazione dei dati (ad esempio la verosimiglianza di dati relativi a misure di lunghezza può essere descritta nella maggior parte dei casi sperimentali da una funzione gaussiana oppure nel caso di dati relativi al getto ripetuto di una moneta da una funzione binomiale, ecc.). È chiaro che scelte distinte della distribuzione a priori p(θ) possono rendere l'integrale che esprime la distribuzione a posteriori più o meno difficile da calcolare, e il prodotto p(x|θ) × p(θ) può assumere un certo aspetto algebrico piuttosto che un altro. Per taluni scelte della distribuzione a priori, la distribuzione a posteriori ha la stessa forma algebrica (generalmente con differenti valori dei parametri della distribuzione). Tale tipo di scelta è una distribuzione a priori coniugata.

Una distribuzione a priori coniugata è conveniente dal punto di vista algebrico in quanto fornisce una espressione in forma chiusa per la distribuzione a posteriori: alternativamente può essere necessario il calcolo di un integrale numerico. Inoltre le distribuzioni a priori coniugate possono fornire delle intuizioni circa il modo con cui la funzione di verosimiglianza aggiorna la distribuzione a priori.

Tutti i membri della famiglia esponenziale hanno distribuzioni a priori coniugate. Cfr. Gelman et al.^[3] per una classificazione.

Esempio

La forma di una distribuzione a priori coniugata generalmente può essere determinata mediante l'esame della funzione di densità di probabilità o della funzione probabilità di densità di massa (cioè il corrispettivo caso discreto). Per esempio, consideriamo una variabile casuale del tipo di processo di Bernoulli (cioè una sequenza casuale di casi "favorevole", "sfavorevole", ad esempio 0 o 1, oppure "vero" o "falso", ecc.) con probabilità di successo $q$ in $[0,1]$ sconosciuta. La funzione di densità di probabilità ha la forma:

p(x)=q^{x}(1-q)^{1-x}.

Espressa come una funzione di $q$ assume la forma

f(q)\propto q^{a}(1-q)^{b},

per qualche costante $a$ e $b$ . Generalmente questa forma funzionale avrà un fattore moltiplicativo aggiuntivo (la costante di normalizzazione assicurante che la funzione sia una distribuzione di probabilità, cioè il suo integrale sul suo intero dominio è pari a 1). Questo fattore risulterà spesso una funzione di $a$ e di $b$ , ma non dipenderà mai da $q$ .

Infatti, la distribuzione a priori coniugata solitamente è la distribuzione beta con

p(q)={q^{\alpha -1}(1-q)^{\beta -1} \over \mathrm {B} (\alpha ,\beta )},

dove $\alpha$ e $\beta$ sono scelte conformemente a qualche credenza o informazione esistente ( $\alpha$ = 1 e $\beta$ = 1 darebbero una distribuzione uniforme) e Β( $\alpha$ , $\beta$ ) è la funzione Beta agente come una costante di normalizzazione.

In questo contesto, $\alpha$ e $\beta$ sono chiamati iperparametri (parametri della distribuzione a priori), per distinguerli dai parametri del modello sottostante ( $q$ in questo caso). Una tipica caratteristica delle distribuzioni a priori coniugate è che la cardinalità degli iperparametri è maggiore di un'unità rispetto a quella dei parametri della distribuzione originale. Se tutti i parametri sono valori scalari, questo significa che ci sarà un iperparametro in più rispetto ai parametri; ma questo di applica anche al caso di parametri di tipo vettoriale o matriciale. (Vedi l'articolo generale sulla famiglia esponenziale, e considera anche la distribuzione di Wishart, distribuzione a priori coniugata della matrice delle covarianze della distribuzione normale multivariata, per un esempio dove è implicata la cardinalità elevata).

Se campioniamo questa variabile casuale ottenendo $s$ successi ed $f$ insuccessi, abbiamo:

P(s,f|q=x)={s+f \choose s}x^{s}(1-x)^{f},

p(q=x|s,f)={{{s+f \choose s}x^{s+\alpha -1}(1-x)^{f+\beta -1}/\mathrm {B} (\alpha ,\beta )} \over \int _{y=0}^{1}\left({s+f \choose s}y^{s+\alpha -1}(1-y)^{f+\beta -1}/\mathrm {B} (\alpha ,\beta )\right)dy}={x^{s+\alpha -1}(1-x)^{f+\beta -1} \over \mathrm {B} (s+\alpha ,f+\beta )},

la quale è un'altra distribuzione Beta con una semplice variazione a(gli iper)parametri. Questa distribuzione a posteriori potrebbe quindi essere usata come una distribuzione a priori per ulteriori campionamenti, con gli iperparametri includenti ogni altra ulteriore informazione come questa sopraggiunge.

Pseudo-osservazioni

Spesso è utile pensare gli iperparametri come corrispondenti ad un certo numero di pseudo-osservazioni con proprietà specificate dagli iperparametri. Per esempio, i valori $\alpha$ e $\beta$ della distribuzione Beta possono essere pensati come corrispondenti ad $\alpha -1$ successi e $\beta -1$ insuccessi se la moda a posteriori è usata per scegliere una selezione parametrica ottimale, oppure $\alpha$ successi e $\beta$ insuccessi se è stata scelta la media a posteriori. In generale per quasi tutte le distribuzioni a priori coniugate, gli iperparametri possono essere interpretati in termini di pseudo-osservazioni. Questo può aiutare sia per intuire la forma delle equazioni, sia per aiutare nella scelta di iperparametri ragionevoli per la distribuzione a priori.

Interpretazioni

Analogia con le autofunzioni

Le distribuzioni a priori coniugate sono analoghe alle autofunzioni nella teoria degli operatori, in quanto sono distribuzioni sulle quali agisce l'"operatore di condizionamento" per fornire la distribuzione a posteriori.

In entrambi i casi, c'è uno spazio di dimensione finita che è preservato dall'operatore: il risultato è della stessa forma (nel medesimo spazio iniziale) della funzione su cui agisce l'operatore. Questo semplifica grandemente l'analisi, che altrimenti considererebbe uno spazio dimensionalmente infinito (spazio di tutte le funzioni, spazio di tutte le distribuzioni di probabilità).

Tuttavia i due processi sono solo analoghi, non identici: l'operatore di condizionamento non è lineare, in quanto lo spazio delle distribuzioni non è chiuso sotto combinazione lineare, solamente combinazione convessa, e la distribuzione a posteriori è solo della stessa forma di quella a priori, non un multiplo scalare.

Difatti essendo possibile facilmente analizzare come una combinazione lineare di autofunzioni evolve sotto l'applicazione di un operatore, allo stesso modo è possibile facilmente analizzare l'evoluzione di una combinazione convessa di distribuzioni a priori coniugate sotto l'operatore di condizionamento. Questo ultimo è chiamato usando una distribuzione a iperpriori, ed equivale ad impiegare una miscela di densità di distribuzioni a priori coniugate, piuttosto che una singola distribuzione a priori coniugata.

Sistema dinamico

È possibile pensare il condizionamento su distribuzioni a priori coniugate come un tipo di sistema dinamico (con unità temporali discrete): a partire da un dato insieme di iperparametri, i dati man mano sopraggiungenti aggiornano tali parametri, così è possibile vedere la loro variazione come una sorta di "evoluzione temporale", corrispondente ad un "apprendimento". Partenze da punti distinti forniscono differenti evoluzioni temporali. Questo è ancora analogo ad un sistema dinamico definito mediante un operatore lineare, ma si noti che poiché campioni distinti conducono a inferenze differenti, non c'è una semplice dipendenza dal tempo ma piuttosto su dati evolventi nel tempo. Per approcci collegati cfr. stima bayesiana ricorsiva e assimilazione di dati (data assimilation).

Tabella delle distribuzioni coniugate

Nella tabella seguente $n$ indica il numero di osservazioni.

Se la funzione di verosimiglianza appartiene alla famiglia esponenziale, allora esiste una distribuzione a priori coniugata, spesso anche all'interno della famiglia esponenziale.

Distribuzioni di verosimiglianza discrete

Verosimiglianza	Parametri del modello	Distribuzione a priori coniugata	Iperparametri della distr. a priori	Iperparametri della distr. a posteriori	Interpretazione degli iperparametri^{[nota 1]}	Distr. predittiva a posteriori^{[nota 2]}
Bernoulli	p (probabilità)	Beta	$\alpha ,\,\beta \!$	$\alpha +\sum _{i=1}^{n}x_{i},\,\beta +n-\sum _{i=1}^{n}x_{i}\!$	$\alpha -1$ successi, $\beta -1$ insuccessi^{[nota 1]}	$p({\tilde {x}}=1)={\frac {\alpha '}{\alpha '+\beta '}}$
Binomiale	p (probabilità)	Beta	$\alpha ,\,\beta \!$	$\alpha +\sum _{i=1}^{n}x_{i},\,\beta +\sum _{i=1}^{n}N_{i}-\sum _{i=1}^{n}x_{i}\!$	$\alpha -1$ successi, $\beta -1$ insuccessi^{[nota 1]}	$\operatorname {BetaBin} ({\tilde {x}}\|\alpha ',\beta ')$ (beta-binomiale)
Binomiale Negativa con numero noto di insuccessi r	p (probabilità)	Beta	$\alpha ,\,\beta \!$	$\alpha +\sum _{i=1}^{n}x_{i},\,\beta +rn\!$	$\alpha -1$ totale successi, $\beta -1$ insuccessi^{[nota 1]} (cioè ${\frac {\beta -1}{r}}$ esperimenti, assumendo che $r$ rimanga fissato)
Poisson	λ (rateo)	Gamma	$k,\,\theta \!$	$k+\sum _{i=1}^{n}x_{i},\ {\frac {\theta }{n\theta +1}}\!$	$k$ occorrenze totali in $1/\theta$ intervalli	$\operatorname {NB} ({\tilde {x}}\|k',{\frac {1}{1+\theta '}})$ (binomiale negativa)
Poisson	λ (rateo)	Gamma	$\alpha ,\,\beta \!$ ^{[nota 3]}	$\alpha +\sum _{i=1}^{n}x_{i},\ \beta +n\!$	$\alpha$ occorrenze totali in $\beta$ intervalli	$\operatorname {NB} ({\tilde {x}}\|\alpha ',{\frac {\beta '}{1+\beta '}})$ (binomiale negativa)
Categoriale	p (vettore probabilità), k (numero di categorie, cioè la dimensione di p)	Dirichlet	${\boldsymbol {\alpha }}\!$	${\boldsymbol {\alpha }}+(c_{1},\ldots ,c_{k}),$ dove $c_{i}$ è il numero di osservazioni nella categoria i	$\alpha _{i}-1$ occorrenze di categoria $i$ ^{[nota 1]}	$p({\tilde {x}}=i)={\frac {{\alpha _{i}}'}{\sum _{i}{\alpha _{i}}'}}$ $={\frac {\alpha _{i}+c_{i}}{\sum _{i}\alpha _{i}+n}}$
Multinomiale	p (vettore probabilità), k (numero di categorie, cioè la dimensione di p)	Dirichlet	${\boldsymbol {\alpha }}\!$	${\boldsymbol {\alpha }}+\sum _{i=1}^{n}\mathbf {x} _{i}\!$	$\alpha _{i}-1$ occorrenze di categoria $i$ ^{[nota 1]}	$\operatorname {DirMult} ({\tilde {\mathbf {x} }}\|{\boldsymbol {\alpha }}')$ (Dirichlet multinomiale)
Ipergeometrica con dimensione della popolazione totale N	M (numero di membri bersaglio)	Beta-binomiale ^[4] \|\| $n=N,\alpha ,\,\beta \!$ \|\| $\alpha +\sum _{i=1}^{n}x_{i},\,\beta +\sum _{i=1}^{n}N_{i}-\sum _{i=1}^{n}x_{i}\!$	$\alpha -1$ successi, $\beta -1$ insuccessi^{[nota 1]}
Geometrica	p₀ (probabilità)	Beta	$\alpha ,\,\beta \!$	$\alpha +n,\,\beta +\sum _{i=1}^{n}x_{i}\!$	$\alpha -1$ esperimenti, $\beta -1$ insuccessi totali^{[nota 1]}

Distribuzioni di verosimiglianza continue

Nota: In tutti i casi sotto, si assume che i dati consistano di $n$ punti $x_{1},\ldots ,x_{n}$ (che saranno vettori casuali nei casi multivariati).

Verosimiglianza	Parametri del modello	Distribuzione a priori coniugata	Iperparametri della distr. a priori	Iperparametri della distr. a posteriori	Interpretazione degli iperparametri	Distribuzione predittiva a posteriori^{[nota 4]}
Normale con varianza nota σ²	μ (media)	Normale	$\mu _{0},\,\sigma _{0}^{2}\!$	$\left.\left({\frac {\mu _{0}}{\sigma _{0}^{2}}}+{\frac {\sum _{i=1}^{n}x_{i}}{\sigma ^{2}}}\right)\right/\left({\frac {1}{\sigma _{0}^{2}}}+{\frac {n}{\sigma ^{2}}}\right),$ $\left({\frac {1}{\sigma _{0}^{2}}}+{\frac {n}{\sigma ^{2}}}\right)^{-1}$	la media è stimata da osservazioni con precisione totale (somma di tutte le precisioni individuali) $1/\sigma _{0}^{2}$ e con media campionaria $\mu _{0}$	${\mathcal {N}}({\tilde {x}}\|\mu _{0}',{\sigma _{0}^{2}}'+\sigma ^{2})$ ^[5]
Normale con precisione nota τ	μ (media)	Normale	$\mu _{0},\,\tau _{0}\!$	$\left.\left(\tau _{0}\mu _{0}+\tau \sum _{i=1}^{n}x_{i}\right)\right/(\tau _{0}+n\tau ),\,\tau _{0}+n\tau$	la media è stimata da osservazioni con precisione totale (somma di tutte le precisioni individuali) $\tau _{0}$ e con media campionaria $\mu _{0}$	${\mathcal {N}}\left({\tilde {x}}\|\mu _{0}',\left({\frac {1}{\tau _{0}'}}+{\frac {1}{\tau }}\right)^{-1}\right)$ ^[5]
Normale con media nota μ	σ² (varianza)	Gamma inversa	$\mathbf {\alpha ,\,\beta }$ ^{[nota 5]}	$\mathbf {\alpha } +{\frac {n}{2}},\,\mathbf {\beta } +{\frac {\sum _{i=1}^{n}{(x_{i}-\mu )^{2}}}{2}}$	la varianza è stimata da $2\alpha$ osservazioni varianza campione ${\frac {\beta }{\alpha }}$ (cioè con somma di deviazioni quadratiche $2\beta$ )	$t_{2\alpha '}({\tilde {x}}\|\mu ,\sigma ^{2}=\beta '/\alpha ')$ ^[5]
Normale con media nota μ	σ² (varianza)	Chi-quadro inversa scalata	$\nu ,\,\sigma _{0}^{2}\!$	$\nu +n,\,{\frac {\nu \sigma _{0}^{2}+\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{\nu +n}}\!$	la varianza è stimata da $\nu$ osservazioni con varianza campione $\sigma _{0}^{2}$	$t_{\nu '}({\tilde {x}}\|\mu ,{\sigma _{0}^{2}}')$ ^[5]
Normale con media nota μ	τ (precisione)	Gamma	$\alpha ,\,\beta \!$ ^{[nota 3]}	$\alpha +{\frac {n}{2}},\,\beta +{\frac {\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{2}}\!$	la precisione è stimata da $2\alpha$ osservazioni con varianza campione ${\frac {\beta }{\alpha }}$ (cioè con somma di deviazioni quadratiche $2\beta$ )	$t_{2\alpha '}({\tilde {x}}\|\mu ,\sigma ^{2}=\beta '/\alpha ')$ ^[5]
Normale	μ and σ² Assumendo scambiabilità	Gamma normale-inversa	$\mu _{0},\,\nu ,\,\alpha ,\,\beta$	${\frac {\nu \mu _{0}+n{\bar {x}}}{\nu +n}},\,\nu +n,\,\alpha +{\frac {n}{2}},\,$ $\beta +{\tfrac {1}{2}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+{\frac {n\nu }{\nu +n}}{\frac {({\bar {x}}-\mu _{0})^{2}}{2}}$ ${\bar {x}}$ è la media campionaria	la media è stimata da $\nu$ osservazioni con media campionaria $\mu _{0}$ ; la varianza è stimata da $2\alpha +1$ osservazioni con media campionaria $\mu _{0}$ e varianza campione ${\frac {\beta }{\alpha }}$ (cioè come somma di deviazioni quadratiche $2\beta$ )	$t_{2\alpha '}\left({\tilde {x}}\|\mu ',{\frac {\beta '(\nu '+1)}{\alpha '\nu '}}\right)$ ^[5]
Normale	μ e τ Assumendo scambiabilità	normale-Gamma	$\mu _{0},\,\nu ,\,\alpha ,\,\beta$	${\frac {\nu \mu _{0}+n{\bar {x}}}{\nu +n}},\,\nu +n,\,\alpha +{\frac {n}{2}},\,$ $\beta +{\tfrac {1}{2}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+{\frac {n\nu }{\nu +n}}{\frac {({\bar {x}}-\mu _{0})^{2}}{2}}$ ${\bar {x}}$ è la media campionaria	la media è stimata da $\nu$ osservazioni con media campionaria $\mu _{0}$ , e la precisione è stimata da $2\alpha +1$ osservazioni con media campionaria $\mu _{0}$ e varianza campione ${\frac {\beta }{\alpha }}$ (cioè come somma di deviazioni quadratiche $2\beta$ )	$t_{2\alpha '}\left({\tilde {x}}\|\mu ',{\frac {\beta '(\nu '+1)}{\alpha '\nu '}}\right)$ ^[5]
Normale multivariata con matrice di covarianza nota Σ	μ (media vettore)	Normale multivariata	${\boldsymbol {\boldsymbol {\mu }}}_{0},\,{\boldsymbol {\Sigma }}_{0}$	$\left({\boldsymbol {\Sigma }}_{0}^{-1}+n{\boldsymbol {\Sigma }}^{-1}\right)^{-1}\left({\boldsymbol {\Sigma }}_{0}^{-1}{\boldsymbol {\mu }}_{0}+n{\boldsymbol {\Sigma }}^{-1}\mathbf {\bar {x}} \right),$ $\left({\boldsymbol {\Sigma }}_{0}^{-1}+n{\boldsymbol {\Sigma }}^{-1}\right)^{-1}$ $\mathbf {\bar {x}}$ è la media campionaria	la media è stimata da osservazioni con precisione totale (somma di tutte le precisioni individuali) ${\boldsymbol {\Sigma }}_{0}^{-1}$ e con media campionaria ${\boldsymbol {\mu }}_{0}$	${\mathcal {N}}({\tilde {\mathbf {x} }}\|{{\boldsymbol {\mu }}_{0}}',{{\boldsymbol {\Sigma }}_{0}}'+{\boldsymbol {\Sigma }})$ ^[6]
Normale multivariata con matrice di precisione nota Λ	μ (media vettore)	Normale multivariata	$\mathbf {\boldsymbol {\mu }} _{0},\,{\boldsymbol {\Lambda }}_{0}$	$\left({\boldsymbol {\Lambda }}_{0}+n{\boldsymbol {\Lambda }}\right)^{-1}\left({\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}+n{\boldsymbol {\Lambda }}\mathbf {\bar {x}} \right),\,\left({\boldsymbol {\Lambda }}_{0}+n{\boldsymbol {\Lambda }}\right)$ $\mathbf {\bar {x}}$ è la media campionaria	la media è stimata da osservazioni con precisione totale (somma di tutte le precisioni individuali) ${\boldsymbol {\Lambda }}$ e con media campionaria ${\boldsymbol {\mu }}_{0}$	${\mathcal {N}}\left({\tilde {\mathbf {x} }}\|{{\boldsymbol {\mu }}_{0}}',({{{\boldsymbol {\Lambda }}_{0}}'}^{-1}+{\boldsymbol {\Lambda }}^{-1})^{-1}\right)$ ^[5]
Normale multivariata con media nota μ	Σ (matrice di covarianza)	Wishart-inversa	$\nu ,\,{\boldsymbol {\Psi }}$	$n+\nu ,\,{\boldsymbol {\Psi }}+\sum _{i=1}^{n}(\mathbf {x_{i}} -{\boldsymbol {\mu }})(\mathbf {x_{i}} -{\boldsymbol {\mu }})^{T}$	varianza è stimata da $\nu$ osservazioni con somma di deviazioni quadratiche ${\boldsymbol {\Psi }}$	$t_{\nu '-p+1}\left({\tilde {\mathbf {x} }}\|{\boldsymbol {\mu }},{\frac {1}{\nu '-p+1}}{\boldsymbol {\Psi }}'^{-1}\right)$ ^[5]
Normale multivariata con media nota μ	Λ (matrice di precisione)	Wishart	$\nu ,\,\mathbf {V}$	$n+\nu ,\,\left(\mathbf {V} ^{-1}+\sum _{i=1}^{n}(\mathbf {x_{i}} -{\boldsymbol {\mu }})(\mathbf {x_{i}} -{\boldsymbol {\mu }})^{T}\right)^{-1}$	la precisione è stimata da $\nu$ osservazioni con somma di deviazioni quadratiche $\mathbf {V} ^{-1}$	$t_{\nu '-p+1}\left({\tilde {\mathbf {x} }}\|{\boldsymbol {\mu }},{\frac {1}{\nu '-p+1}}{\boldsymbol {\Lambda }}'\right)$ ^[5]
Normale multivariata	μ (media vettore) and Σ (matrice di covarianza)	Wishart normale-inversa	${\boldsymbol {\mu }}_{0},\,\kappa _{0},\,\nu _{0},\,{\boldsymbol {\Psi }}$	${\frac {\kappa _{0}{\boldsymbol {\mu }}_{0}+n\mathbf {\bar {x}} }{\kappa _{0}+n}},\,\kappa _{0}+n,\,\nu _{0}+n,\,$ ${\boldsymbol {\Psi }}+\mathbf {C} +{\frac {\kappa _{0}n}{\kappa _{0}+n}}(\mathbf {\bar {x}} -{\boldsymbol {\mu }}_{0})(\mathbf {\bar {x}} -{\boldsymbol {\mu }}_{0})^{T}$ $\mathbf {\bar {x}}$ è la media campionaria $\mathbf {C} =\sum _{i=1}^{n}(\mathbf {x_{i}} -\mathbf {\bar {x}} )(\mathbf {x_{i}} -\mathbf {\bar {x}} )^{T}$	la media è stimata da $\kappa _{0}$ osservazioni con media campionaria ${\boldsymbol {\mu }}_{0}$ ; la varianza è stimata da $\nu _{0}$ osservazioni con media campionaria ${\boldsymbol {\mu }}_{0}$ e con somma di deviazioni quadratiche ${\boldsymbol {\Psi }}$	$t_{{\nu _{0}}'-p+1}\left({\tilde {\mathbf {x} }}\|{{\boldsymbol {\mu }}_{0}}',{\frac {{\kappa _{0}}'+1}{{\kappa _{0}}'({\nu _{0}}'-p+1)}}{\boldsymbol {\Psi }}'^{-1}\right)$ ^[5]
Normale multivariata	μ (media vettore) and Λ (matrice di precisione)	Wishart normale	$\mathbf {\boldsymbol {\mu }} _{0},\,\kappa _{0},\,\nu _{0},\,{\boldsymbol {\Lambda }}_{0}$	${\frac {\kappa _{0}{\boldsymbol {\mu }}_{0}+n\mathbf {\bar {x}} }{\kappa _{0}+n}},\,\kappa _{0}+n,\,\nu _{0}+n,\,$ $\left({\boldsymbol {\Lambda }}_{0}^{-1}+\mathbf {C} +{\frac {\kappa _{0}n}{\kappa _{0}+n}}(\mathbf {\bar {x}} -\mathbf {\boldsymbol {\mu }} _{0})(\mathbf {\bar {x}} -\mathbf {\boldsymbol {\mu }} _{0})^{T}\right)^{-1}$ $\mathbf {\bar {x}}$ è la media campionaria $\mathbf {C} =\sum _{i=1}^{n}(\mathbf {x_{i}} -\mathbf {\bar {x}} )(\mathbf {x_{i}} -\mathbf {\bar {x}} )^{T}$	la media è stimata da $\kappa _{0}$ osservazioni con media campionaria ${\boldsymbol {\mu }}_{0}$ ; la varianza è stimata da $\nu _{0}$ osservazioni con media campionaria ${\boldsymbol {\mu }}_{0}$ e con somma di deviazioni quadratiche ${\boldsymbol {\Lambda }}_{0}^{-1}$	$t_{{\nu _{0}}'-p+1}\left({\tilde {\mathbf {x} }}\|{{\boldsymbol {\mu }}_{0}}',{\frac {{\kappa _{0}}'+1}{{\kappa _{0}}'({\nu _{0}}'-p+1)}}{\boldsymbol {\Lambda }}'\right)$ ^[5]
Uniforme	$U(0,\theta )\!$	Pareto	$x_{m},\,k\!$	$\max\{\,x_{1},\ldots ,x_{n},x_{\mathrm {m} }\},\,k+n\!$	$k$ osservazioni con valore massimo $x_{m}$
Pareto con minimo noto x_m	k (forma)	Gamma	$\alpha ,\,\beta \!$	$\alpha +n,\,\beta +\sum _{i=1}^{n}\ln {\frac {x_{i}}{x_{\mathrm {m} }}}\!$	$\alpha$ osservazioni con somma $\beta$ dell'ordine di grandezza di ogni osservazione (cioè il logaritmo del quoziente tra ciascuna osservazione e il minimo $x_{m}$ )
Weibull con forma nota β	θ (scale)	Gamma inversa^[4]	$a,b\!$	$a+n,\,b+\sum _{i=1}^{n}x_{i}^{\beta }\!$	$a$ osservazioni con somma $b$ della β'-esima potenza di ogni osservazione
Weibull con fattore di scala noto θ	β (forma)	$\propto \beta ^{a}e^{-b\beta -{\frac {d^{\beta }}{\theta }}}$ ^[4]	$a,b,d\!$	$a+n,\,b-\sum _{i=1}^{n}\ln x_{i},\,d^{\beta }+\sum _{i=1}^{n}x^{\beta }\!$	$a$ osservazioni con somma $b$ del logaritmo di ogni osservazione e della somma $d$ della β'-esima potenza di ogni osservazione
Log-normale con precisione nota τ	μ (media)	Normale^[4]	$\mu _{0},\,\tau _{0}\!$	$\left.\left(\tau _{0}\mu _{0}+\tau \sum _{i=1}^{n}x_{i}\right)\right/(\tau _{0}+n\tau ),\,\tau _{0}+n\tau$	"media" è stimata da osservazioni con precisione totale (somma di tutte le precisioni individuali) $\tau _{0}$ e con media campionaria $\mu _{0}$
Log-normale con media nota μ	τ (precisione)	Gamma^[4]	$\alpha ,\,\beta \!$ ^{[nota 3]}	$\alpha +{\frac {n}{2}},\,\beta +{\frac {\sum _{i=1}^{n}(\ln x_{i}-\mu )^{2}}{2}}\!$	la precisione è stimata da $2\alpha$ osservazioni con varianza campione ${\frac {\beta }{\alpha }}$ (cioè come somma di deviazioni log-quadratiche $2\beta$ — cioè deviazioni tra il logaritmo dei dati puntuali e la "media")
Esponenziale	λ (rateo)	Gamma	$\alpha ,\,\beta \!$ ^{[nota 3]}	$\alpha +n,\,\beta +\sum _{i=1}^{n}x_{i}\!$	$\alpha$ osservazioni che sommano a $\beta$
Gamma con forma nota α	β (rateo)	Gamma	$\alpha _{0},\,\beta _{0}\!$	$\alpha _{0}+n\alpha ,\,\beta _{0}+\sum _{i=1}^{n}x_{i}\!$	$\alpha _{0}$ osservazioni con somma $\beta _{0}$	$\operatorname {CG} ({\tilde {\mathbf {x} }}\|\alpha ,{\alpha _{0}}',{\beta _{0}}')=\operatorname {\beta '} ({\tilde {\mathbf {x} }}\|\alpha ,{\alpha _{0}}',1,{\beta _{0}}')$ ^{[nota 6]}
Gamma inversa con forma nota α	β (scala inversa)	Gamma	$\alpha _{0},\,\beta _{0}\!$	$\alpha _{0}+n\alpha ,\,\beta _{0}+\sum _{i=1}^{n}{\frac {1}{x_{i}}}\!$	$\alpha _{0}$ osservazioni con somma $\beta _{0}$
Gamma con rateo noto β	α (forma)	$\propto {\frac {a^{\alpha -1}\beta ^{\alpha c}}{\Gamma (\alpha )^{b}}}$	$a,\,b,\,c\!$	$a\prod _{i=1}^{n}x_{i},\,b+n,\,c+n\!$	$b$ o $c$ osservazioni ( $b$ per stimare $\alpha$ , $c$ per stimare $\beta$ ) con prodotto $a$
Gamma ^[4]	α (forma), β (scala inversa)	$\propto {\frac {p^{\alpha -1}e^{-\beta q}}{\Gamma (\alpha )^{r}\beta ^{-\alpha s}}}$	$p,\,q,\,r,\,s\!$	$p\prod _{i=1}^{n}x_{i},\,q+\sum _{i=1}^{n}x_{i},\,r+n,\,s+n\!$	$\alpha$ è stimata da $r$ osservazioni con prodotto $p$ ; $\beta$ è stimato da $s$ osservazioni con somma $q$

Note

Esplicative

^ Howard Raiffa and Robert Schlaifer. Applied Statistical Decision Theory. Division of Research, Graduate School of Business Administration, Harvard University, 1961.
^ Jeff Miller et al. Earliest Known Uses of Some of the Words of Mathematics, "conjugate prior distributions". Electronic document, revision of November 13, 2005, retrieved December 2, 2005.
^ Andrew Gelman, John B. Carlin, Hal S. Stern, and Donald B. Rubin. Bayesian Data Analysis, 2nd edition. CRC Press, 2003. ISBN 1-58488-388-X.
^ ^a ^b ^c ^d ^e ^f D. Fink, A Compendium of Conjugate Priors, in DOE contract 95‑831, 1997, CiteSeerX: 10.1.1.157.5540.
^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l Murphy, Kevin P. (2007). "Conjugate Bayesian analysis of the Gaussian distribution." [1]
^ Murphy, Kevin P. (2007). "Conjugate Bayesian analysis of the Gaussian distribution." [2] Si noti che ${\mathcal {N}}()$ è una Distribuzione normale o una distribuzione normale multivariata; $t_{n}()$ è una distribuzione t di Student o una distribuzione di Student multivariata.

Bibliografiche

^ ^a ^b ^c ^d ^e ^f ^g ^h L'esatta interpretazione dei parametri di una distribuzione Beta in termini di numero di successi ed insuccessi dipende da quale funzione è usata per estrarre una stima puntuale dalla distribuzione. La moda della distribuzione Beta è ${\frac {\alpha -1}{\alpha +\beta -2}},$ la quale corrisponde a $\alpha -1$ successi e $\beta -1$ insuccessi; ma la media è ${\frac {\alpha }{\alpha +\beta }},$ la quale corrisponde a $\alpha$ successi e $\beta$ insuccessi. L'impiego di $\alpha -1$ e $\beta -1$ ha il vantaggio che una distribuzione a priori uniforme ${\rm {Beta}}(1,1)$ corrisponde a 0 successi e 0 insuccessi, ma l'impiego di $\alpha$ e $\beta$ è in qualche modo matematicamente più conveniente ed anche ben corrisponde con l fatto che i bayesiani generalmente preferiscono usare la media a posteriori piuttosto che la moda a posteriori come stima puntuale. Lo stesso discorso si applica alla Distribuzione di Dirichlet.
^ Questa è la distribuzione predittiva a posteriori del nuovo dato puntuale ${\tilde {x}}$ una volta risultati i dati puntuali, con i parametri marginalizzati fuori. Variabili con l'apostrofo indicano i valori a posteriori dei parametri.
^ ^a ^b ^c ^d β è il rateo o scala inversa. Nella parametrizzazione della distribuzione Gamma,θ = 1/β e k = α.
^ Questa è la distribuzione predittiva a posteriori di un nuovo dato puntuale ${\tilde {x}}$ una volta risultanti i dati puntuali osservati, con i parametri marginalizzati fuori. Variabili con l'apostrofo indicano i valori a posteriori dei parametri. ${\mathcal {N}}$ e $t_{n}$ si riferiscono alla Distribuzione normale ed alla Distribuzione t di Student, rispettivamente, o alla distribuzione normale multivariata e alla distribuzione t multivariata nei casi multivariati.
^ In termini della Gamma inversa, $\beta$ e un parametro di scala
^ $\operatorname {CG} ()$ e una distribuzione Gamma composta; $\operatorname {\beta '} ()$ qui è una distribuzione Beta del secondo tipo generalizzata (distribuzione Beta del secondo tipo generalizzata).

Collegamenti esterni

Calcolo passo-passo degli iperparametri della distribuzione normale a posteriori, su eisber.net. URL consultato il 1º luglio 2020 (archiviato dall'url originale l'11 novembre 2016).

Portale Matematica

Portale Statistica

[raiffa_schlaifer-1] Howard Raiffa and Robert Schlaifer. Applied Statistical Decision Theory. Division of Research, Graduate School of Business Administration, Harvard University, 1961.

[miller-2] Jeff Miller et al. Earliest Known Uses of Some of the Words of Mathematics, "conjugate prior distributions". Electronic document, revision of November 13, 2005, retrieved December 2, 2005.

[gelman_et_al-3] Andrew Gelman, John B. Carlin, Hal S. Stern, and Donald B. Rubin. Bayesian Data Analysis, 2nd edition. CRC Press, 2003. ISBN 1-58488-388-X.

[Fink-7] ^ ^a ^b ^c ^d ^e ^f D. Fink, A Compendium of Conjugate Priors, in DOE contract 95‑831, 1997, CiteSeerX: 10.1.1.157.5540.

[murphy-9] ^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l Murphy, Kevin P. (2007). "Conjugate Bayesian analysis of the Gaussian distribution." [1]

[murphy2-11] Murphy, Kevin P. (2007). "Conjugate Bayesian analysis of the Gaussian distribution." [2] Si noti che ${\mathcal {N}}()$ è una Distribuzione normale o una distribuzione normale multivariata; $t_{n}()$ è una distribuzione t di Student o una distribuzione di Student multivariata.

[beta-interp-4] ^ ^a ^b ^c ^d ^e ^f ^g ^h L'esatta interpretazione dei parametri di una distribuzione Beta in termini di numero di successi ed insuccessi dipende da quale funzione è usata per estrarre una stima puntuale dalla distribuzione. La moda della distribuzione Beta è ${\frac {\alpha -1}{\alpha +\beta -2}},$ la quale corrisponde a $\alpha -1$ successi e $\beta -1$ insuccessi; ma la media è ${\frac {\alpha }{\alpha +\beta }},$ la quale corrisponde a $\alpha$ successi e $\beta$ insuccessi. L'impiego di $\alpha -1$ e $\beta -1$ ha il vantaggio che una distribuzione a priori uniforme ${\rm {Beta}}(1,1)$ corrisponde a 0 successi e 0 insuccessi, ma l'impiego di $\alpha$ e $\beta$ è in qualche modo matematicamente più conveniente ed anche ben corrisponde con l fatto che i bayesiani generalmente preferiscono usare la media a posteriori piuttosto che la moda a posteriori come stima puntuale. Lo stesso discorso si applica alla Distribuzione di Dirichlet.

[5] Questa è la distribuzione predittiva a posteriori del nuovo dato puntuale ${\tilde {x}}$ una volta risultati i dati puntuali, con i parametri marginalizzati fuori. Variabili con l'apostrofo indicano i valori a posteriori dei parametri.

[beta_rate-6] β è il rateo o scala inversa. Nella parametrizzazione della distribuzione Gamma,θ = 1/β e k = α.

[8] Questa è la distribuzione predittiva a posteriori di un nuovo dato puntuale ${\tilde {x}}$ una volta risultanti i dati puntuali osservati, con i parametri marginalizzati fuori. Variabili con l'apostrofo indicano i valori a posteriori dei parametri. ${\mathcal {N}}$ e $t_{n}$ si riferiscono alla Distribuzione normale ed alla Distribuzione t di Student, rispettivamente, o alla distribuzione normale multivariata e alla distribuzione t multivariata nei casi multivariati.

[10] In termini della Gamma inversa, $\beta$ e un parametro di scala

[12] $\operatorname {CG} ()$ e una distribuzione Gamma composta; $\operatorname {\beta '} ()$ qui è una distribuzione Beta del secondo tipo generalizzata (distribuzione Beta del secondo tipo generalizzata).

[1]

[2]

[3]

[nota 1]

[nota 2]

[nota 3]

[4]

[nota 4]

[5]

[nota 5]

[6]

[nota 6]