Analisi Statistica Di Dati Biomedici
Analisi Statistica Di Dati Biomedici
Analisi Statistica Di Dati Biomedici
STATISTICA DESCRITTIVA:
insieme dei metodi che riguardano raccolta, presentazione e
sintesi di un insieme di dati per descriverne le caratteristiche
essenziali
STATISTICA INFERENZIALE:
insieme dei metodi con cui si possono elaborare i dati dei
campioni per dedurne omogeneit o differenze nelle
caratteristiche analizzate
PROCEDURA CORRETTA:
PRIMA DI PROGETTARE UNA RICERCA ANALIZZARE
QUALE METODOLOGIA STATISTICA UTILIZZARE E
QUINDI RACCOGLIERE I DATI
NO PRIMA I DATI E POI SCEGLIERE IL METODO
STATISTICO
-- SINGOLO, DOPPIO O TRIPLO CIECO
--------------------STUDI DI:
- COORTE (LONGITUDINALI) => NEL TEMPO SUGLI
STESSI SOGGETTI (prospettico o retrospettivo)
- CROSS-SECTIONAL (TRASVERSALI) => 1 MISURA PER
SOGGETTO DI UNA POPOLAZ. IN UN DET. MOMENTO
- CASI-CONTROLLO (LONGITUDINALI) => 1 FATTORE
SU 2 GRUPPI
STRUMENTI STATISTICI
CARATTERE = VARIABILE
MODALITA = VALORE
CARATTERE
QUALITATIVO
QUANTITATIVO
(=> CONTEGGI)
NOMINALE
ORDINALE
A INTERVALLI
NON ORDINATO
ORDINATO O ORDINABILE*
NUMERABILE**
RILEVAZIONI:
- SALTUARIE / CONTINUE
- PUBBLICHE / PRIVATE
- PARZIALI (CAMPIONI) / TOTALI (POPOLAZIONE)
RICHIEDONO:
- PERIODO DI RACCOLTA DATI
- GRADO DI PRECISIONE
- SCHEDE/QUESTIONARI X COSTRUIRE TABELLE
- IPOTESI STATISTICHE
- ..
PRODUCONO DATI STATISTICI DIVISI IN CLASSI O
TABELLE DI CLASSI DI MEDESIMA O DIFFERENTE
AMPIEZZA (MAX 10-20 CLASSI NON SOVRAPPOSTE)
CLASSI DI Y
Y1 Y2
n11 n12
n21 ..
..
nh1 nh2
..
...
n01
n02
TOTALI
Yk
n1k
n10
nhk
..
nh0
n0k
DISTRIBUZIONE DI FREQUENZE/INTENSITA
...
...
...
Totale
Totale
, ,
possibili valori di x (o classi)
, , possibili valori di y (o classi)
frequenze (o intensit)
e
frequenze marginali (tengono conto di una sola variabile)
Le variabili continue sono caratterizzate dalla funzione densit
Le variabili discrete sono caratterizzate dalla funzione di frequenza
:
Conteggio del numero di foglie (variabile discreta) nate su 45 rami di uguale lunghezza
di una pianta in un dato intervallo di tempo :
563472323264393203346542367342513437021315045
Distribuzione di frequenze assolute e relative delle foglie:
classe (xi)
0
1
2
3
4
5
6
7
8
9
freq. assol. (ni)
3
3
7
12 7
5
4
3
0
1
freq. rel. (fi)
0,07 0,07 0,15 0,27 0,15 0,11 0,09 0,07 0,0 0,02
freq.cumulata 0,07 0,14 0,29 0,56 0,71 0,82 0,91 0,98 0,98 1
Quante classi di frequenza costruire?
- da un minimo di 4-5 ad un massimo di 15-20 in funzione del numero di osservazioni
Infatti:
- se il numero di classi troppo basso: perdita dinformazione sulle caratteristiche della
distribuzione rendendola non significativa
- se il numero di classi troppo alto: dispersione dei valori e perdita della forma della
distribuzione
Non necessario costruire intervalli uguali; ma la loro rappresentazione grafica ed il
calcolo dei parametri fondamentali esigono alcune avvertenze non sempre intuitive
2:
Raggruppamento in classi di una variabile continua: altezza (cm) di 40 piante:
107 83 100 128 143 127 117 125 64 119 98 111 119 130 170 143 156 126 113 127
130 120 108 95 192 124 129 143 198 131 163 152 104 119 161 178 135 146 158 176
Distribuzione di frequenze assolute e relative (%) dell'altezza delle 40 piante :
classe (xi)
60-79 80-99 100-119 120-139 140-159 160-179 180-199
freq. ass. (ni)
1
3
10
12
7
5
2
freq. rel. ( fi)
2,5
7,5
25
30
17,5
12,5
5
freq. cumul.
2,5
10
35
65
82,5
95
100
Nota: la classe iniziale e terminale non devono essere aperte (es.: < 80 quella iniziale;
>180 quella finale), poich si perderebbe l'informazione del loro valore minimo e
massimo e quindi del valore centrale (indispensabili per calcolare la media e gli altri
parametri da essa derivati)
Curva frequenza cumulata
12
100
10
80
60
40
4
20
2
0
60
0
50
80
100
120
140
160
180
200
100
150
200
RAPPRESENTAZIONI
- ANALITICHE ESPRIMONO LEGAMI FUNZIONALI/MODELLI INTEPRETATIVI
- GRAFICHE DI DATI QUANTITATIVI, FORNISCONO:
una sintesi visiva delle caratteristiche fondamentali delle distribuzioni
impressioni percepite con maggiore facilit
meno particolari
una descrizione espressa mediante una interpretazione soggettiva
ISTOGRAMMI, POLIGONI E TORTE
16
Scatter diagram
12
10
4
variabile Y
14
8
6
0
-2
2
0
-5
-4
0
10
-6
-5
0
variabile X
x =
i=1
N
k
x =
i =1
k
i =1
(x
i =1
Media Geometrica:
x) = 0
OSS:
dove
la frequenza di ripetizione di
ni
(x
i =1
i =1
1
log M g =
N
xini
xi
ponderata:
g , pond
i =1
n log x
i =1
x in i
Mediana:
Me = x N +1
2
x N + x N +1
Se N pari
Me =
N
Ni
Me = b + 2
c
f
(Me-b):(N/2-Ni)=c:f
ESEMPIO.
Classi
Valore Classe
1
2
3
4
5
6
7
8
9
10
Totale
700
900
1100
1300
1500
1700
1900
2100
2300
2500
-
N elementi classe
o frequenza
12
21
52
70
68
36
16
11
9
5
300
Frequenza
cumulativa
12
33
85
155
223
259
275
286
295
300
-
f=155-85=70
La classe 4 contiene la MEDIANA, in quanto
si supera il valore 150 (met del totale
300). Da questo sappiamo quindi:
b= 1100
c=1300-1100=200
N=300
f=70
= 85
In definitiva avremo:
Me=1100 +
15085
200
70
= 1285.7
x
i =1
Moda:
il valore che presenta la massima frequenza (ovvero il max). Si possono avere pi massimi (bimodale,
trimodale, ecc. Serve per quei fenomeni che presentano tante unit con tendenza a presentarsi (
pi massimi). Si usa per variabili qualitative.
Campo di variazione: R=
"#
(x
$2 =
i =1
"
= deviazione standard
Varianza:
x ) ni
N (1)
x
i =1
2
i
ni
x2
NB: La correzione (-1) serve nei casi in cui N sia molto piccolo.
CV =
Coefficiente di variazione:
'(
)(
Skewness (asimmetria): b1 =
n ( xi x ) 3
i =1
n
2
( x i x )
i =1
Kurtosis (curtosi):
b2 =
n ( xi x ) 4
i =1
n
2
( xi x )
i =1
,= .-
-3
-2
-1
=0
+1
+2
+3
95%=1.96
99%=2.58
t-Student: simile alla Gaussiana, possibile variare il numero dei gradi di libert. La si usa ogni qual volta si
lavora su un campione piuttosto che su una popolazione, per tener conto di n e si ha solamente una stima di
$. Si definisce il parametro grado di libert, legato alla numerosit del campione. Per gdl>100 la
distribuzione assimilabile ad una Gaussiana.
/0 (chi quadrato): somma di tante gaussiane al quadrato. Con gdl=1, avr il quadrato di 1 sola Gaussiana.
/0k = 3=4 20
STATISTICA INFERENZIALE
La conduzione dellindagine (o ESPERIMENTO) un percorso di ricerca scientifica
articolabile in quattro fasi:
1 - disegno sperimentale
osservazioni in natura e ripetizioni in laboratorio non raccolte ed attuate a caso,
ma scelte e programmate in funzione della ricerca e delle ipotesi esplicative
chiarire a priori la formulazione dell'IPOTESI ESPLICATIVA (alternativa
all'IPOTESI NULLA)
Le eventuali differenze riscontrate dovranno essere imputate a
FATTORI CAUSALI SPECIFICI ?
oppure solamente a
FATTORI CASUALI IGNOTI ?
attribuibili alla naturale variabilit di misure e materiale utilizzato
2 - campionamento
- raccogliere i dati in funzione dello scopo della ricerca
- rispettare le caratteristiche della popolazione
Numero limitato di dati > conclusioni generali > tutta la popolazione (UNIVERSO)
STATISTICA INFERENZIALE
3 - descrizione dei dati raccolti per verificare l'adeguatezza di:
- disegno sperimentale
- campionamento
- analisi condotte
- risultati conseguiti
4 - utilizzo dei tests (programmati nel disegno sperimentale e in funzione dei
quali viene effettuato il campionamento)
processo logico-matematico che, mediante il calcolo di probabilit, porta
alla conclusione di non poter respingere oppure di dover respingere
l'ipotesi nulla
Soltanto con una corretta applicazione del campionamento e dei test di
confronto statistico possibile rispondere alla DOMANDA INFERENZIALE di
verifica dell'ipotesi nulla:
LE DIFFERENZE FRA LE OSSERVAZIONI EMPIRICHE SONO DOVUTE A FATTORI
PURAMENTE CASUALI ?
STATISTICA INFERENZIALE
Quale la probabilit che, fra le alternative possibili, si presenti proprio la
situazione descritta dai dati raccolti?
- probabilit alta (convenzionalmente => 5%) > fattori casuali
- probabilit bassa (convenzionalmente < 5%) > fattori non casuali
cio rientranti tra i criteri con cui i dati sono stati raggruppati
Analisi e conclusioni sono rese complesse fondamentalmente da tre aspetti:
- errori nelle misurazioni generati da strumenti e da differenti abilit degli
sperimentatori
- utilizzo di campioni: i dati utilizzati in una ricerca non sono mai identici a
quelli rilevati nelle altre
- fattori contingenti di disturbo: possono incidere in modo differente sul
fenomeno indagato (es.: tempo, luogo, )
INFERENZA STATISTICA
Per effettuare uno studio non utilizzo tutta la popolazione dinteresse, ma limito
lo studio ad un solo sottoinsieme, un CAMPIONE, per poi estendere i risultati a
tutta la popolazione => INFERENZA
Immaginiamo di avere a disposizione TUTTA la popolazione (di media < e
deviazione standard =)
Estraendo dei campioni lo si pu fare con 2 modalit: Esaustiva e Bernoulliana:
Esaustiva: estraggo un campione di n soggetti, in modo casuale, misurando
media " e deviazione standard > e non considero pi i soggetti scelti
Bernoulliana: estraggo ugualmente un campione di n soggetti casualmente,
misuro media e dev. std, ma poi i soggetti possono essere riestratti nel
successivo campione.
OSS: Nel nostro caso utilizzeremo SEMPRE lestrazione Bernoulliana!
.(
AB
C B<
=
2I0 ) = 1
1-
2I+
0.68
0.8
1.28
0.9
1.64
0.95
1.96
0.9544
0.99
2.58
0.9973
Un discorso analogo
vale se si utilizza una
coda e non due
I
0
rappresenta lincertezza
O .(4BO )
in quanto 2 = p*q
Esempio: epidemia di influenza, su 100 soggetti il 70% affetto da
influenza => f=0.7.
Valutare la bont della stima della vera % nella popolazione.
Scelgo 1-=0.9545 => Z /2=2
=> p=0.72*(0.7)(1-0.7)/100 = 0.70.09
p1=0.61, p2=0.79
Con probabilit 1- la vera p di cittadini affetti da influenza
compresa tra 61% e 79%
20I+ =0
0
S0
NB: Se $ non disponibile (come succede nella maggior parte dei
casi) estraggo un piccolo campione (~10) e cerco una sovrastima
della deviazione standard in maniera molto approssimativa
,UVB,
mediante la formula: $G =
W
= ((
^
Se non noto, il valore di p si pu stimarlo nel peggiore dei casi,
ovvero quando X = Y = 0.5.
ESEMPIO: Determinare la dimensione campionaria sufficiente per condurre una
ricerca con questionario sulle caratteristiche dei medici di base in Italia.
Fissando:
1 _ = 95.46% QR+ = 2
e
= 3% , X = Y = 0.5 (non noti a priori)
We.fe.f
Avremo che =
= 1111 cio con 1111 risposte prese a caso nella
e.eg(
popolazione dei medici di base vi saranno 95% di prob che i risultati del
campione siano validi con un margine di errore del 3%.
E importante notare che questo dato non vincolato dalla popolazione totale,
quindi se si fosse effettuato uno studio pi limitato a livello geografico (Regione
o Provincia,) il numero del campione sarebbe stato sempre di 1111 medici, alla
stregua dello studio Nazionale.
VIA NOMOGRAMMA