Domande Aperte Data Corretto

Scarica in formato pdf o txt
Scarica in formato pdf o txt
Sei sulla pagina 1di 51

BASE

DEF: Si chiama base l’insieme di vettori linearmente indipendenti aventi il medesimo punto di applicazione.
Tale punto di applicazione comune si chiama origine. Es:assi cartesiani sono una base ossia sono due vettori
che hanno lo stesso punto di origine e sono linearmente indipendenti.

DEF: base ortogonale è una base i cui vettori appartengono a direzioni poste a 90 ;◦

DEF: base ortonormale `e una base ortogonale i cui vettori sono versori. i vettori sono dei versori cioè
hanno lunghezza (norma) unitaria.

L’aspetto notevole degli spazi vettoriali `e che qualunque spazio Rp di dimensione p può essere generato da
una base. Quindi basta individuare la base per andare a costruire qualunque vettore nello spazio ma solo a
partire dalle tre dimensioni. Le coordinate sono dei numeri in funzione di una base che e costituita da 3
vettori. Questi concetti non si possono utilizzare quando non si ha lo spazio di riferimento.

DISTANZA O METRICA

La Distanza (o metrica), d(A,B) tra due punti qualunque definiti nello spazio Rp, è una funzione(regola che
mi serve per far passare da dominio a codominio) che ha come dominio uno spazio a p dimensione Rp e
come codominio uno spazio a una dimensione R quindi (Rp → R ). Questa trasformazione costituisce un
modo per condensare l’informazione.

Questa funzione (distanza o metrica) gode delle seguenti proprietà:

• NON NEGATIVITÀ: d(A,B) ≥ 0. Significa che è uguale a 0 o positiva quindi è una quantità non negativa

• SIMMETRIA: d(A,B) = d(B,A), cioè la distanza tra A e B è uguale a quella tra B e A;

• IDENTITÀ: A = B ↔ d(A,B) = 0, quindi se la distanza è 0 A=B

• DISUGUAGLIANZA TRIANGOLARE: d(A,B) ≤ d(A,C) + d(B,C) ,la distanza tra A e B è più piccola o al massimo
uguale alla distanza tra A e C + la distanza tra B e C.

Uno spazio su cui è definita una distanza è detto spazio metrico

OBIETTIVI ANALISI DEI GRUPPI

L’obiettivo è identificare gruppi omogenei (cluster), composti a un certo numero di unità statistiche, che
siano per l’appunto il più possibile omogenei (quindi che presentano poca variabilità) al loro interno ed
eterogenei al loro esterno. In questo modo si massimizzano le differenze esistenti tra gruppi distinti.
L’omogeneità o la disomogeneità tra i gruppi devono essere valutate rispetto ad un insieme di variabili. Il
numero dei gruppi deve essere ricercato perché non è noto a priori.

Esistono tre diverse tecniche di cluster:

1) tecniche di clustering: si partizionano gli n elementi iniziali in k gruppi (k sottoinsiemi)

2) tecniche di clumping (o overlapping clustering): a ciascuno degli n elementi viene assegnato un numero
che indica il grado di appartenenza ad un certo gruppo (1, 0, 0.5 rispettivamente: appartiene, non
appartiene, appartiene anche ad un altro/altri gruppo);

3) tecniche di fuzzy clustering: ad ogni elemento viene assegnato un numero compreso tra 0 ed 1 che
indica il grado di appartenenza ad un certo gruppo.
PRODOTTO SCALARE

Il PRODOTTO SCALARE tra due vettori a e b definiti su Rp è una operazione che associa alla coppia di vettori
a = (a1,a2,···ap), b = (b1,b2,···bp) un numero reale (cioè un punto in R1) così definito: <a*b>= a1b1 + a2b2 +
a3b3 + …. + apbp= sommatoria p(sopra) i=1 (sotto) aibi= a’b= b’a

PROPRIETA’ DEL PRODOTTO SCALARE Siano dati tre vettori a, b e c definiti nello stesso spazio metrico Rp e
lo scalare k. Valgono le seguenti proprietà

1. = (simmetria e commutatività); Perché se io faccio b1 · a1, o faccio a1 · b1 non cambia


assolutamente niente
2. <a · (b+c)> = =<a· b> + <a· c>
DIMOSTRAZIONE DIMOSTRAZIONE
< a· (b+c)>= < a·d>= a1d1+a2d2+…+apdp=
=a1·(b1+c1)+ a2·(b2+c2)+…+ ap·(bp+cp)=
=a1b1+ a1c1+ a2b2+ a2c2+...+apbp+ apcp=
=<a· b> + <a· c>
3. <ka · b>= K <a · b>
4. <a · a>>0 per a≠0

E’ possibile dimostrare che vale la seguente relazione tra prodotto scalare, norma e angolo formato dai
vettori a e b: <a*b> = modulo di a per modulo di b per cos teta

il Prodotto scalare, intanto è un’operazione che coinvolge due vettori, a e b, e questi due vettori sono
definiti in uno spazio Rp con componenti P. Quindi a è un oggetto definito da p numeri e anche b è
esattamente la stessa cosa. Allora il prodotto scalare tra a e b è un numero, quindi ancora è un’operazione
che mi permette di passare da Rp ad Ovviamente se supero le tre componenti non posso più fare una
rappresentazione grafica. Bene il prodotto scalare è una cosa molto banale e cioè, quello che devo fare è
semplicemente prendere le componenti corrispondenti, moltiplicarle tra di loro e poi fare la somma di
quello che ottengo. La relazione che lega il coseno, la norma e il prodotto scalare, in particolare il prodotto
scalare tra a e b, è uguale alla norma di a per la norma di b per il coseno che questi due vettori formano.

PRODOTTO SCALARE TRA VETTORE ED UN VERSORE

Riprendiamo l’ultima espressione del prodotto scalare modificandola in modo che uno dei due vettori abbia
norma unitaria: <a*e1> = modulo di a per modulo di e1 per cos teta

Allora, a questo punto, facciamo il prodotto scalare tra due vettori un vettore a e un altro vettore che
chiamo e1. e1 è un versore ossia ha la norma uguale a 1(norma unitaria) vuol dire effettivamente che
questo termine (e1), vale 1.

< a · e1 > = ǁ a ǁ · cos (θ) = ǁ aǁ

Questa situazione corrisponde al caso in cui abbiamo un vettore a, e proiettando questo vettore
ortogonalmente alla direzione identificata dal versore e1 , nel punto di incontro tra questa proiezione e
l’asse, identifichiamo un vettore che chiamiamo a ¿ . (Quando si effettua la proiezione di un vettore in un
sottospazio si ottiene un altro vettore, la norma del vettore proiezione dipenderà da questo angolo θ,
chiaramente le situazioni estreme sono:

1 La situazione nella quale Teta vale 0, per cui le due norme, la norma del vettore originale e la norma del
vettore proiezione coincidono;

2 il caso opposto, la situazione nella quale il vettore a è perpendicolare alla direzione dove io lo devo
proiettare, in questo caso la norma del vettore proiezione vale 0.
il coseno può valere un valore limitato superiormente e inferiormente da +1, -1, quindi sostanzialmente
questo significa che la norma del vettore proiezione è in generale più piccola nelle migliori delle ipotesi sarà
uguale alla norma del vettore originale. Quindi l’angolo, per via del coseno, mi misura di quanto la norma
del vettore proiezione si contrae rispetto a quella del vettore originale. Allora significa che a* è sempre
uguale alla norma del vettore originale per il coseno di Teta

L’unica cosa importante è che i vettori debbono stare nello stesso spazio, quindi devono avere

entrambe lo stesso numero di componenti, quindi se io faccio il prodotto scalare di un vettore per

se stesso quello che trovo è la norma al quadrato perché se <a · a> = a · a · cos θ, e perché non ‖ ‖ ‖ ‖

riporto il coseno di Teta, perché Teta è l’angolo formato tra i due vettori, ma che angolo sarà

quello formato tra a e se stesso? 0. Quindi il coseno di 0 è pari ovviamente ad 1.

Notiamo che:

Se θ = 90° <a · b > = 0 essendo cos(θ) = 0

Se θ < 90° <a · b > >0 in quanto cos(θ) > 0

Se θ > 90° <a · b > <0 in quanto cos(θ) < 0

DETERMINANTE

DEF: il DETERMINANTE di una matrice QUADRATA Ap,p è definito come la somma dei prodotti degli
elementi di una riga qualunque per i rispettivi complementi algebrici. IL DETERMINANTE SI CALCOLA SOLO
SE LA MATRICE È QUADRATA

Il determinante può essere calcolato anche come prodotto degli autovalori della matrice.

Il determinante di A si calcola in un modo complicato, tanto è vero che se io ho delle matrici che
rappresentano tanti punti in spazi piuttosto grandi, il calcolo del determinante a mano richiede molto
tempo. In statistica la normalità è quella di avere tanti punti che abitano in uno spazio di dimensione
grande.
Il determinante può essere calcolato anche come prodotto degli autovalori della matrice.

Se io ho una matrice A2 x2 (quadrata) e se ho anche gli autovalori di quella matrice posso calcolare il
determinante moltiplicando gli autovalori.

Succede anche che se 2 righe oppure 2 colonne possono essere espresse come combinazione lineare di
un’altra riga ed un’altra colonna, allora il determinante della matrice associata è pari a 0.

Quindi se c’è questa dipendenza lineare delle righe, oppure delle colonne, succede che il determinante è
uguale a 0. Ovviamente il determinante è pari a 0 anche se una riga oppure una colonna è formata da un
vettore nullo. La matrice si dice singolare se il suo vettore è nullo

MODELLO DI RICOSTRUZIONE DEI DATI

Immaginiamo che la matrice dei dati sia per qualche motivo non visibile, nascosta, ma immaginiamo di
conoscere tutti gli auto valori λ e gli auto vettori u e v: esiste un modo con cui la matrice può essere
ricostruita partendo proprio da questi valori. Ricostruire significa che, moltiplicando opportunamente
questi termini, otteniamo una matrice n*p che è proprio quella di partenza. L’espressione che consente la
ricostruzione è:

X = ∑p α=1 √λα vαu’α (√ è la radice di lambda)

Analizziamo le singole componenti:

- vαu’α : V ha dimensioni n,1 (autovettore della matrice XX’), U ha dimensioni 1,p. Il loro prodotto da luogo
a una matrice di dimensioni n,p

- √λα : è uno scalare, che va semplicemente a moltiplicare gli elementi della matrice VαU’α.

- ∑p α=1 : si fa una somma di una serie di elementi. Il primo step prevede di considerare α=1, e ciò significa
che si sta concentrando l’attenzione sul primo autovalore e sui primi autovettori, andando ad ottenere una
matrice n,p.

Si procede così per ogni valore di α, fino ad arrivare a p, ottenendo ogni volta una matrice di dimensioni n,
p, che si somma alle precedenti. Il contenuto di queste matrici è costituito interamente da numeri: la
matrice che ha il contenuto “più simile” a quella di partenza è la prima, seguita dalla seconda e così via.
Intuitivamente si capisce il motivo di questa situazione: sono i primissimi fattori che mantengono
interamente l’informazione originaria, o comunque la maggior parte, mentre a mano a mano che si
aggiungono matrici si perdono delle informazioni. La conclusione è che la matrice originaria può essere
ricostruita anche solo con pochissimi addendi, perché sono questi che contengono l’informazione
originaria, ma bisogna essere al corrente del fatto che, se si vuole essere accurati, si devono aggiungere più
addendi possibili (più matrici), perché l’approssimazione sarà sempre più vicina.

CLUMPING

Sono una delle 3 tecniche della cluster analysis insieme a clustering e fuzzy

tecniche di clumping (o overlapping clustering” overlap” significa sovrapposizione, quindi i cluster possono
contenere degli elementi in comune).: In particolare, nelle tecniche di clumping io assegno a ciascuna della
mie n unità statistiche un numero che può essere 1; 0; 0, 5. Il numero lo assegno a seconda che quella data
unità statistica appartenga solamente a quel gruppo oppure no, oppure appartenga a quel gruppo ma
anche ad un altro.
TRACCIA DI UNA MATRICE

La traccia di una matrice è la somma degli elementi che stanno lungo la diagonale principale. La sua traccia
sarebbe la somma degli elementi lungo la diagonale principale, quindi n, ovviamente la matrice deve essere
quadrata.

Il prodotto scalare di due matrici A e B è la traccia della matrice che è il risultato tra AxB ' (B deve essere per
forza trasposto perché se facessi A*B i due indici vicini non sarebbero uguali).

PROPRIETÀ DELLA TRACCIA. Supponiamo di avere due matrici A e B e due scalari k e λ, la traccia gode delle
seguenti proprietà:

• Tr (kAp,p + λBp,p) = ktr(Ap,p) + λtr(Bp,p);

• Tr(An,m · Bm,n) = tr(Bm,n · An,m);

• Tr(Ap,p) = tr(A ' p,p );

• tr(An,m · A ' m,n ) = tr(A ' m,n · An,m);

• la traccia di una matrice Ap,p (matrice quadrata) è pari alla somma dei suoi autovalori.

Quindi se io ho una matrice A quadrata e voglio calcolare la traccia so che posso faro anche a partire dagli
autovalori di questa matrice.

PROPRIETA’ DEL COEFFICIENTE DI CORRELAZIONE LINEARE

Il motivo per cui calcolo il coefficiente di correlazione lineare è che mi interessa andare a definire un indice
relativo; quindi divido la covarianza per il prodotto degli scarti
RANGO

DEF 1: Il rango r di una matrice An,p è pari al massimo numero di righe linearmente indipendenti; ne
consegue che r ≤ min(n,p). Qualora An,p avesse r = min(n,p) diciamo che essa ha rango pieno.

DEF 2: Il rango r di una matrice An,p è pari all’ordine della matrice quadrata più grande avente
determinante diverso da zero.

Il rango di una matrice è un numero, in particolare se ho una matrice rettangolare di dimensioni n,p il
numero massimo di vettori linearmente indipendenti che abitano in quella matrice si chiama rango.

Nel caso di matrice rettangolare il rango è minore o tutt’al più uguale al più piccolo tra n e p.

r ≤min( n, p)

Quindi il rango di una matrice è tutt’al più uguale al più piccolo tra il numero delle righe e il numero delle
colonne

MATRICI SIMMETRICHE AD ELEMENTI REALI

MATRICE SIMMETRICA: è una matrice caratterizzata dal fatto che essa è uguale alla sua trasposta. Tra tutte
le matrici viste fino ad ora, la matrice simmetrica è la matrice identità, infatti se proviamo a trasporla
otterremo sempre la stessa matrice. A*I = A Immaginiamo una matrice identità 3x3

MATRICI SIMMETRICHE E MATRICI REALI Tali matrici sono estremamente importanti in statistica perché
esse sono molto frequenti. Ne costituiscono un esempio le matrici di varianza-covarianza, di correlazione,
di distanza, di similarità. Data una matrice simmetrica ad elementi reali An,n, valgono le seguenti
importanti proprietà: 1. Gli autovalori sono reali; 2. Gli autovettori sono ortogonali; 3. Il rango di A `e pari al
numero dei suoi autovalori non nulli

FORME QUADRATICHE

Supponiamo di avere una matrice simmetrica dimensioni A n*n e un vettore x n,1. La seguente espressione
è una FORMA QUADRATICA Q(x)

Q(X)= x’Ax= sommatoria di i sommatoria di j (doppia sommatoria) aij xi xj

Allora A è una n*n, x è un vettore n*1, questo quanto fa un vettore n*1, x’ trasposto avrà dimensioni 1*1
cioè un numero. Le forme quadratiche sono degli scalar. NUMERI

x’1*n An*n

xn*1 1*n

n*1

1*1

Per x=0 la forma quadratica è nulla.

DEF.: se una for ma quadratica Q(x) > 0 per ogni x≠0 allora essa è DEFINITA POSITIVA ; se una forma
quadratica è definita positiva, significa che è strettamente maggiore di 0 quando x diverso da 0;

DEF: se Q(X) ≥ 0 per ogni x ≠ 0 allora si dice che la forma quadratica è SEMIDEFINITA POSITIVA. In questo
caso gli autovalori di A n,n sono tutti non negativi
PROPRIETA’ DELLE FORME QUADRATICHE

Sia data una forma quadratica Q(x) definita positiva. Valgono le seguenti proprietà:

1. Gli autovalori di An,n sono tutti strettamenti positivi ;se una forma quadratica è definita positiva allora gli
autovalori sono tutti più grandi strettamente più grandi di 0, cioè non c’è ne nessuno 0 e nessuno negativo.
2. il rango di An,n `e pari a n;

3. An,n `e diagonalizzabile, cioè esiste una matrice ortogonale Pn,n

Quindi se ho una forma quadratica definita positiva allora so che la matrice A è diagonalizzabile, ossia posso
effettuare una trasformazione su questa matrice A in particolare so che c’è una matrice che si chiama P tale
che P-1 AP = D È possibile dimostrare che gli elementi della matrice diagonale D sono autovalori di A. si
dimostra che la matrice ortogonale P è formata dagli autovettori di A

VETTORE, VERSORE PROPRIETA’ + OPERAZIONI

DEF: Si chiama vettore v una trasformazione di un qualsiasi punto x in p(x) avente lunghezza v secondo la
direzione D.

Gli elementi che caratterizzano il vettore sono: modulo o norma (distanza tra x e p(x) ) ovvero la lunghezza;
direzione, è una retta ; verso

DEF: si chiama versore un vettore di modulo 1. La sua caratteristica principale è che il suo modulo/ norma è
unitaria.

DEF: si chiama vettore nullo un vettore di modulo 0. Non ha lunghezza, perciò, la sua norma è 0.

DEF: dato un vettore v si chiama vettore opposto il vettore −v. Se un vettore ha 1 il suo opposto sarà -1
perché hanno lo stesso modulo, stessa lunghezza ma verso diverso.

OPERAZIONI CON I VETTORI

• La somma del vettore u e del vettore v `e un vettore w avente lo stesso punto di applicazione comune di u
e di v ed `e dato dalla diagonale del parallelogramma individuato dai due vettori originari. La somma tra
due vettori è data dalla regola del parallelogramma.

• LA MOLTIPLICAZIONE TRA UNO SCALARE A ED UN VETTORE V: `e un vettore definito sulla stessa direzione
di v, la cui norma `e pari al prodotto tra la norma di v e lo scalare ed il cui verso `e lo stesso di v se a > 0 ed
`e opposto a quello di v se a < 0.

Un’altra caratteristica è che la direzione cambia ovvero il verso cambia. Questo dipende se il risultato è
positivo o negativo. La norma in linea di massima cambia perché è data dal prodotto della norma del
vettore originale e il prodotto scalare

ALGORITMI GERARCHICI

Algoritmi di clustering:

1 metodi gerarchici;

2 metodi non gerarchici;

3 metodi misti

La caratteristica di tali algoritmi `e che producono una gerarchia di partizioni che si presenta sotto forma di
albero. Gli algoritmi di tipo gerarchico hanno vantaggi e svantaggi. Il vantaggio più evidente rispetto ali
algoritmi non gerarchici è che qui io non ho bisogno di stabilire a priori il valore di k ma lo decido ex post.
Quindi eseguo l’algoritmo e dopo decido quanti gruppi formare.

L’incoveniente è che sono più lenti e che se io ho tante unità statistiche con l’algoritmo di tipo gerarchico
non vado molto lontano. Si distinguono due tipi di algoritmi gerarchici:

1 agglomerativi (o ascendenti);

2 scissori (o discendenti).

I metodi agglomerativi si distinguono a loro volta in:

1 di base (una aggregazione alla volta);

2 simultanei (piu` aggregazioni alla volta) (non li vedremo).

Algoritmi agglomerativi di base

Il punto di partenza è la matrice delle distanze quindi io ho un certo numero di unità statistiche n e quello
che faccio è creare la matrice delle distanze che sarà una matrice nxn. Il funzionamento di un algoritmo
aggregativo di base `e il seguente:

1. si aggregano i due individui (diciamo p e q) meno distanti tra loro e si forma il primo nucleo (h); Scopro che
P e Q sono i più simili quindi questi smettono di esistere come individui singoli ma danno origine al primo
cluster che chiamiamo H.

2. si definisce il criterio con il quale calcolare la distanza tra h1 e i restanti n−2 individui; quindi devo calcolare
una nuova matrice di distanza. Questo è l’elemento caratterizzante di ciascuna tipologia di algoritmo
agglomerativo di base.

3. si aggrega h con l’individuo meno distante (diciamo r);

4. si itera il procedimento ripetendo i passi 2 e 3 fino a che tutti gli individui sono stati aggregati. Il criterio
con il quale calcolare la distanza tra due oggetti `e caratterizzante per questo tipo di algoritmi

ALGORITMI NON GERARCHICI

METODI NON GERARCHICI. I metodi non gerarchici sono degli algoritmi, regole computazionali, modi di
procedere e l’idea è che io ho n unità statistiche rilevate su p variabili. Ad ogni passo io cambio la
partizione. Cioè significa che sposto alcune unità statistiche e gli cambio l’assegnazione del gruppo e faccio
dei conteggi.

Si tratta di algoritmi aggregativi nei quali ad ogni step viene modificata la partizione fino a che non `e
soddisfatta una regola di arresto. In generale, tale regola riguarda il raggiungimento di un adeguato grado
di omogeneità interna dei gruppi.

Quindi la partizione ottima `e quella che minimizza l’inerzia interna dei gruppi (minW = min(W1 + W2 +···+
WK)). Allora gli algoritmi di tipo non gerarchico hanno vantaggi e svantaggi. Un grosso svantaggio è che
sebbene io non sappia a quanto è uguale k per poter far funzionare un ripartimento di tipo non gerarchico
devo decidere il valore di k. Questa scelta è completamente arbitraria. Devo decidere il valore di k proprio
per come funziona l’algoritmo

Passi di un generico algoritmo non gerarchico (Forgy) STEP 0:


1. si determinano K centri provissori; creati proprio in maniera casuale, il problema è che io devo decidere
quanti sono i k, quanti sono i centri.

2. si determina una prima partizione nella quale ciascun individuo appartiene al gruppo per il quale `e minima
la distanza dal centro provvisorio; A questo punto quello che succede è che ho una prima partizione, ciascuno
individuo appartiene a uno e un solo centro.

3. si calcola l’inerzia interna (che chiamiamo V(0)), considerando come baricentri i K centri provvisori; L’inerzia
interna è come la devianza traslata in un contesto multidimensionale perché io ho p variabili e non una sola
variabile. Altra particolarità è che essendo interna nel conto sono coinvolti solamente gli individui che
appartengono allo stesso gruppo, come gli esami quantitativi. Ottengo una prima misura di omogeneità che
chiamo v0. Per andare a calcolare la devianza multidimensionale, l’inerzia interna, io calcolo gli scarti
sostanzialmente tra l’osservazione e il baricentro. V0 è calcolata considerando come baricentro questi centri
provvisori.

4. si ricalcolano i nuovi baricentri gk(0); 5. si ricalcola l’inerzia interna W(0);

STEP 1:

1. si riallocano gli individui in modo che sia minima la distanza da ciascun baricentro trovato nello step 0
(gk(0));

2. si calcola l’inerzia interna (che chiamiamo V(1)) considerando come baricentro (gk(0));

3. si calcolano i nuovi baricentri (gk(1));

4. si ricalcola l’inerzia interna W(1);

Gli step successivi 2,3···t si ottengono reiterando i passi illustrati nello step 1. Il processo si arresta allorchè
W(t)−V(t) = 0 oppure W(t)−V(t) < valore soglia. Il senso è che non si spostano più individui (oppure se ne
spostano pochi) da un gruppo ad un altro e quindi la varianza interna non cambia (o cambia poco).

L’algoritmo K-means

L’algoritmo non gerarchico più utilizzato è detto K-medie ed è dovuto a MacQueen (1967). L’algoritmo K-
means differisce da quello di Forgy perchè il calcolo del nuovo baricentro è fatto subito dopo avere riallocato
gli individui nel nuovo gruppo. Il vantaggio dell’algoritmo K-medie è che converge molto più rapidamente di
quello di Forgy.

I vantaggi è che sono molto efficienti e veloci e si adattano anche bene quando ho tante unità statistiche,
cosa che nel caso di algoritmi gerarchici non è che funziona proprio così bene. Quindi in una situazione in cui
ho tante unità statistiche il tipo di algoritmo k medie funzione benissimo.

Gli incovenienti principali sono legati alla questione dei k. Per forza per poter inizializzare gli algoritmi non
gerarchici io devo decidere a priori il numero dei gruppi finali k. Nel caso della cluster però io non so a priori
questo quindi vedete proprio una contraddizione in qualche modo logica. L’inconveniente dei metodi non
gerarchici `e che il numero di gruppi da formare `e scelto all’inizio dal ricercatore e non può variare. Per
limitare tale inconveniente, Diday ha proposto di ricercare i gruppi stabili, cioè quelli che tendono a formarsi
sempre ripetendo l’analisi più volte. In pratica si considerano come gruppi finali quelli che risultano dalla
intersezione dei gruppi formatisi nei diversi processi di clusterizzazione.

I gruppi stabili cosa sono? L’idea è quella di reiterare l’analisi più volte quindi eseguo l’algoritmo k medie nella
classerizzazione un certo numero di volte.
SCOMPOSIZIONE DELLA DEVIANZA E COEFFICIENTE DI DETERMINAZIONE DI R2

La costruzione del coefficiente di determinazione si fonda sulla proprietà che la variabilità complessiva di un
fenomeno è scomponibile in alcune componenti. Questo teorema è stato già incontrato nell' ambito della
Cluster e in quella situazione la variabilità complessiva era scomponibile in una variabilità esterna ai gruppi e
in una interna ai gruppi, in quell' ambito si era visto questo problema dal punto di vista multidirezionale.

In questo caso invece si è in un ambito unidirezionale perché' la variabilità che si vuole spiegare e' quella
della Y ossia quella della variabile dipendente e inoltre in questo caso non interessa fare riferimento ai gruppi
perché' interessa scomporre la variabilità facendo riferimento alla retta di regressione e quindi nel grafico:

si ha una nuvola di punti che rappresentano le osservazioni rilevate, una retta di regressione (verde) costruita
seguendo un criterio di ottimalità e poi si può tracciare un’altra retta orizzontale l’asse delle ascisse in
corrispondenza del valore medio della variabile dipendente Y.

La scomposizione della devianza della Y sfrutta l’idea intuitiva che se si prende un puntino e ci si sposta fino
ad incontrare il valore medio si ha uno scarto che rappresenta il valore realmente osservato meno la media
di Y (Yi-Y), allora si puo' osservare che tale scarto si puo' immaginare come somma di due elementi, un primo
elemento e' quel segmento che va dalla Y realmente osservata fino alla retta(YiŶi) e un altro segmento e'
quello che va dalla retta fino a Y medio (Ŷi-Y).
INDICE R2: MISURAZIONE DELLA BONTA’ DI ADATTAMENTO

Il modello e' affidabile nella situazione destra del primo grafico (punti rossi), ossia in una situazione in cui la
devianza residua è piccola perché' i punti sono più vicini, ma se la devianza residua è piccola allora la devianza
spiegata è grande.

Chiaramente nella realtà si hanno delle situazioni intermedie quindi un valore del coefficiente di
determinazione prossimo ad 1 e' sintomatico di un buon adattamento, prossimo a zero invece e' sintomatico
di un cattivo adattamento.

Nel caso di retta di regressione il quadrato del coefficiente di correlazione è uguale al coefficiente di
determinazione r² =R², e se si effettua il prodotto dei coefficienti angolari delle due rette di regressione Y/X
e X/Y, dove b è la retta Y/X che è uguale alla covarianza tra X e Y diviso la varianza dell' indipendente X
moltiplicata per b' che è la retta X/Y uguale alla covarianza tra X e Y diviso la varianza dell' indipendente Y,
tale prodotto è uguale alla covarianza al quadrato diviso il prodotto delle covarianze cioè e' uguale al
coefficiente di correlazione al quadrato che appunto è uguale al coefficiente di determinazione

RELAZIONE TRA PRODOTTO SCALARE E DISTANZA

Immaginiamo di essere in uno spazio a due dimensioni, quindi la base che mi consente di ricostruire l’intero
spazio sarà formata da due vettori. Allora prendiamo due punti A e B, sappiamo che questi due punti io li
posso anche vedere come vettori, il vettore a e il vettore b. Allora voglio conoscere qual è la distanza
(lunghezza) tra A e B, quindi il segmento a-b. Se io ho questi due vettori a e b, prendo b e lo moltiplico per -
1, mi sto mantenendo nella stessa direzione con lo stesso modulo, ma l’unica cosa che faccio è cambiargli il
verso, quindi sarà più o meno questo b, se io faccio a-b trovo un vettore che proprio può essere
sovrapposto perfettamente a questo segmento AB. la distanza è una funzione che ha la caratteristica di
portare da un dominio a p dimensioni, ad un codominio ad una dimensione, è un numero e devo calcolare
la NORMA del vettore differenza (a-b) che non è che la distanza tra i punti A e B, e quindi chiaramente se io
faccio il prodotto scalare di a meno b per se stesso ottengo la norma al quadrato, se io faccio =‖ a-b ‖ · ‖ a-
b ‖ · cosθ, questo diventa: d2 (A,B)= ‖ a-b ‖2 , e a questo punto non capisco più, perché il prodotto scalare
di a-b per se stesso mi da la distanza al quadrato perché Teta è 0. In questo caso l’angolo formato tra il
vettore a-b e se stesso, in generale l’angolo formato tra un vettore e se stesso è sempre 0. Quindi Teta e 0 e
il coseno è uguale a 1. Quindi:

OPERAZIONI MATRICI

SOMMA: la condizione grazie alla quale posso sommare due matrici è che queste abbiano lo stesso numero
di righe e di colonne, il perché dipende da come è strutturata la matrice risultato. La matrice risultato C è
una matrice derivante dalla somma della matrice A e B.

Cn, p=An, p +Bn, p

C1,1 è quell’elemento della matrice C che sta nella prima riga- prima colonna e sarà determinato da
A1,1+B1,1.

MOLTIPLICAZIONE DI UNA MATRICE PER UNO SCALARE K (nessuna particolarità da osservare)

Se ho una matrice An, p ed uno scalare, cioè un numero, posso andare a fare questa moltiplicazione del
numero per la matrice, quello che trovo è ancora una matrice con lo stesso numero di righe e di colonne
della matrice di partenza. Cioè se mi accorgo che gli elementi numerici all’interno della matrice hanno un
elemento comune posso metterlo in evidenza.

PRODOTTO TRA DUE MATRICI

Il prodotto tra due matrici non lo posso fare sempre, ma solo sotto determinate condizioni.
Sostanzialmente le condizioni riguardano le dimensioni delle matrici. Se per esempio io ho: An, p+Bp ,k=Cnk
in questo caso posso effettuare il prodotto tra le matrici perché gli indici “vicini” che per A è il numero di
colonne (p) e per B è il numero di righe (p) sono uguali.

Il risultato è una matrice Cnk con n righe e k colonne, questo significa che ci sono k vettori in uno spazio a n
dimensioni.

Ogni elemento che sta nella matrice risultato C è un numero, il risultato presuppone il fatto che io esegua in
maniera appropriata delle operazioni di moltiplicazione e di somma di elementi della matrice A e della
matrice B. Non posso fare B*A perche B=¿ pxk e A n∗p e siccome gli indici che stanno vicini (k ed n sono
diversi, non si può fare. Chiaramente un vettore è un tipo particolare di matrice, cioè una matrice
caratterizzata dal fatto che io ho un solo punto che sta in uno spazio a n dimensioni. Quindi, a condizione
che siano rispettate queste regole io posso effettuare il prodotto tra una matrice ed un vettore, le
condizioni saranno le stesse, ossia che gli indici vicini siano gli stessi. An, P x Pp, 1=Cn,1

Ovviamente può anche succedere che la matrice A sia una matrice quadrata, per esempio di dimensioni p,p
; allora posso moltiplicarla per un vettore X a condizione che questo vettore abbia dimensione p,1, ottengo
sempre la stessa storia, cioè un vettore C p,1. Ap, P x Xp,1=Cp,1 .Quindi io parto da una situazione in cui ho
tanti punti e vado ad una situazione in cui ho un punto solo che abita nello stesso spazio della matrice
originaria. Questo tipo di operazione (moltiplicazione tra matrice e vettore) è una sorta di condensazione
Questo genere di operazione di ricerca di un vettore tale da trasformare la matrice A in un particolare tipo
di vettore è il cuore dell’analisi fattoriale, perché ci permette di trovare la soluzione al problema del
modello di analisi fattoriale.
OBIETTIVI / FASI PCA

L’ACP `e un particolare tipo di analisi fattoriale, caratterizzata da alcuni elementi:

1. la matrice dei dati X `e composta da p variabili tutte quantitative rilevate su n individui; la matrice dei
dati X `e formata dai dati centrati oppure dai dati standardizzati; se l’unità di misura è uguale per tutti allora
i dati saranno centrati, altrimenti per uniformarli li dobbiamo standardizzare

2. la metrica `e quella indotta dalla matrice identità, M = I;

3. la matrice diagonale dei pesi `e D = 1/N I essendo n i punti la nostra matrice D dei pesi una matrice nxn
Quindi dal modello teorico sappiamo che quella che viene fattorizzata è la Matrice 1/n X’X Fattorizzato che
vuol dire? Significa che il computer cerca Autovalori e Autovettori di questa matrice.

Questa matrice può essere:

-La Matrice di Varianze e Covarianze, dati centrati

- La Matrice di Correlazione, dati standardizzati

In modo schematico, l’ACP è sintetizzata attraverso un insieme di passi effettuati dal computer e/o dal
ricercatore:

1. Identificazione dei sottospazi ottimi su cui proiettare i punti;

2. Calcolo delle coordinate delle componenti principali;

3. Identificazione del numero di componenti da utilizzare;


• % di varianza spiegata dalle CP; In corrispondenza del primo autovalore viene calcolato banalmente il
rapporto Autovalore/Somma di tutti quanti gli Autovalori estraibili dalla matrice. Questo indicatore,
moltiplicato per 100 ovviamente, mi da la quota di variabilità contenuta, spiegata, trattenuta dalla prima
componente principale. Il secondo indicatore conterrà la somma di λ1+λ2/ Variabilità Complessiva. Quindi a
seconda del numero che tiriamo fuori io so che le prime due componenti principali portano in loro quella
data percentuale della variabilità complessiva del fenomeno e così via. Quindi se io decido che il minimo
che mi voglio portare dietro è l’80%, per esempio, scorrerò questo elenco e laddove è superata questa
soglia questo mi da l’indicazione del numero di componenti che voglio portare con me. Questo è un
criterio.

• Scree-plot; Lo scree-plot sfrutta un comportamento tipico degli autovalori, che è il fatto che nell’ordinare
gli autovalori dal più grande al più piccolo tipicamente succede che il primo o i primi due o i primi tre sono
molto più grandi degli altri. cosa si intende per Norma Riprodotta? che dato il punto iniziale che si riferisce
alla Matrice X, dato un certo punto io lo proietto in questo famoso sottospazio ma la norma della
proiezione del vettore della proiezione deve essere quanto più possibile simile a quello di partenza. Questo
deve essere vero per tutti i punti chiaramente. Quindi è normale che il primo autovalore sia il più alto di
tutti, chiaramente proprio per costruzione e via via decresce. E allora il comportamento tipico è proprio il
fatto che c’è, ad un certo punto, nello Scree-Plot un gradino proprio; In corrispondenza di questo scalino in
qualche modo questo potrebbe essere il punto di taglio, nel senso fornirebbe indicazione di quante
componenti principali trattenere.

• Eigenvalue-one (solo per variabili standardizzate). L’idea è che siccome la matrice dei dati è
standardizzata se io provo a calcolare la Devianza di ciascuna di queste p variabili standardizzate trovo 1,
quindi mi porto dietro tutte le componenti a cui è associato un autovalore più grande di 1 significa che mi
porto dietro gli autovalori che riassumo in sé una variabilità maggiore della variabile di partenza.

4. Interpretazione del significato delle componenti correlazione tra CP e variabili originarie

5. Interpretazione dei risultati

• contributo assoluto;

• contributo relativo

• cerchio delle correlazioni

OBIETTIVI ANALISI CORRISPONDENZE

L’analisi delle corrispondenze rientra all’interno delle analisi fattoriali, ha una prospettiva esplorativa e fa
parte dei metodi non supervisionati perché non c’è una variabile/fenomeno di maggiore interesse rispetto
agli altri. Come tutti i modelli fattoriali ruota attorno a tre elementi fondamentali: matrice dei dati X, la
metrica che definisce lo spazio e la matrice dei pesi D che è una matrice diagonale (ha tutti gli elementi nulli
all’infuori della diagonale principale).

Come obiettivi principali ha lo studio della dipendenza tra due caratteri statistici qualitativi (indice chi
quadro). Più precisamente possiamo dire che l’analisi delle corrispondenze studia la relazione che
intercorre tra i due caratteri statistici qualitativi

PROPRIETA’ COVARIANZA
ALFESIMO FATTORE

MINIMI QUADRATI MODELLO DI REGRESSIONE LINEARE SEMPLICE


MINIMI QUADRATI MODELLO DI REGRESSIONE LINEARE MULTIPLO
REGRESSIONE LOCALE

TEOREMA TAYLOR REGRESSIONE LOCALE

Il caso che affrontiamo adesso è quello della stima di f (X) svincolandoci dalla condizione di dovere scegliere
la forma funzionale. Per il momento supponiamo di considerare una sola variabile esplicativa X ed assumiamo
che f (X) sia continua e derivabile in ogni punto. Consideriamo un punto X0 appartenente al campo di
definizione della variabile X.

Dal teorema di Taylor sappiamo che la funzione f (X) può essere approssimata in un intorno di X0 nel modo
seguente:

ove il ’resto’ è una quantità ’piccola’ che, proprio per questo, può essere trascurata.

In pratica il teorema di Taylor dice che qualunque funzione (continua e derivabile) può essere approssimata
da una retta in un intorno sufficiente piccolo.

Quali implicazioni ha il teorema di Taylor in ambito statistico? Il fatto che possiamo stimare una retta
utilizzando una porzione di dati contigui oppure utilizzando tutti dati, ma assegnando un peso maggiore a
quelle osservazioni vicine a X0. In particolare, la stima nell’intorno di X0 si ottiene nel modo seguente:

I pesi wi sono scelti in modo da essere tanto minori quanto più ci si allontana da X0. E’ facile vedere che
l’equazione 1 `e la condizione dei minimi quadrati con l’aggiunta di una ponderazione data da wi.

come scegliamo i pesi?

E’ facile vedere che il pesi wi dati nella formula 2 dipendono a loro volta dal parametro di lisciamento h e
dalla scelta del nucleo wi. Numerosi studi hanno dimostrato che l’aspetto che più fortemente condiziona il
risultato finale `e la scelta del parametro di lisciamento h.
In generale quanto minore è h tanto più la curva prodotta è aderente ai dati locali e quindi presenta un
andamento frastagliato.

Una cosa importante da notare `e che la regressione lowess non restituisce nessun valore dei parametri
(infatti è un metodo non parametrico!), ma consente di ottenere un valore stimato per la variabile
dipendente in corrispondenza a ciascun valore possibile della variabile esplicativa.

Tipi di ampiezze di banda:

a) ampiezza fissa: in questo caso si sceglie sempre la stessa ampiezza della banda, indipendentemente
dal punto focale x0
b) ampiezza di tipo ‘Nearest neighbor’: L’ampiezza di banda intorno a ciascun punto focale x0 varia in
modo tale da ricomprendere sempre la stessa frazione di punti. In tal modo risolviamo la
maledizione della dimensionalità ed il conseguente problema della scarsità dei dati.

REGRESSIONE LOCALE (LOESS) PIU’ VABILI ESPLICATIVE


FORME BILINEARI

DEF: data una matrice An,p e due vettori xn,1 e yp,1, si definisce forma bilineare la seguente espressione:

OBIETTIVI DELLE ANALISI FATTORIALI

Le tecniche fattoriali che presenteremo hanno scopo esplorativo e NON inferenziale. Gli obiettivi
principali sono:

1. Fare emergere le relazioni significative tra gli elementi esaminati;


2. Riduzione delle dimensioni di analisi;
3. Costruzione di dimensioni latenti (non direttamente osservabili) attraverso un vasto insieme
di proxy.

UTILE PER LE CROCETTE:

MATRICE UNITA’-VARIABILE:

1. matrici di intensità
2. tabelle di contingenza: contengono le frequenze assolute di associazione tra le modalità di due
caratteri qualitativi;
3. tabelle di punteggi: ad ogni unità statistica viene chiesto di esprimere un punteggio circa
l’apprezzamento su un certo aspetto (ad esempio sulla qualità della vita o sullo stato di salute).
Il punteggio varia tra un minimo e un massimo noti;
4. tabelle di preferenze: ad ogni unità viene chiesto di esprimere un livello di gradimento circa un
aspetto (ad esempio su un prodotto acquistato). Anche in questo caso il punteggio `e espresso
su una scala di cui sono noti il minimo ed il massimo;
5. 5 tabelle di ranghi: ogni unità `e ordinata in base ai risultati di una prova e le viene assegnato il
posto (rango) in graduatoria;
6. 6 tabelle booleane: esprimono la presenza o l’assenza di una certa caratteristica.

A partire da una matrice di intensità, alcune trasformazioni particolarmente importanti sono:

1. centratura: si sottrae a ciascun elemento (xij ) della matrice Xn,p la media della variabile di
1

riferimento (x.j);
2. 2 standardizzazione: il dato centrato viene diviso per lo scarto quadratico medio della variabile
di riferimento ([xij − x .j ]/s.j ]

La standardizzazione genera variabili di media nulla e varianza unitaria prive di unità di misura.

MATRICI UNITA’ UNITA’:

Sono matrici aventi come intestazione di riga e di colonna le unit`a statistiche. Gli elementi della
matrice rappresentano misure di similarità, oppure distanze, oppure flussi.

1. Matrice di distanze
2. Matrice di origine/destinazione

MATRICI VARIABILE-VARIABILE:

Sono matrici aventi come intestazione di riga e di colonna le variabili. Gli elementi della matrice
rappresentano sovente misure di variabilità, di covarianza, di correlazione.

1. Matrice di varianze-covarianze
BUSINESS DATA SCIENCE

MODELLO DI ANALISI FATTORIALE - E’ una tipologia di analisi esplorativa che si divide in diverse
metodologie, ovvero l’ACP e l’AC.
Queste analisi hanno un obiettivo comune vale a dire ridurre la complessità del fenomeno oggetto di
studio: questo si compone, infatti, di elementi che presentano dimensioni elevate e affinché si possa
ridurre tale complessità bisogna ridurre la dimensione degli elementi, dopo aver studiato le relazioni che
intercorrono tra di loro.
Un altro obiettivo è costruire variabili che non sono direttamente osservabili, come il capitale umano,
ovvero delle variabili “latenti”, mediante un vasto insieme di proxy.

Gli “ingredienti” necessari per effettuare un’analisi fattoriale sono:


- Matrice dei dati “X”, che si compone di “n” righe e “p” colonne. Descrive infatti un insieme di
vettori che identificano una nuvola di punti, la cui struttura dipende dalla distanza tra coppie di
punti.
Relativamente alla matrice dei dati, l’analisi può essere effettuata in termini di profilo colonna
(punti variabile) oppure in termine di profili riga (punti individuo).

- Matrice diagonale dei pesi “D”, la quale fa riferimento alle unità statistiche;

- Matrice che definisca la cd “metrica dello spazio di analisi”, “M”, che fa riferimento alle dimensioni
dello spazio considerato.

Si parla quindi di uno studio multidimensionale definito dalla tripla X,M, D.

RICERCA del SOTTOSPAZIO OTTIMO – Affinché si possa semplificare il fenomeno preservando al massimo
la struttura originale dei dati, bisogna proiettare la nuvola di punti in un sottospazio ad una dimensione.
Quindi immaginiamo di essere in uno spazio a 3 dimensioni dove rappresento la nuvola di punti e considero
sia la metrica “M” che la matrice dei pesi “D” indotte alla matrice identità, ovvero l’equivalente di 1
nell’ambito matriciale.
Il mio obiettivo è far collassare lo spazio tridimensionale in uno spazio ad una dimensione: questo
avviene mediante un’operazione che consiste nel proiettare in un sottospazio ottimo la nuvola dei punti.
Riprodurre “bene” i punti della nuvola significa che, proiettati i singoli punti nel sottospazio ottimo, la
forma originaria sia catturata al meglio, ovvero la norma dei vettori originari (c’è corrispondenza tra punti e
vettori, ossia ogni punto può essere rappresentato attraverso dei vettori).

Se anziché una nuvola avessi un solo punto sarebbe sufficiente scegliere un sottospazio parallelo al vettore
originale per riprodurre al meglio la norma, ma nello specifico caso serve trovare un sottospazio ottimo per
riprodurre al meglio la norma di tutti i valori: questo avviene proiettando il vettore rappresentativo
dell’ipotetico punto “Mi” ortogonalmente alla direzione identificata da “u” (ossia il versore che identifica la
direzione ottima).
Definito “x’i” come il vettore che rappresenta il punto “Mi”, la norma del vettore ottenuto come
proiezione ortogonale si trova effettuando il seguente prodotto scalare:

Ma considerando che abbiamo “n” vettori, dobbiamo considerare simultaneamente le norme di tutti i
vettori proiettati nel sottospazio ottimo —> per ottenere lo stesso risultato per tutti i punti (e vettori) dello
spazio, basta fare il prodotto tra la matrice dei dati X e il versore u.
Il risultato è un vettore di dimensioni n × 1, che contiene le norme riprodotte di tutti i vettori originali. In
questo modo, si conservano tutti gli “n” punti e si collassano le “p” colonne.
Finora, abbiamo dato per scontato la conoscenza di questa direzione, proiettando tutti i punti in quel
determinato sottospazio ottimale identificato dal versore u. In realtà, questo sottospazio non si conosce, e
per identificarlo è necessario che la norma di tutti i vettori su di esso riprodotti sia la massima possibile.
Quando si muove il sottospazio, cambiano anche le norme dei vettori riprodotti; quindi, il posizionamento
del sottospazio avviene in modo tale da rendere massimo il segmento “OHi”, non solo questo segmento ma
anche tutti gli altri segmenti corrispondenti, in modo da massimizzare simultaneamente la norma di tutti i
vettori.

Il sottospazio si ottiene dunque massimizzando i segmenti come “OH”, oppure minimizzando “MiHi”: si fa
quindi riferimento alla derivazione e per semplicità eleviamo tali segmenti al quadrato.
Ovviamente avremo tanti segmenti “OH” quanti sono i punti (n) e avendo tanti punti dovremo
massimizzare:

Trattandosi di matrici, quello che andiamo a massimizzare è “u’X’Xu” che è l’equivalente di (Xu)^2.
Ciò equivale a derivare rispetto all’incognita “u”, che sappiamo che è un versore, quindi un vettore di
lunghezza unitaria, per cui la massimizzazione di questa unità sarà vincolata al fatto che la sua norma è pari
ad 1.
Dunque la prima condizione è che: u’u=1 (u’u indica il quadrato della norma). Si crea di conseguenza un
problema di massimizzazione vincolata ed è necessario fare la derivata rispetto all’incognita “u” in quanto
la matrice dei dati “X” è nota e in ambito matriciale “X’X” è una costante.
Si ricorre così al lagrangiano:

Questo tipo di equazioni lineari ammettono sempre una soluzione banale (u=0) ma anche soluzione proprie
(diverse dalla banale) che otteniamo uguagliando a 0 il determinante dell’equazione, così da identificare il
sottospazio ottimo che riproduce al meglio le norme dei vettori di partenza.

Nella formula abbiamo la matrice X’X che contiene quantità note ed anche “I” è data da numeri, ne
consegue che l’unica incognita è rappresentata da lamda che consiste in un autovalore al quale
attribuiamo un valore tali da rendere il determinante pari a 0 e identificare quindi il sottospazio ottimo.
Trovato l’autovalore bisogna trovare il corrispondente autovettore (u). Abbiamo dunque “p” soluzioni e a
ciascun autovalore sarà associato un autovettore, che identifica proprio la direzione ottima su cui
proiettare i punti perdendo il minimo dell’informazione.

Identificata la direzione ottima è possibile trovare un secondo sottospazio ottimo su cui proiettare i vettori
(anche se sarà meno “ottimale” rispetto al primo): quest’operazione è però soggetta a due vincoli, ossia che
il versore u2 abbia norma unitaria e che i due versori (u1 e u2) siano tra di loro ortogonali.

Questo processo prosegue fino a che non viene identificata la n-esima componente ma ciascun sottospazio
successivo riprodurrà in maniera peggiore del precedente le norme dei vettori originari.
Una volta identificato il sottospazio ottimo u1,u2,…ui occorre esprimere le coordinate di ciascun punto. Le
coordinate sul primo sottospazio ottimo rappresentano i fattori (da cui analisi fattoriale) e, in generale,
l’insieme delle coordinate dei punti sull’alfa-esimo fattore è dato da:

ANALISI PER PUNTI VARIABILE - Quanto visto finora è stata un’analisi per punti-individuo, ossia per riga,
ma la stessa operazione in maniera speculare può essere effettuata con un ottica per colonne (punti
variabile: p punti in uno spazio Rn).
Immaginiamo quindi “p” punti in uno spazio ad “n” dimensioni e il nostro obiettivo è ridurre le dimensioni
di “n” proiettando i “p” punti in un sottospazio di minor dimensione. (Ipotizziamo sempre che sia la metrica
che la matrice dei pesi siano indotte alla matrice identità). NB—> v1 è un versore
FORMULE DI TRANSIZIONE - A seconda che io decida di fare l’analisi per punti individuo o per punti
variabile cambia il modo in cui io leggo la matrice X e in cui effettuo le proiezioni, ma la matrice di partenza,
X, rimane sempre la stessa; esisterà, quindi, una relazione tra le due analisi, cioè tra i risultati trovati in R^n
ed in R^p, e tra i due versori Uα e Vα che identificano la direzione su cui fare le proiezioni.
Questi due versori sono anche gli autovettori delle matrici X’X e XX’ che si originano sempre da quella di
partenza.
Si può anzitutto dimostrare che gli autovalori sono uguali, cioè λα = γα (fin quando possibile dato che
solitamente il numero di righe eccede quello delle colonne).
Sussiste una relazione tra gli autovettori nei due spazi, spiegata dal fatto che la matrice di partenza è la
stessa:
MODELLO DI RICOSTRUZIONE DEI DATI – Qualora la matrice dei dati sia, per qualunque motivo, non
visibile, ma conosciamo tutti gli autovalori e tutti gli autovettore, la matrice può essere ricostruita come
segue:

ANALISI IN SPAZI CON METRICA E PONDERAZIONE QUALUNQUE – La metrica è una matrice le cui
dimensioni sono riferite alla dimensione dello spazio di riferimento: se questo fosse R^p allora la metrica
avrà dimensioni “pxp”; mentre la matrice D rappresenta i pesi dei punti e quindi in questo caso sarebbe
una “nxn”.

ELEMENTI ILLUSTRATIVI - A volte, può succedere che della matrice dei dati non si usi tutto, cioè che si
possa decidere di utilizzare n righe e p colonne, ma ci sono anche altre righe e colonne che costituiscono la
matrice, se ne usa una parte semplicemente. Ciò che si decide di escludere non contribuisce alla
determinazione degli autovalori e autovettori, però si vogliono conoscere le coordinate di questi punti,
detti elementi illustrativi, che non hanno partecipato al piazzamento dell’asse fattoriale e che possono
essere importanti a fini interpretativi. Per individuare queste coordinate, si procede allo stesso modo degli
elementi “attivi”:
Cα = X(i+)Muα. —> punti illustrativi-individuo
C*α = X’(j+)Mvα —> punti illustrativi-variabile
Dove X(i+)mi indica che questi punti sono punti illustrativi.
ANALISI IN COMPONENTI PRINCIPALI (ACP)

L’ACP è un particolare tipo di analisi fattoriale, caratterizzata da alcuni elementi:


- La matrice dei dati X(n,p) è composta da “p” variabili tutte quantitative rilevate su “n” individui.
Questa può essere formata da dati centrati (alle singole osservazioni sottraggo la media aritmetica
di colonna) oppure da dati standardizzati (prendere ciascuna osservazione, sottraggo ad essa la
media aritmetica della colonna e poi divido per lo scarto quadratico medio, sempre per colonna).
Detto ciò possiamo dire che, data una matrice di dati centrati, per una proprietà della media
aritmetica, la media per colonna dei dati centrati è uguale a 0. Data, invece, la matrice dei dati
standardizzati, come prima la media dei dati standardizzati è 0, mentre la varianza dei dati
standardizzati è 1.
- La metrica è indotta alla matrice identità —> M=I;
- la matrice diagonale dei pesi è D = 1/n I —> ciò significa che gli unici elementi diversi da 0 sono
quelli lungo la diagonale principale e sono pari a 1/n.

L’ACP è sintetizzata attraverso un insieme di 5 steps effettuati dal computer e/o dal ricercatore:
1) Identificazione dei sottospazi ottimi su cui proiettare i punti: Innanzitutto definiamo la matrice da
fattorizzare come “X’ 1/n I X” ovvero “1/n X’X”.
E’ necessario scegliere se utilizzare dati centrati o standardizzati e tale scelta dipende
sostanzialmente dall’unità di misura dei dati di partenza: se hanno la stessa unità di misura allora
applichiamo dati centrati e andremo a fattorizzare la matrice di varianze e covarianze; se invece è
differente è opportuno effettuare l’analisi su dati standardizzati e la matrice che vado a fattorizzare
è la matrice di correlazione. Applicheremo quest’ultima anche quando le variabili hanno medesima
unità di misura contestualmente hanno variabilità differente.
Bisogna evidenziare che i risultati dell’analisi divergeranno in base alla matrice che fattorizziamo e
non è possibile passare dai risultati di una a quelli dell’altra.

2) Calcolo delle coordinate dei punti nei sottospazi ottimali (calcolo delle componenti principali): Per
componenti principali intendiamo proprio i sottospazi ottimali nei quali proiettiamo i punti. La
proiezione deve essere fatta bene, ossia preservare al meglio il contenuto informativo delle
variabili attraverso la norma riprodotta.
In questa fase il computer calcola le componenti e le coordinate dei punti mediante la
moltiplicazione tra matrici (generalmente XMu);

3) Identificazione del numero di componenti da utilizzare;

4) Interpretazione del significato delle componenti: E’ una fase tanto complessa quanto soggettiva;
quando posizioniamo un punto nel sottospazio, la sua coordinata dipenderà da entrambe le
componenti analizzate e quindi spetta a noi decidere quale variabile originaria ha contribuito
maggiormente alla formazione del fattore; In questa fase bisogna studiare la correlazione esistente
tra le variabili originali (sono quelle che abbiamo scelto e identificato come utili per la nostra
analisi) e le componenti principali (che invece non hanno un chiaro significato). Essere molto
correlati significa che sussiste un legame lineare (si parla di alta correlazione sia in senso positivo
che negativo).

5) Interpretazione dei risultati.


NUMERO DI COMPONENTI PRINCIPALI DA UTILIZZARE – E’ il terzo step dell’ACP e prevede tre
metodologie.
Il primo metodo è basato sul trattenere le componenti principali che permettono di ricostruire una quantità
sufficiente e prestabilita di variabilità originaria: fisso, infatti, una % minima di varianza da riprodurre.

Quindi se ipoteticamente stabiliamo l’80%, calcoliamo il apporto tra il primo autovalore e la somma di tutti
gli autovalori e, dopo aver moltiplicato x100, vedremo se questo rapporto è sufficiente a raggiungere la %
prefissata. Se così non fosse dovremo andare avanti e rapportare la somma dei primi due autovalori con la
sommatoria di tutti gli altri ecc.

Il secondo criterio di scelta è un’analisi grafica, il cd “scree plot”. Questo grafico sfrutta un comportamento
tipico degli autovalori, ovvero li ordina dal maggiore al minore. Sull’asse delle x troviamo le componenti e
sull’ordinata abbiamo invece gli autovalori. I primi autovalori essendo maggiori conterranno larga parte
dell’informazione originale e conviene mantenerli a differenza delle componenti con autovalori inferiori.
Graficamente è possibile notare una sorta di “gradino”, ossia un’appiattimento e noi dobbiamo tenere le
componenti precedenti a tale “scalino”.

Terzo ed ultimo metodo è l’”eigenvalue-one”: può essere applicato solo per dati standardizzati e quindi con
una matrice di correlazione e prevede di mantenere esclusivamente gli autovalori maggiori di uno. Questo
significa che mi porto dietro solo le componenti che racchiudono una variabilità maggiore rispetto a quella
della variabile di partenza.
La ratio risiede nel fatto che, poiché le variabili nella matrice dei dati (standardizzati) hanno varianza
unitaria, si trattengono le componenti che spiegano una variabilità maggiore di quella delle variabili di
partenza.

INTERPRETAZIONE DEI RISULTATI – Trovate le componenti principali, deciso quante portarne dietro e
attribuito ad esse un nome, la 5° ed ultima fase prevede di interpretare i risultati e ragionare circa la loro
qualità, ossia come trattarli, come sono affidabili ecc.
Un primo aspetta da guardare è quello della contribuzione assoluta. Il contributo assoluto esprime il
contributo di ciascun elemento (il punto-unità o il punto-variabile a seconda del tipo di analisi che faccio)
alla spiegazione del fattore. Cioè quanto ciascun elemento ha contribuito alla costruzione della generica
αesima componente e se hanno contribuito particolarmente.
Andiamo poi a vedere la contribuzione relativa (QLT o cos2), la quale esprime il contributo del fattore alla
spiegazione di ciascun elemento (punto-unità o punto-variabile), ossia quanto il fattore riesce a ben
rappresentare un singolo elemento. Mediante il suo studio determiniamo se l’informazione che ho è
affidabile, vale a dire che vi è una corretta rappresentazione degli elementi.
Questo lo determiniamo mediante il cos2: il coseno è il rapporto tra le norme di due vettori, nel nostro caso
tra la norma del vettore riprodotto e quella del vettore originario. Dato che non ci interessa del segno lo
eleviamo poi al quadrato ed avrò un valore compreso tra 0 e 1 (0 < cos2 < 1).
Se cos2=1 allora la riproduzione risulta essere stata efficiente.

LEGGERE CASO STUDIO DA PG 56 A 60


ANALISI DELLE CORRISPONDENZE

Tabelle a doppia entrata - L’AC è un tipo di analisi fattoriale il cui studio richiede preventivamente un
ripasso di statistica circa le tabelle a doppia entrata o tavole di contingenza, che vengono utilizzate nel
momento in cui abbiamo due caratteri statistici qualitativi (X e Y).
Ogni carattere sarà composto da “modalità”, ovvero vari valori che il carattere può assumere.

Ogni tabella di contingenza si compone di:


- Frequenze assolute: numero di unità statistiche che presentano contemporaneamente la modalità
Xi del carattere X e la modalità Yi di Y. Ad esempio esistono 17 individui che hanno licenza media e
preferiscono la narrativa; Sono valori “interi” perché indicano il numero di unità statistiche che
presentano un certo valore.
- Frequenze marginali: si trovano ai margini della tabella e sono quindi sia marginali di riga che
colonna. Ci dicono come il mio campione si alloca indipendentemente dagli altri caratteri, non
fanno infatti riferimento all’altro carattere statistico;
- Distribuzioni condizionate: non sono determinabili a priori ma dobbiamo prima sapere quante
sono le modalità di X e di Y.

Le frequenze relative vengono calcolate rapportando le frequenze assolute al totale marginale:

Nel nostro esempio il profilo riga sarebbe: (10/53; 17/53; 19/53; 7/53, la cui somma è 1).

La dipendenza assoluta - Mediante l’analisi dei profili riga e profili colonna è possibile verificare l’eventuale
presenza di dipendenza assoluta.
Un carattere qualitativo X è dipendente, in senso assoluto, da un carattere qualitativo Y se assume la
medesima distribuzione condizionata relativa per ciascuna modalità di Y.

In questo caso c’è dipendenza assoluta perché la conoscenza di un determinato valore di Y equivale alla
conoscenza del valore assunto da X e viceversa. Infatti 30 unità assumono sia il valore di X1 che Y2 e quindi
X=X1 e Y=Y2 perché non ci sono altre combinazioni.
Si parla invece di indipendenza quando indipendentemente dal valore assunto da X non possiamo
prevedere il valore assunto da Y, e viceversa. Non c’è, quindi, alcuna sistematica associazione perché la
conoscenza del valore di una variabile non implica direttamente la conoscenza del valore di un’altra
variabile.

Mentre per i caratteri quantitativi l’indice che misura il legame tra i caratteri è il coefficiente di
correlazione, nel caso specifico di caratteri qualitativi facciamo riferimento al Chi-quadro (χ2), che viene
usato proprio perché non si può usare il coefficiente di correlazione con i caratteri qualitativi.
Il chi-quadro è uguale alla differenza tra le frequenze osservate e le frequenze teoriche (quelle che
osserverei se i caratteri fossero indipendenti); tale differenza viene elevata al quadrato perché non ci
importa del segno e rapportata alle frequenze teoriche.

Essendo un valore al quadrato, il valore minore che può assumere è 0 e ciò implicherebbe indipendenza; è
inoltre limitato superiormente: il valore massimo che può assumere dipende da diversi fattori. Il valore
massimo è infatti il (minore tra il numero di righe e colonne, meno 1) il tutto moltiplicato per il numero di
unità statistiche che vado ad osservare.

Il chi quadro è un indice assoluto, ossia un indice di cui conosciamo a priori solo l’estremo minore (0)
mentre l’estremo superiore varia in base alla struttura della tabella ed è quindi conveniente trasformarlo in
un indice relativo, così che entrambi gli estremi siano noti e l’indice sia compreso tra 0 ed 1.

Generalmente il Chi-quadro non fornisce informazioni circa le relazioni congiunte tra profili riga e profili
colonna ed è per questo che facciamo ricordo all’analisi delle corrispondenze. In altre parole, il chi-quadro
mi dice se c’è o meno dipendenza ed eventualmente quanto questa è forte ma necessito dell’analisi delle
corrispondenze per determinare il comportamento delle modalità dei due caratteri.

VEDERE ESEMPIO NUMERICO SUL CHI-QUADRO (PAGINA 65)


Analisi delle corrispondenze semplice – E’ un’analisi di tipo fattoriale il cui obiettivo è studiare la
dipendenza tra due caratteri statistici e la cui applicazione ruota intorno a tre elementi fondamentali: X, M
e D.
Presuppone l’analisi di solamente due caratteri statistici qualitativi.

La matrice “T” è una “r x c” e al suo interno abbiamo le frequenze di associazione (n11..nij…nrc).


La matrice “Dr” contiene le frequenze marginali di riga ed è quindi una matrice diagonale, ovvero i suoi
elementi sono tutti pari a 0 ad eccezione di quelli lungo la diagonale principale (che corrispondono ai
marginali di riga). E’ quindi una matrice quadrata che avrà tanti elementi quante sono le modalità del
carattere che metto sulle righe e sarà quindi una “r x r”.
Specularmente la “Dc” contiene le frequenze marginali i colonna ed è una “c x c”.

La “Dr” e la “Dc” costituiscono gli elementi necessari per determinare la matrice dei dati, la metrica e la
matrice dei pesi.

Per quanto riguarda “Pr” è la moltiplicazione tra l’inversa della “Dr” e la matrice T, ed è una “r x c”; stessa
dimensione avrà la matrice dei profili colonna “Pc”.
Dunque in base all’ottica in cui effettuo l’AC, ovvero per riga o per colonna, “Pr” o “Pc” rappresenteranno la
mia matrice dei dati.

Metrica del chi quadro - Trovata la matrice dei dati bisogna determinare la metrica, che non sarà indotta
alla matrice identità ma si chiama metrica del chi-quadro.
Se lavoriamo sulle righe, la nostra analisi sarà quella dei profili riga. Se volessi calcolare la distanza tra due
punti, cioè tra due righe, e quindi la distanza tra due modalità del carattere qualitativo che ho piazzato sulle
righe dovrei applicare la formula delle distanze. Ma sappiamo che la distanza tra due punti altro non è che
la norma del vettore differenza tra i due stessi. Inoltra la norma di un vettore in generale è la sommatoria
delle sue componenti al quadrato.

In questo modo però ottengo una distanza non veritiera e decisamente piccola poiché una frequenza molto
piccola elevata al quadrata diventa un valore ancora più piccolo ed è per questo che si fa riferimento alla
metrica del chi-quadro, la quale da equilibrio a queste situazioni dato che consente di riponderare i punti
assegnando a ciascuno di essi un peso inversamente proporzionale alla massa della categoria di
appartenenza.
Praticamente alla formula precedente bisogna aggiungere questa ponderazione che moltiplicherà la
differenza al quadrato prevista dalla distanza:

ESEMPIO NUMERICO PAG 67-68

Matrice dei pesi - L’importanza assoluta di ciascun profilo riga dipende dalla sua massa e cioè dal valore
della frequenza marginale ad esso associata. Dato che è meglio fare riferimento a valori relativi, anziché
assoluti, dovremo rapportare i totali marginali al totale generale.

La matrice da fattorizzare genericamente in un’analisi fattoriale è X’DXM e quindi troverò gli autovalori ed
autovettori di questa matrice risolvendo un problema di massimo vincolato.
Nell’analisi delle corrispondenze (profili riga), la matrice da fattorizzare, nello specifico, sarà:

Qualunque sia la matrice di contingenza il primo autovalore, quello più alto, sarà sempre pari ad 1.
Questo dipende dal fatto che le frequenze non sono libere di muoversi come vogliono, ma rispondono al
vincolo che una volta determinate in un certo numero, l’ultima è determinata automaticamente.
Il primo autovalore si chiama autovalore banale perché non devo fare nessun tipo di analisi per sapere a
quanto è uguale e infatti non lo tengo in considerazione nell’analisi perché non mi dà nessun tipo di
informazione.
Calcolo delle componenti - Per andare a calcolare le componenti quello che dovevo fare era XMu e qui
l’unica cosa che cambia è che devo scrivere correttamente che cosa è X, che cosa è M e u che è
l’autovettore di riferimento.

Quindi dall’esecuzione del prodotto tra la matrice scritta in parentesi quadra e l’autovettore α-esimo si
comprende che l’i-esimo punto individuo ha come j-esima coordinata sulla componente α:

Questo significa che ciascuna componente principale non è altro che una combinazione lineare (ciascun
fattore è composto da alcune modalità in maniera e dosaggi diversi).
Mentre nell’ACP proietto gli individui in uno spazio e le variabili in un altro spazio senza la necessità di
metterle insieme, nell’analisi delle corrispondenze DEVO metterle insieme in quanto mi interessa sapere
come si dispone un carattere rispetto all’altro.
Al riguardo facciamo riferimento alle relazioni quasi baricentriche, che mi permettono di esprimere una
relazione, ossia il legame, tra le coordinate di punti nei due spazi (come le formule di transizione nell’ACP).

Queste formule ci aiutano a tener presente che sostanzialmente i dati sono sempre gli stessi, la tabella di
contingenza è una, quindi chiaramente esiste una relazione tra l’analisi che faccio per riga e l’analisi che
faccio per colonna. Nel caso delle analisi delle corrispondenze queste formule sono fondamentali perché mi
permettono di proiettare sia le modalità del carattere sulle righe, sia le modalità del carattere sulle colonne
nello stesso sistema di riferimento. L’unico problema che c’è è che siccome la metrica nei due spazi è
diversa, bisogna essere più cauti nel valutare la vicinanza/lontananza.
La traccia della matrice da fattorizzare
CLUSTER ANALYSIS

L’obiettivo è identificare gruppi omogenei (cluster), composti a un certo numero di unità statistiche, che
siano per l’appunto il più possibile omogenei (quindi che presentano poca variabilità) al loro interno ed
eterogenei al loro esterno. In questo modo si massimizzano le differenze esistenti tra gruppi distinti.
L’omogeneità o la disomogeneità tra i gruppi devono essere valutate rispetto ad un insieme di variabili.
Il numero dei gruppi deve essere ricercato perché non è noto a priori.

Esistono tre diverse tecniche di cluster:


1) tecniche di clustering: si partizionano gli n elementi iniziali in k gruppi (k sottoinsiemi)
2) tecniche di clumping (o overlapping clustering): a ciascuno degli n elementi viene assegnato un
numero che indica il grado di appartenenza ad un certo gruppo (1, 0, 0.5 rispettivamente:
appartiene, non appartiene, appartiene anche ad un altro/altri gruppo);
3) tecniche di fuzzy clustering: ad ogni elemento viene assegnato un numero compreso tra 0 ed 1 che
indica il grado di appartenenza ad un certo gruppo.

Nell’ambito della cluster abbiamo 4 fasi:


- individuazione della matrice dei dati ed eventuale trasformazione degli stessi: nella prima fase
scegliamo l’unità statistica, le variabili, che possono essere mantenute nella forma originaria
oppure trasformate, ed eventualmente pesare le unità statistiche. Se scegliamo di trasformare le
variabili allora utilizzeremo una matrice dei dati centrati o dei dati standardizzati: questo richiede di
effettuare preventivamente l’analisi fattoriale (es: ACP);

- scelta della misura di diversità tra gli elementi: Occorre valutare la natura delle variabili a
disposizione ed in base ad essa ci saranno diverse famiglie di distanza, ovvero indici che misurano la
distanza tra due individui. Bisogna considerare che mentre è possibile trasformare variabili
quantitative in qualitative, non è possibile fare il contrario.
La scelta della misura di diversità dipende anche dal comportamento delle singole variabili;

- scelta dell’algoritmo di classificazione e scelte per quello specifico algoritmo: innanzitutto


distinguiamo gli algoritmi in gerarchici e non gerarchici.
Il gerarchico prevede la scelta della quantità dei gruppi da creare e decidere, poi, se applicare un
algoritmo aggregativo (si parte dalle “n” unità statistiche separate, che vengono aggregate per
formare dei gruppi) oppure scissorio (si parte dalla varietà di “n” unità statistiche come se fosse un
unico gruppo e poi vengono effettuate delle scissioni).
Con il non gerarchico, invece, bisogna scegliere i nuclei iniziali e stabilire quando interrompere la
clusterizzazione.
Indipendentemente dall’algoritmo l’obiettivo è partizionare gli individui in un numero di gruppi non
noto a priori e pari a “k”.

- valutazione del risultato ed interpretazione delle caratteristiche delle tipologie ottenute.

IL TEOREMA DI HUYGENS (SCOMPOSIZIONE DELL’INERZIA TOTALE) – Questo teorema è correlato alla


proprietà della scomposizione della devianza con riferimento ad una sola variabile, ma in questo caso è
relativo a più variabili.
Ipotizziamo di avere “n” punti in uno spazio a “p” dimensioni (quindi “n” unità statistiche rilevate su “p”
variabili): se p=1 allora la scomposizione avviene in ambito univariato, altrimenti siamo in ambito
multidimensionale.

La numerosità dei gruppi che si formano con la cluster prende nome di massa e di ognuno può essere
calcolato il baricentro così come è possibile determinare il baricentro generale di tutti i gruppi (il baricentro
è la media aritmetica).
Per il teorema di Huygens, l’inerzia complessiva (Total = T) può essere scomposta in:
- Inerzia interna (Within) che è una misura dell’omogeneità all’interno di ciascun gruppo. E’ la
differenza al quadrato tra il singolo dato considerato e la media del gruppo.
- Inerzia esterna (Between) che è una misura della eterogeneità esistente tra gruppi.
E’ calcolata come la differenza al quadrato fra il baricentro del k-esimo gruppo e il baricentro
generale, ponderati per la numerosità del gruppo.

ESEMPIO NUMERICO PAG 73-74-75

Se avessi avuto più dimensioni (ad esempio 2) allora il baricentro generale avrà bisogno di due coordinate,
una per ogni “p” considerata. Se tali dimensioni hanno unità di misura diverse sarà inoltre necessario
effettuare una standardizzazione dei dati e questo comporta che il baricentro generale avrà coordinate
(0;0) perché, essendo dati standardizzati, allora la media sarà pari a 0.

LA DISTANZA - Dal momento che la cluster mira a raggruppare individui simili tra loro, essi si basano sul
concetto di distanza (multidimensionale) tra punti.
La distanza gode delle seguenti 4 proprietà:
- Non negatività: La distanza può essere pari a 0 ma non negativa;
- Simmetria: La distanza tra A e B è uguale alla distanza tra B e A;
- Identità: La distanza è uguale a 0 solo se i due punti sono sovrapposti;
- Disuguaglianza triangolare: Dati tre punti, la distanza tra A e B è minore o uguale alla somma tra la
distanza tra A e C e quella tra B e C.
Questo è un concetto molto generale ed è quindi necessario ricorrere a tipologie di distanze, le cui più
utilizzate sono:
1) Distanza di Minkowski – E’una vera e propria famiglia di distanze ed è definita come la radice
lambdesima della sommatoria del valore assoluto tra “xis” e “xi’s”, dove lambda è un numero pari
ad 1, o più grande.

2) Distanza di Mahalanobis – E’ definita come la radice quadrata del prodotto scalare di due vettori
differenze, dove (V)^-1 rappresenta l’inversa della matrice di varianze e covarianze:

La differenza tra le due risiede nel fatto che con la distanza di Minkowski non viene considerata in
alcun modo la struttura relazionale tra le variabili.
Utilizzeremo, dunque, Mahalanobis quando le variabili sono molto correlate tra di loro.
Con riferimento alla distanza di Minkowski identifichiamo distanze diverse in base al valore del lambda. Se
questo è pari ad 1 allora utilizziamo la distanza della città a blocchi, altrimenti se lambda=2 applicheremo
la distanza euclidea.
La scelta dipende dalla struttura dei dati: se le variabili sono molto correlate tra loro dobbiamo usare la
distanza di Mahalanobis in quanto essa tiene conto della struttura di correlazione tra le variabili originarie.
Se non sono correlate, possiamo utilizzare una delle metriche di Minkowsky e la scelta tra le due dipende
dalla distribuzione delle variabili: ad esempio la presenza di dati anomali induce a preferire la metrica della
città a blocchi in quanto meno sensibile agli stessi.

Quando le variabili sono qualitative c’è collegamento con l’AC e si applicherà l’euclidea oppure la distanza
del chi-quadro:

Se invece sono dicotomiche (possono assumere solo due valori, tipicamente 1 o 0, cioè presenza o assenza
di una caratteristica) la distanza verrà calcolata in questo modo: (ESEMPIO NUMERICO PAG. 77-78)

METODI NON GERARCHICI - Si tratta di algoritmi aggregativi nei quali ad ogni step viene modificata la
partizione fino a che non è soddisfatta una regola di arresto.
In generale, tale regola riguarda il raggiungimento di un adeguato grado di omogeneità interna dei gruppi.
Quindi la partizione ottima è quella che minimizza l’inerzia interna dei gruppi:
(minW = min(W1 + W2 + · · · + WK ))

Gli step dell’algoritmo non gerarchico di Forgy sono:


- Si determinano innanzitutto K centri provvisori, dove per centro intendiamo un punto
rappresentativo, come la media, definendo così una prima partizione, nella quale ciascun individuo
viene assegnato ad un determinato gruppo, in base alla vicinanza rispetto il centro di riferimento.
A questo punto è possibile calcolare l’inerzia interna V(0), considerando come baricentri i K centri
provvisori ed infine calcoliamo i nuovi baricentri gk(o) e ricalcoliamo un’altra misura di omogeneità
interna, ovvero ricalcoliamo l’inerzia interna W(0);
- sulla base dei nuovi baricentri calcolati, si riallocano gli individui sulla base della distanza dal nuovo
baricentro, e si ottiene una nuova misura dell’inerzia interna, V(1). Il punto di arresto si ottiene
quando la differenza tra W(t), (con t = step), e V(t) è minore o al più uguale ad un certo valore
ritenuto soddisfacente.
Se W(t) – V(t) è piccola significa che l’inerzia calcolata sulla base del vecchio baricentro e del nuovo
baricentro è piccola, per cui non vengono più spostati individui o, al massimo, ne vengono spostati
pochi.

L’algoritmo non gerarchico più utilizzato è detto K-medie ed è stato ideato da MacQueen. Rispetto a quello
di Forgy il calcolo del nuovo baricentro è fatto subito dopo aver riallocato gli individui nel nuovo gruppo ed
ha il vantaggio di convergere molto più rapidamente.

L’inconveniente dei metodi non gerarchici è che il numero di gruppi da formare è scelto all’inizio dal
ricercatore e non può variare. Per limitare tale inconveniente, Diday ha proposto di ricercare i gruppi stabili,
cioè quelli che tendono a formarsi sempre ripetendo l’analisi più volte. In pratica si considerano come
gruppi finali quelli che risultano dalla intersezione dei gruppi formatisi nei diversi processi di
clusterizzazione.

METODI GERARCHICI - La caratteristica di tali algoritmi è che producono una gerarchia di partizioni che si
presenta sotto forma di albero. Risolvono, quindi, l’inconveniente dei metodi non gerarchici in quanto il
numero di gruppi viene scelto alla fine dell’analisi e non prima ma contestualmente sono più lenti e non
possono essere applicati bene quando le unità statistiche sono molto numerose.
Possono essere agglomerativi o scissori e quelli agglomerativi possono poi essere:
- simultanei: prevedono che vengano effettuate più agglomerazioni alla volta;
- Di base: prevedono l’agglomerazione di coppie di entità una alla volta.

Il funzionamento dei metodi gerarchici agglomerativi di base – Dato un certo numero di unità statistiche
(n), il punto di partenza è rappresentato dalla matrice delle distanze, le cui dimensioni sono “n x n”.
La prima cosa da fare è aggregare i due individui più simili tra di loro (ad esempio: p e q) e mediante la loro
aggregazione si forma il primo cluster (h).
Il numero di unità statistiche, a questo punto, non sarà più pari ad “n” ma “n-1” perché “p” e “q” non sono
più unità singole ma sono un gruppo.
La procedura è sempre la stessa, ovvero ricalcoliamo la matrice delle distanze, vediamo quali sono le entità
più vicine e le facciamo confluire in nuovo cluster.

Il problema è calcolare la distanza tra i nuovi individui che si creano e quelli preesistenti. Le metodologie di
calcolo di distanza più usate sono:
- Legame singolo (o salto minimo), dove la distanza è data dalla più piccola delle distanze tra
l’individuo “r” e gli individui costituenti:
d(h,r) = min[d(r,p);d(r,q)];
- Legame completo (o salto massimo), considera come distanza la più grande tra “r” e gli individui
costituenti:
max [d(r,p);d(r,q)];
- Distanza media:

- Metodo di Ward (o salto minimo di varianza interna): L’idea su cui si fonda il criterio di Ward è
semplice: poiché all’aumentare del numero di individui appartenenti ad un cluster, l’inerzia interna
dello stesso aumenta, viene fatto entrare nel cluster quell’individuo che genera l’incremento
minimo di inerzia interna.

ESEMPIO NUMERICO PAG 83-84-85


Lance e Williams hanno dato una versione unificata dei diversi metodi di calcolo della distanza tra
clusters. Hanno infatti dimostrato che, con una scelta opportuna dei valori dei parametri, tutti i criteri
sono riconducibili alla seguente distanza:

Algoritmi scissori – Il loro funzionamento si basa su un unico cluster di partenza costituito da “n” unità
statistiche che dovranno essere scisse in sottogruppi mediante delle bipartizioni (il gruppo iniziale viene
suddiviso in due sottogruppi e ciascun sottogruppo deve essere a sua volta suddiviso in altri due
sottogruppi).
L’assegnazione di un individuo ad un cluster oppure all’altro dipende dalla ottimizzazione di una funzione
della varianza interna ai gruppi.
Posso modificare il modo con cui la devianza totale si compone tra W e B spostando le unità statistiche da
un gruppo all’altro.
A partire da un collettivo di n individui su cui sono state rilevate p variabili, è sempre possibile costruire la
matrice di varianza e covarianze.
La traccia di questa matrice darà l’inerzia totale del fenomeno. Dividendo gli individui in due gruppi, potrò
calcolare due matrici di varianze e covarianze, che chiamiamo W1 e W2.
Posso definire anche la seguente matrice W = W1 + W2. Ebbene la traccia di W contiene la varianza interna
dei due gruppi.
Uno degli algoritmi più usati è il metodo di Cavalli-Sforza: secondo questo algoritmo le unità statistiche
sono dislocate nei gruppi in modo tale da minimizzare la devianza interna di ciascun gruppo.

Le combinazioni dei gruppi sono calcolate come 2^(n).

Metodi misti - Prevedono l’uso abbinato di metodi gerarchici e non gerarchici. L’algoritmo prevede che si
usa un metodo non gerarchico con un elevato numero di centri iniziali e di seguito i gruppi trovati vengono
trattati come elementi singoli su cui effettueremo una cluster gerarchica aggregativa.
Di seguito mediante il taglio del dendrogramma identificheremo i gruppi finali, il cui numero sarà scelto
come centro iniziale per la procedura non gerarchica.
LA REGRESSIONE LINEARE SEMPLICE

Il modello di regressione lineare semplice serve per spiegare determinati fenomeni, in particolare come
varia una variabile (dipendente: Y) al cambiare di un’altra (indipendente: X).

Il pedice “i” viene usato in ambito statistico per esprimere che si sta osservando un campione di individui,
ad esempio Yi implica che devono essere rappresentate tutte le unità statistiche mentre “ei” è la
componente stocastica, l’errore permesso che da flessibilità al modello.
I due beta non hanno il pedice perché sono uguali per tutti e rappresentano il coefficiente angolare (B1) e
l’intercetta (B0): non sono noti e sono necessari per comprendere la relazione tra X e Y.

L’equazione sovra indicata implica una Y realmente osservata ma il fenomeno può essere spiegato
attraverso una funzione, come ad esempio mediante una retta e sarà, allora, un valore da modello (la Y
presenterà un “cappello”) ossia il valore atteso che ci si aspetta di ottenere e viene indicata come:

Se spiegato da una retta avremo un’equazione del tipo —> Y = aX + b (il modello, così usato, va ad
“approssimare la realtà” e l’errore “e” sparisce).

Se stimiamo Yi in corrispondenza di un valore Xi non osservato, ma compreso tra valori osservati,


effettuiamo una interpolazione. Se stimiamo Yi in corrispondenza di un valore Xi non osservato, esterno ai
valori osservati, effettuiamo una estrapolazione.
In entrambi i casi compiamo una previsione di Y in corrispondenza della circostanza Xi.
Nel caso in cui c’è un dato mancante nella base dati, un modo molto semplice è quello di procedere
attraverso l’imputazione della media. Supponiamo che le unità statistiche x1 e x2 non abbiano un valore: in
questo caso è possibile calcolare la media per i valori a disposizione e, successivamente, imputarla a x1e x2
come valore del dato mancante.
Nel passaggio dall’equazione riferita alle osservazioni reali ad un’equazione della retta, è molto probabile
commettere qualche errore.
L’errore è definito come errore da modello o di previsione ed è determinato come la differenza tra Y
“reale” ed Y da modello (teorico).

Quando si rilevano delle unità statistiche, graficamente vengono rappresentate come nuvola di punti (o
scatter plot), mentre la retta costituisce il modello e dovrà essere posizionata in mezzo alla nuvola dei punti
e con una pendenza negativa.
Per poter identificare una e una sola retta all’interno del piano, è necessario capire qual è la pendenza
(coefficiente angolare) e l’intercetta. Spostando la retta nello spazio, ad esempio cambiando la pendenza
cambia l’errore, cioè la differenza tra quanto si è realmente osservato e quanto restituisce il modello.
Un modo ragionevole di procedere sarebbe quello di posizionare la retta, e quindi individuare coefficiente
angolare e intercetta, in modo tale da minimizzare l’errore.

Il modello di regressione lineare semplice si compone di tre fasi:


1) Scelta della funzione: La scelta del modello dipende dalla forma che assume la nuvola di punti nello
scatter plot. Si possono avere funzioni di diverso tipo: retta, parabola, funzione cubica ecc;

2) Stima dei parametri incogniti: E’ una fase “teorica” e il metodo più utilizzato per stimare i beta è il
metodo dei minimi quadrati. Con questo metodo si va a minimizzare la somma dei quadrati degli
errori e dalla risoluzione del problema di minimo troviamo i valori dell’intercetta e della pendenza
della retta.
Definiamo beta0: alfa e beta1: beta. Sostituendoli ad Y cappello otteniamo la seguente espressione:

Le incognite sono ovviamente alfa e beta (ossia i due beta) e quindi dovremo derivare rispetto ad
essi:
Trattandosi di relazioni statistiche queste sono svincolate dalla relazione causa-effetto tra le due variabili,
infatti l’obiettivo è misurare l’associazione tra due variabili che possono anche invertirsi (Y diventerebbe
indipendente mentre la X la variabile dipendente).

La relazione tra il coefficiente angolare (b1) e il coefficiente di correlazione (r):


E’ possibile determinare il valore del coefficiente angolare, quindi della pendenza, partendo dalla formula
del coefficiente di correlazione.

B1 è infatti pari al rapporto tra la cov(xy) e la var(x); r(xy) è invece il rapporto tra cov(xy) / sqm (x)sqm(y)
La differenza tra le due risiede nel denominatore, infatti il coefficiente di correlazione presenta al
denominatore sqm(y). Quindi se moltiplichiamo r(xy) per il rapporto tra sqm(y)/sqm(x) otteniamo il valore
del coefficiente angolare perché var(x) non è altro che sqm(x)^2.

Il coefficiente angolare (b1) può essere positivo, negativo o nullo. Il segno dipende esclusivamente dal
segno della covarianza:
- E’ positivo quando la cov ha segno positivo e questo significa che all’aumentare di un’unità della
variabile indipendente aumenta anche la dipendente;
- E’ negativo quando la cov ha segno negativo e quindi un aumento della variabile indipendente
riduce contestualmente la dipendente;
- E’ nullo solo se la cov=0 e di conseguenza sarà pari a 0 anche il coefficiente di correlazione. Questo
significa che non esiste alcuna dipendenza lineare tra le variabili.

Date due rette di regressione queste saranno considerate l’un in funzione dell’altra sono se vi è
concordanza nei segni del coefficiente angolare e il prodotto dei loro coefficiente è pari massimo ad 1.

STIMA DEI PARAMETRI PER ALTRI MODELLI:

A) Retta orizzontale: quando la nuvola di punti si dispone in tutti i quadranti ed ho una retta
orizzontale significa che non esiste una relazione tra X e Y. La cov(xy) sarà prossima allo 0 e così sarà
dunque anche il coefficiente di correlazione: questo implica che allora non ha senso usare X per
spiegare Y.
Essendo beta=0 allora la relazione sarà:
Yi= alfa + “ei” —> ciascun valore di Y è dato da un coefficiente uguale per tutti e un errore diverso
per ogni individuo.
Alfa si determina come media(y) – beta per media(x) ed essendo beta=0 allora la media di y sarà il
coefficiente alfa.
E’ possibile poi dimostrare che in questo caso l’errore sarà pari alla devianza di Y:

B) Parabola:

C) Cubica:

D) Funzione esponenziale:

E) Funzione potenza:
La terza fase è la verifica della bontà logica e dell’adattamento ossia stabilire l’affidabilità e l’accuratezza
dei risultati: questo avviene mediante il coefficiente di determinazione R^2.

Ipotizziamo un grafico di questo tipo:


Ovviamente è preferibile che la devianza spiegata sia maggiore in modo da minimizzare quella residua.

Se il coefficiente di determinazione è pari a 0 questo significa che la devianza residua e quella totale

coincidono e quindi non esiste alcuna relazione tra X ed Y.


Se R^2=1 allora il modello si adatta perfettamente ai dati e questa situazione si ha quando la devianza
residua è pari a 0.
Altre misure della bontà di adattamento sono gli indici di accostamento:

ESEMPIO NUMERICO PAG. 104-105


LA REGRESSIONE LINEARE MULTIPLA

Il limite del modello di regressione lineare semplice è che considera una sola variabile esplicativa per
spiegare il fenomeno osservato. Quando sono necessarie più variabili esplicativi utilizziamo il modello di
regressione lineare multiplo.

Dove “Y” è la variabile dipendente, le varie X rappresentano le variabili indipendenti o esplicative. I beta
sono i q+1 parametri incogniti (+1 perché si parte da beta0, ossia dall’intercetta) mentre “ei” è la
componente stocastica, ovvero la differenza tra valore osservato e quello stimato di Yi.

Questo modello, che rappresenta un’estensione del precedente, può essere rappresentato anche mediante
la seguente notazione matriciale:

Il problema è connesso alla stima dei parametri Beta perché non siamo più in uno spazio a due dimensioni
ma in un iperpiano (k+1 dimensioni). La stima avviene sempre mediante l’uso del metodo dei minimi
quadrati ma con notazione matriciale e dovremo minimizzare la quantità e’e derivando matrici e vettori.
La soluzione è la seguente:

E’ necessario quindi passare attraverso l’inversione della matrice e quindi il calcolo del determinante (la
matrice deve essere pertanto quadrata): in particolare l’inversa è funzione del rapporto tra 1/ det(X’X).

I problemi tipici del modello sono:


- La multicollinearità: riguarda la correlazione tra le variabili esplicative (X). Queste devono essere,
per quanto possibile, differenziate. Se ipoteticamente tra esse sussiste correlazione perfetta (r=1)
allora non sarebbe possibile invertire la matrice e calcolare i beta.
Qualora il determinante fosse molto piccolo allora le stime che otteniamo saranno
contestualmente non molto buone perché eccessivamente elevate (un valore piccolo del
determinante essendo al denominatore genera poi valori elevati nella stima dei beta).
Questo inoltre implica che se cambiassimo l’ammontare del determinante, anche di poco, di
conseguenza cambieranno di molto le stime dei beta. La multicollinearità genera dunque instabilità
nel valore dei beta perché basta una modifica minima del campione per modificare notevolmente
le stime.
Per far fronte a questo problema facciamo riferimento all’indice di tolleranza:
L’indice di Tolleranza viene utilizzato per stimare quanto una variabile indipendente è linearmente
correlata alle altre variabili indipendenti. Questo parametro varia tra 0 e 1, indica la quantità di
varianza di una variabile indipendente che non è spiegata dalle altre variabili indipendenti ed è
uguale a: Ti = (1 – Ri2), dove Ri2 è il coefficiente di determinazione ottenuto dalla regressione della
variabile indipendente i sulle altre variabili indipendenti. Maggiore è l’indice di tolleranza, minore è
la varianza che quella variabile indipendente condivide con le altre, maggiore è il contributo che
essa può fornire nella spiegazione della variabile dipendente. Una variabile con un basso livello di
tolleranza, invece, condivide molta varianza con le altre, quindi il contributo che può fornire nella
spiegazione della variabile dipendente è solitamente più limitato. Un valore particolarmente basso
di tolleranza (ad esempio, inferiore a .05) può risultare indicativo di variabili che rischiano di
causare problemi computazionali nella stima dei coefficienti di regressione.
Un altro indice è il Variance Inflaction Factor (VIF) rappresenta il reciproco della tolleranza. Valori
bassi del VIF indicano bassa collinearità, valori alti elevata collinearità. Valori oltre 15/20 sono
indicativi di forte collinearità.

- La selezione delle variabili esplicative: Una prima soluzione è conoscere le variabili che influenzano
il fenomeno attraverso uno studio approfondito.
In generale il numero di esplicative da considerare non deve eccedere il numero di unità statistiche,
pertanto può essere necessario realizzare un sottoinsieme di esplicative.
Le tre metodologie più usate per determinare le esplicative sono:
A) Selezione all’indietro (backward): Dall’insieme iniziale di variabili esplicative, si procede alla
rimozione di una variabile alla volta. La variabile di volta in volta eliminata è quella con la
minore capacità di spiegare la variabilità di Y. Il processo termina quando è soddisfatta la regola
di arresto;
B) Selezione in avanti (Forward): Non si parte più da un insieme pieno ma vuoto, in cui
introduciamo una variabile alla volta fino ad arrivare al soddisfacimento della regola d’arresto.
Lo svantaggio, come nel backward, è che una volta introdotta (eliminata) non potrà essere
eliminata poi la variabile, anche se ora superflua;
C) Selezione stepwise: Una variabile è incluso nel modello se, in una fase del processo di stima, è
quella che più delle altre spiega la variabilità di Y. La stessa può essere rimossa se, in altre fasi
del processo, la sua capacità esplicativa è surrogata da altre variabili.

Le ipotesi forti del modello – Innanzitutto il valore atteso dell’errore è uguale a 0, ossia la media degli
errori è nulla, per cui a volte avremo errori in eccesso ed altre volte errori in difetto, ma la media è pari a 0.
La seconda ipotesi è che la varianza dell’errore è uguale a sigma^2 e questa ipotesi prende nome di
omoschedasticità.

La terza ipotesi è che la covarianza tra gli errori è pari a 0, ovvero gli errori devono essere tra loro
incorrelati.

FASI DELL’ANALISI:
1) La prima è una fase preliminare in cui viene svolta un’analisi esplorativa. Nel dettaglio sceglieremo
la forma funzionale e capire quali sono le variabili contenute nella matrice X ed eventualmente
effettuare trasformazioni sulle variabili. In questa fase, inoltre, dobbiamo scegliere le esplicative in
base ai metodi sopracitati.
Individuata la matrice dei dati X dobbiamo analizzare graficamente la relazione esistente tra X e Y
per stabilire la forma funzionale da imporre: dobbiamo però considerare che abbiamo “k”
esplicative e quindi avremo “k” grafici che rappresentano la relazione tra Y e le esplicative (x). Sarà
necessario trovare un equilibrio tra due esigenze contrapposte: parsimonia (poche esplicative) e
accuratezza (molte esplicative).
La matrice di correlazione tra le esplicative ci fornisce una prima idea della dipendenza lineare tra le
esplicative. Un buon modello include esplicative sostanzialmente incorrelate tra loro.
Infine è necessario trasformare eventuali variabili, qualora risultino essere qualitative o
categoriche. Si effettua infatti una ricodifica della variabile stessa in una variabile dummy
(dicotomica).
Data una variabile qualitativa avente k modalità, si creano k-1 variabili dicotomiche. Ciascuna
dummy assume valore 1 se la modalità è presente nella variabile originaria e 0 altrimenti.
2) La seconda fase è la stima dei parametri;
3) La terza fase consiste infine nella verifica delle ipotesi di base, nonché nella valutazione della bontà
di adattamento del modello e nella verifica dell’esistenza di errori sistematici.
E’ ammesso commettere un errore affinché non sia sistematico e a tal scopo bisogna soddisfare 3
condizioni (le ipotesi forti del modello). Se rispettate l’errore non è sistematico, ma per verificare
questo aspetto viene effettuata l’analisi dei residui. Bisogna inoltre considerare la normalità dei
residui ossia se tracciamo un istogramma dei residui questi assumeranno la forma della Normale.
Gli strumenti grafici che ci aiutano a capire se i residui rispettano le hp di base (normalità,
omoschedasticità e incorrelazione) e se la forma funzionale è ben specificata sono:
- Grafico P-P e Q-Q (normalità): Per verificare l’assunzione di normalità si fa riferimento ai grafici PP
o QQ: sull’asse orizzontale si presenteranno le quantità (probabilità e quantili) osservate, mentre
sull’asse verticale ci saranno le quantità teoriche. Se i punti giacciono lungo la diagonale principale,
senza scostarsi troppo, i residui sono normali.

- Grafico a dispersione dei residui standardizzati contro i valori previsti dalla variabile indipendente Y
(incorrelazione, omoschedasticità e forma funzionale): Per verificare, invece, una situazione di
eteroschedasticità od omoschedasticità faccio riferimento ad un grafico che prevede sull’asse
orizzontale i valori stimati di Y, mentre sul verticale trovo i residui. Verificando questi grafici
stabilisco la struttura dei residui, ossia se presentano forme di sistematicità.
Ho una situazione di omoschedasticità quando i residui non hanno strutture sistematiche e quindi
NON si commette sempre lo STESSO ERRORE.

- Grafico a dispersione dei residui standardizzati contro ciascuna variabile indipendente (fornisce il
dettaglio del problema): Il residuo è una stima dell’errore che commetto nel prevedere Yi con Ŷi.
Per stimare la capacità di adattamento ai dati della retta di regressione è opportuna una analisi
grafica: il grafico di dispersione dei residui (ordinate) e dei valori di X (ascisse).
Se i residui risultano essere sotto la retta tracciata allora l’errore sarà maggiore di 0 e si potrebbe
anche avere una struttura sistematica dei residui e quindi si dovrebbe optare per una forma
funzionale diversa, ossia più adatta alla mia nuvola dei punti.

Potrebbero piacerti anche