AFD Printable PDF
AFD Printable PDF
Michaël Genin
Université de Lille 2
EA 2694 - Santé Publique : Epidémiologie et Qualité des soins
[email protected]
1 Introduction
2 Principe général
3 Principe d’interprétation
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 1 / 54
Introduction Positionnement de la méthode
Univariées
Méthodes
descriptives Multivariées
Méthodes (ACP, CAH. . . )
statistiques
Méthodes Tests usuels
Inférentielles
Multivariées
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 4 / 54
Introduction 2 familles de méthodes de classification
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 6 / 54
Introduction 2 familles de méthodes de classification
Méthodes de discrimination
2 objectifs principaux :
Etude du lien entre Y (Variable à expliquer qualitative) et les Xj (Variables
explicatives quantitatives ou binaires) ⇒ Facteurs prédictifs
Prédiction (système d’aide à la décision (scores cliniques, crédit scoring, ...)
En pratique en médecine
2 classes ⇒ Régression logistique
> 2 classes : Analyse discriminante, Arbres de décision
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 7 / 54
Introduction 2 familles de méthodes de classification
En résumé
L’Analyse Factorielle Discriminante est une méthode de discrimination, explicative
qui a pour but :
Etude du lien entre Y (Variable à expliquer qualitative) et les Xj (Variables
explicatives quantitatives ou binaires) ⇒ Facteurs prédictifs
Prédiction de l’appartenance à une classe
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 8 / 54
Principe général Un modèle linéaire
Modèle linéaire
∑
p
Score = λ1 X1 + λ2 X2 + · · · + λp Xp = λj Xj
j=1
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 11 / 54
Principe général Un modèle linéaire
λ + · · · + λp Xp
Score Framingham = λ1 X1 + · · · + Age[55-59] |{z}
| {z }
0/1 =4
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 12 / 54
Principe général Objectifs de l’AFD
Cas 1 Bonne
Score
M̄ M
Cas 2 Moyenne
Score
M̄ M
Cas 3 Mauvaise
Score
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 14 / 54
Principe général Objectifs de l’AFD
Exemple : X1 , X2 et K = 2
X2
µ1
µ2
X1
X2
µ1 µ2
Les centres de gravité µ1 et µ2 ne
sont pas séparés (i.e. les groupes ne
sont pas séparés)
X1
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 15 / 54
Principe général Objectifs de l’AFD
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 16 / 54
Principe général Objectifs de l’AFD
M̄ M M̄ M
Score Score
Nécessité
Pour les scores ⇒ utilisation d’un critère de qualité de discrimination
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 17 / 54
Principe général Objectifs de l’AFD
Score
M̄ M
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 18 / 54
Principe général Objectifs de l’AFD
Cas de 2 groupes (k = 2)
Objectif de l’AFD
∑p
Déterminer parmi toutes les combinaisons linéaires des Xj ( j=1 λj Xj ), les
pondérations λj qui maximisent le R 2 .
Théorème
Si les groupes sont séparés (MANOVA) alors il existe une combinaison linéaire
(score discriminant, composante discriminante) unique qui maximise le R 2 .
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 19 / 54
Principe général Objectifs de l’AFD
Cas de 2 groupes (k = 2)
µ1 µ2
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 20 / 54
Principe général Objectifs de l’AFD
Cas de 2 groupes (k = 2)
µ1 µ2
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 21 / 54
Principe général Objectifs de l’AFD
Cas de 2 groupes (k = 2)
Détermination des λj
AFD : ACP particulière sur les centres de gravité :
X1 X2 ... Xj ... Xp
G1 µ11 µ12 ... µ1j ... µ1p
G2 µ21 µ22 ... µ2j ... µ2p
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 22 / 54
Principe général Objectifs de l’AFD
Cas de 3 groupes (k = 3)
Situation rare :
Groupe 1 Groupe 2 Groupe 3
Score 1
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 23 / 54
Principe général Objectifs de l’AFD
Cas de 3 groupes (k = 3)
Groupe 1 Groupe 2
Score 1
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 24 / 54
Principe général Objectifs de l’AFD
Cas de 3 groupes (k = 3)
Groupe 1 Groupe 2
Score 1
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 25 / 54
Principe général Objectifs de l’AFD
Cas de 3 groupes (k = 3)
Groupe 1 Groupe 2
Score 1
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 26 / 54
Principe général Objectifs de l’AFD
Cas de 3 groupes (k = 3)
β
Groupe 1 Groupe 2
Score 1
α
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 27 / 54
Principe général Objectifs de l’AFD
Théorème
Soit Y qui définit k groupes. Si les groupes sont séparés, alors
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 28 / 54
Principe général Objectifs de l’AFD
Résumé
Méthode linéaire : scores linéaires qui vont prédire l’appartenance aux classes
Les classes doivent être séparées (MANOVA)
Les scores : issus d’une ACP particulière sur les centres de gravités
(composantes)
Toujours k − 1 scores discriminants
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 29 / 54
Principe d’interprétation
Principe d’interprétation
3 étapes clés :
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 31 / 54
Principe d’interprétation
Variables explicatives
Largeur de l’appareil reproducteur (aedeagus) (µm) (width)
Angle de l’appareil reproducteur (aedeagus) (degré) (angle)
Objectifs
Déterminer quelle sont les variables discriminant les groupes d’insectes
Etablir des règles de classement
1. Lubischew, A.A. (1962) On the use of discriminant functions in taxonomy. Biometrics, 18,
455-477
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 32 / 54
Principe d’interprétation Interprétation mathématique
Sous SPSS
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 34 / 54
Principe d’interprétation Interprétation mathématique
G1 G2
G1 G2
Score Score
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 35 / 54
Principe d’interprétation Interprétation mathématique
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 36 / 54
Principe d’interprétation Interprétation mathématique
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 37 / 54
Principe d’interprétation Interprétation mathématique
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 38 / 54
Principe d’interprétation Interprétation mathématique
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 39 / 54
Principe d’interprétation Interprétation mathématique
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 40 / 54
Principe d’interprétation Interprétation mathématique
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 41 / 54
Principe d’interprétation Interprétation clinique
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 43 / 54
Principe d’interprétation Interprétation clinique
ρ+ S2
ρ− ρ+
S1
ρ−
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 44 / 54
Principe d’interprétation Interprétation clinique
ρ+ S2
angle width
(r = 0:651) (r = 0:571)
ρ− ρ+
angle width
(r = −0:759) (r = 0:821)
S1
ρ−
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 45 / 54
Principe d’interprétation Interprétation clinique
ρ+ S2
angle width
(r = 0:651) (r = 0:571)
ρ− ρ+
angle width
(r = −0:759) (r = 0:821)
S1
ρ−
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 46 / 54
Principe d’interprétation Construction de règles de classement
3 solutions :
1 Utiliser les classes prédites par le logiciel (Méthode des médiatrices)
Problème : "boîte noire"
Pas de règle explicite
2 Méthode graphique
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 48 / 54
Principe d’interprétation Construction de règles de classement
3 solutions :
1 Utiliser les classes prédites par le logiciel (Méthode des médiatrices)
Problème : "boîte noire"
Pas de règle explicite
2 Méthode graphique
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 49 / 54
Principe d’interprétation Construction de règles de classement
3 solutions :
1 Utiliser les classes prédites par le logiciel (Méthode des médiatrices)
Problème : "boîte noire"
Pas de règle explicite
2 Méthode graphique
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 50 / 54
Principe d’interprétation Construction de règles de classement
3 solutions :
1 Utiliser les classes prédites par le logiciel (Méthode des médiatrices)
Problème : "boîte noire"
Pas de règle explicite
2 Méthode graphique
Règle :
Seuils optimaux ?
β
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 51 / 54
Principe d’interprétation Construction de règles de classement
3 solutions :
3 Courbe Roc pour déterminer α et β
Pour S2 :
1 Créer une variable binaire
(G1 vs G2 , G3 )
2 Courbe ROC sur S2 avec
nouvelle variable
α → α optimal pour S2
Pour S1 :
1 Sous-échantillon :
β uniquement G2 et G3
2 Courbe ROC sur S1 avec
species
→ β optimal pour S1
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 52 / 54
Principe d’interprétation Construction de règles de classement
| {z } −0.625 × angle
S1 = 0.147 × width −11.752 = 0.666
| {z }
=144 =14
S2 = 0.149 × width
| {z } +0.780 × angle −30.258 = 2.118
| {z }
=144 =14
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 53 / 54
Principe d’interprétation Construction de règles de classement
Posons α = 1 et β = 0
Règle :
Michaël Genin (Université de Lille 2) Analyse factorielle discriminante Version - 17 mars 2016 54 / 54