Chapitre 2 - VF

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 48

Techniques

d'indexation et
recherche multimédia
Chapitre 2:Modèles de recherche
et mesures de similarité
Dr.Ghada Besbes
Modèles de recherche
• Un modèle de RI joue un rôle crucial dans le processus de
recherche documentaire.
• Il offre:
• Un formalisme de représentation pour les requêtes des
utilisateurs et les documents (analyse et indexation)
• Un formalisme d’appariement pour estimer la pertinence d’un
document vis-à-vis d’une requête notée par 𝑅𝑆𝑉 (Relevance
Status Value).
• 𝑅𝑆𝑉 (𝑞,𝑑) permet de déterminer le degré de similarité entre la
représentation du document 𝑑 et celle de la requête 𝑞.

2
Appariement exact
vs Appariement approché
Appariement exact
• Requête spécifie de manière précise les critères recherchés
• L’ensemble des documents respectant exactement la requête
sont sélectionnés, mais pas ordonnés
Appariement approché
• Requête décrit les critères recherchés dans un document
• Les documents sont sélectionnés selon un degré de
pertinence (similarité/ probabilité ) vis-à-vis de la requête et
sont ordonnés

3
Modèles de recherche
Théorie des
Algèbre Probabilités
ensembles

Modèle booléen Modèle


Modèle vectoriel
(strict) probabiliste

Modèle booléen LSI (Latent


Réseau
pondéré ou Semantic
d’inférence
étendu Indexing)

Modèle de 4
langue
Modèle Booléen
• Le modèle booléen de base est le premier modèle utilisé en RI
[Salton, 1969].
• Il est basé sur la théorie des ensembles et l’algèbre de Boole.
• Ce modèle représente:
• Chaque document par un ensemble de mots clés ou de termes
séparés non pondérés.
• Chaque requête par une expression logique composée de termes
combinés par les opérateurs logiques ET(AND), OU(OR) et
SAUF(NOT).
• L’opérateur "AND" :les termes doivent être présents simultanément
dans la description d’un document.
• L’opérateur "OR" :au moins un parmi les termes (ou les deux) doit
être présent dans la description d’un document.
• L’opérateur "NOT" : permet d’éloigner les documents qui 5
contiennent un terme.
** Salton, G.,(1969).A comparison between manual and automatic indexing
methods. American Documentation, 20(1):61–71.
Modèle Booléen
• Le document est pertinent si et seulement si son contenu
respecte l’expression logique demandée.
• Les termes dans le document ou la requête ont une
pondération binaire qui peut être 1 si le terme est
présent et 0 s’il est absent.
• Un document est représenté un ensemble de termes
• Ex : d1(t1,t2,t5); d2(t1,t3,t5,t6); d3(t1,t2,t3,t4,t5)
• Une requête est un ensemble de mots avec des
opérateurs booléens : AND (∧), OR(∨), NOT (¬)
• Ex: q = t1 ∧ (t2 ∨ ¬t3)
6
Modèle Booléen
• Appariement Exact basé sur la présence ou l’absence des
termes de la requête dans les documents
• Appariement (q,d) = RSV(q,d)=1 ou 0

Soit ti un terme et d un document alors:


RSV(d, ti) = 1 si ti Є d ; 0 sinon

RSV(d, q1 Λ q2) = 1 si RSV(d, q1) = 1 et RSV(d, q2) = 1 ; 0 sinon

RSV(d, q1 V q2) = 1 si RSV(d, q1) = 1 ou RSV(d, q2) = 1 ; 0 sinon


7
RSV(d,¬q) = 1 si RSV(d, q) = 0 ; 0 sinon
Modèle Booléen
Exemple 1:

q = t1 ∧ (t2 ∨ ¬t3)

d1(t1,t2,t5); d2(t1,t3,t5,t6); d3(t1,t2,t3,t4,t5)

RSV(q,d1)=? RSV(q,d2)= ? RSV(q,d3)= ?

• RSV(q,d1)= 1
• RSV(q,d2)= 0
• RSV(q,d3)= 1 8
Modèle Booléen
Exemple 2:
Requête Q : (cyclisme OU natation) ET SAUF dopage
Le document contient Pertinence
cyclisme natation cyclisme dopage SAUF du
OU dopage document
natation
0 0 0 0 1
0 0 0 1 0
0 1 1 0 1
0 1 1 1 0
1 0 1 0 1
1 0 1 1 0 9
1 1 1 0 1
1 1 1 1 0
Modèle Booléen
Exemple 2:
Requête Q : (cyclisme OU natation) ET SAUF dopage
Le document contient Pertinence
cyclisme natation cyclisme dopage SAUF du
OU dopage document
natation
0 0 0 0 1 0
0 0 0 1 0 0
0 1 1 0 1 1
0 1 1 1 0 0
1 0 1 0 1 1
1 0 1 1 0 0 10
1 1 1 0 1 1
1 1 1 1 0 0
Modèle Booléen
Avantages :
• Le modèle est transparent et simple à comprendre pour
l'utilisateur :
• Raison de retour d'un document résultat est claire : il répond à
une formule logique
• Adapté pour les bases spécifiques où le nombre de mots n’est
pas très élevé (vocabulaire contraint).
• Exemple : base de documents de mathématiques
• Langage de requête est très expressif : l’utilisateur indique les
termes qu’il veux et ceux qu’il ne veux pas.

11
Modèle Booléen
Inconvénients
• La plupart des utilisateurs ont du mal à écrire des requêtes
booléennes lorsque le nombre de termes est trop élevé (dans
une base généraliste)
• Le critère binaire de la pertinence n’est pas efficace : ne tient
pas compte des occurrences des mots dans les documents.
➢ Deux documents qui contiennent le même mot l’un avec
l’occurrence 1 et l’autre avec l’occurrence 200 auront à la fin la
même pertinence
• La liste des documents résultats n’est pas ordonnées.
➢ L’utilisateur est obligé de parcourir tous les résultats puisque tous
les documents ont la même pertinence
• Pas de contrôle sur le nombre de documents retournés. Il faut
12
tous les parcourir
Modèle Vectoriel
• Ce modèle constitue une alternative au modèle booléen.
• Cette idée a été ensuite développée par Salton [Salton et al.,
1975] dans le projet SMART (Salton's Magical Automatic
Retriever of Text).
• Il préconise la représentation des requêtes utilisateurs et des
documents sous forme de vecteurs de poids dans un espace
vectoriel multidimensionnel.
• Chaque dimension correspond à un terme unique de la
collection de documents.
T<t1,t2, …, tM>
(M: nombre total de termes, un terme = une dimension)

**Salton, G.,Wong,A.,& Yang, C. S.,(1975).A vector space model for automatic indexing.
13
Communications of the ACM, 18(11):613–620.
Modèle Vectoriel
• Chaque poids dans le vecteur désigne l’importance du terme
dans le document ou dans la requête.
• Document :
dj= (w1j, w2j, …, wMj)
wij: poids du terme ti dans le document dj
• Requête :
q= (w1q, w2q, …, wMq)
wiq: poids du terme ti dans la requête q

• La pertinence du document correspond au degré de


similarité entre le vecteur de la requête et celui du
document. 14
Modèle Vectoriel
• Appariement approché:
• Obtenir une liste de documents ordonnés par similarité par
rapport à la requête
➢ Primordial pour trouver rapidement l’information recherchée et
distinguer les documents selon qu’ils couvrent principalement ou
partiellement le ou les aspects de la requête

15
Modèle Vectoriel
• Une collection de n documents peut être représentée par une
matrice terme/document

T1 T2 …. TM
D1 w11 w21 … wM1
D2 w12 w22 … wM2
: : : :
: : : :
Dn w1n w2n … wMn

16
• La requête est également représentée par un vecteur.
Modèle Vectoriel
t3

Exemple 1: 1
D
0.80
Requête Q : t1 t2 t 3
Q
Document D : … t 1 … t3 …

Poids wD,t1 = 0.45 1


t1
0.45
Poids wD,t3 = 0.80
1
t2

17
Modèle Vectoriel
T3
Exemple 2:
D1=2T1+3T2+5T3
D2=3T1+7T2+T3
Q= 2T3 5
D1

Q
2
2 3
T1

3
D2
Qui de D1 et D2 est plus similaire à Q?
7
T2 Comment mesurer le degré de similarité
18
RSV(Q ,D)? Pojection? Distance? Angle?
Modèle Vectoriel
Distance euclidienne ? Produit scalaire ?
t2 t2
D1 D1

Q Q

D3 D2 D3 D2
D4 D4

t1 t1

19
Avec n: nombre total des termes
wij :poids du terme j dans le document i
wqj :poids du terme j dans la requête q
Modèle Vectoriel
Travailler avec l’angle entre les vecteurs : la mesure
cosinus:
t2
D1

D3 D2 D4

t1
20
Avec n: nombre total des termes
wij :poids du terme j dans le document i
wqj :poids du terme j dans la requête q
Modèle Vectoriel
• La similarité cosinus est la plus utilisée grâce à son efficacité
• La similarité cosinus est un bon candidat pour mesurer la
proximité des vecteurs dans l’espace vectoriel à dimension,
car :
• indifférente de la longueur (norme) des vecteurs ;
• maximale si les vecteurs sont sur la même direction (angle=0,
cosinus= 1) ;
• minimale si les vecteurs ont des directions "orthogonales" (pas
de terme en commun) ;
• varie continument entre 0 et 1.

21
Modèle Vectoriel
Autres mesures:

• Mesure de Dice:

• Mesure de Jaccard:

22
Avec n: nombre total des termes
wij :poids du terme j dans le document i
wqj :poids du terme j dans la requête q
Modèle Vectoriel
Autres mesures:
• Le coefficient de
superposition (overlap)

23
Avec n: nombre total des termes
wij :poids du terme j dans le document i
wqj :poids du terme j dans la requête q
Modèle Vectoriel
Avantages
• Le modèle vectoriel est relativement simple à appréhender
(algèbre linéaire) et est facile à implémenter.
• Le langage de requête est plus simple (liste de termes).
• Les performances sont meilleures grâce à la pondération des
termes.
• Il permet de renvoyer des documents qui répondent
approximativement à la requête (pertinence partielle).
• La représentation vectorielle permet une mise en
correspondance des documents avec une requête
imparfaite.
• Les documents sont retournés dans un ordre décroissant de
leur degré de similarité avec la requête. 24
Modèle Vectoriel
Inconvénients
• Le modèle vectoriel suppose l'indépendance entre
termes (inconvénient théorique). En effet, la représentation
vectorielle considère chaque terme séparément alors qu'on
peut avoir des termes qui sont en relation sémantique entre
eux (par exemple, véhicule et automobile).
• L'ordre et la position des termes ne sont pas pris en compte.
• Le langage de requête est moins expressif.
• La similarité dépend de la mesure de distance utilisée entre
les vecteurs
• L'utilisateur voit moins pourquoi un document lui est renvoyé
25
Modèle Booléen étendu
• Une combinaison des modèles booléen et vectoriel.
• L’idée est de profiter:
• des avantages du modèle vectoriel (le fait que les termes sont
pondérés en fonction de leur importance dans le document)
• des avantages du modèle booléen (la simplicité du point de vue
de l’utilisateur : la requête demeure une expression booléenne
classique).
• Le modèle booléen étendu consiste à associer des poids
d’indexation à chaque terme d’une requête et d’un document,
ceci permet au SRI de supporter un appariement approché et
de mesurer un score de pertinence requête-document.
26
Modèle Booléen étendu
Cas particulier: Requête avec deux termes et p=2
• Dans le cas d'une requête comportant deux termes t1 et t2, On
peut représenter les requêtes et les documents dans un
espace à deux dimensions.
• Une condition logique de type AND est alors représentée par
la distance entre le document et les coordonnées « idéales »
(1,1)
• une condition de type OR est calculée par la distance du
document à l'origine ( 0 , 0 ) .
Le but étant d'ordonner les documents di en réponse à une
requête Q.
27
Modèle Booléen étendu
Requête Q : t1 AND/OR t2 t2 (1,1)

Document D1 : ... t1 ... t2 ... 1

poids wD1,t1 = 0.75 y1 0,65


y2 0,5 D2 D1
poids wD1,t2 = 0.65

Document D2 : ... t1 ... t2 ... t1


(0,0) 0,25 0,75 1
poids wD2,t1 = 0.25 x2 x1
poids wD2,t2 = 0.50
28
Modèle Booléen étendu
t1 OR t2 • On veut être le plus loin de
t2 (1,1)
(0,0) (le pire cas où aucun
des deux termes n'est
1
présent dans le document).
y1 0,65
• Un document est pertinent
y2 0,5
D2 pour une requête de type
D1
OU si le terme 1 ou le terme
2 est pondéré à 1.
x2 x1
t1
(0,0)
0,25 0,75 1

29
Modèle Booléen étendu
t1 AND t2
t2 (1,1)
• On veut se rapprocher du
point (1,1) (cas où les deux
1
termes sont présents dans
le document)
y1 0,65
D2
y2 0,5 D1

x2 x1
t1
(0,0) 1
0,25 0,75

30
Modèle Booléen étendu
Cas général: Requête avec m termes et 𝒑 ∈ [𝟏, +∞[
• L’appariement requête-document est le plus souvent
déterminé par les relations introduites dans le modèle
p−norm basées sur les p−distances (distance euclidienne
à plusieurs dimensions),
avec p∈[1,+∞[.
• La valeur de p est indiquée au moment de la requête.
• Elle est rarement utilisée en dehors des cas p= 1, 2, +∞.
• Il existe un cas encore plus général dans lequel les
termes de la requête sont également pondérés
31
Modèle Booléen étendu
Si m est le nombre de termes dans la requête
q=(t1,t2, … ,tm), et wij est le poids du terme tj de la requête
dans le document di , alors, les fonctions de similarité se
calculent comme suit :

Opérateur OR:

Opérateur AND:

32
Opérateur NOT:
Modèle Booléen étendu
Avantages:
• Modèle puissant
• Il est possible de trier les documents en fonction de leur
pertinence (contrairement au modèle booléen classique).
Inconvénients:
• Calcul complexe
• Problème de distributivité :
q1=(t1 OR t2) AND t3
q2=(t1 AND t3) OR (t2 AND t3)
q 1= q 2
RSV(q1,d) ≠ RSV(q2,d)
33
Modèle Booléen étendu
Exemple cas particulier: Requête avec deux termes et p=2

Booléen booléen étendu


Documents
t1 t2 t1 ou t2 t1 et t2 t1 ou t2 t1 et t2
D1
1 1 1 1 ? ?

D2
1 0 1 0 ? ?

D3 0 1 1 0 ? ?
D4
0 0 0 0 ? ?

34
Modèle Booléen étendu
Exemple cas particulier: Requête avec deux termes et p=2

Booléen booléen étendu


Documents
t1 t2 t1 ou t2 t1 et t2 t1 ou t2 t1 et t2
D1
1 1 1 1 1 1

D2 𝟏ൗ 𝟏 − 𝟏ൗ
1 0 1 0
√𝟐 √𝟐
D3 0 1 1 0 𝟏ൗ 𝟏 − 𝟏ൗ
√𝟐 √𝟐
D4
0 0 0 0 0 0

35
Modèle Probabiliste
• Le modèle probabiliste est une méthode probabiliste de
représentation du contenu d'un document, proposée en 1976
par Robertson et Jones.
• Il est utilisé en RI pour exprimer une estimation de la
probabilité de pertinence d'un document par rapport à une
requête, et ainsi classer une liste de documents dans l'ordre
décroissant de probabilité de pertinence pour l'utilisateur.
• Étant donné une requête q, il s'agit d'estimer un score
score(di|q) pour chaque document di du corpus considéré.
• Ce score (appelé aussi degré de pertinence) doit exprimer la
probabilité relative que le document soit pertinent pour la
requête considérée.
• Dans ce modèle, on s'intéresse en effet plus à l'ordre relatif
36
des documents renvoyés qu'à leur pertinence absolue.
Modèle Probabiliste

• Pour une requête q, Prob(Rel/ di) est la probabilité qu'on


obtienne une information pertinente par le document di.
• On peut estimer de la même façon (nonRel/ di), la probabilité
de non-pertinence de di.
37
Modèle Probabiliste
• On modélise la pertinence d'un document pour une requête q
comme le ratio de probabilité que le document di soit
pertinent sur celle qu'il ne le soit pas :

𝑃𝑟𝑜𝑏 𝑅𝑒𝑙 𝑑𝑖
𝑠𝑐𝑜𝑟𝑒 𝑑𝑖 𝑞 =
𝑃𝑟𝑜𝑏 𝑛𝑜𝑛𝑅𝑒𝑙 𝑑𝑖
• L’idée de base est de sélectionner les documents 𝑑𝑖 ayant à la
fois une forte probabilité d’être pertinents et une faible
probabilité d’être non-pertinents à la requête.
• Le document 𝑑𝑖 est retourné si 𝑠𝑐𝑜𝑟𝑒 𝑑𝑖 𝑞 > 1
(autrement dit si 𝑃𝑟𝑜𝑏 𝑅𝑒𝑙 𝑑𝑖 > 𝑃𝑟𝑜𝑏 𝑛𝑜𝑛𝑅𝑒𝑙 𝑑𝑖 )
• Les documents peuvent donc être triés selon 𝑠𝑐𝑜𝑟𝑒 𝑑𝑖 𝑞 . 38
Modèle Probabiliste
• Théorème de Bayes:
probabilité que le document
probabilité qu’on obtienne une di fasse partie de l’ensemble
information pertinente par le document di des documents pertinents.

probabilité d’obtenir un
probabilité que le document document pertinent, si on
di soit choisi au hasard choisit un document au hasard
dans le corpus.

39

NB:
Modèle Probabiliste
• Par conséquent:

• Différentes méthodes sont utilisées pour estimer ces


différentes probabilités:
• BIR (Binary Independance Retrieval model) 40
• 2-poisson model
Modèle Probabiliste
Exemple: Modèle Okapi BM25
• Idée: un bon descripteur de document est un terme assez fréquent
de ce document mais qui est relativement rare dans la collection
contenant ce document.
• Ce terme représenterait alors le document relativement bien, tout
en le distinguant des autres documents de la collection.
• Cette idée est fondée sur le constat que beaucoup de termes
apparaissent avec une fréquence assez basse dans beaucoup de
documents d’une collection, alors qu’ils apparaissent avec une
fréquence élevée dans un groupe distinct de documents,
généralement appelé groupe élite.
• Ce constat a motivé la modélisation du groupe élite avec la loi de
Poisson de paramètre (2-poisson) 41
Modèle Probabiliste
Exemple: Modèle Okapi BM25
• Sa formule se base sur
• le tf (Term Frequency)
• la longueur du document (en nombre de termes)
• la longueur moyenne des documents (en nombre de termes)
• BM25 est un des modèles les plus importants dans le domaine
de la RI sur les deux plans théorique et performance (rappel
précision)

42
Modèle Probabiliste
Avantages:
• Modèle puissant
• La fonction d'appariement permet de trier les documents
• Efficace pour des bases spécifiques avec vérité terrain
Inconvénients:
• Tout comme le modèle booléen ou vectoriel, le modèle
probabiliste utilise l’hypothèse d’indépendance des termes
dans un document
• Problème des probabilités initiales : l’impossibilité d’estimer
les paramètres initiaux si des collections d’entraînement ne
sont pas disponibles.
• Ce modèle est coûteux à implémenter et à utiliser à grande
échelle. La complexité augmente rapidement avec la taille des 43
collections de documents.
Exercice: Modèle Vectoriel
Exercice:
Soit un système de recherche
d’information basé sur un modèle
vectoriel de 2 dimensions et soit 4
documents représentés dans cet
espace comme indiqué sur la
figure.

Parmi les documents a, b et c,


lequel est le plus proche au
document x en utilisant les
mesures de similarité suivantes :
1. Produit scalaire
2. Cosinus
44
3. Distance Euclidienne
Exercice: Modèle Vectoriel
Correction:
Produit scalaire:

RSV(a,x)=1x2+1x1=3
RSV(b,x)=2x3+1x2=8
RSV(c,x)=2x4+1x2=10

➢ Le document c est le plus


proche de x. 45
Exercice: Modèle Vectoriel
Correction:
Cosinus

3 3
RSV(a,x)= = = 0,948
2× 5 10
8 8
RSV(b,x)= = = 0,992
13× 5 65
10 10
RSV(c,x)= = =1
20× 5 100
➢ Le document c est le plus proche de x.
Parce que le cosinus de l’angle entre deux
vecteurs est égale à 1 lorsque
46
les vecteurs sont superposés.
Exercice: Modèle Vectoriel
Correction:
Distance Euclidienne:

RSV(a,x)= 1 − 2 2 + 1−1 2

=1
RSV(b,x)= 3 − 2 2 + 2 − 1 2

= 2 = 1,41
RSV(c,x)= 4 − 2 2 + 2 − 1 2
= 5 = 2,23 47
➢ Le document a est le plus proche
de x.
Conclusion
Un SRI est basé sur les choix suivants :

• Modèle de recherche adopté

• Descripteur utilisé : méthode avec laquelle la signature a été


calculée

• Mesure de distance utilisée pour calculer la distance entre les


deux signatures

48

Vous aimerez peut-être aussi