Samir Bouindour 2019TROY0036

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 126

Thèse

de doctorat
de l’UTT

Samir BOUINDOUR

Apprentissage profond appliqué


à la détection d'événements anormaux
dans les flux vidéos

Champ disciplinaire :
Sciences pour l’Ingénieur

2019TROY0036 Année 2019


THESE
pour l’obtention du grade de

DOCTEUR
de l’UNIVERSITE DE TECHNOLOGIE DE TROYES

EN SCIENCES POUR L’INGENIEUR

Spécialité : OPTIMISATION ET SURETE DES SYSTEMES

présentée et soutenue par

Samir BOUINDOUR
le 17 decembre 2019

Apprentissage profond appliqué


à la détection d'événements anormaux dans les flux vidéos

JURY
M. F. NICOLIER PROFESSEUR DES UNIVERSITES Président
M. F. DORNAIKA PROFESSOR Rapporteur
M. H. SAHBI CHERCHEUR CNRS - HDR Rapporteur
Mme F. CHEHADE MAITRE DE CONFERENCES - HDR Examinatrice
M. N. GAC MAITRE DE CONFERENCES Examinateur
M. H. SNOUSSI PROFESSEUR DES UNIVERSITES Directeur de thèse
Remerciements
Cette thèse n'aurait pas été possible sans la contribution de nombreuses personnes.
Je tiens à les remercier sincèrement pour l'aide, le soutien, les conseils et le temps qu'ils
m'ont accordé. J'espère que tous pourront se retrouver dans ces quelques lignes.

Je remercie Mr.SAHBI Hichem, directeur de Recherche au CNRS et Mr.DORNAIKA


Fadi, Professeur à l'université du Pays basque, pour avoir accepté de rapporter ces travaux.
Je remercie également Mme CHEHADE Farah, maître de Conférence à l'l'Université de
Technologie de Troyes, Mr. NICOLIER Frédéric, professeur des Universités à l'université
de Reims Champagne-Ardenne et Mr.GAC Nicolas, maître de Conférence à l'Université
Paris Sud d'avoir accepté d'examiner mes travaux.

Je tiens à adresser également mes sincères remerciements à Mr.SNOUSSI Hichem, pro-


fesseur des université à l'Université de Technologie de Troyes, pour m'avoir accompagné,
conseillé et soutenu au cours de ces trois années de thèse. Outre la qualité exceptionnelle
de votre encadrement, votre gentillesse et votre bienveillance ont fait de vous bien plus
qu'un superviseur, mais un mentor à mes yeux.

Un grand merci également à tous mes collègues Souen, Zied, Slim, Nacef, Ronghua,
Charbel et Laurent pour leurs conseils et leur aide précieuse. Je tiens à vous dire que
j'ai eu beaucoup de plaisir à travailler à vos cotés, nos discussions animées autour de la
machine à café vont énormément me manquer.

Je remercie également toutes les personnes de l'UTT, je pense particulièrement à Pas-


cale, Isabelle, Véronique et Bernadette pour leur patience et leur aide pour les nombreuses
démarches administratives qui ont accompagnées ces trois années de thèse. Je remercie
également Jean Philippe du CRI pour son aide et sa réactivité à toute épreuve.

Merci Soa pour tout ce que tu m'as apporté, il n'y a pas de mots assez forts pour
exprimer ma gratitude envers toi, ton aide et ton soutien ont été inestimable.

Bien évidemment, je remercie mes parents, mon frère et ma s÷ur ainsi que tous les
membres de ma famille. Merci de m'avoir toujours encouragé et soutenu. C'est grâce à
votre dévotion que j'ai pu m'épanouir, mener à bien mes études et réaliser cette thèse.

i
ii
Sommaire

Introduction générale vii

Chapitre 1

État de l'art 1

1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Méthodes basées sur une extraction ciblée de caractéristiques . . . . . . . . 3

1.2.1 Extraction de caractéristiques . . . . . . . . . . . . . . . . . . . . . 3

1.2.2 Classication et modélisation . . . . . . . . . . . . . . . . . . . . . 5

1.3 Méthodes basées sur l'apprentissage de représentations . . . . . . . . . . . 7

1.3.1 Modèles supervisés . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.3.2 Modèles non supervisés . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.3.3 Modèles à classe unique . . . . . . . . . . . . . . . . . . . . . . . . 18

1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

Chapitre 2

Transfert d'apprentissage

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.2 Réseau entièrement convolutif pour la détection et la localisation d'événe-

ments anormaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.2.1 Réseau entièrement convolutif FCN (Fully Convolutional Network) 24

2.2.2 One class SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.2.3 Méthode proposée . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.2.4 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . 32

2.3 Réseau 3D résiduel entièrement convolutif pour la détection et la localisa-

tion d'événements anormaux . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.3.1 FCN 3D Résiduel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.3.2 Distance de Mahalanobis . . . . . . . . . . . . . . . . . . . . . . . . 41

iii
Sommaire

2.3.3 Méthode proposée . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

2.3.4 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . 46

2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

Chapitre 3

Apprentissage non supervisé

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3.2 Autoencodeur convolutif pour la détection d'événement anormaux . . . . . 60

3.2.1 Autoencodeur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

3.2.2 Autoencodeur convolutif . . . . . . . . . . . . . . . . . . . . . . . . 61

3.2.3 Descente de gradient . . . . . . . . . . . . . . . . . . . . . . . . . . 62

3.2.4 Descente de gradient par lots . . . . . . . . . . . . . . . . . . . . . 65

3.2.5 Méthode proposée . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

3.2.6 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . 68

3.3 Réseau de neurones convolutifs à deux ux pour la détection d'événement

vidéo anormaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

3.3.1 Flux optique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

3.3.2 Méthode proposée . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

3.3.3 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . 74

3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

Chapitre 4

Apprentissage en classe unique

4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

4.2 Réseau de neurones convolutifs à classe unique . . . . . . . . . . . . . . . . 84

4.2.1 Méthode proposée . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

4.2.2 Détection des anomalies . . . . . . . . . . . . . . . . . . . . . . . . 88

4.3 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

4.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

Conclusion

1 Rappel des motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

2 Réalisations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

3 Travaux futurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

Bibliographie 99

iv
Résumé
La sécurité est une préoccupation majeure de nos sociétés modernes, le développement
et l'épanouissement des individus sont impossibles à concrétiser sans au préalable garantir
la sécurité. La vidéo surveillance est un outil éprouvé qui favorise l'établissement de la
sécurité et facilite son application sur de vastes zones géographiques. Cependant, cet outil
a été victime de son succès durant ces dernières années. En eet, l'utilisation des caméras
de surveillance s'est considérablement accru, à tel point qu'elle pose un problème sociétal
de tout premier ordre, celui de l'exploitation des ux de caméras qui sont déployées de
manière de plus en plus dense. Actuellement, ces données sont en grande majorité ex-
clusivement analysées par des opérateurs humains. Cependant, de nombreuses études ont
démontré les limites des opérateurs à prendre en charge la totalité des traitements de ces
ux vidéos. Il est chronophage, laborieux et pénible pour un opérateur de visionner des
vidéos de surveillance durant des périodes de temps conséquentes. Cela peut engendrer
un manque de concentration chez les opérateurs et à terme conduire à des brèches de
sécurité. Compte tenu des progrès réalisés récemment dans le domaine de la vision par
ordinateur, notamment par l'intermédiaire de l'apprentissage profond, une solution à ce
problème réside dans le développement de systèmes intelligents capables d'épauler l'opé-
rateur humain dans l'exploitation de ces données. Ces systèmes intelligents auront pour
objectifs de modéliser les comportements normaux d'une scène surveillée et détecter tout
événement déviant, pouvant conduire à une faille de sécurité. L'apprentissage profond
(Deep Learning) représente une révolution dans le domaine de l'intelligence articielle et
du traitement de grandes masses de données (Big Data). Il repose sur des architectures à
plusieurs couches de traitement intégrant diérents niveau d'abstraction et visant à repro-
duire le modèle de la perception humaine. L'apprentissage profond a permis des progrès
importants et rapides dans les domaines du traitement automatisé du signal et de la vision
par ordinateur. Dans le cadre de cette thèse intitulée  Apprentissage profond appliqué à
la détection d'événements anormaux dans les ux vidéos , on se propose de développer
des algorithmes se basant sur l'apprentissage profond pour la détection et la localisation
des événements vidéo anormaux pouvant reéter des situations à risque. Il s'agit, en fait,
d'extraire des descripteurs spatiotemporels robustes et dénir des algorithmes de classi-
cation adaptés pour détecter des comportements suspects avec le minimum de fausses
alarmes possible, tout en assurant une bonne probabilité de détection.

Mots-clés: détection d'anomalie, apprentissage profond, événement vidéo anormaux,


transfert d'apprentissage, apprentissage non supervisé, apprentissage à classe unique.

Abstract
Security is a major concern for any modern society, the development and fullment
of individuals is impossible to achieve without a prior guarantee of security. The use of

v
video surveillance, which is a recognized tool in the eld of security, has become widespread
over the last few years. The increase of the video streams poses the problem of the ecient
treatment of the large amounts of data generated. Currently, the vast majority of these
data are exclusively analyzed by human operators. However, many studies have shown the
limits of operators to support all treatments of these video streams. It is time-consuming,
very laborious and painful for an operator to watch surveillance video for hours. This can
create a lack of concentration among operators and ultimately lead to security breaches.
Given recent advances in computer vision, through deep learning, one solution to this
problem lies in the development of intelligent systems capable of supporting the human
operator in the processing of this data. These intelligent systems will be responsible for
modelling the normal behaviour of a monitored scene and detecting any abnormal event
that could lead to a security breach.
The deep learning has led to a revolution in the eld of articial intelligence. It is
based on multi-layered processing architectures integrating dierent levels of abstraction
and designed to reproduce the human perception. The deep learning has led to signicant
and rapid progress in the elds of automated signal processing and computer vision.
Within the context of this thesis entitled "Deep learning applied to the detection of
abnormal events in video streams", we propose to develop algorithms based on deep
learning for the detection and localization of abnormal events that may reect potentially
dangerous situations. In fact, the objective is to extract robust spatiotemporal descriptors
and dene classication algorithms adapted to the detection of suspicious behaviour with
the minimum number of false alarms, while ensuring a good detection rate.

Keywords: anomaly detection, deep learning, abnormal video events, transfer learning,
unsupervised learning, one-class learning.

vi
Introduction générale

Contexte général
La sécurité est une valeur fondatrice de toute société moderne, elle contribue forte-
ment à l'instauration d'un climat de paix et de quiétude, nécessaire au bon développement
social. Actuellement, la sécurité, les conditions de sa concrétisation et les diérents mé-
canismes de sa mise en ÷uvre sont des préoccupations majeures, que ce soit à l'échelle
individuelle ou collective. Ces dernières décennies, la quête constante de sécurité s'est
traduite par une surveillance accrue de l'espace public et la généralisation de la vidéo
surveillance en est une preuve. Les cameras sont omniprésentes que ce soit dans les lieux
à forte fréquentation (aéroports, métros, centres commerciaux et banques) ou dans des
lieux à fréquentation plus restreinte (domiciles, laboratoires, sites industriels et zones à
accès contrôlés). À titre d'exemple la Commission nationale française de l'informatique
et des libertés comptabilise 935 000 cameras de surveillance installé en France [1]. Une
étude paru en 2011 annonce un chire de 1.85 million de cameras Au Royaume-Uni [2].

La vidéo surveillance est un système composé de cameras et d'équipements de trans-


mission de signal. Elle permet entre autre le contrôle à distance des conditions nécessaires
à la sécurité et à l'identication des éléments qui la mettent en péril. L'utilisation de la
vidéo surveillance est un sujet d'actualité sur lequel les opinions peuvent diverger. Les
partisans estiment que la vidéo surveillance est un outil primordiale pour la lute contre
la criminalité et le renforcement de la sécurité. Les détracteurs quant à eux, estiment que
son ecacité n'est pas en mesure de justier le risque qu'elle représente sur la vie privée.
Même si entre les deux camps le débat reste ouvert, toujours est-il que la prolifération
massive des cameras de surveillance est une réalité indéniable qui pose un problème so-
ciétal de premier ordre. En eet, l'importance des masses de données générées remet en
cause leur traitement et leur exploitation de manière ecace uniquement par des opéra-
teurs humains. Dans le contexte actuel, un opérateur de vidéo surveillance est en charge
de plusieurs écrans à la fois et des images de cameras diérentes sont reportées sur un
même écran, gure 1. Dans l'étude menée par [3], sur quatre réseau de vidéo surveillance
au Royaume-Uni, on apprend que le rapport écrans/cameras varie entre 1/4 et 1/30 et
que le rapport opérateurs/écrans peut atteindre 1/16. Alors que des études ont révélé
qu'un opérateur peut rater 60% des événements cibles quand il est en charge de visualiser
9 ux vidéo ou plus [4]. Outre le déséquilibre évident dans le rapport opérateurs/cameras,
d'autres limitations plus ou moins lié aux capacités humaines viennent altérer l'ecacité
de la vidéo surveillance, parmi lesquels on peut citer :

 La fatigue et la lassitude provoquées par le visionnement de vidéos de surveillance

vii
Introduction générale

Figure 1  Écrans de vidéo surveillance.

pendant de longues périodes.

 Le caractère monotone des vidéos de surveillance contenant en majorité des évé-


nements normaux et répétitifs.

 Des facultés humaines de concentration limitées, après 20 minutes de concentration


le niveau d'attention d'un opérateur diminue fortement[5].

 Le caractère soudain des événements anormaux, un événement inhabituel peut


survenir de manière inattendu sans signes avant-coureurs.
Ces facteurs réunis peuvent considérablement entraver l'ecacité des systèmes de vidéo
surveillance et engendrer des brèches de sécurité importantes. Une solution possible à ce
problème serait l'utilisation de systèmes de vidéo surveillance intelligents. Ces systèmes
devront entre-autre être capables d'analyser et de modéliser le comportement normal
d'une scène surveillée et détecter tout comportement anormal pouvont représenter un
risque de sécurité.
Ces dernières années, les avancés considérables dans les domaines de l'apprentissage
automatique et de la vision par ordinateur ont permis de rendre envisageable pour la ma-

viii
chine certaines tâches qu'on pensait jusque-là réservées à l'être humain. Parmi elles, des
classiques de l'apprentissage automatique : classication d'images [6], reconnaissance fa-
ciale [7], estimation de la pose humaine [8], traitement automatique du langage naturel [9],
reconnaissance automatique de la parole [10], mais également des tâches plus atypiques :
systèmes de traduction automatique [11], lecture labiale [12], gestion de négociations [13],
raisonnement visuel [14] et génération automatique de code informatique [15]. Les ap-
proches basées sur l'apprentissage profond ont été à l'origine ou du moins ont favorisé
une grande partie de ces avancées. L'apprentissage profond DL (Deep Learning) est un
ensemble de méthodes basées sur des architectures à plusieurs couches d'apprentissage de
représentations. Ces méthodes permettent d'extraire automatiquement à partir des don-
nées brutes les représentations nécessaires au traitement de ces données. Actuellement les
méthodes d'apprentissage profond les plus ecaces se basent sur un apprentissage super-
visé, de grandes bases de données étiquetées, contenant des échantillons des diérentes
classes doivent être utilisées.
Pour tirer pleinement avantages de ces outils d'apprentissage dans un système de
surveillance intelligent, il faudrait dans l'idéal disposer d'un grand nombres de données
d'apprentissage représentatives des événements normaux et anormaux. Cependant, de
nombreuses barrières viennent entraver la création de telles bases de données, parmi les
quelles on peut citer :
 Le caractère contextuel de l'événement. En eet la nature d'un événement est in-
timent liée à son contexte, un événement anormal dans une scène peut être normal
dans une autre. Ce point rend quasi impossible, la conception de bases de données
génériques utilisables de manière homogène pour diérentes scènes.

 Le grand nombre, la variabilité et la dangerosité de certains événements anormaux


rendent impossible le fait de répertorier et de reproduire susamment d'échan-
tillons d'entrainement pour les diérents types d'événements anormaux.
C'est dans ce contexte particulièrement complexe que se positionne cette thèse. Nous al-
lons explorer diverses stratégies an de développer des solutions qui nous permettront à
la fois d'exploiter le potentiel de l'apprentissage profond et éviter la création de grandes
basées de donnée étiquetées. Nous visons le développement de méthodes de détection et
de localisation d'événements vidéos anormaux basées sur l'apprentissage profond tout en
respectant les contraintes liées à l'indisponibilité des échantillons d'entrainement repré-
sentatifs des événements anormaux. En particulier, nous avons identié trois axes d'étude
que nous explicitons dans les paragraphes suivants.

Contributions
Les contributions de cette thèse sont en concordance avec l'objectif principal qui est
l'adaptation et le développement de méthodes basées sur l'apprentissage profond pour la
détection et la localisation d'événements vidéos anormaux. Ces contributions, présentées
ci-dessous, s'articulent autour des 4 chapitres constituants notre manuscrit.

 Transfert d'apprentissage pour la détection et la localisation d'événements anor-


maux : les réseaux de neurones convolutifs ont démontré leur ecacité à apprendre

ix
Introduction générale

à partir d'images brutes des représentations robustes exploitables dans de nom-


breuses tâches de vision par ordinateur. Dans ce contexte, on propose deux mé-
thodes basées sur l'utilisation de réseaux de neurones convolutifs CNNs (Convo-
lutional neural networks) préentrainés, pour détecter et localiser les événements
anormaux dans des vidéos de surveillances. La première méthode consiste à utili-
ser un FCN (fully convolutional network) dérivé d'un CNN 2D préentrainé et un
OC-SVM. Le FCN 2D est utilisé pour extraire des représentations descriptives.
Ces représentations sont ensuite classées grâce à un OC-SVM (One-Class SVM)
pour dissocier parmi celles qui représentent des événements anormaux. Grâce à
cette méthode, nous avons démontré la pertinence des réseaux profonds, préen-
trainé sur de grandes bases de données à fournir des représentations génériques
exploitables pour la détection et la localisation d'événements anormaux. D'autre
part, nous avons également mis en évidence une méthode pour transformer les ré-
seaux de neurones convolutifs en réseaux entièrement convolutifs exploitables pour
la localisation des événements anormaux. Dans notre deuxième méthode un FCN
résiduel 3D est combiné à un nouveau classieur adaptatif basé sur la distance de
Mahalanobis. On a pu notamment démontrer que les CNNs 3D préentrainé pour la
reconnaissance d'actions sont en mesure d'extraire des caractéristiques spatiotem-
porelles génériques particulièrement robustes. Grâce à la combinaison du réseau 3D
et du classieur adaptatif, la méthode proposée est capable de modéliser l'ensemble
des événements normaux tout en prenant en considération la présence d'événement
normaux rares. De plus, la méthode est également en mesure de s'adapter à l'ap-
parition de fausses alarmes, qu'elles soient dues à des erreurs du système ou à
l'évolution de la scène surveillée. Ce dernier point est particulièrement pertinent
dans le contexte de la vidéo surveillance intelligente.

 Apprentissage profond non supervisé pour la détection et la localisation d'évé-


nements anormaux : Malgré les résultats satisfaisants obtenus dans le chapitre
précédent. La dépendance imposée par le transfert d'apprentissage aux réseaux
préentrainés et aux grandes bases de données étiquetées, nous a encouragé à nous
orienter dans ce chapitre vers l'apprentissage non supervisé. À cet eet, nous propo-
sons deux nouvelles méthodes basées sur des apprentissages non supervisés. Dans la
première méthode nous développons une architecture exploitant un autoencodeur
convolutif, outil d'apprentissage non supervisé, pour extraire des représentations
spatiotemporelles. Dans ce même chapitre, nous proposons également une seconde
méthode basée quant à elle sur un réseau à deux ux exploitant à la fois les images
et leurs représentations de ux optique an d'obtenir des caractéristiques robustes
capables de décrire non seulement les formes présentes dans la scène surveillée,
mais également les mouvements relatifs à ces formes.

 Apprentissage en classe unique pour la détection et la localisation d'événements


anormaux : l'apprentissage non supervisé dans un objectif de reconstruction, per-
met d'obtenir des représentations descriptives de haut niveau. Cependant, cet ap-
prentissage ne garantit pas l'aspect primordiale que représente la compacité des
représentations relatifs aux événements normaux. En eet obtenir pour les évé-

x
nements normaux des représentations regroupées dans un cluster compacte, fa-
voriserait grandement l'isolation des événements anormaux par des classieurs à
classe unique. Dans cette optique, nous proposons dans ce troisièmement chapitre,
une méthode originale d'apprentissage des réseaux de neurones en utilisant des
échantillons d'entrainement provenant d'une seule classe de données. Cette mé-
thode permet non seulement, d'entrainer un réseau à extraire des représentations
spatiotemporelles descriptives, mais également d'obtenir un cluster susamment
compact pour représenter les événements normaux. Dans la seconde partie du cha-
pitre, nous explorons diérentes architecture profonde permettant de tire pleine-
ment avantage de cette nouvelle méthode d'apprentissage.

Organisation du manuscrit
Le manuscrit est organisé comme suit :

 Le premier chapitre est un état de l'art détaillé sur la détection et la localisa-


tion d'événements vidéo anormaux. Nous y avons répertorié un grand nombre de
méthodes extraites de la littérature, que ce soit parmi les méthodes dites tradition-
nelles, que parmi les méthodes les plus récentes. Nous avons proposé une première
catégorisation pour ces méthode en se basant sur le modèle de reconnaissance de
forme adopté. En eet, nous avons isolé deux principaux modèles, pour la détec-
tion des événements anormaux. Le premier est le modèle standard basé sur une
extraction ciblé de caractéristique. Le second est quant à lui inspiré par l'appren-
tissage profond et se focalise sur des méthodes d'apprentissage de représentations.
À l'intérieur de ces deux catégories nous avons regrouper les méthodes en fonction
de leurs similitudes. Ce chapitre permet d'analyser les diérents travaux réalisés
et mettre en évidence les pistes de recherche les plus pertinentes.

 Le deuxième chapitre est dédié au transfert d'apprentissage dans le contexte des


réseaux de neurones convolutifs. Il se compose de deux sections principales, cha-
cune dédiée à une méthode proposée. Dans la première section nous commençons
par introduire diérents outils d'apprentissage utilisés tel que le réseau de neurones
convolutifs CNN, le réseau entièrement connecté FCN et les séparateurs à vaste
marge SVM, avant de présenter la première méthode et de détailler ses diérentes
composantes. La deuxième section est consacrée quant à elle à la seconde méthode
proposée. Dans cette section, nous complétons notamment la liste des outils d'ap-
prentissage introduites précédemment par des notions telles que la convolution 3D,
les réseaux résiduels ainsi que la distance de Mahalanobis avant de présenter notre
seconde méthode. À la n de chacune des deux sections, des résultats de compa-
raison avec les travaux de l'état de l'art sont également donnés.

 Notre troisième chapitre est dédié aux réseaux de neurones non supervisé, appliqués
à la détection et la localisation des événements vidéos anormaux. Le chapitre com-
porte également deux sections. Dans la première, un rappelle sur le fonctionnement

xi
Introduction générale

de l'autoencodeur AE et de l'autoencodeur convolutif CAE est tout d'abord donné.


Nous présentons ensuite la premier méthode basée sur un CAE pour l'extraction
de représentations spatiotemporelles descriptives et d'un classieur exploitant la
distance de Mahalanobis. La deuxième section débute par un rappelle sur le ux
optique et sur la méthode d'extraction dite de Farneback [16] avant d'introduire
un nouveau réseaux à deux ux destiné à l'extraction de descripteurs robustes.
Dans ce chapitre des résultats comparatifs, permettant notamment de juger de la
pertinences de deux méthodes, sont présentés.

 Dans le quatrième chapitre, nous nous focalisons sur l'apprentissage en classe


unique dans le contexte des réseaux de neurones. Dans la première partie de ce
chapitre, nous introduisons notamment une méthode originale pour entrainer des
réseaux de neurones convolutifs profonds en utilisant uniquement des exemples
d'entrainement issus de la classe normale. Dans une deuxième section, nous ex-
plorons diérentes architectures pour optimiser cette nouvelle méthode d'appren-
tissage en classe unique. Des résultats expérimentaux sont donnés dans les deux
section an de permettre de juger de la pertinence de la méthode dans le contexte
de la détection des événements vidéos anormaux.
 Dans le cinquième et dernier chapitre, nous concluons ce manuscrit avant d'étudier
les perspectives des travaux futurs.

xii
Table des gures

1 Écrans de vidéo surveillance. . . . . . . . . . . . . . . . . . . . . . . . . . . viii

1.1 Modèles de reconnaissance de forme. En haut, le modèle standard basé


sur une extraction ciblée de caractéristiques et en bas, le modèle basé sur
l'apprentissage profond. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Réseau de neurones convolutifs, gure extraite de [17]. . . . . . . . . . . . 8
1.3 Poids des neurones dans les couches de convolutions, gure extraite de [18]. 9
1.4 Perceptron multicouches. . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Exemple de connexions locales dans un réseau de neurones. . . . . . . . . 10
1.6 La fonction d'activation ReLU dans le contexte des réseaux de neurones
convolutifs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.7 Couche de pooling, Max pooling de taille 2 × 2. . . . . . . . . . . . . . . . 11
1.8 Autoencodeur à 5 couches cachées. . . . . . . . . . . . . . . . . . . . . . . 14
1.9 Réseau antagoniste génératif GAN (Generative Adversarial Network). . . . 17

2.1 Architecture standard d'un réseau de neurones convolutifs (CNN) destiné


à la classication d'images. . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2 Couche entièrement connectée (fully connected layer). . . . . . . . . . . . . 26
2.3 SVM à classe unique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.4 Architecture du réseau de neurones convolutifs VGG16 [19]. . . . . . . . . 29
2.5 Connexions des neurones aux champs récepteurs. . . . . . . . . . . . . . . 32
2.6 Exemples de détection d'événements anormaux sur la base de données
Ped2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.7 Courbe ROC, (a) au niveau de l'image et (b) au niveau du pixel. AUCFL=84,7%,
AUCPL=77,6%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.8 Opération de convolution 2D. . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.9 Opération de convolution 3D. . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.10 Visualisation avec la méthode t-SNE [20], des représentations extraites par
les réseaux ImageNet [21] et C3D [22] sur la base de donnée UCF101. Cette
gure a été extraite de [22]. . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.11 Bloc résiduel proposé dans [6]. . . . . . . . . . . . . . . . . . . . . . . . . 41
2.12 Distance euclidienne entre la distribution N (µ, Σ) et les observations o1 , o2 , o3 , o4 . 42
2.13 Distance de Mahalanobis entre la distribution N (µ, Σ) et les observations
o1 , o2 , o3 , o4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.14 Schéma global de la méthode proposée. . . . . . . . . . . . . . . . . . . . . 44

xiii
Table des gures

2.15 Architecture du FCN 3D. . . . . . . . . . . . . . . . . . . . . . . . . . . . 49


2.16 Robustesse aux fausses alarmes. . . . . . . . . . . . . . . . . . . . . . . . . 51
2.17 Détection d'événements anormaux dans le laboratoire CapSec. . . . . . . . 52
2.18 Détection d'événements anormaux dans la base de données UCSD Ped2. . 53
2.19 Robustesse aux fausses alarmes, dossier 04 de Ped2. . . . . . . . . . . . . . 55
2.20 Robustesse aux fausses alarmes, dossier 07 de Ped2. . . . . . . . . . . . . . 56
2.21 Courbe ROC pour le scénario SC1. . . . . . . . . . . . . . . . . . . . . . . 56
2.22 Courbe ROC pour le scénario SC2. . . . . . . . . . . . . . . . . . . . . . . 57

3.1 Architecture standard d'un autoencodeur . . . . . . . . . . . . . . . . . . . 60


3.2 Autoencodeur convolutif . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.3 Perceptron multicouche contenant trois valeurs d'entrées, deux neurones
dans la couche cachée et deux neurones dans la couche de sortie. . . . . . . 63
3.4 Fonction d'activation sigmoïde. . . . . . . . . . . . . . . . . . . . . . . . . 64
3.5 Reconstruction d'images avec un autoencodeur convolutif . . . . . . . . . . 67
3.6 Architecture du CAE proposée. . . . . . . . . . . . . . . . . . . . . . . . . 68
3.7 Détection des événements anormaux proposé. . . . . . . . . . . . . . . . . 69
3.8 Détection d'événements anormaux dans la base de données UCSD Ped2. . 77
3.9 Courbe d'apprentissage du CAE. . . . . . . . . . . . . . . . . . . . . . . . 78
3.10 Courbe ROC, (a) au niveau de l'image et (b) au niveau du pixel. AUCFL=87%,
AUCPL=79%. EERFL=19%, EERPL=24,1%. . . . . . . . . . . . . . . . . 78
3.11 Déplacement de pixels à travers deux images consécutives . . . . . . . . . . 78
3.12 Architecture des deux autoencodeurs convolutifs. . . . . . . . . . . . . . . 79
3.13 Détection des événements anormaux proposé. . . . . . . . . . . . . . . . . 79
3.14 Courbe d'apprentissage du CAE entrainé avec des représentations de ux
optique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
3.15 Courbe ROC, (a) au niveau de l'image et (b) au niveau du pixel. AUCFL=92%,
AUCPL=85% EERFL=13,2%, EERPL=19,4%. . . . . . . . . . . . . . . . 80
3.16 Exemples de fausses alarmes et manques de détection rectiées par le réseau
à deux ux. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

4.1 Architecture du réseau à classe unique. . . . . . . . . . . . . . . . . . . . . 86


4.2 Détection des événements anormaux proposé. . . . . . . . . . . . . . . . . 89
4.3 Visualisation des représentations extraites avec la méthode t-SNE [20],
(gauche : le réseau avec uniquement la perte de reconstruction, droite :
le réseau avec les deux pertes reconstruction et compacité.) . . . . . . . . 91
4.4 Distance entre le centre de l'ensemble des représentations et les événements
normaux (surface verte) et anormaux (surface rouge) (gauche : le réseau
avec uniquement la perte de reconstruction, droite : le réseau avec les deux
pertes reconstruction et compacité.) . . . . . . . . . . . . . . . . . . . . . 92
4.5 Courbe ROC, (a) au niveau de l'image et (b) au niveau du pixel. AUCFL=95%,
AUCPL=91,7%, EERFL=9,4%, EERPL=12,1%. . . . . . . . . . . . . . . 92
4.6 Détection d'événements anormaux dans la base de données UCSD Ped2. . 94

1 Bloc inception du réseau. [83] . . . . . . . . . . . . . . . . . . . . . . . . . 97

xiv
1
État de l'art

1.1 Introduction
L'accroissement des préoccupations en matière de sécurité à l'échelle mondiale a fa-
vorisé la généralisation des dispositifs de vidéo surveillance dans l'espace de vie. Le ux
vidéo généré est tel que son exploitation dans sa totalité par des opérateurs humains
devient de plus en plus dicile. Compte tenu des enjeux entourant ce phénomène, un vé-
ritable engouement s'est créé autour du développement de solutions de vidéo surveillance
intelligente. Cette mobilisation de la communauté scientique et industrielle a eu comme
conséquence le développement ou l'adaptation de nombreuses approches de traitement
d'images pour la vidéo surveillance, parmi les quel ont peut citer : les méthodes de tra-
cking adaptées pour le contrôle du trac. La réidentication de personnes qui permet
entre autre de vérier si une personne gurant sur des images diérentes est la même,
utile pour vérier l'identité d'une personne ou localiser une cible. Les méthodes de clas-
sication d'objet qui permettent de nombreuses applications notamment la détection de
bagages abandonnés, etc. Malgré l'impact positif de ces approches sur l'exploitation des
données de cameras de surveillance, une partie importante du travail des opérateurs reste
inchangée. En eet un objectif majeur des opérateurs de vidéo surveillance est de dé-
tecter les comportements anormaux pouvant représenter des risques de sécurité. An de
remédier à ce problème, le développement de systèmes de vision par ordinateur capables
d'apprendre les comportements normaux d'une scène et de détecter les événements anor-
maux est devenu primordiale. La détection automatique d'événements vidéo anormaux
est une tâche de recherche active dans la communauté de la vision par ordinateur. De
nombreux travaux sont continuellement proposés an de faire face a ce besoin réel.

Les événements vidéos anormaux ont connu dans la littérature de nombreuses ap-
pellations : comportements irréguliers, activités/événements/comportements inhabituels,
comportements anormaux, anomalies, etc [23]. Ces diérentes appellations seront utilisées
de manière interchangeable sans nous soucier des incohérences techniques. La détection
d'événements vidéo anormaux se caractérise également par une multiplicité des stratégies
adoptées vis-à-vis des données d'apprentissage. Une première approche consiste à eectuer
l'apprentissage uniquement sur des données normales et considère tout type d'événements
étrangers à la phase d'apprentissage comme étant anormaux. Une approche en opposi-

1
Chapitre 1. État de l'art

tion avec la première, consiste à utiliser uniquement des événements anormaux comme
exemples d'apprentissage [24]. Cette approche peut être ecace pour cibler un certain type
d'anomalies, mais présente un risque élevé de rater des événements anormaux diérents
de ceux appris. Une autre approche quant à elle se focalise sur l'utilisation de données
labellisées en deux classe bien distinctes, normal et anormal[25]. D'autres travaux quant
à eux font appel à des données classiées et étiquetées de manière plus aboutie, dans le
sens où chaque classe représente un type d'événements bien précis[26, 27]. Les approches
utilisant des événements anormaux comme données d'apprentissage sont souvent remises
en cause. Outre le fait que certains événements anormaux sont impossibles à reproduire, la
variabilité entre les événements anormaux complique considérablement la tâche d'appren-
tissage et peut inuer négativement sur la faculté de généralisation du modèle formé. Une
dernière approche basée généralement sur des méthodes de clustering, consiste à utiliser
des bases de données non étiquetées contenant à la fois des données normales et anormales
[28, 29]. Dans cette dernière approche on suppose que les événements normaux sont ceux
qui se produisent fréquemment et les anormaux, ceux qui se produisent rarement. Cette
approche ore l'avantage de ne pas nécessiter l'étiquetage des données d'entrainement,
mais son ecacité est mise en péril par l'hypothèse selon laquelle tous les événements
rares sont anormaux car bien évidement un événement rare n'est pas forcement anormal.
Malgré la divergence des stratégies concernant les données d'apprentissage dans les tra-
vaux récents sur la détection d'événements anormaux [25, 30, 31, 32], la première approche
consistant à utiliser uniquement les données normales durant le processus d'apprentissage
s'est imposée et devenu de manière implicite la norme [33]. Dans nos travaux menés dans
le cadre de cette thèse cette approche a été adoptée. Quelque soit le nom qu'on lui attribue
et l'approche adoptée, dans le contexte de la vidéo surveillance un événement anormal
est souvent décrit comme un événement à faible probabilité d'occurrence dans la scène
surveillée. Dans ce sens la détection d'événements anormaux peut être considérée comme
étant une tâche de reconnaissance de forme et/ou de mouvement, sous la contrainte que
l'élément à reconnaitre ne gure pas dans l'ensemble d'apprentissage.

Figure 1.1  Modèles de reconnaissance de forme. En haut, le modèle standard basé


sur une extraction ciblée de caractéristiques et en bas, le modèle basé sur l'apprentissage
profond.

2
1.2. Méthodes basées sur une extraction ciblée de caractéristiques

Compte tenu du grand nombre de travaux sur la détection d'événements vidéos anor-
maux et leur diversité, catégoriser les méthodes existante n'est pas une tâche aisée à
réaliser. En eet, ces méthodes ont été proposées en grande majorité dans le cadre de
travaux de recherches et que chacune d'elle apporte une contribution particulière ce qui
la rend unique. Néanmoins, dans ce qui suit, nous proposons une première classication
en fonction du modèle de reconnaissance de forme adopté. Cette classication est ensuite
anée en mettant en évidence les similitudes qui peuvent subsister entre diérentes mé-
thodes. Le modèle standard de reconnaissance de forme se compose essentiellement de
trois étapes : l'acquisition des données, l'obtention de nouvelles représentations à tra-
vers l'extraction ciblée de caractéristiques (hand-crafted features) et la classication de
ces représentations, gure 1.1. Dans le modèle standard, l'étape de classication se fait
souvent à l'aide de classieurs entrainables alors que l'étape d'extraction de caractéris-
tiques nécessite un traitement manuel an de sélectionner et d'extraire les caractéristiques
adaptées à la tâche de reconnaissance à réaliser. Durant ces dernières années, un second
modèle s'est imposé notamment grâce à l'avènement de l'apprentissage profond, dans ce
dernier, l'étape d'extraction ciblée de caractéristiques est remplacée par une étape d'ap-
prentissage de représentations [34], gure 1.1. De cette manière les caractéristiques sont
automatiquement sélectionnées et extraites en fonction de la tâche à accomplir.

Dans le reste de ce chapitre nous allons exposer un état de l'art détaillé, englobant
les méthodes de détection et de localisation d'événements vidéos anormaux les plus per-
tinentes.

1.2 Méthodes basées sur une extraction ciblée de ca-


ractéristiques
1.2.1 Extraction de caractéristiques
De manière générale l'image est rarement exploitable par les systèmes de vision par
ordinateur sous sa forme brute, un traitement est souvent nécessaire an d'obtenir une
représentation adaptée à la tâche pour laquelle elle est destinée. Dans le modèle stan-
dard de reconnaissance de forme, cette représentation est obtenu par l'extraction ciblée
de caractéristiques visuelles comme la couleur, la texture ou le gradient. D'autres carac-
téristiques comme le ux optique ou les vecteurs de mouvement, notamment utilisés dans
le traitement vidéo, peuvent exploiter non seulement l'image, mais aussi sa relation avec
les images adjacentes dans l'axe temporel an d' en extraire des informations relatives au
mouvement.
De nombreuses caractéristiques ont été prélevées et utilisées dans le domaine de la détec-
tion d'événements anormaux. Dans la littérature ces caractéristiques sont souvent scindées
en deux catégories selon la source de leur extraction [35, 23]. Une première catégorie re-
groupe les caractéristique extraite au niveau du pixel, elle sont dites "caractéristique de
bas niveau". Une seconde catégorie regroupe quant à elle, les caractéristique extraite au
niveau de l'objet, elle sont souvent désigné en opposition à la première catégorie par
"caractéristiques de haut niveau".

3
Chapitre 1. État de l'art

Extraction de caractéristiques au niveau de l'ob jet

La caractéristique la plus couramment extraite des objets est la trajectoire. Son ana-
lyse a été intensivement explorée pour la détection d'événements anormaux [36, 37, 38, 39,
40, 41]. Les méthodes qui l'exploitent tentent généralement de dénir un modèle pour les
trajectoires normales d'une scène et déclare les trajectoires déviantes de ce modèle comme
anormales. Dans certains cas d'application, la trajectoire et la position des objet cibles
susent pour détecter d'éventuels événements anormaux, parmi lesquels on peut citer : la
détection de violations de zones à circulation restreinte [42], la surveillance du trac rou-
tier [43] et le comptage de personnes [44]. La trajectoire peut être combinée avec d'autres
descripteurs du même niveau comme la taille des objet et leurs vitesse an d'obtenir des
meilleures représentations. Dans [24] la trajectoire, la distance entre objets, la vitesse des
objets et l'énergie du mouvement ont été combinés pour représenter les événements. La
trajectoire a été également fusionnée avec des caractéristiques de bas niveau pour détecter
non seulement les comportements anormaux liés à la vitesse et à la trajectoire, mais aussi
les comportements complexes liés à des mouvements plus subtils. Malgré l'utilité avérée
de l'analyse de la trajectoire dans certain cas d'usage, son ecacité est limitée en ce qui
concerne les formes et les mouvements complexes. D'autres part, une grande majorité
des méthodes qui utilisent la trajectoire requièrent l'utilisation de techniques précises de
tracking et de détection d'objets, ce qui les rend sensibles aux occlusions particulièrement
dans les scènes surpeuplées. Outre leur manque d'ecacité quand le nombre de cibles
vient à augmenter leur dépendance aux algorithmes de tracking et de détection d'objets
les caractérisent également par une complexité calculatoire élevée.
D'autres méthodes d'extraction de caractéristiques moins aectées par les occlusions ont
été utilisées au niveau de l'objet pour la détection d'anomalies. Dans [45], des rectangles
entourant les objets ainsi que leurs largeurs et longueurs ont été exploités comme descrip-
teurs pour détecter des comportement anormaux dans des ascenseurs. Les événements
peuvent également être représentés sous forme de blobs, dans [46] des blobs sont formés
avec les pixels de premier plan. Les centres de ces blobs et leurs tailles sont ensuite fusion-
nés avec d'autres descripteurs pour obtenir des vecteurs de caractéristiques représentatifs
de la scène. La silhouette a également été utilisée dans la reconnaissance d'événements
vidéos. [47] extrait les silhouettes et les transforme à travers un algorithme de réduction
de dimensionnalité, an d'obtenir des représentations exploitables pour la reconnaissance
d'activité.

Extraction de caractéristiques de bas niveau (au niveau du pixel)

Étant donné les dés que représentent le tracking vidéo et la détection d'objets dans
une scène de vidéo surveillance, de nombreuses méthodes de détection d'événements anor-
maux se concentrent sur l'extraction de caractéristiques au niveau du pixel telles que (la
texture, le gradient et le mouvement). L'analyse de la texture renvoie des informations sur
l'arrangement spatial des intensités des pixels dans l'image. Dans [48] un ltrage avec un
2D Gabor wavelets [49] est eectué pour obtenir la texture, cette dernière est utilisée pour
améliorer la dissociation entre les diérents éléments de la scène. Des méthodes proposent
également de modéliser simultanément l'apparence et la dynamique d'une scène en utili-

4
1.2. Méthodes basées sur une extraction ciblée de caractéristiques

sant la texture dynamique DT (dynamic texture) [50, 51]. Le gradient a souvent été utilisé
dans des travaux de détection d'événement anormaux, il permet de décrire l'apparence et
la forme locale des objets dans une image. Le HOG (Histogram of Oriented Gradients)
est l'une des forme sous laquelle le gradient peut être exploité [52, 28]. Le gradient peut
également être étendu au domaine temporel an de construire un histogramme de gra-
dient spatiotemporel [53, 54].

Compte tenu de l'importance du mouvement dans la caractérisation de l'événement,


l'extraction de caractéristiques relatives au mouvement a été le sujet de nombreuses mé-
thodes, parmi lesquelles : MHI (motion history images), MEI (motion energy images)
[55, 56] et pixel Change History [57, 46]. Cependant, le ux optique [58, 16] a été le plus
exploité dans la détection d'événements anormaux [48, 59, 60, 61]. Le ux optique peut
également être utilisé sous forme d'histogrammes dénotés HOF (Histograms of Optical
Flow) pour décrire le mouvement d'une scène [52, 62, 63].
Le gradient, la texture et le mouvement utilisés de manière indépendantes ne sont géné-
ralement pas apte à décrire des événements spatiotemporels complexes. Cependant, ces
caractéristiques combiné peuvent constitué une description ecace de l'événement[52, 48].
Les approches d'extraction de caractéristiques de bas niveau ont l'avantage d'être robustes
aux occlusions qui aectent considérablement la précision du tracking et ne nécessite pas
l'utilisation au préalable de méthodes de détection d'objet. Cependant, les caractéristiques
obtenues avec ces méthodes sont souvent décriées à cause de leur manque d'ecacité dans
la représentation des motifs complexes dans les vidéos.

1.2.2 Classication et modélisation


La classication/modélisation est généralement l'étape suivante après l'extraction de
caractéristiques dans une approche de détection d'événement anormaux. Dans cette étape,
les représentations obtenues par l'extraction de caractéristiques sont exploitées an de
dissocier entre les événements normaux et anormaux d'une scène. Dans la littérature de
nombreux algorithmes ont été proposés an de réaliser cette tâche.
Les machines à vecteurs de support SVM (support vector machines) gurent parmi les
méthodes de classication les plus populaires. Le SVM développé à partir des travaux de
Vapnik et Lerner [64, 65] est une méthode d'apprentissage statistique conçue pour trouver
l'hyperplan optimal séparant deux classes de données dans un espace multidimensionnel. Il
tente d'atteindre un compromis entre la minimisation du risque empirique et la prévention
du overtting. Grâce aux méthodes à noyau le SVM peut également traiter des problèmes
de classication non linéaires [66, 38, 67, 68]. Le SVM été initialement adapté à la classi-
cation supervisée de données en deux classes. Cependant, il a été continuellement amélioré
pour répondre à un large éventail de problèmes de classication impliquant la classica-
tion multi-classe [69, 70, 71] et la classication à classe unique (one-class classication)
[72]. Cette dernière variante du SVM appelée OC-SVM (One-Class SVM) peut avec des
données appartenant à une seule classe (la classe positive) et quelques outliers apprendre
une frontière discriminative autour de l'ensemble des instances positives et détecter les
éléments externes à cet ensemble. L'habilité du OC-SVM à opérer une classication en
utilisant principalement les donnée de la classe positive a favorisé son utilisation de ma-

5
Chapitre 1. État de l'art

nière intensive dans la détection d'événement anormaux [67, 67, 73, 68, 63].

Des méthodes de clustering ont également été employé pour la détection d'événements
anormaux. K -Means est un algorithme non supervisé de partitionnement de données, il
permet de regrouper en K clusters distincts les échantillons d'un ensemble de données.
Avec cet algorithme un échantillon est assigné au cluster dont la moyenne est la plus
proche de lui. Dans [45] K -Means est utilisé pour associer des labels aux représentations
des objets, ces labels sont ensuite exploité an de construire un modèle d'activité. [74] a
utilisé K -medoids une déclinaison de K -Means pour détecter des trajectoire anormales.
D'autres méthodes de clustering inspirées par l'approche BOV (Bag Of Visual words)
permettent de représenter les données à travers un dictionnaire, souvent appelé codebook
dans la littérature de la détection des événements vidéos anormaux [29, 28, 75, 76, 54]. Le
codebook permet de représenter par l'intermédiaires de codewords l'ensemble des données.
Ces codewords sont assignés au diérents échantillons de données grâce à une mesure de
similarité. Dans [29], une vidéo est découpée en plusieurs volumes spatiotemporels grâce
à un échantillonnage dense. Un codebook est ensuite construit pour représenter ces vo-
lumes en utilisant une distance euclidienne comme mesure de similarité. Les codewords
sont construits en prenant en considération non seulement les échantillons qu'il représente,
mais également leur fréquence d'apparition et leur similarité avec le codeword concerné.

Outre les méthodes de classication et de clustering, des approches basées sur la mo-
délisation ont été également explorées. Le modèle de Markov caché HMM (hidden Markov
model) gure parmi les méthodes les plus intensivement exploitées pour la modélisation
du comportement et la détection d'événements anormaux [45, 77, 24, 78]. Le HMM est
un modèle graphique orienté, il peut être représenté sous forme de n÷uds reliés par des
liens de transition représentant une série temporelle d'états. Chaque n÷ud représente
un état qui n'est pas directement observable. Cependant, à chaque état une observation
correspondant à un ensemble de probabilités d'états est réalisée. Deux hypothèses sont
imposées au HMM : 1) les transitions d'état ne sont conditionnées que par l'état pré-
cédent. 2) Les observations ne sont conditionnées que par l'état actuel, de ce fait, les
observations ultérieures sont considérées comme indépendantes les unes des autres dans
l'état actuel. Le HMM est dénit par deux matrices : la matrice de transition, elle cor-
respond au probabilités de transition entre états et la matrice d'émission qui contient les
probabilités d'observations. Ces deux matrices peuvent être déterminées par l'algorithme
d'entrainement BaumWelch. La popularité du HMM pour la modélisation du compor-
tement et la détection d'événements anormaux est probablement due à la dépendance
temporelle inhérente à cette méthode. Contrairement à de nombreuses autres méthodes
appliquées à la détection d'anomalies, le HMM est capable de prendre en considération
la nature intrinsèquement dynamique du comportement. De nombreuses déclinaisons du
HMM ont été appliquées pour la détection d'événement anormaux. Dans [77], un HMM et
une mixture de gaussiennes MOG (mixture of Gaussians) ont été utilisés pour détecter les
événements anormaux dans des zones de circulation routière en fonction des caractéris-
tiques extraites à l'aide du ux optique. [24] a utilisé un CHMM (coupled hidden Markov
model) pour détecter les interactions humaines anormales à l'intérieur des bâtiments. Le
CHMM est un modèle qui fait interagir deux HMM en ajoutant entre eux des probabilités

6
1.3. Méthodes basées sur l'apprentissage de représentations

de transition. Ce modèle permet notamment de modéliser un processus stochastique avec


plus d'un état à un instant donné, ce qui peut être utile pour modéliser non seulement
les éléments d'une scène, mais également leurs interactions. Une autre stratégie consiste à
disposer plusieurs modèles non pas en parallèle, mais en cascade ce qui permet d'utiliser
de multiples modèles diérents, chacun étant sensible à un type d'événement spécique.
[79] a présenté une structure en cascade nommée HC-HMM (Hierarchical Context Hidden
Markov Model), elle est composé de trois modules pour modéliser les événements à travers
trois contextes : spatial, comportemental et temporel.
Le champ aléatoire de Markov MRF (Markov random eld) a également été utilisé pour
modéliser l'activité d'une scène. Le MRF est semblable au HMM dans le sens qu'ils sont
tous deux des modèles graphiques utilisés pour modéliser des systèmes markoviens. Ce-
pendant, les champs aléatoires de Markov sont des modèles graphiques non orientés. Dans
[80, 80], un MRF a été proposé pour détecter les activités anormales dans une vidéo. Le
modèle est construit en utilisant des région spatiotemporelles de la vidéo, chaque région
est identiée par un n÷ud et les n÷ud voisins (régions voisines) sont reliés par des liens.
Dans [81], un modèle de champ aléatoire de Markov paramétré par une matrice de co-
occurrence a été utilisé pour détecter les activités anormales relatives à la direction, la
vitesse et la taille des objets.

1.3 Méthodes basées sur l'apprentissage de représenta-


tions
Durant des années, l'élaboration d'un système de reconnaissance de formes selon le
modèle traditionnel nécessitait une expertise et des connaissances approfondies pour ex-
traire à partir des données brutes des représentations adaptées et utilisables pour détecter,
identier ou classer des éléments parmi les données d'entrée. Les méthodes de détection
d'événements anormaux ayant adopté ce modèle ont hérité des mêmes dépendances. Ces
méthodes nécessitent des connaissances a priori pour construire un extracteur de carac-
téristiques (features extractor) adapté aux événements ciblés et à la scène surveillée. Ces
contraintes ont favorisé l'émergence de méthodes de détection d'événements anormaux
basées sur l'apprentissage de représentations et plus précisément sur l'apprentissage pro-
fond.

L'apprentissage de représentations ou apprentissage de caractéristiques est un en-


semble de techniques qui permettent d'automatiser l'étape d'extraction de caractéris-
tiques. Ces méthodes permettent de dénir grâce à un apprentissage les transformations
adéquates à apporter aux données d'entrée an d'obtenir des représentations permettant
de réaliser une tâche ciblée comme la reconnaissance d'actions, la classication d'images,
l'estimation de la pose humaine, la segmentation sémantique, etc.

L'apprentissage profond (Deep Learning) est un sous-domaine de l'apprentissage de


représentations, il vise à apprendre des abstractions de haut niveau dans les données en
utilisant des architectures à plusieurs niveaux. Ces diérents niveaux sont obtenus en em-
pilant de multiples modules de transformations non linéaires. Chaque module transforme
la donnée à un niveau diérent jusqu'à obtenir une représentation adaptée et qui permet

7
Chapitre 1. État de l'art

de réaliser la tâche cible. L'apprentissage profond a fortement contribué à la remise en


cause de la pertinence du modèle traditionnel dans certains cas d'application, dans le sens
où il a rendu possible la conception de systèmes de reconnaissance de formes ecaces,
sans expertises approfondies sur les éléments ciblés.

1.3.1 Modèles supervisés


Les réseaux de neurones convolutifs CNNs (Convolutional Neural Networks) gurent
parmi les méthodes supervisées d'apprentissage profond les plus populaires. C'est en
grande partie, les résultats remarquables obtenus avec des CNNs comme Alexnet, VGG,
GoogLeNet et ResNet [82, 19, 83, 6] sur des compétitions internationales tel que ILSVRC
(ImageNet Large-Scale Visual Recognition Challenge) [84], que l'apprentissage profond
a été propulsé sur le devant de la scène et s'est imposé dans le domaine du traitement
d'images et de la vision par ordinateur.
Le CNN est un type de réseau de neurones articiels dont le fonctionnement a été
inspiré du cortex visuel animal. Il est constitué de plusieurs couches qui traitent les données
de manière hiérarchique, gure 1.2. À titre d'exemple, lorsque un CNN est utilisé pour

Figure 1.2  Réseau de neurones convolutifs, gure extraite de [17].


classier une image, les caractéristiques extraites dans les premières couches décrivent
généralement la présence de formes simples (bords et contours), les couches suivantes
extraient des motifs un peu plus complexes en détectant des assemblages de formes simples
tout en négligent les variations non pertinentes telles que les légers décalage ou rotations
des motifs. Plus on explore le réseau en profondeur, plus les couches décrivent des formes
complexes, avec un niveau d'abstraction croissant, jusqu'à être en mesure de représenter
des parties d'objets ou voir même des objets complets dans le cas des dernières couches,
gure 1.3. De cette manière le CNN amplie les aspects des données d'entrée qui sont
pertinents pour la classication et amoindrit les variations les moins pertinentes.
L'un des prédécesseur du CNN est le Perceptron multicouche MLP (MultiLayer Per-
ceptron) qui est généralement caractérisé par une architecture entièrement connectée (fully
connected), où chaque neurone dans une couche est connecté à tous les neurones de la
couche précédente, gure 1.4. Le CNN se démarque du MLP par l'intégration de couches de

8
1.3. Méthodes basées sur l'apprentissage de représentations

Figure 1.3  Poids des neurones dans les couches de convolutions, gure extraite de [18].

convolution à connexions locales, gure 1.5. Chaque couche de convolution est constituée
de plusieurs unités (neurones) réparties sous forme de cartes de caractéristiques (features
maps). Un neurone à l'intérieur d'une couche est connecté à des régions locales, appelées
champs récepteurs (receptive elds), dans les cartes de caractéristiques de la couche pré-
cédente. Cette connexion est réalisée au moyen d'un ensemble de poids appelé ltre. Le
CNN se distingue également par ce qu'on appelle poids partagés (shared weights), tous les
neurones d'une même carte de caractéristiques partagent les même poids de connexion.
Cela se fait concrètement en appliquant un même ltre de convolution sur l'ensemble de
la couche précédente. Des poids signie que tous les neurones d'une même carte réagissent
à la même caractéristique, mais de manière diérente en fonction de leur champ récep-
teur respectif. Le partage de poids permet de détecter les motifs indépendamment de
leur position, constituant ainsi une propriété d'invariance de translation. Dans un CNN
les couches de convolutions sont généralement associées avec des fonctions d'activation
non-linéaires comme la ReLU (rectied linear unit), gure 1.6. Ces fonctions permettent
notamment d'augmenter les propriétés non linéaires dans les représentations extraites
grâce au couches de convolutions.

En plus des couches de convolution à connexions locales et du partage des poids, le


pooling est également un concept clé dans les CNNs. Cette opération se présente sous
forme d'un ltre d'échantillonnage rectangulaire, appliqué à une région locale d'une carte
de caractéristique. Il permet d'extraire grâce à une fonction mathématique un élément
pour représenter cette région locale. Un exemple de pooling est représenté par la gure
1.7. Le pooling assure une robustesse aux légers décalages et aux distorsions des motifs.
Il permet également de diminuer la taille des représentations (cartes de caractéristiques),
ce qui a l'avantage de réduire le nombre de paramètres du réseau et donc faciliter son

9
Chapitre 1. État de l'art

Figure 1.4  Perceptron multicouches.

Figure 1.5  Exemple de connexions locales dans un réseau de neurones.

apprentissage et réduire sa complexité calculatoire.


Ces diérents concepts (connexions locales, poids partagés, pooling et architecture
profonde) ont permis au CNN de surmonter certaines limitations de ces prédécesseurs en
exploitant mieux la forte corrélation spatiale et locale présente dans les images naturelles.
Il est important de signaler que les CNNs intègrent généralement un bloc de classica-
tion constitué principalement des couches entièrement connectées (fully-connected), ces
couches sont utilisées à la n d'un réseau après plusieurs couches de convolution et de
pooling an d'obtenir un raisonnement de haut niveau. Le CNN sous sa forme la plus
répandue est un algorithme d'apprentissage supervisé, son entrainement nécessite une
grande quantité de données étiquetées réparties en plusieurs classes. Son entrainement
consiste à calculer de manière empirique les valeurs optimales à attribuer à ses diérents
poids. L'entrainement se fait généralement grâce à un algorithme de rétropropagation du
gradient.
Dans le contexte de la détection des événements anormaux les CNNs ont été exploités
essentiellement sous deux approches : la première consiste à entrainer de manière su-

10
1.3. Méthodes basées sur l'apprentissage de représentations

Figure 1.6  La fonction d'activation ReLU dans le contexte des réseaux de neurones
convolutifs.

Figure 1.7  Couche de pooling, Max pooling de taille 2 × 2.

pervisée un CNN sur une base de données d'images étiquetée. La deuxième approche se
base quant à elle sur le transfert d'apprentissage de réseau préalablement entrainés pour
d'autres tâches reconnaissance de formes.

Apprentissage supervisé

Comme cité précédemment, le CNN est une méthode d'apprentissage supervisé. Pour
exploiter pleinement ces capacités en terme d'extraction de caractéristiques et de classica-
tion pour la détection d'anomalies, une base de données étiquetée contenant des exemples
d'apprentissage des deux classes (normal et anormal) est nécessaire. Dans [85] un CNN
3D est proposé pour classer des clips vidéo en deux classes (bagarre ou non-bagarre) an
de détecter des actes de violence dans des vidéo de hockey sur glace. Un CNN 3D est
caractérisé par des opérations de convolutions 3D, ce qui lui permet d'extraire des carac-
téristiques spatiotemporels indispensables pour la description du mouvement. Dans [25],
un CNN 3D a été également construit pour classer des volumes vidéos d'intérêt SVOI
(Spatialtemporal Volumes of Interest) en deux classes normal et anormal. Les volumes
d'intérêt sont sélectionnés grâce au ux optique, ceux contenant peu ou pas de mou-
vement ne sont pas traités par le CNN. [86] propose quant à lui de combiner un Fast
R-CNNN multi-tâches avec la méthode d'estimation par noyau KDE (kernel density es-
timation). Le Fast R-CNN multi-tâche est entrainé de manière supervisée pour extraire

11
Chapitre 1. État de l'art

des caractéristiques sémantiques et des scores de classication pour diérents objets pré-
sents dans les images d'entrée. Ces caractéristiques sont ensuite utilisées par la KDE
pour détecter les anomalies. De cette manière on peut non seulement détecter les évé-
nements anormaux, mais également donner une description de l'événement détecté grâce
aux étiquettes fournies par le CNN. Des architectures à deux ux intégrant des CNNs
ont également été explorées dans le contexte de la détection d'événements anormaux. [87]
propose d'exploiter deux réseaux pour catégoriser les images en deux classes (images nor-
males et anormales). Le premier réseau est un CNN préentrainé et ané (ne-tuned) avec
des images d'entrainement appartenant aux deux classes, il permet l'extraction de repré-
sentations relatives à l'apparence. Le deuxième est un CNN identique au premier, mais
ané avec des représentations de ux optique extraites dans des séquences d'images. Ce
dernier permet notamment une meilleure description du mouvement. Une fois les réseaux
entrainé indépendamment la dissociation entre les images normal et anormales se fait en
moyennant les deux score de classication renvoyé par les deux réseaux.
Malgré les résultats probants des méthodes basées sur un apprentissage profond super-
visé, la nécessité d'utilisation d'échantillons d'entrainement à la fois normaux et anormaux
complique leur intégration dans des systèmes de vidéo surveillance intelligents.

Transfert d'apprentissage

Il a été démontré qu'un CNN entrainé pour réaliser une tâche cible, peut fournir
des caractéristiques génériques et robustes, utilisables pour accomplir une autre tâche de
vision par ordinateur diérente de celle pour la quelle il a spéciquement été entrainé.
Dans [88], des représentations extraites avec OverFeat [89], un CNN entrainé uniquement
pour la classication d'objets, sont exploitées au moyen d'un SVM linéaire ou bien d'une
norme euclidienne pour diérentes tâches (classication de scènes, classication détaillée,
détection d'attributs, récupération d'instance visuelle). Les résultats obtenus fournissent
des preuves tangibles sur la capacité des CNN à fournir des caractéristiques génériques
et robustes, utilisables pour diérentes tâches de vision par ordinateur. Ce principe a
été mis en application dans de nombreux travaux de détection d'événements anormaux.
Dans [68], un CNN 2D préentrainé sur des bases de données de classication d'images
est modié pour extraire des représentations des diérentes régions des images d'entrée.
Un OC-SVM est ensuite utilisé pour détecter parmi ces régions celles comportant des
événements anormaux. [90] combine un CNN 3D avec un classier adaptatif semblable à
un codebook pour détecter les événement anormaux. Le système peut s'adapter à l'ap-
parition de nouveaux événements grâce à une interaction humaine, ce qui peut éviter de
nombreuses fausses alarmes. Dans [91] un CNN préentrainé est fusionné avec une couche
de quantication binaire dont les poids sont entrainés grâce à une méthode de hachage
binaire nommée ITQ (Iterative Quantization Hashing) [92]. Ce réseau permet d'obtenir
une mesure d'irrégularité qui est ensuite combinée avec le ux optique an de détecter
les événements anormaux. Dans [93] un CNN préentrainé est combiné avec un sparse au-
toencodeur entrainable an d'obtenir un extracteur de caractéristiques a deux niveaux.
À la sortie du CNN un premier classieur gaussien est utilisé pour classer les régions
d'images en normales, anormales ou suspectes. Les représentations des régions suspectes
sont ensuite transformées par l'autoencodeur an d'obtenir des représentations plus dis-

12
1.3. Méthodes basées sur l'apprentissage de représentations

criminantes. Un deuxième classieur gaussien est utilisé à la sortie de l'autoencoder pour


classer les régions suspectes en normales et anormales.

Les méthodes basées sur le transfert d'apprentissage ne nécessite pas de base de don-
nées étiquetées pour l'extraction de caractéristiques et leurs résultats en terme de détec-
tion et de localisation sont prometteurs. Néanmoins, la dépendance de ces méthodes à des
modèles préentrainés leur impose une certaine rigidité et réduit considérablement leurs
perspectives d'amélioration. Ces critères ont encouragé l'émergence de travaux orientés
sur des approches basées sur de l'apprentissage non supervisé.

1.3.2 Modèles non supervisés


Le développement de méthodes d'apprentissage ne nécessitant pas de bases de données
étiquetées a toujours été un objectif primordiale dans les diérentes branches de l'appren-
tissage automatique. Outre la diculté de construire des bases de données étiquetés assez
riches pour cerner la complexité de certains sujets traités, cet intérêt pour l'apprentissage
non supervisé tire en partie son inspiration du fait que l'apprentissage chez l'être humain
est en grande partie non supervisé [94]. En eet l'homme dispose de capacité considérable
pour observer, analyser et comprendre le monde qui l'entoure sans pour autant utiliser des
étiquettes pour chaque situation. Malgré toute l'importance et les enjeux qui entourent ce
type d'apprentissage le succès fulgurant du CNN a en quelques sortes éclipsé durant une
certaine période l'apprentissage non supervisé. Néanmoins, le développement croissant
des modèles génératifs durant ces dernières années a ravivé l'intérêt de la communauté
scientique pour le développement de méthodes basées sur l'apprentissage non supervisé.
Cet intérêt retrouvé a été d'une utilité particulière pour le domaine de la détection des
événements anormaux puisque de nombreuses méthodes basées sur l'apprentissage non
supervisé ont été récemment explorées. Ces méthode peuvent être catégorisées comme
suit :

Apprentissage de représentations pour la reconstruction

Des méthodes telles que les autoencodeurs (AEs) ou le codage parcimonieux (sparse
coding) sont utilisées pour extraire les diérentes représentations linéaires et non linéaires
de l'apparence (image) ou du mouvement (ux), an de modéliser les comportements nor-
maux dans les vidéos de surveillance. L'autoencodeur AE (AutoEncoder) est un réseau
de neurones entièrement connectés largement exploité dans l'apprentissage automatiques.
Il se compose d'une couche d'entrée, d'une couche de sortie et d'une ou plusieurs couches
cachées, gure 1.8. L'entrainement de l'AE se fait habituellement grâce à une rétropropa-
gation du gradient dans l'objectif de minimiser l'erreur de reconstruction entre les données
d'entrées et les données de sortie. Dans l'AE les couches cachées sont réparties entre l'en-
codeur et le décodeur, l'encodeur sert à encoder la donnée d'entrée en une représentation
généralement plus compacte, le décodeur sert quant à lui à reconstruire la donnée en
fonction de la représentation générée par l'encodeur. L'AE est souvent utilisé comme une
alternative à l'ACP, pour la réduction de dimentionalités et peut également être un outil
ecace pour l'extraction de caractéristiques. Une fois entrainé, l'encodeur peut être uti-

13
Chapitre 1. État de l'art

Figure 1.8  Autoencodeur à 5 couches cachées.

lisé pour extraire des représentations exploitables dans diérentes tâches d'apprentissage
automatique comme le clustering et la détection d'outliers. Des variantes de l'autoen-
codeur comme l'autoencodeur débruiteur DAE (Denoising autoencoder), l'autoencodeur
variationnel VAE (Variational autoencoder) ont permis d'élargir le champ d'applications
de l'AE.

Compte tenu de sa capacité d'apprentissage non supervisé, l'AE a largement été ex-
ploré dans la détection d'événements anormaux. [95] propose AMDN (Appearance and
Motion DeepNet) un réseau constitué de trois SDAEs (stacked denoising autoencoders),
un premier entrainé à reconstruire des patchs extraits des images normales, un deuxième
entrainé avec les représentation de ux optique correspondantes au patchs et un troisième
entrainé avec la concaténation des patchs et leurs représentations en ux optiques. Une
fois les trois réseaux entrainés les représentations obtenus sont utilisées pour entrainer
trois OC-SVMs. Grâce à cette architecture, la détection d'événements anormaux est ra-
mené a une catégorisation binaire des diérentes régions d'images. Les patchs anormaux
sont détectés grâce à une combinaison des scores de décision des trois SVMs. Étant donné
que l'AE sous sa forme primaire est un réseau de neurones entièrement connectés, sa capa-
cité à représenter des structures 2D où les relations spatiales sont importantes est remise
en cause [96]. Néanmoins, une dérivée de l'autoencodeur nommé autoencodeur convolu-
tif CAE (Convolutional AutoEncoder) [96] rectie ce point en intégrant des couches de
convolutions avec des poids partagés, couches qu'on retrouve notamment dans les CNNs.
De cette manière le CAE préserve la localité spatiale existante dans les images naturelles.
[97] propose d'entrainer un CAE pour la reconstruction de volumes d'entrée 3D. Chaque
volume est constitué d'une image, de la même image ltrée par l'algorithme Canny Edge
Detector [98] et du ux optique extrait de ladite image et de l'image qui la précède. Après
l'entrainement du réseau, les volumes d'entrainement ( de la classe normal) sont de nou-
veau introduits dans le réseau. pour chaque volume trois erreurs de reconstruction sont
obtenus, une pour chaque canal du volume d'entrée. Ces trois erreurs sont combinées sous
forme de vecteurs et sont utilisés an d'entrainer un OC-SVM. La détection des frames

14
1.3. Méthodes basées sur l'apprentissage de représentations

anormales se fait ensuite en répétant la même procédure d'extraction de vecteurs d'erreur


et en utilisant le SVM an de prédire la classe de chaque vecteur. Dans [30] deux mé-
thodes également basées sur des CAEs. Dans la première, les auteurs suggèrent un CAE
entrainé à reconstruire des caractéristiques de bas niveau (HOG et HOF) extraites à partir
des échantillons de la classe normale. Dans la deuxième méthode, ils proposent d'utiliser
un CAE spatiotemporel entrainé directement sur des volumes vidéos. Dans les deux ap-
proches, les anomalies sont détectées grâce à un score de régularité calculé avec l'erreur
de reconstruction. De la même façon [99] propose d'utiliser l'erreur de reconstruction d'un
CAE spatiotemporel pour détecter les événements anormaux. Le CAE proposé intègre des
couches de convolution 2D pour l'apprentissage de caractéristiques spatiales et des ConvL-
STMs (convolutional long short term memory) pour les caractéristiques temporelles. Dans
[100] une approche en cascade est proposée, comme première étape, un autoencodeur à
deux couches est appliqué sur des volumes vidéos an de ltrer les normaux et de laisser
passer ceux qui sont suspects pour une analyse plus poussée. La deuxième étape consiste
en un CNN dont les poids sont obtenus grâce à un apprentissage non supervisé appliqué
sur des AEs et ensuite transféré vers le CNN. Dans les deux étapes, les volumes normaux
et anormaux sont diérenciés grâce à de multiples classieurs Gaussiens placés en cascade
et exploitants les représentations hiérarchiques obtenus avec les diérentes couche de l'AE
et du CNN.
Outre l'AE et ses variantes, d'autres modèles basé sur une logique de reconstruction
ont été exploré. [101] propose d'exploiter le codage parcimonieux pour la détection d'évé-
nements vidéo anormaux. Le codage parcimonieux appliqué à la détection d'anomalies
consiste en deux étapes ; une étape d'apprentissage an de former un dictionnaire en uti-
lisant les données d'entrainement et une étape de détection, durant laquelle un échantillon
est étiqueté comme étant anormal si sa reconstruction en se basant sur le dictionnaire est
impossible. Les auteurs de [101] présente une nouvelle architecture nommé AnomalyNet,
elle est essentiellement composée de deux réseaux, un extracteur de caractéristique et
un réseau d'optimisation. L'extraction de caractéristiques se fait à travers deux étapes,
la première étape consiste à compresser une séquence de frames grâce à un RankSVM
[102] pour obtenir une seule image statique contenant des informations spatiotemporelles
relatives à la séquence. Durant la seconde étape, ces nouvelles images sont traitées par
un CNN préentrainé an d'extraire des représentations hiérarchiques de haut niveau. Le
réseau d'optimisation est un RNN (recurrent neural network) intégrant des blocs SLSTM
(Sparse LSTM) dérivés du LSTM (long short term memory). Semblable au méthodes uti-
lisant des AEs, les événements anormaux sont identier grâce à l'erreur de reconstruction.

Modèles prédictif

Une autre approche basée sur l'apprentissage profond non supervisé tend à utiliser des
modèles prédictifs pour la détection d'événements anormaux. Contrairement aux modèles
reconstructifs dont l'objectif est de former un modèle à reconstruire les données d'entrée,
les modèles prédictifs tentent de prédire une séquence courante de frames en utilisant les
séquences précédentes [103, 104, 105]. En d'autres termes, l'objectif est de modéliser la
distribution conditionnelle P (Xt /Xt−1 ), où Xt est une séquence de frames à l'instant t
et Xt−1 une séquence de frames à l'instant t − 1. L'AE a été largement exploité dans ce

15
Chapitre 1. État de l'art

type de modèles. La fonction d'un AE peut être déterminée en considérant ses valeurs de
sortie. Quand les valeurs de sortie ne sont que la reconstruction des entrées, l'AE est un
modèle reconstructif. Lorsque les valeur de sorties sont les valeurs postérieures au valeurs
d'entrée dans l'axe temporel, le modèle est dit prédictif.
Dans [104] un AE formé à base de ConvLSTMs est proposé pour la détection d'évé-
nements anormaux, le réseau se compose : d'un encodeur qui extrait des représentations
à partir d'une séquence d'entrée, d'un premier décodeur qui utilise les représentation
extraites par l'encodeur an de reconstruire la séquence d'entrée et d'un deuxième dé-
codeur qui utilise les représentations pour prédire la séquence de frames suivante. Cette
architecture permet d'obtenir des représentations plus robustes, en eet la branche de
reconstruction ne permet généralement que d'apprendre des représentations pour reéter
les données d'entrée alors que la branche de prédiction permet d'absorber plus d'informa-
tions temporelles pour pouvoir prédire les trajectoires des diérents objets de la scène.
Le réseau est uniquement entrainé avec des séquences de frames normales, ce qui per-
met d'avoir une erreur de reconstruction plus élevées quand une séquence contenant un
événement anormal est introduite. [103] propose un réseau similaire à [104], mais avec
des connexions supplémentaires pour augmenter le ux d'informations pendant la phase
de décodage, ce qui, selon l'auteur, améliore la capacité d'extrapolation pour générer de
meilleures images. Dans le même principe [105] propose un réseau constitué d'un encodeur
et deux décodeurs, le premier pour la reconstruction et le deuxième pour la prédiction.
Dans ce réseau des couches de convolution 3D sont exploitées à la place des ConvLSTMs,
pour l'apprentissage de représentations spatiotemporelles. Dans une couche de convolution
2D la convolution est appliquée uniquement aux dimensions spatiales, alors que dans une
couche de convolution 3D en plus d'être appliquée au dimensions spatiales, la convolution
est également appliquée à la dimension temporelle ce qui permet d'obtenir des représen-
tations spatiotemporelles décrivant à la fois les formes et les mouvements présents dans
les séquences d'entrée.

Modèle génératifs

Ces dernières années, l'utilisation des réseaux antagonistes génératifs GANs (Genera-
tive Adversarial Networks) s'est considérablement accrue dans les domaines de l'appren-
tissage automatique. Le GAN est un algorithme d'apprentissage non supervisé proposé
initialement par [106]. Il se constitue de deux sous-réseaux, un générateur et un discrimi-
nateur placés en compétition, gure 1.9. Durant la phase d'apprentissage le générateur
essayes de générer des données convaincantes pour leurrer le discriminateur qui tente quant
à lui de détecter si les données sont réelles ou bien générées. De cette manière on obtient
deux réseaux entrainés, l'un à générer des données réalistes et l'autre à distinguer les
données réelles des données générées. Après la phase d'apprentissage, le générateur peut
être utilisé indépendamment pour créer des données [107, 108] ou bien pour des tâches de
discrimination [109, 110], mais il peut être également utilisé conjointement avec le discri-
minateur [111, 112]. La capacité de génération des GANs a suscité beaucoup d'engouement
et de nombreuses applications intégrant des GANs ont vu le jour dans diérents domaines,
parmi les applications les plus inattendu on peut citer : Obvious [113] un collectif français
d'artistes qui s'est distingué par la création de tableaux artistiques grâce à des GANs.

16
1.3. Méthodes basées sur l'apprentissage de représentations

Figure 1.9  Réseau antagoniste génératif GAN (Generative Adversarial Network).

La génération de musique [114] ou bien encore la création de personnages d'animes [108].


Cependant, les GANs ont également été fortement exploités dans des applications d'ap-
prentissage automatique plus "conventionnelles" comme la détection d'objets [115, 116],
la transguration d'objets [117] ou la création d'images haute résolution à partir d'images
basse résolution [118].

La popularité du GAN, l'impacte favorable qu'il a apporté dans de nombreuses appli-


cations et sa capacité d'apprentissage non supervisé ont encouragé son exploration pour
la détection d'événements anormaux dans le contexte de la vidéo surveillance. Dans [31],
STAN (spatio-temporal adversarial networks) un réseau antagonistes génératif GAN (Ge-
nerative Adversarial Networks) est proposé pour relever le dé de la détection d'anomalies
vidéos. Il est constitué de deux sous-réseaux, un générateur composé de couches de convo-
lution, de ConvLSTM [111] et de déconvolution. En plus du générateur le réseau contient
également un discriminateur composé quant à lui de couches de convolution 3D. Les deux
sous réseaux sont entrainés de manière antagoniste, le générateur essaye de produire des
images en se basant sur une séquence, tandis que son adversaire, le discriminateur essaie
de détecter si un échantillon est réel ou bien la production du générateur. Une fois les
deux réseaux entrainés avec les images normales, la détection d'événements anormaux
peut se faire directement par le discriminateur, comme ce dernier a été entraîné unique-
ment à admettre comme réelles des séquences normales (ne contenant pas d'événements
anormaux). La détection peut se faire également en utilisant uniquement le générateur,
en utilisant l'erreur avec laquelle les images sont générées. Cependant, les meilleurs ré-
sultats dans [31] sont obtenus en fusionnant les décisions des deux réseaux. L'auteur de
[109] propose également d'utiliser des GANs pour la détection d'événements anormaux.
Un seuillage de l'erreur de génération des deux GANs est utilisé an de mettre en évi-
dence les régions d'images contenants des événements anormaux. Le premier GAN est
entrainé à générer des représentations de ux optique à partir d'images et le second des

17
Chapitre 1. État de l'art

images à partir de représentations de ux optique. Cependant, l'erreur entre les images
générées et les images réelles n'est pas susante pour obtenir des résultats concluants.
L'auteur utilise alors un CNN préentrainé an d'extraire de nouvelles représentations à
partir des images originelles et des images générées et calcule ensuite l'erreur entre ces
représentations. Cette erreur est nalement combinée à celle du ux optique, qui elle était
initialement exploitable, an de détecter les régions anormales dans les images d'entrée.
[112] propose une méthode nommée AVID (Adversarial Visual Irregularity Detection)
pour détecter et localiser les irrégularités dans les vidéos. Un GAN composé d'un généra-
teur entrainé à eacer les irrégularités des images d'entrée et à les remplacer par les motifs
dominants de ces mêmes images et d'un discriminateur sous forme d'un FCN (fully convo-
lutional network) qui permet de prédire la probabilité des diérentes régions (patchs) des
images d'entrée d'être anormales. Les deux réseaux sont entrainés de manière adversative
et les irrégularités sont simulées grâce à du bruit gaussien. Après la phase d'apprentissage,
chacun des deux réseaux est apte à détecter les irrégularités : le générateur au niveau des
pixels grâce à l'erreur entre les images originelles et celles générées, le générateur a été
entrainé à eacer les irrégularité, de ce fait, quand une image contenant des irrégularités
est introduite, le générateur élimine ces irrégularités et les remplace par d'autres motifs ce
qui aura pour conséquence une erreur de génération plus importante. Le discriminateur,
quant à lui, peut directement prédire la probabilité d'un patch de contenir des irrégulari-
tés. Cependant, dans [112] il a été démontré que la détection est plus précise en croisant
les résultats des deux réseaux. Dans [119] une approche en cascade est proposée pour
la détection des événements anormaux. La première étape de cette approche consiste à
détecter et à extraire le premier plan des diérentes images grâce à un FCN. Des repré-
sentations de ux optique relatives au objets de premier plan sont ensuite extraites. Un
premier réseau peu profond basé sur un autoencodeur variationnel est utilisé an de ltrer
les régions d'images dont la normalité est évidente. Les régions suspectes ainsi que leurs
représentations en terme de ux optique sont ensuite analysées par un second réseau plus
profond. Les deux réseaux sont entrainés à reconstruire non seulement les images (pre-
miers plans des images), mais également les représentations de ux optique. Cela permet,
grâce à un seuillage de l'erreur de reconstruction, d'isoler les anomalies à la fois sur les
images, mais également sur les représentations de ux optique, l'union des deux constitue
la détection nale.

1.3.3 Modèles à classe unique


Les approches de détection d'événements anormaux basées sur les modèles reconstruc-
tifs, prédictifs ou génératifs sont généralement basées sur l'hypothèse qu'un modèle formé
sur des images normales ne sera pas capable de reconstruire, prédire ou générer des images
anormales. Par conséquent, un seuillage de l'erreur de reconstruction, de prédiction ou de
génération est souvent utilisé pour détecter les événements anormaux. Néanmoins dans
le cas des événements vidéo les diérents éléments constitutifs des situations normales
et anormales sont bien souvent similaires et c'est généralement leurs interactions ou le
contexte qui dénissent la normalité ou l'anormalité d'une situation. Les modèles discri-
minatifs [100] peuvent être une alternative moins impactée par ce phénomène. Dans ce
sens, des travaux récents aspirant au développement de réseaux profonds à classe unique

18
1.3. Méthodes basées sur l'apprentissage de représentations

ont été proposés.


[120] propose DOC (Deep One-Class), un réseau de neurones convolutifs entrainable
de bout en bout, en utilisant uniquement des exemples d'apprentissage provenant d'une
seule classe (la classe cible). Le réseau est obtenu en remplaçant le softmax habituellement
utilisé dans les CNNs par un OC-SVM. Concrètement, après l'introduction des données
d'entrée dans le réseau, les couches standards du CNN extraient des représentations re-
latives à ces données et la dernière couche (le OC-SVM) se charge de dénir l'hyperplan
qui peut séparer ces représentations de l'origine avec une marge maximale. Le réseau
utilisé est constitué de deux couches de convolution 2D, deux couches de pooling, d'une
couche entièrement connectée (fully connected) et d'une dernière couche pour intégrer le
OC-SVM. Les auteurs dénissent une fonction objective qui permet l'entrainement non
seulement de la couche OC-SVM, mais également de la totalité des couches entrainables
du réseau. De cette manière le réseau est optimisé an d'extraire des représentations com-
pactes et dénir l'hyperplan adéquat pour isoler les représentations des données de la
classe cible.
D'autres travaux portants sur des réseaux de neurones à classe unique ont été pro-
posés pour la détection d'anomalies [121, 122, 123, 32], ces travaux nécessitent très peu
d'adaptation pour être exploitables dans le contexte de la détection d'événements vidéo
anormaux. Dans [121] un réseau de neurones entièrement connectés est proposé pour la
détection d'anomalies. Le réseau se compose d'une seule couche entièrement connectée
prenant comme entrée un vecteur de données et renvoyant comme sortie un scalaire. Le
réseau est entrainé grâce à une fonction objective inspiré du OC-SVM. Le réseau n'est
pas utilisé avec des données brutes, mais avec des représentations extraites grâce à un
autoencodeur. Il exploite et redénie ces représentations an de les optimiser pour créer
une frontière ajustée (hyperplan) permettant d'isoler les données normales des anomalies.
Dans la même optique, [122] propose quant à lui d'exploiter le SVDD (Support Vector
Data Description) dans un réseau de neurones. Le SVDD est semblable au OC-SVM dans
le sens où il est utilisé pour créer une frontière optimale an d'isoler les représentations
de la classe cible et de les dissocier des outliers. L'objectif du SVDD est de dénir l'hy-
persphère la plus compacte capable d'englober la majorité des représentations de la classe
cible. Pour pouvoir tirer avantage du SVDD et de l'apprentissage profond, les auteurs
de [122] introduisent le Deep SVDD, une méthode d'apprentissage à classe unique qui
permet d'entrainer un réseau de neurones à extraire des représentations robustes tout en
optimisant la compacité de l'hypersphère englobant ces représentations.
Pour répondre ecacement au chalenge que représente l'apprentissage profond en
classe unique, [123] propose quant à lui d'exploiter le transfert d'apprentissage. Pour
y parvenir, une méthode d'adaptation des réseaux préentrainés à l'apprentissage en classe
unique est proposée. Les auteurs soulignent deux aspects importants que des représenta-
tions extraites par un réseau profond doivent impérativement intégrer : la compacité et la
descriptivité. La compacité an d'assurer notamment que des images d'une même classe
soit décrites par des représentations similaires, de telle sorte que ces représentations soit
positionnées de façon compacte dans l'espace de caractéristiques. La descriptivité quant
à elle est essentielle an d'obtenir pour des images de classes diérentes des représenta-
tions éloignés dans l'espace de caractéristiques. Ces deux aspect peuvent considérablement
contribuer à réduire la distance intra-classe et augmenter la distance inter-classe. Pour ga-

19
Chapitre 1. État de l'art

rantir ces deux aspects, les auteurs proposent une architecture à deux réseaux : un réseau
référence R et un réseau secondaire S. Ils proposent également d'utiliser deux fonctions
de perte ; une perte de compacité (compactness loss) intégrée à la sortie du réseau S et
une perte de descriptivité (descriptiveness loss) intégrée à la sortie du réseau R . Les
deux réseaux sont en parallèle et partagent continuellement les mêmes poids. Il est im-
portant de faire remarquer que l'entrainement de cette architecture nécessite deux bases
de données distinctes, une première base cible (target dataset) contenant une seule classe
(la classe cible) et une seconde base référence (reference dataset) contenant quand à elle
plusieurs classes d'images. Les images ainsi que les classes de la base référence ne doivent
pas impérativement être en relation avec la première. Durant la phase d'apprentissage
deux batchs d'images, provenant chacun du dataset de référence et du dataset cible, sont
introduits simultanément dans les couches d'entrée du réseau de référence et du réseau
secondaire, respectivement. À la n du forward, le réseau de référence génère une perte de
descriptivité et le réseau secondaire génère une perte de compacité. Ces deux pertes sont
additionnées et utilisées an de mettre à jour les poids des deux réseaux. Après la phase
d'apprentissage, deux réseaux identiques capables de fournir à la fois des représentations
descriptives et compactes sont obtenus. Ces réseaux peuvent ensuite être combinés avec
un classieur One-Class an de dissocier les éléments d'une classe cible des outliers.
La détection d'anomalies est caractérisée par des bases de données contenant uni-
quement des échantillons d'apprentissage de la classe négative. Une approche existante
propose de générer des données pour représenter également la classe positive (les outliers).
[32] introduit une architecture composé d'un réseau extracteur de caractéristiques et d'un
réseau classieur. L'extracteur de caractéristiques est un CNN préentrainé utilisé pour
extraire des représentations à partir des images de la classe cible. Le classieur est quant
à lui un réseau neuronal entièrement connecté, en charge de classier les représentations
en deux classes distinctes (classe positive et classe négative). Étant donné l'indisponibilité
des échantillons d'apprentissage relatifs à la classe positive, les auteurs proposent une gé-
nération articielle de données intégrée dans le réseau pour remplacer les représentations
de la classe positive.

1.4 Conclusion
Une méthode de détection d'événements vidéos anormaux se compose généralement de
deux étapes essentielles : la première consiste en l'extraction de représentations descrip-
tives des événements de la scène. La seconde étape intervient une fois les représentations
obtenues et permet la détection des anomalies à travers notamment leurs classications.
Dans la littérature deux stratégies fondamentalement diérentes sont proposées. La pre-
mière est basée sur le modèle standard de reconnaissance de forme et repose sur une ex-
traction ciblée de caractéristiques. Tandis qu'une deuxième approche plus récente, portée
par l'avènement de l'apprentissage profond, se focalise sur l'apprentissage des représen-
tations pour décrire les événements. Dans ce chapitre, nous avons donné un aperçu des
principales approches découlant de chacune de ces deux stratégies. Nous avons discuté un
large éventail de travaux tout en mettant l'accent sur les plus prometteurs. Nous avons pris
en considération non seulement la cohérence théorique, mais également les perspectives

20
1.4. Conclusion

d'évolution et des possibilités concrètes d'intégration de ces méthodes dans les système
intelligents de surveillance. Nous nous sommes eorcés à argumenter les avantages et
contraintes rattachés aux diérentes approches listées pour mettre en évidence les pistes
de recherche les plus à mêmes de fournir des résultats concrets.

21
Chapitre 1. État de l'art

22
2
Transfert d'apprentissage

2.1 Introduction
Récemment, les réseaux profonds de neurones convolutifs ont refait surface en tant
qu'outil puissant d'apprentissage et particulièrement adapté aux grandes masses de don-
nées. Les réseaux de neurones ont démontré leur supériorité par rapport au méthodes
standards, basées essentiellement sur une extraction ciblée de caractéristiques, en amé-
liorant les résultats établis dans de nombreuses tâches de reconnaissance de formes telles
que la classication d'objets [82], la détection et localisation d'objets [89], la classication
de vidéos [124], la segmentation [125], etc.

Les réseaux profonds de neurones sont non seulement en mesure d'obtenir des résul-
tats positifs et satisfaisants dans de nombreuses tâches d'apprentissage pour lesquelles ils
ont été formés, mais également fournir des représentations génériques exploitables dans
diverses tâches de reconnaissance de formes. Des travaux ont exploité cette capacité de
généralisation en utilisant des réseaux entrainés à la classication d'objets sur de grande
bases de données comme ImageNet [84] pour accomplir d'autres tâches de reconnaissance
ou les données d'entrainement sont moins disponibles [88, 126]. Il a été notamment dé-
montré que des représentations extraites à l'aide d'un CNN entrainé uniquement pour la
classication d'objet, pouvait être exploitées au moyen de classieurs standards tel que le
SVM dans diérentes tâches autres que la classication d'objets [88, 127, 128]. Encoura-
gés par ces conclusions on propose dans ce chapitre d'étudier le transfert d'apprentissage
dans le contexte de la détection d'événements anormaux. Dans ce sens on propose deux
méthodes basées sur des CNNs préentrainés, la première consiste en la combinaison d'un
FCN 2D (fully convolutional network) et d'un OC-SVM. La deuxième quant à elle est
basée sur la combinaison d'un FCN 3D résiduel et d'une nouvelle méthode de classi-
cation exploitant la distance de Mahalanobis. Dans le contexte des réseaux de neurones
convolutifs, l'utilisation d'un réseau préalablement entrainé à résoudre une tâche donné
dans une nouvelle tâche d'apprentissage, sans être forcément en relation avec la première,
est communément désigné par "transfert d'apprentissage". Cette appellation sera adoptée
dans ce chapitre et le reste du manuscrit.

Le reste du chapitre est organisé comme suit : dans la section 2.2, nous allons tout
d'abord débuter par un rappel sur le fonctionnement des deux principales techniques uti-

23
Chapitre 2. Transfert d'apprentissage

lisées dans notre méthode, à savoir le FCN (Fully Convolutional Network) et le OC-SVM
(One-Class SVM). Nous allons ensuite présenter notre première méthode et détailler ses
diérentes étapes, avant de clôturer cette section avec des résultats comparatifs. La sec-
tion suivante est quant à elle relative à la deuxième méthode. Dans un premier temps
nous allons présenter les réseaux entièrement convolutifs 3D résiduels. Nous allons en-
suite décrire en détails notre méthode avant de présenter également quelques résultats
expérimentaux ainsi qu'un comparatif avec les méthodes de l'état de l'art. La troisième
et dernière section permettra de conclure ce chapitre.

2.2 Réseau entièrement convolutif pour la détection et


la localisation d'événements anormaux
2.2.1 Réseau entièrement convolutif FCN (Fully Convolutional
Network)
Les réseaux de neurones convolutifs sont généralement constitués de deux blocs [123],
un bloc d'extraction de caractéristiques composé essentiellement de couches de convolu-
tion, de fonctions d'activations et de couches de pooling et d'un bloc de classication
composé quant à lui principalement de couches entièrement connectées suivi d'une fonc-
tion softmax, gure 2.1. Le premier bloc est utilisé an d'extraire de multiples niveaux
de représentation décrivant l'image d'entrée, ces représentations sont obtenues grâce à un
traitement hiérarchique faisant intervenir diérentes couches. Les couches de convolution
extraient de l'image d'entrée des représentations à travers plusieurs noyaux de convolution
qui permettent d'obtenir diérentes cartes de caractéristiques (features maps). Des fonc-
tions d'activation sont généralement appliquées à la sortie des couches de convolutions an
d'induire des non-linéarités, primordiales pour l'apprentissage des caractéristiques non li-
néaires communes dans les images naturelles. Interviennent ensuite les couches de pooling
pour réduire les dimensions des cartes de caractéristiques et instaurer une invariance aux
décalages et aux distorsions. Ce processus est répété à plusieurs reprises an d'obtenir
en sortie des représentations robustes et descriptives de l'image d'entrée. Ces représenta-
tions sont ensuite traitées par les couches entièrement connectées, contenues dans le bloc
de classication, an d'obtenir une description globale de l'image d'entrée et pouvoir lui
assigner une probabilité de classication. Dans une couche entièrement connectée chaque
neurone est relié à toutes les sorties (les neurones) de la couche précédente, gure 2.2, ce
qui permet d'obtenir un raisonnement global de haut niveau.
Utiliser l'architecture du CNN dans sa totalité équivaut à obtenir pour chaque image
d'entrée un vecteur de caractéristiques représentant la globalité de l'image. Dans le contexte
de la détection d'événement anormaux, procéder de telle manière permettrait de poten-
tiellement détecter les images anormales à travers la classication de leur vecteurs de
caractéristiques, mais ne permettrait pas de localiser l'anomalie à l'intérieur de l'image.
En eet les couches entièrement connectées altèrent les relations spatiales du fait de leurs
connexions à la totalité des neurones de la couches précédentes, gure 2.2. Cependant,
le FCN (Fully convolutional network) une architecture dérivée du CNN et dépourvue de

24
2.2. Réseau entièrement convolutif pour la détection et la localisation d'événements anormaux

couches entièrement connecté peut être exploité an d'obtenir des cartes de caractéris-
tiques qui conservent les relations spatiales avec l'images d'entrée.
Le FCN est un réseau largement exploité dans des tâches telles que la segmentation
[125], nécessitant non seulement d'extraire des informations robustes à partir de l'image
d'entrée, mais également préserver les relations spatiales entre les représentations et les dif-
férentes régions de l'image. En eet, les couches de bases constituant le FCN (convolution,
pooling et fonction d'activation) agissent sur des régions d'entrée locales et ne dépendent
que de coordonnées spatiales relatives. Concrètement pour chaque image d'entrée de taille
h × w × d, où h et w sont la largeur et la longueur de l'image et d le nombre de canaux,
le FCN renvoie des carte de caractéristiques sous forme d'un volume de taille h́ × ẃ × d´
où h́ et ẃ sont la largeur et la longueur des cartes de caractéristiques et d´ leur nombre.
Dans ce volume, chaque vecteur est relatif à une région de l'image d'entrée communé-
ment appelée champ récepteur (réceptive eld). Cette particularité du FCN peut s'avérer
particulièrement utile pour la localisation des anomalies à l'intérieur de l'image. Concrè-
tement, détecter parmi les vecteurs de caractéristiques les valeurs aberrantes (outliers),
permettrait d'isoler les régions d'images contenant des anomalies.

Figure 2.1  Architecture standard d'un réseau de neurones convolutifs (CNN) destiné
à la classication d'images.

2.2.2 One class SVM


Le OC-SVM (One Class SVM) est une extension du SVM aux problèmes à classe
unique [72]. Largement exploité pour la détection d'anomalies, le OC-SVM permet d'ap-
prendre un hyperplan pour séparer les données de la classe cible de l'origine dans un espace
de Hilbert à noyau reproduisant RKHS (Reproducing Kernel Hilbert Space). L'objectif du
SVM n'est pas seulement de trouver l'hyperplan séparateur, mais également maximiser
la distance entre l'hyperplan et l'origine de l'espace, gure 2.3. La projection des données
vers le RKHS se fait à travers des fonctions noyaux qui permettent de transformer les pro-

25
Chapitre 2. Transfert d'apprentissage

Figure 2.2  Couche entièrement connectée (fully connected layer).

Figure 2.3  SVM à classe unique.

blèmes non linéaires en problèmes linéaires. Le RKHS où sont projetées les données est
souvent désigné dans le context du SVM par espace de caractéristiques et les projections
sont quant à elles nommées vecteurs de caractéristiques (features vectors).

Objectif d'optimisation du OC-SVM

Étant donné un ensemble de données d'entrainement appartenant à la classe cible


X ={xi : i = 1, ..., n}, xi ∈ Rd etΦ : X → H une fonction de projection de l'espace
de données vers l'espace de caractéristiques H , l'objectif du OC-SVM est d'isoler les
ρ
projections de données avec un hyperplan de décision dont la distance à l'origine
kwk
est maximale. Maximiser cette distance équivaut à minimiser kwk et −ρ. L'objectif du
OC-SVM peut alors être formulé sous la forme d'un problème d'optimisation contraint :

26
2.2. Réseau entièrement convolutif pour la détection et la localisation d'événements anormaux

n
1 1 X
min kwk2 − ρ + ξi , (2.1)
w,ρ,ξ 2 νn i=1
sous les contraintes hw, Φ(xi )i ≥ ρ − ξi , ξi ≥ 0.
où les xi sont les échantillons d'entrainement et les ξi des variables de relâchement des
contraintes, introduites pour permettre une souplesse dans le problème d'optimisation,
1
k · k est la norme euclidienne et h, i le produit scalaire. L'expression νn est introduite pour
gérer le compromis entre maximisation de la distance de l'hyperplan de l'origine et mini-
misation des erreurs. Tel que n est le nombre d'échantillons d'entrainement et ν ∈ [0, 1]
un paramètre spécique au OC-SVM, il dénit une limite supérieure du ratio des va-
leurs aberrantes ainsi qu'une limite inférieure du nombre d'échantillons d'entraînement
utilisés comme vecteurs de support. Compte tenu de l'importance de ce paramètre, le
OC-SVM est souvent mentionnée dans la littérature par l'expression ν -SVM. L'équation
hw, Φ(xi )i − ρ = 0 dénit l'hyperplan de décision, telle que w est la normale à cet hyper-
plan et ρ est un biais. La fonction de projection Φ permet de résoudre un problème de
classication non linéaire en construisant un classieur linéaire dans l'espace de caracté-
ristique H . Le noyau K(xi , xj ) associé à l'espace H est le produit scalaire entre les images
Φ(xi ) et Φ(xj ). En appliquant la méthode des multiplicateurs de Lagrange le problème
dual du OC-SVM s'exprime :

n n
1 XX
min αi αj K(xi , xj ), (2.2)
α 2 i=1 j=1
n
1 X
sous les contraintes 0 ≤ αi ≤ , αi = 1.
νn i=1
où les coecients αi sont les multiplicateurs de Lagrange et K(xi , xj ) = hΦ(xi ), Φ(xj )i.
En introduisant ces multiplicateurs la fonction de décision est dénit comme suit :
n
X
f (x) = sgn αi K(xi , x) − ρ (2.3)
i=1

Quand f (x) = 1, l'échantillon x est classé comme normal et dans le cas contraire il est
considéré comme anormal (outlier).

Kernel functions

Dans le cas des problèmes de classication simples à faible dimension, les données des
diérentes classes peuvent être dissociées en utilisant des séparateurs linéaires (ex : ligne
droite ou un plan). Cependant, de nombreux problèmes de classication ne sont pas sépa-
rables linéairement. Pour ce type de problèmes, une solution est d'utiliser une fonction à
noyau an de projeter les données du problème vers un espace de dimension supérieur où
une solution linéaire existerait. Parmi les fonctions à noyaux les plus couramment utilisées
dans le contexte de l'apprentissage statistique :

27
Chapitre 2. Transfert d'apprentissage

 Noyau linéaire : K(x, y) = x · y


Le noyau linéaire est la fonction à noyau la plus simple, elle est donnée par le pro-
duit scalaire usuel. Les algorithmes utilisant cette fonction sont souvent équivalents
à leurs homologues sans noyaux.

 Noyau polynomial : K(x, y) = (x · y + 1)p


Ce noyau permet de transformer des algorithmes linéaires en algorithmes polyno-
miaux. Il permet d'examiner non seulement les caractéristiques des échantillons
d'entrée pour déterminer leur similarité, mais également les combinaisons de ces
caractéristiques.

2
 Noyau Gaussien RBF : K(x, y) = exp(− kx−yk
2σ 2
)
La fonction à base radiale RBF (radial basis function) permet d'appliquer une
échelle gaussienne sur la distance entre les échantillons d'apprentissage, ce qui en-
gendre un espace de projection de dimension innie.

 Noyau Sigmoïde : K(x, y) = tanh(γ · x · y + 1)


Le noyau sigmoïde aussi appelé noyau tangente hyperbolique est issu des réseau de
neurones où la fonction sigmoïde est souvent utilisée comme fonction d'activation.

2.2.3 Méthode proposée


La détection d'événements anormaux dans les vidéos nécessite d'obtenir des représen-
tations robustes descriptives des formes et des mouvements contenus dans les séquences
d'images. An d'obtenir de telles représentations nous proposons d'utiliser un FCN pré-
entrainé pour modéliser des séquences de frames et les représenter par des vecteurs de
caractéristiques spatiotemporelles. Pour chaque image It on dénit un volume vidéo 3D
X = {It , It−1 , It−2 }, constitué de trois frames en niveau de gris et consécutives dans l'axe
temporelle. On choisit d'utiliser des images en niveau de gris an d'éviter la complexité
que peuvent engendrer des caractéristiques couleurs dans la représentation des événe-
ments. L'impact négatif que peuvent avoir des caractéristiques couleurs dans le contexte
de la détection d'événements vidéo anormaux peut être illustré à l'aide d'un exemple :
imaginons une scène ou la présence d'une personne avec une couleur de vêtements à do-
minante rouge représente l'événement normal de la scènes et durant la phase de détection
la même personne habillée en bleu (ou tout autre couleur diérente du rouge). Dans le cas
où des caractéristiques couleurs serait utilisées pour modéliser le comportement normal de
la scène, une diérence signicative entre les deux événements pourrait être détectée, or
les deux événements sont sémantiquement les mêmes. Dans ce cas, la détection provoquée
par les caractéristiques couleurs serait erronée. On peut toutefois rencontrer des situations
ou la couleur joue un rôle important dans les événements à détecter, dans ce cas précis
des images couleurs peuvent être utilisées.
Une fois les volumes vidéo construits, nous les utilisons comme donnée d'entrée de notre
réseau FCN. Ainsi, pour chaque volume X nous obtenons une carte de caractéristique
F = {fi : i = 1, ..., w × h}, F ∈ Rw×h×d et f ∈ Rd (w × h × d sont respectivement la
largeur, la hauteur et la profondeur de la carte de caractéristique). Chaque vecteur fi

28
2.2. Réseau entièrement convolutif pour la détection et la localisation d'événements anormaux

de la carte de caractéristique est connecté à un champ récepteur du volume d'entrée. En


d'autres termes, pour chaque région de l'image It , un vecteur de caractéristique lui est as-
signé, ce vecteur décrit non seulement les formes contenues dans cette région d'image mais
également leurs évolutions temporelles dans la séquence {It , It−1 , It−2 }. Une fois les vec-
teurs représentatifs des diérentes régions de l'image obtenus nous utilisons un OC-SVM
an de les classer et détecter les événements anormaux.

Extraction de représentations

Figure 2.4  Architecture du réseau de neurones convolutifs VGG16 [19].


Il a été démontré qu'un CNN préentrainé sur de grandes bases de données peut fournir
des caractéristiques descriptives, génériques et exploitables dans de nombreuses tâches de
reconnaissance de forme, on se propose donc d'exploiter VGG [19], un réseau préentrainé
sur ImageNet [84], an d'extraire des représentations robustes. VGG (Visual Geometry
Group) est un réseau de neurones convolutifs initialement proposé pour la classication
d'images. Il a obtenu la première place de la compétition ILSVRC-2014 (Large Scale
Visual Recognition Challenge), en utilisant un réseau unique, avec une erreur de 7%. Le
réseau se compose de 16 couches entrainables (13 couches de convolution et 3 couches
entièrement connectées) pour un nombre total de paramètres entrainables ≈ 138 millions.
La gure 2.4 représente l'architecture du réseau.
Pour chaque image d'entrée le réseau VGG fournit un vecteur de caractéristiques repré-
sentatif de l'image, cette architecture est particulièrement adaptée pour de la classication
d'images mais ne convient pas à des applications qui nécessitent d'obtenir des informations
relatives au contenus des diérentes régions de l'images telle que la localisation d'événe-
ments anormaux. Une solution répandue dans la littérature est de remplacer les couches
entièrement connectées par des couches de convolution an d'obtenir un réseau entière-
ment convolutif qui conserve les relations spatiales [125]. Cependant, cette solution n'est
pas envisageable dans notre cas, compte tenu du fait que durant la phase d'apprentissage
nous utilisons uniquement les images normales, il nous serait donc impossible d'entrainer

29
Chapitre 2. Transfert d'apprentissage

ces couches additionnelles. Nous choisissons alors de simplement supprimer le bloc de


classication du réseau, constitué principalement de couches entièrement connectées, ce
qui nous permet d'obtenir un FCN préentrainé. Procéder de cette manière permet non
seulement de conserver les relations spatiales entre l'image d'entrée et les représentations
de sortie, mais permet également de réduire la complexité calculatoire du réseau. En eet
il a été démontré que les traitements de données eectués par les couches entièrement
connectées nécessitent plus de temps de calcul en comparaison aux autres couches [127],
ce qui est parfaitement cohérent en prenant en considération que dans le cas de VGG, les
trois couches entièrement connectées ont ≈ 123 millions de paramètres ce qui représente
approximativement 90% du nombre total de paramètres.
Après la suppression des couches entièrement connectées, le FCN obtenu se compose
de 5 blocs contenant chacun plusieurs couches de convolution et de pooling, théoriquement
chacune de ces couches peut être exploitée an d'extraire des cartes de caractéristiques.
Utiliser intuitivement la dernière couche de convolution n'est pas forcément le meilleur
choix compte tenu des aspects suivants :

 Les couches profondes des CNN sont réputées fournir des représentations plus dis-
criminatives. Cependant, il a été démontré que les représentations apprises dans les
couches profondes deviennent de plus en plus spéciques à la tâche pour laquelle
le réseau a été initialement formé [88]. Or le réseau VGG a été entrainé pour de la
classication d'objet, les couches profondes sont donc spéciques pour cette tâche
en particulier ce qui rend leurs représentations potentiellement moins génériques
et donc moins adaptées pour une tâche sémantiquement diérente telle que la dé-
tection d'événements anormaux.

 Plus une couche est profonde dans un CNN et plus la taille des champs récepteurs
(receptive elds) de ses neurones es importante. Concrètement cela veut dire que
la région décrite par chaque vecteur de caractéristique est d'autant plus grande
que la couche est profonde. Compte tenu du fait que la détection d'événements
anormaux se fait sur des images de scènes surpeuplées cela peut avoir un impact
considérable sur la représentativité des vecteurs de caractéristiques.
An de sélectionner la couche la plus adaptée, pour extraire des représentations robustes
et descriptives des images d'entrée, tout en prenant en compte les aspect mentionnés ci
dessus, on propose d'expérimenter notre méthode de détection et de localisation d'événe-
ments anormaux, en utilisant les représentations fournies par diérentes couches. Cette
procédure sera détaillée dans la section suivante.

Détection des anomalies

An d'exploiter au mieux les représentations spatiotemporelles fournies par le réseau


FCN, on propose d'utiliser un OC-SVM avec un noyau gaussien pour classier les vec-
teurs de caractéristiques. La taille des vecteurs de caractéristiques extraits à partir d'une
couche de convolution dépend du nombre de ltres de la dite couche, ce nombre est de
512 dans le cas des couches les plus profondes de notre FCN, gure 2.4. Exploiter un OC-
SVM avec des vecteurs de telle dimension peut se révéler particulièrement chronophage.

30
2.2. Réseau entièrement convolutif pour la détection et la localisation d'événements anormaux

On propose donc d'appliquer à ces vecteurs de caractéristiques l'analyse en composantes


principales ACP [129, 130] an de réduire leurs dimensions et obtenir des représentations
plus compactes. L'analyse en composantes principales est une technique de transforma-
tion linéaire non supervisée largement utilisée pour la réduction de dimensionnalité. Elle
permet notamment d'isoler et réduire la corrélation entre variables, de réduire la redon-
dance d'information et de concentrer l'information sur un nombre réduit de variables.
L'ACP est directement exploitable dans l'extraction et la sélection de caractéristiques,
elle permet de trouver les directions de variance maximale an de projeter les vecteurs
de caractéristiques dans un nouvel espace avec des dimensions inférieur ou égal à l'es-
pace originel tout en gardant un maximum d'information. Soit un ensemble de vecteur
d
de caractéristiques X = {xi : i = 1, ..., N }, x ∈ R l'objectif de l'ACP est de représen-
d
ter X dans un sous-espace de caractéristiques Fk de R de dimension k ≤ d, tout en
limitant la perte d'information. En d'autres termes, l'ACP permet de trouver k nouvelles
caractéristiques, combinaisons linéaires des d originelles en gardant un maximum d'infor-
mation. Les détails théoriques de cette technique peuvent être trouvés dans [129, 130].
Les couches du réseau FCN sont préentrainées pour l'extraction de représentations adap-
tées à la classication d'images couleurs. Cela engendre des représentations robustes et
représentatives qui intègrent diérentes caractéristiques visuelles. La majorité de ces ca-
ractéristiques sont susamment génériques pour être exploitées dans le contexte de la
détection d'événements anormaux. Cependant, parmi ces caractéristiques sont également
présents des descripteurs spéciques à la classication d'objets, moins pertinents pour la
représentation d'événements vidéos, les descripteurs relatifs à la couleur en sont un par-
fait exemple. L'utilisation de l' ACP sur les vecteurs de caractéristiques extraits par notre
FCN, permet donc de non seulement réduire leur dimensions, mais également de ltrer
les caractéristiques les moins pertinentes an d'obtenir des représentations compactes et
robustes adaptées à notre tâche.
L'algorithme 1 détaille l'application de notre méthode pour la détection d'événements
anormaux. Il se compose de deux phases, une phase d'apprentissage et une phase de dé-
tection. La phase d'apprentissage commence par l'assignation d'un volume vidéo pour
chaque image de la base de données d'entrainement. Le FCN est ensuite utilisé an d'ex-
traire des vecteurs de caractéristiques à partir de chaque volume vidéo. Les vecteurs de
caractéristiques sont ensuite transformés grâce à l'ACP en représentations compactes. Une
fois les vecteurs de tous les volumes vidéo d'entrainement extraits et transformés, ils sont
utilisés pour entrainer un OC-SVM. À la n de la phase d'apprentissage on obtient un
modèle décrivant la globalité des comportements normaux de la scène. Il est important de
noter que durant la phase d'apprentissage uniquement les images normales sont utilisées.
Durant la phase de détection, on applique pour chaque image la même procédure d'assi-
gnation de volumes, d'extraction de caractéristiques et de transformation avec l'ACP que
durant la phase d'apprentissage. Une fois les représentations du volume obtenu, on utilise
le modèle dénit précédemment an d'assigner un label à chaque représentation, "1" si la
représentation respect le modèle des comportement normaux et "-1" si la représentation
est un outlier. Chaque vecteur de caractéristiques étant connecté à une région de l'image,
une région est donc détectée anormale si son vecteur de caractéristiques a été étiqueté à
"-1".

31
Chapitre 2. Transfert d'apprentissage

Figure 2.5  Connexions des neurones aux champs récepteurs.

La région de l'image connectée à un vecteur de caractéristiques en sortie d'une couche


de convolution, peut être retrouvée en inversant l'eet spatial de la convolution. Supposons
Pk une région de taille Hk ×Wk dans la carte de caractéristiques Fk résultante de la couche
de convolution Ck . P k est connecté à une autre région Pk−1 de taille Hk−1 × Wk−1 dans
la carte de caractéristiques Fk−1 , gure 2.5. La relation entre Pk et Pk−1 est donnée par
l'équation :

Hk−1 =(Hk − 1) × stride(Ck ) + Kernel(Ck ) (2.4)

De même pour Wk−1 .

où Kernel est la taille du ltre de convolution de la couche Ck et stride(Ck ) est le pas


de déplacement du ltre de convolution.

2.2.4 Résultats expérimentaux


Notre méthode a été implémentée en python, pour la partie apprentissage profond nous
avons utilisé la bibliothèque Tensorow [131]. An de l'évaluer, on a utilisé la base de don-
nées UCSD Ped2 [132], elle contient 16 dossiers d'entrainement avec un total d'images de
2550 et 12 dossiers de test pour un total de 2010 images. Les images d'entrainement sont
relatives à la surveillance de scènes fréquentées uniquement par des piétons. Les images
de test ont été enregistrées dans les mêmes scènes, en plus des piétons les images de tests
contiennent des événements anormaux relatifs à la présence d'individus non piétons uti-
lisant des objets tels que des vélos, des voitures et des skatebords. Les diérents dossiers
contiennent des événements anormaux qui varient selon le nombre, le type, l'espace occupé
et la durée. La base ore un étiquetage des images de test au niveau de l'image ainsi qu'au
niveau du pixel an de permettre l'évaluation des diérents algorithmes, non seulement
pour la détection des événements anormaux mais également pour la localisation de ces
événements. La scène surveillée est caractérisée par de forts changements de la densité de
foule et par de nombreuses occlusions. Les conditions de luminosité et de contraste sont
évolutives d'une image à une autre que ce soit dans les dossiers d'entrainement que de

32
2.2. Réseau entièrement convolutif pour la détection et la localisation d'événements anormaux

Algorithme 1 : Modélisation des événements normaux et détection des événe-


ments anormaux
Extraction de représentations et entrainement du OC-SVM ;
Features_Train=[ ];
for Pour chaque nouvelle image It do
X= [It ; It−1 ; It−2 ];
F= FCN (X);
F_ACP= ACP(F);
Features_Train= [Features_Train ; X_ACP];
end
Model-SVM= SVM(Features_Train);
Détection des événements anormaux;
for Pour chaque nouvelle image It do
X= [It ; It−1 ; It−2 ];
F= FCN (X);
Features_Test= ACP(F);
for i=1 :N do // N: est le nombre de vecteurs de caractéristiques
Label=Prediction_SVM( Model-SVM, Features_Test(i));
if Label == -1 then
P atchi est anormal;
end

end

end

test. La résolution des images est de 320 × 240 ce qui est considérée comme une résolution
basse. Ces diérentes spécicités font de cette base de données une base complexe reétant
de nombreuses dicultés parmi celles rencontrées dans les cas réels de surveillance vidéo.
Dans cette base de données, la qualité des images ainsi que les occlusions compliquent
considérablement la tâche de détection de certains événements anormaux telle que la pré-
sence de skateboards. En eet, vu la taille des skateboards et la résolution des images, il
est très dicile voire impossible de détecter de tels événements anormaux sans recourir à
des descripteurs de mouvement.

An d'obtenir des résultats quantitatifs et comparer notre méthode avec les méthodes
de l'état de l'art, nous utilisons trois critères : la courbe ROC (Receiver Operating Cha-
racteristic), le taux d'erreur égale EER (Equal Error Rate) et l'aire sous la courbe AUC
(Area Under Curve). Le EER ainsi que l'AUC sont tout deux obtenus grâce à la courbe
ROC (Receiver Operating Characteristic) [133, 134]. Cette courbe illustre le taux de vrais
positifs TPR (True Positive Rate), équation 2.5, en fonction du taux de faux positifs FPR
(False Positive Rate), équation 2.6, pour diérentes valeurs des paramètres du classieur.
Dans notre cas ces paramètres se résument dans le seuil appliqué au score de classication

33
Chapitre 2. Transfert d'apprentissage

du SVM pour distinguer entre les éléments normaux et anormaux.

TP
TPR = (2.5)
TP + FN

FP
FPR = (2.6)
FP + TN
tel que :
 TP (True Positives) : représente le nombre de frames anormales détectées par le
système.
 TN (True Negatives) : représente le nombre de frames normales non détectées par
le système.
 FP (False Positives) : représente le nombre de frames normales détectées par le
système (Nombre de fausses alarmes).
 FN(False Negatives) : représente le nombre de frames anormales non détectées par
le système (Nombre de manques de détection).

L'EER correspond au taux d'erreur obtenu lorsque le taux de faux positifs (FPR) est égale
au taux de faux négatifs (FNR). Le taux de faux négatif n'est pas directement accessible
depuis la courbe ROC, mais étant donné que le FNR = 1−TPR, le EER est le point de
la courbe vériant l'équation suivante :

FPR = 1 − TPR (2.7)

L'AUC (Area Under Curve), comme son nom l'indique, correspond à l'aire sous la courbe
ROC.
On utilise ces trois critères d'évaluation (courbe ROC, EER, AUC) à la fois au niveau
de la frame FL (Frame Level) ainsi qu'on niveau du pixel (Pixel Level) [135]. Au niveau
de la frame, une image est étiquetée anormale par notre algorithme si au moins un de
ses pixels est détecté comme anormal. Le EERFL est utilisé an d'évaluer la capacité de
notre méthode à détecter les événements anormaux. Au niveau du pixel, une frame est
étiquetée anormale si au moins 40% de ses pixels anormaux sont détectés. Le ERRPL
est quant à lui utilisé pour évaluer la capacité de la méthode à localiser les anomalies à
l'intérieur des images.
An de tester notre méthode, les images sont extraites des vidéos brutes et redimen-
sionnées pour avoir une taille de 224, taille équivalente à l'entrée du VGG originel. On
soustrait ensuite à chaque image du même dossier l'image obtenue en moyennant toutes
les images du dit dossier. Pour les images de test, on leur soustrait les image moyennes
obtenus durant la phase d'entrainement an de respecter les conditions réelles des système
de surveillance. En eet, durant la phase de détection d'un système de vidéo surveillance
intelligent, les images arrivent de manière séquentielle, on ne peut donc pas calculer la
moyenne de toute les images.
Comme mentionné précédemment, notre FCN possède plusieurs couches potentielle-
ment utilisables pour l'extraction de vecteurs de caractéristiques. Chacune de ces couches

34
2.2. Réseau entièrement convolutif pour la détection et la localisation d'événements anormaux

Table 2.1  ErrFL et ErrPL pour diérentes couches du FCN.


Carte de Nombre de Taille du
Couche ErrFL ErrPL
caractéristiques ltres champ récepteur
Bloc3_Pool 28 × 28 256 44 14,2 31
Bloc4_Conv1 28 × 28 512 60 15,1 31,3
Bloc4_Conv2 28 × 28 512 76 18 33,7

est caractérisée par un nombre de ltres et par une taille de champ récepteur. An de
sélectionner la couche la plus pertinente pour notre application on propose d'évaluer notre
méthode en terme de taux d'erreur sur la base de donnée UCSD Ped2 en utilisant dié-
rentes couches. Le taux d'erreur est donné par l'équation suivante :

FP + FN
Err = (2.8)
NF
où NF est le nombre total de frames.

Les blocs 1, 2 et 3 fournissent respectivement des cartes de caractéristiques de di-


mensions 224 × 224 × 64, 112 × 112 × 128 et 56 × 56 × 256. Le nombre de vecteurs de
caractéristiques renvoyés par les couches de ces trois blocs sont donc respectivement 50176,
12544 et 3136 pour chaque image de taille 224. On estime que le rapport nombre de vec-
teurs de caractéristiques par image est trop important dans ces couches pour permettre de
respecter les contraintes de complexité calculatoire imposées à des applications de vidéo
surveillance intelligentes. On focalise donc notre procédure d'évaluation sur les couches
restantes. Dans ces dernières le nombre de vecteurs de caractéristiques peut atteindre 784
vecteurs par images, or dans la base de donnée UCSD Ped2 le nombre d'images d'en-
trainement par dossier est en moyenne de 167, ce qui engendre un nombre de vecteurs
de 130928. En prenant en considération le fait que les vidéos de surveillance sont carac-
térisées par une forte redondance au niveau des événement normaux, utiliser la totalité
de ces vecteurs pour entrainer un OC-SVM serait contreproductif. Dans le cas de UCSD
Ped2, la grande majorité des vecteurs de caractéristiques représentent l'arrière-plan ou
des piétons. On décide donc d'échantillonner pour chaque dossier 20000 vecteurs et de
les utiliser pour entrainer le OC-SVM. D'autre part, an d'éviter des tests facultatifs, on
propose d'évaluer ces couches en commençant de la moins profonde et de s'arrêter une
fois que les résultats commences à décroitre. Le tableau 2.1 présente les résultats obtenus,
on obtient les meilleurs résultats avec la couche de pooling du bloc 3 qui est une couche
située au milieu du FCN. Ces résultats sont compréhensibles compte tenu du fait que les
représentations apprises dans les couches profondes deviennent de plus en plus spéciques
à la tâche pour laquelle le réseau a été initialement formé, la classication d'images dans
notre cas. Cette couche renvois en sortie 784 vecteurs de dimension 256. Un nombre qui
reste acceptable comparé au blocs précédents.
Des résultats qualitatifs de notre méthode en utilisant la couche de pooling du bloc 3
sont présentés dans la gure 2.6, On peut noter que l'algorithme est susceptible de détec-
ter et de localiser diérentes congurations d'événements anormaux : un seul événement

35
Chapitre 2. Transfert d'apprentissage

Figure 2.6  Exemples de détection d'événements anormaux sur la base de données Ped2.

anormal, plusieurs événements anormaux du même types et plusieurs événements anor-


maux de type diérents. Notre méthode peut détecter jusqu'à 784 événements anormaux
pour une même image, un nombre assez élevé pour répondre ecacement aux scènes les
plus surpeuplées.

La localisation des anomalies par notre algorithme se traduit par un ou plusieurs rec-
tangles délimitant l'anomalie, gure 2.6. Comparativement à des méthodes qui ÷uvrent
au niveau du pixel, cette localisation est inférieur en terme de précision. Cependant, elle
reste susante et adaptée pour une utilisation dans des systèmes de vidéo surveillance
intelligents. En eet, l'intérêt de la localisation des événements anormaux est de donner
une indication à l'opérateur humain de la position de l'anomalie et non de la segmen-
ter totalement. La gure 2.7, présente les courbes ROC pour notre méthode au niveau
de l'image et au niveau du pixel. L'AUC au niveau de l'image est de 84,7% et au ni-
veau du pixel de 77.6%. Le tableau 2.2 fournit une comparaison de notre algorithme avec
les méthodes de la littérature les plus signicatives dans le contexte de la détection des
événements anormaux. Parmi ces méthodes, on retrouve des travaux précurseurs basés
sur une extraction ciblée de caractéristiques (handcrafted features), qu'elles soient de bas
niveau tel que le ux optique, le gradient et la texture dynamique [61, 51, 29], ou bien
basées sur l'objet comme la taille, la vitesse et la texture des objets [48]. La comparaison
concerne également des méthodes plus récentes basées sur l'apprentissage de représenta-
tions [30, 91, 109, 138]. On constate que les résultats obtenus sont supérieurs à ceux de
la majorité des méthodes basées sur l'extraction ciblée de caractéristiques, ce qui nous

36
2.3. Réseau 3D résiduel entièrement convolutif pour la détection et la localisation d'événements anorm

1.0 1.0

0.8 0.8

0.6 0.6

TPRPL
TPRFL

0.4 0.4

0.2 0.2

0.0 0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
FPRFL FPRPL

(a) Courbe ROC au niveau de l'image (b) Courbe ROC au niveau du pixel

Figure 2.7  Courbe ROC, (a) au niveau de l'image et (b) au niveau du pixel.
AUCFL=84,7%, AUCPL=77,6%.

conforte sur le choix de l'approche. Cependant, les résultats de notre méthode restent
inférieurs à ceux obtenus par les méthodes récentes basées pour la plupart sur l'appren-
tissage profond. Cela s'explique notamment par le manque d'ecacité de la méthode sur
l'extraction de descripteur temporels. En eet le FCN utilisé dans notre méthode est un
FCN dérivé de VGG un réseau initialement développé pour de la classication d'images,
ce qui explique ces capacités limitées en terme d'extraction de descripteurs relatifs au
mouvement.

2.3 Réseau 3D résiduel entièrement convolutif pour la


détection et la localisation d'événements anormaux
Dans la section 2.2, un FCN a été combiné avec OC-SVM an de détecter et de localiser
les événements anormaux. Le FCN permet d'extraire des représentations exploitables par
le SVM an de classier les événements en deux catégories ; normal et anormal. Les
résultats obtenus nous confortent sur la pertinence du transfert d'apprentissage dans
ce contexte. Cependant, ils restent en deçà de ceux escomptés, ce qui nous pousse à
remettre en questions quelques spécicités de notre méthode, notamment l'architecture
du réseau. Le FCN utilisé est composé de couches de convolution 2D qui ne permettent
pas une caractérisation susante du mouvement. En eet, la convolution 2D appliquée
sur une image multicanal, permet d'extraire des caractéristiques spatiales contenus sur
les diérents canaux de l'image. En remplaçant les canaux par une séquence d'image
on extrait donc des caractéristiques spatiales contenues dans cette séquence d'image et
non des caractéristiques temporelles à proprement dit. An d'y remédier on propose de
remplacer le FCN 2D par un FCN 3D composé de couches de convolution 3D plus adaptées
à l'extraction de caractéristiques temporelles. D'autre part, le paramétrage du SVM et

37
Chapitre 2. Transfert d'apprentissage

Table 2.2  Comparaison en terme de EERFL et EERPL sur la base de données UCSD
Ped2.

Méthode EERFL EERPL


Mehran [136] 42 80
Adam [61] 42 76
Bertini [137] 30 /
Kim(MPCCA) [80] 30 71
Zhou [25] 24,40 /
Mahadevan(MDT) [51] 24 54
Hasan [30] 21,7 /
Reddy [48] 20 /
Sabokrou [138] 19 24
Li [135] 18.50 29.90
Ravanbakhsh [91] 18 /
Xu (AMDN double fusion) [73] 17 /
Sabokrou [139] 15 18
Ravanbakhsh (GAN) [109] 14 /
Boiman(IBC) [140] 13 26
Roshtkhari(STC) [29] 13 26
Chong [99] 12 /
Tan Xiao [76] 10 17
Sabokrou [93] 11 15
Sabokrou [100] 8,2 19
Notre FCN 26,3 31,2

plus spéciquement le choix du noyau est complexe en plus d'être admis que l'ecacité
du SVM est fortement impactée par le nombre et les dimensions des données [141]. Pour
cette raison nous proposons comme alternative au SVM une nouvelle méthode de détection
d'outliers basée sur la distance de Mahalanobis [142].

2.3.1 FCN 3D Résiduel


Un CNN 2D se caractérise par des opérations de convolution et de pooling spatiales
adaptées au traitement d'images. Le CNN 3D quant à lui intègre des opérations de convo-
lution et de pooling spatiales mais également dans l'axe temporel, ce qui lui permet de
traiter des séquences d'images et d'en extraire des représentations spatiotemporelles en-
capsulant des informations non seulement relatives au formes contenus dans les séquences
d'entrée, mais aussi au mouvements de ces formes. La convolution 3D est l'extension de
la convolution 2D à un troisième axe. Dans une couche de convolution 2D les ltres se
présentent sous forme de carrés qu'on translate dans deux directions (x, y) an d'extraire
des caractéristiques à partir des images d'entrée, gure 2.8.
Quant à une couche de convolution 3D, ses ltres sont sous forme de cubes à trois
dimensions dont la translation se fait selon trois directions (x, y, z), gure 2.9. La convo-

38
2.3. Réseau 3D résiduel entièrement convolutif pour la détection et la localisation d'événements anorm

Figure 2.8  Opération de convolution 2D.

lution 3D est utilisée dans de nombreuses tâches de vision par ordinateur exploitant des
volumes de données 3D tel que l'imagerie médicale [143, 144], la reconstruction d'images
3D [145] et l'analyse vidéo [22, 146]. Dans le contexte de l'analyse vidéo, la convolution
3D est utilisée pour appréhender la dimension temporelle des volumes de données. En
eet appliquer une convolution 3D sur un volume vidéo permet non seulement d'extraire
des descripteurs relatifs aux motifs spatiaux mais également au motifs temporels. Grâce à
cette spécicité les CNNs 3D ont obtenus des résultats satisfaisants pour la classication
et la reconnaissance d'actions [22, 146].

Figure 2.9  Opération de convolution 3D.

En plus d'être en mesure d'extraire des informations relatives aux formes et au mouve-
ments contenus dans des séquences vidéos, les CNNs 3D, entrainés sur de grandes base de
données telle que Sport-1M [124] sont capables de fournir des représentations robustes et
susamment génériques pour être exploitées sur des données diérentes de celles utilisées
durant leur apprentissage. Il a également été démontré que les représentations extraites
par des réseaux convolutif 3D sont sémantiquement plus séparables en comparaison de
celles extraites par des réseau 2D, [22]. La gure 2.10 montre des représentations ex-
traites à partir d'images de la base de donnée UCF101 [147], en utilisant [22] un réseau
3D entrainé sur Sport-1M et [21] un réseau 2d entrainé quant à lui sur ImageNet. On re-
marque que les représentations du réseau 3D forment des clusters plus compacts pour les
diérentes classes de données. Grâce à leur capacité à fournir des représentations spatio-

39
Chapitre 2. Transfert d'apprentissage

temporelles compactes et génériques, les CNN 3D entrainé sur de grandes base de données
pour de la reconnaissance d'actions peuvent constituer des extracteurs de caractéristiques
exploitables dans la détection d'événements vidéos anormaux.

Figure 2.10  Visualisation avec la méthode t-SNE [20], des représentations extraites
par les réseaux ImageNet [21] et C3D [22] sur la base de donnée UCF101. Cette gure a
été extraite de [22].

Outre l'aspect 3D, certains réseaux de reconnaissance d'actions [146] ont adopté une
architecture résiduelle, appréciée notamment pour sa capacité à lutter contre le problème
de la disparition du gradient (Vanishing Gradient Problem). En eet, les réseaux de neu-
rones convolutifs sont généralement entrainés grâce à une rétropropagation du gradient,
en calculant les dérivées couche par couche, de la couche nale à la couche initiale. Dans
les réseaux constitués d'un grand nombre de couches, le gradient requis pour la mise à
jour des poids avec la rétropropagation à tendance à diminuer fortement jusqu'à s'annu-
ler lorsque on atteint les couches initiales. Un faible gradient signie que les poids des
couches ne seront pas mis à jour de manière ecace à chaque itération d'apprentissage.
Par conséquent, au fur et à mesure que le réseau s'approfondit, ses performances saturent
ou commencent même à se dégrader rapidement. Pour lutter contre ce phénomène, [6] a
proposé une nouvelle architecture intégrant des blocs résiduels, gure 2.11. Dans un bloc
résiduel, la carte de sortie originale F (x) est rajustée en F (x) + x, grâce à une connexion
raccourci directement vers les couches précédentes. En d'autre termes, l'entré x est ra-
jouté à la sortie du bloc F (x) grâce à une fonction identité. De cette manière, même si
la disparition du gradient aecte les couches de poids (couches de la branche principale),
l'identité x quant à elle permet d'obtenir une dérivée globale plus élevée pour le bloc.
L'utilisation des blocs résiduels à donc permis à [6] de construire un réseau très profond
qui a obtenu la première place du chalenge ILSVRC-2015 (Large Scale Visual Recognition
Challenge).

40
2.3. Réseau 3D résiduel entièrement convolutif pour la détection et la localisation d'événements anorm

Figure 2.11  Bloc résiduel proposé dans [6].

2.3.2 Distance de Mahalanobis


La distance de Mahalanobis est une mesure de distance introduite par Prasanta Chan-
dra Mahalanobis en 1936, elle permet de déterminer la similarité entre un ensemble
de données connu et de nouvelles observations. Étant donné un ensemble de données
X = (xi : i = 1, ..., N ), xi ∈ Rd et une observation y ∈ Rd , la distance de Mahalanobis
entre y et l'ensemble X est donnée par l'équation :

p
DM (y, X) = (y − µ) × Σ−1 × (y − µ)T (2.9)

où µ ∈ Rd et Σ ∈ Rd×d , respectivement la moyenne et la matrice de covariance de l'en-


semble X . À la diérence de la distance euclidienne, la distance de Mahalanobis prend en
considération la variance et la corrélation de l'ensemble de données. À travers l'inverse de
la matrice de covariance, elle donne un poids moins important aux composantes les plus
dispersées (variance la plus grande) tandis que la distance euclidienne traite indépendam-
ment et de la même façon toutes les composantes. Compte tenu de sa capacité à mesurer
la similarité de nouvelles observations par rapport à un ensemble connu, la distance de
Mahalanobis a souvent été exploitée pour la détection d'outliers.
Dans ce qui suit, nous proposons un exemple explicatif an d'illustrer l'intérêt de la dis-
tance de Mahalanobis pour la détection d'outliers :
Considérant un ensemble de données à deux dimensions échantillonnés aléatoirement à
partir d'unes distribution normale multivariée
  N , de moyenne µ=(0 ;0) et de matrice
1 −0, 9
de covariance Σ = et quatre observations : o1 (1, 5; 1, 5), o2 (−1, 5; −1, 5),
−0, 9 1
o3 (1, 5; −1, 5), o4 (−1, 5; 1, 5). En utilisant la distance Euclidienne, ces quatre observations
sont bien entendu équidistantes par rapport à l'ensemble de données, gure 2.12. Utiliser
la distance euclidienne comme moyen de détection d'outliers dans ce cas ne serait pas
pertinent. Étant donné que l'ensemble de données est non sphérique mais elliptique, la
probabilité d'appartenance d'une observation à cet ensemble dépend non seulement de la
distance du centre de l'ensemble, mais également de la direction. En eet, pour appartenir
à l'ensemble, l'observation doit être plus proche dans la direction où l'ellipsoïde a un axe
court, tandis que dans celle où l'axe est long, l'observation peut être plus éloignée du
centre. Cependant, en utilisant la distance de Mahalanobis comme mesure de similarité,

41
Chapitre 2. Transfert d'apprentissage

les observations externes à l'ensemble se caractérisent par une distance beaucoup plus
élevée, ce qui rend la détection d'outliers possible, gure 2.13. Cela s'explique notamment
par le fait que la distance de Mahalanobis prend en compte non seulement la distance par
rapport au centroïde, mais également les directions de distribution des données.

Figure 2.12  Distance euclidienne entre la distribution N (µ, Σ) et les observations


o1 , o2 , o3 , o4 .

2.3.3 Méthode proposée


Pour aborder de manière ecace le problème de détection d'événements anormaux,
nous proposons une méthode en ligne et adaptative constituée principalement de deux
étapes, une étape d'extraction de représentations spatiotemporelles, et une étape de clas-
sication qui va nous permettre de dissocier les événements anormaux des événements
normaux. Le schéma globale de notre approche est présenté dans la gure 2.14. Compte
tenu de l'ecacité des réseaux 3D résiduels pour la reconnaissance d'actions, nous optons
pour l'utilisation d'un FCN 3D résiduel pour l'étape d'extraction de caractéristiques. An
d'exploiter de manière ecace ces représentations obtenus grâce au FCN, nous proposons
une nouvelle méthode de classication en ligne, basée sur la sélection de vecteurs d'intérêt
à travers la distance de Mahalanobis. Cette méthode de classication permet de modéliser
l'ensemble des événements normaux y compris ceux qui se produisent rarement, de détec-
ter les événements anormaux et ore également une possibilité d'adaptation à l'apparition
de nouveaux événements normaux non observés durant la phase d'apprentissage. Dans ce
qui suit nous allons détailler les diérentes étapes de notre méthode.

Extraction de représentations

Le réseau nommé Res3D [146] est un CNN 3D résiduel entrainé pour la classica-
tion d'actions sur la base de donnée Sport-1M contenant plus de 1.1 millions de vidéos.

42
2.3. Réseau 3D résiduel entièrement convolutif pour la détection et la localisation d'événements anorm

Figure 2.13  Distance de Mahalanobis entre la distribution N (µ, Σ) et les observations


o1 , o2 , o3 , o4 .

Au même titre que les réseaux 2D entrainés sur ImageNet sont en mesure de fournir
des caractéristiques spatiales adaptées à de nombreuses tâches de traitement d'images,
il a été démontré que les réseaux de neurones convolutifs 3D entrainés sur Sport-1M
peuvent extraire des représentations spatiotemporelles génériques exploitables pour la re-
connaissance d'événements vidéos [22]. On propose donc d'appliquer la même procédure
que dans la section 2.2 an de transformer le Res3D en FCN capable de générer une
carte de caractéristiques pour chaque suite d'images d'entrée. Le réseau initial Res3D
est conçu pour prendre en entrée une suite d'images RGB, pour les raisons expliquées
précédemment, nous choisissons d'utiliser pour notre application des images en niveau
de gris. An d'adapter nos données à l'entrée du réseau, nous construisons des images
à trois canaux où chaque canal contient la même image en niveau de gris. Une fois les
images à trois canaux construite, on assigne à chaque image It un volume vidéo 3D
X = {It , It−1 , It−2 , ..., It−(n−1) }, constitué de n frames consécutives dans l'axe temporel.
Par souci de simplicité, dans ce qui va suivre nous omettons les canaux et désignons l'en-
w×h×d
trée par un volume X ∈ R où w, h, d sont respectivement la largeur, la hauteur et
la profondeur temporelle du volume. Pour chaque volume X , le FCN renvoie une carte
´ ´
F ={fi : i = 1, ..., ẃ × h́}, F ∈ Rẃ×h́×d et f ∈ Rd tel que ẃ × h́ × d´
de caractéristiques
sont respectivement la largeur, la hauteur et la profondeur de la carte de caractéristique.
L'architecture du FCN adoptée pour l'extraction de représentations est présentée dans
la gure 2.15. Nous avons choisi de conserver les 4 premiers blocs résiduels (16 couches
de convolution) du Res3D original. Le FCN obtenu renvoie pour des images d'entrée de
dimensions 227 × 227 des cartes de caractéristiques de dimensions 29 × 29 × 256 en sortie.
En d'autres termes, le réseau renvoie en sortie 841 (29 × 29) vecteurs de dimension 256
et chacun d'eux est une représentation spatiotemporelle d'un patch du volume d'entrée,
voir gure 2.14.

43
Chapitre 2. Transfert d'apprentissage

Figure 2.14  Schéma global de la méthode proposée.

Détection des anomalies

Les enregistrements de vidéo de surveillance sont caractérisés par une forte redondance
de l'information, En eet, la majorité des événements qui se produisent dans les scènes
normales sont anodins et répétitifs. Les événements sémantiquement diérents qui peuvent
subvenir de manière anecdotique sont noyés dans le ux des événements fréquents. Pour
répondre ecacement à la problématique de la détection des événements vidéos anormaux,
la modélisation des événements durant la phase d'entrainement doit être en mesure de
prendre en considération le potentiel déséquilibre dans la fréquence des événements. Dans
notre cas, construire le modèle d'événements en utilisant tous les vecteurs de caracté-
ristiques, extraits par notre FCN pour chaque frame pendant la phase d'entrainement,
fausserait la distribution en pondérant les éléments redondants et en marginalisant ceux
qui sont rares. À terme cela pourrait conduire à des interprétations erronées et recréer des
confusions entre les événements rares et les anomalies dans le processus de détection. Pour
contrer ce phénomène, nous proposons d'intégrer à notre méthode une phase de sélection
en ligne de vecteurs d'intérêt. Cela permettra de dénir une distribution balancée capable
de représenter de façon équilibrée tous les événements normaux y compris les événements
rares. De cette manière, tous les événements normaux disposeront du même impact sur
le processus de détection et cela permettra à terme de réduire les fausses alarmes.
L'algorithme 2 présente les diérentes étapes de notre méthode. Après la construction des
volumes vidéos, nous utilisons le FCN 3D pour extraire les vecteurs de caractéristiques.
Une fois les vecteurs du premier volume obtenus, nous déclarons parmi eux N vecteurs
comme étant des vecteurs d'intérêt et les injectons dans la distribution représentant les
événements normaux. Nous calculons ensuite une mesure de similarité disti , basée sur la

44
2.3. Réseau 3D résiduel entièrement convolutif pour la détection et la localisation d'événements anorm

distance de Mahalanobis, entre chaque vecteur restant fi et les N vecteurs d'intérêt. Cette
mesure est formalisée dans l'équation suivante :

p
disti = (fi − moy) × Q × (fi − moy)T (2.10)

où moy et Q sont respectivement la moyenne et l'inverse de la matrice de covariance de


la distribution. Si la mesure disti est supérieur à un seuil α, alors le vecteur fi est éga-
lement rajouté à la distribution formée par les vecteurs d'intérêt. Dans le cas contraire,
le vecteur n'est pas considéré dans la suite de la procédure. En eet si la distance entre
le nouveau vecteur fi et la distribution formée par les vecteurs d'intérêt est faible, ce la
veut dire que le vecteur est semblable aux vecteurs déjà contenus dans la distribution
et qu'il ne représente donc pas un événement susamment diérent pour être considéré.
Nous répétons ensuite le même processus de sélection pour chaque nouvelle image durant
la phase de formation. Nous évaluons ainsi la pertinence de chaque vecteur à être inclus
dans la distribution. Une fois que toutes les images d'entrainement ont été analysées, nous
appliquons une procédure de taille (pruning) de la distribution an d'éliminer parmi les
N vecteurs de la distribution ceux qui sont redondants, procédure qui génère au nal une
distribution contenant M diérents vecteurs d'intérêt qui représente la totalité des évé-
nements contenus durant la phase d'apprentissage. En résumé, notre méthode représente
chaque événement normal redondant par un seul vecteur an d'atteindre un équilibre
dans la représentation des événements et ainsi éviter la marginalisation des événements
normaux qui se produisent rarement pendant le processus d'apprentissage.
Durant la phase de détection, chaque région du volume vidéo d'entrée, représentée par un
vecteur de caractéristiques est évaluée selon le même principe. En eet, nous mesurons
la distance entre le vecteur et la distribution équilibrée et si la mesure excède un seuil β,
le vecteur est considéré comme outlier et le patch est alors étiqueté comme anormal. Les
détails de la procédure sont présentés dans l'algorithme 2.

La vidéo surveillance est également confrontée à un autre challenge en raison de l'évo-


lution constante de l'environnement surveillé. Cette évolution peut se traduire sous forme
d'un arrière-plan dynamique, de l'apparence d'un nouvel événement normal ou d'une
autorisation provisoire d'un événement anormal. À titre d'exemple on peut facilement
imaginer une scène où une voie unique est transformée en voie double sens, l'introduction
(ou la suppression) d'un élément de l'arrière-plan ou encore l'autorisation d'interactions
temporaires dans l'environnement surveillé tel que des travaux d'entretien. Ces évolutions
de l'état normal de la scène peuvent générer un grand nombre de fausses alarmes qui
perturberaient l'interaction avec l'opérateur humain, chose qui à terme peut altérer la
conance vis-à-vis du système de surveillance. Pour autant que nous sachions, ce pro-
blème n'a pas été pris en compte dans les travaux antérieurs de détection d'événements
anormaux. Pour répondre ecacement à ce challenge, notre méthode incorpore un pro-
cessus de rectication des fausses alarmes. Comme on peut le voir sur la gure 2.16, notre
méthode permet de reconsidérer une fausse alarme obtenue durant la phase de détection.
En eet l'opérateur humain peut en notiant une fausse alarme déclarer le vecteur de
caractéristique relatif à cette fausse alarme comme étant un vecteur d'intérêt et l'ajouter
de surcroît dans la distribution représentative des vecteurs d'intérêts, obtenue durant la

45
Chapitre 2. Transfert d'apprentissage

phase d'apprentissage. Cela évitera les futures détections de l'événement qui a conduit à
la fausse alarme.

2.3.4 Résultats expérimentaux


Notre méthode à été implémentée en utilisant Matlab et cae [21] pour la partie ap-
prentissage profond. Nous avons également implémenté une version en C++ pour eectuer
des tests en conditions réelles au sein de notre laboratoire. An d'évaluer notre méthode,
nous avons utilisé la base de données UCSD Ped2 [132] et nous avons également mené
des tests sur un cas réel de surveillance de laboratoire, ce cas est désigné dans ce qui va
suivre par CapSec. La base de données utilisée pour les tests en laboratoire a été construit
en utilisant une caméra xe de résolution 1028 × 720. Les événements normaux contenus
dans cette base sont répartis sur 6 dossiers et représentent les comportements quotidiens
des étudiants et des chercheurs à l'intérieur du laboratoire. La base de données contient
également 6 dossiers de test contenants, en plus des événements normaux, des événements
anormaux tel que des chutes de personnes ou l'apparition d'objets non présents dans les
dossiers d'entrainement. La gure 2.17 présente quelques exemples d'événements anor-
maux de la base de données CapSec détectés par notre méthode.

Dans la base de données UCSD Ped2 nous avons évalué deux scénarios : SC1, quand on
considère une distribution équilibrée par dossier d'entrainement et un second scénario SC2
quand on utilise une seule distribution pour la totalité de la base de données. L'objectif
de cette distinction est de démontrer la robustesse de notre méthode à l'augmentation du
nombre de données durant la phase d'apprentissage. En eet, en éliminant la redondance,
le processus de sélection des vecteurs d'intérêt permet de garder une taille de distribution
raisonnable pour représenter la totalité des événements. On peut voir dans le tableau 2.3
le nombre de vecteurs d'intérêt obtenu pour chaque dossier ainsi que pour la totalité de la
base de données. Dans le premier scénario, le nombre de vecteurs d'intérêt est en moyenne
de 1067 ce qui représente moins de 1% du nombre de vecteurs de caractéristiques. Dans le
0.1%
second scénario le nombre de vecteur d'intérêt est égale à 1569 et représente moins de
du nombre total de vecteurs de caractéristiques. On constate que malgré l'augmentation
du nombre d'images, le nombre de vecteurs d'intérêt reste relativement stable. Cela permet
notamment de conforter notre analyse concernant la redondance des événements normaux
dans les vidéos de surveillance.

An d'identier la taille de la séquence d'image la plus adaptée à la base de données


UCSD Ped2 on a calculé l'erreur de classication pour 3 diérentes longueurs de séquence
(3, 4 et 5 images consécutives) en respectant les contraintes du scénario SC1. Les résultats
obtenus sont présentés dans le tableau 2.4. On constate que les meilleurs résultats sont
obtenus avec des volumes vidéos de profondeur temporelle égale à trois, cela s'explique
notamment par le fait que la majorité des événements anormaux dans la base de données
UCSD Ped2 sont d'une complexité temporelle relativement faible. En eet ces événements
sont relatifs à la présence de non piétons qui sont caractérisés par des vitesses de dépla-
cement élevées en comparaison au piétons, une faible profondeur temporelle est susante

46
2.4. Conclusion

pour la distinction de ce type d'événements. La gure 2.18 présente quelques résultats


qualitatifs obtenus avec notre méthode avec une profondeur temporelle de trois frames. Il
est important de noter que pour des situations plus complexes l'utilisation de séquences
temporelles plus importantes pourrait s'avérer pertinente.
Comme cela a été fait pour la première méthode, nous avons utilisé la courbe ROC,
le EER ainsi que l'AUC pour évaluer les performances de la méthode proposée et obtenir
des résultats quantitatifs. Le tableau 2.5 présente la comparaison de notre méthode avec
l'état de l'art en terme de EER au niveau de l'image et du pixel. Pour le scénario SC1,
notre méthode obtient un EERFL de 10, 6% et un EERPL de 13, 8%, ce qui surpasse la
majorité des méthodes de l'état de l'art. Pour le scénario SC2, la méthode obtient un
EERFL de 10, 5% et un EERPL de 13, 3%, ce qui permet de conrmer la robustesse de
notre méthode à l'augmentation du nombre de données d'entrainement. Les gures 2.21 et
2.22, présentent les courbes ROC au niveau de la frame et du pixel pour les deux scénarios
SC1 et SC2.
De plus, comme cela a été mentionné précédemment, notre méthode permet de s'adap-
ter à la présence de fausses alarmes. Le tableau 2.6 présente deux exemples de l'impacte sur
le EER de la déclaration de l'opérateur de fausses alarmes. On peut voir dans les gures
2.19 et 2.20 que signaler des fausses alarmes permet d'éviter que les événements à l'origine
de ces fausses alarmes ne soient détectés par le système dans les frames consécutives au
signalement.
En ce qui concerne le temps de calcul, la comparaison de notre méthode avec d'autres
méthodes de l'état de l'art est donné dans le tableau 2.7. Ces données ne sont présentées
qu'à titre indicatifs et doivent être considéré avec circonspection. En eet les temps des
diérentes méthodes ont été récupérées dans la littérature et de diérentes performances
matérielles on été utilisées pour les produire. Dans notre cas, nous avons utilisé un pro-
cesseur I7 avec 32 Go de RAM et une carte graphique NVIDIA Quadro 2000 M. Le temps
de calcul présenté dans le tableau 2.7 n'est cependant pas optimale et ne reète pas le
plein potentiel de notre méthode puisque qu'aucune technique d'optimisation de code n'a
été appliquée.

2.4 Conclusion
Dans ce chapitre, nous avons proposé deux méthodes pour la détection d'événements
vidéo anormaux. Ces méthodes sont fondées toutes deux sur des réseaux de neurones
préentrainés sur de grandes bases de donnée formées pour des tâches sémantiquement
diérentes de la détection d'événements vidéos anormaux. À travers ces méthodes nous
avons pu évaluer l'intérêt du transfert d'apprentissage dans le contexte de la détection
et de la localisation des événements vidéo anormaux. La première méthode, basée sur un
FCN 2D et un OC-SVM, nous a permis non seulement de conrmer l'intérêt de l'utilisa-
tion des réseaux de neurones préentrainé pour l'extraction de caractéristiques génériques
exploitables pour la caractérisation des événements vidéos, mais également de mettre en
avant la pertinence de l'architecture entièrement convolutive du FCN pour la localisa-
tion des anomalies à l'intérieur des images. Malgré l'intérêt de cette méthode, nous avons
constaté que l'aspect 2D du réseau ne lui permet pas d'extraire des descripteurs tempo-

47
Chapitre 2. Transfert d'apprentissage

rels susamment robustes pour la caractérisation des événements vidéo. Compte tenu des
constatations faite sur la base de notre première méthode nous avons orienté nos travaux
vers des réseaux de convolution 3D. Grâce à la combinaison d'un réseau 3D résiduel et
d'un classieur exploitant la distance de Mahalanobis, nous avons pu proposer une se-
conde méthode caractérisée par un apprentissage en ligne et adaptatif. Cette méthode a
démontré de très bonnes aptitudes de détection et de localisation d'événements anormaux
à travers les diérents tests eectués, que ce soit sur la base de données publique UCSD
Ped2, que sur le cas réel de surveillance de laboratoire (CapSec).

48
2.4. Conclusion

Figure 2.15  Architecture du FCN 3D.


49
Chapitre 2. Transfert d'apprentissage

Algorithme 2 : Construction d'une distribution équilibrée et détection d'évé-


nements anormaux.
Sélection des vecteurs d'intérêt;
X= [ It , It−1 , It−2 ; ..., It−n ];
F= FCN (X);

C=F(1 : N);

moy=mean(C);

Q=inv(cov(C));

for i=N :841 do


disti =sqrt((F(i)-moy)*Q*(F(i)-moy)');
if (disti >α) then
C(size(C,1)+1)=F(i);

moy=mean(C);

Q=inv(cov(C));

end

end
for pour chaque nouvelle image It do
X= [ It ; It−1 ; It−2 ; ...; It−n ];
F= FCN (X);

for i=1 :841 do


disti =sqrt((F(i)-moy)*Q*(F(i)-moy)');
if (disti > α) then
C(size(C,1)+1)=F(i);

moy=mean(C);

Q=inv(cov(C));

end

end

end
Prunning de la distribution;
moy=mean(C);

Q=inv(cov(C));

for i=1 :size(C,1) do


disti =sqrt((C(i)-moy)*Q*(C(i)-moy)');
if (disti <η * α ; (0<η <1)) then
C(i)=[ ];

end

end
Détection d'événements anormaux;
for pour chaque nouvelle image It do
X= [ It , It−1 , It−2 , ..., It−n ];
F= FCN (X);

moy=mean(C);

Q=inv(cov(C));

for i=1 :841 do


disti =sqrt((F(i)-moy)*Q*(F(i)-moy)');
if (disti > β ) then
P atchi is Abnormal;
end

end
50
end
2.4. Conclusion

Figure 2.16  Robustesse aux fausses alarmes.


Table 2.3  Eet de la sélection des vecteurs d'intérêt sur la réduction des vecteurs de
caractéristiques. Dans le tableau suivant, on peut voir pour chaque dossier : le nombre de
frames (NB-Frames), le nombre de vecteurs de caractéristiques (NB-VC) et le nombre de
vecteurs d'intérêt (NB-VI).

Dossier NB-Frames NB-VC NB-VI


D1 120 100920 934
D2 150 126150 923
D3 150 126150 909
D4 180 151380 1215
D5 180 151380 1127
D6 150 126150 1187
D7 150 126150 1107
D8 120 100920 981
D9 180 151380 1134
D10 180 151380 1177
D11 180 151380 1109
D12 180 151380 1108
SC2 1920 1614720 1569

Table 2.4  ErrFL et ErrPL pour diérentes profondeurs temporelles du volume d'entrée.
Nombre de Frames 3 frames 4 frames 5 frames
ErrFL 6,58 8,25 7,26
ErrPL 10,55 11,55 12,12

51
Chapitre 2. Transfert d'apprentissage

(a) (b)

(c) (d)

(e) (f )

Figure 2.17  Détection d'événements anormaux dans le laboratoire CapSec. (a) une
personne à terre, (b) de multiples personnes à terre, (c) personne à terre en présence
d'une personne debout, (d) objet présumé anormal, (e) personne à terre en présence
d'une personne accroupie, (f ) personne à terre.

52
2.4. Conclusion

(a) (b)

(c) (d)

(e) (f )

Figure 2.18  Détection d'événements anormaux dans la base de données UCSD Ped2.
(a) détection de plusieurs vélos, (b) détection de cibles multiples (vélo et voiture), (c)
détection de cibles multiples (vélo et skater), (d) détection de cibles multiples (vélos et
skater) , (e) détection de plusieurs vélos, (f ) détection de cibles multiples (vélo partielle-
ment obstrué et une roue).

53
Chapitre 2. Transfert d'apprentissage

Table 2.5  Comparaison en terme de EERFL et EERPL sur la base de données UCSD
Ped2.

Méthode EERFL EERPL


Mehran [136] 42 80
Adam [61] 42 76
Bertini [137] 30 /
Kim(MPCCA) [80] 30 71
Zhou [25] 24,40 /
Mahadevan(MDT) [51] 24 54
Hasan [30] 21,7 /
Reddy [48] 20 /
Sabokrou [138] 19 24
Li [135] 18,50 29,90
Ravanbakhsh [91] 18 /
Xu (AMDN double fusion) [73] 17 /
Sabokrou [139] 15 18
Ravanbakhsh (GAN) [109] 14 /
Boiman(IBC) [140] 13 26
Roshtkhari(STC) [29] 13 26
Chong [99] 12 /
Xiao [76] 10 17
Sabokrou [93] 11 15
Sabokrou [100] 8,2 19
FCNV GG 26,3 31,2
SC1 10,6 13,8
SC2 10,5 13,3

Table 2.6  Robustesse aux fausses alarmes.


Dossier ErrFL ErrPL FA New-ErrFL New-ErrPL
4 3,8 6,11 1 3,3 5,5
7 2,5 43,9 2 12,8 36,7

Table 2.7  Information sur le temps de traitement de la méthode proposée (en secondes
par image).

Méthode Boiman Mahadevan Roshtkhari Li Xiao Notre


[140] [51] [29] [135] [76] méthode
Temps 83 25 0,22 1,38 0,29 0,15
(secondes/frame)

54
2.4. Conclusion

(a) (b)

(c) (d)

Figure 2.19  Robustesse aux fausses alarmes, dossier 04 de Ped2. (a) et (b) sont deux
fausses alarmes consécutives renvoyées par le système. (c) et (d) représentent les mêmes
images, sauf qu'on moment où l'événement (a) se produit, ce dernier a été signaler comme
fausse alarme. On peut constater dans (d) que le système ne détecte plus l'événement
comme anormal ce qui réduit les fausses alarmes.

55
Chapitre 2. Transfert d'apprentissage

(a) (b)

(c) (d)

Figure 2.20  Robustesse aux fausses alarmes, dossier 07 de Ped2. (a) et (b) sont deux
fausses alarmes consécutives renvoyé par le système. (c) et (d) représentent les mêmes
images, sauf qu'on moment où l'événement (a) se produit, ce dernier a été signaler comme
fausse alarme. On peut constater dans (d) que le système ne détecte plus l'événement
comme anormal ce qui réduit les fausses alarmes.

1 1

0.9 0.9

0.8 0.8

0.7 0.7

0.6 0.6
TPRPL
TPRFL

0.5 0.5

0.4 0.4

0.3 0.3

0.2 0.2

0.1 0.1

0 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
FPRFL FPRPL

(a) (b)

Figure 2.21  Courbe ROC pour le scénario SC1. (a) ROCFL, l'AUC est de 94, 1% ; (b)
ROCPL, l'AUC est de 87, 1% .

56
2.4. Conclusion

1 1

0.9 0.9

0.8 0.8

0.7 0.7

0.6 0.6
TPRPL
TPRFL

0.5 0.5

0.4 0.4

0.3 0.3

0.2 0.2

0.1 0.1

0 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
FPRFL FPRPL

(a) (b)

Figure 2.22  Courbe ROC pour le scénario SC2. (a) ROCFL, l'AUC est de 94, 7% ; (b)
ROCPL, l'AUC est de 89% .

57
Chapitre 2. Transfert d'apprentissage

58
3
Apprentissage non supervisé

3.1 Introduction
Le transfert d'apprentissage dans le contexte des réseaux de neurones nous a permis de
développer des méthodes de détection d'événements vidéos anormaux ecaces, prenant
en considération les exigences des systèmes de vidéo surveillance intelligents. Nous avons
notamment démontré que des réseaux de neurones préentrainés sur de grandes bases de
données pour la classication d'actions sont particulièrement adaptés pour la caractéri-
sation des formes et des mouvements présents dans les séquences vidéos, ce qui en fait
des outils ecaces pour la détection d'événements anormaux. Cependant, la dépendance
de l'approche adoptée à des réseaux préentrainés de manière supervisée sur de grandes
bases de données étiquetées peut s'avérer néfaste. En eet, le fait que le réseau utilisé soit
conçu et entraîné pour une autre tâche de classication peut induire une discordance avec
les données cibles. À titre d'exemple on peut citer les caractéristiques couleurs contenus
dans les représentations des réseaux entrainés à la classication d'images et non utilisées
dans nos application de détection d'événements anormaux. On peut également imaginer
que la taille des champs récepteurs des diérentes couches du réseau ne soit pas adaptée
à la taille des objets présents dans les images de la scène surveillée. D'autre part, l'uti-
lisation de réseaux préentrainés impose à notre approche une certaine rigidité et réduit
considérablement ses perspectives d'amélioration. L'apprentissage non supervisé pourrait
être une alternative au transfert d'apprentissage et pourrait défaire le lien de dépendance
de notre approche vis à vis des grandes bases de données étiquetées.

L'apprentissage non supervisé est un sous domaine de l'apprentissage automatique qui


comme son nom l'indique consiste à apprendre des caractéristiques sous-jacentes à par-
tir de données non étiquetées. L'apprentissage non supervisé peut être particulièrement
adapté à la détection d'événements vidéos anormaux compte tenu du fait que cette tâche
se caractérise par l'indisponibilité des données anormales durant la phase d'apprentis-
sage. Dans ce chapitre, nous allons donc explorer diérentes stratégies an d'exploiter les
réseaux de neurones convolutifs non supervisés pour l'extraction de représentations spatio-
temporelles, exploitables pour la détection et localisation d'événements vidéos anormaux.

Le reste du chapitre est organisé comme suit : nous entamons ce chapitre par une
introduction sur les autoencodeurs avant de nous intéresser plus en détails aux autoen-

59
Chapitre 3. Apprentissage non supervisé

codeurs convolutifs et aux algorithmes d'apprentissage utilisé durant l'entrainement de


ces réseaux. Nous présentons ensuite une méthode basée sur un autoencodeur convolu-
tif pour l'extraction de caractéristiques spatiotemporelles, avant de clore la section avec
quelques résultats expérimentaux. Nous débutons la deuxième section par un rappel sur
le ux optique et ses méthodes d'extraction avant de présenter une nouvelle architecture
à deux ux pour la détection et la localisation d'événements anormaux. Des résultats
expérimentaux relatifs a cette deuxième méthode sont également donnés.

3.2 Autoencodeur convolutif pour la détection d'événe-


ment anormaux
3.2.1 Autoencodeur

Figure 3.1  Architecture standard d'un autoencodeur

Parmi les réseaux de neurones non supervisés, l'autoencodeur AE (AutoEncoder) [148,


149] gure sans doute parmi les plus populaires. L'autoencodeur est un réseau de neurones
entièrement connectés disposant d'une ou plusieurs couches cachées, gure 3.1. Il est
entraîné à reconstruire une donnée d'entrée à travers une représentation intermédiaire très
souvent de dimension réduite. L'objectif étant d'extraire des caractéristiques descriptives
an d'apprendre une représentation plus compacte de la donnée d'entrée. Pour une donnée
d
d'entrée X ∈ R l'AE extrait à travers l'encodeur une représentation latente Z en utilisant
l'équation :

Z = f (W X + b) (3.1)

où f est une fonction d'activation, W


b sont respectivement les poids et les biais de la
et
couche cachée. L'AE reconstruit ensuite X̂ , grâce au décodeur, à partir de la représentation

60
3.2. Autoencodeur convolutif pour la détection d'événement anormaux

Z à l'aide de l'équation :

X̂ = f (Ẃ Z + b́) (3.2)

Généralement, les poids du décodeur Ẃ sont dénit comme étant la transposée des poids
T
de l'encodeur W , Ẃ = W . De cette manière l'AE associe à chaque donnée d'entrée X
une représentation compacte Z et une reconstruction X̂ . L'entraînement de l'AE se fait
généralement en minimisant l'erreur de reconstruction, notamment grâce à une fonction
de perte telle que l'erreur quadratique moyenne MSE (mean squared error) présentée
ci-dessous :

N
1 X
E(X, X̂) = (x̂i − xi )2 (3.3)
N i=1

3.2.2 Autoencodeur convolutif

Figure 3.2  Autoencodeur convolutif


L'autoencodeur convolutif CAE (Convolutional AutoEncoder) [96] est un réseau de
neurones non supervisé, il est similaire à l'autoencodeur traditionnel dans le sens où il se
compose également d'un encodeur et d'un décodeur, gure 3.2. L'encodeur extrait des re-
présentations à partir des données d'entrée de manière hiérarchique à travers des couches
de convolution successives. Ces représentations sont ensuite utilisées par le décodeur an
de reconstruire les données d'entrées grâce à de multiples couches de déconvolution. L'AE
traditionnel, compte tenu de son architecture entièrement connectée, est limité dans sa
capacité à représenter les structures 2D où les relations spatiales sont importantes telles
que les images. En eet, comme nous l'avons motionné précédemment, les couches entière-
ment connectées ignore les relations spatiales dans les données d'entrées. L'autoencodeur
convolutif, quant à lui, est fondé sur des connexions locales avec des poids partagés au
même titre que le CNN. Cet aspect lui permet d'extraire des motifs localisés dans dié-
rentes régions des images d'entrée et d'extraire des représentations conservant les relation
spatiales. Ces spécicités font du CAE un outil particulièrement adapté au tâches de trai-
tement d'images telle que la détection d'anomalie, puisque des anomalies se produisent

61
Chapitre 3. Apprentissage non supervisé

le plus souvent de manière localisée dans la scène surveillée. Dans un CAE à une seule
couche de convolution et de déconvolution, pour chaque image mono canal d'entrée X , la
représentation latenteZ de la k ème carte de caractéristique obtenu à travers la couche de
convolution est donnée par l'équation :

Zk = f (Wk ∗ X + bk ) (3.4)

où f est une fonction d'activation, Wk et bk sont respectivement les poids et le biais


ème
relatifs au k ltre de convolution et ∗ est le produit de convolution. La reconstruction
X̂ obtenu à travers la couche de déconvolution est donnée par l'équation :

K
X
X̂ = f (Ẃk ∗ Zk + b´k ) (3.5)
k=1

où K est le nombre de cartes de caractéristiques dans la représentation latente, Ẃk et b´k


ème
sont respectivement les poids et le biais du k ltre de déconvolution.
L'apprentissage des paramètres du CAE se fait de manière non supervisée avec une
descente de gradient et une rétropropagation sur les poids an de minimiser l'erreur de
reconstruction.

3.2.3 Descente de gradient


La descente de gradient [17] est un algorithme d'optimisation itératif largement em-
ployé pour l'entrainement des réseaux de neurones. Il permet de trouver les valeurs op-
timales des paramètres du réseau an de minimiser une fonction de perte diérentiable.
L'algorithme se divise en deux étapes : une propagation en avant pour calculer le vec-
teur de sortie et une rétropropagation en arrière où les dérivées partielles de la fonction
de perte sont calculées par rapport aux paramètres du réseau. L'algorithme 3 formalise
les étapes de la descente de gradient pour l'apprentissage des paramétrés d'un réseau de
neurones. Soit une base de donnée d'apprentissage B contenant N couple (X, Y ) où X
est la donnée d'entrée et Y l'étiquette de la donnée, J(θ) une fonction de perte à mini-
miser tel que θ représente les paramètres du réseau, ∇J(θ) le gradient de la fonction et η
le pas d'apprentissage. L'algorithme consiste à trouver le gradient de l'erreur de chacun
des couples et d'en faire la moyenne. Comme le gradient est un vecteur pointant vers la
direction de plus forte croissance de la fonction d'erreur, déplacer les paramètres dans
la direction opposée au gradient fait diminuer l'erreur. Le pas d'apprentissage permet de
moduler ce déplacement. En d'autres termes le gradient permet de dénir la direction de
la correction et le pas d'apprentissage permet de contrôler la dite correction. Le choix du
pas d'apprentissage est souvent crucial pour l'entraînement du réseau, puisque une valeur
très élevée va induire un changement trop important des poids, causant ainsi le manque-
ment des valeurs optimales. A l'inverse une valeur trop petite va causer le ralentissement
de l'apprentissage.
Dans ce qui va suivre nous allons présenter un exemple d'application de l'algorithme de
descente de gradient pour l'apprentissage d'un réseau de neurones entièrement connectés,

62
3.2. Autoencodeur convolutif pour la détection d'événement anormaux

Algorithme 3 : Descente de gradient

Initialisation aléatoire des poids du réseau : θ = θ0 ;


while Condition d'arrêt non atteinte do
for Chaque couple (X, Y ) do
Sk =Propagation de Xk ;
∇Jk (θ)=Retropagation de (Yk − Sk );
end

∇J(θ) = N1 N
P
k=1 ∇Jk (θ);
θ = θ − η × ∇J(θ);
end

Figure 3.3  Perceptron multicouche contenant trois valeurs d'entrées, deux neurones
dans la couche cachée et deux neurones dans la couche de sortie.

gure 3.3. Le réseau est formé par une couche d'entrée à trois valeurs, une couche caché
avec deux neurones et une couche de sortie avec également deux neurones. La fonction
sigmoïde, gure 3.4, est utilisée comme activation de chaque neurones du réseau. La
fonction sigmoïde est présentée dans la formule suivante :

1
f (x) = (3.6)
1 + e−x
La fonction sigmoïde est dérivable et sa dérivée est donnée par l'expression suivante :

∂f (x)
= f (x)(1 − f (x)) (3.7)
∂x
L'apprentissage des paramètres du réseau suivant l'algorithme de descente de gradient
se fait de la manière suivante :
 La première étape consiste à initialiser les paramètres du réseaux. Généralement
des poids aléatoires échantillonnés d'une distribution gaussienne sont utilisés [82].

 Après l'initialisation des poids, les premières données d'apprentissage sont propa-
gées dans le réseau an d'obtenir un vecteur de sortie. La sortie nale du réseau
est obtenue en calculant hiérarchiquement l'activation des neurones à travers les

63
Chapitre 3. Apprentissage non supervisé

Figure 3.4  Fonction d'activation sigmoïde.

diérentes couches du réseau (de la couche la moins profonde à la plus profonde).


Dans les couches cachées la valeur d'activation aj d'un neurone j en fonction de
ses entrées i est donnée par la formule suivante :
X
aj = f ( wij ai ) (3.8)
i=1

où wij est le poids de la connexion reliant le neurone i avec le neurone j et f la


fonction d'activation.
De même pour ce qui est la couche de sortie, l'activation sk d'un neurone k en
fonction de ses entrées j est donnée par l'équation :

X
sk = f ( vjk aj ) (3.9)
j=1

 Une fois la sortie et les diérentes activations du réseau obtenues, l'étape suivante
est le calcul et la rétropropagation de l'erreur.
L'erreur entre la sortie du réseau et la valeur souhaitée Y est obtenue grâce la
formule suivante :

∂E
δk = = (yk − sk )sk (1 − sk ) (3.10)
∂sk
L'erreur est ensuite rétropropagée pour les couches intermédiaires comme suit :

∂E X
δj = = aj (1 − aj ) vjk δk (3.11)
∂aj k=1

 Une fois les erreurs obtenus, elles sont utilisées dans la dernière étape qui consiste
en la mise à jour des poids du réseau.
Les poids de la couche de sortie :

vjk = vjk + ηδk aj (3.12)

64
3.2. Autoencodeur convolutif pour la détection d'événement anormaux

Les poids des couches intermédiaires :

wij = wij + ηδj ai (3.13)

Ce processus apprentissage est répété jusqu'à convergence du réseau.

3.2.4 Descente de gradient par lots

Algorithme 4 : Descente de gradient par lots

Initialisation aléatoire des poids du réseau : θ = θ0 ;


while Condition d'arrêt non atteinte do
Blot = N couples (X, Y) tirés au hasard et sans remise de B;
for Chaque couple (X, Y ) de Blot do
Sk =Propagation de Xk ;
∇Jk (θ)=retropagation de (Yk − Sk );
end

∇J(θ) = N1 N
P
k=1 ∇Jk (θ);
θ = θ − η × ∇J(θ);
end

Dans la méthode de descente de gradient standard présentée dans l'algorithme 3, les


poids ne sont remis à jour qu'une fois le gradient de l'erreur calculé pour tous les exemples
d'apprentissage. Procéder de cette manière est un moyen ecace pour atteindre les mi-
nimas de la manière la moins bruyante ou la moins aléatoire possible. Cependant, cette
stratégie engendre un apprentissage particulièrement lent et d'une complexité calculatoire
élevée, particulièrement pour les grand ensemble d'apprentissage. An d'y remédier, une
stratégie diérente nommée descente de gradient stochastique SGD (Stochastic gradient
descent) est utilisée. Dans cette dernière, pour chaque itération le gradient de la fonc-
tion de coût est calculé et utilisé pour mettre à jour les poids du réseau pour un seul
exemple d'entraînement choisi aléatoirement. Avec la SGD, puisqu'un seul échantillon de
l'ensemble de données est choisi aléatoirement pour chaque itération, le chemin emprunté
par l'algorithme pour atteindre les minimas est habituellement plus bruité que pour la
descente de gradient standard. Cependant, le chemin parcouru par l'algorithme n'est pas
d'une importance cruciale, tant que les valeurs optimales des poids sont atteintes avec un
temps d'apprentissage signicativement plus court.
Une dernière stratégie permet de trouver un compromis entre les deux précédentes
en proposant un apprentissage basé sur des lots (mini-batch training). Les données d'ap-
prentissage sont divisées en lots et les poids du réseau sont mis à jour à la n de chaque
lot, algorithme 4. Cette stratégie permet des mises à jour des poids plus rapides tout en
limitant la quantité de bruit propre à la SGD.

3.2.5 Méthode proposée


An de nous défaire de toutes dépendances vis à vis des bases de données supervisées
et des modèles préentrainés, nos proposons dans cette section une méthode basée sur

65
Chapitre 3. Apprentissage non supervisé

l'utilisation d'un autoencodeur convolutif. Le CAE au même titre que l'autoencodeur tra-
ditionnel peut être utilisé de deux manières diérentes pour la détection des anomalies. La
première stratégie se base sur l'hypothèse selon laquelle l'erreur de reconstruction serait
plus élevée pour les données anormales que le réseau n'aurait pas appris à reconstruire
durant la phase d'apprentissage. La seconde stratégie, quant à elle, consiste à utiliser
le CAE comme un extracteur de représentations qu'on viendrait ensuite classer pour
dissocier entre les éléments normaux et anormaux. Dans la littérature, la majorité des
méthodes de détection d'événements anormaux qui utilise des autoencodeur convolutifs
se basent sur l'erreur de reconstruction pour détecter les anomalies. Cependant, dans la
détection d'événements anormaux, en particulier dans un contexte vidéo, les événements
normaux et anormaux sont composés des mêmes éléments de base. Souvent, ce sont leurs
comportements, leur contexte ou leurs interactions avec d'autres éléments de la scène qui
dénissent leur normalité ou anormalité. On peut voir dans la gure 3.5 des exemples
d'images normales et anormales reconstruites par notre CAE dont l'architecture est pré-
sentée dans la gure 3.6. Le CAE a été entraîné uniquement avec des images normales.
Cependant, compte tenu de la similarité entre les images normales et anormales, le réseau
arrive à reconstruire les deux catégories d'images. En utilisant Le CAE comme un ex-
tracteur de caractéristiques, on minimise l'impact que pourrait avoir une reconstruction
correcte par l'autoencodeur des régions anormales. Puisque, les représentations extraites
par le CAE seront exploitables dans les deux cas qui consistent en une reconstruction
correcte et une reconstruction altérée de la région anormale. En eet, en supposant que
l'AE n'arrive pas à reconstruire la région anormale et qu'il renvoie à la place des mo-
tifs déformés, cela impliquerait que les représentations latentes, relatifs à cette région de
l'image, seront bruitées et donc potentiellement isolables par un classieur. Dans le cas
contraire, où les régions anormales seront correctement reconstruites, cela voudrait dire
que ces dites représentations sont susamment discriminatives pour dissocier grâce à elle,
les régions normales des régions anormales.
D'autre part, nous avons démontré dans le chapitre précédent que le FCN pouvait
être un outil ecace pour la détection et la localisation des événements vidéos anormaux.
Nous allons donc, dans ce qui va suivre, adapter un CAE an d'obtenir un FCN utilisable
pour extraire des représentations spatiotemporelles robustes qui permettent à travers leurs
classication de détecter et localiser les événements anormaux.

Architecture du réseau

La gure 3.6 illustre l'architecture du réseau proposé. Il est constitué de quatre couches
de convolution 3D et quatre couches de déconvolution 3D. La fonction tangente hyper-
bolique, équation 3.14, est utilisée comme fonction d'activation non linéaire après chaque
couche de convolution et de déconvolution.

2
f (x) = tanh(x) = +1 (3.14)
1 + e−2x
Le tableau 3.1 illustre les paramètres détaillés de ces diérentes couches.
Contrairement à d'autres autoencodeurs convolutifs gurant dans la littérature, basés sur
des opérations de convolution et de déconvolution 2D [30, 99], notre réseau utilise des

66
3.2. Autoencodeur convolutif pour la détection d'événement anormaux

Figure 3.5  Reconstruction d'images avec un autoencodeur convolutif. En haut les


images originales (à gauche une image normale et à droite une image anormale).

couches de convolution et de déconvolution 3D, ce qui lui permet d'extraire des représen-
tations spatiotemporelles capables de décrire des formes et des mouvements. Le réseau
proposé est dénué de couches de pooling, principalement pour permettre d'obtenir des
cartes de caractéristiques avec une résolution élevée. En omettant les couches de pooling,
les vecteurs de caractéristiques sont connectés à des champs récepteurs plus petits, cela
permet notamment d'améliorer la précision lors de la localisation des anomalies. Le ré-
seau prend en entrée des volumes vidéo constitués de trois frames consécutives dans l'axe
temporel. Pour chaque volume X = {It , It−1 , It−2 }, le réseau reconstruit en sortie X̂ un
volume de même dimension que X . L'entraînement du réseau se fait grâce à un algorithme
de descente de gradient en ayant comme objectif de minimiser l'erreur de reconstruction.
Il est important de signaler que le réseau proposé est conçu pour prendre trois frames en
entrée car il a été démontré dans le chapitre précédent que cette longueur temporelle est
adaptée à la base de données UCSD Ped2. Cependant, le réseau peut être étendu à des
longueurs temporelles plus importantes pour des événements plus complexes.

Détection des anomalies

Une fois l'autoencodeur convolutif formé et entraîné, on extrait l'encodeur, gure 3.7
an de l'exploiter comme extracteur de caractéristiques. En eet, l'encodeur de notre
CAE est constitué uniquement de couches de convolutions et de fonctions d'activation et
ne contient pas de couches entièrement connectées. Il peut donc constituer en l'état un
FCN exploitable pour l'extraction de représentations spatiotemporelles. Durant la phase
d'apprentissage l'autoencodeur a été entraîné à extraire des représentations, à travers

67
Chapitre 3. Apprentissage non supervisé

Figure 3.6  Architecture du CAE proposée.

l'encodeur, contenant les informations nécessaires pour reconstruire les volumes vidéo
d'entrée. En d'autre termes, l'encodeur est capable de fournir des caractéristiques ro-
bustes et descriptives des formes et des mouvements présents dans les volumes d'entrée.
227×227×3
Pour chaque volume X ∈ R , le réseau renvoie une carte de caractéristiques
26×26×256 256
F ={fi : i = 1, ..., 26 × 26}, F ∈ R . Chaque vecteur de caractéristiques f ∈ R
est connecté à un patch du volume d'entrée de taille 27 × 27.
An de détecter les anomalies, on utilise la même méthode de classication présenté pré-
cédemment. On mesure la distance de Mahalanobis entre l'ensemble des vecteurs de ca-
ractéristiques normaux, extraient des images d'entraînement, et les vecteur de tests. Dans
le cas où la distance excède un seuil β, le vecteur de caractéristique est classé comme
outlier et la région de l'image à la quelle il est connecté est étiquetée comme anormale.

3.2.6 Résultats expérimentaux


Notre méthode a été implémentée en python. Pour la partie apprentissage profond nous
avons utilisé Keras [150]. Keras est une bibliothèque modulaire développée en python, elle
permet d'exploiter d'une manière simple et ecace de nombreuses architectures de réseaux
de neurones. Keras peut être exploité avec diérents back-ends, nous avons choisi de la
combiner avec Tensorow [131].
An d'évaluer notre méthode et de la comparer aux méthodes de la littérature ainsi
qu'à celles présentées dans le chapitre 2, on a utilisé la base de données UCSD Ped2 [132].
La gure 3.8 présente quelques résultats qualitatifs obtenus sur cette base de donnée.

68
3.2. Autoencodeur convolutif pour la détection d'événement anormaux

Table 3.1  Paramètres du CAE.


Couche Filtres Noyau (h,w,d) Stride (h,w,d) Padding Output
Entrée / / / / [227,227,3]
Conv1 64 [11,11,1] [2,2,1] / [109,109,3,64]
Conv2 96 [3,3,1] [1,1,1] / [107,107,3,96]
Conv3 128 [3,3,3] [2,2,1] / [53,53,1,128]
Conv4 256 [3,3,1] [2,2,1] / [26,26,1,256]
Deconv1 256 [3,3,1] [2,2,1] / [53,53,1,256]
Deconv2 128 [3,3,3] [2,2,1] / [107,107,3,128]
Deconv3 96 [3,3,1] [1,1,1] / [109,109,3,96]
Deconv4 1 [11,11,1] [2,2,1] / [227,227,1]
Sortie / / / / [227,227,3]

Figure 3.7  Détection des événements anormaux proposé.

Les images sont extraites des vidéos brutes et redimensionnées pour avoir une taille de
227 × 227, on leur soustrait les images moyennes avant d'appliquer une mise à l'échelle
pour obtenir des pixels compris entre −1 et 1. La base de données contient seulement
2550 images d'entraînement, un nombre d'images très réduit en comparaison aux millions
d'images contenus dans ImageNet. Pour l'entraînement du réseau, nous avons adopté une
méthode d'augmentation de données (data augmentation) dans l'axe temporel. Pour se
faire, les volumes vidéo sont formés grâce à trois pas (stride) diérents, 1, 2 et 3, en
utilisant l'expression suivante :

X = {It , It−S , It−2S } (3.15)

où S est la valeur du pas à eectuer dans l'axe temporel entre une image et une autre
pour construire les volumes. Après l'augmentation de données, 90% des volumes résultants
sont dédiés à l'apprentissage et les 10% restants à la validation du réseau. Durant la phase
d'apprentissage, l'erreur quadratique présentée dans l' équation 3.3 a été adoptée comme
fonction de perte. Nous avons opté pour la descente de gradient par lots (mini batches) à
travers l'algorithme Adadelta [151]. Des lots (mini batches) de 16 ont été utilisé avec un
taux d'apprentissage initiale (learning rate) de 1. La gure 3.9 présente la progression de
l'erreur durant l'apprentissage du réseau.
Nous utilisons la courbe ROC, le EER ainsi que l'AUC pour évaluer notre méthode et

69
Chapitre 3. Apprentissage non supervisé

comparer ses résultats à ceux obtenus précédemment. La gure 3.10 présente les courbes
ROC obtenus pour notre méthode au niveau de l'image et du pixel. L'AUC au niveau de
l'image est de 87% et au niveau du pixel de 79%. Le tableau 3.2 présente la comparaison
de notre méthode avec l'état de l'art en terme de EER. Au niveau de l'image notre
méthode obtient un EER de 19% et au niveau du pixel de 24.1%. Compte tenu de ces
résultats, notre méthode se positionne de manière concurrentielle vis-à-vis de l'état de
l'art. Elle obtient des résultats supérieurs à ceux obtenus grâce au FCN2D extrait de
VGG. Cependant ils restent inférieurs à ceux obtenus grâce au FCN3D dérivé du Res3D.

Table 3.2  Comparaison en terme de EERFL et EERPL sur la base de données UCSD
Ped2.

Méthode EERFL EERPL


Mehran [136] 42 80
Adam [61] 42 76
Bertini [137] 30 /
Kim(MPCCA) [80] 30 71
Zhou [25] 24,40 /
Mahadevan(MDT) [51] 24 54
Hasan [30] 21,7 /
Reddy [48] 20 /
Sabokrou [138] 19 24
Li [135] 18,50 29,90
Ravanbakhsh [91] 18 /
Xu (AMDN double fusion) [73] 17 /
Sabokrou [139] 15 18
Ravanbakhsh (GAN) [109] 14 /
Boiman(IBC) [140] 13 26
Roshtkhari(STC) [29] 13 26
Chong [99] 12 /
Xiao [76] 10 17
Sabokrou [93] 11 15
Sabokrou [100] 8,2 19
FCNV GG 26,3 31,2
SC1 10,6 13,8
SC2 10,5 13,3
FCNCAE 19 24,1

3.3 Réseau de neurones convolutifs à deux ux pour la


détection d'événement vidéo anormaux
Récemment, des réseaux de neurones profond à deux ux ont été utilisés avec succès
pour la reconnaissance d'action [152, 153]. Sur la base de ce concept, nous proposons une

70
3.3. Réseau de neurones convolutifs à deux ux pour la détection d'événement vidéo anormaux

nouvelle architecture à deux ux, appliquée à la détection des événements vidéos anor-
maux. Le réseau proposé est composé de deux FCNs placés en parallèles, gure 3.13. Le
premier entraîné avec des séquences d'images et le deuxième avec des représentations de
ux optiques extraites de ces mêmes images. En exploitant en plus des volumes vidéos,
leurs représentations en terme de ux optique, le réseau est capable d'extraire plus d'in-
formation et décrire plus ecacement les mouvements contenus dans une scène surveillée.
Dans [87], un réseau à deux ux exploitant le ux optique a été proposé pour la détec-
tion d'événement anormaux. Cependant, le réseau est constitué de deux CNNs et donc
nécessite un apprentissage supervisé avec des bases de données étiquetées. Contrairement
aux réseaux à deux ux entraînés de manière supervisée sur de grande base de données
étiquetées [152, 153, 87], Le réseau qu'on propose est obtenu grâce à un apprentissage non
supervisé en utilisant un nombre réduit d'images. En eet, les deux FCNs formant notre
réseau sont des encodeurs extrais de deux autoencodeurs convolutifs, le premier entraîné
à reconstruire des séquences d'images et le second à reconstruire des représentations de
ux optique.

3.3.1 Flux optique


Le ux optique est un descripteur du mouvement apparent d'une scène. Il permet
d'extraire des informations importantes sur l'agencement spatial des objets et sur leurs
évolutions. Le ux optique est généralement obtenu en observant la variation des pixels
dans le domaine temporel entre deux images adjacentes. Il se présente sous forme de
vecteurs de déplacement, montrant le mouvement des pixels de la première image à la
seconde dans les axes orthogonaux de l'image. Généralement le ux optique est causé
par le déplacement des objets de premier plan, mais il peut être causé également par le
déplacement de la camera ou la combinaison des deux.
La gure 3.11 présente deux images consécutives capturées avec exactement les mêmes
conditions de luminosité et à un intervalle de temps dt. Considérant I(x, y, t) un pixel sur
la première image et (dx, dy) le déplacement du dit pixel entre la première et la seconde
images. Puisque ce pixel est le mêmes sur les deux images et que son intensité ne change
pas, on peut armer :

I(x, y, t) = I(x + dx, y + dy, t + dt) (3.16)

En supposant que le mouvement soit petit et en utilisant le développement en série


de Taylor on obtient :

∂I ∂I ∂I
I(x + dx, y + dy, t + dt) = I(x, y, t) + dx + dy + dt + H (3.17)
∂x ∂y ∂t

où H représente des termes d'ordre supérieur.


En utilisant les équations 3.16 et 3.17, on obtient :

∂I ∂I ∂I
dx + dy + dt = 0 (3.18)
∂x ∂y ∂t

71
Chapitre 3. Apprentissage non supervisé

Et en divisant par dt, on obtient :

∂I ∂I ∂I
u+ v+ dt = 0 (3.19)
∂x ∂y ∂t
dx dy
tel que u = et v = sont les composantes de la vitesse ou le ux optique de I(x, y, t)
dt dt
∂I ∂I ∂I
et , , sont les dérivées partielles de l'image à (x, y, t). Étant donné que u et v
∂x ∂y ∂t
sont les deux inconnus, l'équation 3.18 ne peut pas être directement résolue. Plusieurs
méthodes ont donc été proposées pour résoudre ce problème et l'une d'entre elles et la
méthode de Farneback.

La méthode de Farneback

La méthode de Farneback [16] est une méthode d'estimation du ux optique. La mé-
thode suppose que le voisinage d'un pixel peut être estimé en utilisant un polynôme
quadratique, ce qui donne le modèle du signal local représenté dans un système de coor-
données locales.

f (x) ∼ xT Ax + bT x + c (3.20)

où A est une matrice symétrique, b un vecteur et c un scalaire.

Dans un cas d'une translation idéale, le déplacement d peut être obtenu en calculant
les polynômes de voisinage sur deux images consécutives. Le signal f1 relatif à la première
image est donné par l'expression :

f1 (x) = xT A1 x + b1 T x + c1 (3.21)

et le signal f2 , obtenu après un déplacement global d, est donné par l'expression :

f2 (x) = f1 (x − d) = (x − d)T A1 (x − d) + bT1 (x − d) + c1 (3.22)

= xT A1 x + (b1 − 2A1 d)T x + dT A1 d − bT1 d + c1 (3.23)


T
= x A2 x + bT2 x + c2 (3.24)

En assumant que la luminosité est constante entre les deux images, on peut dénir une
équivalence entre les coecients des deux polynômes :

A2 = A1 (3.25)

b2 = b1 − 2A1 d (3.26)

c2 = dT A1 d − bT1 d + c1 (3.27)

72
3.3. Réseau de neurones convolutifs à deux ux pour la détection d'événement vidéo anormaux

En considérant l'équation 3.26 et en supposant la matrice A inversible, nous pouvons


calculer la valeur du déplacement (i. e. le ux optique) de la manière suivante :

1
d = − A−1 (b2 − b1) (3.28)
2 1
Il est stipulé dans [16], que l'hypothèse selon laquelle un signal entier serait un poly-
nôme unique et celle de la translation globale reliant les deux signaux sont assez irréalistes.
L'auteur de [16] considère donc des approximations polynomiales locales et introduit les
approximations suivantes :

A1 (x) + A2 (x)
A(x) = (3.29)
2

1
∆b(x) = − (b2 (x) − b1 (x)) (3.30)
2
pour obtenir la contrainte primaire :

A(x)d(x) = ∆b(x) (3.31)

où d(x) indique le remplacement du déplacement globale de l'équation 3.22 par un champ


de déplacement variable dans l'espace.
En principe l'équation 3.31 peut être résolue de manière ponctuelle. Cependant, pour évi-
ter le bruit, l'auteur propose d'induire l'hypothèse selon laquelle le champ de déplacement
ne varie que lentement, de telle sorte que des informations sur un voisinage de chaque pixel
peuvent être intégrées. Ainsi le problème est de trouver dx qui satisfait l'équation 3.31
aussi bien que possible sur un voisinage I de x, ce qui revient à minimiser l'expression :

X
w(∆x)kA(x + ∆x)dx − ∆b(x + ∆x)k2 (3.32)
∆x∈I

tel que, w(∆x), une fonction de poids pour les points du voisinage.
Le minimum est obtenu pour :
X X
d(x) = ( wAT A))−1 wAT ∆b (3.33)

3.3.2 Méthode proposée


Architecture du réseau

La gure 3.12 illustre l'architecture globale de notre réseau. Il est composé de deux
autoencodeurs convolutifs dont l'architecture est similaire à celle décrites dans la section
3.2.5. Chaque CAE est composé de quatre couches de convolution et de déconvolution et
la fonction tangente hyperbolique est utilisée comme fonction d'activation de chacune des

73
Chapitre 3. Apprentissage non supervisé

couches. Les couches des deux CAEs partagent les mêmes paramètres (Nombre et taille
des ltres de convolution, stride et padding) et sont similaires à ceux présentés dans le
tableau 3.1.
Les deux réseaux prennent en entrée des données diérentes. Le premier réseau prend en
entrée un volume constitué de trois images consécutives dans l'axe temporel, quant au
deuxième un volume formé des représentations de ux optique relatives aux images du pre-
mier volume. Chacun des réseaux retourne en sortie la reconstruction du volume qu'il lui a
été introduit. Pour les volumes d'entrée X1 = {It , It−1 , It−2 } et X2 = {OFt , OFt−1 , OFt−2 },
les réseaux reconstruisent en sortie X̂1 et X̂2 deux volumes de même dimension que X1
et X2 .

Détection des anomalies

Une fois les deux autoencodeurs convolutifs formés et entraînés, la partie encodage
de chacun d'entre eux est extraite pour obtenir deux FCNs, un ST-FCN (spatiotemporal
FCN) et un OF-FCN (optical ow FCN). Les deux FCNs sont ensuite fusionnés pour
obtenir un réseau à deux ux utilisé comme extracteur de caractéristiques, gure 3.13. Le
ST-FCN permet d'extraire des représentations spatiotemporelles descriptives des formes et
des mouvements et le OF-FCN permet de renforcer la description du mouvement dans les
dites représentations. Une fois fusionné les deux FCN permettent d'extraire des représenta-
tions robustes et exploitables pour la détection et la localisation des événements anormaux.
227×227×3 227×227×3
Pour chaque couple de volumes X1 ∈ R et X2 ∈ R , le réseau renvois deux
cartes de caractéristiques F1 ={f1,i : i = 1, ..., 26 × 26} et F2 ={f2,i : i = 1, ..., 26 × 26},
F1 ∈ R26×26×256 et F2 ∈ R26×26×256 . Les deux cartes de caractéristiques sont ensuite
concaténées pour obtenir une carte de caractéristiques globale F ={fi : i = 1, ..., 26 × 26},
F ∈ R26×26×512 . Chaque vecteur de caractéristiques f ∈ R512 est connecté à un patch
de taille 27 × 27 dans les volumes d'entrée. Le vecteur fi est composé non seulement des
caractéristiques extraites des images par le ST-FCN, mais également enrichi par les carac-
téristiques extraites par le OF-FCN grâce au représentations de ux optique. Cela permet
de fournir une description spatiotemporelles robuste de chaque patch de la séquence vidéo
analysée. La détection des anomalies se fait à l'aide de la distance de Mahalanobis comme
décrit précédemment.

3.3.3 Résultats expérimentaux


La méthode présenté dans cette section a été implémentée en python en utilisant Keras
[150] et Tensorow [131]. Comme les autres méthodes présentées précédemment dans le
cadre de cette thèse, notre réseau à deux ux a été évalué sur la base de données UCSD
Ped2 [132]. Les images sont extraites des vidéos brutes et redimensionnées pour avoir une
taille de 227, on leur soustrait ensuite les images moyennes avant d'appliquer une mise à
l'échelle pour obtenir des pixels compris entre −1 et 1. Les représentations de ux optique
sont obtenus en utilisant la méthode de Farneback [16] avant d'être normalisées entre -1
et 1. Pour augmenter le nombre de données d'entraînement, nous avons appliqué la même
méthodes d'augmentation de donnée que celle utilisée dans la section 3.2.6, que ce soit
pour les images que pour les représentations de ux optique. Les données d'entraînement

74
3.4. Conclusion

(volumes vidéo et volumes de ux optique) pour les deux réseaux ont été partitionnées
en 90% dédiés à l'apprentissage et 10% à la validation. Durant la phase d'apprentissage,
l'erreur quadratique moyenne a été adoptée comme fonction de perte des deux réseaux.
L'apprentissage du réseau entraîné avec des images s'est fait avec l'algorithme Adadelta
avec un taux d'apprentissage initial de 1 et des lots (mini batches) de taille de 16. La
gure 3.9 présente la progression de l'erreur durant la phase d'entraînement. Le réseau
entraîné avec des représentations de ux optique quant à lui a été entraîné en utilisant
Adam avec un taux d'apprentissage de 0,001 et une taille de lot égal à 16. La gure 3.14
présente l'évolution de l'erreur de reconstruction durant l'entraînement du réseau.
La gure 3.15 présente les courbes ROC relatives à notre réseau à deux ux (TS-
FCN). Au niveau de l'image, le TS-FCN obtient une AUC de 87% et au niveau du pixel
de 79%, ce qui représente une nette progression en comparaison au réseau à un seul
ux FCNCAE présenté dans la section 3.2. Le tableau 3.3 présente un comparatif en
terme de EER. Le TS-FCN obtient un EERFL de 13.2% et un EERPL de 19,4%, ce qui
représente une amélioration de 5.8% au niveau de l'image et de 4.7% au niveau du pixel par
rapport au réseau FCNCAE . La gure 3.16 présente quelques exemples de fausse alarmes et
manques de détection survenu avec le (FCNCAE ), on constate que ces erreurs sont corrigées
par l'usage du réseau à deux ux. Cela démontre la pertinence de cette architecture et
l'intérêt d'exploiter les représentations de ux optique. Par rapport au reste des méthodes
présentées dans le tableau, le TS-FCN se positionne parmi les méthodes les plus ecaces,
néanmoins les résultats en terme de EER et d'AUC restent inférieurs à ceux obtenus avec
le FCNRes3D .

3.4 Conclusion
Dans la première partie de ce chapitre, nous avons proposé une nouvelle architecture
non supervisée basée sur un autoencodeur convolutif pour l'extraction de cartes de carac-
téristiques spatiotemporelles. À travers cette architecture que nous avons combiné avec
un classieur exploitant la distance de Mahalanobis, nous avons pu démontré l'intérêt
des réseaux de neurones non supervisé pour la détection et la localisation des événements
vidéos anormaux. Dans la deuxième partie de ce chapitre nous avons tiré prot de cette
architecture pour construire un réseau à deux ux exploitant à la fois les images et leurs
représentations en terme de ux optique. Ce réseau s'est révélé capable d'obtenir des des-
cripteurs de mouvement robustes et exploitables pour la caractérisation des événements
vidéos. Grâce à cette architecture à deux ux, on a constaté une nette amélioration en
terme de résultats qualitatif et quantitatifs obtenus sur la base de donnée UCSD Ped2.
Cette amélioration s'explique notamment par le renforcement des représentations par des
descripteurs de mouvement extraits grâce au second réseau exploitant le ux optique.
Nous avons également mis en évidence la pertinence de nos méthodes en les comparant
avec les travaux proposées dans le second chapitre ainsi que ceux de l'état de l'art.

75
Chapitre 3. Apprentissage non supervisé

Table 3.3  Comparaison en terme de EERFL et EERPL sur la base de données UCSD
Ped2.

Méthode EERFL EERPL


Mehran [136] 42 80
Adam [61] 42 76
Bertini [137] 30 /
Kim(MPCCA) [80] 30 71
Zhou [25] 24,40 /
Mahadevan(MDT) [51] 24 54
Hasan [30] 21,7 /
Reddy [48] 20 /
Sabokrou [138] 19 24
Li [135] 18,50 29,90
Ravanbakhsh [91] 18 /
Xu (AMDN double fusion) [73] 17 /
Sabokrou [139] 15 18
Ravanbakhsh (GAN) [109] 14 /
Boiman(IBC) [140] 13 26
Roshtkhari(STC) [29] 13 26
Chong [99] 12 /
Xiao [76] 10 17
Sabokrou [93] 11 15
Sabokrou [100] 8,2 19
FCNV GG 26,3 31,2
FCNRes3D SC1 10,6 13,8
FCNRes3D SC2 10,5 13,3
FCNCAE 19 24,1
TS-FCN 13,2 19,4

76
3.4. Conclusion

(a) (b)

(c) (d)

(e) (f )

Figure 3.8  Détection d'événements anormaux dans la base de données UCSD Ped2. (a)
détection d'un vélo, (b) détection d'un vélo, (c) détection de plusieurs vélos, (d) détection
d'une voiture , (e) détection de cibles multiples (vélos et voiture), (f ) détection de cibles
multiples (vélo et skateur).

77
Chapitre 3. Apprentissage non supervisé

Figure 3.9  Courbe d'apprentissage du CAE.

1.0 1.0

0.8 0.8

0.6 0.6
TPRPL
TPRFL

0.4 0.4

0.2 0.2

0.0 0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
FPRFL FPRPL

(a) (b)

Figure 3.10  Courbe ROC, (a) au niveau de l'image et (b) au niveau du pixel.
AUCFL=87%, AUCPL=79%. EERFL=19%, EERPL=24,1%.

Figure 3.11  Déplacement de pixels à travers deux images consécutives

78
3.4. Conclusion

Figure 3.12  Architecture des deux autoencodeurs convolutifs.

Figure 3.13  Détection des événements anormaux proposé.

79
Chapitre 3. Apprentissage non supervisé

Figure 3.14  Courbe d'apprentissage du CAE entrainé avec des représentations de ux
optique.

1.0 1.0

0.8 0.8

0.6 0.6
TPRPL
TPRFL

0.4 0.4

0.2 0.2

0.0 0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
FPRFL FPRPL

(a) (b)

Figure 3.15  Courbe ROC, (a) au niveau de l'image et (b) au niveau du pixel.
AUCFL=92%, AUCPL=85% EERFL=13,2%, EERPL=19,4%.

80
3.4. Conclusion

(a) (b)

(c) (d)

(e) (f )

Figure 3.16  Exemples de fausses alarmes et manques de détection rectiées par le


réseau à deux ux.

81
Chapitre 3. Apprentissage non supervisé

82
4
Apprentissage en classe unique

4.1 Introduction
Dans le chapitre précédent, nous avons proposé deux méthodes basées sur des autoen-
codeurs convolutifs, dans l'optique de se soustraire à l'utilisation des réseaux préentrainés.
Ces méthodes ont démontré des résultats intéressants en comparaison avec l'état de l'art.
Néanmoins, ces résultats restent inférieurs à ceux obtenus dans le second chapitre à l'aide
des réseaux préentrainés de manière supervisé à la reconnaissance d'actions. Cela s'ex-
plique notamment par le fait que les autoencodeurs convolutifs sont en mesure de fournir
des représentations descriptives, mais ne garantissent pas forcement la compacité de l'en-
semble des représentations relatives à la classe normal. En eet, dans une tâche de classi-
cation ou de reconnaissance de forme en générale, les représentations doivent respecter
deux critères essentiels [123]. Le premier critère concerne la distance inter-classe, cette dis-
tance doit être susamment importante pour pouvoir dissocier les éléments appartenant
à ces dites classes. Ce critère est généralement assuré par la représentativité (descriptive-
ness) des représentations. Plus les représentations sont aptes à décrire de manière précise
les données, plus les représentations d'éléments apprenants à des classes diérentes se-
ront éloignées dans l'espace des caractéristiques. Le deuxième critère concerne la distance
intra-classe, ce dernier est assimilé à la compacité des représentations appartenant à la
même classe. Le cas idéal serrait d'obtenir la même représentation pour des données dif-
férentes appartenant à la même classe, cela simplierait grandement leur isolation des
autres classes. Néanmoins, dans les cas réels, on se satisfait d'obtenir un cluster susam-
ment compacte pour représenter les échantillons de la même classe.
En utilisant des autoencodeur convolutifs, nous avons pris en considération le critère
de représentativité, mais avons omis le second critère relatif à la compacité. En eet,
entraîner un réseau à reconstruire les données d'entrée à travers une extraction de ca-
ractéristiques, permet d'assurer que ces caractéristiques soit susamment représentatives
pour décrire les données. Cependant, la compacité des représentations relatives à la classe
cible n'est pas garantie. On propose donc dans ce chapitre d'étudier diérentes stratégies
pour respecter à la fois la représentativité et la compacité des caractéristiques extraites.
Nous allons débuter ce quatrième chapitre par une brève analyse sur l'apprentissage en
classe unique dans le cadre des réseaux de neurones convolutifs. Nous allons ensuite intro-

83
Chapitre 4. Apprentissage en classe unique

duire une méthode d'apprentissage originale qui assure à la fois la représentativité ainsi
que la compacité des représentations. Dans la seconde partie de ce chapitre nous allons
explorer des architectures profondes an d'exploiter de manière optimale cette méthode
d'apprentissage en classe unique.

4.2 Réseau de neurones convolutifs à classe unique


En entraînant un réseau de neurones multi-classe, les deux critères compacité et repré-
sentativité sont satisfaits. En eet, durant l'apprentissage, le réseau va progressivement
regrouper les représentations de la même classe toute en éloignant les représentations des
classes diérentes dans l'espace des caractéristiques et ce dans le but de pouvoir les disso-
cier. Cela va permettre à terme d'engendrer des clusters distincts et facilement séparables
pour les diérentes classes. En revanche dans un problème à classe unique, telle que la
détection d'événements vidéos anormaux, la tâche est plus ardue. Compte tenu du fait
que des données d'une seule classe sont disponibles, le réseau peut à terme apprendre une
solution triviale en raison de l'absence de pénalité en cas de mauvaise classication. Dans
ce cas, les représentations apprises seront compactes mais ne seront pas descriptives, ce
qui peut engendrer des confusions entre les échantillons de la classe cible et les outliers.
Récemment des travaux de la littérature ont abordé ce problème. Dans [122], une
méthode nommée Deep SVDD est introduite pour l'apprentissage à classe unique. La
méthode est inspirée du SVDD (Support Vector Data Description), elle consiste à entrainer
un réseau de neurones, dans l'objectif d'extraire des représentations regroupées dans une
hypersphère de volume minimal. L'apprentissage du réseau se fait grâce à la fonction
objective suivante :

N L
1 X λ X
min kΦ(xi , W ) − ck2 + kW k2F (4.1)
W N i=1 N l=1

ou,Φ(xi , W ) est la représentation extraite par le réseau pour une donnée xi , N le nombre
de données d'apprentissage et c est le centre de l'hypersphère à minimiser. Le second
terme est un régularisateur d'hyperparamètre λ > 0 et L le nombre de poids en entrai-
nables dans le réseau. À travers cette fonction objective le réseau de neurones, durant son
apprentissage, va contracter la sphère en minimisant la distance moyenne de toutes les
représentations de données par rapport au centre. Grâce à ce processus d'apprentissage,
le réseau va apprendre des paramètres lui permettant de lier chaque donnée de la classe
cible à une représentation inclue dans l'hypersphère de centre c. Cette méthode permet
eectivement d'entraîner un réseau de neurones à extraire des représentations formant un
ensemble susamment compacte. Cependant le critère de représentativité n'est pas pris
en considération. En eet, le réseau peu apprendre une solution triviale qui va engendrer
l'extraction de représentations appartenant à la l'hypersphère même si ces représentations
sont relatives à des données anormales.
Une stratégie permettant de prendre en considération de manière simultanée les deux
critères a été proposée dans [123]. Les auteurs proposent une architecture à deux réseaux
en parallèles partageant continuellement les mêmes poids. Les deux réseaux sont entraînés

84
4.2. Réseau de neurones convolutifs à classe unique

avec deux fonctions de perte, une perte de compacité (compactness loss), équation 4.2,
intégrée à la sortie du premier réseau et une perte de représentativité (descriptiveness
loss) intégrée quant à elle à la sortie du second réseau. La perte de représentativité est
une cross entropie standard, largement utilisée dans les problèmes de classication super-
visés. L'apprentissage des deux réseaux fait intervenir deux bases de données distinctes,
une première base cible (target dataset) contenant une seule classe (la classe cible) et
une seconde base référence (reference dataset) contenant quand à elle plusieurs classes
d'images. Durant l'apprentissage, un lot d'image extrait de la base cible est introduit
dans le premier réseau ce qui génère une perte de compacité. Simultanément un deuxième
lot, extrait de la base référence est introduit dans le deuxième réseau, ce qui génère cette
fois ci une perte de représentativité. Les deux pertes sont ensuite additionner et utiliser
pour mettre à jour les poids des deux réseaux de manière identique, le processus est ainsi
répéter jusqu'à convergence des deux réseaux. Cette architecture permet de respecter si-
multanément les critères de descriptivité et de compacité. Néanmoins elle reste fortement
dépendante de la base de données référence.

n
1 X T
LC = z zi (4.2)
nk i=1 i

ou zi est la distance euclidienne entre un échantillons d'entraînement xi et la moyenne


des échantillons appartenant au même lot d'entraînement que xi .

Inspirée par ces deux travaux, on propose une méthode d'apprentissage à classe unique,
utilisant uniquement une base de données cible. En eet grâce à cette méthode, les deux
critères compacité et représentativité seront respectés sans pour autant faire intervenir
d'autres bases de données annexes. Cette méthode permet d'obtenir des représentations
profondes à la fois compactes et représentatives. Pour y parvenir on propose d'utiliser éga-
lement deux fonctions de pertes distinctes. À la diérence de [123], les deux fonctions de
pertes sont exploitées uniquement à l'aide des donnée de la base cible. On propose d'inté-
grer dans un autoencodeur convolutif deux fonctions de perte, une perte de reconstruction
et une perte de compacité. La perte de reconstruction permet d'entraîner le réseaux à ex-
traire des représentations descriptives des données d'entrée. La perte de compacité, quant
à elle, est utilisée an de garantir la compacité des dites représentations.
utres travaux ont été proposé pour des reseaux de neuronnes one classe cependant ces
reseaux utilise une seconde base de donnée extrerne ce qui créé comme c'est le cas pour
le ne tuning une depende'nce au bases de données. alors que notre methode ne se ba se
que sur les donnée de la classe cible.

4.2.1 Méthode proposée


An d'assurer les deux critères compacité et représentativité, nous proposons un ré-
seau de neurones à classe unique, capable à la fois d'extraire des caractéristiques spatio-
temporelles robustes et de générer des représentations compactes des données normales.

85
Chapitre 4. Apprentissage en classe unique

Architecture du réseau

Notre réseau consiste en un autoencodeur convolutif intégrant deux fonctions de pertes,


gure 4.1. Le réseau est constitué de quatre couches de convolution 3D et quatre couches
de déconvolution 3D. La fonction tangente hyperbolique, équation 3.14, est utilisée comme
fonction d'activation non linéaire après chaque couche de convolution et de déconvolution.
Le réseau contient une seule entrée et deux sorties, une à la n de la partie encodeur (sortie
encodeur) et la seconde à la n de la partie décodeur (sortie décodeur). Durant la phase
d'apprentissage, une fonction de perte est reliée à chacune des sorties du réseau. Le réseau
est entraîné en utilisant uniquement des échantillons issus de la classe normale.

Figure 4.1  Architecture du réseau à classe unique.

Fonction de perte

Le processus d'apprentissage du réseaux nécessite deux fonctions de pertes. La pre-


mière est l'erreur quadratique moyenne (MSE) présentée dans l'équation 4.3. De même
que pour un autoencodeur standard, cette fonction est utilisée dans le réseau an de
l'entraîner à minimiser l'erreur entre les données d'entrée X et leurs reconstructions X̂ .
Le réseau extrait des représentations spatiotemporelles à partir desquelles, il reconstruits

86
4.2. Réseau de neurones convolutifs à classe unique

Table 4.1  Paramètres du Réseau.


Couche Filtres Noyau (h,w,d) Stride(h,w,d) Padding Output
Entrée / / / / [227,227,3]
Conv1 64 [11,11,1] [2,2,1] / [109,109,3,64]
Conv2 96 [3,3,1] [1,1,1] / [107,107,3,96]
Conv3 128 [3,3,3] [2,2,1] / [53,53,1,128]
Conv4 256 [3,3,1] [2,2,1] / [26,26,1,256]
Sortie1 / / / / [676,256]
Deconv1 256 [3,3,1] [2,2,1] / [53,53,1,256]
Deconv2 128 [3,3,3] [2,2,1] / [107,107,3,128]
Deconv3 96 [3,3,1] [1,1,1] / [109,109,3,96]
Deconv4 1 [11,11,1] [2,2,1] / [227,227,1]
Sortie2 / / / / [227,227,3]

les données. Une bonne reconstruction des données d'entrée est synonyme de représen-
tations descriptives. À travers cette fonction de perte nous visons à assurer le critère de
représentativité.

N
1 X
E1 = (x̂i − xi )2 (4.3)
N i=1

La seconde fonction de perte, présentée par l'équation 4.4, se traduit sous forme de la
moyenne des distances de Mahalanobis, calculées entre chaque représentation extraite fi
est un centroïde f¯, que nous supposons donné pour le moment. Cette fonction de perte
nous permet de dénir une hypersphère dont le volume est minimisé tout au long de
l'apprentissage du réseau. À terme, le réseau sera capable d'extraire des représentations
contenus dans une hypersphère de volume minimale pour décrire l'ensemble des données
de la classe cible. La distance de Mahalanobis a été adoptée notamment pour ses capacité
à prendre en considération les directions de distribution des données.

M q
1 X
E2 = (fi − f¯) × Q × (fi f¯)T (4.4)
M i=1

Dans le but d'instaurer un équilibre durant le processus d'apprentissage du réseau, les


deux fonctions de pertes sont additionnées en rajoutant des coecients de pondération.
De cette manière, la convergence simultanée des deux objectifs du réseau, à savoir la
compacité et la représentativité, est contrôlée. La fonction de perte globale obtenue est
donnée par l'équation suivante :

E = α1 E1 + α2 E2 (4.5)

Entrainement du réseau

Durant la phase d'apprentissage, pour chaque volume vidéo X ∈ R227×227×3 , le réseau


256
renvois dans la première sortie une carte de caractéristiques F = fi : i = 1, ..., M , f ∈ R

87
Chapitre 4. Apprentissage en classe unique

et dans la seconde sortie X̂ ∈ R227×227×3 la reconstruction du volume d'entrée. An


d'entrainer le réseau, nous mettons durant la première époque le coecient de pondération
α2 à zéro dans l'équation 4.4, ce qui permet d'utiliser uniquement la fonction de perte
de reconstruction, équation 4.3. À la n de la première époque, les représentations des
données de la classe cible sont extraites à travers la sortie encodeur du réseau, on calcule
ensuite f¯ ∈ R
256 256×256
et Q ∈ R respectivement la moyenne et la covariance de ces
représentations.
À partir de la deuxième époque le coecient α2 est mis à une valeur supérieur à zéro, ce
qui permet d'enclencher la fonction de perte de compacité. Cette fonction a pour objectif
d'orienter progressivement le réseau vers l'extraction de représentations regroupées dans
une hypersphère de volume minimal. Pour y parvenir le réseau doit extraire les facteurs
communs des données d'entrée. Étant donné que le réseau n'est entraîné qu'avec des
donnée normales, les représentations relatives à ces données seront projetées par le réseau
à proximité du centre f¯ tandis que les représentations des données anormales seront quand
à elle éloignées de f¯ dans l'espace des caractéristiques. En d'autres termes, la perte de
compacité va permettre de créer une hypersphère de centre f¯ dont la forme prend en
compte la covariance dans chaque direction de caractéristique à travers l'utilisation de
l'inverse de la matrice de covariance Q. Ce processus d'apprentissage va orienter le réseau
à générer des représentations descriptives pour minimiser la perte de reconstruction et
compactes pour satisfaire la perte de compacité.
Pour le calcule de la perte de compacité, nous avons opté pour l'utilisation de f¯, la
moyenne obtenus lors de la première époque, comme centre xe de l'hypersphère englo-
bant les représentations normales. Dans [123], le centre de l'hypersphère est une variable
dynamique, calculée pour chaque lot de données d'entrée. Cependant procéder de telle
manière comporte un risque d'eondrement de l'hypersphère. En eet, le réseau peut
converger vers une solution où tous ses poids sont égal à zéro, de manière à projeter toutes
les données d'entrée vers un même point p0 . Dans cette conguration l'hypersphère sera
caractérisée par un volume nul, ce qui va engendrer une même représentation pour les
donnée normales et anormales. Pour éviter ce cas, l'une des solution est de xer le centre
de l'hypersphère à une valeur diérentes de p0 , [122]. Par ailleurs, le centre doit être un
point de l'espace de caractéristiques accessible au réseau. En d'autre terme le centre choisi
doit être une valeur que les représentations du réseau puissent incarner. En choisissant la
moyenne des représentations obtenus à la suite de la première époque comme centre de
l'hypersphère, on s'assure ainsi que le point est atteignable et qu'il soit diérents du p0 .
Pour ce qui est de la matrice de covariance, nous avons constaté empiriquement qu'on la
remettant à jour, ces valeurs avait tendance à rapidement diminuées, ce qui engendrait
une distance moyenne de Mahalanobis croissantes et à travers elle l'augmentation de la
perte de compacité et donc inévitablement la divergence du réseau. Nous avons donc choisi
de la xer en même que le centre de convergence f¯.

4.2.2 Détection des anomalies


Une fois le réseau à classe unique entrainé, on extrait l'encodeur, gure 4.2 et on l'utilise
comme extracteur de caractéristiques. Compte tenu de l'architecture et de la formation du
réseau, la partie encodage du réseau constitue un extracteur de caractéristiques robuste.

88
4.3. Résultats expérimentaux

Figure 4.2  Détection des événements anormaux proposé.

En eet grâce au deux fonctions objectives proposée, l'encodeur a été entrainé pour non
seulement extraire des représentations spatiotemporelles descriptives des volumes vidéo
d'entrée, mais également fournir un cluster de représentations compacte. La compacité
des représentations a été obtenu en minimisant la distance de Mahalanobis entre un
centroïde et l'ensemble des représentations. Pour rester cohérent, et tirer avantage de
cette compacité des représentations, on propose d'exploiter de nouveau la distance de
227×227×3
Mahalanobis pour détecter les données aberrantes. Pour chaque volume X ∈ R ,
le réseau renvois un ensemble de vecteur de caractéristique F ={fi : i = 1, ..., 26 × 26}.
256
Chaque vecteur de caractéristiques f ∈ R est connecté à un patch du volume d'entrée
de taille 27 × 27.
An de détecter les anomalies, on utilise la même méthode de classication présenté
précédemment. On mesure la distance de Mahalanobis entre l'ensemble des vecteurs de
caractéristiques normaux, extraient des images d'entraînement, et les vecteur de tests.
Dans le cas où la distance excède un seuil β , le vecteur de caractéristique est classé comme
outlier et la région de l'image à la quelle il est connecté est étiquetée comme anormale.

4.3 Résultats expérimentaux


La méthode proposée dans cette section a été implémentée en python en utilisant Ke-
ras [150] et Tensorow [131]. Nous évaluons qualitativement l'intérêt d'intégrer la perte
de compacité dans notre architecture en comparant la compacité de l'ensemble des repré-
sentations obtenu par notre réseau entraîné avec et sans la perte de compacité. La gure
4.3 présente les projections à deux dimensions obtenus par l'intermédiaire de la méthode
t-SNE [20]. Ces représentations sont extraites de quelques images normales de la base de
donnée UCSD Ped2. À gauche on peut voir les représentations extraites par le réseau in-
tégrant uniquement la perte de reconstruction et à droite les représentations obtenus avec
le même réseau, mais cette fois, en intégrant également la perte de compacité. Nous pou-
vons observer que les représentations obtenus avec le réseau intégrant les deux fonctions
de pertes sont bien plus compactes. L'aspect compacte des représentations est également
conrmé par l'évolution de la distance de Mahalanobis entre les représentations normales
et anormales par rapport au centre de l'hypersphère englobant les représentations nor-
males. La gure 4.4 illustre deux cas, le premier cas et relatif à l'utilisation du réseau

89
Chapitre 4. Apprentissage en classe unique

entraîné sans la perte de compacité et le deuxième cas au même réseau entraîné avec
les deux fonctions de pertes. La distance moyenne des représentations normales RN 1 par
rapport au centre de la sphère, dans le premier cas est égal à 59, 9 et la distance moyenne
des représentations anormales RA1 de ce même centre est de 65, 9. Ces distances sont
respectivement de 46.86 et de 59, 02 dans le deuxième cas. La distance entre les représen-
tations normales et anormales est passée de 6 à 12,16. Une distance importante séparant
les représentations normales et anormales facilites la leur distinction par l'intermédiaire
d'un classieur rt par conséquent la détection des événements anormaux. Ces constations
conrment l'impacte positif de l'intégration de la fonction de perte de compacité dans le
réseau. Ces distances on été obtenues sur le premier dossier de la base de données UCSD
Ped2.

La gure 4.5 présente la courbe ROC de notre méthode sur la base de données UCSD
Ped2. L'AUC au niveau de l'image est de 95% et de 91,7% au niveau du pixel. Un com-
paratif incluant notre réseau à classe unique, les travaux proposés précédemment dans
le cadre de cette thèse ainsi que des travaux issus de la littérature est présenté dans le
tableau 4.2. On remarque que l'AUC obtenu par notre réseau à classe unique est la plus
élevée, que ça soit au niveau de l'image que au niveau du pixel. Le tableau 4.3 présente
quant à lui un comparatif en terme de EER. On constate que notre réseau à classe unique
obtient un EER inférieur à la quasi totalité des autres méthodes. Que ce soit à travers
l'EER que l'AUC les résultats démontrent l'ecacité de la méthode et conrme la perti-
nence de satisfaire les deux critères, représentativité et compacité de manière simultanée.
La gure 4.6 présente des résultats qualitatifs pour notre réseau à classe unique.

Table 4.2  Comparaison en terme de AUCFL et AUCPL sur la base de données UCSD
Ped2.

Méthode AUCFL AUCPL


Ravanbakhsh [91] 88,4 /
Xu (AMDN double fusion) [73] 90,8 /
Sun [120] 91.1 /
Ravanbakhsh (GAN) [109] 93,5 /
Boiman(IBC) [140] 13 26
Hasan [30] 90 /
Chong [99] 87,4 /
FCNV GG 84,7 77,6
FCNRes3D SC1 94,1 87,1
FCNRes3D SC2 94,7 89
FCNCAE 87 79
TS-FCN 92 85
OC-FCN 95 91,7

90
4.4. Conclusion

(a) (b)

Figure 4.3  Visualisation des représentations extraites avec la méthode t-SNE [20],
(gauche : le réseau avec uniquement la perte de reconstruction, droite : le réseau avec les
deux pertes reconstruction et compacité.)

4.4 Conclusion
Dans ce quatrième chapitre, nous avons proposé une nouvelle méthode de détection
et de localisation d'anomalies. La méthode se base sur un réseau de neurones 3D à classe
unique, entrainé grâce à une fonction objectif originale, combinant une perte de com-
pacité basée sur la distance de Mahalanobis et une perte de représentativité. Le réseau
est entrainé uniquement sur des échantillons d'entrainement issus de la classe normale.
Grâce à la fonction objectif proposée, le réseau est capable d'extraire des représentations
spatiotemporelles robustes et assuré la compacité des représentations appartenant à la
classe normale. Nous avons combiné le réseau avec un classieur à base de distance de
Mahalanobis, ce qui nous a permit d'obtenir des résultats supérieurs aux autres méthodes
proposées dans le cadre de cette thèse. En comparaison avec l'état de l'art, notre méthode
se positionne parmi les méthodes les plus performantes sur la base de donné UCSD Ped2.
La méthode se démarque également par sa simplicité et sa facilité d'intégration. En eet,
la méthode ne nécessite quasiment pas de prétraitement et aucun poste traitement.

91
Chapitre 4. Apprentissage en classe unique

Figure 4.4  Distance entre le centre de l'ensemble des représentations et les événements
normaux (surface verte) et anormaux (surface rouge) (gauche : le réseau avec unique-
ment la perte de reconstruction, droite : le réseau avec les deux pertes reconstruction et
compacité.)

1.0 1.0

0.8 0.8

0.6 0.6
TPRPL
TPRFL

0.4 0.4

0.2 0.2

0.0 0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
FPRFL FPRPL

(a) (b)

Figure 4.5  Courbe ROC, (a) au niveau de l'image et (b) au niveau du pixel.
AUCFL=95%, AUCPL=91,7%, EERFL=9,4%, EERPL=12,1%.

92
4.4. Conclusion

Table 4.3  Comparaison en terme de EERFL et EERPL sur la base de données UCSD
Ped2.

Méthode EERFL EERPL


Mehran [136] 42 80
Adam [61] 42 76
Bertini [137] 30 /
Kim(MPCCA) [80] 30 71
Zhou [25] 24,40 /
Mahadevan(MDT) [51] 24 54
Hasan [30] 21,7 /
Reddy [48] 20 /
Sabokrou [138] 19 24
Li [135] 18,50 29,90
Ravanbakhsh [91] 18 /
Xu (AMDN double fusion) [73] 17 /
Sun [120] 17 /
Sabokrou [139] 15 18
Ravanbakhsh (GAN) [109] 14 /
Boiman(IBC) [140] 13 26
Roshtkhari(STC) [29] 13 26
Chong [99] 12 /
Xiao [76] 10 17
Sabokrou [93] 11 15
Sabokrou [100] 8,2 19
FCNV GG 26,3 31,2
FCNRes3D SC1 10,6 13,8
FCNRes3D SC2 10,5 13,3
FCNCAE 19 24,1
TS-FCN 13,2 19,4
OC-FCN 9,4 12,1

93
Chapitre 4. Apprentissage en classe unique

(a) (b)

(c) (d)

(e) (f )

Figure 4.6  Détection d'événements anormaux dans la base de données UCSD Ped2.
(a) détection d'un vélo, (b) détection de cibles multiples (vélo et voiture), (c) détection
de cibles multiples (vélos et skater), (d) détection de cibles multiples (vélo et skater) , (e)
détection d'un skater, (f ) détection d'un skater

94
Conclusion

1 Rappel des motivations


Contenu des préoccupation sécuritaire actuelles, l'utilisation de la vidéo surveillance
s'est considérablement intensiée ces dernières années. Cette prolifération des caméras de
surveillance a entraîné la génération continue de grandes masses de données. L'exploi-
tation de ces données se fait en grande partie par l'intermédiaire d'opérateurs humains.
Cependant de nombreuses études ont remis en cause la capacité de l'opérateur humain à
prendre en charge à lui seul l'analyse de ux vidéo importants. Récemment, des solutions
reposant sur des systèmes de vidéo surveillance intelligents sont proposées an d'épauler
les opérateurs. En eet, compte tenu des avancées qu'a connu le domaine de la vision ordi-
nateur ces dernières années, notamment par l'intermédiaire de l'apprentissage profond, il
est tout a fait légitime de considérer que des applications de traitement d'images puissent
contribuer à l'exploitations de manière eciente des données générées par la vidéo sur-
veillances. Dans ce contexte de nombreuses application tel que le traking, la détection
d'objet et la reconnaissance de personnes ont été exploitées dans des systèmes intelligents
pour faciliter la prise de décision de l'opérateur. Malgré l'utilité certaine de ces appli-
cations, elles ne comblent cependant pas totalement les besoins des opérateurs de vidéo
surveillance. En eet, l'une des tâches principales des opérateurs de vidéo surveillance
est la détection des comportements anormaux susceptibles de représenter des risques de
sécurité. An de proposer des solutions pertinentes pouvant servir de fondement pour des
outils d'aide à la décision exploitables par les opérateurs humain, nous avons, dans le
cadre de cette thèse, eectué les réalisations listées ci-dessous.

2 Réalisations
 Nous avons entamé nos travaux par une étude approfondie sur les diérentes ap-
proches existantes. Ce manuscrit de thèse comporte un état de l'art détaillé incluant
un large panel de travaux proposés dans la littérature. Nous avons répertorié un
grand nombre de méthodes, que ce soit parmi les méthodes dites traditionnelles,
basées sur une extraction ciblée de caractéristiques, ou bien parmi les méthodes
les plus récentes, basées principalement sur l'apprentissage profond. Nous nous
sommes eorcés à rester objectifs tout en mettant l'accent sur les approches les plus
pertinentes an de mettre en évidence des pistes de recherches à même d'apporter
des solutions concrètes au problèmes de détection d'événements vidéos anormaux.

95
Conclusion

 Dans le deuxième chapitre, nous nous sommes intéressés au transfert d'apprentis-


sage dans le contexte des réseaux de neurones. Nous avons proposé deux méthodes
basées sur l'utilisation de réseaux de neurones convolutifs CNNs (Convolutional
neural networks) préentrainés, pour détecter les événements anormaux dans des
vidéos de surveillances. La première méthode consiste à utiliser un FCN (fully
convolutional network) dérivé d'un CNN 2D préentrainé, pour extraire des repré-
sentations descriptives des formes et des mouvements et ensuite les classer grâce
à un OC-SVM (One-Class SVM). Dans la deuxième méthode un FCN résiduel 3D
est combiné à un nouveau classier adaptatif fondé sur la distance de Mahalanobis.
Grâce à cette combinaison originale, la méthode proposée est capable de modéliser
l'ensemble des événements normaux tout en prenant en considération la présence
d'événement normaux rares. De plus, la méthode peut s'adapter à l'apparition de
fausses alarmes qu'elles soit dues à des erreurs du systèmes ou à l'évolution de la
scène surveillée. En outre, dans ce chapitre nous avons mis en évidence deux critères
primordiales, mais souvent négligés dans la littérature. En eet, la représentativité
des événements rares ou l'adaptation aux fausses alarmes sont des points cruciaux
pour une méthode de détection d'événements anormaux.

 Malgré les résultats intéressants obtenus grâce au transfert d'apprentissage, ce der-


nier nous impose une dépendance vers les réseaux préentrainés et réduit les perspec-
tives d'amélioration de nos méthodes. An de se défaire de ces contraintes, dans le
troisième chapitre de ce manuscrit, nous nous sommes focalisés sur l'apprentissage
non supervisé. Nous avons développé une architecture basée sur un autoencodeur
convolutif, outil d'apprentissage non supervisé, pour extraire des représentations
spatiotemporelles. Dans ce même chapitre, nous avons développé également un ré-
seau à deux ux exploitant à la fois les images et leurs représentations en termes
de ux optique an d'obtenir des caractéristiques robustes capables de décrire non
seulement les formes présentes dans la scène surveillée, mais également les mou-
vements de ces formes. Nos méthode proposées dans ce chapitre ont obtenus des
résultats intéressants en comparaison avec l'état de l'art ce qui nous a conforté sur
la pertinence des réseaux de neurones non supervisé pour la détection des événe-
ments vidéos anormaux.

 Les méthode présentées dans le troisièmes chapitre de ce manuscrit permettent


d'obtenir des représentations spatiotemporelles susamment descriptives pour ca-
ractériser les événements vidéos. Cependant, compte tenu de la présence d'une
classe unique de données d'entraînement, ces méthodes ne garantissent pas l'as-
pect compacte des représentations. Dans ce quatrième chapitre, nous proposons
une méthode d'apprentissage de réseaux de neurones originale en utilisant uni-
quement une seule classe de données. Cette méthode d'apprentissage permet, non
seulement d'obtenir des représentations à la fois représentatives des données d'en-
trée, mais également assurer que les représentations relatives au données normales
soit regroupées dans une hypersphère compacte de la sorte à les isoler ecacement
des représentations anormales.

96
3. Travaux futurs

3 Travaux futurs
 La majorité de nos travaux présentés dans le cadre de cette thèse repose sur des
réseaux de neurones convolutifs. Or, la conception d'un réseau de neurones n'est
pas triviale [146], il existe de nombreux choix qui aecte la performance du réseau.
Parmi lesquels on peut citer la façon d'échantillonner et de prétraiter les données
d'entrée, le nombre de couches, leurs types et les diérents paramètres à leur ap-
pliquer, l'optimiseur à utiliser pour l'apprentissage du réseau et ses paramètres, la
longueur de la séquence temporelle à utiliser etc. Outre le nombre de paramètres,
l'apprentissage d'un réseau s'avère non seulement coûteux en ressources matérielles
(GPUs), mais également chronophage. Les diérents paramètres d'un réseau sont
étroitement liés aux données d'apprentissage, ce qui fait que pour des bases de don-
nées diérentes, ces paramètres sont susceptible de diérer. Cet aspect, additionné
au dicultés de conception et d'entraînement des réseaux de neurones, nous ont
contraint à limiter les bases de données de tests pour nos diérentes méthodes.
Dans nos travaux futur, on prévoit d'explorer d'autres bases de données an de
conrmer la véracité et la pertinence de nos approches.
 Dans les diérents réseaux proposés dans le cadre de cette thèse, la taille du champ
récepteur connecté à chaque vecteur de caractéristiques est xe. Cet aspect peut
induire des dicultés pour généraliser la solution pour des scènes diérentes (la
taille des objets peut substantiellement diérer d'une scène à une autre). An d'y
remédier, on prévoit d'intégrer dans nos réseaux des blocs inception, gure 1, qui
permettront de connecter chaque vecteur de caractéristiques à plusieurs champs
récepteurs avec des tailles diérentes. Ce procédé permettra d'adapter le même
réseau à des scènes diérentes.

Figure 1  Bloc inception du réseau. [83]

97
Conclusion

 Actuellement, nos réseaux non supervisés sont pour certains entraînés uniquement
pour la reconstruction et pour d'autres entraînés pour la reconstruction et la com-
pacité. En ajoutant dans ces réseaux des branches de prédictions durant la phase
d'apprentissage, cela permettra d'améliorer les représentations extraites par le ré-
seau. En eet, la branche de prédiction permet d'absorber plus d'informations
temporelles pour pouvoir prédire les mouvements et trajectoires des diérents ob-
jets de la scène. Cela devra permettre d'obtenir des descripteurs de mouvement
plus robustes.

 Dans le troisième chapitre nous avons proposé un réseau à deux ux exploitant les
représentations de ux optique an d'obtenir des représentations temporelles ro-
bustes. Cependant, l'extraction du ux optique peut s'avérer gourmande en temps.
On propose donc de remplacer le ux optique par des vecteurs de mouvements qui
sont naturellement présent dans les vidéo et de se fait directement accessibles.

98
Bibliographie
[1] Cnil, https ://www.cnil.fr/fr/videosurveillance-videoprotection.
[2] G. Gerrard and R. Thompson, Two million cameras in the uk, CCTV image,
vol. 42, no. 10, p. e2, 2011.

[3] H. M. Dee and S. A. Velastin, How close are we to solving the problem of automated
visual surveillance ?, Machine Vision and Applications, vol. 19, no. 5-6, pp. 329
343, 2008.

[4] N. Sulman, T. Sanocki, D. Goldgof, and R. Kasturi, How eective is human vi-
deo surveillance performance ?, in 2008 19th International Conference on Pattern
Recognition, pp. 13, IEEE, 2008.
[5] M. W. Green, The appropriate and eective use of security technologies in us
schools : a guide for schools and law enforcement agencies., tech. rep., Sandia
National Laboratories, 2005.

[6] K. He, X. Zhang, S. Ren, and J. Sun, Deep residual learning for image recognition,
in Proceedings of the IEEE conference on computer vision and pattern recognition,
pp. 770778, 2016.

[7] Y. Taigman, M. Yang, M. Ranzato, and L. Wolf, Deepface : Closing the gap to
human-level performance in face verication, in Proceedings of the IEEE conference
on computer vision and pattern recognition, pp. 17011708, 2014.
[8] A. Toshev and C. Szegedy, Deeppose : Human pose estimation via deep neural
networks, in Proceedings of the IEEE conference on computer vision and pattern
recognition, pp. 16531660, 2014.
[9] A. Conneau, H. Schwenk, L. Barrault, and Y. Lecun, Very deep convolutional
networks for natural language processing, arXiv preprint arXiv :1606.01781, vol. 2,
2016.

[10] D. Amodei, S. Ananthanarayanan, R. Anubhai, J. Bai, E. Battenberg, C. Case,


J. Casper, B. Catanzaro, Q. Cheng, G. Chen, et al., Deep speech 2 : End-to-end
speech recognition in english and mandarin, in International conference on machine
learning, pp. 173182, 2016.
[11] Y. Wu, M. Schuster, Z. Chen, Q. V. Le, M. Norouzi, W. Macherey, M. Krikun,
Y. Cao, Q. Gao, K. Macherey, et al., Google's neural machine translation sys-
tem : Bridging the gap between human and machine translation, arXiv preprint
arXiv :1609.08144, 2016.

99
Bibliographie

[12] J. S. Chung, A. Senior, O. Vinyals, and A. Zisserman, Lip reading sentences in


2017 IEEE Conference on Computer Vision and Pattern Recognition
the wild, in
(CVPR), pp. 34443453, IEEE, 2017.
[13] M. Lewis, D. Yarats, Y. N. Dauphin, D. Parikh, and D. Batra, Deal or no deal ?
end-to-end learning for negotiation dialogues, arXiv preprint arXiv :1706.05125,
2017.

[14] A. Santoro, D. Raposo, D. G. Barrett, M. Malinowski, R. Pascanu, P. Battaglia, and


T. Lillicrap, A simple neural network module for relational reasoning, in Advances
in neural information processing systems, pp. 49674976, 2017.
[15] T. Beltramelli, pix2code : Generating code from a graphical user interface screen-
Proceedings of the ACM SIGCHI Symposium on Engineering Interactive
shot, in
Computing Systems, p. 3, ACM, 2018.
[16] G. Farnebäck, Two-frame motion estimation based on polynomial expansion, in
Scandinavian conference on Image analysis, pp. 363370, Springer, 2003.
[17] Y. LeCun, L. Bottou, Y. Bengio, P. Haner, et al., Gradient-based learning applied
to document recognition, Proceedings of the IEEE, vol. 86, no. 11, pp. 22782324,
1998.

[18] J. Laserson, From neural networks to deep learning : zeroing in on the human brain,
XRDS : Crossroads, The ACM Magazine for Students, vol. 18, no. 1, pp. 2934, 2011.
[19] K. Simonyan and A. Zisserman, Very deep convolutional networks for large-scale
image recognition, arXiv preprint arXiv :1409.1556, 2014.
[20] L. v. d. Maaten and G. Hinton, Visualizing data using t-sne, Journal of machine
learning research, vol. 9, no. Nov, pp. 25792605, 2008.
[21] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama,
and T. Darrell, Cae : Convolutional architecture for fast feature embedding, in
Proceedings of the 22nd ACM international conference on Multimedia, pp. 675678,
ACM, 2014.

[22] D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M. Paluri, Learning spatiotem-


poral features with 3d convolutional networks, in Proceedings of the IEEE inter-
national conference on computer vision, pp. 44894497, 2015.
[23] O. P. Popoola and K. Wang, Video-based abnormal human behavior recognitiona
review, IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applica-
tions and Reviews), vol. 42, no. 6, pp. 865878, 2012.
[24] C. Zhang, W.-B. Chen, X. Chen, L. Yang, and J. Johnstone, A multiple instance
learning and relevance feedback framework for retrieving abnormal incidents in sur-
veillance videos., Journal of Multimedia, vol. 5, no. 4, 2010.
[25] S. Zhou, W. Shen, D. Zeng, M. Fang, Y. Wei, and Z. Zhang, Spatialtemporal
convolutional neural networks for anomaly detection and localization in crowded
scenes, Signal Processing : Image Communication, vol. 47, pp. 358368, 2016.
[26] W. Lao, J. Han, and P. H. De With, Automatic video-based human motion analyzer
for consumer surveillance system, IEEE Transactions on Consumer Electronics,
vol. 55, no. 2, pp. 591598, 2009.

100
[27] H. Foroughi, A. Rezvanian, and A. Paziraee, Robust fall detection using human
2008 Sixth Indian Conference on
shape and multi-class support vector machine, in
Computer Vision, Graphics & Image Processing, pp. 413420, IEEE, 2008.
[28] M. Javan Roshtkhari and M. D. Levine, Online dominant and anomalous behavior
detection in videos, in Proceedings of the IEEE conference on computer vision and
pattern recognition, pp. 26112618, 2013.
[29] M. J. Roshtkhari and M. D. Levine, An on-line, real-time learning method for
detecting anomalies in videos using spatio-temporal compositions, Computer vision
and image understanding, vol. 117, no. 10, pp. 14361452, 2013.
[30] M. Hasan, J. Choi, J. Neumann, A. K. Roy-Chowdhury, and L. S. Davis, Learning
temporal regularity in video sequences, in Proceedings of the IEEE conference on
computer vision and pattern recognition, pp. 733742, 2016.
[31] S. Lee, H. G. Kim, and Y. M. Ro, Stan : spatio-temporal adversarial networks for
abnormal event detection, in 2018 IEEE International Conference on Acoustics,
Speech and Signal Processing (ICASSP), pp. 13231327, IEEE, 2018.
[32] P. Oza and V. M. Patel, One-class convolutional neural network, IEEE Signal
Processing Letters, vol. 26, no. 2, pp. 277281, 2018.
[33] B. Kiran, D. Thomas, and R. Parakkal, An overview of deep learning based me-
thods for unsupervised and semi-supervised anomaly detection in videos, Journal
of Imaging, vol. 4, no. 2, p. 36, 2018.
[34] Y. LeCun, L'apprentissage profond, une révolution en intelligence articielle, La
lettre du Collège de France, no. 41, p. 13, 2016.
[35] A. A. Sodemann, M. P. Ross, and B. J. Borghetti, A review of anomaly detection
IEEE Transactions on Systems, Man, and Cybernetics,
in automated surveillance,
Part C (Applications and Reviews), vol. 42, no. 6, pp. 12571272, 2012.
[36] C. Piciarelli, G. L. Foresti, and L. Snidaro, Trajectory clustering and its applications
for video surveillance, in IEEE Conference on Advanced Video and Signal Based
Surveillance, 2005., pp. 4045, Ieee, 2005.
[37] C. Piciarelli and G. L. Foresti, On-line trajectory clustering for anomalous events
detection, Pattern Recognition Letters, vol. 27, no. 15, pp. 18351842, 2006.
[38] C. Piciarelli, C. Micheloni, and G. L. Foresti, Trajectory-based anomalous event de-
tection, IEEE Transactions on Circuits and Systems for video Technology, vol. 18,
no. 11, pp. 15441554, 2008.

[39] S. Calderara, U. Heinemann, A. Prati, R. Cucchiara, and N. Tishby, Detecting


anomalies in people's trajectories using spectral graph analysis, Computer Vision
and Image Understanding, vol. 115, no. 8, pp. 10991111, 2011.
[40] F. Jiang, J. Yuan, S. A. Tsaftaris, and A. K. Katsaggelos, Anomalous video event
detection using spatiotemporal context, Computer Vision and Image Understan-
ding, vol. 115, no. 3, pp. 323333, 2011.
[41] L. Calavia, C. Baladrón, J. M. Aguiar, B. Carro, and A. Sánchez-Esguevillas, A
semantic autonomous video surveillance system for dense camera networks in smart
cities, Sensors, vol. 12, no. 8, pp. 1040710429, 2012.

101
Bibliographie

[42] D. Duque, H. Santos, and P. Cortez, Prediction of abnormal behaviors for in-
telligent video surveillance systems, in 2007 IEEE Symposium on Computational
Intelligence and Data Mining, pp. 362367, IEEE, 2007.
[43] N. Dong, Z. Jia, J. Shao, Z. Xiong, Z. Li, F. Liu, J. Zhao, and P. Peng, Trac
2010 7th IEEE
abnormality detection through directional motion behavior map, in
International Conference on Advanced Video and Signal Based Surveillance, pp. 80
84, IEEE, 2010.

[44] D. Biliotti, G. Antonini, and J. P. Thiran, Multi-layer hierarchical cluste-


ring of pedestrian trajectories for automatic counting of people in video se-
2005 Seventh IEEE Workshops on Applications of Computer Vision
quences, in
(WACV/MOTION'05)-Volume 1, vol. 2, pp. 5057, IEEE, 2005.
[45] Y.-p. Tang, X.-j. Wang, and H.-f. Lu, Intelligent video analysis technology for
2009 Fourth Interna-
elevator cage abnormality detection in computer vision, in
tional Conference on Computer Sciences and Convergence Information Technology,
pp. 12521258, IEEE, 2009.

[46] T. Xiang and S. Gong, Video behaviour proling and abnormality detection without
manual labelling, in Tenth IEEE International Conference on Computer Vision
(ICCV'05) Volume 1, vol. 2, pp. 12381245, IEEE, 2005.
[47] L. Wang and D. Suter, Recognizing human activities from silhouettes : Motion
subspace and factorial discriminative graphical model, in 2007 IEEE Conference
on Computer Vision and Pattern Recognition, pp. 18, IEEE, 2007.
[48] V. Reddy, C. Sanderson, and B. C. Lovell, Improved anomaly detection in crowded
scenes via cell-based analysis of foreground speed, size and texture, in CVPR 2011
WORKSHOPS, pp. 5561, IEEE, 2011.
[49] T. S. Lee, Image representation using 2d gabor wavelets, IEEE Transactions on
pattern analysis and machine intelligence, vol. 18, no. 10, pp. 959971, 1996.
[50] G. Doretto, A. Chiuso, Y. N. Wu, and S. Soatto, Dynamic textures, International
Journal of Computer Vision, vol. 51, no. 2, pp. 91109, 2003.
[51] V. Mahadevan, W. Li, V. Bhalodia, and N. Vasconcelos, Anomaly detection in
crowded scenes, in2010 IEEE Computer Society Conference on Computer Vision
and Pattern Recognition, pp. 19751981, IEEE, 2010.
[52] B. Zhao, L. Fei-Fei, and E. P. Xing, Online detection of unusual events in videos
via dynamic sparse coding, in CVPR 2011, pp. 33133320, IEEE, 2011.
[53] L. Zelnik-Manor and M. Irani, Statistical analysis of dynamic actions, IEEE Tran-
sactions on Pattern Analysis and Machine Intelligence, vol. 28, no. 9, pp. 15301535,
2006.

[54] N. Li, X. Wu, D. Xu, H. Guo, and W. Feng, Spatio-temporal context analysis within
video volumes for anomalous-event detection and localization, Neurocomputing,
vol. 155, pp. 309319, 2015.

[55] A. F. Bobick and J. W. Davis, The recognition of human movement using temporal
templates, IEEE Transactions on Pattern Analysis & Machine Intelligence, no. 3,
pp. 257267, 2001.

102
[56] J. W. Davis, Hierarchical motion history images for recognizing human motion,
in Proceedings IEEE Workshop on Detection and Recognition of Events in Video,
pp. 3946, IEEE, 2001.

[57] T. Xiang, S. Gong, and D. Parkinson, Autonomous visual events detection and
classication without explicit object-centred segmentation and tracking., in BMVC,
pp. 110, Citeseer, 2002.

[58] B. D. Lucas, T. Kanade, et al., An iterative image registration technique with an
application to stereo vision, 1981.

[59] J. Feng, C. Zhang, and P. Hao, Online learning with self-organizing maps for ano-
2010 20th International Conference on Pattern
maly detection in crowd scenes, in
Recognition, pp. 35993602, IEEE, 2010.
[60] M. H. Sharif, S. Uyaver, and C. Djeraba, Crowd behavior surveillance using bhat-
International Symposium Computational Modeling of
tacharyya distance metric, in
Objects Represented in Images, pp. 311323, Springer, 2010.
[61] A. Adam, E. Rivlin, I. Shimshoni, and D. Reinitz, Robust real-time unusual event
detection using multiple xed-location monitors, IEEE transactions on pattern
analysis and machine intelligence, vol. 30, no. 3, pp. 555560, 2008.
[62] T. Wang and H. Snoussi, Detection of abnormal visual events via global optical ow
orientation histogram, IEEE Transactions on Information Forensics and Security,
vol. 9, no. 6, pp. 988998, 2014.

[63] T. Wang, M. Qiao, A. Zhu, Y. Niu, C. Li, and H. Snoussi, Abnormal event de-
tection via covariance matrix for optical ow based feature, Multimedia Tools and
Applications, vol. 77, no. 13, pp. 1737517395, 2018.
[64] V. Vapnik, Pattern recognition using generalized portrait method, Automation
and remote control, vol. 24, pp. 774780, 1963.
[65] V. Vapnik, The nature of statistical learning theory. Springer science & business
media, 2013.

[66] B. E. Boser, I. M. Guyon, and V. N. Vapnik, A training algorithm for optimal


margin classiers, in Proceedings of the fth annual workshop on Computational
learning theory, pp. 144152, ACM, 1992.
[67] T. Wang and H. Snoussi, Histograms of optical ow orientation for visual abnormal
2012 IEEE Ninth International Conference on Advanced Video
events detection, in
and Signal-Based Surveillance, pp. 1318, IEEE, 2012.
[68] S. Bouindour, M. M. Hittawe, S. Mahfouz, and H. Snoussi, Abnormal event detec-
tion using convolutional neural networks and 1-class svm classier, 2017.

[69] M. Pittore, C. Basso, and A. Verri, Representing and recognizing visual dynamic
Proceedings 10th International Conference
events with support vector machines, in
on Image Analysis and Processing, pp. 1823, IEEE, 1999.
[70] H. Qian, Y. Mao, W. Xiang, and Z. Wang, Recognition of human activities using
svm multi-class classier, Pattern Recognition Letters, vol. 31, no. 2, pp. 100111,
2010.

103
Bibliographie

[71] C.-C. Chang and C.-J. Lin, Libsvm : a library for support vector machines, ACM
transactions on intelligent systems and technology (TIST), vol. 2, no. 3, p. 27, 2011.
[72] B. Schölkopf, J. C. Platt, J. Shawe-Taylor, A. J. Smola, and R. C. Williamson,
Estimating the support of a high-dimensional distribution, Neural computation,
vol. 13, no. 7, pp. 14431471, 2001.

[73] D. Xu, Y. Yan, E. Ricci, and N. Sebe, Detecting anomalous events in videos by
learning deep representations of appearance and motion, Computer Vision and
Image Understanding, vol. 156, pp. 117127, 2017.
[74] S. Calderara, R. Cucchiara, and A. Prati, Detection of abnormal behaviors using a
mixture of von mises distributions, in2007 IEEE Conference on Advanced Video
and Signal Based Surveillance, pp. 141146, IEEE, 2007.
[75] K.-W. Cheng, Y.-T. Chen, and W.-H. Fang, Video anomaly detection and locali-
zation using hierarchical feature representation and gaussian process regression, in
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,
pp. 29092917, 2015.

[76] T. Xiao, C. Zhang, and H. Zha, Learning to detect anomalies in surveillance video,
IEEE Signal Processing Letters, vol. 22, no. 9, pp. 14771481, 2015.
[77] Á. Utasi and L. Czúni, Detection of unusual optical ow patterns by multilevel
hidden markov models, Optical Engineering, vol. 49, no. 1, p. 017201, 2010.
[78] H. Jiménez-Hernández, J.-J. González-Barbosa, and T. Garcia-Ramírez, Detecting
abnormal vehicular dynamics at intersections based on an unsupervised learning
approach and a stochastic model, Sensors, vol. 10, no. 8, pp. 75767601, 2010.
[79] P.-C. Chung and C.-D. Liu, A daily behavior enabled hidden markov model for
human behavior understanding, Pattern Recognition, vol. 41, no. 5, pp. 15721580,
2008.

[80] J. Kim and K. Grauman, Observe locally, infer globally : a space-time mrf for
2009 IEEE Conference
detecting abnormal activities with incremental updates, in
on Computer Vision and Pattern Recognition, pp. 29212928, IEEE, 2009.
[81] Y. Benezeth, P.-M. Jodoin, and V. Saligrama, Abnormality detection using low-
level co-occurring events, Pattern Recognition Letters, vol. 32, no. 3, pp. 423431,
2011.

[82] A. Krizhevsky, I. Sutskever, and G. E. Hinton, Imagenet classication with deep


convolutional neural networks, in Advances in neural information processing sys-
tems, pp. 10971105, 2012.
[83] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Van-
houcke, and A. Rabinovich, Going deeper with convolutions, in Proceedings of the
IEEE conference on computer vision and pattern recognition, pp. 19, 2015.
[84] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Kar-
pathy, A. Khosla, M. Bernstein, et al., Imagenet large scale visual recognition chal-
lenge, International journal of computer vision, vol. 115, no. 3, pp. 211252, 2015.

104
[85] C. Ding, S. Fan, M. Zhu, W. Feng, and B. Jia, Violence detection in video by
using 3d convolutional neural networks, in International Symposium on Visual
Computing, pp. 551558, Springer, 2014.
[86] R. Hinami, T. Mei, and S. Satoh, Joint detection and recounting of abnormal
Proceedings of the IEEE International
events by learning deep generic knowledge, in
Conference on Computer Vision, pp. 36193627, 2017.
[87] A. Jamadandi, S. Kotturshettar, and U. Mudenagudi, Two stream convolutional
neural networks for anomaly detection in surveillance videos,

[88] A. Sharif Razavian, H. Azizpour, J. Sullivan, and S. Carlsson, Cnn features o-the-
Proceedings of the IEEE conference
shelf : an astounding baseline for recognition, in
on computer vision and pattern recognition workshops, pp. 806813, 2014.
[89] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun, Overfeat :
Integrated recognition, localization and detection using convolutional networks,
arXiv preprint arXiv :1312.6229, 2013.
[90] S. Bouindour, H. Snoussi, M. M. Hittawe, N. Tazi, and T. Wang, An on-line and
adaptive method for detecting abnormal events in videos using spatio-temporal
convnet, Applied Sciences, vol. 9, no. 4, p. 757, 2019.
[91] M. Ravanbakhsh, M. Nabi, H. Mousavi, E. Sangineto, and N. Sebe, Plug-and-
play cnn for crowd motion analysis : An application in abnormal event detection,
in 2018 IEEE Winter Conference on Applications of Computer Vision (WACV),
pp. 16891698, IEEE, 2018.

[92] Y. Gong, S. Lazebnik, A. Gordo, and F. Perronnin, Iterative quantization : A


procrustean approach to learning binary codes for large-scale image retrieval, IEEE
transactions on pattern analysis and machine intelligence, vol. 35, no. 12, pp. 2916
2929, 2013.

[93] M. Sabokrou, M. Fayyaz, M. Fathy, Z. Moayed, and R. Klette, Deep-anomaly :


Fully convolutional neural network for fast anomaly detection in crowded scenes,
Computer Vision and Image Understanding, vol. 172, pp. 8897, 2018.
[94] Y. LeCun, Y. Bengio, and G. Hinton, Deep learning, nature, vol. 521, no. 7553,
p. 436, 2015.

[95] D. Xu, E. Ricci, Y. Yan, J. Song, and N. Sebe, Learning deep representa-
tions of appearance and motion for anomalous event detection, arXiv preprint
arXiv :1510.01553, 2015.
[96] J. Masci, U. Meier, D. Cire³an, and J. Schmidhuber, Stacked convolutional auto-
encoders for hierarchical feature extraction, in International Conference on Arti-
cial Neural Networks, pp. 5259, Springer, 2011.
[97] M. Gutoski, N. M. R. Aquino, M. Ribeiro, E. Lazzaretti, and S. Lopes, Detection
of video anomalies using convolutional autoencoders and one-class support vector
machines, in XIII Brazilian Congress on Computational Intelligence, 2017, 2017.
[98] J. Canny, A computational approach to edge detection, in Readings in computer
vision, pp. 184203, Elsevier, 1987.

105
Bibliographie

[99] Y. S. Chong and Y. H. Tay, Abnormal event detection in videos using spatiotem-
poral autoencoder, in International Symposium on Neural Networks, pp. 189196,
Springer, 2017.

[100] M. Sabokrou, M. Fayyaz, M. Fathy, and R. Klette, Deep-cascade : Cascading 3d


deep neural networks for fast anomaly detection and localization in crowded scenes,
IEEE Transactions on Image Processing, vol. 26, no. 4, pp. 19922004, 2017.
[101] J. T. Zhou, J. Du, H. Zhu, X. Peng, Y. Liu, and R. S. M. Goh, Anomalynet : An
anomaly detection network for video surveillance, IEEE Transactions on Informa-
tion Forensics and Security, 2019.
[102] H. Bilen, B. Fernando, E. Gavves, A. Vedaldi, and S. Gould, Dynamic image net-
Proceedings of the IEEE Conference on Computer
works for action recognition, in
Vision and Pattern Recognition, pp. 30343042, 2016.
[103] L. Wang, F. Zhou, Z. Li, W. Zuo, and H. Tan, Abnormal event detection in vi-
deos using hybrid spatio-temporal autoencoder, in 2018 25th IEEE International
Conference on Image Processing (ICIP), pp. 22762280, IEEE, 2018.
[104] J. R. Medel and A. Savakis, Anomaly detection in video using predictive convolu-
tional long short-term memory networks, arXiv preprint arXiv :1612.00390, 2016.
[105] Y. Zhao, B. Deng, C. Shen, Y. Liu, H. Lu, and X.-S. Hua, Spatio-temporal autoen-
coder for video anomaly detection, in Proceedings of the 25th ACM international
conference on Multimedia, pp. 19331941, ACM, 2017.
[106] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair,
A. Courville, and Y. Bengio, Generative adversarial nets, in Advances in neural
information processing systems, pp. 26722680, 2014.
[107] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros, Image-to-image translation with
conditional adversarial networks, in Proceedings of the IEEE conference on com-
puter vision and pattern recognition, pp. 11251134, 2017.
[108] Y. Jin, J. Zhang, M. Li, Y. Tian, H. Zhu, and Z. Fang, Towards the automa-
tic anime characters creation with generative adversarial networks, arXiv preprint
arXiv :1708.05509, 2017.
[109] M. Ravanbakhsh, M. Nabi, E. Sangineto, L. Marcenaro, C. Regazzoni, and N. Sebe,
Abnormal event detection in videos using generative adversarial nets, in2017
IEEE International Conference on Image Processing (ICIP), pp. 15771581, IEEE,
2017.

[110] W. Liu, W. Luo, D. Lian, and S. Gao, Future frame prediction for anomaly
detectiona new baseline, in Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition, pp. 65366545, 2018.
[111] S. Xingjian, Z. Chen, H. Wang, D.-Y. Yeung, W.-K. Wong, and W.-c. Woo, Convo-
lutional lstm network : A machine learning approach for precipitation nowcasting,
in Advances in neural information processing systems, pp. 802810, 2015.
[112] M. Sabokrou, M. Pourreza, M. Fayyaz, R. Entezari, M. Fathy, J. Gall, and E. Adeli,
Avid : Adversarial visual irregularity detection, arXiv preprint arXiv :1805.09521,
2018.

106
[113] obvious.

[114] S.-g. Lee, U. Hwang, S. Min, and S. Yoon, Polyphonic music generation with se-
quence generative adversarial networks, arXiv preprint arXiv :1710.11418, 2017.
[115] K. Ehsani, R. Mottaghi, and A. Farhadi, Segan : Segmenting and generating the
invisible, in Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition, pp. 61446153, 2018.
[116] J. Li, X. Liang, Y. Wei, T. Xu, J. Feng, and S. Yan, Perceptual generative adver-
sarial networks for small object detection, in Proceedings of the IEEE Conference
on Computer Vision and Pattern Recognition, pp. 12221230, 2017.
[117] S. Zhou, T. Xiao, Y. Yang, D. Feng, Q. He, and W. He, Genegan : Learning
object transguration and attribute subspace from unpaired data, arXiv preprint
arXiv :1705.04932, 2017.
[118] C. Ledig, L. Theis, F. Huszár, J. Caballero, A. Cunningham, A. Acosta, A. Aitken,
A. Tejani, J. Totz, Z. Wang, et al., Photo-realistic single image super-resolution
using a generative adversarial network, in Proceedings of the IEEE conference on
computer vision and pattern recognition, pp. 46814690, 2017.
[119] T. Wang, M. Qiao, Z. Lin, C. Li, H. Snoussi, Z. Liu, and C. Choi, Generative
neural networks for anomaly detection in crowded scenes, IEEE Transactions on
Information Forensics and Security, vol. 14, no. 5, pp. 13901399, 2019.
[120] J. Sun, J. Shao, and C. He, Abnormal event detection for video surveillance using
deep one-class learning, Multimedia Tools and Applications, vol. 78, no. 3, pp. 3633
3647, 2019.

[121] R. Chalapathy, A. K. Menon, and S. Chawla, Anomaly detection using one-class


neural networks, arXiv preprint arXiv :1802.06360, 2018.
[122] L. Ru, N. Görnitz, L. Deecke, S. A. Siddiqui, R. Vandermeulen, A. Binder, E. Mül-
ler, and M. Kloft, Deep one-class classication, in International Conference on
Machine Learning, pp. 43904399, 2018.
[123] P. Perera and V. M. Patel, Learning deep features for one-class classication, IEEE
Transactions on Image Processing, 2019.
[124] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei-Fei, Large-
Proceedings of the
scale video classication with convolutional neural networks, in
IEEE conference on Computer Vision and Pattern Recognition, pp. 17251732, 2014.
[125] J. Long, E. Shelhamer, and T. Darrell, Fully convolutional networks for seman-
tic segmentation, in Proceedings of the IEEE conference on computer vision and
pattern recognition, pp. 34313440, 2015.
[126] J. T. Andrews, T. Tanay, E. J. Morton, and L. D. Grin, Transfer representation-
learning for anomaly detection, in Proc. ICML, pp. 15, 2016.
[127] J. Donahue, Y. Jia, O. Vinyals, J. Homan, N. Zhang, E. Tzeng, and T. Darrell,
Decaf : A deep convolutional activation feature for generic visual recognition, in
International conference on machine learning, pp. 647655, 2014.

107
Bibliographie

[128] L. Nanni, S. Ghidoni, and S. Brahnam, Handcrafted vs. non-handcrafted features


for computer vision classication, Pattern Recognition, vol. 71, pp. 158172, 2017.
[129] S. Wold, K. Esbensen, and P. Geladi, Principal component analysis, Chemometrics
and intelligent laboratory systems, vol. 2, no. 1-3, pp. 3752, 1987.
[130] I. Jollie, Principal component analysis. Springer, 2011.

[131] M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S. Corrado,


A. Davis, J. Dean, M. Devin, S. Ghemawat, I. Goodfellow, A. Harp, G. Irving,
M. Isard, Y. Jia, R. Jozefowicz, L. Kaiser, M. Kudlur, J. Levenberg, D. Mané,
R. Monga, S. Moore, D. Murray, C. Olah, M. Schuster, J. Shlens, B. Steiner, I. Suts-
kever, K. Talwar, P. Tucker, V. Vanhoucke, V. Vasudevan, F. Viégas, O. Vinyals,
P. Warden, M. Wattenberg, M. Wicke, Y. Yu, and X. Zheng,  TensorFlow : Large-
scale machine learning on heterogeneous systems, 2015. Software available from
tensorow.org.

[132] ucsd.

[133] J. A. Hanley and B. J. McNeil, The meaning and use of the area under a receiver
operating characteristic (roc) curve., Radiology, vol. 143, no. 1, pp. 2936, 1982.
[134] T. Fawcett, Roc graphs : Notes and practical considerations for researchers, Ma-
chine learning, vol. 31, no. 1, pp. 138, 2004.
[135] W. Li, V. Mahadevan, and N. Vasconcelos, Anomaly detection and localization in
crowded scenes, IEEE transactions on pattern analysis and machine intelligence,
vol. 36, no. 1, pp. 1832, 2013.

[136] R. Mehran, A. Oyama, and M. Shah, Abnormal crowd behavior detection using
social force model, in 2009 IEEE Conference on Computer Vision and Pattern
Recognition, pp. 935942, IEEE, 2009.
[137] M. Bertini, A. Del Bimbo, and L. Seidenari, Multi-scale and real-time non-
parametric approach for anomaly detection and localization, Computer Vision and
Image Understanding, vol. 116, no. 3, pp. 320329, 2012.
[138] M. Sabokrou, M. Fathy, M. Hoseini, and R. Klette, Real-time anomaly detection
and localization in crowded scenes, inProceedings of the IEEE conference on com-
puter vision and pattern recognition workshops, pp. 5662, 2015.
[139] M. Sabokrou, M. Fathy, and M. Hoseini, Video anomaly detection and localisation
based on the sparsity and reconstruction error of auto-encoder, Electronics Letters,
vol. 52, no. 13, pp. 11221124, 2016.

[140] O. Boiman and M. Irani, Detecting irregularities in images and in video, Interna-
tional journal of computer vision, vol. 74, no. 1, pp. 1731, 2007.
[141] C. J. Burges, A tutorial on support vector machines for pattern recognition, Data
mining and knowledge discovery, vol. 2, no. 2, pp. 121167, 1998.
[142] R. De Maesschalck, D. Jouan-Rimbaud, and D. L. Massart, The mahalanobis dis-
tance, Chemometrics and intelligent laboratory systems, vol. 50, no. 1, pp. 118,
2000.

108
[143] C. M. Deniz, S. Xiang, R. S. Hallyburton, A. Welbeck, J. S. Babb, S. Honig, K. Cho,
and G. Chang, Segmentation of the proximal femur from mr images using deep
convolutional neural networks, Scientic reports, vol. 8, no. 1, p. 16485, 2018.
[144] Y. Wang, Q. Teng, X. He, J. Feng, and T. Zhang, Ct-image super resolution using
3d convolutional neural network, arXiv preprint arXiv :1806.09074, 2018.
[145] Y. Yao, Z. Luo, S. Li, T. Fang, and L. Quan, Mvsnet : Depth inference for unstruc-
tured multi-view stereo, in Proceedings of the European Conference on Computer
Vision (ECCV), pp. 767783, 2018.
[146] D. Tran, J. Ray, Z. Shou, S.-F. Chang, and M. Paluri, Convnet architecture search
for spatiotemporal feature learning, arXiv preprint arXiv :1708.05038, 2017.
[147] K. Soomro, A. R. Zamir, and M. Shah, A dataset of 101 human action classes from
Center for Research in Computer Vision, 2012.
videos in the wild,

[148] D. E. Rumelhart, G. E. Hinton, R. J. Williams, et al., Learning representations by


back-propagating errors, Cognitive modeling, vol. 5, no. 3, p. 1, 1988.

[149] Y. Bengio, Deep learning of representations for unsupervised and transfer learning,
in Proceedings of ICML Workshop on Unsupervised and Transfer Learning, pp. 17
36, 2012.

[150] F. Chollet et al., Keras, 2015.

[151] M. D. Zeiler, Adadelta : an adaptive learning rate method, arXiv preprint


arXiv :1212.5701, 2012.
[152] K. Simonyan and A. Zisserman, Two-stream convolutional networks for action re-
cognition in videos, in Advances in neural information processing systems, pp. 568
576, 2014.

[153] B. Zhang, L. Wang, Z. Wang, Y. Qiao, and H. Wang, Real-time action recogni-
tion with enhanced motion vector cnns, in Proceedings of the IEEE conference on
computer vision and pattern recognition, pp. 27182726, 2016.

109
Samir BOUINDOUR
Doctorat : Optimisation et Sûreté des Systèmes
Année 2019

Apprentissage profond appliqué à la Deep Learning for the Detection of


détection d'événements anormaux dans Abnormal Events in Video Streams
les flux vidéos

L'utilisation des caméras de surveillance s'est The use of surveillance cameras has increased con-
considérablement accrue ces dernières années. siderably in recent years. This proliferation poses a
Cette prolifération pose un problème sociétal de major societal problem, which is the exploitation of
premier ordre, celui de l’exploitation des flux the generated video streams. Currently, most of
générés. Actuellement, ces données sont en majorité these data are being analyzed by human operators.
analysées par des opérateurs humains. Cependant, However, several studies question the relevance of
de nombreuses études remettent en cause la perti- this approach. It is time-consuming and laborious
nence de cette approche. Il est chronophage et labo- for an operator to monitor surveillance videos for
rieux pour un opérateur de visionner des vidéos de long time periods. Given recent advances in comput-
surveillance durant de longues périodes. Compte er vision, particularly through deep learning, one
tenu des progrès réalisés récemment dans le solution to this problem consists in the development
domaine de la vision par ordinateur, notamment par of intelligent systems that can support the human
l'intermédiaire de l'apprentissage profond, une solu- operator in the exploitation of this data. These intel-
tion à ce problème réside dans le développement de ligent systems will aim to model the normal behav-
systèmes intelligents capables d'épauler l'opérateur iours of a monitored scene and detect any deviant
humain dans l'exploitation de ces données. Ces event that could lead to a security breach. Within the
systèmes intelligents auront pour objectifs de modé- context of this thesis entitled "Deep learning applied
liser les comportements normaux d'une scène sur- to the detection of abnormal events in video
veillée et de détecter tout événement déviant, pou- streams", we propose to develop algorithms based
vant conduire à une faille de sécurité. Dans le cadre on deep learning for the detection and localization of
de cette thèse intitulée « Apprentissage profond abnormal video events that may reflect dangerous
appliqué à la détection d'événements anormaux situations. The purpose is to extract robust spatial
dans les flux vidéos », on se propose de développer and temporal descriptors and define classification
des algorithmes se basant sur l’apprentissage pro- algorithms adapted to detect suspicious behaviour
fond pour la détection et la localisation des événe- with the minimum possible number of false alarms,
ments vidéo anormaux pouvant refléter des situa- while ensuring a high detection rate.
tions à risque. Il s’agit, en fait, d’extraire des des-
cripteurs spatiotemporels robustes et de définir des
algorithmes de classification adaptés pour détecter Keywords: machine learning – anomaly detection
des comportements suspects avec le minimum (computer security) – video surveillance – pattern
possible de fausses alarmes, tout en assurant un recognition systems – computer vision.
taux élevé de détection.

Mots clés : apprentissage profond – détection des


anomalies (informatique) – vidéosurveillance –
reconnaissance des formes (informatique) – vision
par ordinateur.

Thèse réalisée en partenariat entre :

Ecole Doctorale "Sciences pour l’Ingénieur"