Samir Bouindour 2019TROY0036
Samir Bouindour 2019TROY0036
Samir Bouindour 2019TROY0036
de doctorat
de l’UTT
Samir BOUINDOUR
Champ disciplinaire :
Sciences pour l’Ingénieur
DOCTEUR
de l’UNIVERSITE DE TECHNOLOGIE DE TROYES
Samir BOUINDOUR
le 17 decembre 2019
JURY
M. F. NICOLIER PROFESSEUR DES UNIVERSITES Président
M. F. DORNAIKA PROFESSOR Rapporteur
M. H. SAHBI CHERCHEUR CNRS - HDR Rapporteur
Mme F. CHEHADE MAITRE DE CONFERENCES - HDR Examinatrice
M. N. GAC MAITRE DE CONFERENCES Examinateur
M. H. SNOUSSI PROFESSEUR DES UNIVERSITES Directeur de thèse
Remerciements
Cette thèse n'aurait pas été possible sans la contribution de nombreuses personnes.
Je tiens à les remercier sincèrement pour l'aide, le soutien, les conseils et le temps qu'ils
m'ont accordé. J'espère que tous pourront se retrouver dans ces quelques lignes.
Un grand merci également à tous mes collègues Souen, Zied, Slim, Nacef, Ronghua,
Charbel et Laurent pour leurs conseils et leur aide précieuse. Je tiens à vous dire que
j'ai eu beaucoup de plaisir à travailler à vos cotés, nos discussions animées autour de la
machine à café vont énormément me manquer.
Merci Soa pour tout ce que tu m'as apporté, il n'y a pas de mots assez forts pour
exprimer ma gratitude envers toi, ton aide et ton soutien ont été inestimable.
Bien évidemment, je remercie mes parents, mon frère et ma s÷ur ainsi que tous les
membres de ma famille. Merci de m'avoir toujours encouragé et soutenu. C'est grâce à
votre dévotion que j'ai pu m'épanouir, mener à bien mes études et réaliser cette thèse.
i
ii
Sommaire
Chapitre 1
État de l'art 1
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Chapitre 2
Transfert d'apprentissage
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
ments anormaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
iii
Sommaire
2.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Chapitre 3
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.2.1 Autoencodeur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
vidéo anormaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Chapitre 4
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
Conclusion
2 Réalisations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
3 Travaux futurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Bibliographie 99
iv
Résumé
La sécurité est une préoccupation majeure de nos sociétés modernes, le développement
et l'épanouissement des individus sont impossibles à concrétiser sans au préalable garantir
la sécurité. La vidéo surveillance est un outil éprouvé qui favorise l'établissement de la
sécurité et facilite son application sur de vastes zones géographiques. Cependant, cet outil
a été victime de son succès durant ces dernières années. En eet, l'utilisation des caméras
de surveillance s'est considérablement accru, à tel point qu'elle pose un problème sociétal
de tout premier ordre, celui de l'exploitation des ux de caméras qui sont déployées de
manière de plus en plus dense. Actuellement, ces données sont en grande majorité ex-
clusivement analysées par des opérateurs humains. Cependant, de nombreuses études ont
démontré les limites des opérateurs à prendre en charge la totalité des traitements de ces
ux vidéos. Il est chronophage, laborieux et pénible pour un opérateur de visionner des
vidéos de surveillance durant des périodes de temps conséquentes. Cela peut engendrer
un manque de concentration chez les opérateurs et à terme conduire à des brèches de
sécurité. Compte tenu des progrès réalisés récemment dans le domaine de la vision par
ordinateur, notamment par l'intermédiaire de l'apprentissage profond, une solution à ce
problème réside dans le développement de systèmes intelligents capables d'épauler l'opé-
rateur humain dans l'exploitation de ces données. Ces systèmes intelligents auront pour
objectifs de modéliser les comportements normaux d'une scène surveillée et détecter tout
événement déviant, pouvant conduire à une faille de sécurité. L'apprentissage profond
(Deep Learning) représente une révolution dans le domaine de l'intelligence articielle et
du traitement de grandes masses de données (Big Data). Il repose sur des architectures à
plusieurs couches de traitement intégrant diérents niveau d'abstraction et visant à repro-
duire le modèle de la perception humaine. L'apprentissage profond a permis des progrès
importants et rapides dans les domaines du traitement automatisé du signal et de la vision
par ordinateur. Dans le cadre de cette thèse intitulée Apprentissage profond appliqué à
la détection d'événements anormaux dans les ux vidéos , on se propose de développer
des algorithmes se basant sur l'apprentissage profond pour la détection et la localisation
des événements vidéo anormaux pouvant reéter des situations à risque. Il s'agit, en fait,
d'extraire des descripteurs spatiotemporels robustes et dénir des algorithmes de classi-
cation adaptés pour détecter des comportements suspects avec le minimum de fausses
alarmes possible, tout en assurant une bonne probabilité de détection.
Abstract
Security is a major concern for any modern society, the development and fullment
of individuals is impossible to achieve without a prior guarantee of security. The use of
v
video surveillance, which is a recognized tool in the eld of security, has become widespread
over the last few years. The increase of the video streams poses the problem of the ecient
treatment of the large amounts of data generated. Currently, the vast majority of these
data are exclusively analyzed by human operators. However, many studies have shown the
limits of operators to support all treatments of these video streams. It is time-consuming,
very laborious and painful for an operator to watch surveillance video for hours. This can
create a lack of concentration among operators and ultimately lead to security breaches.
Given recent advances in computer vision, through deep learning, one solution to this
problem lies in the development of intelligent systems capable of supporting the human
operator in the processing of this data. These intelligent systems will be responsible for
modelling the normal behaviour of a monitored scene and detecting any abnormal event
that could lead to a security breach.
The deep learning has led to a revolution in the eld of articial intelligence. It is
based on multi-layered processing architectures integrating dierent levels of abstraction
and designed to reproduce the human perception. The deep learning has led to signicant
and rapid progress in the elds of automated signal processing and computer vision.
Within the context of this thesis entitled "Deep learning applied to the detection of
abnormal events in video streams", we propose to develop algorithms based on deep
learning for the detection and localization of abnormal events that may reect potentially
dangerous situations. In fact, the objective is to extract robust spatiotemporal descriptors
and dene classication algorithms adapted to the detection of suspicious behaviour with
the minimum number of false alarms, while ensuring a good detection rate.
Keywords: anomaly detection, deep learning, abnormal video events, transfer learning,
unsupervised learning, one-class learning.
vi
Introduction générale
Contexte général
La sécurité est une valeur fondatrice de toute société moderne, elle contribue forte-
ment à l'instauration d'un climat de paix et de quiétude, nécessaire au bon développement
social. Actuellement, la sécurité, les conditions de sa concrétisation et les diérents mé-
canismes de sa mise en ÷uvre sont des préoccupations majeures, que ce soit à l'échelle
individuelle ou collective. Ces dernières décennies, la quête constante de sécurité s'est
traduite par une surveillance accrue de l'espace public et la généralisation de la vidéo
surveillance en est une preuve. Les cameras sont omniprésentes que ce soit dans les lieux
à forte fréquentation (aéroports, métros, centres commerciaux et banques) ou dans des
lieux à fréquentation plus restreinte (domiciles, laboratoires, sites industriels et zones à
accès contrôlés). À titre d'exemple la Commission nationale française de l'informatique
et des libertés comptabilise 935 000 cameras de surveillance installé en France [1]. Une
étude paru en 2011 annonce un chire de 1.85 million de cameras Au Royaume-Uni [2].
vii
Introduction générale
viii
chine certaines tâches qu'on pensait jusque-là réservées à l'être humain. Parmi elles, des
classiques de l'apprentissage automatique : classication d'images [6], reconnaissance fa-
ciale [7], estimation de la pose humaine [8], traitement automatique du langage naturel [9],
reconnaissance automatique de la parole [10], mais également des tâches plus atypiques :
systèmes de traduction automatique [11], lecture labiale [12], gestion de négociations [13],
raisonnement visuel [14] et génération automatique de code informatique [15]. Les ap-
proches basées sur l'apprentissage profond ont été à l'origine ou du moins ont favorisé
une grande partie de ces avancées. L'apprentissage profond DL (Deep Learning) est un
ensemble de méthodes basées sur des architectures à plusieurs couches d'apprentissage de
représentations. Ces méthodes permettent d'extraire automatiquement à partir des don-
nées brutes les représentations nécessaires au traitement de ces données. Actuellement les
méthodes d'apprentissage profond les plus ecaces se basent sur un apprentissage super-
visé, de grandes bases de données étiquetées, contenant des échantillons des diérentes
classes doivent être utilisées.
Pour tirer pleinement avantages de ces outils d'apprentissage dans un système de
surveillance intelligent, il faudrait dans l'idéal disposer d'un grand nombres de données
d'apprentissage représentatives des événements normaux et anormaux. Cependant, de
nombreuses barrières viennent entraver la création de telles bases de données, parmi les
quelles on peut citer :
Le caractère contextuel de l'événement. En eet la nature d'un événement est in-
timent liée à son contexte, un événement anormal dans une scène peut être normal
dans une autre. Ce point rend quasi impossible, la conception de bases de données
génériques utilisables de manière homogène pour diérentes scènes.
Contributions
Les contributions de cette thèse sont en concordance avec l'objectif principal qui est
l'adaptation et le développement de méthodes basées sur l'apprentissage profond pour la
détection et la localisation d'événements vidéos anormaux. Ces contributions, présentées
ci-dessous, s'articulent autour des 4 chapitres constituants notre manuscrit.
ix
Introduction générale
x
nements normaux des représentations regroupées dans un cluster compacte, fa-
voriserait grandement l'isolation des événements anormaux par des classieurs à
classe unique. Dans cette optique, nous proposons dans ce troisièmement chapitre,
une méthode originale d'apprentissage des réseaux de neurones en utilisant des
échantillons d'entrainement provenant d'une seule classe de données. Cette mé-
thode permet non seulement, d'entrainer un réseau à extraire des représentations
spatiotemporelles descriptives, mais également d'obtenir un cluster susamment
compact pour représenter les événements normaux. Dans la seconde partie du cha-
pitre, nous explorons diérentes architecture profonde permettant de tire pleine-
ment avantage de cette nouvelle méthode d'apprentissage.
Organisation du manuscrit
Le manuscrit est organisé comme suit :
Notre troisième chapitre est dédié aux réseaux de neurones non supervisé, appliqués
à la détection et la localisation des événements vidéos anormaux. Le chapitre com-
porte également deux sections. Dans la première, un rappelle sur le fonctionnement
xi
Introduction générale
xii
Table des gures
xiii
Table des gures
xiv
1
État de l'art
1.1 Introduction
L'accroissement des préoccupations en matière de sécurité à l'échelle mondiale a fa-
vorisé la généralisation des dispositifs de vidéo surveillance dans l'espace de vie. Le ux
vidéo généré est tel que son exploitation dans sa totalité par des opérateurs humains
devient de plus en plus dicile. Compte tenu des enjeux entourant ce phénomène, un vé-
ritable engouement s'est créé autour du développement de solutions de vidéo surveillance
intelligente. Cette mobilisation de la communauté scientique et industrielle a eu comme
conséquence le développement ou l'adaptation de nombreuses approches de traitement
d'images pour la vidéo surveillance, parmi les quel ont peut citer : les méthodes de tra-
cking adaptées pour le contrôle du trac. La réidentication de personnes qui permet
entre autre de vérier si une personne gurant sur des images diérentes est la même,
utile pour vérier l'identité d'une personne ou localiser une cible. Les méthodes de clas-
sication d'objet qui permettent de nombreuses applications notamment la détection de
bagages abandonnés, etc. Malgré l'impact positif de ces approches sur l'exploitation des
données de cameras de surveillance, une partie importante du travail des opérateurs reste
inchangée. En eet un objectif majeur des opérateurs de vidéo surveillance est de dé-
tecter les comportements anormaux pouvant représenter des risques de sécurité. An de
remédier à ce problème, le développement de systèmes de vision par ordinateur capables
d'apprendre les comportements normaux d'une scène et de détecter les événements anor-
maux est devenu primordiale. La détection automatique d'événements vidéo anormaux
est une tâche de recherche active dans la communauté de la vision par ordinateur. De
nombreux travaux sont continuellement proposés an de faire face a ce besoin réel.
Les événements vidéos anormaux ont connu dans la littérature de nombreuses ap-
pellations : comportements irréguliers, activités/événements/comportements inhabituels,
comportements anormaux, anomalies, etc [23]. Ces diérentes appellations seront utilisées
de manière interchangeable sans nous soucier des incohérences techniques. La détection
d'événements vidéo anormaux se caractérise également par une multiplicité des stratégies
adoptées vis-à-vis des données d'apprentissage. Une première approche consiste à eectuer
l'apprentissage uniquement sur des données normales et considère tout type d'événements
étrangers à la phase d'apprentissage comme étant anormaux. Une approche en opposi-
1
Chapitre 1. État de l'art
tion avec la première, consiste à utiliser uniquement des événements anormaux comme
exemples d'apprentissage [24]. Cette approche peut être ecace pour cibler un certain type
d'anomalies, mais présente un risque élevé de rater des événements anormaux diérents
de ceux appris. Une autre approche quant à elle se focalise sur l'utilisation de données
labellisées en deux classe bien distinctes, normal et anormal[25]. D'autres travaux quant
à eux font appel à des données classiées et étiquetées de manière plus aboutie, dans le
sens où chaque classe représente un type d'événements bien précis[26, 27]. Les approches
utilisant des événements anormaux comme données d'apprentissage sont souvent remises
en cause. Outre le fait que certains événements anormaux sont impossibles à reproduire, la
variabilité entre les événements anormaux complique considérablement la tâche d'appren-
tissage et peut inuer négativement sur la faculté de généralisation du modèle formé. Une
dernière approche basée généralement sur des méthodes de clustering, consiste à utiliser
des bases de données non étiquetées contenant à la fois des données normales et anormales
[28, 29]. Dans cette dernière approche on suppose que les événements normaux sont ceux
qui se produisent fréquemment et les anormaux, ceux qui se produisent rarement. Cette
approche ore l'avantage de ne pas nécessiter l'étiquetage des données d'entrainement,
mais son ecacité est mise en péril par l'hypothèse selon laquelle tous les événements
rares sont anormaux car bien évidement un événement rare n'est pas forcement anormal.
Malgré la divergence des stratégies concernant les données d'apprentissage dans les tra-
vaux récents sur la détection d'événements anormaux [25, 30, 31, 32], la première approche
consistant à utiliser uniquement les données normales durant le processus d'apprentissage
s'est imposée et devenu de manière implicite la norme [33]. Dans nos travaux menés dans
le cadre de cette thèse cette approche a été adoptée. Quelque soit le nom qu'on lui attribue
et l'approche adoptée, dans le contexte de la vidéo surveillance un événement anormal
est souvent décrit comme un événement à faible probabilité d'occurrence dans la scène
surveillée. Dans ce sens la détection d'événements anormaux peut être considérée comme
étant une tâche de reconnaissance de forme et/ou de mouvement, sous la contrainte que
l'élément à reconnaitre ne gure pas dans l'ensemble d'apprentissage.
2
1.2. Méthodes basées sur une extraction ciblée de caractéristiques
Compte tenu du grand nombre de travaux sur la détection d'événements vidéos anor-
maux et leur diversité, catégoriser les méthodes existante n'est pas une tâche aisée à
réaliser. En eet, ces méthodes ont été proposées en grande majorité dans le cadre de
travaux de recherches et que chacune d'elle apporte une contribution particulière ce qui
la rend unique. Néanmoins, dans ce qui suit, nous proposons une première classication
en fonction du modèle de reconnaissance de forme adopté. Cette classication est ensuite
anée en mettant en évidence les similitudes qui peuvent subsister entre diérentes mé-
thodes. Le modèle standard de reconnaissance de forme se compose essentiellement de
trois étapes : l'acquisition des données, l'obtention de nouvelles représentations à tra-
vers l'extraction ciblée de caractéristiques (hand-crafted features) et la classication de
ces représentations, gure 1.1. Dans le modèle standard, l'étape de classication se fait
souvent à l'aide de classieurs entrainables alors que l'étape d'extraction de caractéris-
tiques nécessite un traitement manuel an de sélectionner et d'extraire les caractéristiques
adaptées à la tâche de reconnaissance à réaliser. Durant ces dernières années, un second
modèle s'est imposé notamment grâce à l'avènement de l'apprentissage profond, dans ce
dernier, l'étape d'extraction ciblée de caractéristiques est remplacée par une étape d'ap-
prentissage de représentations [34], gure 1.1. De cette manière les caractéristiques sont
automatiquement sélectionnées et extraites en fonction de la tâche à accomplir.
Dans le reste de ce chapitre nous allons exposer un état de l'art détaillé, englobant
les méthodes de détection et de localisation d'événements vidéos anormaux les plus per-
tinentes.
3
Chapitre 1. État de l'art
La caractéristique la plus couramment extraite des objets est la trajectoire. Son ana-
lyse a été intensivement explorée pour la détection d'événements anormaux [36, 37, 38, 39,
40, 41]. Les méthodes qui l'exploitent tentent généralement de dénir un modèle pour les
trajectoires normales d'une scène et déclare les trajectoires déviantes de ce modèle comme
anormales. Dans certains cas d'application, la trajectoire et la position des objet cibles
susent pour détecter d'éventuels événements anormaux, parmi lesquels on peut citer : la
détection de violations de zones à circulation restreinte [42], la surveillance du trac rou-
tier [43] et le comptage de personnes [44]. La trajectoire peut être combinée avec d'autres
descripteurs du même niveau comme la taille des objet et leurs vitesse an d'obtenir des
meilleures représentations. Dans [24] la trajectoire, la distance entre objets, la vitesse des
objets et l'énergie du mouvement ont été combinés pour représenter les événements. La
trajectoire a été également fusionnée avec des caractéristiques de bas niveau pour détecter
non seulement les comportements anormaux liés à la vitesse et à la trajectoire, mais aussi
les comportements complexes liés à des mouvements plus subtils. Malgré l'utilité avérée
de l'analyse de la trajectoire dans certain cas d'usage, son ecacité est limitée en ce qui
concerne les formes et les mouvements complexes. D'autres part, une grande majorité
des méthodes qui utilisent la trajectoire requièrent l'utilisation de techniques précises de
tracking et de détection d'objets, ce qui les rend sensibles aux occlusions particulièrement
dans les scènes surpeuplées. Outre leur manque d'ecacité quand le nombre de cibles
vient à augmenter leur dépendance aux algorithmes de tracking et de détection d'objets
les caractérisent également par une complexité calculatoire élevée.
D'autres méthodes d'extraction de caractéristiques moins aectées par les occlusions ont
été utilisées au niveau de l'objet pour la détection d'anomalies. Dans [45], des rectangles
entourant les objets ainsi que leurs largeurs et longueurs ont été exploités comme descrip-
teurs pour détecter des comportement anormaux dans des ascenseurs. Les événements
peuvent également être représentés sous forme de blobs, dans [46] des blobs sont formés
avec les pixels de premier plan. Les centres de ces blobs et leurs tailles sont ensuite fusion-
nés avec d'autres descripteurs pour obtenir des vecteurs de caractéristiques représentatifs
de la scène. La silhouette a également été utilisée dans la reconnaissance d'événements
vidéos. [47] extrait les silhouettes et les transforme à travers un algorithme de réduction
de dimensionnalité, an d'obtenir des représentations exploitables pour la reconnaissance
d'activité.
Étant donné les dés que représentent le tracking vidéo et la détection d'objets dans
une scène de vidéo surveillance, de nombreuses méthodes de détection d'événements anor-
maux se concentrent sur l'extraction de caractéristiques au niveau du pixel telles que (la
texture, le gradient et le mouvement). L'analyse de la texture renvoie des informations sur
l'arrangement spatial des intensités des pixels dans l'image. Dans [48] un ltrage avec un
2D Gabor wavelets [49] est eectué pour obtenir la texture, cette dernière est utilisée pour
améliorer la dissociation entre les diérents éléments de la scène. Des méthodes proposent
également de modéliser simultanément l'apparence et la dynamique d'une scène en utili-
4
1.2. Méthodes basées sur une extraction ciblée de caractéristiques
sant la texture dynamique DT (dynamic texture) [50, 51]. Le gradient a souvent été utilisé
dans des travaux de détection d'événement anormaux, il permet de décrire l'apparence et
la forme locale des objets dans une image. Le HOG (Histogram of Oriented Gradients)
est l'une des forme sous laquelle le gradient peut être exploité [52, 28]. Le gradient peut
également être étendu au domaine temporel an de construire un histogramme de gra-
dient spatiotemporel [53, 54].
5
Chapitre 1. État de l'art
nière intensive dans la détection d'événement anormaux [67, 67, 73, 68, 63].
Des méthodes de clustering ont également été employé pour la détection d'événements
anormaux. K -Means est un algorithme non supervisé de partitionnement de données, il
permet de regrouper en K clusters distincts les échantillons d'un ensemble de données.
Avec cet algorithme un échantillon est assigné au cluster dont la moyenne est la plus
proche de lui. Dans [45] K -Means est utilisé pour associer des labels aux représentations
des objets, ces labels sont ensuite exploité an de construire un modèle d'activité. [74] a
utilisé K -medoids une déclinaison de K -Means pour détecter des trajectoire anormales.
D'autres méthodes de clustering inspirées par l'approche BOV (Bag Of Visual words)
permettent de représenter les données à travers un dictionnaire, souvent appelé codebook
dans la littérature de la détection des événements vidéos anormaux [29, 28, 75, 76, 54]. Le
codebook permet de représenter par l'intermédiaires de codewords l'ensemble des données.
Ces codewords sont assignés au diérents échantillons de données grâce à une mesure de
similarité. Dans [29], une vidéo est découpée en plusieurs volumes spatiotemporels grâce
à un échantillonnage dense. Un codebook est ensuite construit pour représenter ces vo-
lumes en utilisant une distance euclidienne comme mesure de similarité. Les codewords
sont construits en prenant en considération non seulement les échantillons qu'il représente,
mais également leur fréquence d'apparition et leur similarité avec le codeword concerné.
Outre les méthodes de classication et de clustering, des approches basées sur la mo-
délisation ont été également explorées. Le modèle de Markov caché HMM (hidden Markov
model) gure parmi les méthodes les plus intensivement exploitées pour la modélisation
du comportement et la détection d'événements anormaux [45, 77, 24, 78]. Le HMM est
un modèle graphique orienté, il peut être représenté sous forme de n÷uds reliés par des
liens de transition représentant une série temporelle d'états. Chaque n÷ud représente
un état qui n'est pas directement observable. Cependant, à chaque état une observation
correspondant à un ensemble de probabilités d'états est réalisée. Deux hypothèses sont
imposées au HMM : 1) les transitions d'état ne sont conditionnées que par l'état pré-
cédent. 2) Les observations ne sont conditionnées que par l'état actuel, de ce fait, les
observations ultérieures sont considérées comme indépendantes les unes des autres dans
l'état actuel. Le HMM est dénit par deux matrices : la matrice de transition, elle cor-
respond au probabilités de transition entre états et la matrice d'émission qui contient les
probabilités d'observations. Ces deux matrices peuvent être déterminées par l'algorithme
d'entrainement BaumWelch. La popularité du HMM pour la modélisation du compor-
tement et la détection d'événements anormaux est probablement due à la dépendance
temporelle inhérente à cette méthode. Contrairement à de nombreuses autres méthodes
appliquées à la détection d'anomalies, le HMM est capable de prendre en considération
la nature intrinsèquement dynamique du comportement. De nombreuses déclinaisons du
HMM ont été appliquées pour la détection d'événement anormaux. Dans [77], un HMM et
une mixture de gaussiennes MOG (mixture of Gaussians) ont été utilisés pour détecter les
événements anormaux dans des zones de circulation routière en fonction des caractéris-
tiques extraites à l'aide du ux optique. [24] a utilisé un CHMM (coupled hidden Markov
model) pour détecter les interactions humaines anormales à l'intérieur des bâtiments. Le
CHMM est un modèle qui fait interagir deux HMM en ajoutant entre eux des probabilités
6
1.3. Méthodes basées sur l'apprentissage de représentations
7
Chapitre 1. État de l'art
8
1.3. Méthodes basées sur l'apprentissage de représentations
Figure 1.3 Poids des neurones dans les couches de convolutions, gure extraite de [18].
convolution à connexions locales, gure 1.5. Chaque couche de convolution est constituée
de plusieurs unités (neurones) réparties sous forme de cartes de caractéristiques (features
maps). Un neurone à l'intérieur d'une couche est connecté à des régions locales, appelées
champs récepteurs (receptive elds), dans les cartes de caractéristiques de la couche pré-
cédente. Cette connexion est réalisée au moyen d'un ensemble de poids appelé ltre. Le
CNN se distingue également par ce qu'on appelle poids partagés (shared weights), tous les
neurones d'une même carte de caractéristiques partagent les même poids de connexion.
Cela se fait concrètement en appliquant un même ltre de convolution sur l'ensemble de
la couche précédente. Des poids signie que tous les neurones d'une même carte réagissent
à la même caractéristique, mais de manière diérente en fonction de leur champ récep-
teur respectif. Le partage de poids permet de détecter les motifs indépendamment de
leur position, constituant ainsi une propriété d'invariance de translation. Dans un CNN
les couches de convolutions sont généralement associées avec des fonctions d'activation
non-linéaires comme la ReLU (rectied linear unit), gure 1.6. Ces fonctions permettent
notamment d'augmenter les propriétés non linéaires dans les représentations extraites
grâce au couches de convolutions.
9
Chapitre 1. État de l'art
10
1.3. Méthodes basées sur l'apprentissage de représentations
Figure 1.6 La fonction d'activation ReLU dans le contexte des réseaux de neurones
convolutifs.
pervisée un CNN sur une base de données d'images étiquetée. La deuxième approche se
base quant à elle sur le transfert d'apprentissage de réseau préalablement entrainés pour
d'autres tâches reconnaissance de formes.
Apprentissage supervisé
Comme cité précédemment, le CNN est une méthode d'apprentissage supervisé. Pour
exploiter pleinement ces capacités en terme d'extraction de caractéristiques et de classica-
tion pour la détection d'anomalies, une base de données étiquetée contenant des exemples
d'apprentissage des deux classes (normal et anormal) est nécessaire. Dans [85] un CNN
3D est proposé pour classer des clips vidéo en deux classes (bagarre ou non-bagarre) an
de détecter des actes de violence dans des vidéo de hockey sur glace. Un CNN 3D est
caractérisé par des opérations de convolutions 3D, ce qui lui permet d'extraire des carac-
téristiques spatiotemporels indispensables pour la description du mouvement. Dans [25],
un CNN 3D a été également construit pour classer des volumes vidéos d'intérêt SVOI
(Spatialtemporal Volumes of Interest) en deux classes normal et anormal. Les volumes
d'intérêt sont sélectionnés grâce au ux optique, ceux contenant peu ou pas de mou-
vement ne sont pas traités par le CNN. [86] propose quant à lui de combiner un Fast
R-CNNN multi-tâches avec la méthode d'estimation par noyau KDE (kernel density es-
timation). Le Fast R-CNN multi-tâche est entrainé de manière supervisée pour extraire
11
Chapitre 1. État de l'art
des caractéristiques sémantiques et des scores de classication pour diérents objets pré-
sents dans les images d'entrée. Ces caractéristiques sont ensuite utilisées par la KDE
pour détecter les anomalies. De cette manière on peut non seulement détecter les évé-
nements anormaux, mais également donner une description de l'événement détecté grâce
aux étiquettes fournies par le CNN. Des architectures à deux ux intégrant des CNNs
ont également été explorées dans le contexte de la détection d'événements anormaux. [87]
propose d'exploiter deux réseaux pour catégoriser les images en deux classes (images nor-
males et anormales). Le premier réseau est un CNN préentrainé et ané (ne-tuned) avec
des images d'entrainement appartenant aux deux classes, il permet l'extraction de repré-
sentations relatives à l'apparence. Le deuxième est un CNN identique au premier, mais
ané avec des représentations de ux optique extraites dans des séquences d'images. Ce
dernier permet notamment une meilleure description du mouvement. Une fois les réseaux
entrainé indépendamment la dissociation entre les images normal et anormales se fait en
moyennant les deux score de classication renvoyé par les deux réseaux.
Malgré les résultats probants des méthodes basées sur un apprentissage profond super-
visé, la nécessité d'utilisation d'échantillons d'entrainement à la fois normaux et anormaux
complique leur intégration dans des systèmes de vidéo surveillance intelligents.
Transfert d'apprentissage
Il a été démontré qu'un CNN entrainé pour réaliser une tâche cible, peut fournir
des caractéristiques génériques et robustes, utilisables pour accomplir une autre tâche de
vision par ordinateur diérente de celle pour la quelle il a spéciquement été entrainé.
Dans [88], des représentations extraites avec OverFeat [89], un CNN entrainé uniquement
pour la classication d'objets, sont exploitées au moyen d'un SVM linéaire ou bien d'une
norme euclidienne pour diérentes tâches (classication de scènes, classication détaillée,
détection d'attributs, récupération d'instance visuelle). Les résultats obtenus fournissent
des preuves tangibles sur la capacité des CNN à fournir des caractéristiques génériques
et robustes, utilisables pour diérentes tâches de vision par ordinateur. Ce principe a
été mis en application dans de nombreux travaux de détection d'événements anormaux.
Dans [68], un CNN 2D préentrainé sur des bases de données de classication d'images
est modié pour extraire des représentations des diérentes régions des images d'entrée.
Un OC-SVM est ensuite utilisé pour détecter parmi ces régions celles comportant des
événements anormaux. [90] combine un CNN 3D avec un classier adaptatif semblable à
un codebook pour détecter les événement anormaux. Le système peut s'adapter à l'ap-
parition de nouveaux événements grâce à une interaction humaine, ce qui peut éviter de
nombreuses fausses alarmes. Dans [91] un CNN préentrainé est fusionné avec une couche
de quantication binaire dont les poids sont entrainés grâce à une méthode de hachage
binaire nommée ITQ (Iterative Quantization Hashing) [92]. Ce réseau permet d'obtenir
une mesure d'irrégularité qui est ensuite combinée avec le ux optique an de détecter
les événements anormaux. Dans [93] un CNN préentrainé est combiné avec un sparse au-
toencodeur entrainable an d'obtenir un extracteur de caractéristiques a deux niveaux.
À la sortie du CNN un premier classieur gaussien est utilisé pour classer les régions
d'images en normales, anormales ou suspectes. Les représentations des régions suspectes
sont ensuite transformées par l'autoencodeur an d'obtenir des représentations plus dis-
12
1.3. Méthodes basées sur l'apprentissage de représentations
Les méthodes basées sur le transfert d'apprentissage ne nécessite pas de base de don-
nées étiquetées pour l'extraction de caractéristiques et leurs résultats en terme de détec-
tion et de localisation sont prometteurs. Néanmoins, la dépendance de ces méthodes à des
modèles préentrainés leur impose une certaine rigidité et réduit considérablement leurs
perspectives d'amélioration. Ces critères ont encouragé l'émergence de travaux orientés
sur des approches basées sur de l'apprentissage non supervisé.
Des méthodes telles que les autoencodeurs (AEs) ou le codage parcimonieux (sparse
coding) sont utilisées pour extraire les diérentes représentations linéaires et non linéaires
de l'apparence (image) ou du mouvement (ux), an de modéliser les comportements nor-
maux dans les vidéos de surveillance. L'autoencodeur AE (AutoEncoder) est un réseau
de neurones entièrement connectés largement exploité dans l'apprentissage automatiques.
Il se compose d'une couche d'entrée, d'une couche de sortie et d'une ou plusieurs couches
cachées, gure 1.8. L'entrainement de l'AE se fait habituellement grâce à une rétropropa-
gation du gradient dans l'objectif de minimiser l'erreur de reconstruction entre les données
d'entrées et les données de sortie. Dans l'AE les couches cachées sont réparties entre l'en-
codeur et le décodeur, l'encodeur sert à encoder la donnée d'entrée en une représentation
généralement plus compacte, le décodeur sert quant à lui à reconstruire la donnée en
fonction de la représentation générée par l'encodeur. L'AE est souvent utilisé comme une
alternative à l'ACP, pour la réduction de dimentionalités et peut également être un outil
ecace pour l'extraction de caractéristiques. Une fois entrainé, l'encodeur peut être uti-
13
Chapitre 1. État de l'art
lisé pour extraire des représentations exploitables dans diérentes tâches d'apprentissage
automatique comme le clustering et la détection d'outliers. Des variantes de l'autoen-
codeur comme l'autoencodeur débruiteur DAE (Denoising autoencoder), l'autoencodeur
variationnel VAE (Variational autoencoder) ont permis d'élargir le champ d'applications
de l'AE.
Compte tenu de sa capacité d'apprentissage non supervisé, l'AE a largement été ex-
ploré dans la détection d'événements anormaux. [95] propose AMDN (Appearance and
Motion DeepNet) un réseau constitué de trois SDAEs (stacked denoising autoencoders),
un premier entrainé à reconstruire des patchs extraits des images normales, un deuxième
entrainé avec les représentation de ux optique correspondantes au patchs et un troisième
entrainé avec la concaténation des patchs et leurs représentations en ux optiques. Une
fois les trois réseaux entrainés les représentations obtenus sont utilisées pour entrainer
trois OC-SVMs. Grâce à cette architecture, la détection d'événements anormaux est ra-
mené a une catégorisation binaire des diérentes régions d'images. Les patchs anormaux
sont détectés grâce à une combinaison des scores de décision des trois SVMs. Étant donné
que l'AE sous sa forme primaire est un réseau de neurones entièrement connectés, sa capa-
cité à représenter des structures 2D où les relations spatiales sont importantes est remise
en cause [96]. Néanmoins, une dérivée de l'autoencodeur nommé autoencodeur convolu-
tif CAE (Convolutional AutoEncoder) [96] rectie ce point en intégrant des couches de
convolutions avec des poids partagés, couches qu'on retrouve notamment dans les CNNs.
De cette manière le CAE préserve la localité spatiale existante dans les images naturelles.
[97] propose d'entrainer un CAE pour la reconstruction de volumes d'entrée 3D. Chaque
volume est constitué d'une image, de la même image ltrée par l'algorithme Canny Edge
Detector [98] et du ux optique extrait de ladite image et de l'image qui la précède. Après
l'entrainement du réseau, les volumes d'entrainement ( de la classe normal) sont de nou-
veau introduits dans le réseau. pour chaque volume trois erreurs de reconstruction sont
obtenus, une pour chaque canal du volume d'entrée. Ces trois erreurs sont combinées sous
forme de vecteurs et sont utilisés an d'entrainer un OC-SVM. La détection des frames
14
1.3. Méthodes basées sur l'apprentissage de représentations
Modèles prédictif
Une autre approche basée sur l'apprentissage profond non supervisé tend à utiliser des
modèles prédictifs pour la détection d'événements anormaux. Contrairement aux modèles
reconstructifs dont l'objectif est de former un modèle à reconstruire les données d'entrée,
les modèles prédictifs tentent de prédire une séquence courante de frames en utilisant les
séquences précédentes [103, 104, 105]. En d'autres termes, l'objectif est de modéliser la
distribution conditionnelle P (Xt /Xt−1 ), où Xt est une séquence de frames à l'instant t
et Xt−1 une séquence de frames à l'instant t − 1. L'AE a été largement exploité dans ce
15
Chapitre 1. État de l'art
type de modèles. La fonction d'un AE peut être déterminée en considérant ses valeurs de
sortie. Quand les valeurs de sortie ne sont que la reconstruction des entrées, l'AE est un
modèle reconstructif. Lorsque les valeur de sorties sont les valeurs postérieures au valeurs
d'entrée dans l'axe temporel, le modèle est dit prédictif.
Dans [104] un AE formé à base de ConvLSTMs est proposé pour la détection d'évé-
nements anormaux, le réseau se compose : d'un encodeur qui extrait des représentations
à partir d'une séquence d'entrée, d'un premier décodeur qui utilise les représentation
extraites par l'encodeur an de reconstruire la séquence d'entrée et d'un deuxième dé-
codeur qui utilise les représentations pour prédire la séquence de frames suivante. Cette
architecture permet d'obtenir des représentations plus robustes, en eet la branche de
reconstruction ne permet généralement que d'apprendre des représentations pour reéter
les données d'entrée alors que la branche de prédiction permet d'absorber plus d'informa-
tions temporelles pour pouvoir prédire les trajectoires des diérents objets de la scène.
Le réseau est uniquement entrainé avec des séquences de frames normales, ce qui per-
met d'avoir une erreur de reconstruction plus élevées quand une séquence contenant un
événement anormal est introduite. [103] propose un réseau similaire à [104], mais avec
des connexions supplémentaires pour augmenter le ux d'informations pendant la phase
de décodage, ce qui, selon l'auteur, améliore la capacité d'extrapolation pour générer de
meilleures images. Dans le même principe [105] propose un réseau constitué d'un encodeur
et deux décodeurs, le premier pour la reconstruction et le deuxième pour la prédiction.
Dans ce réseau des couches de convolution 3D sont exploitées à la place des ConvLSTMs,
pour l'apprentissage de représentations spatiotemporelles. Dans une couche de convolution
2D la convolution est appliquée uniquement aux dimensions spatiales, alors que dans une
couche de convolution 3D en plus d'être appliquée au dimensions spatiales, la convolution
est également appliquée à la dimension temporelle ce qui permet d'obtenir des représen-
tations spatiotemporelles décrivant à la fois les formes et les mouvements présents dans
les séquences d'entrée.
Modèle génératifs
Ces dernières années, l'utilisation des réseaux antagonistes génératifs GANs (Genera-
tive Adversarial Networks) s'est considérablement accrue dans les domaines de l'appren-
tissage automatique. Le GAN est un algorithme d'apprentissage non supervisé proposé
initialement par [106]. Il se constitue de deux sous-réseaux, un générateur et un discrimi-
nateur placés en compétition, gure 1.9. Durant la phase d'apprentissage le générateur
essayes de générer des données convaincantes pour leurrer le discriminateur qui tente quant
à lui de détecter si les données sont réelles ou bien générées. De cette manière on obtient
deux réseaux entrainés, l'un à générer des données réalistes et l'autre à distinguer les
données réelles des données générées. Après la phase d'apprentissage, le générateur peut
être utilisé indépendamment pour créer des données [107, 108] ou bien pour des tâches de
discrimination [109, 110], mais il peut être également utilisé conjointement avec le discri-
minateur [111, 112]. La capacité de génération des GANs a suscité beaucoup d'engouement
et de nombreuses applications intégrant des GANs ont vu le jour dans diérents domaines,
parmi les applications les plus inattendu on peut citer : Obvious [113] un collectif français
d'artistes qui s'est distingué par la création de tableaux artistiques grâce à des GANs.
16
1.3. Méthodes basées sur l'apprentissage de représentations
17
Chapitre 1. État de l'art
images à partir de représentations de ux optique. Cependant, l'erreur entre les images
générées et les images réelles n'est pas susante pour obtenir des résultats concluants.
L'auteur utilise alors un CNN préentrainé an d'extraire de nouvelles représentations à
partir des images originelles et des images générées et calcule ensuite l'erreur entre ces
représentations. Cette erreur est nalement combinée à celle du ux optique, qui elle était
initialement exploitable, an de détecter les régions anormales dans les images d'entrée.
[112] propose une méthode nommée AVID (Adversarial Visual Irregularity Detection)
pour détecter et localiser les irrégularités dans les vidéos. Un GAN composé d'un généra-
teur entrainé à eacer les irrégularités des images d'entrée et à les remplacer par les motifs
dominants de ces mêmes images et d'un discriminateur sous forme d'un FCN (fully convo-
lutional network) qui permet de prédire la probabilité des diérentes régions (patchs) des
images d'entrée d'être anormales. Les deux réseaux sont entrainés de manière adversative
et les irrégularités sont simulées grâce à du bruit gaussien. Après la phase d'apprentissage,
chacun des deux réseaux est apte à détecter les irrégularités : le générateur au niveau des
pixels grâce à l'erreur entre les images originelles et celles générées, le générateur a été
entrainé à eacer les irrégularité, de ce fait, quand une image contenant des irrégularités
est introduite, le générateur élimine ces irrégularités et les remplace par d'autres motifs ce
qui aura pour conséquence une erreur de génération plus importante. Le discriminateur,
quant à lui, peut directement prédire la probabilité d'un patch de contenir des irrégulari-
tés. Cependant, dans [112] il a été démontré que la détection est plus précise en croisant
les résultats des deux réseaux. Dans [119] une approche en cascade est proposée pour
la détection des événements anormaux. La première étape de cette approche consiste à
détecter et à extraire le premier plan des diérentes images grâce à un FCN. Des repré-
sentations de ux optique relatives au objets de premier plan sont ensuite extraites. Un
premier réseau peu profond basé sur un autoencodeur variationnel est utilisé an de ltrer
les régions d'images dont la normalité est évidente. Les régions suspectes ainsi que leurs
représentations en terme de ux optique sont ensuite analysées par un second réseau plus
profond. Les deux réseaux sont entrainés à reconstruire non seulement les images (pre-
miers plans des images), mais également les représentations de ux optique. Cela permet,
grâce à un seuillage de l'erreur de reconstruction, d'isoler les anomalies à la fois sur les
images, mais également sur les représentations de ux optique, l'union des deux constitue
la détection nale.
18
1.3. Méthodes basées sur l'apprentissage de représentations
19
Chapitre 1. État de l'art
rantir ces deux aspects, les auteurs proposent une architecture à deux réseaux : un réseau
référence R et un réseau secondaire S. Ils proposent également d'utiliser deux fonctions
de perte ; une perte de compacité (compactness loss) intégrée à la sortie du réseau S et
une perte de descriptivité (descriptiveness loss) intégrée à la sortie du réseau R . Les
deux réseaux sont en parallèle et partagent continuellement les mêmes poids. Il est im-
portant de faire remarquer que l'entrainement de cette architecture nécessite deux bases
de données distinctes, une première base cible (target dataset) contenant une seule classe
(la classe cible) et une seconde base référence (reference dataset) contenant quand à elle
plusieurs classes d'images. Les images ainsi que les classes de la base référence ne doivent
pas impérativement être en relation avec la première. Durant la phase d'apprentissage
deux batchs d'images, provenant chacun du dataset de référence et du dataset cible, sont
introduits simultanément dans les couches d'entrée du réseau de référence et du réseau
secondaire, respectivement. À la n du forward, le réseau de référence génère une perte de
descriptivité et le réseau secondaire génère une perte de compacité. Ces deux pertes sont
additionnées et utilisées an de mettre à jour les poids des deux réseaux. Après la phase
d'apprentissage, deux réseaux identiques capables de fournir à la fois des représentations
descriptives et compactes sont obtenus. Ces réseaux peuvent ensuite être combinés avec
un classieur One-Class an de dissocier les éléments d'une classe cible des outliers.
La détection d'anomalies est caractérisée par des bases de données contenant uni-
quement des échantillons d'apprentissage de la classe négative. Une approche existante
propose de générer des données pour représenter également la classe positive (les outliers).
[32] introduit une architecture composé d'un réseau extracteur de caractéristiques et d'un
réseau classieur. L'extracteur de caractéristiques est un CNN préentrainé utilisé pour
extraire des représentations à partir des images de la classe cible. Le classieur est quant
à lui un réseau neuronal entièrement connecté, en charge de classier les représentations
en deux classes distinctes (classe positive et classe négative). Étant donné l'indisponibilité
des échantillons d'apprentissage relatifs à la classe positive, les auteurs proposent une gé-
nération articielle de données intégrée dans le réseau pour remplacer les représentations
de la classe positive.
1.4 Conclusion
Une méthode de détection d'événements vidéos anormaux se compose généralement de
deux étapes essentielles : la première consiste en l'extraction de représentations descrip-
tives des événements de la scène. La seconde étape intervient une fois les représentations
obtenues et permet la détection des anomalies à travers notamment leurs classications.
Dans la littérature deux stratégies fondamentalement diérentes sont proposées. La pre-
mière est basée sur le modèle standard de reconnaissance de forme et repose sur une ex-
traction ciblée de caractéristiques. Tandis qu'une deuxième approche plus récente, portée
par l'avènement de l'apprentissage profond, se focalise sur l'apprentissage des représen-
tations pour décrire les événements. Dans ce chapitre, nous avons donné un aperçu des
principales approches découlant de chacune de ces deux stratégies. Nous avons discuté un
large éventail de travaux tout en mettant l'accent sur les plus prometteurs. Nous avons pris
en considération non seulement la cohérence théorique, mais également les perspectives
20
1.4. Conclusion
d'évolution et des possibilités concrètes d'intégration de ces méthodes dans les système
intelligents de surveillance. Nous nous sommes eorcés à argumenter les avantages et
contraintes rattachés aux diérentes approches listées pour mettre en évidence les pistes
de recherche les plus à mêmes de fournir des résultats concrets.
21
Chapitre 1. État de l'art
22
2
Transfert d'apprentissage
2.1 Introduction
Récemment, les réseaux profonds de neurones convolutifs ont refait surface en tant
qu'outil puissant d'apprentissage et particulièrement adapté aux grandes masses de don-
nées. Les réseaux de neurones ont démontré leur supériorité par rapport au méthodes
standards, basées essentiellement sur une extraction ciblée de caractéristiques, en amé-
liorant les résultats établis dans de nombreuses tâches de reconnaissance de formes telles
que la classication d'objets [82], la détection et localisation d'objets [89], la classication
de vidéos [124], la segmentation [125], etc.
Les réseaux profonds de neurones sont non seulement en mesure d'obtenir des résul-
tats positifs et satisfaisants dans de nombreuses tâches d'apprentissage pour lesquelles ils
ont été formés, mais également fournir des représentations génériques exploitables dans
diverses tâches de reconnaissance de formes. Des travaux ont exploité cette capacité de
généralisation en utilisant des réseaux entrainés à la classication d'objets sur de grande
bases de données comme ImageNet [84] pour accomplir d'autres tâches de reconnaissance
ou les données d'entrainement sont moins disponibles [88, 126]. Il a été notamment dé-
montré que des représentations extraites à l'aide d'un CNN entrainé uniquement pour la
classication d'objet, pouvait être exploitées au moyen de classieurs standards tel que le
SVM dans diérentes tâches autres que la classication d'objets [88, 127, 128]. Encoura-
gés par ces conclusions on propose dans ce chapitre d'étudier le transfert d'apprentissage
dans le contexte de la détection d'événements anormaux. Dans ce sens on propose deux
méthodes basées sur des CNNs préentrainés, la première consiste en la combinaison d'un
FCN 2D (fully convolutional network) et d'un OC-SVM. La deuxième quant à elle est
basée sur la combinaison d'un FCN 3D résiduel et d'une nouvelle méthode de classi-
cation exploitant la distance de Mahalanobis. Dans le contexte des réseaux de neurones
convolutifs, l'utilisation d'un réseau préalablement entrainé à résoudre une tâche donné
dans une nouvelle tâche d'apprentissage, sans être forcément en relation avec la première,
est communément désigné par "transfert d'apprentissage". Cette appellation sera adoptée
dans ce chapitre et le reste du manuscrit.
Le reste du chapitre est organisé comme suit : dans la section 2.2, nous allons tout
d'abord débuter par un rappel sur le fonctionnement des deux principales techniques uti-
23
Chapitre 2. Transfert d'apprentissage
lisées dans notre méthode, à savoir le FCN (Fully Convolutional Network) et le OC-SVM
(One-Class SVM). Nous allons ensuite présenter notre première méthode et détailler ses
diérentes étapes, avant de clôturer cette section avec des résultats comparatifs. La sec-
tion suivante est quant à elle relative à la deuxième méthode. Dans un premier temps
nous allons présenter les réseaux entièrement convolutifs 3D résiduels. Nous allons en-
suite décrire en détails notre méthode avant de présenter également quelques résultats
expérimentaux ainsi qu'un comparatif avec les méthodes de l'état de l'art. La troisième
et dernière section permettra de conclure ce chapitre.
24
2.2. Réseau entièrement convolutif pour la détection et la localisation d'événements anormaux
couches entièrement connecté peut être exploité an d'obtenir des cartes de caractéris-
tiques qui conservent les relations spatiales avec l'images d'entrée.
Le FCN est un réseau largement exploité dans des tâches telles que la segmentation
[125], nécessitant non seulement d'extraire des informations robustes à partir de l'image
d'entrée, mais également préserver les relations spatiales entre les représentations et les dif-
férentes régions de l'image. En eet, les couches de bases constituant le FCN (convolution,
pooling et fonction d'activation) agissent sur des régions d'entrée locales et ne dépendent
que de coordonnées spatiales relatives. Concrètement pour chaque image d'entrée de taille
h × w × d, où h et w sont la largeur et la longueur de l'image et d le nombre de canaux,
le FCN renvoie des carte de caractéristiques sous forme d'un volume de taille h́ × ẃ × d´
où h́ et ẃ sont la largeur et la longueur des cartes de caractéristiques et d´ leur nombre.
Dans ce volume, chaque vecteur est relatif à une région de l'image d'entrée communé-
ment appelée champ récepteur (réceptive eld). Cette particularité du FCN peut s'avérer
particulièrement utile pour la localisation des anomalies à l'intérieur de l'image. Concrè-
tement, détecter parmi les vecteurs de caractéristiques les valeurs aberrantes (outliers),
permettrait d'isoler les régions d'images contenant des anomalies.
Figure 2.1 Architecture standard d'un réseau de neurones convolutifs (CNN) destiné
à la classication d'images.
25
Chapitre 2. Transfert d'apprentissage
blèmes non linéaires en problèmes linéaires. Le RKHS où sont projetées les données est
souvent désigné dans le context du SVM par espace de caractéristiques et les projections
sont quant à elles nommées vecteurs de caractéristiques (features vectors).
26
2.2. Réseau entièrement convolutif pour la détection et la localisation d'événements anormaux
n
1 1 X
min kwk2 − ρ + ξi , (2.1)
w,ρ,ξ 2 νn i=1
sous les contraintes hw, Φ(xi )i ≥ ρ − ξi , ξi ≥ 0.
où les xi sont les échantillons d'entrainement et les ξi des variables de relâchement des
contraintes, introduites pour permettre une souplesse dans le problème d'optimisation,
1
k · k est la norme euclidienne et h, i le produit scalaire. L'expression νn est introduite pour
gérer le compromis entre maximisation de la distance de l'hyperplan de l'origine et mini-
misation des erreurs. Tel que n est le nombre d'échantillons d'entrainement et ν ∈ [0, 1]
un paramètre spécique au OC-SVM, il dénit une limite supérieure du ratio des va-
leurs aberrantes ainsi qu'une limite inférieure du nombre d'échantillons d'entraînement
utilisés comme vecteurs de support. Compte tenu de l'importance de ce paramètre, le
OC-SVM est souvent mentionnée dans la littérature par l'expression ν -SVM. L'équation
hw, Φ(xi )i − ρ = 0 dénit l'hyperplan de décision, telle que w est la normale à cet hyper-
plan et ρ est un biais. La fonction de projection Φ permet de résoudre un problème de
classication non linéaire en construisant un classieur linéaire dans l'espace de caracté-
ristique H . Le noyau K(xi , xj ) associé à l'espace H est le produit scalaire entre les images
Φ(xi ) et Φ(xj ). En appliquant la méthode des multiplicateurs de Lagrange le problème
dual du OC-SVM s'exprime :
n n
1 XX
min αi αj K(xi , xj ), (2.2)
α 2 i=1 j=1
n
1 X
sous les contraintes 0 ≤ αi ≤ , αi = 1.
νn i=1
où les coecients αi sont les multiplicateurs de Lagrange et K(xi , xj ) = hΦ(xi ), Φ(xj )i.
En introduisant ces multiplicateurs la fonction de décision est dénit comme suit :
n
X
f (x) = sgn αi K(xi , x) − ρ (2.3)
i=1
Quand f (x) = 1, l'échantillon x est classé comme normal et dans le cas contraire il est
considéré comme anormal (outlier).
Kernel functions
Dans le cas des problèmes de classication simples à faible dimension, les données des
diérentes classes peuvent être dissociées en utilisant des séparateurs linéaires (ex : ligne
droite ou un plan). Cependant, de nombreux problèmes de classication ne sont pas sépa-
rables linéairement. Pour ce type de problèmes, une solution est d'utiliser une fonction à
noyau an de projeter les données du problème vers un espace de dimension supérieur où
une solution linéaire existerait. Parmi les fonctions à noyaux les plus couramment utilisées
dans le contexte de l'apprentissage statistique :
27
Chapitre 2. Transfert d'apprentissage
2
Noyau Gaussien RBF : K(x, y) = exp(− kx−yk
2σ 2
)
La fonction à base radiale RBF (radial basis function) permet d'appliquer une
échelle gaussienne sur la distance entre les échantillons d'apprentissage, ce qui en-
gendre un espace de projection de dimension innie.
28
2.2. Réseau entièrement convolutif pour la détection et la localisation d'événements anormaux
Extraction de représentations
29
Chapitre 2. Transfert d'apprentissage
Les couches profondes des CNN sont réputées fournir des représentations plus dis-
criminatives. Cependant, il a été démontré que les représentations apprises dans les
couches profondes deviennent de plus en plus spéciques à la tâche pour laquelle
le réseau a été initialement formé [88]. Or le réseau VGG a été entrainé pour de la
classication d'objet, les couches profondes sont donc spéciques pour cette tâche
en particulier ce qui rend leurs représentations potentiellement moins génériques
et donc moins adaptées pour une tâche sémantiquement diérente telle que la dé-
tection d'événements anormaux.
Plus une couche est profonde dans un CNN et plus la taille des champs récepteurs
(receptive elds) de ses neurones es importante. Concrètement cela veut dire que
la région décrite par chaque vecteur de caractéristique est d'autant plus grande
que la couche est profonde. Compte tenu du fait que la détection d'événements
anormaux se fait sur des images de scènes surpeuplées cela peut avoir un impact
considérable sur la représentativité des vecteurs de caractéristiques.
An de sélectionner la couche la plus adaptée, pour extraire des représentations robustes
et descriptives des images d'entrée, tout en prenant en compte les aspect mentionnés ci
dessus, on propose d'expérimenter notre méthode de détection et de localisation d'événe-
ments anormaux, en utilisant les représentations fournies par diérentes couches. Cette
procédure sera détaillée dans la section suivante.
30
2.2. Réseau entièrement convolutif pour la détection et la localisation d'événements anormaux
31
Chapitre 2. Transfert d'apprentissage
32
2.2. Réseau entièrement convolutif pour la détection et la localisation d'événements anormaux
end
end
test. La résolution des images est de 320 × 240 ce qui est considérée comme une résolution
basse. Ces diérentes spécicités font de cette base de données une base complexe reétant
de nombreuses dicultés parmi celles rencontrées dans les cas réels de surveillance vidéo.
Dans cette base de données, la qualité des images ainsi que les occlusions compliquent
considérablement la tâche de détection de certains événements anormaux telle que la pré-
sence de skateboards. En eet, vu la taille des skateboards et la résolution des images, il
est très dicile voire impossible de détecter de tels événements anormaux sans recourir à
des descripteurs de mouvement.
An d'obtenir des résultats quantitatifs et comparer notre méthode avec les méthodes
de l'état de l'art, nous utilisons trois critères : la courbe ROC (Receiver Operating Cha-
racteristic), le taux d'erreur égale EER (Equal Error Rate) et l'aire sous la courbe AUC
(Area Under Curve). Le EER ainsi que l'AUC sont tout deux obtenus grâce à la courbe
ROC (Receiver Operating Characteristic) [133, 134]. Cette courbe illustre le taux de vrais
positifs TPR (True Positive Rate), équation 2.5, en fonction du taux de faux positifs FPR
(False Positive Rate), équation 2.6, pour diérentes valeurs des paramètres du classieur.
Dans notre cas ces paramètres se résument dans le seuil appliqué au score de classication
33
Chapitre 2. Transfert d'apprentissage
TP
TPR = (2.5)
TP + FN
FP
FPR = (2.6)
FP + TN
tel que :
TP (True Positives) : représente le nombre de frames anormales détectées par le
système.
TN (True Negatives) : représente le nombre de frames normales non détectées par
le système.
FP (False Positives) : représente le nombre de frames normales détectées par le
système (Nombre de fausses alarmes).
FN(False Negatives) : représente le nombre de frames anormales non détectées par
le système (Nombre de manques de détection).
L'EER correspond au taux d'erreur obtenu lorsque le taux de faux positifs (FPR) est égale
au taux de faux négatifs (FNR). Le taux de faux négatif n'est pas directement accessible
depuis la courbe ROC, mais étant donné que le FNR = 1−TPR, le EER est le point de
la courbe vériant l'équation suivante :
L'AUC (Area Under Curve), comme son nom l'indique, correspond à l'aire sous la courbe
ROC.
On utilise ces trois critères d'évaluation (courbe ROC, EER, AUC) à la fois au niveau
de la frame FL (Frame Level) ainsi qu'on niveau du pixel (Pixel Level) [135]. Au niveau
de la frame, une image est étiquetée anormale par notre algorithme si au moins un de
ses pixels est détecté comme anormal. Le EERFL est utilisé an d'évaluer la capacité de
notre méthode à détecter les événements anormaux. Au niveau du pixel, une frame est
étiquetée anormale si au moins 40% de ses pixels anormaux sont détectés. Le ERRPL
est quant à lui utilisé pour évaluer la capacité de la méthode à localiser les anomalies à
l'intérieur des images.
An de tester notre méthode, les images sont extraites des vidéos brutes et redimen-
sionnées pour avoir une taille de 224, taille équivalente à l'entrée du VGG originel. On
soustrait ensuite à chaque image du même dossier l'image obtenue en moyennant toutes
les images du dit dossier. Pour les images de test, on leur soustrait les image moyennes
obtenus durant la phase d'entrainement an de respecter les conditions réelles des système
de surveillance. En eet, durant la phase de détection d'un système de vidéo surveillance
intelligent, les images arrivent de manière séquentielle, on ne peut donc pas calculer la
moyenne de toute les images.
Comme mentionné précédemment, notre FCN possède plusieurs couches potentielle-
ment utilisables pour l'extraction de vecteurs de caractéristiques. Chacune de ces couches
34
2.2. Réseau entièrement convolutif pour la détection et la localisation d'événements anormaux
est caractérisée par un nombre de ltres et par une taille de champ récepteur. An de
sélectionner la couche la plus pertinente pour notre application on propose d'évaluer notre
méthode en terme de taux d'erreur sur la base de donnée UCSD Ped2 en utilisant dié-
rentes couches. Le taux d'erreur est donné par l'équation suivante :
FP + FN
Err = (2.8)
NF
où NF est le nombre total de frames.
35
Chapitre 2. Transfert d'apprentissage
Figure 2.6 Exemples de détection d'événements anormaux sur la base de données Ped2.
La localisation des anomalies par notre algorithme se traduit par un ou plusieurs rec-
tangles délimitant l'anomalie, gure 2.6. Comparativement à des méthodes qui ÷uvrent
au niveau du pixel, cette localisation est inférieur en terme de précision. Cependant, elle
reste susante et adaptée pour une utilisation dans des systèmes de vidéo surveillance
intelligents. En eet, l'intérêt de la localisation des événements anormaux est de donner
une indication à l'opérateur humain de la position de l'anomalie et non de la segmen-
ter totalement. La gure 2.7, présente les courbes ROC pour notre méthode au niveau
de l'image et au niveau du pixel. L'AUC au niveau de l'image est de 84,7% et au ni-
veau du pixel de 77.6%. Le tableau 2.2 fournit une comparaison de notre algorithme avec
les méthodes de la littérature les plus signicatives dans le contexte de la détection des
événements anormaux. Parmi ces méthodes, on retrouve des travaux précurseurs basés
sur une extraction ciblée de caractéristiques (handcrafted features), qu'elles soient de bas
niveau tel que le ux optique, le gradient et la texture dynamique [61, 51, 29], ou bien
basées sur l'objet comme la taille, la vitesse et la texture des objets [48]. La comparaison
concerne également des méthodes plus récentes basées sur l'apprentissage de représenta-
tions [30, 91, 109, 138]. On constate que les résultats obtenus sont supérieurs à ceux de
la majorité des méthodes basées sur l'extraction ciblée de caractéristiques, ce qui nous
36
2.3. Réseau 3D résiduel entièrement convolutif pour la détection et la localisation d'événements anorm
1.0 1.0
0.8 0.8
0.6 0.6
TPRPL
TPRFL
0.4 0.4
0.2 0.2
0.0 0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
FPRFL FPRPL
(a) Courbe ROC au niveau de l'image (b) Courbe ROC au niveau du pixel
Figure 2.7 Courbe ROC, (a) au niveau de l'image et (b) au niveau du pixel.
AUCFL=84,7%, AUCPL=77,6%.
conforte sur le choix de l'approche. Cependant, les résultats de notre méthode restent
inférieurs à ceux obtenus par les méthodes récentes basées pour la plupart sur l'appren-
tissage profond. Cela s'explique notamment par le manque d'ecacité de la méthode sur
l'extraction de descripteur temporels. En eet le FCN utilisé dans notre méthode est un
FCN dérivé de VGG un réseau initialement développé pour de la classication d'images,
ce qui explique ces capacités limitées en terme d'extraction de descripteurs relatifs au
mouvement.
37
Chapitre 2. Transfert d'apprentissage
Table 2.2 Comparaison en terme de EERFL et EERPL sur la base de données UCSD
Ped2.
plus spéciquement le choix du noyau est complexe en plus d'être admis que l'ecacité
du SVM est fortement impactée par le nombre et les dimensions des données [141]. Pour
cette raison nous proposons comme alternative au SVM une nouvelle méthode de détection
d'outliers basée sur la distance de Mahalanobis [142].
38
2.3. Réseau 3D résiduel entièrement convolutif pour la détection et la localisation d'événements anorm
lution 3D est utilisée dans de nombreuses tâches de vision par ordinateur exploitant des
volumes de données 3D tel que l'imagerie médicale [143, 144], la reconstruction d'images
3D [145] et l'analyse vidéo [22, 146]. Dans le contexte de l'analyse vidéo, la convolution
3D est utilisée pour appréhender la dimension temporelle des volumes de données. En
eet appliquer une convolution 3D sur un volume vidéo permet non seulement d'extraire
des descripteurs relatifs aux motifs spatiaux mais également au motifs temporels. Grâce à
cette spécicité les CNNs 3D ont obtenus des résultats satisfaisants pour la classication
et la reconnaissance d'actions [22, 146].
En plus d'être en mesure d'extraire des informations relatives aux formes et au mouve-
ments contenus dans des séquences vidéos, les CNNs 3D, entrainés sur de grandes base de
données telle que Sport-1M [124] sont capables de fournir des représentations robustes et
susamment génériques pour être exploitées sur des données diérentes de celles utilisées
durant leur apprentissage. Il a également été démontré que les représentations extraites
par des réseaux convolutif 3D sont sémantiquement plus séparables en comparaison de
celles extraites par des réseau 2D, [22]. La gure 2.10 montre des représentations ex-
traites à partir d'images de la base de donnée UCF101 [147], en utilisant [22] un réseau
3D entrainé sur Sport-1M et [21] un réseau 2d entrainé quant à lui sur ImageNet. On re-
marque que les représentations du réseau 3D forment des clusters plus compacts pour les
diérentes classes de données. Grâce à leur capacité à fournir des représentations spatio-
39
Chapitre 2. Transfert d'apprentissage
temporelles compactes et génériques, les CNN 3D entrainé sur de grandes base de données
pour de la reconnaissance d'actions peuvent constituer des extracteurs de caractéristiques
exploitables dans la détection d'événements vidéos anormaux.
Figure 2.10 Visualisation avec la méthode t-SNE [20], des représentations extraites
par les réseaux ImageNet [21] et C3D [22] sur la base de donnée UCF101. Cette gure a
été extraite de [22].
Outre l'aspect 3D, certains réseaux de reconnaissance d'actions [146] ont adopté une
architecture résiduelle, appréciée notamment pour sa capacité à lutter contre le problème
de la disparition du gradient (Vanishing Gradient Problem). En eet, les réseaux de neu-
rones convolutifs sont généralement entrainés grâce à une rétropropagation du gradient,
en calculant les dérivées couche par couche, de la couche nale à la couche initiale. Dans
les réseaux constitués d'un grand nombre de couches, le gradient requis pour la mise à
jour des poids avec la rétropropagation à tendance à diminuer fortement jusqu'à s'annu-
ler lorsque on atteint les couches initiales. Un faible gradient signie que les poids des
couches ne seront pas mis à jour de manière ecace à chaque itération d'apprentissage.
Par conséquent, au fur et à mesure que le réseau s'approfondit, ses performances saturent
ou commencent même à se dégrader rapidement. Pour lutter contre ce phénomène, [6] a
proposé une nouvelle architecture intégrant des blocs résiduels, gure 2.11. Dans un bloc
résiduel, la carte de sortie originale F (x) est rajustée en F (x) + x, grâce à une connexion
raccourci directement vers les couches précédentes. En d'autre termes, l'entré x est ra-
jouté à la sortie du bloc F (x) grâce à une fonction identité. De cette manière, même si
la disparition du gradient aecte les couches de poids (couches de la branche principale),
l'identité x quant à elle permet d'obtenir une dérivée globale plus élevée pour le bloc.
L'utilisation des blocs résiduels à donc permis à [6] de construire un réseau très profond
qui a obtenu la première place du chalenge ILSVRC-2015 (Large Scale Visual Recognition
Challenge).
40
2.3. Réseau 3D résiduel entièrement convolutif pour la détection et la localisation d'événements anorm
p
DM (y, X) = (y − µ) × Σ−1 × (y − µ)T (2.9)
41
Chapitre 2. Transfert d'apprentissage
les observations externes à l'ensemble se caractérisent par une distance beaucoup plus
élevée, ce qui rend la détection d'outliers possible, gure 2.13. Cela s'explique notamment
par le fait que la distance de Mahalanobis prend en compte non seulement la distance par
rapport au centroïde, mais également les directions de distribution des données.
Extraction de représentations
Le réseau nommé Res3D [146] est un CNN 3D résiduel entrainé pour la classica-
tion d'actions sur la base de donnée Sport-1M contenant plus de 1.1 millions de vidéos.
42
2.3. Réseau 3D résiduel entièrement convolutif pour la détection et la localisation d'événements anorm
Au même titre que les réseaux 2D entrainés sur ImageNet sont en mesure de fournir
des caractéristiques spatiales adaptées à de nombreuses tâches de traitement d'images,
il a été démontré que les réseaux de neurones convolutifs 3D entrainés sur Sport-1M
peuvent extraire des représentations spatiotemporelles génériques exploitables pour la re-
connaissance d'événements vidéos [22]. On propose donc d'appliquer la même procédure
que dans la section 2.2 an de transformer le Res3D en FCN capable de générer une
carte de caractéristiques pour chaque suite d'images d'entrée. Le réseau initial Res3D
est conçu pour prendre en entrée une suite d'images RGB, pour les raisons expliquées
précédemment, nous choisissons d'utiliser pour notre application des images en niveau
de gris. An d'adapter nos données à l'entrée du réseau, nous construisons des images
à trois canaux où chaque canal contient la même image en niveau de gris. Une fois les
images à trois canaux construite, on assigne à chaque image It un volume vidéo 3D
X = {It , It−1 , It−2 , ..., It−(n−1) }, constitué de n frames consécutives dans l'axe temporel.
Par souci de simplicité, dans ce qui va suivre nous omettons les canaux et désignons l'en-
w×h×d
trée par un volume X ∈ R où w, h, d sont respectivement la largeur, la hauteur et
la profondeur temporelle du volume. Pour chaque volume X , le FCN renvoie une carte
´ ´
F ={fi : i = 1, ..., ẃ × h́}, F ∈ Rẃ×h́×d et f ∈ Rd tel que ẃ × h́ × d´
de caractéristiques
sont respectivement la largeur, la hauteur et la profondeur de la carte de caractéristique.
L'architecture du FCN adoptée pour l'extraction de représentations est présentée dans
la gure 2.15. Nous avons choisi de conserver les 4 premiers blocs résiduels (16 couches
de convolution) du Res3D original. Le FCN obtenu renvoie pour des images d'entrée de
dimensions 227 × 227 des cartes de caractéristiques de dimensions 29 × 29 × 256 en sortie.
En d'autres termes, le réseau renvoie en sortie 841 (29 × 29) vecteurs de dimension 256
et chacun d'eux est une représentation spatiotemporelle d'un patch du volume d'entrée,
voir gure 2.14.
43
Chapitre 2. Transfert d'apprentissage
Les enregistrements de vidéo de surveillance sont caractérisés par une forte redondance
de l'information, En eet, la majorité des événements qui se produisent dans les scènes
normales sont anodins et répétitifs. Les événements sémantiquement diérents qui peuvent
subvenir de manière anecdotique sont noyés dans le ux des événements fréquents. Pour
répondre ecacement à la problématique de la détection des événements vidéos anormaux,
la modélisation des événements durant la phase d'entrainement doit être en mesure de
prendre en considération le potentiel déséquilibre dans la fréquence des événements. Dans
notre cas, construire le modèle d'événements en utilisant tous les vecteurs de caracté-
ristiques, extraits par notre FCN pour chaque frame pendant la phase d'entrainement,
fausserait la distribution en pondérant les éléments redondants et en marginalisant ceux
qui sont rares. À terme cela pourrait conduire à des interprétations erronées et recréer des
confusions entre les événements rares et les anomalies dans le processus de détection. Pour
contrer ce phénomène, nous proposons d'intégrer à notre méthode une phase de sélection
en ligne de vecteurs d'intérêt. Cela permettra de dénir une distribution balancée capable
de représenter de façon équilibrée tous les événements normaux y compris les événements
rares. De cette manière, tous les événements normaux disposeront du même impact sur
le processus de détection et cela permettra à terme de réduire les fausses alarmes.
L'algorithme 2 présente les diérentes étapes de notre méthode. Après la construction des
volumes vidéos, nous utilisons le FCN 3D pour extraire les vecteurs de caractéristiques.
Une fois les vecteurs du premier volume obtenus, nous déclarons parmi eux N vecteurs
comme étant des vecteurs d'intérêt et les injectons dans la distribution représentant les
événements normaux. Nous calculons ensuite une mesure de similarité disti , basée sur la
44
2.3. Réseau 3D résiduel entièrement convolutif pour la détection et la localisation d'événements anorm
distance de Mahalanobis, entre chaque vecteur restant fi et les N vecteurs d'intérêt. Cette
mesure est formalisée dans l'équation suivante :
p
disti = (fi − moy) × Q × (fi − moy)T (2.10)
45
Chapitre 2. Transfert d'apprentissage
phase d'apprentissage. Cela évitera les futures détections de l'événement qui a conduit à
la fausse alarme.
Dans la base de données UCSD Ped2 nous avons évalué deux scénarios : SC1, quand on
considère une distribution équilibrée par dossier d'entrainement et un second scénario SC2
quand on utilise une seule distribution pour la totalité de la base de données. L'objectif
de cette distinction est de démontrer la robustesse de notre méthode à l'augmentation du
nombre de données durant la phase d'apprentissage. En eet, en éliminant la redondance,
le processus de sélection des vecteurs d'intérêt permet de garder une taille de distribution
raisonnable pour représenter la totalité des événements. On peut voir dans le tableau 2.3
le nombre de vecteurs d'intérêt obtenu pour chaque dossier ainsi que pour la totalité de la
base de données. Dans le premier scénario, le nombre de vecteurs d'intérêt est en moyenne
de 1067 ce qui représente moins de 1% du nombre de vecteurs de caractéristiques. Dans le
0.1%
second scénario le nombre de vecteur d'intérêt est égale à 1569 et représente moins de
du nombre total de vecteurs de caractéristiques. On constate que malgré l'augmentation
du nombre d'images, le nombre de vecteurs d'intérêt reste relativement stable. Cela permet
notamment de conforter notre analyse concernant la redondance des événements normaux
dans les vidéos de surveillance.
46
2.4. Conclusion
2.4 Conclusion
Dans ce chapitre, nous avons proposé deux méthodes pour la détection d'événements
vidéo anormaux. Ces méthodes sont fondées toutes deux sur des réseaux de neurones
préentrainés sur de grandes bases de donnée formées pour des tâches sémantiquement
diérentes de la détection d'événements vidéos anormaux. À travers ces méthodes nous
avons pu évaluer l'intérêt du transfert d'apprentissage dans le contexte de la détection
et de la localisation des événements vidéo anormaux. La première méthode, basée sur un
FCN 2D et un OC-SVM, nous a permis non seulement de conrmer l'intérêt de l'utilisa-
tion des réseaux de neurones préentrainé pour l'extraction de caractéristiques génériques
exploitables pour la caractérisation des événements vidéos, mais également de mettre en
avant la pertinence de l'architecture entièrement convolutive du FCN pour la localisa-
tion des anomalies à l'intérieur des images. Malgré l'intérêt de cette méthode, nous avons
constaté que l'aspect 2D du réseau ne lui permet pas d'extraire des descripteurs tempo-
47
Chapitre 2. Transfert d'apprentissage
rels susamment robustes pour la caractérisation des événements vidéo. Compte tenu des
constatations faite sur la base de notre première méthode nous avons orienté nos travaux
vers des réseaux de convolution 3D. Grâce à la combinaison d'un réseau 3D résiduel et
d'un classieur exploitant la distance de Mahalanobis, nous avons pu proposer une se-
conde méthode caractérisée par un apprentissage en ligne et adaptatif. Cette méthode a
démontré de très bonnes aptitudes de détection et de localisation d'événements anormaux
à travers les diérents tests eectués, que ce soit sur la base de données publique UCSD
Ped2, que sur le cas réel de surveillance de laboratoire (CapSec).
48
2.4. Conclusion
C=F(1 : N);
moy=mean(C);
Q=inv(cov(C));
moy=mean(C);
Q=inv(cov(C));
end
end
for pour chaque nouvelle image It do
X= [ It ; It−1 ; It−2 ; ...; It−n ];
F= FCN (X);
moy=mean(C);
Q=inv(cov(C));
end
end
end
Prunning de la distribution;
moy=mean(C);
Q=inv(cov(C));
end
end
Détection d'événements anormaux;
for pour chaque nouvelle image It do
X= [ It , It−1 , It−2 , ..., It−n ];
F= FCN (X);
moy=mean(C);
Q=inv(cov(C));
end
50
end
2.4. Conclusion
Table 2.4 ErrFL et ErrPL pour diérentes profondeurs temporelles du volume d'entrée.
Nombre de Frames 3 frames 4 frames 5 frames
ErrFL 6,58 8,25 7,26
ErrPL 10,55 11,55 12,12
51
Chapitre 2. Transfert d'apprentissage
(a) (b)
(c) (d)
(e) (f )
Figure 2.17 Détection d'événements anormaux dans le laboratoire CapSec. (a) une
personne à terre, (b) de multiples personnes à terre, (c) personne à terre en présence
d'une personne debout, (d) objet présumé anormal, (e) personne à terre en présence
d'une personne accroupie, (f ) personne à terre.
52
2.4. Conclusion
(a) (b)
(c) (d)
(e) (f )
Figure 2.18 Détection d'événements anormaux dans la base de données UCSD Ped2.
(a) détection de plusieurs vélos, (b) détection de cibles multiples (vélo et voiture), (c)
détection de cibles multiples (vélo et skater), (d) détection de cibles multiples (vélos et
skater) , (e) détection de plusieurs vélos, (f ) détection de cibles multiples (vélo partielle-
ment obstrué et une roue).
53
Chapitre 2. Transfert d'apprentissage
Table 2.5 Comparaison en terme de EERFL et EERPL sur la base de données UCSD
Ped2.
Table 2.7 Information sur le temps de traitement de la méthode proposée (en secondes
par image).
54
2.4. Conclusion
(a) (b)
(c) (d)
Figure 2.19 Robustesse aux fausses alarmes, dossier 04 de Ped2. (a) et (b) sont deux
fausses alarmes consécutives renvoyées par le système. (c) et (d) représentent les mêmes
images, sauf qu'on moment où l'événement (a) se produit, ce dernier a été signaler comme
fausse alarme. On peut constater dans (d) que le système ne détecte plus l'événement
comme anormal ce qui réduit les fausses alarmes.
55
Chapitre 2. Transfert d'apprentissage
(a) (b)
(c) (d)
Figure 2.20 Robustesse aux fausses alarmes, dossier 07 de Ped2. (a) et (b) sont deux
fausses alarmes consécutives renvoyé par le système. (c) et (d) représentent les mêmes
images, sauf qu'on moment où l'événement (a) se produit, ce dernier a été signaler comme
fausse alarme. On peut constater dans (d) que le système ne détecte plus l'événement
comme anormal ce qui réduit les fausses alarmes.
1 1
0.9 0.9
0.8 0.8
0.7 0.7
0.6 0.6
TPRPL
TPRFL
0.5 0.5
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
FPRFL FPRPL
(a) (b)
Figure 2.21 Courbe ROC pour le scénario SC1. (a) ROCFL, l'AUC est de 94, 1% ; (b)
ROCPL, l'AUC est de 87, 1% .
56
2.4. Conclusion
1 1
0.9 0.9
0.8 0.8
0.7 0.7
0.6 0.6
TPRPL
TPRFL
0.5 0.5
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
FPRFL FPRPL
(a) (b)
Figure 2.22 Courbe ROC pour le scénario SC2. (a) ROCFL, l'AUC est de 94, 7% ; (b)
ROCPL, l'AUC est de 89% .
57
Chapitre 2. Transfert d'apprentissage
58
3
Apprentissage non supervisé
3.1 Introduction
Le transfert d'apprentissage dans le contexte des réseaux de neurones nous a permis de
développer des méthodes de détection d'événements vidéos anormaux ecaces, prenant
en considération les exigences des systèmes de vidéo surveillance intelligents. Nous avons
notamment démontré que des réseaux de neurones préentrainés sur de grandes bases de
données pour la classication d'actions sont particulièrement adaptés pour la caractéri-
sation des formes et des mouvements présents dans les séquences vidéos, ce qui en fait
des outils ecaces pour la détection d'événements anormaux. Cependant, la dépendance
de l'approche adoptée à des réseaux préentrainés de manière supervisée sur de grandes
bases de données étiquetées peut s'avérer néfaste. En eet, le fait que le réseau utilisé soit
conçu et entraîné pour une autre tâche de classication peut induire une discordance avec
les données cibles. À titre d'exemple on peut citer les caractéristiques couleurs contenus
dans les représentations des réseaux entrainés à la classication d'images et non utilisées
dans nos application de détection d'événements anormaux. On peut également imaginer
que la taille des champs récepteurs des diérentes couches du réseau ne soit pas adaptée
à la taille des objets présents dans les images de la scène surveillée. D'autre part, l'uti-
lisation de réseaux préentrainés impose à notre approche une certaine rigidité et réduit
considérablement ses perspectives d'amélioration. L'apprentissage non supervisé pourrait
être une alternative au transfert d'apprentissage et pourrait défaire le lien de dépendance
de notre approche vis à vis des grandes bases de données étiquetées.
Le reste du chapitre est organisé comme suit : nous entamons ce chapitre par une
introduction sur les autoencodeurs avant de nous intéresser plus en détails aux autoen-
59
Chapitre 3. Apprentissage non supervisé
Z = f (W X + b) (3.1)
60
3.2. Autoencodeur convolutif pour la détection d'événement anormaux
Z à l'aide de l'équation :
Généralement, les poids du décodeur Ẃ sont dénit comme étant la transposée des poids
T
de l'encodeur W , Ẃ = W . De cette manière l'AE associe à chaque donnée d'entrée X
une représentation compacte Z et une reconstruction X̂ . L'entraînement de l'AE se fait
généralement en minimisant l'erreur de reconstruction, notamment grâce à une fonction
de perte telle que l'erreur quadratique moyenne MSE (mean squared error) présentée
ci-dessous :
N
1 X
E(X, X̂) = (x̂i − xi )2 (3.3)
N i=1
61
Chapitre 3. Apprentissage non supervisé
le plus souvent de manière localisée dans la scène surveillée. Dans un CAE à une seule
couche de convolution et de déconvolution, pour chaque image mono canal d'entrée X , la
représentation latenteZ de la k ème carte de caractéristique obtenu à travers la couche de
convolution est donnée par l'équation :
Zk = f (Wk ∗ X + bk ) (3.4)
K
X
X̂ = f (Ẃk ∗ Zk + b´k ) (3.5)
k=1
62
3.2. Autoencodeur convolutif pour la détection d'événement anormaux
∇J(θ) = N1 N
P
k=1 ∇Jk (θ);
θ = θ − η × ∇J(θ);
end
Figure 3.3 Perceptron multicouche contenant trois valeurs d'entrées, deux neurones
dans la couche cachée et deux neurones dans la couche de sortie.
gure 3.3. Le réseau est formé par une couche d'entrée à trois valeurs, une couche caché
avec deux neurones et une couche de sortie avec également deux neurones. La fonction
sigmoïde, gure 3.4, est utilisée comme activation de chaque neurones du réseau. La
fonction sigmoïde est présentée dans la formule suivante :
1
f (x) = (3.6)
1 + e−x
La fonction sigmoïde est dérivable et sa dérivée est donnée par l'expression suivante :
∂f (x)
= f (x)(1 − f (x)) (3.7)
∂x
L'apprentissage des paramètres du réseau suivant l'algorithme de descente de gradient
se fait de la manière suivante :
La première étape consiste à initialiser les paramètres du réseaux. Généralement
des poids aléatoires échantillonnés d'une distribution gaussienne sont utilisés [82].
Après l'initialisation des poids, les premières données d'apprentissage sont propa-
gées dans le réseau an d'obtenir un vecteur de sortie. La sortie nale du réseau
est obtenue en calculant hiérarchiquement l'activation des neurones à travers les
63
Chapitre 3. Apprentissage non supervisé
X
sk = f ( vjk aj ) (3.9)
j=1
Une fois la sortie et les diérentes activations du réseau obtenues, l'étape suivante
est le calcul et la rétropropagation de l'erreur.
L'erreur entre la sortie du réseau et la valeur souhaitée Y est obtenue grâce la
formule suivante :
∂E
δk = = (yk − sk )sk (1 − sk ) (3.10)
∂sk
L'erreur est ensuite rétropropagée pour les couches intermédiaires comme suit :
∂E X
δj = = aj (1 − aj ) vjk δk (3.11)
∂aj k=1
Une fois les erreurs obtenus, elles sont utilisées dans la dernière étape qui consiste
en la mise à jour des poids du réseau.
Les poids de la couche de sortie :
64
3.2. Autoencodeur convolutif pour la détection d'événement anormaux
∇J(θ) = N1 N
P
k=1 ∇Jk (θ);
θ = θ − η × ∇J(θ);
end
65
Chapitre 3. Apprentissage non supervisé
l'utilisation d'un autoencodeur convolutif. Le CAE au même titre que l'autoencodeur tra-
ditionnel peut être utilisé de deux manières diérentes pour la détection des anomalies. La
première stratégie se base sur l'hypothèse selon laquelle l'erreur de reconstruction serait
plus élevée pour les données anormales que le réseau n'aurait pas appris à reconstruire
durant la phase d'apprentissage. La seconde stratégie, quant à elle, consiste à utiliser
le CAE comme un extracteur de représentations qu'on viendrait ensuite classer pour
dissocier entre les éléments normaux et anormaux. Dans la littérature, la majorité des
méthodes de détection d'événements anormaux qui utilise des autoencodeur convolutifs
se basent sur l'erreur de reconstruction pour détecter les anomalies. Cependant, dans la
détection d'événements anormaux, en particulier dans un contexte vidéo, les événements
normaux et anormaux sont composés des mêmes éléments de base. Souvent, ce sont leurs
comportements, leur contexte ou leurs interactions avec d'autres éléments de la scène qui
dénissent leur normalité ou anormalité. On peut voir dans la gure 3.5 des exemples
d'images normales et anormales reconstruites par notre CAE dont l'architecture est pré-
sentée dans la gure 3.6. Le CAE a été entraîné uniquement avec des images normales.
Cependant, compte tenu de la similarité entre les images normales et anormales, le réseau
arrive à reconstruire les deux catégories d'images. En utilisant Le CAE comme un ex-
tracteur de caractéristiques, on minimise l'impact que pourrait avoir une reconstruction
correcte par l'autoencodeur des régions anormales. Puisque, les représentations extraites
par le CAE seront exploitables dans les deux cas qui consistent en une reconstruction
correcte et une reconstruction altérée de la région anormale. En eet, en supposant que
l'AE n'arrive pas à reconstruire la région anormale et qu'il renvoie à la place des mo-
tifs déformés, cela impliquerait que les représentations latentes, relatifs à cette région de
l'image, seront bruitées et donc potentiellement isolables par un classieur. Dans le cas
contraire, où les régions anormales seront correctement reconstruites, cela voudrait dire
que ces dites représentations sont susamment discriminatives pour dissocier grâce à elle,
les régions normales des régions anormales.
D'autre part, nous avons démontré dans le chapitre précédent que le FCN pouvait
être un outil ecace pour la détection et la localisation des événements vidéos anormaux.
Nous allons donc, dans ce qui va suivre, adapter un CAE an d'obtenir un FCN utilisable
pour extraire des représentations spatiotemporelles robustes qui permettent à travers leurs
classication de détecter et localiser les événements anormaux.
Architecture du réseau
La gure 3.6 illustre l'architecture du réseau proposé. Il est constitué de quatre couches
de convolution 3D et quatre couches de déconvolution 3D. La fonction tangente hyper-
bolique, équation 3.14, est utilisée comme fonction d'activation non linéaire après chaque
couche de convolution et de déconvolution.
2
f (x) = tanh(x) = +1 (3.14)
1 + e−2x
Le tableau 3.1 illustre les paramètres détaillés de ces diérentes couches.
Contrairement à d'autres autoencodeurs convolutifs gurant dans la littérature, basés sur
des opérations de convolution et de déconvolution 2D [30, 99], notre réseau utilise des
66
3.2. Autoencodeur convolutif pour la détection d'événement anormaux
couches de convolution et de déconvolution 3D, ce qui lui permet d'extraire des représen-
tations spatiotemporelles capables de décrire des formes et des mouvements. Le réseau
proposé est dénué de couches de pooling, principalement pour permettre d'obtenir des
cartes de caractéristiques avec une résolution élevée. En omettant les couches de pooling,
les vecteurs de caractéristiques sont connectés à des champs récepteurs plus petits, cela
permet notamment d'améliorer la précision lors de la localisation des anomalies. Le ré-
seau prend en entrée des volumes vidéo constitués de trois frames consécutives dans l'axe
temporel. Pour chaque volume X = {It , It−1 , It−2 }, le réseau reconstruit en sortie X̂ un
volume de même dimension que X . L'entraînement du réseau se fait grâce à un algorithme
de descente de gradient en ayant comme objectif de minimiser l'erreur de reconstruction.
Il est important de signaler que le réseau proposé est conçu pour prendre trois frames en
entrée car il a été démontré dans le chapitre précédent que cette longueur temporelle est
adaptée à la base de données UCSD Ped2. Cependant, le réseau peut être étendu à des
longueurs temporelles plus importantes pour des événements plus complexes.
Une fois l'autoencodeur convolutif formé et entraîné, on extrait l'encodeur, gure 3.7
an de l'exploiter comme extracteur de caractéristiques. En eet, l'encodeur de notre
CAE est constitué uniquement de couches de convolutions et de fonctions d'activation et
ne contient pas de couches entièrement connectées. Il peut donc constituer en l'état un
FCN exploitable pour l'extraction de représentations spatiotemporelles. Durant la phase
d'apprentissage l'autoencodeur a été entraîné à extraire des représentations, à travers
67
Chapitre 3. Apprentissage non supervisé
l'encodeur, contenant les informations nécessaires pour reconstruire les volumes vidéo
d'entrée. En d'autre termes, l'encodeur est capable de fournir des caractéristiques ro-
bustes et descriptives des formes et des mouvements présents dans les volumes d'entrée.
227×227×3
Pour chaque volume X ∈ R , le réseau renvoie une carte de caractéristiques
26×26×256 256
F ={fi : i = 1, ..., 26 × 26}, F ∈ R . Chaque vecteur de caractéristiques f ∈ R
est connecté à un patch du volume d'entrée de taille 27 × 27.
An de détecter les anomalies, on utilise la même méthode de classication présenté pré-
cédemment. On mesure la distance de Mahalanobis entre l'ensemble des vecteurs de ca-
ractéristiques normaux, extraient des images d'entraînement, et les vecteur de tests. Dans
le cas où la distance excède un seuil β, le vecteur de caractéristique est classé comme
outlier et la région de l'image à la quelle il est connecté est étiquetée comme anormale.
68
3.2. Autoencodeur convolutif pour la détection d'événement anormaux
Les images sont extraites des vidéos brutes et redimensionnées pour avoir une taille de
227 × 227, on leur soustrait les images moyennes avant d'appliquer une mise à l'échelle
pour obtenir des pixels compris entre −1 et 1. La base de données contient seulement
2550 images d'entraînement, un nombre d'images très réduit en comparaison aux millions
d'images contenus dans ImageNet. Pour l'entraînement du réseau, nous avons adopté une
méthode d'augmentation de données (data augmentation) dans l'axe temporel. Pour se
faire, les volumes vidéo sont formés grâce à trois pas (stride) diérents, 1, 2 et 3, en
utilisant l'expression suivante :
où S est la valeur du pas à eectuer dans l'axe temporel entre une image et une autre
pour construire les volumes. Après l'augmentation de données, 90% des volumes résultants
sont dédiés à l'apprentissage et les 10% restants à la validation du réseau. Durant la phase
d'apprentissage, l'erreur quadratique présentée dans l' équation 3.3 a été adoptée comme
fonction de perte. Nous avons opté pour la descente de gradient par lots (mini batches) à
travers l'algorithme Adadelta [151]. Des lots (mini batches) de 16 ont été utilisé avec un
taux d'apprentissage initiale (learning rate) de 1. La gure 3.9 présente la progression de
l'erreur durant l'apprentissage du réseau.
Nous utilisons la courbe ROC, le EER ainsi que l'AUC pour évaluer notre méthode et
69
Chapitre 3. Apprentissage non supervisé
comparer ses résultats à ceux obtenus précédemment. La gure 3.10 présente les courbes
ROC obtenus pour notre méthode au niveau de l'image et du pixel. L'AUC au niveau de
l'image est de 87% et au niveau du pixel de 79%. Le tableau 3.2 présente la comparaison
de notre méthode avec l'état de l'art en terme de EER. Au niveau de l'image notre
méthode obtient un EER de 19% et au niveau du pixel de 24.1%. Compte tenu de ces
résultats, notre méthode se positionne de manière concurrentielle vis-à-vis de l'état de
l'art. Elle obtient des résultats supérieurs à ceux obtenus grâce au FCN2D extrait de
VGG. Cependant ils restent inférieurs à ceux obtenus grâce au FCN3D dérivé du Res3D.
Table 3.2 Comparaison en terme de EERFL et EERPL sur la base de données UCSD
Ped2.
70
3.3. Réseau de neurones convolutifs à deux ux pour la détection d'événement vidéo anormaux
nouvelle architecture à deux ux, appliquée à la détection des événements vidéos anor-
maux. Le réseau proposé est composé de deux FCNs placés en parallèles, gure 3.13. Le
premier entraîné avec des séquences d'images et le deuxième avec des représentations de
ux optiques extraites de ces mêmes images. En exploitant en plus des volumes vidéos,
leurs représentations en terme de ux optique, le réseau est capable d'extraire plus d'in-
formation et décrire plus ecacement les mouvements contenus dans une scène surveillée.
Dans [87], un réseau à deux ux exploitant le ux optique a été proposé pour la détec-
tion d'événement anormaux. Cependant, le réseau est constitué de deux CNNs et donc
nécessite un apprentissage supervisé avec des bases de données étiquetées. Contrairement
aux réseaux à deux ux entraînés de manière supervisée sur de grande base de données
étiquetées [152, 153, 87], Le réseau qu'on propose est obtenu grâce à un apprentissage non
supervisé en utilisant un nombre réduit d'images. En eet, les deux FCNs formant notre
réseau sont des encodeurs extrais de deux autoencodeurs convolutifs, le premier entraîné
à reconstruire des séquences d'images et le second à reconstruire des représentations de
ux optique.
∂I ∂I ∂I
I(x + dx, y + dy, t + dt) = I(x, y, t) + dx + dy + dt + H (3.17)
∂x ∂y ∂t
∂I ∂I ∂I
dx + dy + dt = 0 (3.18)
∂x ∂y ∂t
71
Chapitre 3. Apprentissage non supervisé
∂I ∂I ∂I
u+ v+ dt = 0 (3.19)
∂x ∂y ∂t
dx dy
tel que u = et v = sont les composantes de la vitesse ou le ux optique de I(x, y, t)
dt dt
∂I ∂I ∂I
et , , sont les dérivées partielles de l'image à (x, y, t). Étant donné que u et v
∂x ∂y ∂t
sont les deux inconnus, l'équation 3.18 ne peut pas être directement résolue. Plusieurs
méthodes ont donc été proposées pour résoudre ce problème et l'une d'entre elles et la
méthode de Farneback.
La méthode de Farneback
La méthode de Farneback [16] est une méthode d'estimation du ux optique. La mé-
thode suppose que le voisinage d'un pixel peut être estimé en utilisant un polynôme
quadratique, ce qui donne le modèle du signal local représenté dans un système de coor-
données locales.
f (x) ∼ xT Ax + bT x + c (3.20)
Dans un cas d'une translation idéale, le déplacement d peut être obtenu en calculant
les polynômes de voisinage sur deux images consécutives. Le signal f1 relatif à la première
image est donné par l'expression :
f1 (x) = xT A1 x + b1 T x + c1 (3.21)
En assumant que la luminosité est constante entre les deux images, on peut dénir une
équivalence entre les coecients des deux polynômes :
A2 = A1 (3.25)
b2 = b1 − 2A1 d (3.26)
c2 = dT A1 d − bT1 d + c1 (3.27)
72
3.3. Réseau de neurones convolutifs à deux ux pour la détection d'événement vidéo anormaux
1
d = − A−1 (b2 − b1) (3.28)
2 1
Il est stipulé dans [16], que l'hypothèse selon laquelle un signal entier serait un poly-
nôme unique et celle de la translation globale reliant les deux signaux sont assez irréalistes.
L'auteur de [16] considère donc des approximations polynomiales locales et introduit les
approximations suivantes :
A1 (x) + A2 (x)
A(x) = (3.29)
2
1
∆b(x) = − (b2 (x) − b1 (x)) (3.30)
2
pour obtenir la contrainte primaire :
X
w(∆x)kA(x + ∆x)dx − ∆b(x + ∆x)k2 (3.32)
∆x∈I
tel que, w(∆x), une fonction de poids pour les points du voisinage.
Le minimum est obtenu pour :
X X
d(x) = ( wAT A))−1 wAT ∆b (3.33)
La gure 3.12 illustre l'architecture globale de notre réseau. Il est composé de deux
autoencodeurs convolutifs dont l'architecture est similaire à celle décrites dans la section
3.2.5. Chaque CAE est composé de quatre couches de convolution et de déconvolution et
la fonction tangente hyperbolique est utilisée comme fonction d'activation de chacune des
73
Chapitre 3. Apprentissage non supervisé
couches. Les couches des deux CAEs partagent les mêmes paramètres (Nombre et taille
des ltres de convolution, stride et padding) et sont similaires à ceux présentés dans le
tableau 3.1.
Les deux réseaux prennent en entrée des données diérentes. Le premier réseau prend en
entrée un volume constitué de trois images consécutives dans l'axe temporel, quant au
deuxième un volume formé des représentations de ux optique relatives aux images du pre-
mier volume. Chacun des réseaux retourne en sortie la reconstruction du volume qu'il lui a
été introduit. Pour les volumes d'entrée X1 = {It , It−1 , It−2 } et X2 = {OFt , OFt−1 , OFt−2 },
les réseaux reconstruisent en sortie X̂1 et X̂2 deux volumes de même dimension que X1
et X2 .
Une fois les deux autoencodeurs convolutifs formés et entraînés, la partie encodage
de chacun d'entre eux est extraite pour obtenir deux FCNs, un ST-FCN (spatiotemporal
FCN) et un OF-FCN (optical ow FCN). Les deux FCNs sont ensuite fusionnés pour
obtenir un réseau à deux ux utilisé comme extracteur de caractéristiques, gure 3.13. Le
ST-FCN permet d'extraire des représentations spatiotemporelles descriptives des formes et
des mouvements et le OF-FCN permet de renforcer la description du mouvement dans les
dites représentations. Une fois fusionné les deux FCN permettent d'extraire des représenta-
tions robustes et exploitables pour la détection et la localisation des événements anormaux.
227×227×3 227×227×3
Pour chaque couple de volumes X1 ∈ R et X2 ∈ R , le réseau renvois deux
cartes de caractéristiques F1 ={f1,i : i = 1, ..., 26 × 26} et F2 ={f2,i : i = 1, ..., 26 × 26},
F1 ∈ R26×26×256 et F2 ∈ R26×26×256 . Les deux cartes de caractéristiques sont ensuite
concaténées pour obtenir une carte de caractéristiques globale F ={fi : i = 1, ..., 26 × 26},
F ∈ R26×26×512 . Chaque vecteur de caractéristiques f ∈ R512 est connecté à un patch
de taille 27 × 27 dans les volumes d'entrée. Le vecteur fi est composé non seulement des
caractéristiques extraites des images par le ST-FCN, mais également enrichi par les carac-
téristiques extraites par le OF-FCN grâce au représentations de ux optique. Cela permet
de fournir une description spatiotemporelles robuste de chaque patch de la séquence vidéo
analysée. La détection des anomalies se fait à l'aide de la distance de Mahalanobis comme
décrit précédemment.
74
3.4. Conclusion
(volumes vidéo et volumes de ux optique) pour les deux réseaux ont été partitionnées
en 90% dédiés à l'apprentissage et 10% à la validation. Durant la phase d'apprentissage,
l'erreur quadratique moyenne a été adoptée comme fonction de perte des deux réseaux.
L'apprentissage du réseau entraîné avec des images s'est fait avec l'algorithme Adadelta
avec un taux d'apprentissage initial de 1 et des lots (mini batches) de taille de 16. La
gure 3.9 présente la progression de l'erreur durant la phase d'entraînement. Le réseau
entraîné avec des représentations de ux optique quant à lui a été entraîné en utilisant
Adam avec un taux d'apprentissage de 0,001 et une taille de lot égal à 16. La gure 3.14
présente l'évolution de l'erreur de reconstruction durant l'entraînement du réseau.
La gure 3.15 présente les courbes ROC relatives à notre réseau à deux ux (TS-
FCN). Au niveau de l'image, le TS-FCN obtient une AUC de 87% et au niveau du pixel
de 79%, ce qui représente une nette progression en comparaison au réseau à un seul
ux FCNCAE présenté dans la section 3.2. Le tableau 3.3 présente un comparatif en
terme de EER. Le TS-FCN obtient un EERFL de 13.2% et un EERPL de 19,4%, ce qui
représente une amélioration de 5.8% au niveau de l'image et de 4.7% au niveau du pixel par
rapport au réseau FCNCAE . La gure 3.16 présente quelques exemples de fausse alarmes et
manques de détection survenu avec le (FCNCAE ), on constate que ces erreurs sont corrigées
par l'usage du réseau à deux ux. Cela démontre la pertinence de cette architecture et
l'intérêt d'exploiter les représentations de ux optique. Par rapport au reste des méthodes
présentées dans le tableau, le TS-FCN se positionne parmi les méthodes les plus ecaces,
néanmoins les résultats en terme de EER et d'AUC restent inférieurs à ceux obtenus avec
le FCNRes3D .
3.4 Conclusion
Dans la première partie de ce chapitre, nous avons proposé une nouvelle architecture
non supervisée basée sur un autoencodeur convolutif pour l'extraction de cartes de carac-
téristiques spatiotemporelles. À travers cette architecture que nous avons combiné avec
un classieur exploitant la distance de Mahalanobis, nous avons pu démontré l'intérêt
des réseaux de neurones non supervisé pour la détection et la localisation des événements
vidéos anormaux. Dans la deuxième partie de ce chapitre nous avons tiré prot de cette
architecture pour construire un réseau à deux ux exploitant à la fois les images et leurs
représentations en terme de ux optique. Ce réseau s'est révélé capable d'obtenir des des-
cripteurs de mouvement robustes et exploitables pour la caractérisation des événements
vidéos. Grâce à cette architecture à deux ux, on a constaté une nette amélioration en
terme de résultats qualitatif et quantitatifs obtenus sur la base de donnée UCSD Ped2.
Cette amélioration s'explique notamment par le renforcement des représentations par des
descripteurs de mouvement extraits grâce au second réseau exploitant le ux optique.
Nous avons également mis en évidence la pertinence de nos méthodes en les comparant
avec les travaux proposées dans le second chapitre ainsi que ceux de l'état de l'art.
75
Chapitre 3. Apprentissage non supervisé
Table 3.3 Comparaison en terme de EERFL et EERPL sur la base de données UCSD
Ped2.
76
3.4. Conclusion
(a) (b)
(c) (d)
(e) (f )
Figure 3.8 Détection d'événements anormaux dans la base de données UCSD Ped2. (a)
détection d'un vélo, (b) détection d'un vélo, (c) détection de plusieurs vélos, (d) détection
d'une voiture , (e) détection de cibles multiples (vélos et voiture), (f ) détection de cibles
multiples (vélo et skateur).
77
Chapitre 3. Apprentissage non supervisé
1.0 1.0
0.8 0.8
0.6 0.6
TPRPL
TPRFL
0.4 0.4
0.2 0.2
0.0 0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
FPRFL FPRPL
(a) (b)
Figure 3.10 Courbe ROC, (a) au niveau de l'image et (b) au niveau du pixel.
AUCFL=87%, AUCPL=79%. EERFL=19%, EERPL=24,1%.
78
3.4. Conclusion
79
Chapitre 3. Apprentissage non supervisé
Figure 3.14 Courbe d'apprentissage du CAE entrainé avec des représentations de ux
optique.
1.0 1.0
0.8 0.8
0.6 0.6
TPRPL
TPRFL
0.4 0.4
0.2 0.2
0.0 0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
FPRFL FPRPL
(a) (b)
Figure 3.15 Courbe ROC, (a) au niveau de l'image et (b) au niveau du pixel.
AUCFL=92%, AUCPL=85% EERFL=13,2%, EERPL=19,4%.
80
3.4. Conclusion
(a) (b)
(c) (d)
(e) (f )
81
Chapitre 3. Apprentissage non supervisé
82
4
Apprentissage en classe unique
4.1 Introduction
Dans le chapitre précédent, nous avons proposé deux méthodes basées sur des autoen-
codeurs convolutifs, dans l'optique de se soustraire à l'utilisation des réseaux préentrainés.
Ces méthodes ont démontré des résultats intéressants en comparaison avec l'état de l'art.
Néanmoins, ces résultats restent inférieurs à ceux obtenus dans le second chapitre à l'aide
des réseaux préentrainés de manière supervisé à la reconnaissance d'actions. Cela s'ex-
plique notamment par le fait que les autoencodeurs convolutifs sont en mesure de fournir
des représentations descriptives, mais ne garantissent pas forcement la compacité de l'en-
semble des représentations relatives à la classe normal. En eet, dans une tâche de classi-
cation ou de reconnaissance de forme en générale, les représentations doivent respecter
deux critères essentiels [123]. Le premier critère concerne la distance inter-classe, cette dis-
tance doit être susamment importante pour pouvoir dissocier les éléments appartenant
à ces dites classes. Ce critère est généralement assuré par la représentativité (descriptive-
ness) des représentations. Plus les représentations sont aptes à décrire de manière précise
les données, plus les représentations d'éléments apprenants à des classes diérentes se-
ront éloignées dans l'espace des caractéristiques. Le deuxième critère concerne la distance
intra-classe, ce dernier est assimilé à la compacité des représentations appartenant à la
même classe. Le cas idéal serrait d'obtenir la même représentation pour des données dif-
férentes appartenant à la même classe, cela simplierait grandement leur isolation des
autres classes. Néanmoins, dans les cas réels, on se satisfait d'obtenir un cluster susam-
ment compacte pour représenter les échantillons de la même classe.
En utilisant des autoencodeur convolutifs, nous avons pris en considération le critère
de représentativité, mais avons omis le second critère relatif à la compacité. En eet,
entraîner un réseau à reconstruire les données d'entrée à travers une extraction de ca-
ractéristiques, permet d'assurer que ces caractéristiques soit susamment représentatives
pour décrire les données. Cependant, la compacité des représentations relatives à la classe
cible n'est pas garantie. On propose donc dans ce chapitre d'étudier diérentes stratégies
pour respecter à la fois la représentativité et la compacité des caractéristiques extraites.
Nous allons débuter ce quatrième chapitre par une brève analyse sur l'apprentissage en
classe unique dans le cadre des réseaux de neurones convolutifs. Nous allons ensuite intro-
83
Chapitre 4. Apprentissage en classe unique
duire une méthode d'apprentissage originale qui assure à la fois la représentativité ainsi
que la compacité des représentations. Dans la seconde partie de ce chapitre nous allons
explorer des architectures profondes an d'exploiter de manière optimale cette méthode
d'apprentissage en classe unique.
N L
1 X λ X
min kΦ(xi , W ) − ck2 + kW k2F (4.1)
W N i=1 N l=1
ou,Φ(xi , W ) est la représentation extraite par le réseau pour une donnée xi , N le nombre
de données d'apprentissage et c est le centre de l'hypersphère à minimiser. Le second
terme est un régularisateur d'hyperparamètre λ > 0 et L le nombre de poids en entrai-
nables dans le réseau. À travers cette fonction objective le réseau de neurones, durant son
apprentissage, va contracter la sphère en minimisant la distance moyenne de toutes les
représentations de données par rapport au centre. Grâce à ce processus d'apprentissage,
le réseau va apprendre des paramètres lui permettant de lier chaque donnée de la classe
cible à une représentation inclue dans l'hypersphère de centre c. Cette méthode permet
eectivement d'entraîner un réseau de neurones à extraire des représentations formant un
ensemble susamment compacte. Cependant le critère de représentativité n'est pas pris
en considération. En eet, le réseau peu apprendre une solution triviale qui va engendrer
l'extraction de représentations appartenant à la l'hypersphère même si ces représentations
sont relatives à des données anormales.
Une stratégie permettant de prendre en considération de manière simultanée les deux
critères a été proposée dans [123]. Les auteurs proposent une architecture à deux réseaux
en parallèles partageant continuellement les mêmes poids. Les deux réseaux sont entraînés
84
4.2. Réseau de neurones convolutifs à classe unique
avec deux fonctions de perte, une perte de compacité (compactness loss), équation 4.2,
intégrée à la sortie du premier réseau et une perte de représentativité (descriptiveness
loss) intégrée quant à elle à la sortie du second réseau. La perte de représentativité est
une cross entropie standard, largement utilisée dans les problèmes de classication super-
visés. L'apprentissage des deux réseaux fait intervenir deux bases de données distinctes,
une première base cible (target dataset) contenant une seule classe (la classe cible) et
une seconde base référence (reference dataset) contenant quand à elle plusieurs classes
d'images. Durant l'apprentissage, un lot d'image extrait de la base cible est introduit
dans le premier réseau ce qui génère une perte de compacité. Simultanément un deuxième
lot, extrait de la base référence est introduit dans le deuxième réseau, ce qui génère cette
fois ci une perte de représentativité. Les deux pertes sont ensuite additionner et utiliser
pour mettre à jour les poids des deux réseaux de manière identique, le processus est ainsi
répéter jusqu'à convergence des deux réseaux. Cette architecture permet de respecter si-
multanément les critères de descriptivité et de compacité. Néanmoins elle reste fortement
dépendante de la base de données référence.
n
1 X T
LC = z zi (4.2)
nk i=1 i
Inspirée par ces deux travaux, on propose une méthode d'apprentissage à classe unique,
utilisant uniquement une base de données cible. En eet grâce à cette méthode, les deux
critères compacité et représentativité seront respectés sans pour autant faire intervenir
d'autres bases de données annexes. Cette méthode permet d'obtenir des représentations
profondes à la fois compactes et représentatives. Pour y parvenir on propose d'utiliser éga-
lement deux fonctions de pertes distinctes. À la diérence de [123], les deux fonctions de
pertes sont exploitées uniquement à l'aide des donnée de la base cible. On propose d'inté-
grer dans un autoencodeur convolutif deux fonctions de perte, une perte de reconstruction
et une perte de compacité. La perte de reconstruction permet d'entraîner le réseaux à ex-
traire des représentations descriptives des données d'entrée. La perte de compacité, quant
à elle, est utilisée an de garantir la compacité des dites représentations.
utres travaux ont été proposé pour des reseaux de neuronnes one classe cependant ces
reseaux utilise une seconde base de donnée extrerne ce qui créé comme c'est le cas pour
le ne tuning une depende'nce au bases de données. alors que notre methode ne se ba se
que sur les donnée de la classe cible.
85
Chapitre 4. Apprentissage en classe unique
Architecture du réseau
Fonction de perte
86
4.2. Réseau de neurones convolutifs à classe unique
les données. Une bonne reconstruction des données d'entrée est synonyme de représen-
tations descriptives. À travers cette fonction de perte nous visons à assurer le critère de
représentativité.
N
1 X
E1 = (x̂i − xi )2 (4.3)
N i=1
La seconde fonction de perte, présentée par l'équation 4.4, se traduit sous forme de la
moyenne des distances de Mahalanobis, calculées entre chaque représentation extraite fi
est un centroïde f¯, que nous supposons donné pour le moment. Cette fonction de perte
nous permet de dénir une hypersphère dont le volume est minimisé tout au long de
l'apprentissage du réseau. À terme, le réseau sera capable d'extraire des représentations
contenus dans une hypersphère de volume minimale pour décrire l'ensemble des données
de la classe cible. La distance de Mahalanobis a été adoptée notamment pour ses capacité
à prendre en considération les directions de distribution des données.
M q
1 X
E2 = (fi − f¯) × Q × (fi f¯)T (4.4)
M i=1
E = α1 E1 + α2 E2 (4.5)
Entrainement du réseau
87
Chapitre 4. Apprentissage en classe unique
88
4.3. Résultats expérimentaux
En eet grâce au deux fonctions objectives proposée, l'encodeur a été entrainé pour non
seulement extraire des représentations spatiotemporelles descriptives des volumes vidéo
d'entrée, mais également fournir un cluster de représentations compacte. La compacité
des représentations a été obtenu en minimisant la distance de Mahalanobis entre un
centroïde et l'ensemble des représentations. Pour rester cohérent, et tirer avantage de
cette compacité des représentations, on propose d'exploiter de nouveau la distance de
227×227×3
Mahalanobis pour détecter les données aberrantes. Pour chaque volume X ∈ R ,
le réseau renvois un ensemble de vecteur de caractéristique F ={fi : i = 1, ..., 26 × 26}.
256
Chaque vecteur de caractéristiques f ∈ R est connecté à un patch du volume d'entrée
de taille 27 × 27.
An de détecter les anomalies, on utilise la même méthode de classication présenté
précédemment. On mesure la distance de Mahalanobis entre l'ensemble des vecteurs de
caractéristiques normaux, extraient des images d'entraînement, et les vecteur de tests.
Dans le cas où la distance excède un seuil β , le vecteur de caractéristique est classé comme
outlier et la région de l'image à la quelle il est connecté est étiquetée comme anormale.
89
Chapitre 4. Apprentissage en classe unique
entraîné sans la perte de compacité et le deuxième cas au même réseau entraîné avec
les deux fonctions de pertes. La distance moyenne des représentations normales RN 1 par
rapport au centre de la sphère, dans le premier cas est égal à 59, 9 et la distance moyenne
des représentations anormales RA1 de ce même centre est de 65, 9. Ces distances sont
respectivement de 46.86 et de 59, 02 dans le deuxième cas. La distance entre les représen-
tations normales et anormales est passée de 6 à 12,16. Une distance importante séparant
les représentations normales et anormales facilites la leur distinction par l'intermédiaire
d'un classieur rt par conséquent la détection des événements anormaux. Ces constations
conrment l'impacte positif de l'intégration de la fonction de perte de compacité dans le
réseau. Ces distances on été obtenues sur le premier dossier de la base de données UCSD
Ped2.
La gure 4.5 présente la courbe ROC de notre méthode sur la base de données UCSD
Ped2. L'AUC au niveau de l'image est de 95% et de 91,7% au niveau du pixel. Un com-
paratif incluant notre réseau à classe unique, les travaux proposés précédemment dans
le cadre de cette thèse ainsi que des travaux issus de la littérature est présenté dans le
tableau 4.2. On remarque que l'AUC obtenu par notre réseau à classe unique est la plus
élevée, que ça soit au niveau de l'image que au niveau du pixel. Le tableau 4.3 présente
quant à lui un comparatif en terme de EER. On constate que notre réseau à classe unique
obtient un EER inférieur à la quasi totalité des autres méthodes. Que ce soit à travers
l'EER que l'AUC les résultats démontrent l'ecacité de la méthode et conrme la perti-
nence de satisfaire les deux critères, représentativité et compacité de manière simultanée.
La gure 4.6 présente des résultats qualitatifs pour notre réseau à classe unique.
Table 4.2 Comparaison en terme de AUCFL et AUCPL sur la base de données UCSD
Ped2.
90
4.4. Conclusion
(a) (b)
Figure 4.3 Visualisation des représentations extraites avec la méthode t-SNE [20],
(gauche : le réseau avec uniquement la perte de reconstruction, droite : le réseau avec les
deux pertes reconstruction et compacité.)
4.4 Conclusion
Dans ce quatrième chapitre, nous avons proposé une nouvelle méthode de détection
et de localisation d'anomalies. La méthode se base sur un réseau de neurones 3D à classe
unique, entrainé grâce à une fonction objectif originale, combinant une perte de com-
pacité basée sur la distance de Mahalanobis et une perte de représentativité. Le réseau
est entrainé uniquement sur des échantillons d'entrainement issus de la classe normale.
Grâce à la fonction objectif proposée, le réseau est capable d'extraire des représentations
spatiotemporelles robustes et assuré la compacité des représentations appartenant à la
classe normale. Nous avons combiné le réseau avec un classieur à base de distance de
Mahalanobis, ce qui nous a permit d'obtenir des résultats supérieurs aux autres méthodes
proposées dans le cadre de cette thèse. En comparaison avec l'état de l'art, notre méthode
se positionne parmi les méthodes les plus performantes sur la base de donné UCSD Ped2.
La méthode se démarque également par sa simplicité et sa facilité d'intégration. En eet,
la méthode ne nécessite quasiment pas de prétraitement et aucun poste traitement.
91
Chapitre 4. Apprentissage en classe unique
Figure 4.4 Distance entre le centre de l'ensemble des représentations et les événements
normaux (surface verte) et anormaux (surface rouge) (gauche : le réseau avec unique-
ment la perte de reconstruction, droite : le réseau avec les deux pertes reconstruction et
compacité.)
1.0 1.0
0.8 0.8
0.6 0.6
TPRPL
TPRFL
0.4 0.4
0.2 0.2
0.0 0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
FPRFL FPRPL
(a) (b)
Figure 4.5 Courbe ROC, (a) au niveau de l'image et (b) au niveau du pixel.
AUCFL=95%, AUCPL=91,7%, EERFL=9,4%, EERPL=12,1%.
92
4.4. Conclusion
Table 4.3 Comparaison en terme de EERFL et EERPL sur la base de données UCSD
Ped2.
93
Chapitre 4. Apprentissage en classe unique
(a) (b)
(c) (d)
(e) (f )
Figure 4.6 Détection d'événements anormaux dans la base de données UCSD Ped2.
(a) détection d'un vélo, (b) détection de cibles multiples (vélo et voiture), (c) détection
de cibles multiples (vélos et skater), (d) détection de cibles multiples (vélo et skater) , (e)
détection d'un skater, (f ) détection d'un skater
94
Conclusion
2 Réalisations
Nous avons entamé nos travaux par une étude approfondie sur les diérentes ap-
proches existantes. Ce manuscrit de thèse comporte un état de l'art détaillé incluant
un large panel de travaux proposés dans la littérature. Nous avons répertorié un
grand nombre de méthodes, que ce soit parmi les méthodes dites traditionnelles,
basées sur une extraction ciblée de caractéristiques, ou bien parmi les méthodes
les plus récentes, basées principalement sur l'apprentissage profond. Nous nous
sommes eorcés à rester objectifs tout en mettant l'accent sur les approches les plus
pertinentes an de mettre en évidence des pistes de recherches à même d'apporter
des solutions concrètes au problèmes de détection d'événements vidéos anormaux.
95
Conclusion
96
3. Travaux futurs
3 Travaux futurs
La majorité de nos travaux présentés dans le cadre de cette thèse repose sur des
réseaux de neurones convolutifs. Or, la conception d'un réseau de neurones n'est
pas triviale [146], il existe de nombreux choix qui aecte la performance du réseau.
Parmi lesquels on peut citer la façon d'échantillonner et de prétraiter les données
d'entrée, le nombre de couches, leurs types et les diérents paramètres à leur ap-
pliquer, l'optimiseur à utiliser pour l'apprentissage du réseau et ses paramètres, la
longueur de la séquence temporelle à utiliser etc. Outre le nombre de paramètres,
l'apprentissage d'un réseau s'avère non seulement coûteux en ressources matérielles
(GPUs), mais également chronophage. Les diérents paramètres d'un réseau sont
étroitement liés aux données d'apprentissage, ce qui fait que pour des bases de don-
nées diérentes, ces paramètres sont susceptible de diérer. Cet aspect, additionné
au dicultés de conception et d'entraînement des réseaux de neurones, nous ont
contraint à limiter les bases de données de tests pour nos diérentes méthodes.
Dans nos travaux futur, on prévoit d'explorer d'autres bases de données an de
conrmer la véracité et la pertinence de nos approches.
Dans les diérents réseaux proposés dans le cadre de cette thèse, la taille du champ
récepteur connecté à chaque vecteur de caractéristiques est xe. Cet aspect peut
induire des dicultés pour généraliser la solution pour des scènes diérentes (la
taille des objets peut substantiellement diérer d'une scène à une autre). An d'y
remédier, on prévoit d'intégrer dans nos réseaux des blocs inception, gure 1, qui
permettront de connecter chaque vecteur de caractéristiques à plusieurs champs
récepteurs avec des tailles diérentes. Ce procédé permettra d'adapter le même
réseau à des scènes diérentes.
97
Conclusion
Actuellement, nos réseaux non supervisés sont pour certains entraînés uniquement
pour la reconstruction et pour d'autres entraînés pour la reconstruction et la com-
pacité. En ajoutant dans ces réseaux des branches de prédictions durant la phase
d'apprentissage, cela permettra d'améliorer les représentations extraites par le ré-
seau. En eet, la branche de prédiction permet d'absorber plus d'informations
temporelles pour pouvoir prédire les mouvements et trajectoires des diérents ob-
jets de la scène. Cela devra permettre d'obtenir des descripteurs de mouvement
plus robustes.
Dans le troisième chapitre nous avons proposé un réseau à deux ux exploitant les
représentations de ux optique an d'obtenir des représentations temporelles ro-
bustes. Cependant, l'extraction du ux optique peut s'avérer gourmande en temps.
On propose donc de remplacer le ux optique par des vecteurs de mouvements qui
sont naturellement présent dans les vidéo et de se fait directement accessibles.
98
Bibliographie
[1] Cnil, https ://www.cnil.fr/fr/videosurveillance-videoprotection.
[2] G. Gerrard and R. Thompson, Two million cameras in the uk, CCTV image,
vol. 42, no. 10, p. e2, 2011.
[3] H. M. Dee and S. A. Velastin, How close are we to solving the problem of automated
visual surveillance ?, Machine Vision and Applications, vol. 19, no. 5-6, pp. 329
343, 2008.
[4] N. Sulman, T. Sanocki, D. Goldgof, and R. Kasturi, How eective is human vi-
deo surveillance performance ?, in 2008 19th International Conference on Pattern
Recognition, pp. 13, IEEE, 2008.
[5] M. W. Green, The appropriate and eective use of security technologies in us
schools : a guide for schools and law enforcement agencies., tech. rep., Sandia
National Laboratories, 2005.
[6] K. He, X. Zhang, S. Ren, and J. Sun, Deep residual learning for image recognition,
in Proceedings of the IEEE conference on computer vision and pattern recognition,
pp. 770778, 2016.
[7] Y. Taigman, M. Yang, M. Ranzato, and L. Wolf, Deepface : Closing the gap to
human-level performance in face verication, in Proceedings of the IEEE conference
on computer vision and pattern recognition, pp. 17011708, 2014.
[8] A. Toshev and C. Szegedy, Deeppose : Human pose estimation via deep neural
networks, in Proceedings of the IEEE conference on computer vision and pattern
recognition, pp. 16531660, 2014.
[9] A. Conneau, H. Schwenk, L. Barrault, and Y. Lecun, Very deep convolutional
networks for natural language processing, arXiv preprint arXiv :1606.01781, vol. 2,
2016.
99
Bibliographie
[18] J. Laserson, From neural networks to deep learning : zeroing in on the human brain,
XRDS : Crossroads, The ACM Magazine for Students, vol. 18, no. 1, pp. 2934, 2011.
[19] K. Simonyan and A. Zisserman, Very deep convolutional networks for large-scale
image recognition, arXiv preprint arXiv :1409.1556, 2014.
[20] L. v. d. Maaten and G. Hinton, Visualizing data using t-sne, Journal of machine
learning research, vol. 9, no. Nov, pp. 25792605, 2008.
[21] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama,
and T. Darrell, Cae : Convolutional architecture for fast feature embedding, in
Proceedings of the 22nd ACM international conference on Multimedia, pp. 675678,
ACM, 2014.
100
[27] H. Foroughi, A. Rezvanian, and A. Paziraee, Robust fall detection using human
2008 Sixth Indian Conference on
shape and multi-class support vector machine, in
Computer Vision, Graphics & Image Processing, pp. 413420, IEEE, 2008.
[28] M. Javan Roshtkhari and M. D. Levine, Online dominant and anomalous behavior
detection in videos, in Proceedings of the IEEE conference on computer vision and
pattern recognition, pp. 26112618, 2013.
[29] M. J. Roshtkhari and M. D. Levine, An on-line, real-time learning method for
detecting anomalies in videos using spatio-temporal compositions, Computer vision
and image understanding, vol. 117, no. 10, pp. 14361452, 2013.
[30] M. Hasan, J. Choi, J. Neumann, A. K. Roy-Chowdhury, and L. S. Davis, Learning
temporal regularity in video sequences, in Proceedings of the IEEE conference on
computer vision and pattern recognition, pp. 733742, 2016.
[31] S. Lee, H. G. Kim, and Y. M. Ro, Stan : spatio-temporal adversarial networks for
abnormal event detection, in 2018 IEEE International Conference on Acoustics,
Speech and Signal Processing (ICASSP), pp. 13231327, IEEE, 2018.
[32] P. Oza and V. M. Patel, One-class convolutional neural network, IEEE Signal
Processing Letters, vol. 26, no. 2, pp. 277281, 2018.
[33] B. Kiran, D. Thomas, and R. Parakkal, An overview of deep learning based me-
thods for unsupervised and semi-supervised anomaly detection in videos, Journal
of Imaging, vol. 4, no. 2, p. 36, 2018.
[34] Y. LeCun, L'apprentissage profond, une révolution en intelligence articielle, La
lettre du Collège de France, no. 41, p. 13, 2016.
[35] A. A. Sodemann, M. P. Ross, and B. J. Borghetti, A review of anomaly detection
IEEE Transactions on Systems, Man, and Cybernetics,
in automated surveillance,
Part C (Applications and Reviews), vol. 42, no. 6, pp. 12571272, 2012.
[36] C. Piciarelli, G. L. Foresti, and L. Snidaro, Trajectory clustering and its applications
for video surveillance, in IEEE Conference on Advanced Video and Signal Based
Surveillance, 2005., pp. 4045, Ieee, 2005.
[37] C. Piciarelli and G. L. Foresti, On-line trajectory clustering for anomalous events
detection, Pattern Recognition Letters, vol. 27, no. 15, pp. 18351842, 2006.
[38] C. Piciarelli, C. Micheloni, and G. L. Foresti, Trajectory-based anomalous event de-
tection, IEEE Transactions on Circuits and Systems for video Technology, vol. 18,
no. 11, pp. 15441554, 2008.
101
Bibliographie
[42] D. Duque, H. Santos, and P. Cortez, Prediction of abnormal behaviors for in-
telligent video surveillance systems, in 2007 IEEE Symposium on Computational
Intelligence and Data Mining, pp. 362367, IEEE, 2007.
[43] N. Dong, Z. Jia, J. Shao, Z. Xiong, Z. Li, F. Liu, J. Zhao, and P. Peng, Trac
2010 7th IEEE
abnormality detection through directional motion behavior map, in
International Conference on Advanced Video and Signal Based Surveillance, pp. 80
84, IEEE, 2010.
[46] T. Xiang and S. Gong, Video behaviour proling and abnormality detection without
manual labelling, in Tenth IEEE International Conference on Computer Vision
(ICCV'05) Volume 1, vol. 2, pp. 12381245, IEEE, 2005.
[47] L. Wang and D. Suter, Recognizing human activities from silhouettes : Motion
subspace and factorial discriminative graphical model, in 2007 IEEE Conference
on Computer Vision and Pattern Recognition, pp. 18, IEEE, 2007.
[48] V. Reddy, C. Sanderson, and B. C. Lovell, Improved anomaly detection in crowded
scenes via cell-based analysis of foreground speed, size and texture, in CVPR 2011
WORKSHOPS, pp. 5561, IEEE, 2011.
[49] T. S. Lee, Image representation using 2d gabor wavelets, IEEE Transactions on
pattern analysis and machine intelligence, vol. 18, no. 10, pp. 959971, 1996.
[50] G. Doretto, A. Chiuso, Y. N. Wu, and S. Soatto, Dynamic textures, International
Journal of Computer Vision, vol. 51, no. 2, pp. 91109, 2003.
[51] V. Mahadevan, W. Li, V. Bhalodia, and N. Vasconcelos, Anomaly detection in
crowded scenes, in2010 IEEE Computer Society Conference on Computer Vision
and Pattern Recognition, pp. 19751981, IEEE, 2010.
[52] B. Zhao, L. Fei-Fei, and E. P. Xing, Online detection of unusual events in videos
via dynamic sparse coding, in CVPR 2011, pp. 33133320, IEEE, 2011.
[53] L. Zelnik-Manor and M. Irani, Statistical analysis of dynamic actions, IEEE Tran-
sactions on Pattern Analysis and Machine Intelligence, vol. 28, no. 9, pp. 15301535,
2006.
[54] N. Li, X. Wu, D. Xu, H. Guo, and W. Feng, Spatio-temporal context analysis within
video volumes for anomalous-event detection and localization, Neurocomputing,
vol. 155, pp. 309319, 2015.
[55] A. F. Bobick and J. W. Davis, The recognition of human movement using temporal
templates, IEEE Transactions on Pattern Analysis & Machine Intelligence, no. 3,
pp. 257267, 2001.
102
[56] J. W. Davis, Hierarchical motion history images for recognizing human motion,
in Proceedings IEEE Workshop on Detection and Recognition of Events in Video,
pp. 3946, IEEE, 2001.
[57] T. Xiang, S. Gong, and D. Parkinson, Autonomous visual events detection and
classication without explicit object-centred segmentation and tracking., in BMVC,
pp. 110, Citeseer, 2002.
[58] B. D. Lucas, T. Kanade, et al., An iterative image registration technique with an
application to stereo vision, 1981.
[59] J. Feng, C. Zhang, and P. Hao, Online learning with self-organizing maps for ano-
2010 20th International Conference on Pattern
maly detection in crowd scenes, in
Recognition, pp. 35993602, IEEE, 2010.
[60] M. H. Sharif, S. Uyaver, and C. Djeraba, Crowd behavior surveillance using bhat-
International Symposium Computational Modeling of
tacharyya distance metric, in
Objects Represented in Images, pp. 311323, Springer, 2010.
[61] A. Adam, E. Rivlin, I. Shimshoni, and D. Reinitz, Robust real-time unusual event
detection using multiple xed-location monitors, IEEE transactions on pattern
analysis and machine intelligence, vol. 30, no. 3, pp. 555560, 2008.
[62] T. Wang and H. Snoussi, Detection of abnormal visual events via global optical ow
orientation histogram, IEEE Transactions on Information Forensics and Security,
vol. 9, no. 6, pp. 988998, 2014.
[63] T. Wang, M. Qiao, A. Zhu, Y. Niu, C. Li, and H. Snoussi, Abnormal event de-
tection via covariance matrix for optical ow based feature, Multimedia Tools and
Applications, vol. 77, no. 13, pp. 1737517395, 2018.
[64] V. Vapnik, Pattern recognition using generalized portrait method, Automation
and remote control, vol. 24, pp. 774780, 1963.
[65] V. Vapnik, The nature of statistical learning theory. Springer science & business
media, 2013.
[69] M. Pittore, C. Basso, and A. Verri, Representing and recognizing visual dynamic
Proceedings 10th International Conference
events with support vector machines, in
on Image Analysis and Processing, pp. 1823, IEEE, 1999.
[70] H. Qian, Y. Mao, W. Xiang, and Z. Wang, Recognition of human activities using
svm multi-class classier, Pattern Recognition Letters, vol. 31, no. 2, pp. 100111,
2010.
103
Bibliographie
[71] C.-C. Chang and C.-J. Lin, Libsvm : a library for support vector machines, ACM
transactions on intelligent systems and technology (TIST), vol. 2, no. 3, p. 27, 2011.
[72] B. Schölkopf, J. C. Platt, J. Shawe-Taylor, A. J. Smola, and R. C. Williamson,
Estimating the support of a high-dimensional distribution, Neural computation,
vol. 13, no. 7, pp. 14431471, 2001.
[73] D. Xu, Y. Yan, E. Ricci, and N. Sebe, Detecting anomalous events in videos by
learning deep representations of appearance and motion, Computer Vision and
Image Understanding, vol. 156, pp. 117127, 2017.
[74] S. Calderara, R. Cucchiara, and A. Prati, Detection of abnormal behaviors using a
mixture of von mises distributions, in2007 IEEE Conference on Advanced Video
and Signal Based Surveillance, pp. 141146, IEEE, 2007.
[75] K.-W. Cheng, Y.-T. Chen, and W.-H. Fang, Video anomaly detection and locali-
zation using hierarchical feature representation and gaussian process regression, in
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,
pp. 29092917, 2015.
[76] T. Xiao, C. Zhang, and H. Zha, Learning to detect anomalies in surveillance video,
IEEE Signal Processing Letters, vol. 22, no. 9, pp. 14771481, 2015.
[77] Á. Utasi and L. Czúni, Detection of unusual optical ow patterns by multilevel
hidden markov models, Optical Engineering, vol. 49, no. 1, p. 017201, 2010.
[78] H. Jiménez-Hernández, J.-J. González-Barbosa, and T. Garcia-Ramírez, Detecting
abnormal vehicular dynamics at intersections based on an unsupervised learning
approach and a stochastic model, Sensors, vol. 10, no. 8, pp. 75767601, 2010.
[79] P.-C. Chung and C.-D. Liu, A daily behavior enabled hidden markov model for
human behavior understanding, Pattern Recognition, vol. 41, no. 5, pp. 15721580,
2008.
[80] J. Kim and K. Grauman, Observe locally, infer globally : a space-time mrf for
2009 IEEE Conference
detecting abnormal activities with incremental updates, in
on Computer Vision and Pattern Recognition, pp. 29212928, IEEE, 2009.
[81] Y. Benezeth, P.-M. Jodoin, and V. Saligrama, Abnormality detection using low-
level co-occurring events, Pattern Recognition Letters, vol. 32, no. 3, pp. 423431,
2011.
104
[85] C. Ding, S. Fan, M. Zhu, W. Feng, and B. Jia, Violence detection in video by
using 3d convolutional neural networks, in International Symposium on Visual
Computing, pp. 551558, Springer, 2014.
[86] R. Hinami, T. Mei, and S. Satoh, Joint detection and recounting of abnormal
Proceedings of the IEEE International
events by learning deep generic knowledge, in
Conference on Computer Vision, pp. 36193627, 2017.
[87] A. Jamadandi, S. Kotturshettar, and U. Mudenagudi, Two stream convolutional
neural networks for anomaly detection in surveillance videos,
[88] A. Sharif Razavian, H. Azizpour, J. Sullivan, and S. Carlsson, Cnn features o-the-
Proceedings of the IEEE conference
shelf : an astounding baseline for recognition, in
on computer vision and pattern recognition workshops, pp. 806813, 2014.
[89] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun, Overfeat :
Integrated recognition, localization and detection using convolutional networks,
arXiv preprint arXiv :1312.6229, 2013.
[90] S. Bouindour, H. Snoussi, M. M. Hittawe, N. Tazi, and T. Wang, An on-line and
adaptive method for detecting abnormal events in videos using spatio-temporal
convnet, Applied Sciences, vol. 9, no. 4, p. 757, 2019.
[91] M. Ravanbakhsh, M. Nabi, H. Mousavi, E. Sangineto, and N. Sebe, Plug-and-
play cnn for crowd motion analysis : An application in abnormal event detection,
in 2018 IEEE Winter Conference on Applications of Computer Vision (WACV),
pp. 16891698, IEEE, 2018.
[95] D. Xu, E. Ricci, Y. Yan, J. Song, and N. Sebe, Learning deep representa-
tions of appearance and motion for anomalous event detection, arXiv preprint
arXiv :1510.01553, 2015.
[96] J. Masci, U. Meier, D. Cire³an, and J. Schmidhuber, Stacked convolutional auto-
encoders for hierarchical feature extraction, in International Conference on Arti-
cial Neural Networks, pp. 5259, Springer, 2011.
[97] M. Gutoski, N. M. R. Aquino, M. Ribeiro, E. Lazzaretti, and S. Lopes, Detection
of video anomalies using convolutional autoencoders and one-class support vector
machines, in XIII Brazilian Congress on Computational Intelligence, 2017, 2017.
[98] J. Canny, A computational approach to edge detection, in Readings in computer
vision, pp. 184203, Elsevier, 1987.
105
Bibliographie
[99] Y. S. Chong and Y. H. Tay, Abnormal event detection in videos using spatiotem-
poral autoencoder, in International Symposium on Neural Networks, pp. 189196,
Springer, 2017.
[110] W. Liu, W. Luo, D. Lian, and S. Gao, Future frame prediction for anomaly
detectiona new baseline, in Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition, pp. 65366545, 2018.
[111] S. Xingjian, Z. Chen, H. Wang, D.-Y. Yeung, W.-K. Wong, and W.-c. Woo, Convo-
lutional lstm network : A machine learning approach for precipitation nowcasting,
in Advances in neural information processing systems, pp. 802810, 2015.
[112] M. Sabokrou, M. Pourreza, M. Fayyaz, R. Entezari, M. Fathy, J. Gall, and E. Adeli,
Avid : Adversarial visual irregularity detection, arXiv preprint arXiv :1805.09521,
2018.
106
[113] obvious.
[114] S.-g. Lee, U. Hwang, S. Min, and S. Yoon, Polyphonic music generation with se-
quence generative adversarial networks, arXiv preprint arXiv :1710.11418, 2017.
[115] K. Ehsani, R. Mottaghi, and A. Farhadi, Segan : Segmenting and generating the
invisible, in Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition, pp. 61446153, 2018.
[116] J. Li, X. Liang, Y. Wei, T. Xu, J. Feng, and S. Yan, Perceptual generative adver-
sarial networks for small object detection, in Proceedings of the IEEE Conference
on Computer Vision and Pattern Recognition, pp. 12221230, 2017.
[117] S. Zhou, T. Xiao, Y. Yang, D. Feng, Q. He, and W. He, Genegan : Learning
object transguration and attribute subspace from unpaired data, arXiv preprint
arXiv :1705.04932, 2017.
[118] C. Ledig, L. Theis, F. Huszár, J. Caballero, A. Cunningham, A. Acosta, A. Aitken,
A. Tejani, J. Totz, Z. Wang, et al., Photo-realistic single image super-resolution
using a generative adversarial network, in Proceedings of the IEEE conference on
computer vision and pattern recognition, pp. 46814690, 2017.
[119] T. Wang, M. Qiao, Z. Lin, C. Li, H. Snoussi, Z. Liu, and C. Choi, Generative
neural networks for anomaly detection in crowded scenes, IEEE Transactions on
Information Forensics and Security, vol. 14, no. 5, pp. 13901399, 2019.
[120] J. Sun, J. Shao, and C. He, Abnormal event detection for video surveillance using
deep one-class learning, Multimedia Tools and Applications, vol. 78, no. 3, pp. 3633
3647, 2019.
107
Bibliographie
[132] ucsd.
[133] J. A. Hanley and B. J. McNeil, The meaning and use of the area under a receiver
operating characteristic (roc) curve., Radiology, vol. 143, no. 1, pp. 2936, 1982.
[134] T. Fawcett, Roc graphs : Notes and practical considerations for researchers, Ma-
chine learning, vol. 31, no. 1, pp. 138, 2004.
[135] W. Li, V. Mahadevan, and N. Vasconcelos, Anomaly detection and localization in
crowded scenes, IEEE transactions on pattern analysis and machine intelligence,
vol. 36, no. 1, pp. 1832, 2013.
[136] R. Mehran, A. Oyama, and M. Shah, Abnormal crowd behavior detection using
social force model, in 2009 IEEE Conference on Computer Vision and Pattern
Recognition, pp. 935942, IEEE, 2009.
[137] M. Bertini, A. Del Bimbo, and L. Seidenari, Multi-scale and real-time non-
parametric approach for anomaly detection and localization, Computer Vision and
Image Understanding, vol. 116, no. 3, pp. 320329, 2012.
[138] M. Sabokrou, M. Fathy, M. Hoseini, and R. Klette, Real-time anomaly detection
and localization in crowded scenes, inProceedings of the IEEE conference on com-
puter vision and pattern recognition workshops, pp. 5662, 2015.
[139] M. Sabokrou, M. Fathy, and M. Hoseini, Video anomaly detection and localisation
based on the sparsity and reconstruction error of auto-encoder, Electronics Letters,
vol. 52, no. 13, pp. 11221124, 2016.
[140] O. Boiman and M. Irani, Detecting irregularities in images and in video, Interna-
tional journal of computer vision, vol. 74, no. 1, pp. 1731, 2007.
[141] C. J. Burges, A tutorial on support vector machines for pattern recognition, Data
mining and knowledge discovery, vol. 2, no. 2, pp. 121167, 1998.
[142] R. De Maesschalck, D. Jouan-Rimbaud, and D. L. Massart, The mahalanobis dis-
tance, Chemometrics and intelligent laboratory systems, vol. 50, no. 1, pp. 118,
2000.
108
[143] C. M. Deniz, S. Xiang, R. S. Hallyburton, A. Welbeck, J. S. Babb, S. Honig, K. Cho,
and G. Chang, Segmentation of the proximal femur from mr images using deep
convolutional neural networks, Scientic reports, vol. 8, no. 1, p. 16485, 2018.
[144] Y. Wang, Q. Teng, X. He, J. Feng, and T. Zhang, Ct-image super resolution using
3d convolutional neural network, arXiv preprint arXiv :1806.09074, 2018.
[145] Y. Yao, Z. Luo, S. Li, T. Fang, and L. Quan, Mvsnet : Depth inference for unstruc-
tured multi-view stereo, in Proceedings of the European Conference on Computer
Vision (ECCV), pp. 767783, 2018.
[146] D. Tran, J. Ray, Z. Shou, S.-F. Chang, and M. Paluri, Convnet architecture search
for spatiotemporal feature learning, arXiv preprint arXiv :1708.05038, 2017.
[147] K. Soomro, A. R. Zamir, and M. Shah, A dataset of 101 human action classes from
Center for Research in Computer Vision, 2012.
videos in the wild,
[149] Y. Bengio, Deep learning of representations for unsupervised and transfer learning,
in Proceedings of ICML Workshop on Unsupervised and Transfer Learning, pp. 17
36, 2012.
[153] B. Zhang, L. Wang, Z. Wang, Y. Qiao, and H. Wang, Real-time action recogni-
tion with enhanced motion vector cnns, in Proceedings of the IEEE conference on
computer vision and pattern recognition, pp. 27182726, 2016.
109
Samir BOUINDOUR
Doctorat : Optimisation et Sûreté des Systèmes
Année 2019
L'utilisation des caméras de surveillance s'est The use of surveillance cameras has increased con-
considérablement accrue ces dernières années. siderably in recent years. This proliferation poses a
Cette prolifération pose un problème sociétal de major societal problem, which is the exploitation of
premier ordre, celui de l’exploitation des flux the generated video streams. Currently, most of
générés. Actuellement, ces données sont en majorité these data are being analyzed by human operators.
analysées par des opérateurs humains. Cependant, However, several studies question the relevance of
de nombreuses études remettent en cause la perti- this approach. It is time-consuming and laborious
nence de cette approche. Il est chronophage et labo- for an operator to monitor surveillance videos for
rieux pour un opérateur de visionner des vidéos de long time periods. Given recent advances in comput-
surveillance durant de longues périodes. Compte er vision, particularly through deep learning, one
tenu des progrès réalisés récemment dans le solution to this problem consists in the development
domaine de la vision par ordinateur, notamment par of intelligent systems that can support the human
l'intermédiaire de l'apprentissage profond, une solu- operator in the exploitation of this data. These intel-
tion à ce problème réside dans le développement de ligent systems will aim to model the normal behav-
systèmes intelligents capables d'épauler l'opérateur iours of a monitored scene and detect any deviant
humain dans l'exploitation de ces données. Ces event that could lead to a security breach. Within the
systèmes intelligents auront pour objectifs de modé- context of this thesis entitled "Deep learning applied
liser les comportements normaux d'une scène sur- to the detection of abnormal events in video
veillée et de détecter tout événement déviant, pou- streams", we propose to develop algorithms based
vant conduire à une faille de sécurité. Dans le cadre on deep learning for the detection and localization of
de cette thèse intitulée « Apprentissage profond abnormal video events that may reflect dangerous
appliqué à la détection d'événements anormaux situations. The purpose is to extract robust spatial
dans les flux vidéos », on se propose de développer and temporal descriptors and define classification
des algorithmes se basant sur l’apprentissage pro- algorithms adapted to detect suspicious behaviour
fond pour la détection et la localisation des événe- with the minimum possible number of false alarms,
ments vidéo anormaux pouvant refléter des situa- while ensuring a high detection rate.
tions à risque. Il s’agit, en fait, d’extraire des des-
cripteurs spatiotemporels robustes et de définir des
algorithmes de classification adaptés pour détecter Keywords: machine learning – anomaly detection
des comportements suspects avec le minimum (computer security) – video surveillance – pattern
possible de fausses alarmes, tout en assurant un recognition systems – computer vision.
taux élevé de détection.