Zoui Oumaima
Zoui Oumaima
Zoui Oumaima
Faculté : Technologie
Département : Informatique
Domaine : Mathématique-informatique
Filière : Informatique
Mémoire
Présente en vue de l`obtention du Diplôme de Master
Thème
Réalisé par :
Zaoui Guerfi Oumaima
Devant le jury :
Pr . Merouani UNIVERSITE BADJI MOKHTAR-ANNABA
Dédicace
Je remercie Allah de m’avoir donné le courage pour
accomplir ce modeste travail que je dédie :
À mes très chers parents :
Aucune dédicace ne peut exprimer l'amour,
l'appréciation, le dévouement et le respect que j'ai
toujours pour vous, Ce travail est le fruit des sacrifices
que vous avez consentis pour m'enseigner au fil des
années, je vous en suis reconnaissant toute ma vie.
A ma belle-sœur :
Lorsque la mer représentait ma tristesse tu m'as appris à
nager
A mes chers frères :
Je leur souhaite du succès dans leur vie personnelle et
académique.
A Mes chers amis :
Merci pour tous les souvenirs intemporels dans nos
cœurs, je les remercie pour leur soutien et pour m’avoir
accompagné.
Remerciements
Un merci spécial à mes collègues de classe et amis qui ont créé un
environnement propice à l'échange d'idées et au partage de
connaissances. Leur camaraderie a apporté une dimension humaine
essentielle à cette expérience académique.
I
Liste des tableaux
Table 2-3 : Travaux antérieurs connexes pour la détection d’intrusion basée sur le deep learning…. 34
IX
Liste des figures
Figure 1-1 : L’attaque par déni de service (DoS) .......................................................... 8
Figure 1-2 : L’attaque par distribué déni de service (DDoS) ......................................... 9
Figure 1-3 : L’attaque par distribué réflexion déni de service (DrDoS).......................... 10
Figure 1-4 : Attaque par SMURF .................................................................................... 12
Figure 1-5 : Attaque par SYN FLOOD ............................................................................. 13
Figure 1-6 : Attaque par UDP FLOOD ............................................................................. 13
Figure 1-7 : Attaque par HTTP FLOOD ........................................................................... 15
Figure 1-8 : Un modèle fonctionnel du Système de détection d’intrusion proposé
par l’IDWG [14] ... 17
Figure 1-9 : les composants d’un NIDS [15]................................................................... 19
Figure 2-1 : L’architecture d’un réseau neuronal convolutive [25]............................... 30
Figure 2-2 : L’architecture d’un modèle RNN [25]......................................................... 31
Figure 2-3 : Organigramme de la méthodologie utilise dans article [27]..................... 33
Figure 3-1 : l'ensemble de donnée par pourcentage (jour 01-12-2019)...................... 46
Figure 3-2 : pourcentage des attaques dans le dataset CICDDoS2019 ................................................. 47
Figure 3-3 : les attaques par réflexion et les attaques par l’exploitation [41]....................................... 49
Figure 3-4 : Matrice de confusion par les colonnes................................................................................
53
Figure 3-5 : exemple pour colonne supprimé (stabilise à 0).................................................................. 58
Figure 3-6 : le modèle Cnn utilisé pour 13-Class classification................................................................
61
Figure 3-7 : Schéma conceptuel de notre méthode d’implémentation DL.............................................
63
Figure 3-8 : Matrice de confusion ...........................................................................................................
64
Figure 3-9 : L’exactitude et la perte de la classification binaire...............................................................
67
Figure 3-10 : Matrice de confusion (2 - classes) ............................................... ......................................
68
Figure 3-11 : L’exactitude et la perte (8 classes classifications)..............................................................
68
Figure 3-12 : L’exactitude et la perte (13 classes classifications)............................................................
70
Figure 3-13 : Matrice de confusion (13 classifications)............................................................................
71
Figure 3-14 : L’exactitude et la perte (14 classes classifications)............................................................
72
Figure 3-15 : Matrice de confusion (14 classifications)...........................................................................
73
X
Le sommaire
RESUME ..................................................................................................................................................
.... I
LISTE DES
TABLEAUX...................................................................................................................................IX
LISTE DES
FIGURES ..................................................................................................................................... X
TABLE DES
MATIERES..................................................................................................................................XI
INTRODUCTION
GENERALE......................................................................................................................... 1
CHAPITRE 1 : LES SYSTEMES IDS ET LES ATTAQUES
DOS........................................................................... 3
1.1. LES ATTAQUES PAR DENI DE
SERVICE ?...........................................................................................4
1.2. CATEGORIES DES ATTAQUES DE DENI DE
SERVICE.........................................................................5
1.2.1. L’attaque par déni de service
(DoS)......................................................................................5
1.2.2. L’attaque par distribué déni de service
(DDoS).....................................................................5
1.2.3. L’attaque par distribué réflexion déni de service
(DrDoS).....................................................7
1.2.4. Synthèse et comparaison ....................................................................................................
8
1.3. DIFFERENTS TYPES D’ATTAQUES
DOS........................................................................................... 9
1.3.1. Attaque par SMURF ............................................................................................................
9
1.3.2. Attaque par SYN
FLOOD ...................................................................................................... 10
1.3.3. Attaque par UDP
FLOOD..................................................................................................... 11
1.3.4. Attaque par HTTP
FLOOD.................................................................................................... 12
1.4. LES SYSTEMES DE DETECTION DES INTRUSIONS
(IDS).................................................................. 13
1.4.1. Les types des systèmes de détection d'intrusion ...............................................................
13
1.4.1.1. IDSs à base de
signature : ..............................................................................................14
1.4.1.2. IDSs à base
d’anomalie :.................................................................................................15
1.4.2. Architecture des IDS et principe de fonctionnement :........................................................
15
1.4.3. Emplacement de l’IDS .........................................................................................................
16
1.4.3.1. Les NIDS (Systèmes de détection d'intrusion basés sur le
réseau) :..............................16
1.4.3.2. Les HIDS (Host-Base Intrusion Détection
System):........................................................17
1.4.3.3. Les IDSs
hybrides ............................................................................................................17
1.4.4. Méthodes de détection:......................................................................................................
18
XI
1.4.5. Les mesures de notation IDS : .............................................................................................
19
CHAPITRE 2 : ETAT DE L’ART SUR L’APPRENTISSAGE PROFOND POUR LA
CYBERSECURITE....................20
2.1. GENERALITES SUR L’APPRENTISSAGE
AUTOMATIQUE.............................................................. 22
2.1.1. Définition ..............................................................................................................................
23
2.1.2. Approches de l'apprentissage automatique........................................................................
23
2.1.2.1. L'apprentissage
supervisé..............................................................................................23
2.1.2.2. Apprentissage non
supervisé ........................................................................................23
2.1.2.3. Apprentissage semi-
supervisé.......................................................................................24
2.2. L’APPRENTISSAGE PROFOND POUR LA
CYBERSECURITE .......................................................24
2.3. QUELQUES METHODES D’APPRENTISSAGE
PROFOND.......................................................... 25
2.3.1. Les réseaux de neurones artificiels (ANN)........................................................................
26
2.3.2. Réseaux de neurones convolutifs (CNN)..........................................................................
27
2.3.3. Réseaux de neurones récurrents (RNN)...........................................................................
27
.2.4 TRAVAUX CONNEXES SUR LA DETECTION DES ATTAQUES DOS BASES DEEP ET
MACHINE LEARNING.31
1
Introduction Générale
Le cyber sécurité doit aujourd'hui faire face à un certain nombre de défis et de menaces,
dont l'actualité la plus récente est la guerre russo-ukrainienne du 15 au 16 février 2022.
L'Ukraine a été la cible d'une attaque par déni de service touchant l'ensemble de ses
institutions militaires et financières. Les pirates russes ont continué à attaquer les sources
d'information ukrainiennes de manière ininterrompue, submergeant les serveurs ukrainiens de
trafic. Ceci souligne le défi majeur que représente le cyber sécurité.
Parmi les risques les plus pernicieux pour la sécurité figurent les attaques par déni de
service, caractérisées par leur diversité visant à submerger les systèmes de sécurité. Ces
attaques représentent un enjeu crucial pour la cyber sécurité.
Problématique
Introduction Générale
But de travail
Le but de cette étude est d'apporter une contribution significative à l'amélioration des
systèmes de détection d'intrusion. Plus spécifiquement, nous visons à permettre aux
administrateurs réseau, en particulier les administrateurs de cyber sécurité des systèmes de
détection d'intrusion, d'améliorer la détection de divers types d'attaques par déni de service.
Cela nécessite généralement la mise en œuvre de plusieurs méthodes de détection d'intrusion
basées sur des approches d'apprentissage en profondeur, en utilisant des jeux de données
réels.
3
CHAPITRE 1 : Les systèmes
IDS et les attaques Dos
4
CHAPITRE 1 : Les systèmes IDS et les attaques DoS
La détection d'intrusion d'une attaque par déni de service est un composant essentiel des systèmes de
protection et de sécurité. Avec l'apparition quotidienne de nouvelles cyberattaques, les systèmes de
détection d'intrusion (IDS) jouent un rôle majeur dans l'identification des cyberattaques potentielles
sur un réseau ou un système approprié et fourni. IDS doit s'adapter au mieux à ces nouvelles menaces
(cyberattaques) et à leurs tactiques, tout en continuant à évaluer. De nombreux outils sur le marché
permettent aujourd'hui plusieurs niveaux de détection d'intrusion. Certaines solutions utilisent des
signatures pour surveiller les attaques connues. Certaines plates-formes permettent la surveillance la
journalisation du réseau, en choisissant des méthodes de détection d'intrusion, nous avons préservé nos
ressources réseau et les avons protégées contre les attaques indésirables. Dans ce chapitre, nous
expliquerons comment fonctionne une attaque par déni de service avec un système de détection
d'intrusion. Ensuite, nous décrivons les types de systèmes de détection d'intrusion. Les techniques
d'attaque par déni de service ont été discutées, avant l'introduction des techniques de détection des
systèmes de détection d'intrusion et la conclusion du chapitre.
1.1. Les attaques par déni de service ?
Une attaque par déni de service est une attaque contre un appareil connecté à un réseau qui fournit un
service à des utilisateurs légitimes [1], avec cette attaque, vous bloquez le service et le rendez
indisponible par exemple la saturation de la bande passante du réseau (c’est ce qu'on appelle les
attaques volumétriques) [2], ces attaques peuvent entraîner des pertes financières importantes en
perturbant le service pour des cibles non préparées. Ça il est difficile de le détecter, car dans de
nombreux cas, le trafic est similaire au trafic légitime [3].
Il existe trois catégories d’attaque DoS1 et DDoS 2 et DRDOS 3 :
5
CHAPITRE 1 : Les systèmes IDS et les attaques DoS
Bot nets : Il s'agit d'appareils endommagés par un virus ou similaire dans le but d'une attaque
intrusive ou similaire
6
CHAPITRE 1 : Les systèmes IDS et les attaques DoS
7
CHAPITRE 1 : Les systèmes IDS et les attaques DoS
8
CHAPITRE 1 : Les systèmes IDS et les attaques DoS
Le système client commence par envoyer un message SYN au serveur. Le serveur reconnaît ensuite le
message en envoyant un SYN-ACK message au client. Le client finit alors d’établir la connexion en
répondant par un message ACK. La connexion entre le client et le serveur est alors ouverte, et le
service de données spécifiques peut être échangé entre le client et le serveur
L’exemple le plus connu d’UDP Flooding est la « Chargent Denial of Service Attac ». La mise en
pratique de cette attaque est simple, il suffit de faire communiquer le service chargent d’une machine
avec le service écho d’une autre. Le premier génère des caractères, tandis que le second se contente de
réémettre les données qu’il reçoit. Il suffit alors à l’attaquant d’envoyer des paquets UDP sur le port 19
(chargent) à une des victimes en usurpant l'adresse IP et le port source de l’autre. Dans ce cas, le port
source est le port UDP 7 (écho). L’UDP Flooding entraîne une saturation de la bande passante entre
les deux machines, il peut donc neutraliser complètement un réseau
10
Les attaques HTTP flood sont un type d'attaque de déni de service distribué (DDoS) conçu pour
submerger des cibles avec des requêtes HTTP. Lorsque la cible est saturée de demandes et ne peut pas
répondre au trafic existant, un rejet de service se produit pour les demandes supplémentaires des
utilisateurs existants [11]. Il existe deux variantes d'attaques HTTP flood :
HTTP GET : Dans cette forme d'attaque, plusieurs ordinateurs ou autres appareils sont
coordonnés pour envoyer de multiples demandes d'images, de fichiers ou d'autres éléments à partir du
serveur cible. Un déni de service se produit pour des demandes supplémentaires provenant de sources
de trafic légitimes lorsque la cible est submergée de demandes et de réponses entrantes.
HTTP POST : Lorsqu'un formulaire est soumis sur un site Web, le serveur doit traiter la
demande entrante et transmettre les données à une couche de persistance, généralement une base de
données. Le traitement des données de formulaire et l'exécution des commandes de base de données
nécessaires sont relativement intensifs par rapport à la puissance de traitement et à la bande passante
requise pour envoyer une requête POST. Cette attaque exploite la différence de consommation relative
des ressources en envoyant un grand nombre de requêtes POST directement au serveur cible jusqu'à ce
que sa capacité soit saturée et qu'un déni de service se produise [11].
11
12
Une technique de détection qui ne se concentre pas sur la recherche d'intrusions, mais plutôt sur
l'analyse du comportement en le comparant à un modèle considéré comme normal, est basée sur un
ensemble de signatures. Chacune de ces signatures représente un profil d'attaque.
Les approches basées sur les signatures scrutent les flux réseau à la recherche d'empreintes digitales
d'attaques connues, similaire au fonctionnement des logiciels antivirus, utilisant des signatures définies
comme une série d'événements et de conditions associés à une tentative d'intrusion. Ensuite, en
utilisant la correspondance de motifs, elles identifient les schémas. Si l'IDS est en mode actif, une
alarme peut être déclenchée en cas de détection d'une attaque ; sinon, l'IDS enregistrera simplement
l'attaque [13].
Les IDS basés sur des anomalies nécessitent un apprentissage initial où l'outil apprend le
comportement considéré comme "normal" des flux applicatifs présents sur son réseau. Chaque flux et
son comportement par défaut doivent être déclarés pendant cette phase d'apprentissage. L'IDS émet
une alerte lorsqu'un flux anormal est détecté, mais il ne peut pas indiquer la criticité de l'éventuelle
attaque. Les IDS basés sur des anomalies ont été introduits plus tard que les IDS basés sur des
signatures et n'ont pas encore atteint leur pleine maturité. Par conséquent, l'utilisation d'un tel IDS peut
être délicate, car les alarmes déclenchées peuvent contenir un grand nombre de fausses alertes [13]
Le système de détection d'intrusion se compose de plusieurs outils, chacun ayant sa propre tâche, dans
le but global de détecter les intrus dans la première phase, puis d'informer l'opérateur ou le personnel
informatique de la possibilité d'intrusion dans le réseau. Un modèle général de structure d'un système
de détection d'intrusion a été proposé par l'IDWG, qui englobe et normalise la structure d'un système
de détection d'intrusion. La Figure 1-8 détaille les différents composants de ce système. Les IDS
peuvent ne pas avoir complètement séparé tous ces composants, comme le montre la figure (Figure 1-
8). Certains IDS combinent ces composants en un seul module, tandis que d'autres ont plusieurs
instances de ces modules [14]
13
CHAPITRE 1 : Les systèmes IDS et les attaques DoS
Figure 1-8 : Un modèle fonctionnel du Système de détection d’intrusion proposé par l’IDWG [14]
Les sources de données : varient, incluant divers types de données issues de différentes origines telles
que le réseau, le système, l'application et les alertes. Le système IDS n'impose aucune restriction quant
aux sources de données utilisées, faisant appel à des capteurs appropriés pour examiner les
informations provenant de ces sources et repérer les activités non autorisées ou indésirables
14
CHAPITRE 1 : Les systèmes IDS et les attaques DoS
Le capteur et l'analyseur : constituent le composant clé du système. Tout d'abord, le capteur accède
aux données brutes, collecte toutes les informations sur l'activité en cours, puis les transmet à
l'analyseur sous forme d'événements (séquence d'activités). L'administrateur de sécurité analyse
ensuite ces événements pour repérer des activités ou des événements non autorisés ou indésirables qui
pourraient susciter son intérêt. Dans la plupart des IDS existants, le capteur et l'analyseur font partie du
même ensemble.
La réponse : englobe les mesures prises en réaction à un incident, pouvant être initiées
automatiquement par les entités du schéma IDS ou par un intervenant humain. Une réponse courante
consiste à envoyer une notification à l'opérateur. D'autres réponses incluent, mais ne se limitent pas à,
l'activité de journalisation, la consignation des données brutes provenant des sources de données
caractérisant les événements, les périodes d'arrêt du réseau ou de l'utilisateur, les sessions
d'application, ainsi que la modification des contrôles d'accès au réseau ou au système [14]
15
CHAPITRE 1 : Les systèmes IDS et les attaques DoS
La principale fonction du NIDS est d'analyser et d'interpréter les paquets circulant dans le réseau. Les
réseaux NIDS sont déployés à l'aide de capteurs stratégiquement positionnés sur le réseau, générant
des alertes lorsqu'une attaque est détectée. Ces alertes sont transmises à une console de sécurité pour
analyse et éventuelle prise de mesures. Les capteurs du réseau opèrent en mode furtif, les rendant
invisibles aux autres machines. À cette fin, la carte réseau est configurée en mode "promiscuous", où
elle lit tout le trafic de données sans être configurée avec une adresse IP [15].
Les HIDS résident sur un hôte spécifique et analysent exclusivement les informations relatives à cet
hôte. Ces systèmes de détection d'intrusion basés sur l'hôte fonctionnent comme des démons ou des
services standard sur le serveur ou le système hôte. De plus, l'impact sur le dispositif correspondant
peut être immédiatement observé, notamment en cas d'attaque réussie par l'utilisateur. Les systèmes de
détection d'intrusion utilisent deux types de sources pour fournir des informations sur l'activité de la
machine : les journaux du système d'exploitation et les pistes d'audit. Les pistes d'audit sont plus
précises et détaillées, fournissant des informations plus approfondies, tandis que les journaux, bien que
contenant des informations de base, sont plus compacts (voir Figure 3.2) [15].
16
Dans ce tableau récapitulatif, mettant en avant les avantages, désavantages de chacun de ces IDS. Ils
discutent également dans ce tableau de la responsabilité du déploiement et de mise à jour de ces
systèmes.
17
CHAPITRE 1 : Les systèmes IDS et les attaques DoS
Le module central du système de détection d'intrusion réside dans le module de détection des activités
malveillantes. Les premières versions de ces systèmes reposent sur l'expertise des professionnels de la
sécurité pour repérer les attaques, en développant diverses méthodes de détection afin de construire un
système hautement précis et efficace. Les approches de détection d'intrusion sont généralement
classées en deux catégories principales : la détection d'anomalies et la détection de signature.
Cependant, selon Liao et al. (2013 [17]), il n'y a pas de différence significative entre ces deux classes
en termes de propriétés de détection.
Les approches statistiques se concentrent principalement sur l'analyse statistique des caractéristiques
telles que l'affiliation prédéterminée, la moyenne, la variété utopique, et les probabilités afin de
détecter les intrusions. En revanche, le marquage basé sur des modèles vise à modéliser les techniques
de classification des attaques connues. Les techniques basées sur des schémas mensuels sont souvent
appliquées pour simuler et décomposer les attaques connues, s'inspirant de concepts biologiques tels
que le système immunitaire, les algorithmes génétiques, et la logique en essaim.
Des travaux récents cherchent à fusionner ces différentes approches de marquage pour former une
méthode plus élaborée, bénéficiant ainsi de la concision et d'une efficacité accrue [17].
Procédures qui nous permettent d'évaluer l'efficacité globale des systèmes de détection d'intrusion
comme suit :
Précision : IDS est précis dans la détection des attaques sans faux positifs. L'inexactitude survient
lorsqu'une action légitime dans l'environnement est déclarée anormale ou indicative.
Puissance de traitement : mesurée par la vitesse à laquelle les événements sont traités. Si le
système IDS est plus efficace, la détection en temps réel sera possible. Complétude : c'est la capacité
d'IDS à détecter toutes les attaques.
Tolérance aux pannes : la plupart des systèmes de détection d'attaques fonctionnent sur des
systèmes d'exploitation ou des appareils connus pour être vulnérables aux attaques. Par conséquent,
IDS doit résister à ces attaques, en particulier les attaques par déni de service.
18
CHAPITRE 1 : Les systèmes IDS et les attaques DoS
Vitesse : Les IDS doivent démontrer une rapidité accrue lors de l'analyse et de l'exécution afin de
réduire le temps de réponse, empêchant ainsi tout attaquant de manipuler la source de l'analyse ou
de perturber le fonctionnement du système [18].
En général, un taux élevé de détection est crucial pour un système IDS basé sur l'apprentissage
automatique, tout comme une précision de détection élevée avec un faible taux de fausses alarmes
[19].
Les critères essentiels pour mesurer la précision de la détection et la classification des attaques
incluent :
Divers types d'erreurs peuvent découler du détecteur, affectant ses performances de différentes
manières. L'idéal est que l'alarme se déclenche uniquement lorsque les politiques de sécurité sont
violées. D'un côté négatif, l'absence d'alarme signifie que tout se déroule normalement. Un faux
positif se produit lorsqu'une alarme retentit sans raison valable, tandis qu'un faux négatif se produit
lorsque l'alarme ne sonne pas malgré un événement inhabituel. À première vue, on pourrait penser
qu'un faux positif est moins préoccupant qu'un faux négatif.
La sécurité des réseaux est devenue une préoccupation majeure en raison des nombreuses
tentatives d'attaques visant à atteindre divers objectifs, notamment économiques. Diverses
méthodes de protection des réseaux ont été avancées, telles que les systèmes de détection
d'intrusion, la cryptographie, les pare-feu, etc. Parmi ces outils de sécurité, la détection d'intrusion
est généralement considérée comme l'une des approches les plus prometteuses pour contrer les
cyberattaques nouvelles, dynamiques et complexes.
Dans ce chapitre, nous présentons une attaque par déni de service, ses types génériques, ainsi que
certains des systèmes bien établis de déni de service et de détection d'intrusion, avec leur modèle
général. Nous examinons ensuite trois types de systèmes de détection d'intrusion : les systèmes
basés sur l'hôte (HIDS), les systèmes basés sur le réseau (NIDS) et les systèmes de détection
d'intrusion hybrides. Une discussion sur les techniques de détection d'intrusion précède
l'introduction des méthodes de détection des bots.
19
CHAPITRE 2 : Etat de l’art sur l’apprentissage
profond pour la cyber sécurité
20
CHAPITRE 2 : Etat de l’art sur l’apprentissage profond pour la cyber sécurité
2.1.1. Définition
L'apprentissage automatique est un sous-domaine de l'intelligence artificielle. Ce qui est lié à l'étude
des algorithmes des appareils électroniques avec un processeur qui permettent à ces systèmes
d'apprendre et d'améliorer leur capacité automatiquement à partir de chaque expérience sans ou avec
intervention humaine. Selon l'approche d'apprentissage, le type de données entrées et sorties, et le type
de problème résolu, les algorithmes d'apprentissage automatique ont été divisés en plusieurs types :
apprentissage supervisé, non supervisé, semi-supervisé et apprentissage renforcé.
2.1.2. Approches de l'apprentissage automatique
2.1.2.1. L'apprentissage supervisé
Nous employons ce mode d'apprentissage lorsque les données se présentent sous l'une des deux
configurations : variables d'entrée et valeurs cibles de sortie. L'algorithme s'engage alors dans
l'apprentissage de la fonction de mappage entre les variables d'entrée et les valeurs cibles de sortie.
Deux variantes de ce modèle sont à distinguer : la classification, dans laquelle la variable de sortie est
discrète, et la régression, où la variable de sortie est continue.
L'apprentissage non supervisé est employé lorsqu'il n'y a pas de variable de sortie associée aux
données, qui sont uniquement utilisées en tant qu'entrée. Ce type d'algorithme cherche à comprendre
les caractéristiques des données en modélisant les schémas sous-jacents de ces dernières.
21
Comprend des couches de convolution et des opérations de mise en commun. Il est capable d'extraire
des fonctionnalités locales et globales 56.
Comme le montre la figure 3.5, un réseau neuronal convolutif comporte trois couches : la couche
convolutive, la couche de regroupement (couche de sous-échantillonnage) et la couche entièrement
connectée.
Sharafaldin et al [4], l’apport principal de cet article réside dans l'utilisation de l'ensemble de données
CICDDoS2019. L'étude explore divers types et familles d'attaques DDoS afin de présenter une
nouvelle taxonomie DDoS spécifiquement pour la couche applicative. Les auteurs ont également
scruté les ensembles de données DDoS les plus répandus, identifiant les faiblesses et limitations les
plus fréquentes. En réaction à ces lacunes, ils ont conçu un nouvel ensemble de données,
CICDDoS2019, comprenant 11 types d'attaques DDoS, destiné à l'évaluation des algorithmes et des
systèmes IDS/IPS. Cette collection intègre également les éléments cruciaux pour la détection de
diverses attaques DDoS.
Par ailleurs, l'article offre une analyse détaillée pour chaque type d'attaque, basée sur les 12
diagrammes RadViz mettant en lumière les facteurs les plus pertinents pour chaque catégorie de trafic
réseau. Pour évaluer les performances, différents algorithmes d'apprentissage automatique tels que la
forêt aléatoire, le Naive Bayes, et la régression logistique ont été appliqués, atteignant une précision de
69% (f1). Les résultats sont synthétisés dans la Table 2-2.
25
Farage et al [27] les auteurs présentent trois modèles IDS (Système de Détection d'Intrusion) basés
sur l'apprentissage profond, à savoir un modèle IDS exploitant un réseau neuronal convolutif, un
modèle IDS basé sur un réseau neuronal profond, et un modèle IDS basé sur un réseau neuronal
récurrent. Ces modèles sont évalués en utilisant deux ensembles de données réelles : CIC-DDoS2019
et TON_IoT. Les performances de chaque modèle sont analysées dans le contexte de deux types de
classifications, à savoir binaire et multi-classe. Les résultats indiquent que, en termes de mesures de
performance cruciales, les approches d'apprentissage en profondeur surpassent de manière
significative les tactiques d'apprentissage automatique conventionnelles. De plus, le modèle IDS basé
sur le réseau neuronal convolutif (CNN) se distingue en surpassant les approches IDS d'apprentissage
en profondeur de pointe. Ces évaluations ont été réalisées en utilisant les ensembles de données CIC-
DDoS2019 et TON_IoT. Le modèle IDS basé sur CNN affiche une précision de détection du trafic
binaire de 99,95 % ainsi qu'une précision de détection du trafic multi-classe de 95 %.
Table 2-3 : Travaux antérieurs connexes pour la détection d’intrusion basé sur le deep learning
27
28
CHAPITRE 3 : Contribution, résultat et discussion
29
Les systèmes de détection d'intrusion pour contrer les cyberattaques ont été au cœur de nombreuses
recherches axées sur l'apprentissage en profondeur. Cette approche a été appliquée à divers ensembles
de données dans le domaine du cyber sécurité, soulignant que l'efficacité d'un système de détection
d'intrusion s'accroît avec la réalité des données utilisées. Un ensemble de données du monde réel,
spécifiquement le CICDDoS2019 de l'Institut canadien du cyber sécurité (CIC), se distingue par sa
composition d'attaques par déni de service distribué (DDoS).
Dans le but d'adresser la détection des attaques DDoS, nous avons proposé un modèle basé sur le
réseau neuronal convolutif (CNN) en apprentissage profond. L'objectif est d'identifier de manière
efficace ces diverses attaques au sein des dispositifs de détection d'intrusion, avec l'intention
d'améliorer le taux de détection. Dans ce contexte, il est crucial que la vitesse de détection des attaques
soit élevée, tandis que le taux de fausses alarmes demeure faible. Ces critères sont examinés à la
lumière de différentes métriques d'évaluation spécifiques aux algorithmes d'apprentissage profond
Pandas : bibliothèque dans Python permettant la manipulation de donnée et l'analyse des données. En
particulier, il propose des structures de données et des opérations pour manipuler des tableaux de
chiffres et des séries temporelles.
Matplotlib : bibliothèque destinée à tracer et visualiser des données sous formes des
graphiques programmés en python.
31
Le choix de l'ensemble de données dans les publications de cette étude approfondie en cyber sécurité
revêt une importance cruciale pour la validation de toutes les approches en apprentissage en
profondeur proposées. Cependant, l’accès à certains de ces ensembles de données peut être limité en
raison de préoccupations liées à la confidentialité. Un exemple d’ensemble de données conçu
spécifiquement pour la détection de cyberattaques est mentionné dans la référence [37] :
Table 3-2 : Collecte de données publies sur la cyber sécurité
Les données utilisées dans ce travail de thèse proviennent du jeu de données CICDDoS2019[41]. Ce
jeu de données se compose exclusivement d’attaques DDoS et de trafic inoffensif. Il présente des
données de flux réseau réelles incluant divers types d’attaques DdoS, parmi les plus récentes et les
33
CHAPITRE 3 : Contribution, résultat discussion
Table 3-4 : Pourcentage de chaque type d'attaque dans le data set
34
La Table 3-5 comporte 7 fichiers CSV et relate les événements de la deuxième journée (01-12-2023),
où le
jeu
de
données incluait 12 attaques DDoS distinctes. Dans son ensemble, le jeu de données complet se
compose de 50, 062,112 instances, dont 56,863 correspondent à du trafic légitime, comme détaillé
dans la Table 3-3. Cette dernière contient 11 fichiers CSV. L'ensemble de données global englobe
également 86 caractéristiques, comme illustré dans la Figure 3-4, qui expose les relations entre chaque
colonne. À la suite du prétraitement, le jeu de données est divisé en quatre sous-ensembles distincts.
35
CHAPITRE 3 : Contribution, résultat et discussion
Pourcentage de dataset CICDDoS2019 dans la ( Figure 3-2 , Table 3-4)On note que l'attaque
WebDDos est complètement nulle, donc dans notre travail, on prendra toutes les attaques qui ont un
pourcentage inférieur à 0.001
36
CHAPITRE 3 :Contribution ,résultat et discussion
37
CHAPITRE 3 : Contribution, résultat et discussion
38
CHAPITRE 3 : Contribution, résultat et discussion
Ce jeu de données se divise en deux catégories principales : le trafic légitime et les attaques. Dans la
classe des attaques, deux types d'attaques DDoS distinctes sont documentés. Le premier concerne les
attaques DDoS basées sur la réflexion, englobant MSSQL, SSDP, NTP, TFTP, DNS, LDAP, NetBIOS
et SNMP. Ces attaques impliquent que de véritables attaquants peuvent dissimuler leur identité
derrière des clients légitimes, les utilisant ainsi dans l'attaque. Cette méthode rend plus complexe la
distinction entre les utilisateurs légitimes et les attaquants uniquement par la source, car ces attaques
exploitent des protocoles tels que TCP (MSSQL et SSDP), UDP (NTP et TFTP), ou une combinaison
des deux protocoles (DNS, LDAP, NETBIOS et SNMP).
Le deuxième type d'attaques concerne celles basées sur l'exploitation, comprenant SYN flood, UDP
flood et l'UDP-Lag. Ces attaques falsifient l'adresse IP source, envoyant ainsi un grand nombre de
paquets au serveur victime, entraînant l'épuisement des ressources de cette dernière. La Figure 3-3
fournit une explication graphique des deux types d'attaques : basée sur l'exploitation et basée sur la
réflexion.
Figure 3-3 : les attaques par réflexion et les attaques par l’exploitation [41]
SYN : SYN flood a pour objectif d'épuiser toutes les ressources d'un serveur, entraînant ainsi son
indisponibilité. L'attaquant lance de manière continue des demandes de connexion (SYN) vers le
serveur ciblé sans répondre à l'ACK (accusé de réception) renvoyé par le serveur. Cette exploitation de
TCP maintient une connexion semi-ouverte pendant un laps de temps, rendant tous les ports
indisponibles [42].
SSDP: Simple Service Discovery Protocol (SSDP). Il s'agit d'un type d'attaques DDoS par réflexion.
L'attaque SSDP DDoS envoie un flux de trafic amplifié au serveur de la victime. Il exploite les
protocoles réseau Univers al Plug and Play (UPnP). Cette attaque peut submerger l'infrastructure de la
cible et mettre ses ressources Web hors ligne [43], [44].
39
CHAPITRE 3 : Contribution, résultat et discussion
NTP, ou Network Time Protocol, est un protocole utilisé pour synchroniser les horloges via Internet.
L'amplification NTP exploite les serveurs NTP pour submerger la cible avec du trafic UDP.
L'attaquant envoie généralement des requêtes aux serveurs NTP en usurpant l'adresse IP appartenant
aux victimes [45].
L'attaque DNS, ou attaque par déni de service distribué utilisant le protocole DNS (Domain Name
System), exploite les serveurs de noms de domaine, épuisant ainsi la bande passante des victimes.
Cette attaque peut submerger les victimes et les rendre inaccessibles, et elle peut être facilement lancée
par des bots [46].
NetBIOS, qui signifie Network Basic Input/Output System, est une attaque basée sur UDP. Elle
permet aux attaquants d'inspecter les informations de mémoire de l'ordinateur de la victime sur le
réseau [47].
MSSQL, ou Microsoft SQL, implique que les attaquants se font passer pour Microsoft SQL Server et
envoient des réponses aux victimes. Cette attaque abuse du protocole de résolution Microsoft SQL
Server tout en usurpant l'adresse IP du serveur MS SQL [48].
L'attaque TFTP, basée sur le protocole Trivial File Transfer Protocol (TFTP), est un type d'attaque
DDoS par amplification. Le facteur d'amplification peut atteindre jusqu'à 60. Un serveur TFTP est
normalement utilisé pour stocker des images d'appareils et des fichiers de configuration. TFTP, en tant
que protocole sans état et sans méthodes d'authentification, est plus facile à lancer et plus difficile à
détecter [49].
SNMP, ou Simple Network Management Protocol, est un protocole de gestion de réseau utilisé pour
configurer et collecter des informations à partir de périphériques réseau. Lors d'une attaque par
réflexion SNMP, les attaquants envoient un grand nombre de requêtes, exploitant ainsi les serveurs
SNMP pour générer un trafic amplifié [50].
SNMP à l'aide d'une adresse IP usurpée appartenant à la victime. Après cela, les serveursSNMP
répondront à l'adresse IP de la victime [50] .En ce qui concerne l'UDP flood, exploitant le protocole
User Datagram Protocol (UDP), l'attaquant envoie une multitude de paquets UDP au port du serveur
cible avec une adresse IP usurpée. Si aucun programme n'est en cours d'exécution sur ce port, le
serveur émettra un paquet ICMP en retour. Cependant, l'adresse IP source est inaccessible, et le
serveur cible ne recevra jamais de réponse. Cette tactique épuise les ports du serveur victime [51].
Quant à l'attaque UDP_lag, elle perturbe la connexion entre le client et le serveur, principalement
utilisée dans les jeux en ligne. Cette attaque ralentit la connexion UDP, ce qui peut être problématique,
surtout lorsque le serveur nécessite des délais courts [4].
LDAP, ou Lightweight Directory Access Protocol, est un type d'attaque DDoS par amplification où le
facteur d'amplification peut atteindre jusqu'à 55[61]. Étant largement utilisé dans les réseaux
d'entreprise, LDAP est fréquemment exploité pour attaquer ces réseaux [52].
40
Un quatrième ensemble de données a été constitué en regroupant toutes les informations des deux
jours, ce qui a permis l'extraction d'un ensemble de données englobant toutes les attaques disponibles
dans CICDDoS2019. Ensuite, le pourcentage de chaque type de cyberattaque a été calculé, et 2% du
total a été extrait. Les données extraites se positionnent comme suit : [insérer les détails du
positionnement des données].
Table 3-6 : Sous-ensembles 1 (2 classes)
43
44
45
4. Lors de la dernière étape, nous avons traité toutes les lignes dans tous les fichiers il a été
conclu qu'il y a des lignes impaires au taux de 1/100000 dans lignes nous l'avons. Supprimé et
avec cela, nous avons terminé notre travail en termes de prétraitement de donnes et nous
passerons à la normalisation des données
3.2.3.3. Normalisation des données
La normalisation des données est généralement requise lorsque les chercheurs appliquent des
techniques d'apprentissage en profondeur à des données qui ont des échelles différentes sur les
attributs, Nous avons recherché une comparaison des performances du modèle avec ou sans la
normalisation des traits effectuée par Wang et al [53], Les modèles discriminatoires gagnent en
efficacité
Dans cette travaille, les imitateurs sont StandardScaler et MinMaxScaler .
La fonction de mappage StandardScaler est illustrée dans. Equation 3-1
46
Les CNN 1D ont initialement été explorés en utilisant des couches de convolution 1D dans le
contexte du traitement du langage naturel [54]. Dans notre étude, les événements de trafic réseau
sont représentés sous forme de données de séries chronologiques 1D. Les caractéristiques des flux
sont collectées sur des périodes similaires, mais les millions de connexions bénignes et les
attaques DDoS malveillantes présentent des comportements distincts. En conséquence, nous avons
opté pour l'utilisation de CNN 1D afin d'extraire les caractéristiques de discrimination spatiale.
48
49
CHAPITRE 3 : Contribution, résultat et discussion
➢ True positive (TP) : Un résultat de test qui indique correctement la présence d'une condition ou
d'une caractéristique.
➢ False positive (FP) : Un résultat de test qui indique à faux qu'une condition ou un attribut
particulier est présent.
➢ True négative (TN) : Un résultat de test qui indique correctement l'absence d'une
➢ False négative (FN) : Un résultat de test qui indique à faux qu'une condition ou un
Précision (ou Positive Prédictive Value - PPV) : indique la proportion de valeurs positives
52
Recall (aussi appelé Sensibilité ou True Positive Rate - TPR) : représente la proportion de
valeurs positives par rapport au total des cas positifs réels :
Les modèles de base utilisés pour la comparaison étaient 4 algorithmes de machine learning courants,
testés sur les ensembles d'entraînement et de test du jeu de données CICDDoS_2019. Ces modèles
servaient de référence de base pour l'étude comparative, débutant par la sélection des caractéristiques
les plus importantes à l'aide de de la bibliothèque SKLearn, après ils ont choisi 4 algorithmes ML les
plus communs : ID3 (Décision Tree), Random forest, Naive Bayes, et Logistic Regression. Les
mesures d’évaluation ainsi que les résultats obtenus sont illustrées dans le tableau Table 3-16
53
CHAPITRE 3 : Contribution, résultat et discussion
Table 3-11 : Comparaison des résultats du machine learning et du Deep learning
Les précisions de la détection des attaques DDoS model propose de CNN pour les 4 expérimentations
ont été illustrées dans le Table 3-16.
3.3.3. Résultat
• Dans la première expérimentation (classification binaire), nous avons travaillé avec le sous-
ensemble de données extrait de l'ensemble CICDDoS2019, comme présenté dans le Tableau 3-6. Les
modèles ont été évalués directement sur l'ensemble de test. Le modèle CNN a été entraîné sur 50
itérations, et l'observation des précisions de formation et de validation montre une augmentation
constante, atteignant finalement une valeur proche de 1. Notablement, la perte diminue de manière
significative au cours de l'entraînement et de l'évaluation, convergeant vers une valeur minimale.
valeur où le minimum tend vers 0. Cela signifie que ces modèles apprennent mieux et font de
meilleures prédictions après chaque période d'amélioration (Figure 3-9)
55
56
57
58
59
CHAPITRE 3 : Contribution, résultat et discussion
Tous ces résultats sont encourageants, bien qu'ils ne surpassent pas les performances exceptionnelles
obtenues dans certains travaux antérieurs. Il est important de noter que ces travaux préalables ont
généré des résultats impressionnants grâce à un équipement plus performant. Pour une évaluation
équitable, nous avons comparé nos résultats à un travail similaire réalisé dans le même environnement
de travail, à savoir Google Colab, qui offre une capacité de mémoire de 12 Go.
La baisse des performances constatée peut être attribuée à la présence de trois types d'attaques
partageant des caractéristiques similaires. Même les administrateurs réseau éprouvent des difficultés à
les distinguer en raison de leur similitude. Par exemple, il est complexe de différencier l'attaque
DRDoS SSDP de l'attaque DRDOS SNMP en raison de leurs caractéristiques proches. De même, la
distinction entre Portmap et DRDOP UDP représente un défi. La manipulation des caractéristiques des
attaques se révèle difficile, limitant ainsi les améliorations potentielles des résultats. Malgré ces défis,
les résultats obtenus demeurent plutôt satisfaisants.
60
Le traitement et la manipulation des données ont constitué un défi majeur pour nous, et nous avons
consacré un temps considérable à les résoudre. Une limitation importante était liée à la faiblesse des
dispositifs disponibles, notamment en termes de RAM, GPU et puissance de traitement, qui ne
satisfaisaient pas pleinement nos besoins. Nous avons entrepris la création de quatre ensembles de
données distincts en prélevant des échantillons de manière aléatoire dans le but d'obtenir des résultats
plus réalistes et non biaisés.
La première classification était une classification binaire, tandis que les trois suivantes représentaient
une classification multi-classe. Une nouvelle approche a été proposée en considérant tous les types
d'attaques comme un pourcentage de l'ensemble d'informations. Par exemple, si le nombre d'attaques
DDos_TFTP typique est de 20 millions dans l'ensemble de données, nous le réduisons à 5%, soit un
total de 1 million d'attaques. De nombreuses expériences ont été menées pour optimiser les résultats
d'apprentissage, démontrant que l'apprentissage en profondeur surpassait les méthodes d'apprentissage
automatique classiques et certaines approches antérieures basées sur l'apprentissage en profondeur
utilisant le même ensemble d'informations.
Les résultats obtenus étaient très satisfaisants, avec une précision de détection élevée pour divers
61
types d'attaques, démontrée au cours de multiples expérimentations sur l'ensemble de données. Ce
modèle peut être considéré comme une solution prometteuse pour les dispositifs de détection
d'intrusion en cyber sécurité, notamment dans le domaine du trafic réseau.
62
Conclusion générale
Perspective
Dans nos travaux futurs, je travaillerai sur les fichiers pcap du jeu de données pour augmenter
le nombre d'attaques afin de peser le nombre d'attaques par déni de service d'apprentissage
profond, en utilisant des programmes de détection de trafic réseau.
63
BIBLIOGRAPHIES
[3] B. Zhang, T. Zhang, and Z. Yu, “DDoS detection and prevention based on
artificial intelligence techniques,” 2017 3rd IEEE International Conference on
Computer and Communications, ICCC 2017, vol. 2018-January, pp. 1276–1280,
Mar. 2018, doi: 10.1109/COMPCOMM.2017.8322748.
[5] S. Hosseini and M. Azizi, “The hybrid technique for DDoS detection with
supervised learning algorithms,” Computer Networks, vol. 158, pp. 35–45, Jul.
2019, doi: 10.1016/J.COMNET.2019.04.027.
[6] R. R. Nuiaa, S. Manickam, and A. H. Alsaeedi, “Distributed reflection denial
of service attack: A critical review,” International Journal of Electrical and
Computer Engineering (IJECE), vol. 11, no. 6, pp. 5327– 5341, Dec. 2021, doi:
10.11591/IJECE.V11I6.PP5327-5341.
64
BIBLIOGRAPHIES
[7] D. Roy and P. Nourry, “Sécurité du réseau fixe d’un opérateur : focus sur les
dénis de service”.
BIBLIOGRAPHIES
Snort”.
[14] “RFC 4766 - Intrusion Detection Message Exchange Requirements.”
https://datatracker.ietf.org/doc/rfc4766/ (accessed May 31, 2022).
[15] Ghenima BOURKACHE, “Un IDS réparti basé sur une société d’agents
intelligents.”Accessed:May31,2022.[Online].Available:http://dlibrary.univboum
erdes.dz:8080/bitstream/123456789/912/1/Bourkache%2C%20Ghenima
%20magister.pdf
[16] Lehmann Guillaum, “ cours de sécurité informatique 2003-04-13.”
Accessed:May31,2022.[Online].Available:https://di.univblida.dz/jspui/
bitstream/123456789/7211/1/Benhassine%20Oualid%20et%20Boutebali
%20Imadeddine.pdf
[17] H.-J. Liao, C.-H. R. Lin, Y.-C. Lin, and K.-Y. Tung, “Intrusion detection
system: A comprehensive review,” Journal of Network and Computer
Applications, vol. 36, pp. 16–24, 2012, doi: 10.1016/j.jnca.2012.09.004.
66
BIBLIOGRAPHIES
[20] S. Dua and X. Du, Data Mining and Machine Learning in Cybersecurity.
Accessed: Jun. 11, 2022. [Online]. Available: https://www.routledge.com/Data-
Mining-and-Machine-Learning-in-Cybersecurity/Dua-Du/p/book/
9781439839423
[21] R. Sommer and V. Paxson, “Outside the closed world: On using machine
learning for network intrusion detection,” Proceedings - IEEE Symposium on
Security and Privacy, pp. 305–316, 2010, doi: 10.1109/SP.2010.25.
BIBLIOGRAPHIES
[25] Q. Zhong, Y. Sun, and Z. Qiu, “Deep Recurrent Neural Network with
Sharing Weights for Solving High-Dimensional PDEs,” Proceedings of 2021
IEEE International Conference on Data Science and Computer Application,
ICDSCA 2021, pp. 6–9, 2021, doi: 10.1109/ICDSCA53499.2021.9650325.
69
BIBLIOGRAPHIES
[30] A. E. Cil, K. Yildiz, and A. Buldu, “Detection of DDoS attacks with feed
forward based deep neural network model,” Expert Systems With Applications,
vol. 169, p. 114520, 2021, doi: 10.1016/j.eswa.2020.114520.
70
BIBLIOGRAPHIES
BIBLIOGRAPHIES
https://www.unb.ca/cic/datasets/ddos-2019.html (accessed Jun. 07, 2022).
BIBLIOGRAPHIES
[50] J. Yu, H. Lee, M.-S. Kim, and D. Park, “Traffic flooding attack detection
with SNMP MIB using SVM,” Computer Communications, vol. 31, no. 17, pp.
4212–4219, Nov. 2008, doi: 10.1016/J.COMCOM.2008.09.018.
[51] A. Singh and D. Juneja, “Agent Based Preventive Measure for UDP Flood
Attack in DDoS Attacks,” Aarti Singh et. al. / International Journal of
Engineering Science and Technology, vol. 2, no. 8, pp. 3405–3411, 2010,
Accessed: Jun. 09, 2022. [Online]. Available:
https://www.researchgate.net/publication/50315626
[52] “ANALISIS KEAMANAN JARINGAN SINGLE SIGN ON (SSO)
DENGAN LIGHTWEIGHT DIRECTORY ACCESS PROTOCOL (LDAP)
MENGGUNAKAN METODE MITMA | Amarudin | SEMNASTEKNOMEDIA
ONLINE.”
https://ojs.amikom.ac.id/index.php/semnasteknomedia/article/view/469
(accessed Jun. 09, 2022).
[53] W. Wang, X. Zhang, S. Gombault, and S. J. Knapskog, “Attribute
normalization in network intrusion detection,” I-SPAN 2009 - The 10th
International Symposium on Pervasive Systems, Algorithms, and Networks, pp.
448–453, 2009, doi: 10.1109/I-SPAN.2009.49.
73
BIBLIOGRAPHIES