Modélisation Des Montants de Sinistres Et Des Fréquences de Sinistres
Modélisation Des Montants de Sinistres Et Des Fréquences de Sinistres
Modélisation Des Montants de Sinistres Et Des Fréquences de Sinistres
Bassma AZZAMOURI
Noura BENCHEKROUN
Imane IKMAKHEN
Amira LYAZRHI
Avril 2017
Sommaire
Introduction .......................................................................................................... 2
Problmatique et Contexte ................................................................................... 3
Plan de travail et Mthodologie ............................................................................ 4
Partie thorique : les tests de Kolmogorov-Smirnov et Chi-2 ............................. 4
Partie pratique .................................................................................................... 8
Analyse critique ................................................................................................... 39
Exploitation des rsultats pour des dcisions et actions futures ........................... 40
Conclusion........................................................................................................... 42
1|Page
Introduction
Lobjectif de notre projet est de nous permettre de dvelopper lesprit danalyse des
donnes et des statistiques et de les traduire travers des interprtations permettant de
comprendre les donnes sur lesquelles nous travaillons. Pour ce faire, nous modliserons
une distribution donne, tout en utilisant les tests de Kolmogorov Smirnov et Khi-2, avec le
logiciel de traitement des donnes SAS.
Ce travail fait appel la connaissance des outils et techniques de traitement des donnes,
surtout ceux qui sont demands, tels que les tests dhypothses. Ces derniers permettent de
dterminer deux hypothses opposes et dessayer aprs avoir pass par plusieurs tapes
den dduire lhypothse la plus juste et dliminer celle qui contredit la nature de notre
distribution.
Ce rapport est structur en quatre parties principales, la premire se focalisera sur une
prsentation brve de la problmatique. La deuxime partie va contenir la mthodologie du
travail, commenant par une description thorique des mthodes utilises, suivi par les
rsultats de notre modlisation et leurs interprtations en utilisant SAS. La troisime partie
se focalisera sur une analyse critique ainsi que lapport dune solution o nous pouvons
exploiter les rsultats de cette analyse pour des propositions futures.
2|Page
Problmatique et Contexte :
Le march des assurances est un march fortement concurrentiel dont lassureur cherche
slectionner des facteurs qui contribuent expliquer la sinistralit. Cette dernire, en
assurance automobile se mesure en termes de nombre des accidents et de leurs montants.
La modlisation des donnes lies ces variables est une description plus ou moins
simplifie dune ralit.
Le modle permet de prvoir les cots futurs dun systme dassurance et de mesurer le
risque relatif ces prvisions. En ralisant la modlisation, il faut toutefois trouver un certain
quilibre entre simplicit et vraisemblance du modle.
3|Page
Plan de travail et Mthodologie :
Afin de modliser un chantillon ou une population, dont la loi de distribution nest pas
connue, nous pouvons utiliser diffrents types de tests, nomms tests dhypothse.
6. Adapter le modle pour utilisation future, en tenant compte de linflation pour des
donnes de prix par exemple.
Thoriquement, aprs avoir prcis les deux types dhypothses, nous prcisons le seuil de
signification . Ce qui signifie que le rsultat observ a moins de % de chances d'tre
obtenu par hasard. Nous passerons par la suite dterminer le quantile z (1-/2)
correspondant la loi symtriqueavec laquelle nous travaillons puis lintervalle ouvert ]- z (1-
/2), z (1-/2)[. Il est nomm z (tabul), nous lobtenons travers le tableau des z en
fonction de de la loi choisi. Z (calcul) qui doit appartenir lintervalle cit prcdemment
nous permettra de garder 0 et de rejeter 1 et vice versa.
Parmi ces tests dhypothses, se trouvent les deux tests concerns pour notre tude : le test
de Kolmogorov Smirnov et le test de Chi-2.
4|Page
Le test de Kolmogorov Smirnov :
On considre ainsi une variable alatoire X de fonction de rpartition F, que l'on veut
comparer une fonction de rpartition thorique 0 continue. On souhaite tester :
- L'hypothse 0 : = 0 , contre :
- L'hypothse 1 : 0 0.
=
1
() = 1],[ ( )
=1
L'cart entre les valeurs observes et les valeurs thoriques du modle dduites de la
fonction de rpartition 0 peut donc tre mesur par la variable alatoire : =
| () 0 () | qui sera la variable de dcision, ou fonction discriminante, du test. En
posant = , on dmontre que lorsque 0 n'est pas vraie, tend vers + , et,
lorsque 0 est vraie, suit asymptotiquement une loi sur + dfinie par sa fonction de
rpartition
=+
() = 2
=
La rgion critique du test est donc constitue des grandes valeurs de . Le niveau tant
donn, on peut dfinir la valeur critique de deux faons :
5|Page
- La loi de tant tabule, le fractile (1 ) d'ordre 1 de cette loi, fournit un
test exact de niveau en rejetant l'hypothse 0 si la valeur observe de dpasse
(1 ), et en l'acceptant dans le cas contraire. Ce test est donc valable pour toute
taille n de l'chantillon.
- La loi limite tant tabule, le fractile (1 ) d'ordre 1 de cette loi, fournit un test
asymptotique de niveau en rejetant l'hypothse 0 si la valeur observe de
dpasse (1 ), et en l'acceptant dans le cas contraire. Ce test est largement
acceptable pour > 100.
Le test de Chi-2 :
Le test du Chi-2 () est un test non paramtrique qui permet de tester l'hypothse 0 selon
laquelle les donnes observes sont engendres par un modle faisant intervenir une loi de
probabilit, ou une famille de lois de probabilit. Le choix du modle rsulte de diverses
considrations thoriques ou exprimentales, et il importe de tester son adquation.
Le principe du test est le suivant : On dfinit une fonction discriminante qui constitue
une mesure normalise de l'cart entre les valeurs thoriques dduites du modle et les
valeurs observes dans l'chantillon.
Lorsque 0 n'est pas vraie, les valeurs de augmentent et lorsque 0 est vraie, suit, au
moins asymptotiquement, une loi du de Pearson degrs de libert. La rgion critique
du test est donc constitue des grandes valeurs de .
=
( )2
=
=1
reprsente une mesure normalise de l'cart global entre les valeurs thoriques et les valeurs
observes.
6|Page
( )2
Pour tout indice i de 1 k, est l'cart individuel de la classe . On dmontre
alors que suit asymptotiquement une loi du Chi-2 degrs de libert, avec =
1, r tant le nombre de paramtres estims de la loi thorique.
2
Le risque tant donn, on note 1 le fractile d'ordre 1 de la loi du Chi-2 de
2
Pearson degrs de libert dfini par ( 1 ) = .
2
- Si < 1 , on considre que l'cart est d au hasard de l'chantillonnage et qu'il
n'est pas significatif : on accepte 0 .
2
- Si 1 , on considre que l'cart observ est trop important pour tre attribu
aux seules fluctuations d'chantillonnage et qu'il rvle l'inadquation du modle : on
refuse 0 .
7|Page
Partie pratique :
Test de Kolmogorov-Smirnov :
Description des variables :
Le jeu de donnes qui nous a t fourni prsentait plus de 1500 individus caractriss par la
variable: montant des sinistres, il sagit de la variable continue dont on veut modliser la
loi.
Notre dmarche :
Llimination des valeurs aberrantes ainsi que les valeurs ngatives consiste une tape aussi
importante pour le nettoyage de la base car cette dernire s'avre trs sensible leurs
existences. Chose qui pourra influencer la dispersion statistique de la distribution, qui est
une tendance qu'ont les valeurs de la distribution d'un caractre s'taler de part et d'autre
d'une valeur centrale et/ou s'loigner les unes des autres.
8|Page
On a obtenu finalement une base de donnes de 1478 observations.
data projet1.montants;
infile '/folders/myfolders/projet1/montantssinistre.csv' firstobs=2
delimiter=';';
input VAR1 x ;
run;
data projet1.montants1;
set projet1.montants;
if x= . then delete;
run;
data projet1.montants2;
set projet1.montants;
if x<0 then delete;
run;
3- Descriptif statistique :
Nous examinons notre base de donnes travers un descriptif statistique qui nous permettra
davoir les rsultats numriques prliminaires dcrivant la base. En utilisant SAS, il faut
avoir recours la fonction proc Univariate. Elle produit les indicateurs statistiques
traditionnels et analyse de manire approfondie les distributionstudies.
Moments
N 1478 Somme des poids 1478
Moyenne 256.926315 Somme des observations 379737.094
Ecart-type 259.125228 Variance 67145.8837
Skewness 1.90932743 Kurtosis 4.57030526
Somme des carrs non corrige 196738923 Somme des carrscorrige 99174470.2
Coeff Variation 100.855853 Std Error Mean 6.74019529
9|Page
Mesuresstatistiques de base
Location Variabilit
Moyenne 256.9263 Ecart-type 259.12523
Mdiane 176.6882 Variance 67146
Mode . Intervalle 1714
Ecart interquartile 285.44515
Quantiles (Dfinition 5)
Niveau Quantile
100Max 100% 1714.294131
99% 1261.991005
95% 762.402864
90% 581.608087
75% Q3 359.012032
50% Mdiane 176.688229
25% Q1 73.566880
10% 26.432773
5% 13.035662
1% 3.868070
0% Min 0.297861
Observations extrmes
La plus petite La plus grande
Valeur Obs Valeur Obs
0.297861 490 1467.08 29
0.358398 619 1483.88 1214
1.043542 128 1516.48 705
1.160104 807 1517.86 1417
1.701038 927 1714.29 1088
10 | P a g e
Concernant les paramtres obtenus, voil une brve description :
1 n
Lcart-type (stddeviation) scrit : (
n i1
( xi x))1/2
A partir de cette fonction et en assistant sur le test de normalit de la variable x via lajout de
Normal la proc Univariate. En utilisant les lignes de code suivantes, on obtient le rsultat
ci-dessous.
Tests de normalit
Test Statistique p-value
Shapiro-Wilk W 0.813341 Pr< W <.0010
Kolmogrov-Smirnov D 0.160998 Pr> D <.0100
Cramer-von Mises W-Sq 12.20139 Pr> W-Sq <.0050
Anderson-Darling A-Sq 71.59439 Pr> A-Sq <.0050
Nous pouvons dduire que cette dernire ne suit pas une loi normale, vue que dabord le
coefficient dasymtrie skewness est diffrent de 0, chose qui montre que la courbe nest
11 | P a g e
absolument pas symtrique (lune des caractristiques de la courbe de la loi normale est la
symtrie) et si on considre le coefficient de kortosis qui est positif, il signifie que la courbe
de la loi de cette distribution est plus pointue qu'une loi normale. Sajoute cela la p-value
du test de Kolmogorov Smirnov qui est infrieur au seuil de signification (5%), ce qui
rassure encore plus que la distribution de la variable x ne suit pas une loi normale (p<).
Dabord nous devons avoir un histogramme qui est loutil permettant de tracer les
diffrentes distributions proposes.
Distribution of x
50
40
30
Percent
20
10
0
0 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 1600 1700
x
Curves
Lognormal(Theta=0 Sigma=1.25 Zeta=4.97) Exponential(Theta=0 Sigma=257)
Weibull(Theta=0 C=1 Sigma=257) Gamma(Theta=0 A lpha=1 Sigma=256)
12 | P a g e
Les options lognormal, weibull , gamma et exponentielle tracent les courbes
reprsentant la distribution de la loi dsigne dont la moyenne et lcart type sont ceux de x.
Le mme code affiche les diffrents paramtres lis chaque loi en particulier, ainsi que des
rsultats lis plusieurs tests. Nous nous concentrons sur le test de Kolmogorov Smirnov.
Concernant la loi de Wei bull, aucun rsultat li au test de K-Sne saffiche, do le rejet de
lhypothse0 , donc la distribution ne suit pas une loi Weibull.
13 | P a g e
Goodness-of-Fit Tests for Lognormal Distribution
Test Statistique p-value
Kolmogorov-Smirnov D 0.0672862 Pr> D <0.010
Cramer-von Mises W-Sq 2.4311829 Pr> W-Sq <0.005
Anderson-Darling A-Sq 15.2359107 Pr> A-Sq <0.005
14 | P a g e
Q-Q Plot for x
12000
10000
8000
6000
x
4000
2000
0 10 20 30 40 50 60 70
Lognormal Quantiles (Sigma=1.250502)
Lognormal Line Threshold=0, Scale=4.9746
Une rgle de rejet mettre en uvre et couramment utilise par les logiciels statistiques,
consiste calculer la probabilit que la statistique de test soit gale la valeur observe ou
encore plus extrme, tout en supposant que l'hypothse nulle 0 est vraie, c'est--dire que la
variable suit la loi donne (log normal, Gamma, weibull ou exponentielle) : on appelle cette
probabilit la p-value ou probabilit critique. Ainsi, comparer la p-valeur avec est quivalent
dterminer sil tombe dans la zone de rejet. D'une manire gnrale, on la rejettera lorsque
, et le test est effectu au risque . En pratique, il convient de rejeter fermement
0 lorsque p-val est trs proche de 0 alors qu'il convient de ne pas rejeter 0 lorsque p-val
grandit au-dessus de 0.1. Autour de 0.05, il y a toujours un certain doute et les conclusions
devront tre renforces par d'autres procdures de test
Nous prenons un seuil de signification de 5%, comme nous avons mentionn auparavant et
nous raisonnons sur la p-value de chaque loi de distribution par un test de K-S.
Concernant la loi lognormal , la p-value que nous obtenons est infrieur 0.01 ceci veut
dire que < . Comme conclusion,on rejette alors lhypothse 0 et donc la distribution
de la variable x ne suit pas une loi lognormal .
15 | P a g e
Les rsultats obtenus pour la loi Gamma :
js
16 | P a g e
Le QQ Plot correspondant la loi Gamma est le suivant, il montre que lcart entre les
2000
1500
x
1000
500
0 2 4 6 8
Gamma Quantiles (Alpha=1.004659)
Gamma Line Threshold=0, Scale=255.73
17 | P a g e
Quantiles for Exponential Distribution
Pourcentage Quantile
Observ Estim
1.0 3.86807 2.58220
5.0 13.03566 13.17860
10.0 26.43277 27.06989
25.0 73.56688 73.91309
50.0 176.68823 178.08775
75.0 359.01203 356.17550
90.0 581.60809 591.59470
95.0 762.40286 769.68245
99.0 1261.99101 1183.18941
2000
1500
x
1000
500
0 2 4 6 8
Exponential Quantiles
Exponential Line Threshold=0, Scale=256.93
Concernant la loi gamma et exponentielle, la p-value dans les deux cas est suprieur 0.5
c'est--dire > , dans ce cas-l nous ne pouvons pas dduire laquelle des deux lois est
suivit par la variable x.
18 | P a g e
Nous devons alors chercher un autre paramtre permettant de dduire ce rsultat. Pour ce
faire, nous pouvons avoir recours au calcul de lAIC (critre d'information d'Akaike) ou en
anglais(Akaike information criterion). Cest une mesure de la qualit d'un modle
statistique.
Tests dajustement
-2 log-vraisemblance 4653.412
AIC (prfrer les petites valeurs) 4655.412
AICC (prfrer les petites valeurs) 4655.415
BIC (prfrer les petites valeurs) 4880.711
19 | P a g e
Pour la loi Gamma :
Tests dajustement
-2 log-vraisemblance 4652.269
AIC (prfrer les petites valeurs) 4658.269
AICC (prfrer les petites valeurs) 4658.286
BIC (prfrer les petites valeurs) 4674.165
Daprs ces deux rsultats, et vue que les petites valeurs de lAIC sont prfres :
20 | P a g e
Test Chi-2 :
Le jeu de donnes qui nous a t fourni prsentait plus de 1500 individus caractriss par la
variable: nombres des sinistres, qui est bien la variable discrte dont on veut modliser la
loi.
Notre dmarche :
Limportation des donnes ne nous a pas pos de problme sous SAS. Nous avons juste
import les donnes du fichier Excel dans SAS.
Paralllement au cas de la variable continu Montant des sinistres , nous avons convertit
les variables du type alphanumrique au numrique. Nous avons procd llimination
des valeurs aberrantes et celles ngatives. Aprs nettoyage, on obtient une base de donnes
plus rduite, contenant 1486 individus.
data projet1.nombres;
set projet1.nombres (rename=(nbresinistre =
nbresinistre_numeric));
nbresinistre = input(nbresinistre_numeric, best.);
dropnbresinistre_numeric;
run;
data projet1.nombres;
set projet1.nombres1;
ifnbresinistre = . then delete;
run;
21 | P a g e
data projet1.nombres2;
set projet1.nombres;
ifnbresinistre<0 then delete;
run;
3- Descriptif statistique :
Nous examinons notre base de donnes travers un descriptif statistique qui nous permettra
davoir les rsultats numriques prliminaires dcrivant la base. En utilisant SAS, il faut
avoir recours la fonction proc Univariate. Elle produit les indicateurs statistiques
traditionnels et analyse de manire approfondie la distribution des deux variables que nous
tudions.
Moments
N 1486 Somme des poids 1486
Moyenne 1.48923284 Somme des observations 2213
Ecart-type 1.21031696 Variance 1.46486716
Skewness 0.8421536 Kurtosis 0.84075269
Somme des carrs non corrige 5471 Somme des carrscorrige 2175.32773
Coeff Variation 81.2711708 Std Error Mean 0.03139711
22 | P a g e
Tests de tendance centrale : Mu0=0
Test Statistique p-value
t de Student t 47.43216 Pr> |t| <.0001
Signe M 579 Pr>= |M| <.0001
Rang sign S 335530.5 Pr>= |S| <.0001
Quantiles (Dfinition 5)
Niveau Quantile
100Max 100% 7
99% 5
95% 4
90% 3
75% Q3 2
50% Mdiane 1
25% Q1 1
10% 0
5% 0
1% 0
0% Min 0
Observations extrmes
La plus petite La plus grande
Valeur Obs Valeur Obs
0 1484 6 1056
0 1483 6 1062
0 1478 6 1209
0 1474 7 441
0 1469 7 642
23 | P a g e
4- Modlisation de la loi des nombres des sinistres :
Pour modliser la loi de cette variable, nous allons excuter le test de Chi-2 pour 3 lois
principales, il sagit de la loi de poisson, celle binomiale, et binomiale ngative.
Pour ce faire, on calcule les probabilits thoriques de chaque loi pour pouvoir calculer les
carts entre ces dernires et celles observes.
Frquence Pourcentage
nbresinistre Frquence Pourcentage cumule cumul
0 328 22.07 328 22.07
1 504 33.92 832 55.99
2 378 25.44 1210 81.43
3 187 12.58 1397 94.01
4 63 4.24 1460 98.25
5 18 1.21 1478 99.46
6 6 0.40 1484 99.87
7 2 0.13 1486 100.00
24 | P a g e
Distribution de nbresinistre
40
30
Pourcentage
20
10
0
0 1 2 3 4 5 6 7
nbresinistre
Les assurs qui ont commis un seul sinistre reprsentent le plus grand pourcentage des
assurs (33.92%). Par contre, ceux qui ont commis 7 sinistres reprsentent le plus faible
pourcentage (0.13%).
Nous allons maintenant expliquer, pour chaque loi, les tapes pour excuter le test Chi-2:
- Distribution de Poisson :
- La probabilit de ralisation d'un vnement (dans notre cas quun sinistre ait lieu) est
trs faible
- Le nombre d'essais (dans notre cas le nombre dindividus) est trs grand.
Si le nombre moyen de sinistres dans cet intervalle est , alors la probabilit qu'il existe
exactement k sinistres (k tant un entier naturel, k ) est :
( = ) =
!
On formule notre hypothse H0: Lchantillon suit une loi de poisson qui sera teste par la
suite.
Dans un premier temps, on a utilis la procdure PROC GENMOD qui nous gnre le
paramtre de cette loi : k
25 | P a g e
proc genmod data=sin.nombres;
model nbresinistre = / dist=poisson;
output out=PoissonFit p=lambda;
run;
Ensuite, on cre une data set (ensemble de donnes) qui contient les densits de probabilit
de la loi de Poisson (reprsentes par Y), calcules pour les diffrentes classes (reprsentes
par la variable t {1, ...,7}), et ce en utilisant la fonction Pdf.
26 | P a g e
data PMF;
do t = 0 to 7; /* 0 to max(x) */
Y = pdf("Poisson", t, &Lambda);
output;
end;
run;
t Y
1 0 0.2255455513
2 1 0.3358899094
3 2 0.2501091921
4 3 0.1241569657
5 4 0.046224667
6 5 0.0137678612
7 6 0.0034172592
8 7 0.0007270137
On a utilis la fonction Chisq qui prend en paramtre les diffrentes probabilits de Poisson
en pourcentage pour pouvoir les comparer avec les valeurs observes.
27 | P a g e
On prsente ci-dessous les rsultats du test obtenus:
Test du Khi-2
pour proportions spcifies
Khi-2 2.0596
DDL 7
Pr > Khi-2 0.9565
On obtient pour chaque classe, lcart entre la valeur thorique issue du modle de Poisson
et celle observe de lchantillon. Lcart le plus important est celui de la classe 7 (o le
pourcentage observ des assurs qui ont commis 7sinistres est de 0.13%, et celui thorique
est de 0.07% seulement).
28 | P a g e
On obtient alors une statistique Chi-2 d de 2.0596 qui calcule lcart global entre ces valeurs
thoriques et observes, avec 7 degrs de libert. Daprs la table de Chi-2, et pour un seuil
2 2
de signification de 5% et 7 degrs de libert, on a 1 = 14.067, donc < 1 , on
considre alors que l'cart est d au hasard de l'chantillonnage et qu'il n'est pas significatif,
on garde donc H0 et on dduit que la distribution est bien celle de poisson.
- Distribution binomiale :
Cette loi de probabilit discrte est dcrite par deux paramtres : n le nombre dindividus,
et p la probabilit davoir un sinistre.
( = ) = ( ) (1 )
On formule notre premire hypothse H0: Lchantillon suit une loi de binomiale qui,
travers le test chi-2 va tre soit garde ou rejete.
De prime abord, nous avons gnr les diffrentes frquences observes pour chaque classe en
utilisant le code suivant :
data sin.nombres;
n=7;
do nbresinistre=0 to n;
input freq @@;
output;
end;
datalines;
328 504 378 187 63 18 6 2
;
run;
29 | P a g e
On obtient comme pour le cas prcdent:
n nbresinistre freq
1 7 0 328
2 7 1 504
3 7 2 378
4 7 3 187
5 7 4 63
6 7 5 18
7 7 6 6
8 7 7 2
proc genmod;
freq freq;
model nbresinistre/n= /dist=binomial;
output out=pred_bin p=p;
run;
On cre une nouvelle data set (ensemble de donnes) qui contient les densits de
probabilit de la loi binomiale calcules pour les diffrentes classes en utilisant la fonction
Pdf.
data exp_bin;
set pred_bin;
do nbresinistre=0 to 7;
pdfbin=pdf("binomial",nbresinistre,0.2127475502,7);
output;
end;
stop;
drop freq;
run;
30 | P a g e
On calcule par ailleurs les diffrentes frquences thoriques pour chaque classe, et ce en
multipliant chaque probabilit par la somme des frquences observes. En utilisant SAS,
on utilise le code suivant :
data exp_bin;
set exp_bin;
set pred_bin;
freq_theo=pdfbin*sum(freq);
run;
Les probabilits et les frquences thoriques des classes 4,5,6 et 7 sont trs faibles
(frquences thoriques<5), ce qui ncessite de les regrouper en une seule classe pour se
rassurer que le test est bien execut et que la p-value est trs correcte. Les procdures
Format et Means permettent de raliser cette combinaison, ce qui rsulte en 5 classes
principales. La variable contenant les probabilits thoriques est nomme _TESTP_. Le
code utilis en SAS est le suivant :
proc format;
value nbresinistrefmt low-0 = "<=0" 4-high="4+";
run;
proc meanssumnway data = exp_bin;
class nbresinistre;
var pdfbin;
format nbresinistrenbresinistrefmt.;
output out=exp_binsum=_testp_;
run;
31 | P a g e
On obtient les probabilits suivantes :
df=-1 est spcifi dans PROC Freq pour rduire les degrs de libert du test de 1.
On obtient les rsultats suivants :
Test du Khi-2
pour proportions spcifies
Khi-2 28.2087
DDL 3
Pr > Khi-2 <.0001
32 | P a g e
On obtient pour chaque classe, lcart entre la valeur thorique de la loi binomiale et celle
observe de lchantillon. Lcart le plus important est celui de la classe regroupant les classes
4, 5,6 et 7 (o le pourcentage observ des assurs est de 4.12 % et celui thorique est de
5.99%).
On a obtenu une statistique Chi-2 d de 28.2087 avec 3 degrs de libert. Daprs la table de
2
Chi-2, et pour un seuil de signification de 5% et 3 degrs de libert, on a 1 = 7.815, donc
2
> 1 on considre que l'cart observ est trop important pour tre attribu aux seules
fluctuations d'chantillonnage et qu'il rvle l'inadquation du modle : on rejette alors
lhypothse H0, et on dduit que la distribution ne suit pas une distribution binomiale.
Par ailleurs, la p-value est infrieur 0.0001, et reste infrieure au seuil de signification de 5%,
ce qui appuie que la distribution ne suit pas une distribution binomiale.
La loi de probabilit d'une variable alatoire distribue selon une binomiale ngative de
paramtres n et p, note NegBin(n, p), prend la forme suivante : pour k
+1
(; , ) = ( ) .
On formule notre premire hypothse H0: Lchantillon suit une loi de binomiale ngative
qui, travers le test chi-2 va tre soit garde ou rejete.
33 | P a g e
Comme pour le cas des deux distributions prcdentes, on commence par gnrer les
frquences observes travers le code SAS suivant :
data sin.nombres;
n=7;
do nbresinistre=0 to n;
input freq @@;
output;
end;
datalines;
328 504 378 187 63 18 6 2
;
n nbresinistre freq
1 7 0 328
2 7 1 504
3 7 2 378
4 7 3 187
5 7 4 63
6 7 5 18
7 7 6 6
8 7 7 2
34 | P a g e
On cre une nouvelle data set (ensemble de donnes) qui contient les densits de
probabilit de la loi binomiale ngative calcules pour les diffrentes classes en utilisant la
fonction Pdf.
data exp_nb;
set pred_nb;
do nbresinistre=0 to 7;
pdfnb=pdf("negbin",nbresinistre, 0.2767192737,0.55);
output;
end;
stop;
run;
Pour sassurer que la somme des densits de probabilit de la loi binomiale ngative est
gale 1, on construit une nouvelle variable pdfnew qui contient la probabilit de la
classe 7, qui est gale un moins la somme des probabilits de toutes les classes infrieures
7. Pour ce faire, on utilise le code suivant :
Data exp_nb;
set exp_nb;
pdfnew = pdfnb;
If(nbresinistre=7) then pdfnew=1-pdf("negbin",0,0.27,0.55)-
pdf("negbin",1,0.27,0.55)-pdf("negbin",2,0.27,0.55-
pdf("negbin",3,0.27,0.55)-pdf("negbin",4,0.27,0.55)-
pdf("negbin",5,0.27,0.55)-pdf("negbin",6,0.27,0.55);
drop pdfnb;
renamepdfnew = pdfnb;
run;
35 | P a g e
On calcule les diffrentes frquences thoriques pour chaque classe comme pour le cas
prcdent. En utilisant SAS, on utilise le code suivant:
data exp_nbpp;
set exp_nb;
freq_theo=pdfnb*sum(freq);
run;
Les probabilits et les frquences thoriques des classes 6 et 7 sont trs faibles (frquences
thoriques<5), ce qui ncessite de les regrouper en une seule classe pour se rassurer que le
test soit bien excut et que la p-value soit trs correcte. Les procdures Format et Means
permettent de raliser cette combinaison, ce qui rsulte en 7 classes principales. La variable
contenant les probabilits thoriques est nomme _TESTP_. Le code utilis en SAS est le
suivant:
proc format;
value nbresinistrefmt low-0 = "<=0" 6-high="6+";
run;
36 | P a g e
Les rsultats se reprsentent comme suit :
Finalement, on procde au calcul de la statistique Chi-2. Pour cela, on utilise le code SAS
suivant :
Test du Khi-2
pour proportions spcifies
Khi-2 818.5268
DDL 4
Pr > Khi-2 <.0001
37 | P a g e
Comme les deux modles prcdents, on obtient pour chaque classe, lcart entre la valeur
thorique de la loi binomiale et celle observe de lchantillon. Lcart le plus important est
celui de la deuxime classe (o le pourcentage observ des assurs est de 25.44% et celui
thorique est de 11.06% seulement).
On a obtenu une statistique Chi-2 d de 818.5268 avec 4 degrs de libert. Daprs la table de
2
Chi-2, et pour un seuil de signification de 5% et 4 degrs de libert, on a 1 = 9.488, donc
2
> 1 , on considre encore que l'cart observ est trop important pour tre attribu aux
seules fluctuations d'chantillonnage et qu'il rvle l'inadquation du modle, On rejette alors
H0, et on dduit que la distribution ne suit pas une distribution binomiale ngative.
Par ailleurs, la p-value est infrieur 0.0001, et reste infrieure au seuil de signification de 5%,
ce qui appuie que la distribution ne suit pas une distribution binomiale ngative.
38 | P a g e
Analyse critique :
Lutilisation des mthodes Kolmogorov Smirnov et khi-2 ont pour but de modliser une
distribution et ils atteignent le but vis mais avec des limites, donc la question qui se pose
cest : Est ce quils permettent un "meilleur rejet" ou "acceptation" des hypothses? .
Notre modlisation nous a permis de dduire que la variable qui reprsente le nombre des
sinistres suit bien la loi Poisson, tandis que la variable qui dcrit les montants des sinistres
suit la loi exponentielle. Dailleurs, le fait de choisir un seuil de signification de 5%,
nempche de tomber dans des confusions dans le choix de la loi convenable et dcrivant la
distribution.
Ceci se montre plus particulirement dans le cas de la variable continue, o nous avons
utilis un test de Kolmogorov Smirnov, pour les lois Gamma et Exponentielle. La valeur
seule de ntait pas suffisante pour accepter ou refuser lhypothse. Ceci nous a men
utiliser le coefficient AIC pour prendre la dcision. Pour la loi Weibull, nous lavons
limin vu quaucun rsultat li ce test ntait affich.
Ceci ntait quun ensemble de contraintes, qui peuvent se considrer comme des limites
pour lutilisation du test de Kolmogorov Smirnov dans la modlisation dune distribution
donne.
Concernant le test Chi-2, le fait de prendre la dcision que la variable discrte dcrivant le
montant des sinistres suit bien une loi Poisson, ne pourra pas tre une dcision dfinitive.
Souvent, dans les applications pratiques, la loi de Poisson noffre pas une description trs
adquate du comportement des donnes. Dans ces circonstances, les lois Poisson-mlange
jouent un rle important dans la modlisation du comportement de la frquence.
Enfin, labsence des facteurs explicatifs dans les donnes que nous avons analyses, nous a
permis de faire une modlisation des nombres et montants des sinistres indpendamment
des conditions dans lesquelles un assureur cherche prouver la sinistralit. Une tude qui
doit tre accompagne par des variables explicatifs fin daboutir des rsultats pouvant
dtre source de proposition de dcisions futurs dans le monde des assurances.
39 | P a g e
Exploitation des rsultats pour des dcisions et actions futures :
Le march des assurances reprsente particulirement un monde marqu par une asymtrie
dinformation entre lagent (lassur) et le principal (lassureur). Lvaluation quantitative des
risques financiers courir a toujours reprsent un enjeu majeur pour lanalyse et la gestion
de la sinistralit par les assureurs. En situation danti-slection, lassur dispose dun
avantage informationnel par rapport lassureur avant la conclusion du contrat dassurance.
Cette hypothse danti-slection stipule que les hauts risques ont tendance choisir de plus
fortes couvertures que les bas risques.
La modlisation probabiliste des nombres et des montants des sinistres (il sagit de
modliser les montants par une loi exponentielle et les nombres par une loi de poisson) ne
permettra pas lassureur destimer les risques lis cette asymtrie dinformation. Car, un
modle reste une reprsentation simplifie dune ralit. Il rpond une curiosit thorique
et ne reprsente pas un outil danalyse performant. Cest pour cela quil faut prendre en
considration de nombreux facteurs explicatifs. Ces derniers pourront au mieux aider
lassureur apprhender les risques, laide des renseignements demands au moment de
la souscription du contrat et du suivi du comportement de lassur au niveau de sa
sinistralit. Par ailleurs, ils lui permettront, en construisant des classes de risque, de
segmenter son portefeuille et de hirarchiser ces classes laide dindicateurs de sinistralit,
comme la prime pure.
40 | P a g e
- Priode de couverture : priode, en mois, au cours de laquelle lassur est couvert par
la police quil a souscrit, le plus souvent cette priode tant dune anne.
41 | P a g e
Conclusion :
Nos modles calculs et simuls par le logiciel SAS, ne sont dplorablement pas assez
sophistiqus et puissent tre considrs utiles et performants, ils sont plutt forme de curiosits
thoriques, spcialement que lon manque les facteurs explicatifs de chaque cas qui nous
permettront de bien interprter les rsultats. Il ne faut de mme pas omettre quun modle
doit tre admis avec ses imperfections et limitations car il donne une image idaliste de la
ralit. Les modles doivent tre utiliss de faon souple, sans y croire compltement la
limite. Il reste toujours une composante individuelle comportementale non observe.
Lapproche devant tre ouverte et multiforme, et en ce sens, il ny a pas une mthode pour un
problme.
42 | P a g e
Bibliographie :
http://nte-serveur.univ-
lyon1.fr/immediato/Math/Enseignement/07%20Statistiques/16.%20Test%20de%20Kolmogo
rov-Smirnov/chapitre_16.htm
http://blogs.sas.com/content/iml/2012/04/04/fitting-a-poisson-distribution-to-data-in-
sas.html
http://support.sas.com/kb/47/956.html
43 | P a g e