TP Initiation R
TP Initiation R
TP Initiation R
TP : INITIATION À R
----0----
Généralité
Ce TP a pour objectif de vous montrer les commandes de base de R (ouverture, fermeture,
sauvegarde, aide,. . . ) et de vous faire manipuler des tableaux de données (saisie sous R,
importation de fichiers de données,. . . ).
Rentrer des données sous R
Différentes commandes sont disponibles pour saisir des données sous R.
1) Affectation
Un objet peut être créé avec l’opérateur « assigner » ou « affecter » qui s’écrit <- :ou =
>n = 15
>N = 12
Pour vérifier le contenu d’un objet, taper son nom, par exemple pour n :
>n
[1] 15
2) Suite
Si vous souhaitez créer la suite d’entiers de 1 à 12, on peut procéder de la sorte :
>suite = 1 : 12
>suite
[1] 1 2 3 4 5 6 7 8 9 10 11 12
On peut également utiliser la fonction seq, qui crée une suite (séquence) de nombres et
possède trois arguments : from, to et by :
>seq(from = 1, to = 12, by = 1)
[1] 1 2 3 4 5 6 7 8 9 10 11 12
On peut également écrire plus simplement :
>seq(1, 12, 1)
[1] 1 2 3 4 5 6 7 8 9 10 11 12
Vous souhaitez créer un vecteur formé par les éléments d’une suite arithmétique de premier
terme 20, de dernier terme 40 et de raison 5, vous pouvez encore utiliser la fonction seq :
>seq(from = 20, to = 40, by = 5)
[1] 20 25 30 35 40
3) Combinaison ou vecteur
Il est possible de saisir une série de valeurs numériques, caractères ou logiques.
>serie1 = c(1.2, 36, 5.33, -26.5)
>serie1
[1] 1.20 36.00 5.33 -26.50
>serie2 = c("bleu", "vert", "marron")
>serie2
-1-
[1] "bleu" "vert" "marron"
>serie3 = c(T, T, F, F, T)
>serie3
[1] TRUE TRUE FALSE FALSE TRUE
Lors d’une étude statistique, il peut arriver que certaines données ne soient pas disponibles : la
donnée est dite manquante. Pour saisir une donnée manquante, il est conseillé d’utiliser le
symbole
NA (Not Available), quelle que soit la nature de l’objet : numérique, caractère ou logique :
>serie4 = c(1.2, 36, NA, -26.5)
La troisième valeur est manquante.
>serie4
[1] 1.20 36.00 NA -26.50
4) Mode et longueur
Les objets sont caractérisés par deux attributs : le mode et la longueur.
• Le mode est le type des éléments d’un objet. Comme nous venons de le voir, un objet peut
être une valeur numérique, une chaîne de caractères ou une valeur logique.
• La longueur est le nombre d’éléments de l’objet.
Par exemple, si vous saisissez une série d’observations obtenues sur un échantillon sous la
forme d’un vecteur, la longueur de ce vecteur correspondra à la taille de l’échantillon. Pour
connaître le mode et la longueur d’un objet, vous utiliserez les fonctions mode et length :
>mode(serie1)
[1] "numeric"
>mode(serie2)
[1] "character"
>mode(serie3)
[1] "logical"
>length(serie1)
[1] 4
>length(serie2)
[1] 3
>length(serie3)
[1] 5
5) Saisie au clavier d’un jeu de données
En utilisant la fonction scan(), la saisie d’une série de données peut paraître moins fastidieuse.
>jeu1 = scan()
R vous redonne la main et vous pouvez taper les valeurs du jeu de données :
1 : 1.2
2 : 36
3 : 5.33
4 : -26.5
5 : le premier retour-chariot après une chaîne vide met fin à la saisie.
-2-
>jeu1
[1] 1.20 36.00 5.33 -26.50
6) Éléments d’un vecteur
Il est possible de demander l’affichage d’un (ou de plusieurs) élément(s) d’un vecteur en
spécifiant entre crochets, en plus du nom du vecteur, l’indice de l’élément du vecteur. Par
exemple, pour afficher respectivement le troisième élément de serie1 et ses troisième et
quatrième éléments, on utilisera :
>serie1[3]
[1] 5.33
>serie1[3 :4]
[1] 5.33 -26.50
Manipuler des vecteurs
Plusieurs opérations sont possibles sur les vecteurs : concaténation, extraction, calculs, répétition,
légende et tri.
1) Concaténer deux vecteurs
Il est possible de concaténer deux vecteurs (formés de variables de même type) pour en former un
nouveau :
>x = c(2.3, 3.5, 6, 14, 12)
>y = c(3.2, 5, 0.7, 1, 3.5)
>z = c(x, y)
>z
[1] 2.3 3.5 6.0 14.0 12.0 3.2 5.0 0.7 1.0 3.5
2) Extraire des données d’un vecteur
Il est possible d’extraire des données d’un vecteur.
>x[c(2, 5)]
[1] 3.5 12.0
L’utilisation du signe « tiret »permet de supprimer des composantes, par exemple pour supprimer les
2ème et 3ème composantes du vecteur x :
>x[-c(2, 3)]
[1] 2.3 14.0 12.0
Utiliser un vecteur formé de valeurs logiques. Par exemple, pour obtenir un vecteur ne contenant que
les composantes supérieures à 4, vous pouvez utiliser la commande :
>x[x > 4]
[1] 6 14 12
Si vous disposez de deux vecteurs ayant le même nombre de composantes, vous pouvez demander à
afficher les valeurs de l’un pour lesquelles les valeurs de l’autre sont supérieures (ou inférieures) à une
certaine valeur. Par exemple, les vecteurs x et y sont composés de 5 valeurs. Vous pouvez demander à
extraire de y les valeurs de y pour lesquelles x est supérieur à 4 en utilisant la ligne de commandes
suivante :
>y[x > 4]
[1] 0.7 1.0 3.5
3) Faire des calculs sur les composantes d’un vecteur
R peut faire des calculs sur l’ensemble des composantes d’un vecteur :
>20 + x * 5
-3-
[1] 31.5 37.5 50.0 90.0 80.0
>(x + y) / 2
[1] 17.125 20.875 28.250 51.000 46.375
4) Remplacer des données dans un vecteur
Il est possible de remplacer certaines composantes d’un vecteur par de nouvelles valeurs.
Considérons une suite de valeurs numériques :
>x = 1 : 10
Si vous voulez remplacer le 3ème valeur de x par 35, vous utiliserez la ligne de commandes suivante :
>x[3] = 35
puis vous demanderez à R d’afficher le résultat
>x
[1] 1 2 35 4 5 6 7 8 9 10
Si vous voulez remplacer la valeur 1 par la valeur 25, vous utiliserez alors la ligne de commandes
suivante :
>x[x == 1] = 25
puis vous demanderez à R d’afficher le résultat
>x
[1] 25 2 35 4 5 6 7 8 9 10
Si vous voulez remplacer toutes les valeurs supérieures ou égales à 5 par 20, vous utiliserez la ligne de
commandes suivante :
>x[x >= 5] = 20
puis vous demanderez à R d’afficher le résultat
>x
[1] 20 2 20 4 20 20 20 20 20 20
5) Nommer les composantes d’un vecteur
Il est possible de donner un nom à chaque composante d’un vecteur.
Le vecteur notes.Jean contient les notes obtenues par Jean en anglais, informatique et biologie.
• Première façon : vous pouvez utiliser la commande :
>notes.Jean = c(anglais = 12, informatique = 19.5, biologie = 14)
Affichez ensuite le vecteur notes.Jean, on obtient le résultat suivant :
anglais informatique biologie
12.0 19.5 14.0
• Seconde façon : on peut nommer les composantes d’un vecteur en définissant un vecteur formé
de chaînes de caractères puis en utilisant la fonction names :
>matiere = c("anglais", "informatique", "biologie")
>matiere
>note = c(12, 19.5, 14)
>names(note) = matiere
>note
anglais informatique biologie
12.0 19.5 14.0
Remarque 3 : Pour supprimer les noms, on tapera la ligne de commandes :
>names(note) = NULL
Lire des données dans un fichier
Quand les données sont plus volumineuses, il n’est pas très conseillé d’utiliser R comme outil de saisie.
-4-
Dans ce cas, vous pouvez utiliser un éditeur de texte ou un tableur quelconque pour saisir vos données
(Excel par exemple) et le transférer ensuite sous R.
Il est nécessaire d’indiquer au logiciel R l’endroit où sont stockés les fichiers de données. Ceci peut être
fait soit à chaque chargement de fichier soit pour la durée de chaque utilisation du logiciel.
Pour connaître le répertoire de travail actuellement utilisé par R, qui est par défaut le répertoire où le
logiciel est installé, il suffit de taper l’instruction suivante :
>getwd()
Pour changer le répertoire de travail par défaut, pour la durée de la session R, pour par exemple le
répertoire "/Users/dahirouwane", il suffit de taper :
>setwd("/Users/dahirouwane")
ou de manière équivalente
>setwd("/Users/dahirouwane")
-5-
Fichiers scripts
Il est souvent plus pratique de composer le code R dans une fenêtre spécifique du logiciel : la fenêtre de
script. Les entrées Nouveau script et Ouvrir un script permettent de créer un nouveau script de
commandes R ou d’accéder à un ancien script sauvegardé lors d’une session précédente d’utilisation du
logiciel.
Pour exécuter des instructions à partir de la fenêtre de script, il suffit de procéder par copier-coller ou
de se servir de raccourci clavier « ctrl+R ».
Pour sauvegarder un script, il suffit, lorsque la fenêtre de script est active, de sélectionner l’entrée Sauver
du menu Fichier.
Exercice 1
1) Créer le vecteur x = (101; 102; : : : ; 112).
2) Créer un vecteur de longueur 12 formé de 4 fois la suite de nombres (4; 6; 3).
3) Créer un vecteur composé de huit 4, de sept 6 et de cinq 3.
Exercice 2
1) Saisir la variable poids contenant les 15 valeurs suivantes : 28 ; 27:5 ; 27 ; 28 ; 30:5 ; 30 ; 31 ; 29:5 ;
30 ; 31 ; 31 ; 31:5 ; 32 ; 30 ; 30:5
2) Saisir la variable poids1 contenant les 5 valeurs suivantes : 40 ; 39 ; 41 ; 37:5 ; 43
3) Sans refaire de saisie, créer la variable nouveau.poids contenant 20 valeurs (les 5 valeurs de poids1
répétées 2 fois et les 10 dernières valeurs de poids).
La question peut être comprise de deux manières différentes :
4) Enregistrer dans votre répertoire de travail la variable nouveau.poids dans une feuille nommée «
Nouveau Poids » du classeur Excel « Poids.xls ».
Exercice 3
1) Créer le vecteur nom contenant les noms de 10 personnes.
2) Créer le vecteur age contenant l’âge des 10 personnes précédentes (entre 20 et 60 ans). Les noms
des personnes seront utilisés comme légende pour le vecteur age.
3) Créer le vecteur poids contenant le poids des 10 personnes (entre 50 et 100 kg) en utilisant à nouveau
le nom des personnes comme légende pour ce vecteur.
4) Même chose pour le vecteur taille contenant la taille des 10 personnes.
5) Créer le vecteur poids.lourds contenant le poids des personnes de plus de 80 kg.
6) Créer le vecteur taille.poids.lourds contenant la taille des personnes de plus de 80 kg.
7) Créer le vecteur taille.vieux.poids.lourds contenant la taille des personnes de plus de 80 kg et âgées
de plus de 30 ans. Pour répondre à cette question, vous pourrez utiliser le connecteur logique ET dont
la syntaxe est donnée dans l’aide sur opérateurs logiques accessible en tapant l’instruction ?
-6-
Exercice 5 : jet de dé
Mettre en place une fonction sur R qui permet de calculer la probabilité d’obtenir « la face 4 » pour n
simulations d’un lancer de dé équilibrée à 6 faces.
Simuler cette distribution pour n = 100, 500, 1000, 2000, 5000, 10000 et 20000.
Représenter graphiquement sous forme de diagramme en barre chacune de ces simulations puis tracer
la courbe de cette probabilité en fonction de n. Conclure.
Calculer et tracer la fonction de répartition F.
Exercice 6 : jet de dé
Simuler la somme des valeurs des faces obtenues en lançant 2 dés à 6 faces équilibrées.
L'expérience consiste à lancer deux dés à 6 faces équilibrées et à faire la sommes S des "valeurs"
obtenues.
Il s'agit alors de déterminer la distribution simulée de S, et d'en déduire une estimation de la probabilité
d'obtenir la somme 7.
Représenter l’histogramme des résultats de la simulation.
Prenons n (nombre de simulations) = 1000, 5000, 10000 et 20000.
Calculer et tracer la fonction de répartition F.
-7-