BigData Avancée-Partie1
BigData Avancée-Partie1
BigData Avancée-Partie1
Avancé
IT Business School
L’Ecosystème du Big Data
▪ Ecrit en Java
▪ Système de stockage
condensée
▪ Versions payantes
▪ Les ETL
▪ Analyse prédictive et Machine Learning
▪ Opérations d’accès aux données (SQL)
▪ Traitement et extraction de texte
▪ Traitement temps réel
▪ Applications graphiques
▪ Réservation CPU
▪ Réservation mémoire
▪ Un exécuteur peut exécuter des milliers de tâches
▪ REPL: Read-Eval-Print Loop: Outil dans Sclala pour évaluer les expressions
Scala
▪ Ligne de commande permettant de faire du « pas à pas »
▪ Parfait pour l’apprentissage et la mise au point
▪ Des classes dont les objets sont immuables (Objet dont l’état ne peut pas être
modifié après sa création)
Scala> case class Book(isbn: String)
Scala> val livre = Book("123-455842611")
Scala> Println(livre)
▪ Pas de new
▪ Comparaison par valeur
Int
Double
String
Char
Byte
BigInt
…..
▪ Une syntaxe compacte pour les Tabeaux, List, Set, Map, etc
• Inférence de type
• Versions mutables et immutables
▪ Un grand choix de fonctions
▪ Consistant sur l’ensemble des collections foreach, map, filter, partition, find,
fold, reduce, etc …
▪ Méthode textFile("/chemin_du_fichier")
// Local
val rdd1 = sc.textFile("/user/myfiles")
// Hadoop
val rdd2 = sc.textFile("hdfs://user/myfiles")
▪ Méthode parallelize(liste)
// création d’une liste en scala
val liste = List("bleu", "rouge", "vert")
val rdd3 = sc.parallelize(liste)