0% found this document useful (0 votes)

60 views22 pages

A Lightweight Continuous Jobs Mechanism For Mapreduce Frameworks

This document proposes a lightweight continuous jobs mechanism for MapReduce frameworks. It presents a model for processing dynamic data using MapReduce with a carry function to save data for future jobs. It describes a non-intrusive implementation of this approach on top of Hadoop that allows automatic re-execution of jobs when new data is detected. Experimental results show the overhead of restarting jobs can be high.

Uploaded by

ubinet

Available Formats

Download as PDF, TXT or read online on Scribd

Download as pdf or txt

0% found this document useful (0 votes)

60 views22 pages

A Lightweight Continuous Jobs Mechanism For Mapreduce Frameworks

Uploaded by

ubinet

Available Formats

Download as PDF, TXT or read online on Scribd

Download as pdf or txt

You are on page 1/ 22

A Lightweight Continuous Jobs Mechanism for

MapReduce Frameworks
Trong-Tuan Vu
INRIA Lille Nord Europe

Fabrice Huet
INRIA-University of Nice

Model

Big Data processing

landscape

Real-time

Iterative

Batch
Data
Static

Dynamic

Stream

Processing Big Data

Model

Batch

Iterative

Hadoop
HOP

HaLoop
Twister
PIC

Real-time

Data
Static

Dynamic (fast
data)
Stream

Amazon S4
Twitter Storm

Batch Processing of Big Data

Canonical workflow
Push data to cluster
Start jobs
Pull results
Profit!

As long as the data set does not change

Dealing with dynamic data

Bulk arrival
Job only submitted once and runs automatically
Slightly changes the workflow
While (new data)
Push, execute, pull, profit!

-5

Continuous Analysis
Time
Foo
Bar

What
Bar

Foo
Bar
What
Bar

Word-Count

Foo 1
Bar 1

What 1
Bar 1

Foo 1
Bar 2
What 1

-6

Properties

Efficiency
Only process new data, not the whole data set

Correctness
Merging all results on intermediate data should give
the same result than processing the whole dataset

-7

Dependencies
Time
Foo
Bar

What
Bar

Word-2

Foo
Bar
What
Bar

Bar

Word-2 : display words which appears at least twice

-8

Not all data are equals

Processing only new data leads to incorrect results

Because some old ones are useful

Different categories
New data
Results
Carried data

-9

Carried data

Data which have been processed

But could be useful in subsequent run

Typically application dependent

Let the programmer decide this

Example Word-2 :
Result : words which appear at least twice
Carry : words which appear once
- 10

Continuous Map-Reduce jobs

Map

Reduce
Carry

- 11

Contribution

A continuous Job model adapted to MapReduce

An implementation on top of Hadoop
An evaluation with two toys application and a
realistic one

- 12

CONTINUOUS HADOOP

- 13

Continuous MapReduce Framework

Based on the Hadoop MapReduce Framework

Support for automatic re-execution of jobs
Notification of new data
Filtering of data by timestamp

New API with carry function

- 14

Even Elephants are fast

No modification to Hadoop source code

Proxies/Interceptors
Subclassing
Reflection (accessing private fields)

Use public API

Hopefully Never play cat and mouse elephant

- 15

Continuous
Job

Continuous
JobTracker

Job

JobTracker

Task

TaskTracker

Continuous
NameNode
NameNode

Data Nodes

Local File System

- 16

Time stamping data

Jobs should process new Data

Only those added after last execution

HDFS has limitations

No in-place modification and no appending

Add time stamp for blocks as metadata in

Continuous NameNode
- 17

API example (Word-2-count)

ContinuousJob job = new ContinuousJob() ;
.
job.setCarryFilesName(carry") ;
protected void continuousReduce(Text key, Iterable<IntWritable> values,
ContinuousContext context) {

if(sum < 2) {
context.carry(key, result);
} else {
context.write(key, result);
}
}

- 18

Application : SPARQL Query

A SQL-like language for the RDF data format
<http://localhost/publications/journals/Journal1/1940> rdf:type bench:Journal
<http://localhost/publications/journals/Journal1/1940> dc:title "Journal 1 (1940)"^^xsd:string
<http://localhost/publications/journals/Journal1/1940> dcterms:issued "1940"^^xsd:integer

SELECT ?yr
WHERE {
?journal rdf:type bench:Journal.
?journal dc:title "Journal 1 (1940)"^^xsd:string.
?journal dcterms:issued ?yr
}

- 19

Continuous SPARQL
Selection Job
Map

Reduce

Join Job

Map

Reduce
Carry

Selection Job
Map

Reduce

Map

Reduce
Carry

- 20

Hundred of seconds

cHadoop

Hadoop

12
10
8
6
4
2
0
20

100

120

140

160

180

(Millions of
RDF triple)

Experiments on 40 nodes
- 21

Conclusion

A model for processing dynamic (fast) data using

MapReduce
Carry allows saving data for future use

An non-intrusive implementation in Hadoop

Automatic restarting of continuous jobs

Latency of restarting jobs is high

- 22

Azure Data Engineer Resume - Hire IT People - We Get IT Done
100% (1)
Azure Data Engineer Resume - Hire IT People - We Get IT Done
4 pages
Homework Labs WithProfessorNotes
33% (3)
Homework Labs WithProfessorNotes
129 pages
Learn HANA in 24 Hours
From Everand
Learn HANA in 24 Hours
Alex Nordeen
5/5 (1)
03 Firstmrjob Invertedindexconstruction 141206231216 Conversion Gate01 PDF
No ratings yet
03 Firstmrjob Invertedindexconstruction 141206231216 Conversion Gate01 PDF
54 pages
Introduction To MapReduce
No ratings yet
Introduction To MapReduce
17 pages
Bda Unit 1
No ratings yet
Bda Unit 1
13 pages
3 Fuel Consumption Example - MR
No ratings yet
3 Fuel Consumption Example - MR
7 pages
Hadoop Map Reduce Concepts - Teaching - 1
No ratings yet
Hadoop Map Reduce Concepts - Teaching - 1
53 pages
Chapter Five Hadoop Mapreduce & HDFS
No ratings yet
Chapter Five Hadoop Mapreduce & HDFS
44 pages
18mcs35e U4
No ratings yet
18mcs35e U4
7 pages
Parlab Parallel Boot Camp Cloud Computing With Mapreduce and Hadoop
No ratings yet
Parlab Parallel Boot Camp Cloud Computing With Mapreduce and Hadoop
49 pages
Unit IV Programming Model
No ratings yet
Unit IV Programming Model
30 pages
Unit-2 (MapReduce-I)
No ratings yet
Unit-2 (MapReduce-I)
28 pages
Hadoop Spark
No ratings yet
Hadoop Spark
34 pages
Prerequisites: Single Node Setup Cluster Setup
No ratings yet
Prerequisites: Single Node Setup Cluster Setup
5 pages
Hadoopintro
No ratings yet
Hadoopintro
31 pages
Hadoop
No ratings yet
Hadoop
34 pages
MapReduce Is A Framework Using Which We Can Write Applications To Process Huge Amounts of Data
No ratings yet
MapReduce Is A Framework Using Which We Can Write Applications To Process Huge Amounts of Data
12 pages
Unit 4 Da
No ratings yet
Unit 4 Da
57 pages
Map Reduce Programming
No ratings yet
Map Reduce Programming
74 pages
Data Mining With Hadoop and Hive Introduction To Architecture
No ratings yet
Data Mining With Hadoop and Hive Introduction To Architecture
39 pages
Lecture 4: Mapreduce and Hadoop: Indranil Gupta (Indy)
No ratings yet
Lecture 4: Mapreduce and Hadoop: Indranil Gupta (Indy)
37 pages
09b - MapReduce
No ratings yet
09b - MapReduce
44 pages
Ch. 4
No ratings yet
Ch. 4
4 pages
Map Reduce
No ratings yet
Map Reduce
42 pages
BSC in Information Technology (Data Science) : Massive or Big Data Processing J.Alosius
No ratings yet
BSC in Information Technology (Data Science) : Massive or Big Data Processing J.Alosius
30 pages
Map Reduce
No ratings yet
Map Reduce
30 pages
2 Hadoop Ecosystem
No ratings yet
2 Hadoop Ecosystem
41 pages
CS702_Big_Data_Programs
No ratings yet
CS702_Big_Data_Programs
58 pages
BDA RepeatedImp Questions
No ratings yet
BDA RepeatedImp Questions
30 pages
Developing A Mapreduce Application: by Dr. K. Venkateswara Rao Professor Department of Cse
No ratings yet
Developing A Mapreduce Application: by Dr. K. Venkateswara Rao Professor Department of Cse
83 pages
DSBDA Manual Assignment 11
No ratings yet
DSBDA Manual Assignment 11
6 pages
Big Data Notes (All Lectures)
No ratings yet
Big Data Notes (All Lectures)
44 pages
Hadoop and MR Programming: DR G Sudha Sadasivam Professor Cse, PSGCT
No ratings yet
Hadoop and MR Programming: DR G Sudha Sadasivam Professor Cse, PSGCT
71 pages
HadoopMapreduce Summerization
No ratings yet
HadoopMapreduce Summerization
24 pages
CS 425 / ECE 428 Distributed Systems Fall 2016: Lecture 4: Mapreduce and Hadoop
No ratings yet
CS 425 / ECE 428 Distributed Systems Fall 2016: Lecture 4: Mapreduce and Hadoop
24 pages
Introduction To Hadoop
No ratings yet
Introduction To Hadoop
37 pages
Introduction To MapReduce
No ratings yet
Introduction To MapReduce
9 pages
Unit 5
No ratings yet
Unit 5
7 pages
Lecture 3 MapReduce Spark
No ratings yet
Lecture 3 MapReduce Spark
62 pages
Hadoop Karunesh
No ratings yet
Hadoop Karunesh
14 pages
3.4 Map Scheduler
No ratings yet
3.4 Map Scheduler
23 pages
Term Paper Java
No ratings yet
Term Paper Java
14 pages
9 Hadoop PDF
No ratings yet
9 Hadoop PDF
59 pages
Unit IV Notes
No ratings yet
Unit IV Notes
25 pages
Unit 2 Topic 4 Map Reduce
No ratings yet
Unit 2 Topic 4 Map Reduce
43 pages
Unit - III Advanced Analytics Technology and Tools
No ratings yet
Unit - III Advanced Analytics Technology and Tools
44 pages
MapReduce Its Applications For Course
No ratings yet
MapReduce Its Applications For Course
36 pages
BDA Unit 3 Notes
No ratings yet
BDA Unit 3 Notes
11 pages
Map Reduce
No ratings yet
Map Reduce
25 pages
04_MapReduce
No ratings yet
04_MapReduce
45 pages
05 Movies Data Analysis Using Mapreduce
No ratings yet
05 Movies Data Analysis Using Mapreduce
20 pages
Notes - Unit 3 - Map Reduce Applications
No ratings yet
Notes - Unit 3 - Map Reduce Applications
11 pages
Unit 5
No ratings yet
Unit 5
35 pages
Mapreduce: Map Phase & Reduce Phase: Each Has Key-Value Pairs As Input and Output
No ratings yet
Mapreduce: Map Phase & Reduce Phase: Each Has Key-Value Pairs As Input and Output
2 pages
Parlab Parallel Boot Camp: Cloud Computing With Mapreduce and Hadoop
No ratings yet
Parlab Parallel Boot Camp: Cloud Computing With Mapreduce and Hadoop
55 pages
1.4 Map Reduce
No ratings yet
1.4 Map Reduce
30 pages
Bda Unit-3
No ratings yet
Bda Unit-3
20 pages
Analyzing The Data With Hadoop
No ratings yet
Analyzing The Data With Hadoop
13 pages
8300 17977 1 PB
No ratings yet
8300 17977 1 PB
19 pages
Hadoop Beginner's Guide
From Everand
Hadoop Beginner's Guide
Garry Turkington
4/5 (7)
Professional Hadoop Solutions
From Everand
Professional Hadoop Solutions
Boris Lublinsky
4/5 (2)
Pyspark Essentials
No ratings yet
Pyspark Essentials
24 pages
Big Data Chapter-I_new
No ratings yet
Big Data Chapter-I_new
49 pages
Emerging Technologies Handout
No ratings yet
Emerging Technologies Handout
64 pages
MapReduce Book Final
No ratings yet
MapReduce Book Final
175 pages
Cloud Computing Lab Manual
No ratings yet
Cloud Computing Lab Manual
79 pages
Mcsl26 See QP Solution 2024
No ratings yet
Mcsl26 See QP Solution 2024
33 pages
Hadoop Distributed File System
No ratings yet
Hadoop Distributed File System
3 pages
Rutuja Sanjeev Haridas
No ratings yet
Rutuja Sanjeev Haridas
3 pages
Resume Yogeshdarji
No ratings yet
Resume Yogeshdarji
1 page
Master of Science in Computer Science: Detailed Curriculum
No ratings yet
Master of Science in Computer Science: Detailed Curriculum
24 pages
Big data unit 3 own
No ratings yet
Big data unit 3 own
20 pages
Ebffiledoc 3513
No ratings yet
Ebffiledoc 3513
54 pages
Cloudera Developer Training Exercise Manual
No ratings yet
Cloudera Developer Training Exercise Manual
131 pages
Hadoop Introduction
No ratings yet
Hadoop Introduction
21 pages
Spark Architecture
No ratings yet
Spark Architecture
7 pages
Software Architect
No ratings yet
Software Architect
1 page
Isilon OneFS 8 1 2 Cloudera For Kerberos Installation Guide
No ratings yet
Isilon OneFS 8 1 2 Cloudera For Kerberos Installation Guide
75 pages
Mobile Cloud Computing Model and Big Data Analysis For Healthcare Applications
No ratings yet
Mobile Cloud Computing Model and Big Data Analysis For Healthcare Applications
10 pages
Mid-Term Exam (30%) PROFESSOR: Oussama Derbel SECTION: 11112
No ratings yet
Mid-Term Exam (30%) PROFESSOR: Oussama Derbel SECTION: 11112
4 pages
M.Tech CC
No ratings yet
M.Tech CC
34 pages
CS8791 Cloud Computing
No ratings yet
CS8791 Cloud Computing
9 pages
Sr. AWS Data Engineer. Resume Nashville, TN - Hire IT People - We Get IT Done
No ratings yet
Sr. AWS Data Engineer. Resume Nashville, TN - Hire IT People - We Get IT Done
10 pages
Bda Unit 5
No ratings yet
Bda Unit 5
29 pages
Rohit
No ratings yet
Rohit
14 pages
Dokumen - Pub Big Data Concepts Technology and Architecture 9781119701828 1 52
No ratings yet
Dokumen - Pub Big Data Concepts Technology and Architecture 9781119701828 1 52
52 pages
MScIT-Sem3 Syllabus
No ratings yet
MScIT-Sem3 Syllabus
10 pages
ccpractical 7
No ratings yet
ccpractical 7
11 pages