Welcome to Scribd!

0% found this document useful (0 votes)

103 views

Airbnb

Uploaded by

This document discusses LinkedIn's real-time data pipeline. It describes LinkedIn's data systems in 2010 and the problems with their existing fragmented data flow. The document then outlines LinkedIn's new pipeline which features: (1) a central commit log called Apache Kafka to ingest all data, (2) pushing data cleaning upstream by making activity data part of the domain model, (3) using Kafka to load data to HDFS in near real-time, and (4) ensuring correctness through an audit trail that reconciles message counts. The pipeline ingests over 10 billion messages per day with millisecond-level delivery and provides a robust, scalable solution to LinkedIn's real-time data integration challenges.

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Airbnb

Uploaded by

Ashish Bindal

0% found this document useful (0 votes)

103 views55 pages

Original Description:

data pipeline

Original Title

airbnb

Copyright

Available Formats

PPTX, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Download as pptx, pdf, or txt

0% found this document useful (0 votes)

103 views55 pages

Airbnb

Uploaded by

Ashish Bindal

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Download as pptx, pdf, or txt

Jump to Page

You are on page 1of 55

Search inside document

Building LinkedIns Realtime Data Pipeline

Jay Kreps

What is a data pipeline?

What data is there?

Database data
Activity data
Page Views, Ad Impressions, etc

Messaging
JMS, AMQP, etc

Application and System Metrics

Rrdtool, graphite, etc

Logs
Syslog, log4j, etc

Data Systems at LinkedIn

Search
Social Graph
Recommendations
Live Storage
Hadoop
Data Warehouse
Monitoring Systems

Problem: Data Integration

Point-to-Point Pipelines

Centralized Pipeline

How have companies solved this

problem?

The Enterprise Data

Warehouse

Problems

Data warehouse is a batch system

Central team that cleans all data?
One persons cleaning
Relational mapping is non-trivial

My Experience

LinkedIns Pipeline

LinkedIn Circa 2010

Messaging: ActiveMQ
User Activity: In house log
aggregation
Logging: Splunk
Metrics: JMX => Zenoss
Database data: Databus, custom ETL

2010 User Activity Data

Flow

Problems

Fragility
Multi-hour delay
Coverage
Labor intensive
Slow
Does it work?

Four Ideas
1
2
3
4

Central commit log for all data

Push data cleanliness upstream
O(1) ETL
Evidence-based correctness

Four Ideas
1
2
3
4

Central commit log for all data

Push data cleanliness upstream
O(1) ETL
Evidence-based correctness

What kind of infrastructure is

needed?

Very confused
Messaging (JMS, AMQP, )
Log aggregation
CEP, Streaming

First Attempt:
Dont reinvent the wheel!

Problems With Messaging Systems

Persistence is an afterthought
Ad hoc distribution
Odd semantics
Featuritis

Second Attempt:
Reinvent the wheel!

Idea: Central, Distributed

Commit Log

What is a commit log?

Data Flow

Apache Kafka

Some Terminology
Producers send messages to Brokers
Consumers read messages from
Brokers
Messages are sent to a Topic
Each topic is broken into one or more
ordered partitions of messages

APIs
send(String topic, String key, Message
message)
Iterator<Message>

Distribution

Performance
50MB/sec writes
110MB/sec reads

Performance

Performance Tricks
Batching
Producer
Broker
Consumer

Avoid large in-memory structures

Pagecache friendly

Avoid data copying

sendfile

Batch Compression

Kafka Replication
In 0.8 release
Messages are highly available
No centralized master

Kafka Info
http://incubator.apache.org/k
afka

Usage at LinkedIn
10 billion messages/day
Sustained peak:
172,000 messages/second written
950,000 messages/second read

367 topics
40 real-time consumers
Many ad hoc consumers
10k connections/colo
9.5TB log retained
End-to-end delivery time: 10 seconds (avg)

Datacenters

Four Ideas
1
2
3
4

Central commit log for all data

Push data cleanliness upstream
O(1) ETL
Evidence-based correctness

Problem

Hundreds of message types

Thousands of fields
What do they all mean?
What happens when they change?

Make activity data part of the

domain model

Schema free?

LOADstudentUSINGPigStorage()
AS(name:chararray,age:int,gpa:float)

Schemas
Structure can be exploited
Performance
Size

Compatibility
Need a formal contract

Avro Schema
Avro data definition and schema
Central repository of all schemas
Reader always uses same schema as
writer
Programatic compatibility model

Workflow
1 Check in schema
2 Code review
3 Ship

Four Ideas
1
2
3
4

Central commit log for all data

Push data cleanliness upstream
O(1) ETL
Evidence-based correctness

Hadoop Data Load

Map/Reduce job does data load

One job loads all events
Hive registration done automatically
Schema changes handled
transparently
~5 minute lag on average to HDFS

Four Ideas
1
2
3
4

Central commit log for all data

Push data cleanliness upstream
O(1) ETL
Evidence-based correctness

Does it work?

All messages sent must be delivered

to all consumers (quickly)

Audit Trail
Each producer, broker, and consumer
periodically reports how many
messages it saw
Reconcile these counts every few
minutes
Graph and alert

Audit Trail

Questions?

Hoffer Mdm12 Im 04 Solution Manual Modern Database Management
Document73 pages
Hoffer Mdm12 Im 04 Solution Manual Modern Database Management
Salman Butt
0% (1)
Google Cloud Platform for Data Engineering: From Beginner to Data Engineer using Google Cloud Platform
From Everand
Google Cloud Platform for Data Engineering: From Beginner to Data Engineer using Google Cloud Platform
alasdair gilchrist
Rating: 5 out of 5 stars
5/5 (1)
Capacity Planning For MongoDB
Document36 pages
Capacity Planning For MongoDB
Alvin John Richards
No ratings yet
Big Data & Hadoop Training Material 0 1 PDF
Document168 pages
Big Data & Hadoop Training Material 0 1 PDF
haranadh
50% (2)
Pentaho Data Integration Pentaho Data Integration
Document99 pages
Pentaho Data Integration Pentaho Data Integration
Rugal
No ratings yet
Designing Cloud Data Platforms
From Everand
Designing Cloud Data Platforms
Danil Zburivsky
No ratings yet
Exploring Hadoop Ecosystem (Volume 2): Stream Processing
From Everand
Exploring Hadoop Ecosystem (Volume 2): Stream Processing
Wei Liu
No ratings yet
IPT HSC Notes
Document71 pages
IPT HSC Notes
John Cena
No ratings yet
Great Expectations Vs Apache Griffin v1.2
Document2 pages
Great Expectations Vs Apache Griffin v1.2
kashif
100% (1)
Gavin M. Roy: myYearBook - Com Architecture (Highload++, Moscow, Russia, October 2008)
Document30 pages
Gavin M. Roy: myYearBook - Com Architecture (Highload++, Moscow, Russia, October 2008)
Nikolay Samokhvalov
100% (1)
Facebook Wall Data Using Graph API
Document55 pages
Facebook Wall Data Using Graph API
Cleilson Pereira
No ratings yet
Distributed Nosql Storage For Extreme-Scale System Services
Document45 pages
Distributed Nosql Storage For Extreme-Scale System Services
Balakrishnan.G
No ratings yet
Bigdata Overview PDF
Document98 pages
Bigdata Overview PDF
manindra1konda
No ratings yet
Cloud Compute
Document46 pages
Cloud Compute
Saloni Rakholiya
No ratings yet
Week5 - Internet and Web Based System
Document104 pages
Week5 - Internet and Web Based System
NEXUS OFFICIAL
No ratings yet
Class: CS 237 Distributed Systems Middleware Instructor: Nalini Venkatasubramanian
Document55 pages
Class: CS 237 Distributed Systems Middleware Instructor: Nalini Venkatasubramanian
Pratheesh Kumar
No ratings yet
L1 Course Introduction
Document16 pages
L1 Course Introduction
chinazasomto02
No ratings yet
Data Migration With Informatica: Todd Funasaki Director - Data Integration Solutions
Document23 pages
Data Migration With Informatica: Todd Funasaki Director - Data Integration Solutions
ramme
No ratings yet
Hadoop Important Lecture
Document38 pages
Hadoop Important Lecture
affanabbasi015
No ratings yet
Big Data Unit 1 AKTU Notes
Document87 pages
Big Data Unit 1 AKTU Notes
abhijitraj229
No ratings yet
Timothy G. Griffin: Introduction To Databases
Document20 pages
Timothy G. Griffin: Introduction To Databases
Shikha Yadav
No ratings yet
An Introduction To Hadoop Presentation PDF
Document91 pages
An Introduction To Hadoop Presentation PDF
srinath_vj3326
100% (1)
Data Warehousing: Special Thanks To: Liem Tran, Robert Turan, and Miguel Delgado
Document46 pages
Data Warehousing: Special Thanks To: Liem Tran, Robert Turan, and Miguel Delgado
kadokita17
No ratings yet
A RESTful Pluggable Architecture To Tackle Big Data in The Cloud Slide
Document33 pages
A RESTful Pluggable Architecture To Tackle Big Data in The Cloud Slide
cabirul
No ratings yet
Chubby System and Google API
Document13 pages
Chubby System and Google API
Vivek Jadhav
No ratings yet
The Big Data Ecosystem at LinkedIn Presentation 1
Document33 pages
The Big Data Ecosystem at LinkedIn Presentation 1
Asep Sukmayadi Djaka
No ratings yet
From Internet Data Centers To Data Centers in The Cloud
Document17 pages
From Internet Data Centers To Data Centers in The Cloud
arteepu4
No ratings yet
Beatrice Bernadette
Document6 pages
Beatrice Bernadette
sudheersaid
No ratings yet
Internet 2
Document33 pages
Internet 2
Long Phan Duy
No ratings yet
Chapter 5
Document5 pages
Chapter 5
Niel Franco Balos
No ratings yet
Survey Management System
Document24 pages
Survey Management System
Pŕìñçè ẞaì
No ratings yet
Oracle Data Integration - An Overview With Emphasis in DW App
Document34 pages
Oracle Data Integration - An Overview With Emphasis in DW App
kinan_kazuki104
No ratings yet
Technology Choosing Strategies For Web and Mobile Applications
Document20 pages
Technology Choosing Strategies For Web and Mobile Applications
hsampson2694
No ratings yet
Streaming Ecosystem
Document31 pages
Streaming Ecosystem
Moustapha SY
No ratings yet
Lec 3
Document38 pages
Lec 3
hghauri30
No ratings yet
Introduction To Databases: Week 1
Document15 pages
Introduction To Databases: Week 1
api-66707692
No ratings yet
Big Data Pipelines
Document22 pages
Big Data Pipelines
Geet Sharma
No ratings yet
Digitization Week 3
Document13 pages
Digitization Week 3
Ilion
No ratings yet
INFO-6033 - Module 2 - Architecture Design1
Document62 pages
INFO-6033 - Module 2 - Architecture Design1
anonmax121
No ratings yet
Datafibers: Open Source Big Data Bus
Document19 pages
Datafibers: Open Source Big Data Bus
Will Du
No ratings yet
Informatica Basic Study
Document286 pages
Informatica Basic Study
kris2tmg
No ratings yet
4-2 Bda PPTS
Document114 pages
4-2 Bda PPTS
LOKESWARI G
No ratings yet
Qos-Enabled Middleware Design & Application: Dr. Douglas C. Schmidt
Document18 pages
Qos-Enabled Middleware Design & Application: Dr. Douglas C. Schmidt
farukscan
No ratings yet
File Processing Systems: Billing Program Purchasing Program
Document29 pages
File Processing Systems: Billing Program Purchasing Program
Rajesh Kumar
No ratings yet
10190-Move and Improve With Oracle Analytics Cloud-Presentation - 287
Document69 pages
10190-Move and Improve With Oracle Analytics Cloud-Presentation - 287
hunt4nothing
No ratings yet
Exadata Drive Extreme Performance
Document32 pages
Exadata Drive Extreme Performance
Purna Kuncham
No ratings yet
Concept SQL
Document425 pages
Concept SQL
Sekhar Yadav
No ratings yet
Vineet Gupta - GM - Software Engineering - Directi: Intelligent People. Uncommon Ideas
Document73 pages
Vineet Gupta - GM - Software Engineering - Directi: Intelligent People. Uncommon Ideas
abhinavrohatgi
No ratings yet
Pentaho Data Integration
Document99 pages
Pentaho Data Integration
Rugal
No ratings yet
BDA Unit 2 1
Document42 pages
BDA Unit 2 1
Jerald Ruban
No ratings yet
CS614 - Helping Material
Document7 pages
CS614 - Helping Material
Azhar Khan
No ratings yet
ask.com ppt
Document43 pages
ask.com ppt
Nikhil Manjrekar
No ratings yet
Database
Document48 pages
Database
Noumaan Ul Haq Syed
No ratings yet
Modern Data Architectures with Python: A practical guide to building and deploying data pipelines, data warehouses, and data lakes with Python
From Everand
Modern Data Architectures with Python: A practical guide to building and deploying data pipelines, data warehouses, and data lakes with Python
Brian Lipp
No ratings yet
Microsoft SQL Server 2014 Business Intelligence Development Beginner’s Guide
From Everand
Microsoft SQL Server 2014 Business Intelligence Development Beginner’s Guide
Reza Rad
No ratings yet
Serverless Data Engineering
From Everand
Serverless Data Engineering
Chuck Sherman
No ratings yet
Designing Deep Learning Systems: A software engineer's guide
From Everand
Designing Deep Learning Systems: A software engineer's guide
Chi Wang
No ratings yet
Information Technology HandBook
From Everand
Information Technology HandBook
Duong Tran
Rating: 3 out of 5 stars
3/5 (1)
Elements of Android Room
From Everand
Elements of Android Room
Mark Murphy
No ratings yet
Managing Multimedia and Unstructured Data in the Oracle Database
From Everand
Managing Multimedia and Unstructured Data in the Oracle Database
Marcelle Kratochvil
No ratings yet
The Study of Building the Data Warehouse
From Everand
The Study of Building the Data Warehouse
venkateswara Rao
No ratings yet
Getting Started with DuckDB: A practical guide for accelerating your data science, data analytics, and data engineering workflows
From Everand
Getting Started with DuckDB: A practical guide for accelerating your data science, data analytics, and data engineering workflows
Simon Aubury
No ratings yet
Beginning Apache Spark Using Azure Databricks: Unleashing Large Cluster Analytics in the Cloud
From Everand
Beginning Apache Spark Using Azure Databricks: Unleashing Large Cluster Analytics in the Cloud
Robert Ilijason
No ratings yet
Dice Resume CV Usds
Document6 pages
Dice Resume CV Usds
sandeepntc
No ratings yet
Exam PL 600 Microsoft Power Platform Solution Architect Skills Measured
Document7 pages
Exam PL 600 Microsoft Power Platform Solution Architect Skills Measured
Lucian
No ratings yet
University of Caloocan City Biglang Awa St. Grace Park East, Caloocan City
Document4 pages
University of Caloocan City Biglang Awa St. Grace Park East, Caloocan City
Mike Antolino
No ratings yet
Deepa Gupta PBI - Update
Document8 pages
Deepa Gupta PBI - Update
Raveena
No ratings yet
Concurrency Control Techniques: By, Dr. P. Gayathri Associate Professor Scope VIT University
Document35 pages
Concurrency Control Techniques: By, Dr. P. Gayathri Associate Professor Scope VIT University
Puneeth Puligundla
No ratings yet
MIS Final Exam Notes
Document9 pages
MIS Final Exam Notes
ty
No ratings yet
Certification of Safety-Critical Software Under DO-178C and DO-278A
Document13 pages
Certification of Safety-Critical Software Under DO-178C and DO-278A
Alp Bulent Burc Surmeli
No ratings yet
Backup
Document14 pages
Backup
mulugeta
No ratings yet
Chapter 12
Document71 pages
Chapter 12
Chandu Reddy
No ratings yet
Database System Development Life Circle
Document12 pages
Database System Development Life Circle
royrichy9131
No ratings yet
Ems Guide Book: Electromedic - X86 Friza Servile 03/03/2015
Document30 pages
Ems Guide Book: Electromedic - X86 Friza Servile 03/03/2015
Genesis Hendra
No ratings yet
Cs614 Collection of Old Papers
Document13 pages
Cs614 Collection of Old Papers
cs619finalproject.com
No ratings yet
Or SQL MCQ
Document7 pages
Or SQL MCQ
Akanksha Bokare
No ratings yet
Unit - Iii: ETL: Data Extraction, Transformation, Cleansing, Loading Data Warehouse Information Flows
Document36 pages
Unit - Iii: ETL: Data Extraction, Transformation, Cleansing, Loading Data Warehouse Information Flows
Roronoa Zoldyck
No ratings yet
Normalization of Database Tables
Document59 pages
Normalization of Database Tables
Nagunuri Srinivas
100% (1)
Bba BPM Sem-V, Vi 2018 Course
Document7 pages
Bba BPM Sem-V, Vi 2018 Course
Jagmeet Singh
No ratings yet
Service Design Readiness Assessment
Document26 pages
Service Design Readiness Assessment
October Jualan
No ratings yet
Role
Document12 pages
Role
Techneto Tonic
No ratings yet
Chhattisgarh Institute of Technology, Rajnandgaon Chhattisgarh Institute of Technology, Rajnandgaon
Document3 pages
Chhattisgarh Institute of Technology, Rajnandgaon Chhattisgarh Institute of Technology, Rajnandgaon
Akhilesh Kumar Rajbhar
No ratings yet
Current Log
Document5 pages
Current Log
superthambi
100% (1)
Database Administration & Management
Document16 pages
Database Administration & Management
Farhad Muhammad Riaz
No ratings yet
Kwaku Ansu Gyeabour
Document5 pages
Kwaku Ansu Gyeabour
ashish ojha
No ratings yet
Audit DB Using A New SQL Server Audit Object
Document6 pages
Audit DB Using A New SQL Server Audit Object
Nathnael Mesfin
No ratings yet
Software Architecture and Design Patterns
Document16 pages
Software Architecture and Design Patterns
Hameed Hamdan Hameed Mohammed Alashwal
No ratings yet
SAP Transaction ST03N
Document5 pages
SAP Transaction ST03N
Elena Puscu
No ratings yet
Fraud Examiners Manual: (International Edition) Investigation
Document2 pages
Fraud Examiners Manual: (International Edition) Investigation
Citra
No ratings yet
Basic and Advanced SQL PDF
Document129 pages
Basic and Advanced SQL PDF
zz rot
No ratings yet