0% found this document useful (0 votes)

51 views4 pages

Data Wrangling (Data Preprocessing)

The document discusses data wrangling and preprocessing. It generates three synthetic datasets - a sales dataset with 150 rows, a customer dataset with 200 rows, and an inventory dataset with 200 rows. Each dataset contains randomly generated data along with missing values and outliers introduced. The datasets are exported to CSV files. Next steps mentioned are merging the datasets, checking the structure of the combined data, generating summary statistics, and scanning for missing values. However, the code blocks provided are empty and explanations for each step are missing.

Uploaded by

Siddharth Raul

Available Formats

Download as PDF, TXT or read online on Scribd

Download as pdf or txt

0% found this document useful (0 votes)

51 views4 pages

Data Wrangling (Data Preprocessing)

Uploaded by

Siddharth Raul

Available Formats

Download as PDF, TXT or read online on Scribd

Download as pdf or txt

You are on page 1/ 4

9/18/23, 7:29 PM Data Wrangling (Data Preprocessing)

Data Wrangling (Data Preprocessing) Code

Mid-term assessment
Siddharth Dinkar Raul (s4015125)
18-09-2023

Setup
Hide

# Load the necessary packages required to reproduce the report.

library(tibble)
library(dplyr)
library(lubridate)

Data generation
Hide

file:///C:/Users/SIDDHARTH/Downloads/Data Wrangling 2/Mid-term-Assessment-Rmarkdown-Template.nb.html 1/4

9/18/23, 7:29 PM Data Wrangling (Data Preprocessing)

# Data generation, provide your R codes

# Generating date range

start_date <- as.Date("2023-01-01")
end_date <- as.Date("2023-12-31")
date_range <- seq(start_date, end_date, by = "days")

# Setting the seed

set.seed(285)

# Creating the first dataset ( Sales dataset)

sales_data <- tibble(
date = sample(date_range, 150, replace = TRUE),
product_id = sample(1:200, 150, replace = TRUE),
product_name = as.character(replicate(150, paste(sample(words, 2), collapse = " "))),
quantity_sold = as.numeric(sample(1:20, 150, replace = TRUE)),
price = as.numeric(runif(150, min = 50, max = 500)),
customer_id = as.factor(sample(1:500, 150, replace = TRUE)),
store_id = as.factor(sample(1:5, 150, replace = TRUE)) # Common variable "store_id"
)

# Introducing the missing values in the "price" column (approximately 5%)

sales_data[sample(1:150, 5), "price"] <- NA

# Introducing outliers

sales_data[sample(1:150, 5), "quantity_sold"] <- sales_data[sample(1:150, 5), "quantity_sol

d"] * 10
sales_data[sample(1:150, 5), "price"] <- sales_data[sample(1:150, 5), "price"] * 2

# Exporting to CSV
write.csv(sales_data, "sales_data.csv", row.names = FALSE)

# Creating second dataset ( Customer Dataset)

set.seed(286)

customer_data <- tibble(

customer_id = as.factor(1:200),
customer_name = as.character(replicate(200, paste(sample(LETTERS, 5), collapse = ""))),
email = as.character(paste0(replicate(200, paste(sample(letters, 5), collapse = "")), "@exa
mple.com")),
total_purchases = as.numeric(sample(100:1000, 200, replace = TRUE)),
is_member = as.logical(sample(c(TRUE, FALSE), 200, replace = TRUE, prob = c(0.6, 0.4))),
store_id = as.factor(sample(1:5, 200, replace = TRUE)) # Common variable "store_id"
)

# Introduce missing values in the "email" column (approximately 5%)

customer_data[sample(1:200, 10), "email"] <- NA

# Export to CSV
write.csv(customer_data, "customer_data.csv", row.names = FALSE)

file:///C:/Users/SIDDHARTH/Downloads/Data Wrangling 2/Mid-term-Assessment-Rmarkdown-Template.nb.html 2/4

9/18/23, 7:29 PM Data Wrangling (Data Preprocessing)

# Creating second dataset ( Customer Dataset)

# Create an inventory dataset

set.seed(789)
inventory_data <- tibble(
product_id = as.factor(1:200),
product_name = as.character(replicate(200, paste(sample(words, 2), collapse = " "))),
stock_level = as.numeric(sample(1:100, 200, replace = TRUE)),
supplier = as.character(replicate(200, paste(sample(LETTERS, 3), collapse = ""))),
cost_price = as.numeric(runif(200, min = 50, max = 200)),
selling_price = as.numeric(runif(200, min = 100, max = 500)),
store_id = as.factor(sample(1:5, 200, replace = TRUE)) # Common variable "store_id"
)

# Introduce missing values in the "stock_level" column (approximately 5%)

inventory_data[sample(1:200, 10), "stock_level"] <- NA

# Introduce outliers
inventory_data[sample(1:200, 5), "cost_price"] <- inventory_data[sample(1:200, 5), "cost_pric
e"] * 0.5
inventory_data[sample(1:200, 5), "selling_price"] <- inventory_data[sample(1:200, 5), "sellin
g_price"] * 2

# Export to CSV
write.csv(inventory_data, "inventory_data.csv", row.names = FALSE)

Provide explanations here.

Merging data sets

Hide

# Merge your synthetic data sets, provide R codes here.

Provide explanations here.

Checking structure of combined data

Hide

# Check structure of combined data and perform all necessary data type conversions, provide R
codes here.

Provide explanations here.

Generate summary statistics

Hide

# Generate summary statistics, provide R codes here.

file:///C:/Users/SIDDHARTH/Downloads/Data Wrangling 2/Mid-term-Assessment-Rmarkdown-Template.nb.html 3/4

9/18/23, 7:29 PM Data Wrangling (Data Preprocessing)

Provide explanations here.

Scanning data
Hide

# Scan variables for missing values, provide R codes here.

Provide explanations here.

file:///C:/Users/SIDDHARTH/Downloads/Data Wrangling 2/Mid-term-Assessment-Rmarkdown-Template.nb.html 4/4

Cole Davis - The New Simandl PDF
100% (2)
Cole Davis - The New Simandl PDF
55 pages
6F35 Boletín Técnico
100% (3)
6F35 Boletín Técnico
8 pages
WPS Mig
71% (7)
WPS Mig
3 pages
Assignment 2 PDF
No ratings yet
Assignment 2 PDF
25 pages
LEED Core Concepts
100% (2)
LEED Core Concepts
0 pages
Evolution of The Heron Uav Family
100% (1)
Evolution of The Heron Uav Family
18 pages
Institute of Management Technology, Ghaziabad End Term Exam (Term - VII) Take Home Exam (Time Duration: 2.30 HRS) Batch 2019 - 21 Answer-Sheet
No ratings yet
Institute of Management Technology, Ghaziabad End Term Exam (Term - VII) Take Home Exam (Time Duration: 2.30 HRS) Batch 2019 - 21 Answer-Sheet
18 pages
Working With Data
No ratings yet
Working With Data
38 pages
Financial Informatics: Startup Low-Cost Dataload Challenges and Solutions
100% (1)
Financial Informatics: Startup Low-Cost Dataload Challenges and Solutions
41 pages
code
No ratings yet
code
14 pages
Python Code
No ratings yet
Python Code
7 pages
ADB Lab Bismita
No ratings yet
ADB Lab Bismita
15 pages
Activity 4 CGPA Vs Placement Package Program
No ratings yet
Activity 4 CGPA Vs Placement Package Program
4 pages
RSTUDIO
No ratings yet
RSTUDIO
44 pages
Pyspark_Coding_Interview_Questions
No ratings yet
Pyspark_Coding_Interview_Questions
19 pages
EM622 Data Analysis and Visualization Techniques For Decision-Making
No ratings yet
EM622 Data Analysis and Visualization Techniques For Decision-Making
47 pages
DMPA Codes
No ratings yet
DMPA Codes
16 pages
DP600CodeUsed240514
No ratings yet
DP600CodeUsed240514
27 pages
R Assignment 10
No ratings yet
R Assignment 10
12 pages
R Lab File Deepak
No ratings yet
R Lab File Deepak
27 pages
Solution Manual for Using Multivariate Statistics 7th Edition Barbara G. Tabachnick, Linda S. Fidell - Read Online Or Download Now
100% (3)
Solution Manual for Using Multivariate Statistics 7th Edition Barbara G. Tabachnick, Linda S. Fidell - Read Online Or Download Now
35 pages
Python Pandas
No ratings yet
Python Pandas
3 pages
RSQLML Final Slide 15 June 2019 PDF
No ratings yet
RSQLML Final Slide 15 June 2019 PDF
196 pages
List in R - Create, Select Elements With Example
No ratings yet
List in R - Create, Select Elements With Example
4 pages
Practical Preprocessing and Data Cleaning
No ratings yet
Practical Preprocessing and Data Cleaning
51 pages
03 Data Input Output
No ratings yet
03 Data Input Output
43 pages
Download full Solution Manual for Using Multivariate Statistics 7th Edition Barbara G. Tabachnick, Linda S. Fidell all chapters
100% (8)
Download full Solution Manual for Using Multivariate Statistics 7th Edition Barbara G. Tabachnick, Linda S. Fidell all chapters
43 pages
Statistics and Data Science with R Part -4
No ratings yet
Statistics and Data Science with R Part -4
23 pages
saurabh
No ratings yet
saurabh
22 pages
SQL
No ratings yet
SQL
23 pages
Mysql
No ratings yet
Mysql
63 pages
Streamlit PDF Application Setup All Commands in One Single File
No ratings yet
Streamlit PDF Application Setup All Commands in One Single File
8 pages
Lab0 R Tutorial EHS
No ratings yet
Lab0 R Tutorial EHS
9 pages
Solved WT - DS
No ratings yet
Solved WT - DS
123 pages
Data - Table Tutorial (With 50 Examples) PDF
No ratings yet
Data - Table Tutorial (With 50 Examples) PDF
13 pages
KNN Reccomendation
No ratings yet
KNN Reccomendation
7 pages
Python CSBS Bhavya Lab Manual
No ratings yet
Python CSBS Bhavya Lab Manual
14 pages
Bda Assign
No ratings yet
Bda Assign
15 pages
DA0101EN-Review-Introduction - Jupyter Notebook
No ratings yet
DA0101EN-Review-Introduction - Jupyter Notebook
8 pages
DA0101EN-2-Review-Data-Wrangling - Jupyter Notebook
No ratings yet
DA0101EN-2-Review-Data-Wrangling - Jupyter Notebook
14 pages
AML_code_for_m2
No ratings yet
AML_code_for_m2
7 pages
R Assignment
No ratings yet
R Assignment
8 pages
How To Calculate Oracle DB Performance Parameter
No ratings yet
How To Calculate Oracle DB Performance Parameter
23 pages
RG Inference Code
No ratings yet
RG Inference Code
3 pages
Data Visualization EDA-print
No ratings yet
Data Visualization EDA-print
18 pages
My_own_cheatsheet
No ratings yet
My_own_cheatsheet
13 pages
Syntax For R Stats: Appraisal - Data (Name of Data Sheet) Descriptive
No ratings yet
Syntax For R Stats: Appraisal - Data (Name of Data Sheet) Descriptive
4 pages
Pyspark Commands
No ratings yet
Pyspark Commands
12 pages
ML Assignment 6
No ratings yet
ML Assignment 6
3 pages
Data Science Projects
No ratings yet
Data Science Projects
74 pages
Regression
No ratings yet
Regression
2 pages
L7B PHP and MySQL
No ratings yet
L7B PHP and MySQL
9 pages
SetB
No ratings yet
SetB
7 pages
Big Data - Lab 3
No ratings yet
Big Data - Lab 3
25 pages
Update Result Set
No ratings yet
Update Result Set
2 pages
Week 6 - Data Cleaning
No ratings yet
Week 6 - Data Cleaning
8 pages
2,3. Introduction Pandas & Matplotlib - Copy
No ratings yet
2,3. Introduction Pandas & Matplotlib - Copy
32 pages
Jurus SAKTI!!!!!
No ratings yet
Jurus SAKTI!!!!!
3 pages
Deber 001
No ratings yet
Deber 001
3 pages
ADACLScan
No ratings yet
ADACLScan
253 pages
Replication Device Group
No ratings yet
Replication Device Group
2 pages
DBT Cheat Document
No ratings yet
DBT Cheat Document
15 pages
How to a Developers Guide to 4k: Developer edition, #3
From Everand
How to a Developers Guide to 4k: Developer edition, #3
Xinc Cyberwizard
No ratings yet
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Basic DBA Query v.1: Oracle Database
From Everand
Basic DBA Query v.1: Oracle Database
Oraclesql-plsql
5/5 (1)
MobiLED Ultima 03103 R4 en
No ratings yet
MobiLED Ultima 03103 R4 en
1 page
BG_SR100PL
No ratings yet
BG_SR100PL
4 pages
Makymanu-Cgg3o-Culminating Task Part 2
No ratings yet
Makymanu-Cgg3o-Culminating Task Part 2
11 pages
Ring Car Board II With OCSS Feature Setup Document: Preliminary - AAA30005AAI
No ratings yet
Ring Car Board II With OCSS Feature Setup Document: Preliminary - AAA30005AAI
235 pages
Data-Driven Fraud Detection: Bwanika Najib
No ratings yet
Data-Driven Fraud Detection: Bwanika Najib
34 pages
SAPECC60BPG
No ratings yet
SAPECC60BPG
283 pages
Electrical Library
No ratings yet
Electrical Library
355 pages
HomeTown Spring 2017 All
No ratings yet
HomeTown Spring 2017 All
4 pages
202440446002AF Olalekan
No ratings yet
202440446002AF Olalekan
1 page
Orono Brochure - WhatsApp
No ratings yet
Orono Brochure - WhatsApp
2 pages
Standard-ATS-2020-v2
No ratings yet
Standard-ATS-2020-v2
1 page
BCP Sync Using Rman
No ratings yet
BCP Sync Using Rman
6 pages
03 SAP Installation Slides
No ratings yet
03 SAP Installation Slides
17 pages
CLIFF 2-5mm and 3-5mm Mono and Stereo Jack Sockets
No ratings yet
CLIFF 2-5mm and 3-5mm Mono and Stereo Jack Sockets
2 pages
ABE 315 Rural Electrification
No ratings yet
ABE 315 Rural Electrification
6 pages
Electromagnetic Wave Theory and Applications: Academic and Research Staff
No ratings yet
Electromagnetic Wave Theory and Applications: Academic and Research Staff
12 pages
Piling Works
No ratings yet
Piling Works
14 pages
HF-3 Instruction Manual
No ratings yet
HF-3 Instruction Manual
11 pages
DIY Coil Winder
No ratings yet
DIY Coil Winder
7 pages
Sentiment 1 Assign
No ratings yet
Sentiment 1 Assign
3 pages
Docs 101
No ratings yet
Docs 101
3 pages
B40C Index
100% (1)
B40C Index
17 pages
Catalogo
No ratings yet
Catalogo
43 pages
Operating Signals, Check-List For Possible Faults and Troubleshooting (Ups Safepower Evo Ug..)
No ratings yet
Operating Signals, Check-List For Possible Faults and Troubleshooting (Ups Safepower Evo Ug..)
12 pages
Gregor Czisch Dissertation
100% (2)
Gregor Czisch Dissertation
6 pages