Pertemuan Ke 2 Data Mining

Unduh sebagai pptx, pdf, atau txt
Unduh sebagai pptx, pdf, atau txt
Anda di halaman 1dari 24

Konsep Data Mining

Definisi dan Latar Belakang Data Mining


Tahapan – Tahapan Proses Data Mining
oleh:
Dr.Eng. Wilem Musu, S.Kom., MT.
Sahlan Natsir, S.Kom., MT.
Memahami Data Mining
• Data mining adalah sebuah aktivitas mengumpulkan, membersihkan
memproses, menganalisa dan mendapatkan pengetahuan dari data.
• Era teknologi informasi melahirkan masyarakat informasi yang
memproduksi data dalam jumlah besar dan meningkatnya kebutuhan
manusia akan pengetahuan maka lahirlah Data mining.

Data
Data dihasilkan
dalam jumlah besar
dan beragam.
•Astronomi
•Bisnis
•Kedokteran
•Ekonomi
•Olahraga
•Cuaca
•Financial
•dll.
Pertumbuhan Data
Problem

Solution

Data Mining

Rich data and information but searching for knowledge (interesting patterns) in data
Poor knowledge
Data Mining is….
• Knowledge mining from data
• Knowledge extraction from data
• Data/Pattern analysis
• Data archaeology
• Data dredging
• Knowledge Discovery from Data (KDD)
Data mining
as a step in
the process of
knowledge
discovery.
The Knowledge Discovery Process
1. Data cleaning (membersihkan noise and inconsistent data)
2. Data integration (mengintegrasikan data yang berasal dari berbagai sumber)
3. Data selection (memilih data yang relevan untuk di analisis)
4. Data transformation (mentransformasi dan konsolidasi data kedalam dataset
sesuai dengan kebutuhan mining)
5. Data mining (proses essential dimana metode-metode intelligent diterapkan
untuk mengekstrak pola data)
6. Pattern evaluation (mengidentifikasi kebenaran pola yang merepresentasikan
pengetahuan)
7. Knowledge presentation (mem-visualisasikan dan merepresentasikan
pengetahuan kepada user sebagai hasil dari proses mining)
Data noise

Data inconsistent
Memahami
perbedaan
antara
Information
dan
Knowledge
Jenis-jenis data yang dapat di-mining
• Semua jenis data dapat di-mining sepanjang bermakna terhadap
tujuan yang ingin di capai.
• Bentuk paling dasar dari data yang akan di-mining adalah DBMS, Data
Warehouse, Data Transactional.
• Data mining juga dapat diaplikasikan pada bentuk dan jenis data
streams, data ordered/sequential, data graph atau networked, data
spatial, data text, multimedia dan WWW.
Bentuk data paling dasar:
• Database Management System (DBMS): terdiri dari kumpulan
interrelated data, kumpulan table relasional yang memiliki atribut dan
dalam jumlah yang besar

Dataset
Bentuk data paling dasar:
• Data Warehouse: struktur data multidimensional (data cube), dimana
setiap dimensi merupakan sebuah attribute atau set dari attribute.
Bentuk data paling dasar:
• Data Transactional: database yang merekam transaksi seperti data pembelian
pelanggan, booking tiket pesawat terbang, dll…
Jenis-jenis Pola yang dapat di-mining
Associations: adalah teknik data mining untuk
menemukan aturan assosiatif antara suatu Classification: merupakan teknik dalam data
kombinasi item. Contoh aturan assosiatif dari mining untuk mengelompokkan data berdasarkan
analisa pembelian di suatu pasar swalayan keterikatan data terhadap data sampel.
adalah dapat diketahuinya berapa besar
kemungkinan seorang pelanggan membeli roti
bersamaan dengan susu.
Contoh Dataset Association Contoh Dataset Classification
Jenis-jenis Pola yang dapat di-mining
Clustering: merupakan proses partisi satu
set objek data ke dalam himpunan bagian
yang disebut dengan cluster.
Data mining
adopts
techniques from
many domains.
Statistics
• Ilmu yang mempelajari tentang pengumpulan, analisis, interpretasi/penjelasan,
dan mempresentasikan data. Data mining mempunyai koneksi yang erat dengan
statistics.
• Statistical model adalah outcome dari kerja data mining: Sebuah statistics model
adalah sebuah himpunan fungsi matematika yang menjelaskan tentang
sifat/karakter suatu objek dalam sebuah target kelas dari variable acak. Statistical
model menggunakan data model dan data class, sama halnya dengan data
mining.
• Statistical methods dapat bahkan sering digunakan untuk mem-verifikasi/menguji
hasil dari data mining.
Machine Learning
• Sebuah metode/pendekatan yang menginvestigasi bagaimana komputer dapat
belajar atau meningkatkan kinerja berdasarkan data.
• Computer programs to automatically learn to recognize complex patterns and
make intelligent decisions based on data.
• Supervised learning is basically a synonym for classification. The supervision in
the learning comes from the labeled examples in the training data set.
• Unsupervised learning is essentially a synonym for clustering. The learning
process is unsupervised since the input examples are not class labeled. Typically,
we may use clustering to discover classes within the data.
• Semi-supervised learning is a class of machine learning techniques that make use
of both labeled and unlabeled examples when learning a model. In one approach,
labeled examples are used to learn class models and unlabeled examples are
used to refine the boundaries between classes.
Data Mining Phases/Steps
Step 1 - Define the problem
• Identify business goals: Setiap bisnis mempunyai target capaian yang berbeda-
beda. Contoh; Marketing (meningkatkan penjualan, meningkatkan kepuasaan
pelanggan), Finance, Manufacturing, Health Care, dll…
• Identify data mining goals:
a. Prediction: Bagaimana mengukur keadaan yang akan terjadi dimasa yang akan
datang. Contoh; bagaimana kondisi pasar penjualan mobil bekas di masa
pandemic Covid-19.
b. Identification: Mengindentifikasi pola yang terjadi dalam data. Contoh;
kecenderungan orang membelanjakan uang lebih di masa pandemik.
c. Classification: Mempartisi data ke dalam group tertentu. Contoh;
mengklasifikasikan pelanggan dari kebiasaan berbelanja.
d. Optimization: Mengoptimasi penggunaan suberdaya seperti waktu, ruang, biaya,
atau material. Contoh; bagaimana melakukan optimasi terhadap biaya promosi
yang terbatas untuk memperoleh maksimal profits.
Step 1 - Define the problem
• Type of knowledge discovered during data mining:
a. Association rules: setiap pembelian handphone baru, pembeli juga
membeli anti gores.
b. Classification hierarchies: Perusahaan reksa dana di Indonesia 10
tahun terakhir diklasifikasikan kedalam 3 kategori: growth, income
and stable.
c. Sequence patterns: Pola berantai yang terjadi selama periode tertentu.
d. Patterns within time series: Behavior harga barang pada kurun waktu
tertentu.
e. Detection of Similarity, or segmentation: kemiripan data kesehatan
pada kelompok orang.
Step 2 - Identify required data
• Assess needed data:
• Collect and understanding data:

Dilanjutkan pada pertemuan berikut…..

Anda mungkin juga menyukai