Proses Data Mining Dan Praktik

Unduh sebagai pptx, pdf, atau txt
Unduh sebagai pptx, pdf, atau txt
Anda di halaman 1dari 8

PROSES DATA MINING

DAN PRAKTIK
Estimation
1. Estimation
Atribut N Class N
2. Prediction Association Prediction

Atribut N Class N ada time series


3. Classification
Atribut Nom / Nu Class Nominal
Clustering Classification
4. Clustering
Tanpa label atribut numerik
5. Association
melihat hub antar atribut
Proses Data Mining
Data Preprocessing
• Data Cleaning
Redundant, atribut terlalu banyak
• Data Integration
Relasi Antar table /join
• Data Reduction
Mengurangi record dan atribut
• Data Transformation
Himpunan Data (Dataset)
• Atribut adalah faktor atau parameter yang menyebabkan class/label/target terjadi
• Jenis dataset ada dua: Private dan Public
• Private Dataset: data set dapat diambil dari organisasi yang kita jadikan obyek penelitian
• Bank, Rumah Sakit, Industri, Pabrik, Perusahaan Jasa, etc
• Public Dataset: data set dapat diambil dari repository pubik yang disepakati oleh para peneliti
data mining
• UCI Repository (http://www.ics.uci.edu/~mlearn/MLRepository.html)
• ACM KDD Cup (http://www.sigkdd.org/kddcup/)
• PredictionIO (http://docs.prediction.io/datacollection/sample/)
• Trend penelitian data mining saat ini adalah menguji metode yang dikembangkan oleh
peneliti dengan public dataset, sehingga penelitian dapat bersifat: comparable, repeatable
dan verifiable
Dataset dengan Class
Public Dataset (UCI Repository)
Metode Data Mining
1. Estimation (Estimasi):
Linear Regression (LR), Neural Network (NN), Deep Learning (DL), Support Vector Machine (SVM),
Generalized Linear Model (GLM), dll
2. Forecasting (Prediksi/Peramalan):
Linear Regression (LR), Neural Network (NN), Deep Learning (DL), Support Vector Machine (SVM),
Generalized Linear Model (GLM), dll
3. Classification (Klasifikasi)
Decision Tree (CART, ID3, C4.5, Credal DT, Credal C4.5, Adaptative Credal C4.5), Naive Bayes
(NB), K-Nearest Neighbor (kNN), Linear Discriminant Analysis (LDA), Logistic Regression (LogR),
dll
4. Clustering (Klastering)
K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means (FCM), dll
5. Association (Asosiasi)
FP-Growth, A Priori, Coefficient of Correlation, Chi Square, dll

Anda mungkin juga menyukai