Tugas Personal Ke-2 (Minggu 8 / Sesi 13) : Gambar 1. Contoh
Tugas Personal Ke-2 (Minggu 8 / Sesi 13) : Gambar 1. Contoh
Tugas Personal Ke-2 (Minggu 8 / Sesi 13) : Gambar 1. Contoh
Jawab :
Untuk mendapatkan multilevel association rule, perlu terlebih dahulu
dibentuk suatu concept hierarchy tree dari data - data yang ada, seperti
terlihat pada Gambar 1 dan menyusunnya ke dalam sebuah generalized
description table, seperti terlihat pada Tabel
1. Selanjutnya data transaksi yang akan di-mining dirubah / di-
transformasi menjadi encoded transaction table, dimana item - item
yang ada pada sebuah transaksi dikodekan sesuai dengan nilai GID-
nya pada generalized description table [3, 4]. Sebagai contoh, lihat
Tabel 2.
2. Diberikan decision tree, Anda memiliki opsi untuk (a) mengubah decision
tree menjadi aturan dan kemudian memangkas aturan yang dihasilkan,
atau (b) memangkas pohon keputusan dan kemudian mengkonversi tree
yang dipangkas untuk aturan. Keuntungan apa yang dimiliki (a) lebih dari
(b)?
Jawab:
Jawab :
Algoritma k-Nearest Neighbor adalah algoritma supervised learning
dimana hasil dari instance yang baru diklasifikasikan berdasarkan
mayoritas dari kategori k-tetangga terdekat.
Tahapan langkah algoritma k-NN
1. Menentukan parameter k (jumlah tetangga paling dekat)
2. Menghitung kuadrat jarak Euclidian objek terhadap data training yang
diberikan.
3. Mengurutkan hasil no.2 secara ascending (berurutan dari nilai tinggi ke
rendah)
4. Mengumpulkan kategori Y (klasifikasi nearest neighbor berdasarkan
nilai k).
5. Dengan menggunakan kategori nearest neighbor yang paling mayoritas
maka dapat diprediksikan kategori objek.
Jawab :
Jawab :
• DBSCAN Algorithm:
Density-based Spatial Clustering of Applications with Noise (DBSCAN)
adalah algoritma clustering yang biasa digunakan pada data mining dan
machine learning. Berdasarkan suatu set point, DBSCAN
mengelompokkan points yang berdekatan berdasarkan pengukuran jarak
(biasanya jarak Euclidean) dan jumlah point minimum. Point yang berada
pada area kurang padat ditandai sebagai outliers. Algoritma DBSCAN
biasanya digunakan untuk menemukan hubungan dan struktur pada data
yang sulit ditemukan secara manual namun dapat berguna untuk
menemukan pola dan memprediksi tren.
Jawab :
Contoh:
Dataset: 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, 4, 5, 5, 6, 6, 7, 7, 8, 8, 9, 9,
10, 10,,11, 11,12, 12.
Histogram: (Range, Count, Sum)
(91-3, 14,22), (4-6, 6, 30), (7-9, 6, 48), (10-12, 6, 66)
Histogram kedalaman sama:
- Membagi domain dari suatu atribut ke dalam k interval, masing- masing
interval memuat jumlah record yang sama
Jawab :
Perbedaan utama antara metodologi untuk mining heterogenous
information networks dan metode homogenous adalah:
1. Penyebaran informasi melewati nodes dan link yang bersifat
heterogenous. Sama seperti kebanyakan studi analisa jaringan, links
seharusnya digunakan untuk penyebaran informasi pada pekerjaan mining.
Namun, hal yang baru-baru ini dilakukan adalah bagaimana menyebarkan
informasi pada nodes dan links bertipe heterogenous khususnya
bagaimana menghitung skor rangking, kesamaan skor, dan
pengelompokkan dan juga bagaimana menggunakan label class pada
nodes dan links bertipe heterogenous.
2. Pencarian dan mining dengan menjelajahi meta struktur jaringan.
Berbeda dari homogenous information networks dimana objek dan links
diperlakukan seperti tipe yang sama atau seperti nodes atau links tanpa
tipe, information network heterogenous pada model bersifat semi-
structured dan bertipe, dimana nodes dan links disusun berdasarkan suatu
set tipe membentuk sebuah skema jaringan. Skema jaringan menyediakan
meta-structure dari jaringan informasi. Hal tersebut menyediakan
bimbingan bagi pencarian dan mining dari jaringan dan membantu
menganalisa dan mengerti arti semantic dari objek dan hubungan dalam
jaringan.
3. Penjelajahan berbasis user-guided dari jaringan informasi. Pada jaringan
informasi heterogenous , biasanya terdapat sejumlah relasi semantic
diantara berbagai jenis objek, yang membawa arti semantic yang sedikit
berbeda-beda. Kombinasi relasi tertentu atau meta-paths mungkin cocok
dengan aplikasi tertentu untuk user tertentu. Sehingga, biasanya pemilihan
kombinasi relasi yang cocok secara otomatis(meta-path) dengan
pertimbangan yang sesuai untuk pencarian tertentu atau pekerjaan mining
berdasarkan pada panduan user atau feedback lebih disarankan. Ekplorasi
jaringan berbasis user-guided atau feedback-based adalah strategi yang
berguna.
Referensi :
- LN