SPK 2
SPK 2
SPK 2
oleh
11.51.013
STMIK DENPASAR
2012
i
DAFTAR ISI
BAB I PENDAHULUAN
2.4 K-Means........................................................................................................8
BAB IV PENUTUP
4.2. Saran..........................................................................................................15
DAFTAR PUSTAKA
ii
BAB 1
PENDAHULUAN
1
muncul bersamaan (co-occur) dalam frekuensi yang sering, dan membentuk sejumlah
kaidah dari kumpulan-kumpulan tersebut. Contoh, 90% dari orang yang berbelanja di suatu
supermarket yang membeli roti juga membeli selai, dan 60% dari semua orang yang
berbelanja membeli keduanyaAlgoritma Fuzzy C-Means Clustering merupakan algoritma
supervised clustering (jumlah cluster ditentukan). FCM memiliki tingkat akurasi yang
tinggi dan waktu komputasi yang cepat. Jika jumlah cluster tidak ditentukan, maka dapat
digunakan algoritma Fuzzy Subtractive Clustering, yang termasuk algoritma unsupervised
clustering ).
1.3 Tujuan
2
1.4 Manfaat
3
BAB II
TINJAUAN PUSTAKA
Data mining muncul di saat analisis data menjadi sangat komplek dalam
memajukan manajemen bisnis, dimana data mining dapat membantu penggunanya
untuk mengetahui pola dan keteraturan alam himpunan data yang sifatnya tersembunyi.
Data mining diartikan sebagai proses ekstraksi informasi yang berguna dan
potensial dari sekumpulan data yang terdapat secara implisit dalam suatu bisnis data.
Terdapat banyak istilah dari data mining yang dikenal luas seperti Knowledge Mining
From Database, Knowledge Extraction, Data Archeology, Data Dredging dan
lain sebagainya.
Penggalian kaidah asosiasi adalah salah satu teknik data mining untuk
menemukan kaidah asosias antara suatu kombinasi item. Sebagai contoh berdasarkan
basisdata penjualan dari sebuah pasar swalayan, dimana record menggambarkan transaksi
pembelian yang dilakukan oleh para pelanggan dan atribut-atributnya menggambarkan
barang-barang yang disediakan atau dijual. Dari kaidah asosisasi yang diperoleh dari
analisa pembeliannya dapat diketahui seberapa besar kemungkinan seorang pelanggan
membeli roti bersamaan dengan susu. Misalnya terdapat kaidah asosiasi {roti, mentega}
{susu}, dengan nilai support nya 40% dan nilai confidence-nya 50%. Artinya bahwa
seorang pelanggan yang membeli roti dan mentega mempunyai kemungkinan 50%
untuk juga membeli susu. Aturan ini cukup signifikan karena mewakili 40% dari
catatan transaksi selama ini. Dengan pengetahuan tersebut pengelola pasar swalayan
dapat mengatur untuk promosi pemasaran dengan menggunakan kupon diskon untuk
beberapa kombinasi barang tertentu, peletakan barang dan lain-lain. Terdapat banyak
daerah aplikasi untuk teknik-teknik penggalian kaidah asosiasi, termasuk rancangan
katalog, rancangan toko, pembagian pelanggan, diagnosa alarm telekomunikasi dan lain
sebagainya.
4
Dalam menentukan suatu kaidah asosiasi, terdapat suatu interestingness measure
(ukuran kepercayaan) yang didapatkan dari hasil pengolahan data dengan perhitungan
tertentu. Umumnya ada dua ukuran, yaitu:
1. Support: suatu ukuran yang menunjukkan seberapa besar tingkat dominasi suatu
item/itemset dari keseluruhan transaksi.Ukuran ini akan menentukan apakah suatu
item/itemset layak untuk dicari confidence-nya (misal, dari seluruh transaksi yang ada,
seberapa besar tingkat dominasi yang menunjukkan bahwa item A dan B dibeli
bersamaan) dapat jugadigunakan untuk mencari tingkat dominasi item tunggal.
2. Confidence: suatu ukuran yang menunjukkan hubungan antar 2 item secara
conditional (misal, seberapa sering item B dibeli jika orang membeli item A). Sebuah
kaidah asosiasi adalah sebuah implikasi A B, dimana sekumpulan item A dan B
tidak saling beririsan (intersect). Masing-masing kaida asosiasi mempunyai dua
kualitas pengukuran yaitu support dan confidence yang didefinisikan sebagai berikut:
Support :
supp(A ∪ B) = prob {A ∪ B} (1)
Confidence:
conf( A∪B) = supp{ A ∪ B}/ supp{ A} (2)
Kedua ukuran ini nantinya akan berguna dalam menentukan interestingness kaidah
asosiasi, yaitu untuk dibandingkan dengan threshold (batasan) yang ditentukan. Batasan
tersebut umumnya terdiri dari min_support dan min_confidence.Kedua ukuran ini
nantinya akan berguna dalam menentukan interestingness kaidah asosiasi, yaitu untuk
dibandingkan dengan threshold (batasan) yang ditentukan. Batasan tersebut umumnya
terdiri dari min_support dan min_confidence. Metodologi dasar penggalian asosiasi
terbagi menjadi dua tahap meliputi:
1. Frequent itemset generation. Pada tahapan ini dilakukan pencaria kombinasi item
yang memenuhi syarat minimum dari nilai support dalam basisdata.
2. Rule Generation.Setelah semua kaidah frekuensi tinggi ditemukan, selanjutnya
mencari turunan asosiasi yang memenuhi syarat minimum confidence dengan
menghitung confidence asosiasi A ∪ B dari support kaidah frekuensi tinggi A
dan B dengan menggunakan rumus (2).
Terdapat dua proses utama yang dilakukan pada algoritma Apriori meliputi:
1. Join (penggabungan). Untuk menemukan Lk, Ck dibangkitkan dengan melakukan
proses join Lk-1 dengan dirinya sendiri, Ck = Lk-1*Lk-1, kemudian Ck diambil hanya
5
yang terdapat dalam Lk-1.Untuk menemukan Lk, Ck dibangkitkan dengan
melakukan proses join Lk-1 dengan sendirinya
2. Prune (pemangkasan).Menghilangkan anggota Ck yang memiliki support count l;
lebih kecil dari min support supaya tidak dimasukkan ke Lk
Tahapan yang dilakukan algoritma apriori untuk membangkitkan large itemset adalah:
1. Menelusuri seluruh record pada basis data transaksi dan menghitung support count
dari tiap item.
2. Large 1 itemset L1 dibangun dengan menyaring C1 dengan support count yang
lebih besar atau sama dengan min support untuk dimasukkan ke dalam L1.
3. Untuk membangun L2 algoritma apriori menggunakan proses join untuk
menghasilkan C2.
4. Dari C2, itemset yang memiliki support count lebih besar atau sama dengan min
support akan disimpan dalam L2.
5. Proses ini diulang sampai tidak ada lagi kemungkinan k-itemset.
6
sebuah kaidah dan mencoba untukmenentukan kemampuan memahami dari kaidah
kaidah tersebut. Untuk menghitung nilai Comprehensibility sebuah rule
digunakan Persamaan (3).
Clustering merupakan salah satu metode data mining yang bersifat tanpa arahan
(unsupervised). Clustering data adalah proses dari pengelompokkan data berdasarkan
similaritas atau kesamaan antara data. Similaritas clustering dapat diaplikasikan untuk
beberapa bidang, misalnya di bidang penelitian pasar, clustering digunakan untuk membagi
populasi umum dari konsumen-konsumen ke dalam segmen pasar, pembagian pasar dan
menentukan sasaran pasarnya.
7
Sampling adalah proses pemilihan unsurunsur (item-item) yang mewakili suatu populasi
(seluruh unsur/item yang ada) secara sistematis dengan tujuan mempelajari unsur/item
tersebut. Pada penelitian ini digunakan sampling berbasis klaster, dimana teknik clustering
yang digunakan adalah algoritma K-Means dan Fuzzy C Means.
2.4 K-Means
Algoritma K-Means merupakan metode yang umum digunakan pada teknik
clustering. Menurut Mac Queen [5], K-Mean adalah salah satu algoritma unsupervised
learning yang paling sederhana yang dikenal dapatmenyelesaikan permasalahan clustering
dengan baik. Ide utamanya adalah mendefinisikan centroid sejumlah k, untuk masing-
masing klaster. Centroid ini harus diletakkan dengan cara yang cerdik pada satu tempat,
karena lokasi yang berbeda akan menyebabkan hasil yang berbeda pula. Maka sebaiknya
meletakkan sebisa mungkin berjauhan satu dengan yang lain. Langkah berikutnya adalah
mengambil masing-masing titik kepunyaan sekumpulan data tertentu dan
menghubungkannya ke centroid yang terdekat. Ketika tidak ada lagi titik yang belum
dihubungkan, maka langkah pertama terlengkapi dan satu pengelompokan awal telah
dilakukan. Dalam posisi ini perlu dihitung kembali k centroid-centroid baru sebagai
barycenters dari hasil klaster-klaster pada langkah sebelumnya. Setelah mempunyai
centroid baru, satu keterikatan harus dilakukan antara titik-titik sekumpulan data yang
sama dengan centroid yang baru. Satu pengulangan telah dilakukan, sebagai hasil dari
pengulangan ini terlihat bahwa k centroid mengubah lokasi mereka secara bertahap sampai
tidak ada lagi perubahan yang dilakukan. Dengan kata lain centroid tidak bergerak/berubah
lagi.
8
weighting exponent dari membership function. Variabel ini dapat mengubah besaran
pengaruh dari membership function iku dalam proses clustering. Variabel m mempunyai
wilayah nilai m > 1 ,sampaipada saat ini tidak ada ketentuan yang jelas berapa besar nilai
m yang optimal dalam melakukan optimasi suatu permasalahan clustering. Nilai m yang
umum digunakan adalah 2. membership function untuk suatu data ke suatu cluster tertentu
dihitung menggunakan Persamaan (6).
BAB III
9
METODE PENELITIAN
3.1 Rancangan Sistem
Langkah-langkah yang dilakukan di dalam penelitian ini meliputi Perancangan
algoritma, Implementasi algoritma, Uji coba, Evaluasi. Adapun diagram blok dari sistem
ditunjukkan pada Gambar 2. Terdapat dua proses utama dalam sistem yaitu proses
clustering dan proses penggalian kaidah asosiasi. Data transaksi yang berasal dari data
warehouse akan melalui proses klasterisasi terlebih dahulu sebelum dilakukan proses
penggalian kaidah asosiasinya. Dalam perancangan algoritma, terdapat dua proses utama
yaitu proses klasterisasi data input dan proses penggalian kaidah asosiasi multi obyektif.
Dari proses klasterisasi akan diperoleh data sampel yang sudah dikelompokkelompokkan,
yang selanjutnya digunakan sebagai data input untuk proses penggalian kaidah asosiasi. Di
dalam penelitian ini digunakan dua metode clustering yaitu KMeans dan Fuzzy C Means,
flowchart dari masing-masing metode tersebut berturut-turut ditunjukkan pada Gambar 3
dan Gambar 4. Tahapan yang dilakukan dalam melakukan clustering dengan metode K-
Means adalah pertama dipilih k record secara random sebagai centroid atau pusat cluster
untuk masingmasing k cluster. Selanjutnya menghitung jarak dari masing-masing record
dengan record yang lain dengan menggunakan Persamaan (5). Dengan menggunakan jarak
tersebut, selanjutnya adalah menentukan record ri ke sebuah cluster, sedemikian sehingga
jarak ri dan centroid cluster adalah terkecil di antara cluster yang lain. Berikutnya adalah
menghitung kembali nilai rata-rata dari centroid untuk masing-masing cluster
berdasarkan record yang menjadi anggota dari cluster tersebut. Adapun untuk menghitung
nilai rata-rata centroid digunakan Persamaan (7). Proses tersebut diulangi sampai nilai
ratarata dari masing-masing centroid tidak berubah atau mendekati tetap.
(7)
10
Dimana Ni adalah jumlah data yang menjadi anggota cluster i.
11
Adapun tahapan yang dilakukan untuk melakukan proses clustering dengan
menggunakan metode Fuzzy C Means adalah pertama dimulai dengan menentukan jumlah
12
cluster yang diinginkan, menentukan nilai m (weighting exponent) dan menentukan nilai €
(threshold). Selanjutnya menghitung nilai membership masing-masing titik dari data
dengan menggunakan Persamaan (6). Dilanjutkan dengan menghitung nilai pusat centroid,
nilai ini diperoleh dengan menggunakan Persamaan (7). Nilai dari semua titik diperbaiki
berdasarkan dari nilai pusat centroid yang baru. Penghitungan nilai pusat centroid dengan
nilai membership dilakukan sampai nilai membership lebih kecil dari nilai € (threshold)
yang telah ditentukan diawal. Penggalian kaidah asosiasi dilakukan dengan menggunakan
Algoritma Apriori, yang merupakan algoritma yang umum digunakan dalam penggalian
kaidah asosiasi. Untuk penggalian kaidah asosiasi obyektif tunggal hanya digunakan
pengukuran support count saja. Sedangkan untuk penggalian kaidah asosiasi multi obyektif
digunakan tiga pengukuran yaitu nilai support count, comprehensibility dan
interestingness.
3.2 Hasil dan pembahasan
Pembelian dari sebuah supermarket. Satu record paling sedikit memuat satu item
pembelanjaan. Item-item dikonversikan ke dalam angka-angka yang menunjukkan kode
barang yang dibeli pelanggan. Dataset tersebut selanjutnya dilakukan clustering dengan
menggunakan metode K-Means dan Fuzzy C Means dengan jumlah cluster 2, 3, 4 dan 5.
Berikutnya adalah melakukan proses penggalian kaidah asosiasi untuk dataset yang tidak
di-cluster dan data yang di-cluster. Untuk uji coba ditentukan nilai minimum support
adalah 20, 40 dan 60 dan nilai minimum confidence 60% dan 75%. Hasil uji coba dengan
nilai minimum support 20, 40 dan 60 ditunjukkan berturut-turut pada Tabel 1, Tabel 2 dan
Tabel 3. Pada Tabel 1 dan Tabel 2 ditunjukkan bahwa nilai rata-rata dari data yang di-
cluster, dengan menggunakan K-Means dan Fuzzy C Means, menghasilkan nilai rata-rata
confidence yang lebih besar dibandingkan dengan data yang tidak di-cluster. Hal ini
menunjukkan bahwa proses clustering akan menghasilkan kaidahkaidah asosiasi dengan
kualitas yang lebih baik. Pada tabel yang sama menunjukkan bahwa nilai rata-rata
confidence yang dihasilkan dari penggalian kaidah asosiasi multi obyektif dengan
menggunakan metode clustering KMeans akan menghasilkan kaidah-kaidah dengan nilai
rata-rata confidence yang lebih besar pada jumlah cluster yang sama dibandingkan jika
menggunakan metode Fuzzy C Means. Nilai support yang dianjurkan untuk digunakan
adalah 20 dan 40, karena akan menghasilkan nilai confidence yang lebih besar
dibandingkan dengan nilai support 60 seperti yang ditunjukkan pada Tabel 3, dimana nilai
rata-rata confidence data yang tidak ter-cluster lebih besar dibandingkan dengan data yang
tercluster, baik dengan metode K-Means maupun Fuzzy C Means. Sesuai dengan tujuan
13
penelitian ini yaitu membandingkan hasil penggalian kaidah asosiasi multi obyektif,
dengan menggunakan sampel yang dilakukan proses clustering terlebih dahulu akan
menghasilkan kaidah-kaidah asosiasi yang lebih baik, hal ini ditunjukkan dengan nilai rata-
rata yang diperoleh mempunyai nilai yang lebih besar dibandingkan data yang tidak
melalui proses clustering terlebih dahulu. Demikian juga dengan perbandingan metode
clustering yang digunakan yaitu K-Means dan Fuzzy C-Means. Metode K-Means lebih
baik daripada Fuzzy C-Means, hal ini ditunjukkan dengan nilai rata-rata confidence yang
dihasilkan dengan menggunakan metode KMeans mempunyai nilai yang lebih besar
dibandingkan apabila menggunakan metode Fuzzy C-Means.
14
BAB IV
KESIMPULAN
4.1 Simpulan
Dari hasil uji coba yang sudah dilakukan dapat diambil simpulan sebagai berikut:
1. Pada nilai minimum support 20 dan 40 nilai rata-rata confidence dari kaidah yang
dihasilkan dari data yang di-cluster menunjukkan angka lebih baik daripada data
yang tidak di-cluster.
2. Pada nilai minimum support 20 dan 40 nilai rata-rata confidence dari kaidah yang
dicluster menggunakan K-Means lebih tinggi daripada Fuzzy C-Means untuk
masingmasing cluster.
4.2 Saran
Saran yang dapat diberikan berkaitan dengan penelitian ini untuk pengembangan
selanjutnya adalah:
1. Pada penelitian ini algoritma, hanya digunakan untuk penggalian kaidah asosiasi
multi obyektif dimensi tunggal, sehingga bisa dikembangkan untuk menyelesaikan
permasalahan penggalian kaidah asosiasi multi obyektif dimensi banyak.
2. Menggunakan teknik sampling yang lain, misalnya random sampling atau
regressionbased sampling.
15
DAFTAR PUSTAKA
Agrawal R, Imielinski T and Swami T. Mining Association Rules between Sets of Items in
Large Databases. Proceedings of ACM SIGMOD International Conference on
Management of Data (SIGMOD’93). 207-216. 1993.
Ghosh A and Nath B. Multi-Objective Rule Mining using Genetic Algorithms. Information
Sciences. 163: 123-133. 2004.
Han J and Kamber M. Data Mining: Concept and Techniques. San Fransisco, CA: Morgan
Kaufman Publishers. 2000.
Freitas A. Data Mining and Knowledge Discovery with Evolutionary Algorithms. New
York: Springer-Verlag. 2002.
16