Perbandingan Klasifikasi KNN Dan Naive Bayesian Serta Perbandingan Clustering Simple K

PERBANDINGAN KLASIFIKASI KNN DAN NAIVE BAYESIAN SERTA
PERBANDINGAN CLUSTERING SIMPLE K-MEANS YANG MENGGUNAKAN

DISTANCE FUNCTION MANHATTAN DISTANCE DAN EUCLIDIAN DISTANCE
PADA DATASET Dresses_Attribute_Sales
Mirza Triyuna Putra

Mahasiswa Jurusan Informatika
Fakultas Matematika dan Ilmu Pengetahuan Alam
Universitas Syiah Kuala
KOPELMA Darussalam Banda Aceh 23111
Telp (+62)85213783445
Email : [email protected]
Tugas Ujian Tengah Semester (UTS)
Data Mining Lanjut
ABSTRAK
Klasifikasi merupakan metode analisis data yang digunakan untuk membentuk model yang
mendeskripsikan kelas data yang penting, atau model yang memprediksikan trend data. Pada
klasifikasi ini data yang digunakan yaitu dresses_atribut_sales yang terdiri dari 14 class diantaranya
style, price, rating, size, dan lain-lain yang terkait dengan atribut model pakaian. Klasifikasi yang
akan digunakan sebagai perbandingan hasil yaitu K-Nearest Neighbor (KNN) Classifier dan Naive
Bayesian Classifier. Hasil summary dari kedua klasifikasi akan menentukan jenis klasifikasi mana
yang lebih cocok diterapkan pada dataset tersebut. Selain itu, akan dilakukan juga perbandingan
hasil clustering metode Simple K-Means yang menggunakan algortima distance function Manhattan
Distance dan Euclidian Distance. Perbandingan clustering dilakukan untuk melihat perbedaan
pembagian kelas pada kedua function tersebut. Software pendukung yang digunakan adalah Weka.
Kata Kunci : knn classifier, naive bayesian klassifier, simple k-means, manhattan distance, euclidian
distance, dresses_atribut_sales..
Klasifikasi adalah proses pembelajaran
1. PENDAHULUAN
1.1. Latar Belakang
Perkembangan data mining (DM) yang
secara terbimbing (supervised learning) [1].

Klasifikasi Naive Bayesian Adalah metode
pesat tidak terlepas dari perkembangan
classifier yang berdasarkan probabilitas dan
teknologi informasi yang memungkinkan data
Teorema Bayesian dengan asumsi bahwa
dalam jumlah besar terakumulasi. Seiring
setiap
dengan semakin dibutuhkannya data mining,
(independence)
muncul beberapa algoritma untuk memproses
merupakan
Data dalam jumlah besar, diantaranya yaitu
jumlah
besar
juga
kedekatan-kedekatan
bebas
Klasifikasi
KNN
klasifikasi
yang
[2].
metode
neighbor dalam traing set [3].
dapat
Clustering
dikelompokkan ke dalam beberapa bagian

berdasarkan
bersifat
baru berdasarkan class yang mayoritas dari k-
Naive Bayesian classifier. Selain klasifikasi,

dalam
menentukan label (class) dari suatu objek
K-Nearest Neightbor (KNN) Classifier dan
data
variabel
pengelompokan
yang
adalah
suatu
berdasarkan
metode
ukuran
kedekatan (kemiripan) [4]. Salah satu jenis
dimiliki. Agar data- data tersebut dapat
algoritma yang dapat digunakan pada metode
dikelompokkan dengan mudah, salah satu
ini yaitu Simple K-Means. Pada algortima
algortima yang dapat digunakan yaitu simple
simple k-means sendiri terdapat teknik
K-Means.
pengelompokan dengan
empat fungsi core, yaitu chebyshevDistance,
paling dekat dengan objek tersebut. Data
ManhattanDistance, dan EuclidianDistance.
pembelajaran
ManhattanDistance dan EuclidianDistance
berdimensi banyak, dimana masing-masing
merupakan fungsi core yang paling sering
dimensi merepresentasikan fitur dari data.
digunakan dan memberikan hasil lebih baik
Ruang ini dibagi menjadi bagian-bagian
dibandingkan dua fungsi core lainnya.
berdasarkan klasifikasi data pembelajaran.
Perbandingan
ke
ruang
klasifikasi
Nilai k yang terbaik untuk algoritma
dilakukan untuk menentukan jenis klasifikasi
ini tergantung pada data; secara umumnya,
yang paling cocok digunakan dengan data
nilai k yang tinggi akan mengurangi efek
yang memiliki class atribut dan kategori
noise pada klasifikasi, tetapi membuat
atribut seperti dataset dresses_atribut_sales.
batasan antarasetiap klasifikasi menjadi lebih
Sedangkan perbandingan metode clustering
kabur. Nilai k
dilakukan
perbedaan
dengan optimasi parameter, misalnya dengan
pengelompokan terhadap data yang sama
menggunakan cross-validation. Kasus khusus
dengan metode k-means dan hanya dibedekan
di mana klasifikasidiprediksikan berdasarkan
fungsi core yang digunakan.
data pembelajaran yang paling dekat (dengan
untuk
metode
diproyeksikan
melihat
yang bagus dapat dipilih
kata lain, k = 1) disebut algoritma nearest

neighbor. [5]
1.2. Rumusan Permasalahan

Perumusan masalah pada penulisan
paper
ini
didasarkan
pada
bagaimana
2.2. Naive Bayesian Classifier
perbandingan dua metode klasifikasi dan dua
Nave Bayes adalah metode Bayesian
fungsi core clustering terhadapa dataset
Learning yang paling cepat dan sederhana.
dresses_atribut_sales.
demikian,
Hal ini berasal dari teorema Bayes dan
perumusan masalah yang akan dibahas dalam
hipotesis kebebasan, menghasilkan klasifier
paper ini adalah sebagai berikut :
statistik berdasarkan peluang. Ini adalah
1. Bagaimana perbandingan hasil klasifikasi
teknik sederhana, dan harus digunakan
Dengan
KNN dan Naive Bayesian terhadap dataset
sebelum
dresses_atribut_sales?
kompleks.
2. Bagaimana perbandingan hasil clustering
mencoba
metode
yang
lebih
Nave Bayes dapat dirumuskan sebagai
Simple K-Means dengan fungsi core
berikut : [6]
ManhattanDistance dan EuclidianDistance?
P(A|B) =
1.3. Batasan Permasalahan
(|)()
.........................(1)
()
Batasan masalah dalam papaer ini
2.3. K-Means Clustering

Clustering adalah proses membuat
adalah metode klasifikasi yang digunakan
pengelompokan, sehingga semua anggota
hanya dua saja, yaitu KNN classifier dan
dari tiap partisi mempunyai persamaan
Naive Bayesian classifier.
berdasarkan matrik tertentu. Sebuah klaster

adalah sekumpulan objek yang digabung
2. LANDASAN TEORI
2.1. K-Nearest Neigtbor Classifier
(k-NN atau KNN) adalah sebuah
bersama
metode untuk melakukanklasifikasi terhadap
karena
persamaan
kedekatannya.
Clustering
persamaannya
adalah
atau
berdasarkan
teknik
yang
mentranslasi ukuran yang intuitif menjadi
objek berdasarkan data pembelajaran yang
ukuran yang kuantitatif [7].
jaraknya
3. PEMBAHASAN
3.1. Klasifikasi Metode Naive Bayesian
Metode klasifikasi Naive Bayesian
menggunakan dua data, yaitu training set
untuk menghasilkan model dan testing set
untuk menguji keakuratan hasil klasifikasi.
Data training set diambil 80% dari total data
secara keseluruhan, sedangkan data testing set
diambil 20% sisa dari data secara
keseluruhan.
Berikut tampilan data training set
beserta hasil setelah diklasifikasi dengan
metode Naive Bayes :
Waiseline
56.6416 %
43.3584 %
Material
42.3559 %
57.6441 %
FabricType
54.8872 %
45.1128 %
Decoration
44.8622 %
55.1378 %
PatternType
47.8697 %
52.1303 %
Tabel 3.1. Summary Correctly dan

Incorrectly Classified Instance Training set
Dari hasil di atas terlihat bahwasanya

hampir semua class, tingkat kebenaran
klasifikasinya berkisar diantara 36-56%.
Precission
Recall
Style
0.405
0.498
FMeasure
0.416
Price
0.493
0.55
0.507
Size
0.403
0.473
0.424
Season
0.318
0.364
0.323
Neckline
0.429
0.544
0.472
Nama Class
Gambar 3.1. Tampilan klasifikasi training set
Sleeve
Length
Waiseline
0.38
0.453
0.405
0.494
0.566
0.515
Material
0.347
0.424
0.378
FabricType
0.459
0.549
0.49
Decoration
0.333
0.449
0.371
PatternType
0.426
0.479
0.416
Tabel 3.2. Precission, Recall dan F-Measure

Training set
Tabel di atas menampilkan average

(nilai rata-rata) dari hasil Precission, Recall
dan F-Measure tiap-tiap class. Nilai Precission
berkisar pada rentang 31-49%, nilai Recall
berada pada rentang 36-56%, dan nilai FMeasure pada rentang 37-51%.
Gambar 3.2. Hasil klasifikasi Naive Bayesian

terhadap class atribut style training set
Berikut tampilan data testing set

metode Naive Bayes :
Dataset
Dresses_Atribut_sales
memiliki 11 class fitur bertype nominal,
berikut tabel summary dari kesebelas class
bertype nominal yang terdapat pada dataset
dresses :
Style
Correctly
Classified
Instances
49.75 %
Incorrectly
Classified
Instances
50.25 %
Price
55.0251 %
44.9749 %
Size
47.25 %
52.75 %
Season
36.4322 %
63.5678 %
Neckline
54.386 %
45.614 %
SleeveLength
45.25 %
54.75 %
Nama Class
Gambar 3.3. Tampilan klasifikasi testing set
Berikut tampilan summary

kesebelas class pada testing set :
dari

dan F-Measure tiap-tiap class. Nilai
Precission berkisar pada rentang 25%-61%,
nilai Recall berada pada rentang 30-67%, dan
nilai F-Measure pada rentang 27-62%.
3.2. Klasifikasi Metode KNN
Sama halnya seperti klasifikasi naive
bayesian, metode klasifikasi KNN juga
menggunakan dua data, yaitu training set dan
testing set. Data testing digunakan untuk
menguji keakuratan hasil. Data training set
diambil 80% dari total data secara
keseluruhan, sedangkan data testing set
diambil 20% sisa dari data secara
keseluruhan.
Berikut tampilan hasil klasifikasi
KNN terhadap data training set.
Gambar 3.4. Hasil klasifikasi Naive Bayesian

Terhadap class atribut style testing set
Style
Correctly
Classified
Instances
42 %
Incorrectly
Classified
Instances
58 %
Price
44 %
56 %
Size
35 %
65 %
Season
30 %
70 %
Neckline
44 %
56 %
SleeveLength
44 %
56 %
Waiseline
62 %
38 %
Material
39 %
61 %
FabricType
67 %
33 %
Decoration
45 %
55 %
PatternType
35 %
64 %
Nama Class
Gambar 3.5. Hasil klasifikasi KNN

Terhadap class atribut style training set

Incorrectly Classified Instance Testing set
Berikut
tabel
Correctly
Incorrectly classified instance
dihasilkan dari tiap-tiap class :

Style
Correctly
Classified
Instances
36 %
Incorrectly
Classified
Instances
63 %
0.39
Price
48 %
51 %
0.35
0.305
Size
40 %
60 %
0.256
0.3
0.273
Season
24 %
75 %
0.376
0.44
0.406
Neckline
40 %
60 %
Sleeve
Length
Waiseline
0.374
0.44
0.404
53 %
46 %
0.565
0.62
0.577
Sleeve
Length
Waiseline
28 %
71 %
Material
0.326
0.39
0.349
Material
45 %
54 %
FabricType
0.617
0.67
0.627
FabricType
34 %
65 %
Decoration
0.32
0.45
0.368
Decoration
34 %
65 %
PatternType
0.358
0.42
0.386
PatterbType
36 %
63 %
Precission
Recall
Style
0.325
0.42
FMeasure
0.359
Price
0.355
0.44
Size
0.283
Season
Neckline
Nama Class
Nama
dan
yang
Class

Testing set
Tabel 3.5. Summary Correctly dan Incorrectly

Classified Instance KNN Training set
Dari hasil di atas terlihat bahwasanya hampir

semua class, tingkat kebenaran klasifikasinya
berkisar diantara 28-53%.
Precission
Recall
Style
0.373
0.363
FMeasure
0.367
Price
0.488
0.482
0.484
Size
0.396
0.4
0.397
Season
0.249
0.249
0.248
Neckline
0.43
0.436
0.432
Sleeve
Length
Waiseline
0.402
0.398
0.399
0.523
0.531
0.524
Material
0.276
0.283
0.279
FabricType
0.453
0.456
0.451
Decoration
0.369
0.348
0.358
PatternType
0.355
0.341
0.347
Nama Class
Season
28 %
72 %
Neckline
38 %
62 %
Sleeve
Length
Waiseline
42 %
58 %
49 %
51 %
Material
44 %
56 %
FabricType
56 %
44 %
Decoration
29 %
71 %
PatternType
40 %
60 %

Incorrectly Classified Instance Testing set

Precission
Recall
Style
0.365
0.38
FMeasure
0.371
Price
0.338
0.35
0.344
Size
0.324
0.29
0.305
Season
0.284
0.28
0.278
Neckline
0.404
0.38
0.391
Sleeve
Length
Waiseline
0.421
0.42
0.42
0.448
0.49
0.467
Material
0.415
0.44
0.426
FabricType
0.535
0.56
0.542
Decoration
0.296
0.29
0.293
PatternType
0.402
0.4
0.398
Nama Class

Klasifikasi KNN Training set

dan F-Measure tiap-tiap class. Nilai
Precission berkisar pada rentang 24%-52%,
nilai Recall berada pada rentang 24-53%, dan
nilai F-Measure pada rentang 24-52%.
Berikut tampilan data testing set
metode KNN :

Klasifikasi KNN Testing set

(nilai rata-rata) dari hasil Precission,
Recall dan F-Measure tiap-tiap class.
Nilai Precission berkisar pada rentang
28%-53%, nilai Recall berada pada
rentang 28-56%, dan nilai F-Measure
pada rentang 27-54%.
Gambar 3.5. Hasil klasifikasi KNN
Terhadap class atribut style testing set
3.3. Clustering K-Means

ManhattanDistance
Berikut tabel Correctly dan

Incorrectly classified instance yang
dihasilkan dari tiap-tiap class :
Nama
Style
Correctly
Classified
Instances
38 %
Incorrectly
Classified
Instances
62 %
Price
35 %
65 %
SIze
29 %
71 %
Class
Pada proses clustering, data yang

digunakan yaitu data secara keseluruhan /
100% dari dataset Dresses_atribut_sales.
Nilai yang dibedakan untuk menguji hasil
cluster yaitu numCluster dari tiap-tiap tes.
Berikut akan ditampilkan hasil cluster
berdasarkan numCluster.
grp
1
2
3
4
5
6
nc
2
39
nc
3
29
nc
4
16
nc
5
13
nc
6
13
61
46
41
28
29
25
17
19
19
26
24
18
15
12
Precission, Recall, dan F-Measure Testing

set :
61%, 67%, 62% (Naive Bayesian)
53%, 56%, 54% (KNN)
2. Berdasarkan hasil di atas, sebenarnya
tingkat keakuratan hasil dari kedua
metode jauh dari baik. Hal ini karena
hasil correct data jauh dari 100%.
Akan tetapi, model yang dihasilkan
dapat dikatakan baik, karena hasil
pengujian dari training set dan testing
set meghasilkan persentase yang relatif
pada rentang yang sama.
3. Jika ditinjau dari nilai precission,
Recall, dan F-Measure hasilnya juga
tidak bisa dikatakan baik. Hal ini juga
karena nilai yang dihasilkan jauh dari
100%.
4. Hasil Clustering :
Jika ditinjau dari hasil clustering
yang dilakukan, terlihat bahwasanya
pembagian kelas-kelas oleh metode
K-Means
dengan
algoritma
ManhattanDistance
dan
EuclidianDistance
memiliki
kemiripan.
Kemiripan
yang
dimaksud
yaitu
pada
setiap
numCluster memiliki urutan nilai
terbesar ke terkecil pada kelas yang
sama. Hanya saja, nilai yang
dihasilkan menunjukkan sedikit
perbedaan.
Tabel 3.9. Pembagian grup hasil cluster

ManhattanDistance
Tabel di atas menampilkan hasil

clustering dengan nilai numCluster yang dari
2 s.d. 6. Hasil yang ditampilkan dalam bentuk
persentase secara keseluruhan.
Clustering K-Means
EuclidianDistance
Selain
menggunakan
algoritma
manhattanDistance percobaan juga dilakukan

pada algortima EuclidianDistance untuk
membandingkan hasil dari kedua algortima.
Berikut akan ditampilkan hasil dari clustering
EuclidianDistance.
grp
1
2
3
4
5
6
nc
2
41
nc
3
31
nc
4
22
nc
5
11
nc
6
9
59
47
37
35
26
22
15
17
22
26
24
20
13
14
5. KESIMPULAN DAN SARAN

5.1. Kesimpulan
Tabel 3.10. Pembagian grup hasil cluster

EuclidianDistance
Berdasarkan hasil pembahasan dan

analisa pada bab sebelumnya, dapat
ditarik beberapa kesimpulan sebagai
berikut :
1. Pemilihan metode terbaik adalah yang
mempunyai tingkat akurasi yang tinggi
dan juga dipastikan simpangan
bakunya yang cenderung lebih kecil.
Dari data yang terangkum di atas,
metode yang lebih baik untuk dataset
Dresses_atribute_sales yaitu Naive
Bayesian. Meskipun perbedaan yang
dihasilkan tidak terlalu jauh berbeda,
baik dari correctly dan incorrectly
classified instance maupun nilai
precission, recall, dan F-Measure.
2. Karena dataset dresses memiliki 3
class yang bernilai numerik, jika ingin
4. PEMBAHASAN DAN ANALISA

Berdasarkan hasil pengujian pada bab
sebelumnya, dapat dibahas dan dianalisa
beberapa hal sebagai berikut.
1. Hasil klasifikasi Training set :
36-56 % (Naive Bayesian)
28-53 % (KNN)
Hasil klasifikasi Testing set :
37-67 % (Naive Bayesian)
28-56 % (KNN)
Precission, Recall, dan F-Measure
Training set :
49%, 56%, 51% (Naive Bayesian)
52%, 53%, 52% (KNN)
Melihat hasil klasifikasi yang bernilai

numerik, maka harus digunakan metode
KNN.
3. Metode K-Means cluster yang diterapkan
pada percobaan ini, menghasilkan
pembagian kelas yang relatif sama antara
algoritma
manhattanDistance
dan
EuclidianDistance.
6.DAFTAR PUSTAKA
[1] Abidin, Taufik Fuadi, Naive Bayesian
Classifier, Jurusan Informatika Unsyiah,
bahan kuliah Data Mining program study
Informatika FMIPA-Unsyiah
[2]
5.2. Saran
Saran-saran yang bisa disampaikan
dari hasil perobaan ini adalah sebagai berikut
:
1. Untuk melihat dataset yang memiliki
nilai class bertipe numerik, digunakan
metode yang support terhadap data
numerik. Dalam kasus ini yaitu KNN.
2. Jika ingin melihat data bertype nominal
(nom), menurut hasil percobaan ini
metode Naive Bayesian menghasilkan
summary yang sedikit leih baik.
3. Metode clustering K-Means dengan
algoritma ManhattanDistance dan
EuclidianDistance menghasilkan kelas
yang realtif sama, akan tetapi untuk
hasil yang akurat perlu dilakukan
penelitian yang lebih mendalam.
4. Perlu penelitian yang lebih mendalam
untuk menarik kesimpulan secara akurat
tehadap kedua masalah yang diangkat.
Abidin, Taufik Fuadi, Accuracy

Measure; Preciisiion, Recallll & FMeasure, Jurusan Informatika Unsyiah
bahan kuliah Data Mining program study
Informatika FMIPA-Unsyiah
[3] DMIR, K-Nearest Neighbor Classifier,

Data Mining adn Information Retrievl
Research Grup, Jurusan Matematika
FMIPA-Unsyiah
[4] Striyanto, Edi, Clustering, Electronic
Engineering Polytechnic Institute of
Surabaya (EEPIS)
[5]
Peace, Alifah, Metode KNN,

http://www.academia.edu/3660286/
Tgs_proposal
[6] A.W, Ebranda, Mardiani, Tinaliah,

Penerapan Metode Naive Bayes untuk
Sistem Klasifikasi SMS pada Smartphone
Android, Teknik Informatika STMIK
MDP
[7] Yunita, Analisis dan Implementasi
Clustering Data Kategori Menggunakan
Metode scaLable InforMation Bottleneck (
LIMBO ), Tugas Akhir.

Perbandingan Klasifikasi KNN Dan Naive Bayesian Serta Perbandingan Clustering Simple K

Diunggah oleh

Hak Cipta:

Format Tersedia

Perbandingan Klasifikasi KNN Dan Naive Bayesian Serta Perbandingan Clustering Simple K

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Perbandingan Klasifikasi KNN Dan Naive Bayesian Serta Perbandingan Clustering Simple K

Diunggah oleh

Hak Cipta:

Format Tersedia

PERBANDINGAN KLASIFIKASI KNN DAN NAIVE BAYESIAN SERTA

PERBANDINGAN CLUSTERING SIMPLE K-MEANS YANG MENGGUNAKAN

Mirza Triyuna Putra

Klasifikasi adalah proses pembelajaran

secara terbimbing (supervised learning) [1].

pesat tidak terlepas dari perkembangan

classifier yang berdasarkan probabilitas dan

teknologi informasi yang memungkinkan data

Teorema Bayesian dengan asumsi bahwa

dalam jumlah besar terakumulasi. Seiring

dengan semakin dibutuhkannya data mining,

muncul beberapa algoritma untuk memproses

Data dalam jumlah besar, diantaranya yaitu

neighbor dalam traing set [3].

dikelompokkan ke dalam beberapa bagian

baru berdasarkan class yang mayoritas dari k-

Naive Bayesian classifier. Selain klasifikasi,

menentukan label (class) dari suatu objek

K-Nearest Neightbor (KNN) Classifier dan

kedekatan (kemiripan) [4]. Salah satu jenis

dimiliki. Agar data- data tersebut dapat

algoritma yang dapat digunakan pada metode

dikelompokkan dengan mudah, salah satu

ini yaitu Simple K-Means. Pada algortima

algortima yang dapat digunakan yaitu simple

simple k-means sendiri terdapat teknik

empat fungsi core, yaitu chebyshevDistance,

paling dekat dengan objek tersebut. Data

ManhattanDistance, dan EuclidianDistance.

ManhattanDistance dan EuclidianDistance

berdimensi banyak, dimana masing-masing

merupakan fungsi core yang paling sering

dimensi merepresentasikan fitur dari data.

digunakan dan memberikan hasil lebih baik

Ruang ini dibagi menjadi bagian-bagian

dibandingkan dua fungsi core lainnya.

berdasarkan klasifikasi data pembelajaran.

Nilai k yang terbaik untuk algoritma

dilakukan untuk menentukan jenis klasifikasi

ini tergantung pada data; secara umumnya,

yang paling cocok digunakan dengan data

nilai k yang tinggi akan mengurangi efek

yang memiliki class atribut dan kategori

noise pada klasifikasi, tetapi membuat

atribut seperti dataset dresses_atribut_sales.

batasan antarasetiap klasifikasi menjadi lebih

Sedangkan perbandingan metode clustering

dengan optimasi parameter, misalnya dengan

pengelompokan terhadap data yang sama

menggunakan cross-validation. Kasus khusus

dengan metode k-means dan hanya dibedekan

di mana klasifikasidiprediksikan berdasarkan

fungsi core yang digunakan.

data pembelajaran yang paling dekat (dengan

yang bagus dapat dipilih

kata lain, k = 1) disebut algoritma nearest

1.2. Rumusan Permasalahan

2.2. Naive Bayesian Classifier