Perbandingan Klasifikasi KNN Dan Naive Bayesian Serta Perbandingan Clustering Simple K
Perbandingan Klasifikasi KNN Dan Naive Bayesian Serta Perbandingan Clustering Simple K
Perbandingan Klasifikasi KNN Dan Naive Bayesian Serta Perbandingan Clustering Simple K
ABSTRAK
Klasifikasi merupakan metode analisis data yang digunakan untuk membentuk model yang
mendeskripsikan kelas data yang penting, atau model yang memprediksikan trend data. Pada
klasifikasi ini data yang digunakan yaitu dresses_atribut_sales yang terdiri dari 14 class diantaranya
style, price, rating, size, dan lain-lain yang terkait dengan atribut model pakaian. Klasifikasi yang
akan digunakan sebagai perbandingan hasil yaitu K-Nearest Neighbor (KNN) Classifier dan Naive
Bayesian Classifier. Hasil summary dari kedua klasifikasi akan menentukan jenis klasifikasi mana
yang lebih cocok diterapkan pada dataset tersebut. Selain itu, akan dilakukan juga perbandingan
hasil clustering metode Simple K-Means yang menggunakan algortima distance function Manhattan
Distance dan Euclidian Distance. Perbandingan clustering dilakukan untuk melihat perbedaan
pembagian kelas pada kedua function tersebut. Software pendukung yang digunakan adalah Weka.
Kata Kunci : knn classifier, naive bayesian klassifier, simple k-means, manhattan distance, euclidian
distance, dresses_atribut_sales..
1. PENDAHULUAN
1.1. Latar Belakang
Perkembangan data mining (DM) yang
setiap
(independence)
merupakan
jumlah
besar
juga
kedekatan-kedekatan
bebas
Klasifikasi
KNN
klasifikasi
yang
[2].
metode
dapat
Clustering
bersifat
data
variabel
pengelompokan
yang
adalah
suatu
berdasarkan
metode
ukuran
K-Means.
pengelompokan dengan
pembelajaran
Perbandingan
ke
ruang
klasifikasi
kabur. Nilai k
dilakukan
perbedaan
untuk
metode
diproyeksikan
melihat
ini
didasarkan
pada
bagaimana
dresses_atribut_sales.
demikian,
Dengan
sebelum
dresses_atribut_sales?
kompleks.
mencoba
metode
yang
lebih
berikut : [6]
P(A|B) =
(|)()
.........................(1)
()
2. LANDASAN TEORI
2.1. K-Nearest Neigtbor Classifier
(k-NN atau KNN) adalah sebuah
bersama
karena
persamaan
kedekatannya.
Clustering
persamaannya
adalah
atau
berdasarkan
teknik
yang
jaraknya
3. PEMBAHASAN
3.1. Klasifikasi Metode Naive Bayesian
Metode klasifikasi Naive Bayesian
menggunakan dua data, yaitu training set
untuk menghasilkan model dan testing set
untuk menguji keakuratan hasil klasifikasi.
Data training set diambil 80% dari total data
secara keseluruhan, sedangkan data testing set
diambil 20% sisa dari data secara
keseluruhan.
Berikut tampilan data training set
beserta hasil setelah diklasifikasi dengan
metode Naive Bayes :
Waiseline
56.6416 %
43.3584 %
Material
42.3559 %
57.6441 %
FabricType
54.8872 %
45.1128 %
Decoration
44.8622 %
55.1378 %
PatternType
47.8697 %
52.1303 %
Recall
Style
0.405
0.498
FMeasure
0.416
Price
0.493
0.55
0.507
Size
0.403
0.473
0.424
Season
0.318
0.364
0.323
Neckline
0.429
0.544
0.472
Nama Class
Sleeve
Length
Waiseline
0.38
0.453
0.405
0.494
0.566
0.515
Material
0.347
0.424
0.378
FabricType
0.459
0.549
0.49
Decoration
0.333
0.449
0.371
PatternType
0.426
0.479
0.416
Dataset
Dresses_Atribut_sales
memiliki 11 class fitur bertype nominal,
berikut tabel summary dari kesebelas class
bertype nominal yang terdapat pada dataset
dresses :
Style
Correctly
Classified
Instances
49.75 %
Incorrectly
Classified
Instances
50.25 %
Price
55.0251 %
44.9749 %
Size
47.25 %
52.75 %
Season
36.4322 %
63.5678 %
Neckline
54.386 %
45.614 %
SleeveLength
45.25 %
54.75 %
Nama Class
dari
Style
Correctly
Classified
Instances
42 %
Incorrectly
Classified
Instances
58 %
Price
44 %
56 %
Size
35 %
65 %
Season
30 %
70 %
Neckline
44 %
56 %
SleeveLength
44 %
56 %
Waiseline
62 %
38 %
Material
39 %
61 %
FabricType
67 %
33 %
Decoration
45 %
55 %
PatternType
35 %
64 %
Nama Class
Berikut
tabel
Correctly
Incorrectly classified instance
dihasilkan dari tiap-tiap class :
Style
Correctly
Classified
Instances
36 %
Incorrectly
Classified
Instances
63 %
0.39
Price
48 %
51 %
0.35
0.305
Size
40 %
60 %
0.256
0.3
0.273
Season
24 %
75 %
0.376
0.44
0.406
Neckline
40 %
60 %
Sleeve
Length
Waiseline
0.374
0.44
0.404
53 %
46 %
0.565
0.62
0.577
Sleeve
Length
Waiseline
28 %
71 %
Material
0.326
0.39
0.349
Material
45 %
54 %
FabricType
0.617
0.67
0.627
FabricType
34 %
65 %
Decoration
0.32
0.45
0.368
Decoration
34 %
65 %
PatternType
0.358
0.42
0.386
PatterbType
36 %
63 %
Precission
Recall
Style
0.325
0.42
FMeasure
0.359
Price
0.355
0.44
Size
0.283
Season
Neckline
Nama Class
Nama
dan
yang
Class
Recall
Style
0.373
0.363
FMeasure
0.367
Price
0.488
0.482
0.484
Size
0.396
0.4
0.397
Season
0.249
0.249
0.248
Neckline
0.43
0.436
0.432
Sleeve
Length
Waiseline
0.402
0.398
0.399
0.523
0.531
0.524
Material
0.276
0.283
0.279
FabricType
0.453
0.456
0.451
Decoration
0.369
0.348
0.358
PatternType
0.355
0.341
0.347
Nama Class
Season
28 %
72 %
Neckline
38 %
62 %
Sleeve
Length
Waiseline
42 %
58 %
49 %
51 %
Material
44 %
56 %
FabricType
56 %
44 %
Decoration
29 %
71 %
PatternType
40 %
60 %
Recall
Style
0.365
0.38
FMeasure
0.371
Price
0.338
0.35
0.344
Size
0.324
0.29
0.305
Season
0.284
0.28
0.278
Neckline
0.404
0.38
0.391
Sleeve
Length
Waiseline
0.421
0.42
0.42
0.448
0.49
0.467
Material
0.415
0.44
0.426
FabricType
0.535
0.56
0.542
Decoration
0.296
0.29
0.293
PatternType
0.402
0.4
0.398
Nama Class
Style
Correctly
Classified
Instances
38 %
Incorrectly
Classified
Instances
62 %
Price
35 %
65 %
SIze
29 %
71 %
Class
grp
1
2
3
4
5
6
nc
2
39
nc
3
29
nc
4
16
nc
5
13
nc
6
13
61
46
41
28
29
25
17
19
19
26
24
18
15
12
Clustering K-Means
EuclidianDistance
Selain
menggunakan
algoritma
nc
2
41
nc
3
31
nc
4
22
nc
5
11
nc
6
9
59
47
37
35
26
22
15
17
22
26
24
20
13
14
6.DAFTAR PUSTAKA
[1] Abidin, Taufik Fuadi, Naive Bayesian
Classifier, Jurusan Informatika Unsyiah,
bahan kuliah Data Mining program study
Informatika FMIPA-Unsyiah
[2]
5.2. Saran
Saran-saran yang bisa disampaikan
dari hasil perobaan ini adalah sebagai berikut
:
1. Untuk melihat dataset yang memiliki
nilai class bertipe numerik, digunakan
metode yang support terhadap data
numerik. Dalam kasus ini yaitu KNN.
2. Jika ingin melihat data bertype nominal
(nom), menurut hasil percobaan ini
metode Naive Bayesian menghasilkan
summary yang sedikit leih baik.
3. Metode clustering K-Means dengan
algoritma ManhattanDistance dan
EuclidianDistance menghasilkan kelas
yang realtif sama, akan tetapi untuk
hasil yang akurat perlu dilakukan
penelitian yang lebih mendalam.
4. Perlu penelitian yang lebih mendalam
untuk menarik kesimpulan secara akurat
tehadap kedua masalah yang diangkat.