Makalah Mata Kuliah Aplikasi Analisis Kuantitatif "Analisis Cluster"
Makalah Mata Kuliah Aplikasi Analisis Kuantitatif "Analisis Cluster"
Makalah Mata Kuliah Aplikasi Analisis Kuantitatif "Analisis Cluster"
ANALISIS KUANTITATIF
“ANALISIS CLUSTER”
Kelompok 4
PENDAHULUAN
Latar Belakang
Analisis cluster merupakan teknik multivariat yang mempunyai
tujuan utama untukmengelompokkan objek-objek berdasarkan
karakteristik yang dimilikinya. Analisis clustermengklasifikasi
objek sehingga setiap objek yang paling dekat kesamaannya
dengan objek lain berada dalam cluster yang sama.
Fokus dari analisis cluster adalah membandingkan objek
berdasarkan set variabel, hal inilah yang menyebabkan para ahli
mendefinisikan set variabel sebagai tahap kritis dalam analisis
cluster.
2
PENDAHULUAN
Rumusan
Masalah
3
PENDAHULUAN
Tujuan Masalah
5
PEMBAHASAN
Metode Pengelompokkan (Klustering)
1. Hirarkis
Memulai pengelompokkan dengan dua atau lebih obyek yang mempunyai
kesamaan paling dekat
Terdapat tingkatan (hirarki) yang jelas antar obyek, dari yang paling
mirip hingga yang paling tidak mirip
Tools -> DENDOGRAM
2. Non Hirarkis
Dimulai dengan menentukan terlebih dahulu jumlah cluster yang
diinginkan (dua, tiga, atau yang lain)
Setelah jumlah cluster ditentukan, maka proses cluster dilakukan dengan
tanpa mengikuti proses hirarki
6
PEMBAHASAN
Tipe Cluster
Well-Separated Cluster
Center-Based Cluster
Density-Based Cluster
7
PEMBAHASAN
2.3. Ketentuan dari Analisis Cluster
1. Sampel yang diambil benar-benar mewakili populasi yang ada
2. Multikolinieritas
8
PEMBAHASAN
Membentuk Cluster
Metode ini adalah yang paling sederhana dan merupakan titik awal memahami prinsip dasar
bagaimana suatu kluster dibentuk. Langkah yang dilakukan sbb:
A. Single Linkage atau SLINK (Tetangga Terdekat)
1. Setiap kasus dimulai sebagai kluster
2. Tentukan dua kasus/kluster yang paling mirip (mis. A dan B) dengan melihat kemiripan koefisien
antar dua pasang kasus (korelasi atau Euclidean distance). Kasus atau kluster yang memiliki
kemiripan tertinggi dikelompokkan untuk membentuk kluter yang lebih besar.
3. Kasus atau Kluster berikutnya (C) digabungkan dengan kluster besar (A dan B) adalah kasus yang
mempunyai koefisien kemiripan tertinggi terhadap A atau B.
4. Kasus berikutnya digabungkan dengan kluster besar adalah kasus yang mempunyai koefisien
kemiripan teringgi terhadap A,B atau C dan seterusnya. 9
PEMBAHASAN
:
B. Complete Linkage atau CLINK (Tetangga Terjauh)
Metode ini merupakan lawan dari simple linkage. Prosedur sama dengan simple linkage yaitu kita
melihat dua kasus yang memiliki kemiripan tertinggi (berdasarkan pada korelasi atau euclidean
distance).
C. Metode berikutnya adalah Average (between-group) linkage dan Ward's method.
D. Keterbatasan Analisis Kluster: analisis kluster memiliki beberapa keterbatasan antara lain:
1. Perbedaan metode kluster akan memberikan hasil yang berbeda. Hal ini terjadi karena adanya
perbedaan penggabungan kluster.
2. Kecuali metode single linkage, metode lainnya sangat dipengaruhi oleh cara pengurutan
variabel di dalam analisis.
3. Analisis tidak stabil jika ada kasus yang di dropped
10
PEMBAHASAN
2.4. Pengaplikasian dari Analisis Cluster
Contoh Kasus Analisis Cluster Non Hierarki (K-Means Cluster
11
PEMBAHASAN
✘Salah seorang wali kelas SMA 6 Denpasar perlu menganalisis nilai
siswa di sebuah kelas 11 untuk mengelompokkan hasil belajar dan
menentukan Tindakan apa yang harus diambil selanjutnya untuk
membimbing siswa di kelas tersebut. Berdasarkan data diatas, diketahui
sampel sebanyak 14, yaitu dari A sampai N, dan jumlah variabel ada 5,
yaitu Ekonomi, Sosiologi, anthropologi, geografi dan tata negara. Kali ini
wali kelas 11 tersebut akan melakukan analisis kluster terhadap siswa
kelas 11 berdasarkan nilai-nilai ujian seperti yang tertera di atas.
12
PEMBAHASAN
CONTOH RISET KASUS CLUSTER HIERARKI
Seorang Guru SMK menggunakan Analisis Cluster Hierarki sebagai media
menganalisis nilai siswa disetiap mata Pelajaran yang mereka tempuh. tujuan
penggunaan cluster hierarki oleh guru adalah untuk memahami pola dan
perbedaan dalam data nilai siswa. Dalam kasus ini terdapat 12 Indikator yaitu
sebagai nama siswa dan 5 Variabel, yang berisikan beberapa mata Pelajaran
Tingkat SMA (Bahasa Indonesia, Matematika, Bahasa Inggris, Biologi dan Seni
Budaya), penggunaan cluster hierarki dalam konteks nilai siswa membantu guru
dapat memahami lebih baik karakteristik siswa dan memberikan pendekatan yang
lebih efektif dalam proses pembelajaran
13
PEMBAHASAN
Berikut hasil data yang dapat dikumpulkan sebagai berikut:
14
PEMBAHASAN
2.5. Tahapan Analisis Cluster
Langkah 1 “standarisasi/transformasi”
Mengingat data yang terkumpul mempunyai variabilitas satuan, maka perlu dilakukan langkah
standarisasi atau transformasi terhadap variabel yang relevan ke bentuk zscore, sebagai berikut:
15
PEMBAHASAN
1. Setelah keseluruhan data yang dikumpulkan tersebut dientry dalam
program SPSS, selanjutnya klik menu “analyze” dan pilih sub menu
“descriptive statistics” kemudian pilih “descriptives”
16
PEMBAHASAN
2. Masukkan ke dalam kotak “variables” seluruh variabel instrumen penilai,
yaitu variabel ekonomi, sosiologi, anthropologi, geografi dan tata negara.
(dalam hal ini variabel sample tidak dimasukkan karena data bertipe
string).
Kemudian aktifkan bagian “save standardized values as variables”.
Abaikan bagian yang lain lalu tekan “OK” untuk menampilkan output
aplikasi program SPSS
17
PEMBAHASAN
Setelah ini, maka dapat kita lihat pada dataset telah muncul variabel Z-score
tiap variabel asli. Dasar dari perhitungan nilai z-score adalah hasil uji
descriptive tadi yang dapat dilihat pada output view seperti gambar diatas.
Setelah kita mendapatkan variabel z-score, maka perlu diketahui variabel
tersebut yang akan kita gunakan dalam analisis non cluster / k-means cluster,
berikut gambar variabel zscore yang muncul pada dataset:
18
PEMBAHASAN
Langkah 2 “analisis cluster” Metode Non-Hierarki (K-Means Cluster)
Ciri khas dari analisis cluster non-hierarki dengan K-Means Cluster ini adalah
kita dapat menentukan sendiri dari awal berapa cluster yang akan kita bentuk.
Dengan demikian, kami akan mencoba membuat 3 cluster pada sampel dan
19
PEMBAHASAN
Berdasarkan tampilan data yang tersedia (hasil standarisasi yang menghasilkan
dataset z-score), buka menu “analyze”, lalu pilih sub menu “classify” dan pilih
“kmeans cluster”
20
PEMBAHASAN
3. Kemudian klik pada kotak “save”
Aktifkan kedua kotak dalam menu save, yaitu “cluster membership” dan distance from
cluster center”. Selanjutnya tekan tombol “continue” untuk kembali pada menu utama.
21
PEMBAHASAN
4. Kemudian klik kotak “options”, pada bagian “statistics” aktifkan “initial
cluster centers” dan “ANOVA table”. Abaikan yang lain, lalu tekan
“continue” untuk kembali pada menu utama.
22
PEMBAHASAN
5. Setelah itu, maka klik “OK” dan akan muncul output sebagai berikut.
23
PEMBAHASAN
24
PEMBAHASAN
Langkah - 1: Standarnisasi/Transformasi
Mengingat data yang terkumpul mempunyai variabilitas satuan, maka perlu dilakukan langkah
standardisasi atau transformasi terhadap variabel yang relevan ke bentuk zscore, sebagai berikut :
1) Setelah keseluruhan data yang dikumpulkan tersebut diatas dientry dalam program SPSS, selanjutnya
klik menu “analyze” dan pilih sub menu “Descriptives Statistics” lalu “Descriptives”
25
PEMBAHASAN
2) Masukkan ke dalam kotak VARIABLES seluruh variable instrumen penilai, yaitu variabel Bahasa
Indonesia, Matematika, Bahasa Inggris, Biologi, Seni Budaya (dalam hal ini variabel Nama Siswa
tidak dimasukkan karena data bertipe string).
26
PEMBAHASAN
3) Kemudian aktifkan bagian “Save standardized values as Variables”. Abaikan bagian yang lain lalu
tekan OK
27
PEMBAHASAN
28
PEMBAHASAN
Berikut merupakan Hasil Output dari Program SPSS
Descriptive Statistics
N Minimum Maximum Mean Std. Deviation
75.
B.Indonesia 12 67 89 67 7.463
Matematika 12 67 88 78. 6.608
75
B.Inggris 12 67 89 80. 6.653
42
76.
Biologi 12 60 85 33 7.303
SeniBudaya 12 67 88 78. 6.608
75
Valid N (listwise) 12
Deskripsi tersebut diatas digunakan sebagai dasar perhitungan z- score yang diperoleh.
29
PEMBAHASAN
Selanjutnya buka tampilan “data view” dari table data. Hal yang
akan dijumpai sebagai berikut:
Untuk selanjutnya, hasil z-score inilah yang akan dipakai dasar analisis cluster. Apabila data yang
terkumpul tidak mempunyai variabilitas satuan, maka prose analisis cluster dapat langsung dilakukan
tanpa terlebih dahulu melakukan transformasi atau standardisasi.
30
PEMBAHASAN
Selanjutnya buka tampilan “data view” dari table data. Hal yang
akan dijumpai sebagai berikut:
Untuk selanjutnya, hasil z-score inilah yang akan dipakai dasar analisis cluster. Apabila data yang
terkumpul tidak mempunyai variabilitas satuan, maka prose analisis cluster dapat langsung dilakukan
tanpa terlebih dahulu melakukan transformasi atau standardisasi.
31
PEMBAHASAN
Langkah – 2 : “Analisis Cluster”
32
PEMBAHASAN
3) Kemudia klik bagian Statistics, Selain kotak “Agglomeration Schedule”,
variabel. Pada bagian “Cluster Membership” klik mouse pada pilihan Range
33
PEMBAHASAN
34
PEMBAHASAN
4) Klik bagian “Plots” Aktifkan pilihan “Dendogram”; kemudian pada bagian
“Icicle” pilih None. Abaikan bagian yang lain lalu tekan tombol “Continue”
untuk kembali ke menu utama.
35
PEMBAHASAN
5) Klik pada bagian “Cluster Method” pilih Between groups linkage.
Kemudian buka kotak combo Square Euclidean distance pada “Measure”;
dan pada “Transform Values” buka kotak combo pada pilihan Z-score.
Abaikan bagian yang lain lalu tekan tombol “Continue”
36
PEMBAHASAN
6) Setelah itu, klik bagian “Save”, liaht bagian kotak Cluster Membership dan
klik mouse pada pilihan Range of Solutions lalu ketik 2 pada Minimum
number of clusters dan 4 pada maximum number of clusters (Kemudian
tekan tombol “Continue” untuk kembali ke menu utama. Dari tampilan menu
utama, tekan tombol OK untuk menampilkan output aplikasi program SPSS.
37
PEMBAHASAN
2.6. Hasil Analisis dan Interpretasi dari Analisis
Cluster .
Hasil Analisis dan Interpretasi cluster non-hierarki (k-means cluster)
2.6.1 Hasil Analisis
Initial Cluster
Initial Cluster Centers
Cluster
1 2 3
Zscore: Ekonomi -.78155 2.28620 -.78155
Zscore: Sosiologi -.54904 .52124 .03475
Zscore: .55629 .05785 -.68980
Anthropologi
Zscore: Geografi 1.47887 .54431 -1.18104
Zscore: 1.43002 -.93086 -1.02530
TataNegara
38
PEMBAHASAN
Tabel initial cluster seperti yang ditampilkan diatas merupakan
tampilan yang akan muncul paling awal setelah proses
clustering sebelum dilakukan proses literasi.
39
PEMBAHASAN
Iteration Historya
Change in Cluster Centers
Iteration 1 2 3
1 1.379 1.308 .381
2 .482 .438 .000
3 .000 .000 .000
40
PEMBAHASAN
Diketahui 14 sampel tersebut telah melakukan sebanyak 3 kali
41
PEMBAHASAN
Output Analisis Cluster
Hasil akhir yang diperoleh dari proses clustering adalah
sebagai berikut:
1 2 3
Zscore: Ekonomi -.43387 .99775 -.70485
Zscore: Sosiologi -.86039 .57962 .35097
Zscore: .64352 -.00445 -.79883
Anthropologi
Zscore: Geografi .06984 .86062 -1.16307
Zscore: 1.01451 -.06206 -1.19056
TataNegara
Pada output di tabel “Final Cluster Centers” dapat diketahui data di atas masih terkait
dengan proses standarisasi yang mengacu pada z-score dengan ketentuan sebagai
berikut:
1. Nilai negative (-) artinya data berada di bawah rata-rata total
2. Nilai positif (+) artinya data berada di atas rata-rata total
42
PEMBAHASAN
Rumus Cluster
Rumus yang digunakan adalah rumus rata-rata sampel dalam cluster, sebagai
berikut:
Cara serupa juga dapat dipraktikkan untuk mengetahui rata-rata nilai masing-masing variabel pada tiap
cluster. 43
PEMBAHASAN
B. Interpretasi Analisis Cluster Non-Hierarki (K-Means Cluster)
Berdasarkan tabel “output final cluster centers”, dengan ketentuan yang telah dijelaskan
di atas, dapat didefinisikan sebagai berikut:
1. Cluster 1
Dalam cluster 1 ini terdapat siswa dengan nilai ekonomi dan sosiologi yang rendah,
nilai geografi yang sedang serta nilai anthropologi dan tata negara yang tinggi.
2. Cluster 2
Dalam cluster 2 ini terdapat siswa dengan nilai anthropologi dan tata negara yang
rendah, nilai sosiologi yang sedang serta nilai ekonomi dan nilai geografi yang tinggi.
3. Cluster 3
Dalam cluster ini terdapat siswa dengan nilai ekonomi, anthropologi, geografi dan tata
negara yang rendah serta nilai sosiologi yang sedang.
Perlu diketahui kembali, penamaan masing-masing cluster bersifat sangat subjektif
tergantung pada peneliti dengan mengacu kepada tujuan penelitian.
Selanjutnya, dapat kita lihat perbedaan variabel pada cluster yang terbentuk. Hal
tersebut dapat kita lihat dari nilai F dan nilai probabilitas (sig) masing-masing variabel,
sebagai berikut:
44
PEMBAHASAN
ANOVA
Cluster Error
Mean Mean df
Square Square
df F Sig.
Zscore: Ekonomi 3.953 2 .463 11 8.536 .006
Zscore: Sosiologi 2.937 2 .648 11 4.533 .037
Zscore: 2.312 2 .762 11 3.035 .089
Anthropologi
Zscore: Geografi 4.569 2 .351 11 13.017 .001
Zscore: 5.418 2 .197 11 27.528 .000
TataNegara
The F tests should be used only for descriptive purposes because the clusters
have been chosen to maximize the differences among cases in different
clusters. The observed significance levels are not corrected for this and thus
cannot be interpreted as tests of the hypothesis that the cluster means are
equal.
45
PEMBAHASAN
Rumus ANOVA
Perlu diketahui, bahwa rumus dari uji F ANOVA adalah:
46
PEMBAHASAN
Kesimpulannya, berdasarkan tabel yang kita dapatkan dalam tutorial ini,
yaitu bahwa untuk instrumen “tata negara” adalah variabel yang paling
menunjukkan adanya perbedaan diantara siswa-siswa pada ketiga cluster
yang terbentuk. Hal ini dengan ditunjukkannya nilai F = 27,528 dan sig
= 0,000. Dan untuk variabel yang lain dapat didefinisikan lebih lanjut.
47
PEMBAHASAN
Pembagian Cluster
Number of Cases in each Cluster
Cluster 1 5.000
2 5.000
3 4.000
Valid 14.000
Missing .000
Terlihat jelas bahwa cluster-1 beranggotakan 5 siswa, cluster-2 beranggotakan 5 siswa, dan
cluster-3 terdapat 4 siswa yang berkelompok. Untuk mengetahui siswa mana saja yang masuk
dalam kategori tiap cluster, perlu kita perhatikan kembali tampilan “data view” dari dataset
SPSS sebelumnya, yaitu pada kolom terakhir sebagai berikut:
48
PEMBAHASAN
Dapat kita lihat 2 kolom terakhir pada tabel “qcl_1” menunjukkan nomor cluster dari keberadaan
siswa dan kolom “qcl_2” menunjukkan jarak antara objek dengan pusat cluster. Sehingga, dapat
dipaparkan sebagai berikut:
1. Cluster-1 : terdiri dari siswa A,C,E,F, dan I dengan masing-masing jarak terhadap pusat cluster-1
adalah 0,82973; 1,83593; 1,54385; 1,12122 dan 0,89678.
2. Cluster-2 : terdiri dari siswa B,G,J,L, dan N dengan masing-masing jarak terhadap pusat cluster-
2 adalah 1,58817; 1,75266; 2,42619; 1,79717; 1,73051. 49
PEMBAHASAN
4. Cluster-3 : terdiri dari siswa D,H,K, dan M dengan masing-masing jarak
terhadap pusat cluster-3 adalah 0,25547; 0,38131; 0,25547 dan 0,37196.
Lampiran 1 Cluster
Case Processing Summarya
Valid
Missing Total
1
2
a. Average Linkage
12 (Between
100.0 Groups) 0 .0 100.0
Tabel Output diatas menunjukan bahwa semua data sejumlah 12 obyek telah diproses tanpa
ada data yang hilang. Kita bisa melihat dari N missing yaitu 0 dan N total yang berjumlah 12 .
50
PEMBAHASAN
Lampiran 2
Case 1:A 2:B 3:C 4:D 5:E 6:F 7:G 8:H 9:I 10:J 11:K
1:A .000 3.164 13.572 10.485 11.288 10.178 10.364 13.306 .649 8.242 5.744
2:B 3.164 .000 15.287 17.471 13.891 5.834 8.477 3.936 1.341 5.755 1.318
3:C 13.572 15.287 .000 9.023 1.967 22.105 8.360 20.207 14.532 5.907 14.723
4:D 10.485 17.471 9.023 .000 12.802 23.569 7.765 30.223 14.421 7.970 14.738
5:E 11.288 13.891 1.967 12.802 .000 17.835 14.280 18.550 11.476 9.626 15.960
6:F 10.178 5.834 22.105 23.569 17.835 .000 18.713 5.307 6.925 12.236 6.224
7:G 10.364 8.477 8.360 7.765 14.280 18.713 .000 14.276 11.148 .989 4.869
8:H 13.306 3.936 20.207 30.223 18.550 5.307 14.276 .000 8.651 9.417 4.173
9:I .649 1.341 14.532 14.421 11.476 6.925 11.148 8.651 .000 8.079 4.136
10:J 8.242 5.755 5.907 7.970 9.626 12.236 .989 9.417 8.079 .000 3.029
11:K 5.744 1.318 14.723 14.738 15.960 6.224 4.869 4.173 4.136 3.029 .000
12:L 8.472 2.675 11.494 17.985 13.687 11.702 4.086 4.220 6.503 2.764 1.895
Lampiran 3
Agglomeration Schedule
52
PEMBAHASAN
Agglomeration Schedule
Cluster First Next Stage
Cluster Combined Stage Appears
Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2
1 9 .649 0 0 7
7 10 .989 0 0 8
2 11 1.318 0 0 5
3 5 1.967 0 0 10
2 12 2.285 3 0 6
2 8 4.110 5 0 7
1 2 6.415 1 6 8
1 7 7.542 7 2 9
1 6 9.640 8 0 11
3 4 10.912 4 0 11
1 3 14.719 9 10 0
53
PEMBAHASAN
Algomeration schedule menunjukan tahapan dari pembentukan cluster dari
masingmasing obyek yang dianggap sebagai sebuah cluster hingga menyamakan
karakteristik cluster pada tingkat akhir, yaitu semua obyek menjadi satu cluster
yang sama.
Pada table diatas merupakan hasil proses clustering dengan metode between grup
linkage. Setelah antara jarak variable diukur dengan jarak Euclidean maka
dilakukan secara bertingkat.
Caranya dilihat dari Stage 3 : Terbentuk satu cluster yang beranggotakan
karakteristik surat kabar 2 &11 dengan jarak 1,318 ( kolom coefficients). Karena
proses algomerasi dimulai dari 2 obyek yang terdekat dari sekian kombinasi jarak 12
obyek yang ada. Selanjutnya lihat komom terakhir next stage, terlihat angka 5 ini
berarti clustering selanjutnya dilakukan dengan melihat stage 5.
54
PEMBAHASAN
Baris ke 5 ( stage 5 ) terlihat obyek ke 2 (siswa A) membentuk
cluster dengan siswa B yaitu 12. Dengan demikian sekarang cluster
terdiri dari 3 obyek yaitu,; 2,11,12.
Sedangkan jarak sebesar 2.285 merupakan jarak rata-rata obyek
terakhir yang bergabung dengan 2 obyek sebelumnya.
Hal yang sama juga berlaku untuk stage yang lannya . Dengan demikian stage
seterusnya dapat kita cari dengan hal yang sama.
55
PEMBAHASAN
Lampiran 4
56
PEMBAHASAN
Lampiran 5
57
PEMBAHASAN
Dendogram berguna untuk menunjukan anggota cluster dengan yang
diinginkan.
58
PENUTUP
KESIMPULAN
59
PENUTUP
SARAN
60
SEKIAN
TERIMAKSIH