Proposal - Kelompok7 - Klusterisasi Online Retail Costumer Menggunakan Metode K-Means Clustering
Proposal - Kelompok7 - Klusterisasi Online Retail Costumer Menggunakan Metode K-Means Clustering
Proposal - Kelompok7 - Klusterisasi Online Retail Costumer Menggunakan Metode K-Means Clustering
Disusun untuk Memenuhi Proyek Ujian Akhir Semester (UAS) Mata Kuliah
Kecerdasan Buatan
DAFTAR ISI............................................................................................................1
2. METODE PENELITIAN.....................................................................................7
1
RINGKASAN
Berisi latar belakang penelitian, tujuan, metodologi, target luaran. Maksimum 250
kata.
2
1. PENDAHULUAN
1
suatu keputusan bisnis yang sangat penting(Purnama, Witanti and Nurul Sabrina,
2022).
Teknik Machine Learning dapat mengolah data yang berlimpah menjadi
informasi yang penting biasanya disebut knowledge discovery database (KDD).
Adapun metode yang digunakan dalam pengelompokan Keminatan Constumer
dalam Memilih Prodak adalah metode clustering, proses Knowledge Discovery in
Database (KDD), meliputi dugaan algoritma yang mengeksplor data, membangun
model dan menemukan pola yang belum diketahui. KDD bersifat otomatis, dapat
didefinisikan sebagai pengorganisasian proses untuk pengidentifikasian yang
benar, berguna dan penemuan pola dari kumpulan data yang besar dan
komplek(Muningsih and Kiswati, 2015).
Salah satu metode dalam machine learning yaitu Clustering atau
pengelompokan. Dari beberapa teknik Clustering yang paling sederhana dan
umum dikenal adalah algoritma K-Means. K-Means merupakan salah satu metode
data Clustering non hirarki yang mempartisi data ke dalam Cluster sehingga data
yang memiliki karakteristik yang sama dikelompokkan ke dalam satu Cluster
yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan
ke dalam kelompok lain (Lutfi and Nilogiri, 2018).
Peneliti menggunakan tambahan metode pemodelan RFM karena metode
tersebut sangat efektif untuk menganalisa segmentasi pelanggan. RFM adalah
metode yang digunakan untuk menganalisis nilai pelanggan dan segmentasi
pelanggan yang umum digunakan dalam pemasaran basis data dan pemasaran
langsung(Rachman Hakim and Soetanto, 2022).
1.2. Masalah Penelitian
Untuk menangani permasalahan yang ada, telah dilakukan penelitian
terdahulu diantaranya penelitian pertama dengan judul Analisis Penjualan Produk
Online Umkm Melalui Marketplace Dan E-Commerce Dengan Pendekatan Binary
Logistic Regression oleh Dipa Teruna dan Tedy Ardiansyah2 (2022) Metode
penelitian dilakukan dengan pendekatan kuantitatif dimana menggunakan Binary
Logistic Regression atau Regresi Berganda Binari. Data dikumpulkan dengan data
utama yaitu angket dan data pendukung yaitu buku dan jurnal, untuk data primer
menggunakan angket atau kuesioner sedangkan data sekunder menggunakan data
2
dari buku dan jurnal. Uji analisis disini adalah Case processing summary, Uji
simultan (Omnibus Test), Ekspektasi dan pengukuran asosiasi, Uji model Hosmer
and Lemeshow dan Uji model fit. Teknik analisis data antara lain berupa Uji
simultan berdasarkan tabel omnibus, hipotesistolak H0 minimal ada satu variabel
bebas (marketplace atau E-commerce) berkorelasi signifikan,pada variabel respon
(penjualan) sehingga model dapat dianalisis. model summary untuk nilai
Nagelkerke R sebesar 0.595 bahwa variabel penjualan dijelaskan dalam bentuk
model sejumlah 59.5%.dari output uji t diperoleh marketplace dan E-commerce
adalah signifikan secara statistik dikarenakan memiliki probabilitas dibawah
angka 0,05. untuk itu bahwa model regresi yang ditampilkan sangat baik dalam
memprediksi penjualan produk online UMKM(Teruna and Ardiansyah, 2021).
Penelitian kedua dengan judul Penerapan Algoritma K-Means
Menggunakan Model Recensy Frequenscy Monetary Dalam Klasterisasi
Penjualan Produk Sepatu oleh Arief Rachman Hakim dan Hari Soetanto (2022)
yang menyebutkan Selama masa pandemi Covid-19 penjualan barang atau jasa
banyak yang mengalami penurunan. Seperti yang terjadi pada toko online
Indoshoes yang mengalami penurunan penjualan sejak tahun 2021 serta
penyebaran penjualan pada setiap wilayah tidak terjual secara merata. Toko
Indoshoes memerlukan strategi yang tepat untuk mengetahui pengelompokan
peminatan pelanggan pada suatu produk. Penerapan algoritma K-Means sangat
membantu dalam pengelompokan produk berdasarkan analisis Recensy,
Frequnscy, dan Monetary (RFM). Berdasarkan pengujian pada wilayah jawa barat
didapatkan 3 data cluster, pengelompokan C1 dengan 7 produk sangat favorit, C2
dengan 83 produk tidak favorit, dan C3 dengan 16 produk lumayan
favorit(Rachman Hakim and Soetanto, 2022).
Penelitian ketiga oleh Bena Siti Ashari, Steven Christ Otniel, dan Rianto
(2019) dengan judul Perbandingan Kinerja K-Means Dengan Dbscan Untuk
Metode Clustering Data Penjualan Online Retail yang menyatakan bahwa banyak
kemudahan dalam berbelanja dan bermacam jenis produk maupun jasa yang
ditawarkan membuat masyarakat menjadikan Online Shop sebagai salah satu
sarana yang sering digunakan. Mengetahui karakteristik dari penjualan yang
terjadi merupakan suatu hal sangat bermanfaat bagi peningkatan penjualan.
3
Terdapat berbagai metode yang dapat digunakan dalam pengelompokan data,
diantaranya : K-Means dan DBSCAN. Belum diketahuinya kinerja kedua metode
ini, sehingga perlu pemahaman yang baik ketika akan menggunaknnya. Tujuan
dari penelitian ini untuk melakukan pengelompokan data penjualan menggunakan
metode K-Means dan DBSCAN. Percobaan dilakukan menggunakan dataset
sebanyak 500 data dan memiliki 3 atribut: deskripsi, kuantitas barang per
transaksi dan harga barang per unit. Hasilnya percobaan pada penelitian ini
menunjukan, penerpapan K-Means menghasilkan 3 cluster dengan masing-masing
berjumlah 103 anggota, 261anggota dan 134 anggota. Sedangkan menggunakan
DBSCAN dengan epsilon 1,005 dan minimum points 11menghasilkan 3 cluster
dengan masing-masing berjumlah 30 anggota, 47 anggota dan 347 anggota, serta
74 data noise(Ashari, Otniel and Rianto, 2019).
Penelitian keempat dengan judul Implementasi Algoritma K-Means
Clustering Untuk Pengelompokan Minat Konsumen Pada Produk Online Shop
oleh Muhammad Ali Khofi Lutfi dan Agung Nilogiri2 (2018) Dalam kegiatan
transaksi penjualan, minat konsumen terhadap penjualan suatu produk dapat
diukur dari banyaknya jumlah transaksi penjualan yang dilakuan. Nantinya
informasi tersebut dapat digunakan sebagai penentuan strategi pemasaran. Maka
dibutuhkan sebuah Teknik data mining untuk mendapatkan berbagai informasi
yang bermanfaat bagi perusahaan. K-Means merupakan salah satu metode data
clustering non hirarki yang mempartisi data ke dalam cluster sehingga data yang
memiliki karakteristik yang sama dikelompokkan ke dalam satu cluster yang sama
dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam
kelompok lain. Hasil dari penelitian ini menunjukkan bahwa jumlah Cluster
paling optimal yaitu 3 Cluster dengan nilai DBI 0.469 dari 2708 data penjualan
terdapat 50 produk merupakan anggota Cluster 1, 355 produk anggota Cluster 2
dan 2303 produk anggota Cluster 3(Lutfi and Nilogiri, 2018).
Penelitian kelima yang berjudul Klasterisasi Penjualan Pakaian Untuk
Meningkatkan Strategi Penjualan Barang Menggunakan K-Means oleh Chandra
Purnama, Wina WItanti, dan Puspita Nurul Sabrina (2022) Salah satu teknik yang
dapat digunakan untuk membantu dalam meningkatkan strategi penjualan yang
efektif yaitu dengan memanfaatkan data penjualan yang telah tersedia. Sebagai
4
bentuk efisiensi penggunaannya maka dipandang perlu menambahkan suatu
sistem yang digunakan untuk melakukan prediksi terhadap sesuatu objek.
Klasterisasi yang merupakan sebuah proses untuk mengelompokan data ke dalam
beberapa klaster atau kelompok sehingga data dalam satu klaster memiliki tingkat
kemiripan yang maksimum dan data antar klaster memiliki kemiripan yang
minimum. Data Penjualan dikelompokkan berdasarkan kemiripan data tersebut
sehingga data dengan karakteristik yang sama berada dalam satu klaster dan salah
satu atribut yang digunakan adalah jenis pakaian dan penjualan(Purnama, Witanti
and Nurul Sabrina, 2022).
Dan penelitian yang keenam dengan judul Penerapan Metode K-Means
Untuk Clustering Produk Online Shop Dalam Penentuan Stok Barang oleh Elly
Muningsih1 dan Sri Kiswati2 (2015). Manajemen stok yang dilakukan secara
tidak akurat dan asal-asalan akan menyebabkan biaya simpan yang tinggi dan
tidak ekonomis, karena bisa terjadi kekosongan atau kelebihan produk tertentu.
Hal ini tentu akan sangat merugikan semua pelaku usaha seperti halnya online
shop. Penelitian ini bertujuan untuk mengelompokkan produk yang dijual pada
online shop ragam jogja menjadi beberapa cluster untuk mengetahui produk mana
yang paling diminati sehingga jumlah stok harus banyak, produk diminati untuk
jumlah stok sedang dan produk kurang diminati untuk jumlah stok sedikit. Metode
yang digunakan pada penelitian ini adalah metode k-means yang merupakan salah
satu metode terbaik dan paling popular dalam algoritma clustering dimana k-
means mencari partisi yang optimal dari data dengan meminimalkan kriteria
jumlah kesalahan kuadrat dengan prosedur iterasi yang optimal. Variabel yang
digunakan adalah kode produk, jumlah transaksi, volume penjualan dan rata-rata
penjualan. Penelitian juga didukung dengan software rapidminer untuk
pengolahan data dengan metode k-means. Hasil akhir dari penelitian adalah
berupa suatu program aplikasi yang dapat mengelompokkan produk menjadi
kategori jumlah stok banyak, sedang dan sedikit berdasarkan transaksi
penjualan(Muningsih and Kiswati, 2015).
Setelah dilakukan perbandingan dengan meninjau hasil pengclusteran,
maka penelitian ini mengambil gap atau pembaruan berupa penggunaan satu
algoritma saja yaitu K-Means Clustering. Karena penggunaan K-Means mampu
5
mengelompokan data secara baik dibandingkan DBSCAN yang merujuk pada
jurnal no 3. Selain itu, atribut yang digunakan ada 3 : Custemer id, Quantity, dan
unit price saja yang merujuk pada jurnal no 3. Selain itu, penelitian ini
menggunakan metode KDD karena metode tersebut sangat efektif untuk
menganalisa segmentasi pelanggan yang merujuk pada jurnal no 6.
1.3. Tujuan Penelitian
Berdasarkan permasalahan pengelompokan minat customer dalam membeli
produk pada toko online, maka tujuan dari penelitian ini adalah :
1. Mengelompokkan customer berdasarkan metode K-Means clushtering
2. Mengefisienkan perusahaan dalam menargetkan customernya sesuai minat
dalam membeli produk pada toko online.
3. Mengelompokkan Pelanggan berdasarkan RFM sehingga perusahaan dapat
menargetkan pelanggannya secara efisien.
6
2. METODE PENELITIAN
Adapun metode penelitian yang digunakan dalam penelitian ini adalah
Knowledge Discovery in Databases (KDD). Metode penelitian KDD merupakan
proses penambangan data untuk menemukan informasi dan pola yang berharga
dalam data, menggunakan algoritma untuk mengidentifikasi pola dalam data.
Adapun tahapan KDD (KUSUMA et al., 2022). Langkah-langkah penelitian yang
akan dilakuka seperti yang ditunjukkan pada Gambar 1.
7
Dataset ini memiliki beberapa atribut: VoiceNo atau nomor tagihan, Kode
suplai atau kode produk untuk produk, deskripsi, atau Nama produk, kuantitas
atau kuantitas semuanya Produk per transaksi, tanggal atau tanggal invoice dan
Waktu, UnitePrice, ID Pelanggan nomor identifikasi, negara atau negara. Tapi
setelah itu Hanya tiga atribut yang digunakan dalam proses pembersihan yaitu H.
Keterangan, jumlah per transaksi dan satuan harga Hingga 500 lembar data
disimpan.
Berikut atribut dan type data yang ada dalam penelitian ini sebagai berikut :
No Nama Atribut Type Data
1. InvoiceNo (Nominal) object
2. StockCode object
3. Description object
4. Quantity int64
5. InvoiceDate (numerik) object
6. UnitPrice float64
7. CustomerID float64
8. Country object
dst
8
reduksi dimensi seperti pemilihan fitur dan ekstraksi sampel data. Selain itu, dapat
pula dilakukan transformasi atribut seperti mengubah atribut numerik menjadi
atribut diskrit atau melakukan transformasi fungsional pada atribut data. Dengan
melakukan langkah-langkah ini, data dapat dipersiapkan dengan lebih baik
sebelum dilakukan pemodelan data mining.(Muttaqin & Defriani, 2020)
Pada penelitian ini penulis tidak melakukan transformasi data karena
dataset ini sudah menggunakan format yang berupa angka, maka bisa langsung
diproses oleh algoritma k means.(Syahputra, 2022)
2.4 Data mining
Tahapan data mining terdiri dari tiga tahap utama, yaitu pemilihan model
data mining yang sesuai, pemilihan algoritma data mining yang cocok, dan
penerapan data mining. Pemilihan model data mining dilakukan berdasarkan
kebutuhan, seperti klasifikasi, regresi, atau pengelompokan. Algoritma yang
dipilih harus disesuaikan dengan model data mining yang dipilih, dengan
mempertimbangkan kelebihan dan kekurangan dari setiap algoritma tersebut.
Setelah pemilihan model dan algoritma dilakukan, proses data mining
digunakan untuk menemukan pola atau aturan baru dalam data. Algoritma data
mining dapat dijalankan berulang kali hingga mendapatkan hasil yang diinginkan.
Selama penggunaan data mining, parameter dan pengaturan kontrol algoritma
juga diatur sesuai kebutuhan. (Muttaqin & Defriani, 2020)
Dalam penelitian ini, pendekatan yang digunakan adalah metode K-
Means. Metode K-Means merupakan salah satu pendekatan dalam fungsi
clustering atau pengelompokan. Clustering mengacu pada pengelompokan data,
pengamatan atau kejadian berdasarkan kesamaan dari hal-hal yang diteliti. Cluster
adalah sekelompok data yang mirip dengan yang lain atau berbeda.
1. Menentuka banyaknya K kelompok.
2. Membagi data ke dalam K kelompok
3. Menghitung pusat kelompok (centeroid) dari data yang ada di masing
masing kelompok dan dinyatakan dalam bentuk persamaan, dimana C
adalah sentroid, M adalah banyak data dan dan j banyak kelompok.
m
1
C 1= ∑ ¿1 xj
M j
9
4. Alokasikan setiap data ke centroid terdekat
D¿¿
5. Kembali ke langkah 3, jika masih ada transfer data dari satu cluster ke
cluster lain, atau jika perubahan nilai centroid masih di atas nilai
threshold yang ditetapkan, atau jika perubahan nilai fungsi tujuan
masih di atas threshold yang telah ditentukan nilai(Mathematics,
2016).
2.5 Evaluasi
Setelah dilakukan pemodelan, selanjutnya dilakukan tahapan evaluasi
bertujuan untuk menilai kualitas hasil clustering. Dalam penelitian ini, evaluasi
clustering menggunakan Davies Bouldin Index (DBI) untuk menentukan jumlah
cluster yang paling optimal. DBI diperkenalkan oleh David L. Davies dan Donald
W. Bouldin pada tahun 1979. DBI merupakan metode yang digunakan untuk
mengukur validitas atau jumlah cluster yang paling optimal dalam suatu metode
pengelompokan. DBI mengukur kohesi dalam hal jumlah kedekatan data terhadap
titik pusat cluster yang diikuti. Evaluasi dengan DBI ini menggunakan skema
evaluasi internal cluster, dimana kualitas hasil clustering dilihat berdasarkan
kuantitas dan kedekatan data dalam setiap cluster.(Muningsih et al., 2021)
Pada tahapan ini penulis menggunakan tools google collab untuk menghitung
nilai DBI, Nilai terkecil dari DBI menunjukkan jumlah cluster paling optimal
berikut hasil perhitungan DBI menggunakan tools google collab.
10
3. Pelanggan dengan Cluster Id 2 bukanlah pembeli baru dan karenanya tidak
begitu penting dari sudut pandang bisnis.
11
DAFTAR PUSTAKA
12