UTS DATA MINING 04317043 - Defis Christiyanto - Kelas C

Unduh sebagai docx, pdf, atau txt
Unduh sebagai docx, pdf, atau txt
Anda di halaman 1dari 13

UJIAN TENGAH SEMESTER

MATA KULIAH PENGGALIAN DATA DAN ANALITIKA

BISNIS RANGKUMAN MATERI PERTEMUAN

DISUSUN OLEH :
Defis Christiyanto 04317043

UNIVERSITAS NAROTAMA SURABAYA


FAKULTAS ILMU KOMPUTER
SISTEM INFORMASI
2021
DATA, INFORMASI DAN PENGETAHUAN
Didalam bukunya Mike Powell, Information Management for Development Organizations.
Menurut Mike Powell, Data adalah koleksi terstruktur dari kumpulan fakta (structured
collection of quantitative facts), Informasi adalah data atau fakta dengan arti (data or facts
with meaning) dan Pengetahuan merupakan hasil atau keluaran atau nilai dari informasi
(producing significance or value from information).

Data:
1. Fakta, Rangkaian fakta yang mewakili suatu kejadian,
2. Fakta singkat,
3. Simbol yang terekam

Contoh :
Umur, nilai test, kode mata kuliah, nama orang tua, jumlah pasien, warna mobil, luas tanah,
ukuran sepatu, jenis rambut, harga motor.

Informasi :
1. Hasil pemrosesan data
2. Data yang terkumpul, terproses dan bermakna
3. Properti terstruktur hasil dari proses data
4. Data yang memiliki arti
5. Data dalam suatu konteks

Contoh:
1. Lulusan paling muda periode wisuda April
2. Rata-rata IPK lulusan periode wisuda Oktober
3. Jadwal kuliah semester genap
4. Peringkat mobil terlaris th 2008
5. Profil kredit motor dalam 5 tahun

Pengetahuan :
1. Hasil internalisasi informasi
2. Informasi yang tersimpan tentang area perhatian tertentu
3. Informasi dengan arah atau maksud yang mendukung suatu keputusan
atau aksi 4. Hasil perkembangan dari hubungan orang dan hal yang
dipahaminya
5. Hasil dari memahami informasi

Contoh:
1. Saya harus mulai menginjak rem, jika tidak saya bisa ditilang.
2. Tapi banyak orang di Jakarta justru mempercepat mobilnya sebelum lampu merah
menyala.
3. Jika saya tidak mempercepat mobil, saya bisa ditabrak dari belakang.

Istilah dalam Data Mining

 Knowledge Presentation (di mana gambaran teknik visualisasi dan pengetahuan


digunakan untuk memberikan pengetahuan yang telah ditambang kpada user).
 Data Selection (di mana data yang relevan dengan tugas analisis dikembalikan ke
dalam database)
 Data Transformation (di mana data berubah atau bersatu menjadi bentuk yang tepat
untuk menambang dengan ringkasan performa atau operasi agresi)
 Data Cleaning (untuk menghilangkan noise data yang tidak konsisten)
 Data Integration (di mana sumber data yang terpecah dapat disatukan)
 Data Mining (proses esensial di mana metode yang intelejen digunakan untuk
mengekstrak pola data)
 Pattern Evolution (untuk mengidentifikasi pola yang benar-benar menarik yang
mewakili pengetahuan berdasarkan atas beberapa tindakan yang menarik)

Fungsi Data Mining

Fungsi Data mining adalah mengidentifikasi fakta- fakta atau kesimpulan-kesimpulan yang
di sarankan berdasarkan penyaringan melalui data untuk menjelajahi pola-pola atau anomali-
anomali data. Data Mining mempunyai 5 fungsi:

 Classification, yaitu menyimpulkan definisi-definisi karakteristik sebuah grup.


Contoh: pelanggan-pelanggan perusahaan yang telah berpindah kesaingan perusahaan
yang lain.

 Clustering, yaitu mengindentifikasikan kelompok-kelompok dari barang-barang atau


produk-produk yang mempunyai karakteristik khusus(clustering berbeda dengan
classification, dimana pada clustering tidak terdapat definisi-definisi karakteristik
awak yang di berikan pada waktu classification.)

 Association, yaitu mengidentifikasikan hubungan antara kejadian-kejadian yang


terjadi pada suatu waktu, seperti isi-isi dari keranjang belanja.

 Sequencing Hampir sama dengan association, sequencing mengidentifikasikan


hubungan-hubungan yang berbeda pada suatu periode waktu tertentu, seperti
pelanggan-pelanggan yang mengunjungi supermarket secara berulang-ulang.
 Forecasting memperkirakan nilai pada masa yang akan datang berdasarkan pola-pola
dengan sekumpulan data yang besar, seperti peramalan permintaan pasar.

Tujuan Data Mining

 Explanatory adalah Untuk menjelaskan beberapa kondisi penelitian, seperti mengapa


penjualan truk pick up meningkat di colorado.
 Confirmatory Untuk mempertegas hipotesis, seperti halnya 2 kali pendapatan
keluarga lebih suka di pakai untuk membeli peralatan keluarga, di bandingkan dengan
satu kali pendapatan keluarga.

 Exploratory Menganalisis data untuk hubungan yang baru yang tidak di harapkan,
seperti halnya pola apa yang cocok untuk kasus penggelapan kartu kredit.

Proses Data Mining

Fase-fase dimulai dari data mentah dan berakhir dengan pengetahuan atau informasi yang
telah diolah, yang didapatkan sebagai hasil dari tahapan-tahapan berikut:

1. Data Cleansing, juga dikenal sebagai data cleansing, ini adalah sebuah fase dimana
data-data tidak lengkap, mengndung error dan tidk konsisten dibuang dari koleksi
data, sehingga data yang telah bersih relevan dapat digunakan untuk diproses ulang
untuk penggalian pengetahuan(discovery knowledge)
2. Data Integration, pada tahap ini terjadi integrasi data,dimana sumber-sumber data
yang berulang(multiple data), file-file yang berulang(multiple file), dapat
dikombinasikan dan digabungkan kedalam suatu sumber.
3. Selection, pada langkah ini, data yang relevan terhadap analisis dapat dipilih dan
diterima dari koleksi data yang ada.
4. Data Transformation, juga dikenal sebagai data consolidation. Pada tahap ini, dimana
data-data yang telah terpilih, ditransformasikan kedalam bentuk-bentuk yang cocok
untuk prosedur penggalian (meaning proedure) dengan cara melakukan normalisasi
dan agregasi data.
5. Data Mining, tahap ini adalah tahap yang paling penting, dengan menggunakan
teknik-teknik yang diaplikasikan untuk mengekstrak pola-pola potensial yang
berguna.
6. Pattern Evaluation, pada tahap ini, pola-pola menarik dengan jelas mempresentasikan
pengetahuan telah diidentifikasi berdasarkan measure yang telah diberikan.
7. Knowledge Representation, ini merupakan tahap terakhir dimana pengetahuan yang
telah ditemukan secara visual ditampilkan kepada user.Tahap penting ini
menggunakan teknik visualisasi untuk membantu user dalam mengerti dan
menginterpresentasikan hasil dari data mining
Pertemuan 3
Data Mining pada Sosial Media

Menurut statistika disebutkan bahwa pengguna aktif twitter di Indonesia per mei
2016 mencapai 24,34 juta. Angka ini menduduki peringkat ketiga dunia setelah
Negeri Paman Sam (67,54 juta) dan India (41,19 juta). Hal ini tentu tidak dilewatkan
begitu saja oleh perusahaan sebesar twitter. Sejumlah data tersebut bertambah setiap
harinya dimana oleh pihak twitter dijadikan sebuah riset atau penelitian dari salah
satu topik yaitu big data dalam sosial media khususnya twitter. Dalam big data ini
dapat kita tinjau dari salah satu sub topik yaitu trending topic dalam hastag twitter.
Dari trending topic ini dapat dilakukan penelitian salah satunya yaitu melihat per hari
ini atau bahkan per detik topik apa yang sedang hangat dibicarakan, kemudian kita
juga bisa melihat pengaruh suatu akun twitter terhadap followernya, dimana dijaman
era sekarang seseorang yang mempunyai banyak follower aktif nyata bukan follower
maya dimanfaatkan sebagai jalur suatu iklan produk atau jasa, yang saat ini dikenal
dengan kata endorse. Selain itu juga hastag dalam twitter dapat memprediksi sifat-
sifat dari akun twitter seorang, misalnya suatu akun twitter dari kebanyakan
postingan hastagnya membicarakan mengenai memasak, IT, olahraga atau yang
lainnya dan lain sebagainya manfaat hastag twitter dalam penelitian.
Pertemuan 4
Pemanfaatan aplikasi data mining

Manusia sehari hari memproduksi berbagai data yang sangat besar seperti data
bisnis ,kedokteran,data ekonomi,data cuaca dan data olahraga. Dari konsep data
mining ini adalah entitas yang tidak memiliki arti dan selama ini terabaikan

Data mining displin ilmu yang mengolah data atau himpunan data yang sangat
besar .yang diolah menjadi satu pengetahuan ,satu pola sehingga bisa dimanfaat
kan untuk manusia untuk memprediksi satu kejadian kedepan dari kehidupan
manusia.

Ada beberapa tiga kunci dari data mining :

1. Himpunan data : data terstruktur yang terdiri


attribute/feature,class/label/target. Sedangkan tipe data nya nominal
adalah data yang tidak bisa dikalkulasi hanya bisa dikurang ditambah
,numerik yang bisa dikalkulasi
2. Metode data mining
3. Pengetahuan
4. Metode data mining
5. Metode Estimasi
➢ Metode estimasi mirip dengan algoritma klasifikasi, tapi variabel target
adalah berupa bilangan numerik (kontinyu)dan bukan kategorikal
(nominal atau diskrit).
Estimasi nilai dari variabel target ditentukan berdasarkan nilai dari varibel
prediktor (atribut) metode estimasi yang biasa digunakan adalah : Linear
Regression, Neural Network, Support Vector Machine
➢ Metode Prediksi :
metode prediksi/forecasting saa dengan algoritma estimasi di mana
label/target/class bertipe numerik, bedanya adalah data yang digunakan
merupakan data rentet waktu (data time series) Istilah prediksi kadang
digunakan juga untuk klasifikasi, tidak hanya untuk prediksi time series, karena
sifatnya yang bisa menghasilkan class berdasarkan berbagai atribut yang
disediakan Semua algoritma estimasi dapat digunakan untuk prediksi
➢ Metode Klasifikasi :
Klasifikasi adalah algoitma yang menggunakan data dengan target/class/label
berupa nilai kategorikal (nominal)
Contoh, apabila target/class/label adalah pendapatan, maka bisa
digunakan nilai nominal (kategorikal) sbb : pendapatan besar,
menengah, kecil
Algoritma klasifikasi yang biasa digunakan adalah : Naive Bayes, K-Nearest
Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis,dll
➢ Metode Klastering :
Klastering adalah pengelompokan data, hasil observasi dan kasus ke dalam
class yang mirip Suatu klaster adalah koleksi data yang mirip antara satu
dengan yang lain, dan memiliki perbedaan bila dibandingkan dengan data dari
klaster lain Perbedaan utama algoritma klastering dengan klasifikasi adalah
klastering tidak memiliki target/class/label, jadi termasuk unsupervised
learning Klastering sering digunakan sebagai tahap awal dalam proses data
mining, dengan hasil klaster yang terbenuk akan menjadi input dari algoritma
berikutnya yang digunakan.
➢ Metode Asosiasi
Algoritma association rule adalah metode yang menemukan atribut yang
“muncul bersamaan” Dalam dunia bisnis, sering disebut juga dengan affinity
analysis atau market basket analysis. akan mencari aturan yang menghitung
hubungan diantara dua atau lebih atribut
metode association rules berangkat dari pola “if antecedent, then
consequent,” bersamaan dengan pengukuran support (coverage) dan
confidence (accuration) yang terasosiasi dalam aturan.diantaranya adalah : A
priori algorithm, FP-Growth algorithm, GRI algorithm
METODE NAIVE BAYES
Algoritma Naive Bayes merupakan sebuah metoda klasifikasi menggunakan metode
probabilitas dan statistik yg dikemukakan oleh ilmuwan Inggris Thomas Bayes. Algoritma
Naive Bayes memprediksi peluang di masa depan berdasarkan pengalaman di masa
sebelumnya sehingga dikenal sebagai Teorema Bayes. Ciri utama dr Naïve Bayes Classifier
ini adalah asumsi yg sangat kuat (naïf) akan independensi dari masing-masing kondisi /
kejadian.

Keuntungan penggunan adalah bahwa metoda ini hanya membutuhkan jumlah data pelatihan
(training data) yang kecil untuk menentukan estimasi parameter yg diperlukan dalam proses
pengklasifikasian. Karena yg diasumsikan sebagai variabel independent, maka hanya varians
dari suatu variabel dalam sebuah kelas yang dibutuhkan untuk menentukan klasifikasi, bukan
keseluruhan dari matriks kovarians.

Tahapan dari proses algoritma Naive Bayes


Tahapan proses Algoritma Naive Bayes sebagai berikut:
1. Menghitung jumlah kelas / label.
2. Menghitung Jumlah Kasus Per Kelas
3. Kalikan Semua Variable Kelas
4. Bandingkan Hasil Per Kelas

Kelebihan & Kekurangan Naive Bayes


Kelebihan:
1. Mudah untuk dibuat
2. Hasil bagus

Kekurangan:
Asumsi independence antar atribut membuat akurasi berkurang (karena biasanya ada
keterkaitan)
Contoh penghitungan Naive Bayes
Gambar 1
Kemudian untuk data testing, dipilih salah satu data pada data training seperti Gambar 2.
Harapannya, naive bayes mampu mengklasifikasi kelas irama dari data testing yang dipilih.

Gambar 2

Proses 1: Menghitung Probabilitas Tiap Kelas Irama

Gambar 3

Mengacu pada Gambar 3, rumus menentukan probabilitas tiap kelas irama = C6/$C$13
kemudian geser ke bawah hingga C12.
Proses 2: Menghitung Mean dari Atribut Tiap Kelas Irama

Gambar 4

Berdasarkan Gambar 4, berikut ini rumus untuk menghitung mean (average) tiap-tiap kelas
irama. Ingat! penentuan mean tergantung lokasi kolom data training. Lihat Gambar 1 jika
bingung. =AVERAGE(J5:J14) untuk Mean Min Amp irama Bayyati, lanjutkan hingga
nahawan. =AVERAGE(K5:K14) untuk Mean Max Amp irama Bayyati, lanjutkan hingga
nahawan. =AVERAGE(L5:L14) untuk Mean Sudut Turun irama Bayyati, lanjutkan hingga
nahawan. =AVERAGE(M5:M14) untuk Mean Sudut Naik irama Bayyati, lanjutkan hingga
nahawan.

Proses 3: Menghitung Standart Deviasi dari Atribut Tiap Kelas Irama

Gambar 5
Berdasarkan Gambar 5, berikut ini rumus untuk menghitung standart deviasi (simpangan
baku) tiap-tiap kelas irama. Ingat! penentuan simpangan baku juga tergantung lokasi kolom
data training. Lihat Gambar 1 jika bingung.
=STDEV.P(J5:J14) untuk SD Min Amp irama Bayyati, lanjutkan hingga
nahawan. =STDEV.P(K5:K14) untuk SD Max Amp irama Bayyati, lanjutkan
hingga nahawan. =STDEV.P(L5:L14) untuk SD Sudut Turun irama Bayyati,
lanjutkan hingga nahawan. =STDEV.P(M5:M14) untuk SD Sudut Naik irama
Bayyati, lanjutkan hingga nahawan.
Proses 4: Menghitung Distribusi Normal dari Atribut Tiap Kelas Irama
Gambar 6

Berdasarkan Gambar 6, berikut ini rumus untuk menghitung distribusi normal dari tiap-tiap
kelas irama.

=NORM.DIST($G$6,C17,C27,TRUE) untuk DN Min Amp pada irama bayyati. $G$6


adalah data testing untuk atribut min amplitudo, C17 adalah mean irama bayyati untuk
atribut min amplitudo dan C27 adalah standart deviasi irama bayyati untuk min amplitudo.
Dari contoh ini, anda bisa melanjutkan sendiri untuk irama dan atribut lain.

Proses 5: Hitung Probabilitas tiap Kelas Irama dan Klasifikasi Hasil Akhir
Irama

Gambar 7
Berdasarkan Gambar 7, berikut ini rumus untuk menghitung probabilitas dari tiap kelas
irama. =D6*C37*D37*E37*F37

D6 adalah probabilitas kelas irama bayyati (lihat Gambar 3)


C37 adalah distribusi normal Min Amplitudo untuk irama bayyati
D37 adalah distribusi normal Max Amplitudo untuk irama bayyati
E37 adalah distribusi normal Sudut Turun untuk irama bayyati
F37 adalah distribusi normal Sudut Naik untuk irama bayyati
Kemudian, berikut ini rumus untuk menentukan hasil akhir klasifikasi irama, sehingga
langsung muncul label kelas irama yang memiliki probabilitas tertinggi.
=VLOOKUP(MAX(C47:C53),C47:D53,2,FALSE) untuk menampilkan label kelas irama.
Pada Gambar 7, tampil kelas irama "jiharka".
=MAX(C47:C53) untuk menentukan nilai probabilitas tertinggi. Pada Gambar 7, tampil nilai
0.01094

Anda mungkin juga menyukai