UTS DATA MINING 04317043 - Defis Christiyanto - Kelas C
UTS DATA MINING 04317043 - Defis Christiyanto - Kelas C
UTS DATA MINING 04317043 - Defis Christiyanto - Kelas C
DISUSUN OLEH :
Defis Christiyanto 04317043
Data:
1. Fakta, Rangkaian fakta yang mewakili suatu kejadian,
2. Fakta singkat,
3. Simbol yang terekam
Contoh :
Umur, nilai test, kode mata kuliah, nama orang tua, jumlah pasien, warna mobil, luas tanah,
ukuran sepatu, jenis rambut, harga motor.
Informasi :
1. Hasil pemrosesan data
2. Data yang terkumpul, terproses dan bermakna
3. Properti terstruktur hasil dari proses data
4. Data yang memiliki arti
5. Data dalam suatu konteks
Contoh:
1. Lulusan paling muda periode wisuda April
2. Rata-rata IPK lulusan periode wisuda Oktober
3. Jadwal kuliah semester genap
4. Peringkat mobil terlaris th 2008
5. Profil kredit motor dalam 5 tahun
Pengetahuan :
1. Hasil internalisasi informasi
2. Informasi yang tersimpan tentang area perhatian tertentu
3. Informasi dengan arah atau maksud yang mendukung suatu keputusan
atau aksi 4. Hasil perkembangan dari hubungan orang dan hal yang
dipahaminya
5. Hasil dari memahami informasi
Contoh:
1. Saya harus mulai menginjak rem, jika tidak saya bisa ditilang.
2. Tapi banyak orang di Jakarta justru mempercepat mobilnya sebelum lampu merah
menyala.
3. Jika saya tidak mempercepat mobil, saya bisa ditabrak dari belakang.
Fungsi Data mining adalah mengidentifikasi fakta- fakta atau kesimpulan-kesimpulan yang
di sarankan berdasarkan penyaringan melalui data untuk menjelajahi pola-pola atau anomali-
anomali data. Data Mining mempunyai 5 fungsi:
Exploratory Menganalisis data untuk hubungan yang baru yang tidak di harapkan,
seperti halnya pola apa yang cocok untuk kasus penggelapan kartu kredit.
Fase-fase dimulai dari data mentah dan berakhir dengan pengetahuan atau informasi yang
telah diolah, yang didapatkan sebagai hasil dari tahapan-tahapan berikut:
1. Data Cleansing, juga dikenal sebagai data cleansing, ini adalah sebuah fase dimana
data-data tidak lengkap, mengndung error dan tidk konsisten dibuang dari koleksi
data, sehingga data yang telah bersih relevan dapat digunakan untuk diproses ulang
untuk penggalian pengetahuan(discovery knowledge)
2. Data Integration, pada tahap ini terjadi integrasi data,dimana sumber-sumber data
yang berulang(multiple data), file-file yang berulang(multiple file), dapat
dikombinasikan dan digabungkan kedalam suatu sumber.
3. Selection, pada langkah ini, data yang relevan terhadap analisis dapat dipilih dan
diterima dari koleksi data yang ada.
4. Data Transformation, juga dikenal sebagai data consolidation. Pada tahap ini, dimana
data-data yang telah terpilih, ditransformasikan kedalam bentuk-bentuk yang cocok
untuk prosedur penggalian (meaning proedure) dengan cara melakukan normalisasi
dan agregasi data.
5. Data Mining, tahap ini adalah tahap yang paling penting, dengan menggunakan
teknik-teknik yang diaplikasikan untuk mengekstrak pola-pola potensial yang
berguna.
6. Pattern Evaluation, pada tahap ini, pola-pola menarik dengan jelas mempresentasikan
pengetahuan telah diidentifikasi berdasarkan measure yang telah diberikan.
7. Knowledge Representation, ini merupakan tahap terakhir dimana pengetahuan yang
telah ditemukan secara visual ditampilkan kepada user.Tahap penting ini
menggunakan teknik visualisasi untuk membantu user dalam mengerti dan
menginterpresentasikan hasil dari data mining
Pertemuan 3
Data Mining pada Sosial Media
Menurut statistika disebutkan bahwa pengguna aktif twitter di Indonesia per mei
2016 mencapai 24,34 juta. Angka ini menduduki peringkat ketiga dunia setelah
Negeri Paman Sam (67,54 juta) dan India (41,19 juta). Hal ini tentu tidak dilewatkan
begitu saja oleh perusahaan sebesar twitter. Sejumlah data tersebut bertambah setiap
harinya dimana oleh pihak twitter dijadikan sebuah riset atau penelitian dari salah
satu topik yaitu big data dalam sosial media khususnya twitter. Dalam big data ini
dapat kita tinjau dari salah satu sub topik yaitu trending topic dalam hastag twitter.
Dari trending topic ini dapat dilakukan penelitian salah satunya yaitu melihat per hari
ini atau bahkan per detik topik apa yang sedang hangat dibicarakan, kemudian kita
juga bisa melihat pengaruh suatu akun twitter terhadap followernya, dimana dijaman
era sekarang seseorang yang mempunyai banyak follower aktif nyata bukan follower
maya dimanfaatkan sebagai jalur suatu iklan produk atau jasa, yang saat ini dikenal
dengan kata endorse. Selain itu juga hastag dalam twitter dapat memprediksi sifat-
sifat dari akun twitter seorang, misalnya suatu akun twitter dari kebanyakan
postingan hastagnya membicarakan mengenai memasak, IT, olahraga atau yang
lainnya dan lain sebagainya manfaat hastag twitter dalam penelitian.
Pertemuan 4
Pemanfaatan aplikasi data mining
Manusia sehari hari memproduksi berbagai data yang sangat besar seperti data
bisnis ,kedokteran,data ekonomi,data cuaca dan data olahraga. Dari konsep data
mining ini adalah entitas yang tidak memiliki arti dan selama ini terabaikan
Data mining displin ilmu yang mengolah data atau himpunan data yang sangat
besar .yang diolah menjadi satu pengetahuan ,satu pola sehingga bisa dimanfaat
kan untuk manusia untuk memprediksi satu kejadian kedepan dari kehidupan
manusia.
Keuntungan penggunan adalah bahwa metoda ini hanya membutuhkan jumlah data pelatihan
(training data) yang kecil untuk menentukan estimasi parameter yg diperlukan dalam proses
pengklasifikasian. Karena yg diasumsikan sebagai variabel independent, maka hanya varians
dari suatu variabel dalam sebuah kelas yang dibutuhkan untuk menentukan klasifikasi, bukan
keseluruhan dari matriks kovarians.
Kekurangan:
Asumsi independence antar atribut membuat akurasi berkurang (karena biasanya ada
keterkaitan)
Contoh penghitungan Naive Bayes
Gambar 1
Kemudian untuk data testing, dipilih salah satu data pada data training seperti Gambar 2.
Harapannya, naive bayes mampu mengklasifikasi kelas irama dari data testing yang dipilih.
Gambar 2
Gambar 3
Mengacu pada Gambar 3, rumus menentukan probabilitas tiap kelas irama = C6/$C$13
kemudian geser ke bawah hingga C12.
Proses 2: Menghitung Mean dari Atribut Tiap Kelas Irama
Gambar 4
Berdasarkan Gambar 4, berikut ini rumus untuk menghitung mean (average) tiap-tiap kelas
irama. Ingat! penentuan mean tergantung lokasi kolom data training. Lihat Gambar 1 jika
bingung. =AVERAGE(J5:J14) untuk Mean Min Amp irama Bayyati, lanjutkan hingga
nahawan. =AVERAGE(K5:K14) untuk Mean Max Amp irama Bayyati, lanjutkan hingga
nahawan. =AVERAGE(L5:L14) untuk Mean Sudut Turun irama Bayyati, lanjutkan hingga
nahawan. =AVERAGE(M5:M14) untuk Mean Sudut Naik irama Bayyati, lanjutkan hingga
nahawan.
Gambar 5
Berdasarkan Gambar 5, berikut ini rumus untuk menghitung standart deviasi (simpangan
baku) tiap-tiap kelas irama. Ingat! penentuan simpangan baku juga tergantung lokasi kolom
data training. Lihat Gambar 1 jika bingung.
=STDEV.P(J5:J14) untuk SD Min Amp irama Bayyati, lanjutkan hingga
nahawan. =STDEV.P(K5:K14) untuk SD Max Amp irama Bayyati, lanjutkan
hingga nahawan. =STDEV.P(L5:L14) untuk SD Sudut Turun irama Bayyati,
lanjutkan hingga nahawan. =STDEV.P(M5:M14) untuk SD Sudut Naik irama
Bayyati, lanjutkan hingga nahawan.
Proses 4: Menghitung Distribusi Normal dari Atribut Tiap Kelas Irama
Gambar 6
Berdasarkan Gambar 6, berikut ini rumus untuk menghitung distribusi normal dari tiap-tiap
kelas irama.
Proses 5: Hitung Probabilitas tiap Kelas Irama dan Klasifikasi Hasil Akhir
Irama
Gambar 7
Berdasarkan Gambar 7, berikut ini rumus untuk menghitung probabilitas dari tiap kelas
irama. =D6*C37*D37*E37*F37