WEKA
WEKA
WEKA
1.Definisi Weka
Weka ( Waikato Environment for Knowladge Analysis ) adalah aplikasidata mining open
source berbasis Java. Aplikasi ini dikembangkan pertama k a l i o l e h
Universitas Waikato di Selandia Baru. Weka terdiri dari
k o l e k s i algoritma machine learning yang dapat digunakan untuk
melakukangeneralisasi / formulasi dari sekumpulan data sampling [http://pentaho.phi-
integration.com].Algoritma ini bisa diterapkan secara langsung ke dalam dataset ataubisa
juga dipanggil dari kode java kita sendiri. Weka memiliki tools untuk datapre-processing,
classification, regression, clustering, association rules, dan visualization.Weka
mengorganisasi kelas-kelas ke dalam paket-paket dan setiapkelas di paket
dapat mereferensi kelas lain di paket lain. Paket classifiersberisi
implementasi dari hampir semua algoritma untuk klasifikasi danp r e d i k s i .
Kelas yang paling penting di paket ini adalah Classifier,
y a n g mendeklarasikan struktur umum dari skema klasifikasi dan prediksi. Kelas
inimemiliki dua metoda, yaitu buildClassifier dan classifyInstance, yang
harusdiimplementasikan oleh kelas-kelas yang menginduk ke kelas ini. Semua kelasyang
mengimplementasikan algoritma klasifikasi menginduk ke kelasClassifier, termasuk
kelas J48. J48, yang menangani himpunan data dalam format ARFF, tidak
mengandung kode untuk mengkonstruksi pohonkeputusan. Kelas ini mereferensi kelas-
kelas lain, kebanyakan di paketweka.classifiers.j48, yang mengerjakan semua proses
konstruksi pohon.Weka adalah software open source yang diterbitkan dibawah lisensiGNU
General Public License
•
Mining the data from a hyperheuristic approach using associative classification
•
Data mining approach for supply unbalance detection in induction motor
7)
Computers And Educations
•
Data mining in course management systems: Moodle case study and tutorial
8)
Biomedical Informatics
•
Data Mining
of gene expression changes in Alzheimer brain
•
Detecting novel hypermethylated genes in Breast cancerbenefiting from feature selection
•
Data Mining
and visualization for decision support and modeling of public health-care resources
•
Integrating domain knowledge with statistical and data mining methods for
high-density genomic SNP disease association analysis
9)
Energy Conversion and Management
•
Prediction of thermodynamic properties of refrigerants using data mining
10)
Industrial Ergonomics
•
Job stress evaluation using response surface data mining
11)
Environmental Management
•
A data mining approach to simulating farmers' crop choices for integrated
water resources management
12)
Production Economics
•
Learning effective new single machine dispatching rules
f r o m optimal scheduling data
13)
Computers & Security
•
Classifying
Data
from protected statistical datasets
14)
Decision Support Systems:
3
23)
Computer Aided Chemical Engineering
•
QSAR analysis of 1,4-dihydropyridine calcium channel antogonists
24)
Digital Investigation
•
Towards an integrated e-mail forensic analysis framework
25)
Computational Statistics & data Analysis
•
Taxonomy for characterizing ensemble methods in classification tasks: A review
and annotated bibliography
26)
Polymer
•
Stochastic molecular descriptors for polymers. 4. Study of complexmixtures with
topological indices of mass spectra spiral and star networks: The blood proteome
case Source :: http://www.sciencedirect.com3. Metode atau Teknik yang digunakan oleh
Software Data Mining WekaMetode yang digunakan Adalah Predictive dan
Descriptive karena W e k a m e n d u k u n g t e k n i k - t e k n i k
d a t a preprocessing,clustering, classification,regression, visualization, andfeature selection.
Semua teknik Weka adalah didasarkan pada asumsi bahwa data tersedia sebagai
flat filetunggal atau hubungan, di mana setiap titik data digambarkan oleh sejumlahtetap
atribut (biasanya, atribut numerik atau nominal, tetapi beberapa jenisa t r i b u t
l a i n n y a j u g a d i d u k u n g
) . [http://en.wikipedia.org/wiki/Weka_(machine_learning)]Algoritma yang digunakan
adalah :
1.
J48, atau kloning versi open source dari algoritma C4.5yangdapat digunakan untuk
pembentukan pohon keputusan (decision tree)
5
2.
Linear Regression , algoritma untuk menghasilkan formulasi numerik dengan
metode statistik regresi linear
3.
Naive Bayes, salah satu classifier numericClassification algorithmsDivided into:
•
Bayes – versions of probabilistic Bayesian methods
•
Functions – parameterized functions, linear and non-linear
•
Lazy – no parameter learning, all work done when classifying
•
Meta – committees, voting, boosting, stacking ... metamodels.
•
Misc – untypical models, fuzzy lattice, hyperpipes, voting features
•
Tree-building models, recursive partitioning
•
Rule learning modelsMetode pemilihan variabel dari suatu
dataset
, diantaranya
BestFirst
,
ExhautiveSearch
,
FCBFSearch
,
GeneticSearch
,
GreedyStepwise
,
RaceSearch
,
RandomSearch
,
Ranker
dan
RankerSearch
.
4. Bentuk data input dalam Software data Mining weka.
Weka menerima input data dalam format ARFF(Attribute-Relation FileFormat). Jika kita
menggunakan format file seperti CSV ((comma separated values) atau BSI (Binary
Serialized Instances) maka kita harus mengconversifile tersebut menjadi format
ARFF.. begitu pula ketika kita menggunakan format Java kita harus menginfort
terlebih dahulu menjadi format ARFF.
a.
Format ARFF
Attribute-Relation File Format ( ARFF) adalah tipe file teks yang berisiberbagai
instance
data yang berhubungand dengan suatu set atribut data yangdideskripsikan juga dalam file
tersebut.
6
Dibawah ini terdapat source data yang diambil
dari
http://www.hakank.org/weka/contact-lenses.arff
% 1. Title: Database for fitting contact lenses%% 2. Sources:% (a) Cendrowska, J. "PRISM: An
algorithm for inducingmodular rules",% International Journal of Man-Machine Studies,
1987,27, 349-370% (b) Donor: Benoit Julien ([email protected])% (c) Date: 1 August
1990%% 3. Past Usage:% 1. See above.% 2. Witten, I. H. & MacDonald, B. A.
(1988). Usingconcept% learning for knowledge acquisition. InternationalJournal of% Man-
Machine Studies, 27, (pp. 349-370).%% Notes: This database is complete (all possible
combinationsof% attribute-value pairs are represented).%% Each instance is complete and correct.
%% 9 rules cover the training set.%% 4. Relevant Information Paragraph:% The
examples are complete and noise free.% The examples highly simplified the problem. Theattributes
do not% fully describe all the factors affecting the decision asto which type,% if any, to fit.%% 5.
Number of Instances: 24%% 6. Number of Attributes: 4 (all nominal)%% 7. Attribute
Information:% -- 3 Classes% 1 : the patient should be fitted with hard contactlenses,%
2 : the patient should be fitted with soft contactlenses,% 1 : the patient should not be fitted
with contactlenses.%% 1. age of the patient: (1) young, (2) pre-presbyopic, (3)presbyopic% 2.
spectacle prescription: (1) myope, (2) hypermetrope
7
% 3. astigmatic: (1) no, (2) yes% 4. tear production rate: (1) reduced, (2) normal%% 8. Number of
Missing Attribute Values: 0%% 9. Class Distribution:% 1. hard contact lenses: 4% 2.
soft contact lenses: 5% 3. no contact lenses: 15@relation contact-lenses@attribute age {young,
pre-presbyopic,presbyopic}@attribute spectacle-prescrip {myope,
hypermetrope}@ a t t r i b u t e a s t i g m a t i s m { n o ,
y e s } @attribute tear-prod-rate {reduced, normal}@attribute
c o n t a c t - l e n s e s { s o f t , h a r d , n o n e } @data%% 24 instances
%young,myope,no,reduced,noneyoung,myope,no,normal,softyoung,myope,yes,reduced,noneyoung,myope,yes,no
rmal,hardyoung,hypermetrope,no,reduced,noneyoung,hypermetrope,no,normal,softyoung,hypermetrope,yes,reduce
d,noneyoung,hypermetrope,yes,normal,hardpre-presbyopic,myope,no,reduced,nonepre-
presbyopic,myope,no,normal,softpre-presbyopic,myope,yes,reduced,nonepre-
presbyopic,myope,yes,normal,hardpre-presbyopic,hypermetrope,no,reduced,nonepre-
presbyopic,hypermetrope,no,normal,softpre-presbyopic,hypermetrope,yes,reduced,nonepre-
presbyopic,hypermetrope,yes,normal,nonepresbyopic,myope,no,reduced,nonepresbyopic,myope,no,normal,nonepr
esbyopic,myope,yes,reduced,nonepresbyopic,myope,yes,normal,hardpresbyopic,hypermetrope,no,reduced,nonepre
sbyopic,hypermetrope,no,normal,softpresbyopic,hypermetrope,yes,reduced,nonepresbyopic,hypermetrope,yes,nor
mal,none
b.
CSV to ARFF
8
Cara Menconversi data SCV menjadi ARFF
1.
Buka Weka GuI
2.
Pilih menu ExplorerKita Akan diarahkan menuju WEKA EXplorer
3.
Pilih menu open File
4.
Maka akan muncul tampilan seperti berikut
9
5.
Pilih Use Converter, Maka data kita akan di convert menjadi format Arff.
10
Isi
doc
This is a private document.
0 5 false false 0
Radhiyatul Fajri
Related Documents
PreviousNext
1.
p.
p.
p.
2.
p.
p.
p.
3.
p.
p.
p.
4.
p.
p.
p.
5.
p.
p.
p.
6.
p.
p.
p.
7.
p.
PreviousNext
1.
19 p.
Recent Readcasters
Add a Comment
ba8718575e7443
Submit
Characters: 400
document_comme
4gen
ba8718575e7443
public - locked
Upload a Document
Search Documents
Follow Us!
scribd.com/scribd
twitter.com/scribd
facebook.com/scribd
About
Press
Blog
Partners
Scribd 101
Web Stuff
Scribd Store
Support
FAQ
Developers / API
Jobs
Terms
Copyright
Privacy