Makalah Analisis Komponen Utama
Makalah Analisis Komponen Utama
Makalah Analisis Komponen Utama
Disusun Oleh :
Riwanti Novi Antika (20106010004)
Reni Hidayanti (20106010011)
Zulaeka Ritasari (20106010042)
Page | ii
KATA PENGANTAR
Puji syukur atas kehadirat Allah, karna atas limpahan taufik, serta hidayah-Nya, sehingga
saya dapat menyelesaikan tugas makalah yang berjudul “Penerapan Minimum Cofariance
Determinant Analisis Komponen Utama” ini tepat pada waktunya. Adapun tujuan dari
penulisan Makalah ini diajukan untuk memenuhi tugas mata kuliah Kapita Selekta Statistika
yang diampu oleh Dr.Epha Diana Supandi,S.Si.,M.Sc..Makalah disusun berdasarkan data-
data yang diperoleh dari beberapa referensi yang berkaitan dengan mata kuliah keuangan
islam. Kami mengucapakan terimakasih kepada Dr.Epha Diana Supandi,S.Si.,M.Sc.A atas
bimbingan, arahan dan masukan dalam penulisan makalah ini.
Semoga makalah ini dapat bermanfaat bagi mahasiswa jurusan Matematika UIN
Sunan Kalijaga khususnya dan bagi para pembaca pada umumnya. Kami berharap makalah
ini dapat meningkatkan pemahaman dan pengetahuan tentang “Penerapan Minimum
Cofariance Determinant Analisis Komponen Utama”. Saya menyadari banyak kekurangan
dalam penyusunan makalah ini, untuk itu kritik dan saran yang membangun senantiasa saya
harapkan demi perbaikan makalah menjadi lebih baik.
Page | iii
BAB I
PENDAHULUAN
1.1. Latar Belakang
Analisis regresi linier merupakan teknik dalam statistika yang digunakan untuk
membentuk model hubungan antara variabel dependen dengan satu atau lebih variabel
independen. Dalam analisis regresi dibedakan dua jenis variabel yaitu variabel
dependen dan variabel independen. Regresi linier yang terdiri dari satu variabel
dependen dan satu variable independen disebut regresi linier sederhana, sedangkan
regresi linier yang terdiri dari satu variable dependen dan beberapa variable independen
disebut regresi linier berganda. Hubungan antar variabel-variabel tersebut dapat
dinyatakan dalam model matematika.Bentuk umum model regresi linier:
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑘 𝑋𝑘 + 𝜀
Keterangan :
𝑌 = variabeldependen
𝛽0 , 𝛽1 , … , 𝛽𝑘 = koefisienregresi
𝑋1 , 𝑋2 , … , 𝑋𝑘 = variabel independent
𝜀 = error
Salah satu tujuan dalam analisis regresi adalah untuk mengestimasi rata-rata
populasi atau nilai rata-rata variabel dependen berdasarkan nilai variabel independen
yang diketahui. Hasil dari analisis regresiberupa koefisien regresi untuk masing-
masing variabel independen.Pada umumnya digunakan metode estimasi kuadrat
terkecil untuk mengestimasi koefisien regresi. Metodekuadrat terkecil adalah suatu
metode yang digunakan untuk mengestimasi koefisien garis 2 regresi dengan cara
meminimumkan jumlah kuadrat residual. Penggunaan metode kuadrat terkecil
memerlukan beberapa asumsi klasik yang harus dipenuhi. Beberapa asumsi itu antara
lain:
1.1.1. 𝜀 merupakan variabel random dan mengikuti distribusi normal,
1.1.2. Varian s dari 𝜀 adalah konstan dan homoskedastisitas,
1.1.3. Tidak ada autokorelasi,
1.1.4. Tidak ada multikolinieritas di antara variabel independent.
Asumsi ini tidak selaluterpenuhi sehingga penggunaan metodekuadrat terkecil
kurangtepat. Salah satu penyebab tidak terpenuhinyaasumsiklasik adalah adanya
outlier. Outlier adalah satu atau beberapa data yang terlihat jauh dari pola kumpulan
data keseluruhan. Adanya outlier dalam metode kuadrat terkecil mengakibatkan
Page | 1
estimasi koefisien garis regresi yang diperoleh tidak tepat. Hal iniberartinilaiestimasi
parameter-parameter dalam model regresi linier dapat dipengaruhi oleh satu titik data
ekstrim yang merupakan outlier. Pendeteksian outlier merupakan tahapan diagnosis
yang perlu dilakukan. Metode pendeteksian outlier dapat dilakukan dengan bebera
pametode, antara lain metode boxplot, standardized residual, dan Cook’s Distance.
Mengabaikan masalah outlier dalam data dapat mengakibatkan kesimpulan kurang
akurat. Sementara, membuang outlier bukanlah tindakan yang bijaksana, karena suatu
outlier dapat memberikan informasi cukup berarti. Oleh karena itu diperlukan suatu
alternatif terhadap keberadaan outlier, yaitu dengan regresi robust.
Regresirobustmerupakanmetoderegresi yang digunakanketikadistribusidari
error tidak normal dan atauadanyabeberapa outlier yang berpengaruh pada model.
Metodeinimerupakanalatpentinguntukmenganalisis data yang dipengaruhi outlier
sehinggadihasilkan model yang robust atauresistenterhadap outlier. Suatuestimasi yang
resisten adalah estimasi yang relatif tidak terpengaruh oleh perubahan besar pada
bagian kecil data atau perubahan kecil pada bagian besar data.
Regresi robust terdiri dari 6 metode estimasi, yaitu estimasi-M (Maximum
Likelihood), estimasi-LMS (Least Median Squares), estimasi-LTS (Least Trimmed
Squares), estimasi-MM (Method of Moment), estimasi-S (Scale), dan MCD.
Kelimametoderegresitersebutmempunyaikelebihan dan kelemahan masing-masing.
Makalah ini akan membahas mengenai analisis regresi robust dengan metode estimasi-
MCD.
1.2. Tujuan
Secara keseluruhan, makalah ini dibuat bertujuan untuk menginformasikan prosedur
analisis regresi robust. Metode yang digunakan adalah metode estimasi-MCD. Dalam
hal ini, penulis akan memaparkan contoh kasus dan penyelesaiannya menggunakan
metode estimasi-MCD. Adapun software pendukung yang digunakan adalah r-studio.
Page | 2
BAB II
LANDASAN TEORI
2.1. Analisis Multivariat
Analisis statistik multivariat merupakan metode dalam melakukan penelitian
terhadap lebih dari dua variabel secara bersamaan. Dengan menggunakan teknik
analisis ini maka kita dapat menganalisis pengaruh beberapa variabel terhadap variabel
lainnya dalam waktu yang bersamaan. Berdasarkan hubungan antarvariabel, analisis
multivariat dapat dibedaka nmenjadi dependence techniques dan interdependence
techniques. Dalam dependence techniques, terdapat dua jenis variabel, yaitu variabel
terikat dan variabel bebas. Dependence techniques ini digunakan untuk menyelesaikan
permasalahan-permasalahan mengenai hubungan antara dua kelompok variabel
tersebut. Sedangkan dalam interdependence techniques,kedudukan setiap variabel
sama, tidak ada variabel terikat dan variabel bebas. Biasanya interdependence
techniques ini digunakan untuk melihat saling keterkaitan hubungan antar semua
variabel tanpa memperhatikan bentuk variabel yang dilibatkan.
Titik penyusun bangunan atau pondasi dari Analisis Multivariat adalah variat
itu sendiri. Variat adalah suatu kombinasi linear dari variabel-variabel yang memiliki
bobot empiris yang telah ditentukan. Suatu variate dari sejumlah 𝑛 variabel yang
terbobot (𝑋1 sampai dengan 𝑋𝑛 ) dapat dinyatakan secara matematis adalah sebagai
berikut:
𝑛𝑖𝑙𝑎𝑖 𝑣𝑎𝑟𝑖𝑎𝑡𝑒 = 𝑤1 𝑋1 + 𝑤2 𝑋2 + 𝑤3 𝑋3 + ⋯ + 𝑤𝑛 𝑋𝑛 1)
Analisis Multivariat adalah salah satu bentuk dari analisis inferensial. Analisis
inferensial artinya analisis yang melibatkan sejumlah sampel saja. Dan dimana hasilnya
nanti digunakan sebagai alat generalisasi untuk keseluruhan populasi. Oleh karenaitu,
nantinya dalam Analisis Multivariat tidak akan lepas dari istilah-istilah signifikansi dan
juga tingkat kesalahan dan derajat kepercayaan.
2.2. Analisis Komponen Utama (AKU)
Analisis komponen utama adalah metode reduksi dimensi yang terbilang
cukup efektif. Metode ini mengubahs uatu data yang memiliki dimensi tinggi dengan
mengurangi dimensinya menjadi beberapa variabel komponen utama. Diharapkan
komponen utama dapatm ewakili seluruh keragaman data. Analisis komponen utama
(AKU) diperkenalkan untuk pertama kalinya pada tahun 1901 oleh Karl Pearson. AKU
klasik memberikan nilai rata-rata tertimbang dari seluruh variabel asal dengan nilai
Page | 3
loading pada setiap variabel. Hal tersebut mengakibatkan komponen utamanya sulit
untuk diinterpretasikan. Dampaknya, panerapan metode AKU klasik tidak
direkomendasikan pada beberapa kasus tertentu. Terlebih lagi, AKU klasik sensitive
dengan pencilan. Adanya pencilan dapat membuat timbulnya nilai galat yang besar,
sehingga proses analisis akan terganggu.
Pada ilmu aljabar, AKU merupakan kombinasi linear khusus pada 𝑝 berupa
variabel acak 𝑋1 , 𝑋2 , … , 𝑋𝑝 . Menurut ilmu geometri, pemilihan system koordinat
digambarkan dari kombinasi linear tersebut. Sistem awal dirotasikan
dengan𝑋1 , 𝑋2 , … , 𝑋𝑝 sebagai sumbu koordinat. Sumbu baru memberikan struktur
kovariansi yang lebih sederhana. Pada dasarnya, metode AKU berfungsi mereduksi
dimensinya untuk menyederhanakan variabel yang sedang diamati. Adapun Langkah
yang dilakukan ialah dengan menghilangkan korelasi antara variabel bebas dengan cara
transformasi variabel bebas asal ke variabel baru, yang mana variabel baru tersebut
tidak ada korelasi sama sekali atau biasa disebut sebagai komponen utama (KU).
Jumlah komponen utama yang terbentuk akan sama seperti banyaknya jumlah variabel
asli. Proses pereduksian dimensi dilakukan dengan kriteria presentase keragaman pada
data. Jika komponen utama telah mencapai lebih dari 75% keragaman data asli, maka
proses analisis cukup hanya dilakukan sampai komponen utama saja.
Komponen utama yang diturunkan dari populasi multivariat normal pada
vector x = (𝑋1 , 𝑋2 , … , 𝑋𝑝 ) dan vector rata-rata µ = (µ1 , µ2 , … , µ𝑝 ) dan matriks
Page | 4
memaksimumkan 𝑉𝑎𝑟(𝑒2′ 𝑋) dengan syarat 𝑒2′ 𝑒2 = 1. Kemudian untuk komponen
utama ke-𝑖 adalah kombinasi linear 𝑒𝑖′ 𝑋 yang memaksimumkan 𝑉𝑎𝑟(𝑒𝑖′ 𝑋) dengan
syarat 𝑒𝑖′ 𝑒𝑘 = 1 dan 𝐶𝑜𝑣(𝑒𝑖′ 𝑒𝑘 ) = 0 untuk 𝑘 < 1.
Antar komponen utama mempunyai variasi yang sama dengan akar ciri dari Σ.
Akar ciri dari matrik sragam peragam Σ merupakan varian dari komponen utama Y,
sehingga matrik sragam peragam dari Y adalah:
λ1 0 … 0
λ2 … 0
∑ =[0
⋮ ⋮ ⋱ ⋮] 3)
0 0 … λp
Total keragaman variabel asal akan sama dengan total keragaman yang diterangkan
oleh komponen utama yaitu:
λi
, 𝑖 = 1, 2, … . , 𝑝 5)
λ1 +λ2 +…+λp
Page | 5
V1/2 adalah matriks simpangan baku dengan unsur diagonal utama adalah
(αii)1/2 sedangkan unsur lainnya adalah nol. Nilai harapan E(Z) = 0 dan keragamannya
adalah:
1 −1 1 −1
Cov (Z) = (V 2 ) ∑ (𝑉 2 ) =𝑝 7)
Dengan demikian komponen utama dari Z dapat ditentukan dari vektor ciri
yang didapat melalui matriks korelasi variabel asal ρ. Untuk mencari akar ciri dan
menentukan vektor pembobotnya sama seperti pada matriks Σ. Sementara trace matriks
korelasi ρ akan sama dengan jumlah p variabel yang dipakai. Pemilihan komponen
utama yang digunakan didasarkan pada nilai akar cirinya, yaitu komponen utama akan
digunakan jika akar cirinya lebih besar dari satu.
Page | 6
kovarian terkecil dengan ℎ0 ≤ ℎ ≤ 𝑛 dimana ℎ0 adalah bilangan bulat terkecil dari
𝑛+𝑝+1
( ).
2
dengan,
1
𝑇(𝑋) = ℎ ∑ℎ𝑖=1 𝑥𝑖 , adalah penduga parameter lokasi berdasarkan MCD yaitu rata-rata
1 𝑇
dari sub sampel ℎ. Sedangkan 𝐶(𝑋) = ℎ−1 ∑ℎ𝑖=1(𝑥𝑖 − 𝑇(𝑋))(𝑥𝑖 − 𝑇(𝑋)) adalah
penduga sebaran atau matriks varian kovarian, matriks 𝑝 × 𝑝 simetris definit positif
yang berasal dari sub sampel ℎ dan 𝑥𝑖 adalah vector pengamatan ke-𝑖 serta 𝑛 adalah
jumlah seluruh pengamatan.
Page | 7
BAB III
METODE PENELITIAN
A. Sumber Data
Data yang digunakan pada penelitian ini adalah data sekunder tentang Data
Kriminalitas di Indonesia pada tahun 2013 yang diperoleh dari buku Statistika
Kriminal 2014 Badan Pusat Statistika (BPS) Republik Indonesia. Data kriminalitas
terdiri dari variabel-variabel yang dihitung dari banyaknya kasus kejahatan yang
terjadi per 100.000 penduduk yang terdiri dari 31 observasi dari 6 variabel.
B. Deskripsi Peubah
Peubah yang digunakan dalam penelitian ini adalah :
𝑋1= Jumlah kasus pembunuhan
𝑋2= Jumlah kasus perkosaan
𝑋3= Jumlah kasus penipuan
𝑋4= Jumlah kasus penganiayaan
𝑋5= Jumlah kasus perusakan
𝑋6= Jumlah kasus pencurian
C. Metode Analisis
Rousseuw dan Van Driessen pada tahun 1999 memperkenalkan algoritma
berikut. Diketahui himpunan data sejumlah n pengamatan. Misal 𝐻1 ∈ {1, … , 𝑛}
dengan jumlah elemen 𝐻1 = ℎ. Berikut merupakan langkah-langkah MCD :
𝑛+𝑃+1
1) Ambil secara acak sejumlah h pengamatan berbeda , ℎ = 2
Page | 8
hitung 𝑡2 dan 𝑠2 berdasarkan himpunan 𝐻2 sehingga |𝑠2 | ≤ |𝑠1 |. Dengan demikian
didapatkan penduga vektor rata-rata ̅̅̅̅̅̅̅
𝑋𝑀𝐶𝐷 dan matriks ragam-peragam 𝑆𝑀𝐶𝐷
berdasarkan anggota himpunan 𝐻2 .
Page | 9
BAB IV
PEMBAHASAN (STUDI KASUS)
A. Studi Kasus
Pada penelitian ini adalah data sekunder tentang Data Kriminalitas di Indonesia pada
tahun 2020 yang diperoleh dari buku Statistik Kriminal 2022 Badan Pusat Statistik (BPS)
Republik Indonesia dari sumber Biro Pengendalian Operasi, Mabes Polri. Data
kriminalitas terdiri dari variabel-variabel yang dihitung dari banyaknya kasus kejahatan
yang terjadi per 100.000 penduduk yang terdiri dari 34 observasi dan 6 variabel.
Pada penelitian ini akan dilakukan analisis terhadap jenis-jenis kejahatan yang
mempengaruhi kriminalitas di Indonesia. Untuk memudahkan analisis terhadap variabel
yang jumlahnya banyak maka perlu dilakukan penyederhanaan jumlah variabel
menggunakan analisis kompone utama robust.Metode yang digunakan yaitu Robust
Principle Component Analysis (ROBPCA) dengan penduga estimasi Minimum
Covariance Deteminant (MCD) yang di analisis menggunakan program RStudio 4.2.1
B. Identifikasi Pencilan
Tahap pertama yaitu mendeteksi keberadaan pencilan pada data secara multivariat.
Hasil pendeteksian pencilan dapat dilihat pada gambar 1.
Gambar 1. Boxplot data kriminalitas
Pada Gambar 1 dapat dilihat bahwa terdapat beberapa data yang teridentifikasi
sebagai pencilan. Apabila data terdapat pencilan analisis komponen utama klasik bisa
digunakan tetapi akurasinya berkurang karena matrik kovarian yang digunakan sensitive
terhadap pencilan. Sehingga digunakanlah metode ROBPCA.
Page | 10
Tujuan dari ROBPCA adalah mereduksi variabel indepeden asal (kepolisian daerah)
yang berjumlah p yang mengandung pencilan (6 variabel) menjadi k komponen utama
robust.
Page | 11
Tabel3 menunjukkan bahwa pada komponen utama pertama menjelaskan 70.09% dari
total variansi sampel. Komponen utama pertama dan kedua secara kumulatif menjelaskan
89.20% dari total variansi sampel. Berdasarkan kriteria ini, dapat disimpulkan bahwa 2
komponen utama pertama telah mampu menjelaskan 89.20% dari total variansi sampel.
Dengan demikian, menurut kriteria total keragaman data (memenuhi nilai minimal
keragaman data yang harus ditangkap yaitu 70% - 80%) ini dibutuhkan 2 komponen
utama untuk mereduksi 6 variabel tanpa kehilangan informasi yang terkandung di
dalamnya.
Berdasarkan metode scree plot, jumlah komponen utama yang diperoleh sama dengan
metode proporsi kumulatif varians yaitu sebanyak 2 komponen utama.
Jumlah komponen utama dengan metode proporsi kumulatif varians dan metode scree
plot selaras, yaitu 2. Sehingga jumlah komponen utama yang digunakan yaitu sebanyak 2.
Page | 12
E. Model robutst komponen utama
Tabel 4. Nilai Loading Masing-Masing Variabel Pada Komponen RobPCA
Variabel/loading PC1 PC2
[1,] 0.562 0.346
[2,] 0.338 -0.915
[3,] 0.308
[4,] 0.404
[5,] 0.535 0.195
[6,] 0.158
Page | 13
Gambar diatas menunjukkan biplot variabel-variabel dimana pada sumbu-y
menunjukkan KU1 dan sumbu-x menunjukkan KU2. Koordinat masing-masing variabel
sama dengan nilai bobot/loading (koefisien) dari persamaan KU. Kelebihan dari KU ini
membuat variabel baru yang tidak berkorelasi, hal tersebut terlihat dari KU1 dan KU2
yang saling tegak lurus. Sehingga dari analisis KU ini dapat digunakan untuk mengatasi
masalah kolinearitas.
Page | 14
BAB V
KESIMPULAN
Berdasarkan hasil dari analisis komponen utama robust ini disimpulkan bahwa data
Kriminalitas di Indonesia pada tahun 2020 yang terdiri dari 6 variabel dapat direduksi
menjadi 2 komponen yang sudah menjelaskan sebesar 89.20% dari total variansi sampel,
namun tetap dapat menggambarkan keragaman dari data awal. Kedua komponen tersebut
adalah:
1. 𝑃𝐶1 = 0.562𝑋1 + 0.338𝑋2 + 0.308𝑋3 + 0.404𝑋4 + 0.535𝑋5 + 0.158𝑋6
2. 𝑃𝐶2 = 0.346𝑋1 − 0.915𝑋2 + 0.195𝑋5
Saran untuk penelitian selanjutnya yaitu dapat menggunakan variabel yang lebih variatif
dan menggunakan estimasi klasik analisis komponen utama serta estimasi robust lainnya.
Kemudian dapat dibandingkan hasil akhirnya sehingga dapat memperoleh model analisis
komponen utama yang terbaik.
Page | 15
DAFTAR PUSTAKA
“Analisis Komponen Utama (Principal Component Analysis”. Diakses 10 Juni 2023 dari
https://www.rumusstatistik.com/2015/03/analisis-komponen-utama-
principal.html
Anwar Hidayat. “Penjelasan Tentang Analisis Multivariat dan Jenisnya”. Diakses 11
Juni 2023 dari https://www.statistikian.com/2016/11/analisis-multivariat.html
Draja Indra Purnama, Pardomuan Robinson Shombing (2021). “Perbandingan Analisis
Komponen Utama Dan Robust PCA (ROBPCA)”.
Harismahyanti,Saleh,Sahriman. “Penerapan Robust Sparse Analisis Komponen
Utama”.
Nensi Pradeni(2013). “Analisis Komponen Utama Robust Dengan Metode Pendugaan
RMCD”.
Yuliana susanti (2013). Makalah. “Optimasi Model Regresi Robust Untuk Memprediksi
Produksi Kedelai Di Indonesia”.
Page | 16
LAMPIRAN 1
DATA
No Kepolisian Daerah X1 X2 X3 X4 X5 X6
1 Aceh 103 15 202 61 1216 653
2 Sumatera Utara 693 99 746 170 3290 2809
3 Sumatera Barat 181 20 206 35 1225 419
4 Riau 71 21 300 122 715 370
5 Jambi 52 11 121 25 455 327
6 Sumatera Selatan 103 77 424 64 419 905
7 Bengkulu 40 33 145 16 213 315
8 Lampung 82 21 150 54 393 890
9 Kep Bangka Belitung 18 10 32 10 221 55
10 Kep Riau 47 13 147 6 392 363
11 Metro Jaya 99 32 747 36 713 3091
12 Jawa Barat 120 20 438 67 577 1768
13 Jawa Tengah 55 30 137 41 767 1050
14 DIY 72 6 151 27 627 802
15 Jawa Timur 136 55 521 77 1184 1897
16 Banten 44 8 75 15 176 420
17 Bali 39 6 138 6 348 208
18 NTB 169 11 434 59 640 504
19 NTT 179 40 294 48 942 378
20 Kalimantan Barat 24 35 74 14 427 162
21 Kalimantan Tengah 23 17 57 14 228 127
22 Kalimantan Selatan 36 38 85 19 321 212
23 Kaliman Timur 14 12 152 26 242 105
24 Kalimantan Utara 8 10 21 6 118 35
25 Sulawesi Utara 169 74 432 25 1002 455
26 Sulawesi Tengah 87 18 320 49 1160 352
27 Sulawesi Selatan 414 71 741 63 2744 1084
28 Sulawesi Tenggara 22 26 135 32 303 62
29 Gorontalo 77 13 152 19 451 261
Page | 17
30 Sulawesi Barat 57 8 69 11 364 144
31 Maluku 102 10 158 28 542 223
32 Maluku Utara 15 1 51 11 69 27
33 Papua Barat 115 10 69 29 297 232
34 Papua 254 27 179 51 1203 470
Page | 18
LAMPIRAN 2
OUTPUT R
Page | 19
Page | 20
Page | 21
Page | 22
Page | 23