Distribusi Chi-Square

Unduh sebagai docx, pdf, atau txt
Unduh sebagai docx, pdf, atau txt
Anda di halaman 1dari 14

DISTRIBUSI CHI-SQUARE ()2

I. PENDAHULUAN

Distribusi 2 (baca : kai kuadrat) digunakan antara lain untuk menguji :


1. Apakah frekuensi observasi berbeda secara signifikan terhadap frekuensi
ekspektasi.
2. Apakah dua variabel independen atau tidak.
3. Apakah data sampel menyerupai distribusi hipotesis tertentu seperti distribusi
normal, binomial, Poisson atau yang lain.

Ketiga macam aplikasi distribusi 2 akan dijelaskan satu persatu pada bab ini.
Pembicaraan akan diawali dengan memberi penjelasan tentang distribusi 2.

II. DISTRIBUSI 2

Definisi

Jika X1, X2, … Xv adalah variabel random independen yang memiliki distribusi normal,
sementara Z1, Z2, … Zv merupakan variabel random standarnya atau Zx  N (maka
∑ Z 21 akan memiliki distribusi 2 dengan derajat bebas v. jika terdapat v variabel
random, tetapi hanya v – k variabel yang independen maka derajat bebasnya v – k.

Jika v variabel random adalah independen, maka distribusi 2 memiliki rata-rata dan
varians

E(2) = v
σ 2 = 2v

Ternyata nilai derajat bebas merupakan parameter dalam suatu distribusi 2, di mana
rata-rata dari setiap distribusi 2 sama dengan nilai derajat bebasnya. Seperti distribusi
probabilitas binomial, t dan F yang telah kita pelajari, distribusi 2 , yang bentuknya
ditentukan oleh derajat bebasnya. Untuk distribusi 2 dengan derajat bebas v, modus
dan puncak kurva akan terletak pada nilai 2 = v – 2. Sehingga modus untuk distribusi
2 dengan derajat bebas 7 akan terletak pada nilai 2 = 5, begitu seterusnya seperti
terlihat pada Gambar 1.

1
Gambar 1.
Karena nilai  merupakan penjumlahan kuadrat dari variabel normal standar Z, maka
2

nilainya selalu bertanda positif. Sehingga distribusi 2 dimulai dari titik nol, condong ke
kanan dan mempunyai ekor yang panjang tak terhingga ke kanan. Jika derajat bebas
menjadi sangat besar maka distribusi 2 akan mendekati distribusi normal.

Di samping itu, jika kita menghitung varians sampel s2 dengan observasi sebanyak n
yang diambil dari populasi normal dengan varians 2, maka telah dibuktikan oleh
statistik bahwa :

(n−1)σ 2
akan memiliki distribusi 2 dengan derajat bebas n – 1.
σ2

Penggunaan Tabel Distribusi 2

Untuk membantu penggunaan tabel distribusi 2, (Tabel IX pada lampiran) ikutilah
contoh seperti berikut :

Jika derajat bebas = 10, nilai 2 untuk 10% wilayah yang diarsir pada sisi kanan
dituliskan

p (12,55 < 2 < ) = 0,25

Gambar 2.

semua pengujian hipotesis pada bab ini merupakan pengujian searah atas dengan nilai
kritis ❑2, v yang berarti nilai 2 dari distribusi itu dengan derajat bebas v dan memiliki
wilayah sisi kanan sebesar tingkat signifikansi .
Sebagai contoh :

❑20,1 ;10 = 15,99


❑20,05 ;3 = 7,82

2
III. UJI SIGNIFIKANSI OBSERVASI BERBEDA DENGAN FREKUENSI
TEORITIS

Salah Satu aplikasi distribusi 2 adalah membandingkan perbedaan antara frekuensi


sampel atau frekuensi populasi teoritis atau frekuensi ekspektasi. Langkah-langkah
pengujian dengan distribusi 2 secara umum adalah sebagai berikut :
1. Menentukan hipotesis nol dan alternatif dalam kasus ini :
H0 : frekuensi observasi tak berbeda dengan frekuensi teoritis
H1 : frekuensi observasi tak semua sama dengan frekuensi teoritis
2. Menetapkan tingkat signifikan dan derajat bebas untuk menentukan nilai kritis.
Derajat bebas dalam pengujian ini dirumuskan v = c – k – 1.
c = banyaknya kategori (kelompok)
k = banyaknya parameter populasi yang akan diduga berdasarkan statistik sampel.
3. Menentukan nilai test statistik yang menurut K. Pearson dirumuskan :
( f 0 −f e )2
 =∑
2
, hati-hati rumusnya bukan
fe
∑ ( f 0−f e )2
 =
2
fe

f0 = frekuensi sampel (observasi)


fe = frekuensi ekspektasi jika H0 benar.

Jika semua frekuensi observasi sama dengan frekuensi-frekuensi ekspektasi, maka


nilai uji 2 akan sama dengan nol. Namun dalam praktek, kesamaan setiap f0 dengan
fe jarang terjadi, meskipun sesungguhnya H0 = benar. Perbedaan f0 dan fe
disebabkan variasi sampling.

4. Memutuskan apakah menolak atau tidak menolak H0, setelah membandingkan nilai
2
test statistik dengan nilai kritis yang dapat dilihat dalam tabel. Jika 2 > ❑, v maka
H0 ditolak.

Contoh :

Tabel 1. menunjukkan frekuensi observasi dan ekspektasi 4 macam penyakit yang


jarang ditemui dalam suatu daerah. Apakah antara frekuensi observasi dan ekspektasi
berbeda secara signifikan pada tingkat 10%?

Tabel 1.

Jenis Penyakit
A B C D Jumlah
f0 3 5 6 3 17
f1 6 6 3 2 17

Karena untuk penyakit C dan D memiliki fe < 5 maka lazimnya dalam pengujian ini, fe
kedua kelompok itu digabung menjadi seperti pada Tabel 2.

3
Tabel 2.

A B C dan D Jumlah
f0 3 5 9 17
f1 6 6 5 17

Karena hanya terdapat 3 kategori dan tak ada parameter populasi yang akan diduga,
maka derajat bebas distribusi 2 adalah v = 3 – 0 – 1 = 2. Sehingga nilai kritisnya

❑20,1 ;2 = 4,61

Sementara nilai test statistiknya adalah

(3−6)2 (5−6)2 (9−5)2


2 = + + = 4,87
6 6 5

Karena nilai 2 lebih besar dari nilai kritis maka H0 ditolak, berarti ada perbedaan yang
signifikan antara frekuensi ekspektasi dan observasi dari penyakit-penyakit di daerah
tersebut.

Koreksi Yates Untuk Kontinuitas

Koreksi Yates adalah analogi dari koreksi kontinuitas yang diterapkan pada pendekatan
normal terhadap distribusi binomial. dalam pengujian dengan distribusi 2, nilai tabel
2dihitung dari distribusi teoritis asli yang kontinyu, sementara perkiraan yang sedang
kita gunakan adalah diskrit.

Ada kecenderungan menduga terlalu tinggi nilai 2 yang berarti akan meningkatkan
kemungkinan menolak H0. Sehingga perlu mengoreksi 2 ke bawah. Yates
menunjukkan bahwa jika :
2

 =∑
2 (|f 0 −f e|−1/2) , digunakan
fe

Maka perkiraan 2 telah diperbaiki. Penyesuaian ini hanya digunakan jika derajat bebas
= 1. Jika derajat bebas lebih dari 1, penyesuaian ini tak digunakan.

Contoh :

Dalam pelemparan sebuah mata uang logam sebanyak 50 kali diperoleh hasil seperti
pada Tabel 3. Apakah pelemparan itu jujur?

Tabel 3.

Sisi yang muncul


Kepala Ekor Jumlah

4
f0 22 28 50
fe 25 25 50

Jawab :

Dengan pendekatan Pearson diperoleh :

( 22−25 )2 ( 28−25 )2
2 = + = 0,72
25 25

Karena derajat bebas v = 2 – 0 – 1 = 1, maka perlu digunakan koreksi Yates, sehingga

(|22−25|−1/2 )2 (|28−25|−1 /2 )2
2 = + = 0,5
25 25
2
Misalkan tingkat signifikan 5%, maka nilai kritis ❑(0,05 ;1)= 3,84. Kebetulan, nilai test
statistik yang diperoleh melalui pendekatan Pearson dan koreksi Yates keduanya lebih
kecil dari nilai kritis, berarti H0 diterima. Sehingga pelemparan uang logam dikatakan
jujur. Jika kedua cara menghasilkan kesimpulan yang berbeda maka ukuran sampel
diperbesar.

Dari contoh terlihat bahwa penggunaan koreksi Yates menunjukkan nilai 2 dari 0,72
menjadi 0,5. Jika f0 besar, koreksi Yates hanya berpengaruh kecil tetapi pengaruhnya
menjadi besar jika f0 kecil. Akhirnya jika selisih f0 dengan fe kurang dari 1/2, koreksi
Yates tak perlu dipakai.

IV. TEST INDEPENDENSI

Pada Tabel 1. Sebelum sub bab ini, frekuensi observasi menempati satu baris saja,
sehingga tabel itu dinamakan Tabel Klasifikasi Satu Arah. Karena banyaknya kolom
adalah 4, tabel ini juga dinamakan Tabel 1 x 4. Bila frekuensi observasi menempati r
baris dan c kolom ( di mana r dan c  1) maka dinamakan Tabel Klasifikasi Dua Arah
atau Tabel r x c atau Tabel Contingency.

Tabel Contingency berisi data yang diperolah dari sampel random sederhana. Data-data
aktual itu dinamakan frekuensi observasi yang diberi simbol f0. Bersamaan dengan
masing-masing frekuensi observasi terdapat frekuensi ekspektasi atau teoritis yang
dihitung menurut hukum probabilitas (independen).

Frekuensi observasi dan ekspektasi digunakan untuk menghitung statistik sampel untuk
menguki hipotesis apakah kelompok baris dan kolom independen. Nilai 2 nilai
statistiknya dirumuskan :
2
( f 0−f e )
2 =
fe

Jika kelompok baris dan kolom independen maka fe dicari sebagai berikut :

5
Jumlah menurut baris X Jumlahmenurut kolom
fe = Jumlah seluruh baris dan kolom

Distribusi sampel 2 yang dihitung dari Tabel Contingency akan didekati dengan
distribusi 2 dengan derajat bebas v = (r – 1). Pendekatan ini akan memuaskan jika fe
minimum 5. Jika fe kurang dari 5, kita akan menggabungkan baris atau kolom dalam
Tabel Contingency untuk memperoleh fe sekurang-kurangnya 5 sebelum menghitung
nilai 2. Derajat bebas juga dihitung setelah penggabungan baris atau kolom ini.

Contoh :

Sebuah dealer mobil telah mengumpulkan data seperti yang ditunjukkan pada Tabel 4.
Ujilah pada tingkat signifikan 5%. Apakah jenis mobil yang dibeli independen dengan
umur pembeli.

Tabel 4.

Jenis Mobil
Umur Impor Produksi Dalam Negeri Jumlah
Di bawah 30 10 10 20
30 atau lebih 20 10 30
Jumlah 30 20 50

Jawab :
1) H0 : Jenis mobil independen dengan umur pembeli
H1 : Jenis mobil tak independen dengan umur pembeli
2) Tabel 5. Berisi frekuensi observasi dan frekuensi ekspektasinya. Dari ini kita dapat
menghitung derajat bebas dan nilai test statistik.

Tabel 5.
Tabel Contingency Untuk Pembeli Mobil

Jenis Mobil
Umur Impor Produksi Dalam Negeri Jumlah
Di bawah 30 10(12) 10(8) 20
30 atau lebih 20(18) 10(12) 30
Jumlah 30 20 50

Catatan : angka dalam tanda () merupakan frekuensi ekspektasi

Karena setiap nilai fe lebih besar dari 5 maka tidak perlu dilakukan penggabungan.
Tabel itu memiliki r = 2 dan c = 2 sehingga derajat bebasnya v = (2 – 1)(2 – 1) = 1, jadi
butuh koreksi Yates untuk menghitung test statistik. Dengan tingkat signifikan 5%
diperoleh nilai kritis 2 = 3,84.

6
3) Nilai test statistik

(|10−12|−1/2 )2 (|10−18|−1/2 )2 (|20−18|−1 /2 )2 (|10−12|−1/2 )2


 =
2
+ + + = 0,75
12 8 18 12

4) Karena 2 lebih kecil dari nilai kritis maka H0 tak ditolak, berarti umur independen
(bukan faktor) terhadap jenis mobil yang dibeli atau tak dapat dikatakan bahwa anak
muda lebih senang terhadap mobil impor.

Coefficient of Contingency

Coefficient of Contigency (C) mengukur tingkat hubungan atau ketergantungan antar


kategori dalam suatu tabel Contigency yang dirumuskan :

❑2
C=
√ ❑2+ n

Semakin besar nilai C, makin besar tingkat hubungannya. Jumlah baris dan kolom
dalam tabel Contingency menentukan nilai maksimum yang dapat dicapai C, yang tak
pernah lebih dari satu. Jika jumlah baris atau kolom dalam tabel Contingency sama
besar, misalnya sebesar g, maka nilai C tak akan melebihi √ g – 1/g. Untuk lebih
memahami ikuti penjelasan berikut.

Nilai C akan maksimum jika antar kategori dalam tabel Contigency berhubungan secara
sempurna. Keadaan seperti itu dapat ditunjukkan melalui tabel Contigency seperti
berikut.

Tabel 6.
Tabel Contingency Untuk Pembeli Mobil

Jenis Mobil
Umur Impor Produksi Dalam Negeri Jumlah
Di bawah 30 20(8) 0(12) 20
30 atau lebih 0(12) 30(18) 30
Jumlah 20 30 50

Karena diasumsikan terdapat hubungan yang sempurna, maka salah satu diagonal harus
memiliki nilai f0 = 0. Misalkan semua anak muda memilih mobil impor dan semua
orang tia memilih produksi dalam negeri. Sementara nilai fe yang sesuai dengan
masing-masing f0 dituliskan dalam tanda kurang. Karena derajat bebas 1, maka nilai uji
2 dihitung dengan koreksi Yates.

2 = 16,53125 + 11,0208 + 7,3472 = 45,95

45,95
Sehingga nilai C =
√ (45,95+50)
= 0,6920

Yang berarti tak melebihi √ 2 – ½ = 0,7071

7
Ujian Signifikansi Coefficient of Contingency

Jika kita mengamati hubungan antara dua himpunan atribut (kategori), kita tentu ingin
menentukan apakah dapat disimpulkan bahwa antar kategori berhubungan dalam
populasi. Untuk menguji Coefficient of Contingency, kita tidak menggunakan distribusi
sampling C karena kerumitan matematika banyak ditemui. Sebagai gantinya digunakan
distribusi sampling 2 dengan derajat bebas v = (r – 1) (c – 1).

Aturan dalam membuat keputusan secara statistik adalah :


Jika probabilitas 2 dengan derajat v lebih kecil atau sama dengan tingkat signifikan 
maka H0 ditolak pada tingkat signifikan tersebut.

Dari contoh di atas diperoleh 2 = 0,75 dengan v = 1. Karena probabilitas 2 =0,75


dengan v = 1 adalah sekitar 40% (lihat gambar 3.) berarti H0 diterima atau antara jenis
mobil dan umur 0 tak ada asosiasi.

Gambar 3.

V. TEST GOODNES OF FIT

Test goodness of fit menggunakan data sampel sebagai dasar untuk menerima atau
menolak tentang bentuk distribusi populasi. Asumsi ini dinyatakan sebagai H0.

Contoh :

H0 : populasi memiliki distribusi normal dengan  = 100 dan


 = 10, adalah suatu bentuk test goodness of fit.

Setelah menetapkan H0, test ini dilakukan dengan urut-urutan yang tak berbeda dengan
test yang lain. Setelah frekuensi ekspektasi diperoleh, giliran berikutnya adalah
menghitung nilai test statistika yang rumusnya juga tak berbeda yaitu

8
2
( f 0−f e )
 =
2
fe

Akhirnya, nilai test statistik dibandingkan dengan nilai kritis ❑2, v sebagai dasar untuk
memutuskan apakah H0 harus ditolak atau tak ditolak.

Test goodness of fit berbeda dengan test independensi baik dalam metode perhitungan
frekuensi ekspektasi maupun dalam aturan untuk menentukan derajat bebas. Dalam test
goodness of fit, metode menghitung frekuensi ekspektasi bergantung pada asumsi yang
dibuat mengenai populasinya, dan derajat bebas dalam test ini adalah v = n – k – 1,
dimana

n = banyaknya fe > 5 yang digunakan dalam menghitung 2


k = banyaknya parameter populasi yang akan diduga

Test Goodness of Fit Terhadap Distribusi Poisson

Rumus proses Poisson yang telah kita bicarakan menjawab probabilitas banyaknya
kedatangan dalam suatu interval waktu. Rumusnya adalah
x

e−¿
P(x) = ¿ , di mana
x!

x = banyak kedatangan per satuan waktu


 = rata-rata kedatangan per satuan waktu

Rumus itu digunakan untuk menentukan frekuensi ekspektasi dalam pengujian apakah
suatu distribusi adalah distribusi Poisson dengan nilai  tertentu. Untuk lebih
memahami, ikuti ilustrasi berikut.

Tabel 7. Menunjukkan banyaknya langganan yang memasuki suatu toko selama


interval waktu 1 menit, yang diperoleh dari sampel random selama 150 menit ketika
toko itu kelihatan sibuk. Apakah kedatangan langganan mengikuti distribusi Poisson?
(gunakan  = 5%).

Tabel 7.

Banyak Langganan Frekuensi


0 47
1 61
2 37
3 5
4 atau lebih 0_
150

Langkah pertama yang harus dilakukan sebelum melakukan prosedur pengujian adalah
menduga  dari data sampel.

^ = ( 0 x 47 ) +¿ ¿ = 1
9
Tahap selanjutnya adalah menghitung frekuensi ekspektasi yang merupakan perkalian
antara probabilitas Poisson dengan banyaknya satuan waktu yang diperlukan dalam
sampel.

Probabilitas Poissonnya dapat diperoleh melalui dua cara :


1. Rumus proses Poisson atau
2. Tabel probabilitas Poisson.

Besarnya frekuensi ekspektasi dapat dilihat pada Tabel 8.

Tabel 8.

(1) (2) (3)


Banyak Langganan Prob Poisson Frekuensi Ekspektasi
(3) = (2) x 150
0 0,3679 55,185
1 0,3679 55,185
2 0,1839 27,585
3 0,0613 9,195
4 atau lebih 0,0190 2,850

Sebelum menghitung 2, periksa nilai fe yang kurang dari 5. Jika ada, gabungkan
sehingga setiap nilai fe > 5. Frekuensi ekspektasi yang telah digabungkan dan
perhitungan 2 ditunjukkan pada Tabel 9.

Tabel 9.
2
Banyak f0 fe f0 - fe ( f 0−f e )
Langganan fe
0 47 55,185 -8,185 66,994
1 61 55,185 5,815 33,814
2 37 27,585 9,415 88,642
3 atau lebih 5 12,045 -7,045 49,632
 = 239,082
2

Prosedur pengujiannya adalah :

1. H0 : banyak langganan yang masuk toko mengikuti distribusi Poisson.


H1 : banyaknya langganan yang masuk toko bukan distribusi Poisson.
2. Karena ada satu parameter populasi yang akan diduga ( diduga dengan ^ ) maka
derajat bebas v = 4 – 1 – 1 = 2 sehingga nilai kritisnya : ❑20,05 ,2 = 5,991.
3. Nilai test statistik 2 = 239,082 (lihat Tabel 9.)
4. Karena 2 lebih besar dari nilai kritis maka H0 ditolak, berarti banyak langganan
yang masuk toko tidak mengikuti distribusi Poisson.

10
Test Goodness of Fit Terhadap Distribusi Binomial

Untuk menjelaskan persoalan ini ikuti contoh berikut.

Suatu perusahaan membungkus kue dalam kotak yang berisi 20 potong. Semua kue dari
suatu sampel sebanyak 100 bungkus diteliti dan jumlah kue yang cacat pada masing-
masing bungkus dicatat. Data sampel diberikan pada tabel berikut.

Dengan tingkat signifikan 5% ujilah apakah jumlah kue yang cacat dalam setiap
bungkus mengikuti distribusi binomial.

Jawab :

Sebelum melakukan prosedur pengujian, langkah pertama adalah menentukan


parameter distribusi binomial yaitu n (ukuran sampel) dan p (probabilitas cacat dalam
suatu percobaan).

Banyak kue yang diteliti adalah 20 x 100 = 200 potong

Tabel 10.

Banyak kue cacat Banyak Kotak


Dalam satu kotak
0 5
1 36
2 28
3 19
4 9
5 3
6 atau lebih 0
100

Banyak kue cacat yang ditemukan adalah (0 x 5) + (1 x 36) + (2 x 28) + (3 x 19) + (4 x


9) + (5 x 3) + (0) 200. Sehingga proporsi kue cacat dalam sampel p = 200/2000 = 0,1.
Karena yang akan diuji adalah bentuk distribusi kue cacat di dalam setiap kotak yang
berisi 20 kue, maka ukuran sampel n = 20, bukan 100.

Probabilitas binomial dapat dihitung melalui rumus maupun tabel. Dengan


menggunakan tabel binomial, besarnya fe dapat dilihat pada Tabel 11. Frekuensi
ekspektasi diperoleh dengan melakukan perkalian probabilitas binomial dengan banyak
kotak yang diteliti.
Banyaknya kategori dengan nilai fe minimum 5 dan perhitungan statistik sampel 2
ditunjukkan pada Tabel 12.

11
Tabel 11.
Probabilitas Binomial n = 20, p = 0,1 dan Frekuensi Ekspektasi

Banyak Langganan Probabilitas Frekuensi Ekspektasi


(1) (2) (3) = (2) x 100

0 0,1216 12,16
1 0,2702 27,02
2 0,2852 28,52
3 0,1901 19,01
4 0,0898 8,89
5 0,0319 3,19
6 atau lebih 0,0113 1,3

Tabel 12.
2
Banyak f0 fe f0 - fe ( f 0−f e )
Langganan fe
0 5 12,16 -7,16 4,2159
1 36 27,02 8,98 2,9845
2 28 28,52 -0,52 0,0095
3 19 19,01 -0,01 0,0000
4 atau lebih 12 13,29 -1,29 0,1252
2 = 7,3351

Prosedur pengujiannya adalah :

1. H0 : distribusinya adalah binomial


H1 : distribusinya adalah bukan binomial
2. Karena kita menduga satu parameter (P diduga dengan p), dan terdapat 5 nilai fe
yang digunakan untuk menghitung 2 , maka derajat bebasnya v = 5 – 1 – 1 = 3
sehingga nilai kritisnya : ❑20,05 ,32 = 7,815.
3. Nilai test statistik 2 = 7,3351.
4. Karena nilai statistik lebih kecil dari nilai kritis maka maka H0 tak ditolak, berarti
distribusi kue cacat dalam masing-masing kotak yang berisi 20 adalah distribusi
binomial.

12
REFERENSI :

ASW = Anderson Sweeney Williams. 1990. Statistics for Business and Economics. Eighth
Edition. International Student Edition. DMD = David M. Levine, Mark L. Berenson, David
Stephan. 2002. Statistics for Managers.International Edition.

G = Groeneveld. 1988. Introductory Statistical Methods. An Integrated Approach Using


Minitab. International Student Edition. Thomson Information/Publishing Group. Boston.

R & D = Richard I. Levin, David S. Rubin. 1994. Statistics For Management. Six Edition.
Prentice Hall International Editions. New Yersey.

RM (1-2) = Robert D Mason, Douglas A. Lind. Alih Bahasa Ellen Gunawan Sitompul. dkk.
1996. Teknik Statistika untuk Bisnis dan Ekonomi. Penerbit Erlangga. Jakarta.

MBS (1-2) = Mc Clave, Benson, Sincich. Alih Bahasa Bob Sabran. 2011. Statistik untuk
Bisnis dan Ekonomi. Edisi Kesebelas. Penerbit Erlangga. Jakarta.

S & P (1) = Suharyadi dan Purwanto. 2003. Statistika untuk Ekonomi dan Keuangan Modern.
Penerbit Salemba Empat. Jakarta.

J.S (1-2) = J. Supranto. 2008. Statistik Teori dan Aplikasi. Edisi Ketujuh. Penerbit Erlangga.
Jakarta.

AD (1-2) = Anto Dayan. 1995. Pengantar Metode Statistik. Jilid I. Penerbit LP3ES. Jakarta.

WS = Wahid Sulaiman. Analisis Regresi Menggunakan SPSS. Contoh Kasus dan


Pemecahannya. Penerbit ANDI. Yogyakarta

13
LAMPIRAN

14

Anda mungkin juga menyukai