Regresi Logistik Biner
Regresi Logistik Biner
Regresi Logistik Biner
Pada regresi logistik multinomial, data variabel respon yang digunakan adalah data
berskala nominal dengan lebih dari 2 kategori. Sedangkan jenis data pada variabel prediktor
dapat berupa nominal, ordinal, interval maupun ratio.
Pada regresi logistik ordinal, data variabel respon yang digunakan adalah data
berskala ordinal dengan lebih dari 2 kategori. Sedangkan jenis data pada variabel prediktor
dapat berupa nominal, ordinal, interval maupun ratio.
Regresi logistik merupakan suatu metode analisis data yang digunakan untuk mencari
hubungan antara variabel respon (y) yang bersifat biner atau dikotomus dengan variabel
prediktor (x) yang bersifat polikotomus (Hosmer dan Lemeshow, 1989). Outcome dari
variabel respon y terdiri dari 2 kategori yaitu sukses dan gagal yang dinotasikan dengan
y=1 (sukses) dan y=0 (gagal). Dalam keadaan demikian, variabel y mengikuti distribusi
Bernoulli untuk setiap observasi tunggal. Fungsi Probabilitas untuk setiap observasi adalah
diberikan sebagai berikut,
Dimana jika y = 0 maka f(y) = 1 dan jika y = 1 maka f(y) = . Fungsi regresi logistiknya
dapat dituliskan sebagai berikut
1 ez
f ( z) = ekuivalen f ( z) = (2)
1 + ez 1+ ez
Dengan z = 0 + 1 x1 + ... + p x p
Nilai z antara dan + sehingga nilai f (z ) terletak antara 0 dan 1 untuk setiap
nilai z yang diberikan. Hal tersebut menunjukkan bahwa model logistik sebenarnya
menggambarkan probabilitas atau risiko dari suatu objek. Model regresi logistiknya adalah
sebagai berikut
( 0 + 1 x1 +...+ p x p )
e
( x) = ( 0 + 1 x1 +...+ p x p )
(3)
1+ e
Untuk mempermudah pendugaan parameter regresi maka model regresi logistik pada
persamaan (3) dapat diuraikan dengan menggunakan transformasi logit dari (x) .
(x) = e ( 0 + 1 x1 + ...+ p x p )
( x) e ( 0 + 1 x1 + ...+ p x p )
( x) = e ( 0 + 1 x1 +...+ p x p )
1 ( x)
( x)
ln = ln e ( 0 + 1 x1 + ...+ p x p )
1 ( x)
( x)
ln = 0 + 1 x1 + ... + p x p
1 ( x)
( x)
g ( x) = ln = 0 + 1 x1 + ... + p x p (4)
1 ( x)
E (Y | x ) = 0 + 1 x1 + + p x p (5)
merupakan rataan dari populasi dan merupakan komponen acak yang menunjukkan
penyimpangan amatan dari rataannya dan diasumsikan mengikuti sebaran normal dengan
rataan nol dan varians konstan.
Estimasi Parameter
Jika xi dan yi adalah pasangan variabel bebas dan terikat pada pengamatan ke-i dan
diasumsikan bahwa setiap pasangan pengamatan saling independen dengan pasangan
pengamatan lainnya, i = 1, 2, ..., n maka fungsi probabilitas untuk setiap pasangan adalah
sebagai berikut
f ( x i ) = ( x i ) y i (1 ( x i ) )
1 yi
; yi = 0, 1 (6)
p
j x j
j =0
(x i ) =
e
dengan, (7)
p
jxj
1+ e j =0
i =1 i =1
Fungsi likelihood tersebut lebih mudah dimaksimumkan dalam bentuk log l() dan
dinyatakan dengan L().
( )
p
j xij
n
= yi xij j ln 1 + e j=0
p n
=j 0=i 1 i =1
Nilai maksimum didapatkan melalui turunan L() terhadap dan hasilnya adalah sama
dengan nol.
j xij
p
L( ) n e j =0 n
= y i xij xij
j
p
i =1 i =1 j xij
1+ e
j =0
n n
sehingga, yi xij xij ( xi ) = 0
i =1 i =1
dengan j = 0, 1, ..., p (8)
L( ) n
= xij xiu ( xi )(1 ( xi ) ) ; dengan j, u = 0, 1, ..., p
j u i =1
C () {
ov = xT Diag[ (x )(1 (x ))]x
i i } 1
dan xT diberikan oleh,
1 1 ... 1
x x 21 ... x nk
x T = 11
... ... ...
x 1k x 21 ... x nk
utamanya adalah [ (x i )(1 (x i ))] . Penaksir SE ( ) diberikan oleh akar kuadrat diagonal
utama. Untuk mendapatkan nilai taksiran dari turunan pertama fungsi L() yang non linier
maka digunakan metode iterasi Newton Raphson. Persamaan yang digunakan adalah
dengan, qT = L ( ) , L ( ) , ... , L ( )
0 1 K
j u
{ } x (y m )
1
( ) + xT Diag (x i )(t ) (1 (x i )(t ) ) x
( +1) =
t t T (t )
(11)
dengan m(t) = (xi) (t). Langkah-langkah iterasi Newton Raphson diberikan sebagai berikut,
b. Dari (x i )(0) pada langkah a. diperoleh matriks Hessian H (0) dan vektor q (0).
c. Proses selanjutnya untuk t > 0 digunakan persamaan (10) dan (11) hingga (x i )(t )
dan (t ) konvergen.
H0 : i = 0
H1 : i 0 ; i = 1, 2, ..., p
i
Statistik uji: W = (12)
SE ( i )
berikut,
i 2
W2 = (13)
SE ( i ) 2
H0 : 1 = 2 = ... = i = 0
n n0
n1 n0
i
Statistik uji: G = 2 ln n n (14)
n
(1 )
yi (1 yi )
i i
i =1
n n
dimana: n1 = y i n0 = (1 y i ) n = n1 + n0
i =1 i =1
Statistik uji G adalah merupakan Likelihood Ratio Test dimana nilai G mengikuti
distribusi Chi-Squred sehingga H0 ditolak jika G > 2 ( v , ) dengan v derajat bebas adalah
banyaknya parameter dalam model tanpa 0 .
Jika nilai Odds ratio ( ) < 1, maka antara variabel prediktor dan variabel respon
terdapat hubungan negatif setiap kali perubahan nilai variabel bebas (x) dan jika Odds ratio
( ) > 1 maka antara variabel prediktor dengan variabel respon terdapat hubungan positif
setiap kali perubahan nilai variabel bebas (x).
LATIHAN SOAL
1. Suatu tes psikologi diberikan kepada beberapa orang tua untuk menentukan apakah ada
gejala gejala yang menunjukkan melemahnya tubuh karena faktor usia.yang terjadi pada
orang tua. Salah satu variabel yang digunakan adalah score yang diperoleh dari subtest
Wechler Adult Inteligence Scale.
Tabel 1
X Y X Y X Y X Y X Y
9 1 7 1 7 0 17 0 13 0
13 1 5 1 16 0 14 0 13 0
6 1 14 1 9 0 19 0 9 0
8 1 13 0 9 0 9 0 15 0
10 1 16 0 11 0 11 0 10 0
4 1 10 0 13 0 14 0 11 0
14 1 12 0 15 0 10 0 12 0
8 1 11 0 13 0 16 0 4 0
11 1 14 0 10 0 10 0 14 0
7 1 15 0 11 0 16 0 20 0
9 1 18 0 6 0 14 0
X : Score WAIS
Y : Keadaan lemah karena usia (1=ada gejala)
a. Tentukan modelnya
b. Interpretasikan keterikatan antara ketidakseimbangan gejala pada WAIS dan tes
signifikansi pada efek yang ditimbulkan.
Solusi:
Response Information
Odds 95% CI
Predictor Coef SE Coef Z P Ratio Lower Upper
Constant 2,40404 1,19184 2,02 0,044
x -0,323530 0,113980 -2,84 0,005 0,72 0,58 0,90
Log-Likelihood = -25,509
Test that all slopes are zero: G = 10,789, DF = 1, P-Value = 0,001
Goodness-of-Fit Tests
Method Chi-Square DF P
Pearson 8,08303 15 0,920
Deviance 9,41897 15 0,855
Hosmer-Lemeshow 4,53347 6 0,605
Group
Value 1 2 3 4 5 6 7 8 Total
1
Obs 0 2 1 1 1 2 4 3 14
Exp 0,4 1,0 0,8 1,8 1,8 2,3 2,5 3,4
0
Obs 8 8 5 7 5 4 1 2 40
Exp 7,6 9,0 5,2 6,2 4,2 3,7 2,5 1,6
Total 8 10 6 8 6 6 5 5 54
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Tabulated statistics: y; C4
Rows: y Columns: C4
0 1 All
0 37 3 40
68,52 5,56 74,07
1 9 5 14
16,67 9,26 25,93
All 46 8 54
85,19 14,81 100,00