Korelasi Dan Regresi Linier Analisis Regresi Berganda
Korelasi Dan Regresi Linier Analisis Regresi Berganda
Korelasi Dan Regresi Linier Analisis Regresi Berganda
KELOMPOK 2
1
MAGISTER AKUNTANSI
UNIVERSITAS SEBELAS MARET
SURAKARTA
2015
BAB 13
KORELASI DAN REGRESI LINIER
Pengertian Analisis Korelasi
Analisis Korelasi sekelompok teknik untuk mengukur hubungan antara dua variable. Gagasan
pokok dari analisis korelasi adalah melaporkan hubungan antara dua variable. Langkah
pertama umumnya adalah menggambarkan data pada diagram pencar. Dalam diagram pencar
terdapat dua variable yaitu variable bebas dan variable terikat. Variable bebas menyediakan
dasar perkiraan. Variable bebas merupakan variable penaksir. Sedangkan variable terikat
merupakanvariabel yang ditaksir atau diperkirakan. Variable terikat dapat juga digambarkan
sebagai hasil atau akibat dari nilai variable bebas yang diketahui dan bersifat acak. Yang
berarti bahwa untuk suatu nilai variable bebas, terdapat banyak kemungkinan hasil pada
variable terikat.
Koefisien Korelasi
Ditemukan oleh Karl Pearson pada tahun 1990, koefisien korelasi menggambarkan kekuatan
hubungan antara dua variable berskala interval atau berskala rasio. Dilambangkan dengan
r, yang sering disebur sebagai r pearson dan sebagai koefisien korelasi hasil kali waktu
pearson. Koefisien korelasi dapat mengasumsikan nilai apapun dari -1,00 hingga +1,00
berturut-turut. Koefisien korelasi sebesar -1,00 atau +1,00 menunjukkan korelasi sempurna.
Jika tidak terdapat hubungan sama sekali antara kedua variable, maka r pearson sebesar nol.
Koefisien korelasi r yang mendekati nol (missal : 0,08) menunjukkan bahwa hubungan
liniernya cukup lemah. Kesimpulan yang sama jika r = -0,08. Koefisien sebesar -0,91 dan
+0,91 memiliki kekuatan yang sama ; kdeuanya menunjukkan korelasi yang sangat kuat
antara kedua variable. Dengan demikian, kekuatan korelasi tidak bergantung pada arahnya
(baik maupun +).
Diagram pencar untuk r = 0, r yang lemah (missal -0,23) dan r yang kuat (missal +0,87).
Dapat disimpulkan bahwa jika korelasinya lemah, maka terdapat banyak sebaran disekitar
garis yang ditarik melalui pertengahan
Koefisien korelasi merupakan ukuran kekuatan hubungan linier antara dua variable. Ciri
koefisien korelasi adalah sebagai berikut :
jika tidak terdapat hubungan antara kedua variable, maka titik titik pada diagram pencar
akan terlihat di keempat kuadran. Hasil kali negative dari (X - XX) (Y - YX) mengimbangi hasil
kali positif sehingga penjumlahannya mendekati nol (0). Hal ini mendorong pada koefisien
korelasi yang mendekati nol (0). Dengan demikian (X - XX) (Y - YX) mengendalikan
kekuatan dan tanda dari hubungan antara kedua variable.
Koefisien korelasi juga tidak dipengaruhi oleh satuan dari kedua variable. Koefisien korelasi
bebas dari skala yang digunakan jika membagi (X - XX) (Y - YX) dengan standar deviasi
sampel. Koefisien korelasi juga bebas dari ukuran sampel dan batasan menuru nilai +1,00 dan
-1,00 jika membaginya dengan (n 1).
Koefisien Korelasi
r=
(X XX )(Y YX )
( n 1 ) Sx , Sy
Jika terdapat hubungan yang kuat antara dua variable, maka diasumsikan bahwa kenaikan
atau penurunan pada suatu variable akan mengakibatkan perubahan pada variable lainnya.
Ketika populasi variable 1 menurun, maka terdapat kenaikan variable 2. Hubungan ini
disebut sebagai korelasi sembarang. Dengan demikian dapat disimpulkan bahwa ketika
mendapati dua variable dengan korelasi yang kuat, maka terdapat hubungan atau keterkaitan
antara dua variable, bukan perubahan pada salah satu variable menyebabkan perubahan
variable lain.
Menguji Signifikansi Koefisien Korelasi
Dalam pengujian ini, digunakan huruf Yunani untuk menunjukkan parameter populasi yaitu
(rho) sebagai korelasi populasi. Kemudian gunakan hipotesis nol dan hipotesis alternatifnya
adalah :
H0 : = 0 (korelasi populasinya nol)
H1 : 0 (korelasi populasinya berbeda dari nol)
Melalui cara H1 dinyatakan dalam rumus untuk pengujian dua sisi (uji t) :
t=
r n2
1r 2
Hal ini dapat ditafsirkan bahwa uji hipotesis dalam nilai -nya, nilai
merupakan
kemungkinan menemukan nilai statistic uji yang lebih ekstrem daripada nilai hitungnya,
ketika H0 benar. Untuk menentukan nilai , lihatlah pada distribusi t di lampiran B.2 dan
temukan baris pada derajat kebebasan.
Analisis Regresi
Y = a + bX
Keterangan :
Y = Y topi atau perkiraan nilai variable Y setiap nilai X yang dipilih
a = titik potong Y atau nilai Y perkiraan X = 0 atau perkiraan nilai Y dimana garis regresi
memotong sumbu Y ketika X = 0.
b = kemiringan garis atau rata-rata perubahan dalam Y untuk setiap perubahan satu unit
(baik naik maupun turun) variable bebas X.
X = nilai variable bebas apapun yang dipilih.
Tujuan dari analisis regresi adalah menghitung nilai a dan b unutk membuat persamaan linier
yang paling sesuai dengan datanya. Rumus untuk a dan b adalah :
Kemiringan Garis Regresi
b=r
Keterangan :
r = koefisien korelasi
Sy = standar deviasi dari Y (variable terikat)
Sx = standar deviasi dari X (variable bebas)
Sy
Sx
Titik Potong Y
a = YX - b XX
Keterangan :
YX = rata-rata Y (variabel terikat)
XX = rata-rata X (variable bebas)
Menguji Signifikansi Kemiringan
Metode untuk mencari persamaan tersebut didasarkan pada prinsip kuadrat terkecil. Tujuan
dari persamaan regresi adalah untuk menghitung hubungan linier antara dua variable.
Langkah berikutnya adalah menganalisis persamaan regresi dengan melakukan uji hipotesis
untuk melihat apakah kemiringan garis regresi berbeda dari nol. Alasan mengapa hal ini
penting adalah dapat menunjukkan bahwa kemiringan garis pada populasinya berbeda dari
nol maka dapat disimpulkan bahwa penggunaan persamaan regresi menambah kemampuan
untuk memperkirakan atau meramal variable terikat berdasarkan variable bebasnya.
Jika kita tidak dapat memperlihatkan bahwa kemiringannya berbeda dari nol maka dapat
disimpulkan bahwa tidaklah tepat untuk menggunakan variable bebas sebagai penaksir.
Dengan kata lain, jika tidak dapat menunjukkan kemiringan garis berbeda dari nol, akan
cenderung menggunakan rata-rata variable terikat sebagai penaksir daripada menggunakan
persamaan regresi.
Prosedur uji hipotesis, hipotesis nol dan alternatifnya :
H : = 0
H1 : = 0
Dalam hal ini menggunakan (huruf Yunani beta) untuk menunjukkan kemiringan
persamaan regresi populasi. Diumpamakan konsisten nilai kemiringan dengan b. Dengan
demikian, kemiringan b yang dihitung didasarkan pada sampel dan merupakan perkiraan
kemiringan persamaan regresi pada populasi, dan dilambangkan dengan . Hipotesisnya
nol adalah bahwa kemiringan persamaan regresi pada populasi sama dengan nol. Jika ini
merupakan kasusnya, maka garis regresinya horizontal dan tidak terdapat hubungan antara
variable bebas, X, dengan variable terikat, Y. Dengan kata lain, nilai dari variable terikat
adalah sama untuk setiap nilai variable bebas dan tidak memberikan bantuan untuk
memperkirakan nilai dari variable terikat.
Jika hipotesis nol ditolak dan hipotesis alternative diterima, maka kemiringan garis regresi
populasi tidak sama dengan nol. Yakni mengetahui nilai variable bebas memungkinkan untuk
membuat perkiraan variable terikat yang lebih baik. Dengan kata lain, terdapat hubungan
signifikan antara kedua variable.
Untuk menguji hipotesis nol, dapat menggunakan distribusi t dengan (n-2) dengan rumus
berikut :
Uji Kemiringan
t=
b0
Sb
Keterangan :
b = perkiraan kemiringan garis regresi yang dihitung melalui informasi sampel
Sb
= kesalahan standar dari perkiraan kemiringan, yang juga ditentukan melalui informasi
sampel.
Langkah awal adalah menetapkan hipotesis nol dan alternatifnya yaitu :
H : 0
H1 : > 0
Dalam hal ini menggunakan uji satu sisi. Jika tidak menolak hipotesis nol maka dapat
disimpulkan bahwa kemiringan garis regresi populasi sama dengan nol. Hal ini berarti bahwa
variable bebas tidak ada gunanya dalam memperkirakan variable terkait. Dan jika menolak
hipotesis nol dan menerima alternatifnya maka dapat disimpulkan bahwa kemiringan
garisnya lebih besar dari nol. Dengan demikian, variable bebasnya dapat membantu
memperkirakan variable terikat.
Menilai Kemampuan Prediksi oleh persamaan Regresi
Kesalahan Standar Estimasi adalah ukuran dispersi,atau sebaran dari nilai yang diamati di
sekitar garis regresi untuk setiap nilai x.
Y
Y ^
S yx =
Koefisien Determinasi
Penggunaan kesalahan standar estimasi memberikan ukuran relatif bagi kemampuan
persamaan regresi untuk memprediksi.Kita akan menggunakannya untuk memberikan
informasi yang lebih mendetail mengenai prediksi pada bagian berikutnya.Pada bagian
ini,statistik lain akan dijelaskan dimana akan memberikan ukuran yang lebih dapat ditafsirkan
mengenai kemampuan persamaan regresi untuk memprediksi.Statistik itu disebut koefisien
determinasi atau R kuadrat.
KOEFISIEN DETERMINASI.Proporsi dari variasi total pada variabel terikat Y yang
dijelaskan atau diperhitungkan oleh variasi pada variabel bebas X.
Koefisien determinasi mudah dihitung.Koefisien detrminasi merupakan koefisien korelasi
kuadrat.Maka dari itu,istilah R kuadrat juga dipergunakan.Pada Copier Sales of
Amerika,koefisien korelasi bagi hubungan antara jumlah mesin fotocopi yang terjual dengan
jumlah panggilan penjualan adalah 0,759.Jika menghitung (0,759)2 ,koefisien determinasinya
sebesar 0,576.
Seberapa baik persamaan regresi dapat memprediksi jumlah mesin fotocopi yang terjual
melalui sejumlah panggilan penjualan yang dilakukan ? jika memungkinkan untuk membuat
prediksi yang sempurna,koefisien determinasi akan sebesar 100 persen.Hal itu berarti bahwa
variabel bebas ,jumlah panggilan penjualan menjelaskan atau memperhitungkan seluruh
variasi jumlah mesin fotocopi yang terjual.Koefisien determinasi 100 persen terkait dengan
koefisien korelasi +1,0 atau -1,0.
Hubungan antara koefisien korelasi ,koefisien determinasi dan Kesalahan standar
estimasi
Ketika kesalahan standarnya kecil,hal tersebut menunjukkan bahwa kedua variabel terkait
secara dekat.Pada perhitungan kesalahan standar,komponen kuncinya adalah :
Y
Y ^
Jika nilai komponen tersebut kecil maka kesalahan standarnya juga kecil.
Koefisien korelasi mengukur kekuatan hubungan linier di antara dua variabel.Ketika titiktitik pada diagram pencar terlihat mendekati garis,kita perhatikan bahwa koefisien
korelasinya cenderung besar.Maka dari itu,koefisien korelasi dan kesalahan standar estimasi
berbanding terbalik.Semakin kuat hubungan linier antara dua variabel,koefisien korelasinya
meningkat dan kesalahan standar estimasinya turun.
Koefisien korelasi merupakam koefisien determinasi.Koefisien determinasi mengukur
presentasi variasi Y yang dijelaskan oleh variasi X.
Sarana umum guna menunjukkan hubungan di antara ketiga ukuran tersebut adalah tabel
ANOVA.Total variasi terbagi menjadi dua komponen : variasi akibat perlakuan dan variasi
akibat kesalahan acak.
Variasi total terbagi ke dalam komponen :
1. Variasi yang dijelaskan oleh regresi (dijelaskan oleh variabel bebas)
2. Kesalahan atau residu.
Hal ini merupakan variasi yang tidak dapat dijelaskan.Ketiga kategori tersebut terlihat pada
kolom pertaa pada spreadsheet tabel ANOVA.Kolom berjudul df mengacu pada derajat
kebebasan yang terkait dengan masing-masing kategori.Jumlah total derajat kebebasan adalah
n-1.Jumlah derajat kebebasan yang terkait dengan komponen kesalahan adalah n2.Komponen SS yang terletak di tengah-tengah tabel ANOVA mengacu pada penjumlahan
kuadrat.
Total derajat kebebasan sama dengan penjumlahan derajat kebebasan regresi dan residu
(kesalahan ),serta total penjumlahan kuadrat yang sama dengan penjumlahan dari jumlah
kuadrat regresi dan residu(kesalahan).
= 1065,789
Y^
(Y )
Jumlah kuadrat residu atau kesalahan = SSE=
Y^
(Y )
Total jumlah kuadrat = total SS = =
= 784,211
= 1850,00
Koefisien determinasi didefinisikan seagai presentase total variasi (total SS) yang dijelaskan
oleh persamaan regresi (SSR).Melalui tabel ANOVA nilai R-kuadrat yang dilaporkan dapat
disahkan.
Koefisien Determinasi r2=
SSR
SSE
=1
total SS
total SS
Y Y^
()
] ke
SSE
Kesalahan standar estimasi S y . x = n2
Dalam hal penjumlahan ,analisis regresi memberikan dua statistik untuk menilai kemampuan
persamaan regresi untuk memprediksi ,kesalaham standar estimasi dan koefisien
determinasi.Ketika melaporkan hasil-hasil analisis regresi,temuannya harus dijelaskan
persamaan regresi digunakan untuk memprediksi rata-rata nilai Y pada setiap nilai X
X X
2
X
1
+
n
Y^ (S y . x )
2
Estimasi interval kedua disebut interval prediksi.Interval ini dipergunakan ketika persamaan
regresi digunakan untuk memprediksi setiap Y ( n = 1 ) pada setiap nilai X.
X X 2
X 2
1
1+ +
n
^
Y t S y. x
Mengubah Data
Koefisien korelasi menggambarkan kekuatan hubungan linier antara dua variabel.Bisa jadi
kedua variabel berhubungan erat,namun berhubungan tidak linier.Berhati-hatilah ketika anda
sedang menafsirkan koefisien korelasi.Nilai r barangkali menunjukkan tidak adanya
hubungan linier,namun bisa jadi terdapat hubungan yang berbentuk tidak linier lainnya atau
berbentuk kuva.
Phil Mickelson memainkan 22 pertandingan ,memperoleh $ 5.784.823 dan memiliki rata-rata
skor setiap ronde 69,16.Fred Couples memainkan 16 pertandingan,memperoleh $
1.396.109,dan memiliki
sebagai berikut.
Korelasi antara variabel Kemenangan dan Skornya adalah 0,782.Korelasinya dengan cukup
kuat berbanding terbalik.Akan tetapi ketika kita menggambarkan data pad diagram pencar
,hubungannya tidak terlihat linier;tidak terlihat menyerupai suatu garis.
BAB 14
ANALISIS REGRESI BERGANDA
Analisis Regresi Berganda
Y^ = +b1 X 1 +b 2 X 2 +b 3 X 3+ ....+ bk X k
Keterangan:
a = titik potong, yaitu nilai Y ketika seluruh X sama dengan nol
bj = jumlah perubahan Y ketika X1 bertambah satu unit dengan nilai seluruh variabel
bebas lainnya tetap konstan. Indeks huruf j merupakan simbol yang membantu
mengenali tiap-tiap variabel bebas; yang tidak dgunakan pada bagian manapun
dalam perhitungan. Biasanya indeks tersebut merupakan nilai bilangan di antara 1
dan k yang merupakan jumlah variabel bebasnya. Akan tetapi, indeks tersebut
juga dapat berupa kata yang pendek atau singkatan, misalnya usia.
Banyak statistik dan metode statistik yang digunakan untuk menilai hubungan antara
variabel terikat dengan lebih dari satu variabel bebas. Langkah awal yang dilakukan adalah
menuliskan hubungan antar variabel tersebut dalam bentuk persamaan regresi berganda.
Tabel ANOVA
Analisis statistik persamaan regresi berganda dirangkum dalam tabel ANOVA, Tabel
ANNOVA melaporkan total jumlah variasi variabel terikat Y dan menjadi dua komponen:
1. Regresi, atau variasi Y yang dijelaskan seluruh variabel bebas dan,
2. Kesalahan atau residu, atau variasi X yang tidak dijealaskan oleh Y.
Kedua kategori tersebut diketahui pada kolom pertama tabel ANOVA dibawah ini.
Kolom berjudul df mengacu pada derajat kebebasan yang terkait dengan setiap kategori.
Total jumlah kebebasan adalah n-1. Jumlah derajat kebebasan regresi sama dengan jumlah
variabel bebas didalam persamaan regresi berganda (k). Jumlah derajat kebebasan terkait
dengan komponen kesalahan yang sama dengan total dereajat kebebasan dikurangi derajat
kebebasan regresi (n-(k-1)).
Sumber
df
Regresi
k
Residu
atau n-1 ( k + 1
)
kesalahan
n-1
Total
SS
SSR
SSE
SS total
MS
MSR = SSR/k
MSE
=
[ n(k +1)]
F
MSR/MS
SSE/ E
Jumlah kuadrat regresi merupakan penjumlahan kuadrat dari selisish antara nilai variabel
terikat yang diamati Y, dengan nilai perkiraan atau taksirannya yang sesuai, Y .
Selisihnya merupakan nilai kesalahan perkiraan atau peramalan variabel terikat dalam
persamaan regresi berganda. Nilainya dihitung dengan persamaan:
Y Y
()2
Jumlah Kuadrat Kesalahan atau Residu=SSE=
Kesalahan Standar Estimasi Berganda
Kesalahan estimasi dapat disejajarkan dengan standar deviasi. Menghitung kesalahan
standar estimasi berganda dengan persamaan sebgai berikut:
k+ 1
n
SSR
(Y Y^ )2 =
S Y 123.. k =
n(k +1)
Keterangan: Y
Y^
= pengamatan aktual.
= nilai perkiraan yang dihitung melalui persamaan regresi.
SSR
Ukuran sebaran yang serupa, misal kesalahan standar deviasi pada bab-13, kesalahan
standar berganda yang lebih kecil menunjukkan persamaan taksiran yang lebih baik atau
lebih efektif.
Koefisiensi Determinasi Berganda
Koefisien determinasi berganda diartikan sebagai persen variasi variabel terikat yang
dijelaskan atau diperhitungkan oleh variabel bebas. Dalam kasus regresi berganda,
pengertiannya diperlukan sebagai berikut:
Koefisiensi Determinasi Berganda, persen variasi variabel terikat, Y, yang dijelaskan
oleh sekelompok variabel bebas X1, X2, X3...., Xk.
Ciri-ciri koefisien determinasi berganda antara lain:
R=
SSR
SS total
yang meningkat hanya karena total jumlah variabel bebas dan bukan karena tambahan
variabel bebas merupakan penaksir yang baik atas variabel terikat. Faktanya, jika jumlah
variabel (k) dan ukuran sampel (n) bernilai sama.
SSE
n(k +1)
2
Koefisien Determinasi yang disesuaikan Radj =
SS total
n1
Kesimpulan Regresi Linier Berganda
Analisis regresi berganda hanya diamati sebagai cara untuk menggambarkan hubungan
antara variable terikat dengan beberapa variable bebas. Akan tetapi, metode kuadrat terkecil
juga memiliki kemampuan untuk menarik kesimpulan atau rumusan mengenai hubungan bagi
keseluruhan populasi.
Dalam pembentukan regresi berganda, diasumsikan bahwa terdapat persamaan regresi
populasi yang tidak diketahui yang menghubungkan variable terikat dengan variable bebas
sebanyak k. Hal ini terkadang disebut sebagai model hubungan. Persamaan tersebut dapat
dinyatakan dalam persamaan :
Y^
+ 1 X 1
2 X 2
+.+
k Xk
X1
X2
,.
Xk
untuk menjelaskan
H1
Berikut ini F hitung untuk menguji hipotesis global. Rumusnya sebagai berikut:
F=
SSR /k
SSE/ n(k +1)
F=
SSR /k
MSR
=
SSE/ n(k +1) MSE
Perlu diingat F-hitung menguji hipotesis nol dasar bahwa kedua variansinya atau pada kasus
ini kedua kuadratnya rta-rata sama. Pada uji hipotesis regresi berganda global kali ini, kita
akan menolak hipotesis nolnya (H0) yaitu seluruh koefisien regresinya nol ketika kuadrat
rata-rata residunya.
Sejalan dengan menguji hipotesis lainya kaidah keputsan dapat didasrakan pada salah satu
dari dua metode:
1. Membandingkan statistic ujinya dengan nilai kritisnya
2. Menghitung nilai yang didasarkan pada statistic ujinya dan membandingkan nilai
dengan tingkat signifikansinya.
Melalui metode nilai kristis , mula-mula kita mencari nilai kritis F yang memerlukan tiga
informasi:
1. Derajat kebebasan pembilang
2. Derajat kebebasan penyebut
3. Tingkat signifikansi
t=
b j0
S bj
1
1R2J
dengan nilai variabel bebas lainnya, sehingga diperoleh variabel bebas baru.Model dua
Y = + 1 X 1+ 2 X 2 + 3 X 1 X 2
variabel yang memasukan komponen interaksi yakni:
Komponen
X1 X2
mengalihkan nilai
X1
merupakan
dan
X2
komponen
interaksi.Membentuk
variabel
dengan
Terdapat situasi lain yang dapat terjadi ketika mempelajari interaksi diantarnya variabel
bebasnya.
1. Dimungkinkan untuk memiliki interaksi tiga arah diantara variabel bebasnya.
2. Dimungkinkan untuk memiliki interaksi dengan salah satu dari variabel bebasnya
berskala nominal.
Regresi Berjenjang
Menguraikan teknik yang disebut dengan regresi berjenjang, yang lebih efisien dalam
mambangun persamaan regresi.Regresi berjenjang, yaitu metode tahap untuk menentukan
persamaan regresi yang dimulai dengan satu variabel bebas dan menambahkan atau
menghapus variabel bebasnya satu demi satu.Hanya variabel bebas dengan koefisien regresi
bukan 0 saja dimasukan dalam persamaan regresi. Kelebihan metode berjenjang:
1. Hanya variabel bebas dengan koefisien regresi signifikan saja yang dimasukan
kedalam persamaan.
2. Langkah-langkah yang dilibatkan dalam membangung persamaan regresi sudah jelas.
3. Metodenya efisien dalam mencari persamaan regresi hanya dengan koefisien regresi
yang signifikan saja.
4. Perubahan dalam kesalahan standar estimasi berganda beserta koefisien
determinasinya diperlhatkan.
Metode berjenjang disebut juga metode pemilihan laju karena dimulai tana variabel bebas
dan menambhakan satu variabel bebas ke persamaan regresi pada setiap iterasi.Terdapat pula
metode penyisihan mundur yang dimuali dengan keseluruhan variabel dan mengeluarkan satu
variabel bebas pada setiap iterasi.
Pendeatan lainya adalah regresi subset terbaik, adalah model yangt paling baik diamati
menggunakan satu variabel bebas, model yang paling baik yang menggunakan dua variabel
bebas, model yang paling baik dengan tiga varaibel bebas dan seterusnya.