Analisis Butir Tes
Analisis Butir Tes
Analisis Butir Tes
PENDAHULUAN
Dengan demikian maka apabila dikenal sebuah tes akan tercermin hasilnya
dalam suatu kurva normal. Sebagian kecil siswa berada didaerah sedang, sebagian
kecil berada di ekor kiri, dan sebagian kecil yang lain berada di ekor kanan. Apabila
keadaan setelah hasil tes dianalisis tidak seperti yang diharapkan dalam kurva
normal, maka tentu ada “apa-apa” dengan soal tesnya. Apabila hampir seluruh
siswa memperoleh skor jelek berarti bahwa tes yang disusun mungkin terlalu sukar.
1
Arikunto, Suharsimi, Dasar-Dasar Evaluasi Pendidikan, (Jakarta: Bumi Aksara, 1987),
hlm. 21
2
Purwanto, Evaluasi Hasil Belajar (Yogyakarta:Pustaka Belajar, 2009), hlm.1.
1
Sebaliknya jika seluruh siswa memperoleh skor baik, dapat diartikan bahwa tesnya
terlalu mudah. Tentu saja interpretasi terhadap soal tes akan lain seandainya tes itu
sudah disusun sebaik-baiknya sehingga memenuhi persyaratan sebagai tes.3
B. Rumusan Masalah
1. Apakah yang dimaksud dengan analisis butir soal secara kualitatif dan
kuantitatif?
2. Bagaimana cara mengaplikasikan analisis butir soal secara kualitatif dan
kuantitatif?
3. Apa manfaat dari menganalisis butir soal?
C. Tujuan
1. Mendeskripsikan analisis butir soal secara kualitatif dan kuantitatif.
2. Mengaplikasikan cara mengaplikasikan analisis butir soal secara kualitatif
dan kuantitatif.
3. Mengetahui manfaat dari menganalisis butir soal.
3
Daryanto, Evaluasi Pendidikan (Jakarta:PT.Rineka Cipta, 2001), hlm. 176-177.
2
BAB II
PEMBAHASAN
3
persepsinya, kemudian mereka berkerja sendiri-sendiri di tempat berbeda.
Para penelaah dipersilakan memperbaiki langsung pada teks soal dan
memberikan komentarnya serta memberikan nilai pada setiap butir soal
dengan kriteria: soal baik, perlu diperbaiki, atau diganti.
Keterangan: Berilah tanda (V) bila tidak sesuai dengan aspek yang ditelaah!
5
3 Pokok soal tidak memberi petunjuk kunci jawaban
4 Pokok soal bebas dan pernyataan yang bersifat
negatif ganda
5 Pilihan jawaban homogen dan logis ditinjau dari
segi materi
6 Gambar, grafik, tabel, diagram, atau sejenisnya
jelas dan berfungsi
7 Panjang pilihan jawaban relatif sama
8 Pilihan jawaban tidak menggunakan pernyataan
"semua jawaban di atas salah/benar" dan
sejenisnya
9 Pilihan jawaban yang berbentuk angka/waktu
disusun berdasarkan urutan besar kecilnya angka
atau kronologisnya
10 Butir soal tidak bergantung pada jawaban soal
sebelumnya
Bahasa/Budaya
1 Menggunakan bahasa yang sesuai dengan kaidah
bahasa Indonesia
2 Menggunakan bahasa yang komunikatif
3 Tidak menggunakan bahasa yang berlaku
setempat/tabu
4 Pilihan jawaban tidak mengulang kata/kelompok
kata yang sama, kecuali merupakan satu
kesatuan pengertian
Keterangan: Berilah tanda (V) bila tidak sesuai dengan aspek yang ditelaah!
4
Sulistyorini, EvaluasiPendidikan, (Yogyakarta: Teras, 2009), h. 173
5
Anas Sudijono, Pengantar Evaluasi Pendidikan, (Jakarta: RajaGrafindo Persada), 2006,
h. 370
7
yang memadai. Ada dua jenis analisis butir soal, yakni analisis tingkat
kesukaran soal dan analisis daya pembeda. Menganalisis tingkat kesukaran soal
artinya mengkaji soal-soal tes dari segi kesulitannya sehingga dapat diperoleh
soal-soal mana yang temasuk mudah, sedang, dan sukar. Sedangkan
menganalisis daya pembeda artinya mengkaji soal-soal tes dari segi
kesanggupan tes tersebut dalam membedakan siswa yang termasuk ke dalam
kategori lemah atau rendah dan kategori kuat atau tinggi prestasinya. 6
Tingkat kesukaran soal dipandang dari kesanggupan atau kemampuan
siswa dalam menjawabnya, bukan dilihat dari sudut guru sebagai pembuat soal.
Persoalan yang penting dalam melakukan analisis tingkat kesukaran soal
adalah penentuan proporsi dan kriteria soal yang termasuk mudah, sedang, dan
sukar. Ada beberapa dasar pertimbangan dalam menentukan proporsi jumlah
soal kategori mudah, sedang, dan sukar. Pertimbangan pertama adalah adanya
keseimbangan, yakni jumlah soal sama untuk ketiga kategori tersebut. Artinya,
soal mudah, sedang, dan sukar jumlahnya seimbang. Misalnya tes objektif
pilihan berganda dalam pelajaran matematika disusun sebanyak 60 pertanyaan.
Dari 60 pertanyaan, soal kategori mudah sebanyak 20, kategori sedang 20, dan
kategori sukar 20. Pertimbangan kedua proporsi jumlah soal untuk ketiga
kategori tersebut didasarkan atas kurva normal. Artinya, sebagian besar soal
berada dalam kategori sedang, sebagian lagi termasuk ke dalam kategori mudah
dan sukar dengan proporsi yang seimbang.
Perbandingan antara soal mudah-sedang-sukar bisa dibuat 3-4-3.
Artinya, 30 % soal kategori mudah, 40 % soal kategori sedang, dan 30 % lagi
soal kategori sukar. Misalnya, dari 60 pertanyaan pilihan ganda terdapat 18 soal
kategori mudah, 24 soal kategori sedang, dan 18 soal kategori sukar. Persoalan
lain adalah menentukan kriteria soal, yaitu ukuran untuk menentukan apakah
soal tersebut termasuk mudah, sedang, atau sukar. Dalam menentukan kriteria
ini digunakan judgment dari guru berdasarkan pertimbangan-pertimbangan
tertentu. Pertimbangan tersebut antara lain adalah:
6
Nana Sudjana, Penilaian Hasil Proses Belajar, (Bandung: Remaja Rosdakarya, 2006),
h.135
8
a) Abilitas yang diukur dalam pertanyaan tersebut. misalnya untuk bidang
kognitif, aspek pengetahuan atau ingatan dan pemahaman termasuk kategori
mudah, aspek penerapan dan analitis termasuk kategori sedang, dan aspek
sintesis dan evaluasi termasuk kategori sukar.
b) Sifat materi yang diujikan atau ditanyakan. Misalnya ada fakta, konsep,
prinsip dan hukum, serta generalisasi. Fakta termasuk ke dalam kategori
mudah, konsep dan prinsip termasuk ke dalam kategori sedang, dan
generalisasi (menarik kesimpulan) termasuk ke dalam kategori sukar.
c) Isi bahan yang ditanyakan sesuai dengan bidang keilmuannya, baik luasnya
maupun kedalamannya. Tentang persoalan isi bahan yang akan diujikan,
guru sendiri sendiri harus sudah bisa menentukan mana yang termasuk
mudah-sedang-sukar. Dengan kata lain, untuk menentukan kesulitan isi
bahan, kewenangan ada pada guru itu sendiri.
d) Bentuk soal. Misalnya dalam tes objektif, tipe soal pilihan benar-salah lebih
mudah daripada pilihan berganda dengan option tiga atau empat.
Menjodohkan relatif lebih sulit daripada pilihan berganda jika terdapat lima
atau lebih yang harus dipasangkan.
Dengan demikian, keempat pertimbangan di atas tidak mutlak sebab
bergantung pada isi bahan yang ditanyakan. Kadang-kadang soal benar-salah
untuk aspek tertentu lebih sulit daripada pilihan berganda untuk aspek lainnya.
Demikian juga soal yang mengungkapkan kemampuan analisis dalam hal
tertentu lebih mudah daripada soal yang mengungkapkan pemahaman. Dengan
demikian, judgment ada pada guru yang bersangkutan setelah ia menentukan
ruang lingkup materi yang akan diujikan, baik luas maupun kedalamannya.
Hal yang sama berlaku dalam menyusun tes uraian (esai). Artinya, soal-
soal jenis esai hendaknya memperhatikan pula tingkat kesukaran soal.
Mengingat sifatnya, menentukan tingkat kesukaran soal tes uraian jauh lebih
mudah daripada tes objektif. Melalui analisis abilitas yang diukur serta isi dan
sifat bahan yang ditanyakan, dalam tes uraian dapat dengan mudah menentukan
tingkat kesukaran.
Setelah judgment dilakukan oleh guru, kemudian soal tersebut
diujicobakan dan dianalisis apakah judgment tersebut sesuai atau tidak.
9
Misalnya soal nomor 5 termasuk ke dalam kategori mudah, soal nomor 7
kategori sedang, dan nomor 9 kategori sukar. Setelah dilakukan uji coba,
hasilnya dianalisis apakah nomor-nomor soal itu sesuai dengan judgment
tersebut. cara melakukan analisis untuk menentukan tingkat kesukaran soal
adalah dengan menggunakan rumus sebagai berikut:
𝐵
I=𝑁
10
Kemudian soal tersebut diberikan kepada 20 orang siswa, dan tidak
seorang pun yang tidak mengisi seluruh pertanyaan tersebut. setelah
diperiksa, hasilnya adalah sebagai berikut:
No Banyaknya Banyaknya siswa Indeks B Kategori
soal siswa yang yang menjawab N soal
menjawab (N) betul (B)
1 20 18 0,9 Mudah
2 20 12 0,6 Sedang
3 20 10 0,5 Sedang
4 20 20 1,0 Mudah
5 20 6 0,3 Sukar
6 20 4 0,2 Sukar
7 20 16 0,8 Mudah
8 20 11 0,55 Sedang
9 20 17 0,85 Mudah
10 20 5 0,25 Sukar
Dari sebaran di atas ternyata ada tiga soal yang meleset, yakni soal nomor
3 yang semula diproyeksikan ke dalam kategori mudah, setela dicoba ternyata
termasuk ke dalam kategori sedang. Demikian, juga soal nomor 4 yang semula
diproyeksikan sedang ternyata termasuk ke dalam kategori mudah. Nomor soal
9 semula diproyeksikan sedang, ternyata termasuk ke dalam kategori mudah.
Sedangkan tujuh soal lainnya sesuai dengan proyeksi semula. Atas dasar
tersebut, ketiga soal di atas harus diperbaiki kembali.
- Soal no 3 diturunkan ke dalam kategori mudah
- Soal no 4 dinaikkan ke dalam kategori sedang
- Soal no 9 dinaikkan ke dalam kategori sedang
11
bawah batas lulus (passing grade) untuk tiap-tiap soal. untuk menafsirkan
tingkat kesukaran soalnya dapat digunakan kreteria sebagai berikut:
a. Jika jumlah peserta didik yang gagal mencapai 27%, termasuk mudah.
b. Jika jumlah peserta didik yang gagal antara 28%, sampai dengan 72%,
termasuk sedang.
c. Jika jumlah peserta didik yang gagal mencapai 72%, keatas, termasuk
sukar.
Contoh:
Di sebuah Madrasah Ibtidaiyah 33 orang siswa di tes dengan lima
soal bentuk uraian. Skor maksimum ditentukan 10 dan skor minimum 0.
Jumlah siswa yang memperoleh nilai 0-5=10 orang (berarti gagal), nilai 6 =
12 orang dan nilai 7-10 = 11 orang.
10
Jadi, tingkat kesukaran (TK) = 33 × 100 % = 30,3%
Tingkat kesukaran 30,3 berada di antara 28 dan 72, berarti soal tersebut
termasuk sedang. Catatan: batas lulus ideal = 6 (skala 0 - 10)
7
Zainal Arifin, Evaluasi Pembelajaran, (Bandung: Remaja Rosdakarya, 2012), h. 273
12
apabila tes tersebut jika diujikan kepada anak berprestasi tinggi, hasilnya
rendah, tetapi bila diberikan kepada anak yang lemah, hasilnya lebih tinggi.
Atau bila diberikan kepada kedua kategori siswa tersebut, hasilnya sama
saja. Dengan demikian, tes yang tidak memiliki daya pembeda, tidak akan
menghasilkan gambaran hasil yang sesuai dengan kemampuan siswa yang
sebenarnya. Sungguh aneh bila anak pandai tidak lulus, tetapi anak bodoh
lulus dengan baik tanpa dilakukan manipulasi oleh si penilai atau diluar
faktor kebetulan.8
Daya beda yang ideal adalah daya beda 0,40 ke atas. Namun untuk
ulangan ulangan harian, masih dapat ditolerir daya beda sebesar 0,20. 9
klasifikasidayapembeda:
D: 0,00 – 0,20 : jelek (poor)
D: 0,20 – 0,40 : cukup (satisfactory)
D: 0,40 – 0,70 : baik (good)
D: 0,70 – 1,00 : baik sekali (excellent)
D: negatif semuanya tidak baik, jadi semua butir soal yang
mempunyai nilai D negatif sebaiknya dibuang saja.10
Cara yang biasa digunakan dalam analisis daya pembeda adalah dengan
menggunakan tabel atau kriteria dari Rose dan Stanley,
Rumusnya adalah:
SR-ST
SR = siswa yang menjawab salah dari kelompok rendah
ST = siswa yang menjawab salah dari kelompok tinggi
Contoh:
Tes pilihan ganda dengan option 4 diberikan kepada 30 orang siswa.
Jumlah soal 15. Setelah diperiksa, datanya adalah sebagai berikut:
8
Nana Sudjana, Penilaian Hasil Proses Belajar, (Bandung: Remaja Rosdakarya, 2006),
h.141
9
WayanNurkancana&Sumartana, EvaluasiPendidikan, (Surabaya: Usaha Nasional, 1986),
h. 134
10
Daryanto, EvaluasiPendidikan, (Jakarta: RinekaCipta, 1999), h. 190
13
No Siswa yang menjawab Siswa yang menjawab SR – ST Ket
Soal salah kelompok rendah salah kelompok tinggi
(SR) (ST)
1 6 1 5
2 6 1 5
3 5 2 3
4 6 1 5
5 2 1 1
6 5 1 4
7 2 1 1
8 7 1 6
9 7 1 6
10 4 2 2
11 3 1 2
12 6 1 2
13 2 1 5
14 6 1 1
15 5 2 3
N = 30 orang N = 27 % dari 30 = 8
Kriteria yang digunakan dari tabel Ross dan Stanley adalah sebagai
berikut:
Jumlah testi N Option
(N) (27% N) 2 3 4 5
28 – 31 8 4 5 5 5
32 – 35 9 5 5 5 5
36 – 38 10 5 5 5 5
Dst.
14
Bila SR – ST sama atau lebih besar dari nilai tabel, artinya butir soal
itu mempunyai daya pembeda.
Dari data di atas, batas pengujian adalah 5, yakni yang pertama dalam tabel
di atas dengan jumlah N (28 – 31), n = 8 pada option 4.
Dengan demikian dapat disimpulkan sbb.:
No item SR – ST Batas nilai tabel Keterangan
1 5 5 Diterima
2 5 5 Diterima
3 3 5 Ditolak
4 5 5 Diterima
5 1 5 Ditolak
6 4 5 Ditolak
7 1 5 Ditolak
8 6 5 Diterima
9 6 5 Diterima
10 2 5 Ditolak
11 2 5 Ditolak
12 5 5 Diterima
13 1 5 Ditolak
14 5 5 Diterima
15 3 5 Ditolak
15
d) Melakukan analisis butir soal, yakni menghitung jumlah siswa yang
menjawab salah dari semua nomor soal, baik pada kelompok pandai maupun
pada kelompok kurang
e) Menghitung selisih jumlah siswa yang salah menjawab pada kelompok
kurang dengan kelompok pandai (SR – ST)
f) Membandingkan nilai selisih yang diperoleh dengan nilai tabel Ross dan
Stanley
g) Menentukan ada tidaknya daya pembeda pada setiap nomor soal dengan
kriteria “memiliki daya pembeda” bila nilai selisih jumlah siswa yang
menjawab salah antara kelompok kurang dengan kelompok pandai (SR – ST)
sama atau lebih besar dari nilai tabel.
Butir soal yang tidak memiliki daya pembeda diduga terlalu mudah atau
terlalu sukar sehingga perlu diperbaiki atau diganti dengan pertanyaan lain.
Idealnya semua butir soal memiliki daya pembeda dan tingkat kesukaran.
3. Menganalisis Pengecoh
4. Pada saat membicarakan tes objektif bentuk multiple choice
5. item
6. tersebut untuk setiap butir
7. item
8. yang dikeluarkan dalam tes hasil belajar telah dilengkapi dengan
beberapa kemungkinan jawab, atau yang sering dikenal dengan istilah
option atau alternatif. Option atau alternatif itu jumlahnya berkisar
antara 3 sampai dengan 5 buah, dan
16
terpasang pada setiap butir item itu, salah satu diantaranya adalah
merupakan jawaban betul (= kuncijawaban); sedangkan sisanya adalah
merupakan jawaban salah. Jawaban-jawaban salah itulah yang biasa dikenal
dengan istilah distraktor (pengecoh).11
Analisis distaraktor yang juga dikenal dengan istilah penyesat atau
penggoda adalah pilihan jawaban yang bukan merupakan kunci jawaban.
Pengecoh bukan sekedar pelengkap pilihan pengecoh diadakan untuk
menyesatkan siswa agar tidak memilih kunci jawaban. Pengecoh menggoda
siswa yang kurang begitu memahami materipelajaran untuk memilihnya.
Agar dapat melakukan fungsinya untuk mengecoh, maka pengecoh harus
dibuat semirip mungkin dengan kunci jawaban.12
Pengecoh dianggap baik bila jumlah peserta didik yang memilih
pengecoh itu sama atau mendekati jumlah ideal. Indeks pengecoh dihitung
dengan rumus:
keterangan:
IP = indeks pengecoh
P = jumlah peserta didik yang memilih pengecoh
N = jumlah peserta didik yang ikut tes
B = jumlah peserta didik yang menjawab benar pada setiap soal
n = jumlah alternatif jawaban (opsi)
1 = bilangan tetap
Catatan:
Jika semua peserta didik menjawab benar pada butir soal tertentu
(sesuai kunci jawaban), maka IP = 0 yang berarti soal tersebut jelek. Dengan
demikian, pengecoh tidak berfungsi.
Contoh:
Siswa MI yang berjumlah 50 orang di tes dengan 10 soal bentuk
pilihan ganda. Tiap soal memiliki 5 alternatif jawaban (a, b, c, d dan e).
Kunci jawaban (jawaban yang benar) soal nomor 8 adalah c. Setelah soal
11
Anas Sudijono, Pengantar Evaluasi Pendidikan, (Jakarta: Raja Grafindo Persada,
2006), h. 409
12
Purwanto, Evaluasi Hasil Belajar, (Yogyakarta: Pustaka Pelajar, 2009), h. 108
17
nomor 8 diperiksa untuk semua peserta didik, ternyata dari 50 orang siswa,
20 siswa menjawab benardan 30 siswa menjawab salah. Idealnya, pengecoh
dipilih secara merata, artinya semua pengecoh secara merata ikut
menyesatkan siswa. Perhatikan contoh soal nomor 8 berikut ini:
Alternatif Jawaban a B C d e
DistribusiJawabansiswa 7 8 20 7 8
IP 93% 107% ** 93% 107%
KualitasPengecoh ++ ++ ** ++ ++
Keterangan:
** : kunci jawaban
++ : sangat baik
+ : baik
- : kurang baik
_ : jelek
__ : sangat jelek
Pada contoh di atas, IP butir a, b, d, dan e adalah 93%, 107%, 93%
dan 107%.semua dekat dengan angka 100%, sehingga digolongkan sangat
baik sebab semua pengecoh itu berfungsi. Jka pilihan jawaban siswa
menumpuk pada satu alternatif jawaban, misalnya sebagai berikut:
Alternatif Jawaban a B C d e
Distribusi Jawaban siswa 20 2 20 8 0
IP 267% 27% ** 107% 0%
Kualitas Pengecoh _ - ** ++ _
18
Sangat baik IP = 76% - 125%
Baik IP = 51% - 75% atau 126% - 150%
Kurang baik IP = 26% - 50% atau 151% - 175%
Jelek IP = 0% - 25% atau 176% - 200%
Sangat jelek IP = lebih dari 200%
Untuk analisis pengecoh perlu dibuat table khusus agar setiap butir soal
diketahui berapa banyak siswa yang menjawa buntuk satiap option. Hal ini tentu
saja sangat memakan waktu dan tenaga. Tapi jika diolah dengan computer
menggunakan statistik SPSS maka akan cepat.
19
20
BAB III
PENUTUP
A. Kesimpulan
Analisis butir soal secara modern yaitu penelaahan butir soal dengan
menggunakan Item Response Theory (IRT) atau teori jawaban butir soal. Teori ini
merupakan suatu teori yang menggunakan fungsi matematika untuk
menghubungkan antara peluang menjawab benar suatu scal dengan kemampuan
siswa. Nama lain IRT adalah latent trait theory (LTT), atau characteristics curve
theory (ICC).
21
Manfaat menganalisis butir soal, yaitu:
B. Saran
Ketika kita menjadi pengajar dan pendidik, sebaiknya dalam penyusunan
instrument tes, seperti soal tes hendaknya disesuaikan dengan kriteria penyusunan
soal yang baik dan benar. Dimana, tingkat kesukarannya diperhatikan, daya
pembeda disesuaikan, pengecoh soal berfungsi dengan baik. Dan juga ketika diuji
dengan validitas maupun realibilitas sesuai dengan kualitas dan metode
pembelajaran yang menjunjung tinggi cita-cita guru Indonesia untuk mencerdaskan
kehidupan bangsa
22
DAFTAR PUSTAKA
23