Teori Tes Klasik dan Tes Modern

BAB I

PENDAHULUAN

A.Latar belakang

Dewasa ini ada dua macam teori tentang pengukuran, yakni Teori Tes Klasik dan Teori Tes Modern (Suryabrata, 2005), Teori Tes Klasik disebut juga dengan Classical True-Score Theory, dinamakan Teori Tes Klasik karena unsur-unsur teori ini sudah dikembangkan dan diaplikasikan sejak lama, namun tetap bertahan hingga sekarang.

Teori Tes Modern disebut juga dengan Latent-Trait Theory karena teori ini berasumsi bahwa performansi subjek dalam mengerjakan suatu tes dapat diprediksi dari kemampuannya yang bersifat laten atau menetap. Teori Tes Modern juga sering disebut dengan Item Response Theory, artinya respon subjek terhadap suatu aitem menunjukkan kemampuan kognitifnya.

Teori Tes Modern muncul untuk menjawab keterbatasan dari Teori Tes Klasik yakni, parameter dalam Teori Tes Klasik merupakan karakteristik aitem yang tergantung pada kelompok sampel yang digunakan untuk menghitungnya, selain itu Teori Tes Klasik juga memerlukan kesetaraan eror pengukuran bagi semua subjek yang dikenai tes, definisi paralel dalam Teori Tes Klasik juga sangat sulit untuk dipenuhi dalam prakteknya, dengan hadirnya Teori Tes Modern dapat menjawab semua keterbatasan ini, namun perlu diingat bahwa Teori Tes Modern ini tidak praktis, dari semua keterbatasan Teori Tes Klasik tersebut perlu dilihat juga kelebihan dari Teori Tes Klasik yakni, Teori Tes Klasik telah dikembangkan sejak dulu sehingga telah berhasil dalam meletakkan konsep-konsep dasar pengukuran, selain itu Teori Tes Klasik juga memiliki nilai praktis yang tinggi.

Teori tes klasik (TTK) atau classical test theory (CTT) telah berkembang secara luas dan menjadi aliran utama di kalangan ahli psikologi dan pendidikan, serta bidang kajian perilaku (behavioral) yang lain, selama 20 dekade (Embretson & Reise, 2000) . TTK memiliki kelemahan karena bersifat examinee sample dependent dan item sample dependent (Fan, 1998; Hambleton & Swaminathan, 1985; Hambleton, Swaminathan, & Rogers, 1991; Hambleton, Robin, & Xing, 2000; Lord, 1980) . Kelemahan tersebut memicu teori baru yang lebih memadai, yaitu teori tes modern, yang dikenal juga sebagai teori respon aitem (TRA) atau item response theory (IRT) dan dikenal pula dengan nama latent traits theory (LTT).

Berbeda dengan TTK yang memfokuskan pada informasi pada level tes, TRA terutama memfokuskan pada informasi pada level aitem sehingga diharapkan dapat menutupi kekurangan yang te rdapat pada TTK. Penerapan model IRT didasarkan atas beberapa asumsi berupa postulat , yaitu: (1) kinerja seorang peserta pada suatu aitem dapat diprediksikan oleh seperangkat faktor yang disebut traits, latent traits, atau kemampuan; dan (2) hubungan antara kinerja peserta pada suatu aitem dan seperangkat kemampuan (abilitas) laten yang mendasarinya dapat digambarkan oleh suatu fungsi yang menarik secara monotonik yang disebut item characteristic Ffunction atau item characteristic curve (ICC) (Hambleton, Swaminathan, & Rogers, 1991; Harvey & Hammer, 1999; Suryabrata, 2000) . Jadi ICC adalah penggambaran dalam bentuk kurva yang menjelaskan hubungan antara latent traits dan kinerja subjek pada sebuah aitem. Hambleton & Swaminathan (1985) menyatakan bahwa asumsi-asumsi yang mendasari TRA adalah unidimensi, independensi lokal, dan invariansi parameter. Sementara itu, Embretson & Reise (2000) menyebutkan bahwa asumsi yang paling pokok adalah: (1) masing-masing item memiliki bentuk kurva karakteristik aitem atau item characteristic curves (ICC) tertentu; dan (2) independensi lokal.

 

B.Rumusan masalah

Berdasarkan latar belakang diatas, maka dapat dirumuskan permasalahannya sebagai berikut :

  1. Bagaimanakah perbedaan sekor klasik dan sekor modern ?
  2. Bagaimanakah tujuan dari Teori respon butir ?
  3. Bagaimanakah syarat – syarat Unidimensi, Independensi local dan Invariansi parameter ?
  4. Apakah yang dimaksud dengan Model respon butir ?

 

 BAB II

Pembahasan

     Dalam pembahasan ini akan dibahas satu persatu tentang bahan atau materi – materi yang berhubungan dengan apa yang telah ditetapkan dalam rumusan masalah, adapun materinya adalah Teori Tes Klasik, Teori Tes Modern, Perbedaan sekor Klasik dan sekor Modern, Teori respon butir yang mencakup Tujuan, Persyaratan  Unidimensi, Independensi Lokal dan Invariansi parameter serta Model respon butir sebagai berikut :

A.Teori Tes Klasik

Salah satu teori pengukuran yang tertua didunia pengukuran behavioral adalah classical true-score theory. Teori ini sering disebut dengan teori tes klasik. Teori tes klasik merupakan sebuah teori yang mudah dalam penerapannya serta model yang cukup berguna dalam mendeskripsikan bagaimana kesalahan dalam pengukuran dapat mempengaruhi skor amatan. Inti teori klasik adalah asumsi-asumsi yang dirumuskan secara sistematis serta dalam jangka waktu yang lama. Dari asumsi-asumsi tersebut kemudian dijabarkan dalam beberapa kesimpulan.

Ada tujuh macam asumsi yang ada dalam teori tes klasik ini. Allen & Yen menguraikan asumsi-asumsi teori klasik sebagai berikut:

  1. Asumsi pertama teori tes klasik adalah bahwa terdapat hubungan antara skor tampak (observed score) yang dilambangkan dengan huruf X, skor murni (true score) yang dilambangkan dengan T dan skor kasalahan (error) yang dilambangkan dengan E. Menurut Saifuddin Azwar (2001:30) yang dimaksud kesalahan pada pengukuran dalam teori klasik adalah penyimpangan tampak dari skor harapan teoritik yang terjadi secara random. Hubungan itu adalah bahwa besarnya skor tampak ditentukan oleh skor murni dan kesalahan pengukuran. Dalam bahasa matematika dapat dilambangkan dengan X = T + E.
  2. Asumsi kedua adalah bahwa skor murni (T) merupakan nilai harapan є (X). Dengan demikian skor murni adalah nilai rata-rata skor perolehan teoretis sekiranya dilakukan pengukuran berulang-ulang (sampai tak terhingga) terhadap seseorang dengan menggunakan alat ukur.
  3. Asumsi ketiga teori tes klasik menyatakan bahwa tidak terdapat korelasi antara skor murni dan skor pengukuran pada suatu tes yang dilaksanakan (ρet = 0). Implikasi dari asumsi adalah bahwa skor murni yang tinggi tidak akan mempunyai error yang selalu positif ataupun selalu negatif.
  4. Asumsi keempat meyatakan bahwa korelasi antara kesalahan pada pengukuran pertama dan nol (ρe1e2 = 0). Artinya bahwa skor-skor kesalahan pada dua tes untuk mengukur hal yang sama tidak memiliki korelasi (hubungan). Dengan kesalahan pada pengukuran kedua adalah nol (demikian besarnya kesalahan pada suatu tes tidak bergantung kesalahan pada tes lain.
  5. Asumsi kelima menyatakan bahwa jika terdapat dua tes untuk mengukur atribut yang sama maka skor kesalahan pada tes pertama tidak berkorelasi dengan skor murni pada tes kedua (ρelt2). Asumsi ini akan gugur jika salah satu tes tersebut ternyata mengukur aspek yang berpengaruh terhadap teradinya kesalahan pada pengukuran yang lain.
  6. Asumsi keenam teori tes klasik adalah menyajikan tentang pengertian tes yang pararel. Dua perangkat tes dapat dikatakan sebagai tes-tes yang pararel jika skor-skor populasi yang menempuh kedua tes tersebut mendapat skor murni yang sama (T = T’ ) dan varian skor-skor kesalahannya sama (se 2=se’2). Dalam prakteknya, asumsi keenam teori ini sulit terpenuhi.
  7. Asumsi terakhir dari teori tes klasik menyatakan tentang definisi tes yang setara (essentially t equivalent). Jika dua perangkat tes mempunyai skor-skor perolehan dan Xt1 dan Xt2 yang memenuhi asumsi 1 sampai 5dan apabila untuk setiap populasi subyek X1 =X2 + C12, dimana C12 adalah bilangan konstanta, maka kedua tes disebut tes yang pararel.

Asumsi-asumsi teori klasik di atas memungkinkan untuk dikembangkan dalam rangka pengembangan berbagai formula yang berguna dalam melakukan pengukuran psikologis. Daya beda, indeks kesukaran, efektifitas distraktor, reliabilitas dan validitas adalah formula penting yang disarikan dari teori tes klasik.

  1. Daya beda

Daya beda (diskriminasi) suatu butir tes adalah kemampuan suatu butir untuk membedakan antara peserta tes yang berkemampuan tinggi dan berkemampuan rendah. Adapun fungsi dari daya pembeda adalah mendeteksi perbedaan individual yang sekecil-kecilnya diantara para peserta tes. Penentuan daya beda butir biasanya dilakukan dengan menggunakan indeks korelasi, diskriminasi, dan indeks keselarasan item. Dari ketiga cara tersebut yang paling sering digunakan adalah indeks korelasi. Ada empat macam teknik korelasi yang biasa digunakan untuk menghitung daya beda, yaitu : (1) teknik point biserial, (2) teknik biserial, (3) teknik phi, dan (4) teknik tetrachorik. Brennan (1972) sebagaimana dikutip Yen W.M dalam Encyclopedia of Educational Research memperkenalkan cara untuk menghitung Indeks diskriminasi dengan menggunakan rumus sebagai berikut:

B = U _ L

 n 1    n2

Dimana dari rumus di atas dapat dimaknai bahwa daya beda adalah perbedaan antara proporsi kelompok atas yang menjawab benar butir tes menjawab benar butir tes U

n

Dengan proporsi kelompok bawah yang menjawab butir tes L

n 2

Rumus tersebut dapat digunakan untuk menghitung daya beda butir-butir soal dalam bentuk pilihan ganda.

Daya beda juga dapat dijelaskan sebagai derajad hubungan antara skor butir dengan skor  total dengan menggunakan teknik korelasi product moment dari Pearson. Rumus khusus korelasi product moment yang dikenal dengan korelasi point biserial untuk data dalam bentuk dikotomi sebagaimana dikutip dalam Encyclopedia of Educational Research adalah sebagai berikut:

rpbis = (x+ -x)   p    

Sx       q

Dimana x , mean total skor peserta yang memiliki jawaban benar. x adalah mean skormtotal S, adalah standar deviasi skor total,  p adalah proporsi peserta ujian yang menjawab benar pada butir tes sedangkan q adalah 1 – p. Rumus korelasi point biserial juga dapat diturunkan langsung dari rumus korelasi produk momen tanpa membuat pembatasan asumsi.

Alternatif lain untuk melihat indeks daya beda adalah dengan menggunakan rumus korelasi biserial. Korelasi biserial berbeda dengan korelasi point biserial baik secara teori maupun perhitungan, akan tetapi jika digunakan untuk tujuan menganalisis butir, kedua teknik tersebut dapat di interpretasikan dengan cara yang sama. Crocker menyatakan rumus korelasi biserial sebagai berikut: rbis  = ( x+) P

                   Sx         y

“y” pada rumus korelasi biserial di atas melambangkan ordinat p dalam kurva normal. x+ adalah mean skor dari peserta tes yang memiliki jawaban benar,  x adalah mean skor total, Sx adalah deviasi standar total,  p adalah proporsi peserta ujian yang menjawab benar butir ini dikarenakan tingkat kesukaran dikombinasikan dengan kriteria oleh koefisien point biserial.

Teknik lain untuk menentukan nilai daya beda adalah dengan menggunakan teknik korelasi phi (ø) f . Anas Sudijono menuliskan rumus tentang teknik korelasi phi sebagai berikut: ø = P HP L

         2√(p)(q)

ø adalah adalah angka indeks diskriminasi phi yang dianggap sebagai angka indeks diskriminasi butir. PH adalah proporsi orang yang menjawab benar kelompok atas. PL adalah proporsi orang yang menjawab benar kelompok bawah. p adalah proporsi seluruh peserta tes yang menjawab betul dan q adalah 1 dikurangi p.

Untuk menyatakan bahwa besaran daya beda dapat berfungsi dengan baik, ada beberapa patokan yang dapat digunakan. Menurut Djemari Mardapi butir yang diterima harus memiliki indeks daya beda > 0,3 butir dengan indeks daya beda kurang dari antara 0,1 sampai 0,3 perlu direvisi dan jika daya bedanya < 0,1 maka butir tersebut tidak diterima. Sedangkan Ebel & Frisbie  memberikan patokan indeks daya beda sebagai berikut:

Indeks daya beda Evaluasi butir
0,4 keatas Butir yang sangat baik
0,3 – 0,39 Sedikit atau tidak memerlukan revisi
0,2 – 0,29 Butir memerlukan revisi
< 0,19 Butir harus dieliminasi
  1. Indeks Kesukaran

Indeks kesukaran butir sebagaimana dinyatakan oleh Allen & Yen adalah proportion of examinees who get that item correct. Senada dengan mereka, Sax menulis bahwa indeks kesukaran adalah proporsi peserta ujian yang menjawab benar. Saifuddin Azwar (2003: 134) menyatakan dengan lebih lugas bahwa indeks kesukaran butir adalah rasio penjawab butir dengan benar dan banyaknya penjawab butir.

Proporsi menjawab benar p (proportion correct) adalah indeks kesukaran soal yang paling sederhana dan sering digunakan dalam menentukan besaran indeks.

Rumus untuk menentukabesarnya indeks kesukaran secara matematis dirumuskan oleh Saifuddin sebagai berikut: P = n1

N

P adalah indeks kesukaran butir, n1 adalah jumlah peserta tes yang menjawab benar sedangkan N adalah banyaknya siswa yang menjawab butir soal tersebut. Dengan demikian untuk menghitung indeks kesukaran butir dilakukan dengan tidak membagi kelompok peserta tes kedalam kelompok atas dan bawah sebagaimana untuk menentukan daya beda.

Besarnya indeks korelasi berkisar antara 0 sampai 1. Makin tinggi besaran indeks korelasi maka butir soal tersebut semakin mudah. Dan semakin kecil angka indeks korelasi maka butir soal tersebut semakin sulit. Indeks kesukaran yang berada disekitar 0,5 dianggap yang terbaik. Karena itulah maka menurut Allen & Yen tingkat kesukaran yang baik adalah 0,3 sampai 0,7. Butir dengan tingkat kesulitan dibawah 0,3 dianggap butir soal yang sukar sedangkan jika indeksnya diatas 0,7 butir soal tersebut dianggap mudah.

Dari penjelasan di atas bisa disimpulkan berkaitan dengan indeks kesukaran butir yaitu bahwa nilai p bagi suatu butir hanya menunjukkan indeks bagi kelompok yang diuji. Harga p ini bisa berubah jika tes diujikan pada kelompok yang berbeda. Selain itu, indeks kesukaran yang dihasilkan dari rumus ini adalah indeks kesukaran yang berlaku bagi kelompok secara keseluruhan bukan perorangan. Indeks kesukaran bagi tiap peserta tes tidak bisa disimpulkan dengan melihat indeks proporsi menjawab benar p.

  1. Efektivitas Distraktor

Setiap tes pilihan ganda memiliki satu pertanyaan serta beberapa pilihan jawaban. Diantara pilihan jawaban yang ada, hanya satu yang benar. Selain jawaban yang benar ada juga Jawaban yang salah atau distractor (pengecoh). Dengan demikian, efektifitas distraktor adalah seberapa baik pilihan yang salah tersebut dapat mengecoh peserta tes yang memang tidak mengetahui kunci jawaban yang tersedia. Semakin banyak peserta tes yang memilih distraktor tersebut, maka distaktor itu dapat menjalankan fungsinya dengan baik.

Cara menganalisis fungsi distraktor dapat dilakukan dengan menganalisis pola penyebaran jawaban butir. Pola penyebaran jawaban adalah suatu pola yang dapat menggambarkan bagaimana peserta tes dapat menentukan pilihan jawabannya terhadap kemungkinan-kemungkinan jawaban yang telah dipasangkan pada setiap butir.

Menurut Fernandes (1984: 29) distraktor dikatakan baik jika dipilih oleh minimal 2% dari seluruh peserta. Distraktor yang tidak memenuhi kriteria tersebut sebaiknya diganti dengan distraktor lain yang mungkin lebih menarik minat peserta tes untuk memilihnya.

Meskipun penggunaan teori tes klasik relatif mudah dalam menganalisis butir, tapi teori ini memiliki beberapa kelemahan mendasar. Kelemahan utama teori tes klasik adalah keterikatan alat ukur teori tersebut pada sampel (sample bound). Kemampuan kelompok siswa yang mengikuti tes sangat mempengaruhi nilai statistik. sehingga nilai statistiknya akan berbeda jika tes diberikan kepada kelompok yang lain.

Selain itu, perkiraan kemampuan peserta tergantung pada butir soal. Jika indeks kesukaran rendah maka estimasi kemampuan seseorang akan tinggi dan sebaliknya. Perkiraan kesalahan pengukuran tidak mencakup perorangan tetapi kelompok secara bersama-sama. Hal ini dikarenakan respon setiap peserta tes terhadap soal tidak bisa dijelaskan oleh teori tes klasik.

Dalam proses pembelajaran hal-hal tersebut akan menimbulkan berbagai macam kesukaran terutama untuk melihat kemampuan peserta tes secara perorangan. Oleh karena itulah ada upaya untuk membebaskan alat ukur dari keterikatan terhadap sampel (sample-free). Berangkat dari hal itulah para ahli kemudian menyusun teori baru yang bermaksud untuk melengkapi dan memperbaiki kelemahan-kelemahan yang ada dalam teori tes klasik. Teori ini kemudian dikenal dengan Item Response Theory (IRT) atau teori respon butir.

B.Teori Tes Modern

Teori tes modern sering juga disebut Latent Trait Theory yaitu performance subjek dalam suatu tes yang dapat diprediksi dari kemampuannya yang bersifat laten. Atau lebih dikenal dengan Item Response Theory (IRT) yaitu respon subjek terhadap item yang menunjukkan kognitifnya. Kelebihan kinerja subjek dapat dilihat dengan Item Characteristic Curve (ICC). Artinya semakin baik performance subjek akan semakin banyak respon (jawaban pada aitem tes) yang benar.

Unsur teori dalam tes modern meliputi:

–         Butir (item tes)

–         Subjek (responnya)

–         Isi respon subjek

Asumsi-asumsi dalam tes modern:

  1. Parameter butir soal dan kemampuan adalah (Invariant). Artinya soal yang dibuat memiliki korelasi positif dengan kemampuan yang diukur.
  2. Unidimensionality, artinya 1 item mengukur satu kemampuan. Asumsi ini kurang terbukti karena pada dasarnya antara item 1 dengan lainnya saling melengkapi.
  3. Local independence, artinya respon terhadap suatu item tidak akan berpengaruh terhadap item lainnya.

Parameter butir soal pada IRT:

Ukuran atau aturan-aturan yang digunakan untuk mengetahui mana soal yang valid (bisa dipakai) dan mana soal yang tidak valid (tidak bisa dipakai). Aturannya ada 3:

  1. Daya pembeda soal, Artinya item soal bisa dianggap baik kalau item soal tersebut dapat digunakan untuk membedakan antara subjek yang berkemampuan tinggi dari subjek yang berkemampuan rendah.
  2. Taraf kesukaran soal, Artinya item soal bisa dianggap baik kalau item soal tersebut tidak terlalu sulit dan tidak terlalu mudah.
  3. Kebetulan menjawab benar. Artinya item soal bisa mendeteksi subjek yang menjawab asal-asalan dan kebetulan benar.

Penggunaan parameter tersebut tergantung pada penyusun alat tes, boleh menggunakan ketiganya atau hanya menggunakan dua saja. Ada tiga pilihan yang bisa digunakan:

  • Logistik 1 Parameter. Jika menggunakan logistik 1 parameter, item-item yang akan digunakan hanya diuji taraf kesukaran soalnya saja. Contoh saya membuat 50 item soal, setelah saya uji cobakan kepada N=100. Langkah selanjutnya saya hanya harus menyeleksi mana item-item yang memiliki taraf kesukaran sedang (item yang sedang ialah item yang bisa dijawab oleh 60% subjek). Langkah terakhir item-item yang diketahui taraf kesukarannya sedang langsung bisa digunakan untuk tes.
  • Logistik 2 Parameter. Jika menggunakan logistik 2 parameter, item-item yang akan digunakan harus diuji taraf kesukaran soalnya dan juga daya beda soalnya. Jelasnya item-item yang tidak terlalu sulit dan tidak terlalu mudah serta bisa membedakan antara siswa yang berkemampuan tinggi dengan siswa yang berkemampuan rendah, itu yang bisa dipakai sebagai item soal tes.
  • Logistik 3 Parameter. Jika menggunakan logistik 3 parameter, item-item yang akan digunakan harus diuji taraf kesukaran soalnya, diuji daya beda soalnya, dan diuji kemungkinan kebetulan menjawab benar

C.TEORI RESPON BUTIR

Teori Responsi Butir (Item Response Theory disingkat IRT) dinamai juga sebagai Teori Ciri Laten (Latent Trait Theory disingkat LTT) atau Lengkungan Karakteristik Butir (Item Characteristic Curve disingkat ICC). Untuk memudahkan pengertian, di sini hanya digunakan istilah IRT. Seperti disebutkan di atas, pada hakikatnya IRT bertujuan untuk mengatasi kelemahan yang terdapat pada pengukuran klasik. Pada IRT, peluang jawaban benar yang diberikan siswa, ciri atau parameter butir, dan ciri atau parameter peserta tes dihubungkan melalui suatu model formula yang harus ditaati baik oleh kelompok butir tes maupun kelompok peserta tes (Hambleton & Rogers, 1991). Artinya, butir yang sama terhadap peserta tes yang berbeda harus tunduk pada aturan rumus itu, atau peserta tes yang sama terhadap butir tes yang berbeda juga harus patuh terhadap rumus tersebut. Dalam proses semacam ini terjadilah apa yang disebut invariansi di antara butir tes dan peserta tes. Pada pengukuran modern, taraf sukar butir tidak dikaitkan langsung dengan kemampuan responden.

Perbedaan mendasar antara pengukuran klasik dengan pengukuran modern terletak pada invariansi pensekoran, di mana pensekoran modern adalah invarians (tidak berubah atau tetap) terhadap butir tes serta terhadap peserta tes. Menurut Lord (1990: 121) bahwa invariansi parameter-parameter butir tes melalui kelompok peserta tes merupakan karakteristik yang paling penting dari IRT. Pada umumnya dikatakan bahwa indeks kesukaran butir tes sebagai proporsi jawaban yang benar sehingga sukar untuk membayangkan bagaimana indeks kesukaran tes dapat menjadi invariant terhadap kelompok peserta tes dari tingkat kemampuan yang berbeda.

1.TUJUAN :

Analisis butir soal secara modern yaitu penelaahan butir soal dengan menggunakan Item Response Theory (IRT) atau teori jawaban butir soal. Teori ini merupakan salah satu cara untuk menilai kelayakan butir dengan membandingkan rerata penampilan butir terhadap tampilan bukti kemampuan kelompok yang diramalkan oleh model.

Tujuan utama teori respons butir dikembangkan adalah untuk mengatasi kelemahan teori tes klasik yang tidak independent terhadap kelompok peserta yang mengerjakan tes maupun terhadap tes yang diujikan.

Menurut Hambleton dan Swaminathan dalam Depdiknas (2007: 19) menyatakan bahwa tujuan utama IRT adalah memberikan kesamaan antara statistik soal dan estimasi kemampuan peserta didik.

Teori responsi butir membebaskan responden dan butir dari interdependensi, sehingga. taraf sukar butir tidak lagi bergantung kepada kemampuan responden. Kemampuan responden tidak lagi bergantung kepada taraf sukar butir. Melalui independensi di antara taraf sukar butir dan kemampuan responden, dapat dipilih butir yang cocok dengan responden. Dalam hal terjadi kecocokan di antara taraf sukar butir dan kemampuan responden, maka: kalau taraf sukar butir diketahui, kemampuan responden dapat ditentukan. Kalau kemampuan responden diketahui, taraf sukar butir dapat ditentukan.

Proporsi jawaban benar di dalam sebuah kelompok peserta tes tidak secara nyata mengukur kesulitan tes tersebut. Proporsi tersebut tidak hanya menjelaskan butir tes tetapi juga kelompok peserta yang dites. Ini merupakan suatu tujuan dasar untuk kesepakatan analisis statistik butir tes, yang dikenal dengan istilah invariansi. Yang menjadi dasar invariansi adalah taraf sukar butir tidak langsung dikaitkan dengan kemampuan responden melainkan dikaitkan dengan lengkungan karakteristik butir pada persamaan :       P(q) = Pmin + (1 – Pmin)

Misalkan suatu butir memiliki parameter butir a1 = 1,27 dan b1  = – 0,39. Butir ini diberikan kepada responden dengan kemampuan agak rendah dan dari mereka diperoleh lengkungan dengan a1 = 1,27 dan b = – 0,39. Butir yang sama diberikan kepada responden dengan kemampuan agak tinggi dan dari mereka diperoleh lengkungan dengan a1 = 1,27 dan b1 = – 0,39.  Pada responden dengan kemampuan agak rendah. Melalui perhitungan pada data diperoleh lengkungan dengan b1 = – 0,39. Terlihat bahwa dua hasil ini adalah sama.
2.PERSYARATAN :

Bagian penting dari teori respons butir adalah probabilitas jawaban benar peserta tes, parameter butir dan parameter peserta tes dihubungkan melalui suatu fungsi matematik atau model formula matematik.

Dalam formula ini, nilai kemungkinan peserta tes menjawab soal dipahami sebagai fungsi logistik perbedaan parameter yang dimasukkan ke dalam model. Nama lain IRT adalah Latent Trait Theory (LTT), atau Characteristics Curve Theory (ICC) (Depdiknas, 2010: 17).

Kelebihan Analisis IRT adalah bahwa: (1) IRT tidak berdasarkan grup dependent, (2) skor peserta didik dideskripsikan bukan test dependent, (3) model ini menekankan pada tingkat butir soal bukan tes, (4) IRT tidak memerlukan paralel tes untuk menentukan relilabilitas tes, (5) IRT suatu model yang memerlukan suatu pengukuran ketepatan untuk setiap skor tingkat kemampuan.

IRT merupakan hubungan antara probabilitas jawaban suatu butir soal yang benar dan kemampuan peserta didik atau tingkatan/ level prestasi peserta didik. Namun kelemahan bekerja dengan model IRT adalah bekerja melalui suatu proses yang sulit karena kelebihan IRT adalah: (1) tanpa varian pada parameter butir soal, (2) tanpa varian pada parameter abilitas, (3) adanya ketepatan pada pengukuran lokal, (Bejar dalam Depdiknas, 2010: 20).

Asumsi  Teori Reponsi Butir

            Dalam teori responsi butir taraf sukar butir dan daya beda butir tes tetap sama, walaupun butir tes tersebut diselesaikan oleh kelompok peserta tes yang berbeda. Untuk itu, teori responsi butir mengembangkan model yang menghubungkan parameter butir dengan kemampuan peserta tes. Menurut Hambleton (1991: 9) asumsi untuk model teori responsi butir secara mendalam digunakan, sehingga hanya satu kemampuan yang diukur dengan butir-butir tes tersebut. Hal ini dinamakan unidimensi. Suatu konsep yang menghubungkan keunidimensian adalah apa yang disebut dengan independensi lokal (local independence) yang akan didiskusikan berikutnya.

Asumsi lain dalam model teori responsi butir adalah fungsi karakteristik yang secara khusus melukiskan hubungan antara variabel kemampuan yang tidak teramati dengan variabel kemampuan yang teramati. Asumsi-asumsi tersebut juga menyangkut karakteristik butir tes yang relevan terhadap kinerja peserta tes pada suatu butir tes tersebut. Perbedaan besar antara model-model Item Response Theory dalam pemakaian bersama adalah dalam jumlah dan tipe serta karakteristik-karakteristik yang diasumsikan untuk kinerja peserta tes. Jadi dalam teori responsi butir dengan asumsi-asumsi tersebut, maka dalam setiap soal harus diwakili oleh satu Item Characteristic Curve (ICC). Item Characteristic Curve adalah pernyataan Matematika yang berhubungan dengan probabilitas keberhasilan peserta tes sesuai dengan kemampuannya.

  1. Unidimensi

Asumsi unidimensi terpenuhi apabila butir-butir di dalam perangkat tes hanya mengukur satu kemampuan peserta tes. Misalnya butir-butir yang termuat di dalam perangkat tes bertujuan untuk mengukur kemampuan peserta tes dalam mata pelajaran Matematika. Butir-butir yang dikonstruksi berupa soal cerita dan berbentuk dikotomi. Apabila peserta tes memberi respon yang salah maka tidak dapat diketahui apakah kesalahan itu disebabkan oleh ketimpangan peserta tes pada mata pelajaran Matematika atau bahasa. Dalam kenyataannya sulit mendapatkan suatu butir yang mengukur hanya satu kemampuan peserta tes.

Menurut Dali S Naga (1992: 164) bahwa persyaratan unidimensi ditujukan untuk mempertahankan invariansi pada teori responsi butir. Kalau butir tes sampai mengukur lebih dari satu dimensi, maka jawaban terhadap butir itu merupakan kombinasi dari berbagai kemampuan peserta tes. Akibatnya, tidak lagi diketahui kontribusi dari setiap kemampuan terhadap jawaban peserta tes tersebut. Dengan mengganti butir tes atau kelompok peserta tes, tidak dapat lagi dipertahankan invariansi pada ukuran ciri butir tes dan pada ukuran ciri peserta tes, sehingga ketidakmampuan mempertahankan syarat invariansi ini akan bertentangan dengan tujuan teori responsi butir tersebut.

Dengan terpenuhinya persyaratan unidimensi tersebut maka diperlukan cara untuk menentukan apakah suatu butir tes merupakan unidimensi atau tidak. Untuk hal ini, maka digunakan metode analisis faktor. Dalam hal ini penggunaan analisis faktor bertujuan untuk memperlihatkan pada kelompok faktor mana butir itu berada. Setiap faktor hanya menunjukkan suatu dimensi indikator tes. Dengan demikian setiap dimensi indikator tes terhimpun dalam satu faktor yang melibatkan beberapa butir tes yang diperlukan, Faktor-faktor tersebut mungkin meliputi motivasi, kecemasan, kemampuan bekerja cepat, kecenderungan menebak bila dalam keadaan ragu-ragu menjawab, dan keterampilan kognitif di dalam menjumlahkan, serta faktor dominan lain yang diukur dengan sehimpunan butir tes (Asmin, 2004: 46).

  1. Independensi Lokal

Asumsi independensi lokal dibagi menjadi dua yaitu independensi lokal terhadap respons peserta tes dan independensi lokal terhadap butir tes (James J. Allen & Yen, 1989: 241). Independensi lokal terhadap respons peserta tes, memiliki arti bahwa betul salahnya peserta tes menjawab sebuah butir tidak terpengaruh oleh betul salahnya peserta tes yang lain dalam menjawab butir tersebut. Sedangkan indepensi lokal terhadap butir, memiliki arti bahwa betul salahnya seorang peserta tes menjawab sebuah butir tidak terpengaruh oleh betul salahnya peserta tes dalam menjawab butir yang lain.

Ada independensi lokal responden terhadap butir dan ada independensi lokal butir terhadap responden. Pada  peserta tes di lokasi yang sama, probabilitas menjawab betul P(q) untuk butir berbeda adalah independen satu terhadap lainnya. Misalkan responden yang memiliki kemampuan yang sama mengerjakan butir X1, X2, X3, …, XN, maka sesuai dengan rumus independensi pada probabilitas, berlaku

Independensi lokal butir terhadap responden. Pada butir di lokal yang sama, probabilitas menjawab betul P(q) untuk responden berbeda adalah independen satu terhadap lainnya. Independensi lokal dapat diuji dengan dua cara, yaitu: secara eksak melalui rumus probabilitas, dan secara statistika melalui uji ketergantungan khi-kuadrat.

Pengujian melalui rumus probabilitas. Independensi lokal tercapai apabila data memenuhi rumus independensi pada probabilitas. Berikut contoh pengujian melalui rumus probabilitas:Responden mengerjakan butir ke-1 dan ke-2 dengan probabilitas jawaban

Butir ke-2

1          0

Butir    1   0,086   0,420     0,506

ke-1     0   0,083   0,411    0,494

0,169   0,831        1

Apakah terdapat independensi lokal? Berdasarkan data di atas maka perhitungan probabilitasnya adalah sebagai berikut:

P(11) = 0,086   P1(1)P2(1) = (0,506)(0,169) = 0,086

P(10) = 0,420   P1(1)P2(0) = (0,506)(0,831) = 0,420

P(01) = 0,083   P1(0)P2(1) = (0,494)(0,169) = 0,083

P(00) = 0,411   P1(0)P2(0) = (0,494)(0,831) = 0,411

Jadi, terdapat kecocokan sehingga mereka adalah independen secara lokal.

Pengujian secara statistika. Pengujian dilakukan pada taraf signifikansi tertentu melalui hipotesis:H0: ada independensi lokal.H1:  tidak ada independensi lokal. Distribusi probabilias pensampelan adalah distribusi probabilias khi-kuadrat dan statistik uji c2 adalah:

Butir ke-2

1            0

Butir      1           A            B          A+B

ke-1       0           C            D          C+D

A+C       B+D          N

Statistik uji adalah menggunakan persamaan berikut:

dengan  banyaknya responden, dan A, B, C, D =  frekuensi. Dengan kriteria pengujian adalah: Tolak H0  jika  c2  > c2(a)(n). Terima H0  jika  c2  £ c2(a)(n).

Prinsip independensi lokal dinyatakan oleh asumsi bahwa secara formal, probabilitas (sukses pada butir i yang diberikan )  sama dengan probabilitas (sukses pada butir i yang diberikan q dan juga diberikan kinerjanya pada butir j, k, …). Jika  atau 1 menyatakan sekor butir ke-i, maka dapat ditulis dengan :  Menurut Lord (1990: 19) secara matematika pernyataan indepensi lokal berarti bahwa probabilitas sukses seluruh butir tes sama dengan perkalian dari bagian-bagian probabilitas sukses tersebut. Sebagai contoh, ada tiga butir tes i, j, dan k, maka :

Independensi lokal menginginkan setiap dua butir tidak berkorelasi apabila q adalah tetap. Secara definisi tidak diinginkan butir-butir tidak berkorelasi dalam kelompok, dimana q bervariasi. Dalam hal tertentu, independensi lokal secara otomatis mengikuti keunidimensian.

Menurut Crocker dan Algina (1986: 342), dalam teori responsi butir secara bersama-sama digunakan konsep-konsep yang lebih umum terhadap keterikatan dan kebebasan statistik untuk menyatakan tentang hubungan antara varaiabel-variabel. Untuk dua sekor butir dikotomi konsep-konsep tersebut dapat diilustrasikan secara numerik sebagai berikut. Bila diketahui responsi dari 40 responden pada suatu butir soal hasil akhirnya adalah sebagai berikut.

Tabel 1. Responsi jawaban siswa sejumlah 40 responden

Butir Responsi responden
1 00000 11000 00011 00010 00100 00000 11001 10101
2 01100 00011 10000 11111 11111 11100 00110 01111

Atau peluang jawaban tersebut dibentuk sebagai berikut:

Tabel 2.  Peluang jawaban butir 1 dan butir 2

1 0
1 0,100 0,200 0,300
0 0,500 0,200 0,700
0,600 0,400

Dari tabel 2 tersebut dapat dihitung besar perkalian setiap peluang sebagai berikut:

P(11) = 0,10

P(10) = 0,20

P(01) = 0,50

P(00) = 0,20

Dari hasil perkalian peluang-peluang tersebut dapat disimpulkan bahwa tidak terdapat independensi lokal, karena tidak memenuhi syarat independensi lokal (Nitko, 1992: 23).

Keempat kondisi persamaan tersebut mengatakan bahwa skor-skor butir adalah bebas jika masing-masing peluang susunan jawaban untuk kedua butir sedemikian rupa sehingga peluang pada ruas kiri dari persamaan dapat dihitung dengan mengetahui hanya peluang jawaban benar dan salah untuk masing-masing butir tersebut. Dengan demikian, dapat disimpulkan bahwa sebuah tes adalah unidimensional jika butir-butir tes tersebut secara statistik adalah tidak bebas di dalam populasi yang dilibatkan.

  1. Invarian

Seperti disebutkan di atas, pada hakikatnya Item Response Theory (IRT) bertujuan untuk mengatasi kelemahan yang terdapat pada pengukuran klasik. Perbedaan mendasar antara pengukuran klasik dengan pengukuran modern terletak pada invariansi pensekoran, di mana pensekoran modern adalah invarians (tidak berubah) terhadap butir tes serta terhadap peserta tes. Menurut Lord (1990: 126) bahwa invariansi parameter-parameter butir tes melalui kelompok peserta tes merupakan karakteristik yang paling penting dari IRT. Dapat dikatakan bahwa indeks kesukaran butir tes sebagai proporsi jawaban yang benar sehingga sukar untuk membayangkan bagaimana indeks kesukaran tes dapat menjadi invarian terhadap kelompok peserta tes dari tingkat kemampuan yang berbeda.

Dalam IRT, proporsi jawaban benar, ciri (parameter) butir, dan ciri peserta dihubungkan melalui rumus, di mana muncul masalah dalam menentukan rumus responsi butir atau rumus karakteristik butir yang dikenal sebagai penentuan model responsi butir atau model karakteristik butir. Masalah lainnya adalah bagaimana menentukan nilai parameter butir dan nilai parameter peserta yang diistilahkan sebagai pengestimasian parameter, baik parameter butir maupun parameter peserta, yang disebut sebagai pengkalibrasian butir. Untuk pemeriksaan hasilnya dilakukan estimasi parameter, yang bertujuan sebagai pencocokan model.

Karakteristik Butir

Karakteristik butir dalam teori responsi butir terdiri dari daya beda butir, taraf sukar butir dan faktor kebetulan menjawab betul pada butir dinyatakan berturut-turut dengan huruf a, b, dan c. Parameter peserta tes adalah kemampuan peserta tes yang dinyatakan dengan . Kemampuan peserta tes terhadap butir ke-j dinyatakan dalam bentuk probabilitas jawaban betul  Sekor responden mencerminkan kemampuan responden sehingga sekor responden dan kemampuan responden merupakan parameter responden. Kemampuan responden merupakan suatu kontinum dari rendah ke tinggi. Sekor responden tinggi menunjukkan kemampuan tinggi dan sekor responden rendah menunjukkan kemampuan responden rendah.

  1. Taraf Sukar Butir

Pada umumnya makin mudah butir atau makin kecil b, maka makin besar probabilitas responden untuk menjawab butir itu dengan benar sehingga nilai P() menjadi besar. Sebaliknya makin sukar butir atau makin besar b, maka makin kecil probabilitas responden menjawab butir itu dengan benar sehingga nilai menjadi kecil. Dengan demikian mudah sukarnya suatu butir menurut Dali S. Naga (1998: 34) sering dikaitkan dengan kemampuan responden dengan taraf sukar butir yakni dengan .

Ada butir yang sukar,  ada butir yang sedang, dan ada butir yang mudah. Taraf sukar butir merupakan suatu kontinum dari mudah ke sukar. Taraf sukar butir ke-i dinyatakan dengan bi. Makin tinggi taraf sukar butir bi, diperlukan kemampuan responden q yang makin tinggi untuk dapat menjawabnya dengan betul, jika q > bi maka Pi (q) tinggi , sedangkan jika q < bi  maka Pi (q) rendah. Untuk mendapatkan hasil analisis yang baik, seharusnya jumlah soal paling tidak 40 sampai dengan 50 dan jumlah peserta tes paling tidak 400 orang.

Kontinum taraf sukar berimpit dengan kontinum kemampuan responden.  Taraf sukar butir adalah peluang untuk menjawab benar suatu soal pada tingkat kemampuan tertentu yang umumnya dinyatakan dalam bentuk indeks. Indeks tingkat kesukaran ini pada umumnya dinyatakan dalam bentuk proporsi yang besarnya berkisar 0,00 – 1,00. Soal yang memiliki indeks 0,00 artinya tidak ada siswa yang menjawab benar, indeks 1,00 artinya siswa menjawab benar butir tes.

Perhitungan indeks tingkat kesukaran ini dilakukan untuk setiap nomor soal. Pada prinsipnya sekor rata-rata yang diperoleh peserta didik pada butir soal yang bersangkutan dinamakan tingkat kesukaran butir soal itu. Tingkat Kesukaran adalah jumlah siswa yang menjawab benar butir soal dibagi dengan jumlah siswa yang mengikuti tes. Fungsi tingkat kesukaran butir soal pada umumnya dihubungkan dengan tujuan tes (Aiken, 1994: 66). Misalnya untuk ujian semester digunakan butir soal yang memiliki tingkat kesukaran sedang, untuk keperluan seleksi digunakan butir soal yang memiliki tingkat kesukaran tinggi atau sukar, dan untuk keperluan diagnostik maka digunakan butir soal yang memiliki tingkat kesukaran rendah atau mudah.

Semakin besar indeks tingkat kesukaran yang diperoleh dari hasil perhitungan, berarti semakin mudah soal itu. Probabilitas jawaban betul pada butir ke-i berhubungan dengan letak q terhadap bi atau terhadap (q – bi) atau Pi (q) = f (q – b). Ini dikenal sebagai kararteristik butir satu parameter  Pi (q) = f (q, bi). Nilai taraf sukar butir ke-i ditentukan oleh q – bi = 0    atau     bi  = q  pada saat  Pi (q) = 0,5.

Suatu butir dikatakan mudah atau sukar bergantung dari kemampuan peserta tes. Apabila kemampuan peserta tes lebih dari taraf sukar butir maka dapat dikatakan butir itu mudah dan sebaliknya apabila kemampuan peserta tes kurang dari taraf sukar butir maka dapat dikatakan bahwa butir itu sukar. Tingkat kesukaran butir soal dapat mempengaruhi bentuk distribusi total sekor tes. Untuk tes yang sangat sukar (TK<0,25) distribusinya berbentuk positif skewed, sedangkan tes yang mudah (TK>0,8) distribusinya berbentuk negatif skewed.

Taraf sukar butir mempunyai dua kegunaan, yaitu kegunaan bagi guru dan kegunaan bagi pengujian dan pengajaran (Nitko, 1996: 310). Kegunaan bagi guru adalah: 1) sebagai pengenalan konsep terhadap pembelajaran ulang dan memberi masukan kepada siswa tentang hasil belajar mereka; dan 2) memperoleh informasi tentang penekanan kurikulum atau mencurigai terhadap butir soal yang bias. Adapun kegunaannya bagi pengujian dan pengajaran adalah: 1) pengenalan konsep yang diperlukan untuk diajarkan ulang; 2) tanda-tanda terhadap kelebihan dan kelemahan pada kurikulum sekolah; 3) memberi masukan kepada siswa; 4) tanda-tanda kemungkinan adanya butir soal yang bias; dan 5) merakit tes yang memiliki ketepatan data soal.

Tingkat kesukaran butir soal juga dapat digunakan untuk memprediksi kemampuan peserta didik oleh pendidik. Misalnya satu butir soal termasuk kategori mudah, maka prediksi terhadap informasi ini adalah: 1) pengecoh butir soal itu tidak berfungsi; dan 2) sebagian besar peserta didik menjawab benar butir soal itu; artinya bahwa sebagian besar peserta didik telah memahami materi yang ditanyakan. Analisis secara klasik ini memiliki keterbatasan, yaitu tingkat kesukaran sangat sulit untuk mengestimasi secara tepat karena estimasi tingkat kesukaran dibiaskan oleh sampel. Di samping kedua kegunaan tersebut, dalam konstruksi tes, taraf sukar butir sangat penting karena taraf sukar butir dapat: 1) mempengaruhi karakteristik distribusi sekor (mempengaruhi bentuk dan penyebaran sekor tes atau jumlah soal dan korelasi antar soal); dan 2) berhubungan dengan reliabilitas, semakin tinggi korelasi antar soal semakin tinggi reliabilitas (Dali S. Naga, 1998: 35).  Demikian pula semakin tinggi nilai reliabilitas butir tes, semakin tinggi pula validitas butir soal tersebut.

  1. Daya Beda Butir

Ada butir yang memiliki ciri: dapat dijawab dengan betul oleh kebanyakan responden yang berkemampuan tinggi, tidak dapat dijawab dengan betul oleh kebanyakan responden yang berkemampuan rendah. Butir demikian memiliki daya untuk membedakan responden berdasarkan kemampuan mereka. Butir memiliki parameter berupa daya beda butir. Daya beda butir adalah kemampuan suatu butir soal dapat membedakan antara peserta didik atau warga belajar yang telah menguasai materi yang ditanyakan dan warga belajar atau peserta didik yang belum menguasai materi yang ditanyakan.

Dengan kata lain daya beda butir adalah kemampuan suatu butir soal yang dapat membedakan antara siswa yang telah menguasai materi yang ditanyakan dan siswa yang belum menguasai materi yang ditanyakan. Jika tes atau soal mengukur hal yang sama, dapat diharapkan bahwa setiap peserta tes mampu menjawab soal dengan benar dan yang tidak mampu akan menjawab salah. Tingkat kesukaran berpengaruh langsung pada daya pembeda soal. Jika setiap orang menjawab benar (p=1), atau jika setiap orang menjawab salah (p=0), maka soal tidak dapat digunakan untuk membedakan kemampuan peserta tes (Surapranata, 2004: 24). Manfaat daya beda butir adalah: 1) untuk meningkatkan mutu setiap soal melalui data empiriknya. Berdasarkan indeks daya beda butir, setiap butir soal dapat diketahui apakah butir soal itu baik, direvisi, atau tidak; dan 2) untuk mengetahui seberapa jauh setiap butir soal dapat mendeteksi atau membedakan kemampuan siswa, yaitu siswa yang telah memahami atau belum memahami materi yang diajarkan guru.

Apabila suatu butir soal tidak dapat membedakan kedua kemampuan siswa itu, maka butir soal itu dapat dicurigai kemungkinannya seperti berikut: 1) kunci jawaban butir soal itu tidak tepat; 2) butir soal itu memiliki dua atau lebih kunci jawaban yang benar; 3) kompetensi yang diukur tidak jelas; 4) pengecoh tidak berfungsi; 5) materi yang ditanyakan terlalu sulit, sehingga banyak siswa yang menebak; dan 5) sebagian besar siswa yang memahami materi yang ditanyakan berpikir ada yang salah informasi dalam butir soalnya.

Indeks daya beda butir juga dinyatakan dalam bentuk proporsi. Semakin tinggi indeks daya beda butir berarti semakin mampu butir yang bersangkutan membedakan siswa yang telah memahami materi dengan siswa yang belum memahami materi. Indeks daya beda berkisar antara -1,00 sampai dengan +1,00. Semakin tinggi daya beda butir tes, maka semakin baik butir tes tersebut. Jika daya beda butir negatif berati lebih banyak kelompok bawah (peserta didik yang tidak memahami materi) menjawab benar butir tes dibanding dengan kelompok atas (peserta didik yang memahami materi yang diajarkan guru di kelas).

Untuk menggambarkan tentang daya beda butir maka dibuat grafik yang menunjukkan kemiringan kurva. Kecuraman pada lengkungan merupakan koefisien arah a pada fungsi a(q – b). Makin curam makin besar koefisien arah a. Pada butir ke-i, daya beda butir dinyatakan sebagai koefisien arah yang menunjukkan kecuraman pada lengkungan yakni ai sehingga  Pi (q) = f (ai (q – bi)). Selain itu indeks daya beda juga bisa dihitung dengan korelasi point biserial maupun korelasi biserial. Kelebihan korelasi point biserial: 1) memberikan refleksi kontribusi soal secara sesungguhnya terhadap fungsi tes. Maksudnya adalah mengukur bagaimana baiknya butir berkorelasi dengan kriterion; 2) sederhana dan langsung berhubungan dengan statistik tes; dan 3) tidak pernah mempunyai value 1,00 karena hanya variabel-variabel dengan distribusi bentuk yang sama yang dapat berkorelasi secara tepat, variabel kriterion dan skor dikotomi tidak mempuanyai bentuk yang sama. Indeks daya pembeda dihitung atas dasar pembagian kelompok menjadi dua bagian, yaitu kelompok atas yang merupakan kelompok peserta tes yang berkemampuan tinggi dengan kelompok bawah yaitu kelompok peserta tes yang berkemampuan rendah. Kemampuan tinggi ditunjukkan dengan perolehan skor yang tinggi dan kemampuan rendah ditunjukkan dengan perolehan skor yang rendah (Messick, 1989: 167).

Indeks daya pembeda didefinisikan sebagai selisih antara proporsi jawaban benar pada kelompok atas dengan proporsi jawaban benar pada kelompok bawah (Surapranata 2004: 24). Adapun kelebihan korelasi biserial (Millman & Greene, 1993: 24) adalah: 1) cenderung lebih stabil dari sampel ke sampel; 2) penilaian lebih akurat tentang bagaimana butir tes dapat diharapkan untuk membedakan pada beberapa perbedaan point di skala abilitas; dan 3) value koefisien korelasi biserial yang sederhana lebih langsung berhubungan dengan indikator diskriminasi Item Characteristic Curve (ICC).

  1. Tingkat Kebetulan Betul pada Butir

Ada kalanya butir itu berbentuk pilihan ganda sehingga responden yang tidak memiliki kemampuan pun masih mungkin menjawab benar melalui terkaan. Dalam bentuk probabilitas, katakan saja bahwa tingkat kebetulan pada jawaban benar adalah c, maka untuk butir ini, probabilitas jawaban benar karena kebetulan adalah . Kalau jumlah pilihan ganda itu adalah empat (misalkan A, B, C, D), maka melalui terkaan saja terdapat 1 di antara 4 kemungkinan bahwa jawaban itu benar.

Dalam hal ini probabilitas jawaban benar karena kebetulan adalah ¼ atau 0,25 sehingga c = 0,25 (Dali S. Naga, 1998: 37). Pada butir pilihan ganda dapat saja terjadi bahwa jawaban betul dicapai melalui terkaan. Jawaban betul ini adalah kebetulan betul. Tingkat kebetulan menjawab betul pada butir ke-i dinyatakan dengan parameter butir ci dan merupakan probabilitas jawaban betul minimum. Secara keseluruhan kita mengenal tiga karakteristik butir, yaitu a,b, dan c. Di samping itu, responden memiliki satu karakteristik yakni kemampuan responden. Karakteristik ini juga dikenal sebagai satu parameter pada karakteristik responden.

Pi(q) min = ci. Di sini, taraf sukar butir bi tidak diperoleh melalui probabilitas jawaban betul Pi(q) = 0,5 melainkan pada : Pi(q) = ci + 0,5 (1- ci) = 0,5 (1 + ci). Bentangan Pi (q) tidak lagi dari  0 sampai 1,0 melainkan dari ci sampai 1,0 yakni selebar (1 – ci) sehingga: f (ai (-q bi))    menjadi  (1 – ci) f (ai(-q bi))  dan probabilitas jawaban betul menjadi: Pi (q) = ci + (1 – ci) f (ai (q – bi)). Di sini terdapat tiga parameter butir ai, bi, dan ci sehingga dikenal sebagai karakteristik butir tiga parameter dengan persamaan : Pi (q) = f (q, ai, bi, ci)

Penyusunan Tes Hasil Belajar Akhir Ujian Nasional

Penyusunan Tes Hasil Belajar Akhir baik secara lokal maupun Nasional perlu dilakukan secara terencana dan teratur. Ujian Akhir Nasional dilakukan dengan skala yang lebih besar yang dilaksanakan setiap tahun, di mana soal-soal yang diberikan telah tersimpan dalam Bank Soal sehingga memudahkan untuk diakses dalam memenuhi kebutuhan tes Ujian Akhir Nasional yang setiap saat dapat diambil bila diperlukan.

Menurut Kumaidi (2000: 102) untuk mengembangkan suatu tes dan sejumlah butir soal yang “defensible” maka prosedur pengembangan perlu ditradisikan, dalam arti proses pengembangan tes (dan penulisan butir soal) dimulai dengan pengembangan rancangan atau kisi-kisi tes, yang didahului oleh pembedahan kurikulum yang memuat segala informasi tentang tes tersebut. Rancangan tes ini memuat tujuan penilaian yang akan dilakukan, tempo (waktu yang ditempuh) untuk pelaksanaan pengujian, pesan utama kurikulum (sasaran pembelajaran dan garis besar topik materi uji), indikator butir soal (ciri-ciri penguasaan materi uji dan pencapaian sasaran pembelajaran), serta jumlah dan bentuk butir soal (per-indikator, per topik, dan keseluruhan tes). Sebaran butir soal dalam tes seharusnya memperhatikan keseimbangan tuntutan penguasaan sesuai dengan pesan kurikulum, sehingga memberi nuansa keterwakilan topik bahasan.

Menurut Jihad (2011: 187), ada sembilan langkah yang harus ditempuh dalam mengembangkan tes hasil atau prestasi belajar, yaitu: 1) menyusun spesifikasi tes; 2) menulis soal tes; 3) menelaah soal tes; 4) melakukan uji coba tes; 5) menganalisis butir soal; 6) memperbaiki tes; 7) merakit tes; 8) melaksanakan tes; dan 9) menafsirkan hasil tes. Khusus mengenai uji coba tes, dalam penyusunan tes untuk mengukur prestasi hasil pembelajaran yang diselenggarakan oleh guru di kelas seperti ulangan harian, ulangan umum, dan ulangan kenaikan kelas, tidak harus dilakukan secara tersendiri. Pembakuan tes dilakukan melalui beberapa kali ujicoba. Sedangkan Djaali (2004: 78) menjelaskan bahwa, penyusunan dan pengembangan tes dimaksudkan untuk memperoleh tes yang valid, sehingga hasil ukurnya dapat mencerminkan secara tepat hasil belajar yang dicapai oleh masing-masing individu peserta tes setelah selesai mengikuti pembelajaran. Adapun langkah-langlah kontruksi tes yang ditempuh adalah sebagai berikut: 1) menetapkan tujuan tes; 2) analisis kurikulum; 3) analisis buku pelajaran dan sumber materi belajar lainnya; 4) membuat kisi-kisi; 5) penulisan tujuan instruksional khusus; 6) penulisan soal; 7) telaah soal (face validity); 8) reproduksi tes terbatas; 9) uji coba tes; 10) analisis hasil uji coba; 11) revisi soal, dan l2) merakit soal menjadi tes.

Langkah awal dalam mengembangkan tes adalah menetapkan spesifikasi tes, yaitu berisi uraian yang menunjukkan keseluruhan karakteristik yang harus dimiliki suatu tes. Spesifikasi yang jelas akan mempermudah dalam menulis soal, dan siapa saja yang menulis soal akan menghasilkan tingkat kesulitan yang relatif sama. Penyusunan spesifikasi tes mencakup kegiatan berikut ini: 1) menentukan tujuan tes; 2) menyusun kisi-kisi tes; 3) memilih bentuk tes; dan 4) menentukan panjang tes (Setiadi, 2009: 167).

Selanjutnya, menurut Setiadi (1998: 15) menyatakan bahwa setiap tahun soal-soal yang digunakan harus dibuat oleh suatu panitia khusus yang dibentuk untuk keperluan ujian nasional, sehingga setiap tahun harus dikeluarkan dana yang besar untuk keperluan revisi soal-soal tersebut. Untuk keperluan keamanan juga diperlukan beberapa alternatif paket tes (paralel form), di mana soal-soal pada suatu paket dengan paket yang lain dianggap sama tingkat kesukaran soalnya hanya karena dianggap dibuat berdasarkan pada kisi-kisi yang sama tanpa didasarkan pada data empirik hasil uji coba soal di lapangan.

Pengembangan rancangan tes ini melibatkan spesialis (termasuk guru) bidang studi, sehingga bila rancangan tes telah selesai disusun maka rancangan tes tersebut harus divalidasi, melalui penelaahan pakar dan teman sejawat, sehingga benar-benar sesuai dengan pesan kurikulum. Untuk mengatasi variasi butir soal yang berlebihan, dengan pemahaman indikator butir soal, ada baiknya dikembangkan apa yang disebut oleh Nitko (1992) sebagai spesifikasi butir soal (item specification). Spesifikasi ini menyangkut uraian tentang batasan dan rambu-rambu yang harus dipatuhi oleh penulis butir soal.

Gronlund (1985: 180) menyarankan beberapa hal dalam pengkonstruksian tes, diantaranya: 1) stem item tersebut sebaiknya memaknai butir itu sendiri dan menampilkan masalah tertentu;  2) stem butir tes melibatkan banyak kemungkinan jawaban dan bebas dari materi yang tidak relevan; 3) gunakan pernyataan stem butir yang bersifat negatif hanya ketika hasil belajar yang dikehendaki cukup berarti (signifikan); 4) Semua alternatif jawaban secara gramatikal konsisten dengan stem butir tersebut; 5) sebuah butir secara jelas hanya mengandung satu jawaban benar terbaik; 6) butir-butir tes digunakan untuk mengukur pemahaman yang mengandung beberapa hal baru, tetapi harus berhati-hati; 7) semua pengecohan harus masuk akal; 8) assosiasi verbal antara stem dan jawaban yang benar harus dihindarkan; 9) secara relatif, panjang pilihan jawaban tidak menunjukkan suatu petunjuk untuk jawaban tersebut; 10) jawaban benar sebaiknya muncul pada masing-masing posisi pilihan atas beberapa kesamaan pendekatan, tetapi dalam urutan random; 11) gunakan dengan hemat pilihan-pilihan khusus seperti tidak satu pun jawaban di atas benaratau semua jawaban di atas benar; dan 12) jangan gunakan butir-butir pilihan berganda ketika butir yang lainnya lebih tepat.

Suatu tes harus mengukur hasil belajar dalam skala yang sama dan pendekatan yang mungkin dilakukan antara lain: 1) pemakaian butir soal penjangkar (common items) untuk beberapa set tes; 2) pemakaian butir soal yang telah terkalibrasi (butir soal yang diketahui karakteristiknya pada satu skala umum); dan 3) kombinasi kedua pendekatan itu yakni soal penjangkar dipilih dari butir yang terkalibrasi (Kumaidi, 2000: 105). Dalam hal ini peranan IRT cukup berguna untuk menyamakan skala tersebut. Setelah soal-soal berkualitas terpilih berdasarkan professional adjustment dari para ahli bidang studi dan ahli pengukuran (measurement specialist) dan juga didukung data empirik hasil uji coba soal, maka kegiatan berikutnya adalah membuat skala dan menentukan di mana setiap soal terletak dalam skala tersebut (Setiadi, 1998: 10).

Menurut Naga (1992: 394) dari waktu ke waktu bank butir terus mengalami pengembangan dengan pemasukan butir-butir baru serta peniadaan butir-butir usang. Dalam penelitian digunakan teori skor modern. Untuk membentuk perangkat soal yang baik dibutuhkan banyak hal, terutama dari aspek esensial yang membutuhkan pengkajian lebih mendasar dan mendetail baik ditinjau dari kacamata pengukuran klasik maupun pengukuran modern sehingga pemanfaatan tes dapat menghasilkan fungsi informasi butir tes maupun fungsi informasi ujian yang cukup tinggi. Karenanya tidak ada satu tes yang sempurna, selama berbagai persyaratan yang telah diuraikan di atas belum seluruhnya dipenuhi.

D.MODEL RESPON BUTIR

Ada empat macam model IRT (1) Model satu parameter (Model Rasch), yaitu untuk menganalisis data yang hanya menitikberatkan pada parameter tingkat kesukaran coal. (2) Model dua paremeter, yaitu untuk menganalisis data yang hanya menitikberatkan pada parameter tingkat kesukaran dan daya pembeda soal. (3) Model tiga parameter, yaitu untuk menganalisis data yang menitikberatkan pada parameter tingkat kesukaran soal, daya pembeda soal, dan menebak (guessing). (4) Model empat parameter, yaitu untuk menganalisis data yang menitikberatkan pada parameter tingkat kesukaran soal, daya beda soal, menebak, dan penyebab lain (Hambleton dalam Depdiknas, 2010: 18).

 

 

BAB III

PENUTUP

 

  1. Kesimpulan

Pada hakekatnya proses pengukuran semuanya baik. Hanya kekonsistenan pelaksana dan penilai hasil pengukuran di samping kejujuran memberi penilaian adalah yang utama. Kecanggihan alat ukur modern belum tentu bermanfaat bagi peserta didik, selama hal itu dilakukan setengah hati. Teori responsi butir atau item response theory merupakan alternatif pilihan yang bertujuan melepaskan diri dari ketergantungan tes yang diberikan dengan sampel peserta tes. Dalam hal ini walaupun soal-soal tersebut dikerjakan oleh siswa yang pandai atau siswa yang kurang pandai, indikasi tingkat kesukaran suatu soal tetap tidak berubah.

Untuk mengukur kemampuan peserta tes yang sangat beragam di Indoensia, seperti Ujian Nasional, seharusnya digunakan juga ujian atau tes yang berbeda tingkat kesukaran soalnya, supaya adil dan juga akurat hasilnya. Peserta tes atau ujian (seperti Ujian Nasional) yang mengerjakan tes atau ujian yang berbeda tingkat kesukaran soalnya, tetap bisa dibandingkan kemampuannya, asalkan soal-soal dalam ujian tersebut berasal atau diambil dari bank soal yang sudah dikalibrasi dengan konsep item response theory.

Kekhawatiran dengan ketidaklulusan perlu disikapi secara wajar oleh semua pihak, khususnya sekolah dengan memperbaiki proses pembelajaran. Apabila upaya perbaikan proses pembelajaran telah dilakukan, sesungguhnya tidak ada sesuatu yang perlu dikhawatirkan, karena seluruh bahan ujian sudah mengacu pada kurikulum yang berlaku. Kelemahan-kelemahan yang ada dalam pelaksanaan Ujian Nasional perlu diidentifikasi dan dijadikan sebagai masukan dalam perbaikan pelaksanaan Ujian Nasional ke depan, dalam rangka membangun suatu sistem ujian akhir yang handal, yang dapat memberikan informasi akurat bagi pembangunan pendidikan.

  1. Saran

Keseragaman penerapan tes secara nasional perlu dipertimbangkan lebih arif, mengingat tingkat kemampuan yang beragam sesuai lingkungan tempat tinggal peserta tes. Walaupun penerapan kurikulum berlaku secara nasional, namun faktor lingkungan tempat sekolah juga perlu dipertimbangkan. Konsep utama teori responsi butir adalah adanya kesesuaian tingkat kesukaran suatu tes dengan kemampuan siswa yang menjawab adalah sesuatu yang tidak dapat diabaikan. Harus diingat bahwa nilai  (daya pembeda soal) yang tinggi, dan nilai  (tebakan jawaban) yang rendah, tanpa dibarengi nilai b (tingkat kesukaran soal) yang mendekati kemampuan  akan memberikan nilai fungsi informasi butir tes yang rendah.

Pemanfaatan program komputer dalam menganalisis hasil tes sudah saatnya digunakan terutama untuk mengatasi berbagai kesalahan yang mungkin dilakukan secara manual, sehingga akurasi hasil analisis dapat dipertanggung jawabkan. Untuk masa yang akan datang disarankan Ujian Nasional sudah dapat melaksanakan ujian dengan sistem individual tes dengan menggunakan Computer Adaptive Test (CAT). Dengan menggunakan CAT permasalahan-permasalahan yang dihadapi dalam pelaksanaan tes secara kelompok klasikal seperti yang dilaksanakan dalam Ujian Nasional sekarang ini dapat dihindari.

Soal-soal Ujian Nasional harus dikembangkan berdasarkan bank soal yang sudah dikalibrasi dengan konsep teori responsi butir. Pada akhirnya keberhasilan siswa tidak hanya ditentukan oleh faktor hasil ujian hasil belajar saja, akan tetapi faktor-faktor lain, seperti kerajinan, kehadiran, hasil ujian bulanan, pengerjaan pekerjaan rumah, dan faktor-faktor lain seharusnya menjadi pertimbangan lain dalam menentukan kelulusan peserta didik.

 

 

 

 

Daftar Pustaka

 

Asmin. 2004. Implementasi Teori Responsi Butir dan Fungsi Informasi Butir Tes dalam Pengujian Hasil  Belajar Akhir di Sekolah. Jurnal Pendidikan dan Kebudayaan, X (48): 234-245.

Azwar, Saifuddin. 2001. Tes Prestasi. Fungsi Pengembangan Pengukuran Prestasi Belajar. Yogyakarta: Pustaka Pelajar Offset.

Aiken, Lewis R. 1994. Psychological Testing and Assessment. Boston: Allyn and Bacon, Inc.

Crocker, Linda, & Algina, James. 1986. Introduction to classical and modern test theory. New York: Holt, Rinehart and Winston, Inc.

Cronbach, Lee J. 1990. Essentials of Psychological Testing. New York: Harper Collins Publishers.

Dali S. Naga, 1998, Karakteristik Butir pada Alat Ukur Model Dikotomi, Arkhe: Jurnal Ilmiah Psikologi, III (4): 34-42.

Djaali. 2004. Pengukuran Dalam Bidang Pendidikan. Jakarta: Program Pascasarjana Universitas Negeri Jakarta.

Gronlund, Norman. E. 1985. Measurement and Evaluation in Teaching. New York: Macmillan Publishing Company.

Hambleton, Ronald K; Swaminathan, H; dan Jane Rogers, H. 1991. Fundamentals of Item Response Theory. London: SagePublications.

Jihad, Asep, Abdul Haris. 2011. Evaluasi Pembelajaran. Multi Pressindo: Yogyakarta.

Kumaidi. 2000. Standardisasi Butir Soal. Jurnal Pendidikan dan Kebudayaan. V(5): 132-143.

Lord, Frederick, M.1990. Aplications of Item Response Theory to Practical Testing Problems. New Jersey: LawrenceErlbaum Associates, Publishers.

Mary J.Allen and Wendy M Yen, 1989, Introduction to Measurement Theory, California: Broke.

Naga, Dali, S. 1992. Pengantar Teori Sekor Pada Pengukuran Pendidikan. Jakarta: Besbats.

Nitko, Anthony. J. 1992. Criterion Reference Testing Workshop: Handouts and Reading Material Tidak dipublikasikan). Cipayung, Bogor: Examination Development Unit (Puslitbang Sisjian).

Share Button
You can follow any responses to this entry through the RSS 2.0 feed. You can skip to the end and leave a response. Pinging is currently not allowed.

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Protected by WP Anti Spam