Rabu, 09 November 2011

TEORI TES KLASIK


TEORI TES KLASIK
Oleh:
Bambang Purnomo
 
KATA PENGANTAR


            Puji syukur penulis panjatkan ke hadirat Allah Swt, Tuhan Yang Maha Esa yang telah melimpahkan rahmat dan hidayah-Nya sehingga dapat menyusun makalah ini.
             Makalah ini berupa pembahasan mengenai teori tes klasik. Makalah ini disusun  dalam rangka untuk memenuhi tugas mata kuliah Teori Tes Klasik program pasca sarjana, program studi Penelitian dan Evaluasi Pendidikan (PEP), Universitas Sarjanawiyata Tamansiswa (UST) Yogyakarta.
            Pembahasan dalam makalah ini penulis ambilkan dari berbagai sumber antara lain: buku-buku yang disarankan dan buku-buku lain, paparan dari  teman-teman mahasiswa pascasarjana semester 2 dan penjelasan dari Dr. Kamil dalam diskusi dan materi-materi dari hasil unduhan di media internet.
            Penulis menyadari bahwa  tersusunnya karya tulis ini atas bantuan berbagai pihak dan masih sangat sederhana, oleh karena itu pada kesempatan ini penulis menyampaikan penghargaan dan terima kasih kepada semua pihak yang tidak dapat penulis sebutkan satu persatu dalam penulisan karya tulis ini dan semoga semua amal baik mereka menjadikan pahala dihadapan Allah Swt. Untuk itu saran dan kritik yang bersifat membangun sangat penulis harapkan guna penyempurnaan.
            Akhirnya penulis berharap semoga karya tulis ini barmanfaat dan dapat memenuhi tugas dalam menempuh mata kuliah Teori Tes Klasik.

BAB I
  PENDAHULUAN
A. Rasional
            Salah satu teori pengukuran yang tertua didunia pengukuran behavioral adalah classical true-score theory. Teori ini dalam bahasa Indonesia sering disebut dengan teori tes klasik. Teori tes klasik merupakan sebuah teori yang mudah dalam penerapannya serta model yang cukup berguna dalam mendeskripsikan bagaimana kesalahan dalam pengukuran dapat mempengaruhi skor amatan.
Inti teori klasik adalah asumsi-asumsi yang dirumuskan secara sistematis serta dalam jangka waktu yang lama. Dari asumsi-asumsi tersebut kemudian dijabarkan dalam beberapa kesimpulan. Ada tujuh macam asumsi yang ada dalam teori tes klasik ini. Allen & Yen (1979: 67 - 60) menguraikan asumsi-asumsi teori klasik sebagai berikut :
Asumsi pertama teori tes klasik adalah bahwa terdapat hubungan antara skor tampak (observed score) yang dilambangkan dengan huruf X, skor murni (true score) yang dilambangkan dengan T dan skor kasalahan (error) yang dilambangkan dengan E. Menurut Saifuddin Azwar (2001: 30) yang dimaksud kesalahan pada pengukuran dalam teori klasik adalah penyimpangan tampak dari skor harapan teoritik yang terjadi secara random. Hubungan itu adalah bahwa besarnya skor tampak ditentukan oleh skor murni dan kesalahan pengukuran. Dalam. bahasa matematika dapat dilambangkan dengan X = T + E.
Asumsi kedua adalah bahwa skor murni (T) merupakan nilai harapan є (X). Dengan demikian skor murni adalah nilai rata-rata skor perolehan teoretis sekiranya dilakukan pengukuran berulang-ulang (sampai tak terhingga) terhadap seseorang dengan menggunakan alat ukur.
Asumsi ketiga teori tes klasik menyatakan bahwa tidak terdapat korelasi satu dengan yang lain antara skor mumi dan skor pengukuran pada suatu tes yang dilaksanakan ( = 0). Implikasi dari asumsi adalah bahwa skor murni yang tinggi tidak akan mempunyai error yang selalu positif ataupun selalu negatif.
Asumsi keempat meyatakan bahwa korelasi antara kesalahan pada pengukuran pertama dan kesalahan pada pengukuran kedua adalah nol ( = 0). Artinya bahwa skor-skor kesalahan pada dua tes untuk mengukur hal yang sama tidak memiliki korelasi (hubungan). Dengan demikian besarnya kesalahan pada suatu tes tidak bergantung kesalahan pada tes lain.
Asumsi kelima menyatakan bahwa jika terdapat dua tes untuk mengukur atribut yang sama maka skor kesalahan pada tes pertama tidak berkorelasi dengan skor murni pada tes kedua ( ). Asumsi ini akan gugurjika salah satu tes tersebut ternyata mengukur aspek yang berpengaruh terhadap teradinya kesalahan pada pengukuran yang lain.
Asumsi keenam teori tes klasik adalah menyajikan tentang pengertian tes yang pararel. Dua perangkat tes dapat clikatakan sebagai tes-tes yang pararel jika skor-skor populasi yang menempuh kedua tes tersebut mendapat skor murni yang sama ( T = T' )dan varian skor-skor kesalahannya sama ( ). Dalam prakteknya, asumsi keenam teori ini sulit terpenuhi.
Asumsi terakhir dari teori tes klasik menyatakan tentang definisi tes yang setara (essentially equivalent). Jika dua perangkat tes mempunyai skor-skor perolehan dan yang memenuhi asumsi 1 sampai 5 dan apabila untuk setiap populasi subyek X1 = X2 + C12, dimana C12 adalah sebuah bilangan konstanta, maka kedua tes itu disebut tes yang pararel.
Asumsi-asumsi teori klasik sebagaimana disebutkan di atas memungkinkan untuk dikembangkan dalam rangka pengembangan berbagai formula yang berguna dalam melakukan pengukuran psikologis. Daya beda, indeks kesukaran, efektifitas distraktor, reliabilitas dan validitas adalah formula penting yang disarikan dari teori tes klasik.
B. Tujuan      
Makalah ini disusun memiliki tujuan antara lain sebagai berikut:
1.      Untuk meningkatkan kompetensi menulis karya tulis ilmiah bagi mahasiswa program pascasarjana.
2.      Untuk meningkatkan kompetensi mahasiswa dalam menggunakan media canggih laptop untuk mencari dan mengambil informasi melalui jejaring internet.
3.      Untuk memenuhi tugas menyusun makalah matakuliah Teknik Informatika dan Komputer (TIK) program pascasarjana jurusan Penelitian dan Evaluasi Pendidikan (PEP) Universitas Sarjanawiyata Tamansiswa (UST) Yogyakarta.

BAB II
PEMBAHASAN
A. Definisi
1. PengertianTes
            Ada beberapa pengertian tes yang yang berkembang sampai saat ini. Dan dibawah ini diberikan pengertian tes menurut beberapa ahli antara lain sebagai berikut:
  1. Suatu tes tidak lain dari sekumpulan pertanyaan yang harus dijawab atau tugas yang harus dikerjakan yang akan memberikan informasi mengenai aspek psikologis tertentu berdasarkan jawaban terhadap pertanyaan-pertanyaan atau cara dan hasil subyek melakukan tugasnya, bila dilihat dari wujud fisiknya. Menurut Putro W, Eko (2009:45).
  2. Tes merupakan  salah satu cara untuk menaksir besarnya kemampuan seseorang secara tidak langsung yaitu respon seseorang terhadap stimulus atau pertanyaan. Menurut Mardapi, Djemari 2008: 67).
  3. Tes merupakan alat ukur yang terstandar dan obyektif tentang sampel perilaku individu, disampaikan oleh Anne, Anastasi yang dikutip Azwar, Nasution (2003).
  4. Tes adalah prosedur yang sistematis guna mengukur sampel perilaku seseorang, pendapat Brown dalam Jihad, asep dan Abdul Haris (2008:67).
  5. Test is ... a systematic procedure for observing a person’s behaviour and describing it with the aid of a numerical scale or category system’, Pendapat Cronbach dalam buku Essentiala of Psychological Testing dalam Purwanto, 2009: 64).
Dengan kata lain tes adalah prosedur sistematis untuk mengetahui keefektifan suatu program karena tes dilaksanakan ada hal yang ingin diketahui dari kegiatan atau suatu program setelah dilaksanakan atau diimplemensikan. Dari tujuan inilah yang berkembang tentang tehnik, bentuk, jenis, fungsi dan atribut dari tes tersebut.
2. Karakteristik Tes
a. Tes menurut tujuannya
            Menurut tujuannya tes dibedakan dalam 4 macam yaitu:
1)      Tes penempatan
2)      Tes diagnostic
3)      Tes formatif
4)      Tes sumatif
b. Menurut cara mereposnya
            Menurut cara meresponya  tes dibedakan dalam tiga macam yaitu:
1)      Tes lisan
2)      Tes tertulis
3)      Tes performance, tes tersebut terbagi menjadi: maximal performance and typical performance  (Cronbach. 1970)
c. Menurut jenisnya
            Menurut jenisnya tes terbagi dalam dua macam yaitu:
1)      Tes Obyektif   : tes benar-salah, tes menjodohkan dan tes pilihan ganda
2)      Tes Uraian       :  terdiri uraian terbuka dan uraian tertutup
d. Tes menurut atribut psikologis (Sumadi Suryabrata. 2005: 14)
            Menurut atribut psikologis tes dibedakan ke dalam empat golongan yaitu:
1)      Tes kepribadian
2)      Tes intelegensi
3)      Tes potensi intelektual
4)      Tes hasil belajar
B. Teori Tes Klasik
Teori tes klasik adalah tubuh yang terkait dengan psikometri teori yang memprediksi psikologis hasil pengujian seperti kesulitan item atau kemampuan uji-takers. Secara umum, tujuan dari teori tes klasik adalah untuk memahami dan meningkatkan keandalan dari tes psikologi.
.           Teori tes klasik dapat dianggap sebagai kasar identik dengan teori nilai yang benar. Istilah "klasik" tidak hanya mengacu pada kronologi model ini, tetapi juga berbeda dengan teori psikometri yang lebih baru, umumnya disebut secara kolektif sebagai respon teori item , yang kadang-kadang beruang sebutan yang "modern" seperti dalam "teori laten sifat modern". Menguji teori klasik seperti yang kita kenal sekarang ini dikodifikasikan oleh Novick (1966) dan dijelaskan dalam teks-teks klasik seperti Lord & Novick 1968) dan Allen & Yen (1979/2002).
Teori tes klasik mengasumsikan bahwa setiap orang memiliki nilai yang benar, T, yang akan diperoleh jika tidak ada kesalahan dalam pengukuran. skor benar seseorang didefinisikan sebagai nomor-nilai yang benar yang diharapkan selama jumlah tak terbatas administrasi independen dari tesSayangnya, pengguna tes tidak pernah amati benar skor seseorang, hanya skor diamati, X. : Diasumsikan bahwa nilai yang diamati = skor benar ditambah beberapa error:
                X         =       T      +    E X = T + E
          observed score     true score     error skor skor kesalahan diamati benar
Teori tes klasik berkaitan dengan hubungan antara tiga variabel X, T, dan E dalam populasi. Hubungan ini digunakan untuk mengatakan sesuatu tentang kualitas skor tes.. Dalam hal ini, konsep yang paling penting adalah keandalan. Didefinisikan sebagai rasio varians skor benar {\ Sigma} ^
 2_Tto the observed score variance dengan varians skor diamati {\ Sigma} ^ 2_X: :
{\ Rho ^ 2_ {XT}} = \ frac {{\ 
2_T ^ sigma}} {{\ sigma 2_X ^}}
Karena varians dari skor yang diamati dapat ditunjukkan sama dengan jumlah varians skor benar dan varians skor kesalahan, ini setara dengan
{\ Rho ^
 2_ {XT}} = \ frac {{\ sigma ^ 2_T}} {{\ sigma ^ 2_X}} = \ frac {{\ 
sigma ^ 2_T}} {{2_T sigma ^ \} + {\ sigma 2_E ^}}
Persamaan, yang merumuskan sinyal-untuk rasio-noise, memiliki daya tarik intuitif: Kehandalan nilai tes menjadi lebih tinggi sebagai proporsi varians kesalahan dalam skor tes menjadi lebih rendah dan sebaliknya. Keandalan sama dengan proporsi varians dalam skor tes yang kami bisa menjelaskan jika kita tahu nilai yang benar. Akar kuadrat dari reliabilitas adalah korelasi antara skor benar dan diamati.

C. Validitas (Validity)
            Tes dikatakan valid jika alat tes tesebut mengukur yang seharusnya diukur. Untuk itu validitas tes perlu diketahui sehingga alat tes itu menjadi alat tes yang baik. Untuk mengetahui tingkat validitas tes perlu adanya analisis butir-butir soal sebelum alat tes tersebut digunakan untuk mengetes. Adapun hal dilakukan dalam menganalis butir soal adalah mencakup tiga hal yaitu:
1.      Tingkat kesukaran
2.      Daya beda
3.      Efektifitas pengecoh (bernilai +)
Soal yang baik ditentukan berapa soal yang memiliki tingkat kesukaran tinggi , sedang, dan atau rendah, dengan daya beda yang tinggi dan pengecoh yang berfungsi.
1. Tingkat Kesukaran (Difficulty Index)
            Tingkat Kesukakaran dapat didefinisikan sebagai proporsi siswa yang menjawab benar.
Adapun rumusnya adalah sebagai berikut:
            TK       =          ∑ B
∑ P
Keterangan:
            TK       = Tingkat Kesukaran
            ∑ B      = Jumlah siswa yang menjawab benar
∑ P      = Jumlah peserta
Tingkat kesukaran dapat diklasifikasikan menjadi 3 kategori:

2. Daya Beda (Discriminating Power)
            Daya beda adalah kemampuan soal untuk membedakan kemampuan siswa yang memiliki kemampuan tinggi dan rendah.
3.  Pengecoh
            Kriteria pengecoh yang baik minimal dipilih oleh 2,5% peserta tes dan bernilai positif (pada analisis program iteman)
D. Keandalan (Reliability)
            Perhatikan bahwa keandalan tidak, seperti yang sering diasumsikan oleh pengguna tes, properti tetap tes, tetapi milik penggunaan tes dengan populasi tertentu. Keandalan harus diperkirakan di setiap populasi dimana tes ini akan digunakan, karena nilai ujian tidak akan sama-sama diandalkan di setiap populasi atau bahkan setiap sampel. Misalnya, seperti halnya untuk hubungan apapun, reliabilitas skor tes akan diturunkan dengan pembatasan jangkauan. Dengan demikian, IQ-tes skor yang sangat handal dalam populasi umum akan kurang dapat diandalkan dalam populasi mahasiswa dan bahkan kurang dapat diandalkan dalam sampel mahasiswi. Juga catat bahwa skor tes yang sempurna tidak dapat diandalkan untuk setiap i individu tertentu, karena, seperti yang telah disebutkan di atas, nilai yang benar adalah konstan pada tingkat individu, yang berarti telah nol variansi, sehingga rasio varians skor benar untuk varians skor diamati, sehingga keandalan, adalah nol.
            Perhatikan bahwa keandalan tidak, seperti yang sering diasumsikan oleh pengguna tes, properti tetap tes, tetapi milik penggunaan tes dengan populasi tertentu. Keandalan harus diperkirakan di setiap populasi dimana tes ini akan digunakan, karena nilai ujian tidak akan sama-sama diandalkan di setiap populasi atau bahkan setiap sampel. Misalnya, seperti halnya untuk hubungan apapun, reliabilitas skor tes akan diturunkan dengan pembatasan jangkauan. Dengan demikian, IQ-tes skor yang sangat handal dalam populasi umum akan kurang dapat diandalkan dalam populasi mahasiswa dan bahkan kurang dapat diandalkan dalam sampel mahasiswi. Juga catat bahwa skor tes yang sempurna tidak dapat diandalkan untuk setiap i individu tertentu, karena, seperti yang telah disebutkan di atas, nilai yang benar adalah konstan pada tingkat individu, yang berarti telah nol variansi, sehingga rasio varians skor benar untuk varians skor diamati, sehingga keandalan, adalah nol.
Keandalan tidak dapat dilakukan secara langsung karena itu akan memerlukan satu untuk mengetahui nilai yang benar, yang menurut teori tes klasik adalah mustahil. Namun, perkiraan keandalan dapat diperoleh dengan berbagai cara.. Salah satu cara untuk mengestimasi reliabilitas adalah dengan membangun yang disebut paralel tes-jadi. Properti mendasar dari tes paralel adalah bahwa hal itu menghasilkan nilai benar yang sama dan variansi skor yang sama diamati dengan pengujian awal untuk setiap individu. Jika kita memiliki tes paralel x dan x ', maka ini berarti bahwa
{\ Varepsilon} (X_i) = {\ varepsilon} (X'_i)
and dan
{\ Sigma} ^ 2_ {E_i} = {\ 
sigma} ^ 2_ {E'_i}
Berdasarkan asumsi tersebut, berarti hubungan antara nilai tes paralel adalah sama dengan kehandalan (lihat Tuhan & Novick, 1968, Ch 2,. Untuk bukti).
{\ Rho} _ {XX '} = \ frac {{\ sigma} _ {XX'}}{{ \ sigma} _x {\ 
sigma} _ {X'}} = \ frac {{\ sigma} _T ^ 2 } {{\ sigma} _x ^ 2} = {\ rho}
 _ {} ^ 2 XT
Menggunakan tes paralel untuk memperkirakan kehandalan yang rumit karena tes paralel sangat sulit didapat. Dalam prakteknya metode ini jarang digunakan. Sebaliknya, peneliti menggunakan ukuran yang dikenal sebagai konsistensi internal Cronbach's α Pertimbangkan tes yang terdiri dari item k u j, j = 1, \ ldots, k. . Nilai total tes didefinisikan sebagai jumlah dari skor item individual, sehingga untuk individu i
X_ {i} = \ sum_ {j = 1} ^ {k} {U_ {ij}}
Kemudian 's alpha Cronbach sama
\ Alpha = \ frac {k} {k-1} \ left (1 - \ frac {\ sum_ 
{j = 1} ^ {k} {\ sigma ^ {2} _ {U_ {}}}}{ j \ sigma ^ 2_ {X}} \ right)
Cronbach's α dapat ditunjukkan untuk memberikan batas bawah untuk keandalan bawah asumsi agak ringan. Dengan demikian, keandalan nilai tes dalam suatu populasi selalu lebih tinggi dari nilai Cronbach's α pada populasi itu. Dengan demikian, metode ini secara empiris layak dan, sebagai hasilnya, sangat populer di kalangan peneliti. Perhitungan Cronbach's α termasuk di banyak paket statistik standar seperti SPSS dan SAS . [1]
Seperti telah disebutkan di atas, seluruh pelaksanaan tes teori klasik dilakukan untuk sampai pada definisi yang sesuai keandalan. Keandalan seharusnya mengatakan sesuatu tentang kualitas umum dari skor tes yang bersangkutan. Gagasan yang umum, keandalan yang lebih tinggi, semakin baik. Teori tes klasik tidak mengatakan seberapa tinggi keandalan seharusnya. Terlalu tinggi nilai untuk α, mengatakan lebih dari 0,9, menunjukkan redundansi item. Sekitar .8 dianjurkan untuk penelitian kepribadian, sementara 0,9 + adalah diinginkan untuk pengujian taruhan tinggi-individu.
D. Iteman
Iteman merupakan perangkat untuk menganalisis butir soal dan tes. Dikembangkan oleh Assessment Systems Corporation mulai 1982, 1984, 1986, 1988, 1993; mulai dari versi 2.00 – 3.50. Alamatnya Assessment Systems Corporation, 2233 University Avenue, Suite 400, St Paul, Minesota 55114, United States of America. Iteman dipergunakan antara lain untuk menganalisis data file (format ASCII) (Notepad) melalui manual entri data atau dari mesin scanner, menskor dan menganalisis data soal bentuk PG dan skala likert untuk 30.000 siswa dan 250 butir soal,menganalisis tes yang teridiri dari 10 skala (subtes) dan membe rikan informasi tentang validitas butir dan relialilitas tes.
Program iteman didasarkan pada teori tes klasik. Kelemahan utama dari program ini adalah sangat dipengaruhi oleh kemampuan responden. Artinya jika soal diujikan pada anak berkemampuan tinggi dengan anak berkemampuan rendah maka akan terjadi perbedaan hasil analisis. Untuk mengantisipasi tersebut maka biasanya analisis soal dengan menggunakan iteman dilakukan secara sampling, dengan melibatkan kurang lebih 500 responden. Semakin besar sampling dan semakin baik teknik samplingnya maka semakin baik kualitas hasil analisis. Adapun hasil  analisis dengan iteman meliputi: tingkat kesukaran, daya pembeda soal, statistic sebaran jawaban,  reliabilitas tes, kesalahan pengukuran dan distribusi skor setiap peserta tes.
Adapun langkah-langkahnya antara lain adalah sebagai berikut: membuat file data, menjalankan program ITEMAN dan melakukan interpretasi hasil
1. Membuat File Data
            Adapun cara membuat file data digunakan contoh yang diberikan oleh Drs. Safari, M.A. dari Pusat Penilaian Depdiknas sebagai berikut:
a. Baris Pertama:
• Kolom 1-3 : jumlah butir soal (contoh: 020)
• 4 : Spasi
• 5 : jawaban kosong (omit), ditulis 0
• 6 : Spasi
• 7 : soal yang belum dikerjakan, ditulis n
• 8 : spasi
• 9-10 : jumlah identitas data siswa (cntoh: 10)
• Tambahan keterangan:
. Kolom 1-3, Untuk menuliskan jumlah soal: Kolom 1 ratusan, kolom 2
puluhan, kolom 3 satuan
. Kolom 5 : butir soal yang tidak dijawab
. Kolom 7 : butir soal yang belum sempat dikerjakan
 Kolom 9-10: panjang karakter untuk identitas siswa.
Ø
b. Baris kedua : kunci jawaban
c. Baris ketiga :jumlah jawaban
d. Baris Keempat : ‘Y’ butir soal yang dianalisis, ‘N’ butir saol yang
tdk dianalisis
e. Baris kelima dst :berisi jawaban siswa

2. Menjalankan Program Iteman
2.1. Mengetik data di Notepad (Start-Programs-Accessories-Notepad)
 

 50 0 N 21
CADBDCBCCDABAACABCDABCDBDCDABDABACCDBCABABDBCBABCD Kunci jawaban
44444444444444444444444444444444444444444444444444 Pilihan jawaban
YYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYY Kode analisis
TUTYK INDRAWATI      CADBDCBCCDABBACABCDBBCDBDCBDBDABACCDBCABABDBCDABCD
RINI SULISTIYATIN    CADBDCBDCDABBACABCDBBCDBDCBDBDABACCDBCABABDBCDABCD
NANI KUSMIYATI       CADCDCBDCDABBACABCDBBCDBDCBDBDABACCDBCABABDBCDAACD
EVI MEILANI          CADADCBDDDABAACABCDBBCDBACBABAAAAC0DBCABABDBCDABCD
M. AGUNG PRIYANTO    CBDCDCCDCDABBACABCDBBCDBDCBDBDACACCDBCABABDBCDAACD
ABEN DAMARUDIN       CBDCDCCCCDCBBACABCDBBCDBDCBDBDACACCDBCABABDBCDAACD
KUSNAENI             CADCDCCDBDACBACABCDBBCDBDCBDBDACACADBCABABDBCDAACD
AGUS ARYADI          CADBCCBDCDAABACBACAABCDBCCBBCAAABBDBBCABABDBCDAACD
SULASTRI IRIANI      CADBBCBCBDABBACABDDABCDBDCDABDBAACCDBCABABDBCDAACD
RISKA WIDIANINGSIH   CADB0BBCCDABBACDCDDABCDBCCBBBDBAACCDBCABABDBCDAACD
DIAN RACHMAWATI      CADBBCBDBDABBACABDDABCDBDCDABDBBACCDBCABABDBCDAACD
KAMAL PURNAMA        CADBBCBDBDABBACABADBBCDBDCBABDBBACCDBCABABDBADAABC
RADITYA WICAKSONO    CADBABBDBDABAACABBDABCDBDCBABDBBACCDBAABABDBCDAACD
TIWI IRJANITA        CADABCBCCDABBBCABCDABCDBDCDABDBAACCDBCABABDBCDAACD
IKA SUKMAWATI        CADBBCBCCDABBACABDDABCDBDCDABDBAACCDBCABABDBCDAACD
SITI SHOLICHAH       CADABCBCCDABBBCABCDABCDBDCDABDBAACCDBCABABDBCDAACD
SITI MASYITOH A.S.   CADC0CBDCDABBACABBDBBCDBACBABDCBACCDBCACABDBCDAACD
NUNIK HERI WAHYUNI   CBDABBCDADABBBCABCDBBCDBDCBABDBDACCDBCABABDBCDAACD
SITI RONIAH          CBDBAABDADACDACABCDBBCDBCCBBCAAABBDBBCABABDBCDABDD
BAYU KURNIAWAN       CBDBAABDADACDACABCDBBCDBCCBBCAAABBDBBCABABDBCDABCD
DIAH RESMISARI       CADBBCBDCDABBACABDDABCDBDCDABDBCACCDBCADABDBCDAACD
HENI HARYANI         CADBBCBCCDABBACABDDABCDBDCDABDBCACCDBCABABDBCDAACD
RINA WAHYU WIDYAWATI CACADCBDCDABBACABCDBBCDBCCBBCAAABBDBBCABABDBCDA0CD
WACHYUDIN            CADDAACDDDACDACABCDBBCDBCCBBCAAABBDBBCABABDBCDADCD
ANDRIE SETIAWAN      CADBBCBDCDABBACABDDABDDBDCDBADBCACCDBCABABDBCDAACD
AHMAD SYAFI'I        CADBDCBDADABAACACCDBBCDB0CBDBDAAACCDBCABABDBCDABCD
SUTEJO               CADBBCBDCDABBACABDDABDDBDBDBADBCACCDBCABABDBCDAACD
HENI AFRIANI         CADCDCCCADABBACABCDABCDBACBBBDCBACCDBCAAAACBCDCACD
SRI SUHESTI NINGSIH  CADCDDCDADABBACABCDABCDBACBABDCBACCBBCABAACBCDABCD
HARTONO ISWANTO      CADBDCBDCDABBACABCDBBCDBDCBDBDADACCDBCABABDBCDABCD

2.2. Data di atas disimpan pada file: Tes1.txt
2.3. Menggunakan program Iteman dengan mengklik icon Iteman.
 

Enter the name of the input fele: Tes1.txt 
Enter the name of the output file: hsltes1.txt 
Do you want the scores written to a file? (Y/N) Y 
Enter the name of the score file: scrtes1.txt
                **ITEMAN ANALYSIS IS COMPLETE**












PRAKTEK ANALISIS BUTIR SOAL
DENGAN PROGRAM BIGSTEPS
Oleh: Drs. Safari, M.A.
1. Mengetik data di Notepad (Start-Programs-Accessories-Notepad)
 

TUTYK INDRAWATI      CADBDCBCCDABBACABCDBBCDBDCBDBDABACCDBCABABDBCDABCD
RINI SULISTIYATIN    CADBDCBDCDABBACABCDBBCDBDCBDBDABACCDBCABABDBCDABCD
NANI KUSMIYATI       CADCDCBDCDABBACABCDBBCDBDCBDBDABACCDBCABABDBCDAACD
EVI MEILANI          CADADCBDDDABAACABCDBBCDBACBABAAAAC0DBCABABDBCDABCD
M. AGUNG PRIYANTO    CBDCDCCDCDABBACABCDBBCDBDCBDBDACACCDBCABABDBCDAACD
ABEN DAMARUDIN       CBDCDCCCCDCBBACABCDBBCDBDCBDBDACACCDBCABABDBCDAACD
KUSNAENI             CADCDCCDBDACBACABCDBBCDBDCBDBDACACADBCABABDBCDAACD
AGUS ARYADI          CADBCCBDCDAABACBACAABCDBCCBBCAAABBDBBCABABDBCDAACD
SULASTRI IRIANI      CADBBCBCBDABBACABDDABCDBDCDABDBAACCDBCABABDBCDAACD
RISKA WIDIANINGSIH   CADB0BBCCDABBACDCDDABCDBCCBBBDBAACCDBCABABDBCDAACD
DIAN RACHMAWATI      CADBBCBDBDABBACABDDABCDBDCDABDBBACCDBCABABDBCDAACD
KAMAL PURNAMA        CADBBCBDBDABBACABADBBCDBDCBABDBBACCDBCABABDBADAABC
RADITYA WICAKSONO    CADBABBDBDABAACABBDABCDBDCBABDBBACCDBAABABDBCDAACD
TIWI IRJANITA        CADABCBCCDABBBCABCDABCDBDCDABDBAACCDBCABABDBCDAACD
IKA SUKMAWATI        CADBBCBCCDABBACABDDABCDBDCDABDBAACCDBCABABDBCDAACD
SITI SHOLICHAH       CADABCBCCDABBBCABCDABCDBDCDABDBAACCDBCABABDBCDAACD
SITI MASYITOH A.S.   CADC0CBDCDABBACABBDBBCDBACBABDCBACCDBCACABDBCDAACD
NUNIK HERI WAHYUNI   CBDABBCDADABBBCABCDBBCDBDCBABDBDACCDBCABABDBCDAACD
SITI RONIAH          CBDBAABDADACDACABCDBBCDBCCBBCAAABBDBBCABABDBCDABDD
BAYU KURNIAWAN       CBDBAABDADACDACABCDBBCDBCCBBCAAABBDBBCABABDBCDABCD
DIAH RESMISARI       CADBBCBDCDABBACABDDABCDBDCDABDBCACCDBCADABDBCDAACD
HENI HARYANI         CADBBCBCCDABBACABDDABCDBDCDABDBCACCDBCABABDBCDAACD
RINA WAHYU WIDYAWATI CACADCBDCDABBACABCDBBCDBCCBBCAAABBDBBCABABDBCDA0CD
WACHYUDIN            CADDAACDDDACDACABCDBBCDBCCBBCAAABBDBBCABABDBCDADCD
ANDRIE SETIAWAN      CADBBCBDCDABBACABDDABDDBDCDBADBCACCDBCABABDBCDAACD
AHMAD SYAFI'I        CADBDCBDADABAACACCDBBCDB0CBDBDAAACCDBCABABDBCDABCD
SUTEJO               CADBBCBDCDABBACABDDABDDBDBDBADBCACCDBCABABDBCDAACD
HENI AFRIANI         CADCDCCCADABBACABCDABCDBACBBBDCBACCDBCAAAACBCDCACD
SRI SUHESTI NINGSIH  CADCDDCDADABBACABCDABCDBACBABDCBACCBBCABAACBCDABCD
HARTONO ISWANTO      CADBDCBDCDABBACABCDBBCDBDCBDBDADACCDBCABABDBCDABCD

2. Data di atas disimpan pada file: Tes2.txt
3. Membuat control file di file lain (membuat file baru)
   seperti berikut.

&INST                   (Permulaan program)
TITLE= ”TES EVALUASI”   (Judul print-out)
DATA=TES2.TXT           (Nama data file)
N1=50                   (Jumlah butir soal)
CATEGS=4                (Jumlah option)
NAME1=1                 (Kolom pertama siswa)
ITEM1=23                (Kolom pertama soal)
XWIDE=1                 (Keluasan data 1 karakter)
CODE=ABCD               (Kode data)
KEY1=CADBDCBCCDABAACABCDABCDBDCDABDABACCDBCABABDBCBABCD(Kunci jawaban)
ASCII=Y                   (Menggunakan asci)
MPROX=20                  (Maksimum jumlah prox)
MUCON=50                  (Maksimum jumlah ucon)
REALSE=Y                  (Inflasi SE untuk misfit)
STBIAS=Y                  (Koreksi untuk estimasi bias)
TABLES=101001000101110000000000 (Tabel yang dikehendaki)
&END                      (Akhir variable control)
S01                       (Nama soal atau bisa juga diketik
S02                        materi yang ditanyakan dan
S03                        kompetensi yang diujikan)
S04
S05
S06
S07
S08
S09
S10
S11
S12
S13
S14
S15
S16
S17
S18
S19
S20
S21
S22
S23
S24
S25
S26
S27
S28
S29
S30
S31
S32
S33
S34
S35
S36
S37
S38
S39
S40
S41
S42
S43
S44
S45
S46
S47
S48
S49
S50
ENDNAMES                  (Akhir nama soal)

4. Data di atas disimpan pada file: Tes3.txt
5. Menggunakan program Bigsteps dengan Mengklik icon Bigsteps.


 

Please enter name of BIGSTEPS control file: Tes3.TXT
Please enter name of report output file: Hsltes3.doc
ANALYSIS COMPLETED OF TES3.TXT


1. Double klik file program iteman
2. Tulislah file data: contoh TIK.TXT, kemudian tekan enter
3. Ketik nama file hasil analisis, contoh TIK.hsl, kemudian tekan enter
4. Ketik ‘Y’, kemudian tekan enter
5. Ketik file untuk total skor siswa, contoh TIK.SKR, kemudian tekan enter.
6. Analisis selesai







3. Intrepretasi Hasil
Contoh hasil analisis secara klasik dengan mempergunakan program ITEMAN.

MicroCat (tm) Testing System
Copyright (c) 1982, 1984, 1986 by Assessment Systems Corporation
Iteman and Test Analysis Program -- ITEMAN (tm) Version 3.00
Iteman analysis for data from file: ......

                            Iteman Statistics                                        Alternative Statistics
      --------------------------------------------------------   ---------------------------------------------------
       Seq.  Scale  Prop.                     Point                          Prop.                         Point  
       No.   Item   Correct    Biser     Biser.            Alt.     Endorsing    Biser.      Biser.        Key
      ------  ------   ----------  ---------   -----------    -------   --------------   -------  ------------   ---------
        1       0-1      0.659     0.571       0.442         1         0.659            0.571       0.442           *
                                                                             2         0.122           -0.456     -0.282
                                                                             3         0.098           -0.126     -0.073
                                                                             4         0.122           -0.473     -0.292
                                                                        Other       0.000           -9.000     -9.000

        3       0-3       0.171     0.026      0.017           1         0.146           -0.291     -0.189
                                                                              2         0.268           -0.088     -0.065
                           CHECK THE KEY                    3         0.171            0.026       0.017           *
               3 was specified, 4 works better              4         0.951            0.229       0.181           ?
                                                                          Other      0.000           -9.000      -9.000



            Di samping data di atas, program Iteman memberikan informasi akhir secara keseluruhan misalnya seperti berikut ini.
            Scale Statistics
                -------------------
                N of Items                   50
                N of Examination       41
                Mean                       27.585
                Variance                  50.731
                Std. Dev.                    7.123
                Skew                          0.266
                Kurtosis                   -0.424
                Minimum                 12.000
                Maximum                                42.000
                Median                    27.000
                Alpha                         0.854
                SEM                          2.719
                Mean P                      0.552
                Mean Item-Tot           0.347
                Mean Biserial             0.495

            Data di atas memberikan informasi bahwa reliabilitas tes (Alpha) itu adalah 0,854. Angka ini cukup tinggi untuk menunjukkan keajekan dari soal itu sebagi perangkat tes yang baku, walaupun tingkat kesalahan pengukurannya juga tinggi (SEM) yaitu 2.719. Rata-rata tingkat kesukaran soalnya (Mean P) sedang (0,552) dan rata-rata daya pembedanya masih kurang (mean biserial) yaitu 0,495.
            Soal nomor 1 tergolong soal yang baik karena memiliki daya beda 0,442 dan tingkat kesukaran sedang (0,659). Soal nomor 3 tergolong soal yang sukar (0,171) dan memiliki daya beda yang rendah (0,017). Kunci jawaban soal ini adalah c, sedangkan siswa banyak yang menjawab pilihan jawaban d (0,951). Kemungkinan besar bahwa soal ini adalah salah kunci jawabannya. Oleh karena itu, soal ini perlu dicek kembali kunci jawabannya.
            Hasil analisis secara moderen yaitu teori respon butir untuk satu parameter dengan mempergunakan program BIGSTEPS adalah seperti berikut ini.


 

                        SUMMARY OF  29 MEASURED (NON-EXTREME) PERSONS
    =============================================================
                     SCORE  COUNT  MEASURE   ERROR   MNSQ  INFIT   MNSQ OUTF
      ----------------------------------------------------------------------------------------------------
      MEAN     11,9         19,0            0,67            0,61        0,96     -0,1       1,19       
      SD             2,9           0,0            0,88            0,12        0,19       0,8       0,72
   =============================================================
     
                        SUMMARY OF  29 MEASURED (NON-EXTREME) ITEMS
    =============================================================
                     SCORE  COUNT  MEASURE   ERROR   MNSQ  INFIT   MNSQ OUTF
      ----------------------------------------------------------------------------------------------------
      MEAN     18,1         29,0            0,00            0,49        1,01     -0,2       1,19       
      SD             5,7           0,0            1,11            0,10        0,21       1,2       0,81
   =============================================================

Keterangan: kemampuan siswa (measure 0,67) lebih besar daripada kemampuan soal/tes (measure 0,00)
                             ITEM STATISTICS: MEASURE ORDER
==============================================================
NUM SCORE COUNT MEASURE INF.SE MNSQ INFIT MNSQ OUTFT PTBIS NAM
---------------------------------------------------------------------------------------------------------
10            3          29              3,00          0,71      1,38     0,9     4,01      2,7      -0,53   S10
15           15         29              0,56           0,39     1,03      0,3    1,12      0,7        0,22   S15
  1           26         29            -1,67           0,60      1,00     0,2    0,78     -0,1        0,16   S01
dst.
==============================================================
Keterangan: Soal diterima/baik bila: (a) PTBIS tidak negatif atau >0,2
                                                           (b) OUTFIT < 2,00
                     Jadi soal yang fit dengan model adalah soal nomor 15.
  1. Statistik butir soal:
    untuk tes yang teridiri dari butir-butir soal yang bersifat dikotomi
    misalnya pilihan ganda, statistic berikut adalah output dari setiap butir
    soal yang dianalisis:
    • Seq.No: adalah nomor urut butir soal dalam file data
    • Scala item: nomor urut butir soal dalam tes
    • Prop.Correct: proporsi siswa yang menjawab benar butir tes. (indeks
    tingkat kesukaran soal secara klasikal),
    Catatan: p>0,7 (mudah); 0,3 ≤p≤0,70 (sedang) dan p < 0,3 (sukar)
    • Biser : indeks daya pembeda soal (koef.korelasi biserial). Nilai positif
    artinya peserta tes yang menjawab benar butir soal mempunyai skor
    relative tinggi dalam tes tersebut. Sebaliknya nilai negative
    menunjukkan bahwa peserta tes yang menjawab benar butir tes memperoleh
    skor tes yang relative lebih rendah dalam tes.
    • Point biserial: juga indeks daya pembeda soal (koef. point biserial)
    Catatan: Daya pembeda soal berfungsi untuk menentukan dapat tidaknya
    suatu soal membedakan kelompok dalam aspek yang diukur dengan perbedaan
    yang ada pada kelompok itu. Tujuan dari pengujian daya pembeda adalah
    untuk melihat kemampuan butir soal dalam membedakan antara peserta didik
    yang berkemanpuan tinggi dengan peserta didik yang berkemampuan rendah.
    b. Statistik tes
    • N of Items : jumlah btir soal dalam tes yang dianalisis.
    • N of Examines : Jumlah peserta tes
    • Mean : Skor/rerata peserta tes
    • Variance : varian dari dsitribusi skor peserta tes yang memberikan
    gambaran tentang sebaran skor peserta tes.
    • Std.Deviasi : Deviasi standar dari distribusi skor tes (akar dari
    varians)
    • Skew : kemiringan
    • Kurtosis : puncak distribusi
    • Minimum :skor terndah
    • Maximum : skor tertinggi
    • Median : skor tengah
    • Aplha : homogenitas tes
    • SEM : kesalahan pengukuran standar
    • Mean P : rerata tingkat kesukaran
    • Mean item tot : rerata indeks daya pembeda (koef point biserial)
    • Mean biserial : rerata indek daya pembeda (koef. Biserial)
    • Scale intercorelation : indeks korelasi antara skor-skor peserta tes
E. Hasil Analisis Soal TUC menggunakan Iteman
            Analisis tersebut adalah hasil mencoba program iteman dengan jumlah soal 60 butir soal dengan jumlah 40 siswa, bentuk pilihan ganda dengan 4 option  data terdapat pada lampiran makalah ini adapun hasilnya adalah seperti dalam rekapitulasi hasil analisis iteman sebagai berikut:
NO
KRITERIA TK
KRITERIA  DB
KRITERIA
KET
Sk
Sd
Md
baik
Ter/rev
Rev
Tolak
Kunci
Pgch/Y/T
1


V



V
-
- / T
a.b.d
2
V


V



+
+ / T
d?
3
V





V
-
- / T
d?
4

V




V
+
+ / T
a
5

V



V

+
+-/T
a.b
6
V





V
-
+-/T
a.c ?
7
V





V
-
+-/T
a.d ?
8
V





V
-
+-/T
d ?
9

V




V
-
+-/Y
?
10
V





V
+
+-/Y
?
11
V





V
-
+-/Y
?
12
V





V
+
+-/Y
?
13
V





V
+
+/Y
?
14
V



V


+
+-/Y

15
V





V
-
+-/T
a ?
16
V





V
-
+-/T
b ?
17
V


V



+
+-/T
d ?
18
V



V


+
+-/Y
?
19
V




V

+
+-/Y

20
V




V

+
+-/Y

21
V


V



+
+-/Y
?
22
V




V

+
+-/Y
?
23
V




V

+
+/Y
?
24
V





V
+
+-/Y
?
25
V





V
+
+-/T
d ?
26


V
V



+
+-/T
a
27

V


V


+
+-/T
c.d
28


V
V



+
-/T
c.d
29
V



V


+
+-/T
d ?
30
V





V
-
+-/T
b.d.?
31
V





V
-
+-/T
b.d ?
32
V





V
-
+-/T
b ?
33
V





V
+
+/Y
?
34
V





V
-
+-/T
abc ?
35


V
V



+
-/T
a.d
36

V

V



+
+-/T
d
37
V





V
-
+-/T
a.b ?
38
V





V
+
+/T
D
39
V





V
-
+-/T
d ?
40
V



V


+
+-/T
a ?
41


V
V



+
+-/T
c
42

V


V


+
+./Y

43
V





V
-
+-/T
c ?
44
V


V



+
+/Y

45
V


V



+
+-/Y

46
V





V
+
+-/T
c?
47
V



V


+
+-/T
a
48
V





V
-
+-/T
d ?
49
V



V


+
+-/T
a.c
50


V
V



+
-/T
a.b
51
V





V
-
+-/Y
?
52
V





V
-
+-/Y
?
53

V



V

+
+-/T
c.d
54
V


V



+
+-/Y

55


V
V



+
+-/T
c.d
56
V



V


+
+-/Y

57

V


V


+
+-/T
a
58
V





V
-
+-/T
a.d ?
59
V




V

+
+/Y
?
60

V

V



+
-/T
b

KRITERIA TK
KRITERIA  DB
KRITERIA


Sk
Sd
Md
baik
Ter/rev
Rev
Tolak
Kunci
Pgch/Y/T

JML
44
9
7
14
10
7
29



            Dari tabel diatas menurut tingkat kesukarannya menunjukkan soal sukar sebanyak 44, soal sedang sebanyak 9 dai dan soal mudah sebanyak 7. Sedangkan ditinjau dari daya bedanya soal baik sebanyak 14 soal, soal diterima tetapi ada revisi sebanyak 10, soal direvisi sebanyan 7 dan soal ditolak sebanyak 29. Untuk detailnya dapat dilihat satu persatu dalam table dengan contoh cara membaca tabel di bawah ini.
Keterangan cara membaca tabel:
            Soal nomor 1 tergolong soal sukar karena TK = 0,000. Soal tersebut ditolak karena hanya memiliki DB = -9,000. Kunci jawaban seharusnya bernilai positif tetapi kunci jawaban bernilai negatif.  Sedangkan pengecoh tidak berfungsi karena seharusnya minimal sebesar 0,025.
            Soal nomor 2 tergolong soal sukar karena TK = 0,024. Soal tersebut tergolong baik karena DB = 0,446. Kunci jawaban bernilai positif. Pengecoh seharusnya bernilai negatif  tetapi semua pengecoh bernilai positif. Pengecoh pada option b tidak berfungsi karena bernilai 0,024 sehingga belum mencapai 0,025.
            Soal nomor  20 tergolong soal sukar karena TK 0,244. Soal tersebut direkomendasikan untuk direvisi karena DB = 0,222. Kunci jawaban sudah bernilai positif tetapi optionnya adan yang bernilai positif yaitu pada option b dan c. Pengecoh sudah berfungsi dengan baik karena semua pengecoh bernilai diatas 0,025.  Option b = 0,244 dan option c = 0,366.
            Soal nomor 35 termasuk soal mudah karena TK = 0,829. Soal tersebut direkomendasikan soal baik karena DB = 0,725. Kunci jawaban bernilai positif pada option c dan semua pengecoh bernilai negatif. Pengecoh pada option a dan d kurang berfungsi dengan baik karena kurang dari 0,025.
            Soal nomor 60 tergolong soal sedang karena TK = 0,463. Soal tersebut dikategorikan soal baik karena DB = 0,477. Kunci jawaban sudah bernilai positif dan semua pengecoh bernilai negatif. Ada option yang kurang berfungsi sebagai pengecoh karena bernilai 0,000 sehingga kurang dari 0,025.
Hasil secara umum soal TUC tersebut adalah sebagai berikut:
  1. N of Items : jumlah butir soal dalam tes yang dianalisi sebanyak 60 butir soal.
  2.  N of Examines : Jumlah peserta tes sebanyak 40 siswa.
  3. Mean : Skor/rerata peserta tes sebesar 12,976.
  4. Variance : varian dari disitribusi skor peserta tes yang memberikan gambaran tentang sebaran skor peserta tes adalah sebesar 8,365.
  5. Standard.Deviasi : Simpangan baku dari distribusi skor tes (akar dari varians) sebesar 2,892.
  6. Skew : kemiringan sebesar -2,129.
  7. Kurtosis : puncak distribusi sebesar 7,822.
  8. Minimum :skor terendah adalah 0,000.
  9. Maximum : skor tertinggi adalah 17,000.
  10. Median : skor tengah adalah 13,000.
  11.  Aplha : homogenitas tes adalah 0,338.
  12.  SEM  (Standard Error Measurement): kesalahan pengukuran standard adalah 2,352.
  13. Mean P : rerata tingkat kesukaran adalah 0,216.
  14. Mean item Tot : rerata indeks daya pembeda (koef point biserial) adalah 0,173.
  15. Mean biserial : rerata indek daya pembeda (koef. Biserial) adalah 0,285







BAB III
PENUTUP
          Makalah yang berjudul Teori Tes Klasik disusun dalam rangka untuk memenuhi tugas menyusun makalah mata kuliah Teori Tes Klasik program studi Penelitian dan Evaluasi Pendidikan program Pascasarjana Universitas Sarjanawiyata Tamansiswa (UST) Yogyakarta. 
          Demikian, semoga makalah ini dapat memenuhi syarat untuk mendapatkan penilaian.


















DAFTAR PUSTAKA

Allen, MJ, & Yen, WM (2002). Introduction to Measurement Theory. Long Grove, IL: Waveland Press. Allen, MJ, & Yen, WM (2002):. Pengenalan Pengukuran untuk IL. Teori Long Grove, Tekan Waveland.
Novick, MR (1966) The axioms and principal results of classical test theory Journal of Mathematical Psychology Volume 3, Issue 1, February 1966, Pages 1-18 Novick, MR (1966) The aksioma dan hasil utama dari teori klasik uji Jurnal Psikologi Matematika Volume 3, Edisi 1, Februari 1966, Halaman 1-18
Lord, FM & Novick, MR (1968). Statistical theories of mental test scores. Reading MA: Addison-Welsley Publishing Company Tuhan, FM & Novick, MR (1968): Statistik. Teori uji mental MA skor. Membaca Addison-Welsley Publishing Company
Safari, 2005. Paparan Penulisan Soal Berdasarkan Kurikulum 2004. Pusat Penilaian Pendidikan, Balitbang Diknas, Depdiknas.
ttp://en.wikipedia.org/wiki/Classical_test_theory
http://translate.google.co.id/translate?hl=id&langpair=en|id&u=http://www2.hawaii.edu/~daniel/irtctt.pdf



Tidak ada komentar:

Posting Komentar