Kesimpulan
Dasar |
Validitas |
Reliabilitas |
Definisi |
Validitas mengacu pada kebenaran hasil yang ada di tangan. |
Reliabilitas mengacu pada konsistensi hasil. |
Hubungan |
Hasil yang valid belum tentu dapat reliabel. |
Demikian pula, hasil yang reliabel belum tentu valid. |
Mudah Ditentukan |
Validitas sulit diukur karena mengacu pada kebenaran hasilnya. |
Reliabilitas lebih mudah untuk ditentukan karena yang penting di sini adalah hasil dari hasilnya |
Jenis |
Validitas Kesimpulan, Validitas internal, Validitas eksternal, Validitas konstruk |
Reliabilitas dihitung dengan tes dan hanya konsistensi internal. |
Validitas dan reliabilitas menganggap kedua istilah tersebut identik tetapi sebenarnya berbeda karena tingkat akurasi dan kebenaran (validitas) dan konsistensi hasil (reliabilitas). Hasilnya mungkin dapat diandalkan tetapi tidak valid dan sebaliknya.
VALIDITAS DAN RELIABILITAS
A. Validitas
1. Pengertian Validitas
Menurut Azwar (1986) Validitas berasal dari kata validity yang mempunyai arti
sejauh mana ketepatan dan kecermatan suatu alat ukur dalam melakukan fungsi
ukurnya.
Suatu skala atau instrumen pengukur dapat dikatakan
mempunyai validitas yang tinggi apabila instrumen tersebut menjalankan fungsi
ukurnya, atau memberikan hasil ukur yang sesuai dengan maksud dilakukannya
pengukuran tersebut. Sedangkan tes yang memiliki validitas rendah akan menghasilkan
data yang tidak relevan dengan tujuan pengukuran.
Terkandung di sini pengertian bahwa ketepatan validitas pada suatu alat ukur
tergantung pada kemampuan alat ukur tersebut mencapai tujuan pengukuran yang
dikehendaki dengan tepat. Suatu tes yang dimaksudkan untuk mengukur variabel A
dan kemudian memberikan hasil pengukuran mengenai variabel A, dikatakan sebagai
alat ukur yang memiliki validitas tinggi. Suatu tes yang dimaksudkan mengukur
variabel A akan tetapi menghasilkan data mengenai variabel A’ atau bahkan B,
dikatakan sebagai alat ukur yang memiliki validitas rendah untuk mengukur
variabel A dan tinggi validitasnya untuk mengukur variabel A’ atau B (Azwar
1986).
Sisi lain dari pengertian validitas adalah aspek kecermatan pengukuran. Suatu
alat ukur yang valid tidak hanya mampu menghasilkan data yang tepat akan tetapi
juga harus memberikan gambaran yang cermat mengenai data tersebut.
Cermat berarti bahwa pengukuran itu dapat memberikan gambran mengenai perbedaan
yang sekecil-kecilnya mengenai perbedaan yang satu dengan yang lain. Sebagai
contoh, dalam bidang pengukuran aspek fisik, bila kita hendak mengetahui berat
sebuah cincin emas maka kita harus menggunakan alat penimbang berat emas agar
hasil penimbangannya valid, yaitu tepat dan cermat. Sebuah alat penimbang badan
memang mengukur berat, akan tetapi tidaklah cukup cermat guna menimbang berat
cincin emas karena perbedaan berat yang sangat kecil pada berat emas itu tidak
akan terlihat pada alat ukur berat badan.
Menggunakan alat ukur yang dimaksudkan untuk mengukur suatu aspek tertentu akan
tetapi tidak dapat memberikan hasil ukur yang cermat dan teliti akan
menimbulkan kesalahan atau eror. Alat ukur yang valid akan memiliki tingkat
kesalahan yang kecil sehingga angka yang dihasilkannya dapat dipercaya sebagai
angka yang sebenarnya atau angka yang mendekati keadaan yang sebenarnya (Azwar
1986).
Pengertian validitas juga sangat erat berkaitan dengan tujuan pengukuran. Oleh
karena itu, tidak ada validitas yang berlaku umum untuk semua tujuan pengukuran.
Suatu alat ukur biasanya hanya merupakan ukuran yang valid untuk satu tujuan
yang spesifik. Dengan demikian, anggapan valid seperti dinyatakan dalam “alat
ukur ini valid” adalah kurang lengkap. Pernyataan valid tersebut harus diikuti
oleh keterangan yang menunjuk kepada tujuan (yaitu valid untuk mengukur apa),
serta valid bagi kelompok subjek yang mana? (Azwar 1986)
Pengertian validitas menurut Walizer (1987) adalah tingkaat kesesuaian antara
suatu batasan konseptual yang diberikan dengan bantuan operasional yang telah
dikembangkan.
Menurut Aritonang R. (2007) validitas suatu instrumen berkaitan dengan
kemampuan instrument itu untuk mengukur atu mengungkap karakteristik dari
variabel yang dimaksudkan untuk diukur. Instrumen yang dimaksudkan untuk mengukur
sikap konsumen terhadap suatu iklan, misalnya, harus dapat menghasilkan skor
sikap yang memang menunjukkan sikap konsumen terhadap iklan tersebut. Jadi,
jangan sampai hasil yang diperoleh adalah skor yang menunjukkan minat konsumen
terhadap iklan itu.
Validitas suatu instrumen banyak dijelaskan dalam konteks penelitian sosial
yang variabelnya tidak dapat diamati secara langsung, seperti sikap, minat,
persepsi, motivasi, dan lain sebagainya. Untuk mengukur variabel yang demikian
sulit, untuk mengembangkan instrumen yang memiliki validitas yang tinggi karena
karakteristik yang akan diukur dari variabel yang demikian tidak dapat
diobservasi secara langsung, tetapi hanya melalui indikator (petunjuk tak
langsung) tertentu. (Aritonang R. 2007)
Menurut Masri Singarimbun, validitas menunjukkan sejauh mana suatu alat
pengukur itu mengukur apa yang ingin diukur. Bila seseorang ingin mengukur
berat suatu benda, maka dia harus menggunakan timbangan. Timbangan adalah alat
pengukur yang valid bila dipakai untuk mengukur berat, karena timbangan memang
mengukur berat. Bila panjang sesuatu benda yang ingin diukur, maka dia harus
menggunakan meteran. Meteran adalah alat pengukur yang valid bila digunakan
untuk mengukur panjang, karena memang meteran mengukur panjang. Tetapi
timbangan bukanlah alat pengukur yang valid bilamana digunakan untuk mengukur
panjang.
Sekiranya penelliti menggunakan kuesioner di dalam pengumpulan data penelitian,
maka kuesioner yang disusunnya harus mengukur apa yang ingin diukurnya. Setelah
kuesioner tersebut tersusun dan teruji validitasnya, dalam praktek belum tentu
data yang dikumpulkan adalah data yang valid. Banyak hal-hal lain yang akan
mengurangi validitas data; misalnya apakah si pewawancara yang mengumpulkan
data betul-betul mengikuti petunjuk yang telah ditetapkan dalam kuesioner.
(Masri Singarimbun)
Menurut Suharsimi Arikunto, validitas adalah keadaan yang menggambarkan tingkat
instrumen bersangkutan yang mampu mengukur apa yang akan diukur.
Menurut Soetarlinah Sukadji, validitas adalah derajat yang menyatakan suatu tes
mengukur apa yang seharusnya diukur. Validitas suatu tes tidak begitu saja
melekat pada tes itu sendiri, tapi tergantung penggunaan dan subyeknya.
2. Jenis-jenis Validitas
Ebel (dalam Nazirz 1988) membagi validitas menjadi :
• Concurrent Validity adalah validitas yang berkenaan dengan hubungan antara
skor dengan kinerja.
• Construct Validity adalah validitas yang berkenaan dengan kualitas aspek
psikologis apa yang diukur oleh suatu pengukuran serta terdapat evaluasi bahwa
suatu konstruk tertentu dapat menyebabkan kinerja yang baik dalam pengukuran.
• Face Validity adalah validitas yang berhuubungan apa yang nampak dalam
mengukur sesuatu dan bukan terhadap apa yang seharusnya hendak diukur.
• Factorial Validity dari sebuah alat ukur adalah korelasi antara alat ukur
dengan faktor-faktor yang bersamaan dalam suatu kelompok atau ukuran-ukuran
perilaku lainnya, di mana validitas ini diperoleh dengan menggunakan teknik
analisis faktor.
• Empirical Validity adalah validitas yang berkenaan dengan hubungan antara
skor dengan suatu kriteria. Kriteria tersebut adalah ukuran yang bebas dan
langsung dengan apa yang ingin diramalkan oleh pengukuran.
• Intrinsic Validity adalah validitas yang berkenaan dengan penggunaan teknik
uji coba untuk memperoleh bukti kuantitatif dan objektif untuk mendukung bhwa
suatu alat ukur benar-benar mengukur apa yang seharusny diukur.
• Predictive Validity adalah validitas yang berkenaan dengan hubungan antara
skor suatu alat ukur dengan kinerj seorang di msa mendatang.
• Content Validity adalah validitas yang berkenaan dengan baik buruknya
sampling dari suatu populasi.
• Curricular Validity adalah validitas yang ditentukan dengan cara menilik isi
dari pengukuran dan menilai seberapa jauh pungukuran tersebut merupakan alat
ukur yang benar-benar mengukur aspek-aspek sesuai dengan tujuan instruksional.
Sementara itu, Kerlinger (1990) membagi validitas menjadi tiga yaitu:
• Content validity (Validitas isi) adalah validitas yang diperhitungkan melalui
pengujian terhadap isi alat ukur dengan analisis rasional. Pertanyaan yang
dicari jawabannya dalam validitas ini adalah “sejauh mana item-item dalam suatu
alat ukur mencakup keseluruhan kawasan isi objek yang hendak diukur oleh alat
ukur yang bersangkutan?” atau berhubungan dengan representasi dari keseluruhan
kawasan.
Validitas isi suatu instrumen berkaitan dengan kesesuaian antara karakteristik
dari variaabel yang dirumuskan pada definisi konseptual dan operasionalnya.
Apabila semua karakteristik variabel yang dirumuskan pada definisi
konseptualnya dapat diungkap melalui butir-butir suatu instrument, maka
instrument itu dinyatakan memiliki validitas isi yang baik. Sayangnya, hal itu
mungkin tidak akan pernah tercapai karena sulitnya untuk mendefinisikan keseluruhan
karakteristik itu. Selain itu, dari seluruh karakteristik yang dirumuskan pada
definisi konseptual suatu variabel seringkali sulit untuk mengembangkan
butir-butir yang valid untuk mengungkap atau mengukurnya.
Validitas isi dapat dianalisis dengan cara memperhatikan penampakan luar dari
instrument dan dengan menganalisis kesesuaian butir-butirnya dengan
karakteristik yang dirumuskan pada definisi konseptual variabel yang diukur.
Validitas yang dianalisis dengan memperhatikan penampilan luar instrument itu
disebut validitas tampang (face validity). Validitas tampang dievaluasi dengan
membaca dan menyelidiki butir-butir instrument serta sekaligus membandingkannya
dengan definisi konseptual mengenai variabel yang akan diukur. Validitas yang
dianalisis dengan memperhatikan kerepresentativan butir-butir instrument
disebut validitas penyampelan (sampling validity) atau kuikulum (curriculum
validity). Validitas tampang maupun penyampelan disebut juga sebagai validitas
teoritis karena penganalisisannya lazim dilakukan tanpa didasarkan pada data
empiris. Alat yang digunakan untuk menganalisis validitas itu adalah logika
dari orang yang menganalisisnya.
Menurut Saifuddin Azwar, validitas isi merupakan validitas yang diestimasi
lewat pengujian terhadap isi tes dengan analisis rasional atau lewat
professional judgement. Pertanyaan yang dicari jawabannya dalam validitas ini
adalah ”sejauh mana item-item dalam tes mencakup keseluruhan kawasan ini
(dengan catatan tidak keluar dari batasan tujuan ukur) objek yang hendak
diukur” atau ”sejauh mana isi tes mencerminkan ciri atribut yang hendak
diukur”.
Selanjutnya, validitas isi terbagi lagi menjadi dua tipe (Saifuddin Azwar),
yaitu:
1. Face Validity (Validitas Muka) adalah tipe validitas yang paling rendah
signifikansinya karena hanya didasarkan pada penilaian selintas mengenai isi
alat ukur. Apabila isi alat ukur telah tampak sesuai dengan apa yang ingin
diukur maka dapat dikatakan maka validitas muka telah terpenuhi.
2. Logical Validity (Validitas Logis) disebut juga sebagai Validitas Sampling
(Sampling Validity) adalah validitas yang menunjuk pada sejauh mana isi alat
ukur merupakan representasi dari aspek yang hendak diukur.
Validitas logis sangat penting peranannya dalam penyusunan prestasi dan
penyusunan skala, yaitu dengan memanfaatkan blue-print atu table spesifikasi.
• Construct validity (Validitas konstruk) adalah tipe validitas yang
menunjukkan sejauh mana alat ukur mengungkap suatu trait atau konstruk teoritis
yang hendak diukurnya. (Allen & Yen, dalam Azwar 1986).
Pengujian validitas konstruk merupakan prosesyang terus berlanjut sejalan
dengan perkembangan konsep mengenai trait yang diukur.
Menurut Saifuddin Azwar, validitas konstruk adalah seberapa besar derajat tes
mengukur hipotesis yang dikehendaki untuk diukur. Konstruk adalah perangai yang
tidak dapat diamati, yang menjelaskan perilaku. Menguji validitas konstruk
mencakup uji hipotesis yang dideduksi dari suatu teori yang mengajukan konstruk
tersebut.
• Criterion-related validity (Validitas berdasar kriteria). Validitas ini
menghendaki tersedianya criteria eksternal yang dapat dijadikan dasar pengujian
skor alat ukur. Suatu kriteria adalah variabel perilaku yang akan diprediksi
oleh skor alat ukur.
Dilihat dari segi waktu untuk memperoleh skor kriterianya, prosedur validasi
berdasar kriteria menghasilkan dua macam validitas (Saifuddinn Azwar), yaitu:
1. Validitas Prediktif. Validitas Prediktif sangat penting artinya bila alat
ukur dimaksudkan untuk berfungsi sebagai predictor bagi kinerja di masa yang
akan datang. Contoh situasi yang menghendaki adanya prediksi kinerja ini antara
lain adalah dalam bimbingan karir; seleksi mahasiswa baru, penempatan karyawan,
dan semacamnya.
Menurut Saifuddin Azwar, validitas prediktif adalah seberapa besar derajat tes
berhasil memprediksi kesuksesan seseorang pada situasi yang akan datang.
Validitas prediktif ditentukan dengan mengungkapkan hubungan antara skor tes
dengan hasil tes atau ukuran lain kesuksesan dalam satu situasi sasaran.
2. Validitas Konkuren. Apabila skor alat ukur dan skor kriterianya dapat
diperoleh dalam waktu yang sama, maka korelasi antara kedua skor termaksud
merupakan koefisien validitas konkuren.
Menurut Saifuddin Azwar, validitas ini menunjukkan seberapa besar derajat skor
tes berkorelasi dengan skor yang diperoleh dari tes lain yang sudah mantap,
bila disajikan pada saat yang sama, atau dibandingkan dengan criteria lain yang
valid yang diperoleh pada saat yang sama.
Asosiasi Psikologi Amerika (APA) (1974; dalam Anastasia, 1982) membedakan tiga
tipe validitas, yaitu validitas isi, yang dikaitkan dengan criteria, dan
konnstrak. Ketiga tipe validitas tersebut dapat diuji dengan dan atau tanpa
menggunakan instrument yang telah teruji validitas maupun reabilitasnya.
B. Reliabilitas
1. Pengertian Reliabilitas
Walizer (1987) menyebutkan pengertian Reliability (Reliabilitas) adalah
keajegan pengukuran.
Menurut John M. Echols dan Hasan Shadily (2003: 475) reliabilitas adalah hal
yang dapat dipercaya. Popham (1995: 21) menyatakan bahwa reliabilitas adalah
"...the degree of which test score are free from error measurement"
Menurut Masri Singarimbun, realibilitas adalah indeks yang menunjukkan sejauh
mana suatu alat ukur dapat dipercaya atau dapat diandalkan. Bila suatu alat
pengukur dipakai dua kali – untuk mengukur gejala yang sama dan hasil
pengukuran yang diperoleh relative konsisten, maka alat pengukur tersebut
reliable. Dengan kata lain, realibitas menunjukkan konsistensi suatu alat
pengukur di dalam pengukur gejala yang sama.
Menurut Brennan (2001: 295) reliabilitas merupakan karakteristik skor, bukan
tentang tes ataupun bentuk tes.
Menurut Sumadi Suryabrata (2004: 28) reliabilitas menunjukkan sejauhmana hasil
pengukuran dengan alat tersebut dapat dipercaya. Hasil pengukuran harus
reliabel dalam artian harus memiliki tingkat konsistensi dan kemantapan.
Dalam pandangan Aiken (1987: 42) sebuah tes dikatakan reliabel jika skor yang
diperoleh oleh peserta relatif sama meskipun dilakukan pengukuran
berulang-ulang.
Dengan demikian, keandalan sebuah alat ukur dapat dilihat dari dua petunjuk
yaitu kesalahan baku pengukuran dan koefisien reliabilitas. Kedua statistik
tersebut masing-masing memiliki kelebihan dan keterbatasan (Feldt &
Brennan, 1989: 105)
Reliabilitas, atau keandalan, adalah konsistensi dari serangkaian pengukuran
atau serangkaian alat ukur. Hal tersebut bisa berupa pengukuran dari alat ukur
yang sama (tes dengan tes ulang) akan memberikan hasil yang sama, atau untuk
pengukuran yang lebih subjektif, apakah dua orang penilai memberikan skor yang
mirip (reliabilitas antar penilai). Reliabilitas tidak sama dengan validitas.
Artinya pengukuran yang dapat diandalkan akan mengukur secara konsisten, tapi
belum tentu mengukur apa yang seharusnya diukur.
Dalam penelitian, reliabilitas adalah sejauh mana pengukuran dari suatu tes
tetap konsisten setelah dilakukan berulang-ulang terhadap subjek dan dalam
kondisi yang sama. Penelitian dianggap dapat diandalkan bila memberikan hasil
yang konsisten untuk pengukuran yang sama. Tidak bisa diandalkan bila
pengukuran yang berulang itu memberikan hasil yang berbeda-beda.
Pengukuran reliabilitas dapat dilakukan dengan menggunakan berbagai alat
statistik (Feldt & Brennan, 1989: 105)
Berdasarkan sejarah, reliabilitas sebuah instrumen dapat dihitung melalui dua
cara yaitu kesalahan baku pengukuran dan koefisien reliabilitas (Feldt &
Brennan: 105). Kedua statistik di atas memiliki keterbatasannya masing-masing.
Kesalahan pengukuran merupakan rangkuman inkonsistensi peserta tes dalam
unit-unit skala skor sedangkan koefisien reliabilitas merupakan kuantifikasi
reliabilitas dengan merangkum konsistensi (atau inkonsistensi) diantara
beberapa kesalahan pengukuran.
Dalam kerangka teori tes klasik, suatu tes dapat dikatakan memiliki
reliabilitas yang tinggi apabila skor tampak tes tersebut berkorelasi tinggi
dengan skor murninya sendiri. Interpretasi lainnya adalah seberapa tinggi
korelasi antara skor tampak pada dua tes yang pararel. (Saifuddin Azwar, 2006:
29). Reliabilitas menurut Ross E. Traub (1994: 38) yang disimbolkan oleh dapat
didefinisikan sebagai rasio antara varian skor murni dan varian skor tampak .
Secara matematis teori di atas dapat ditulis :
Reliabilitas alat ukur tidak dapat diketahui dengan pasti tetapi dapat
diperkirakan. Dalam mengestimasi reliabilitas alat ukur, ada tiga cara yang
sering digunakan yaitu (1) pendekatan tes ulang, (2) pendekatan dengan tes
pararel dan (3) pendekatan satu kali pengukuran.
Pendekatan tes ulang merupakan pemberian perangkat tes yang sama terhadap
sekelompok subjek sebanyak dua kali dengan selang waktu yang berbeda. Asumsinya
adalah bahwa skor yang dihasilkan oleh tes yang sama akan menghasilkan skor
tampak yang relatif sama. Estimasi dengan pendekatan tes ulang akan
menghasilkan koefisien stabilitas. Untuk memperoleh koefisien reliabilitas
melalui pendekatan tes ulang dapat dilakukan dengan menghitung koefisien
korelasi linear antara distribusi skor subyek pada pemberian tes pertama dengan
skor subyek pada pemberian tes kedua. Pendekatan tes ulang sangat sesuai untuk
mengukur ketrampilan terutama ketrampilan fisik.
Misalnya seorang guru hendak melihat reliabilitas tes yang telah dibuatnya.
Setelah melakukan dua kali pengukuran didapatkan skor tes sebagai berikut:
Koefisien reliabilitas test di atas dapat dihitung dengan menggunakan formula
korelasi produk momen dari Pearson sebagai berikut:
Dengan demikian, korelasi sebesar 0,954 menggambarkan bahwa reliabilitas tes
cukup tinggi.
Salah satu kelemahan mendasar dari teknik test-retest adalah carry-over effect.
Masalah ini disebabkan oleh adanya kemungkinan pada test yang kedua dipengaruhi
oleh test pertama. Misalnya, jika peserta tes masih ingat dengan soal-soal dan
bahkan jawaban ketika dilakukan test pertama. Hal ini dapat meningkatkan
korelasi serta overestimasi terhadap PXX’. Ross E. Traub (1994: 38)
2. Jenis-jenis Reliabilitas
Walizer (1987) menyebutkan bahwa ada dua cara umum untuk mengukur reliabilitas,
yaitu:
1. Relibilitas stabilitas. Menyangkut usaha memperoleh nilai yang sama atau
serupa untuk setiap orang atau setiap unit yang diukur setiap saat anda
mengukurnya. Reliabilitas ini menyangkut penggunaan indicator yang sama,
definisi operasional, dan prosedur pengumpulan data setiap saat, dan
mengukurnya pada waktu yang berbeda. Untuk dapat memperoleh reliabilitas
stabilitas setiap kali unit diukur skornya haruslah sama atau hampir sama.
2. Reliabilitas ekivalen. Menyangkut usaha memperoleh nilai relatif yang sama
dengan jenis ukuran yang berbeda pada waktu yang sama. Definisi konseptual yang
dipakai sama tetapi dengan satu atau lebih indicator yang berbeda,
batasan-batasan operasional, paeralatan pengumpulan data, dan / atau
pengamat-pengamat.
Menguji reliabilitas dengan menggunakan ukuran ekivalen pada waktu yang sama
bias menempuh beberapa bentuk. Bentuk yang paling umum disebut teknik
belah-tengah. Cara ini seringkali dipakai dalam survai.Apabila satu rangkaian
pertanyaan yang mengukur satu variable dimasukkan dalam kuesioner, maka
pertanyaan-pertanyaan tersebut dibagi dua bagian persis lewat cara tertentu.
(Pengacakan atau pengubahan sering digunakan untuk teknik belah tengah ini.)
Hasil masing-masing bagian pertanyaan diringkas ke dalam skor, lalu skor
masing-masing bagian tersebiut dibandingkan. Apabila dalam skor kemudian skor
masing-masing bagian tersebut dibandingkan. Apabila kedua skor itu relatif
sama, dicapailah reliabilitas belah tengah.
Reliabilitas ekivalen dapat juga diukur dengan menggunakan teknik pengukuan
yang berbeda. Kecemasan misalnya, telah diukur dengan laporan pulsa. Skor-skor
relatif dari satu indikator macam ini haruslah sesuai dengan skor yang lain.
Jadi bila seorang subyek nampak cemas pada ”ukuran gelisah” orang tersebut
haruslah menunjukkan tingkatan kecermatan relatif yang sama bila tekanan
darahnya yang diukur.
3. Metode pengujian reliabilitas
Tiga tehnik pengujian realibilitas instrument antara lain :
a. Teknik Paralel (Paralel Form atau Alternate Form)
Teknik paralel disebut juga tenik ”double test double trial”. Sejak awal
peneliti harus sudah menyusun dua perangkat instrument yang parallel
(ekuivalen), yaitu dua buah instrument yang disusun berdasarkan satu buah
kisi-kisi. Setiap butir soal dari instrument yang satu selalu harus dapat
dicarikan pasangannya dari instrumen kedua. Kedua instrumen tersebut
diujicobakan semua. Sesudah kedua uji coba terlaksana, maka hasil instrumen
tersebut dihitung korelasinya dengan menggunakan rumus product moment (korelasi
Pearson).
b. Teknik Ulang (Test Re-test)
Disebut juga teknik ”single test double trial”. Menggunakan sebuah instrument,
namun dites dua kali. Hasil atau skor pertama dan kedua kemudian dikorelasikan
untuk mengetahui besarnya indeks reliabilitas.Teknik perhitungan yang digunakan
sama dengan yang digunakan pada teknik pertama yaitu rumus korelasi Pearson.
Menurut Saifuddin Azwar, realibilitas tes-retest adalah seberapa besat derajat
skor tes konsisten dari waktu ke waktu. Realibilitas diukur dengan menentukan
hubungan antara skor hasil penyajian tes yang sama kepada kelompok yang sama,
pada waktu yang berbeda.
Metode pengujian reliabilitas stabilitas yang paling umum dipakai adalah metode
pengujian tes-kembali (test-retest). Metode test-retest menggunakan ukuran atau
“test” yang sama untuk variable tertentu pada satu saat pengukuran yang diulang
lagi pada saat yang lain. Cara lain untuk menunjukkan reliabilitas stabilitas,
bila kita menggunakan survai, adalah memasukkan pertanyaan yang sama di dua
bagian yang berbeda dari kuesioner atau wawancara. Misalnya the Minnesota
Multiphasic Personality Inventory (MPPI) mengecek reliabilitas test-retest
dalam satu kuesionernya dengan mengulang pertanyaan tertentu di bagian-bagian
yang berbeda dari kuesioner yang panjang.
Kesulitan terbesar untuk menunjukkan reliabilitas stabilitas adalah membuat
asumsi bahwa sifat/ variable yang akan diukur memang benar-benar bersifat
stabil sepanjang waktu. Karena kemungkinan besar tidak ada ukuran yang andal
dan sahih yang tersedia. Satu-satunya faktor yang dapat membuat asumsi-asumsi
ini adalah pengalaman, teori dan/atau putusdan terbaik. Dalam setiap kejadian,
asumsi ini selalu ditantang dan sulit rasanya mempertahankan asumsi tersebut
atas dasar pijakan yang obyektif.
c. Teknik Belah Dua (Split Halve Method)
Disebut juga tenik “single test single trial”. Peneliti boleh hanya memiliki
seperangkat instrument saja dan hanya diujicobakan satu kali, kemudian hasilnya
dianalisis, yaitu dengan cara membelah seluruh instrument menjadi dua sama
besar. Cara yang diambil untuk membelah soal bisa dengan membelah atas dasar
nomor ganjil-genap, atas dasar nomor awal-akhir, dan dengan cara undian.
Menurut Saifuddin Azwar, realibilitas ini diukur dengan menentukan hubungan
antara skor dua paruh yang ekuivalen suatu tes, yang disajikan kepada seluruh
kelompok pada suatu saat. Karena reliabilitas belah dua mewakili reliabilitas
hanya separuh tes yang sebenarnya, rumus Spearman-Brown dapat digunakan untuk
mengoreksi koefisien yang didapat.
Apa penyebab ketidakandalan?
Ada beberapa sumber ketidakandalan (unreliability), beberapa di antaranya telah
dituangkan. Satu sumber ketidakandalan yang terbesar adalah ketidaksahihan
(invalidity). Berikut ini adalah daftar periksa (check list) sumber-sumber yang
menyebabkannya (Walizer ,1987) :
1. Orang atau unit yang diukur mungkin telah berubah sejak pengukuran pertama
dan kedua. (Tentu saja perubahan dalam skor, haruslah ditafsirkan bukan sebagai
ketidakandalan.)
2. Selama wawancara unit yang sedang diukur berubah, karena:
a. Pewawancara memperoleh pengalaman
b. Kelelahan pewawancara
c. Subyek mengalami hal-hal yang menyebabkan penafsiran mereka terhadap
pertanyaan-pertanyaan berubah (sebagai kebalikan dari perubahan seharusnya dari
apa yang sedang diukur).
d. Kesalahan-kesalahan diperbuat.
3. Aspek situasi tempat pengukuran berlangsung mungkin berubah sejak pengukuran
pertama dan yang kedua. Hal-hal seperti waktu (pagi, siang, sore), tempat
berlangsungnya pengukuran, orang-orang yang berada dekat di sekitar yang
mungkin mempengaruhi respon mereka dan sebagainya mungkin berbeda.
4. Pertanyaan-pertanyaan mungkin mendua artinya, sehingga ditafsirkan secara
berbeda pada saat pengisian kuesioner yang berbeda.
5. Pengkode dan/atau pengamat mungkin membuat penafsiran sendiri-sendiri.
6. Apa yang nampak sebagai satu teknik ekivalen sebenarnya tidaklah demikian
karena pemilihan pembandingan yang kurang baik.
7. Terjadi kekeliruan dalam mencatat hasil pengamatan atau memberi
kode-kodenya.
8. Atau mungkin kombinasi penyebab-penyebab terdahulu.
Reliabel : Haruskah Ajeg? (Feldt & Brennan, 1989: 105)
Sering kita dengar baik dalam kuliah atau dalam ruang ujian, jawaban mahasiswa
terhadap pertanyaan "Apa yang dimaksud reliabilitas?" seperti ini :
"Taraf Kepercayaan, yaitu seberapa besar tes dapat dipercaya. Tes yang
reliabel akan menghasilkan skor yang relatif sama jika diteskan beberapa kali
pada subjek yang sama . Dengan kata lain seberapa ajeg sebuah tes jika diteskan
beberapa kali pada subjek yang sama di waktu yang berbeda."
Jika demikian adanya, maka secara logis, satu-satunya cara untuk mengestimasi
reliabilitas adalah dengan melakukan pengetesan paling tidak dua kali pada
sekelompok subjek yang sama. Tapi benarkah begitu?
Pada prakteknya kita mengenal paling tidak ada 3 pendekatan terhadap estimasi
reliabilitas. Dan orang yang memberikan jawaban seperti di atas juga memilih
metode estimasi reliabilitas yang hanya melakukan 1 kali administrasi tes. Jadi
mana tingkat keajegannya?
Baiklah, mungkin beberapa orang tidak terlalu peduli dengan hal ini. Yang
penting ada angka reliabilitasnya, habis perkara. Tapi ijinkan kami mencoba
berbagi pemikiran mengenai hal ini.
Kita mulai dari konsep reliabilitas dulu. Reliabilitas seperti yang sering
diucapkan atau ditulis di buku, memiliki arti tingkat kepercayaan. Kita coba
pilah kata ini menjadi Rely dan Ability atau dapat dipercaya. Tapi apa maksud
dari dapat dipercaya ini? Yang dimaksud dapat dipercaya disini adalah seberapa
besar kita bisa mempercayai hasil tes yang kita dapatkan, atau juga seberapa
besar tingkat kesalahan yang muncul ketika seseorang mengerjakan suatu tes.
Semakin besar tingkat kesalahan yang muncul ketika seseorang mengerjakan suatu
tes, hasil yang diperoleh dari tes tersebut makin tidak dapat dipercaya, makin
tidak reliabel.
Misalnya: seseorang dites (tes apa saja, karena reliabilitas tidak terlalu
peduli dengan isu materi yang diteskan) kemudian memperoleh hasil sebesar 100.
Nah jika tes tersebut reliabel, maka kita bisa yakin bahwa kapasitas orang
tersebut memang 100. Atau dengan kata lain, angka 100 itu diperoleh bukan
karena faktor lain selain kapasitas orang tersebut. Jika angka 100 ini
diperoleh lebih banyak karena faktor lain (faktor lain ini yang disebut error),
maka kita akan berkata bahwa tes tersebut tidak reliabel.
Konsep reliabilitas didasarkan pada asumsi bahwa dalam tiap pengetesan selalu
ada
§
X, skor yang kita peroleh dari hasil pengetesan (skor Tampak)
§
T, skor yang menggambarkan kapasitas seseorang yang sesungguhnya (skor Murni)
§
e, faktor lain selain kapasitas yang juga menyumbang terhadap perolehan X yang
disebut juga error.
Dan ketiganya terkait satu sama lain dalam persamaan seperti ini :
X = T + e
Ini dapat dibaca seperti berikut : dalam setiap pengetesan, hasil tes yang kita
peroleh merupakan fungsi penjumlahan dari skor Murni dan error. Tes dapat
dikatakan reliabel jika Tes menghasilkan error yang kecil, sehingga hasil tes
makin mencerminkan kapasitas yang sebenarnya (atau X = T ).
Lalu dari mana ide "keajegan" muncul?
Diasumsikan bahwa nilai T memiliki sifat ajeg dalam beberapa kali pengukuran
pada subjek yang sama. Tapi keajegan ini hanya ada dalam abstraksi teoretik
saja, karena keajegan yang dimaksud di sini adalah keajegan T jika memenuhi
syarat tertentu :
§
Tiap pengetesan bersifat saling independen, pengukuran pertama tidak
mempengaruhi pengukuran berikutnya. Jadi anggaplah seseorang dites lalu
dihipnotis untuk membuatnya lupa dengan jawaban dan soal yang telah diberikan.
§
Kapasitas orang itu sendiri belum berubah. Jadi keajegan ini hanya mungkin jika
setelah dites, orang ini dimasukkan dalam mesin waktu dan dikembalikan ke
keadaannya saat dites pertama kali.
Mustahil? Ya jelas! maka dari itu ide mengenai keajegan ini hanya ada dalam
abstraksi teoretik.
Namun demikian tentu saja kita tetap dapat mengestimasi reliabilitas dengan
cara melakukan tes berulang lalu mengkorelasikan hasil tes pertama dengan tes
kedua. Dengan mempertimbangkan beberapa kelemahan dan persyaratannya.
Pendekatan-Pendekatan Estimasi Reliabilitas (Feldt & Brennan, 1989: 105)
Dari beberapa asumsi yang mendasari pemikiran mengenai reliabilitas, kemudian
diturunkanlah beberapa pendekatan untuk mengestimasi reliabilitas.
§
Pendekatan Tes-Retes. Pendekatan ini mengestimasi reliabilitas tes dengan
melakukan tes ulang, kemudian mengkorelasikan hasil tes pertama dengan hasil
tes kedua. Hasil korelasi ini yang merupakan estimasi reliabilitasnya, sering
juga disebut sebagai koefisien stabilitas atau keajegan. Jadi definisi
reliabilitas =keajegan hanya berlaku untuk pendekatan ini. Tapi tentu saja
karena tidak mungkin memenuhi persyaratan di atas, pendekatan ini memiliki
beberapa kelemahan
o Hanya dapat diterapkan pada tes yang mengukur konstruk yang bersifat
cenderung ajeg, misalnya kepribadian.
o Estimasi reliabilitas akan dipengaruhi oleh adanya carry over effect.
Maksudnya, jika jarak pengetesan pertama dan kedua sangat dekat, maka subyek
akan cenderung mengingat jawaban yang diberikan pada pengetesan pertama. Ini
membuat makin besarnya kemungkinan subyek akan memberikan jawaban pada
pengetesan kedua yang cenderung sama dengan jawaban yang diberikan pada
pengetesan pertama.Hal ini akan menyebabkan overestimasi reliabilitas, tes
terkesan/ terlihat lebih reliabel daripada yang sebenarnya.
o Estimasi reliabilitas juga dipengaruhi adanya practice effect. Ini terjadi
ketika subyek, dalam rentang waktu antara tes pertama dan kedua, belajar atau
berlatih untuk meningkatkan kapasitasnya, ini terjadi khususnya dalam estimasi
reliabilitas tes performansi maksimal seperti tes prestasi. Practice effect
akan menyebabkan underestimasi reliabilitas, tes terkesan tidak ajeg karena
adanya pembelajaran, sehingga hasil tes kedua akan cenderung lebih baik dari
hasil tes pertama.
§
Pendekatan Tes Paralel, pendekatan ini mengestimasi reliabilitas dengan
menggunakan dua tes paralel, dua tes yang mengukur hal /konstruk yang sama,
kemudian mengkorelasikan hasil pengetesan dari tes pertama dengan hasil tes
paralelnya. Koefisien korelasi yang didapatkan disebut juga koefisien
ekuivalensi. Namun demikian pendekatan ini sangat jarang (kalaupun ada)
dilakukan karena sulitnya menghasilkan dua tes yang benar-benar paralel.
§
Pendekatan Konsistensi Internal, pendekatan ini mengestimasi reliabilitas
dengan membelah tes menjadi beberapa bagian, lalu "mengkorelasikan"
bagian-bagian tersebut. "Korelasi" di sini sebenarnya tidak
benar-benar mengkorelasikan bagian-bagian secara harafiah, tapi menggunakan
formula-formula yang dikembangkan untuk mengestimasi reliabilitasnya. Koefisien
yang diperoleh dinamai juga koefisien konsistensi internal. Pendekatan inilah
yang paling sering digunakan selama ini karena lebih praktis dan ekonomis. Meskipun
demikian pendekatan ini tidak dapat mengestimasi error yang diakibatkan oleh
keadaan temporer karena hanya dilakukan satu kali. Jadi pendekatan ini memang
bukan "jawaban terhadap segala masalah" dalam hal mengestimasi
reliabilitas.
Kesimpulan
Jadi, reliabilitas apakah sama dengan keajegan?
Jika kita melihat permasalahan ini dari kacamata asumsi yang mendasari
pemikiran reliabilitas di atas, maka reliabel = ajeg. tentu saja dengan
persyaratan yang mustahil untuk dipenuhi tadi.
Tapi jika dilihat dalam konteks aplikasinya, reliabilitas tidak selalu sama
dengan keajegan, tergantung dari pendekatan mana yang digunakan untuk
mengestimasinya.
Mungkin akan lebih aman jika kita menyebut reliabilitas sebagai "tingkat
kepercayaan, seberapa jauh error yang dihasilkan dari tes, dan seberapa jauh
hasil tes dapat dipercaya". (Feldt & Brennan, 1989: 105)