Açık Uçlu Maddelerde Farklı Yaklaşımlarla Elde Edilen Puanlayıcılar Arası Güvenirliğin Değerlendirilmesi

Neşe GÜLER, Gülşen TAŞDELEN TEKER
5.471 1.828

Öz


Bu araştırmada puanlayıcılar arası güvenirliğin belirlenmesinde kullanılabilecek dört farklı yaklaşım üzerinde durulmuştur: korelasyon, ortalamaların karşılaştırılması, uyuşma yüzdesi ve genellenebilirlik kuramı. Bu bağlamda 43 öğrencinin on açık uçlu maddeye verdikleri cevapların iki puanlayıcı tarafından puanlanmasıyla oluşturulan veri setine uygulanan yaklaşımlar ile elde edilen güvenirlik değerlerinin, değer aralıkları ve hesaplanma farklılıklarından dolayı farklılaştığı görülmüştür.  Çalışma kapsamında ele alınan yaklaşımlar ile elde edilen güvenirlik kestirimlerindeki en yüksek değer 0,90 olarak genellenebilirlik kuramı ile elde edilmiştir. Bu sonucun yanı sıra, hesaplanan basit korelasyonda yüksek düzeyde ve pozitif yönlü (0,74) bir ilişki ortaya çıkmıştır. Puanlayıcılar arası uyuşma yüzdesiyle kestirilen tam uyum % 58,9 olarak belirlenmiştir. Son olarak, maddeler ayrı ayrı incelendiğinde; puanlayıcıların ortalamaları arasında üç maddede anlamlı bir farklılık çıkmakla beraber genel ortalamada anlamlı bir fark çıkmamıştır. Araştırma kapsamında ele alınan yaklaşımlar içerisinde en karmaşık görünen genellenebilirlik kuramı olmasına rağmen, bu yöntemin pek çok hata kaynağını aynı anda ele alabilme özelliği, diğer yöntemlere göre bir avantaj olarak düşünülebilir. Bu sebeple, özellikle puanlayıcı güvenirliğinin belirlenmesinde kullanılması önerilebilir.


Anahtar kelimeler


puanlayıcılar arası güvenirlik, korelasyon, ortalama karşılaştırması, uyuşma yüzdesi, genellenebilirlik kuramı

Tam metin:

PDF


DOI: http://dx.doi.org/10.21031/epod.63041

Referanslar


Aiken, L. R. (2000). Psychological Testing and Assessment. Boston: Allyn and Bacon.

American Educational Research Association (AERA), American Psychological Association (APA) ve National Council on Measurement in Education (NCME). (2004). Standards for educational and psychological testing. Washington, DC: American Educational Research Association.

Anastasi, A. ve Urbina, S. (1997). Psychological Testing. Upper Saddle

River, N.J.: Prentice Hall.

Atılgan, H., Kan, A. ve Doğan, N. (2011). Eğitimde Ölçme ve Değerlendirme. 5. Baskı, Ankara: Anı Yayıncılık.

Atılgan, H. (2008). Using Generalizability theory to assess the score reliability of the Special Ability Selection Examinations for music education programs in higher education. International Journal of Research & Method in Education, Volume 31, Issue 1.

Atılgan, H. (2005). Genellenebilirlik Kuramı ve Puanlayıcılar Arası Güvenirlik için Örnek Bir Uygulama. Eğitim Bilimleri ve Uygulama, 4(7), 95-108.

Atmaz, G. (2009). Puanlama Yönergesi (Rubrik) Kullanılması Durumunda Puanlayıcı Güvenirliğinin İncelenmesi. Yayınlanmamış yüksek lisans tezi, Mersin Üniversitesi, Mersin.

Balcı, A. (2001) Sosyal Bilimlerde Araştırma: Yöntem, Yeti ve İlkeler, Ankara: Pegem Yayıncılık.

Baykul, Y. (2000) Eğitimde ve Psikolojide Ölçme: Klasik Test Teorisi ve Uygulaması. Ankara: ÖSYM Yayınları.

Brennan, R. L. (2001). Generalizability Theory. New-York: Springer-Verlag.

Brennan, R. L. (1992). Elements of generalizability theory. Iowa City, IA. American College Testing.

Büyüköztürk, Ş., Çokluk Bökeoğlu, Ö. ve Köklü, N. (2009). Sosyal Bilimler için İstatistik. Ankara: Pegem Akademi.

Cohen, J. (1960). A Coefficient of Agreement for Nominal Scales. Educational and Psychological Measurement, 20, 37-46.

Crocker, L. M. ve Algina, L. (1986). Introduction to Classical and Modern Test Theory. New York: Holt, Rinehart and Winson.

Cronbach, L. J., Gleser, G. C., Nanda, H. ve Rajaratnam, N. (1972). The Dependability of Behavioral Measurements: Theory of Generalizability for Scores and Profiles. New York: Wiley.

Çakıcı Eser, D. ve Gelbal, S. (2012). Genellenebilirlik Kuramı ve Lojistik Regresyona Dayalı Hesaplanan Puanlayıcılar Arası Tutarlığın Karşılaştırılması. Kastamonu Eğitim Dergisi. 21 (2),423-438.

Deliceoğlu, G. (2009). Futbol Yetilerine İlişkin Dereceleme Ölçeğinin Genellenebilirlik ve Klasik Test Kuramına Dayalı Güvenirliklerinin Karşılaştırılması. Yayınlanmamış Doktora Tezi, Ankara Üniversitesi, Ankara.

Fleiss, J. L. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin. 76(5), 378-382.

Fleiss, J. L. ve Cohen, J. (1973). The equivalence of weighted kappa and the intraclass correlation coefficient as measures of reliability. Educational and Psychological Measurement, 33, 613-619.

Gage, N. A., Prykanowski, D. ve Hirn, R. (2014). Increasing Reliability of Direct Observation Measurement Approaches in Emotional and/or Behavioral Disorders Research Using Generalizability Theory. Behavioral Disorders, 39(4), 228-244.

Glass, G. V. ve Hopkins, K. D. (1984). Statistical Methods in Education and Psychology. NJ: Prentice-Hall.

Goodwin, L. D. ve Goodwin, W. L. (1991). Using Generalizability Theory in Early Childhood Special Education. Journal of Early Intervention, 193-204.

Goodwin, L. D., Sands, D. J. ve Kozleski, E. B. (1991). Estimating Interviewer Reliability for Interview Schedules Used in Special Education Research. The Journal of Special Education, Volume 25, Issue1, 73-89.

Goodwin, L. D. (2001). Interrater Agreement and Reliability. Measurement in Physical education and Exercise Science, 5 (1), 13-14.

Gugiu,M. R., Gugiu, P. C. ve Baldus, R. (2012). Utilizing Generalizability Theory to Investigate the Reliability of Grades Assigned to Undergraduate Research Papers. Journal of Multi-Disciplinary Evaluation, v8 n19 p26-40.

Güler, N. ve Gelbal, S. (2010). Açık Uçlu Matematik Sorularının Güvenirliğinin Klasik Test Kuramı ve Genellenebilirlik Kuramına Göre İncelenmesi. Kuram ve Uygulamada Eğitim Bilimleri, 10 (2), 989-1019.

Haertel, E. H. (2006). Reliability. In R. L. Brennan (Ed.), Educational measurement (4th edn, pp. 65–110). Westport, CT: Praeger Publishers.

Hill, H. C., Charalambous, C. Y. ve Kraft, M. A. (2012). When Rater Reliability Is Not Enough: Teacher Observation and a Case for the Generalizability Study. Educational Researcher, Volume 41, Issue 2, 56-64.

Hughes, M. A. ve Garrett, D. E. (1990). Intercoder Reliability Estimation Approaches in Marketing: A Generalizability Theory Framework for Quantitative Data. Journal of Marketing Research, Volume 27, 185-195.

Kan, A. (2001). Yazılı yoklamaların puanlanmasında puanlama cetveli ve yanıt anahtarı kullanımının puanlamaya ve puanlayıcı güvenirliğine etkisi. Yayınlanmamış yüksek lisans tezi, Hacettepe Üniversitesi, Ankara.

Krippendorff, K. (2004). Measuring the reliability of qualitative text analysis data. Humanities, Social Sciences and Law, 38(6), 787-800.

Lord, F. M. ve Novick, M. R. (1968) Statistical Theory of Mental Test Scores. New Jersey: Addison-Wesley. Co.

Martinez, J. F., Goldschmidt, P., Niemi, D., Baker, E. L. ve Sylvester, R. (2007). Language Arts Performance Assignments: Generalizability Studies of Local and Central Ratings. Educatıonal Assessment, 12(3&4), 267–282.

Meyer, G. J. (1999). Simple Procedures to Estimate Chance Agreement and Kappa for the Interrater Reliability of Response Segments Using the Rasch Comprehensive System. Journal of Personality Assessment, 72, 230-255.

Shavelson, R. J. ve Webb, N. M. (1991). Generalizability Theory: A Primer. USA: SAGE Publications.

Şencan, H. (2005) Sosyal ve Davranışsal Ölçmelerde Güvenirlik ve Geçerlik. Ankara: Sözkesen Matbaacılık.

Taşdelen, G., Kelecioğlu, H. ve Güler, N. (2010). Nedelsky ve Angoff Standart Belirleme Yöntemleri ile Elde Edilen Kesme Puanlarının Genellenebilirlik Kuramı ile Karşılaştırılması. Eğitimde ve Psikolojide Ölçme ve Değerlendirme Dergisi, 1(1), 22-28.

Turgut, M. F. (1993). Eğitimde Ölçme ve Değerlendirme Metotları. Ankara: Saydam Matbaacılık.

Yin, Y. ve Shavelson, R. J. (2004). Generalizability Analysis for Concept Mapping Assessment of Students’ Science Achievement. Paper presented at the annual meeting of the AERA, San Diego, CA.
Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 License.