7 Ağustos 2010 Cumartesi


Klasik test modeli
Özetleyecek olursak, her ölçüm (bir maddeye yönelik tepki) belli ölçüde istenen kavrama yönelik doğru puanı (yabancı arabalara karşı önyargı) ve belli ölçüde ezoterik(gizli) ve rasgele hatayı yansıtır. Bunu şu denklem ile ifade edebiliriz:
X = tau + hata
Bu denklemde, X ilgili asıl ölçümü yani kişinin belli bir maddeye karşı tepkisini ifade eder; tausis ise genel olarak doğru puanı ifade eder ve hata da ölçümdeki rasgele hata bileşeni ifade eder.
Güvenilirlik
Bu bağlamda, güvenilirliğin tanımı açıktır: bir ölçüm çoğu durumda hatayla ilişkili olarak doğru puanı yansıtırsa güvenilirdir. Örneğin, “Yabancı kırmızı arabalar özellikle biçimsizdir” gibi bir madde muhtemelen yabancıların yaptığı arabalara karşı önyargılara yönelik güvenilir olmayan ölçümü sağlayacaktır. Bu durum, muhtemelen renklerin sevilmesi ve sevilmemesi ile ilgili olan büyük bireysel farklılıklar olmasından kaynaklanmaktadır. Böylelikle, bu madde sadece bir kişinin önyargısını yakalamakla kalmayacak ayrıca bu kişinin renk tercihini de yakalayacaktır. Bu nedenle, bu maddeye yönelik kişinin tepkisindeki doğru puanın(önyargı için) oranı oldukça küçük olacaktır.
Güvenirlik ölçümleri. Yukarıdaki açıklamadan, bir maddenin veya ölçeğin güvenirliğini açıklamak için kolaylıkla bir ölçüm veya istatistik çıkarılabilir. Özellikle de, gözlenen toplam değişkenlikle ilgili olarak kişilere veya tepki verenlere yönelik elde edilen doğru puan değişkenliği oranı bakımından bir güvenirlik indeksi belirlenebilir. Denklem yapısı ile ilişkili olarak şunları söyleyebiliriz:
Özet ölçekleri
Yabancıların yaptığı arabalara karşı ölçüm önyargısı için tasarlanan çok daha güvenli veya çok daha az güvenli maddeleri özetlediğimizde ne olacak? Farzedin ki bu maddeler yabancı yapımı arabalara karşı çok çeşitli olası önyargıları kapsaması için yazıldı. Eğer kişilerin her bir soruya olan tepkilerindeki hata bileşeni gerçekten rasgele ise, bu durumda farklı bileşenlerin maddelere karşı birbirlerini iptal edeceklerini bekleyebiliriz. Biraz daha teknik bağlamda bakacak olursak, maddelere yönelik hata bileşenin beklenen değeri veya ortalaması sıfır olacaktır. bu nedenle, ne kadar çok madde eklenirse, özet ölçeğinde o kadar çok doğru puan (hata puanı ile ilişkili olan) yansıtılacaktır. 

Çeviri İstatistik

Classical Testing Model
To summarize, each measurement (response to an item) reflects to some extent the true score for the intended concept (prejudice against foreign cars), and to some extent esoteric, random error. We can express this in an equation as: X = tau + error
In this equation, 
X refers to the respective actual measurement, that is, subject's response to a particular item; tauis commonly used to refer to the true score, and error refers to the random error component in the measurement.
Reliability
In this context the definition of reliability is straightforward: a measurement is reliable if it reflects mostly true score, relative to the error. For example, an item such as "Red foreign cars are particularly ugly" would likely provide an unreliable measurement of prejudices against foreign- made cars. This is because there probably are ample individual differences concerning the likes and dislikes of colors. Thus, this item would "capture" not only a person's prejudice but also his or her color preference. Therefore, the proportion of true score (for prejudice) in subjects' response to that item would be relatively small.
Measures of reliability. 
From the above discussion, one can easily infer a measure or statistic to describe the reliability of an item or scale. Specifically, we may define an index of reliability in terms of the proportion of true score variability that is captured across subjects or respondents, relative to the total observed variability. In equation form, we can say:
Sum Scales
What will happen when we sum up several more or less reliable items designed to measure prejudice against foreign-made cars? Suppose the items were written so as to cover a wide range of possible prejudices against foreign-made cars. If the error component in subjects' responses to each question is truly random, then we may expect that the different components will cancel each other out across items. In slightly more technical terms, the expected value or mean of the error component across items will be zero. The true score component remains the same when summing across items. Therefore, the more items are added, the more true score (relative to the error score) will be reflected in the sum scale.