六、將測驗標準化
—套好的題目并不一定是一個好的測驗。對于測驗的基本要求是準確、可靠。為了減少誤差,就要控制無關因素對測驗目的的影響,這個控制的過程,稱作標準化。具體包括以下幾方面:
(一)內容
標準化的首要條件,是對所有受測者施測相同的或等值的題目。測驗的內容不同,所得的結果便無法比較。
(二)施測
盡管對于所有的受測者使用了相同的題目,但如果在施測時各行其是,所得的分數也不能進行比較。為了使測驗條件相同,必須有統一的指導語和時間限制。
1.指導語
給受測者的指導語屬于測驗刺激的一部分,它的內容通常包括對測驗目的說明和受測者應該如何作答的指示(包括如何選擇反應、記錄反應、以及時限等)。對于紙筆測驗來說,這些指示一般印在測驗的開始部分,也可以印在另外一張紙上。要求簡單明確,不引起誤解。如果題目形式對被試是生疏的,還應該有一些例題。
指導語會直接影響受測者的作答態度與方法。有人以不同的指導語對幾組被試實施同一個能力測驗,結果表明,將該測驗說成“智力測驗”的一組,成績高;將之說成“日常測驗”的一組,成績紙。
為了保證測驗情境的一致,還要有對主試者的指導語,主要是對測驗細節作進一步解釋,以及其它一些有關事項,包括測驗房間場地的安排(照明、桌掎、隔音、溫度等),測驗材料的分發,如何計時、記分,對被試的各種提問如何回答,以及在測驗中途發生意外情況(如停電,有人遲到,生病;等應該如何處理。由于主試者的一言一行,甚至表情動作都會對受測者產生影響,所以主試者一定要嚴格遵守施測指導,不要任意發揮和解釋。總的要求是,無論什么人、在什么時候、什么地點使用同一測驗,都必須做同樣的事,說同樣的話。對主試者的指導語與測驗是分開的。
2.時限
確定測驗的時限,要考慮施測條件和實際情況的限制(如一節課時間的長度),以及被試的特點(如對兒童、老人、病人施測時間不宜過長),不過更重要的是考慮測量目標的要求。
對于人格測驗來說,反應速度是不重要的,可不必規定嚴格的時限,但是在測量能力和學績成就時,速度是需要考慮的一個重要因素。依據速度在活動中所起的作用,可以把測驗分成速度測驗和難度測驗。純速度測驗時間應當嚴格限制,使被試中沒有人能在規定時間內做完全部題目。純難度測驗只考察被試解決難題的水平而不考慮完成時間。實際上,大多數能力和學績測驗介于上述二者之間,既考察反應的速度也考察解決難題的能力。通常所用的時限是使大約90%的受訓者能在規定時間內完成全部測驗,如果題目由易到難排列,應使大多人在規定對間內完成他會答的問題。
確定時限一般采用嘗試法,即通過來決定。假設根據第一次試測的經驗,我們估計大部分被試可以在25分鐘內做完,在第二次試測時,可以先叫被試用黑鉛筆做20分鐘,然后換成紅鉛筆,再過5分鐘換成藍鉛筆,這樣便可了解被試在規定時間內完成題目的數量。另一種方法是在施測現場掛一只鐘,每個被試做完后即將當時時間寫在試卷末尾。試卷收齊之后再根據被試完成情況規定合適的時限。
(三)評分
標準化的第三個要素是客觀評分。客觀性意味著在兩個或兩個以上的受過訓練的評分者之間有一致性。只有當評分是客觀的時候才能夠把分數的差異完全歸諸受測者的差異。一般說來,自由反應的題目(如問答題、論文題等)評分者之間很難取得完全一致,而選擇題的評分較為客觀,因此有人將選擇題組成的測驗叫客觀性測驗。
無論哪種測驗,為使評分盡可能客觀,有三點要求:
1. 對反應的及時的和清楚的記錄。特別是對口試和操作測驗,此點尤為重要,必要時可以錄音和錄象。
2. 要有一張標準答案或正確反應的表格,即計分鍵。選擇題測驗的計分包括一系列正確的答案和容許的變化;論文題的計分鍵包含各種可能答案的要點;人格測驗不可能有明確而統一的答案;計分鍵上指明的是具有或缺少某種人格特征者的典型反應。
3. 將受測者的反應和計分鍵比較,對反應進行分類。對于選擇題來說,這個程序是很容易的,但是當評分者的判斷可能是一個起作用的因素時(如問答題、論文題),就需要對評分規則作詳細的說明,評分時將每一個人的反應和評分說明書上所提供的樣例相比較,然后按接近的答案樣例給分。
無論采用何種評分方法,都必須符合客觀、正確/經濟/實用四項原則。
(四)常模
一個標準化測驗,不但內容、施測和評分要標準化,對分數的解釋也必須標準化,如果同一個分數可做出不同的推論,測量便失去了客觀性。
多數測驗用常模作解釋分數的依據。測驗分數必須與某種標準比較,方能顯出它所代表的意義。例如。某學生成績單上寫著:物理——85分。我們僅從這個分數很難斷定他學得如何,因為沒有一個比較的標準。在傳統心理測驗中,是把個人所得的分數與代表一般人同類行為的分數相比較,以判別其所得分數的高低。此處所指的“代表一般人同類行為的分數”,即為“常模”。例如,以攝氏溫度計,便可確診為發燒,因為一般人的正常體溫是37℃,這就是成人體溫的常模。
建立常模的方法是,在將來要使用測驗的全體對象中,選擇有代表性的一部分人(稱標準化樣本),對此樣本施測并將所得的分數加以統計整體,得出一個具有代表性的分數分布。標準化樣本的平均數,即為該測驗的常模。
常模可因標準化時選取樣本的不同而有不同的類別。常見的有年齡常模、年級常模、性別常模、地域常模、民族常模、職業常模等。