2011年11月30日 星期三

考題鑑別度如篩櫻桃 設計精密

「物理實驗題大增,鑑別度很高」、「國文作文偏議論文,鑑別度高」、「數學難易度適中,缺乏鑑別度」……。每逢各項升學考試,「鑑別度」一詞必會攻上媒體版面,究竟什麼是「鑑別度」?鑑別度高就代表題目出的好?考試單位又如何測量鑑別度?  每次大考後,補習班及各高中解題團隊在拿到題目的第一時間就分析考題、判斷今年考題趨勢、難易度,甚至估出粗略的頂標、前標分數,以供考生及家長參考。他們怎麼辦到的?

 難題越多 不等於鑑別度越高

 各科情形略有不同,一般而言,補教老師先瀏覽整份試卷,挑出難題,再從難題的數量、各題難度、是否有「陷阱」,推估考生答對的機率。通常,若難題越多、難度越高、題目越有陷阱,考生要拿高分就越不容易,鑑別度便越高。

 但如此估算鑑別度,畢竟過於粗略,也可能因考生差異、環境時間等因素,與實際結果大相逕庭,只能用作參考。若要進行統計研究,就必須用更精確的方法!

 台灣師範大學科學教育中心研究員任宗浩表示,以古典測驗理論而言,有四項指標可用於分析考題,各是信度、效度、難度及鑑別度。

 精細鑑別 四項指標分析考題

 信度,指的是一致性與可靠性,測量結果是否正確,重複測量能否得到相同結果。例如,以磅秤測量體重,第1次測得50公斤、第2次60公斤、第3次又變成40公斤,該磅秤的「信度」便很差。在考試測驗,信度高即代表該份試題能如實反應考生的能力。

 效度,指是否能測得需要的結果。例如,用磅秤測量身高或用尺測量時間,所用的工具不妥,效度便差。在考試測驗,效度高,代表能測得需要的特質與學習成果。

 鑑別度及難度則是用於試題分析。鑑別度指測驗所能分析最小的量,以測量櫻桃大小為例,以最小單位為0.1公分的量尺測量,能區分直徑3.2公分及3.3公分的櫻桃;若以最小單位為1公分的量尺測量,就只能區分3公分與4公分的櫻桃,要區分越細膩,量尺工具就必須越精細。

 一般水果商會以開了口徑不同的洞的「櫻桃尺」測量,洞的直徑也有意義,若是20公分的洞,所有櫻桃都能通過,洞就沒有意義。反之,只開0.5公分的洞,所有櫻桃都通不過,也沒有鑑別度。

 在考試測驗上,挖幾個洞,便是出多少題;挖多大的洞,便是出多難題。題數越多,便能區分越多不同程度的考生,但考試時間有限制,不可能無限制地出題,否則考生寫到「天荒地老」也寫不完,考試也沒有意義。

 出題難處 在於考試時間有限

 因此,在有限的題數下,要區分考生程度,拿捏各題難度便是關鍵。考太難或太簡單,所有考生都答錯或都答對,該題就浪費掉了,對整份試題的鑑別度沒有助益。由此也說明,題目的難度與鑑別度不能劃上等號,一般人認為考題越難,鑑別度越高,其實是錯誤觀念。

 另一種常見的批評是「難題太少」,無法區分中、上程度學生的能力。任宗浩有不同看法。一般而言,考生的能力呈現「常態分佈」,統計圖上稱為「鐘形曲線」,即中等程度的人最多,極好、極差的人最少。

 良好考題 中等程度占分最多

 人數越多的部分,越需精密區分,一般大考約40題,區分前5%學生的難題,按比例約為2題,出多了便擠壓中等難度的題目,良好的試題應是中等題最多,難題及送分題各佔少數。

 但這是理想狀況,與社會期許有差距,因為程度越好的學生,越計較自己的分數,尤其大考成績是分發的依據,第一志願與第二志願的差距,往往只在二、三分內,多對一題、少對一題「攸關生死」。在壓力下,出題者寧可多出一些難題,將前段學生區分清楚。

 以單一試題而言,鑑別度高的試題,程度高者答對率,要大於程度低者的答對率,一般是將兩者相減,所得數字越高代表鑑別度越高。但有時會出現「負鑑別度」或「零鑑別度」,負鑑別度往往是題目語意不清或是解答錯誤,導致能力好的學生答錯、能力差的反而答對。

 零鑑別度則是考生全錯或是全對,考題白白浪費;另一種可能就是試題太過特別,與其他考題無任何關係,「效度」差導致毫無鑑別度,例如數學科以文言文出題,關鍵能力在於國文能力,而非數學能力。

 出題不佳 鑑別度有負和零的

 真正理想的考卷應像測量視力,由淺入深,答對即可進入下一個關卡,答錯則微調向前,再測一次,直到精準測出考生等級為止。但囿於目前技術,在有限的時間與題數上,如何做到準確測出每個學生的能力,這就是一門「藝術」了。

試前預測試後檢測 大考中心把關

 大學入學考試中心(簡稱大考中心)在「考招分離」的制度下,是國內大學學科能力測驗、指定科目考試的考試專責單位,負責設計考題、進行相關研究。為了滿足「選才」的功能,試題的「難度」與「鑑別度」是一大考驗,而究竟大考中心是如何測定每份試卷的難度與鑑別度?如何讓每份出品的試卷,達到難易適中、鑑別度高呢?

 目前大考中心的基本做法是:「試前」預測考題的鑑別度,「試後」檢測,以供後續研究及往後出題參考。

 闈外命題 科學方法5程序

 「選土豆」都需要用機器,大考中心的每一道試卷都必須有「科學方法」。每份考卷送到考生手上之前,至少經過5道程序,確保考題無誤,以及達到適合的難度與鑑別度。

 第一個步驟是,組織專責「試題研究群」,負責開發新題型,並作出樣卷到各高中進行抽樣試測,讓大考中心瞭解各種題型的難度、鑑別度,給命題老師參考。

 命題老師(1位召集人、4位教授)透過先前研究的數據,「從無到有」出出每一道「生死攸關」的試題,大考中心要求每一份試卷必須分為A、B兩份,以備不時之需。學測有5科,要10份試卷;指考有9科,就得出18份試卷。

 熱騰騰的考卷出爐後,大考中心還需另請命題顧問,檢測考題的品質。這位把關品質的命題顧問必須列出清單,推估每一個試題的難度、鑑別度。以上是「闈外」命題的步驟。

 選試考生 顧及城鄉男女平衡

 接著,大考中心會在門禁森嚴的闈場,把一群人「關」上10餘天,進行最後的審視。這些可憐蟲包括經過嚴格挑選的「審題老師」以及「試考生」,審題老師由高中各科輔導團推薦,不能擔任補習班教師,也不能參與過參考書、試卷編撰,確保利益迴避。試考生更是注重,必須從北、中、南三區挑選,確保城鄉差距以及男女平衡。

 大考結束後,大考中心研究學者要逐科、逐題研究,寫成報告書。大考中心是如何「量化」各考題的鑑別度呢?首先,統計一份試卷考生的成績,得分最高的33%為「高分群」,最低的33%為「低分群」,再拿來測定每一個試題,高分群的答對率減去低分群的答對率,即為該題的鑑別度。例如,若高分群答對率為94%,低分群是22%,該題的鑑別度即為「0.94-0.22=0.72」。
 看鑑別度 高低分群互減

 大考中心副主任沈青嵩表示,依據文獻資料,0.4以上的鑑別度為「優」,0.3~0.4之間為「良」,0.2~0.3為「尚可」,0.2以下為「劣」。大考中心會一題一題算出數據、畫成圖表,供出題老師、社會大眾參考。

 以上是單一試題的鑑別度,整份考卷的鑑別度又是如何測量的呢?大考中心會將考生依成績分為5等分(1%~20%、21%~40%、41%~60%、61%~80%、81%~100%),再將鄰近的兩等分學生的平均分數相減,得出4個「鑑別指數」,如96年指考國文科的數字為10、7、8、15,兩側數據較高,即代表對高分、低分群的考生具有鑑別度。

沒有留言: