科學月刊【數‧生活與學習】專欄 97 年 2 月

PISA 2006 的啟示

    最近有兩項關於台灣學生在國際數學測驗中表現優異的消息:PISA 2006 和 AMC8。 我恰好在上個月介紹了 PISA 測驗,簡述他們為「數學素養」所下的定義, 並以三道試題為例,表現他們如何測試「數學溝通」能力。 當時只能說台灣沒有參加前兩屆的 PISA 測驗,但是參加了第三屆,也就是PISA 2006。 幾乎就在截稿的次日,得知台灣學生在 PISA 2006 的數學類別中「奪冠」的消息。 這當然是個好消息,不過教育部的態度似乎要將此消息塑造成『教改成功』的證據, 我倒還不知道如何直接支持或反對這個看法,但是希望利用這個園地, 向讀者多介紹一點關於 PISA 2006 測驗的知識。

    PISA 是經濟合作與發展組織 (OECD) 從 1997 年起針對 15 歲在學學生所做的跨國評量測驗。 這個測驗鎖定學生的年齡層,而不在乎所屬的年級或學制。 例如 PISA 2006 的受測母群體是 1991 年 1 月 1 日至 12 月 31 日之間出生的在學學生。 PISA 首先從所有可能收容 15 歲學生的學校中抽樣,台灣有 245 所學校被抽中, 在學制上包括高中、高職、國中、五專、進修補校等, 在地域上也按人口比例分佈於全島。 各校被請求列出所有民國 80 年度出生的學生名單, 交給 PISA 用他們的抽樣公式選出 40 名受測。 如果某校的 15 歲學生不足 40 名,則應全部受測。 但是如果某校有超過 15% 的受測學生缺席,則該校變成無效樣本。 與我國的大型考試不同的是,學生「應該」帶計算器應試。

    PISA 測驗的目的並不在於個別學生的能力評量, 而在於地區性整體表現的探測,並企圖為各國教育甚至社會狀況找出問題, 作為設計教育政策的參考。 所以除了學科試題之外,PISA 也有關於學生背景和學校特色的調查問卷。 PISA 題庫非常龐大,又分成閱讀、數學和科學三類, 即使每個學生的受測時間長達三個半小時: 包括學科試題二小時以及調查問卷 35 分鐘,仍然不可能讓個別學生做全部的問題。 所以試題也是以抽樣理論分配給全體學生,每個學生被指派的試題不盡相同。

    在台灣,大約有一半的 15 歲學生參加「基本學力測驗」,該測驗每科進行 70 分鐘。 我不知道其他科目能否在 70 分鐘的限制條件下, 設計一份涵蓋各種不同深度與全部測試範圍的考卷? 但是數學科的教師經常希望考試的時間能夠再長一點, 讓題目的數量可以稍微多一點,這樣每一題的份量可以減輕一點, 一份試題中所能涵蓋的深度與廣度也都可以更周全, 而學生在「反應速度」上的壓力也可以比較輕。 但是主事者常謂時間太長的考試不易實施,而且僅讓數學科延長時間不「公平」。 這樣的呼籲,在大學入學考試 (無論學測或指考) 方面更為殷切, 許多高中教師想要為指考數學科多爭取 10 分鐘而不可得。 我不知道考生和家長到底有多在乎這裡所謂的「公平」? 至於能不能實施,我也不必舉其他國家的例子, 眼前的 PISA 測驗 (僅試題部分就要 120 分鐘) 就已經為我們做了一次全國性的抽樣調查。 我想要順便請問主持單位 (花蓮教育大學),在 PISA 2006 中, 有多少比例的受測學生無法接受 120 分鐘的考試? PISA 2003 報告沒提這項數據,顯然 PISA 測驗單位並不認為 「15 歲少年能不能接受 120 分鐘測驗」是個需要探討的問題。 許多數學教師相信,適度延長考試時間,並配合調整出題策略, 可以有效降低數學考試的焦慮、矯正數學解題拼速度的積習, 同時對每一層次的學生都具有測驗的效度。

    PISA 聲稱 2000 年的測驗「重點」是閱讀,2003 是數學,2006 是科學。 這是什麼意思?觀察 PISA 2003 的官方報告,在大約 300 頁的報告正文當中, 只有大約 30 頁的一章講述閱讀和科學兩方面的測驗結果, 其他可以說都在談數學測驗相關的事實、統計與推論。 為何 2003 的數學資訊遠比另外閱讀和科學豐富? 這可能是那一屆測驗施測的數學類題目 (包括學科試題與調查問卷) 佔了最大的比例, 而受測學生中被指派數學題目的人數也佔最大比例 (這一句話是專欄作者的臆測)。 在這個認識之下,讀者應該明白 PISA 2006 的「重點」是科學, 所以應該更注意這份測驗在「科學」類的施測結果與相關的評鑑報告。 台灣學生在「科學」類的表現也很好,用一個數據來化約: 第四名 (科學類的前三名是芬蘭、香港和加拿大)。 但是名次實在是過於簡化的數據, 如果一個過程如此嚴謹、耗費如此大量人力物力的國際測驗, 最後只給了我們一個「名次」數據,那也實在太膚淺太可惜了。

    那麼,除了名次,我們還看到什麼?名次是以平均成績來排序的。 且不論成績是怎麼決定的,這是另一個有趣的操作面問題 (各國所用的文字不同,而 PISA 有需要書寫與人工閱卷的問題)。 我們在所有的統計課程中,總是諄諄教誨學生:平均數不是全部的故事, 它甚至可能誤導。上個月本欄恰好就舉了一道 PISA 2003 的數學試題, 那一題的測驗目的就在於平均數所可能造成的誤解。 經常跟平均數配合在一起解讀的數據是標準差,它表現資料的分散程度。 PISA 2006 數學類前四名的平均分數,其實都在伯仲之間, 在統計上並無顯著分別,依序是台灣 549,芬蘭 548,香港和韓國同分 547。 這四名和第五名荷蘭 (531) 就有顯著差別。 在前四名裡面,芬蘭的成績分散程度最小:標準差 81,香港和韓國都是 93, 而台灣最大:103,這是 PISA 2006 數學測驗中第三大的標準差! 整體的標準差是 92。 這個數據吻合了最近經常有學者提出的,關於成績分佈雙峰化 (M型化) 的現象。 PISA 2006 的數據雖然不見得等於雙峰化,但至少提示我們, 相對於其他國家,我們更需要注意數學能力分散的情形。

    雙峰的成績分佈並不直接等於社會的不公平性。 但是如果高分的那一峰總來自於某種社經地位的家庭,而另一峰總來自於另一種, 那就是更值得留意的警訊了。 恰好 PISA 也透過調查問卷做了這方面的統計。 PISA 2006 提供一份量表,顯示學生成績與其家庭之社經文化地位的相關程度。 在這裡,高相關性可以被解讀為社會的流動性較低, 而低相關性則可以被解讀為憑著個人天賦或努力而成功的機會較為均等。 台灣的情況雖然並不嚴重,處於這份量表的中間,不算高也不算低。 但是,值得留意的是,韓國、日本、香港和澳門,甚至於歐洲的芬蘭和瑞典, 都有比我們更低的相關性。 台灣在這方面和歐洲的英國、奧地利、瑞士等地屬於同一等級, 但是我們的國力與社會福利能否與這些歐洲國家並駕齊驅?這是大家都可以想想的問題。

    希望這不是一篇被歸類為「唱衰台灣」的文章。 台灣少年在國際數學測試中的表現確實是首屈一指的, 而這份測試也為我們揭露了幾個現在可能還不太嚴重的問題, 如果能夠早期發現早期治療,才能讓這份國際評量發揮最大的效用。


[ 回上層 ]


Created: Jan 16, 2008
Last Revised:
© Copyright 2008 Wei-Chang Shann

shann@math.ncu.edu.tw