數學英文

樣本與母體

有一種特殊的調查，是針對全國人口 (population) 中的每一個人蒐集資料，稱為人口普查 (census)；但大部分的調查都是抽樣調查 (sample survey)。抽樣這個動作是 sampling，抽出的個體稱為樣本 (sample)，理論上想要調查的全體稱為母體 (population)。

為了避免調查的偏差 (bias)，也就是希望盡量獲得不偏的 (unbiased) 調查資料，必須謹慎地抽樣。方便取樣 (convenience sampling) 是最容易做的，但也最容易偏差。站在街角隨便找人訪談或填問卷，其實是方便取樣而不是隨機抽樣 (random sampling)；隨機抽樣是一種系統抽樣 (systematic sampling)，必須按照某種規則從母體中選取樣本。隨機抽樣經常根據亂數表 (random number table) 或亂數產生器 (random number generator) 決定樣本，而這些亂數其實是按照某種數學規則產生的，所以在哲理上未必真的「隨機」(random)，因此又稱為虛擬亂數 (pseudorandom numbers)。

隨機抽樣也經常先將母體分層 (strata) 或分群 (clusters) 然後才抽樣，分別稱為分層抽樣 (stratified sampling) 和群集抽樣 (cluster sampling)。「層」和「群」是由語言的意義分辨的，因此要容許一點含糊性；例如將一所高中的學生按年級分類，就是分層，按班級分類，就是分群。

在描述性統計之外，有推論性統計 (inferential statistics)，簡稱推論統計。所謂推論統計，就是從樣本推論母體： Make inferences about populations based on samples。在推論統計脈絡中，所謂標準差是「樣本標準差」(sample standard deviation)，也就是假設所用的資料是抽出一部份樣本的資料，它的分母是 \(n-1\)，其中 \(n\) 表示樣本的數量；樣本標準差的目的，是從樣本估計母體的標準差。

另外也要小心別把標準差跟標準誤 (standard error) 混淆了。標準誤是一個推論統計量，習慣簡記為 SE，它估計樣本統計量（例如樣本的 mean）跟母體的同一個統計量（例如母體的 mean）的誤差；後者（母體統計量）當然是未知的。

中學階段的統計內容，基本上都是描述統計，很少涉及推論統計。中學生也該練習抽樣，但是獲得資料之後，把樣本當作母體來描述即可。中學生應該知道從樣本獲得的統計量，只能當作母體統計量的估計，但並不使用推論統計來評估其誤差 (error) 或信心水準 (confidence level)。

[語音講解：sample.mp3]

[ 回上層 ]

shann@math.ncu.edu.tw