有一種特殊的調查,是針對全國人口 (population) 中的每一個人蒐集資料, 稱為人口普查 (census);但大部分的調查都是抽樣調查 (sample survey)。 抽樣這個動作是 sampling,抽出的個體稱為樣本 (sample), 理論上想要調查的全體稱為母體 (population)。
為了避免調查的偏差 (bias),也就是希望盡量獲得不偏的 (unbiased) 調查資料, 必須謹慎地抽樣。方便取樣 (convenience sampling) 是最容易做的,但也最容易偏差。 站在街角隨便找人訪談或填問卷,其實是方便取樣而不是隨機抽樣 (random sampling); 隨機抽樣是一種系統抽樣 (systematic sampling),必須按照某種規則從母體中選取樣本。 隨機抽樣經常根據亂數表 (random number table) 或亂數產生器 (random number generator) 決定樣本, 而這些亂數其實是按照某種數學規則產生的, 所以在哲理上未必真的「隨機」(random),因此又稱為虛擬亂數 (pseudorandom numbers)。
隨機抽樣也經常先將母體分層 (strata) 或分群 (clusters) 然後才抽樣, 分別稱為分層抽樣 (stratified sampling) 和群集抽樣 (cluster sampling)。 「層」和「群」是由語言的意義分辨的,因此要容許一點含糊性; 例如將一所高中的學生按年級分類,就是分層,按班級分類,就是分群。
在描述性統計之外,有推論性統計 (inferential statistics),簡稱推論統計。 所謂推論統計,就是從樣本推論母體: Make inferences about populations based on samples。 在推論統計脈絡中,所謂標準差是「樣本標準差」(sample standard deviation), 也就是假設所用的資料是抽出一部份樣本的資料, 它的分母是 \(n-1\),其中 \(n\) 表示樣本的數量; 樣本標準差的目的,是從樣本估計母體的標準差。
另外也要小心別把標準差跟標準誤 (standard error) 混淆了。 標準誤是一個推論統計量,習慣簡記為 SE, 它估計樣本統計量(例如樣本的 mean)跟母體的同一個統計量(例如母體的 mean)的誤差;後者(母體統計量)當然是未知的。
中學階段的統計內容,基本上都是描述統計,很少涉及推論統計。 中學生也該練習抽樣,但是獲得資料之後,把樣本當作母體來描述即可。 中學生應該知道從樣本獲得的統計量,只能當作母體統計量的估計, 但並不使用推論統計來評估其誤差 (error) 或信心水準 (confidence level)。
[語音講解:sample.mp3] |