數學英文

資料分布

描述統計的一大任務是描述資料的分布 (data distribution)。 一組資料通常是從每個調查對象取得一個屬性 (attribute) 的資料(例如學生的視力), 統計術語稱之為單變量資料 (univariate data)。 所謂分布是指一個變量/一組資料所有可能的值 (value)──又稱為項目 (item)──的發生次數。

列出每個資料值的發生次數,當然是一個分布的描述, 但也可以用比較少的統計量來描述分布。 針對數值資料,可以用四分位數 (quartiles) 描述資料的分布。 Quartiles 是將資料從小到大排序之後 (sorted in ascending order), 可以將資料分隔四等分的三個數,從小到大依序為第一、第二、第三四分位數。 第二四分位數就是中位數,而第一四分位數 (the first quartile) 又稱為 lower quartile,習慣記作 \(Q_1\);第三四分位數 (the third quartile) 又稱為 upper quartile,習慣記作 \(Q_3\)。

推廣四分位數,可計算一組資料的百分位數 (percentiles)。 只有當資料量夠大而且資料的不同數值夠多(至少要超過一百種不同的資料數值), 才值得計算百分位數;以「學測」為例,雖然資料量還算大(考生數量超過十萬), 但資料的數值卻很少(只有 15 級分),所以不適合用百分位數描述學測成績的分布。 Quartile 和 percentile 都是 quantile 的特例,中學階段沒有 quantile。

集中量數和分散量數都是描述資料分布的統計量。 常用的分散量數有以下三種,它們全都只適用於數值資料。

Range
直譯是「範圍」,在函數脈絡中譯為「值域」,此處的意義相近,但譯作「全距」。 意思是資料的最大值 (maximum) 與最小值 (minimum) 之差, 也就是全部資料的範圍。
Interquartile Range: IQR
第一與第三四分位數(\(Q_1\) 與 \(Q_3\))之差,就是 IQR:四分位距。 也就是靠中間那一半資料的範圍。 與中位數一樣,離散型資料的四分位數並不唯一,我們必須接受它們的含糊性。
Standard Deviation
標準差,通常縮寫為 stdev 或 SD,習慣記作小寫希臘字母 \(\sigma\)。 標準差是變異數 (variance) 的平方根。 標準差的單位與資料的單位相同,但變異數的單位是資料單位的平方。 在描述統計脈絡中,所謂標準差是「母體標準差」(population standard deviation), 也就是假設所用的資料就是全部資料, 它的分母是 \(n\):資料筆數。

想要知道一筆資料在整體資料分布中的相對位置,可以將它換算成 \(z\)-分數 (\(z\)-score),又稱為標準分數 (standard score)。 相對於標準分數,原本的數值資料稱為原始分數 (raw score)。

[語音講解:distri.mp3]

[ 回上層 ]


Created: Jan 21, 2023
Last Revised: 11/11
© Copyright 2023 Wei-Chang Shann 單維彰     [Home Page]
shann@math.ncu.edu.tw