描述統計的一大任務是描述資料的分布 (data distribution)。 一組資料通常是從每個調查對象取得一個屬性 (attribute) 的資料(例如學生的視力), 統計術語稱之為單變量資料 (univariate data)。 所謂分布是指一個變量/一組資料所有可能的值 (value)──又稱為項目 (item)──的發生次數。
列出每個資料值的發生次數,當然是一個分布的描述, 但也可以用比較少的統計量來描述分布。 針對數值資料,可以用四分位數 (quartiles) 描述資料的分布。 Quartiles 是將資料從小到大排序之後 (sorted in ascending order), 可以將資料分隔四等分的三個數,從小到大依序為第一、第二、第三四分位數。 第二四分位數就是中位數,而第一四分位數 (the first quartile) 又稱為 lower quartile,習慣記作 \(Q_1\);第三四分位數 (the third quartile) 又稱為 upper quartile,習慣記作 \(Q_3\)。
推廣四分位數,可計算一組資料的百分位數 (percentiles)。 只有當資料量夠大而且資料的不同數值夠多(至少要超過一百種不同的資料數值), 才值得計算百分位數;以「學測」為例,雖然資料量還算大(考生數量超過十萬), 但資料的數值卻很少(只有 15 級分),所以不適合用百分位數描述學測成績的分布。 Quartile 和 percentile 都是 quantile 的特例,中學階段沒有 quantile。
集中量數和分散量數都是描述資料分布的統計量。 常用的分散量數有以下三種,它們全都只適用於數值資料。
想要知道一筆資料在整體資料分布中的相對位置,可以將它換算成 \(z\)-分數 (\(z\)-score),又稱為標準分數 (standard score)。 相對於標準分數,原本的數值資料稱為原始分數 (raw score)。
[語音講解:distri.mp3] |