數學英文

描述統計

統計 (statistics) 的字根是 state──國家或政府, 而統計原本的意思就是用來「描述一個國家」的數據 (description of a state)。 所以描述性統計 (descriptive statistics),又譯敘述性統計, 簡稱描述統計或敘述統計,就是統計的基本內容。 它用少數幾個數來描述一組資料 (a data set,但此 set 並非「集合」之意) 的特徵, 這些數通稱為統計量,英文也是 statistics,或者說 statistical parameters。 做統計的人──統計師或統計學家──稱為 statistician。

描述統計的主要任務就是描述資料的分布 (data distribution),而描述的辦法,主要就是用描述統計量 (英文還是 descriptive statistics) 以及統計圖和統計表。

描述統計量有兩大類型,一種量度資料的集中趨勢 (central tendency), 因此就稱為集中量數 (measures of central tendency); 另一種量度資料的分散程度 (variability 或 spread), 因此稱為分散量數 (measures of spread/variability)。 要注意,我們通常翻譯成「平均」的 average,有時候用來泛指集中量數; 所以有時候「平均數」(measures of average) 的意思是一般性的集中量數, 而不是算術平均。

最基本的集中量數(或「平均數」)是三個 M:Mean, Median 和 Mode。

Mean
算術平均數,因此又特別說是 arithmetic mean, 習慣記作小寫希臘字母 \(\mu\)。 假如將資料寫成數列 \(\langle x_i\rangle\),也習慣將它們的 mean 記作 \(\bar x\), 讀作 x bar。
Median
中位數。 連續型資料 (continuous data) 有唯一的中位數,但離散型資料 (discrete data) 卻很可能有無限多種符合定義的中位數。 中學數學只討論離散型資料,所以必須接受中位數的含糊性 (ambiguity)。 數學老師堅持要有「唯一標準答案」的習慣,在這裡受到嚴重的挑戰。
Mode
眾數。雖然英文看不出 Mode 是一個「數」,但中文翻譯是恰當的:它必須是一個數。 Mode 最初由英國數學家 Karl Pearson 在 1895 年發表的論文中定義, 指的是將資料呈現在坐標平面時,發生最大值(最高點)的 \(x\) 坐標。 既然資料可以描繪 (plot) 在坐標平面上,它們當然是量化資料 (quantitative data) 或數值資料 (numerical data),而不是質性資料 (qualitative data) 或名目/類別資料 (nominal data)。 對於非數值的資料,我們就不用集中量數來描述它,也不討論它的眾數。
  一組資料的眾數未必唯一,有兩個眾數的「雙峰」資料稱為 bimodal, 有三個或更多眾數的「多峰」資料稱為 multimodal。 但是,有太多眾數的資料,根本就不應該用眾數來描述它的集中趨勢。 只有無聊的數學老師才會問學生 \(\langle1, 2, 3, \cdots, 100\rangle\) 的眾數是什麼? 統計學家不會考慮這種問題。

[語音講解:stats.mp3]

[ 回上層 ]


Created: Jan 20, 2023
Last Revised: 11/10
© Copyright 2023 Wei-Chang Shann 單維彰     [Home Page]
shann@math.ncu.edu.tw