數學英文
描述統計
統計 (statistics) 的字根是 state──國家或政府,
而統計原本的意思就是用來「描述一個國家」的數據 (description of a state)。
所以描述性統計 (descriptive statistics),又譯敘述性統計,
簡稱描述統計或敘述統計,就是統計的基本內容。
它用少數幾個數來描述一組資料 (a data set,但此 set 並非「集合」之意) 的特徵,
這些數通稱為統計量,英文也是 statistics,或者說 statistical parameters。
做統計的人──統計師或統計學家──稱為 statistician。
描述統計的主要任務就是描述資料的分布
(data distribution),而描述的辦法,主要就是用描述統計量
(英文還是 descriptive statistics) 以及統計圖和統計表。
描述統計量有兩大類型,一種量度資料的集中趨勢 (central tendency),
因此就稱為集中量數 (measures of central tendency);
另一種量度資料的分散程度 (variability 或 spread),
因此稱為分散量數 (measures of spread/variability)。
要注意,我們通常翻譯成「平均」的 average,有時候用來泛指集中量數;
所以有時候「平均數」(measures of average) 的意思是一般性的集中量數,
而不是算術平均。
最基本的集中量數(或「平均數」)是三個 M:Mean, Median 和 Mode。
- Mean
- 算術平均數,因此又特別說是 arithmetic mean,
習慣記作小寫希臘字母 \(\mu\)。
假如將資料寫成數列 \(\langle x_i\rangle\),也習慣將它們的 mean 記作 \(\bar x\),
讀作 x bar。
- Median
- 中位數。
連續型資料 (continuous data) 有唯一的中位數,但離散型資料 (discrete data)
卻很可能有無限多種符合定義的中位數。
中學數學只討論離散型資料,所以必須接受中位數的含糊性 (ambiguity)。
數學老師堅持要有「唯一標準答案」的習慣,在這裡受到嚴重的挑戰。
- Mode
- 眾數。雖然英文看不出 Mode 是一個「數」,但中文翻譯是恰當的:它必須是一個數。
Mode 最初由英國數學家 Karl Pearson 在 1895 年發表的論文中定義,
指的是將資料呈現在坐標平面時,發生最大值(最高點)的 \(x\) 坐標。
既然資料可以描繪 (plot) 在坐標平面上,它們當然是量化資料
(quantitative data) 或數值資料 (numerical data),而不是質性資料
(qualitative data) 或名目/類別資料 (nominal data)。
對於非數值的資料,我們就不用集中量數來描述它,也不討論它的眾數。
一組資料的眾數未必唯一,有兩個眾數的「雙峰」資料稱為 bimodal,
有三個或更多眾數的「多峰」資料稱為 multimodal。
但是,有太多眾數的資料,根本就不應該用眾數來描述它的集中趨勢。
只有無聊的數學老師才會問學生
\(\langle1, 2, 3, \cdots, 100\rangle\) 的眾數是什麼?
統計學家不會考慮這種問題。