數學英文

雙變量分析

如果從每個樣本取得兩個屬性的資料（例如學生的視力和身高），就有兩組資料，統計術語稱之為雙變量 (bivariate)。雙變量分析 (bivariate analysis) 是對這兩組資料之交互關係的描述性統計。如果對兩組資料分別做統計，例如分別計算其次數分布，那是做兩次單變量分析 (univariate analysis)；只有企圖探索兩組資料之間的關係時，才會稱為雙變量分析。

更多的屬性將產生更多組資料，稱為多變量 (multivariate)。探討不同變量之間交互關係的描述性統計，稱為多變量分析 (multivariate analysis)。多變量分析需要高維度的幾何或線性代數 (linear algebra)，不在中學數學範圍內。

列聯表 (contingency table) 又稱為雙向表 (two-way table)，它是雙變量分析的常用統計表，用來交叉呈現兩個變量的資料次數分布。列聯表的行、列各代表一個變量，而行、列的表頭呈現每個變量的各種值 (values)：包括數值、類型 (categories) 或分成組區間的 classes。除了表頭以外的每一格，表示兩變量的值同時出現的次數或相對次數，而且各列與各行的和是有意義的小計 (subtotals)。列聯表的右下角通常會呈現總和 (total)，它是樣本的總數。

散布圖 (scatter plot) 是雙變量分析的常用統計圖。散布圖是將同一個樣本的兩筆資料（兩個變量的值）當作坐標平面上的一個點，所以當然只適用於數值資料。橫軸、縱軸分別代表一個變量的數據，變量的名稱通常註記在軸標籤 (axis labels) 上。

相關性 (correlation) 是中學階段雙變量分析的主要內容。如果將兩個變量／兩組資料分別記作數列／向量 \(\langle x_i\rangle\) 和 \(\langle y_i\rangle\)，則習慣上會稱兩個變量為 \(X\) 和 \(Y\)，也會把它們的數值分別放在 \(x\) 軸和 \(y\) 軸上。從它們的散布圖或許看得出相關性：資料點 \((x_i,y_i)\) 似乎散布在一條曲線的附近。猜測曲線的類型之後（例如二次函數），用最小平方法 (method of least squares) 可以決定在那個類型裡的最適曲線 (the curve of best fit)。但是中學階段只討論線性相關 (linearly related)，也就是最適曲線的類型是直線，那條最適直線 (the line of best fit) 稱為迴歸直線 (regression line)，迴歸直線的斜截式（一次函數形式 \(y=mx+k\)）稱為迴歸方程式 (regression equation)，在統計領域的習慣形式是 \(Y=a+bX\)。

使用相關性時，須謹記一句格言：相關不表示因果 (correlation does not imply causation)。使用相關係數 (correlation coefficient) 討論相關性時更要小心：我們所謂的相關係數是皮爾森相關係數 (Pearson's correlation coefficient)，僅當 \(X\) 和 \(Y\) 有線性關係時才有意義。變量 \(X\) 和 \(Y\) 之相關係數慣用符號有：\(r\) 或 \(r_{X,Y}\) 或 \(\rho_{X,Y}\) 或 \(\text{corr}(X,Y)\)。相關係數的正負號表示 \(X\) 和 \(Y\) 是正相關 (positive/direct correlation) 或負相關 (negative/inverse correlation，或 anti-correlation)，而相關係數的絕對值相當於資料點相對於迴歸直線的分散量數，其絕對值介於 0 與 1 之間，越接近 1 表示資料點越集中在迴歸直線兩側，越接近 0 則表示越分散。換句話說，相關係數的絕對值靠近 1，表示迴歸方程式是變量 \(X\) 和 \(Y\) 之線性關係的有效模型，而越靠近 0 則表示迴歸方程式的預測效果越差。當 \(r_{X,Y}\approx 0\) 時，只能說 \(X\) 和 \(Y\) 的線性相關性弱，英文說它們 uncorrelated 或 no correlation 也僅限於沒有線性關係，它們仍可能有非線性相關性 (non-linear correlation)。

[語音講解：bivariate.mp3]

[ 回上層 ]

shann@math.ncu.edu.tw