如果從每個樣本取得兩個屬性的資料(例如學生的視力和身高), 就有兩組資料,統計術語稱之為雙變量 (bivariate)。 雙變量分析 (bivariate analysis) 是對這兩組資料之交互關係的描述性統計。 如果對兩組資料分別做統計,例如分別計算其次數分布, 那是做兩次單變量分析 (univariate analysis); 只有企圖探索兩組資料之間的關係時,才會稱為雙變量分析。
更多的屬性將產生更多組資料,稱為多變量 (multivariate)。 探討不同變量之間交互關係的描述性統計,稱為多變量分析 (multivariate analysis)。 多變量分析需要高維度的幾何或線性代數 (linear algebra), 不在中學數學範圍內。
列聯表 (contingency table) 又稱為雙向表 (two-way table), 它是雙變量分析的常用統計表,用來交叉呈現兩個變量的資料次數分布。 列聯表的行、列各代表一個變量, 而行、列的表頭呈現每個變量的各種值 (values): 包括數值、類型 (categories) 或分成組區間的 classes。 除了表頭以外的每一格,表示兩變量的值同時出現的次數或相對次數, 而且各列與各行的和是有意義的小計 (subtotals)。 列聯表的右下角通常會呈現總和 (total),它是樣本的總數。
散布圖 (scatter plot) 是雙變量分析的常用統計圖。 散布圖是將同一個樣本的兩筆資料(兩個變量的值)當作坐標平面上的一個點, 所以當然只適用於數值資料。橫軸、縱軸分別代表一個變量的數據, 變量的名稱通常註記在軸標籤 (axis labels) 上。
相關性 (correlation) 是中學階段雙變量分析的主要內容。 如果將兩個變量/兩組資料分別記作數列/向量 \(\langle x_i\rangle\) 和 \(\langle y_i\rangle\), 則習慣上會稱兩個變量為 \(X\) 和 \(Y\),也會把它們的數值分別放在 \(x\) 軸和 \(y\) 軸上。 從它們的散布圖或許看得出相關性: 資料點 \((x_i,y_i)\) 似乎散布在一條曲線的附近。 猜測曲線的類型之後(例如二次函數),用最小平方法 (method of least squares) 可以決定在那個類型裡的最適曲線 (the curve of best fit)。 但是中學階段只討論線性相關 (linearly related), 也就是最適曲線的類型是直線,那條最適直線 (the line of best fit) 稱為迴歸直線 (regression line),迴歸直線的斜截式(一次函數形式 \(y=mx+k\))稱為迴歸方程式 (regression equation),在統計領域的習慣形式是 \(Y=a+bX\)。
使用相關性時,須謹記一句格言: 相關不表示因果 (correlation does not imply causation)。 使用相關係數 (correlation coefficient) 討論相關性時更要小心: 我們所謂的相關係數是皮爾森相關係數 (Pearson's correlation coefficient), 僅當 \(X\) 和 \(Y\) 有線性關係時才有意義。 變量 \(X\) 和 \(Y\) 之相關係數慣用符號有:\(r\) 或 \(r_{X,Y}\) 或 \(\rho_{X,Y}\) 或 \(\text{corr}(X,Y)\)。 相關係數的正負號表示 \(X\) 和 \(Y\) 是正相關 (positive/direct correlation) 或負相關 (negative/inverse correlation,或 anti-correlation), 而相關係數的絕對值相當於資料點相對於迴歸直線的分散量數, 其絕對值介於 0 與 1 之間,越接近 1 表示資料點越集中在迴歸直線兩側, 越接近 0 則表示越分散。 換句話說,相關係數的絕對值靠近 1,表示迴歸方程式是變量 \(X\) 和 \(Y\) 之線性關係的有效模型,而越靠近 0 則表示迴歸方程式的預測效果越差。 當 \(r_{X,Y}\approx 0\) 時,只能說 \(X\) 和 \(Y\) 的線性相關性弱, 英文說它們 uncorrelated 或 no correlation 也僅限於沒有線性關係, 它們仍可能有非線性相關性 (non-linear correlation)。
[語音講解:bivariate.mp3] |