資料的英文 data 是複數名詞,它的單數是 datum,很少用。 臺灣的數學課程經常跳過資料的蒐集 (collecting data / data collection),直接假設已經有資料, 然後學習資料的呈現與統計。
經由第一手的觀察 (observation)、調查 (survey)、測量 (measurement) 或實驗 (experiment) 獲得的資料,就稱為一手資料 (primary data)。 調查常用訪談 (interview) 和問卷 (questionnaire)。 未經整理的資料稱為原始資料 (raw data), 而整理資料的最基本動作,當屬計次 (count) 和排序 (sort)。 我們用「正」字符號幫助計次,這種特殊方法叫做 tally count, 「正」字符號稱為 tally mark;西方的 tally mark 如右圖。
使用紙筆整理數值資料的一個好工具是莖葉圖:stem and leaf plot/diagram, 可惜很少臺灣的老師教到它。 其實莖葉圖比較像是整理數值資料的「表」而不是「圖」,下面是一個例子。
甚至還有一種「背靠背」的莖葉圖 (back-to-back stem and leaf plot) 可以用來整理兩組資料 (two data sets)。 莖葉圖可以幫助我們將原始資料排序或整理出次數表 (frequency table); 注意 frequency 通常是頻率的意思,但是在統計脈絡中是次數的意思, 所以又譯作「頻次」。
用電腦記錄某個軟體所經歷的事件,也是常見的蒐集資料的方法。 這種記錄叫做 log;注意這個 log 就不再是「對數」的意思了。 自動留下記錄的程序稱為 logging,記錄檔稱為 log file。
[語音講解:data.mp3] |