我教過成千上萬的學生資料相關知識,如果說我希望他們記住一個概念,那就是平均數和中位數等摘要統計資料會壓縮資訊。摘要統計資料會取一組數字,並嘗試用一個數字來代表所有數字。
問題是,身為分析師,您是否能接受這種壓縮?您是否覺得該統計資料能準確地代表底層資料?
讓我們看看兩組數字,情境 1 和情境 2 顯示使用者每天使用功能的頻率
兩種情境的平均數都是 3。
那麼我們是否應該說,在兩種情境中,使用者平均每天使用該功能 3 次?
對於第一種情境,3 感覺像是對資料的合理壓縮,因為資料相當常態分佈。但身為分析師,如果您被問到關於使用者行為的更深入問題,最好還是要知道最大值和最小值是多少。
對於第二種情境,「3」感覺是完全不準確的壓縮,因為資料的分佈高度偏斜,您可能會認為 11 是應該排除的離群值。如果我們排除 11,則 1 將是非常適合情境 2 的摘要統計資料,因為所有底層數字都是 1。如果我們不排除 11,我們在呈現 3 作為摘要統計資料時,就需要提供更多背景資訊,因為我們實際上只有一位使用者(使用者 5)大量使用該功能,而其餘使用者則不常使用。
對於像此範例這樣的小型資料集,我們可以查看資料本身來判斷摘要統計資料是否合理,但是當您嘗試壓縮的資料量變大時,最好查看分佈情況,以判斷統計資料是否能合理地代表資料。
每次您報告統計資料時,請查看底層資料或分佈情況,以判斷您對資料的壓縮是否有意義。