Chevron Left

查看所有社群故事

為什麼統計數據並不總是能 ভালোভাবে總結資料

2022 年 3 月 14 日

作者

Matt David

Datafold

photo of Matt David

Matt 在資料領域工作已有 8 年的時間。他目前是 Datafold 的成長總監,之前曾在 Atlassian、Chartio 和 Udacity 擔任與資料相關的職位。他致力於幫助更多人有效地使用資料。您可以在 LinkedIn 上找到 Matt。

我教過成千上萬的學生資料相關知識,如果說我希望他們記住一個概念,那就是平均數和中位數等摘要統計資料會壓縮資訊。摘要統計資料會取一組數字,並嘗試用一個數字來代表所有數字。

問題是,身為分析師,您是否能接受這種壓縮?您是否覺得該統計資料能準確地代表底層資料?

讓我們看看兩組數字,情境 1 和情境 2 顯示使用者每天使用功能的頻率

a table with 2 data distribution scenarios

兩種情境的平均數都是 3。

那麼我們是否應該說,在兩種情境中,使用者平均每天使用該功能 3 次?

對於第一種情境,3 感覺像是對資料的合理壓縮,因為資料相當常態分佈。但身為分析師,如果您被問到關於使用者行為的更深入問題,最好還是要知道最大值和最小值是多少。

對於第二種情境,「3」感覺是完全不準確的壓縮,因為資料的分佈高度偏斜,您可能會認為 11 是應該排除的離群值。如果我們排除 11,則 1 將是非常適合情境 2 的摘要統計資料,因為所有底層數字都是 1。如果我們不排除 11,我們在呈現 3 作為摘要統計資料時,就需要提供更多背景資訊,因為我們實際上只有一位使用者(使用者 5)大量使用該功能,而其餘使用者則不常使用。

對於像此範例這樣的小型資料集,我們可以查看資料本身來判斷摘要統計資料是否合理,但是當您嘗試壓縮的資料量變大時,最好查看分佈情況,以判斷統計資料是否能合理地代表資料。

每次您報告統計資料時,請查看底層資料或分佈情況,以判斷您對資料的壓縮是否有意義。

作者

Matt David

Datafold

photo of Matt David

Matt 在資料領域工作已有 8 年的時間。他目前是 Datafold 的成長總監,之前曾在 Atlassian、Chartio 和 Udacity 擔任與資料相關的職位。他致力於幫助更多人有效地使用資料。您可以在 LinkedIn 上找到 Matt。

您可能也會喜歡

撰寫社群故事的訣竅

Metabot

Metabase

預測下一次點擊

Ukrit Wattanavaekin

Metabase

基於規則的推薦

Conor Dewey

Metabase

資料分析師的職涯建議

Rob Glickman

Cledara

您可能也會喜歡

撰寫社群故事的訣竅

Metabot

Metabase

預測下一次點擊

Ukrit Wattanavaekin

Metabase

基於規則的推薦

Conor Dewey

Metabase

資料分析師的職涯建議

Rob Glickman

Cledara