度量與維度
如何在查詢中使用量化和質化欄位。
如同我們在 概觀 中所述,典型的資料庫由表格組成,表格又由列和欄組成。根據其 資料類型,這些欄(或欄位)包含質化或量化資訊。維度和度量是幫助我們區分欄位中儲存的值類型,進而決定我們可以使用這些欄位做什麼的概念。
以表格形式查看資料只能到此為止;在某些時候,您需要執行查詢或操作,讓您的資料更有用,例如顯示儲存在特定欄位中的資訊模式。這就是度量和維度的用武之地。
維度:資料的誰、什麼、在哪裡和何時
包含質化資訊的欄位是維度。這些是描述性屬性,例如產品類別、客戶地址或國家/地區。維度可以包含數字字元(例如字母數字客戶 ID),但不是數字值(例如,將欄中的所有 ID 號碼加總沒有意義)。
日期欄位也是維度,因為計算下訂單的所有年份總和可能沒有幫助。相反地,您可能想要依日期分組。日期欄位是維度,但期間欄位則不是;期間欄位可以進行有價值的計算,例如計算使用者在您的網站上花費的平均時間(以秒為單位)。
這樣想:如果您無法(或不願意)計算欄位,則該欄位就是維度。單獨的數字只能說明部分情況,維度描述並增加上下文。
讓我們看看 Metabase 的範例資料庫。如果我們選擇瀏覽資料,然後選擇 Products
表格,我們將以表格形式呈現有關我們產品的資訊。此表格包含八個欄位。
為了確定這些欄位中的哪些是維度,請考慮哪些欄位提供有關我們產品的描述性資訊。我們會立即注意到 Title、Category 和 Vendor 是質化的,因為它們以文字形式告訴我們有關我們產品的資訊。雖然 ID、Ean 和 Created At 包含數字,但它們也是維度,因為這些數字不是您想要計算的數字。
度量:您可以計算的數值欄位
度量是量化 — 欄位,例如訂單小計、購買商品數量或在特定頁面上花費的時間。因此,度量是可計算的。假設您有一個度量,即購買商品數量:您可以執行諸如計算平均訂購數量、按降序排列數量、總計所有數量等操作。
讓我們再次查看 Products
表格,以確定哪些欄位是度量。這很簡單,因為我們已經確定其中六個是維度。這讓我們剩下 Price 和 Rating,這很合理,因為計算這些欄位可能對我們的業務很有價值。例如,我們可以計算客戶給我們產品的平均評分。
至此,我們已經檢查了此表格中的每個欄位,並確定了哪些是維度,哪些是度量
維度
- ID
- Ean
- 標題
- 類別
- 供應商
- 建立時間
度量
- 價格
- 評分
在 Metabase 中使用度量和維度
在 Metabase 中提問時,您可以選擇 彙總 您的資料、篩選 資料,或兩者都做。
依指標和群組彙總
彙總功能讓我們可以根據一些特定參數(通常是度量和維度)要求對我們的資料進行封裝。也許我們想查看產品的平均價格,依類別細分。正如我們上面確立的,Price 欄位是我們的度量,而 Category 是一個維度。
簡而言之:如果您要依特定指標彙總,則您選擇的欄位是度量。如果您依群組彙總,則該欄位通常是維度。廣義來說,指標是指您對給定度量執行的量化操作類型。它們是這些彙總的「如何」,無論是平均值、標準差還是相異值的數量。
指標 是 Metabase 中指您和您的團隊想要一次又一次使用的已儲存計算數字。管理員可以建立和編輯指標,因此您不必每次需要為查詢提取收入時都重新建立像收入這樣的計算值。
即使分組通常涉及維度欄位,您可以依度量分組。如果您這樣做,Metabase 會自動將這些數值劃分為使分組更有用的區間。我們已根據價格(我們的度量)對 Products
表格進行分組,而 Metabase 會為我們分區這些價格
篩選度量和維度
您可以根據 Metabase 中的度量或維度來篩選您的資料。篩選器會根據特定欄位限制查詢結果。我們已決定篩選 Products
表格,要求 Metabase 向我們顯示類別不是 Gizmo 且價格大於 50 美元的產品。在此查詢中,我們已根據維度和度量進行篩選。
在 Metabase 中,區隔 是管理員可以建立和儲存以供組織內所有 Metabase 使用者重複使用和參考的命名篩選器。區隔鼓勵跨團隊的資料分析標準化和一致性;例如,您作為管理員可以建立一個正式定義特定客戶或產品群組的區隔。
下一步:事實表格的分析工程
如何根據實際分析用例為事實表格建立資料模型。