資料倉儲 vs 資料湖 vs 資料超市

您可能會經常聽到這些術語,因此在這裡說明資料倉儲、資料湖和資料超市之間的差異。

這些標準資料倉儲術語的問題在於它們並不好。它們是含糊不清的行銷術語,帶有過度使用的隱喻,因此即使是經驗豐富的資料人員也可能對它們到底指的是什麼感到模糊不清。有時它們可以指代特定的事物,有時它們可以指代非常抽象的事物。我們撰寫這篇文章是因為您可能會經常聽到這些術語,並且希望為您提供每個術語的背景資訊。

如果您正在尋找關於使用什麼來儲存分析資料的建議,請查看「應該使用哪種資料倉儲?」

資料倉儲

資料倉儲只是一個結構化的位置,您可以在其中放置要查詢的資料。它可以是一個可擴展的資料庫,具有針對處理大量資料的查詢進行優化的柱狀儲存,也可以是一個帶有一些檔案櫃的房間。這裡的要點是,資料倉儲與您的生產資料庫不同,即使該資料倉儲只是您的 PostgreSQL 生產資料庫的複製品。它是一個旨在保存資料以進行分析的地方,而不是滿足您的應用程式或服務的需求。資料倉儲基本上也是唯讀的;唯一應該寫入您的資料倉儲的是 ETL

理想情況下,您會希望以預期您要提出的問題種類的方式組織資料。這表示您會想要取得針對您的應用程式交易優化的正規化資料,以及來自第三方應用程式和服務的所有資料傾印(想想來自您的客戶關係管理軟體的所有來之不易的資料),並將其 ETL 到欄或表格中,以便輕鬆回答諸如「上個月與前幾個月相比有多少客戶註冊?」或「哪個入門漏斗部分的流失率最高?」等問題?

您也會聽到人們將資料倉儲特別稱為專門用於分析查詢處理的特定類型資料庫或雲端服務。BigQuery、Redshift、Snowflake 和 Vertica 等資料倉儲專為彙總和篩選大量資料而設計。另一方面,它們不適合用作應用程式資料庫,因為它們不擅長尋找特定記錄(例如在使用者登入時傳回某人的個人資料資訊)。

資料湖

資料湖是來自您所有來源的所有資料的傾卸場(通常在物件儲存服務中,該服務類似於分散式檔案系統,例如 AWS 的 S3)。此資料不一定是結構化的(您甚至不需要檔案櫃)。資料湖的優點是您不必預先確定要在資料上執行的查詢類型。資料倉儲很棒,但它們可能需要大量工作才能設定,包括弄清楚您要如何對資料建模,然後實際將資料從所有混亂的來源轉換為該結構。使用資料湖,您只需在需要時使用 ETL 建立表格。您可以使用 Presto 等查詢引擎,讓您可以使用 SQL 查詢分散在許多 S3 儲存貯體(基本上是分散式檔案系統)上的資料。或者您可以在資料湖的部分資料上訓練機器學習模型。

有些雲端供應商提供資料湖產品,例如 AWS 的 Data Lake,其中資料湖「產品」是服務的特定組合(「基礎架構元件」),它們共同協助您將資料移入和移出儲存,在本例中為 AWS 的 S3(Simple Storage Service)。BigQuery 使用的另一種方法是聯合資料來源,其中「湖」不是一個地方,而是 BigQuery 可以查詢的多個地方。

資料超市

資料超市本質上是一組儀表板,用於分析來自資料倉儲或資料湖子集的資料,以用於特定的業務功能。也就是說,資料超市結合了資料倉儲或資料湖的一部分,為團隊或分析領域策劃,以及分析該資料的儀表板和視覺化。它們不是您可以購買的東西;它們是您的組織必須定義和建立的東西。

資料超市通常被認為是資料堆疊的垂直切片,其中這些切片對應於組織內的不同團隊。因此,企業中行銷團隊的範例資料超市將包括所有表格和模型(以及彙總團隊感興趣的事實和維度的摘要表格)、建立這些表格的 ETL,以及該策劃資料的「人機介面」:BI 工具(如 Metabase)以及行銷團隊建立的圖表和儀表板(或傳統上由資料或工程團隊為他們設定的)。

資料超市不一定需要那麼僵化,而且它們不應該是。如果您願意,您可以在 集合 中組合一系列問題和儀表板,涵蓋營運團隊感興趣的所有內容,並將其稱為營運資料超市。您也可以按主題組織資料及其分析:這是我們所知關於客戶的一切、我們所知關於供應鏈的一切、我們的啟用漏斗等等。BI 工具也可以做一些很酷的事情,您可以使用篩選器建立儀表板,以便輕鬆地針對特定產品或類別或任何事物進行調整。

資料超市作為一個概念已經存在一段時間了,但您不再經常聽到這個術語。傳統上,資料超市開發是由資料或工程團隊為其他團隊完成的,這可能是好事也可能是壞事。好處是它可以確保資料易於使用、探索和擴展;壞處是當它將資料孤島化並通過使提出相關問題或從其他地方整合資料變得困難來阻礙好奇心時。但資料超市背後的基本思想(組織資料以使人們更容易提出問題)與 Metabase 如何看待商業智慧密切相關。BI 應該是自助式的,因此良好的資料超市設計不僅為人們提供了一組答案,還為人們提供了回答這些問題、剖析這些答案以及提出自己問題所需的工具。

延伸閱讀

接下來:應該使用哪種資料倉儲?

您選擇哪種資料倉儲取決於您要處理多少資料。本指南將引導您了解您的選擇,無論您是小型新創公司還是大型企業。

下一篇文章