‧
7 分鐘 閱讀
現代資料堆疊(2021 年更新版)
Metabase 團隊
‧ 7 分鐘 閱讀
分享這篇文章
雲端、開放原始碼和 SaaS 商業模式已經改變了軟體產業以及公司思考和建構產品的方式。如今,我們可以在比以往更少的時間和成本下,建立起完整的技術堆疊。而這些轉型為現代資料堆疊鋪路,也就不足為奇了。
現代資料堆疊包含一套彈性的技術,可協助企業儲存、管理和從資料中學習。通常,現代資料堆疊建立在雲端服務之上,並且越來越多地包含低程式碼和無程式碼工具,讓使用者能夠探索和使用資料。
什麼是資料堆疊?
「資料堆疊」一詞源自「技術堆疊」,指的是軟體工程師結合不同技術來建構產品和服務的刻意組合。雖然技術堆疊可能專注於各種用例,但資料堆疊專門用於支援資料的儲存、管理和存取。資料堆疊通常由尋求在策略決策中利用其資料的公司所建構。
資料堆疊 vs. 資料平台 vs. 資料基礎架構
- 資料堆疊:組織用於儲存、管理和存取資料的一組技術和服務。通常以技術和服務列表的形式分享,但特定堆疊背後的工作和理論比簡單的格式所能顯示的更為複雜。
- 資料平台:將您的資料堆疊實作到基礎架構中,即您的每項技術和服務如何彼此連接。通常以圖表的形式分享,該圖表抽象化了底層基礎架構,但顯示了每個組件如何與其他組件協作。
- 資料基礎架構:為您的資料堆疊提供動力的底層運算系統。通常以圖表的形式分享,但重點在於網路、硬體資源和低階 API。
資料堆疊的演進
底層資料基礎架構架構的三個主要變化為現代資料堆疊鋪平了道路,並構成了其定義的基礎。
1. 從地端部署轉移到雲端
現代資料堆疊通常利用雲端託管儲存的安全性與彈性改進,但更重要的是以極低的成本儲存和處理非常大量的資料。
2. 從 ETL 轉變為 ELT
資料倉儲過去是資料團隊的巨大瓶頸。人們主要使用基於列的關聯式資料庫作為其資料倉儲,這對於資料分析工作負載來說擴展性不佳,因為它將相關資料分散在多個磁碟或伺服器上。即使使用 Hadoop 等技術,map-reduce 作業仍需要數小時才能執行,並且編寫和維護非常複雜。此外,由於舊式資料倉儲中的處理能力有限,資料工程師過去會在將資料載入之前編寫轉換作業,從而產生了 ETL(擷取-轉換-載入)一詞。現在,隨著高效能雲端基於列的資料倉儲的發展,資料工程師可以在幾分鐘內執行 PB 級規模的查詢。借助現代資料堆疊,他們可以在幾分鐘內佈建並開始將資料載入資料倉儲(ELT,擷取-載入-轉換),而分析師不再需要依賴工程師來轉換資料。
3. 自助式分析的興起,以普及資料探索
無論公司規模大小,SQL 知識的不足都限制了人們在沒有分析師的幫助下存取儲存在資料庫和倉儲中的資料。例如,在傳統資料堆疊中,一位想要取得曾造訪產品特定區域的客戶清單的客戶主管,將需要友善的工程師或分析師的幫助來為他們「提取」資料。
公司已經意識到這個瓶頸,並使用像 Metabase 這樣的商業智慧工具,讓組織中的每個人都能探索資料並從資料中找到答案。現在,設計師可以了解其功能的使用情況,主管可以探索策略選項,而客戶主管可以完成銷售,所有這些都無需依賴分析師。
現代資料堆疊的優點
模組化
由於現代資料堆疊由具有通用標準連接點的技術組成,因此團隊可以隨著需求的發展而交換堆疊的各個部分。這有助於他們避免供應商鎖定,並讓團隊能夠隨著資料需求的成熟而擴展其堆疊。
速度(營運和執行)
由於舊式資料倉儲中的處理能力有限,管線過去需要數小時甚至數天才能執行。如今,借助現代資料堆疊及其對彈性運算資源的存取,相同的工作可以在幾分鐘內完成。
此外,由於現代資料堆疊的組件具有獨立性,因此設定和迭代速度顯著加快。如今,一家年輕的初創公司可以在短短幾個小時內建立一個分析堆疊來追蹤其實驗,而無需編寫任何程式碼行,而這項工作在舊式堆疊中將需要數天或數週的時間。
成本
雲端技術和資料儲存通常比其地端部署的同類產品節省大量成本。地端部署資料倉儲需要為 100% 的時間支付伺服器使用費,並使擴展變得困難或成本高昂。借助 Redshift、Snowflake 和 BigQuery 等雲端資料倉儲,您只需為使用的部分付費,並且可以無縫擴展以應對大規模工作負載。
現代資料堆疊的組件
大多數團隊將其資料堆疊組織成層級,就像蛋糕一樣。並非每個團隊都需要涵蓋每個層級,但每個層級都有其獨特的角色,有助於建構完整而美味的食譜。
例如,一位獨資創辦人如果只是想驗證一些實驗,可能不需要複雜的轉換工具,但可能需要一種將其資料來源連接到分析工具的方法。
資料來源
這是您的資料來源:它可以是您的生產資料庫(例如 PostgreSQL)、您的 Web 伺服器的日誌,或像 Stripe、Zendesk 或您正在使用的任何其他產品這樣的第三方應用程式。團隊通常有多個資料來源,所有這些資料來源都匯集到集中式資料儲存解決方案中。
資料擷取
這是資料如何從您的資料來源移動和正規化到您的資料儲存的方式。
該領域的三家主要公司是:Fivetran、Stitchdata 和 Segment。
資料儲存
這是所有從資料來源傳入的資料匯總和儲存的位置。在成熟的資料堆疊中,它通常是資料倉儲,但也可能只是早期階段公司的資料庫的唯讀副本。
該領域的三家主要公司是:Snowflake、Amazon Redshift 和 Google BigQuery。
資料轉換和建模
資料轉換和建模有助於將不同的資料來源封裝成使用者友好的模型,以便人們可以探索這些組合集,而無需篩選原始資料並猜測它們代表什麼。
該領域的知名公司:dbt 和 Dataform。
資料分析
有時簡化為「資料視覺化」或「商業智慧」,資料分析可協助使用者探索資料並在其中找到見解。這通常涉及建構視覺化或其他表示形式,並且可以包括儀表板和其他監控工具的開發。
現代資料分析包括協助非技術使用者探索資料而無需了解 SQL 的工具。這使他們擺脫了對開發人員和分析師的依賴,並鼓勵每個人探索資料並從資料中學習。
我們相當有偏見,但我們認為 Metabase 是一個絕佳的選擇。您可以在這裡試用。
資料營運化
也稱為「反向 ETL」,資料營運化是將資料從資料倉儲移回第三方系統以使資料可操作的過程。例如,將客戶資料從您的倉儲同步到您的客戶服務軟體中,以便您的一線客服人員可以更好地為他們提供支援。
該領域的知名公司:Census 和 Hightouch。
本文只是冰山一角,但我們希望它能讓您清楚了解建構和使用現代資料堆疊的特性和優勢。
乾杯,
Metabase 團隊