Chevron Left

查看所有社群故事

以下是我從建立資料管線學到的經驗

2021 年 11 月 17 日

貢獻者

Srivamsi Sakirepalli

Lendingkart

photo of Srivamsi Sakirepalli

Srivamsi 是 Lendingkart 的資料工程師,Lendingkart 是一家為企業和金融機構提供支援的新創公司。他是基礎架構、資料和數學的狂熱愛好者。您可以在 LinkedIn 上找到 Srivamsi。

建立資料基礎架構的重要性

我們公司與各種資料儲存區合作,以建置應用程式、分析和做出明智的資料驅動決策。作為資料工程團隊的一份子,我們必須跟上組織的成長和規模。

隨著資料的量、速度和多樣性不斷增加,儲存、移動和管理是一項艱鉅的任務。(看看大數據 3V 已經如何發揮作用)。

資料工程師的部分責任是選擇正確的原則(ETL-ELT;Kappa-Lambda;治理)和基礎架構(儲存;運算;框架)。使用上述原則和基礎架構的「時間」「原因」發揮著重要作用。

準備建立資料管線

在建置管線之前,請務必先詢問一些關於資料和現有系統的問題

  • 來源是什麼?Sink 在哪裡?(資料流程在內部部署或外部)
  • 這是一次性程序,還是必須擴展?
  • 資料平台的成本和預算為何?
  • 是否需要即時或批次處理?系統是否支援該方法?
  • 我們是否有現有的基礎架構使其運作,以及未來的人員支援?
  • 是否有企業平台可以立即完成所有工作?(自行建置與購買)

建立資料管線的好處

這是我在使用不同類型的資料和系統後,對 ETL/ELT 的一些看法。

在組織內部將資料從交易資料庫 (OLTP) 移至分析平台 (OLAP) 時,ELT 是最佳選擇。中繼儲存區將 OLTP 和 OLAP 解耦,這在歷史資料重新整理或最佳化 Warehouse 表格等使用案例中非常重要。ELT 為復原和重新執行提供更好的 SLA,並消除來源系統資源高峰的風險。(無需在晚上/週末安排工作)

聽起來使用 ETL 並即時轉換資料似乎更酷且明顯更快,但在使用自行託管的系統時,將您可以儲存的所有資料以有組織的結構儲存在低成本物件儲存區(AWS S3、Azure ADLS)中是有益的,而且它可以擴展!資料集中化且易於存取。

在支援營運分析(適用於資料人員的反向 ETL)時,ETL 提供更好的價值。習慣使用內部資料庫(這是主幹)的情況很少改變,但分析 SaaS 平台肯定會改變。這些平台上的終端使用者期望隨時可用的資料,以便做出明智的決策。選擇企業級或開放原始碼 ETL 工具可以更快地開發通往各種外部系統的資料管線,而無需事先了解所有關於目的地的資訊。(不要重新發明輪子)

ETL 也很有用,因為外部系統在儲存的資料量方面存在限制和成本。因此,無需解釋何時資料限制超過且儀表板在工作日停止更新。

平衡快速開發、資料移動和儲存所需內容本身就是一件苦差事,但關鍵在於維護資料完整性(事實、資訊、洞見),並使今天的資料管理以及未來更輕鬆且更具彈性。

貢獻者

Srivamsi Sakirepalli

Lendingkart

photo of Srivamsi Sakirepalli

Srivamsi 是 Lendingkart 的資料工程師,Lendingkart 是一家為企業和金融機構提供支援的新創公司。他是基礎架構、資料和數學的狂熱愛好者。您可以在 LinkedIn 上找到 Srivamsi。

您可能也會喜歡

撰寫社群故事的秘訣

Metabot

Metabase

預測下一次點擊

Ukrit Wattanavaekin

Metabase

您可能也會喜歡

撰寫社群故事的秘訣

Metabot

Metabase

預測下一次點擊

Ukrit Wattanavaekin

Metabase