不久前,我曾在一家業務非常複雜且快速成長的新創公司工作。我們每個月都在聘請新的數據分析師,營運團隊不斷需要更多的儀表板,整個事情變得難以管理。典型的做法是增加招聘以提高團隊的產能。
雖然這在團隊的初期是正確的,但很快地,讓每位分析師更有效率會比單純增加員工人數更有益。當我們與一家領先的數據目錄供應商公司合作,為我們的系統設置他們的工具時,我親身經歷了這一點。
什麼是數據目錄?
數據目錄是一個相對較新的工具類別,但對於團隊的成長絕對至關重要。典型功能集包括
- 表格和欄位的元數據;
- 將數據資產的所有權分配給團隊成員;
- 顯示最常用的表格和欄位;
- 將數據資產標記為已驗證或未驗證;
- 追蹤每個資產的沿襲 (即:它從哪些資產衍生而來);
數據目錄的好處
在我們擁有數據目錄之前,我們花費大量時間在 Slack 上發布問題,例如「有人知道表格 Y 中的欄位 X 是否可靠嗎?」、「有人知道誰擁有表格 Z 嗎?」等等。
消除花費數小時尋找這些問題答案的需求,正是為什麼投資於團隊的良好文件非常重要的原因。它不僅節省您的時間,還可以避免因使用錯誤數據而造成的大量錯誤。建立這樣的系統需要前期的努力,但從長遠來看,它總是會得到回報。
用於建立數據目錄的工具
幸運的是,這類工具正在快速成長。如果您的財務狀況有限,但有可用的工程資源,像 Amundsen 這樣的開源解決方案 (由 Lyft 開發) 是一個很好的選擇。如果您願意用一些成本換取更少的工作量,Stemma 現在也提供 Amundsen 的雲端託管版本,並具有他們持續建構的額外功能。其他參與者包括 Alation、Data World、DataGalaxy 等等。
但是,您甚至不一定需要額外的工具來建立基本但非常有用的東西。首先,您可以簡單地打開一個試算表,為每個重要的表格建立一個工作表,為該表格的每個欄位建立一行,並添加關於它們的重要資訊 (例如所有者是誰),並使用顏色來指定已驗證與未驗證的欄位。即使您最終稍後獲得了數據目錄,這項工作也將節省您設置它的時間。
最終,重點是:您現在就需要開始著手文件工作,因為這保證會為您帶來回報。