數據與商業智慧詞彙表

A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
V
W
X

A

彙總

使用數學函數彙總資料的動作,例如計算欄位中值的平均值,或計算表格中的列數。

什麼是彙總? 彙總是使用數學函數彙總資料的動作,例如計算欄位中值的平均值,或計算表格中的列數。結果數字通常稱為指標,這與 Metabase 中的指標不同。欄位中的個別值本身可能沒有太多意義,但當我們以某些特定方式組合這些值時,我們可以更全面地描繪資料的全貌。彙總是將這些值摺疊成單一結果的過程,通常與分組結合執行 — 也就是說,根據特定值組合多列,例如按維度(例如,產品類別或國家/地區)分組。彙總可以即時計算,但您也可能想要建立包含結果的摘要表,並儲存這些彙總函數的結果以供未來使用。當處理大型資料集時,摘要表可能特別有用;由於摘要表是預先計算的,因此依賴摘要表的查詢可以執行得更快。SQL 中常見的彙總函數不同的資料庫有不同的函數集,但以下是您會遇到的一些最常見的彙總函數:COUNT() - 計算表格中的列數。AVG() – 計算欄位中值的平均值。MIN() – 識別欄位中的最小值。MAX() – 識別欄位中的最大值。SUM() – 傳回欄位中值的總和。STDEV() – 計算欄位中值的標準差。彙總範例使用 Metabase 的範例資料庫,假設我們想知道產品的平均價格,並按產品類別分組。在這種情況下,我們將使用 Products 表格。我們的 SQL 查詢如下所示:SELECT category, avg(price) FROM products GROUP BY category 正如我們所願,我們計算了 Products 表格 Price 欄位中值的平均值,並根據 Category 欄位中的值對這些平均值進行了分組。如果我們想在 Metabase 的查詢產生器中執行相同的彙總,我們將依價格平均值進行摘要,然後按類別分組,如下圖所示:圖 1。在查詢產生器中執行彙總:按產品類別分組的產品平均價格。

閱讀更多
屬性

屬性是描述或識別某些實體的屬性。在某些 Metabase 方案中,使用者屬性用於限制人員可以存取的資料。

什麼是屬性? 屬性是描述或識別某些實體的屬性。資料界的人們在幾個不同的情境中使用「屬性」,因此我們將盡力在此消除歧義。基本上,屬性是事物的特徵。該事物可能是表格,但屬性也可能指的是特定記錄的特徵,例如 Metabase 中的使用者屬性。關聯式資料庫中的屬性在關聯式資料庫中,人們經常將屬性與欄或欄位同義使用,例如產品的類別是該產品的屬性(或描述)。屬性的這種用法在資料模型化和設計實體關係圖時經常出現。屬性範例以下是 Metabase 範例資料庫中 People 表格的概觀,其中包含 ID、名稱、地址、城市、州等欄位:圖 1。People 表格的概觀。這些欄位中的每一個都是一個屬性 — 這些欄位中的值描述了它們關聯的記錄的某些資訊,在本例中為 People 表格中的「人員」。Metabase 中的使用者屬性同步使用者屬性僅適用於 Pro 和 Enterprise 方案(自架式和 Metabase Cloud 上的方案)。屬性也可以指與特定使用者相關聯的不同變數值,例如 User_ID。該結構稱為鍵值對,有時稱為屬性值對。在 Metabase 中,某些方案允許您自行設定使用者屬性(或透過 SSO 將其傳遞給 Metabase)。您可以使用這些使用者屬性在儀表板上設定自訂目的地,例如,當使用者按一下圖表時,使用使用者 ID 來參數化 URL。使用者屬性也是資料沙箱的重要組成部分,資料沙箱可讓您精細控制使用您的 Metabase 執行個體的人員可以存取的資料。由於資料沙箱與個別使用者相關聯,因此設定不同的使用者屬性可讓 Metabase 確切知道如何根據檢視表格的人員篩選表格。

閱讀更多

B

BI 工具

專為人們在不依賴程式碼的情況下查看資料而設計的應用程式。

什麼是 BI 工具? BI 工具是專為人們在不依賴程式碼的情況下查看資料而設計的應用程式。這些應用程式允許人們將資料視覺化為表格、圖表和儀表板,並分享這些資料。BI 工具插入您組織現有的資料來源,例如您的資料倉儲、CRM 或事件分析服務。常見的 BI 工具試算表應用程式 BI 工具的經典範例是試算表應用程式,例如 Microsoft Excel 或 Google Sheets,您可以在其中將資料視覺化為表格、樞紐分析表或圖表,並將結果分享為個別檔案(或雲端中這些檔案的連結)。BI 平台 BI 工具通常被認為是一種僅用於將資料視覺化和製作報告的應用程式。像 Metabase 這樣的 BI 平台是一種 BI 工具,可以處理報告之外的其他額外任務,例如資料模型化、資料編目、版本控制和權限管理。BI 工具如何融入資料堆疊? 圖 1。BI 工具適用於現代資料堆疊的分析元件。BI 工具是可以設定在資料堆疊使用者介面端的眾多分析工具之一。尤其是 BI 平台,可以處理與堆疊其他部分相同的某些任務。以下是您可以預期這些組件如何互動:BI 工具與資料庫 BI 工具不是資料來源 — 它們不會取代生產資料庫或資料倉儲來儲存您的組織擁有的資料。BI 工具透過執行查詢並顯示結果,從資料庫中提取資訊。BI 工具與 ETL BI 工具不會取代 ETL(或 ELT)來排程擷取或轉換大量資料。但是,與 ETL 類似,某些 BI 平台可以透過即時執行查詢來處理資料模型化和資料縫合(聯結來自不同資料庫的資料)。BI 工具與事件分析服務事件或網站分析服務(例如 Google Analytics、Segment 或 Amplitude)會從您的產品收集使用量資料。雖然這些服務附帶自己的介面來視覺化和分享該資料,但它們不被視為 BI 工具。您可以將它們視為可以獨立使用的小型資料堆疊。事件分析服務可以透過將它們與中央 BI 工具結合來整合到您的核心資料堆疊中。您可以從服務下載事件資料,並將其移至連線到您的 BI 工具的資料倉儲,或者,如果支援,將服務連接到直接連線到您的 BI 工具。BI 工具與開放原始碼編碼工具開放原始碼工具(例如 Jupyter Notebook 和 RShiny)使用 Python 和 R 等程式設計語言來處理資料。它們可以用於建立報告和儀表板以進行分析,但不被視為 BI 工具,因為它們依賴程式碼而不是視覺介面。

閱讀更多
組距

用於在圖表中將值分組的單一連續值範圍。

什麼是組距? 組距是用於在圖表中將值分組的單一連續值範圍。資料組距有助於簡化資料視覺化,因此人們可以了解其資料的分佈並輕鬆發現離群值。您最常在直方圖中看到組距,但它們並非直方圖專用,並且在其他視覺化(例如折線圖或圓餅圖)中也很有用。如果資料集中的度量包含許多唯一值,則在圖表上繪製每個個別資料點可能會顯得雜亂,並且可能不是資料的最佳表示方式。當您對該資料進行組距時,這些值會被分組為大小相等的間隔(例如 1–10、11–20、21–30 等),並且產生的圖表將顯示每個組距中值的計數。資料組距範例圖 1 顯示 Metabase 範例資料庫中產品的價格,以直方圖顯示。圖 1。範例資料庫中產品的價格,以直方圖顯示。Metabase 會根據資料的分佈自動產生組距。此處的組距是價格範圍;我們可以看到價格範圍在 $37.50–50.00 的產品比其他任何範圍都多。Metabase 自動對這些值進行了組距,但我們也可以選擇我們想要的組距數量(10 個、50 個或 100 個)來進一步調整此圖表。如果您的組距大小太小,您將擁有太多組距,並且最終可能會得到難以理解的視覺化。但是,太少的組距會讓您對資料的分佈產生不完整或過度壓縮的印象,因此請多方嘗試並找出最適合您資料的方法。

閱讀更多

C

卡片

儀表板的組件,用於顯示資料或文字。

什麼是卡片?卡片是儀表板的組件,用於顯示資料或文字。Metabase 儀表板由卡片組成,每張卡片顯示一些資料(視覺化為表格、圖表、地圖或數字)或文字(例如標題、描述性資訊或相關連結)。卡片和問題 儀表板上的卡片不僅僅是您提出的問題的迷你版本。如果您只是將已儲存的問題新增到儀表板並就此結束,您可能會錯失卡片可以做的很多事情。您可以在單張卡片中組合多個已儲存的問題,只要它們共用一個維度即可。您的卡片也不必包含不同的問題。在儀表板上多次包含相同的卡片可能很有用,例如,如果您想將一個問題視覺化為折線圖和長條圖。在儀表板上編輯卡片 編輯儀表板時,您可以: 在儀表板的網格上排列和調整卡片大小。 變更卡片的視覺化選項,而不影響底層問題。 將卡片連接到儀表板篩選器,以篩選問題的結果。 設定卡片的點擊行為,以變更使用者點擊卡片時發生的情況。 雖然儀表板上的這些卡片看起來時尚且視覺上吸引人很棒,但更重要的是您傳達了人們需要看到的資訊,而沒有太多多餘的裝飾。儀表板上卡片的範例 圖 1 中的儀表板包含文字卡片,作為標題和描述,以及包含數字、趨勢、折線圖和區域地圖的卡片:圖 1. 儀表板上包含問題和文字的卡片。卡片和 Metabase API 在 Metabase API 中,api/card 路由指的是問題,而不是儀表板上的卡片。您仍然可以使用 API 來編輯和取得有關儀表板上卡片的資訊(例如使用 api/dashboard),但請記住這種區別,並查看 API 文件以取得完整的路由和端點清單。

閱讀更多

值的清單,通常屬於特定欄位,在表格中垂直顯示。

什麼是欄?欄是值的清單,通常屬於特定欄位,在表格中垂直顯示。在關聯式資料庫表格中,欄中的值各自對應於不同的記錄。欄中的值共用一個資料類型。也就是說,如果欄的資料類型為整數,則表示該欄中的每個值都必須是整數。可能還有其他限制,與格式、字元長度或該值是否為強制性有關。欄範例 這是 Metabase 範例資料庫中「訂單」表格的圖片,其中「建立於」欄位已醒目提示。「建立於」欄位的資料類型為「日期時間」,此欄中的值各自對應於單個訂單的時間戳記。圖 1. 「訂單」表格的外觀,其中「建立於」欄位已醒目提示。欄與欄位 雖然欄和欄位在技術上不是同一個東西,但通常可以互換使用這些術語。請參閱欄與欄位。但是,請記住,欄並不總是直接對應於資料庫中的欄位。例如,您可能想要在 Metabase 中建立一個自訂欄,其中包含計算值,例如顯示每個訂單折扣百分比的欄。您可以透過告訴 Metabase 計算「折扣」除以「小計」並在新欄中顯示結果值來建立此自訂欄。欄式儲存 雖然許多傳統的關聯式資料庫將資料儲存為列,並且通常最適合用於保存交易資料,但某些資料庫(例如針對分析最佳化的資料倉儲)使用欄式儲存。欄式資料庫(也稱為面向欄的資料庫)會將欄的值物理性地儲存在一起,而不是根據整個列建立索引。這可以大幅加快分析查詢和彙總函數的速度,因為這些查詢將能夠從磁碟上的相同位置檢索相似的資料,而不是執行跨資料庫的大量讀取以從個別記錄中提取欄的值。

閱讀更多
國家/地區代碼

識別國家/地區的標準雙字母或三字母代碼。

什麼是國家/地區代碼?國家/地區代碼是一個標準的雙字母或三字母字串,用於識別國家/地區。Metabase 支援 alpha-2 國家/地區代碼。國家/地區代碼清單 AD 安道爾 AE 阿拉伯聯合大公國 AF 阿富汗 AG 安地卡及巴布達 AI 安圭拉 AL 阿爾巴尼亞 AM 亞美尼亞 AO 安哥拉 AQ 南極洲 AR 阿根廷 AS 美屬薩摩亞 AT 奧地利 AU 澳洲 AW 阿魯巴 AX 奥兰群岛 AZ 阿塞拜疆 BA 波士尼亞與赫塞哥維納 BB 巴貝多 BD 孟加拉 BE 比利時 BF 布吉納法索 BG 保加利亞 BH 巴林 BI 蒲隆地 BJ 貝南 BL 聖巴泰勒米 BM 百慕達 BN 汶萊 BO 玻利維亞 BQ 波内赫、聖尤斯特歇斯和薩巴 BR 巴西 BS 巴哈馬 BT 不丹 BV 布威島 BW 波札那 BY 白俄羅斯 BZ 貝里斯 CA 加拿大 CC 可可(基林)群島 CD 剛果民主共和國 CF 中非共和國 CG 剛果 CH 瑞士 CI 象牙海岸 CK 庫克群島 CL 智利 CM 喀麥隆 CN 中國 CO 哥倫比亞 CR 哥斯大黎加 CU 古巴 CV 維德角 CW 古拉索 CX 聖誕島 CY 賽普勒斯 CZ 捷克 DE 德國 DJ 吉布地 DK 丹麥 DM 多米尼克 DO 多明尼加 DZ 阿爾及利亞 EC 厄瓜多 EE 愛沙尼亞 EG 埃及 EH 西撒哈拉 ER 厄利垂亞 ES 西班牙 ET 衣索比亞 FI 芬蘭 FJ 斐濟 FK 福克蘭群島 (馬爾維納斯群島) FM 密克羅尼西亞聯邦 FO 法羅群島 FR 法國 GA 加彭 GB 大不列顛及北愛爾蘭聯合王國 GD 格瑞那達 GE 喬治亞 GF 法屬圭亞那 GG 根西 GH 迦納 GI 直布羅陀 GL 格陵蘭 GM 甘比亞 GN 幾內亞 GP 瓜地洛普 GQ 赤道幾內亞 GR 希臘 GS 南喬治亞與南桑威奇群島 GT 瓜地馬拉 GU 關島 GW 幾內亞比索 GY 蓋亞那 HK 香港 HM 赫德島和麥克唐納群島 HN 宏都拉斯 HR 克羅埃西亞 HT 海地 HU 匈牙利 ID 印尼 IE 愛爾蘭 IL 以色列 IM 曼島 IN 印度 IO 英屬印度洋領地 IQ 伊拉克 IR 伊朗 IS 冰島 IT 義大利 JE 澤西 JM 牙買加 JO 約旦 JP 日本 KE 肯亞 KG 吉爾吉斯 KH 柬埔寨 KI 吉里巴斯 KM 科摩羅 KN 聖克里斯多福及尼維斯 KP 北韓 KR 韓國 KW 科威特 KY 開曼群島 KZ 哈薩克 LA 寮國 LB 黎巴嫩 LC 聖露西亞 LI 列支敦斯登 LK 斯里蘭卡 LR 賴比瑞亞 LS 賴索托 LT 立陶宛 LU 盧森堡 LV 拉脫維亞 LY 利比亞 MA 摩洛哥 MC 摩納哥 MD 摩爾多瓦 ME 蒙特內哥羅 MF 法屬聖馬丁 MG 馬達加斯加 MH 馬紹爾群島 MK 北馬其頓 ML 馬利 MM 緬甸 MN 蒙古 MO 澳門 MP 北馬里亞納群島 MQ 馬丁尼克 MR 茅利塔尼亞 MS 蒙哲臘 MT 馬爾他 MU 模里西斯 MV 馬爾地夫 MW 馬拉威 MX 墨西哥 MY 馬來西亞 MZ 莫三比克 NA 納米比亞 NC 新喀里多尼亞 NE 尼日 NF 諾福克島 NG 奈及利亞 NI 尼加拉瓜 NL 荷蘭 NO 挪威 NP 尼泊爾 NR 諾魯 NU 紐埃 NZ 紐西蘭 OM 阿曼 PA 巴拿馬 PE 秘魯 PF 法屬玻里尼西亞 PG 巴布亞紐幾內亞 PH 菲律賓 PK 巴基斯坦 PL 波蘭 PM 聖皮埃爾和密克隆 PN 皮特肯群島 PR 波多黎各 PS 巴勒斯坦 PT 葡萄牙 PW 帛琉 PY 巴拉圭 QA 卡達 RE 留尼旺 RO 羅馬尼亞 RS 塞爾維亞 RU 俄羅斯 RW 盧安達 SA 沙烏地阿拉伯 SB 索羅門群島 SC 塞席爾 SD 蘇丹 SE 瑞典 SG 新加坡 SH 聖赫勒拿、阿森松和特里斯坦-達庫尼亞 SI 斯洛維尼亞 SJ 斯瓦爾巴群島和揚馬延 SK 斯洛伐克 SL 獅子山 SM 聖馬力諾 SN 塞內加爾 SO 索馬利亞 SR 蘇利南 SS 南蘇丹 ST 聖多美普林西比 SV 薩爾瓦多 SX 荷屬聖馬丁 SY 敘利亞 SZ 史瓦帝尼 TC 土克斯及開科斯群島 TD 查德 TF 法屬南部領地 TG 多哥 TH 泰國 TJ 塔吉克 TK 托克勞 TL 東帝汶 TM 土庫曼 TN 突尼西亞 TO 湯加 TR 土耳其 TT 千里達及托巴哥 TV 吐瓦魯 TW 台灣 TZ 坦尚尼亞 UA 烏克蘭 UG 烏干達 UM 美國本土外小島嶼 US 美國 UY 烏拉圭 UZ 烏茲別克 VA 梵蒂岡 VC 聖文森及格瑞那丁 VE 委內瑞拉 VG 英屬維京群島 VI 美屬維京群島 VN 越南 VU 萬那杜 WF 瓦利斯和富圖納 WS 薩摩亞 YE 也門 YT 馬約特 ZA 南非 ZM 尚比亞 ZW 辛巴威

閱讀更多

D

儀表板

一種資料視覺化工具,用於保存重要的圖表和文字,收集並排列在單個螢幕上。

什麼是儀表板?儀表板是一種資料視覺化工具,用於保存重要的圖表和文字,收集並排列在單個螢幕上。儀表板提供 KPI 和其他業務指標的高階、集中式檢視,並且可以涵蓋從整體業務健康狀況到特定專案或活動的成功等所有內容。這個詞來自汽車儀表板,它 — 就像它的商業智慧對應物一樣 — 提供有關重要功能 (只是針對煞車油液位低之類的事情,而不是您最近的行銷活動表現如何) 的狀態更新和警告。儀表板與報表 儀表板與報表並不完全相同,儘管您有時會聽到人們將儀表板稱為報表。不同之處在於,儀表板往往更容易閱讀和一目瞭然,而傳統報表則提供對主題更詳細的檢視。與傳統報表不同,儀表板可在單個螢幕上檢視,並且通常包含一些互動元素。您可能不會列印出儀表板來閱讀,這對於依賴靜態歷史資料的傳統報表來說更有意義。但是,就像傳統報表一樣,您可以按照設定的排程發送更新的儀表板,例如使用 Metabase 中的儀表板訂閱。Metabase 中的儀表板 在 Metabase 中,儀表板由包含問題或文字的卡片組成。在 Metabase 中建立和編輯儀表板時,您有很多選項,例如: 排列和調整卡片大小以符合您想要的儀表板設計。 透過設定自訂點擊行為並將一個儀表板連結到另一個儀表板,使您的儀表板具有互動性。 新增篩選器小工具並將它們連接到個別卡片上的特定欄位。 使用 Markdown 來註解您的儀表板,包含文字或 GIF。 透過連結或將其嵌入到您的網站或應用程式中來分享您的儀表板。儀表板範例 圖 1 顯示了 Metabase 中儀表板的範例,其中包含三個問題卡片和三個篩選器小工具。如果有人在篩選器小工具之一中輸入客戶 ID、客戶名稱或日期,圖表將相應地調整以反映該新增的篩選器。圖 1. 包含三個問題卡片和三個篩選器小工具的儀表板。

閱讀更多
資料字典

一份文件,描述資料庫中的表格、欄位和其他元素,並解釋其含義和來源。

什麼是資料字典?資料字典是一份文件,描述資料庫中的表格、欄位和其他元素,並解釋其含義和來源。資料字典是資料庫中繼資料的儲存庫,儲存人們需要理解和使用該資料的管理資訊。將它們想像成典型的字典,但資料字典不是包含語言中的每個單字,而是包含關於組成資料庫的物件的定義和資訊。最新且全面的資料字典有助於確保每個人都對某些欄位或表格在實務中的含義保持一致的理解。資料字典還可以幫助確保不同的部門都一致地使用這些術語。資料字典通常是一個單獨的檔案或一組檔案,與它們描述的資料庫一起儲存。雖然資料庫資料字典的某些方面可能對所有資料庫使用者都可存取(例如每個人都需要知道的重要描述),但其他部分可能僅資料庫管理員可查看(例如關於資料庫物理實作的技術細節)。Metabase 中的資料字典 在 Metabase 中,「資料參考」部分充當資料字典。資料字典中包含什麼?資料字典收集和儲存與資料庫相關聯的中繼資料,通常包含以下資訊: 表格和欄位描述 資料類型 完整性約束 命名慣例 檔案位置 雖然資料字典的確切格式將取決於您的組織和資料集的複雜性,但常見的做法是將資料字典格式化為表格或一系列表格,其中包含欄位名稱、描述、資料類型、字元長度以及是否允許空值等中繼資料欄位。您可以使用簡單的試算表、關聯式資料庫軟體,甚至文字文件來建立資料目錄。資料字典與結構描述與資料目錄 這裡與資料庫的結構描述有一些重疊,但一般來說,結構描述定義了資料庫的結構以及表格及其欄位如何組合在一起,而資料字典則提供了關於該資料的上下文資訊。您可能也聽說過資料目錄,這是另一個類似的概念。一些組織利用資料目錄來更好地促進其資料的發現和分析;它們就像具有一些附加功能和功能的資料字典,比傳統的基於文件的資料字典更進一步。

閱讀更多
資料湖

資料湖是用於儲存結構化和非結構化資訊的地方,通常以檔案或 Blob 的形式。

什麼是資料湖?資料湖是用於儲存結構化和非結構化資訊的地方,通常以檔案或 Blob 的形式。您可以將資料湖視為所有資料的傾倒場,無論其結構、格式或預期用途如何。「湖」的概念在很大程度上是行銷術語,但水生比較來自這樣一個想法,即資料湖中的資訊以比更嚴格和階層式的資料倉儲更「自然」的狀態流動。而且由於它們可以保存不需要遵循特定結構描述的原始資料,因此當擴展到儲存大量資訊(達到 PB 級別)時,資料湖往往具有成本效益。由於一開始不需要定義結構描述,因此資料湖的設定可能很簡單;您可以載入資料以用於特定用途,或僅僅為了將來備用而保留資料,即使您尚不確定需要對其執行哪些類型的查詢。但是,一旦您完成設定,配置使您的資料湖真正有用的工具可能會變得複雜且昂貴 — 通常需要資料工程師的專業知識。這些工程師將根據需要設定 ETL,甚至在資料湖的部分資料上訓練機器學習模型。資料湖依賴於「讀時結構描述」系統,這表示資料只有在從資料湖中提取以進行查詢時才會根據結構描述進行驗證,而不是在首次寫入時。然而,這確實意味著從資料湖中提取和使用資料需要更多的工作。而且,僅僅因為資料湖允許更大的彈性,並不意味著您應該將所有資料治理都拋到九霄雲外;輸入資料湖的資訊仍然應該具有良好的品質,經過清理和註解,以便您的 ETL 或查詢引擎(以及因此,需要資料的人)可以很好地利用它。何時使用資料湖 如果您需要分析大量的半結構化和/或非結構化資訊(例如,如果您是一家 IoT 公司),那麼資料湖可能是一個不錯的選擇。由於在寫入資料時無需強制執行總體結構描述,因此如果您同時處理許多不同類型的資料來源(例如串流資料、結構化應用程式資料庫、來自 IoT 裝置的資料、社群媒體或網路流量),資料湖也可能是一個有效的解決方案。最終,具有複雜資料需求的組織可能不會完全依賴資料湖或資料倉儲(甚至資料湖倉),而是建構可以結合兩者的資料架構,同時考慮組織的總體策略、使用者的需求以及這些使用者需要執行的查詢類型。設定資料湖 假設您想要設定資料湖。概括來說,這個過程看起來像這樣: 選擇雲端儲存供應商。有一些資料湖服務可以幫助您設定您需要的各種層級和工具,但其核心是您的「湖」是您的儲存層 — 無論您將結構化和非結構化資料一起保存在哪裡(例如在 AWS S3 或 Microsoft Azure 中)。 識別您的資料來源。這些可能是結構化的(例如應用程式資料庫)、半結構化的(例如 XML 或 JSON 檔案)或非結構化的(例如社群媒體貼文、圖片或文字文件)。 清理和擷取來自這些來源的資料。在此階段,您將註解這些資料來源(尤其是半結構化和非結構化的資料來源),新增中繼資料並根據您可能對該資料提出的問題類型對其進行標記和分類。清理完資料後,這些註解過的副本將載入到您的資料湖中,可能採用欄式格式(例如 Parquet),這種格式更適合分析查詢。 根據需要建立 ETL 並查詢您的資料湖。由於資料湖的格式混合且通常是非結構化的,因此工程師和資料科學家通常是直接存取資料湖的人員。像您的資料分析師這樣的人員將透過使用 Presto 或 SparkSQL 等查詢引擎來查詢資料湖,這些引擎在資料湖上執行 ETL,定期組織資料,以便可以透過 SQL 查詢資料。這些查詢在資料的清理、註解、欄式副本上執行,而不是在原始資料來源本身上執行(原始資料和清理後的資料都儲存在您的資料湖中)。

閱讀更多
資料模型

任何組織和標記資訊的模式。

什麼是資料模型?「資料模型」一詞用於描述任何組織和標記資訊的模式。人們通常會以廣義的方式使用「資料模型」來指稱綱要、衍生表(檢視)或 ERD 等概念。良好的資料模型可以幫助人們更快找到東西。例如,購物中心指南是一種資料模型,用於組織購物中心內商店的資訊。它按類別或位置對商店進行分組和標記,並透過在地圖上顯示商店位置來解釋商店之間的關聯性。相較於獨自一人在購物中心閒逛,或閱讀隨機的商店名稱列表,這種模型讓人們更容易找到要去的地方。資料模型範例 在資料模型建立過程中做出決策時,最好先弄清楚人們想要尋找什麼,以及為什麼要尋找。假設我們要建立一個資料模型來儲存電影相關資訊,以幫助人們尋找新的觀看內容。您可以將此資料模型視為一個範本,可用於填寫任何電影的資訊。此範本應完成兩件事: 代表電影中對尋找特定電影有用的部分。例如,人們可能會依據標題、導演、類型或演員搜尋想看的電影。 描述各部分之間的關聯性,以便根據一組資訊輕鬆查找另一組資訊。例如,範本應確保任何電影標題都與至少一位導演相關聯。 最簡單的資料模型類型是將相關部分組合到一個範本中,並包含一些關於如何填寫範本的資訊。例如,以下範本可用作任何電影的資料模型。「電影」 標題:任何文字(必填)。 導演:姓名列表(必填)。 類型:任何文字(選填)。 演員:姓名列表(選填)。 此模型可以透過新增更多與電影相關的部分來擴展,例如發行年份或片長。如果現有部分對查找內容有幫助,我們也可以擴展這些部分。例如,人們可能想依據電影中演員的特定資訊來搜尋電影,例如他們獲得的任何演技獎項。由於「演員」僅追蹤演員姓名,我們可以將獎項資訊拆分到新的資料模型中。「演技獎項」 獎項:演技獎項名稱(必填)。 頒獎年份:年份(必填)。 演員:名字和姓氏(選填)。 由於演員姓名同時出現在兩個模型中(在「演員」或「演員」下),因此可以建立「電影」模型和「演技獎項」模型之間的關聯性。當這兩個範本都填寫了真實的電影和獎項資訊後,人們就能夠依據特定獎項查找電影。 上述書寫範本是思考資料模型資訊分解方式的基本方法,但您可以根據使用案例遵循許多最佳實務。您可以在下一節中找到常見資料模型格式的範例。 常見的資料模型 綱要 綱要是概念性資料模型。資料庫工作人員會使用綱要。資訊以具名的欄位和資料類型表示。關聯性由表格或 JSON 物件等結構描述。 ERD ERD 是視覺化資料模型。需要討論資訊管理和架構的人員會使用 ERD。資訊以不同的形狀表示,例如矩形或菱形。關聯性由不同的線條描述,例如箭頭或虛線。 Metabase 模型 Metabase 模型是一種資料模型,您可以從問題或 SQL 查詢建立並儲存。資訊以具名的欄位和任何相關的中繼資料表示。關聯性由問題或 SQL 查詢中使用的邏輯描述。 人們實際上如何使用「資料模型」一詞 您可能會發現不同的團隊非正式地使用「資料模型」一詞來表示不同的事物: 編寫 SQL 的人員可能會使用它來指稱衍生表或檢視。 程式設計人員可能會使用它來指稱綱要或 ERD。 Metabase 中的資料模型 如果您是 Metabase 管理員,您將可以存取 Metabase 中的「資料模型」頁面。您在此處進行的變更將影響資料在整個 Metabase 中的顯示方式。「資料模型」頁面和 Metabase 模型之間有什麼區別?「資料模型」位於連接到 Metabase 的原始資料倉儲表格之上。它是您可以使用的模型化層,用於清理您的組織可以看到的表格。您可以將其視為在資料世界和業務世界之間「翻譯」資訊的一種方式,方法是指定人類可讀的名稱並儲存區段或指標的常用定義。Metabase 模型位於「資料模型」之上。它們可以由任何有權限使用基礎資料庫表格的人員建立。

閱讀更多

E

ERD

ERD 或實體關係圖,是以圖形方式表示資料庫中表格如何相互連接。

什麼是 ERD?ERD 或實體關係圖,是以圖形方式表示資料庫中表格如何相互連接。ERD 以高階方式顯示資料庫的結構(或綱要)。ERD 是設計新資料模型或識別現有綱要中問題的有用工具。實體關係圖基本上只是方塊(您的實體或表格)與線條(它們之間的關係)連接。您的資料庫軟體可能具有一些內建功能來建立 ERD,但您也可以使用您最喜歡的任何設計軟體,或採用類比方式並在紙上繪製 ERD。如何繪製 ERD 並不重要;真正重要的是確保您的圖表準確且合乎邏輯,以便您可以為您的特定使用案例設計最有效的資料庫。ERD 範例 以下是 ERD 範例,顯示 Metabase 的範例資料庫: 圖 1. Metabase 範例資料庫的簡單 ERD。四個表格「Orders」、「Products」、「People」和「Reviews」是我們的實體,而連接線顯示它們之間的三個一對多關係。ERD 設計與符號 繪製實體關係圖草圖時,每個方塊都應包含該表格的名稱、欄位和索引鍵資訊(主索引鍵和外來索引鍵)等資訊。您會在上面的範例中注意到,每個表格的索引鍵資訊都以 (PK) 和 (FK) 標示在欄位名稱旁邊。每個實體之間的線條類型說明每個表格與另一個表格的關係類型。不同的組織和產業對 ERD 符號使用不同的慣例,但最常見的慣例之一是「烏鴉腳符號」,之所以如此命名,是因為三叉符號(用於「多對多」的符號)看起來有點像鳥的腳。圖 2 顯示烏鴉腳符號中使用的常見符號及其對應的關係類型: 圖 2. 烏鴉腳符號中用來表示不同表格關係類型的線條。

閱讀更多
嵌入

將一個應用程式的某些功能放置在另一個應用程式內。Metabase 使用 iframe 嵌入問題、儀表板或(在某些方案中)完整的 Metabase 應用程式。

什麼是嵌入?嵌入是將一個應用程式的某些功能放置在另一個應用程式內的過程。在分析中,這通常表示將資料視覺化整合到父應用程式中,讓人員可以在其自身應用程式的上下文中檢視圖表。嵌入也可以為父應用程式節省時間和資源,讓團隊可以利用現有的分析工具,而不是從頭開始建置所有內容。雖然不是嵌入的唯一方法,但在 Metabase 中嵌入涉及使用 iframe(內嵌框架)將問題、儀表板或(在某些方案中)完整的 Metabase 應用程式放置在另一個應用程式中。嵌入 Metabase 圖表和儀表板 嵌入不僅僅是將圖表的靜態影像放置到您的網站或應用程式中。相反地,iframe 會在您的主要瀏覽器或應用程式內建立巢狀瀏覽器,指向其自身的獨立 URL。這樣,嵌入的 Metabase 圖表或儀表板會保持最新狀態。當您檢視嵌入的圖表時,您仍然看到的是 Metabase 圖表本身 — 只是巢狀於父應用程式中。根據安全性設定,您的個別嵌入圖表和儀表板可以是公開或安全嵌入。您也可以設定或鎖定參數,以影響人們在這些圖表上看到的內容,如圖 1 所示: 圖 1. 在發佈儀表板以進行嵌入之前,使參數可編輯並啟用深色模式。嵌入完整的 Metabase 應用程式 互動式嵌入僅適用於 Pro 和 Enterprise 方案(包括自架設和 Metabase Cloud)。透過某些方案,您可以將完整的 Metabase 體驗嵌入到您的應用程式中。互動式嵌入對於多租戶分析特別有用,例如為您的客戶提供他們可以檢視和互動的特定報告,同時都保持在您的應用程式中。

閱讀更多

F

篩選器

篩選器是一種述詞運算式,可根據某些宣告的條件限制查詢的結果。

什麼是篩選器?篩選器是一種述詞運算式,可根據某些宣告的條件限制查詢的結果。例如,您可能想要限制「Orders」表格中的記錄,以便您只看到「Total」欄位值超過 100 的訂單。我們可以使用述詞運算式「Total > 100」來篩選訂單。對於每個記錄,查詢評估該運算式解析為 true 還是 false,並據此縮小結果範圍。因此,在本例中,如果記錄的總計大於 100,則該記錄會包含在結果中。在 SQL 中,查詢使用 WHERE 子句篩選,例如 WHERE Total > 100。您也可以在 SQL 中使用 HAVING 子句篩選彙總,例如 HAVING AVG(rating) > 3.5。Metabase 中的篩選器 篩選您問題的結果。將篩選器新增至您的儀表板。設定交叉篩選,以便儀表板篩選器在有人點擊卡片時更新。連結儀表板上的篩選器,以根據另一個篩選器的值限制結果。在本機 SQL 查詢中設定智慧型欄位篩選器,這些篩選器知道根據欄位類型和資料行資料呈現哪些篩選選項。建立篩選器小工具,作為儀表板上的搜尋功能,例如用於查找工具。Metabase 中的篩選器範例 圖 1 顯示 Metabase 範例資料庫中的「Products」表格,其中新增了一個篩選器,將結果縮小到僅包含「Title」欄位包含「Hat」一詞的產品: 圖 1. Metabase 中新增一個篩選器的問題。

閱讀更多

G

H

I

J

聯結

關聯式資料庫中兩個表格的結果組合。

什麼是聯結?聯結是關聯式資料庫中兩個表格的結果組合。雖然「聯結」一詞聽起來像是您正在合併表格本身,但聯結實際上是從兩個(或多個)不同表格中取得列,並傳回一組新的列,這些列組合了來自這些表格的資料行,使用實體索引鍵和外來索引鍵來判斷哪些列相關。聯結類型 有四種 SQL 聯結類型: 左外部聯結:選取表格 A 中的所有記錄,以及表格 B 中符合聯結條件的記錄(如果有的話)。 右外部聯結:選取表格 B 中的所有記錄,以及表格 A 中符合聯結條件的記錄(如果有的話)。 內部聯結:僅選取表格 A 和 B 中符合聯結條件的記錄。 完整外部聯結:選取兩個表格中的所有記錄,無論是否符合聯結條件。 Metabase 中的聯結範例 Metabase 預設為在查詢產生器中提出的問題使用左外部聯結,但內部聯結是本機 SQL 查詢的預設值(也就是說,如果您在查詢中只使用 JOIN 而不是指定聯結類型)。假設我們想要從 Metabase 範例資料庫中的「People」和「Orders」表格傳回結果,例如包含訂單 ID、下訂單人員姓名及其使用者 ID 的表格。查詢產生器聯結 圖 1 顯示此聯結在 Metabase 筆記本編輯器中的外觀。我們也會想要挑選哪些資料行可見,這樣就不會顯示兩個表格中的每個資料行。{% include image_and_caption.html url=”/glossary/images/join/join-notebook-editor.png” description=”圖 1. 查詢產生器中的聯結。” %} 本機 SQL 查詢聯結 如果我們要以 SQL 撰寫相同的查詢,它可能看起來像這樣: SELECT orders.id AS "Order ID", people.name AS "Name", people.id AS "User ID" FROM people JOIN orders ON people.id = orders.user_ID 在此,我們已識別聯結發生的位置(在本例中,在 People → ID 和 Orders → User_ID、實體索引鍵和外來索引鍵處聯結)。

閱讀更多

K

L

M

元資料

描述資料的資訊,使其更容易找到、操作和使用該資料。

什麼是metadata?Metadata(metadata)是描述資料的資訊,使其更容易查找、操作和使用這些資料。Metadata 範例:想想您電腦上的檔案,例如數位影像或文字文件。在許多其他屬性中,該檔案具有名稱、檔案類型、副檔名、大小以及記錄建立、上次開啟和上次修改時間的時間戳記。這一切都是 metadata — 這些屬性都不是檔案本身,但它們確實告訴您關於檔案的重要資訊。理解和追蹤這些 metadata 可以告訴您和您的電腦該如何對檔案進行排序和處理,例如指示您的電腦在開啟該檔案時應使用哪個軟體。Metadata 的存在超越了分析領域,幾乎無處不在。它在各行各業都很重要,從攝影到圖書館再到電視廣播,因為任何處理或產生資料的組織都需要能夠查找和組織資料。Metadata 有時是人類可讀的(例如書名或資料庫中的欄位名稱),但也可能是機器可讀的,例如 XML 或 JSON 檔案。關聯式資料庫和資料倉儲中的 Metadata 在關聯式資料庫中,metadata 包括構成該資料庫綱要的所有資訊,例如以下內容: 資料表名稱 欄位名稱 實體鍵 外來鍵 資料類型 檢視 完整性約束 然而,資料庫 metadata 不僅僅是其綱要。使用者資訊、業務定義、資料表和欄位描述、資料庫大小和儲存資訊也都是重要的 metadata。根據您的資料庫配置方式,您可以將一些 metadata 儲存在資料庫本身(例如資料表和欄位名稱)中,或儲存在單獨的檔案或一組檔案中,其中包含資料庫的所有 metadata。這稱為資料字典。在資料倉儲中,metadata 的作用就像索引或目錄,定義儲存在資料倉儲中的所有物件,以及有關各種 ETL 作業的資訊,這些作業會操作資料,使其對需要資料的人員有用。關於 ETL 的 metadata 可能包括作業名稱、其用途、執行時間和頻率、作業使用的資料以及資料的最終位置。如果該作業已正確註解了大量有用的 metadata,那麼您或同事就可以更輕鬆地理解該作業的確切作用和原因。在 Metabase 中使用 metadata Metadata 在 Metabase 中扮演著重要的角色!例如,指定欄位的欄位類型(本身就是 metadata 的一種形式)讓 Metabase 了解該欄位的實際含義,以便 Metabase 可以知道如何格式化該欄位或顯示哪種類型的視覺化。模型也利用了 metadata。在建立模型時,用描述註解欄位可以大大幫助人們更好地理解您的資料。圖 1 顯示了當滑鼠懸停在該模型中的欄位上時,這些描述是如何顯示的: {% include image_and_caption.html url=”/glossary/images/metadata/hover-description.png” description=”圖 1. 在資料參考區段中檢視產品資料表的 metadata。” %} 最後,您可以隨時在 Metabase 資料瀏覽器的資料參考區段中檢視資料表 metadata。圖 2 顯示了範例資料庫的產品資料表的外觀。如您所見,此檢視提供了有用的資訊,例如欄位名稱、描述、欄位類型和資料類型: {% include image_and_caption.html url=”/glossary/images/metadata/metadata-data-reference.png” description=”圖 2. 在資料參考區段中檢視產品資料表的 metadata。” %}

閱讀更多
指標 (Metric)

指標 (Metric) 是對量值 (measure) 執行的計算。在 Metabase 中,大寫 M 的指標 (Metric) 是根據單一資料表儲存的彙總,可以包含或不包含篩選條件。

什麼是指標 (metric)?指標 (metric) 是對量值 (measure) 執行的計算。指標 (Metrics) 是資料的量化屬性,並應用了一些摘要。指標 (Metric) 與量值 (measure) 的比較 您會看到術語「指標 (metric)」和「量值 (measure)」可以互換使用,它們的概念非常相似,都指的是來自(或從資料中提取的)一些數值。但是,有一個重要的區別:量值 (measures) 是原始、未彙總的資料,而指標 (metrics) 是彙總(或摘要)的資料。例如,雖然「折扣 (Discount)」之類的欄位是量值 (measure),但「折扣 (Discount)」欄位的標準差將是指標 (metric)。有些人也會使用「指標 (metric)」來表示專門與績效目標相關的量值 (measures) 計算,例如 CRR(客戶流失率)或 NRR(淨收入留存率)。根據此定義,指標 (metric) 基本上是 KPI(關鍵績效指標),具體取決於是否有人將該指標 (metric) 指定為「關鍵」。指標 (metric) 範例 如果我們想確定 Metabase 範例資料庫中訂單小計的平均值,我們可以透過摘要來完成,如圖 1 所示: {% include image_and_caption.html url=”/glossary/images/metric/example-metric-summarization.png” description=”圖 1. 依小計平均值(指標 (metric))摘要「訂單 (Orders)」資料表。” %} 在這種情況下,「小計 (Subtotal)」是量值 (measure),但平均小計是我們的指標 (metric)。Metabase 中的指標 (Metrics) 在 Metabase 中,大寫 M 的指標 (Metric) 是根據單一資料表儲存的彙總,可以包含或不包含篩選條件。如果您的團隊需要定期參考和使用某些彙總(例如收入),您可能需要在 Metabase 中建立指標 (metric),以便您可以在提問時存取它,而無需每次都重新建立該彙總。

閱讀更多

N

正規化 (Normalization)

在關聯式資料庫中結構化資訊以減少冗餘的過程。

什麼是正規化 (normalization)?資料正規化 (Data normalization) 是在關聯式資料庫中結構化資訊以減少冗餘的過程。正規化 (Normalizing) 資料可確保資料庫中的資料表盡可能高效地運作,消除歧義,以便每個資料表都能服務於單一用途。從反正規化 (denormalized) 資料庫移至正規化 (normalized) 資料庫時,您可能需要分解現有的資料表以建立更多更小的資料表。這些新資料表的焦點會更狹窄,並將透過實體鍵和外來鍵連結到其他資料表。正規化 (Normalization) 的附加好處是減少整體資料庫大小並簡化資料庫維護,因為您不再在多個位置儲存相同的資訊。資料正規化範例 正規化 (Normalization) 過程是根據相互建立的規則執行的,這些規則稱為正規化形式 (normal forms)。第一正規化形式 (1NF) 規定欄位不應在單一儲存格內儲存多個值,並且資料表中的每個欄位都應是唯一的。以下是一個範例: 反正規化資料表 產品 ID (Product_ID) 產品名稱 (Product_name) 產品顏色 1 (Product_color1) 產品顏色 2 (Product_color2) P001 針織開襟衫 (Knit cardigan) 粉紅色 (Pink) 栗色 (Maroon) P002 靴型牛仔褲 (Bootcut jeans) 海軍藍 (Navy)   P003 亞麻背心 (Linen vest) 卡其色 (Camel) 米白色 (Off-white) P004 跑步運動鞋 (Running sneakers) 橘色 (Orange)   您會注意到我們有兩個欄位包含相似的資訊,關於產品顏色。為了使此資料表符合 1NF,我們需要將此資料表分解為兩個可以聯結在一起的單獨資料表。 正規化產品名稱資料表 產品 ID (Product_ID) 產品名稱 (Product_name) P001 針織西裝外套 (Knit blazer) P002 靴型牛仔褲 (Bootcut jeans) P003 亞麻背心 (Linen vest) P004 跑步運動鞋 (Running sneakers) 正規化產品顏色資料表 產品 ID (Product_ID) 產品顏色 (Product_color) P001 粉紅色 (Pink) P001 栗色 (Maroon) P002 海軍藍 (Navy) P003 卡其色 (Camel) P003 米白色 (Off-white) P004 橘色 (Orange) 查看我們的學習文章以取得 2NF 和 3NF 的範例。雖然存在超出這三種形式的正規化形式 (normal forms),但它們的使用在很大程度上是理論性的,前三種形式應足以滿足大多數實際資料庫需求。

閱讀更多

O

P

參數 (Parameter)

一種特殊類型的變數,用於指定查詢的輸入。

什麼是參數 (parameter)?參數 (Parameter) 是一種特殊類型的變數,用於指定查詢的輸入。設定參數 (parameter) 可讓終端使用者輸入值(例如在儀表板或報告中)以變更該查詢傳回的資料,通常是依量值 (measure) 或維度 (dimension) 篩選。參數 (parameter) 會將該值傳遞給正在執行的查詢,並且該查詢的結果將取決於該人員輸入的任何值。參數 (Parameter) 與變數 (variable) 與引數 (argument) 的比較 您可能會看到「參數 (parameter)」與「變數 (variable)」或「引數 (argument)」互換使用,因此值得在此指出一些區別。參數 (Parameter) 是一種變數 (variable);它只是一種將特定輸入值傳遞給正在執行的程式或查詢的變數 (variable)。並非所有變數 (variable) 都是參數 (parameter),儘管 — 您也可能擁有在程式或查詢中設定且任何人都無法在另一端修改的變數 (variable)。引數 (Argument) 指的是程式或查詢執行時傳遞的值本身。例如,如果您將參數 (parameter) 設定為 {% raw %}{{productID}}{% endraw %},並輸入值 34,則您的引數 (argument) 為 34。參數 (Parameter) 定義將有一個輸入值,但輸入值本身就是引數 (argument)。因此,是的,從技術上講,這些術語都不同,但可以互換使用它們,只要您通常指的是將值傳遞到其中以便您可以篩選結果的位置或容器。Metabase 中的參數 (Parameters) 在 Metabase 中,您可以使用篩選器小工具或透過 URL 設定參數 (parameter)。參數 (Parameters) 在 Metabase 中以幾種不同的方式發揮作用: SQL 範本 透過將參數 (parameters) 新增至 Metabase 中的 SQL 查詢,您可以建立 SQL 範本,這些範本會將篩選器小工具新增至這些查詢,讓人員可以在執行該查詢時輕鬆變更該參數 (parameter) 的值。如果我們想在查詢中建立 SQL 範本,以計算使用範例資料庫的「人員 (People)」資料表中每個州的客戶數量,我們將使用: SELECT count(*) FROM people WHERE state = {%raw%}{{State}}{%endraw%} 透過將 {%raw%}{{State}}{%endraw%} 包裹在雙大括號中,我們建立了一個參數 (parameter),該參數 (parameter) 會將篩選器小工具新增至此問題,讓人員可以輸入他們想要的州,而無需變更查詢本身的文字,如圖 1 所示: {% include image_and_caption.html url=”/glossary/images/parameter/parameter-sql-template.png” description=”圖 1. 建立一個 SQL 範本,將篩選器小工具新增至查詢。” %} 儀表板篩選器 儀表板篩選器可讓您設定套用至儀表板的參數 (parameters)。例如,您可以建立一個儀表板篩選器,讓人員輸入「州 (State)」值,並將該篩選器連結到儀表板上問題或卡片中的「州 (State)」欄位。然後,當人員輸入他們想要的值(例如圖 2 中顯示的「北卡羅來納州 (North Carolina)」)時,他們會看到這些卡片相應地變更。 {% include image_and_caption.html url=”/glossary/images/parameter/parameter-dashboard-filter.png” description=”圖 2. 套用「州 (State)」欄位篩選器的儀表板。” %} 當您在儀表板篩選器中輸入值時,您會注意到 URL 會變更以包含該值。 自訂目的地 您也可以在 URL 中插入參數 (parameters),以指示當人員按一下儀表板中的圖表時會發生什麼事。例如,您可以使用卡片結果中的值來設定自訂目的地,以建構一個 URL,將人員導向另一個儀表板或外部網站,並將該 ID 作為 URL 的一部分。也許您有一個儀表板,其中包含追蹤庫存中不同產品銷售情況的問題,以及一個儀表板篩選器,可讓人員輸入他們想要查看的產品。您可以更進一步,將該產品的 ID 傳遞到自訂目的地,使用該 ID 值參數化 URL,並將人員傳送到您網站上的該產品頁面。當您造訪該網站時,其 URL 可能看起來像這樣: https://www.your-website.com/products/id?productID=34 在這種情況下,URL 中的 productID=34 就是您的參數 (parameter)。 嵌入 當將 Metabase 問題和儀表板嵌入到您的應用程式中時,您可以設定參數 (parameters) 以自訂不同使用者在檢視這些嵌入時看到的內容。

閱讀更多
樞紐分析表 (Pivot table)

一種資料視覺化,可摘要資料表的列和欄,並讓您旋轉(樞紐分析)欄。

什麼是樞紐分析表 (pivot table)?樞紐分析表 (Pivot table) 是一種資料視覺化工具,可摘要資料表的列和欄,並讓您旋轉(「樞紐分析 (pivot)」)欄以不同方式檢視這些摘要。摘要列通常是小計或總計,但它們也可以是其他指標 (metrics),例如平均值。這種將欄旋轉 90 度的能力,使該欄中的值成為樞紐分析表本身的欄,在嘗試跨多個維度(例如時間、位置和類別)分析資料時非常有用。 樞紐分析表 (pivot table) 範例 如果我們想查看訂單在一週中不同日期的表現,並按不同的產品類別細分,樞紐分析表 (pivot table) 是絕佳的選擇,因為它將讓我們輕鬆地快速瀏覽大量數值資料。該樞紐分析表 (pivot table) 可能看起來像這樣: {% include image_and_caption.html url=”/glossary/images/pivot-table/pivot-table.png” description=”圖 2. 包含有關四個產品類別在一週中不同日期的表現資訊的樞紐分析表 (pivot table)。” %} 擁有包含一週中每一天總計的摘要列固然很好,但仍然不容易比較不同日期的類別銷售額。但是,如果我們樞紐分析「建立於 (Created At)」欄,使其值成為欄標題,我們的結果看起來像這樣: {% include image_and_caption.html url=”/glossary/images/pivot-table/pivot-table-pivoted.png” description=”圖 2. 我們相同的樞紐分析表 (pivot table),樞紐分析了「建立於 (Created At)」欄,讓我們可以更好地查看資料表中的所有資料。” %} 現在我們可以快速比較不同日期和產品類別的訂單,同時仍然看到兩者的總計,而無需捲動瀏覽長長的列清單。

閱讀更多
述詞 (Predicate)

一種評估結果為 true 或 false 的運算式,例如 quantity > 0。True 和 false 值稱為布林值 (Boolean values)。

什麼是述詞 (predicate)?在 SQL 中,述詞 (predicate) 是一種條件運算式,其評估結果為 true 或 false,例如 quantity > 0。在查詢中包含述詞 (predicate) 可透過根據運算式傳回 true 還是 false 來篩選掉不需要的列,從而縮小結果範圍。述詞 (Predicate) 運算式都包含某種類型的比較元素,例如 =、> 或 <。評估後,產生的 true 和 false 值稱為布林值 (boolean values),儘管並非所有資料庫都支援布林值 (boolean values) 作為資料類型。並非所有資料庫都支援相同的述詞 (predicates) 清單,尤其是超出數學比較的述詞 (predicates)(例如 BETWEEN 或 ISNULL),因此請查看資料庫的文件以確定哪些述詞 (predicates) 適用於您的使用案例。 Null 值:不是零,只是不存在 雖然述詞 (predicates) 通常評估為兩個布林值 (boolean values) 之一(例如 true 或 false),但如果正在評估的欄位完全缺少值,則稱為 null。這並不表示其值為零,而是表示該欄位中不存在任何值。如果您的述詞 (predicate) 運算式要求 quantity > 0,則沒有值的列將不會傳回 true 或 false,而是會傳回 null。 述詞 (predicate) 範例 述詞 (predicate) 的範例是簡單 SQL SELECT 查詢中 WHERE 後面的條件,如下所示: SELECT * from orders WHERE subtotal > 35 在這種情況下,我們的述詞 (predicate) 運算式是 subtotal > 35。Orders 資料表中的每一列在「小計 (Subtotal)」欄位中都有一個值,對於每一列,此述詞 (predicate) 會評估小計是否大於 $35 為 true 或 false。從那裡,我們的查詢只會傳回小計大於 $35 的列。在 Metabase 的查詢產生器 (query builder) 中,您可以在篩選資料時使用述詞 (predicates)。您也可以使用自訂運算式在筆記本編輯器 (notebook editor) 中撰寫自己的述詞 (predicates)。在下面的問題中,我們篩選範例資料庫中的「人員 (People)」資料表,只顯示「州 (State)」欄位等於「蒙大拿州 (Montana)」的記錄,或 state = MT: {% include image_and_caption.html url=”/glossary/images/predicate/predicate-filter.png” description=”圖 1. Metabase 查詢產生器 (query builder) 中的述詞 (predicate) 運算式(或篩選器),它將只傳回「州 (State)」欄位等於「蒙大拿州 (Montana)」(MT) 的記錄。” %}

閱讀更多

Q

查詢產生器 (Query builder)

用於在 Metabase 中提問的圖形介面。

什麼是查詢產生器 (query builder)?在 Metabase 中,查詢產生器 (query builder) 是用於提問的圖形介面。如果您不是 SQL 人員,或者只是喜歡使用按鈕和下拉式選單而不是程式碼來分析資料,查詢產生器 (query builder) 可以滿足您的需求。如果您不完全確定您想從該資料中找出什麼,這些按鈕和下拉式選單可以為您提供一些想法,例如列出您可以新增至起始資料表、模型或儲存問題的篩選器和群組選項。 使用 Metabase 的查詢產生器 (query builder) 提問 您可以使用查詢產生器 (query builder) 以幾種方式提問有關資料的問題: 從資料瀏覽器開始。 使用資料視覺化右側的側邊欄新增篩選器和摘要。 使用查詢產生器 (query builder) 介面從頭開始建立問題。 查詢產生器 (query builder) 為建構問題提供了更大的彈性:除了常規篩選和摘要選項外,您還可以使用自訂運算式來建立更複雜的篩選器和彙總。您還可以聯結資料表、建立自訂欄位,並在視覺化最終產品之前在每個步驟預覽結果。 這些路徑並非互斥 — 您可以從資料瀏覽器開始,視覺化您的資料,使用側邊欄調整您的問題,開啟查詢產生器 (query builder) 進行其他變更,依此類推。 範例:使用查詢產生器 (query builder) 我們將使用查詢產生器 (query builder) 來建構一個使用 Metabase 範例資料庫的問題。假設我們想知道我們的大額訂單(即小計大於 $100 的訂單)是如何按「產品 (Product)」→「類別 (Category)」細分的。圖 1 顯示了我們如何在查詢產生器 (query builder) 中建構此問題: {% include image_and_caption.html url=”/glossary/images/query-builder/notebook-editor.png” description=”圖 1. 使用查詢產生器 (query builder) 提問。” %} 一旦我們視覺化了我們的問題,讓我們新增另一個篩選器,以便我們只查看全價訂單(即未套用折扣的訂單)。圖 2 顯示了我們的查詢產生器 (query builder) 在新增第二個篩選器之前的樣子: {% include image_and_caption.html url=”/glossary/images/query-builder/second-filter.png” description=”圖 2. 在查詢產生器 (query builder) 中視覺化我們的資料時新增第二個篩選器。” %}

閱讀更多
問題 (Question)

在 Metabase 中,問題 (question) 是查詢、其結果及其視覺化。

什麼是問題 (question)?在 Metabase 中,問題 (question) 是查詢、其結果及其視覺化。如果您嘗試在 Metabase 中找出有關資料的某些資訊,您可能正在提出問題 (question),或檢視團隊中其他人建立的問題 (question)。在日常使用中,「問題 (question)」幾乎與「查詢 (query)」同義。 您可以使用 Metabase 中的問題 (questions) 做什麼 您可以使用圖形查詢產生器 (query builder) 或原生查詢編輯器 (native query editor) 在 Metabase 中提出問題 (questions),然後執行以下操作: 將您的問題 (question) 儲存到集合 (collection) 中,以便您可以稍後返回或在其基礎上建立。 將該問題 (question) 新增至相關儀表板。儀表板上的問題 (questions) 稱為卡片 (cards)。 在您的問題 (question) 上設定電子郵件或 Slack 警示。 透過將連結發送給團隊中的人員來分享您的問題 (question) 結果 — 即使是您尚未儲存的問題 (questions) 也是如此。 以 CSV、XLSX 或 JSON 格式下載您的問題 (question) 結果。 將您儲存的問題 (question) 轉換為模型 (model)。 問題 (question) 範例 圖 1 顯示了一個基於 Metabase 範例資料庫的問題 (question) — 我們公司產品的平均評分,按類別細分。在這裡,我們已將此問題 (question) 視覺化為長條圖: {% include image_and_caption.html url=”/glossary/images/question/example-question.png” description=”圖 1. 一個包含一個摘要的範例問題 (question),視覺化為長條圖。” %} 圖 2 顯示了以資料表形式顯示的相同問題 (question) 的外觀: {% include image_and_caption.html url=”/glossary/images/question/example-question-table.png” description=”圖 2. 相同的問題 (question),視覺化為資料表。” %} 問題 (Questions) 和 Metabase API 在 Metabase API 中,您可以使用 api/card 路由編輯和取得有關 Metabase 執行個體中問題 (questions) 的資訊。

閱讀更多

R

記錄 (Record)

一組具有相同結構的相關資料。關聯式資料庫將每個記錄 (record) 儲存為資料表中的列。

什麼是記錄 (record)?記錄 (Record) 是一組具有相同結構的相關資料。就像在傳統試算表中一樣,關聯式資料庫中的記錄 (records) 會儲存為資料表中的水平列,並包含與該資料表的欄位或欄對應的值。記錄 (Records) 通常引用單一單位,無論是客戶、訂單、工作階段還是資料庫捕獲的其他物件。資料庫中的記錄 (record) 通常由其在該資料表的實體鍵欄位中的值識別。 記錄 (record) 範例 讓我們看一下 Metabase 範例資料庫中的「訂單 (Orders)」資料表(圖 1)。 {% include image_and_caption.html url=”/glossary/images/record/orders-table.png” description=”圖 1. 「訂單 (Orders)」資料表,其中每個水平列都是一個記錄 (record),或一組相關資料。” %} 我們看到此資料表中的欄位(欄),例如 ID、「使用者 ID (User ID)」、「產品 ID (Product ID)」、「小計 (Subtotal)」等等。每個記錄 (record) 都有與這些欄位對應的值,並且這些相關屬性共同構成一個記錄 (record)。例如,我們可以看到 ID 為 8 的記錄 (record)(或列)是一個小計為 $68.23、折扣為 $8.65 且建立於 2019 年 6 月 17 日的訂單。ID 為 9 的正下方的記錄 (record) 遵循相同的結構,即使其值不同。我們可以按一下 ID 欄位以取得記錄 (record) 本身的更好視圖,如圖 2 所示: {% include image_and_caption.html url=”/glossary/images/record/record-8.png” description=”圖 2. 檢視 ID 為 8 的訂單的個別記錄 (record)。” %}

閱讀更多
關聯式資料庫 (Relational database)

表格資料的集合,或管理表格資料儲存和檢索的應用程式。

什麼是關聯式資料庫 (relational database)?關聯式資料庫 (Relational database) 是表格資料的集合,或管理表格資料儲存和檢索的應用程式。關聯式資料庫包含資料表,資料表由欄(也稱為欄位)和列(也稱為記錄 (records))組成。您將透過為兩個或多個資料表分配單一欄位來建立資料庫中資料表之間的關係。對於其中一個資料表,該欄位將被指定為實體鍵,而對於其他資料表,它將是外來鍵。透過這些關係,您可以跨資料表查詢資料(可能使用 SQL),而無需重新組織或複製該資料。關聯式資料庫於 1970 年代初期推出,至今仍然是(如果不是最主要的)結構化資料的模型。雖然從技術上講,關聯式資料庫 (relational database) 指的是您的資料本身,而關聯式資料庫管理系統 (relational database management system, RDBMS) 指的是您用於管理該資料的軟體應用程式,但實際上人們可以互換使用這些術語。關聯式模型非常普遍,以至於在許多情況下,「資料庫 (database)」一詞本身就暗示了關聯式資料庫 (relational database),除非另有說明。 關聯式資料庫 (relational database) 範例 Metabase 的範例資料庫(您在我們的文件和教學課程中看到的範例)是 H2 關聯式資料庫 (relational database)。圖 1 顯示了範例資料庫中四個資料表的外觀: {% include image_and_caption.html url=”/glossary/images/relational-database/tables-in-sample-db.png” description=”圖 1. Metabase 的範例資料庫(關聯式資料庫 (relational database))包含四個資料表:「產品 (Products)」、「訂單 (Orders)」、「人員 (People)」和「評論 (Reviews)」。” %}

閱讀更多

S

SQL

一種標準化且廣泛使用的語言,用於存取和操作關聯式資料庫中的資料。

什麼是 SQL? 結構化查詢語言(稱為 SQL)是一種標準化且廣泛使用的語言,用於存取和操作關聯式資料庫中的資料。 使用 SQL 涉及編寫和執行結構化命令(稱為陳述式),這些命令會向資料庫傳達您需要的資訊或您想要變更的內容。 SQL 是已發布的 ANSI 和 ISO 標準,表示對於該語言包含的內容以及其運作方式都有既定的規則。 然而,基於 SQL 的資料庫系統(例如 PostgreSQL、MySQL、SQL Server 等)各自具有稍微不同的功能和自己語法上的怪癖——沒有主要資料庫 100% 符合官方書面標準。 使用 SQL,您可以: 建立和設定資料庫、表格和索引 在資料庫中插入、更新和刪除資訊 從資料庫中檢索資訊(通常稱為查詢) 設定和調整資料庫權限 它的發音是「S.Q.L.」還是「sequel」? 對於發音問題,意見分歧,其中一些意見非常強烈。 當電腦科學家 Donald Chamberlin 和 Raymond Boyce 在 1970 年代初期首次開發語言規範時,他們將其稱為「SEQUEL」(發音為「sequel」),但由於面臨商標爭議,將語言名稱更改為 SQL。 ANSI 和 ISO 標準規定官方發音是首字母縮略詞(「S.Q.L.」),但今天兩種發音都很常見。 因此,請選擇您認為最順耳的發音——只是當有人不同意您的看法時,請不要感到驚訝。 使用 SQL 查詢資料庫 無論多麼先進或複雜,所有 SQL 查詢都涉及告訴資料庫從表格(或多個表格)傳回某些欄位,然後選擇性地指定關於哪些列應包含在這些結果中以及它們應如何呈現的條件。 SQL 不區分大小寫,但您經常會看到人們將保留字(例如,函數和子句,如 SELECT、WHERE、HAVING 或 ORDER BY)大寫。 如果您願意,可以將 SQL 陳述式格式化為單行,但人們通常會將查詢分成多行以提高可讀性。 SQL 查詢範例 以下是一個 SQL 查詢,要求 Metabase 的範例資料庫傳回一個訂單小計大於 $100 的訂單表格: SELECT * FROM orders WHERE subtotal > 100 我們可以將此查詢分解為三個陳述式: SELECT * 告訴資料庫傳回表格中的每個欄位。 FROM orders 告訴資料庫那是哪個表格。 WHERE subtotal > 100 告訴資料庫篩選結果,並且僅傳回小計欄位中的值大於 100 的列。 上述範例查詢是一個非常簡單的查詢; 更進階的查詢可以包含聯結、彙總、CTE 和其他用於提取和組織資料的工具。 Metabase 中的 SQL 您不必在使用 Metabase 提問時編寫 SQL(查詢產生器就是為此而設計的),但如果您偏好 SQL 查詢,則可以使用原生查詢編輯器,以及以下功能: SQL 變數(包括欄位篩選器) SQL 片段 SQL 片段控制項(在某些方案中可用) 並且,如果您選擇使用查詢產生器在 Metabase 中提問,您可以隨時查看支援您的問題的底層 SQL 或將其轉換為原生 SQL 查詢。

閱讀更多
SSO

一種身份驗證 (auth) 設定,允許人們使用一個登入帳戶來存取獨立的應用程式。

什麼是 SSO? SSO 是一種身份驗證 (auth) 設定,允許人們使用一個登入帳戶來存取獨立的應用程式。 這有點像使用您的護照進入不同的國家/地區。 使用 SSO,您不需要為每個帳戶使用一個登入帳戶,就像您不需要攜帶特定於每個國家/地區的不同身分證件旅行一樣。 例如,您可能有兩個不同的登入帳戶,用於您的電子郵件和網路銀行的兩個不同登入頁面。 如果您的電子郵件提供者和銀行的 IT 團隊都設定了 SSO,您就可以使用一個登入頁面和登入帳戶來存取這兩個網站。 {% include image_and_caption.html url=’/glossary/images/sso/google-sign-in.png’ description=”圖 1. 您可能會從其他應用程式中認出這個「使用 Google 登入」提示。 這是使用 Google 登入設定 SSO 的範例。” %} SSO 如何運作? 由於數位身份驗證無法親自完成,因此您在網際網路上的身分會由一項服務檢查,該服務會要求您提供您知道的事物(例如密碼)的證明,或您實際擁有的事物(例如將代碼傳送到您的手機)的證明。 這些證明片段稱為身分驗證因素。 最常見的身份驗證方式是透過單一身份驗證因素,例如密碼。 如果您新增另一個因素,例如電話號碼,您將獲得雙因素身份驗證 (2FA)。 自然地,您可以繼續新增因素(電子郵件、驗證應用程式等),以獲得多因素身份驗證 (MFA)。 SSO 不是使用您知道或擁有的資訊,而是使用稱為身份驗證權杖的身分驗證因素,該權杖屬於 SSO 提供者。 身份驗證權杖是當您登入 SSO 提供者時產生的唯一、匿名資訊片段。 權杖會暫時儲存在您的瀏覽器中(例如瀏覽器 Cookie)或提供者的伺服器上,並且僅在一段時間內有效——通常直到您關閉瀏覽器,或在您的安全團隊設定的到期時間範圍內。 當您前往設定了 SSO 的應用程式時,它會自動向 SSO 提供者請求身份驗證權杖,而不是要求您登入。 如果權杖仍然有效(您已在同一個工作階段中登入 SSO 提供者,並且權杖尚未過期),則您的身分會被視為已驗證,並且您將被允許進入該應用程式。 如果權杖已失效,系統會提示您使用 SSO 提供者登入以建立新的權杖。 SSO 在更廣泛的範圍內扮演什麼角色? 身份驗證僅處理您是誰(身分)。 從那裡開始,其他服務會追蹤您被允許去哪裡,以及您到達那裡後可以做什麼(存取管理)。 身份和存取管理 (IAM) 是這些工具和流程的總稱。 SSO 和 IAM 工具組的其他部分通常由身份提供者 (IdP)(例如 Okta、Auth0 或 OneLogin)打包,並作為雲端安全的一部分實施。 Metabase 中的 SSO 在 Metabase 中設定 SSO 表示人們不需要建立單獨的 Metabase 使用者名稱和密碼即可存取您組織的資料。 他們只需透過與您選擇的身份提供者相同的帳戶登入即可。 開源版本的 Metabase 可以使用 Google SSO 或 LDAP 進行設定。 Pro 和 Enterprise 版本的 Metabase 可與 SAML 和 JWT 標準搭配使用(除了 Google SSO 和 LDAP 之外)。 SSO 也可以與 Metabase Pro 和 Enterprise 方案中的資料沙箱結合使用,以根據使用者屬性(例如他們的部門或角色)定義人們可以查看和互動的資料。

閱讀更多
結構描述

定義資料集組織的設計或結構,包括其表格、欄位、關係、資料類型和完整性約束。

什麼是結構描述? 結構描述是定義資料集組織的設計或結構:哪些欄位分組到表格中、這些表格彼此之間如何關聯,以及定義這些欄位的規則和資料類型。 結構描述是一個超載的術語; 它是一個抽象詞,累積了許多不同的定義,因此可能會令人困惑。 根據上下文,結構描述可以表示: 資料庫的整體結構、規格或「藍圖」 示範資料庫中表格之間如何關聯的圖表 資料庫中單一表格集合(在眾多表格中) 最後,結構描述有時表示特定於您正在使用的資料庫平台的內容,例如在 Oracle 中,結構描述指的是由同一使用者建立的資料庫中的所有物件。 作為整體結構的結構描述:設計和實施 一旦您從高階角度弄清楚您的資料如何組合在一起(即,您的概念資料模型),下一步就是建立反映該資料模型的結構描述,將其從抽象概念帶到您的組織可以使用和填寫資訊的資料庫。 廣義上講,此過程由兩個主要步驟組成: 設計:繪製資料庫的結構,在此過程中建立實體關係圖 (ERD)。 實施:使用該 ERD 來產生 SQL 命令,這些命令在資料庫中執行時,將建立您想要的結構描述。 您的結構描述設計過程的外觀取決於您處理的是交易型資料庫還是分析型資料庫,以及您是從頭開始還是已經開始收集資料。 無論您在哪個時間點設計結構描述,您都必須深入思考您組織的需求以及您預期向您的資料提出的問題。 寫入時結構描述 vs. 讀取時結構描述 大多數傳統關聯式資料庫都使用寫入時結構描述系統,其中資料在寫入資料庫之前會經過驗證並格式化為結構描述。 由於正在寫入的資料必須符合您已建立的任何特定資料完整性規則(例如要求欄位中的所有值都是唯一的,不接受欄位中的空值,或以特定方式格式化日期),因此將此新資料新增到您的資料庫可能會很慢。 但是,讀取時間很快,因為該資料已經過驗證。 在讀取時結構描述系統中,資料(例如在資料湖中)僅在讀取或從該資料庫中提取後才經過驗證。 讀取時結構描述系統往往更具彈性,因為您可以儲存非結構化資料,而無需擔心它是否符合嚴格的資料模型。 在這種情況下,寫入資料速度更快(因為該資料在載入時不需要驗證),但查詢需要花費更多時間才能執行。 您選擇寫入時結構描述還是讀取時結構描述策略將取決於您組織的需求和特定用例。 如果擁有結構嚴謹且一致的資料集對您的組織很重要,則寫入時結構描述系統可能是您的最佳選擇。 相反,如果您經常需要提取各種資料,而又不總是確切知道資料的外觀,則您可能需要使用寫入時結構描述系統。 邏輯和物理結構描述 無論您使用的是寫入時結構描述還是讀取時結構描述系統,您還需要考慮資料庫結構及其實施——即,您的邏輯和物理結構描述。 邏輯結構描述定義資料的結構,而該結構的實際實施(例如您如何以及在哪裡儲存組成資料庫的檔案和程式碼)屬於物理結構描述。 邏輯結構描述 邏輯結構描述是透過繪製表格及其欄位如何相互關聯來建立的。 在建立邏輯結構描述時,您將建立表格、關係、欄位和檢視,並回答以下問題: 我們正在收集哪些資料,或者我們想要收集哪些資料? 您的資料庫(或其中的個別結構描述)需要哪些表格? 這些表格之間如何關聯? 每個表格需要哪些欄位? 這些欄位的資料類型是什麼? 哪些欄位是必填的? 作為圖表的結構描述:繪製實體和關係 在回答這些問題和其他問題時,您可能會草擬一個實體關係圖 (ERD),該圖定義每個表格、其欄位、其完整性約束以及這些表格之間的關係,包括建立這些連線的主鍵和外鍵,以及表格之間的關係是一對一、一對多還是多對一。 將表格及其關聯方式視覺化也可以揭示任何重大遺漏或衝突。 是的,有時您會看到這些圖表本身被稱為結構描述。 下圖顯示了具有兩個表格 PRODUCTS 和 MANUFACTURER 的結構描述的實體關係圖。 「(PK)」和「(FK)」符號告訴我們哪些欄位是主鍵和外鍵,而連結這些表格的線條表示一對多關係,因為一個製造商可以連結到多個產品。 {% include image_and_caption.html url=”/glossary/images/schema/simple-erd.png” description=”圖 2. 具有兩個表格的結構描述的實體關係圖。” %} 您可以在紙上或使用設計軟體繪製結構描述,設計軟體可以直接將您的圖表轉換為實施資料庫所需的 SQL 命令。 此時,您的結構描述與平台無關; 繪製這些規則和關係不會將您束縛於任何單一資料庫軟體。 物理結構描述 一旦您識別出資料庫的邏輯配置,您將建立一個物理結構描述以將其實施到特定的 RDBMS 中,定義您的資料庫檔案將位於何處以及它們在磁碟上的儲存分配。 作為眾多表格集合之一的結構描述 雖然如果您的資料庫僅有少數使用者並且包含每個人都需要存取的資料,則單一表格集合可能就足夠了,但您可能會發現,在資料庫中僅依賴單一結構描述對於您的組織來說是不夠的。 如果您正在處理跨許多表格的資料(想想數十個、數百個或數千個),將這些表格分組到單獨的結構描述中將有助於從組織的角度來看,使您可以將相似的資訊儲存在一起,同時保留在必要時跨結構描述查詢的能力。 在資料庫中保留多個結構描述從安全角度來看也可能很有用,例如將包含敏感資訊的表格分隔到只有需要存取的人才能存取的結構描述中,通常與檢視結合使用。 交易型資料庫 vs. 分析型資料庫的結構描述設計 在考慮交易型資料庫(也稱為營運資料庫)的結構描述時,您的資料將需要標準化到一定程度並遵守資料完整性標準,因為這些小型交易和 OLTP 的效率和效能至關重要。 分析型資料庫的結構描述設計看起來會有所不同。 首先,您可能已經收集了原始資料,可能來自多個來源,現在需要施加一些結構才能對其進行分析。 在這種情況下,冗餘是可以接受的,因為分析型資料庫更強調可探索性,而較少強調效能。 在這裡,您的結構描述也可以定義得更鬆散,因為不需要固定模式(例如標準化)。 分析型資料庫的結構描述設計更多的是了解來自不同來源的資料位於何處,以及了解您需要聯結哪些表格才能回答您提出的問題。 星狀結構描述 您將在分析型資料庫中看到的一種常見結構是星狀結構描述,它將資料分為事實表格(即,定量資料),這些事實表格與描述這些事實的多個維度表格相關。 在星狀結構描述的簡單實施中,多個維度表格都圍繞並關聯到單一事實表格,在圖表形式中看起來像一顆星星,事實表格位於其中心,如下所示: {% include image_and_caption.html url=”/glossary/images/schema/star-schema.png” description=”圖 2. 簡單星狀結構描述的實體關係圖。” %} 星狀結構描述中的表格通常是非標準化的,這會提高分析查詢的效能。 建立資料庫結構描述 大多數資料庫平台(例如 Redshift 和 PostgreSQL)使用「結構描述」來表示資料集的配置以及該資料集內表格和其他命名物件的非巢狀分組,儘管 Oracle 將結構描述定義為由單一資料庫使用者建立和擁有的所有物件。 若要在您的 RDBMS 中建立結構描述,請使用查詢 CREATE SCHEMA,如下例所示,我們在其中建立一個結構描述,其中包含兩個由 customer_id 欄位連結的表格: CREATE SCHEMA new_schema; CREATE TABLE new_schema.orders ( order_id product_id customer_id subtotal order_date ) CREATE TABLE new_schema.customers ( customer_id customer_name customer_address customer_email ); 這是一個非常簡單的結構描述; 我們沒有指定資料類型或表格中欄位的任何其他約束。 如果我們想要要求 customers 表格中的 customer_id 欄位,並指示其資料類型為整數,我們會將該欄位格式化為這樣: customer_id INT NOT NULL 請注意,在 MySQL 中,CREATE SCHEMA 與 CREATE DATABASE 同義。

閱讀更多
摘要表格

彙總的結果,該結果會儲存在資料庫或資料倉儲中,以便人們可以使用這些預先計算的指標。

什麼是摘要表格? 摘要表格是彙總的結果,該結果會儲存在資料庫或資料倉儲中,以便人們可以使用這些預先計算的指標。 術語「摘要表格」可能會令人困惑,因為有些人使用「摘要表格」來描述彙總函數的任何結果,例如您在按某些度量和維度進行篩選和分組後得到的表格。 根據此定義,摘要表格基本上與樞紐分析表相同,只是少了樞紐分析。 此處的差異歸結為這些表格是否儲存在您的資料倉儲中。 在您的資料倉儲中建立摘要表格可以讓人們更輕鬆地產生報告,而無需查詢原始資料。 從這個意義上講,摘要表格的功能與實體化檢視非常相似(實體化檢視不一定彙總資料)。 範例:資料倉儲中的摘要表格 例如,也許您正在使用一個分析型資料庫,該資料庫使用星狀結構描述設定,其中包含一個包含數萬個個別訂單記錄的事實表格,周圍環繞著描述這些訂單的維度表格。 如果您組織中的某人想要產生一份包含過去七天按產品類別劃分的銷售資料的每週報告,則每次都從您的原始事實表格和維度表格計算出來將是低效且成本高昂的。 相反,建立摘要表格可讓您更不頻繁地聯結這些表格和彙總資料。 然後,在未來有人建立該報告時,他們可以使用摘要表格作為基礎來執行此操作,而不是每次都從頭開始計算這些數字。 雖然摘要表格存在一些維護工作(例如確保您的資料按排程重新整理,或在它們不完全符合人們需求時調整篩選器和分組),但它們仍然是處理大型資料集的一種非常有效的方式。

閱讀更多

T

V

變數

程式或查詢中任何可以變更的值。在 Metabase 中,SQL 查詢中的變數會用雙大括號括起來。

什麼是變數? 變數是程式或查詢中任何可以變更的值。在 SQL 中,宣告變數可讓您在執行查詢時暫時儲存單一值。參數是一種變數,但並非所有變數都是參數。當人們談論參數時,他們通常指的是由儀表板或報表的最終使用者修改的變數,而不是查詢文字本身內的變數。Metabase 中的變數範例:在 Metabase 中,變數是 SQL 查詢中的佔位符,用於人們可以變更的值,而無需重寫查詢本身。使用變數可讓您篩選資料,通常是透過在 SQL 編輯器中問題上方新增篩選器小工具來完成。變數會用雙大括號括起來,如下所示:{% raw %}{{變數名稱}}{% endraw %}。在以下範例中,我們建立一個變數,以根據範例資料庫「人員」表格中的「來源」欄位進行篩選:SELECT * FROM people WHERE source = {% raw %}{{source}}{% endraw %} 當您在查詢中包含變數(在本例中為 {% raw %}{{source}}{% endraw %})時,Metabase 會在 SQL 編輯器上方新增一個篩選器小工具,如圖 1 所示。由於篩選器小工具對應到我們建立的變數,因此我們可以將不同的值插入其中以篩選不同的來源。{% include image_and_caption.html url=”/glossary/images/variable/variable-example-source.png” description=”圖 1. 查詢編輯器上方的篩選器小工具對應到以雙大括號括起來的變數。” %}

閱讀更多
檢視

查詢及其結果,其功能類似於資料庫中的虛擬表格。

什麼是檢視? 檢視是一個查詢及其結果,其功能類似於資料庫中的虛擬表格。資料庫會根據需求計算檢視,這表示它們不是預先計算或具體化的,因此不會佔用資料庫中的任何儲存空間。您可以將檢視視為虛擬或邏輯表格。資料庫檢視可讓您合併來自多個表格的資訊,並以最適合需要查詢資訊的人員的方式格式化該資訊。您(或資料庫管理員)可以建立一個檢視,以隱藏雜亂表格中不必要的欄位,或聯結表格以將相關資料匯集在一起。透過將檢視作為起點,人們無需每次都執行相同的複雜查詢,即可獲得有關資料的實際問題。查詢檢視的缺點是這些查詢可能很耗時,尤其是當該檢視是多個表格或多個聯結的結果時。資料庫管理員也將檢視用於安全性目的,例如建立檢視以隱藏基底表格中存在的某些欄位。這樣,其他使用者仍然可以存取和查詢他們需要的資料,而不會存取到敏感欄位或列。檢視與具體化檢視:如果檢視是虛擬表格(根據需要計算),則具體化檢視就像資料庫中的常規表格。雖然檢視要求每次引用該檢視時都必須重新執行查詢,但具體化檢視是預先計算並儲存在資料庫中的檢視。因此,具體化檢視會佔用資料庫中的空間,但由於資料庫不必每次都計算具體化檢視,因此在查詢時,它們的效能比標準資料庫檢視快得多(就像查詢常規表格一樣)。何時應該(以及不應該)使用資料庫檢視? 如果符合以下情況,在資料庫中建立檢視是個好主意:您需要定期存取複雜查詢的結果,並且不想每次都輸入該查詢。您希望透過限制對敏感資訊的存取來加強資料庫安全性。您想要建立自訂欄,而無需變更資料庫的基礎結構。您希望透過隱藏不太可能被查詢的欄位來簡化表格的外觀。但是,如果資料庫的基礎結構可能會發生變更,您可能不想依賴檢視;一旦欄位名稱變更,您建立為檢視的查詢可能會中斷。您的 BI 工具可能也具有一些功能,其功能有點像檢視,無論它是模型、已儲存的問題還是 SQL 片段。這裡重要的區別在於,這些都是存在於 BI 工具世界中的功能,而檢視(無論是否具體化)都內建於您的資料庫本身中。檢視範例:使用 Metabase 的範例資料庫,假設我們想要根據「人員」表格建立一個檢視,賓夕法尼亞州的團隊可以使用該檢視來存取賓夕法尼亞州客戶的姓名、地址、生日和電子郵件等資訊,但不包括使用者密碼。我們將透過執行以下顯示的查詢在資料庫中建立該檢視,該查詢會建立檢視,將其命名為 pennsylvania_customers,僅包含我們需要的「人員」表格中的欄,並且僅顯示「州」欄位中的值是賓夕法尼亞州(PA)縮寫的記錄。CREATE VIEW pennsylvania_customers AS SELECT id address email name city state birth_date zip created_at FROM people WHERE state = 'PA' 然後,對於未來的查詢,賓夕法尼亞州的團隊可以透過查詢 pennsylvania_customers 作為起點來存取他們需要的有關其客戶群的資訊。雖然檢視是任何基於 SQL 的資料庫或資料倉儲的基本功能,但建立、具體化和維護它們的具體細節可能會因您使用的資料庫軟體或資料倉儲而異。

閱讀更多

W

X