什麼是資料架構?
資料架構是描述並規範組織資料收集、控管和使用的總體框架。現今的組織擁有來自各種資料來源的大量資料,以及希望存取這些資料以進行分析、機器學習、人工智慧和其他應用程式的不同團隊。現代資料架構呈現了整合的系統,在確保資料安全和品質的同時,讓資料易於存取和使用。它定義了政策、資料模型、流程和技術,讓組織能輕鬆地在部門之間移動資料,並確保資料在需要時隨時可用 (包括即時存取),同時完全支援法規遵循。
任何資料架構的元件有哪些?
以下是主要的資料架構元件。
資料來源
資料來源可以是面向客戶的應用程式、監控和遙測系統、物聯網裝置和智慧感測器、支援業務營運的應用程式、內部知識庫、資料封存、第三方資料儲存庫等等。結構化和非結構化資料都會以不同的速度、數量和頻率進入組織。
資料庫
專用資料庫系統支援現代應用程式及其不同的功能。這些系統可以是關聯式或非關聯式,有些以結構化表格的形式儲存資料,而另一些則以文件或鍵值組的形式儲存非結構化資料類型。 資料庫 通常會儲存與狹隘使用案例相關的網域特定資料。但是,資料可以在目前的系統之外使用。例如,來自面向客戶的應用程式的資料可用於行銷分析或規劃,並且需要從資料庫中取出以進行處理。同樣地,來自其他地方的已處理資料必須重新載入到分析或機器學習 (ML) 應用程式的資料庫中。
資料湖
資料湖是用於大規模原始資料儲存的集中式儲存庫。資料架構描述了資料如何根據需要從不同的資料庫移動到資料湖,以及如何從資料湖移動回不同的資料庫以供使用。資料湖以原生或開放格式儲存資料,允許在使用前進行格式化和清理。資料湖支援資料整合,並打破組織內部的資料孤島。
資料分析
資料分析元件包含傳統的資料倉儲、批次報告和資料串流技術,用於即時提醒和報告。這些元件可用於一次性查詢和進階分析使用案例。分析不受資料孤島的限制,因為資料架構開放了存取權限,並允許每個人更自由地使用組織的資料資產。
人工智慧
機器學習和 AI 對於現代資料策略至關重要,可協助組織預測未來情況,並將智慧融入應用程式中。資料科學家使用來自資料湖的資料進行實驗、識別智慧使用案例和訓練新模型。即使在訓練之後,AI 模型也需要持續存取新的資料才能產生相關且有用的輸出。現代資料架構包含支援 AI 模型訓練和推論的所有技術和基礎架構。
資料控管
資料控管決定資料使用的角色、責任和標準。概述了誰可以根據什麼資料、使用什麼方法以及在什麼情況下採取什麼動作。它包含資料品質和資料安全管理。資料架構師會定義稽核和追蹤資料使用情況的流程,以持續遵守法規。
中繼資料管理是資料控管不可或缺的一環。資料架構包含用於儲存和共用中繼資料的工具和政策。它概述了提供中央中繼資料儲存庫的機制,在該儲存庫中,不同的系統可以儲存和探索中繼資料,並使用它來進一步查詢和處理資料資產。
如何實作資料架構?
以分層方式實作現代資料架構是最佳實務。這些層會根據不同的目標將流程和技術分組。實作細節很靈活,但這些層會引導技術選擇及其應該如何整合。
暫存層
暫存層是架構中資料的進入點。它會處理來自各種來源的原始資料擷取,包括結構化、半結構化和非結構化格式。您會希望這一層盡可能地保持彈性。
如果在此層中嚴格強制執行結構描述 (資料格式和類型),則下游使用案例會受到限制。例如,將所有日期值強制為月、年格式會限制未來需要 dd/mm/yyyy 格式化的使用案例。同時,您也需要一些一致性。例如,如果電話號碼儲存為字串並按原樣使用,但其他一些資料來源開始以數字形式產生相同的資料,則會導致資料管道中斷。
若要平衡彈性和一致性,您需要將這一層分成兩個子層。
原始層
原始層會完全按照資料到達時的狀態儲存未經變更的資料,保留原始格式和結構,不做任何轉換。它是用於資料探索、稽核和重現性的企業級儲存庫。團隊可以在需要時重新檢視和分析原始狀態的資料,確保透明度和可追蹤性。
標準化層
標準化層會根據預先定義的標準套用驗證和轉換,準備原始資料以供使用。例如,在此層中,所有電話號碼都將轉換為字串,所有時間值都將轉換為特定格式,等等。因此,它成為組織內所有使用者存取結構化、品質保證資料的介面。
資料架構中的標準化層對於啟用自助式商業智慧 (BI)、例行分析和機器學習工作流程至關重要。它會強制執行結構描述標準,同時儘可能減少結構描述變更所造成的中斷。
整合層
來自不同來源的資料整合會在整合層中完成。它會在各個網域中建立統一的企業資料模型。例如,客戶資料在不同部門可能有不同的詳細資訊,訂單詳細資訊由銷售部門擷取,財務記錄由會計部門擷取,興趣和線上活動由行銷部門擷取。整合層會在整個組織中建立對此類資料的共同理解。主要優勢包括:
- 在整個組織中對核心實體進行一致、統一的定義。
- 遵守資料安全和隱私權法規。
- 透過集中式和分散式模式,在企業範圍的統一性和網域特定自訂之間取得平衡的彈性。
它不會直接用於營運商業智慧,但支援探索性資料分析、自助式 BI 和網域特定資料充實。
充實層
此層會將來自上一層的資料轉換為稱為資料產品的資料集,這些資料集專為特定使用案例量身打造。資料產品的範圍從用於日常決策的營運儀表板到包含個人化建議或次佳行動洞察的詳細客戶個人資料。它們會根據特定使用案例託管在各種資料庫或應用程式中。
組織會在集中式資料管理系統中編錄資料產品,以便其他團隊探索和存取。這可以減少重複性,並確保可以輕鬆存取高品質、充實的資料。
資料架構的類型有哪些?
整合層有兩種不同的方法,可建立不同的資料架構類型。
集中式資料架構
在集中式資料架構中,整合層著重於建立和管理企業中普遍使用的通用實體,例如客戶或產品。這些實體的定義是使用一組有限的通用屬性,以便於資料管理和廣泛適用性。例如,客戶實體可能包含核心屬性,例如姓名、年齡、職業和地址。
此類資料架構支援集中式資料控管,尤其是針對敏感資訊,例如個人身分識別資訊 (PII) 或付款卡資訊 (PCI)。集中式中繼資料管理可確保有效地編錄和控管資料,並透過譜系追蹤和生命週期控制來實現透明度和安全性。
但是,此模型避免包含所有可能的屬性,因為集中管理複雜的資料需求會減緩決策制定和創新。相反地,網域特定屬性 (例如客戶活動曝光次數 (僅行銷部門需要) ) 是由各個業務單位在充實層中衍生出來的。
資料經緯技術可用於實作集中式資料架構。
分散式資料架構
採用分散式資料架構時,每個網域都會建立和管理其自己的整合層。例如,行銷部門著重於客戶區隔、活動曝光次數和轉換等屬性,而會計部門則優先考慮訂單、營收和淨利等屬性。
分散式資料架構允許在定義實體及其屬性方面具有彈性,但會導致通用實體有多個資料集。這些分散式資料集的可探索性和控管是透過中央中繼資料目錄來實現的。利害關係人可以找到並使用適當的資料集,同時監督資料交換流程。
資料網格技術可用於實作分散式資料架構。
什麼是資料架構框架?
資料架構架構是設計資料架構的結構化方法。它提供了一組原則、標準、模型和工具,可確保符合組織業務目標的高效資料管理流程。您可以將其視為資料架構師用於建置高品質且全面的資料架構的標準藍圖。
資料架構框架的一些範例包括
DAMA-DMBOK 框架
資料管理知識體系 (DAMA-DMBOK) 框架概述了在其生命週期中進行有效資料管理的最佳實務、原則和流程。它支援建立一致的資料管理實務,同時確保與業務目標一致。透過將資料資產視為策略資源,DAMA-DMBOK 可提供可行的指引,以改善決策制定和營運效率。
Zachman 框架
Zachman 框架是一種企業架構框架,使用矩陣格式來定義不同觀點 (例如企業主、設計師和建置者) 與六個關鍵疑問詞 (什麼、如何、何處、誰、何時以及為何) 之間的關係。組織可以將資料如何融入其整體營運中視覺化,確保與資料相關的流程與業務目標和系統需求一致。Zachman 框架因其能夠釐清企業範圍的資料和系統相依性而廣受認可。
TOGAF
開放群組架構框架 (TOGAF) 將資料架構視為更廣泛系統的關鍵組成部分,強調建立支援組織需求的資料模型、資料流程和控管結構。它建立標準化的資料流程,確保系統互通性和高效的資料管理。它對於希望透過統一方法調整其 IT 和業務策略的大型企業特別有益。
資料架構與其他相關術語的比較結果為何?
不同的資料術語聽起來很相似,但卻有完全不同的含義。我們在下方提供了一些說明。
資料架構與資訊架構
資訊架構是向終端使用者組織和呈現資訊的方式。此術語適用於使用者介面、網站或內容系統,並且與終端使用者資訊可及性相關。資訊架構中的原則和工具著重於瀏覽、分類和可搜尋性,例如在線上知識庫或文件資料庫中。
相反地,資料架構著重於設計和管理所有組織資料。它處理所有後端技術資料基礎架構,而資訊架構僅著重於終端使用者如何與資訊互動和解讀資訊。
資料架構與資料工程
資料工程是資料架構的實際實作。資料架構師提供用於管理組織資料資產的高階計畫。他們設計符合業務目標和安全政策的可擴展資料系統。資料工程師會實作計畫,建置、維護和最佳化資料管道。他們會根據資料架構的規則,確保資料會被擷取、清理、轉換和交付以供分析。
資料架構與資料建模
資料建模是資料架構中的流程,可建立任何資料集合的視覺化表示。它包含建立概念、邏輯和實體資料模型,概述集合中的資料。邏輯資料模型以圖表方式表示資料限制、實體名稱和關係,以便以獨立於平台的方式實作。實體資料模型會進一步精簡邏輯模型,以便透過特定資料技術進行實作。
資料架構的範圍遠遠超出資料建模。除了資料屬性和關係之外,它還定義了組織範圍資料管理的更廣泛策略。它包含符合組織目標的資料整合基礎架構、政策和技術。
AWS 如何支援您的資料架構需求?
AWS 為您資料架構的每一層 (從儲存和管理到資料控管和 AI) 提供一組完整的分析服務。AWS 提供專用服務,具有最佳性價比、可擴展性和最低成本。例如,
- AWS 上的資料庫包含超過 15 種專用資料庫服務,可支援各種關聯式和非關聯式資料模型。
- AWS 上的資料湖包含可在數天而非數月內提供無限原始資料儲存和建置安全資料湖的服務。
- AWS 的資料整合包含可將來自多個來源的資料彙整在一起的服務,以便您可以在整個組織中轉換、操作和管理資料。
AWS Well-Architected 可協助雲端資料架構師建置安全、高效能、具恢復能力又有效率的基礎架構。 AWS 架構中心包含在組織中實作各種現代資料架構的使用案例指南。
立即建立免費帳戶,開始在 AWS 上使用資料架構。