數(shù)據(jù)采集
數(shù)據(jù)交換
數(shù)據(jù)轉換
數(shù)據(jù)清洗
數(shù)據(jù)質量管理
數(shù)據(jù)比對
數(shù)據(jù)集成治理套件
使用特定工具和實踐,企業(yè)實施這些方法以產生有價值的見解。企業(yè)利用數(shù)據(jù)的最常見方式之一是商業(yè)智能(BI),這是一組將原始數(shù)據(jù)轉換為可操作信息的實踐和技術。這些數(shù)據(jù)可用于各種目的:進行分析或創(chuàng)建機器學習模型。但它不能以其原始格式使用。任何處理數(shù)據(jù)處理的系統(tǒng)都需要從存儲中移動信息并在此過程中將其轉換以供人或機器使用。此過程稱為Extract, Transform, Load, or ETL。
ETL 開發(fā)分為三個主要階段:
抽?。?/strong>企業(yè)將歷史信息或實時數(shù)據(jù)流式傳輸?shù)皆S多系統(tǒng)中。這些信息分散在不同的軟件中,并以各種格式構建。提取階段需要定義所需的數(shù)據(jù)源,無論是 ERP、CRM 還是第三方系統(tǒng),并從中收集數(shù)據(jù)。
轉換:當從其來源收集數(shù)據(jù)時,它通常被放置在一個名為Staging Area的臨時存儲中。放置在該區(qū)域中時,數(shù)據(jù)會根據(jù)定義的標準和模型進行格式化。例如,不同格式的財務數(shù)字 $34.50、0.90 美分、01,65 將更改為單一的連貫格式:$34.50、$0.90、$1.65。
加載:ETL 過程的最后階段是將結構化和格式化的數(shù)據(jù)加載到數(shù)據(jù)庫中。如果數(shù)據(jù)量很小,可以使用任何類型的數(shù)據(jù)庫。BI、大數(shù)據(jù)處理和機器學習中使用的一種特定類型的數(shù)據(jù)庫稱為數(shù)據(jù)倉庫。
倉庫的結構不同于通常的數(shù)據(jù)庫:它可能包含多種工具來表示來自多個維度的數(shù)據(jù),并使其可供每個用戶訪問。數(shù)據(jù)表示 工具連接到倉庫,以便用戶可以將其拖出并進行操作。表示工具是通過交互式儀表板和報告工具提供分析數(shù)據(jù)的實際 BI 工具。
通常,ETL 開發(fā)人員是數(shù)據(jù)工程團隊的一員——負責數(shù)據(jù)提取、處理、存儲和維護相應基礎架構的酷孩子。數(shù)據(jù)工程團隊的主要任務是獲取原始數(shù)據(jù),決定它應該如何被消費,使其成為消費,然后存儲在某個地方。
團隊的名單取決于項目的范圍、目標、數(shù)據(jù)處理的步驟和所需的技術。因此,數(shù)據(jù)工程團隊可能包括以下角色:
數(shù)據(jù)架構師:可以是數(shù)據(jù)科學或數(shù)據(jù)工程團隊的一員。數(shù)據(jù)架構師的職責是規(guī)劃數(shù)據(jù)工程師將開發(fā)的基礎設施。
數(shù)據(jù)工程師:這是一種特定類型的軟件工程師,他們開發(fā)接口和生態(tài)系統(tǒng)以獲取信息。
數(shù)據(jù)分析師:該團隊成員負責定義數(shù)據(jù)收集方法、數(shù)據(jù)模型、類型并概述轉換過程。
數(shù)據(jù)庫/倉庫開發(fā)人員:數(shù)據(jù)作為任何其他信息必須存儲在某個地方。它可以是普通的 SQL 數(shù)據(jù)庫,也可以是特殊類型的存儲數(shù)據(jù)倉庫。數(shù)據(jù)庫/倉庫開發(fā)人員負責數(shù)據(jù)存儲的建模、開發(fā)和維護。
DBA 或數(shù)據(jù)庫管理員:如果有多個數(shù)據(jù)庫,或者一個數(shù)據(jù)庫/倉庫的結構,像火箭科學一樣復雜,這是一個負責數(shù)據(jù)庫管理的人。
數(shù)據(jù)科學家:處理機器學習的項目還包括數(shù)據(jù)科學專家,甚至是專門的部門。
商業(yè)智能開發(fā)人員:這是一位專注于開發(fā) BI 接口的軟件工程師。
ETL 開發(fā)人員:通過開發(fā)/管理相應的基礎設施來涵蓋數(shù)據(jù)處理的提取、轉換和加載階段。ETL 開發(fā)人員的職責是什么?
就 BI 項目而言,ETL 開發(fā)人員是主要的工程角色之一。雖然主要職責是負責提取、轉換、加載階段,但 ETL 開發(fā)人員執(zhí)行與數(shù)據(jù)分析、測試和系統(tǒng)架構相關的任務。為了概述 ETL 開發(fā)人員可以執(zhí)行的所有可能任務,我們將很快介紹所有可能的任務:
流程管理
ETL 開發(fā)人員或專門的開發(fā)人員團隊的主要任務是:
設計ETL流程設計
系統(tǒng)架構設計
需求管理及開發(fā)
ETL工具的實際開發(fā)/實施
對工具和數(shù)據(jù)測試
數(shù)據(jù)建模
在從源中提取數(shù)據(jù)之前,ETL 開發(fā)人員應定義所需的格式。將在倉庫(和用戶界面)中表示的數(shù)據(jù)的最終格式稱為數(shù)據(jù)模型。
通過與業(yè)務分析師、數(shù)據(jù)分析師和數(shù)據(jù)科學家合作,構建和記錄數(shù)據(jù)模型。ETL 開發(fā)人員將使用這些模型來定義轉換階段和執(zhí)行格式化的底層技術。
架構設計
倉庫是用于保存結構化數(shù)據(jù)的大型存儲設施。它通常被分解成更小的元素,如數(shù)據(jù)集市。數(shù)據(jù)集市用于為專門的部門提供對具有特定屬性的所需數(shù)據(jù)的訪問權限。例如,如果倉庫是收集所有信息的大型存儲區(qū)域,則數(shù)據(jù)集市是存儲主題數(shù)據(jù)(會計、網(wǎng)站指標等)的較小數(shù)據(jù)庫。
倉庫本身或數(shù)據(jù)集市連接到最終用戶界面,幫助用戶訪問信息、操作信息、進行查詢和形成報告。此外,數(shù)據(jù)可以在格式化階段用元數(shù)據(jù)豐富,這也涉及到整個倉庫架構的變化。
ETL 開發(fā)人員負責定義數(shù)據(jù)倉庫架構以及將數(shù)據(jù)加載到其中的工具。倉儲是一個復雜的過程,其開發(fā)通常由專門類型的數(shù)據(jù)庫開發(fā)人員進行。但是,ETL 開發(fā)人員可以擁有構建它所需的所有技能和知識。
數(shù)據(jù)開發(fā)
每個系統(tǒng)組件獨立設計后的最后階段是數(shù)據(jù)管道的開發(fā)。數(shù)據(jù)管道是一種技術基礎設施,它將作為單個系統(tǒng)自動執(zhí)行以下操作:
Data extraction from a given sources.只要信息存儲在各種系統(tǒng)中,ETL 工具就應該與每個系統(tǒng)集成。
Data uploading into a staging area.暫存區(qū)是格式化發(fā)生的地方。在某些情況下,可以在倉庫中完成,但大多數(shù)情況下使用單獨的數(shù)據(jù)庫來加快流程并保持倉庫清潔。
Data formatting. 當數(shù)據(jù)傳輸?shù)綍捍鎱^(qū)時,它會被格式化以滿足定義的標準。這可能包括以下操作:
Loading structured data into the warehouse. 數(shù)據(jù)可以按部分加載或不斷更新。動態(tài)信息可能需要查詢方法來從數(shù)據(jù)源請求更新的數(shù)據(jù)。如果不需要更新,則按部分加載數(shù)據(jù)。
ETL 測試
在開發(fā)過程中,ETL 開發(fā)人員負責測試系統(tǒng)、單元、數(shù)據(jù)模型和倉庫架構。除了常規(guī)的 QA 活動外,ETL 測試還需要檢查以下方面:
Data model testing
Data warehouse architecture testing
Representation tools check
Data flow validation
Uploading/downloading/querying speed testing
System performance tests
軟件使用手冊下載:
02 數(shù)據(jù)集成套裝軟件使用手冊.pd
數(shù)據(jù)采集
數(shù)據(jù)交換
數(shù)據(jù)轉換
數(shù)據(jù)清洗
數(shù)據(jù)質量管理
數(shù)據(jù)比對