EDA探索性數據分析
EDA或探索性數據分析是一種使用可視化,匯總統(tǒng)計和數據轉換等多種技術來抽象其核心特征來檢查和理解數據的方法
在當今數據驅動的世界中,有效分析數據的能力是許多企業(yè)成功的關鍵因素。通過利用數據分析工具和技術,企業(yè)可以獲得洞察力,識別趨勢,并根據數據自信地做出明智的決策,從而提高效率并在競爭激烈的商業(yè)環(huán)境中獲得優(yōu)勢。探索性數據分析(EDA)是在進行任何正式建模或假設測試之前用于解釋數據的初步方法,是數據分析中涉及的最關鍵程序之一。
EDA 是詳細說明數據集關鍵特征的過程,通常采用可視化技術,它需要探索和分析數據,以了解其基本模式、聯系和趨勢。EDA 很重要,因為它有助于識別數據中可能影響后續(xù)分析可靠性的任何問題或異常。許多行業(yè)都受益于EDA,包括金融,醫(yī)療保健,零售和營銷,因為它是數據分析的基礎,查明數據中的潛在缺陷,并提供對客戶行為,市場趨勢和業(yè)務績效的深刻分析。
在數據分析中,EDA可以幫助數據分析師識別可能影響數據統(tǒng)計分析的缺失或不完整的數據,異常值和不一致之處。進行EDA還可以幫助確定哪些變量對于解釋結果變量至關重要,哪些變量可以排除。因此,EDA 通常是開發(fā)數據模型的第一步,因為它提供了對數據特征的見解。
EDA是什么?
EDA或探索性數據分析是一種使用可視化,匯總統(tǒng)計和數據轉換等多種技術來抽象其核心特征來檢查和理解數據的方法。EDA是為了了解數據并發(fā)現任何潛在的問題或需要解決的問題,通常在正式建模或假設測試之前執(zhí)行。它旨在識別數據中的模式、關系和趨勢,并使用這些信息來促進進一步的分析或決策。可以使用EDA分析不同類型的數據,包括數字,分類和文本。通常在數據分析之前完成,以識別和糾正數據中的錯誤,并可視化數據的關鍵屬性。
EDA 是了解數據存儲的科學方法。數據科學家可以使用它來發(fā)現模式、發(fā)現異常、測試假設或通過有效操縱數據源來驗證假設。
EDA在數據科學中的重要性
探索性數據分析是數據科學過程中的一個重要階段,因為它使數據科學家能夠在更深層次上理解他們正在使用的數據。讓我們通過定義EDA的目標來找出為什么EDA在數據科學中很重要:
執(zhí)行 EDA 可以確認收集的數據在手頭業(yè)務問題的背景下是否可行。如果沒有,則需要更改數據分析師采用的數據或策略。
它可以揭示和解決數據質量問題,例如重復、丟失數據、不正確的值以及數據類型和異常。
探索性數據分析通過揭示關鍵統(tǒng)計度量(如平均值、中位數和標準偏差)在從數據中提取有意義的見解方面發(fā)揮著至關重要的作用。
通常,某些值與標準值集有很大偏差;這些是在分析數據之前必須驗證的異常情況。如果不選中,它們可能會在分析中造成嚴重破壞,從而導致計算錯誤。因此,EDA 的目標之一是定位數據中的異常值和異常值。
EDA 揭示了變量組合在一起時的行為,通過可視化和分析數據來幫助數據科學家找到這些變量之間的模式、相關性和交互。此信息有助于創(chuàng)建 AI 模型。
EDA 有助于查找和刪除不需要的列并派生新變量。因此,它可以幫助確定哪些特征對于預測目標變量最關鍵,從而有助于選擇要包含在建模中的特征。
根據數據的特征,EDA可以幫助確定適當的建模技術。
EDA 方法和技術
EDA 中使用的一些常用技術和方法包括:
數據可視化
數據可視化涉及使用圖形、圖表和其他圖形技術生成數據的可視化表示。數據可視化可以快速輕松地理解數據中的模式和關系。可視化技術包括散點圖、直方圖、熱圖和箱形圖。
相關性分析
使用相關性分析,可以分析變量對之間的關系,以確定它們之間的任何相關性或依賴關系。相關性分析有助于特征選擇和構建預測模型。常見的相關技術包括皮爾遜相關系數、斯皮爾曼秩相關系數和肯德爾 tau 相關系數。
數據降維
在降維中,主成分分析 (PCA) 和線性判別分析 (LDA) 等技術用于減少數據中的變量數量,同時保留盡可能多的細節(jié)。
描述統(tǒng)計學
它涉及計算匯總統(tǒng)計量,例如平均值、中位數、模式、標準差和方差,以深入了解數據的分布。平均值是數據集的平均值,提供了數據集中趨勢的概念。中位數是排序值列表中的中間值,并提供集中趨勢的另一種度量。模式是數據集中最常見的值。
聚類分析
聚類分析技術(如 K 均值聚類分析、分層聚類分析和 DBSCAN 聚類分析)根據特征將相似的數據點分組在一起,從而幫助識別數據集中的模式和關系。
異常值檢測
異常值是與其他數據差異或偏離顯著的數據點,可能對模型的準確性產生至關重要的影響。使用 Z 分數、四分位數間距 (IQR) 和箱形圖方法等方法識別和刪除數據中的異常值有助于提高數據質量和模型的準確性。
EDA 技術的類型
可以使用幾種類型的探索性數據分析技術來深入了解數據。一些常見的 EDA 類型包括:
單變量非圖形
單變量非圖形探索性數據分析是一種簡單而基本的信息檢查方法,包括僅利用一個變量來分析數據。單變量非圖形EDA側重于找出數據中的潛在分布或模式,并提及有關總體的客觀事實。該程序包括檢查種群分布的屬性,包括分布,中心趨勢,偏度和峰度。
分布的平均值或中間值稱為集中趨勢。集中趨勢的常見度量是平均值,其次是中位數和眾數。作為集中趨勢的度量,如果分布偏斜或對異常值提出擔憂,則中位數可能是首選。
擴散顯示信息值與中心趨勢的距離。標準差和方差是點差的兩個有價值的比例。方差是各個差的平方的平均值,標準差是方差的基礎。
偏度和峰度是分布的兩個更有用的單變量描述符。偏度是分布不對稱性的度量,而峰度是分布峰值與普通離散對比的比例。
異常值檢測在單變量非圖形 EDA 中也很重要,因為異常值會顯著影響分布并扭曲統(tǒng)計分析結果。
多變量非圖形
多變量非圖形EDA是一種用于通過交叉制表或統(tǒng)計來探索兩個或多個變量之間關系的技術。它對于識別變量之間的模式和關系很有用。當數據集中存在多個變量并且您希望查看它們之間的關系時,此分析特別有用。
交叉制表是分類數據制表的有用擴展。當涉及兩個變量時,最好使用交叉制表。為此,請創(chuàng)建一個雙向表,其中列標題對應于一個變量的數量,行標題對應于其他兩個變量的數量。接下來,用同一對級別填充所有科目的計數。
我們?yōu)槊總€分類變量的每個級別和一個定量變量單獨生成定量變量的統(tǒng)計數據,然后比較所有分類變量的統(tǒng)計數據。多變量非圖形 EDA 的目的是識別變量之間的關系并了解它們之間的關系。檢查變量之間的關系可以發(fā)現模式和趨勢,這些模式和趨勢可能不是孤立地檢查單個變量時立即顯而易見的。
單變量圖形
單變量圖形 EDA 技術使用各種圖形來深入了解單個變量的分布。這些圖形技術使我們能夠快速了解我們正在研究的數據的形狀、中心趨勢、點差、模態(tài)、偏度和異常值。以下是一些最常用的單變量圖形 EDA 技術:
直方圖:這是 EDA 中使用的最基本的圖形之一。直方圖是一個條形圖,用于顯示變量值的多個區(qū)間(箱)中每個個案的頻率或比例。每個條形的高度表示落在每個區(qū)間內的觀測值的計數或比例。直方圖提供了分布的形狀和分布以及任何異常值的直觀感覺。
莖葉圖:莖葉圖是直方圖的替代方法,直方圖顯示每個數據值及其量級。在莖葉圖中,每個數據值被拆分為莖和葉,莖表示前導數字,葉子表示尾隨數字。這種類型的繪圖提供了數據分布的可視化表示,并且可以突出顯示對稱性和偏度等特征。
箱線圖:箱線圖,也稱為箱須圖,提供分布中心趨勢、散布和異常值的直觀摘要。箱線圖中的框表示數據的四分位距 (IQR),框中的中線位于框內。晶須從盒子延伸到最小和最大的觀察值,其 IQR 是盒子的 IQR 的 1.5 倍。晶須之外的數據點被視為異常值。
分位數正態(tài)圖:分位數正態(tài)圖(也稱為 Q-Q 圖)通過將觀測值與正態(tài)分布中的預期值進行比較來評估數據分布。在 Q-Q 圖中,觀測數據與正態(tài)分布的分位數作圖。如果數據呈正態(tài)分布,則點應沿直線分布。如果數據偏離正態(tài)性,則圖將顯示任何偏度、峰度或異常值。
多變量圖形
多變量圖形 EDA 使用圖形顯示兩個或多個數據集之間的關系。在檢查兩個以上的變量之間的關系時,此技術用于更全面地了解數據。分組條形圖是最常用的多變量圖形技術之一,每組表示一個變量的一個級別,每個條形表示其數量。
多元圖形也可以用散點圖、運行圖、熱圖、多元圖和氣泡圖表示。
散點圖是顯示兩個定量/數值變量之間關系的圖形表示。它包括在 x 軸上繪制一個變量,在 y 軸上繪制另一個變量。在圖上,每個點表示一個觀測值。散點圖可以識別數據中的異常值或模式,以及任意兩個變量之間關系的方向和強度。
運行圖是顯示數據如何隨時間變化的折線圖。它是一個簡單但功能強大的工具,用于跟蹤數據變化和監(jiān)控趨勢。運行圖可用于檢測流程中隨時間推移的趨勢、周期或偏移。
多變量圖表說明了因子和響應之間的關系。它是一種散點圖,可同時描述多個變量之間的關系。多變量圖表描述變量之間的關系,并標識數據中的模式或聚類。
氣泡圖是一種數據可視化,可在二維圖中顯示多個圓圈(氣泡)。每個圓圈的大小表示第三個變量的值。氣泡圖通常用于比較具有三個變量的數據集,因為它們提供了一種可視化這些變量之間關系的簡單方法。
EDA 中的可視化技術
可視化技術在EDA中起著至關重要的作用,使我們能夠直觀地探索和理解復雜的數據結構和關系。EDA 中使用的一些常見可視化技術包括:
直方圖:直方圖是顯示數值變量分布的圖形表示。它們通過可視化頻率分布來幫助了解數據的集中趨勢和分布。
箱線圖:箱線圖是顯示數值變量分布的圖形。這種可視化技術有助于識別任何異常值,并通過可視化其四分位數來了解數據的分布。
熱圖:它們是數據的圖形表示形式,其中顏色表示值。它們通常用于顯示復雜的數據集,提供了一種快速簡便的方法來可視化大量數據中的模式和趨勢。
條形圖:條形圖是顯示分類變量分布的圖形。它用于可視化數據的頻率分布,這有助于了解每個類別的相對頻率。
折線圖:折線圖是顯示數值變量隨時間變化趨勢的圖形。它用于可視化數據隨時間的變化,并識別任何模式或趨勢。
餅圖:餅圖是顯示分類變量比例的圖形。它用于可視化每個類別的相對比例并了解數據分布。
探索性數據分析工具
電子表格軟件
由于其簡單性,熟悉的界面和基本的統(tǒng)計分析功能,電子表格軟件(如Microsoft Excel,Google Sheets或LibreOffice Calc)通常用于EDA。使用它們,用戶可以對數據進行排序、過濾、操作并執(zhí)行基本的統(tǒng)計分析,例如計算平均值、中位數和標準偏差。
統(tǒng)計軟件
R或Python等專用統(tǒng)計軟件及其各種庫和包提供了更高級的統(tǒng)計分析工具,包括回歸分析,假設檢驗和時間序列分析。該軟件允許用戶編寫自定義函數并對大型數據集執(zhí)行復雜的統(tǒng)計分析。
數據可視化軟件
Tableau、Power BI 或 QlikView 等可視化軟件使用戶能夠創(chuàng)建交互式和動態(tài)數據可視化。這些工具可幫助用戶識別數據中的模式和關系,從而做出更明智的決策。它們還提供各種類型的圖表和圖形,以及創(chuàng)建儀表板和報告的功能。該軟件允許輕松共享和發(fā)布數據,使其可用于協作項目或演示。
編程語言
R,Python,Julia和MATLAB等編程語言提供了強大的數值計算能力,并提供對各種統(tǒng)計分析工具的訪問。這些語言可用于編寫針對特定分析需求的自定義函數,在處理大型數據集時特別有用。除了在數據處理和操作方面帶來靈活性外,它們還可以實現重復性任務的自動化。
商業(yè)智能 (BI) 工具
SAP BusinessObjects、IBM Cognos 或 Oracle BI 等 BI 工具提供一系列功能,包括數據探索、儀表板和報告。它們允許用戶可視化和分析來自各種來源的數據,包括數據庫和電子表格。它們提供可在業(yè)務環(huán)境中使用的數據準備工具和質量管理工具,以幫助組織做出數據驅動的決策。
數據挖掘工具
KNIME、RapidMiner或Weka等數據挖掘工具提供了一系列功能,包括數據預處理、聚類、分類和關聯規(guī)則挖掘。這些工具對于識別大型數據集中的模式和關系以及構建預測模型特別有用。數據挖掘工具用于各個行業(yè),包括金融、醫(yī)療保健和零售。
基于云的工具
Google Cloud、Amazon Web Services (AWS) 和 Microsoft Azure 等基于云的平臺為數據分析提供了一系列工具和服務。它們?yōu)榇鎯吞幚頂祿峁┝丝蓴U展且靈活的基礎架構,并提供了一系列數據分析和可視化工具?;谠频墓ぞ邔τ谔幚泶笮秃蛷碗s的數據集特別有用,因為它們提供高性能的計算資源,并且能夠根據項目的需求進行擴展或縮減。
文本分析工具
RapidMiner和SAS文本分析等文本分析工具用于分析非結構化數據,例如文本文檔或社交媒體帖子。他們使用自然語言處理 (NLP) 技術從文本數據中提取見解,例如情感分析、實體識別和主題建模。文本分析工具用于一系列行業(yè),包括營銷、客戶服務和政治分析。
地理信息系統(tǒng) (GIS) 工具
ArcGIS 和 QGIS 等 GIS 工具用于分析和可視化地理空間數據。它們允許用戶繪制數據地圖并執(zhí)行空間分析,例如識別地理數據中的模式和趨勢或執(zhí)行空間查詢。GIS 工具用于一系列行業(yè),包括城市規(guī)劃、環(huán)境管理和運輸。
總結
探索性數據分析(EDA)是在進行數據分析之前必須執(zhí)行的重要步驟。它可以幫助數據科學家和分析師了解并深入了解他們正在處理的數據。它有助于發(fā)現可能導致最終分析中偏差或錯誤的缺失或錯誤數據。分析師可以通過在EDA過程中對數據進行清洗和預處理來保證用于分析的數據準確可靠。EDA 方法還可以促進特征選擇,識別要包含在機器學習模型中的重要特征并提高模型性能。總體而言,EDA允許檢測數據中的異常,模式和關系,這可以幫助企業(yè)做出明智的決策,并在快速發(fā)展的技術領域獲得競爭優(yōu)勢。

