大數(shù)據(jù)高職系列教材之數(shù)據(jù)清洗PPT課件:第1章-概論_第1頁
大數(shù)據(jù)高職系列教材之數(shù)據(jù)清洗PPT課件:第1章-概論_第2頁
大數(shù)據(jù)高職系列教材之數(shù)據(jù)清洗PPT課件:第1章-概論_第3頁
大數(shù)據(jù)高職系列教材之數(shù)據(jù)清洗PPT課件:第1章-概論_第4頁
大數(shù)據(jù)高職系列教材之數(shù)據(jù)清洗PPT課件:第1章-概論_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材數(shù)據(jù)清洗第一章概論1.1 數(shù)據(jù)清洗概述1.2 數(shù)據(jù)標準化1.3 數(shù)據(jù)倉庫大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材習(xí)題1.1數(shù)據(jù)清洗概述1.1.1 數(shù)據(jù)科學(xué)過程 數(shù)據(jù)科學(xué)則是一門新興的以數(shù)據(jù)為研究中心的學(xué)科。作為一門學(xué)科,數(shù)據(jù)科學(xué)以數(shù)據(jù)的廣泛性和多樣性為基礎(chǔ),探尋數(shù)據(jù)研究的共性。 數(shù)據(jù)科學(xué)是一門關(guān)于數(shù)據(jù)的工程,它需要同時具備理論基礎(chǔ)和工程經(jīng)驗,需要掌握各種工具的用法。數(shù)據(jù)科學(xué)主要包括兩個方面:用數(shù)據(jù)的方法來研究科學(xué)和用科學(xué)的方法來研究數(shù)據(jù)。 數(shù)據(jù)清洗是數(shù)據(jù)科學(xué)家完成數(shù)據(jù)分析和處理任務(wù)過程中必須面對的重要一環(huán)。具體來說,數(shù)據(jù)科學(xué)的一般處理過程包括如下幾個步驟: 問題陳述,明確需要解決的

2、問題和任務(wù)。 數(shù)據(jù)收集與存儲,通過多種手段采集和存放來自眾多數(shù)據(jù)源的數(shù)據(jù)。數(shù)據(jù)清洗,對數(shù)據(jù)進行針對性地整理和規(guī)范以便于后面的分析和處理。數(shù)據(jù)分析和挖掘,運用特定模型和算法來尋求數(shù)據(jù)中隱含的知識和規(guī)律。數(shù)據(jù)呈現(xiàn)和可視化,以恰當?shù)姆绞匠绦驍?shù)據(jù)分析和挖掘的結(jié)果??茖W(xué)決策:根據(jù)數(shù)據(jù)分析和處理結(jié)果來決定問題的解決方案。1.1.2 數(shù)據(jù)清洗定義 來自多樣化數(shù)據(jù)源的數(shù)據(jù)內(nèi)容并不完美,存在著許多“臟數(shù)據(jù)”,即數(shù)據(jù)不完整有缺失、存在錯誤和重復(fù)的數(shù)據(jù),數(shù)據(jù)的不一致和沖突等缺陷。數(shù)據(jù)清洗(Data Cleaning/Cleansing)對數(shù)據(jù)進行審查和校驗,發(fā)現(xiàn)不準確、不完整或不合理數(shù)據(jù),進而刪除重復(fù)信息、糾正存在

3、的錯誤,并保持數(shù)據(jù)的一致性、精確性、完整性和有效性以提高數(shù)據(jù)的質(zhì)量。 數(shù)據(jù)清洗并沒有統(tǒng)一的定義,其定義依賴于具體的應(yīng)用領(lǐng)域。從廣義上講,數(shù)據(jù)清洗是將原始數(shù)據(jù)進行精簡以去除冗余和消除不一致,并使剩余的數(shù)據(jù)轉(zhuǎn)換成可接收的標準格式的過程;而狹義上的數(shù)據(jù)清洗特指在構(gòu)建數(shù)據(jù)倉庫和實現(xiàn)數(shù)據(jù)挖掘前對數(shù)據(jù)源進行處理,使數(shù)據(jù)實現(xiàn)準確性、完整性、一致性、唯一性和有效性以適應(yīng)后續(xù)操作的過程。一般而言,凡是有助于提高信息系統(tǒng)數(shù)據(jù)質(zhì)量的處理過程,都可認為是數(shù)據(jù)清洗。1.1數(shù)據(jù)清洗概述1.1.3 數(shù)據(jù)清洗任務(wù) 數(shù)據(jù)清洗就是對原始數(shù)據(jù)進行重新審查和校驗的過程,目的在于刪除重復(fù)信息、糾正存在的錯誤,并使得數(shù)據(jù)保持精確性、完整

4、性、一致性、有效性及唯一性,還可能涉及數(shù)據(jù)的分解和重組,最終將原始數(shù)據(jù)轉(zhuǎn)換為滿足數(shù)據(jù)質(zhì)量或應(yīng)用要求的數(shù)據(jù)。 數(shù)據(jù)清洗對保持數(shù)據(jù)的一致和更新起著重要的作用,因此被用于如銀行、保險、零售、電信和交通的多個行業(yè)3。數(shù)據(jù)清洗主要有三個應(yīng)用領(lǐng)域:數(shù)據(jù)倉庫(Data Warehouse, DW)、數(shù)據(jù)庫中知識的發(fā)現(xiàn)(Knowledge Discovery in Database, KDD)和數(shù)據(jù)質(zhì)量管理(Data Quality Management, DQM)。 數(shù)據(jù)清洗對隨后的數(shù)據(jù)分析非常重要,因為它能提高數(shù)據(jù)分析的準確性。但是數(shù)據(jù)清洗依賴復(fù)雜的關(guān)系模型,會帶來額外的計算和延遲開銷,必須在數(shù)據(jù)清洗模型

5、的復(fù)雜性和分析結(jié)果的準確性之間進行平衡。1.1數(shù)據(jù)清洗概述1.1.4 數(shù)據(jù)清洗流程 數(shù)據(jù)清洗通過分析“臟數(shù)據(jù)”的產(chǎn)生原因和存在形式,利用數(shù)據(jù)溯源的思想,從“臟數(shù)據(jù)”產(chǎn)生的源頭開始分析數(shù)據(jù),對數(shù)據(jù)流經(jīng)環(huán)節(jié)進行考察,提取數(shù)據(jù)清洗的規(guī)則和策略,對原始數(shù)據(jù)集應(yīng)用數(shù)據(jù)清洗規(guī)則和策略來發(fā)現(xiàn)“臟數(shù)據(jù)”并通過特定的清洗算法來清洗“臟數(shù)據(jù)”,從而得到滿足預(yù)期要求的數(shù)據(jù)。具體而言,數(shù)據(jù)清洗流程包含以下基本步驟:1.1數(shù)據(jù)清洗概述1分析數(shù)據(jù)并定義清洗規(guī)則 2搜尋并標識錯誤實例3糾正發(fā)現(xiàn)的錯誤4干凈數(shù)據(jù)回流5數(shù)據(jù)清洗的評判數(shù)據(jù)清洗是一項十分繁重的工作,數(shù)據(jù)清洗在提高數(shù)據(jù)質(zhì)量的同時要付出一定的代價,包括投入的時間、人力

6、和物力成本。通常情況下,大數(shù)據(jù)集的數(shù)據(jù)清洗是一個系統(tǒng)性的工作,需要多方配合以及大量人員的參與,需要多種資源的支持。1.1.5 數(shù)據(jù)清洗環(huán)境1.1數(shù)據(jù)清洗概述 數(shù)據(jù)清洗環(huán)境是指為進行數(shù)據(jù)清洗所提供的基本硬件設(shè)備和軟件系統(tǒng),特別是已得到廣泛應(yīng)用的開源軟件和工具。 終端窗口和命令行界面,比如Mac OS X上的Terminal程序或Linux上的bash程序。 適合程序員使用的編輯器,如Mac上的Text Wrangler,Linux上的vi或emacs,或是Windows上的Notepad+、Sublime編輯器等。Python客戶端程序,如Enthought Canopy。另外,還需要足夠的權(quán)限

7、來安裝一些程序包文件。電子表格程序,如Microsoft Excel和Google Spreadsheets。數(shù)據(jù)呈現(xiàn)和可視化,以恰當?shù)姆绞匠绦驍?shù)據(jù)分析和挖掘的結(jié)果。數(shù)據(jù)庫軟件,如MySQL數(shù)據(jù)庫和Microsoft Access。1.1.6 數(shù)據(jù)清洗實例說明1.1數(shù)據(jù)清洗概述 以網(wǎng)站文件下載為例,假定一組記錄文件下載時間長度的原始數(shù)據(jù)集如表1-1所示。直接計算網(wǎng)站文件平均下載時長,計算結(jié)果約為23000秒,約6小時,與實際情況嚴重不符,說明這一數(shù)據(jù)集受到了顯著的噪聲的影響而導(dǎo)致部分數(shù)據(jù)值出現(xiàn)嚴重偏差。為此,必須對原始數(shù)據(jù)集做異常值識別并盡可能剔除錯誤數(shù)據(jù)。表1-1 各個文件的下載時間1.1.

8、6 數(shù)據(jù)清洗實例說明1.1數(shù)據(jù)清洗概述 具體來說,可以基于數(shù)據(jù)的分布特征利用分箱法或聚類法來識別上例數(shù)據(jù)集中的噪聲數(shù)據(jù)。對于表1中的數(shù)據(jù),清洗數(shù)據(jù)時首先將數(shù)據(jù)集等分為2403個區(qū)間,找到數(shù)據(jù)的集中域0, 3266。然后,利用分箱法對取值在0, 3266之間的數(shù)據(jù)作進一步分析,對新數(shù)據(jù)組剔除離群值,得到清洗后的離群數(shù)據(jù)組。最后,統(tǒng)計計算清洗后的目標數(shù)據(jù)源的平均下載時長為192.93秒,約3.22分鐘,符合網(wǎng)站文件下載的實際情況。從這個簡單的例子可看出,基于數(shù)據(jù)的分布特征,數(shù)據(jù)清洗可以采用分箱法或聚類方法較為快捷地識別和剔除數(shù)據(jù)集中的噪聲數(shù)據(jù),從而獲得良好的清洗效果。圖1 基于聚類的孤立點識別大數(shù)

9、據(jù)應(yīng)用人才培養(yǎng)系列教材第一章概論1.1 數(shù)據(jù)清洗概述1.2 數(shù)據(jù)標準化1.3 數(shù)據(jù)倉庫習(xí)題1.2.1 數(shù)據(jù)標準化概念 數(shù)據(jù)標準化/規(guī)范化(Data Standardization/Normalization)是機構(gòu)或組織對數(shù)據(jù)的定義、組織、分類、記錄、編碼、監(jiān)督和保護進行標準化的過程,有利于數(shù)據(jù)的共享和管理,可以節(jié)省費用,提高數(shù)據(jù)使用效率和可用性。 數(shù)據(jù)標準化處理主要包括數(shù)據(jù)同趨化處理和無量綱化處理兩個方面。數(shù)據(jù)同趨化處理主要解決不同性質(zhì)數(shù)據(jù)問題,對不同性質(zhì)指標直接加總不能正確反映不同作用力的綜合結(jié)果,必須先考慮改變逆指標數(shù)據(jù)性質(zhì),使所有指標對測評方案的作用力同趨化,然后再加總才能得出正確結(jié)果

10、。 數(shù)據(jù)無量綱化處理主要用于消除變量間的量綱關(guān)系,解決數(shù)據(jù)評價分析中數(shù)據(jù)的可比性。例如,多指標綜合評價方法需要把描述評價對象不同方面的多個信息綜合起來得到一個綜合指標,由此對評價對象做整體評判,并進行橫向或縱向比較。1.2數(shù)據(jù)標準化1.2數(shù)據(jù)標準化1.2.1 數(shù)據(jù)標準化常用方法max-min標準化對原始數(shù)據(jù)進行線性變換。設(shè)minA和maxA分別為屬性A的最小值和最大值,將A的一個原始值x通過max-min標準化映射成在區(qū)間0,1中的值x,其公式為:x=(x-minA)/(maxA-minA)z-score 標準化基于原始數(shù)據(jù)的均值(mean)和標準差(standard deviation)進行

11、數(shù)據(jù)的標準化,將A的原始值x標準化到x,其公式為:x=(x-mean)/ standard deviation。12Decimal scaling標準化通過移動數(shù)據(jù)的小數(shù)點位置來進行標準化。小數(shù)點移動多少位取決于屬性A的取值中的最大絕對值。將屬性A的原始值x到x的計算方法公式為:x=x/(10j)。其中,j是滿足條件的最小整數(shù)。其他標準化方法還有一些標準化方法的做法是將原始數(shù)據(jù)除以某一值,如將原始數(shù)據(jù)除以行或列的和,稱總和標準化;如果原始數(shù)據(jù)除以每行或每列中的最大值,叫做最大值標準化;如果原始數(shù)據(jù)除以行或列的和的平方根,則稱為模標準化(norm standardization)。34大數(shù)據(jù)應(yīng)用

12、人才培養(yǎng)系列教材第一章概論1.1 數(shù)據(jù)清洗概述1.2 數(shù)據(jù)標準化1.3 數(shù)據(jù)倉庫習(xí)題1.3數(shù)據(jù)倉庫簡介1.3.1 數(shù)據(jù)倉庫定義 數(shù)據(jù)倉庫(Data Warehouse, DW)是基于信息系統(tǒng)業(yè)務(wù)發(fā)展需要,基于傳統(tǒng)數(shù)據(jù)庫系統(tǒng)技術(shù)發(fā)展形成能夠并逐步獨立出來的一系列新的應(yīng)用技術(shù),目標是通過提供全面、大量的數(shù)據(jù)存儲來有效支持高層決策分析。 W.H.Inmon在書中對數(shù)據(jù)倉庫的定義是:數(shù)據(jù)倉庫是決策支持系統(tǒng)和聯(lián)機分析應(yīng)用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境,是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Varian

13、t)的數(shù)據(jù)集合,用于支持經(jīng)營管理中的決策制定過程。 數(shù)據(jù)庫是面向事務(wù)的設(shè)計,而數(shù)據(jù)倉庫是面向主題設(shè)計的。數(shù)據(jù)庫設(shè)計是盡量避免冗余,一般采用符合范式的規(guī)則來設(shè)計,數(shù)據(jù)倉庫在設(shè)計是有意引入冗余,采用反范式的方式來設(shè)計。數(shù)據(jù)庫是為捕獲數(shù)據(jù)而設(shè)計,數(shù)據(jù)倉庫是為分析數(shù)據(jù)而設(shè)計。數(shù)據(jù)庫一般存儲在線交易數(shù)據(jù),數(shù)據(jù)倉庫一般存儲的是歷史數(shù)據(jù)。1.3數(shù)據(jù)倉庫簡介1.3.2 數(shù)據(jù)倉庫組成要素 數(shù)據(jù)倉庫不是一種提供戰(zhàn)略信息的軟件或硬件產(chǎn)品,而是一個便于用戶找到戰(zhàn)略信息和做出更好決策的計算環(huán)境,是一個以用戶為中心的環(huán)境。數(shù)據(jù)倉庫需要提供數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)裝載和數(shù)據(jù)存儲功能,并為用戶提供交互接口。典型數(shù)據(jù)倉庫的基本

14、組成要素包括:1源數(shù)據(jù)單元 2數(shù)據(jù)準備單元3數(shù)據(jù)存儲單元4信息傳遞單元5元數(shù)據(jù)單元6管理控制單元 傳統(tǒng)數(shù)據(jù)倉庫 企業(yè)把數(shù)據(jù)分成內(nèi)部數(shù)據(jù)和外部數(shù)據(jù),內(nèi)部數(shù)據(jù)包括OLTP交易系統(tǒng)和OLAP分析系統(tǒng)的數(shù)據(jù)。企業(yè)首先需要將這些數(shù)據(jù)集中起來,經(jīng)過轉(zhuǎn)換放到這類數(shù)據(jù)庫中,然后在數(shù)據(jù)庫上對數(shù)據(jù)進行加工,建立各種主題模型,再提供報表分析業(yè)務(wù)。 數(shù)據(jù)集市 數(shù)據(jù)集市一般是用于某一類功能需求的數(shù)據(jù)倉庫的簡單模式,往往是由一些業(yè)務(wù)部門構(gòu)建,也可以構(gòu)建在企業(yè)數(shù)據(jù)倉庫上。一般來說數(shù)據(jù)集市的數(shù)據(jù)源較少,但往往對數(shù)據(jù)分析的延時有很高的要求,并需要和各種報表工具有很好的對接。1.3數(shù)據(jù)倉庫簡介1.3.3 數(shù)據(jù)倉庫分類 關(guān)聯(lián)發(fā)現(xiàn)數(shù)

15、據(jù)倉庫 在一些場景下,企業(yè)可能不知道數(shù)據(jù)的內(nèi)聯(lián)規(guī)則,而是需要通過數(shù)據(jù)挖掘的方式找出數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,隱藏的聯(lián)系和模式等,從而挖掘出數(shù)據(jù)的價值。很多行業(yè)的新業(yè)務(wù)都有這方面的需求,如金融行業(yè)的風(fēng)險控制,反欺詐等業(yè)務(wù)。上下文無關(guān)聯(lián)的數(shù)據(jù)倉庫一般需要在架構(gòu)設(shè)計上支持數(shù)據(jù)挖掘能力,并提供通用的算法接口來操作數(shù)據(jù)。 實時處理數(shù)據(jù)倉庫 隨著業(yè)務(wù)的發(fā)展,企業(yè)客戶需要對實時的數(shù)據(jù)做一些商業(yè)分析,譬如零售行業(yè)需要根據(jù)實時的銷售數(shù)據(jù)來調(diào)整庫存和生產(chǎn)計劃。這類行業(yè)用戶對數(shù)據(jù)的實時性要求很高,傳統(tǒng)的離線批處理的方式不能滿足需求,因此需要構(gòu)建實時處理的數(shù)據(jù)倉庫。數(shù)據(jù)可以通過各種方式完成采集,然后數(shù)據(jù)倉庫可以在指定的時間

16、限期內(nèi)對數(shù)據(jù)進行處理和統(tǒng)計分析等,再將數(shù)據(jù)存入數(shù)據(jù)倉庫以滿足一些其他業(yè)務(wù)的需求。1.3數(shù)據(jù)倉庫簡介1.3.3 數(shù)據(jù)倉庫分類1.3數(shù)據(jù)倉庫簡介1.3.4 數(shù)據(jù)倉庫相關(guān)技術(shù)數(shù)據(jù)清洗數(shù)據(jù)倉庫需要從種類各異的多個數(shù)據(jù)源中導(dǎo)入大量數(shù)據(jù),數(shù)據(jù)倉庫的一個重要任務(wù)就通過數(shù)據(jù)清洗保證數(shù)據(jù)的一致性與正確性。數(shù)據(jù)粒度數(shù)據(jù)倉庫中存儲的數(shù)據(jù)粒度將直接影響到數(shù)據(jù)倉庫中數(shù)據(jù)的存儲量及查詢質(zhì)量,并進一步影響數(shù)據(jù)倉庫能否滿足最終用戶的分析需求。設(shè)計數(shù)據(jù)倉庫時要合理確定數(shù)據(jù)粒度。12索引優(yōu)化不論是數(shù)據(jù)庫還是數(shù)據(jù)倉庫,索引查找是優(yōu)化查詢響應(yīng)時間的重要方法,索引建立的好壞直接影響數(shù)據(jù)訪問效率。物化視圖選擇和維護數(shù)據(jù)倉庫中以物化視圖(

17、Materialized View)的形式存儲大量來自多個異質(zhì)數(shù)據(jù)源中的數(shù)據(jù),數(shù)據(jù)倉庫中采用物化視圖進行快速查詢和分析,能有效提高查詢速度和響應(yīng)時間。34數(shù)據(jù)倉庫的管理維護為了減少數(shù)據(jù)更新量,數(shù)據(jù)倉庫一般采用增量式更新策略。此外,數(shù)據(jù)倉庫必須建立有效的安全策略和授權(quán)訪問控制機制。最后,數(shù)據(jù)倉庫必須提供穩(wěn)定可靠的數(shù)據(jù)備份和恢復(fù)策略。51.3數(shù)據(jù)倉庫簡介1.3.5 常用工具簡介 數(shù)據(jù)倉庫不是一門純粹的技術(shù),更是一種架構(gòu)和理念,核心在于對數(shù)據(jù)的整合集成,把企業(yè)原始數(shù)據(jù)進行集成、歸類、分析,從而提供了企業(yè)決策分析需要的目標數(shù)據(jù)。SQL Server、Sybase、DB2和Oracle都是傳統(tǒng)的關(guān)系數(shù)據(jù)

18、庫,但是只要經(jīng)過合理的數(shù)據(jù)模型設(shè)計或參數(shù)設(shè)置也可將其轉(zhuǎn)變?yōu)楹芎玫臄?shù)據(jù)倉庫實體。 目前,OLAP已逐漸融合到數(shù)據(jù)倉庫中,例如微軟的Analysis Service和DB2的OLAP Server,通過自身提供的專用接口可以加快多維數(shù)據(jù)的轉(zhuǎn)換處理。當然,也有如Essbase這樣純粹的OLAP產(chǎn)品,實際上許多大型OLAP都采用Essbase。 對于ETL而言,廣泛使用的ETL工具主要包括Informatica PowerCenter、IBM的Datastage、SQLServer搭配的SSIS、Oracle的OWB和ODI以及開源的Kettle等。 數(shù)據(jù)倉庫可用的報表工具很多,專業(yè)性的報表工具有Hyperion、B0、Congos和Brio,這些產(chǎn)品價格相對昂貴。便宜的報表工具可選用微軟的ReportService。大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材第一章概論1.1 數(shù)據(jù)清洗概述1.2 數(shù)據(jù)標準化1.3 數(shù)據(jù)倉庫習(xí)題1什么是數(shù)據(jù)科學(xué),請簡要闡述

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論