數(shù)據(jù)處理與數(shù)據(jù)清洗_第1頁
數(shù)據(jù)處理與數(shù)據(jù)清洗_第2頁
數(shù)據(jù)處理與數(shù)據(jù)清洗_第3頁
數(shù)據(jù)處理與數(shù)據(jù)清洗_第4頁
數(shù)據(jù)處理與數(shù)據(jù)清洗_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、什么是數(shù)據(jù)處理?數(shù)據(jù)處理有廣義和狹義兩種理解,廣義的理解,所有的數(shù)據(jù)采集、存儲、加工、分析、挖掘和展示等工作都可以叫做數(shù)據(jù)處理;而狹義的數(shù)據(jù)處理僅僅包括從存儲的數(shù)據(jù)中通過提取,篩選出有用數(shù)據(jù),對有用數(shù)據(jù)進(jìn)行加工的過程,是為數(shù)據(jù)分析和挖掘的模型所做的數(shù)據(jù)準(zhǔn)備工作。一般意義上講的數(shù)據(jù)處理是狹義的定義,即對數(shù)據(jù)進(jìn)行增、刪、改、查的操作。在目前大數(shù)據(jù)的背景下,我們數(shù)據(jù)處理工作往往是通過技術(shù)手段來實現(xiàn),比如說利用數(shù)據(jù)庫的處理能力,對數(shù)據(jù)進(jìn)行增加、刪除、改動、查詢等處理。在實踐中,數(shù)據(jù)處理工作中最大的是對數(shù)據(jù)進(jìn)行清洗,即對不清潔的數(shù)據(jù)進(jìn)行清潔化的工作,讓數(shù)據(jù)更加規(guī)范,讓數(shù)據(jù)的結(jié)構(gòu)更加合理,讓數(shù)據(jù)的含義更加

2、明確,并讓數(shù)據(jù)處在數(shù)學(xué)模型的可用狀態(tài)。數(shù)據(jù)之“臟”數(shù)據(jù)的“臟”是一個比喻的說法。我們把數(shù)據(jù)記錄不規(guī)范、格式錯誤、含義不明確等叫做數(shù)據(jù)的“臟”,包括幾種典型的形式。(1)數(shù)據(jù)不規(guī)范的情況。比如姓名,同樣是張三,有的地方記錄為“張三”,有的地方記錄為“張 三”,為了讓兩個字的姓名和三個字的姓名都有相同的長度,中間添加了空格。這種情況同樣發(fā)生在地址字段里,比如說“北京”、“北京市”、“北 京”,雖然都是指北京,于我們?nèi)藖碇v很容易識別,但對計算機來講,這三個寫法代表著三個不同的值,我們需要通過建立映射關(guān)系的方式,將數(shù)據(jù)記錄進(jìn)行統(tǒng)一。常見的數(shù)據(jù)不規(guī)范的情況還包括日期格式的問題。日期格式常見的幾種記錄方法

3、如下:2015/10/202015-10-202015年10月20日10/20/2015Oct. 20, 2015October 20, 20152015.10.20每個人都有不同的喜好和記錄方法,這給計算機識別造成了很大的困難,一個公司的所有數(shù)據(jù)都應(yīng)該有一個明確的規(guī)定,統(tǒng)一數(shù)據(jù)的錄入格式。(2)數(shù)據(jù)不一致的情況數(shù)據(jù)不一致的情況往往是沒有遵循我們單維數(shù)據(jù)表的原則導(dǎo)致的。因為同一條信息記錄在不同的數(shù)據(jù)表甚至數(shù)據(jù)庫中,當(dāng)我們對數(shù)據(jù)信息進(jìn)行更改之后,因為沒有同時對所有的記錄點都做相同的更改而導(dǎo)致的數(shù)據(jù)不一致的情況。為了避免這種情況,我們引入了“單維數(shù)據(jù)表”的概念,強調(diào)了公司內(nèi)部同樣一條信息,只能記錄

4、在一個地方,當(dāng)其他地方需要的時候,通過索引查詢的方式來保證數(shù)據(jù)的一致性,在任何數(shù)據(jù)表中存在其他表中數(shù)據(jù)來源的時候,都要在查詢輸出時進(jìn)行“同步”更新。數(shù)據(jù)的一致性雖然技術(shù)上比較容易實現(xiàn),但在企業(yè)實踐中卻有著巨大的難度。采購部門會錄入供應(yīng)商的信息,而財務(wù)部需要向供應(yīng)商付款,所以也會保留供應(yīng)商相關(guān)的信息數(shù)據(jù),而采購部門和財務(wù)部分分屬不同的職能部門,財務(wù)部門也會采集一部分供應(yīng)商財務(wù)相關(guān)信息,包括銀行信息、賬號信息、稅務(wù)信息、工商信息等,如果發(fā)生變化,比如說法人變更、業(yè)務(wù)變更、企業(yè)性質(zhì)變更等,財務(wù)會對其數(shù)據(jù)進(jìn)行更新;采購部也會對供應(yīng)商的信息進(jìn)行采集并登錄相關(guān)的信息管理系統(tǒng)。如果采購的管理信息系統(tǒng)能夠同財

5、務(wù)所使用的管理信息系統(tǒng)對接且能夠把同條信息能夠關(guān)聯(lián)或者建立索引關(guān)系,則該公司的數(shù)據(jù)一致性比較容易保障。但如果兩個都采用了不同的系統(tǒng),就容易導(dǎo)致數(shù)據(jù)不一致的情況。而這種情況在大多數(shù)公司種都存在,且很嚴(yán)重。(3)標(biāo)準(zhǔn)不統(tǒng)一的問題我們對一些事物的描述方法需要建立統(tǒng)一的標(biāo)準(zhǔn),從而讓計算機可以有效地對文本數(shù)據(jù)進(jìn)行處理。舉一個具體的例子。比如說導(dǎo)致產(chǎn)品出現(xiàn)質(zhì)量問題的原因,多數(shù)情況下是手工錄入的,同樣的原因,不同的數(shù)據(jù)錄入的描述會有不同。同樣是因為電壓不穩(wěn)導(dǎo)致的產(chǎn)品質(zhì)量問題,有人會錄入為“電壓不穩(wěn)”,有人會錄入為“電流不穩(wěn)定”,有人錄入為“供電問題”,有人錄入為“缺少穩(wěn)壓設(shè)備”,有人錄入為“供電負(fù)載異?!薄?/p>

6、如果沒有統(tǒng)一的規(guī)范,我們在統(tǒng)計匯總時會產(chǎn)生上千個導(dǎo)致產(chǎn)品品質(zhì)問題的原因。這給數(shù)據(jù)解讀和分析,以及尋找改善措施帶來很大的麻煩。這就需要數(shù)據(jù)庫管理員根據(jù)公司的實際情況,將該類原因進(jìn)行歸類,然后設(shè)定幾個類別,由員工在系統(tǒng)中進(jìn)行選擇,而不是讓他們手工錄入。一般情況下,出現(xiàn)最多的前10名原因能夠覆蓋90%以上的情況,在錄入中,先讓員工選擇,然后留出一個“其它”,當(dāng)員工選擇其它的時候再進(jìn)行錄入,這樣就能夠有效規(guī)范這種數(shù)據(jù)的錄入標(biāo)準(zhǔn)化問題。根據(jù)大多數(shù)人的記憶習(xí)慣,在經(jīng)常使用的范圍內(nèi),一般能夠輕松記住7個左右的信息,因此,我們盡可能把這些導(dǎo)致質(zhì)量的原因找出最常見的7個,對錄入數(shù)據(jù)的人進(jìn)行培訓(xùn),他們基本能夠記住

7、這7個,特別是在面對教育水平不高的一線工人的時候。(4)格式不標(biāo)準(zhǔn)的問題所謂的格式不標(biāo)準(zhǔn)的問題是在數(shù)據(jù)錄入時,使用了錯誤的格式。比如說,錄入日期時,因為格式不規(guī)范,計算機不能自動識別為日期格式,出現(xiàn)了各種個樣的文本;比如說錄入數(shù)值時采用的中文字符格式,用了全角字符等,A和是不同的,1和是不同的,0和O是不同的等;有些數(shù)據(jù)格式要求英文逗號分隔而錯誤地使用了中文的逗號;有些要求使用減號作為連接符,有的使用了下劃線或者全角字符的連接符;有些要求使用英文引號,但錄入時采用了中文的引號等等。這種問題比較容易處理,需要信息系統(tǒng)設(shè)定相關(guān)的數(shù)據(jù)校驗,如果錄入不準(zhǔn)確,數(shù)值錄入為全角字符后會被識別為字符,系統(tǒng)彈出

8、數(shù)據(jù)錄入格式錯誤的警告基本可以解決大部分這樣的問題。(5)附加字段的問題我們在數(shù)據(jù)清洗的時候,往往需要添加新的字段以便我們數(shù)學(xué)模型可以直接處理數(shù)據(jù)。比如說司齡、年齡等,我們數(shù)據(jù)庫中可能沒有直接的字段來記錄員工的司齡,我們需要通過入職日期到目前數(shù)據(jù)采集日期間的差來計算司齡,這就需要添加司齡字段之后,通過入職日期來計算,年齡則通過出生日期來計算。數(shù)據(jù)雜質(zhì)和噪音在外部大數(shù)據(jù)中因為數(shù)據(jù)價值密度較低,數(shù)據(jù)的雜質(zhì)和噪音很多,需要大量的數(shù)據(jù)處理工作才能將有價值的數(shù)據(jù)和信息提煉出來,而企業(yè)大數(shù)據(jù),特別是內(nèi)部采集的數(shù)據(jù),其價值密度高,幾乎所有的數(shù)據(jù)和信息都是有價值的,其雜質(zhì)和噪音也會少。什么是數(shù)據(jù)雜質(zhì)呢?所謂的

9、數(shù)據(jù)雜質(zhì)就是在數(shù)據(jù)集中出現(xiàn)了與數(shù)據(jù)記錄本身無關(guān)的數(shù)據(jù),就如大米中出現(xiàn)了沙子一樣,需要在處理數(shù)據(jù)的過程中,將這部分?jǐn)?shù)據(jù)剔除。比如說錄音或者錄像數(shù)據(jù),本質(zhì)上上為了記錄經(jīng)營或者管理活動,但在過程中可能因為沒有活動發(fā)生,但錄音和錄像還在繼續(xù),這部分?jǐn)?shù)據(jù)就會成為雜質(zhì)。企業(yè)生產(chǎn)線上的監(jiān)控錄像,當(dāng)沒有生產(chǎn)時仍然在錄像,拿這一部分時段的錄像就可以從整體數(shù)據(jù)中剔除。就如行車記錄儀,當(dāng)停車時,記錄儀檢測到汽車已經(jīng)不動超過10秒鐘,錄像就暫停,當(dāng)圖像中的畫面有動時,則及時啟動錄像過程,這是一種比較智能的方式在遴選數(shù)據(jù)的采集和記錄。另外一種數(shù)據(jù)的來源是數(shù)據(jù)采集或者記錄過程的雜質(zhì)。比如說問卷調(diào)查,在問卷正式進(jìn)行之前,編

10、制問卷的人首先要做幾遍測試,還會找其他人做個測試,以保證正式發(fā)布調(diào)研之后能夠無差錯,這部分的數(shù)據(jù)也會被調(diào)研系統(tǒng)后臺記錄,這些數(shù)據(jù)可以稱作雜質(zhì),在處理調(diào)研數(shù)據(jù)集的時候,需要剔除。而調(diào)研的過程中,有人打開了調(diào)研鏈接,但做到一半就因為其他事情耽擱了,稍后又重新從頭開始做該調(diào)研,則前面這部分未完成的問卷可以從數(shù)據(jù)集中作為雜質(zhì)去除。數(shù)據(jù)的雜質(zhì)其實有很多種,具體數(shù)據(jù)采集的方式和方法不同,都會有不同類型的數(shù)據(jù)雜質(zhì)進(jìn)入到數(shù)據(jù)集,數(shù)據(jù)分析人員需要根據(jù)實際情況進(jìn)行甄別。什么是數(shù)據(jù)噪音呢?所謂的數(shù)據(jù)噪音就是貌似與有用數(shù)據(jù)集,但仔細(xì)查看后并非該數(shù)據(jù)集該有的數(shù)據(jù),或者仔細(xì)分析后沒有價值的數(shù)據(jù),當(dāng)然也有一部分是我們無法解

11、釋其與其他數(shù)據(jù)差異的數(shù)據(jù)。與雜質(zhì)不同,噪音是貌似相關(guān)的數(shù)據(jù),但其實價值不大或者根本沒有價值。現(xiàn)在的電商是靠流量和銷量說話的時代,特別是天貓和淘寶數(shù)據(jù),購買者更加關(guān)心賣家的信用。賣家為了獲得消費者更高的關(guān)注和購買量,往往采取“刷”信用的方式在提高自己的星級。對于電商來說,這些“刷”的交易數(shù)據(jù),都可以看作是噪音數(shù)據(jù),雖然這部分?jǐn)?shù)據(jù)對于其它的分析可能非常有價值。比如說一個訂單數(shù)據(jù)集,在這個數(shù)據(jù)集中有一部分是內(nèi)部測試形成的,也有是競爭對手測試形成的,還有可能是消費者測試網(wǎng)站形成的,有的甚至是數(shù)據(jù)采集機器人后臺下單并取消,但是在這個過程中采集相關(guān)數(shù)據(jù)的,這一部分?jǐn)?shù)據(jù)就可以看作數(shù)據(jù)的噪聲,并非真正的交易數(shù)

12、據(jù)。公司在網(wǎng)上做了一次推廣,短期內(nèi)訪問量大幅度上升,其中有部分訪問量是競爭對手、品類愛好者、研究人員等進(jìn)行的測試性或者信息獲取性的訪問,這部分訪問就是我們研究客戶訪問及轉(zhuǎn)化率的噪音。什么是數(shù)據(jù)清洗? 所謂的數(shù)據(jù)清洗就是對原始數(shù)據(jù)進(jìn)行規(guī)范化的處理,減少數(shù)據(jù)噪音,消除數(shù)據(jù)的不一致性,并對某些數(shù)據(jù)進(jìn)行加工,以便數(shù)據(jù)處理軟件和數(shù)據(jù)模型能夠直接使用。數(shù)據(jù)清洗是數(shù)據(jù)處理工序之一,目的是提高數(shù)據(jù)的質(zhì)量,為數(shù)據(jù)分析準(zhǔn)備有效數(shù)據(jù)集。數(shù)據(jù)清洗的方法有很多,主要與我們所使用的數(shù)據(jù)處理工具有關(guān)系。比如我們使用MS Excel,我們可以對數(shù)據(jù)進(jìn)行查找替換、填充、分列、映射(vlookup)、透視等,如果規(guī)律性很強數(shù)據(jù)量

13、很大的時候,我們還可以采用VBA編程的方式來實現(xiàn)。其它軟件工具的數(shù)據(jù)清洗方法不一而足,需要熟練掌握對應(yīng)軟件的操作方法。實踐中,數(shù)據(jù)清洗工作是占用數(shù)據(jù)分析師時間最長的工作,雖然工作的價值產(chǎn)出很低,耗費大量時間,但這個工作必不可少,主要的原因是數(shù)據(jù)建表和數(shù)據(jù)采集過程中質(zhì)量不高導(dǎo)致的。如果我們在數(shù)據(jù)采集、數(shù)據(jù)存儲和數(shù)據(jù)傳輸過程中,提高數(shù)據(jù)的質(zhì)量,保證數(shù)據(jù)的有效性,我們數(shù)據(jù)清洗工作可以大幅度縮減。而這個過程中,數(shù)據(jù)采集的方式、方法,以及自動化智能設(shè)備的使用是大幅度提高數(shù)據(jù)質(zhì)量的關(guān)鍵手段。要想在數(shù)據(jù)清洗上節(jié)省人工,需要數(shù)據(jù)系統(tǒng)中加入數(shù)據(jù)的校驗,并制定相關(guān)的數(shù)據(jù)規(guī)范,讓數(shù)據(jù)質(zhì)量在源頭錄入的時候就是規(guī)范的,

14、高質(zhì)量的,即使是一些用戶端口的數(shù)據(jù),在錄入的時候也要加入校驗工作,通過示例的方式提醒用戶按照一定的規(guī)則來錄入。我們經(jīng)常見到一些網(wǎng)站在讓用戶錄入姓名時要求用戶錄入姓和名,但是如果不進(jìn)行校驗,或者提示用戶,用戶很可能將姓氏錄入到名字中,將名字錄入到姓氏中,導(dǎo)致未來數(shù)據(jù)分析的時候存在問題。比如歐陽峰,如果峰字被錄入到姓氏中,系統(tǒng)需要通過后臺字典,提示用戶“您確信您姓峰?”,這種提示雖然消弱了用戶體驗,但對于數(shù)據(jù)的準(zhǔn)確性還是非常有益的,語言上誠懇些,對待客戶禮貌些,或者可以獲得用戶的理解。如何提高數(shù)據(jù)清洗速度?根據(jù)我們的實踐經(jīng)驗,數(shù)據(jù)清洗工作占我們數(shù)據(jù)分析師工作量的70%,甚至以上,而且數(shù)據(jù)質(zhì)量越差,

15、這個比例越高。其實提高數(shù)據(jù)清洗速度最有效的方法就是對數(shù)據(jù)采集和數(shù)據(jù)記錄的規(guī)范性進(jìn)行有效治理,從源頭把控數(shù)據(jù)質(zhì)量。如果數(shù)據(jù)源頭的數(shù)據(jù)質(zhì)量不高,數(shù)據(jù)清洗工作不僅會洗掉臟的數(shù)據(jù),甚至還洗掉了某些有價值的數(shù)據(jù),導(dǎo)致數(shù)據(jù)信息量的損失。程序化方法是提高數(shù)據(jù)清洗工作效率的有效手段。我們往往面對的數(shù)據(jù)集比較大,如果手工一個個檢查并清洗,可能需要耗費大量的人工時間。如果我們能夠?qū)?shù)據(jù)不規(guī)范、不完整或者不相關(guān)的數(shù)據(jù)有較好的分析,總結(jié)他們中可能存在的規(guī)律性,然后用軟件程序自動化完成數(shù)據(jù)的清洗工作,能夠大幅度提升我們數(shù)據(jù)清洗的效率。尋找數(shù)據(jù)的規(guī)律性是用程序代替人工清洗的基礎(chǔ)。即使是使用Excel對數(shù)據(jù)進(jìn)行清洗,如果能

16、夠用透視表+映射表的方式,會比手工查找+替換的方式要快很多。有的公司已經(jīng)將一些常見的數(shù)據(jù)清洗方法編制成軟件,但清洗的效果還是非常不理想,雖然這樣的數(shù)據(jù)清洗軟件能夠大幅度節(jié)省人工的投入,解放數(shù)據(jù)分析師大量的工作。但這些軟件一般都非常昂貴,一套軟件在百萬以上,能夠快速處理數(shù)據(jù),但仍然需要大量的人工干預(yù)。數(shù)據(jù)清洗工作另外一個非常重要的原則就是:永遠(yuǎn)給自己留下反悔空間。首先,盡量不要破壞原始數(shù)據(jù)。不能在原始數(shù)據(jù)集上直接改,如果修改丟掉了某些有價值信息,可能很難再找回來;如果發(fā)生了錯誤,將可能是災(zāi)難性的。所以:先備份后清洗。如果我們想規(guī)范日期格式,我們要在Excel中添加一列,讓之前的日期列數(shù)據(jù)保留著,

17、如果看著不舒服,可采取隱藏的方式,但直接刪除或者替換都是不可以的。其次,每次改變數(shù)據(jù)之前做好備份。我特別強調(diào)在對數(shù)據(jù)進(jìn)行清洗時,禁止使用“查找+替換”的方式,因為這種方式改變了原始數(shù)據(jù),如果發(fā)生錯誤,而Excel的Undo功能不能啟用則麻煩就大了,即使保留了原始數(shù)據(jù)副本,可能之前的清洗工作會白費了。當(dāng)數(shù)據(jù)量非常大的時候,任何有可能對數(shù)據(jù)集發(fā)生改變的操作之前都要做好備份工作。映射表是一個非常好的操作方法,在利用Excel對數(shù)據(jù)進(jìn)行清洗的時候,可以將同一字段的數(shù)據(jù)制作一個映射表,然后讓Excel根據(jù)映射表對數(shù)據(jù)進(jìn)行查找替換,我們常使用的功能是vlookup()函數(shù)。比如說地址中城市的名稱,如果用戶

18、在填寫的時候不是通過下拉表選擇的,肯定會被填寫的五花八門,人工能夠識別,但機器不可以識別,所以可以通過透視表功能將所有的地址城市做個統(tǒng)計匯總,然后根據(jù)人工識別來建立映射表,然后再把原始的地址映射回去,從而將地址中城市名稱標(biāo)準(zhǔn)化為一個唯一值,再對數(shù)據(jù)以城市為單位進(jìn)行統(tǒng)計匯總時,數(shù)據(jù)才會準(zhǔn)確。利用第三方程序來進(jìn)行數(shù)據(jù)的清洗也是一種方法,多數(shù)第三方數(shù)據(jù)清洗工具軟件都是構(gòu)建一個映射表,根據(jù)數(shù)據(jù)的特點進(jìn)行猜測、精準(zhǔn)匹配,并用后臺“字典”來映射數(shù)據(jù),然后將規(guī)范化的數(shù)據(jù)輸出出來。第三方軟件在適用性上往往都存在一定的缺陷或者說每個第三方程序都比較適合一類數(shù)據(jù)集,有的比較適合客戶數(shù)據(jù)的清洗,有的比較適合產(chǎn)品訂單數(shù)據(jù)的清洗,有的比較適合清洗社交媒體網(wǎng)站的數(shù)據(jù)。在選擇第三方數(shù)據(jù)清洗軟件的時候,要進(jìn)行評比,用一個比較小的數(shù)據(jù)集進(jìn)行測試之后再購買。這類第三方軟件一般都比較昂貴

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論