《大數(shù)據(jù)基礎(chǔ)》 課件 項目二 大數(shù)據(jù)采集與預(yù)處理_第1頁
《大數(shù)據(jù)基礎(chǔ)》 課件 項目二 大數(shù)據(jù)采集與預(yù)處理_第2頁
《大數(shù)據(jù)基礎(chǔ)》 課件 項目二 大數(shù)據(jù)采集與預(yù)處理_第3頁
《大數(shù)據(jù)基礎(chǔ)》 課件 項目二 大數(shù)據(jù)采集與預(yù)處理_第4頁
《大數(shù)據(jù)基礎(chǔ)》 課件 項目二 大數(shù)據(jù)采集與預(yù)處理_第5頁
已閱讀5頁,還剩76頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)基礎(chǔ)項目二

數(shù)據(jù)采集與預(yù)處理項目簡介大隨著網(wǎng)絡(luò)和信息技術(shù)的不斷普及,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)增長,差不多每兩年翻一番,這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量。面對如此巨大的數(shù)據(jù),如何收集這些數(shù)據(jù),并且進行清洗、轉(zhuǎn)換為有效的數(shù)據(jù)呢?這是每一個大數(shù)據(jù)應(yīng)用者首先要遇到的。本項目將帶領(lǐng)你認識數(shù)據(jù)采集的數(shù)據(jù)來源、數(shù)據(jù)采集方法,評估數(shù)據(jù)質(zhì)量,識別臟數(shù)據(jù),掌握數(shù)據(jù)清洗、集成、變換和歸約的流程和策略。學(xué)習(xí)目標(biāo)知識目標(biāo)1.理解數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約的基本概念;2.熟悉數(shù)據(jù)采集來源和常用的數(shù)據(jù)采集方法;3.熟悉數(shù)據(jù)質(zhì)量的影響因素和數(shù)據(jù)質(zhì)量的評估標(biāo)準(zhǔn)3.熟悉常見“臟數(shù)據(jù)”類型;4.掌握數(shù)據(jù)清洗、集成、變換和歸約的流程和策略。能力目標(biāo)1.能根據(jù)數(shù)據(jù)采集需求選定數(shù)據(jù)來源和采集方法;2.能夠使用網(wǎng)絡(luò)爬蟲等數(shù)據(jù)采集工具采集數(shù)據(jù);3.能夠分析數(shù)據(jù)質(zhì)量影響因素,評估數(shù)據(jù)質(zhì)量;4.能對數(shù)據(jù)進行一般的數(shù)據(jù)清洗、集成、變換和歸約處理。。素質(zhì)目標(biāo)1.養(yǎng)成做事條理清晰、對數(shù)據(jù)保持懷疑、善于發(fā)現(xiàn)的工作作風(fēng);2.養(yǎng)成對數(shù)據(jù)采集、預(yù)處理過程的細心、客觀職業(yè)方式。。思政目標(biāo)培養(yǎng)大數(shù)據(jù)采集與預(yù)處理中的數(shù)據(jù)采集人員職業(yè)倫理操守,以及對數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理過程中的遵紀守法。思維導(dǎo)圖任務(wù)一數(shù)據(jù)采集任務(wù)清單工作任務(wù)數(shù)據(jù)采集教學(xué)模式任務(wù)驅(qū)動建議學(xué)時2課時教學(xué)地點一體化教室任務(wù)描述小王還有一年大學(xué)畢業(yè),為了使自己畢業(yè)找工作更有競爭力,聽人說,數(shù)字經(jīng)濟時代,數(shù)據(jù)分析類崗位應(yīng)該會有前景。于是他想考一個“數(shù)據(jù)分析員”技能等級證書,但小王對這個崗位的市場前景、熱度、競爭力都還只是道聽途說,他想通過網(wǎng)絡(luò)采集數(shù)據(jù)來進行分析,那么小王應(yīng)該采集什么數(shù)據(jù)?在哪里采集數(shù)據(jù)?用什么工具來采集呢?任務(wù)目標(biāo)理解數(shù)據(jù)采集概念;掌握數(shù)據(jù)采取流程;熟悉數(shù)據(jù)采集來源渠道;掌握數(shù)據(jù)采集常用方法;能根據(jù)數(shù)據(jù)采集的需求識別,選取數(shù)據(jù)獲取渠道;能根據(jù)不同的數(shù)據(jù)渠道和數(shù)據(jù)類型選用合適的采取方法;能熟練使用八爪魚等網(wǎng)絡(luò)爬蟲工具采集數(shù)據(jù);養(yǎng)成條理清晰、細心的工作作風(fēng);養(yǎng)成合規(guī)合法的數(shù)據(jù)采集的職業(yè)操守。關(guān)鍵詞數(shù)據(jù)采集、數(shù)據(jù)來源、采集方法、網(wǎng)絡(luò)爬蟲知識必備一、什么是數(shù)據(jù)采集數(shù)據(jù)采集,又稱“數(shù)據(jù)獲取”,是大數(shù)據(jù)工作的入口,也是數(shù)據(jù)分析過程中相當(dāng)重要的一個環(huán)節(jié),它通過各種技術(shù)手段把外部各種數(shù)據(jù)源產(chǎn)生的數(shù)據(jù)實時或非實時地采集并加以利用。相比傳統(tǒng)數(shù)據(jù)采集,大數(shù)據(jù)采集在數(shù)據(jù)源上,大數(shù)據(jù)采集的來源更廣泛,數(shù)據(jù)量巨大;在數(shù)據(jù)類型上,大數(shù)據(jù)采集的數(shù)據(jù)類型更豐富。知識必備二、數(shù)據(jù)采集需求識別針對不同的需求,我們需要組合不同的數(shù)據(jù)進行分析。從多角度考慮設(shè)計。如分析宏觀背景,可以從年代變化、地區(qū)差異、政策方面搜集數(shù)據(jù);分析微觀事件,可以從媒體關(guān)注、網(wǎng)民討論、時間節(jié)點、擴散路徑等方面搜集數(shù)據(jù);評價品牌營銷效果,可以從目標(biāo)達成率、最終銷售額、用戶增長情況、用戶評價等方面搜集數(shù)據(jù);了解平臺運營質(zhì)量,可以從網(wǎng)站訪問情況、登錄用戶數(shù)、內(nèi)容閱讀、互動評價等方面搜集數(shù)據(jù)。確定分析方向明確數(shù)據(jù)需求多渠道獲取數(shù)據(jù)如何接受數(shù)據(jù)混雜的現(xiàn)實,在海量的數(shù)據(jù)中找到我們需要的數(shù)據(jù)?知識必備二、數(shù)據(jù)采集需求識別全面性多維性高效性全面性是指的采集的數(shù)據(jù)量足夠大具有分析價值,數(shù)據(jù)面足夠全支撐分析需求。數(shù)據(jù)更重要的是能滿足分析需求。靈活、快速自定義數(shù)據(jù)的多種屬性和不同類型,從而滿足不同的分析目標(biāo)。高效性包含技術(shù)執(zhí)行的高效性、團隊內(nèi)部成員協(xié)同的高效性以及數(shù)據(jù)分析需求和目標(biāo)實現(xiàn)的高效性。也就是說采集數(shù)據(jù)一定要明確采集目的,帶著問題、帶著需求搜集信息,使采集更高效、更有針對性。在進行具體數(shù)據(jù)采集時,需要考慮以下3個要點知識必備三、數(shù)據(jù)采集來源1、互聯(lián)網(wǎng)數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù)是指用戶參與和使用社交平臺、系統(tǒng)、軟件產(chǎn)生的數(shù)據(jù),以及互聯(lián)網(wǎng)平臺發(fā)布的數(shù)據(jù)。目前被用戶使用的主流的互聯(lián)網(wǎng)平臺數(shù)量眾多,比如微信、微博、抖音、QQ、百度貼吧;各個門戶新聞網(wǎng)站,如今日頭條、新浪,等等。在用戶訪問網(wǎng)站期間,其行為會產(chǎn)生大量的數(shù)據(jù),比如利用電子郵件發(fā)送消息,上傳文字文檔來表述自己的想法與思考,上傳圖片記錄自己喜愛的瞬間,上傳音頻或是視頻來記錄身邊生活,這些通過不同的社交平臺或是門戶網(wǎng)站所產(chǎn)生的不同格式的數(shù)據(jù)。知識必備三、數(shù)據(jù)采集來源2、日志數(shù)據(jù)許多公司的業(yè)務(wù)平臺每天都會產(chǎn)生大量的日志文件數(shù)據(jù)。日志文件數(shù)據(jù)一般由數(shù)據(jù)源系統(tǒng)產(chǎn)生,用于記錄數(shù)據(jù)源的執(zhí)行的各種操作活動,比如網(wǎng)絡(luò)監(jiān)控的流量管理、金融應(yīng)用的支付記賬和Web服務(wù)器記錄的用戶訪問行為。通過對這些日志信息進行采集,然后進行數(shù)據(jù)分析,就可以從公司業(yè)務(wù)平臺日志數(shù)據(jù)中挖掘得到具有潛在價值的信息,為公司決策和公司后臺服務(wù)器平臺性能評估提供可靠的數(shù)據(jù)保證。知識必備三、數(shù)據(jù)采集來源3、企業(yè)業(yè)務(wù)系統(tǒng)數(shù)據(jù)許多公司使用的業(yè)務(wù)處理系統(tǒng)也會產(chǎn)生大量的業(yè)務(wù)系統(tǒng)數(shù)據(jù)。如,企業(yè)資源計劃、客戶關(guān)系管理、供應(yīng)鏈管理、人力資源管理、財務(wù)系統(tǒng)、等等。這些數(shù)據(jù)一般會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲,除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的存儲。企業(yè)每天產(chǎn)生的業(yè)務(wù)數(shù)據(jù),會以數(shù)據(jù)庫記錄形式被直接寫入到數(shù)據(jù)庫中。這些業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)可以滿足企業(yè)的各種商務(wù)決策分析需求。知識必備三、數(shù)據(jù)采集來源4、傳感器數(shù)據(jù)傳感器數(shù)據(jù)是指利用物聯(lián)網(wǎng)采集原始數(shù)據(jù)。利用物聯(lián)網(wǎng),數(shù)據(jù)可以來自醫(yī)療設(shè)備、監(jiān)控設(shè)備、辦公設(shè)備、車輛、視頻游戲、儀表數(shù)據(jù)、照相機以及各種家用電器。如常見的監(jiān)控設(shè)備采集圖像、視頻信息,話筒獲取聲音信息,掃描器讀取物體尺寸信息,還有各式傳感器采集氣壓、溫度、濕度等信息。物聯(lián)網(wǎng)的目標(biāo)是將眾多的實體整合進互聯(lián)網(wǎng)內(nèi),從而分享數(shù)據(jù)、分析數(shù)據(jù),提供更好的用戶體驗。知識必備四、數(shù)據(jù)采集方法1、網(wǎng)絡(luò)爬蟲對于互聯(lián)網(wǎng)web數(shù)據(jù)的采集,主要通過網(wǎng)絡(luò)爬蟲來進行采集。爬蟲是指為搜索引擎下載并存儲網(wǎng)頁的程序,是搜索引擎和Web緩存等的主要數(shù)據(jù)采集方式。網(wǎng)絡(luò)爬蟲(又稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機器人),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。當(dāng)前使用較多的網(wǎng)絡(luò)爬蟲工具主要有Python、八爪魚采集器、火車采集器等工具。網(wǎng)絡(luò)爬蟲技術(shù)作為一種重要的數(shù)據(jù)采集手段,已經(jīng)廣泛應(yīng)用于互聯(lián)網(wǎng)的諸多領(lǐng)域,但是爬蟲技術(shù)的應(yīng)用具有違法性邊界。知識鏈接:涉網(wǎng)絡(luò)爬蟲的刑法案件及刑事法律規(guī)制知識必備四、數(shù)據(jù)采集方法1、網(wǎng)絡(luò)爬蟲使用網(wǎng)絡(luò)爬蟲工具—八爪魚采集器八爪魚采集教程/tutorialIndex8知識必備四、數(shù)據(jù)采集方法2、日志采集系統(tǒng)日志數(shù)據(jù)的采集通常通過日志采集系統(tǒng)自動完成,很多互聯(lián)網(wǎng)企業(yè)都有自己的日志采集系統(tǒng),如Facebook的Scribe、Clouders的Flume、Hadoop的Chukwa等。日志數(shù)據(jù)采集也可以通過第三方平臺來獲取,如CNZZ數(shù)據(jù)專家網(wǎng)站。日志采集系統(tǒng)要做的事情就是實時采集業(yè)務(wù)日志數(shù)據(jù)供離線和在線的分析系統(tǒng)使用。高可用性、高可靠性、和可擴展性是日志采集系統(tǒng)所具有的基本特征。知識必備四、數(shù)據(jù)采集方法3、數(shù)據(jù)庫采集互聯(lián)網(wǎng)產(chǎn)品后端、企業(yè)的內(nèi)部業(yè)務(wù)系統(tǒng)都有業(yè)務(wù)數(shù)據(jù)庫,其中存儲了銷售量、訂單量、購買用戶數(shù)、粉絲數(shù)、閱讀數(shù)等指標(biāo)數(shù)據(jù)。例如,淘寶網(wǎng)店、微信公眾號、微博平臺等的后臺。數(shù)據(jù)庫采集系統(tǒng)通過直接與企業(yè)后臺服務(wù)器結(jié)合,可以直接采集業(yè)務(wù)后臺產(chǎn)生的大量業(yè)務(wù)記錄,并交由特定的處理系統(tǒng)進行系統(tǒng)分析。目前比較常見的數(shù)據(jù)庫采集主要有MySQL、Oracle、Redis、Bennyunn以及MongoDB等。在從各類專業(yè)數(shù)據(jù)庫中采集數(shù)據(jù)時,隨著業(yè)務(wù)的不斷實施,數(shù)據(jù)庫中的數(shù)據(jù)一直在不斷變化,此時從數(shù)據(jù)庫中抽取數(shù)據(jù)一般有全量數(shù)據(jù)抽取和增量數(shù)據(jù)抽取兩種方式。全量數(shù)據(jù)抽取是指將數(shù)據(jù)庫中的全部數(shù)據(jù)抽取出來,而增量數(shù)據(jù)抽取是指僅抽取最近一次抽取后數(shù)據(jù)庫中有變化的部分。知識必備四、數(shù)據(jù)采集方法4、傳感器采集傳感器是一種能將感受到的聲音、溫度、壓力、電流、振動和距離等類型的信息,按一定規(guī)律轉(zhuǎn)換為電信號或其他形式的信息輸出的裝置,常用于獲取各種信息,特點是數(shù)字化、多功能化、系統(tǒng)化、智能化和網(wǎng)絡(luò)化。傳感器采集方式一般是通過選擇設(shè)備、設(shè)定參數(shù)可實時自動采集到目標(biāo)數(shù)據(jù)。通過智能感知、識別技術(shù)與普適計算等通信感知技術(shù),將測量所得的物理變量的測量值轉(zhuǎn)化為數(shù)字信號、傳送到數(shù)據(jù)采集點。知識必備四、數(shù)據(jù)采集方法5、第三方統(tǒng)計平臺數(shù)據(jù)采集隨著大數(shù)據(jù)應(yīng)用的推進,在一些專業(yè)二手平臺上,網(wǎng)售大數(shù)據(jù)采集和定制業(yè)務(wù)頗為盛行。有些從事信息販賣的“商家”,正大肆兜售著覆蓋諸多行業(yè)的用戶信息,內(nèi)容頗為龐雜,可謂五花八門,無所不包。有的還明碼標(biāo)價,成行成市。這些人打著“專業(yè)定制”的旗號,無論需要哪類信息,只要客戶提出要求,其都能從網(wǎng)上為你采集到。這些數(shù)據(jù)商的背后隱藏著一條非法獲取用戶數(shù)據(jù)的產(chǎn)業(yè)鏈。他們通過專業(yè)的“爬蟲軟件”非法爬取,或者通過私設(shè)監(jiān)控、不正規(guī)渠道買賣數(shù)據(jù)等,采集各類個人信息及實時數(shù)據(jù),經(jīng)過匯總、整理然后生成所謂大數(shù)據(jù)產(chǎn)品出售。這些行為是否合法?如果任由此類行業(yè)繼續(xù)發(fā)展,將會帶來怎樣的后果?想一想知識鏈接:警惕非法數(shù)據(jù)采集和數(shù)據(jù)交易行為課堂思政學(xué)習(xí)感悟數(shù)據(jù)采集是大數(shù)據(jù)產(chǎn)業(yè)的基石,只有全面、多維、高效地進行數(shù)據(jù)采集,大數(shù)據(jù)才具有它應(yīng)有的商業(yè)價值。因此一方面要廣開數(shù)據(jù)采集的來源渠道,另一方面選擇合適的采集方法。同時,在進行數(shù)據(jù)采集過程中,要做到合法合規(guī)采集。站在數(shù)據(jù)場景的角度,與數(shù)據(jù)有關(guān)的主體可以分為數(shù)據(jù)主體、數(shù)據(jù)控制者和數(shù)據(jù)處理者。在具體的商業(yè)場景中,由于數(shù)據(jù)采集者、處理者、運營者、交易者等多個主體混雜在各個交易流程中,背后隱藏著多種商業(yè)訴求,很容易發(fā)生爭議。因此,從嚴管控非必要采集數(shù)據(jù)行為,依法依規(guī)打擊黑市數(shù)據(jù)交易行為是非常必要的。任務(wù)實訓(xùn)1.掃教材上對應(yīng)二維碼針對必備知識進行在線測試。2.針對任務(wù)描述中小王的需求,聯(lián)系所學(xué)的數(shù)據(jù)采集知識,回答以下問題:①小王數(shù)據(jù)采集的需求是什么?②小王需采集什么樣數(shù)據(jù)?③小王采集數(shù)據(jù)的來源渠道有哪些?④小王采集數(shù)據(jù)可使用的工具有哪些?3.使用網(wǎng)絡(luò)爬蟲工具—八爪魚采集器來采集BOSS直聘網(wǎng)站中“數(shù)據(jù)分析師”相關(guān)的招聘信息,需要采集到公司名稱、成立時間、法人代表、招聘職位、月薪等數(shù)據(jù),可以通過公司詳情頁內(nèi)容來采集。任務(wù)評價評價類目評價內(nèi)容及標(biāo)準(zhǔn)分值(分)自己評分小組評分教師評分學(xué)習(xí)態(tài)度全勤;(5分)10

遵守課堂紀律。(5分)學(xué)習(xí)過程

能說出本任務(wù)的學(xué)習(xí)目標(biāo),上課積極發(fā)言,積極回答問題(5分);20

能夠回答數(shù)據(jù)采集流程;(5分)能夠回答數(shù)據(jù)來源的各種渠道;(5分)能夠理解和回答各種類型數(shù)據(jù)的采取方法。(5分)學(xué)習(xí)結(jié)果“在線測試”選擇題和判斷題考評;(3分×10=30分)70

針對任務(wù)描述中小王數(shù)據(jù)采集思路判斷的考評;(20分)使用八爪魚采集數(shù)據(jù)實際操作的考評。(20分)合

計100

所占比例100%30%30%40%綜合評分

任務(wù)二數(shù)據(jù)質(zhì)量評估任務(wù)清單工作任務(wù)數(shù)據(jù)質(zhì)量評估教學(xué)模式任務(wù)驅(qū)動建議學(xué)時2課時教學(xué)地點一體化教室任務(wù)描述人們在采集數(shù)據(jù)的同時會由于各種各樣的原因,也會附帶各種數(shù)據(jù)的質(zhì)量問題,而數(shù)據(jù)質(zhì)量的高低對工業(yè)、經(jīng)濟、生活等社會的方方面面會產(chǎn)生重大影響,數(shù)據(jù)質(zhì)量問題很有可能導(dǎo)致最終決策錯誤,造成惡劣的后果,嚴重困擾著信息社會。那么數(shù)據(jù)質(zhì)量的影響因素有哪些?具體的評估標(biāo)準(zhǔn)是什么?遇到數(shù)據(jù)質(zhì)量問題我們應(yīng)該怎么做?小王急需解決以上問題。任務(wù)目標(biāo)了解影響數(shù)據(jù)質(zhì)量的因素;掌握數(shù)據(jù)存在的常見問題;掌握評估數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn);掌握針對數(shù)據(jù)質(zhì)量問題進行的數(shù)據(jù)預(yù)處理方法;能檢測和判斷數(shù)據(jù)質(zhì)量問題;能根據(jù)數(shù)據(jù)存在質(zhì)量問題選用對應(yīng)預(yù)處理方法;具備對數(shù)據(jù)質(zhì)量檢測判斷的嚴謹和細致的素養(yǎng)。關(guān)鍵詞影響因素、缺失數(shù)據(jù)、錯誤數(shù)據(jù)、重復(fù)數(shù)據(jù)、冗余數(shù)據(jù)、評估標(biāo)準(zhǔn)知識必備一、影響數(shù)據(jù)質(zhì)量的因素數(shù)據(jù)質(zhì)量反映的是數(shù)據(jù)的“適用性(fitnessforuse)”,即數(shù)據(jù)滿足使用需要的合適程度。數(shù)據(jù)質(zhì)量管理的目的是為企業(yè)提供潔凈、結(jié)構(gòu)清晰的數(shù)據(jù),是企業(yè)開發(fā)業(yè)務(wù)系統(tǒng)、提供數(shù)據(jù)服務(wù)、發(fā)揮數(shù)據(jù)價值的必要前提,是企業(yè)數(shù)據(jù)資產(chǎn)管理的前提。影響數(shù)據(jù)質(zhì)量的因素有很多,數(shù)據(jù)質(zhì)量問題按照問題的來源和具體原因,可以分為信息、技術(shù)、流程、管理四個問題域。2.技術(shù)類問題信息類問題是由于對數(shù)據(jù)本身的描述理解及其度量標(biāo)準(zhǔn)的偏差而造成的數(shù)據(jù)質(zhì)量問題。產(chǎn)生這部分數(shù)據(jù)質(zhì)量問題的原因主要有:元數(shù)據(jù)描述及理解錯誤、數(shù)據(jù)度量的各種性質(zhì)得不到保證和變化頻度不恰當(dāng)?shù)?。技術(shù)類問題是指由于具體數(shù)據(jù)處理的各技術(shù)環(huán)節(jié)的異常造成的數(shù)據(jù)質(zhì)量問題,它產(chǎn)生的直接原因是技術(shù)實現(xiàn)上的某種缺陷。1.信息類問題知識必備一、影響數(shù)據(jù)質(zhì)量的因素流程類問題是指由于系統(tǒng)作業(yè)流程和人工操作流程設(shè)置不當(dāng)造成的數(shù)據(jù)質(zhì)量問題,主要來源于主題分析數(shù)據(jù)的創(chuàng)建流程、傳遞流程、裝載流程、使用流程、維護流程和稽核流程等各環(huán)節(jié)。管理類問題是指由于人員素質(zhì)及管理機制方面的原因造成的數(shù)據(jù)質(zhì)量問題,如人員管理、培訓(xùn)和獎勵等方面的措施不當(dāng)導(dǎo)致的管理缺失。3.流程類問題4.管理類問題上述數(shù)據(jù)質(zhì)量問題的影響因素分析,從側(cè)面展示了企業(yè)數(shù)據(jù)一次性達標(biāo)的困難程度;也反映出關(guān)注數(shù)據(jù)質(zhì)量的重要性、以及數(shù)據(jù)質(zhì)量工作的零散和瑣碎的特點。信息、流程和技術(shù)三個方面的數(shù)據(jù)質(zhì)量問題相對來說,比較容易控制,有可能通過引入數(shù)據(jù)質(zhì)量管理體系和數(shù)據(jù)質(zhì)量管理系統(tǒng)得到改善;對于管理類的數(shù)據(jù)質(zhì)量問題,往往與企業(yè)對數(shù)據(jù)的理解和支持程度緊密相關(guān),需要從數(shù)據(jù)規(guī)劃、數(shù)據(jù)治理的組織與職責(zé)、數(shù)據(jù)規(guī)范的制度和流程方面下功夫。知識必備二、數(shù)據(jù)存在的常見問題數(shù)據(jù)采集階段引起數(shù)據(jù)質(zhì)量問題的因素主要有兩點:數(shù)據(jù)來源和采集方法。數(shù)據(jù)來源一般分為直接來源和間接來源,直接來源主要指的是直接調(diào)查收集、科學(xué)實驗、業(yè)務(wù)系統(tǒng)直接生成、傳感器直接采集等方式直接獲取的數(shù)據(jù),由于是一手數(shù)據(jù),可信度相對來說比較高。間接來源主要是指他人通過調(diào)查或?qū)嶒灚@得的數(shù)據(jù),如從統(tǒng)計部門、第三方數(shù)據(jù)統(tǒng)計機構(gòu)獲取的數(shù)據(jù),這種二手數(shù)據(jù)的質(zhì)量相對來說更難把握。在采集方法上,通過自動采集、減少中間環(huán)節(jié)和人為操作所獲得數(shù)據(jù)質(zhì)量相對來說質(zhì)量更高些。但不管怎樣,還是會出現(xiàn)數(shù)據(jù)采集設(shè)備異常、錄入數(shù)據(jù)錯誤、數(shù)據(jù)傳輸異常等問題所帶來的數(shù)據(jù)質(zhì)量問題。具體來說,采集過來的原始數(shù)據(jù)主要會存在以下幾個問題。知識必備二、數(shù)據(jù)存在的常見問題(一)重復(fù)數(shù)據(jù)重復(fù)數(shù)據(jù)一般可以分為兩類,一種是實體重復(fù),就是指數(shù)據(jù)記錄的所有字段都重復(fù);另一種是指某一個或多個不該重復(fù)的字段重復(fù)。例如,某快遞信息表中,快遞單號是可以唯一標(biāo)識每條記錄的指標(biāo),結(jié)果發(fā)現(xiàn)某一個快遞單號出現(xiàn)了兩次,這就表示為重復(fù)數(shù)據(jù)。知識必備二、數(shù)據(jù)存在的常見問題(二)缺失數(shù)據(jù)缺失數(shù)據(jù)主要是一些應(yīng)該有的信息缺失,如供應(yīng)商的名稱、分公司的名稱、客戶的區(qū)域信息缺失、業(yè)務(wù)系統(tǒng)中主表與明細表不能匹配等。缺失數(shù)據(jù)可能是由于數(shù)據(jù)錄入、存儲過程中的人為失誤和系統(tǒng)軟硬件問題,也有可能是由于數(shù)據(jù)采集中傳感器等采集設(shè)備出現(xiàn)故障沒有獲取到數(shù)據(jù)。缺失數(shù)據(jù)會影響分析結(jié)果的可信度,甚至使分析結(jié)果出現(xiàn)嚴重偏差。知識必備二、數(shù)據(jù)存在的常見問題(三)錯誤數(shù)據(jù)數(shù)據(jù)產(chǎn)生錯誤的原因是業(yè)務(wù)系統(tǒng)不夠健全,在接收輸入后沒有進行判斷而是直接寫入后臺數(shù)據(jù)庫造成的。錯誤數(shù)據(jù)分為兩種,一種是格式的錯誤,例如數(shù)值數(shù)據(jù)輸入成全角數(shù)字字符、字符串?dāng)?shù)據(jù)后面有回車操作、日期格式不正確、日期越界等。另一類是數(shù)值錯誤,通常也稱為異常值,是指所獲得數(shù)據(jù)與平均值的偏差超過兩倍的數(shù)據(jù),異常值產(chǎn)生的原因很多,例如錄入數(shù)據(jù)時誤將“80”錄入為“800”,那么當(dāng)數(shù)據(jù)都為100左右的數(shù)據(jù),“800”就會被識別為異常值。知識必備二、數(shù)據(jù)存在的常見問題(四)冗余數(shù)據(jù)數(shù)據(jù)冗余一方面指多個數(shù)據(jù)集合并時同一條數(shù)據(jù)命名或者編碼方式不同,例如某數(shù)據(jù)集的變量名稱為“用戶編碼”而在另一個數(shù)據(jù)集中為“ID”;另一方面指數(shù)據(jù)集中的兩個或多個變量之間存在相關(guān)或推導(dǎo)關(guān)系,例如數(shù)據(jù)集中同時存在投入產(chǎn)出比、總投入、總收益的數(shù)據(jù),而其中投入產(chǎn)出比=總收益/總投入。冗余數(shù)據(jù)會造成數(shù)據(jù)重復(fù)或分析結(jié)果產(chǎn)生偏差。知識必備二、數(shù)據(jù)存在的常見問題(五)不一致數(shù)據(jù)不一致數(shù)據(jù)一般表現(xiàn)為以下三個方面。一是人工/機械原因?qū)е碌匿浫脲e誤或者數(shù)據(jù)規(guī)范不同。例如將數(shù)據(jù)集中的“客單價”錄入為“-180”,又如變量名“用戶編碼”下,某數(shù)據(jù)集的規(guī)范是“3位”,而另一個數(shù)據(jù)集中的要求位“5位”。二是變量單位或者量綱不匹配。例如,某數(shù)據(jù)集中的商品價格以“元”為單位,另一個數(shù)據(jù)集中卻為“萬元”。三是數(shù)據(jù)特征不適應(yīng)特定數(shù)據(jù)分析模型的需求或變量過多,分析難度較大。例如,客戶系統(tǒng)分為男和女兩種客戶,但回歸分析模型中要求數(shù)據(jù)是數(shù)值型的,這樣就必須將其轉(zhuǎn)變?yōu)?與1再進行處理。知識必備三、評估數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)(一)完整性完整性指的是數(shù)據(jù)信息是否存在缺失情況。數(shù)據(jù)缺失情況可能是整個數(shù)據(jù)記錄缺失,也可能是數(shù)據(jù)中某個字段信息的記錄缺失。在傳統(tǒng)關(guān)系型數(shù)據(jù)庫中,完整性通常與空值(NULL)有關(guān)??罩凳侨笔Щ虿恢谰唧w值的值。另外,完整性還可通過數(shù)據(jù)統(tǒng)計中的記錄值和唯一值進行評估;例如,網(wǎng)站日志訪問就是一個記錄值,平時的日訪問量在1000左右,突然某一天降到100了,那就需要檢查一下數(shù)據(jù)是否存在缺失了。再例如,網(wǎng)站統(tǒng)計地域分布情況的每一個地區(qū)名就是一個唯一值,我國包括34個省級行政單位,如果統(tǒng)計得到的唯一值小于34,則可以判斷數(shù)據(jù)有可能存在缺失。知識必備三、評估數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)(二)一致性一致性是指數(shù)據(jù)是否合乎規(guī)范,數(shù)據(jù)集內(nèi)的數(shù)據(jù)是否保持統(tǒng)一的格式。數(shù)據(jù)質(zhì)量的一致性主要體現(xiàn)在數(shù)據(jù)記錄的規(guī)范和數(shù)據(jù)是否符合邏輯。數(shù)據(jù)記錄的規(guī)范主要體現(xiàn)在數(shù)據(jù)編碼和格式。一項數(shù)據(jù)有它特定的格式,例如,手機號碼一定是11位的數(shù)字,IP地址是由4個0~255的數(shù)字加上“.”組成的;或者有一些預(yù)先定義的數(shù)據(jù)約束,比如完整性的非空約束、唯一值約束等。邏輯則是指多項數(shù)據(jù)間存在著固定的邏輯關(guān)系以及一些預(yù)先定義的數(shù)據(jù)約束。例如,頁面瀏覽(PageViewPV)量一定是大于等于獨立訪客(UniqueVisito,UV)量的,跳出率一定為0~1。數(shù)據(jù)的一致性檢驗是數(shù)據(jù)質(zhì)量檢驗中比較重要也是比較復(fù)雜的一項。知識必備三、評估數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)(三)準(zhǔn)確性準(zhǔn)確性是指數(shù)據(jù)記錄的信息是否存在異?;蝈e誤。和一致性不一樣,導(dǎo)致一致性問題的原因可能是數(shù)據(jù)記錄規(guī)則不同,但它不一定是錯誤的。而存在準(zhǔn)確性問題的數(shù)據(jù)不僅僅是規(guī)則上的不一致。準(zhǔn)確性關(guān)注數(shù)據(jù)中的錯誤,最為常見的數(shù)據(jù)準(zhǔn)確性問題就是亂碼。它還包括異?;蛘咝〉臄?shù)據(jù)以及不符合有效性規(guī)則的數(shù)據(jù),如訪問量一定是整數(shù)、年齡一般為1~100、轉(zhuǎn)化率一定是0~1的值等。知識必備三、評估數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)(四)及時性及時性是指數(shù)據(jù)從產(chǎn)生到可以查看的時間間隔,也叫數(shù)據(jù)的延時時長。及時性對于數(shù)據(jù)分析本身的要求并不高,但如果數(shù)據(jù)分析周期加上數(shù)據(jù)建立的時間過長,就可能導(dǎo)致分析得出的結(jié)論失去了借鑒意義。所以我們需要對數(shù)據(jù)的延時時長進行關(guān)注。例如,每周的數(shù)據(jù)分析報告要兩周后才能出來,那么分析的結(jié)論可能已經(jīng)失去及時性,分析師的工作只是徒勞。同時,某些實時分析和決策需要用到小時或者分鐘級的數(shù)據(jù),它們對數(shù)據(jù)的及時性要求極高。所以及時性也是數(shù)據(jù)質(zhì)量的組成要素之一。知識必備三、評估數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)數(shù)據(jù)分析人員在檢查評估數(shù)據(jù)質(zhì)量時,發(fā)現(xiàn)某條記錄數(shù)據(jù)中的郵箱字段的值記錄為179864378@126,這違反了數(shù)據(jù)質(zhì)量評估中的哪一條?想一想知識鏈接:我國信息技術(shù)數(shù)據(jù)質(zhì)量評價指標(biāo)知識必備四、數(shù)據(jù)預(yù)處理的方法通過各種渠道收集來的數(shù)據(jù),常出現(xiàn)缺失、異常、冗余、不一致等現(xiàn)象,并不能直接為數(shù)據(jù)分析所用。此外,一些成熟的數(shù)據(jù)分析模型對處理的數(shù)據(jù)有特定的要求,比如一定的數(shù)據(jù)類型、統(tǒng)一的數(shù)據(jù)量綱,以及數(shù)據(jù)的冗余性要求、屬性的相關(guān)性要求等。因此對原始數(shù)據(jù)必須評估數(shù)據(jù)質(zhì)量,進行數(shù)據(jù)預(yù)處理,才能進行分析。數(shù)據(jù)的預(yù)處理總體目標(biāo)是為進行后續(xù)的數(shù)據(jù)挖掘工作提供可靠和高質(zhì)量的數(shù)據(jù),減少數(shù)據(jù)集規(guī)模,提高數(shù)據(jù)抽象程度和數(shù)據(jù)挖掘效率。為了得到高質(zhì)量的數(shù)據(jù),數(shù)據(jù)預(yù)處理之前需要制定和明確統(tǒng)一的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),在數(shù)據(jù)預(yù)處理的過程需要做到以下4個基本要求:(1)檢測并除去數(shù)據(jù)中所有明顯的錯誤和噪聲;(2)盡可能地減小人工干預(yù)和用戶的編程工作量,并且容易擴展到其它數(shù)據(jù)源;(3)與數(shù)據(jù)轉(zhuǎn)化相結(jié)合;(4)要有相應(yīng)的描述語言來指定數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)化操作,所有這些操作應(yīng)該在一個統(tǒng)一的框架下完成。知識必備四、數(shù)據(jù)預(yù)處理的方法數(shù)據(jù)預(yù)處理是大數(shù)據(jù)處理流程中必不可少的關(guān)鍵步驟,更是進行數(shù)據(jù)分析和挖掘前的準(zhǔn)備工作。我們要一方面保證挖掘數(shù)據(jù)的正確性和有效性;另一方面要通過對數(shù)據(jù)格式和內(nèi)容的調(diào)整,使數(shù)據(jù)更符合挖掘的需要。數(shù)據(jù)預(yù)處理的主要任務(wù)包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約等。具體數(shù)據(jù)預(yù)處理的流程如圖所示。學(xué)習(xí)感悟如今,大數(shù)據(jù)在社會中扮演著越來越重要和有用的角色,許多活動和流程對大數(shù)據(jù)的依賴正在增加。大數(shù)據(jù)并不在“大”,而在于“有用”,數(shù)據(jù)質(zhì)量比數(shù)量更為重要。質(zhì)量差的數(shù)據(jù)會帶來重大的法律或者聲譽風(fēng)險;例如,數(shù)據(jù)缺失導(dǎo)致信用風(fēng)險不準(zhǔn)確,信用記錄不完整致使風(fēng)險評估錯誤,等等。數(shù)據(jù)分析的質(zhì)量高不高,一些沒有必要的錯誤會不會犯,確保數(shù)據(jù)質(zhì)量是數(shù)據(jù)分析的關(guān)鍵。要避免最終決策錯誤,關(guān)鍵是要解決數(shù)據(jù)質(zhì)量問題,而要解決數(shù)據(jù)質(zhì)量問題在于能對數(shù)據(jù)進行嚴謹、及時質(zhì)量評估,并針對評估結(jié)果選擇數(shù)據(jù)預(yù)處理操作。任務(wù)實訓(xùn)1.掃教材上對應(yīng)二維碼針對必備知識進行在線測試。2.某數(shù)據(jù)分析員收集到企業(yè)“商城會員消費數(shù)據(jù).xls”,請幫他檢測數(shù)據(jù)存在的問題,并給出相應(yīng)的數(shù)據(jù)預(yù)處理方法,填入表2-2中。任務(wù)評價評價類目評價內(nèi)容及標(biāo)準(zhǔn)分值(分)自己評分小組評分教師評分學(xué)習(xí)態(tài)度全勤;(5分)10

遵守課堂紀律。(5分)學(xué)習(xí)過程

能說出本任務(wù)的學(xué)習(xí)目標(biāo),上課積極發(fā)言,積極回答問題(5分);20

能夠回答數(shù)據(jù)質(zhì)量影響因素;(5分)能夠回答數(shù)據(jù)常見問題;(5分)能夠回答評估數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)。(5分)學(xué)習(xí)結(jié)果“在線測試”選擇題和判斷題考評;(3分×10=30分)70

針對數(shù)據(jù)進行質(zhì)量評估并提出預(yù)處理方法的考評。(40分)合

計100

所占比例100%30%30%40%綜合評分

任務(wù)三數(shù)據(jù)清洗任務(wù)清單工作任務(wù)數(shù)據(jù)清洗教學(xué)模式任務(wù)驅(qū)動建議學(xué)時2課時教學(xué)地點一體化教室任務(wù)描述來自多樣化數(shù)據(jù)源的數(shù)據(jù)內(nèi)容并不一定完美,可能會存在著許多“臟數(shù)據(jù)”,即數(shù)據(jù)不完整有缺失、存在錯誤和重復(fù)的數(shù)據(jù)。數(shù)據(jù)清洗是數(shù)據(jù)預(yù)處理中非常重要的一步,是一種對數(shù)據(jù)進行重新審查和校驗的過程;它的目的在于洗掉數(shù)據(jù)中的“臟、亂、差”的內(nèi)容,保障數(shù)據(jù)質(zhì)量。小王面對采取到的數(shù)據(jù)如何清洗“臟數(shù)據(jù)”呢?在清洗過程有什么策略呢?任務(wù)目標(biāo)理解什么是數(shù)據(jù)清洗;掌握缺失數(shù)據(jù)清洗方法;掌握重復(fù)數(shù)據(jù)清洗方法;掌握錯誤數(shù)據(jù)清洗方法;能熟練使用Excel對數(shù)據(jù)進行清洗操作;能分析數(shù)據(jù),搜尋錯誤,糾正發(fā)現(xiàn)錯誤;具備對數(shù)據(jù)清洗工作中的嚴謹和細致的素養(yǎng)。關(guān)鍵詞缺失數(shù)據(jù)清洗、重復(fù)數(shù)據(jù)清洗、錯誤數(shù)據(jù)清洗、Excel清洗方法知識必備一、什么是數(shù)據(jù)清洗數(shù)據(jù)清洗是指在數(shù)據(jù)集中發(fā)現(xiàn)不準(zhǔn)確、不完整和重復(fù)的數(shù)據(jù),然后對這些數(shù)據(jù)進行修正或刪除,提高數(shù)據(jù)質(zhì)量。在數(shù)據(jù)清洗的開始階段,我們要做兩件事。第一件是將數(shù)據(jù)導(dǎo)入處理工具,這里要看我們用什么數(shù)據(jù)分析工具,例如用的是Excel工具,那么就要把數(shù)據(jù)從數(shù)據(jù)源采取過來后,轉(zhuǎn)化為Excel可以打開的格式文件,然后導(dǎo)入其中。第二件事情是查看數(shù)據(jù)??磾?shù)據(jù)又分兩部分,第一就是查看元數(shù)據(jù)(又稱中介數(shù)據(jù)、中繼數(shù)據(jù),為描述數(shù)據(jù)的數(shù)據(jù)),包括字段解釋、數(shù)據(jù)來源、代碼表等一切描述數(shù)據(jù)的信息,第二就是抽取一部分數(shù)據(jù),使用人工查看方式,對數(shù)據(jù)本身有一個直觀的了解,并且初步發(fā)現(xiàn)一些問題,為之后的處理做準(zhǔn)備。知識必備二、缺失數(shù)據(jù)清洗缺失值是最常見的數(shù)據(jù)問題,在實際的數(shù)據(jù)采集過程中,缺失值常常表示為空值或者出現(xiàn)“NaN”的情況,也就是非數(shù)的錯誤的標(biāo)識符。處理缺失值也有很多方法,首先,確定缺失值范圍。對每個字段都計算其缺失值比例,再按照缺失值比例和字段重要性,分別制定策略。數(shù)據(jù)的缺失率與重要性的關(guān)系如圖表示。知識必備二、缺失數(shù)據(jù)清洗如果缺失字段的重要性較高,缺失率高,為了保證數(shù)據(jù)的準(zhǔn)確性,往往會將數(shù)據(jù)進行補全。補全缺失值的方法有:①以同一指標(biāo)的樣本統(tǒng)計量數(shù)據(jù)(均值、中位數(shù)、眾數(shù)等)填充,最典型的做法是用平均數(shù)替代,替代后由于平均數(shù)會保持不變,因此其它的統(tǒng)計量也不會受很大的影響;②以業(yè)務(wù)知識或經(jīng)驗推測填充;③以不同指標(biāo)的計算結(jié)果填充等。當(dāng)缺失字段重要性較低且缺失率也較低時,可通過簡單填充的方式將數(shù)據(jù)補全。如果某些指標(biāo)非常重要但缺失率高,那就需要和取數(shù)人員或業(yè)務(wù)人員溝通,是否有其他渠道可以獲取相關(guān)數(shù)據(jù),將這一類數(shù)據(jù)過濾出來,按缺失的內(nèi)容分向客戶提交,并要求在規(guī)定的時間內(nèi)補全。知識必備二、缺失數(shù)據(jù)清洗一組數(shù)據(jù)為3、31、15、9、17、24、8、28、()。假設(shè)()中的值是缺失值,那么該如何處理?想一想下面以Excel為例,介紹Excel數(shù)據(jù)缺失值得清洗。Excel數(shù)據(jù)缺失值常常表示為空值或者錯誤的標(biāo)識符(#VALUE?。嶋H操作中,如果數(shù)據(jù)量較大,缺失數(shù)據(jù)較多,我們沒辦法靠眼睛觀察找到缺失值的位置。這時可以用【Ctrl+G】組合鍵定位出數(shù)據(jù)中的所有空值,再選擇合適的填充方法進行數(shù)據(jù)填充。知識必備二、缺失數(shù)據(jù)清洗知識必備二、缺失數(shù)據(jù)清洗當(dāng)缺失值定位到了后,接下來就是要確定缺失值的處理方式。如本例,由于人均消費額由“總銷售額/購買用戶數(shù)”計算得到,而且通過觀察人均消費相對穩(wěn)定,所以我們可以使用4月份的人均消費額的平均值來進行填充,進而就可以得出該日的總銷售額;也可以使用缺失數(shù)據(jù)前后兩天的數(shù)據(jù)取平均值進行填充。當(dāng)填充的缺失值確定后,利用【Ctrl+Enter】組合鍵在選中的空值單元格中一次輸入即可。知識必備三、重復(fù)數(shù)據(jù)清洗1、通過“數(shù)據(jù)”菜單刪除重復(fù)數(shù)據(jù)知識必備三、重復(fù)數(shù)據(jù)清洗2、用VLOOKUP函數(shù)快速查詢刪除重復(fù)值知識必備三、重復(fù)數(shù)據(jù)清洗2、用VLOOKUP函數(shù)快速查詢刪除重復(fù)值知識必備三、重復(fù)數(shù)據(jù)清洗3、用COUNTIF函數(shù)簡單查詢刪除重復(fù)值知識必備三、重復(fù)數(shù)據(jù)清洗4、用條件格式快速核對刪除重復(fù)值知識必備四、錯誤數(shù)據(jù)清洗1、通過篩選法發(fā)現(xiàn)數(shù)據(jù)異常值知識必備四、錯誤數(shù)據(jù)清洗2、通過常識統(tǒng)計分析方法發(fā)現(xiàn)數(shù)據(jù)異常值拿到數(shù)據(jù)后可以對數(shù)據(jù)進行一個簡單的描述性統(tǒng)計分析,如最大值和最小值可以用來判斷這個變量的取值是否超過合理的范圍,假如客戶的年齡為-20歲或200歲,顯示是不合理的,即為異常值。在Excel中可以使用MaX或Min函數(shù)求出某一列的最大、最小值,也可以對數(shù)據(jù)進行升序或降序排列,即可快速找到最大值和最小值。知識必備四、錯誤數(shù)據(jù)清洗3、通過箱線圖檢測異常值繪制箱型圖是檢測異常值的常用方法,其主要優(yōu)點是簡便、直觀。箱型圖如圖所示,是由數(shù)據(jù)的上邊界、上四分位數(shù)、平均值、中位數(shù)、下四分位數(shù)和下邊界組成的圖形,其中上邊界和下邊界所代表的就是臨界值,超過上下邊界的離群點則為需要關(guān)注的異常值。。學(xué)習(xí)感悟數(shù)據(jù)清洗,洗掉的就是數(shù)據(jù)集中的殘缺、錯誤、重復(fù)的“臟”數(shù)據(jù),旨在提高數(shù)據(jù)的質(zhì)量、縮小數(shù)據(jù)分析和挖掘過程中的誤差值。不同類型的數(shù)據(jù)異常所要用到的方法有所不同,因此我們拿到原始數(shù)據(jù)之后,需要先分析都有什么樣的數(shù)據(jù)異常,然后再使用相應(yīng)異常下常常采用的方法,正所謂“對癥下藥”,方能“藥到病除”,絕忌直接拋棄異常值,忽視業(yè)務(wù)的真實數(shù)據(jù)狀態(tài)。同時,數(shù)據(jù)清洗過程,一般需要依賴復(fù)雜的關(guān)系模型,會帶來額外的計算和延遲開銷,因此在實際的數(shù)據(jù)清洗中必須在數(shù)據(jù)清洗模型的復(fù)雜性和分析結(jié)果的準(zhǔn)確性之間進行平衡。任務(wù)實訓(xùn)1.掃教材上對應(yīng)二維碼針對必備知識進行在線測試。2.現(xiàn)抓取到了某旅游App的酒店客戶兩年內(nèi)有入住記錄的所有客戶詳細數(shù)據(jù),信息中包含會員號、入會時間、第一次入住日期、性別、會員卡級別等42個屬性,如圖2-23所示(圖中數(shù)據(jù)為部分截取,訓(xùn)練時請直接打開提供的源數(shù)據(jù))。請對數(shù)據(jù)進行數(shù)據(jù)清洗。任務(wù)評價評價類目評價內(nèi)容及標(biāo)準(zhǔn)分值(分)自己評分小組評分教師評分學(xué)習(xí)態(tài)度全勤;(5分)10

遵守課堂紀律。(5分)學(xué)習(xí)過程

能說出本任務(wù)的學(xué)習(xí)目標(biāo),上課積極發(fā)言,積極回答問題(5分);20

能夠回答缺失數(shù)據(jù)清洗思路;(5分)能夠回答重復(fù)數(shù)據(jù)清洗思路;(5分)能夠回答錯誤數(shù)據(jù)清洗思路。(5分)學(xué)習(xí)結(jié)果“在線測試”選擇題和判斷題考評;(3分×10=30分)70

使用Excel工具進行缺失數(shù)據(jù)、重復(fù)數(shù)據(jù)、異常數(shù)據(jù)清洗的實操考評。(40分)合

計100

所占比例100%30%30%40%綜合評分

任務(wù)四數(shù)據(jù)集成、變換和歸約任務(wù)清單工作任務(wù)數(shù)據(jù)集成、變換和歸約教學(xué)模式任務(wù)驅(qū)動建議學(xué)時2課時教學(xué)地點一體化教室任務(wù)描述用于大數(shù)據(jù)分析的數(shù)據(jù)往往是來自不同數(shù)據(jù)源,且具有數(shù)據(jù)類型多、表現(xiàn)形式多樣、數(shù)據(jù)量大、數(shù)據(jù)屬性多等特點。這樣很可能會出現(xiàn)數(shù)據(jù)沖突、數(shù)據(jù)冗余,數(shù)據(jù)特征不明顯、數(shù)據(jù)表現(xiàn)形式不適合挖掘。為了使接下來的數(shù)據(jù)分析和挖掘更有效率,減少數(shù)據(jù)分析和挖掘時的數(shù)據(jù)處理量,改進數(shù)據(jù)質(zhì)量,提供干凈、準(zhǔn)確且更有針對性的數(shù)據(jù)勢在必行。如何做到這一點呢?這就要用到數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約。任務(wù)目標(biāo)理解什么是數(shù)據(jù)集成;掌握數(shù)據(jù)集成解決的主要問題;理解什么是數(shù)據(jù)變換;掌握常用的數(shù)據(jù)變換策略;理解什么是數(shù)據(jù)歸約;掌握常用的數(shù)據(jù)歸約策略;能根據(jù)數(shù)據(jù)特點對數(shù)據(jù)進行簡單的數(shù)據(jù)集成、變換和歸約處理;具備敏銳的數(shù)據(jù)邏輯判斷能力,嚴謹細致的工作素養(yǎng)。關(guān)鍵詞數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約、策略知識必備一、數(shù)據(jù)集成數(shù)據(jù)集成是在邏輯上和物理上把來自不同數(shù)據(jù)源的數(shù)據(jù)合并成一致的數(shù)據(jù)存儲的過程,核心任務(wù)是將互相關(guān)聯(lián)的分布式異構(gòu)數(shù)據(jù)源集成到一起,減少結(jié)果數(shù)據(jù)集中冗余和不一致問題,提高后面數(shù)據(jù)挖掘過程的準(zhǔn)確性和速度。常見的數(shù)據(jù)集成方法有聯(lián)邦數(shù)據(jù)庫,中間件集成方法和數(shù)據(jù)倉庫方法三種。知識必備一、數(shù)據(jù)集成數(shù)據(jù)集成過程中需要處理的問題主要分為以下三類:實體識別問題、冗余問題、數(shù)值沖突的檢測與處理知識必備一、數(shù)據(jù)集成在數(shù)據(jù)集成時,來自多個信息源的現(xiàn)實世界的等價實體如何才能“匹配”?這就涉及實體識別問題。實體識別就是為了匹配不同數(shù)據(jù)源的現(xiàn)實實體,如A.user-id=B.customer_id。通常以元數(shù)據(jù)為依據(jù)進行實體識別,避免模式集成時出現(xiàn)錯誤。針對數(shù)據(jù)值沖突,需要根據(jù)元數(shù)據(jù)提取該屬性的規(guī)則,并在目標(biāo)系統(tǒng)中建立統(tǒng)一的規(guī)則,將原始屬性值轉(zhuǎn)換為目標(biāo)屬性值。1、實體識別問題知識必備一、數(shù)據(jù)集成集成多個數(shù)據(jù)源時,冗余數(shù)據(jù)經(jīng)常會出現(xiàn),常見的是冗余屬性。如果一個屬性可以由另外一個表導(dǎo)出,則它是冗余屬性,例如,“年薪”可以由“月薪”計算出來,則“年薪”就被視為冗余屬性。另外,冗余數(shù)據(jù)還包括同一屬性多次出現(xiàn)、同一屬性命名不一致等情況,如同樣的顧客ID,在A系統(tǒng)中字段名是會員編號,在B系統(tǒng)中是“ID”。如圖所示有些冗余可以被相關(guān)分析檢測到。給定兩個屬性,這種分析可以根據(jù)可用的數(shù)據(jù),度量一個屬性能在多大程度上蘊含另一個屬性。2、冗余問題知識必備一、數(shù)據(jù)集成對現(xiàn)實世界的統(tǒng)一實體,來自不同數(shù)據(jù)源的屬性值可能是不同的。這可能是因為數(shù)據(jù)的表示、比例或編碼、數(shù)據(jù)類型、單位、字段長度不同,產(chǎn)生數(shù)據(jù)沖突。例如,質(zhì)量屬性在一個系統(tǒng)中采用公制,而在另一個系統(tǒng)中卻采用英制;同樣價格屬性在不同的地點采用不同的貨幣單位;性別屬性在不同的地點采用不同的表示法;消費金額采用不同的精確位數(shù)。如圖所示。3、數(shù)值沖突的檢測與處理知識必備二、數(shù)據(jù)變換數(shù)據(jù)變換是指將數(shù)據(jù)從一種表現(xiàn)方式轉(zhuǎn)化到另一種表現(xiàn)方式的過程,基本思想是找到數(shù)據(jù)的特征表示,對數(shù)據(jù)進行平滑、屬性構(gòu)造、聚集、離散化及規(guī)范化一系列操作,達到減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式。數(shù)據(jù)變換策略包括如下幾種。1、平滑去掉數(shù)據(jù)中的噪聲,將連續(xù)的數(shù)據(jù)離散化、增加粒度。平滑方法包括分箱法、聚類法和回歸法。2、屬性構(gòu)造可以由給定的屬性構(gòu)造新的屬性并添加到屬性集中,以利于挖掘。例如,根據(jù)寬、高屬性可以構(gòu)造一個新屬性--面積。知識必備二、數(shù)據(jù)變換3、聚集對數(shù)據(jù)進行匯總和集中,在Excel中可以通過SUM、COUNT等函數(shù)來實現(xiàn)。例如,可以聚集日銷售數(shù)據(jù),計算月和年銷售量。通常,這一步用來為多個抽象層的數(shù)據(jù)分析構(gòu)造數(shù)據(jù)立方體。4、數(shù)據(jù)概化數(shù)據(jù)概化是指用更高層次,更抽象的概念來取代低層次或數(shù)據(jù)層的數(shù)據(jù)對象。例如,街道屬性就可以概化到更高層次的概念--城市、國家;對于數(shù)值型屬性,如年齡屬性,可以用區(qū)間標(biāo)簽(如0~10、11~20等)或概念標(biāo)簽(如youth、adult、senior)替換。這些標(biāo)簽可以遞歸地組織成更高層概念。5、規(guī)范化把屬性數(shù)據(jù)按比例縮放,使之落入一個特定的小區(qū)間,如?1.0~1.0或0.0~1.0。以消除數(shù)值型屬性因為大小不一致而造成挖掘結(jié)果的偏差。數(shù)據(jù)規(guī)范化的主要作用有兩個,一是去掉量綱,使指標(biāo)之間具有可比性;二是將數(shù)據(jù)限制到一定區(qū)間,使運算更為便捷。知識必備三、數(shù)據(jù)歸約數(shù)據(jù)歸約是指在盡可能保持數(shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù)量。數(shù)據(jù)歸約技術(shù)可以用來得到數(shù)據(jù)集的歸約表示,歸約后的數(shù)據(jù)集比原數(shù)據(jù)集小得多,但仍近似地保持原數(shù)據(jù)的完整性。數(shù)據(jù)歸約的策略有以下幾種:1、數(shù)據(jù)立方體聚集知識必備三、數(shù)據(jù)歸約2、屬性子集選擇通過上述數(shù)據(jù)聚集后,數(shù)據(jù)量明顯減少了,這樣是否會丟失分析任務(wù)所需要的信息呢?想一想屬性自己選擇也叫維歸約,通過刪除不相關(guān)或冗余的屬性(或維)減少數(shù)據(jù)量。屬性子集選擇的目標(biāo)是找出最小屬性集,使數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性的原分布。在縮小的屬性集上挖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論