第5章-數(shù)據(jù)采集與預(yù)處理

上傳人：q*** IP屬地：山東上傳時(shí)間：2023-10-22 格式：PPT 頁數(shù)：48 大?。?.53MB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩43頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第5章數(shù)據(jù)采集與預(yù)處理

《大數(shù)據(jù)導(dǎo)論》教材官網(wǎng)：/post/bigdata-introduction/提綱5.1數(shù)據(jù)采集5.2數(shù)據(jù)清洗5.3數(shù)據(jù)轉(zhuǎn)換5.4數(shù)據(jù)脫敏百度搜索廈門大學(xué)數(shù)據(jù)庫(kù)實(shí)驗(yàn)室網(wǎng)站訪問平臺(tái)5.1數(shù)據(jù)采集5.1.1數(shù)據(jù)采集概念5.1.2數(shù)據(jù)采集的三大要點(diǎn)5.1.3數(shù)據(jù)采集的數(shù)據(jù)源5.1.4數(shù)據(jù)采集方法5.1.5網(wǎng)絡(luò)爬蟲5.1.1數(shù)據(jù)采集概念數(shù)據(jù)采集，又稱“數(shù)據(jù)獲取”，是數(shù)據(jù)分析的入口，也是數(shù)據(jù)分析過程中相當(dāng)重要的一個(gè)環(huán)節(jié)，它通過各種技術(shù)手段把外部各種數(shù)據(jù)源產(chǎn)生的數(shù)據(jù)實(shí)時(shí)或非實(shí)時(shí)地采集并加以利用。傳統(tǒng)的數(shù)據(jù)采集大數(shù)據(jù)采集數(shù)據(jù)源來源單一，數(shù)據(jù)量相對(duì)較少來源廣泛，數(shù)據(jù)量巨大數(shù)據(jù)類型結(jié)構(gòu)單一數(shù)據(jù)類型豐富，包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)關(guān)系數(shù)據(jù)庫(kù)和并行數(shù)據(jù)倉(cāng)庫(kù)分布式數(shù)據(jù)庫(kù)，分布式文件系統(tǒng)表

傳統(tǒng)的數(shù)據(jù)采集與大數(shù)據(jù)采集區(qū)別5.1.2數(shù)據(jù)采集的三大要點(diǎn)0203多維性全面性高效性015.1.3數(shù)據(jù)采集的數(shù)據(jù)源互聯(lián)網(wǎng)數(shù)據(jù)日志文件傳感器企業(yè)業(yè)務(wù)系統(tǒng)數(shù)據(jù)5.1.3數(shù)據(jù)采集的數(shù)據(jù)源1.傳感器數(shù)據(jù)傳感器是一種檢測(cè)裝置，能感受到被測(cè)量的信息，并能將感受到的信息，按一定規(guī)律變換成為電信號(hào)或其他所需形式的信息輸出，以滿足信息的傳輸、處理、存儲(chǔ)、顯示、記錄和控制等要求。在工作現(xiàn)場(chǎng)，我們會(huì)安裝很多的各種類型的傳感器，如壓力傳感器、溫度傳感器、流量傳感器、聲音傳感器、電參數(shù)傳感器等等。傳感器對(duì)環(huán)境的適應(yīng)能力很強(qiáng)，可以應(yīng)對(duì)各種惡劣的工作環(huán)境。在日常生活中，如溫度計(jì)、麥克風(fēng)、DV錄像、手機(jī)拍照功能等都屬于傳感器數(shù)據(jù)采集的一部分，支持圖片、音頻、視頻等文件或附件的采集工作。5.1.3數(shù)據(jù)采集的數(shù)據(jù)源2.互聯(lián)網(wǎng)數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù)的采集通常是借助于網(wǎng)絡(luò)爬蟲來完成的。所謂“網(wǎng)絡(luò)爬蟲”，就是一個(gè)在網(wǎng)上到處或定向抓取網(wǎng)頁數(shù)據(jù)的程序。抓取網(wǎng)頁的一般方法是，定義一個(gè)入口頁面，然后一般一個(gè)頁面中會(huì)包含指向其他頁面的URL，于是從當(dāng)前頁面獲取到這些網(wǎng)址加入到爬蟲的抓取隊(duì)列中，然后進(jìn)入到新頁面后再遞歸地進(jìn)行上述的操作。爬蟲數(shù)據(jù)采集方法可以將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中抽取出來，將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件，并以結(jié)構(gòu)化的方式存儲(chǔ)。它支持圖片、音頻、視頻等文件或附件的采集，附件與正文可以自動(dòng)關(guān)聯(lián)。5.1.3數(shù)據(jù)采集的數(shù)據(jù)源3.日志文件許多公司的業(yè)務(wù)平臺(tái)每天都會(huì)產(chǎn)生大量的日志文件。日志文件數(shù)據(jù)一般由數(shù)據(jù)源系統(tǒng)產(chǎn)生，用于記錄數(shù)據(jù)源的執(zhí)行的各種操作活動(dòng)，比如網(wǎng)絡(luò)監(jiān)控的流量管理、金融應(yīng)用的股票記賬和Web服務(wù)器記錄的用戶訪問行為。對(duì)于這些日志信息，我們可以得到出很多有價(jià)值的數(shù)據(jù)。通過對(duì)這些日志信息進(jìn)行采集，然后進(jìn)行數(shù)據(jù)分析，就可以從公司業(yè)務(wù)平臺(tái)日志數(shù)據(jù)中挖掘得到具有潛在價(jià)值的信息，為公司決策和公司后臺(tái)服務(wù)器平臺(tái)性能評(píng)估提供可靠的數(shù)據(jù)保證。系統(tǒng)日志采集系統(tǒng)做的事情就是收集日志數(shù)據(jù)提供離線和在線的實(shí)時(shí)分析使用。很多互聯(lián)網(wǎng)企業(yè)都有自己的海量數(shù)據(jù)采集工具，多用于系統(tǒng)日志采集，如Hadoop的Chukwa，Cloudera的Flume，F(xiàn)acebook的Scribe等，這些工具均采用分布式架構(gòu)，能滿足每秒數(shù)百M(fèi)B的日志數(shù)據(jù)采集和傳輸需求。5.1.3數(shù)據(jù)采集的數(shù)據(jù)源4.企業(yè)業(yè)務(wù)系統(tǒng)數(shù)據(jù)一些企業(yè)會(huì)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等來存儲(chǔ)業(yè)務(wù)系統(tǒng)數(shù)據(jù)，除此之外，Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫(kù)也常用于數(shù)據(jù)的存儲(chǔ)。企業(yè)每時(shí)每刻產(chǎn)生的業(yè)務(wù)數(shù)據(jù)，以數(shù)據(jù)庫(kù)一行記錄形式被直接寫入到數(shù)據(jù)庫(kù)中。企業(yè)可以借助于ETL（Extract-Transform-Load）工具，把分散在企業(yè)不同位置的業(yè)務(wù)系統(tǒng)的數(shù)據(jù)，抽取、轉(zhuǎn)換、加載到企業(yè)數(shù)據(jù)倉(cāng)庫(kù)中，以供后續(xù)的商務(wù)智能分析使用（如圖所示）。通過采集不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)并統(tǒng)一保存到一個(gè)數(shù)據(jù)倉(cāng)庫(kù)中，就可以為分散在企業(yè)不同地方的商務(wù)數(shù)據(jù)提供一個(gè)統(tǒng)一的視圖，滿足企業(yè)的各種商務(wù)決策分析需求。5.1.4數(shù)據(jù)采集方法數(shù)據(jù)采集是數(shù)據(jù)系統(tǒng)必不可少的關(guān)鍵部分，也是數(shù)據(jù)平臺(tái)的根基。根據(jù)不同的應(yīng)用環(huán)境及采集對(duì)象，有多種不同的數(shù)據(jù)采集方法，包括：系統(tǒng)日志采集分布式消息訂閱分發(fā)ETL網(wǎng)絡(luò)數(shù)據(jù)采集5.1.4數(shù)據(jù)采集方法Flume是Cloudera提供的一個(gè)高可用的，高可靠的，分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)，F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方，用于收集數(shù)據(jù)；同時(shí)，F(xiàn)lume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理，并寫到各種數(shù)據(jù)接受方（可定制）的能力。1.系統(tǒng)日志采集5.1.4數(shù)據(jù)采集方法2.分布式消息訂閱分發(fā)分布式消息訂閱分發(fā)也是一種常見的數(shù)據(jù)采集方式，其中，Kafka就是一種具有代表性的產(chǎn)品。Kafka是由LinkedIn公司開發(fā)的一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)，用戶通過Kafka系統(tǒng)可以發(fā)布大量的消息，同時(shí)也能實(shí)時(shí)訂閱消費(fèi)消息。Kafka的架構(gòu)包括以下組件：話題、生產(chǎn)者、服務(wù)代理、消費(fèi)者5.1.4數(shù)據(jù)采集方法3.ETLETL是英文Extract-Transform-Load的縮寫，常用于數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)采集和預(yù)處理環(huán)節(jié)（如圖所示）。顧名思義，ETL從原系統(tǒng)中抽取數(shù)據(jù)，并根據(jù)實(shí)際商務(wù)需求對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換，并把轉(zhuǎn)換結(jié)果加載到目標(biāo)數(shù)據(jù)存儲(chǔ)中?？梢钥闯?，ETL既包含了數(shù)據(jù)采集環(huán)節(jié)，也包含了數(shù)據(jù)預(yù)處理環(huán)節(jié)。Kettle是一款國(guó)外開源的ETL工具，使用Java語言編寫，可以在Windows、Linux、Unix上運(yùn)行，數(shù)據(jù)抽取高效、穩(wěn)定。5.1.4數(shù)據(jù)采集方法4.網(wǎng)絡(luò)數(shù)據(jù)采集網(wǎng)絡(luò)數(shù)據(jù)采集是指通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開應(yīng)用程序編程接口等方式從網(wǎng)站上獲取數(shù)據(jù)信息。該方法可以將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中抽取出來，將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件，并以結(jié)構(gòu)化的方式存儲(chǔ)。它支持圖片、音頻、視頻等文件的采集，文件與正文可以自動(dòng)關(guān)聯(lián)。網(wǎng)絡(luò)數(shù)據(jù)采集的應(yīng)用領(lǐng)域十分廣泛，包括搜索引擎與垂直搜索平臺(tái)搭建與運(yùn)營(yíng)，綜合門戶與行業(yè)門戶、地方門戶、專業(yè)門戶網(wǎng)站數(shù)據(jù)支撐與流量運(yùn)營(yíng)，電子政務(wù)與電子商務(wù)平臺(tái)的運(yùn)營(yíng)，知識(shí)管理與知識(shí)共享，企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)的運(yùn)營(yíng)，BI商業(yè)智能系統(tǒng)，信息咨詢與信息增值，信息安全和信息監(jiān)控等。5.1.5網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲是一個(gè)自動(dòng)提取網(wǎng)頁的程序，它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁，是搜索引擎的重要組成部分。1.什么是網(wǎng)絡(luò)爬蟲5.1.5網(wǎng)絡(luò)爬蟲2.網(wǎng)絡(luò)爬蟲的組成網(wǎng)絡(luò)爬蟲由控制節(jié)點(diǎn)、爬蟲節(jié)點(diǎn)和資源庫(kù)構(gòu)成。網(wǎng)絡(luò)爬蟲的控制節(jié)點(diǎn)和爬蟲節(jié)點(diǎn)的結(jié)構(gòu)關(guān)系如圖所示。從圖中可以看出，網(wǎng)絡(luò)爬蟲中可以有多個(gè)控制節(jié)點(diǎn)，每個(gè)控制節(jié)點(diǎn)下可以有多個(gè)爬蟲節(jié)點(diǎn)，控制節(jié)點(diǎn)之間可以互相通信，同時(shí)，控制節(jié)點(diǎn)和其下的各爬蟲節(jié)點(diǎn)之間也可以進(jìn)行互相通信，屬于同一個(gè)控制節(jié)點(diǎn)下的各爬蟲節(jié)點(diǎn)間亦可以互相通信。5.1.5網(wǎng)絡(luò)爬蟲3.網(wǎng)絡(luò)爬蟲的類型01030204通用網(wǎng)絡(luò)爬蟲聚焦網(wǎng)絡(luò)爬蟲增量式網(wǎng)絡(luò)爬蟲深層網(wǎng)絡(luò)爬蟲5.1.5網(wǎng)絡(luò)爬蟲3.網(wǎng)絡(luò)爬蟲的類型（1）通用網(wǎng)絡(luò)爬蟲。通用網(wǎng)絡(luò)爬蟲又稱“全網(wǎng)爬蟲”（（ScalableWebCrawler）），爬行對(duì)象從一些種子URL擴(kuò)充到整個(gè)Web，該架構(gòu)主要為門戶站點(diǎn)搜索引擎和大型Web服務(wù)提供商采集數(shù)據(jù)。通用網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)大致可以包括頁面爬行模塊、頁面分析模塊、鏈接過濾模塊、頁面數(shù)據(jù)庫(kù)、URL隊(duì)列和初始URL集合。為提高工作效率，通用網(wǎng)絡(luò)爬蟲會(huì)采取一定的爬行策略。常用的爬行策略有：深度優(yōu)先策略和廣度優(yōu)先策略。5.1.5網(wǎng)絡(luò)爬蟲3.網(wǎng)絡(luò)爬蟲的類型（2）聚焦網(wǎng)絡(luò)爬蟲。聚焦網(wǎng)絡(luò)爬蟲（FocusedCrawler），又稱“主題網(wǎng)絡(luò)爬蟲（TopicalCrawler）”，是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁面的網(wǎng)絡(luò)爬蟲。和通用網(wǎng)絡(luò)爬蟲相比，聚焦爬蟲只需要爬行與主題相關(guān)的頁面，極大地節(jié)省了硬件和網(wǎng)絡(luò)資源，保存的頁面也由于數(shù)量少而更新快，還可以很好地滿足一些特定人群對(duì)特定領(lǐng)域信息的需求。聚焦網(wǎng)絡(luò)爬蟲的工作流程較為復(fù)雜，需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接，保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后，它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁URL，并重復(fù)上述過程，直到達(dá)到系統(tǒng)的某一條件時(shí)停止。另外，所有被爬蟲抓取的網(wǎng)頁將會(huì)被系統(tǒng)存儲(chǔ)，進(jìn)行一定的分析、過濾，并建立索引，以便用于之后的查詢和檢索；對(duì)于聚焦網(wǎng)絡(luò)爬蟲來說，這一過程所得到的分析結(jié)果還可能對(duì)以后的抓取過程給出反饋和指導(dǎo)。聚焦網(wǎng)絡(luò)爬蟲常用的策略包括：基于內(nèi)容評(píng)價(jià)的爬行策略、基于鏈接結(jié)構(gòu)評(píng)價(jià)的爬行策略、基于增強(qiáng)學(xué)習(xí)的爬行策略和基于語境圖的爬行策略。5.1.5網(wǎng)絡(luò)爬蟲3.網(wǎng)絡(luò)爬蟲的類型（3）增量式網(wǎng)絡(luò)爬蟲。增量式網(wǎng)絡(luò)爬蟲（IncrementalWebCrawler）是指對(duì)已下載網(wǎng)頁采取增量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁的爬蟲，它能夠在一定程度上保證所爬行的頁面是盡可能新的頁面。和周期性爬行和刷新頁面的網(wǎng)絡(luò)爬蟲相比，增量式爬蟲只會(huì)在需要的時(shí)候爬行新產(chǎn)生或發(fā)生更新的頁面，并不重新下載沒有發(fā)生變化的頁面，可有效減少數(shù)據(jù)下載量，及時(shí)更新已爬行的網(wǎng)頁，減小時(shí)間和空間上的耗費(fèi)，但是增加了爬行算法的復(fù)雜度和實(shí)現(xiàn)難度。增量式爬蟲有兩個(gè)目標(biāo)：保持本地頁面集中存儲(chǔ)的頁面為最新頁面和提高本地頁面集中頁面的質(zhì)量。為實(shí)現(xiàn)第一個(gè)目標(biāo)，增量式爬蟲需要通過重新訪問網(wǎng)頁來更新本地頁面集中頁面內(nèi)容。為了實(shí)現(xiàn)第二個(gè)目標(biāo)，增量式爬蟲需要對(duì)網(wǎng)頁的重要性排序，常用的策略包括廣度優(yōu)先策略和PageRank優(yōu)先策略等。5.1.5網(wǎng)絡(luò)爬蟲3.網(wǎng)絡(luò)爬蟲的類型（4）深層網(wǎng)絡(luò)爬蟲。深層網(wǎng)絡(luò)爬蟲將Web頁面按存在方式分為表層網(wǎng)頁（SurfaceWeb）和深層網(wǎng)頁（DeepWeb，也稱InvisibleWebPage或HiddenWeb）。表層網(wǎng)頁是指?jìng)鹘y(tǒng)搜索引擎可以索引的頁面，以超鏈接可以到達(dá)的靜態(tài)網(wǎng)頁為主構(gòu)成的Web頁面。深層網(wǎng)頁是那些大部分內(nèi)容不能通過靜態(tài)鏈接獲取的、隱藏在搜索表單后的、只有用戶提交一些關(guān)鍵詞才能獲得的Web頁面。深層網(wǎng)絡(luò)爬蟲體系結(jié)構(gòu)包含6個(gè)基本功能模塊（爬行控制器、解析器、表單分析器、表單處理器、響應(yīng)分析器、LVS控制器）和兩個(gè)爬蟲內(nèi)部數(shù)據(jù)結(jié)構(gòu)（URL列表、LVS表）。5.1.5網(wǎng)絡(luò)爬蟲4.Scrapy爬蟲Scrapy是一套基于Twisted的異步處理框架，是純Python實(shí)現(xiàn)的爬蟲框架，用戶只需要定制開發(fā)幾個(gè)模塊就可以輕松的實(shí)現(xiàn)一個(gè)爬蟲，用來抓取網(wǎng)頁內(nèi)容或者各種圖片。Scrapy運(yùn)行于Linux/Windows/MacOS等多種環(huán)境，具有速度快、擴(kuò)展性強(qiáng)、使用簡(jiǎn)便等特點(diǎn)。即便是新手，也能迅速學(xué)會(huì)使用Scrapy編寫所需要的爬蟲程序。Scrapy可以在本地運(yùn)行，也能部署到云端實(shí)現(xiàn)真正的生產(chǎn)級(jí)數(shù)據(jù)采集系統(tǒng)。Scrapy用途廣泛，可以用于數(shù)據(jù)挖掘、監(jiān)測(cè)和自動(dòng)化測(cè)試。Scrapy吸引人的地方在于它是一個(gè)框架，任何人都可以根據(jù)需求對(duì)它進(jìn)行修改。當(dāng)然，Scrapy只是Python的一個(gè)主流框架，除了Scrapy外，還有其他基于Python的爬蟲框架，包括Crawley、Portia、Newspaper、Python-goose、BeautifulSoup、Mechanize、Selenium和Cola燈。5.1.5網(wǎng)絡(luò)爬蟲4.Scrapy爬蟲（1）Scrapy體系架構(gòu)Scrapy體系架構(gòu)包括以下組成部分：Scrapy引擎（Engine）、爬蟲（Spiders）、下載器（Downloader）、調(diào)度器（Scheduler）、項(xiàng)目管道（ItemPipeline）、下載器中間件（DownloaderMiddlewares）、爬蟲中間件（SpiderMiddlewares）、調(diào)度器中間件（SchedulerMiddlewares）5.1.5網(wǎng)絡(luò)爬蟲4.Scrapy爬蟲（2）Scrapy工作流Scrapy工作流也叫作“運(yùn)行流程”或叫作“數(shù)據(jù)處理流程”，整個(gè)數(shù)據(jù)處理流程由Scrapy引擎進(jìn)行控制，其主要的運(yùn)行步驟如下：①Scrapy引擎從調(diào)度器中取出一個(gè)鏈接（URL）用于接下來的抓??；②Scrapy引擎把URL封裝成一個(gè)請(qǐng)求并傳給下載器；③下載器把資源下載下來，并封裝成應(yīng)答包；④爬蟲解析應(yīng)答包；⑤如果解析出的是項(xiàng)目，則交給項(xiàng)目管道進(jìn)行進(jìn)一步的處理；⑥如果解析出的是鏈接（URL），則把URL交給調(diào)度器等待抓取。5.1.5網(wǎng)絡(luò)爬蟲5.反爬機(jī)制為什么會(huì)有反爬機(jī)制？原因主要有兩點(diǎn)：第一，在大數(shù)據(jù)時(shí)代，數(shù)據(jù)是十分寶貴的財(cái)富，很多企業(yè)不愿意讓自己的數(shù)據(jù)被別人免費(fèi)獲取，因此，很多企業(yè)都為自己的網(wǎng)站運(yùn)用了反爬機(jī)制，防止網(wǎng)頁上的數(shù)據(jù)被爬走；第二，簡(jiǎn)單低級(jí)的網(wǎng)絡(luò)爬蟲，數(shù)據(jù)采集速度快，偽裝度低，如果沒有反爬機(jī)制，它們可以很快地抓取大量數(shù)據(jù)，甚至因?yàn)檎?qǐng)求過多，造成網(wǎng)站服務(wù)器不能正常工作，影響了企業(yè)的業(yè)務(wù)開展。反爬機(jī)制也是一把雙刃劍，一方面可以保護(hù)企業(yè)網(wǎng)站和網(wǎng)站數(shù)據(jù)，但是，另一方面，如果反爬機(jī)制過于嚴(yán)格，可能會(huì)誤傷到真正的用戶請(qǐng)求，也就是真正用戶的請(qǐng)求被錯(cuò)誤當(dāng)成網(wǎng)絡(luò)爬蟲而被拒絕訪問。如果既要和“網(wǎng)絡(luò)爬蟲”死磕，又要保證很低的誤傷率，那么又會(huì)增加網(wǎng)站研發(fā)的成本。5.2數(shù)據(jù)清洗5.2.1數(shù)據(jù)清洗的內(nèi)容5.2.2數(shù)據(jù)清洗的注意事項(xiàng)5.2.1數(shù)據(jù)清洗的內(nèi)容（1）缺失值處理。由于調(diào)查、編碼和錄入誤差，數(shù)據(jù)中可能存在一些缺失值，需要給予適當(dāng)?shù)奶幚?。常用的處理方法有：估算、整例刪除、變量刪除和成對(duì)刪除。（a）估算：最簡(jiǎn)單的辦法就是用某個(gè)變量的樣本均值、中位數(shù)或眾數(shù)代替缺失值。這種辦法簡(jiǎn)單，但沒有充分考慮數(shù)據(jù)中已有的信息，誤差可能較大。另一種辦法就是根據(jù)調(diào)查對(duì)象對(duì)其他問題的答案，通過變量之間的相關(guān)分析或邏輯推論進(jìn)行估計(jì)。例如，某一產(chǎn)品的擁有情況可能與家庭收入有關(guān)，可以根據(jù)調(diào)查對(duì)象的家庭收入推算擁有這一產(chǎn)品的可能性。（b）整例刪除：剔除含有缺失值的樣本。由于很多問卷都可能存在缺失值，這種做法的結(jié)果可能導(dǎo)致有效樣本量大大減少，無法充分利用已經(jīng)收集到的數(shù)據(jù)。因此，只適合關(guān)鍵變量缺失，或者含有異常值或缺失值的樣本比重很小的情況。（c）變量刪除：如果某一變量的缺失值很多，而且該變量對(duì)于所研究的問題不是特別重要，則可以考慮將該變量刪除。這種做法減少了供分析用的變量數(shù)目，但沒有改變樣本量。（d）成對(duì)刪除：是用一個(gè)特殊碼(通常是9、99、999等)代表缺失值，同時(shí)保留數(shù)據(jù)集中的全部變量和樣本。但是，在具體計(jì)算時(shí)只采用有完整答案的樣本，因而不同的分析因涉及的變量不同，其有效樣本量也會(huì)有所不同。這是一種保守的處理方法，最大限度地保留了數(shù)據(jù)集中的可用信息。數(shù)據(jù)清洗的內(nèi)容主要包括5.2.1數(shù)據(jù)清洗的內(nèi)容（2）異常值處理。根據(jù)每個(gè)變量的合理取值范圍和相互關(guān)系，檢查數(shù)據(jù)是否合乎要求，發(fā)現(xiàn)超出正常范圍、邏輯上不合理或者相互矛盾的數(shù)據(jù)。例如，用1-7級(jí)量表測(cè)量的變量出現(xiàn)了0值，體重出現(xiàn)了負(fù)數(shù)，都應(yīng)視為超出正常值域范圍。SPSS、SAS、和Excel等計(jì)算機(jī)軟件都能夠根據(jù)定義的取值范圍，自動(dòng)識(shí)別每個(gè)超出范圍的變量值。具有邏輯上不一致性的答案可能以多種形式出現(xiàn)：例如，許多調(diào)查對(duì)象說自己開車上班，又報(bào)告沒有汽車；或者調(diào)查對(duì)象報(bào)告自己是某品牌的重度購(gòu)買者和使用者，但同時(shí)又在熟悉程度量表上給了很低的分值。發(fā)現(xiàn)不一致時(shí)，要列出問卷序號(hào)、記錄序號(hào)、變量名稱、錯(cuò)誤類別等，便于進(jìn)一步核對(duì)和糾正。5.2.1數(shù)據(jù)清洗的內(nèi)容（3）數(shù)據(jù)類型轉(zhuǎn)換。數(shù)據(jù)類型往往會(huì)影響到后續(xù)的數(shù)據(jù)處理分析環(huán)節(jié)，因此，需要明確每個(gè)字段的數(shù)據(jù)類型，比如，來自A表的“學(xué)號(hào)”是字符型，而來自B表的字段是日期型，在數(shù)據(jù)清洗的時(shí)候就需要對(duì)二者的數(shù)據(jù)類型進(jìn)行統(tǒng)一處理。（4）重復(fù)值處理。重復(fù)值的存在會(huì)影響數(shù)據(jù)分析和挖掘結(jié)果的準(zhǔn)確性，所以，在數(shù)據(jù)分析和建模之前需要進(jìn)行數(shù)據(jù)重復(fù)性檢驗(yàn)，如果存在重復(fù)值，還需要進(jìn)行重復(fù)值的刪除。5.2.2數(shù)據(jù)清洗的注意事項(xiàng)在進(jìn)行數(shù)據(jù)清洗時(shí)，需要注意如下事項(xiàng)：（1）數(shù)據(jù)清洗時(shí)優(yōu)先進(jìn)行缺失值、異常值和數(shù)據(jù)類型轉(zhuǎn)換的操作，最后進(jìn)行重復(fù)值的處理。（2）在對(duì)缺失值、異常值進(jìn)行處理時(shí)，要根據(jù)業(yè)務(wù)的需求進(jìn)行處理，這些處理并不是一成不變的，常見的填充包括：統(tǒng)計(jì)值填充（常用的統(tǒng)計(jì)值有均值、中位數(shù)、眾數(shù)）、前/后值填充（一般使用在前后數(shù)據(jù)存在關(guān)聯(lián)，比如數(shù)據(jù)是按照時(shí)間進(jìn)行記錄的）、零值填充。（3）在數(shù)據(jù)清洗之前，最為重要的對(duì)數(shù)據(jù)表的查看，要了解表的結(jié)構(gòu)和發(fā)現(xiàn)需要處理的值，這樣才能將數(shù)據(jù)清洗徹底。5.2.2數(shù)據(jù)清洗的注意事項(xiàng)（4）數(shù)據(jù)量的大小也關(guān)系著數(shù)據(jù)的處理方式。如果總數(shù)據(jù)量較大，而異常的數(shù)據(jù)（包括缺失值和異常值）的量較少時(shí)，可以選擇直接刪除處理，因?yàn)檫@并不太會(huì)影響到最終的分析結(jié)果；但是，如果總數(shù)據(jù)量較小，則每個(gè)數(shù)據(jù)都可能影響分析的結(jié)果，這個(gè)時(shí)候就需要認(rèn)真去對(duì)數(shù)據(jù)進(jìn)行處理（可能需要通過其他的關(guān)聯(lián)表去找到相關(guān)數(shù)據(jù)進(jìn)行填充）。（5）在導(dǎo)入數(shù)據(jù)表后，一般需要將所有列一個(gè)個(gè)地進(jìn)行清洗，來保證數(shù)據(jù)處理的徹底性，有些數(shù)據(jù)可能看起來是正?？梢允褂玫?，實(shí)際上在進(jìn)行處理時(shí)可能會(huì)出現(xiàn)問題（比如某列數(shù)據(jù)在查看時(shí)看起來是數(shù)值類型，但是其實(shí)這列數(shù)據(jù)的類型卻是字符串，這就會(huì)導(dǎo)致在進(jìn)行數(shù)值操作時(shí)無法使用）。5.3數(shù)據(jù)轉(zhuǎn)換5.3.1數(shù)據(jù)轉(zhuǎn)換策略5.3.2平滑處理5.3.3規(guī)范化處理5.3.1數(shù)據(jù)轉(zhuǎn)換策略常見的數(shù)據(jù)轉(zhuǎn)換策略包括：（1）平滑處理。幫助除去數(shù)據(jù)中的噪聲，常用的方法包括分箱、回歸和聚類等。（2）聚集處理。對(duì)數(shù)據(jù)進(jìn)行匯總操作。例如，每天的數(shù)據(jù)經(jīng)過匯總操作可以獲得每月或每年的總額。這一操作常用于構(gòu)造數(shù)據(jù)立方體或?qū)?shù)據(jù)進(jìn)行多粒度的分析。（3）數(shù)據(jù)泛化處理。用更抽象（更高層次）的概念來取代低層次的數(shù)據(jù)對(duì)象。例如，街道屬性可以泛化到更高層次的概念，如城市、國(guó)家，再比如年齡屬性可以映射到更高層次的概念，如年輕、中年和老年。（4）規(guī)范化處理。將屬性值按比例縮放，使之落入一個(gè)特定的區(qū)間，比如0.0~1.0。常用的數(shù)據(jù)規(guī)范化方法包括Min-Max規(guī)范化、Z-Score規(guī)范化和小數(shù)定標(biāo)規(guī)范化等。（5）屬性構(gòu)造處理。根據(jù)已有屬性集構(gòu)造新的屬性，后續(xù)數(shù)據(jù)處理直接使用新增的屬性。例如，根據(jù)已知的質(zhì)量和體積屬性，計(jì)算出新的屬性——密度。5.3.2平滑處理1.分箱分箱（Bin）方法通過利用被平滑數(shù)據(jù)點(diǎn)的周圍點(diǎn)（近鄰），對(duì)一組排序數(shù)據(jù)進(jìn)行平滑，排序后的數(shù)據(jù)被分配到若干箱子（稱為Bin）中。如圖5所示，對(duì)箱子的劃分方法一般有兩種，一種是等高方法，即每個(gè)箱子中元素的個(gè)數(shù)相等，另一種是等寬方法，即每個(gè)箱子的取值間距（左右邊界之差）相同。5.3.2平滑處理1.分箱這里給出一個(gè)實(shí)例介紹分箱方法。假設(shè)有一個(gè)數(shù)據(jù)集X={4,8,15,21,21,24,25,28,34}，這里采用基于平均值的等高分箱方法對(duì)其進(jìn)行平滑處理，則分箱處理的步驟如下：（1）把原始數(shù)據(jù)集X放入以下三個(gè)箱子：

箱子1：4,8,15

箱子2：21,21,24

箱子3：25,28,34（2）分別計(jì)算得到每個(gè)箱子的平均值：箱子1的平均值：9

箱子2的平均值：22

箱子3的平均值：29（3）用每個(gè)箱子的平均值替換該箱子內(nèi)的所有元素：

箱子1：9,9,9

箱子2：22,22,22

箱子3：29,29,29（4）合并各個(gè)箱子中的元素得到新的數(shù)據(jù)集{9,9,9,22,22,22,29,29,29}。5.3.2平滑處理此外，還可以采用基于箱子邊界的等高分箱方法對(duì)數(shù)據(jù)進(jìn)行平滑處理。利用邊界進(jìn)行平滑時(shí)，對(duì)于給定的箱子，其最大值與最小值就構(gòu)成了該箱子的邊界，利用每個(gè)箱子的邊界值（最大值或最小值）可替換該箱子中的所有值。這時(shí)的分箱結(jié)果如下：箱子1：4,4,15箱子2：21,21,24箱子3：25,25,34

合并各個(gè)箱子中的元素得到新的數(shù)據(jù)集{4,4,15,21,21,24,25,25,34}。1.分箱5.3.2平滑處理2.回歸可以利用擬合函數(shù)對(duì)數(shù)據(jù)進(jìn)行平滑。例如，借助線性回歸方法（包括多變量回歸方法），就可以獲得多個(gè)變量之間的擬合關(guān)系，從而達(dá)到利用一個(gè)（或一組）變量值來預(yù)測(cè)另一個(gè)變量取值的目的。如圖所示，利用回歸分析方法所獲得的擬合函數(shù)，能夠幫助平滑數(shù)據(jù)并除去其中的噪聲。圖

對(duì)數(shù)據(jù)進(jìn)行線性回歸擬合5.3.2平滑處理3.聚類通過聚類分析方法可幫助發(fā)現(xiàn)異常數(shù)據(jù)。如圖所示，相似或相鄰近的數(shù)據(jù)聚合在一起形成了各個(gè)聚類集合，而那些位于這些聚類集合之外的數(shù)據(jù)對(duì)象，則被認(rèn)為是異常數(shù)據(jù)。圖

基于聚類分析方法的異常數(shù)據(jù)監(jiān)測(cè)5.3.3規(guī)范化處理1.Min-Max規(guī)范化Min-Max規(guī)范化方法對(duì)被轉(zhuǎn)換數(shù)據(jù)進(jìn)行一種線性轉(zhuǎn)換，其轉(zhuǎn)換公式如下：x=（待轉(zhuǎn)換屬性值?屬性最小值）/（屬性最大值?屬性最小值）例如，假設(shè)屬性的最大值和最小值分別是87000元和11000元，現(xiàn)在需要利用Min-Max規(guī)范化方法，將“顧客收入”屬性的值映射到0~1的范圍內(nèi)，則“顧客收入”屬性的值為72400元時(shí)，對(duì)應(yīng)的轉(zhuǎn)換結(jié)果如下：(72400?11000)/(87000?11000)=0.808Min-Max規(guī)范化比較簡(jiǎn)單，但是也存在一些缺陷，當(dāng)有新的數(shù)據(jù)加入時(shí)，可能導(dǎo)致最大值和最小值的變化，需要重新定義屬性最大值和最小值。5.3.3規(guī)范化處理2.Z-Score規(guī)范化Z-Score規(guī)范化的主要目的就是將不同量級(jí)的數(shù)據(jù)統(tǒng)一轉(zhuǎn)化為同一個(gè)量級(jí)，統(tǒng)一用計(jì)算出的Z-Score值衡量，以保證數(shù)據(jù)之間的可比性。其轉(zhuǎn)換公式如下：z=（待轉(zhuǎn)換屬性值?屬性平均值）/屬性標(biāo)準(zhǔn)差

假設(shè)我們要比較學(xué)生A與學(xué)生B的考試成績(jī)，A的考卷滿分是100分（及格60分），B的考卷滿分是700分（及格420分）。很顯然，A考出的70分與B考出的70分代表著完全不同的意義。但是從數(shù)值來講，A與B在數(shù)據(jù)表中都是用數(shù)字70代表各自的成績(jī)。那么如何能夠用一個(gè)同等的標(biāo)準(zhǔn)來比較A與B的成績(jī)呢？Z-Score就可以解決這一問題。

假設(shè)A班級(jí)的平均分是80，標(biāo)準(zhǔn)差是10，A考了90分；B班的平均分是400，標(biāo)準(zhǔn)差是100，B考了600分。通過上面的公式，我們可以計(jì)算得出，A的Z-Score是1（即（90-80）/10），B的Z-Socre是2（即（600-400）/100），因此，B的成績(jī)更為優(yōu)異。若A考了60分，B考了300分，則A的Z-Score是-2，B的Z-Score是-1，這時(shí)，A的成績(jī)比較差。5.3.3規(guī)范化處理Z-Score的優(yōu)點(diǎn)是不需要知道數(shù)據(jù)集的最大值和最小值，對(duì)離群點(diǎn)規(guī)范化效果好。此外，Z-Score能夠應(yīng)用于數(shù)值型的數(shù)據(jù)，并且不受數(shù)據(jù)量級(jí)的影響，因?yàn)樗旧淼淖饔镁褪窍考?jí)給分析帶來的不便。但是Z-Score也有一些缺陷。首先，Z-Score對(duì)于數(shù)據(jù)的分布有一定的要求，正態(tài)分布是最有利于Z-Score計(jì)算的。其次，Z-Score消除了數(shù)據(jù)具有的實(shí)際意義，A的Z-Score與B的Z-Score與他們各自的分?jǐn)?shù)不再有關(guān)系，因此，Z-Score的結(jié)果只能用于比較數(shù)據(jù)間的結(jié)果，數(shù)據(jù)的真實(shí)意義還需要還原原值。2.Z-Score規(guī)范化5.3.3規(guī)范化處理3.小數(shù)定標(biāo)規(guī)范化小數(shù)定標(biāo)規(guī)范化方法通過移動(dòng)屬性值的小數(shù)位置來達(dá)到規(guī)范化的目的。所移動(dòng)的小數(shù)位數(shù)取決于屬性絕對(duì)值的最大值。其轉(zhuǎn)換公式為：x=待轉(zhuǎn)換屬性值/(10的k次方)其中，k為能夠使該屬性絕對(duì)值的最大值的轉(zhuǎn)換結(jié)果小于1的最小值。比如，假設(shè)屬性的取值范圍是-957~924，則該屬性絕對(duì)值的最大值為957，很顯然，這時(shí)k=3。當(dāng)屬性的值為426時(shí)，對(duì)應(yīng)的轉(zhuǎn)換結(jié)果如下：426/10的3次方=0.426小數(shù)定標(biāo)法的優(yōu)點(diǎn)是直觀簡(jiǎn)單，缺點(diǎn)是并沒有消除屬性間的權(quán)重差異。5.4數(shù)據(jù)脫敏5.4.1數(shù)據(jù)脫敏原則5.4.2數(shù)據(jù)脫敏方法5.4.1數(shù)據(jù)脫敏原則數(shù)據(jù)脫敏不僅要執(zhí)行“數(shù)據(jù)漂白”，抹去數(shù)據(jù)中的敏感內(nèi)容，同時(shí)也需要保持原有的數(shù)據(jù)特征、業(yè)務(wù)規(guī)則和數(shù)據(jù)關(guān)聯(lián)性，保證開發(fā)、測(cè)試以及大數(shù)據(jù)類業(yè)務(wù)不會(huì)受到脫敏的影響，達(dá)成脫敏前后的數(shù)據(jù)一致性和有效性，具體如下：（1）保持原有數(shù)據(jù)特征。數(shù)據(jù)脫敏前后必須保證數(shù)據(jù)特征的保持，例如：身份證號(hào)碼由十七位數(shù)字本體碼和一位校驗(yàn)碼組成，分別為區(qū)域地址碼（6位）、出生日期（8位）、順序碼（3位）和校驗(yàn)碼（1位）。那么身份證號(hào)碼的脫敏規(guī)則就需要保證脫敏后依舊保持這些特征信息。

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

第5章-數(shù)據(jù)采集與預(yù)處理

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

第5章-數(shù)據(jù)采集與預(yù)處理

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔