第2章大數(shù)據(jù)采集及預處理_第1頁
第2章大數(shù)據(jù)采集及預處理_第2頁
第2章大數(shù)據(jù)采集及預處理_第3頁
第2章大數(shù)據(jù)采集及預處理_第4頁
第2章大數(shù)據(jù)采集及預處理_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

大數(shù)據(jù)技術與應用

計算機中心第2章大數(shù)據(jù)采集及預處理導學

一、內(nèi)容與要求1.理解大數(shù)據(jù)采集的基本概念,掌握大數(shù)據(jù)采集的數(shù)據(jù)來源,了解大數(shù)據(jù)采集的技術方法。2.了解大數(shù)據(jù)預處理的方法和了解大數(shù)據(jù)采集及預處理的常用工具。二、重點、難點重點是大數(shù)據(jù)采集的概念,大數(shù)據(jù)采集的數(shù)據(jù)來源和技術方法。難點是大數(shù)據(jù)預處理的方法。2.1數(shù)據(jù)采集簡介

2.1.1數(shù)據(jù)采集

大數(shù)據(jù)的數(shù)據(jù)采集是在確定用戶目標的基礎上,針對該范圍內(nèi)所有結構化、半結構化和非結構化的數(shù)據(jù)的采集。

傳統(tǒng)的數(shù)據(jù)采集大數(shù)據(jù)的數(shù)據(jù)采集數(shù)據(jù)來源

來源單一,數(shù)據(jù)量相對大數(shù)據(jù)較小來源廣泛,數(shù)據(jù)量巨大數(shù)據(jù)類型結構單一

數(shù)據(jù)類型豐富,包括結構化、半結構化、非結構化數(shù)據(jù)處理關系型數(shù)據(jù)庫和并行數(shù)據(jù)倉庫分布式數(shù)據(jù)庫2.1.2數(shù)據(jù)采集的數(shù)據(jù)來源按照數(shù)據(jù)來源劃分,大數(shù)據(jù)的三大主要來源為:商業(yè)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)與物聯(lián)網(wǎng)數(shù)據(jù)。1.商業(yè)數(shù)據(jù)商業(yè)數(shù)據(jù)是指來自于企業(yè)ERP系統(tǒng)、各種POS終端及網(wǎng)上支付系統(tǒng)等業(yè)務系統(tǒng)的數(shù)據(jù),是現(xiàn)在最主要的數(shù)據(jù)來源渠道。2.互聯(lián)網(wǎng)數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù)是指網(wǎng)絡空間交互過程中產(chǎn)生的大量數(shù)據(jù),包括通信記錄及QQ、微信、微博等社交媒體產(chǎn)生的數(shù)據(jù),其數(shù)據(jù)復雜且難以被利用。互聯(lián)網(wǎng)數(shù)據(jù)具有的特點:大量化多樣化快速化3.物聯(lián)網(wǎng)數(shù)據(jù)

物聯(lián)網(wǎng)是指在計算機互聯(lián)網(wǎng)的基礎上,利用射頻識別、傳感器、紅外感應器、無線數(shù)據(jù)通信等技術,構造一個覆蓋世界上萬事萬物的“TheInternetofThings”,也就是“實現(xiàn)物物相連的互聯(lián)網(wǎng)絡”。其內(nèi)涵包含:物聯(lián)網(wǎng)的核心和基礎仍是互聯(lián)網(wǎng),是在互聯(lián)網(wǎng)基礎之上延伸和擴展的一種網(wǎng)絡。用戶端延伸和擴展到了任何物品與物品之間,進行信息交換和通信。物聯(lián)網(wǎng)數(shù)據(jù)的特點主要包括:物聯(lián)網(wǎng)中的數(shù)據(jù)量更大物聯(lián)網(wǎng)中的數(shù)據(jù)傳輸速率更高物聯(lián)網(wǎng)中的數(shù)據(jù)更加多樣化物聯(lián)網(wǎng)對數(shù)據(jù)真實性的要求更高2.1.3數(shù)據(jù)采集的技術方法1.系統(tǒng)日志采集方法很多互聯(lián)網(wǎng)企業(yè)都有自己的海量數(shù)據(jù)采集工具,多用于系統(tǒng)日志采集,如:Hadoop的ChukwaCloudera的FlumeFacebook的Scribe2.對非結構化數(shù)據(jù)的采集非結構化數(shù)據(jù)的采集就是針對所有非結構化的數(shù)據(jù)的采集,包括企業(yè)內(nèi)部數(shù)據(jù)的采集和網(wǎng)絡數(shù)據(jù)采集等。企業(yè)內(nèi)部數(shù)據(jù)的采集是對企業(yè)內(nèi)部各種文檔、視頻、音頻、郵件、圖片等數(shù)據(jù)格式之間互不兼容的數(shù)據(jù)采集。網(wǎng)絡數(shù)據(jù)采集是指通過網(wǎng)絡爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取互聯(lián)網(wǎng)中相關網(wǎng)頁內(nèi)容的過程,并從中抽取出用戶所需要的屬性內(nèi)容。網(wǎng)絡爬蟲是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。是一個自動提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。3.其他數(shù)據(jù)采集方法對于企業(yè)生產(chǎn)經(jīng)營數(shù)據(jù)或?qū)W科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),可以通過與企業(yè)或研究機構合作,使用特定系統(tǒng)接口等相關方式采集數(shù)據(jù)。2.2大數(shù)據(jù)的預處理

大數(shù)據(jù)預處理的方法主要包括:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約。大數(shù)據(jù)處理流程1.數(shù)據(jù)清洗

數(shù)據(jù)清洗是在匯聚多個維度、多個來源、多種結構的數(shù)據(jù)之后,對數(shù)據(jù)進行抽取、轉(zhuǎn)換和集成加載。目的在于刪除重復信息、糾正存在的錯誤,并提供數(shù)據(jù)一致性。

大數(shù)據(jù)清洗工具DataWrangler2.數(shù)據(jù)集成數(shù)據(jù)集成是把不同來源、不同格式、不同特點性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機地集中,從而為企業(yè)提供全面的數(shù)據(jù)共享。目前通常采用聯(lián)邦式、基于中間件模型和數(shù)據(jù)倉庫等方法來構造集成的系統(tǒng)。大數(shù)據(jù)集成:狹義上講是指如何合并規(guī)整數(shù)據(jù);廣義上講數(shù)據(jù)的存儲、移動、處理等與數(shù)據(jù)管理有關的活動都稱為數(shù)據(jù)集成。

大數(shù)據(jù)集成一般需要將處理過程分布到源數(shù)據(jù)上進行并行處理,并僅對結果進行集成。3.數(shù)據(jù)變換

數(shù)據(jù)變換是將數(shù)據(jù)轉(zhuǎn)換成適合挖掘的形式。數(shù)據(jù)變換是采用線性或非線性的數(shù)學變換方法將多維數(shù)據(jù)壓縮成較少維數(shù)的數(shù)據(jù),消除它們在時間、空間、屬性及精度等特征表現(xiàn)方面的差異(如統(tǒng)計學中的數(shù)據(jù)標準化)。4.數(shù)據(jù)規(guī)約

數(shù)據(jù)規(guī)約是從數(shù)據(jù)庫或數(shù)據(jù)倉庫中選取并建立使用者感興趣的數(shù)據(jù)集合,然后從數(shù)據(jù)集合中濾掉一些無關、偏差或重復的數(shù)據(jù),在盡可能保持數(shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù)量。數(shù)據(jù)歸約主要有兩個途徑:屬性選擇和數(shù)據(jù)采樣,分別針對原始數(shù)據(jù)集中的屬性和記錄。2.3數(shù)據(jù)采集及預處理的主要工具

1.FlumeFlume是Cloudera提供的一個高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)。官網(wǎng):/2.LogstashLogstash是一個應用程序日志、事件的傳輸、處理、管理和搜索的平臺??梢杂盟鼇斫y(tǒng)一對應用程序日志進行收集管理,提供Web接口用于查詢和統(tǒng)計。官網(wǎng):/3.KibanaKibana是一個為Logstash和ElasticSearch提供的日志分析的Web接口??墒褂盟鼘θ罩具M行高效的搜索、可視化、分析等各種操作。主頁:/4.CeilometerCeilometer主要負責監(jiān)控數(shù)據(jù)的采集,是OpenStack中的一個子項目,它像一個漏斗一樣,能把OpenStack內(nèi)部發(fā)生的幾乎所有的事件都收集起來,然后為計費和監(jiān)控以及其它服務提供數(shù)據(jù)支撐。官方網(wǎng)站:/5.樂思網(wǎng)絡信息采集系統(tǒng)

主要目標就是解決網(wǎng)絡信息采集和網(wǎng)絡數(shù)據(jù)抓取問題。官方網(wǎng)站:/index.html6.火車采集器通過靈活的配置,可以很輕松迅速地從網(wǎng)頁上抓取結構化的文本、圖片、文件等資源信息,可編輯篩選處理后選擇發(fā)布到網(wǎng)站后臺,各類文件或其他數(shù)據(jù)庫系統(tǒng)中。官方網(wǎng)站:/7.網(wǎng)絡礦工(上機應用)網(wǎng)絡礦工數(shù)據(jù)采集軟件是一款集互聯(lián)網(wǎng)數(shù)據(jù)采集、清洗、存儲、發(fā)布為一體的工具軟件。官方網(wǎng)站:/(1)進入網(wǎng)絡礦工官方網(wǎng)站,下載免費版,本例下載的是sominerv5.33(通常免費版有試用期限,一般為30天)。網(wǎng)絡礦工的運行需要.NetFramework2.0環(huán)境,建議使用Firefox瀏覽器。(2)下載的壓縮文件內(nèi)包含多個可執(zhí)行程序,其中SoukeyNetget.exe為網(wǎng)絡礦工采集軟件,運行此文件即可打開網(wǎng)絡礦工,操作界面如圖。(3)點擊“新建采集任務分類”,在彈出的“新建任務類別”中輸入類別名稱,并保存存儲路徑,如圖。(4)在“新建任務管理”中,右鍵單擊“新建采集任務”。在彈出的“新建采集任務”中輸入任務名稱,如圖。(5)在“新建采集任務”中,點擊“增加采集網(wǎng)址”,在彈出的操作頁面中輸入采集網(wǎng)址,如/。選中“導航采集”,并點擊“增加”導航規(guī)則,如圖。(6)在“導航頁規(guī)則配置”中,設置導航規(guī)則:http://,如圖。單擊確定按鈕。(7)配置采集數(shù)據(jù)的規(guī)則:因為要采集新聞的正文、標題、發(fā)布時間,可以用三種方式來完成:智能采集、可視化采集和規(guī)則配置。以智能采集為例,回到“新建采集任務”中,點擊“采集數(shù)據(jù)”,然后點擊“配置助手”,如圖。(8)在彈出的“采集規(guī)則自動化配置”中,在地址欄輸入采集地址

,點擊“轉(zhuǎn)到”按鈕,可以看到百度新聞的頁面。再點擊“生成文章采集規(guī)則”,可以看到系統(tǒng)已經(jīng)將文章的智能規(guī)則輸入到系統(tǒng)中,點擊“測試”可以檢查采集結果是否正確,如圖。點擊“確定退出”,這樣就完成了配置。(9)點擊“保存”和“確定”按鈕。在返回的“新建采集任務”中,點擊“采集任務測試”,輸入示例網(wǎng)址:http://,點擊“啟動測試”,如圖。(10)任務設置完成后,返回最初操作界面,如圖。選中任務右鍵單擊“啟動”,可看到下面屏幕滾動,停止后則采集完成。(11)采集任務完成后,任務將以.smt文件形式保存在安裝路徑的tasks文件夾內(nèi)。右鍵單擊采集任務的名稱,在彈出的快捷菜單內(nèi)選擇數(shù)據(jù)導出的格式,包括文本、Excel和Word

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論