《計算機高級應用教程》課件-第8章_第1頁
《計算機高級應用教程》課件-第8章_第2頁
《計算機高級應用教程》課件-第8章_第3頁
《計算機高級應用教程》課件-第8章_第4頁
《計算機高級應用教程》課件-第8章_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

第8章大數(shù)據(jù)技術(shù)及應用8.1大數(shù)據(jù)應用概述8.2大數(shù)據(jù)的采集

8.3大數(shù)據(jù)的存儲與處理課后習題八.

8.1大數(shù)據(jù)應用概述.

8.1.1大數(shù)據(jù)的概念與意義

1.大數(shù)據(jù)的概念

大數(shù)據(jù)(BigData)指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn),如購物網(wǎng)站的消費記錄。這些數(shù)據(jù)只有進行處理整合才有意義。

2.大數(shù)據(jù)的意義

大數(shù)據(jù)的意義主要體現(xiàn)在以下三個方面:

(1)對大數(shù)據(jù)的處理分析正成為新一代信息技術(shù)融合應用的結(jié)點。移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡、數(shù)字家庭、電子商務等是新一代信息技術(shù)的應用形態(tài),這些應用不斷產(chǎn)生大數(shù)據(jù)。云計算為這些海量、多樣化的大數(shù)據(jù)提供存儲和運算平臺。通過對不同來源數(shù)據(jù)的管理、處理、分析與優(yōu)化,將結(jié)果反饋到上述應用中,會創(chuàng)造出巨大的經(jīng)濟和社會價值。

(2)大數(shù)據(jù)是信息產(chǎn)業(yè)持續(xù)高速增長的新引擎。面向大數(shù)據(jù)市場的新技術(shù)、新產(chǎn)品、新服務、新業(yè)態(tài)會不斷涌現(xiàn)。在硬件與集成設備領域,大數(shù)據(jù)將對芯片、存儲產(chǎn)業(yè)產(chǎn)生重要影響,還將催生一體化數(shù)據(jù)存儲處理服務器、內(nèi)存計算等市場。在軟件與服務領域,大數(shù)據(jù)將引發(fā)數(shù)據(jù)快速處理分析、數(shù)據(jù)挖掘技術(shù)和軟件產(chǎn)品的發(fā)展。

(3)大數(shù)據(jù)利用將成為提高核心競爭力的關鍵因素。各行各業(yè)的決策正在從“業(yè)務驅(qū)動”轉(zhuǎn)變?yōu)椤皵?shù)據(jù)驅(qū)動”。

8.1.2大數(shù)據(jù)的主要分類

從數(shù)據(jù)結(jié)構(gòu)角度來看,大數(shù)據(jù)可以分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。從內(nèi)容來源角度來看,大數(shù)據(jù)可以分為互聯(lián)網(wǎng)大數(shù)據(jù)、政務大數(shù)據(jù)、企業(yè)大數(shù)據(jù)和個人大數(shù)據(jù)。對各種大數(shù)據(jù)的介紹如下:

1.互聯(lián)網(wǎng)大數(shù)據(jù)

互聯(lián)網(wǎng)上的數(shù)據(jù)每年增長50%,每兩年便將翻一番?;ヂ?lián)網(wǎng)數(shù)據(jù)中心(InternetDataCenter,IDC)預測,到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量。

2.政務大數(shù)據(jù)

政務大數(shù)據(jù)是政府部門在對整個社會活動進行管理的過程中產(chǎn)生并使用的各類巨量數(shù)據(jù),包括工業(yè)數(shù)據(jù)、農(nóng)業(yè)數(shù)據(jù)、工商數(shù)據(jù)、納稅數(shù)據(jù)、環(huán)保數(shù)據(jù)、海關數(shù)據(jù)、土地數(shù)據(jù)、房地產(chǎn)數(shù)據(jù)、氣象數(shù)據(jù)、金融數(shù)據(jù)、信用數(shù)據(jù)、電力數(shù)據(jù)、電信數(shù)據(jù)、天然氣數(shù)據(jù)、自來水數(shù)據(jù)和道路交通數(shù)據(jù)等各種數(shù)據(jù)以及針對個人的人口、教育、收入、安全刑事案件、出入境數(shù)據(jù)、旅游數(shù)據(jù)、醫(yī)療數(shù)據(jù)、教育數(shù)據(jù)和消費數(shù)據(jù)等各種數(shù)據(jù)。

3.企業(yè)大數(shù)據(jù)

企業(yè)大數(shù)據(jù)是企業(yè)在業(yè)務管理和運營中產(chǎn)生和使用的各類巨量數(shù)據(jù)。因其在行業(yè)的主導地位,其數(shù)據(jù)具有兩重性,即其數(shù)據(jù)既是企業(yè)數(shù)據(jù)也是政府關注的數(shù)據(jù)。比如,作為電力企業(yè)、電信運營商、銀行、主流電商等大型企業(yè),龐大的運營數(shù)據(jù)、設備數(shù)據(jù)等是企業(yè)自己的數(shù)據(jù)。但同時,這些企業(yè)面向宏觀層面的數(shù)據(jù)也是該行業(yè)的政務大數(shù)據(jù)。

4.個人大數(shù)據(jù)

個人大數(shù)據(jù)是指與個人相關聯(lián)的各種數(shù)據(jù)。個人信息被有效采集后,可由本人授權(quán)提供給第三方進行處理和使用。

個人大數(shù)據(jù)的特點是數(shù)據(jù)僅留存在個人中心,其他第三方機構(gòu)只被授權(quán)使用,且數(shù)據(jù)使用授權(quán)有一定的期限。

8.1.3大數(shù)據(jù)應用總體框架

大數(shù)據(jù)框架圖如圖8-1所示。圖8-1大數(shù)據(jù)框架圖

在圖8-1中的最左側(cè)是Zookeeper,它為整個集群的部分組件(如HBase和Kafka)提供協(xié)調(diào)服務。它是集群的管理者,監(jiān)視著集群中各個節(jié)點的狀態(tài)并根據(jù)節(jié)點的反饋做出合理的操作。

綜上,采集層解決的是大數(shù)據(jù)的收集和流通,存儲層解決的是大數(shù)據(jù)的存儲,計算層和交互層解決的是大數(shù)據(jù)的計算和消費問題。

8.2大數(shù)據(jù)的采集

對三類大數(shù)據(jù)的介紹如下:1.結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)包括由各種電子政務系統(tǒng),企業(yè)的OA、ERP、CRM、進銷存系統(tǒng),電商平臺等產(chǎn)生的數(shù)據(jù)。其特點是數(shù)據(jù)已經(jīng)結(jié)構(gòu)化,每條記錄的每個字段都有著確定的意義。這些數(shù)據(jù)庫中不同的庫表包括不同的內(nèi)容,不同庫表以關系型數(shù)據(jù)庫的方式關聯(lián),可以刻畫更復雜的內(nèi)容。

在進行數(shù)據(jù)采集時,首先需要確定從原有各系統(tǒng)采集數(shù)據(jù)的具體內(nèi)容,其次制定與原有系統(tǒng)的接口規(guī)范。這一接口既可以是原有系統(tǒng)提供的程序接口,又可以是數(shù)據(jù)庫接口,如圖8-2所示。從原有系統(tǒng)采集數(shù)據(jù),對數(shù)據(jù)進行簡單關聯(lián)處理,作為進一步大數(shù)據(jù)分析與挖掘的基礎。圖8-2結(jié)構(gòu)化數(shù)據(jù)采集示意圖

2.半結(jié)構(gòu)化和非結(jié)構(gòu)化互聯(lián)網(wǎng)數(shù)據(jù)

相比結(jié)構(gòu)化數(shù)據(jù),互聯(lián)網(wǎng)的很多數(shù)據(jù)是以網(wǎng)頁等方式存在的,具有分布廣、格式多樣、半結(jié)構(gòu)化或非結(jié)構(gòu)化的特點,這需要有針對性地對網(wǎng)頁數(shù)據(jù)進行采集、轉(zhuǎn)換、加工和存儲。尤其在網(wǎng)頁數(shù)據(jù)的采集和處理方面,需要更為復雜的方法。下面簡要介紹網(wǎng)頁數(shù)據(jù)的采集和處理的方法。

互聯(lián)網(wǎng)大數(shù)據(jù)采集和處理的整體過程如圖8-3所示。它包含四個主要模塊:爬蟲、數(shù)據(jù)處理、URL隊列和數(shù)據(jù)。這四個主要模塊的功能如下:

(1)爬蟲:從互聯(lián)網(wǎng)上抓取網(wǎng)頁內(nèi)容,并抽取出需要的屬性內(nèi)容。

(2)數(shù)據(jù)處理:對爬蟲抓取的內(nèi)容進行處理。

(3)URL隊列:為爬蟲提供需要抓取數(shù)據(jù)網(wǎng)站的URL。

(4)數(shù)據(jù):包含三方面,一是網(wǎng)站URL,即需要抓取數(shù)據(jù)網(wǎng)站的URL信息;二是爬蟲數(shù)據(jù),即爬蟲從網(wǎng)頁中抽取出來的數(shù)據(jù);三是數(shù)據(jù)處理后的數(shù)據(jù),即經(jīng)過數(shù)據(jù)處理之后的數(shù)據(jù)。圖8-3Web數(shù)據(jù)抓取與處理

整個Web數(shù)據(jù)采集和處理的基本步驟如下:

(1)將需要抓取數(shù)據(jù)的網(wǎng)站的URL信息(SiteURL)寫入URL隊列。

(2)爬蟲從URL隊列中獲取需要抓取數(shù)據(jù)的網(wǎng)站的SiteURL信息。

(3)爬蟲從互聯(lián)網(wǎng)抓取與SiteURL對應的網(wǎng)頁內(nèi)容,并抽取出網(wǎng)頁特定屬性的內(nèi)容值。

(4)爬蟲將從網(wǎng)頁中抽取出的數(shù)據(jù)(SpiderData)寫入數(shù)據(jù)庫。

(5)數(shù)據(jù)處理單元讀取爬蟲數(shù)據(jù)并進行處理。

(6)數(shù)據(jù)處理單元將處理后的數(shù)據(jù)寫入數(shù)據(jù)庫。

3.物聯(lián)網(wǎng)數(shù)據(jù)

相比結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化互聯(lián)網(wǎng)數(shù)據(jù),物聯(lián)網(wǎng)數(shù)據(jù)通常不是現(xiàn)成的,需要首先通過傳感器對各種物理量進行信號采集與處理,轉(zhuǎn)化為計算機系統(tǒng)可以識別的數(shù)據(jù),然后才能做進一步分析和處理。在很多情況下,物聯(lián)網(wǎng)數(shù)據(jù)是實時的、不斷產(chǎn)生的,是一種流數(shù)據(jù)。

一個典型的物聯(lián)網(wǎng)數(shù)據(jù)采集系統(tǒng)(前端)如圖8-4所示。傳感器信號通過以太網(wǎng)、WiFi、ZigBee等本地網(wǎng)絡接入網(wǎng)關,物聯(lián)網(wǎng)網(wǎng)關一般通過4G或NB-IoT遠程接入數(shù)據(jù)中心。傳感器不僅實現(xiàn)了數(shù)據(jù)的采集和模/數(shù)轉(zhuǎn)換,還實現(xiàn)了數(shù)據(jù)的網(wǎng)絡封裝,以便在網(wǎng)絡上傳輸。目前,主流的封裝方式是IP封裝,以便采用互聯(lián)網(wǎng)的傳輸技術(shù)。

圖8-4物聯(lián)網(wǎng)數(shù)據(jù)采集系統(tǒng)(前端)示意圖

8.3大數(shù)據(jù)的存儲與處理

8.3.1數(shù)據(jù)庫技術(shù)回顧數(shù)據(jù)庫技術(shù)是存儲、處理、管理數(shù)據(jù)的一門計算機技術(shù),是計算機科學技術(shù)中發(fā)展最快、應用最為廣泛的重要分支之一,是計算機信息系統(tǒng)的重要技術(shù)基礎和支柱。數(shù)據(jù)庫是存儲在計算機內(nèi)的有結(jié)構(gòu)的數(shù)據(jù)集合。數(shù)據(jù)庫系統(tǒng)是指由硬件設備、軟件系統(tǒng)、專業(yè)領域的數(shù)據(jù)庫和數(shù)據(jù)庫管理人員構(gòu)成的一個運行系統(tǒng)。

8.3.2大數(shù)據(jù)數(shù)據(jù)處理技術(shù)概述

大數(shù)據(jù)處理的流程主要包括四個環(huán)節(jié):采集、導入(預處理)、統(tǒng)計(分析)和挖掘。下面針對這四環(huán)節(jié)進行簡單闡述。

1.采集

大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端(Web、App或傳感器形式等)的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進行簡單的查詢和處理工作。

2.導入(預處理)

雖然采集端本身會有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進行有效的分析,還是應該將這些來自前端的數(shù)據(jù)導入到一個集中的大型分布式數(shù)據(jù)庫或分布式存儲集群,并且可以在導入基礎上做一些簡單的清洗和預處理工作。

3.統(tǒng)計(分析)

統(tǒng)計(分析)主要利用分布式數(shù)據(jù)庫或分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通的分析和分類匯總等操作,以滿足用戶常見的分析需求。

4.挖掘

與前面統(tǒng)計(分析)過程不同,數(shù)據(jù)挖掘一般沒有預先設定的主題,主要是在現(xiàn)有數(shù)據(jù)上進行基于各種算法的計算,從而起到預測(Predict)的效果,實現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計學習的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰(zhàn)主要是用于挖掘的算法很復雜,且計算涉及的數(shù)據(jù)量和計算量都很大。常用數(shù)據(jù)挖掘算法都以單線程為主。

課后習題八

一、選擇題(1)當前大數(shù)據(jù)技術(shù)的基礎是由()首先提出的。A.微軟 B.百度 C.谷歌 D.阿里巴巴(2)大數(shù)據(jù)的起源是()。A.金融 B.電信 C.互聯(lián)網(wǎng) D.公共管理

(3)數(shù)據(jù)清洗的方法不包括()。

A.缺失值處理 B.噪聲數(shù)據(jù)清除

C.一致性檢查 D.重復數(shù)據(jù)記錄處理

(4)智能健康手環(huán)的應用開發(fā)體現(xiàn)了()的數(shù)據(jù)采集技術(shù)的應用。

A.統(tǒng)計報表 B.網(wǎng)絡爬蟲

C.API接口D.傳感器

(5)下列關于數(shù)據(jù)重組的說法錯誤的是()。

A.數(shù)據(jù)重組是數(shù)據(jù)的重新生產(chǎn)和重新采集

B.數(shù)據(jù)重組能夠使數(shù)據(jù)煥發(fā)新的光芒

C.數(shù)據(jù)重組實現(xiàn)的關鍵在于多源數(shù)據(jù)融合和數(shù)據(jù)集成

D.數(shù)據(jù)重組有利于實現(xiàn)新穎的數(shù)據(jù)模式創(chuàng)新

(6)智慧城市的構(gòu)建不包括()。

A.數(shù)字城市 B.物聯(lián)網(wǎng)

C.聯(lián)網(wǎng)監(jiān)控 D.云計算

(7)大數(shù)據(jù)的最顯著的特征是()。

A.數(shù)據(jù)規(guī)模大 B.數(shù)據(jù)類型多樣

C.數(shù)據(jù)處理速度快 D.數(shù)據(jù)價值密度高

(8)美國海軍軍官莫里通過對前人航海日志的分析,繪制了新的航海路線圖,標明了大風與洋流可能發(fā)生的地點。這體現(xiàn)了大數(shù)據(jù)分析理念中()的觀點。

A.在數(shù)據(jù)基礎上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)

B.在分析方法上更注重相關分析而不是因果分析

C.在分析效果上更追求效率而不是絕對精確

D.在數(shù)據(jù)規(guī)模上強調(diào)相對數(shù)據(jù)而不是絕對數(shù)據(jù)

(9)下列關于舍恩伯格對大數(shù)據(jù)特點的說法錯誤的是()。

A.數(shù)據(jù)規(guī)模大 B.數(shù)據(jù)類型多樣

C.數(shù)據(jù)處理速度快 D.數(shù)據(jù)價值密度高

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論