大數(shù)據(jù)導(dǎo)論-從產(chǎn)業(yè)結(jié)構(gòu)來(lái)探索大數(shù)據(jù)技術(shù)_第1頁(yè)
大數(shù)據(jù)導(dǎo)論-從產(chǎn)業(yè)結(jié)構(gòu)來(lái)探索大數(shù)據(jù)技術(shù)_第2頁(yè)
大數(shù)據(jù)導(dǎo)論-從產(chǎn)業(yè)結(jié)構(gòu)來(lái)探索大數(shù)據(jù)技術(shù)_第3頁(yè)
大數(shù)據(jù)導(dǎo)論-從產(chǎn)業(yè)結(jié)構(gòu)來(lái)探索大數(shù)據(jù)技術(shù)_第4頁(yè)
大數(shù)據(jù)導(dǎo)論-從產(chǎn)業(yè)結(jié)構(gòu)來(lái)探索大數(shù)據(jù)技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩58頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

從產(chǎn)業(yè)結(jié)構(gòu)來(lái)探索大數(shù)據(jù)技術(shù)第三章LOGO目錄三.一大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)示意圖概述零一三.二大數(shù)據(jù)地解決方案零二三.三大數(shù)據(jù)采集技術(shù)零三三.四大數(shù)據(jù)預(yù)處理技術(shù)零四零五三.五大數(shù)據(jù)可視化技術(shù)產(chǎn)業(yè)結(jié)構(gòu)概述產(chǎn)業(yè)結(jié)構(gòu)(IndustrialStructure)是指農(nóng)業(yè),工業(yè)與服務(wù)業(yè)在一經(jīng)濟(jì)結(jié)構(gòu)所占地比重。近年來(lái),隨著互聯(lián)網(wǎng),云計(jì)算,物聯(lián)網(wǎng)等信息技術(shù)地步,在工業(yè)化與信息化快速發(fā)展地背景下,大數(shù)據(jù)產(chǎn)業(yè)欣欣向榮。大數(shù)據(jù)地快速發(fā)展是產(chǎn)業(yè)結(jié)構(gòu)轉(zhuǎn)型升級(jí)地重要推動(dòng)力。之后主要介紹三方面內(nèi)容:①?gòu)漠a(chǎn)業(yè)結(jié)構(gòu)探索大數(shù)據(jù)技術(shù)地產(chǎn)生,發(fā)展以及處理地基本流程;②介紹大數(shù)據(jù)采集技術(shù)及大數(shù)據(jù)預(yù)處理技術(shù);③介紹大數(shù)據(jù)可視化技術(shù)及其分類。當(dāng)前以微電子,大數(shù)據(jù),信息產(chǎn)品制造業(yè)為代表地技術(shù)密集型產(chǎn)業(yè)正迅猛發(fā)展,成為帶動(dòng)發(fā)達(dá)家經(jīng)濟(jì)增長(zhǎng)地主導(dǎo)產(chǎn)業(yè)。因此可以說(shuō),技術(shù)密集型產(chǎn)業(yè)地發(fā)展水決定一個(gè)家地競(jìng)爭(zhēng)力與經(jīng)濟(jì)增長(zhǎng)地前景。技術(shù)創(chuàng)新與技術(shù)結(jié)構(gòu)變動(dòng)是產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化地決定因素。從產(chǎn)業(yè)角度看,大數(shù)據(jù)產(chǎn)業(yè)指以數(shù)據(jù)生產(chǎn),采集,存儲(chǔ),加工,分析,服務(wù)為主地有關(guān)經(jīng)濟(jì)活動(dòng),包括數(shù)據(jù)資源建設(shè),數(shù)據(jù)軟硬件產(chǎn)品地開(kāi)發(fā),銷(xiāo)售與租賃活動(dòng),以及有關(guān)信息技術(shù)服務(wù)。大數(shù)據(jù)融入產(chǎn)業(yè)結(jié)構(gòu)圖主要可以分為三大類如左圖所示三.一大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)示意圖概述大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)所需地技術(shù)支持我們從硬件,基礎(chǔ)軟件,應(yīng)用軟件,信息服務(wù)與數(shù)據(jù)生成,數(shù)據(jù)存儲(chǔ),數(shù)據(jù)處理,數(shù)據(jù)應(yīng)用兩條路線,四個(gè)維度來(lái)劃分大數(shù)據(jù)產(chǎn)業(yè)結(jié)構(gòu)所需地技術(shù)支持,其涉及一一個(gè)大類主要地產(chǎn)品與服務(wù),如圖所示。其,基礎(chǔ)軟件(數(shù)據(jù)庫(kù)軟件與分布式文件系統(tǒng)),應(yīng)用軟件是大數(shù)據(jù)產(chǎn)業(yè)價(jià)值轉(zhuǎn)化變現(xiàn)地最關(guān)鍵部分,其它七種在某種意義上是在原有基礎(chǔ)上持續(xù)更新并與大數(shù)據(jù)發(fā)展配套地過(guò)程。對(duì)大數(shù)據(jù)地處理主要包括:數(shù)據(jù)生成(也稱為數(shù)據(jù)采集,數(shù)據(jù)獲?。?數(shù)據(jù)存儲(chǔ),數(shù)據(jù)處理與數(shù)據(jù)應(yīng)用(也稱為數(shù)據(jù)分析與挖掘)。硬件支持軟件支持采集設(shè)備,存儲(chǔ)設(shè)備與服務(wù)器等支持;數(shù)據(jù)庫(kù)軟件,分布式文件系統(tǒng),智能搜索軟件,采集軟件,分析軟件,監(jiān)測(cè)軟件等各類軟件技術(shù)支持;信息服務(wù)有系統(tǒng)集成,IT基礎(chǔ)設(shè)施服務(wù),咨詢服務(wù)等,并且要保證信息安全;三.二大數(shù)據(jù)地解決方案大數(shù)據(jù)如此重要,以至于其采集,儲(chǔ)存,搜索,享,分析,乃至可視化呈現(xiàn),都成為了當(dāng)前重要地研究課題。技術(shù)是大數(shù)據(jù)價(jià)值體現(xiàn)地手段與前地基石。下面從大數(shù)據(jù)數(shù)據(jù)源地產(chǎn)生與處理,以及大數(shù)據(jù)處理地基本流程來(lái)討論大數(shù)據(jù)地解決方案。數(shù)據(jù)產(chǎn)生方式地改變一.運(yùn)營(yíng)式系統(tǒng)階段二.用戶原創(chuàng)內(nèi)容階段三.感知式系統(tǒng)階段運(yùn)營(yíng)式系統(tǒng)階段地代表是數(shù)據(jù)庫(kù)地出現(xiàn),使得數(shù)據(jù)管理地復(fù)雜度大大降低。在實(shí)際使用,數(shù)據(jù)庫(kù)大多為運(yùn)營(yíng)系統(tǒng)所采用,如銀行地易記錄系統(tǒng)等。這個(gè)階段地最主要特點(diǎn)是數(shù)據(jù)地產(chǎn)生往往伴隨著一定地運(yùn)營(yíng)活動(dòng),而且數(shù)據(jù)是記錄在數(shù)據(jù)庫(kù)地,這種數(shù)據(jù)地產(chǎn)生方式是被動(dòng)地。用戶原創(chuàng)內(nèi)容階段地代表是Web二.零地產(chǎn)生,Web二.零地最重要標(biāo)志就是用戶原創(chuàng)內(nèi)容。Web二.零地誕生促使類社會(huì)數(shù)據(jù)量出現(xiàn)第二次大地飛躍,這個(gè)階段地?cái)?shù)據(jù)產(chǎn)生方式是主動(dòng)地。感知式系統(tǒng)階段地代表是物聯(lián)網(wǎng)。隨著技術(shù)地發(fā)展,們已經(jīng)有能力制造極其微小地帶有處理功能地傳感器,并開(kāi)始將這些設(shè)備廣泛地布置于社會(huì)地各個(gè)角落,通過(guò)這些設(shè)備來(lái)對(duì)整個(gè)社會(huì)地運(yùn)轉(zhuǎn)行監(jiān)控。這些設(shè)備會(huì)源源不斷地產(chǎn)生新數(shù)據(jù),這種數(shù)據(jù)地產(chǎn)生方式是自動(dòng)地。類社會(huì)數(shù)據(jù)量第三次大地飛躍最終導(dǎo)致了大數(shù)據(jù)地產(chǎn)生,這次飛躍地根本原因在于感知式系統(tǒng)地廣泛使用。數(shù)據(jù)采集方式地改變一.傳統(tǒng)地?cái)?shù)據(jù)采集二.大數(shù)據(jù)時(shí)代數(shù)據(jù)采集來(lái)源單一,且存儲(chǔ),管理與分析地?cái)?shù)據(jù)量也相對(duì)較小,大多采用關(guān)系型數(shù)據(jù)庫(kù)與并行數(shù)據(jù)倉(cāng)庫(kù)即可處理。對(duì)依靠并行計(jì)算提升數(shù)據(jù)處理速度方面而言,傳統(tǒng)地并行數(shù)據(jù)庫(kù)技術(shù)追求高度地一致與容錯(cuò),難以保證其可用與擴(kuò)展,并且以往行數(shù)據(jù)采集時(shí)地采樣密度較低,獲得地采樣數(shù)據(jù)有限。有了大數(shù)據(jù)處理臺(tái)地支撐,可以對(duì)需要分析地地?cái)?shù)據(jù)行更加密集地采樣,從而精確地獲取地全局?jǐn)?shù)據(jù)。數(shù)據(jù)地采集方式由以往地被動(dòng)采集數(shù)據(jù)轉(zhuǎn)變?yōu)橹鲃?dòng)生成數(shù)據(jù)。在大數(shù)據(jù)地采集過(guò)程,其主要特點(diǎn)與挑戰(zhàn)是并發(fā)數(shù)高,因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬(wàn)地用戶來(lái)行訪問(wèn)與操作。大數(shù)據(jù)處理地基本流程及相應(yīng)技術(shù)支持大數(shù)據(jù)地處理流程可以定義為在適合工具地輔助下,對(duì)廣泛異構(gòu)地?cái)?shù)據(jù)源行抽取與集成,結(jié)果按照一定地標(biāo)準(zhǔn)統(tǒng)一存儲(chǔ),利用合適地?cái)?shù)據(jù)分析技術(shù)對(duì)存儲(chǔ)地?cái)?shù)據(jù)行分析,從提取有益地知識(shí)并利用恰當(dāng)?shù)胤绞綄⒔Y(jié)果展示給終端用戶。大數(shù)據(jù)地處理步驟分為:①獲取源數(shù)據(jù);②行數(shù)據(jù)清洗;③數(shù)據(jù)分析;④數(shù)據(jù)解釋;⑤將數(shù)據(jù)分析與解釋地結(jié)果呈現(xiàn)給用戶。(一)數(shù)據(jù)抽取與集成一.基于物化或ETL(Extract-Transform-Load)方法地引擎。二.基于聯(lián)邦數(shù)據(jù)庫(kù)或間件方法地引擎由于大數(shù)據(jù)處理地?cái)?shù)據(jù)來(lái)源類型豐富,大數(shù)據(jù)處理地第一步就是對(duì)數(shù)據(jù)行清洗,從提取出關(guān)系與實(shí)體,經(jīng)過(guò)關(guān)聯(lián)與聚合等操作,按照統(tǒng)一定義地格式對(duì)數(shù)據(jù)行存儲(chǔ),即實(shí)現(xiàn)大數(shù)據(jù)預(yù)處理。方法有以下四種ETL是利用某種裝置(如攝像頭,麥克風(fēng)),從系統(tǒng)外部采集數(shù)據(jù)并輸入到系統(tǒng)內(nèi)部地一個(gè)接口。三.基于數(shù)據(jù)流方法地引擎聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)是一個(gè)彼此協(xié)作卻又相互獨(dú)立地單元數(shù)據(jù)庫(kù)集合。聯(lián)邦數(shù)據(jù)庫(kù)技術(shù)就是為了實(shí)現(xiàn)對(duì)相互獨(dú)立運(yùn)行地多個(gè)數(shù)據(jù)庫(kù)行互操作,從而行數(shù)據(jù)抽取與集成。數(shù)據(jù)流引擎可以在數(shù)據(jù)到達(dá)時(shí)處理數(shù)據(jù),從而過(guò)濾掉不需要地?cái)?shù)據(jù),或者在將結(jié)果數(shù)據(jù)發(fā)送到最終目地地之前改變傳入地?cái)?shù)據(jù)。四.基于搜索引擎地方法搜索引擎將網(wǎng)頁(yè)大量抓取下來(lái),通過(guò)分析器解析,將有價(jià)值地?cái)?shù)據(jù)入庫(kù),檢索器(索引器)對(duì)有效地內(nèi)數(shù)據(jù)建立檢索。(二)數(shù)據(jù)分析數(shù)據(jù)分析是大數(shù)據(jù)處理流程地核心步驟,通過(guò)數(shù)據(jù)抽取與集成環(huán)節(jié),已經(jīng)從異構(gòu)地?cái)?shù)據(jù)源獲得了用于大數(shù)據(jù)處理地原始數(shù)據(jù),用戶可以根據(jù)自己地需求對(duì)這些數(shù)據(jù)行分析處理,如數(shù)據(jù)挖掘,機(jī)器學(xué),數(shù)據(jù)統(tǒng)計(jì)等,數(shù)據(jù)分析可以用于決策支持,商業(yè)智能,推薦系統(tǒng),預(yù)測(cè)系統(tǒng)等。目前采集到地大數(shù)據(jù)八五%以上是非結(jié)構(gòu)化與半結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)地關(guān)系數(shù)據(jù)庫(kù)無(wú)法勝任這些數(shù)據(jù)地處理。如何高效處理非結(jié)構(gòu)化與半結(jié)構(gòu)化數(shù)據(jù),是大數(shù)據(jù)計(jì)算技術(shù)地核心要點(diǎn)。如何能夠在不同地?cái)?shù)據(jù)類型,行叉計(jì)算,是大數(shù)據(jù)計(jì)算技術(shù)要解決地另一核心問(wèn)題。大數(shù)據(jù)計(jì)算技術(shù)可分為批處理計(jì)算與流處理計(jì)算,批處理計(jì)算主要操作大容量,靜態(tài)地?cái)?shù)據(jù)集,并在計(jì)算過(guò)程完成后返回結(jié)果,適用于需要計(jì)算全部數(shù)據(jù)后才能完成地計(jì)算工作;流處理計(jì)算會(huì)對(duì)隨時(shí)入地?cái)?shù)據(jù)行計(jì)算,流處理計(jì)算無(wú)需對(duì)整個(gè)數(shù)據(jù)集執(zhí)行操作,而是對(duì)通過(guò)傳輸?shù)孛總€(gè)數(shù)據(jù)項(xiàng)執(zhí)行操作,處理結(jié)果立刻可用,并會(huì)隨著新數(shù)據(jù)地抵達(dá)繼續(xù)更新結(jié)果。(二)數(shù)據(jù)分析目前主要流行以下大數(shù)據(jù)分析技術(shù)Hive是Facebook團(tuán)隊(duì)開(kāi)發(fā)地一個(gè)可以支持PB級(jí)別地可伸縮地?cái)?shù)據(jù)倉(cāng)庫(kù)。這是一個(gè)建立在Hadoop之上地開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)解決方案。其使用類SQL(HiveQL)語(yǔ)言,底層經(jīng)過(guò)編譯轉(zhuǎn)為MapReduce程序,在Hadoop上運(yùn)行,最終將數(shù)據(jù)存儲(chǔ)在HDFS上。,用戶可以使用地HiveQL將自定義地MapReduce腳本插入到查詢。該語(yǔ)言支持基本數(shù)據(jù)類型,類似數(shù)組與Map地集合或者它們地嵌套組合。Hive簡(jiǎn)化了對(duì)于那些不熟悉HadoopMapReduce接口地用戶學(xué)門(mén)檻,Hive提供地一些HiveQL語(yǔ)句不只是可以行查詢操作,還可以對(duì)數(shù)據(jù)倉(cāng)庫(kù)地?cái)?shù)據(jù)行簡(jiǎn)要地分析與計(jì)算。同屬于Hadoop開(kāi)源生態(tài)系統(tǒng)地新成員ApacheSpark提供了一個(gè)比Hive更快地查詢引擎,因?yàn)樗蕾囉谧约旱財(cái)?shù)據(jù)處理框架而不是依靠Hadoop地HDFS服務(wù)。同時(shí),它還用于流處理,實(shí)時(shí)查詢與機(jī)器學(xué)等方面。這是一個(gè)ETL(Extract,Transform,andLoad)工具,可執(zhí)行數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)庫(kù)之間地?cái)?shù)據(jù)同步,提供基于EclipseRCP地圖形操作界面。Talend工具用于協(xié)助行數(shù)據(jù)質(zhì)量,數(shù)據(jù)集成與數(shù)據(jù)管理等方面工作。它是一個(gè)統(tǒng)一地臺(tái),通過(guò)提供一個(gè)統(tǒng)一地,跨企業(yè)邊界生命周期管理地環(huán)境,使數(shù)據(jù)管理與應(yīng)用更簡(jiǎn)單便捷。這種設(shè)計(jì)可以幫助企業(yè)構(gòu)建靈活,高能地企業(yè)架構(gòu),在此架構(gòu)下,集成并啟用百分之百開(kāi)源服務(wù)地分布式應(yīng)用程序變?yōu)榭赡?。(三)?shù)據(jù)解釋大數(shù)據(jù)處理流程用戶最關(guān)心地是數(shù)據(jù)處理地結(jié)果,計(jì)算結(jié)果地展現(xiàn)方式有標(biāo)簽云,關(guān)系圖等。正確地?cái)?shù)據(jù)處理結(jié)果只有通過(guò)合適地展示方式才能被終端用戶正確理解,因此數(shù)據(jù)處理結(jié)果地展示非常重要,可視化與機(jī)互是數(shù)據(jù)解釋地主要技術(shù)。標(biāo)簽云關(guān)系圖三.三大數(shù)據(jù)采集技術(shù)從上一節(jié)地學(xué)可以了解到大數(shù)據(jù)處理關(guān)鍵技術(shù)一般包括:大數(shù)據(jù)采集,大數(shù)據(jù)預(yù)處理,大數(shù)據(jù)存儲(chǔ)及管理,大數(shù)據(jù)分析與解釋,大數(shù)據(jù)展現(xiàn)與應(yīng)用等??梢钥吹?數(shù)據(jù)采集屬于數(shù)據(jù)分析生命周期地第一步,它通過(guò)傳感器數(shù)據(jù),社網(wǎng)絡(luò)數(shù)據(jù),移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)使用ETL,Flume等方式獲得各種類型地結(jié)構(gòu)化,半結(jié)構(gòu)化或者非結(jié)構(gòu)化地海量數(shù)據(jù)。那什么是大數(shù)據(jù)采集技術(shù),以及大數(shù)據(jù)采集有哪些方法呢?三.三.一大數(shù)據(jù)采集概述大數(shù)據(jù)采集技術(shù)是指對(duì)數(shù)據(jù)行ETL(Extract-Transform-Load)操作,即用戶從數(shù)據(jù)源抽取出所需地?cái)?shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗,最終按照預(yù)先定義好地?cái)?shù)據(jù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)地過(guò)程。數(shù)據(jù)從數(shù)據(jù)來(lái)源端經(jīng)過(guò)提?。‥xtract),轉(zhuǎn)換(Transform),加載(Load)到目地端,然后行處理分析,最終挖掘數(shù)據(jù)地潛在價(jià)值,提供給用戶解決方案或者決策參考。大數(shù)據(jù)地采集依靠多個(gè)數(shù)據(jù)庫(kù)接收來(lái)自客戶端(Web,APP或傳感器等)地?cái)?shù)據(jù),并且用戶可以通過(guò)這些數(shù)據(jù)庫(kù)來(lái)行簡(jiǎn)單地查詢與處理工作。如電商使用傳統(tǒng)地關(guān)系型數(shù)據(jù)庫(kù)MySQL與Oracle等來(lái)存儲(chǔ)每一筆事務(wù)數(shù)據(jù),除此之外,Redis與MongoDB這樣地NoSQL數(shù)據(jù)庫(kù)也常用于數(shù)據(jù)地采集。大數(shù)據(jù)采集技術(shù)系統(tǒng)分類一.日志采集系統(tǒng)收集日志數(shù)據(jù),供離線與在線地?cái)?shù)據(jù)分析使用。目前常用地開(kāi)源日志收集系統(tǒng)有Flume,Scribe等。二.網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)通過(guò)網(wǎng)絡(luò)爬蟲(chóng)與一些網(wǎng)站臺(tái)提供地公API(如Twitter與新浪微博API)等方式從網(wǎng)站上獲取數(shù)據(jù)。目前常用地網(wǎng)頁(yè)爬蟲(chóng)系統(tǒng)有ApacheNutch,Crawler四j,Scrapy等框架。三.數(shù)據(jù)庫(kù)采集系統(tǒng)一些企業(yè)使用傳統(tǒng)地關(guān)系型數(shù)據(jù)庫(kù)MySQL與Oracle等來(lái)存儲(chǔ)數(shù)據(jù)。除此之外,Redis與MongoDB這樣地NoSQL數(shù)據(jù)庫(kù)也常用于數(shù)據(jù)地采集。企業(yè)每時(shí)每刻都在產(chǎn)生業(yè)務(wù)數(shù)據(jù),而這些復(fù)雜地?cái)?shù)據(jù)按照關(guān)系結(jié)構(gòu)模型被歸結(jié)為二元關(guān)系(即二維表格形式)再寫(xiě)到數(shù)據(jù)庫(kù),通過(guò)對(duì)這些關(guān)系表格地分類,合并,連接或選取等操作來(lái)實(shí)現(xiàn)數(shù)據(jù)地管理,最后由特定地處理分析系統(tǒng)行系統(tǒng)分析。三.三.二日志采集系統(tǒng)——Flume每個(gè)公司地業(yè)務(wù)臺(tái)每天都會(huì)產(chǎn)生大量地日志數(shù)據(jù),通過(guò)對(duì)這些日志信息行日志采集,收集,然后行數(shù)據(jù)分析,挖掘公司業(yè)務(wù)臺(tái)日志數(shù)據(jù)地潛在價(jià)值。為公司決策與公司后臺(tái)服務(wù)器臺(tái)能評(píng)估提高可靠地?cái)?shù)據(jù)保證。Flume最早是Cloudera公司提供地實(shí)時(shí)日志采集系統(tǒng),目前是Apache地一個(gè)孵化項(xiàng)目。ApacheFlume是一個(gè)分布式,可靠,可用地服務(wù),用于高效地收集,聚合與移動(dòng)大量地日志數(shù)據(jù),它具有基于流式數(shù)據(jù)流地簡(jiǎn)單靈活地架構(gòu)。其可靠機(jī)制,完備地故障轉(zhuǎn)移與恢復(fù)機(jī)制使Flume具有強(qiáng)大地容錯(cuò)能力。Flume有日志收集與數(shù)據(jù)處理兩個(gè)功能,Flume支持日志系統(tǒng)定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù)。同時(shí)Flume提供對(duì)數(shù)據(jù)行簡(jiǎn)單處理,并寫(xiě)到各種數(shù)據(jù)接收方(可定制)地能力。Flume處理流程Flume地核心就是一個(gè)Agent(媒介),該Agent對(duì)外有兩個(gè)行互地地方,一個(gè)是接收數(shù)據(jù)地輸入Source(源頭結(jié)點(diǎn)),一個(gè)是數(shù)據(jù)地輸出Sink(匯聚結(jié)點(diǎn)),Sink負(fù)責(zé)將數(shù)據(jù)發(fā)送到外部指定地目地地,如圖Source接收到數(shù)據(jù)之后,將數(shù)據(jù)發(fā)送給Channel(存儲(chǔ)渠道或者存儲(chǔ)通道),Channel作為一個(gè)數(shù)據(jù)緩沖區(qū)會(huì)臨時(shí)存放這些數(shù)據(jù),隨后Sink會(huì)將Channel地?cái)?shù)據(jù)發(fā)送到指定地地方——外部存儲(chǔ)。注意:只有在Sink將Channel地?cái)?shù)據(jù)成功發(fā)送出去之后,Channel才會(huì)將臨時(shí)數(shù)據(jù)行刪除,這種機(jī)制保證了數(shù)據(jù)傳輸?shù)乜煽颗c安全。在整個(gè)數(shù)據(jù)地傳輸?shù)剡^(guò)程,流動(dòng)地是Event(),即事務(wù)保證是在Event級(jí)別行地。Event將傳輸?shù)財(cái)?shù)據(jù)行封裝,是Flume傳輸數(shù)據(jù)地基本單位。如果是文本文件,通常是一行記錄,Event也是事務(wù)地基本單位。Event從Source流向Channel,再到Sink,本身為一個(gè)字節(jié)數(shù)組,并可攜帶Headers(頭信息)信息。Event代表著一個(gè)數(shù)據(jù)地最小完整單元,從外部數(shù)據(jù)源來(lái),向外部目地地去。AgentFlume架構(gòu)Flume采用了三層架構(gòu),分別為Agent,Collector與Storage,其,如圖所示所有Agent與Collector由Master統(tǒng)一管理,這使得系統(tǒng)容易監(jiān)控與維護(hù),且Master允許有多個(gè)(使用ZooKeeper行管理與負(fù)載均衡),這就避免了單點(diǎn)故障問(wèn)題。從而具有以下幾個(gè)特①可靠,當(dāng)某一個(gè)節(jié)點(diǎn)出現(xiàn)故障時(shí),日志文件能夠被傳送到其它節(jié)點(diǎn)上而不會(huì)丟失。②可擴(kuò)展,Flume采用了三層架構(gòu),每一層均可以水?dāng)U展。③可管理,所有Agent與Collector由Master統(tǒng)一管理,這使得系統(tǒng)便于維護(hù)。多Master情況④功能地可擴(kuò)展,用戶可以根據(jù)需要添加自己地Agent,Collector或者Storage。三.三.三消息采集系統(tǒng)——KafkaKafka最初由Linkedin公司開(kāi)發(fā),是一個(gè)支持分區(qū)(partition),多副本(replica),基于ZooKeeper協(xié)調(diào)地分布式消息實(shí)時(shí)采集系統(tǒng)。Linkedin于二零一零年將Kafka貢獻(xiàn)給Apache軟件基金會(huì),并成為頂級(jí)開(kāi)源項(xiàng)目。Kafka用Scala與Java編寫(xiě)。Kafka是一種高吞吐量地分布式發(fā)布訂閱消息系統(tǒng),它可以處理消費(fèi)者在網(wǎng)站地所有動(dòng)作流數(shù)據(jù)。搜索,瀏覽網(wǎng)頁(yè)與其它地用戶行為是現(xiàn)代網(wǎng)絡(luò)上社會(huì)功能地一個(gè)關(guān)鍵因素。這些數(shù)據(jù)通常是由于吞吐量地要求而通過(guò)處理日志與日志聚合來(lái)解決。Kafka處理流程Kafka是消息間件地一種。消息間件是一種即時(shí)通訊地軟件,可以在不同臺(tái)之間通信,發(fā)送者將消息發(fā)送給消息服務(wù)器,消息服務(wù)器將消息存放在若干隊(duì)列,之后再轉(zhuǎn)發(fā)給接收者,從而起到一個(gè)間傳遞地作用。Kafka使用場(chǎng)景①日志收集一個(gè)公司可以用Kafka可以收集各種服務(wù)地log,通過(guò)Kafka以統(tǒng)一接口服務(wù)地方式開(kāi)放給各種Consumer,如Hadoop,HBase,Solr等。②消息系統(tǒng)③用戶活動(dòng)跟蹤④運(yùn)營(yíng)指標(biāo)⑤流式處理解耦與消息生產(chǎn)者與消息接收者,緩存消息等。Kafka經(jīng)常被用來(lái)記錄Web用戶或者APP用戶地各種活動(dòng),如瀏覽網(wǎng)頁(yè),搜索,點(diǎn)擊等活動(dòng),這些活動(dòng)信息被各個(gè)服務(wù)器發(fā)布到Kafka地Topic,然后訂閱者通過(guò)訂閱這些Topic來(lái)做實(shí)時(shí)地監(jiān)控分析,或者裝載到Hadoop,數(shù)據(jù)倉(cāng)庫(kù)做離線分析與挖掘。允許集群節(jié)點(diǎn)失敗,如果副本數(shù)量為n,那么允許n-一個(gè)節(jié)點(diǎn)失敗支持?jǐn)?shù)千個(gè)客戶端同時(shí)讀寫(xiě)。Kafka地最大地特點(diǎn)是可以實(shí)時(shí)處理大量數(shù)據(jù)以滿足各種需求場(chǎng)景,如基于Hadoop地批處理系統(tǒng),低延遲地實(shí)時(shí)系統(tǒng),Storm/Spark流式處理引擎,Web/Nginx日志,訪問(wèn)日志,消息服務(wù)等。允許集群節(jié)點(diǎn)失敗,如果副本數(shù)量為n,那么允許n-一個(gè)節(jié)點(diǎn)失敗。④容錯(cuò)支持?jǐn)?shù)千個(gè)客戶端同時(shí)讀寫(xiě)⑤高并發(fā)Kafka每秒可以處理幾十萬(wàn)條消息,它地延遲最低只有幾毫秒。①高吞吐量,低延遲消息被持久化到本地磁盤(pán),并且支持?jǐn)?shù)據(jù)備份防止數(shù)據(jù)丟失。③持久,可靠Kafka集群支持熱擴(kuò)展(在Kafka使用地時(shí)候行擴(kuò)展)②可擴(kuò)展KafkaKafka地特點(diǎn)三.三.四Scrapy網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)Scrapy是典型地網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)地應(yīng)用,是為爬取網(wǎng)站數(shù)據(jù),提取結(jié)構(gòu)數(shù)據(jù)而設(shè)計(jì)地爬蟲(chóng)開(kāi)發(fā)框架,用于抓取Web站點(diǎn)并從頁(yè)面提取結(jié)構(gòu)化地?cái)?shù)據(jù),屬于Python領(lǐng)域。Scrapy已經(jīng)實(shí)現(xiàn)爬蟲(chóng)程序地大部分通用工具,因此Scrapy開(kāi)發(fā)爬蟲(chóng)項(xiàng)目既簡(jiǎn)單又方便,任何都可以根據(jù)需求行修改,即可以很簡(jiǎn)單地通過(guò)Scrapy框架實(shí)現(xiàn)一個(gè)爬蟲(chóng),抓取指定網(wǎng)站地內(nèi)容或圖片,這樣就可以將非結(jié)構(gòu)化數(shù)據(jù)與半結(jié)構(gòu)化數(shù)據(jù)地網(wǎng)頁(yè)數(shù)據(jù)從網(wǎng)頁(yè)提取出來(lái)。并將其提取,清洗,轉(zhuǎn)換成結(jié)構(gòu)化地?cái)?shù)據(jù),將其存儲(chǔ)為統(tǒng)一地本地文件數(shù)據(jù)。Scrapy也提供了多種類型爬蟲(chóng)地基類,如BaseSpider,Sitemap爬蟲(chóng)等,最新版本提供了Web二.零爬蟲(chóng)支持。Scrapy常應(yīng)用于數(shù)據(jù)挖掘,信息處理或存儲(chǔ)歷史數(shù)據(jù)等一系列地程序,Scrapy也可以應(yīng)用于獲取API所返回地?cái)?shù)據(jù)(如AmazonAssociatesWebServices),數(shù)據(jù)監(jiān)測(cè)與自動(dòng)化測(cè)試。Scrapy網(wǎng)絡(luò)爬蟲(chóng)框架Scrapy引擎(ScrapyEngine)。ScrapyEngine組件相當(dāng)于爬蟲(chóng)地"大腦",是整個(gè)爬蟲(chóng)地調(diào)度心。ScrapyEngine負(fù)責(zé)控制數(shù)據(jù)流在Spiders,ItemPipeline,Downloader,Scheduler間地通訊,信號(hào),數(shù)據(jù)傳遞等,并在相應(yīng)動(dòng)作發(fā)生時(shí)觸發(fā)。調(diào)度器(Scheduler)。負(fù)責(zé)接收ScrapyEngine發(fā)送過(guò)來(lái)地Request請(qǐng)求,并按照一定地方式行整理排列,入隊(duì)下載器(Downloader)。負(fù)責(zé)下載ScrapyEngine發(fā)送地所有Requests請(qǐng)求,并將其獲取到地Responses還給ScrapyEngine,由引擎給Spiders來(lái)處理。爬蟲(chóng)(Spiders)。是Scrapy用戶編寫(xiě)地,用于分析Responses,從分析提取數(shù)據(jù)提取Item字段需要地?cái)?shù)據(jù),并將需要跟地URL提給ScrapyEngine,再次入Scheduler。每個(gè)Spider負(fù)責(zé)處理一個(gè)特定(或一些)網(wǎng)站。Item管道(ItemPipeline)。負(fù)責(zé)處理Spiders獲取到地Items,并行行后期處理,典型地處理有清理,驗(yàn)證及持久化(如存取到數(shù)據(jù)庫(kù))。下載器間件(DownloaderMiddlewares)。是一個(gè)可以自定義擴(kuò)展下載功能地組件,是ScrapyEngine及Downloader之間地特定鉤子(specifichook),處理Downloader傳遞給引擎地Responses。其提供了一個(gè)簡(jiǎn)便地機(jī)制,通過(guò)插入自定義代碼來(lái)擴(kuò)展Scrapy功能。通過(guò)設(shè)置下載器間件可以實(shí)現(xiàn)爬蟲(chóng)自動(dòng)更換user-Agent,IP等功能。Spider間件(SpiderMiddlewares)。是一個(gè)可以自定義擴(kuò)展,操作引擎與Spider間通信地功能組件,是ScrapyEngine及Spider之間地特定鉤子,處理Spiders地輸入(Responses)與輸出(Items及Requests)。SpiderMiddlewares提供了一個(gè)簡(jiǎn)單地機(jī)制,通過(guò)插入自定義代碼來(lái)擴(kuò)展Scrapy功能。Scrapy工作流程下面從數(shù)據(jù)流(Dataflow)思路描述Scrapy工作流程。(一)引擎打開(kāi)一個(gè)網(wǎng)站(openadomain),找到處理該網(wǎng)站地Spider并向該Spider請(qǐng)求第一個(gè)要爬取地URL(s)。(二)引擎從Spiders獲取到第一個(gè)要爬取地URL并在Scheduler以Request調(diào)度;引擎向調(diào)度器請(qǐng)求下一個(gè)要爬取地URL。(三)調(diào)度器返回下一個(gè)要爬取地URL給引擎,引擎將URL通過(guò)下載間件(請(qǐng)求(Requests)方向)轉(zhuǎn)發(fā)給下載器(Downloader)。(四)一旦頁(yè)面下載完畢,下載器生成一個(gè)該頁(yè)面地Response,并將其通過(guò)下載間件(返回(Response)方向)發(fā)送給引擎。(五)引擎從下載器接收到Response并通過(guò)Spider間件(輸入方向)發(fā)送給Spiders處理。Spiders處理Response并返回爬取到地Item及跟地,新地Request給引擎。(六)引擎將爬取到地Item(Spiders返回地)給ItemPipeline,將Request(Spiders返回地)給調(diào)度器。以上從第二步重復(fù)直到調(diào)度器沒(méi)有更多地Request,最后引擎關(guān)閉該網(wǎng)站。三.四大數(shù)據(jù)預(yù)處理技術(shù)大數(shù)據(jù)時(shí)代對(duì)于數(shù)據(jù)地精度與有效要求更為苛刻,因此數(shù)據(jù)地預(yù)處理過(guò)程必不可少,只有科學(xué)規(guī)范地預(yù)處理過(guò)程,才能使數(shù)據(jù)分析深層挖掘地結(jié)論更為合理可靠。下面對(duì)幾種常見(jiàn)地?cái)?shù)據(jù)預(yù)處理方法行著重分析,闡明其預(yù)處理地基本方法與必要,從而為數(shù)據(jù)地深層次挖掘提供更科學(xué)可行地?cái)?shù)據(jù)信息。大數(shù)據(jù)預(yù)處理過(guò)程①數(shù)據(jù)地分類與預(yù)處理②數(shù)據(jù)清洗③數(shù)據(jù)地集成④數(shù)據(jù)歸約⑤數(shù)據(jù)變換⑥數(shù)據(jù)地離散化處理三.四.一數(shù)據(jù)預(yù)處理一.重復(fù)數(shù)據(jù)地預(yù)處理二.噪聲數(shù)據(jù)預(yù)處理三.不完整數(shù)據(jù)預(yù)處理重復(fù)數(shù)據(jù)即指多次出現(xiàn)地?cái)?shù)據(jù),對(duì)于整體樣本所占權(quán)重比其它數(shù)據(jù)大,更容易產(chǎn)生結(jié)果地傾向,因此對(duì)于重復(fù)數(shù)據(jù)常用地方式是剔除,或者按比例降低其權(quán)重,行數(shù)據(jù)地重新布局形成概率分布。對(duì)于一般數(shù)量可控地重復(fù)數(shù)據(jù),通常采用地方式為簡(jiǎn)單地比較算法剔除。對(duì)于重復(fù)地可控?cái)?shù)據(jù)而言,一般通過(guò)代碼實(shí)現(xiàn)對(duì)信息匹配比較,而確定剔除不需要地?cái)?shù)據(jù)。噪聲數(shù)據(jù)(NoisyData)是無(wú)意義地?cái)?shù)據(jù),這個(gè)詞通常作為損壞數(shù)據(jù)地同義詞使用。但是,現(xiàn)階段地意義已經(jīng)擴(kuò)展到包含所有難以被機(jī)器正確理解與翻譯地?cái)?shù)據(jù),如非結(jié)構(gòu)化文本。任何不可被源程序讀取與運(yùn)用地?cái)?shù)據(jù),不管是已經(jīng)接收,存貯地還是改變地,都被稱為噪聲數(shù)據(jù)。缺失數(shù)據(jù)即數(shù)據(jù)不完整,存在信息丟失,而無(wú)法完成有關(guān)地匹配與計(jì)算地?cái)?shù)據(jù),如信息統(tǒng)計(jì)地年齡與別丟失地情況。缺失數(shù)據(jù)地處理主要有四種方式:均值補(bǔ)差,利用同類均值補(bǔ)差,極大似然估計(jì),多重補(bǔ)差。三.四.二數(shù)據(jù)清洗數(shù)據(jù)清洗是對(duì)"臟數(shù)據(jù)"行分類,回歸等方法行處理,使采用地?cái)?shù)據(jù)更為合理。數(shù)據(jù)清洗是將重復(fù),多余地?cái)?shù)據(jù)篩選清除,將缺失地?cái)?shù)據(jù)補(bǔ)充完整,將錯(cuò)誤地?cái)?shù)據(jù)糾正或者刪除,最后整理成為可以一步加工,使用地?cái)?shù)據(jù)。數(shù)據(jù)清洗地方法有:①缺省(失)值處理;②噪聲數(shù)據(jù)與離群點(diǎn)處理;③分箱;④回歸。下面依次介紹這幾種方法。(一)缺失值地處理缺失值是指粗糙數(shù)據(jù)由于缺少信息而造成數(shù)據(jù)在聚類與分組時(shí)出現(xiàn)刪失或截?cái)嗟厍闆r。它指地是現(xiàn)有數(shù)據(jù)集某個(gè)或某些屬地值是不完全地。缺失值處理主要采用以下五種方法:①忽略元組:若有多個(gè)屬值缺失或者該元組剩余屬值使用價(jià)值較小時(shí),應(yīng)選擇放棄。②工填寫(xiě):該方法費(fèi)時(shí),數(shù)據(jù)龐大時(shí)行不通。③全局常量填充:方法簡(jiǎn)單,但有可能會(huì)沒(méi)有任何挖掘價(jià)值。④屬心度量填充:對(duì)于正常地?cái)?shù)據(jù)分布而言可以使用均值,而傾斜數(shù)據(jù)分布應(yīng)使用位數(shù)。⑤最可能地值填充:使用回歸,基于推理地工具或者決策樹(shù)歸納確定。(二)噪聲數(shù)據(jù)與離群點(diǎn)噪聲是指被測(cè)量地變量地隨機(jī)誤差或者方差(一般指錯(cuò)誤地?cái)?shù)據(jù))。離群點(diǎn)是指數(shù)據(jù)集包含一些數(shù)據(jù)對(duì)象,它們與數(shù)據(jù)地一般行為或模型不一致。即離群點(diǎn)是正常值,但偏離大多數(shù)數(shù)據(jù)??梢詫⑦@些不需要地?cái)?shù)據(jù)剔除出去,以達(dá)到數(shù)據(jù)清洗地目地。圖顯示是系統(tǒng)用戶年齡分析圖。其,-五-零歲是噪聲,八五-九零歲是離群點(diǎn)。(三)分箱通過(guò)考察數(shù)據(jù)周?chē)刂祦?lái)光滑有序數(shù)據(jù)值,這些有序地值被分布到一些"桶"或箱,由于分箱方法只是考慮近鄰地值,因此是局部光滑。圖顯示地是將考察數(shù)據(jù)分為三個(gè)箱,分別依照箱各個(gè)數(shù)據(jù)地均值滑(箱每一個(gè)值被箱地均值替換),邊界滑(箱地最大與最小值同樣被視為邊界。箱地每一個(gè)值被最近地邊界值替換),位數(shù)滑(箱每一個(gè)值被箱地位數(shù)替換)地條件來(lái)產(chǎn)生地三種分法。分箱地方法有如下兩種:①等寬分箱:每個(gè)"桶"地區(qū)間寬度相同,例如群依照年齡段劃分;②等深分箱:每個(gè)"桶"地樣本個(gè)數(shù)相同,例如圖每個(gè)箱都是同樣地樣本個(gè)數(shù)。箱邊界滑箱均值滑箱位數(shù)滑(四)回歸回歸是用一個(gè)函數(shù)擬合數(shù)據(jù)來(lái)光滑數(shù)據(jù)。線回歸找出擬合兩個(gè)屬(變量)地最佳直線;多元線回歸涉及多個(gè)屬,將數(shù)據(jù)擬合到多維曲面。如圖顯示地是對(duì)數(shù)據(jù)行線回歸擬合圖。從圖可以看出,上網(wǎng)時(shí)長(zhǎng)與時(shí)間地關(guān)系,將不光滑地原折線線擬合到光滑地線上,這就是回歸方法。三.四.三數(shù)據(jù)集成數(shù)據(jù)集成是把不同來(lái)源,格式,特點(diǎn)質(zhì)地?cái)?shù)據(jù)源在邏輯上或物理上有機(jī)地集成,從而為企業(yè)提供全面地?cái)?shù)據(jù)享。數(shù)據(jù)地集成,歸約與變換是對(duì)數(shù)據(jù)行更深層次地提取,從而使采用樣本變?yōu)楦咛卣髂艿貥颖緮?shù)據(jù)。

數(shù)據(jù)集成之有關(guān)分析數(shù)據(jù)集成時(shí),模式集成與對(duì)象匹配非常重要,如何將來(lái)自于多個(gè)信息源地等價(jià)實(shí)體行匹配,即實(shí)體識(shí)別問(wèn)題至關(guān)重要。在行數(shù)據(jù)集成時(shí),同一數(shù)據(jù)在系統(tǒng)多次重復(fù)出現(xiàn),需要消除數(shù)據(jù)冗余,針對(duì)不同特征或數(shù)據(jù)間地關(guān)系行有關(guān)分析。有關(guān)分析用皮爾遜有關(guān)系數(shù)度量,用于度量?jī)蓚€(gè)變量X與Y之間地有關(guān)(線有關(guān)),其值介于一與-一之間。圖是有關(guān)度-一到一地散布圖??梢钥闯?當(dāng)有關(guān)度越靠近-一或者一時(shí),它們地有關(guān)度越來(lái)越大;當(dāng)有關(guān)度越靠近零,這組數(shù)據(jù)越趨近于沒(méi)有有關(guān)。有關(guān)低(有關(guān)度靠近零)有關(guān)度高(有關(guān)度靠近一)三.四.四數(shù)據(jù)歸約數(shù)據(jù)歸約地目地是得到數(shù)據(jù)集地簡(jiǎn)化表示,它比原數(shù)據(jù)小得多,但仍接近保持原數(shù)據(jù)地完整。常見(jiàn)地?cái)?shù)據(jù)歸約地方法有數(shù)據(jù)立方體聚集,維歸約,數(shù)據(jù)壓縮,數(shù)值歸約以及數(shù)據(jù)離散化與概念分層等。(一)數(shù)據(jù)立方體聚集數(shù)據(jù)立方體聚集主要是用于構(gòu)造數(shù)據(jù)立方體,數(shù)據(jù)立方體存儲(chǔ)多維聚集信息。每個(gè)單元存放一個(gè)聚集值,對(duì)應(yīng)于多維空間地一個(gè)數(shù)據(jù)點(diǎn),每個(gè)屬可能存在概念分層,允許在多個(gè)抽象層行數(shù)據(jù)分析。數(shù)據(jù)立方體提供對(duì)預(yù)計(jì)算地匯總數(shù)據(jù)行快速訪問(wèn),因此,適合聯(lián)機(jī)數(shù)據(jù)分析處理與數(shù)據(jù)挖掘。圖顯示地是一個(gè)商品地類型與年份以及商品地分布擬合到一個(gè)長(zhǎng)方體,從而構(gòu)建多維地聚集信息。(二)維歸約用于分析地?cái)?shù)據(jù)集可能包含數(shù)以百計(jì)地屬,其大部分屬與挖掘任務(wù)不有關(guān)或者冗余,如分析銀行客戶地信用度時(shí),諸如客戶地電話號(hào)碼,家庭住址等屬就與該數(shù)據(jù)挖掘任務(wù)不有關(guān),或者說(shuō)是冗余地。維歸約通過(guò)減少不有關(guān)地隨機(jī)變量或?qū)俚貍€(gè)數(shù),或把原數(shù)據(jù)變換或投影到更小地空間。減少不有關(guān)屬地方法有以下四種類型,①逐步向前選擇,該過(guò)程由空屬集作為歸約集開(kāi)始,確定原屬集最好地屬,并將它添加到歸約集。在其后地每一次迭代步,將剩下地原屬集最好地屬添加到該集合。②逐步向后刪除:該過(guò)程由整個(gè)屬集開(kāi)始。在每一步,刪除尚在屬集最差地屬。③向前選擇與向后刪除地結(jié)合:可以將逐步向前選擇與向后刪除方法結(jié)合在一起,每一步選擇一個(gè)最好地屬,并在剩余屬刪除一個(gè)最差地屬。④決策樹(shù)歸納:決策樹(shù)算法最初是用于分類地,這里是將數(shù)據(jù)集地各種屬之間地邏輯結(jié)構(gòu)繪成一張圖,再根據(jù)決策樹(shù)算法分析計(jì)算,將不有關(guān)屬剔除。

(三)數(shù)據(jù)壓縮數(shù)據(jù)壓縮就是使用數(shù)據(jù)編碼或變換以便將原始數(shù)據(jù)集合壓縮成一個(gè)較小地?cái)?shù)據(jù)集合。包含無(wú)損壓縮與有損壓縮。其,有損壓縮只能近似重構(gòu)原數(shù)據(jù),但是一般有損壓縮比無(wú)損壓縮壓縮比高。(五)數(shù)據(jù)離散化與概念分層通過(guò)將屬域劃分為區(qū)間,離散化技術(shù)可以用來(lái)減少給定連續(xù)屬值地個(gè)數(shù)。區(qū)間地標(biāo)號(hào)可以替代實(shí)際地?cái)?shù)據(jù)值。如果使用基于判定樹(shù)地分類挖掘方法,減少屬值地?cái)?shù)量特別有好處。通常,這種方法是遞歸地,大量地時(shí)間花在每一步地?cái)?shù)據(jù)排序上。因此,待排序地不同值越少,這種方法就應(yīng)當(dāng)越快。許多離散化技術(shù)都可以使用,以便提供屬值地分層或多維劃分——概念分層。(四)數(shù)值歸約數(shù)值歸約通過(guò)選擇較小地?cái)?shù)據(jù)表示形式替換原數(shù)據(jù),來(lái)減少數(shù)據(jù)量。數(shù)值規(guī)約包括有參數(shù)方法與無(wú)參數(shù)方法。有參數(shù)方法是指使用一個(gè)模型來(lái)評(píng)估數(shù)據(jù),只需存放參數(shù),而不需要存放實(shí)際數(shù)據(jù),如回歸。無(wú)參數(shù)方法是指需要存放實(shí)際地?cái)?shù)據(jù)。

三.五大數(shù)據(jù)可視化技術(shù)伴隨著大數(shù)據(jù)時(shí)代地到來(lái),數(shù)據(jù)可視化要根據(jù)數(shù)據(jù)地特,如時(shí)間信息與空間信息等,找到合適地可視化方式,例如圖表(Chart),圖(Diagram)與地圖(Map)等,將數(shù)據(jù)直觀地展現(xiàn)出來(lái),以幫助們理解數(shù)據(jù),同時(shí)找出包含在海量數(shù)據(jù)地規(guī)律或者信息。數(shù)據(jù)可視化是大數(shù)據(jù)生命周期管理地最后一步,也是最重要地一步。下面從數(shù)據(jù)可視化研究概述,定義,常用地?cái)?shù)據(jù)可視化工具及數(shù)據(jù)可視化地分類路線來(lái)介紹數(shù)據(jù)可視化。三.五.一什么是數(shù)據(jù)可視化數(shù)據(jù)可視化是指將大型數(shù)據(jù)集地?cái)?shù)據(jù)以圖形圖像形式表示,并利用數(shù)據(jù)分析與開(kāi)發(fā)工具發(fā)現(xiàn)其未知信息地處理過(guò)程??梢暬褦?shù)據(jù)轉(zhuǎn)換成圖形,給予們深刻與意想不到地洞察力,在很多領(lǐng)域使科學(xué)家地研究方式發(fā)生了根本變化??梢暬夹g(shù)地應(yīng)用大至高速飛行模擬,小至分子結(jié)構(gòu)地演示,無(wú)處不在。在互聯(lián)網(wǎng)時(shí)代,可視化與網(wǎng)絡(luò)技術(shù)結(jié)合使遠(yuǎn)程可視化服務(wù)成為現(xiàn)實(shí),可視區(qū)域網(wǎng)絡(luò)因此應(yīng)運(yùn)而生。它是SGI公司在二零零二年三月提出地新理念。它地核心技術(shù)是可視化服務(wù)器硬件與軟件。如圖展示地是將網(wǎng)絡(luò)詐騙數(shù)據(jù)用圖標(biāo)地形式展現(xiàn)出來(lái),可視化地形式可以使得用戶更容易接受與理解。大數(shù)據(jù)可視化是行各種大數(shù)據(jù)分析解決地最重要組成部分之一。一旦原始數(shù)據(jù)流被以圖像形式表示時(shí),以此做決策就變得容易多了。三.五.二數(shù)據(jù)可視化分類一維數(shù)據(jù)二維數(shù)據(jù)三維數(shù)據(jù)高維數(shù)據(jù)時(shí)間序列數(shù)據(jù)層次數(shù)據(jù)網(wǎng)絡(luò)數(shù)據(jù)當(dāng)前可視化地研究熱點(diǎn)。(一)高維數(shù)據(jù)高維數(shù)據(jù)是指每一個(gè)樣本數(shù)據(jù)包含p(p≥四)維空間特征。類對(duì)于數(shù)據(jù)地理解主要集在低維度地空間表示上,如果單從高維數(shù)據(jù)地抽象數(shù)據(jù)值上行分析很難得到有用地信息。將高維數(shù)據(jù)信息映射到二三維空間上,方便高維數(shù)據(jù)行與數(shù)據(jù)地互,有助于對(duì)數(shù)據(jù)行聚類以及分類。高維數(shù)據(jù)可視化地研究主要包含數(shù)據(jù)變化,數(shù)據(jù)呈現(xiàn)兩個(gè)方面。(二)層次數(shù)據(jù)層次數(shù)據(jù)具有等級(jí)或?qū)蛹?jí)關(guān)系。層次數(shù)據(jù)地可視化方法主要包括節(jié)點(diǎn)鏈接圖與樹(shù)圖兩種方式。其,樹(shù)圖(Treemap)由一系列地嵌套環(huán),塊來(lái)展示層次數(shù)據(jù)。(三)網(wǎng)絡(luò)數(shù)據(jù)網(wǎng)絡(luò)數(shù)據(jù)表現(xiàn)為更加自由,更加復(fù)雜地關(guān)系網(wǎng)絡(luò)。分析網(wǎng)絡(luò)數(shù)據(jù)地核心是挖掘關(guān)系網(wǎng)絡(luò)地重要結(jié)構(gòu)質(zhì),如節(jié)點(diǎn)相似,關(guān)系傳遞,網(wǎng)絡(luò)心等,網(wǎng)絡(luò)數(shù)據(jù)可視化方法應(yīng)清晰表達(dá)個(gè)體間關(guān)系以及個(gè)體地聚類關(guān)系。主要布局策略包含結(jié)點(diǎn)鏈接法與相鄰矩陣法。(四)時(shí)間序列數(shù)據(jù)時(shí)間序列數(shù)據(jù)是指具有時(shí)間屬地?cái)?shù)據(jù)集,針對(duì)時(shí)間序列數(shù)據(jù)地可視化方法包含:線形圖,動(dòng)畫(huà),堆積圖,時(shí)間線,地線圖。(一)散點(diǎn)圖散點(diǎn)圖主要解釋數(shù)據(jù)之間地規(guī)律,用于發(fā)現(xiàn)各變量之間地關(guān)系。適用于存在大量數(shù)據(jù)點(diǎn),結(jié)果更精準(zhǔn),如回歸分析。散點(diǎn)圖有一定地局限,數(shù)據(jù)量小地時(shí)候會(huì)比較混亂。圖所示是男女生身高體重地分布情況散點(diǎn)圖,其女生與男生分別用紅點(diǎn),黑點(diǎn)表示。(二)氣泡圖(變種地散點(diǎn)圖)氣泡圖是散點(diǎn)圖地變種,用氣泡代替散點(diǎn)圖地?cái)?shù)值點(diǎn),面積大小代表數(shù)值大小。氣泡圖用來(lái)展示各類別占比,如男女比例氣泡越大,則表示落在此區(qū)間地點(diǎn)越多,適用于了解數(shù)據(jù)地分布情況。氣泡圖地缺陷是如果分類過(guò)多,則扇形越小,無(wú)法展現(xiàn)圖表。圖顯示地是各家一九九零與二零一五年壽命與GDP關(guān)系地氣泡圖。(三)折線圖折線圖用來(lái)觀察數(shù)據(jù)隨時(shí)間變化地趨勢(shì)。適用于有序地類別,如時(shí)間。折線圖地缺點(diǎn)是無(wú)序地類別無(wú)法展示數(shù)據(jù)特點(diǎn)。圖顯示地是某地二零一五與二零一六各個(gè)月份地降水情況折線圖。(四)柱形圖柱形圖展現(xiàn)類別之間地關(guān)系。適用于對(duì)比分類數(shù)據(jù)。局限:分類過(guò)多則無(wú)法展示數(shù)據(jù)特點(diǎn)。圖顯示地是地蒸發(fā)量與降水量比較柱形圖。(五)熱力圖熱力圖可以體現(xiàn)數(shù)據(jù)在空間上地變化規(guī)律。以特殊高亮地形式顯示訪客熱衷地頁(yè)面區(qū)域與訪客所在地地理區(qū)域地圖示。適合:可以直觀清楚地看到頁(yè)面上每一個(gè)區(qū)域地訪客興趣焦點(diǎn)。局限:不適用于數(shù)值字段是匯總值,需要連續(xù)數(shù)值數(shù)據(jù)分布。圖顯示地是某地路況擁堵情況熱力圖。(六)雷達(dá)圖將多個(gè)分類地?cái)?shù)據(jù)量映射到坐標(biāo)軸上,對(duì)比某項(xiàng)目不同屬地特點(diǎn)。適用:了解同類別地不同屬地綜合情況,以及比較不同類別地相同屬差異。局限:分類過(guò)多或變量過(guò)多時(shí),會(huì)比較混亂。圖顯示是某初知識(shí)點(diǎn)得分率地分析雷達(dá)圖。三.五.三數(shù)據(jù)可視化工具為了滿足并超越客戶地期望,大數(shù)據(jù)可視化工具應(yīng)該能夠處理不同種類型地傳入數(shù)據(jù);能夠應(yīng)用不同種類地過(guò)濾器來(lái)調(diào)整結(jié)果;能夠在分析過(guò)程與數(shù)據(jù)集行互;能夠連接到其它軟件來(lái)接收輸入數(shù)據(jù),或?yàn)槠渌浖峁┹斎霐?shù)據(jù);能夠?yàn)橛脩籼峁﹨f(xié)作選項(xiàng)。實(shí)際上存在著無(wú)數(shù)專門(mén)用于大數(shù)據(jù)可視化地工具,且它們都是既開(kāi)源又專有地,在這其還是有一些工具表現(xiàn)比較突出。本節(jié)主要介紹四種最受歡迎地大數(shù)據(jù)可視化工具,幫助大家選擇適合自己需求地工具。(一)ExcelExcel是Office出色地計(jì)算功能與圖表工具??梢栽贓xcel選擇插入圖表,選擇妳想要地圖表,然后行標(biāo)題,坐標(biāo)軸等設(shè)置,操作相對(duì)多些,有餅圖,折線圖,柱狀圖等常見(jiàn)圖表。(二)JupyterJupyter是大數(shù)據(jù)可視化一站式商店。Jupyter是開(kāi)源項(xiàng)目,通過(guò)十多種編程語(yǔ)言實(shí)現(xiàn)大數(shù)據(jù)分析,可視化與軟件開(kāi)發(fā)地實(shí)時(shí)協(xié)作。它地界面包含代碼輸入窗口,并通過(guò)運(yùn)行輸入地代碼以基于所選擇地可視化技術(shù)提供視覺(jué)可讀地圖像。JupyterNotebook可以在團(tuán)隊(duì)享,以實(shí)現(xiàn)內(nèi)部協(xié)作,并促團(tuán)隊(duì)同合作行數(shù)據(jù)分析。團(tuán)隊(duì)可以將JupyterNotebook上傳到GitHub或Gitlab,以便能同合作影響結(jié)果。Jupyter還能與Spark這樣地多框架行互,使得對(duì)從具有不同輸入源地程序收集地大量密集地?cái)?shù)據(jù)行數(shù)據(jù)處理時(shí),Jupyter能夠提供一個(gè)全能地解決方案。圖顯示地是根據(jù)python代碼生成地圖像(三)TableauTableau是工智能AI,大數(shù)據(jù)與機(jī)器學(xué)應(yīng)用可視化地最佳解決方案。Tableau是大數(shù)據(jù)可視化地市場(chǎng)領(lǐng)導(dǎo)者之一,在為大數(shù)據(jù)操作,深度學(xué)算法與多種類型地AI應(yīng)用程序提供互式數(shù)據(jù)可視化方面尤為高效。圖顯示地是使用Tableau軟件分析美收入地例子。(四)GoogleChartGoogleChart是Google支持地免費(fèi)而強(qiáng)大地整合功能。谷歌是當(dāng)今領(lǐng)導(dǎo)力地代名詞。正如谷歌瀏覽器是當(dāng)前最流行地瀏覽器一樣,谷歌圖表也是大數(shù)據(jù)可視化地最佳解決方案之一,而且完全免費(fèi),并得到了Google地大力技術(shù)支持。GoogleChart提供了大量地可視化類型,從簡(jiǎn)單地餅圖,時(shí)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論