大數(shù)據(jù)分析講稿_第1頁
大數(shù)據(jù)分析講稿_第2頁
大數(shù)據(jù)分析講稿_第3頁
大數(shù)據(jù)分析講稿_第4頁
大數(shù)據(jù)分析講稿_第5頁
已閱讀5頁,還剩77頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

12月大數(shù)據(jù)分

析主講人:第1頁

大數(shù)據(jù)綜述大數(shù)據(jù)特征大數(shù)據(jù)采集、存放技術(shù)大數(shù)據(jù)分析系統(tǒng)架構(gòu)

大數(shù)據(jù)建模分析方法

分析結(jié)果可視化展示技術(shù)目錄第2頁●伴隨當代信息采集技術(shù)、物聯(lián)網(wǎng)、云計算、互聯(lián)網(wǎng)絡(luò)等信息技術(shù)以及新興服務(wù)產(chǎn)業(yè)快速發(fā)展,使得人類社會數(shù)據(jù)種類和規(guī)模(社會管理、生產(chǎn)生活、行業(yè)產(chǎn)業(yè)、文化教育、資源環(huán)境等)正以前所未有速度增加,數(shù)據(jù)從簡單處理對象開始轉(zhuǎn)變?yōu)橐粋€基礎(chǔ)性資源(原始數(shù)據(jù)和應(yīng)用數(shù)據(jù))?!瘛霸鯓痈雍玫毓芾砗屠么髷?shù)據(jù)”已經(jīng)成為普遍關(guān)注話題。大數(shù)據(jù)規(guī)模效應(yīng)給數(shù)據(jù)存放、管理以及數(shù)據(jù)分析帶來了極大技術(shù)挑戰(zhàn)和利用價值?!褡浴禢ature》雜志發(fā)表大數(shù)據(jù)專輯以來,大數(shù)據(jù)概念和價值得到越來越多關(guān)注。年,美國和中國分別將大數(shù)據(jù)提升到國家戰(zhàn)略高度。

數(shù)

據(jù)

綜述第3頁衛(wèi)星監(jiān)測數(shù)據(jù)資源環(huán)境數(shù)據(jù)智慧城市數(shù)據(jù)

數(shù)

據(jù)

綜述第4頁視頻監(jiān)測氣象監(jiān)測-24個指標土壤養(yǎng)分監(jiān)測-15個指標土壤水分監(jiān)測-5個指標生長監(jiān)測-16個指標過程監(jiān)測數(shù)據(jù)統(tǒng)計數(shù)據(jù)網(wǎng)絡(luò)數(shù)據(jù)

數(shù)

據(jù)

綜述第5頁數(shù)據(jù)無處不在數(shù)據(jù)無時不有數(shù)據(jù)無物不生數(shù)據(jù)無人不感多源性異質(zhì)性多樣性增加性

伴隨傳感器、智能移動設(shè)備、互聯(lián)網(wǎng)等技術(shù)發(fā)展,數(shù)據(jù)展現(xiàn)爆炸式增加。

數(shù)

據(jù)

綜述第6頁自古以來,在科學(xué)研究上,先后歷經(jīng)了試驗、理論和計算3種范式。當數(shù)據(jù)量不停增加和累積到今天,傳統(tǒng)3種范式在科學(xué)研究,尤其是一些新研究領(lǐng)域已經(jīng)無法很好地發(fā)揮作用,需要有一個全新第4種范式來指導(dǎo)新形勢下科學(xué)研究?;谶@種考慮,圖靈獎取得者、著名數(shù)據(jù)庫教授JimGray博士提出了一個新數(shù)據(jù)探索型研究方式,被他自己稱之為科學(xué)研究“第4種范式”。

數(shù)

據(jù)

綜述科學(xué)研究方法第7頁科學(xué)范式時間方法論經(jīng)驗上千年以前描述自然現(xiàn)象理論最近幾百年使用模型,歸納計算最近幾十年模擬(仿真)復(fù)雜現(xiàn)象數(shù)據(jù)探查(eScience)目前經(jīng)過儀器或模擬獲取數(shù)據(jù),基于軟件數(shù)據(jù)處理,計算機信息存放,數(shù)據(jù)科學(xué)分析科學(xué)發(fā)覺4種范式大數(shù)據(jù)發(fā)展對傳統(tǒng)數(shù)據(jù)處理技術(shù)體系提出了巨大挑戰(zhàn),需要我們在數(shù)據(jù)采集、數(shù)據(jù)標準、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)等方面做全新技術(shù)升級。

數(shù)

據(jù)

綜述第8頁

大數(shù)據(jù)技術(shù)是一個經(jīng)典跨領(lǐng)域研究方向,在數(shù)據(jù)采集、存放、傳輸、管理、安全和分析等很多方面均面臨著技術(shù)變革和創(chuàng)新。數(shù)據(jù)復(fù)雜性計算復(fù)雜性系統(tǒng)復(fù)雜性數(shù)據(jù)處理技術(shù)與系統(tǒng)批量數(shù)據(jù)處理技術(shù)與系統(tǒng)流量數(shù)據(jù)處理技術(shù)與系統(tǒng)交互式數(shù)據(jù)處理技術(shù)與系統(tǒng)多媒體數(shù)據(jù)處理技術(shù)與系統(tǒng)

數(shù)

據(jù)

綜述大數(shù)據(jù)面臨挑戰(zhàn)第9頁大數(shù)據(jù)處理系統(tǒng)三大發(fā)展趨勢數(shù)據(jù)處理引擎專用化數(shù)據(jù)處理平臺多樣化數(shù)據(jù)計算實時化大數(shù)據(jù)分析支撐技術(shù)和應(yīng)用深度學(xué)習(xí)知識計算社會計算可視化經(jīng)典應(yīng)用場景等

數(shù)

據(jù)

綜述第10頁大數(shù)據(jù)分析關(guān)鍵技術(shù)框架1、大數(shù)據(jù)經(jīng)典處理模式—MapReduce

MapReduce是一個編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)并行運算。Map(映射)和Reduce(歸約),以及它們主要思想,都是從函數(shù)式編程語言里借鑒。它極大地方便了編程人員在不會分布式并行編程情況下,將自己程序運行在分布式系統(tǒng)上。

當前軟件實現(xiàn)是指定一個Map(映射)函數(shù),用來把一組鍵值對映射成一組新鍵值對,指定并發(fā)Reduce(歸約)函數(shù),用來確保全部映射鍵值對中每一個共享相同鍵組。

數(shù)

據(jù)

綜述第11頁

圖1MapReduce執(zhí)行流程圖

數(shù)

據(jù)

綜述第12頁

MapReduc模型首先將用戶原始數(shù)據(jù)源進行分塊,然后分別交給不一樣Map任務(wù)區(qū)處理。Map任務(wù)從輸入中解析出鏈/值(Key/Value)對集合,然后對這些集合執(zhí)行用戶自行定義Map函數(shù)得到中間結(jié)果,并將該結(jié)果寫入當?shù)赜脖P。MapReduc任務(wù)從硬盤上讀取數(shù)據(jù)之后會依據(jù)Key值進行排序,將含有相同Key值組織在一起,由用戶自定義MapReduc函數(shù)作用于這些排好序結(jié)果并輸出最終止果。從MapReduc處理過程能夠看出,MapReduc關(guān)鍵設(shè)計思想在于:1)將問題分而治之;2)把計算推到數(shù)據(jù)而不是把數(shù)據(jù)推到計算,有效地防止數(shù)據(jù)傳輸過程中產(chǎn)生大量通信開銷。MapReduc模型簡單,且現(xiàn)實中很多問題都可用MapReduc模型來表示。

數(shù)

據(jù)

綜述原理和技術(shù)路線第13頁2、經(jīng)典大數(shù)據(jù)處理平臺—Hadoop

由Apache基金會所開發(fā)分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶能夠在不了解分布式底層細節(jié)情況下,開發(fā)分布式程序。充分利用集群優(yōu)勢進行高速運算和存放。Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(HadoopDistributedFileSystem,HDFS。HDFS有高容錯性特點,而且設(shè)計用來布署在低廉硬件上,提供高吞吐量來訪問應(yīng)用程序數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(largedataset)應(yīng)用程序。HDFS能夠流形式訪問文件系統(tǒng)中數(shù)據(jù)。Hadoop框架最關(guān)鍵設(shè)計就是:HDFS和MapReduce。HDFS為海量數(shù)據(jù)提供了存放,則MapReduce為海量數(shù)據(jù)提供了計算模式。Hadoop已經(jīng)發(fā)展成為包含文件系統(tǒng)、數(shù)據(jù)庫、數(shù)據(jù)處理等功效模塊在內(nèi)完整系統(tǒng),某種程度上能夠說已經(jīng)成為大數(shù)據(jù)處理工具實際上標準。

數(shù)

據(jù)

綜述第14頁圖3HadoopDB體系架構(gòu)(Google)

數(shù)

據(jù)

綜述第15頁3、大數(shù)據(jù)處理基本框架大數(shù)據(jù)處理經(jīng)典框架及流程

數(shù)

據(jù)

綜述第16頁大數(shù)據(jù)處理流程能夠定義為在適當工具輔助下,對廣泛異構(gòu)數(shù)據(jù)源進行抽取和集成,結(jié)果按照一定標準統(tǒng)一存放。利用適當數(shù)據(jù)分析技術(shù)對存放數(shù)據(jù)進行分析,從中提取有益知識并利用恰當方式將結(jié)果展現(xiàn)給終端用戶??煞譃槿齻€主要步驟:數(shù)據(jù)抽取與集成、數(shù)據(jù)分析以及數(shù)據(jù)解釋。1)數(shù)據(jù)抽取與集成:在大數(shù)據(jù)集合中提取出關(guān)系和實體,經(jīng)過關(guān)聯(lián)和聚合之后采取統(tǒng)一定義結(jié)構(gòu)來存放這些數(shù)據(jù),同時對數(shù)據(jù)進行清洗,確保數(shù)據(jù)質(zhì)量及可信性。

現(xiàn)有數(shù)據(jù)抽取與集成方式能夠大致分為以下4種類型:基于物化或ETL方法引擎,基于聯(lián)邦數(shù)據(jù)庫或中間件方法引擎,基于數(shù)據(jù)流方法引擎,基于搜索引擎方法。

數(shù)

據(jù)

綜述第17頁2)數(shù)據(jù)分析:整個大數(shù)據(jù)處理流程關(guān)鍵。從異構(gòu)數(shù)據(jù)源抽取和集成數(shù)據(jù)組成了數(shù)據(jù)分析原始數(shù)據(jù),依據(jù)不一樣應(yīng)用需求能夠從這些數(shù)據(jù)中選擇全部或部分進行分析。

面向經(jīng)典大數(shù)據(jù)分析領(lǐng)域,如推薦系統(tǒng)、商業(yè)智能、決議支持等,當前數(shù)據(jù)分析技術(shù)主要有:挖掘建模分析(數(shù)據(jù)挖掘方法),智能建模分析(機器學(xué)習(xí)方法),統(tǒng)計分析等。3)數(shù)據(jù)解釋:將數(shù)據(jù)分析分析結(jié)果面向用戶進行展示,如可視化方式,人機交互方式,分析圖表方式等。

數(shù)

據(jù)

綜述第18頁4、大數(shù)據(jù)時代面臨技術(shù)創(chuàng)新:大數(shù)據(jù)時代數(shù)據(jù)存在著以下幾個特點:多源異構(gòu)、分布廣泛、動態(tài)增加、先有數(shù)據(jù)后有模式,正是這些與傳統(tǒng)數(shù)據(jù)管理迥然不一樣特點,使得大數(shù)據(jù)時代數(shù)據(jù)管理面臨著新挑戰(zhàn)。(1)大數(shù)據(jù)集成:廣泛異構(gòu)性(數(shù)據(jù)類型從以結(jié)構(gòu)化數(shù)據(jù)為主轉(zhuǎn)向結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化三者融合),數(shù)據(jù)產(chǎn)生方式多樣性帶來數(shù)據(jù)源改變,數(shù)據(jù)存放方式改變,數(shù)據(jù)質(zhì)量改變。(2)大數(shù)據(jù)分析:數(shù)據(jù)處理實時性(在線、近線、離線),動態(tài)改變環(huán)境中索引設(shè)計,先驗知識缺乏。(3)大數(shù)據(jù)隱私問題(4)大數(shù)據(jù)能耗問題(5)大數(shù)據(jù)處理與硬件協(xié)同

數(shù)

據(jù)

綜述第19頁(6)大數(shù)據(jù)管理易用性:從數(shù)據(jù)集成到數(shù)據(jù)分析、直到最終數(shù)據(jù)解釋,易用性應(yīng)該貫通整個大數(shù)據(jù)流程。易用性挑戰(zhàn),突出表達在兩個方面:首先大數(shù)據(jù)時代數(shù)據(jù)量大,分析更復(fù)雜,得到結(jié)果形式愈加多樣化,其復(fù)雜程度已經(jīng)遠遠超出傳統(tǒng)關(guān)系數(shù)據(jù)庫;其次,大數(shù)據(jù)已經(jīng)廣泛滲透到人們生活各個方面,很多行業(yè)都開始有了大數(shù)據(jù)分析需求、利用。(7)可視化標準:原位分析,用戶界面與交互設(shè)計,大數(shù)據(jù)可視化,數(shù)據(jù)庫與存放,算法,數(shù)據(jù)移動、傳輸和網(wǎng)絡(luò)架構(gòu),不確定性量化,并行化,面向領(lǐng)域與開發(fā)庫、框架以及工具,社會,小區(qū)以及政府參加。(8)匹配標準:(9)反饋標準:

數(shù)

據(jù)

綜述第20頁5、元數(shù)據(jù)及元數(shù)據(jù)管理元數(shù)據(jù)是關(guān)于數(shù)據(jù)數(shù)據(jù),數(shù)據(jù)之間關(guān)聯(lián)關(guān)系以及數(shù)據(jù)本身一些屬性大都是靠元數(shù)據(jù)來表示。可視化技術(shù)離不開元數(shù)據(jù)支持,因為假如無法準確表征出數(shù)據(jù)之間關(guān)系,就無法對數(shù)據(jù)進行可視化展示。數(shù)據(jù)起源技術(shù)更是離不開元數(shù)據(jù)管理技術(shù),因為數(shù)據(jù)起源需要利用元數(shù)據(jù)來統(tǒng)計數(shù)據(jù)之間包含因果關(guān)系在內(nèi)各種復(fù)雜關(guān)系,并經(jīng)過這些信息來進行相關(guān)推斷。怎樣在大規(guī)模存放系統(tǒng)中實現(xiàn)海量元數(shù)據(jù)高效管理將會對大數(shù)據(jù)易用性產(chǎn)生主要影響,海量元數(shù)據(jù)管理問題是需要尤其關(guān)注一個問題。

數(shù)

據(jù)

綜述第21頁6、信息融合利用計算機技術(shù)對按時序取得若干傳感器觀察信息在一定準則下加以自動分析、綜合,以完成所需決議和預(yù)計任務(wù)而進行信息處理過程。多傳感器系統(tǒng)是信息融合硬件基礎(chǔ),多源信息是融合加工對象,協(xié)調(diào)優(yōu)化和綜合處理是信息融合關(guān)鍵。需深入研究問題:數(shù)據(jù)融合系統(tǒng)功效模型、抽象層次、系統(tǒng)體系結(jié)構(gòu)、設(shè)計和性能評價等方面,還有待于從系統(tǒng)角度進行探討。

數(shù)

據(jù)

綜述第22頁開發(fā)多傳感器數(shù)據(jù)融合系統(tǒng)MSF系統(tǒng)則需要一個形式框架,方便對MSF系統(tǒng)進行形式化描述,對系統(tǒng)性質(zhì)進行形式化表示和驗證,從而提升系統(tǒng)結(jié)構(gòu)可靠性和系統(tǒng)行為可預(yù)測性。形式系統(tǒng)可表示為S=〈M,T〉;其中,M為模型,T為理論。數(shù)據(jù)融合可視為形式系統(tǒng)上運算:1)能用形式語言來描述世界(系統(tǒng))、傳感過程;2)能用模型來表示數(shù)據(jù)、數(shù)據(jù)運算和數(shù)據(jù)間關(guān)系,模型由域、常量、函數(shù)以及域中元素間關(guān)系組成;3)能用理論來表現(xiàn)關(guān)于世界和關(guān)于傳感器符號知識。一個形式語言、一個形式語言理論和一個模型共同組成一個形式系統(tǒng)。

數(shù)

據(jù)

綜述第23頁7、大數(shù)據(jù)處理流程整個大數(shù)據(jù)處理流程能夠定義為在適當工具輔助下,對廣泛異構(gòu)數(shù)據(jù)源進行抽取和集成,結(jié)果按照一定標準統(tǒng)一存放。利用適當數(shù)據(jù)分析技術(shù)對存放數(shù)據(jù)進行分析,從中提取有益知識并利用恰當方式將結(jié)果展現(xiàn)給終端用戶。詳細來說能夠分為數(shù)據(jù)抽取與集成、數(shù)據(jù)分析以及數(shù)據(jù)解釋。大數(shù)據(jù)價值完整表達需要各種技術(shù)協(xié)同,文件系統(tǒng)提供最底層存放能力支持。為了便于數(shù)據(jù)管理,需要在文件系統(tǒng)之上建立數(shù)據(jù)庫系統(tǒng)。經(jīng)過索引等構(gòu)建,對外提供高效數(shù)據(jù)查詢等慣用功效,最終經(jīng)過數(shù)據(jù)分析技術(shù)從數(shù)據(jù)庫中大數(shù)據(jù)提取出有益知識。

數(shù)

據(jù)

綜述第24頁8、數(shù)據(jù)抽取與集成對所需數(shù)據(jù)源數(shù)據(jù)進行抽取和集成,從中提取出關(guān)系和實體,經(jīng)過關(guān)聯(lián)和聚合之后采取統(tǒng)一定義結(jié)構(gòu)來存放這些數(shù)據(jù)。從數(shù)據(jù)集成模型來看,現(xiàn)有數(shù)據(jù)抽取與集成方式能夠大致分為以下種類型:基于物化或方法引擎、基于聯(lián)邦數(shù)據(jù)庫或中間件方法引擎、基于數(shù)據(jù)流方法引擎及基于搜索引擎方法。

數(shù)

據(jù)

綜述第25頁9、數(shù)據(jù)分析

數(shù)據(jù)分析是整個大數(shù)據(jù)處理流程關(guān)鍵,大數(shù)據(jù)價值產(chǎn)生于分析過程。從異構(gòu)數(shù)據(jù)源抽取和集成數(shù)據(jù)組成了數(shù)據(jù)分析原始數(shù)據(jù),依據(jù)不一樣應(yīng)用需求能夠從這些數(shù)據(jù)中選擇全部或部分進行分析。傳統(tǒng)分析技術(shù)如數(shù)據(jù)挖掘、機器學(xué)習(xí)、統(tǒng)計分析等在大數(shù)據(jù)時代需要作出調(diào)整,這些技術(shù)在大數(shù)據(jù)時代面臨著一些新挑戰(zhàn)。主要有:1)數(shù)據(jù)量大并不一定意味著數(shù)據(jù)價值增加;2)大數(shù)據(jù)時代算法需要進行調(diào)整;3)數(shù)據(jù)結(jié)果好壞衡量。

數(shù)

據(jù)

綜述第26頁10、數(shù)據(jù)解釋1)可視化技術(shù);2)人機交互技術(shù);3)數(shù)據(jù)起源技術(shù)。

在線(Online)毫秒-秒級;近線(Nearline)分-小時級;離線(Offline)天為基本單位。

數(shù)

據(jù)

綜述第27頁微軟大數(shù)據(jù)成功預(yù)測奧斯卡21項大獎,微軟紐約研究院經(jīng)濟學(xué)家大衛(wèi).羅斯柴爾德(DavidRothschild),經(jīng)過搜集賭博市場、好萊塢證券交易所、用戶自動生成信息等大量公開數(shù)據(jù)建立預(yù)測模型,利用大數(shù)據(jù)成功預(yù)測年第85屆24個奧斯卡金像獎項中19個。20Rothschild再次成功預(yù)測第86屆奧斯卡獎24個獎項中21個,并準確預(yù)測出最正確電影、最正確導(dǎo)演、最正確男女主角、最正確男女配角等重頭獎項獲獎?wù)撸瑴蚀_率為100%。11月奧巴馬大選連任成功也被歸功于大數(shù)據(jù),他競選團體以前對民意進行了大規(guī)模與深入數(shù)據(jù)挖掘。時代雜志更是斷言,依靠直覺與經(jīng)驗進行決議優(yōu)勢急劇下降,在政治領(lǐng)域,大數(shù)據(jù)時代已經(jīng)到來。奧巴馬大選連任成功

數(shù)

據(jù)

綜述第28頁電商大數(shù)據(jù)

伴隨大型電子商務(wù)平臺發(fā)展,以往分散經(jīng)濟數(shù)據(jù)開始聚合在像阿里巴巴、京東、亞馬遜這么巨頭手中,可以實時完成匯總、瞬間完成數(shù)據(jù)分析,這些電商數(shù)據(jù)成為了解社會、行業(yè)甚至細化到企業(yè)數(shù)據(jù)百寶庫。能夠分析出消費者行為,進行準確推薦營銷,預(yù)測企業(yè)走勢或者行業(yè)興衰。給平臺管理者和商家、產(chǎn)家?guī)泶罅可虣C和利潤。數(shù)據(jù)新聞讓英國撤軍

10月23日《衛(wèi)報》利用維基解密數(shù)據(jù)做了一篇“數(shù)據(jù)新聞”。將伊拉克戰(zhàn)爭中全部人員傷亡情況均標注于地圖之上。地圖上一個紅點便代表一次死傷事件,鼠標點擊紅點后彈出窗口則有詳細說明:傷亡人數(shù)、時間,造成傷亡詳細原因。密布紅點多達39萬,格外觸目驚心。一經(jīng)刊出馬上引發(fā)朝野震動,推進英國最終做出撤出駐伊拉克軍隊決定。

數(shù)

據(jù)

綜述第29頁Google成功預(yù)測冬季流感20,Google經(jīng)過分析5000萬條美國人最頻繁檢索詞匯,將之和美國疾病中心在到年間季節(jié)性流感傳輸時期數(shù)據(jù)進行比較,并建立一個特定數(shù)學(xué)模型。最終谷歌成功預(yù)測了2009冬季流感傳輸,甚至能夠詳細到特定地域和州。大數(shù)據(jù)與喬布斯癌癥治療喬布斯是世界上第一個對本身全部DNA和腫瘤DNA進行排序人。為此,他支付了高達幾十萬美元費用。他得到不是樣本,而是包含整個基因數(shù)據(jù)文檔。醫(yī)生按照全部基因按需下藥,最終這種方式幫助喬布斯延長了好幾年生命。

數(shù)

據(jù)

綜述第30頁互聯(lián)網(wǎng)、傳感技術(shù)及其應(yīng)用迅猛發(fā)展產(chǎn)生了各種各樣海量數(shù)據(jù),它們存放和處理很多都是前所未研究;社會和生產(chǎn)性服務(wù)業(yè)(包含物質(zhì)、精神等方面)爆炸式發(fā)展產(chǎn)生了海量數(shù)據(jù);智慧城市,智能小區(qū)、交通、通信、物流、醫(yī)療、能源、信息化、機器人等應(yīng)用中產(chǎn)生了大量數(shù)據(jù)。大數(shù)據(jù)分析產(chǎn)生背景大數(shù)據(jù)特征和定義第31頁1.“大數(shù)據(jù)”名稱來自于未來學(xué)家托夫勒所著《第三次浪潮》1980年,著名未來學(xué)家托夫勒在其所著《第三次浪潮》中熱情地將“大數(shù)據(jù)”稱頌為“第三次浪潮華彩樂章”?!蹲匀弧冯s志在9月推出了名為“大數(shù)據(jù)”封面專欄。從年開始“大數(shù)據(jù)”才成為互聯(lián)網(wǎng)技術(shù)行業(yè)中熱門詞匯。2.最早應(yīng)用“大數(shù)據(jù)”是麥肯錫企業(yè)(McKinsey)對“大數(shù)據(jù)”進行搜集和分析構(gòu)想,來自于世界著名管理咨詢企業(yè)麥肯錫企業(yè)。麥肯錫企業(yè)看到了各種網(wǎng)絡(luò)平臺統(tǒng)計個人海量信息具備潛在商業(yè)價值,于是投入大量人力物力進行調(diào)研。在206月公布了關(guān)于“大數(shù)據(jù)”匯報,該匯報對“大數(shù)據(jù)”影響、關(guān)鍵技術(shù)和應(yīng)用領(lǐng)域等都進行了詳盡分析。麥肯錫匯報得到了金融界高度重視,而后逐步受到了各行各業(yè)關(guān)注。大數(shù)據(jù)特征和定義第32頁3.“大數(shù)據(jù)”特點由舍恩伯格和庫克耶在編寫《大數(shù)據(jù)時代》中提出“大數(shù)據(jù)”4V特點:Volume(數(shù)據(jù)量大)、Velocity(輸入和處理速度快)、Variety(數(shù)據(jù)多樣性)、Value(價值密度低)。這些特點得到了廣泛認可,凡提到“大數(shù)據(jù)”特點文章,基本上采取了這4個特點。4.在云計算技術(shù)出現(xiàn)之后“大數(shù)據(jù)”才凸顯其真正價值自從有了云計算服務(wù)器,“大數(shù)據(jù)”才有了能夠運行軌道,才能夠?qū)崿F(xiàn)其真正價值。有些人就形象地將各種“大數(shù)據(jù)”應(yīng)用比作一輛輛“汽車”,支撐起這些“汽車”運行“高速公路”就是云計算。最著名實例就是Google搜索引擎。面對海量Web數(shù)據(jù),Google于首先提出云計算概念。支撐Google內(nèi)部各種“大數(shù)據(jù)”應(yīng)用,正是Google企業(yè)自行研發(fā)云計算服務(wù)器。維基百科對大數(shù)據(jù)定義:大數(shù)據(jù)是指利用慣用軟件工具捕捉、管理和處理數(shù)據(jù)所耗時間超出可容忍時間數(shù)據(jù)集。大數(shù)據(jù)特征和定義第33頁

任一概念或事物標準上都可用其含有特征來描述或定義。一旦研究對象用其屬性界定以后再開展各種設(shè)定目標研究。一樣,“大數(shù)據(jù)”概念也可從其主要特征(屬性)描述或定義開始來對它研究。

大數(shù)據(jù)應(yīng)該含有“大”或“多”特征(屬性),但大數(shù)據(jù)不只是其包含數(shù)據(jù)量大而已。因為僅僅數(shù)據(jù)量大問題,現(xiàn)有計算機軟硬件技術(shù)基本上都已可處理,無須新提概念。

那么,我們所要研究對象是什么?應(yīng)該稱作什么?它可能含有哪些主要特征?

大數(shù)據(jù)特征和定義第34頁1.數(shù)量大

大數(shù)據(jù)首要特征當然應(yīng)該是“規(guī)模大”。何謂大,對于不一樣應(yīng)用問題可有不一樣衡量標準,所以大小本身含有相對性,不能簡單用數(shù)量劃界來區(qū)分大小。

大數(shù)據(jù)可指大數(shù)據(jù)集合中包含數(shù)據(jù)多,也可指組成大數(shù)據(jù)網(wǎng)絡(luò)包含子數(shù)據(jù)個數(shù)多。應(yīng)該說,這些問題假如沒有時空限制,標準上都已能用現(xiàn)有軟硬件技術(shù)處理。

這種大數(shù)據(jù)特征普通用來指明該大數(shù)據(jù)是由很多很多子數(shù)據(jù)組成集合,現(xiàn)有各種數(shù)據(jù)庫中數(shù)據(jù)大多是這種數(shù)據(jù)。大數(shù)據(jù)特征和定義第35頁2、類型多

大數(shù)據(jù)能夠包含各種結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)類型很多,用現(xiàn)有DBMS等軟件技術(shù)難以描述和處理。這種大數(shù)據(jù)特征普通用來指明該大數(shù)據(jù)中包含各種數(shù)據(jù)類型很多,既可包含各種結(jié)構(gòu)化數(shù)據(jù)類型,又可包含各種非結(jié)構(gòu)化數(shù)據(jù)類型,乃至其它數(shù)據(jù)類型。大數(shù)據(jù)特征和定義第36頁3.維度高

描述數(shù)據(jù)屬性維數(shù)高,不但能夠多至成百上千(有限維),乃至無窮維(可數(shù)維、連續(xù)維),應(yīng)用時不得不先降維后才能深入處理。這種大數(shù)據(jù)特征(高維度)普通用來指明構(gòu)建大數(shù)據(jù)時能夠包含各種高維度子數(shù)據(jù)。尤其,能夠采取無窮維度數(shù)據(jù)。大數(shù)據(jù)特征和定義第37頁4、媒體多表征大數(shù)據(jù)媒體(或介質(zhì))眾多,包含文字、語言、音頻、圖像、視頻、以及各種不停涌現(xiàn)著新媒體等等。這種大數(shù)據(jù)特征(多媒體)普通用來指明構(gòu)建該類大數(shù)據(jù)媒體各種多樣,乃至包含剛在網(wǎng)上新出現(xiàn)各種新媒體。5.動態(tài)性和實時性

大數(shù)據(jù)結(jié)構(gòu)和內(nèi)容等都可動態(tài)改變,而且改變頻率高、速度快、范圍廣,數(shù)據(jù)形態(tài)含有極大動態(tài)性,處理需要極快實時性。大數(shù)據(jù)特征和定義第38頁6.多源性

組成大數(shù)據(jù)子數(shù)據(jù)起源空間分布廣、時間連續(xù)長、網(wǎng)點種類多、數(shù)據(jù)采集和存放等設(shè)備類型復(fù)雜繁多,從而造成采取標準不一、表述方式不一樣、以及數(shù)據(jù)語義解釋混亂等現(xiàn)象,它們都給大數(shù)據(jù)處理帶來很多困難。這種大數(shù)據(jù)特征(多源性)普通用來指明構(gòu)建大數(shù)據(jù)子數(shù)據(jù)數(shù)據(jù)來自很多地域、很多時間等等。大數(shù)據(jù)特征和定義第39頁7.不確定性

不確定性包含隨機性和含糊性等特征,能夠表達在數(shù)據(jù)內(nèi)容、結(jié)構(gòu)、處理、以及所含子數(shù)據(jù)間關(guān)聯(lián)等多方面。大數(shù)據(jù)中能夠包含眾多含有不一樣概率分布隨機數(shù)和眾多含有不一樣定義域含糊數(shù)。數(shù)間關(guān)聯(lián)含糊不清、而且可能隨時隨機改變。8.復(fù)雜性一個大數(shù)據(jù)能夠又是另一些大數(shù)據(jù)(作為其子數(shù)據(jù))組成集合,或者由很多大數(shù)據(jù)互聯(lián)或超鏈接(包含遞歸鏈接)而成復(fù)雜網(wǎng)絡(luò)。另外,高維度數(shù)據(jù)各維之間各種關(guān)聯(lián)關(guān)系也是產(chǎn)生復(fù)雜性主要原因。大數(shù)據(jù)特征和定義第40頁9.強噪聲

大數(shù)據(jù)中,往往有用數(shù)據(jù)和大量無用數(shù)據(jù)混在一起,所以大數(shù)據(jù)處理一項必要工作就是“不停地清垃圾、除噪聲”。這個特征也可稱為數(shù)據(jù)“價值密度”低,大數(shù)據(jù)往往是有用數(shù)據(jù)一個“貧礦”。10.毒數(shù)據(jù)多

大數(shù)據(jù)中,可能存在大量有毒數(shù)據(jù)和有用數(shù)據(jù)混在一起。所以大數(shù)據(jù)處理一項必要工作就是“不停地去除可能毒數(shù)據(jù),包含各種病毒、木馬、蠕蟲、以及惡意程序等等”。大數(shù)據(jù)特征和定義第41頁11.可信性、安全性和實時性要求高

為了實現(xiàn)大數(shù)據(jù)高保密性和高安全性,往往在大數(shù)據(jù)處理過程中需要加入許多動態(tài)改變密碼密鑰加解密機制,以及軟件文檔驗證/認證等可信機制。而且含有嚴格解密實時性要求。其實,在使用有限長度密碼時,沒有實時性要求就等于沒有保密性。大數(shù)據(jù)特征和定義第42頁12.社會性

大數(shù)據(jù)往往含有很強社會性,比如,對于互聯(lián)網(wǎng)語言,不一樣年紀、不一樣階層和不一樣地域人士往往會有各不相同了解和利用。所以,為了準確地處理諸如互聯(lián)網(wǎng)上輿情大數(shù)據(jù),必須仔細考慮數(shù)據(jù)內(nèi)容了解中各種社會性原因。13.可執(zhí)行性

大數(shù)據(jù)除了包含作為處理對象“數(shù)據(jù)”之外,普通還可隨帶能夠處理對應(yīng)“數(shù)據(jù)”大量可執(zhí)行代碼(程序)。即每個大數(shù)據(jù)都可分為“數(shù)據(jù)”和“代碼”兩部分。所以能夠說一個含有大量數(shù)據(jù)程序也是一個大數(shù)據(jù)。比如面向?qū)ο髷?shù)據(jù)庫就可認為含有這種可執(zhí)行性。又如空間飛行器在軌維護數(shù)據(jù)。大數(shù)據(jù)特征和定義第43頁1.

可視化分析(Analytic

Visualizations)

數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本要求??梢暬軌蛑庇^展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓用戶直觀看到結(jié)果。

2.

數(shù)據(jù)挖掘算法(Data

Mining

Algorithms)借助機器等工具,利用數(shù)據(jù)挖掘中集群、分割、孤立點分析及其它算法可深入數(shù)據(jù)內(nèi)部,挖掘有價值信息。3.

預(yù)測性分析能力(Predictive

Analytic

Capabilities)

數(shù)據(jù)挖掘能夠讓用戶更加好了解數(shù)據(jù),而預(yù)測性分析能夠讓用戶依據(jù)可視化分析和數(shù)據(jù)挖掘結(jié)果做出一些預(yù)測性判斷。4.

語義引擎(Semantic

Engines)

非結(jié)構(gòu)化數(shù)據(jù)多樣性帶來了數(shù)據(jù)分析新挑戰(zhàn),需要一系列工具去解析、提取、分析數(shù)據(jù)。語義引擎設(shè)計成能夠從“文檔”中智能提取信息。5.

數(shù)據(jù)管理和數(shù)據(jù)質(zhì)量(Data

Management

and

Master

DataQuality

經(jīng)過標準化流程和工具對數(shù)據(jù)進行處理,確保高質(zhì)量分析結(jié)果。大數(shù)據(jù)分析五個基本方面大數(shù)據(jù)特征和定義第44頁1.數(shù)據(jù)精準獲取技術(shù)

可穿戴式信息獲取技術(shù)可植入、可嵌入式數(shù)據(jù)獲取技術(shù)微型移動信息獲取技術(shù)生物傳感、微納米傳感器、便攜式傳感器等新型設(shè)備。大數(shù)據(jù)獲取第45頁2.數(shù)據(jù)標準化技術(shù)領(lǐng)域數(shù)據(jù)標準化變得極為迫切,信息采集、傳輸、存放、匯交標準規(guī)范亟需大量出臺,產(chǎn)業(yè)(行業(yè))基準數(shù)據(jù)庫亟需建立。大數(shù)據(jù)數(shù)據(jù)標準化標準體系框架傳輸速率編碼標準傳輸方式傳輸冗余……匯交方法匯交內(nèi)容匯交分類匯交范圍……采集規(guī)范傳輸標準存放標準匯交標準采集內(nèi)容采集方式采集時間采集地點……存放格式存放方式存放安全數(shù)據(jù)結(jié)構(gòu)……基準數(shù)據(jù)庫數(shù)據(jù)增值關(guān)鍵在于整合,但整合前提是數(shù)據(jù)標準統(tǒng)一。大數(shù)據(jù)整合處理第46頁建模技術(shù):農(nóng)作物生長與產(chǎn)量形成機理建模;農(nóng)產(chǎn)品消費行為與消費量改變動態(tài)建模;基于多代理系統(tǒng)進行農(nóng)業(yè)智能仿真模擬;關(guān)聯(lián)分析:教授會商系統(tǒng)結(jié)合;教授智慧動態(tài)引入;仿真模擬智能化和自適應(yīng);3.大數(shù)據(jù)分析處理技術(shù)(以農(nóng)業(yè)為例)仿真過程介入;仿真結(jié)果反饋;生產(chǎn)與市場決議流程優(yōu)化。大數(shù)據(jù)分析和解釋第47頁大數(shù)據(jù)分析和解釋第48頁5.大數(shù)據(jù)+超級計算種子基因數(shù)據(jù)+環(huán)境因子數(shù)據(jù)+遺傳模型+超級計算經(jīng)過計算機動態(tài)模擬種子生產(chǎn)過程、產(chǎn)量形成過程……大數(shù)據(jù)處理第49頁6.大數(shù)據(jù)交互式可視化技術(shù)農(nóng)信采監(jiān)測數(shù)據(jù)可視化

大數(shù)據(jù)背景下,在交互式數(shù)據(jù)可視化技術(shù)支撐下,經(jīng)過對高頻變產(chǎn)品市場數(shù)據(jù)處理,實現(xiàn)多品種、多地域、多類型產(chǎn)品市場變動內(nèi)在機理、波動周期、市場走勢可視化展現(xiàn)。大數(shù)據(jù)分析和解釋第50頁地質(zhì)數(shù)據(jù)分析結(jié)果可視化大數(shù)據(jù)分析和解釋第51頁盆地勘測數(shù)據(jù)可視化大數(shù)據(jù)分析和解釋第52頁預(yù)測結(jié)果數(shù)據(jù)可視化大數(shù)據(jù)分析和解釋第53頁大數(shù)據(jù)建模分析是大數(shù)據(jù)應(yīng)用和產(chǎn)生價值關(guān)鍵!定量數(shù)據(jù)分析模型定性數(shù)據(jù)推理分析模型定量與定性信息混合處理模型構(gòu)建分析模型所對應(yīng)數(shù)據(jù)結(jié)構(gòu)具備可擴展、可裁剪和交互定制能力,可實現(xiàn)時間同時處理。大數(shù)據(jù)分析模型:①

基于統(tǒng)計分析方法多元回歸分析模型相關(guān)性(原因)分析模型差異性分析模型馬爾科夫時序數(shù)據(jù)處理模型等7.大數(shù)據(jù)建模分析技術(shù)大數(shù)據(jù)建模分析第54頁②

采取數(shù)據(jù)挖掘方法動態(tài)分類和聚類算法關(guān)聯(lián)分析模型序列模式挖掘算法異常情況(現(xiàn)象)發(fā)覺和分析算法③

基于智能建模方法,基于動態(tài)神經(jīng)網(wǎng)絡(luò)仿真系統(tǒng)支持向量機動態(tài)貝葉斯網(wǎng)絡(luò)可生長決議樹等分析模型6.大數(shù)據(jù)建模分析技術(shù)大數(shù)據(jù)建模分析第55頁④

針對建模要素數(shù)據(jù)可能為定量、定性或半定量情況,基于含糊集理論、云變換理論、粗糙集等方法,研究建立可進行定量與定性數(shù)據(jù)屬性相轉(zhuǎn)換和融合綜合處理方法和模型;⑤

針對多層次、多階段分析問題,建立集成份析模型和決議主題導(dǎo)向分析模型鏈,實現(xiàn)對決議問題協(xié)同分析和過程支持。6.大數(shù)據(jù)建模分析技術(shù)大數(shù)據(jù)建模分析第56頁

大數(shù)據(jù)環(huán)境下,決議與預(yù)測方法向“數(shù)據(jù)+模型+分析”模式發(fā)生著深刻轉(zhuǎn)變,展現(xiàn)出高頻實時、深度定制化、全周期沉醉式交互、跨組織數(shù)據(jù)整合、多主體決議等特征。

大數(shù)據(jù)含有海量、多源、異構(gòu)特征、實時處理、決議要素數(shù)據(jù)分布式采集和存放等特點,迫切需要研究建立專門針對大數(shù)據(jù)分析模型、算法和工具。

研究智能化數(shù)據(jù)處理方法,以適應(yīng)從處理結(jié)構(gòu)化數(shù)據(jù)向處理更多非結(jié)構(gòu)化數(shù)據(jù)、從處理單一數(shù)據(jù)集向迭代增加數(shù)據(jù)集、從批處理向流處理轉(zhuǎn)變;

研究面向管理主題和決議要素,愈加趨于自適應(yīng)和自識別數(shù)據(jù)算法,以滿足大數(shù)據(jù)智能化、實時性處理要求;6.大數(shù)據(jù)建模分析技術(shù)大數(shù)據(jù)建模分析第57頁

研究“跨域關(guān)聯(lián)”技術(shù),經(jīng)過大數(shù)據(jù)與云計算結(jié)合,不一樣領(lǐng)域數(shù)據(jù)集跨域關(guān)聯(lián)有利于發(fā)掘產(chǎn)品各個步驟痕跡,從凌亂紛繁數(shù)據(jù)背后找到產(chǎn)品生產(chǎn)、流通和消費軌跡,把“大數(shù)據(jù)”變成“小數(shù)據(jù)”,形成反應(yīng)事物本質(zhì)規(guī)律“最小數(shù)據(jù)集”。

在模型與算法構(gòu)建中,應(yīng)充分考慮決議原因多元、數(shù)據(jù)增加、規(guī)模大、靜態(tài)與動態(tài)數(shù)據(jù)結(jié)合、定量與定性信息相混合等特征,分析模型結(jié)構(gòu)和信息處理機制應(yīng)具備可擴展性,其結(jié)構(gòu)參數(shù)和性質(zhì)參數(shù)應(yīng)具備自適應(yīng)優(yōu)化調(diào)整能力。6.大數(shù)據(jù)建模分析技術(shù)大數(shù)據(jù)建模分析第58頁7.基于深度學(xué)習(xí)模型大數(shù)據(jù)分析技術(shù)深度學(xué)習(xí)是機器學(xué)習(xí)領(lǐng)域一個新研究方向,近年來在圖像分析、語音識別、計算機視覺等多類應(yīng)用中取得突破性進展,其動機在于建立模型模擬人類大腦神經(jīng)連接結(jié)構(gòu),在處理圖像、聲音和文本這些信號時,經(jīng)過多個變換階段分層對數(shù)據(jù)特征進行描述,進而給出數(shù)據(jù)解釋。以圖像數(shù)據(jù)為例,靈長類視覺系統(tǒng)中對這類信號處理依次為:首先檢測邊緣初始形狀,然后再逐步形成更復(fù)雜視覺形狀。一樣地,深度學(xué)習(xí)經(jīng)過組合低層特征形成愈加抽象高層表示屬性類別或特征,給出數(shù)據(jù)分層特征表示。第59頁深度學(xué)習(xí)概念最早由多倫多大學(xué)G.E.Hinton等于提出,指基于樣本數(shù)據(jù)經(jīng)過一定訓(xùn)練方法得到包含多個層級深度網(wǎng)絡(luò)結(jié)構(gòu)機器學(xué)習(xí)過程。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)隨機初始化網(wǎng)絡(luò)中權(quán)值,造成網(wǎng)絡(luò)很輕易收斂到局部最小值,為處理這一問題,Hinton提出使用無監(jiān)督預(yù)訓(xùn)練方法優(yōu)化網(wǎng)絡(luò)權(quán)值初值,再進行權(quán)值微調(diào)方法,拉開了深度學(xué)習(xí)序幕。深度學(xué)習(xí)所得到深度網(wǎng)絡(luò)結(jié)構(gòu)包含大量單一元素(神經(jīng)元),每個神經(jīng)元與大量其它神經(jīng)元相連接,神經(jīng)元間連接強度(權(quán)值)在學(xué)習(xí)過程中修改并決定網(wǎng)絡(luò)功效。經(jīng)過深度學(xué)習(xí)得到深度網(wǎng)絡(luò)結(jié)構(gòu)符合神經(jīng)網(wǎng)絡(luò)特征,所以深度網(wǎng)絡(luò)就是深層次神經(jīng)網(wǎng)絡(luò),即深度神經(jīng)網(wǎng)絡(luò)。7.基于深度學(xué)習(xí)模型大數(shù)據(jù)分析技術(shù)第60頁深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型7.基于深度學(xué)習(xí)模型大數(shù)據(jù)分析技術(shù)第61頁6月,《紐約時報》披露了GoogleBrain項目,吸引了公眾廣泛關(guān)注。這個項目是由著名斯坦福大學(xué)機器學(xué)習(xí)教授AndrewNg和在大規(guī)模計算機系統(tǒng)方面世界頂尖教授JeffDean共同主導(dǎo),用16000個CPUCore并行計算平臺訓(xùn)練一個稱為“深度神經(jīng)網(wǎng)絡(luò)”(DNN,DeepNeuralNetworks)機器學(xué)習(xí)模型(內(nèi)部共有10億個節(jié)點。在語音識別和圖像識別等領(lǐng)域取得了巨大成功。11月,微軟在中國天津一次活動上公開演示了一個全自動同聲傳譯系統(tǒng),講演者用英文演講,后臺計算機一氣呵成自動完成語音識別、英中機器翻譯和漢字語音合成,效果非常流暢。據(jù)報道,后面支撐關(guān)鍵技術(shù)也是DNN,或者深度學(xué)習(xí)(DL,DeepLearning)。7.基于深度學(xué)習(xí)模型大數(shù)據(jù)分析技術(shù)第62頁大數(shù)據(jù)存放技術(shù)大數(shù)據(jù)含有多源性、異構(gòu)性、規(guī)模性、動態(tài)增加性等特征,使得傳統(tǒng)基于關(guān)系數(shù)據(jù)庫存放技術(shù)已不能滿足大數(shù)據(jù)存放要求,對數(shù)據(jù)存放提出了更高要求:對性能要求檢索,數(shù)據(jù)資源共享等需求,要求存放設(shè)備高性能。對容量要求觀察數(shù)據(jù)、企業(yè)管理運行數(shù)據(jù)、中間計算結(jié)果數(shù)據(jù)、媒體數(shù)據(jù)、歷史數(shù)據(jù)等。對數(shù)據(jù)資源有效管理要求合理計算機數(shù)據(jù)管理軟件、管理策略、硬件設(shè)施等。對數(shù)據(jù)資源保護要求防止人為誤操作、設(shè)備損壞、災(zāi)害發(fā)生時丟失等。第63頁大數(shù)據(jù)存放技術(shù)大數(shù)據(jù)存放關(guān)鍵技術(shù)

數(shù)據(jù)可經(jīng)過許多方式來存放、獲取、處理和分析。每個大數(shù)據(jù)起源都有不一樣特征,包含數(shù)據(jù)頻率、量、速度、類型和真實性。處理并存放大數(shù)據(jù)時,會包括到更多維度,比如治理、安全性和策略。為了簡化各種大數(shù)據(jù)類型復(fù)雜性,可依據(jù)各種參數(shù)對大數(shù)據(jù)進行分類,以設(shè)計存放模式和選擇存放設(shè)備。依據(jù)大數(shù)據(jù)類型對業(yè)務(wù)問題進行分類業(yè)務(wù)問題可分類為不一樣大數(shù)據(jù)問題類型。將業(yè)務(wù)問題映射到它大數(shù)據(jù)類型。

下表列出了常見業(yè)務(wù)問題并為每個問題分配了一個大數(shù)據(jù)類型。第64頁業(yè)務(wù)問題大數(shù)據(jù)問題描述公用事業(yè):預(yù)測功耗機器生成數(shù)據(jù)公用事業(yè)企業(yè)推出了智慧儀表,按每小時或更短間隔定時測量水、天然氣和電力消耗。這些智慧儀表生成了需要分析大量間隔數(shù)據(jù)。公用事業(yè)企業(yè)還運行著昂貴而又復(fù)雜大型系統(tǒng)來發(fā)電。每個電網(wǎng)包含監(jiān)視電壓、電流、頻率和其它主要操作特征復(fù)雜傳感器。要提升操作效率,企業(yè)必須監(jiān)視傳感器所傳送數(shù)據(jù)。大數(shù)據(jù)處理方案能夠使用智慧儀表分析發(fā)電(供給)和電力消耗(需求)數(shù)據(jù)。電信:客戶流失分析Web和社交數(shù)據(jù)交易數(shù)據(jù)電信運行商需要構(gòu)建詳細客戶流失模型(包含社交媒體和交易數(shù)據(jù),以跟上競爭形勢。流失模型值取決于客戶屬性質(zhì)量(客戶主數(shù)據(jù),比如生日、性別、位置和收入)和客戶社交行為。實現(xiàn)預(yù)測分析戰(zhàn)略電信提供商可經(jīng)過分析用戶呼叫模式來管理和預(yù)測流失。市場營銷:情緒分析Web和社交數(shù)據(jù)營銷部門使用Twitter源來執(zhí)行情緒分析,方便確定用戶對企業(yè)及其產(chǎn)品或服務(wù)評價,尤其是在一個新產(chǎn)品或版本公布之后??蛻羟榫w必須與客戶概要數(shù)據(jù)相集成,才能得到有意義結(jié)果。依據(jù)客戶人口統(tǒng)計特征,客戶反饋可能有所不一樣??蛻舴?wù):呼叫監(jiān)視人類生成數(shù)據(jù)IT部門正在依靠大數(shù)據(jù)處理方案來分析應(yīng)用程序日志,方便獲取可提升系統(tǒng)性能洞察。來自各種應(yīng)用程序供給商日志文件含有不一樣格式;必須將它們標準化,然后IT部門才能使用它們。零售:基于面部識別和社交媒體個性化消息Web和社交數(shù)據(jù)生物識別零售商可結(jié)合使用面部識別技術(shù)和來自社交媒體照片,依據(jù)購置行為和位置向客戶提供個性化營銷信息。此功效對零售商忠誠度計劃含有很大影響,但它含有嚴格隱私限制。零售商需要在實現(xiàn)這些應(yīng)用程序之前進行適當隱私披露。零售和營銷:移動數(shù)據(jù)和基于位置目標機器生成數(shù)據(jù)交易數(shù)據(jù)零售商可依據(jù)位置數(shù)據(jù)為客戶提供特定促銷活動和優(yōu)惠券。處理方案通常意在在用戶進入一個店鋪時檢測用戶位置,或者經(jīng)過GPS檢測用戶位置。位置數(shù)據(jù)與來自社交網(wǎng)絡(luò)客戶偏好數(shù)據(jù)相結(jié)合,使零售商能夠依據(jù)購置歷史統(tǒng)計針對性地開展在線和店內(nèi)營銷活動。通知是經(jīng)過移動應(yīng)用程序、SMS和電子郵件提供。FSS、醫(yī)療保健:欺詐檢測機器生成數(shù)據(jù)交易數(shù)據(jù)人類生成數(shù)據(jù)欺詐管理可預(yù)測給定交易或客戶帳戶碰到欺詐可能性。處理方案可實時分析事務(wù),生成提議馬上執(zhí)行方法,這對阻止第三方欺詐、第一方欺詐和對帳戶特權(quán)蓄意濫用至關(guān)主要。處理方案通常意在檢測和阻止多個行業(yè)眾多欺詐和風(fēng)險類型,其中包含:信用卡和借記卡欺詐存款帳戶欺詐技術(shù)欺詐壞賬醫(yī)療欺詐醫(yī)療補助計劃和醫(yī)療保險欺詐財產(chǎn)和災(zāi)害保險欺詐工傷賠償欺詐保險欺詐電信欺詐第65頁按類型對大數(shù)據(jù)問題分類

輕易分析出每種數(shù)據(jù)特征。這些特征可幫助我們了解怎樣獲取數(shù)據(jù),怎樣將它處理為適當格式,以及新數(shù)據(jù)出現(xiàn)頻率。來自不一樣起源數(shù)據(jù)含有不一樣特征;比如,社交媒體數(shù)據(jù)包含不停傳入視頻、圖像和非結(jié)構(gòu)化文本(比如博客文章),依據(jù)這些常見特征來評定數(shù)據(jù)。內(nèi)容格式數(shù)據(jù)類型(比如,交易數(shù)據(jù)、歷史數(shù)據(jù)或主數(shù)據(jù))將提供該數(shù)據(jù)頻率意圖:數(shù)據(jù)需要怎樣處理(比如對數(shù)據(jù)暫時查詢)處理是否必須實時、近實時還是按批次執(zhí)行。大數(shù)據(jù)存放技術(shù)第66頁用大數(shù)據(jù)類型對大數(shù)據(jù)特征進行分類

按特定方向分析大數(shù)據(jù)特征會有所幫助,比如以下特征:數(shù)據(jù)怎樣搜集、分析和處理。對數(shù)據(jù)進行分類后,就能夠?qū)⑺c適當大數(shù)據(jù)模式匹配:分析類型—對數(shù)據(jù)執(zhí)行實時分析還是批量分析。請仔細考慮分析類型選擇,因為這會影響一些相關(guān)產(chǎn)品、工具、硬件、數(shù)據(jù)源和預(yù)期數(shù)據(jù)頻率其它決議。一些用例可能需要混合使用兩種類型:欺詐檢測:分析必須實時或近實時地完成。針對戰(zhàn)略性業(yè)務(wù)決議趨勢分析:分析可采取批量模式。處理方法—要應(yīng)用來處理數(shù)據(jù)技術(shù)類型(比如預(yù)測、分析、暫時查詢和匯報)。業(yè)務(wù)需求確定了適當處理方法。可結(jié)合使用各種技術(shù)。處理方法選擇,有利于識別要在大數(shù)據(jù)處理方案中使用適當工具和技術(shù)。大數(shù)據(jù)存放技術(shù)第67頁數(shù)據(jù)頻率和大小—預(yù)計有多少數(shù)據(jù)和數(shù)據(jù)抵達頻率多高。知道頻率和大小,有利于確定存放機制、存放格式和所需預(yù)處理工具。數(shù)據(jù)頻率和大小依賴于數(shù)據(jù)源:按需分析,與社交媒體數(shù)據(jù)一樣實時、連續(xù)提供(天氣數(shù)據(jù)、交易數(shù)據(jù))時序(基于時間數(shù)據(jù))數(shù)據(jù)類型—要處理數(shù)據(jù)類型—交易、歷史、主數(shù)據(jù)等。知道數(shù)據(jù)類型,有利于將數(shù)據(jù)隔離在存放中。內(nèi)容格式(傳入數(shù)據(jù)格式)結(jié)構(gòu)化(比如RDMBS)、非結(jié)構(gòu)化(比如音頻、視頻和圖像)或半結(jié)構(gòu)化。格式確定了需要怎樣處理傳入數(shù)據(jù),這是選擇工具、技術(shù)以及從業(yè)務(wù)角度定義處理方案關(guān)鍵。大數(shù)據(jù)存放技術(shù)第68頁數(shù)據(jù)源—數(shù)據(jù)起源(生成數(shù)據(jù)地方),比如Web和社交媒體、機器生成、人類生成等。識

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論