Eon-Cloud大數(shù)據(jù)平臺(tái)介紹_第1頁(yè)
Eon-Cloud大數(shù)據(jù)平臺(tái)介紹_第2頁(yè)
Eon-Cloud大數(shù)據(jù)平臺(tái)介紹_第3頁(yè)
Eon-Cloud大數(shù)據(jù)平臺(tái)介紹_第4頁(yè)
Eon-Cloud大數(shù)據(jù)平臺(tái)介紹_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余50頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Eon-Cloud大數(shù)據(jù)平臺(tái)介紹大數(shù)據(jù)技術(shù)Hadoop是目前大數(shù)據(jù)平臺(tái)中應(yīng)用率最高的技術(shù),已成為行業(yè)內(nèi)事實(shí)上的標(biāo)準(zhǔn),特別是針對(duì)諸如文本、社交媒體訂閱以及視頻等半/非結(jié)構(gòu)化數(shù)據(jù)。Hadoop兩大核心技術(shù)HDFS 和 MapReduce,解決大數(shù)據(jù)的存儲(chǔ)與計(jì)算2大數(shù)據(jù)技術(shù)(big data),指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具,需要特殊的技術(shù)和工具在合理時(shí)間實(shí)現(xiàn)數(shù)據(jù)的獲取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策價(jià)值數(shù)據(jù)。大數(shù)據(jù)最核心的價(jià)值就是在于對(duì)于海量數(shù)據(jù)進(jìn)行存儲(chǔ)和分析。大數(shù)據(jù)特點(diǎn)3體量大Volume多樣性Variety增長(zhǎng)速度快Velocity價(jià)值密度低Value非結(jié)構(gòu)化數(shù)

2、據(jù)的超大規(guī)模和增長(zhǎng)占總數(shù)據(jù)量的8090%比結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)快10倍到50倍是傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的10倍到50倍數(shù)據(jù)類型多樣化(文本、圖像、視頻、機(jī)器數(shù)據(jù))無(wú)模式或者模式不明顯不連貫的語(yǔ)法或句義價(jià)值密度低,大量的不相關(guān)信息對(duì)未來(lái)趨勢(shì)的可預(yù)測(cè)分析深度復(fù)雜分析(機(jī)器學(xué)習(xí)、人工智能Vs傳統(tǒng)商務(wù)智能(咨詢、報(bào)告等)短時(shí)間范圍內(nèi)以TB級(jí)別增長(zhǎng)實(shí)時(shí)分析而非批量式分析數(shù)據(jù)輸入、處理與丟棄立竿見影而非事后見效大數(shù)據(jù)下的商業(yè)智能4傳統(tǒng)BI結(jié)構(gòu)化數(shù)據(jù)關(guān)系型數(shù)據(jù)庫(kù)數(shù)據(jù)規(guī)模一般TB級(jí)集中式,數(shù)據(jù)向計(jì)算靠近批處理為主離線計(jì)算報(bào)表展示統(tǒng)計(jì)分析使用算法看數(shù)據(jù)大數(shù)據(jù)時(shí)代的BI半結(jié)構(gòu)+非結(jié)構(gòu)化數(shù)據(jù)+結(jié)構(gòu)化數(shù)據(jù)集群、分布式文件系統(tǒng)數(shù)據(jù)規(guī)模

3、從數(shù)十TB到PB級(jí)分布式,計(jì)算向數(shù)據(jù)靠近支持流式計(jì)算實(shí)時(shí)分析+離線計(jì)算智能決策自動(dòng)化分析依賴算法解讀數(shù)據(jù)Hadoop大數(shù)據(jù)介紹5HDFS集群6NameNode服務(wù)器客戶端機(jī)架1機(jī)架2DataNode服務(wù)器DataNode服務(wù)器DataNode服務(wù)器DataNode服務(wù)器打開文件415323241352541一個(gè)文件被分成很多的數(shù)據(jù)塊,存儲(chǔ)在多臺(tái)服務(wù)器上運(yùn)行的HDFS分布式文件系統(tǒng)中,每一個(gè)數(shù)據(jù)塊會(huì)有三個(gè)復(fù)本(缺省,可自定義)。例如:客戶端的一個(gè)文件被分成5個(gè)數(shù)據(jù)塊,存儲(chǔ)在HDFS集群DataNode服務(wù)器上。寫數(shù)據(jù)塊1復(fù)制123登記,查詢和管理文件系統(tǒng)命名空間,記錄MetaData元數(shù)據(jù)復(fù)制3

4、4寫完成5關(guān)閉文件1創(chuàng)建文件,進(jìn)行分片獲取數(shù)據(jù)庫(kù)定位及元數(shù)據(jù)2333讀讀讀4關(guān)閉文件數(shù)據(jù)大小超過(guò)一臺(tái)獨(dú)立計(jì)算機(jī)存儲(chǔ)能力時(shí),有必要對(duì)它進(jìn)行分區(qū),并存儲(chǔ)到多臺(tái)獨(dú)立的計(jì)算機(jī)上。管理網(wǎng)絡(luò)中多臺(tái)計(jì)算機(jī)存儲(chǔ)空間的文件系統(tǒng)稱為分布式文件系統(tǒng)。3八臺(tái)DataNode服務(wù)器,部署在兩個(gè)機(jī)架中。HDFS分布式文件系統(tǒng)7存儲(chǔ)“超大文件”,幾百GB或幾百TB,甚至到達(dá)PB級(jí),一個(gè)“超大文件”數(shù)據(jù)是分散的、冗余的存儲(chǔ)在HDFS分布式文件系統(tǒng)中。以流式數(shù)據(jù)訪問,一次寫入多次讀取,寫操作講數(shù)據(jù)追加到文件末尾,每次分析(讀)都將涉及數(shù)據(jù)集的大部分甚至全部的數(shù)據(jù)。不挑硬件,使用廉價(jià)的x86架構(gòu)的普通服務(wù)器,甚至可以使用PC,不

5、需要專業(yè)共享存儲(chǔ)設(shè)備。適合高數(shù)據(jù)吞吐量的分析應(yīng)用,不適合低延時(shí)數(shù)據(jù)訪問的分析應(yīng)用(使用HBase)。數(shù)據(jù)塊,HDFS進(jìn)行讀寫的最小單位,缺省64M,每個(gè)數(shù)據(jù)塊有三個(gè)副本。容忍節(jié)點(diǎn)故障,不丟失數(shù)據(jù),為大數(shù)據(jù)分布式計(jì)算提供數(shù)據(jù)存儲(chǔ)的場(chǎng)景。橫向擴(kuò)展,HDFS可以隨時(shí)進(jìn)行橫向擴(kuò)展節(jié)點(diǎn),增加存儲(chǔ)空間。Hadoop HDFS分布式文件系統(tǒng)特點(diǎn):HDFS存放數(shù)據(jù)(復(fù)本怎么放)8DataNode服務(wù)器DataNode服務(wù)器AAAA數(shù)據(jù)塊機(jī)架1機(jī)架2數(shù)據(jù)塊存放原則首先,HDFS選擇一臺(tái)服務(wù)器,寫入數(shù)據(jù)塊A在同一臺(tái)機(jī)器上,寫入一個(gè)副本A同一個(gè)機(jī)架上另外一臺(tái)服務(wù)器上,寫入數(shù)據(jù)塊副本A最后,不同機(jī)架的一臺(tái)服務(wù)器上,寫

6、入數(shù)據(jù)塊副本AAHadoop MapReduce 計(jì)算9文件(流數(shù)據(jù)):每個(gè)商品不同區(qū)域的訂單數(shù)量數(shù)據(jù)前三位是商品編號(hào),后三位是訂單數(shù)量167100143002167011143260143017172088143012172007( 0,167100)( 7,143002)(14,167011)(21,143260)(28,143017)(35,172088)(42,143012)(49,172007)輸入(167,100)(143, 2)(167,11)(143,260)(143,17)(172,88)(143,12)(172, 7)(167,100,11)(143, 2,260,17,1

7、2)(172,88,7)(167,111)(143, 291)(172,95)167,111143,291172,95Map 映射函數(shù)Reduce化簡(jiǎn)函數(shù)Sort輸出文件中是某個(gè)電商平臺(tái),每個(gè)商品每天的訂單數(shù)量,現(xiàn)在需要統(tǒng)計(jì)某段時(shí)間內(nèi),每個(gè)商品的訂單總數(shù):輸入文件數(shù)據(jù),整理為(key,value)數(shù)據(jù)格式,Key為行的偏移量;通過(guò)Map函數(shù),提取出來(lái)產(chǎn)品編號(hào)(1至3列)和訂單數(shù)量(4至6列);通過(guò)Sort,整理出來(lái)(key,value)每個(gè)訂單的元組信息(產(chǎn)品編號(hào),訂單數(shù)量,訂單數(shù)量,訂單數(shù)量,;通過(guò)Reduce函數(shù),把每個(gè)商品的訂單數(shù)量求和,并輸出結(jié)果;易用云大數(shù)據(jù)平臺(tái)10易用云大數(shù)據(jù)平臺(tái)1

8、1HBase列族數(shù)據(jù)庫(kù)HDFS 分布式文件系統(tǒng)Hive數(shù)據(jù)倉(cāng)庫(kù)Pig分析工具YARN處理框架數(shù)據(jù)層Storm內(nèi)存流式計(jì)算框架Hadoop離線計(jì)算框架Spark 并行計(jì)算框架計(jì)算層業(yè)務(wù)引擎基礎(chǔ)設(shè)施數(shù)據(jù)引擎引擎層Oracle點(diǎn)擊流日志其他數(shù)據(jù)接口MySQLSQL Server抽取層分布式數(shù)據(jù)庫(kù)數(shù)據(jù)推送權(quán)限管理任務(wù)管理關(guān)系型數(shù)據(jù)庫(kù)數(shù)據(jù)展現(xiàn)Flume & Sqoop序列化配置管理文件其他分布式文件系統(tǒng)ETL清洗外部數(shù)據(jù)接口代理管理數(shù)據(jù)管理HA管理結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù)、機(jī)器數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)、機(jī)器數(shù)據(jù)NoSQL數(shù)據(jù)庫(kù)平臺(tái)提供的功能12提供Hadoop大數(shù)據(jù)開發(fā)和運(yùn)行環(huán)境;提供大數(shù)據(jù)的HDFS分布式文件系統(tǒng)存儲(chǔ)及

9、針對(duì)于小文件優(yōu)化后的分布式文件系統(tǒng);提供Hadoop Hive、HBase、Pig等組件功能,提供NoSQL數(shù)據(jù)庫(kù)服務(wù)功能;提供Storm實(shí)時(shí)數(shù)據(jù)分析計(jì)算框架環(huán)境;提供Spark并行計(jì)算框架環(huán)境;提供機(jī)器冷數(shù)據(jù)(非業(yè)務(wù)數(shù)據(jù))的數(shù)據(jù)分析引擎和算法工具;提供行業(yè)業(yè)務(wù)數(shù)據(jù)的大數(shù)據(jù)分析引擎;提供數(shù)據(jù)展現(xiàn)工具;提供大數(shù)據(jù)云化服務(wù)平臺(tái),封裝數(shù)據(jù)接口服務(wù)和大數(shù)據(jù)分析云服務(wù)以及大數(shù)據(jù)讀寫存儲(chǔ)云服務(wù)平臺(tái)提供業(yè)務(wù)能力13大數(shù)據(jù)開發(fā)運(yùn)行環(huán)境大數(shù)據(jù)行業(yè)業(yè)務(wù)數(shù)據(jù)服務(wù)大數(shù)據(jù)平臺(tái)云服務(wù)大數(shù)據(jù)日志分析系統(tǒng)零售行業(yè)大數(shù)據(jù)分析引擎其他行業(yè)大數(shù)據(jù)分析業(yè)務(wù)如何構(gòu)建大數(shù)據(jù)?建議流程14第一步,數(shù)據(jù)抽取并存儲(chǔ)15Oracle點(diǎn)擊流日志其

10、他數(shù)據(jù)接口MySQLSQL Server分布式數(shù)據(jù)庫(kù)Flume & Sqoop序列化ETL清洗HDFS 分布式文件系統(tǒng)結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化 / 非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù),通過(guò)兩種途徑抽取并存放到HDFS分布式文件系統(tǒng)中:能夠序列化的數(shù)據(jù),直接存放到HDFS中;不能夠序列化的數(shù)據(jù),通過(guò)數(shù)據(jù)整理后統(tǒng)一存放在分布式數(shù)據(jù)庫(kù)環(huán)境中,再經(jīng)過(guò)序列化后再存放到HDFS中,經(jīng)整理后還不能序列化的數(shù)據(jù)也直接存放到HDFS中;半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù):各種日志數(shù)據(jù)(通常序列化半結(jié)構(gòu)化數(shù)據(jù))直接存放到HDFS中;點(diǎn)擊流和數(shù)據(jù)接口中的數(shù)據(jù)(通常序列化半結(jié)構(gòu)化數(shù)據(jù))直接存放到HDFS中;非結(jié)構(gòu)化的數(shù)據(jù)直接存放到HDFS中;No

11、SQL數(shù)據(jù)處理16OracleMySQLSQL Server分布式數(shù)據(jù)庫(kù)Flume & SqoopETL數(shù)據(jù)處理結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)處理要解決的問題:重復(fù)的數(shù)據(jù)處理缺失的數(shù)據(jù)處理格式不統(tǒng)一的數(shù)據(jù)處理檢查數(shù)據(jù)邏輯錯(cuò)誤需要進(jìn)行計(jì)算的數(shù)據(jù)處理數(shù)據(jù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)化、數(shù)據(jù)提取、數(shù)據(jù)計(jì)算等處理方法。數(shù)據(jù)處理最基本的目的是從大量雜亂無(wú)章、難以理解的數(shù)據(jù)中,抽取并推導(dǎo)出對(duì)解決問題有價(jià)值、有意義的數(shù)據(jù)。數(shù)據(jù)處理對(duì)收集到的數(shù)據(jù)進(jìn)行加工整理,形成適合數(shù)據(jù)分析的樣式,是數(shù)據(jù)分析前必須經(jīng)歷的過(guò)程。數(shù)據(jù)清洗數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)提取數(shù)據(jù)計(jì)算第二步,數(shù)據(jù)規(guī)劃17HDFS分布式文件系統(tǒng)中存放海量的結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),合理化組織數(shù)

12、據(jù):結(jié)構(gòu)化和有一定格式關(guān)系的半結(jié)構(gòu)化的數(shù)據(jù)存放在Hadoop Hive數(shù)據(jù)倉(cāng)庫(kù)中,Hive是一個(gè)構(gòu)建在Hadoop上的數(shù)據(jù)倉(cāng)庫(kù)框架,可以通過(guò)SQL語(yǔ)句進(jìn)行統(tǒng)計(jì)分析查詢;結(jié)構(gòu)化和有一定格式關(guān)系的半結(jié)構(gòu)化數(shù)據(jù)存放在Hadoop HBase列族數(shù)據(jù)中;Hadoop Pig分析工具直接查詢和分析存放在HDFS分布式文件系統(tǒng)中的數(shù)據(jù),Pig Latin程序(與SQL語(yǔ)言很類似)可以直接把查詢分析轉(zhuǎn)換成MapReduce程序執(zhí)行,幫助用戶更多的精力放在數(shù)據(jù)上,而不是放在程序的編寫上;HBase列族數(shù)據(jù)庫(kù)HDFS 分布式文件系統(tǒng)Hive數(shù)據(jù)倉(cāng)庫(kù)Pig分析工具YARN處理框架數(shù)據(jù)層NoSQL數(shù)據(jù)庫(kù)第三步,大數(shù)

13、據(jù)計(jì)算框架18Storm內(nèi)存流式計(jì)算框架Hadoop離線計(jì)算框架Spark 并行計(jì)算框架計(jì)算層Storm實(shí)時(shí)大數(shù)據(jù)分析:一個(gè)分布式的、容錯(cuò)的、實(shí)時(shí)的內(nèi)存流式計(jì)算系統(tǒng);Hadoop離線大數(shù)據(jù)分析:大數(shù)據(jù)離線批處理系統(tǒng),Spark并行大數(shù)據(jù)計(jì)算:Hadoop MapReduce的通用的并行計(jì)算,擁有Hadoop MapReduce所具有的優(yōu)點(diǎn);但不同于MapReduce的是Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的map reduce的算法。適用于實(shí)時(shí)查詢分析適用于離線的大數(shù)據(jù)統(tǒng)計(jì)分析適用于大數(shù)據(jù)并行計(jì)算針對(duì)查詢分析的實(shí)

14、時(shí)性和延時(shí)需求,可選擇不同的大數(shù)據(jù)計(jì)算框架構(gòu)建查詢分析業(yè)務(wù):第四步,大數(shù)據(jù)分析引擎19業(yè)務(wù)引擎基礎(chǔ)設(shè)施數(shù)據(jù)引擎引擎層數(shù)據(jù)推送關(guān)系型數(shù)據(jù)庫(kù)數(shù)據(jù)展現(xiàn)文件其他分布式文件系統(tǒng)外部數(shù)據(jù)接口行業(yè)業(yè)務(wù)屬性決定計(jì)算的邏輯,計(jì)算數(shù)學(xué)是實(shí)現(xiàn)計(jì)算邏輯的方法(利用數(shù)學(xué)領(lǐng)域的算法和理論)數(shù)據(jù)分析不僅僅指運(yùn)算數(shù)據(jù),還包括全面了解數(shù)據(jù)分析所處的背景和環(huán)境數(shù)據(jù)分析結(jié)果可以保存在多種結(jié)構(gòu)中數(shù)據(jù)也可以在不同的分布式集群之間進(jìn)行傳輸、復(fù)制、同步數(shù)據(jù)分析結(jié)果可以通過(guò)多種展現(xiàn)形式(表格、各種展現(xiàn)圖)進(jìn)行數(shù)據(jù)展現(xiàn)行業(yè)屬性 + 算法 = 業(yè)務(wù)數(shù)據(jù)分析引擎(幫助用戶自動(dòng)化分析大數(shù)據(jù))基礎(chǔ)設(shè)施數(shù)據(jù)引擎(機(jī)器數(shù)據(jù)引擎、日志數(shù)據(jù)引擎)數(shù)據(jù)分析20

15、數(shù)據(jù)分析方法論數(shù)據(jù)分析方法論主要從宏觀角度指導(dǎo)如何進(jìn)行數(shù)據(jù)分析,數(shù)據(jù)分析的前期規(guī)劃,指導(dǎo)后期數(shù)據(jù)分析工作的開展,而數(shù)據(jù)分析法則是指具體的分析方法。數(shù)據(jù)分析法主要從微觀角度指導(dǎo)如何進(jìn)行數(shù)據(jù)分析。營(yíng)銷方面的理論模型有:4P、用戶使用行為、STP理論、SWOT等。管理方面的理論模型有:PEST、5W2H、時(shí)間管理、生命周期、邏輯樹、金字塔、SMART原則等。其中PEST、5W2T、邏輯樹、4P、用戶使用行為等理論應(yīng)用比較廣泛。21PEST分析法22企業(yè)經(jīng)濟(jì)環(huán)境Economic政治環(huán)境Political經(jīng)濟(jì)環(huán)境Economic技術(shù)環(huán)境TechnologicalPEST分析法用于對(duì)宏觀環(huán)境的分析,指影響

16、一切行業(yè)和經(jīng)營(yíng)需要的各種宏觀力量。由于不同行業(yè)和企業(yè)有其自身特點(diǎn)和經(jīng)營(yíng)需要,分析的具體內(nèi)容會(huì)有差異,但是一般都從政治、經(jīng)濟(jì)、技術(shù)和社會(huì)這四大類影響企業(yè)的主要外部環(huán)境因素進(jìn)行分析。5W2H分析法23Why何因How如何做Where何地What何事廣泛應(yīng)用于企業(yè)營(yíng)銷、管理活動(dòng);對(duì)于決策和執(zhí)行的活動(dòng)措施非常有幫助,也有助于彌補(bǔ)考慮問題的疏漏;對(duì)于任何事情的分析都可以從這七個(gè)方面去思考,指導(dǎo)建立數(shù)據(jù)分析框架;5W2H分析法Who何人How much何價(jià)When何時(shí)Why用戶購(gòu)買行為分析WhatWhoWhenWhereHowHow much用戶購(gòu)買的目的是什么?產(chǎn)品在哪方面吸引用戶?在用戶購(gòu)買行為分析上

17、的應(yīng)用公司提供什么產(chǎn)品或服務(wù)?與用戶需求是否一直?誰(shuí)是我們的用戶?用戶有何特點(diǎn)?何時(shí)購(gòu)買?多久再次購(gòu)買?用戶在哪里購(gòu)買?用戶在各地區(qū)的構(gòu)成怎樣?用戶購(gòu)買支付方式是怎樣?用戶購(gòu)買花費(fèi)的時(shí)間、交通等成本各是多少?數(shù)據(jù)分析24數(shù)據(jù)分析描述性數(shù)據(jù)分析EDA探索性數(shù)據(jù)分析CDA驗(yàn)證性數(shù)據(jù)分析初級(jí)數(shù)據(jù)分析,使用常見的分析方法數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法,對(duì)收集來(lái)的大量數(shù)據(jù)進(jìn)行分析,提取出有價(jià)值的信息,總結(jié)出所研究對(duì)象的內(nèi)在規(guī)律。側(cè)重在數(shù)據(jù)之中發(fā)現(xiàn)新的特征,高級(jí)數(shù)據(jù)分析側(cè)重于驗(yàn)證已有假設(shè)是否成立,高級(jí)數(shù)據(jù)分析數(shù)據(jù)分析計(jì)算方式25傳統(tǒng)的數(shù)據(jù)分析計(jì)算方式:各種數(shù)據(jù)運(yùn)算,把數(shù)據(jù)整理成可以讓人理解的內(nèi)容;快速傅

18、立葉變換(FFT)及平滑和濾波把離散的數(shù)據(jù)變成可視化和可以理解的數(shù)據(jù)曲線;基線和峰值分析可以幫助用戶看到數(shù)據(jù)的發(fā)展趨勢(shì)及可預(yù)見的最高和最低值;數(shù)據(jù)分析作用26數(shù)據(jù)分析作用描述基本方法數(shù)據(jù)分析方法現(xiàn)狀分析分析過(guò)去發(fā)生了什么。通過(guò)日常通報(bào)(日、周、月報(bào)等形式)對(duì)比對(duì)比分析平均分析綜合評(píng)價(jià)分析原因分析分析某一個(gè)現(xiàn)狀為什么發(fā)生。一般通過(guò)專題分析來(lái)完成,根據(jù)企業(yè)運(yùn)營(yíng)情況選擇針對(duì)某一現(xiàn)狀進(jìn)行原因分析細(xì)分分組分析、結(jié)構(gòu)分析、交叉分析、杜邦分析、漏斗圖分析、矩陣關(guān)聯(lián)分析、聚類分析預(yù)測(cè)分析分析將來(lái)會(huì)發(fā)生什么。一般通過(guò)專題分析來(lái)完成,通常在制定企業(yè)季度、年度等計(jì)劃時(shí)進(jìn)行預(yù)測(cè)回歸分析、時(shí)間序列、決策樹、神經(jīng)網(wǎng)絡(luò)高級(jí)

19、數(shù)據(jù)分析方法27研究方向數(shù)據(jù)分析方法產(chǎn)品研究相關(guān)分析、對(duì)應(yīng)分析、判別分析、結(jié)合分析、多維尺度分析等品牌研究相關(guān)分析、聚類分析、判別分析、因子分析、對(duì)應(yīng)分析、多維尺度分析等價(jià)格研究相關(guān)分析、PSM價(jià)格分析等市場(chǎng)細(xì)分聚類分析、判別分析、因子分析、對(duì)應(yīng)分析、多維尺度分析、Logistic回歸、決策樹等滿意度研究相關(guān)分析、回歸分析、主成分分析、因子分析、結(jié)構(gòu)方程等用戶研究相關(guān)分析、聚類分析、判別分析、因子分析、對(duì)應(yīng)分析、Logistic回歸、決策樹、關(guān)聯(lián)規(guī)則等預(yù)測(cè)決策回歸分析、決策樹、神經(jīng)網(wǎng)絡(luò)、時(shí)間序列、Logistic回歸等高級(jí)數(shù)據(jù)分析方法不一定是最好的方法,能夠簡(jiǎn)單有效解決問題的方法才是最好!綜合

20、評(píng)價(jià)分析法綜合評(píng)價(jià)分析法的基本思想是講多個(gè)指標(biāo)轉(zhuǎn)化為一個(gè)能夠反映綜合情況的指標(biāo)來(lái)進(jìn)行分析評(píng)價(jià),通常有5個(gè)步驟。281. 確定綜合評(píng)價(jià)指標(biāo)體系,既包含哪些指標(biāo),是綜合評(píng)價(jià)的基礎(chǔ)和依據(jù)。2. 收集數(shù)據(jù),并對(duì)不同計(jì)量單位的指標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。3. 確定指標(biāo)體系中各指標(biāo)的權(quán)重,以保證評(píng)價(jià)的科學(xué)性。4. 對(duì)經(jīng)處理后的指標(biāo)再進(jìn)行匯總計(jì)算出綜合評(píng)價(jià)指數(shù)或綜合評(píng)價(jià)分值。5. 根據(jù)評(píng)價(jià)指數(shù)或分值對(duì)參評(píng)單位進(jìn)行排序,并由此得出結(jié)論。評(píng)價(jià)過(guò)程不是逐個(gè)指標(biāo)順次完成的,而是通過(guò)一些特殊方法講多個(gè)指標(biāo)的評(píng)價(jià)同時(shí)完成在綜合評(píng)價(jià)過(guò)程中,一般要根據(jù)指標(biāo)的重要性進(jìn)行加權(quán)處理評(píng)價(jià)結(jié)果不再是具有具體含義的統(tǒng)計(jì)指標(biāo),而以指數(shù)或分值

21、表示參評(píng)單位綜合狀況的排序數(shù)據(jù)挖掘29數(shù)據(jù)挖掘30數(shù)據(jù)挖掘是有組織、有目的地收集數(shù)據(jù),通過(guò)分析數(shù)據(jù)使之成為信息,從而從大量數(shù)據(jù)中尋找潛在規(guī)律以形成規(guī)則或知識(shí)的技術(shù)。數(shù)據(jù)挖掘是一種高級(jí)的數(shù)據(jù)分析方法,是傳統(tǒng)數(shù)據(jù)分析和統(tǒng)計(jì)分析方法學(xué)的延伸或擴(kuò)展,基于完善的數(shù)學(xué)理論和高超的技巧。數(shù)據(jù)挖掘側(cè)重解決四類數(shù)據(jù)分析問題:分類、聚類、關(guān)聯(lián)和預(yù)測(cè),重點(diǎn)在尋找模式與規(guī)律。數(shù)據(jù)挖掘中的數(shù)據(jù)模型是一個(gè)預(yù)測(cè)和概率模型,但不會(huì)告訴用戶為什么會(huì)這樣,數(shù)據(jù)挖掘的運(yùn)作不是用于驗(yàn)證某個(gè)假定的模式或者模型的正確性,而是通過(guò)數(shù)據(jù)挖掘方法讓模型自動(dòng)形成,也就是說(shuō)在本質(zhì)上數(shù)據(jù)挖掘是一個(gè)歸納的過(guò)程。數(shù)據(jù)分析和數(shù)據(jù)挖掘的區(qū)別數(shù)據(jù)分析主要是一

22、個(gè)假設(shè)檢驗(yàn)的過(guò)程,是一個(gè)嚴(yán)重依賴數(shù)據(jù)分析師手工作業(yè)的過(guò)程;數(shù)據(jù)挖掘一般是再?zèng)]有明確假設(shè)的前提下整理數(shù)據(jù)、挖掘信息、發(fā)現(xiàn)知識(shí)。數(shù)據(jù)挖掘是人驅(qū)使機(jī)器(機(jī)器學(xué)習(xí)算法)挖掘知識(shí)的過(guò)程,在挖掘之前目標(biāo)并不一定明確;數(shù)據(jù)分析以統(tǒng)計(jì)學(xué)的算法為主,分類和預(yù)測(cè)是兩種數(shù)據(jù)分析形式,抽取能夠描述重要數(shù)據(jù)的集合或者預(yù)測(cè)未來(lái)數(shù)據(jù)趨勢(shì)的模型中的樣本;而數(shù)據(jù)挖掘不僅僅需要統(tǒng)計(jì)學(xué),還需要大量使用機(jī)器學(xué)習(xí)、人工智能和模式識(shí)別領(lǐng)域的算法。數(shù)據(jù)挖掘也需要數(shù)據(jù)分析的算法和思路,只是用新的方法重新組織實(shí)施;31數(shù)據(jù)挖掘算法分類32數(shù)據(jù)挖掘領(lǐng)域有大量基于海量數(shù)據(jù)的分類問題,對(duì)于分類問題的解決就是生成分類器的過(guò)程。支持向量機(jī)(SVM)神經(jīng)

23、網(wǎng)絡(luò)K最近鄰算法(kNN)決策樹(if-then)數(shù)據(jù)挖掘算法聚類33聚類的目的也是把所有對(duì)象分成不同的群體,但是和分類算法最大不同是聚類算法劃分之前并不知道要把數(shù)據(jù)分成多少組,也不知道依賴哪些變量進(jìn)行數(shù)據(jù)劃分。聚類算法有很多種,K-means聚類算法(K均值)比較常用。滿足方差最小標(biāo)準(zhǔn)的K個(gè)聚類K-means聚類算法數(shù)據(jù)挖掘算法關(guān)聯(lián)規(guī)則34所謂關(guān)聯(lián),反映的是一個(gè)事件和其他事件之間依賴或關(guān)聯(lián)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)等。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)中隱藏的關(guān)聯(lián)網(wǎng)。關(guān)聯(lián)規(guī)則算法關(guān)聯(lián)規(guī)則(支持度置信度)的發(fā)現(xiàn)過(guò)程分為兩步:第一步

24、是迭代識(shí)別所有的頻繁項(xiàng)目集(Frequent Itemsets),要求頻繁項(xiàng)目集的支持度不低于用戶設(shè)定的最低值;第二步是從頻繁項(xiàng)目集中構(gòu)造置信度不低于用戶設(shè)定的最低值的規(guī)則,產(chǎn)生關(guān)聯(lián)規(guī)則。識(shí)別或發(fā)現(xiàn)所有頻繁項(xiàng)目集是關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法的核心,也是計(jì)算量最大的部分;數(shù)據(jù)挖掘算法序列35在數(shù)據(jù)挖掘中的序列挖掘指的是從一個(gè)序列中的數(shù)據(jù)找出統(tǒng)計(jì)規(guī)律。根據(jù)時(shí)間序列型數(shù)據(jù),由歷史和當(dāng)前的數(shù)據(jù)去推測(cè)未來(lái)的數(shù)據(jù)。時(shí)間序列算法例如,基于事件的實(shí)際問題:一個(gè)客戶購(gòu)買了車,那么他很可能需要在一周內(nèi)去購(gòu)買汽車保險(xiǎn);可以根據(jù)前12個(gè)月的轉(zhuǎn)化率和收入情況,預(yù)估出第13個(gè)月的總體轉(zhuǎn)化率和收入情況;大數(shù)據(jù)分析方向36Mutil

25、Data SourceSemantic EnginesAnalytic VisualizationsData Mining AlgorithmsPredictive Analytic CapabilitiesData Quality and Master Data Management可視化分析數(shù)據(jù)挖掘算法預(yù)測(cè)性分析能力語(yǔ)義引擎數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理數(shù)據(jù)來(lái)源多樣化算法研究37參考案例38案例一. 分析氣象大數(shù)據(jù)390067011990999991950051507004+68750+023550FM-12+038299999V0203301N00671220001CN9999999N9+0081+

26、999999999990043011990999991955051512004+68750+023550FM-12+038299999V0203201N00671220001CN9999999N9+0221+999999999990043011990999991955051518004+68750+023550FM-12+038299999V0203201N00261220001CN9999999N9+0111+999999999990043012650999991949032412004+62300+010750FM-12+048599999V0202701N00461220001CN050

27、0001N9+0171+999999999990043012650999991949032418004+62300+010750FM-12+048599999V0202701N00461220001CN0500001N9+0306+999999999990067011990999991952051507004+68750+023550FM-12+038299999V0203301N00671220001CN9999999N9+0131+999999999990043011990999991952051512004+68750+023550FM-12+038299999V0203201N0067

28、1220001CN9999999N9+0221+999999999990043011990999991950051518004+68750+023550FM-12+038299999V0203201N00261220001CN9999999N9+0265+999999999990043012650999991953032412004+62300+010750FM-12+048599999V0202701N00461220001CN0500001N9+0336+999999999990043012650999991955032418004+62300+010750FM-12+048599999V

29、0202701N00461220001CN0500001N9+0218+999999999990043011990999991953051512004+68750+023550FM-12+038299999V0203201N00671220001CN9999999N9+0221+999999999990043011990999991955051518004+68750+023550FM-12+038299999V0203201N00261220001CN9999999N9+0239+999999999990043012650999991952032412004+62300+010750FM-1

30、2+048599999V0202701N00461220001CN0500001N9+0336+999999999990043012650999991951032418004+62300+010750FM-12+048599999V0202701N00461220001CN0500001N9+0268+999999999990043011990999991949051512004+68750+023550FM-12+038299999V0203201N00671220001CN9999999N9+0276+999999999990043011990999991950051518004+6875

31、0+023550FM-12+038299999V0203201N00261220001CN9999999N9+0318+99999999999美國(guó)國(guó)家氣候數(shù)據(jù)中心NCDC,分布在全球各地的氣象傳感器(幾萬(wàn))每天收集氣象數(shù)據(jù),其中有年份和溫度數(shù)據(jù)(+-代表零上零下,氣溫除以10是實(shí)際氣溫)。全球的從1901年到2001年100年的氣象數(shù)據(jù)大約200-300TB,以下是樣例數(shù)據(jù):大數(shù)據(jù)分析需求:統(tǒng)計(jì)分析出每年氣溫最高的記錄是多少?案例一. 分析氣象大數(shù)據(jù)4019500515+008119550515+022119550515+011119500324+017119500324+0306195205

32、15+013119520515+022119500515+026519530324+033619550324+021819530515+022119550515+023919520324+033619510324+026819500515+027619500515+031819500515+008119550515+022119520515+011119500324+017119500324+030619520515+013119520515+022119500515+026519530324+033619550324+021819530515+022119550515+02391952032

33、4+033619510324+026819500515+027619500515+0318對(duì)氣象數(shù)據(jù)進(jìn)行切片,分成四份存放到Hadoop HDFS分布式文件系統(tǒng)中;分別放在四臺(tái)計(jì)算機(jī)中,每臺(tái)計(jì)算機(jī)占用一個(gè)數(shù)據(jù)塊的空間;每一個(gè)塊運(yùn)行一個(gè)Map函數(shù);計(jì)算機(jī)1計(jì)算機(jī)2計(jì)算機(jī)3計(jì)算機(jī)4案例一. 分析氣象大數(shù)據(jù)4119500515+008119550515+022119550515+011119500324+017119500324+030619520515+013119520515+022119500515+026519530324+033619550324+021819530515+02211955

34、0515+023919520324+033619510324+026819500515+027619500515+0318計(jì)算機(jī)1計(jì)算機(jī)2計(jì)算機(jī)3計(jì)算機(jī)4(1950,81)(1955,221)(1955,111)(1950,171)(1950,306)(1952,131)(1952,221)(1950,265)(1953,336)(1955,218)(1953,221)(1955,239)(1952,336)(1951,268)(1950,276)(1950,318)(1950,81,171)(1955,221,111)(1950,81,171)(1950,306,265)(1950,276,

35、318)(1952,131,221)(1952,336,221)(1950,81,171,306,265,276,318)(1952,131,221,336,221)ReduceMapMap(1950,306,265)(1952,131,221)Map(1953,336,221)(1955,218,239)Map(1952,336,221)(1955,268,111)(1950,276,318)(1955,221,111)(1953,336,211)(1955,218,239)(1955,268,111)Reduce(1955,221,111,218,239,268,111)(1953,336

36、,211)(1950,318)(1952,336)(1955,268)(1953,336)輸出結(jié)果輸出結(jié)果分類拷貝Merge合并Merge合并計(jì)算每年的最高氣溫分類分類分類分類案例二. 統(tǒng)計(jì)論文引用42Hello World Bye WorldHello Hadoop Bye HadoopBye Hadoop Hello Hadoop海量論文數(shù)據(jù),每篇論文結(jié)尾都有引文(引用和參考了哪些論文和文章)。統(tǒng)計(jì)引文中,論文關(guān)鍵字被引用的數(shù)次;例如:Hello World Bye WorldHello Hadoop Bye HadoopBye Hadoop Hello Hadoop計(jì)算機(jī)1計(jì)算機(jī)2計(jì)算機(jī)

37、3數(shù)據(jù)切分為三個(gè)切片,存放在3臺(tái)服務(wù)器上的HDFS分布式文件系統(tǒng)中案例二. 統(tǒng)計(jì)論文引用43Hello World Bye WorldHello Hadoop Bye HadoopBye Hadoop Hello Hadoop計(jì)算機(jī)1計(jì)算機(jī)2計(jì)算機(jī)3MapMapMap(Hello,1)(World,2)(Bye,1)(Hello,1)(Hadoop,2)(Bye,1)(Bye,1)(Hadoop,2)(Hello,1)(Hello,1,1,1)(World,2)(Bye,1,1,1)(Hadoop,2,2)Reduce(Hello,3)(World,2)(Bye,3)(Hadoop,4)分類合

38、并輸出結(jié)果求和關(guān)鍵詞計(jì)數(shù)案例三. 電商大數(shù)據(jù)精準(zhǔn)營(yíng)銷44性別年齡教育程度星座腰圍身高體型家中是否有孕婦孩子年齡是否有孩子孩子性別是否有車是否有房用戶的關(guān)系網(wǎng)婚否收入活躍程度購(gòu)物類型評(píng)價(jià)關(guān)注程度顏色偏好品牌偏好家電的潛在購(gòu)買需求促銷敏感度購(gòu)物忠誠(chéng)度購(gòu)買力消費(fèi)信用水平所屬購(gòu)買群體基本屬性購(gòu)買能力行為特征社交網(wǎng)絡(luò)心理特征興趣愛好案例三. 電商大數(shù)據(jù)精準(zhǔn)營(yíng)銷45海淘猶豫型理性比較型購(gòu)物沖動(dòng)型目標(biāo)明確型用戶瀏覽SKU數(shù)量用戶瀏覽至購(gòu)買的時(shí)長(zhǎng)學(xué)校公司家網(wǎng)吧用戶分群網(wǎng)購(gòu)達(dá)人有房一族家庭用戶單身貴族時(shí)尚男女奶爸奶媽閃購(gòu)用戶超級(jí)用戶電腦達(dá)人數(shù)碼潮人案例三. 電商大數(shù)據(jù)精準(zhǔn)營(yíng)銷46性別:男年齡:26-35購(gòu)買力:

39、高收入:8000需要:商務(wù)機(jī)價(jià)位:4000顏色:黑/紅用戶畫像個(gè)性化搜索體系個(gè)性化推薦體系千人千面情感分析個(gè)性化推薦系統(tǒng)47推薦系統(tǒng)從推薦的形式來(lái)看,亞馬遜把推薦服務(wù)應(yīng)用到了網(wǎng)站的每一個(gè)角落,從首頁(yè)到產(chǎn)品內(nèi)頁(yè)無(wú)所不至;而在推薦方法技術(shù)上,亞馬遜也綜合了多種類型的推薦服務(wù),有的基于項(xiàng)目相似性和相關(guān)性,有的基于客戶瀏覽和購(gòu)買歷史記錄,也有的基于協(xié)同過(guò)濾等技術(shù)。亞馬遜能夠根據(jù)客戶當(dāng)前所查看頁(yè)面的類型和內(nèi)容、當(dāng)前和之前關(guān)注的產(chǎn)品信息等內(nèi)容動(dòng)態(tài)地組合這些推薦服務(wù)。銷售額 = 訪客數(shù) * 轉(zhuǎn)化率 * 客單價(jià),提升網(wǎng)店的總收入需要在其中的一個(gè)或者多個(gè)數(shù)據(jù)點(diǎn)上面下功夫,當(dāng)電子商務(wù)網(wǎng)站的老客戶的比例比較高的時(shí)候

40、,轉(zhuǎn)化率比較高,所以提升老客戶的活躍度是提升轉(zhuǎn)化率從而增加整體收入的一個(gè)有效手段。48推薦系統(tǒng),根據(jù)不同客戶的興趣特點(diǎn)和購(gòu)買行為,預(yù)測(cè)客戶對(duì)某種商品感興趣的程度,向客戶推薦商品信息或提供個(gè)性化商品,引導(dǎo)客戶購(gòu)買。幫助客戶找到感興趣的、愿意購(gòu)買某樣商品的興奮點(diǎn),形成購(gòu)買行為;推薦系統(tǒng)的作用可以幫助建立客戶忠誠(chéng)度(可以更愿意買到最能滿足需求的商品)挖掘老客戶的價(jià)值二八定律,企業(yè)80%的業(yè)務(wù)收入通常來(lái)自20%的客戶向新客戶推銷的費(fèi)用要數(shù)倍甚至數(shù)十倍于向現(xiàn)有客戶推銷的花費(fèi)通過(guò)數(shù)據(jù)分析,可以發(fā)現(xiàn)什么樣的客戶群體在什么時(shí)間范圍,購(gòu)買什么樣的商品,平均支出是多少,最喜歡的商品是什么類型對(duì)于新推出的產(chǎn)品哪些客

41、戶可能會(huì)購(gòu)買,哪些客戶是最需要留住進(jìn)行深度營(yíng)銷和人性化關(guān)懷的49協(xié)同過(guò)濾算法 推測(cè)同類用戶的行為50幫助用戶在海量的互聯(lián)網(wǎng)信息(商品)中找出該用戶會(huì)感興趣的內(nèi)容,找出關(guān)聯(lián)商品推薦。一般來(lái)說(shuō),做推薦系統(tǒng)的數(shù)據(jù)一般分兩種,一種從在線的讀取,比如用戶產(chǎn)生一個(gè)行為,推薦系統(tǒng)就反應(yīng)下,還有一種就是從數(shù)據(jù)庫(kù)里讀。協(xié)同過(guò)濾算法可以幫助找到和某個(gè)用戶喜好類似的群體,看他們都買了哪些東西,然后推薦給這個(gè)用戶?;谟脩舻模菏占脩舻男畔傩裕瑢?duì)于每一個(gè)用戶A,找到跟他比較接近或者相似的一些用戶。根據(jù)這些相似的用戶的信息對(duì)用戶A的興趣點(diǎn)進(jìn)行預(yù)測(cè),挖掘出用戶A潛在的興趣點(diǎn)?;陧?xiàng)目:收集項(xiàng)目的信息屬性,對(duì)每個(gè)項(xiàng)目X找到一些類似的項(xiàng)目。一個(gè)用戶如果對(duì)X有很高的興趣,那么這個(gè)用戶很可能也對(duì)X相似的其他項(xiàng)目感興趣?;趦?nèi)容的:除了用戶和項(xiàng)目信息,還需要進(jìn)一步分析用戶的評(píng)價(jià)內(nèi)容和反饋。用向量表示數(shù)據(jù)51編號(hào)問題1是否為男性?2一線城市的用戶?3月收入是否超過(guò)7000元?435歲以上?5最大的購(gòu)物金額是否大于1000元?6購(gòu)買次數(shù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論