版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、大數(shù)據(jù)平臺基礎(chǔ)介紹Page 1目錄1. 大數(shù)據(jù)概念與hadoop簡介2. 大數(shù)據(jù)行業(yè)應(yīng)用3. 大數(shù)據(jù)架構(gòu)簡介Page 2Big Data名詞由來2011年5 月,在“云計算相遇大數(shù)據(jù)” 為主題的EMC World 2011 會議中,EMC 拋出了Big Data概念20世紀90年代,數(shù)據(jù)倉庫之父的Bill Inmon就經(jīng)常提及Big DataPage 3大數(shù)據(jù)市場趨向穩(wěn)定Page 4大量數(shù)據(jù)存儲海量計算數(shù)據(jù)分析大數(shù)據(jù)定義-不同的聲音大量數(shù)據(jù)管理Page 5統(tǒng)一監(jiān)控分析精準營銷深入洞察另外IBM有大數(shù)據(jù)5V特征定義,增加了一個Veracity(真實性)什么是大數(shù)據(jù)維基百科:“大數(shù)據(jù)是指無法在一定
2、時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合”IDC:一般會涉及2種以上數(shù)據(jù)形式,數(shù)據(jù)量100T以上,且是高速、實時數(shù)據(jù)流;或者從小數(shù)據(jù)開始,但數(shù)據(jù)每年增長60%Gartner:大數(shù)據(jù)的四個V:Volume、Variety、Velocity、ValueVolume:數(shù)據(jù)量巨大 集中儲存/集中計算已經(jīng)無法處理巨大的數(shù)據(jù)量Variety:種類和來源多樣化 日志/圖片/視頻/文檔/地理位置 Velocity:分析處理速度快 海量數(shù)據(jù)的及時有效分析Value:價值密度低,商業(yè)價值高 大量的不相關(guān)信息的進行復(fù)雜深度分析,深挖價值Page 6海量數(shù)據(jù)從哪里來人在web 2.0的時代,人們從信
3、息的被動接受者變成了主動創(chuàng)造者全球每秒鐘發(fā)送 2.9 百萬封電子郵件,一分鐘讀一篇的話,足夠一個人晝夜不息的讀5.5 年每天會有 2.88 萬個小時的視頻上傳到Y(jié)outube,足夠一個人晝夜不息的觀看3.3 年推特上每天發(fā)布 5 千萬條消息,假設(shè)10 秒鐘瀏覽一條信息,這些消息足夠一個人晝夜不息的瀏覽16年每天亞馬遜上將產(chǎn)生 6.3 百萬筆訂單每個月網(wǎng)民在Facebook 上要花費7 千億分鐘,被移動互聯(lián)網(wǎng)使用者發(fā)送和接收的數(shù)據(jù)高達1.3EBGoogle 上每天需要處理24PB 的數(shù)據(jù)Page 7海量數(shù)據(jù)從哪里來機器Boeing:飛機每個引擎3分鐘產(chǎn)生1TB數(shù)據(jù),波音787 6小時飛行產(chǎn)生24
4、0TB數(shù)據(jù)CERN:大型強子對撞產(chǎn)生1PB/s的數(shù)據(jù)SKA:2015年存儲需要1EB云化IDC建設(shè)催生了數(shù)據(jù)大集中Facebook:每天產(chǎn)生50TB的日志數(shù)據(jù),衍生分析數(shù)據(jù)超過100TB“機器制造”和“人工制造”共同貢獻了海量數(shù)據(jù),集中式的數(shù)據(jù)中心建設(shè)加速數(shù)據(jù)集中User Profile結(jié)信化營主Page 8大數(shù)據(jù)的結(jié)構(gòu)特征平均1個P數(shù)據(jù)中(例非互結(jié)聯(lián)構(gòu)網(wǎng)化公為司主)互聯(lián)網(wǎng):Google, 百度Facebook ,Twitter ,新浪.數(shù)據(jù)以非結(jié)構(gòu)化處理為主在企業(yè)大數(shù)據(jù)中, 仍然是以結(jié)構(gòu)化數(shù)據(jù)處理為主結(jié)構(gòu)化半結(jié)構(gòu)化非結(jié)構(gòu)化35% 23%27%內(nèi)容(ITEM,圖像、視頻、文本)數(shù)據(jù)用戶行為軌跡
5、(個體)10 %5 %社交網(wǎng)絡(luò)數(shù)據(jù)(群體) 21個歷史詳單查詢Web Page & Log(例電構(gòu)運為商)15%網(wǎng)絡(luò)XDR (探針俘獲后,含歷史)計費CDR(含歷史)CUBE和統(tǒng)一視圖7%18%25 %互聯(lián)網(wǎng) Web Page & Log(含歷史) 13%社交網(wǎng)絡(luò)數(shù)據(jù) 3%內(nèi)容(圖像、視頻、文本)數(shù)據(jù) 7%12%主數(shù)據(jù)(三戶 + 訂購+ 接觸 等 含歷史)分析匯總數(shù)據(jù)(含歷史)Page 9傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)面臨的問題,呼喚新的技術(shù) 海量數(shù)據(jù)的高存儲成本 大數(shù)據(jù)量下的數(shù)據(jù)處理性能不足 流式數(shù)據(jù)處理缺失 有限的擴展能力 單一數(shù)據(jù)源 數(shù)據(jù)資產(chǎn)對外增值數(shù)據(jù)擴展性需求和硬件性能之間存在差距新的業(yè)務(wù)需求,
6、需要新的大數(shù)據(jù)處理平臺Page 10數(shù)據(jù)處理技術(shù)分布式演進趨勢:Hadoop成為開放的事實標準SMP+MPP混合特點:集群、ShareEverything 結(jié)構(gòu)化、關(guān)系型 FlashCache+分布式塊存儲+IBHadoop特點:集群、ShareNothing 開放,、全球生態(tài) 結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化 高性能、實時MPP特點:集群、ShareNothing 結(jié)構(gòu)化、關(guān)系型 通用的硬件SMP特點:單機、Scaleup 性能存在瓶頸 擴展性差Page 11揭開Hadoop神秘的面紗Hadoop是Apache基金會的一個項目總稱,主要由HDFS、MapReduce和HBase等組成。HDFS是對
7、Google GFS的開源實現(xiàn),MapReduce是對Google MapReduce的開源實現(xiàn),HBase是Google BigTable的開源實現(xiàn)。Hadoop 來源于其創(chuàng)始人Doug Cutting的兒子給一頭黃色大象取的名字。Hadoop最初只與網(wǎng)頁索引有關(guān),迅速發(fā)展成為分析大數(shù)據(jù)的領(lǐng)先平臺。BookKeeperZooKeeperAVROPage 12HDFS原理簡介分布式文件系統(tǒng)HDFS主要特點:存儲大文件將大文件分割成很多小塊存儲流式數(shù)據(jù)讀取,“write one read many”本身是分布式的,具備良好的可擴展性通過放開POSIX要求,極大改善數(shù)據(jù)讀寫性能HDFS不適合于:存
8、儲大量小文件(1MB)實時數(shù)據(jù)讀取需經(jīng)常修改數(shù)據(jù)的場景YARNHDFSHiveMap ReduceHBasePigSqoop文件被切分成大小相同的塊(最末尾的塊可能小于塊大小),并存儲在不同的數(shù)據(jù)節(jié)點上。為確保文件塊的容錯性,同時提供更快的數(shù)據(jù)讀取,默認每個數(shù)據(jù)塊有3個副本,且分布在不同的數(shù)據(jù)節(jié)點DN上。File AFile BFile CDataNode,文件就放它上了。A CANameNode,元數(shù)據(jù)信息都在這。B BCDN #1DN #2DN #3NN #1BDN #4CDN #5ADN #6File DDDDPage 20原生HDFS的真實存儲結(jié)構(gòu)1Page 20原生HDFS的真實存儲
9、結(jié)構(gòu)2Page 20原生HDFS的真實存儲結(jié)構(gòu)3Page 13HBase原理簡介分布式數(shù)據(jù)庫HRegionServer內(nèi)部管理了一系列HRegion對象,每個HRegion對應(yīng)Table中的一個Region。HRegion由多個Store組成。每個Store對應(yīng)Table中的一個Column Family的存儲,即一個Store管理一個Region上的一個列族(CF)。每個Store包含一個MemStore和0到多個StoreFile。Store是HBase的存儲核心,由MemStore 和 StoreFile組成。Page 14MapReduce原理簡介分布式計算架構(gòu)Apache MapRe
10、duce是google MapReduce的開源實現(xiàn)。是對并行計算的封裝,使用戶通過一些簡單的邏輯即可完成復(fù)雜的并行計算。其核心理念是將一個大的運算任務(wù)分解到集群每個節(jié)點上,充分運用集群資源,縮短運行時間。Page 15Spark 迭代計算框架:重構(gòu)M-R,優(yōu)于HadoopSpark是UC Berkeley AMP 實驗室基于map reduce算法實現(xiàn)的分布式計算框架,輸出和結(jié)果保存在內(nèi)存中,不需要頻繁讀寫HDFS,數(shù)據(jù)處理效率更高Spark適用于近線或準實時、數(shù)據(jù)挖掘與機器學(xué)習(xí)應(yīng)用場景Page 17Storm:流式數(shù)據(jù)處理框架,實時的HadoopStorm 廣泛應(yīng)用于實時分析,在線機器學(xué)習(xí)
11、,持續(xù)計算、分布式遠程調(diào)用等領(lǐng)域。Page 18Storm處理原理特征匹配bolt統(tǒng)計bolt異常行為檢測bolt輸出攔截模塊spout攔截數(shù)據(jù)不存儲,先計算事件驅(qū)動實時響應(yīng),低延遲連續(xù)查詢光纖MQ輸入scribe旁路EventDataAlertsActionsNo waiting; Results delivered in-flightQueriesPage 19ZooKeeper簡介 提供分布式鎖的服務(wù)。例如,多個Master進程競爭主Master角色時,怎么樣保證僅有一個Active角色存在?這就需要一個分布式的鎖機制來保證。多個Master進程都嘗試著去ZooKeeper中寫入一個對應(yīng)
12、的節(jié)點,該節(jié)點只能被一個Master進程創(chuàng)建成功,創(chuàng)建成功的Master進程就是Active角色。提供了事件偵聽機制。例如,主Master進程宕掉之后,其它的備Master如何能夠快速的接管?這個過程中,備Master在偵聽那個對應(yīng)的ZooKeeper節(jié)點。主Master進程宕掉之后,該節(jié)點會被刪除,那么,其它的備Master就可以收到相應(yīng)的消息。個別場景,可充當(dāng)一個微型數(shù)據(jù)庫角色。例如,在ZooKeeper中存放了Root Region的地址(Root Region原來是存在ZooKeeper中的!),此時,可以將它理解成一個微型數(shù)據(jù)庫?!癕aster-1, Congratulations!
13、 Youare the active one!”“Sorry, Master-2. The activeseat has been taken by others.Please be patient!”Page 20第三方impala計算框架Page 20原生與第三方整體回顧與對比Page 20目錄1. 大數(shù)據(jù)概念與hadoop簡介2. 大數(shù)據(jù)行業(yè)應(yīng)用3. 大數(shù)據(jù)架構(gòu)簡介Page 21大數(shù)據(jù)應(yīng)用的行業(yè)分類經(jīng)營分析電信信令金融細賬金融票據(jù)電力調(diào)度智能電網(wǎng)經(jīng)營類績效報表文件社保分析納稅分析決策支持和預(yù)測管理類公安網(wǎng)監(jiān)國安技偵輿情監(jiān)控銀監(jiān)會稽查食品溯源環(huán)保監(jiān)測監(jiān)管類音視頻地震勘探氣象云圖衛(wèi)星遙感雷達
14、數(shù)據(jù)物聯(lián)網(wǎng)專業(yè)類10%結(jié)構(gòu)化30%半結(jié)構(gòu)化60%非結(jié)構(gòu)化互聯(lián)網(wǎng)非結(jié)構(gòu)化為主,價值密度低電信、金融結(jié)構(gòu)化+非結(jié)構(gòu)化金融結(jié)構(gòu)化+半結(jié)構(gòu)化政府結(jié)構(gòu)化+半結(jié)構(gòu)化政府非結(jié)構(gòu)化“在大數(shù)據(jù)領(lǐng)域,不能充分形成大數(shù)據(jù)使用能力的競爭者將被淘汰”-McKinsey Global Institute電信、金融、政府等行業(yè)數(shù)據(jù)分析的訴求強烈,互聯(lián)網(wǎng)已開始應(yīng)用新技術(shù)處理價值密度低的大數(shù)據(jù)Page 22實時征信、精準營銷、在線明細、精準小微貸、金融:大數(shù)據(jù)讓銀行更了解客戶與識別潛在風(fēng)險王五作為某銀行客戶,需要申請一張新的信用卡24周大數(shù)據(jù)平臺客戶信息系統(tǒng)交易系統(tǒng)信用系統(tǒng)Page 23電信:大數(shù)據(jù)支撐運營商向Digital
15、Telco轉(zhuǎn)型2G2.5G3GB3G/4G語音封閉、壟斷SPCP窄帶數(shù)據(jù)有限程度開放SPCP寬帶數(shù)據(jù)防御與競合超寬帶數(shù)字經(jīng)濟使能管道運營能力運營跨界運營商業(yè)架構(gòu)企業(yè)架構(gòu)網(wǎng)絡(luò)架構(gòu)網(wǎng)絡(luò)資源為中心客戶體驗及生態(tài)圈為中心封閉開放、用戶驅(qū)動、實時知識Silo云化, 業(yè)務(wù)感知, 自編排大數(shù)據(jù)平臺數(shù)字經(jīng)濟驅(qū)動運營商徹底進行數(shù)字化重構(gòu)M域O域B域一份數(shù)據(jù),一次采集個人客戶精準營銷家庭客戶輔助決策政企客戶數(shù)據(jù)開放互聯(lián)網(wǎng)客戶. 一份存儲,全局共享,全量分析Page 24公安:大數(shù)據(jù)實現(xiàn)在海量數(shù)據(jù)中快速檢索出價值信息3000+萬條記錄, 1+億張照片,約100TB12天檢索信息耗時:大數(shù)據(jù)平臺國內(nèi)某大城市1天的卡口
16、數(shù)據(jù):傳統(tǒng)數(shù)據(jù)庫平臺模糊檢索耗時:2分鐘Page 25電商:亞馬遜“預(yù)判發(fā)貨”,顧客未動包裹先行顧客此前訂單顧客搜索記錄顧客心愿單顧客購物車顧客瀏覽行為大數(shù)據(jù)平臺Page 26400萬影視評分媒資:大數(shù)據(jù)讓Netflix在紙牌屋開播前就知道會火3300萬訂閱用戶行為300萬搜索請求上線20天,點播400+萬次大數(shù)據(jù)平臺Page 27目錄1. 大數(shù)據(jù)概念與hadoop簡介2. 大數(shù)據(jù)行業(yè)應(yīng)用3. 大數(shù)據(jù)架構(gòu)簡介11Page 28企業(yè)大數(shù)據(jù)平臺架構(gòu)主數(shù)據(jù)倉庫基于高性能平臺流數(shù)據(jù)處理CEP及流處理引擎Hadoop云基于低成本X86平臺統(tǒng)一ETL層,數(shù)據(jù)采集和預(yù)處理結(jié)構(gòu)化數(shù)據(jù)實時流數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù)101
17、111多渠道訪問門戶開放支撐平臺:基礎(chǔ)服務(wù)、算法模型、自助分析、自助報表電腦智能手機PAD監(jiān)控中心云化ETL、云化DW、實時挖掘、自助分析、跨域模型、并發(fā)查詢、實時規(guī)則、知識自學(xué)習(xí)、內(nèi)容語義分析等能力最終將在應(yīng)用平臺及多個數(shù)據(jù)平臺中體現(xiàn)。包含關(guān)系型的主存儲,也包含非關(guān)系型的HADOOP及流處理引擎DMZooKeeper(Coordination)OoziePage 29構(gòu)建大數(shù)據(jù)平臺技術(shù)組件(示意)結(jié)構(gòu)化計算平臺數(shù)據(jù)治理配置數(shù)據(jù)管理PortalERP-EBSNon-EBS DB儀表盤訂閱發(fā)布即席查詢分析維度管理主數(shù)據(jù)管理公共數(shù)據(jù)模型ScoreCard報表展現(xiàn)層Portal層調(diào)度文本挖掘社交媒體
18、結(jié)構(gòu)化數(shù)據(jù)生命周期管理(數(shù)據(jù)/應(yīng)用)數(shù)據(jù)質(zhì)量管理技術(shù)元數(shù)據(jù)ROLAP DMMCAOffice 集成展現(xiàn)服務(wù)Mobile BI互動可視數(shù)據(jù)提取In-Mem DM元數(shù)據(jù)管理元數(shù)據(jù)管理應(yīng)用批量抽取CDC&ETL服務(wù)轉(zhuǎn)換加載分發(fā)實時獲取平臺監(jiān)控管理ETL&調(diào)度計算平臺非結(jié)構(gòu)化化計算平臺(Hadoop)Spark作業(yè)流管理:DWRDWRDW-I DW-I DW-ISqoop公共基礎(chǔ)數(shù)據(jù)模型MapReduce資源管理:YARNHBASE分布式文件系統(tǒng):HDFS電商論壇第一方數(shù)據(jù)數(shù)據(jù)收集&集成Flume/chukwa計算層存儲層HIVE/PIGMAHOUT分析挖掘分析服務(wù)挖掘和預(yù)測Access For Ha
19、doop數(shù)據(jù)數(shù)據(jù)整合畫像應(yīng)用第一方數(shù)據(jù)第二方數(shù)據(jù)第三方數(shù)據(jù)產(chǎn)品推薦360度CRM標準報告特征分析Dashboard海量查詢hive運維管理日常管理日常監(jiān)控作業(yè)調(diào)度安全管理權(quán)限管理協(xié)同管理備份監(jiān)控報警查詢遷移大V 淘小米社區(qū)DP標簽消費者微博 競品Page 30 寶、京東標簽服務(wù)配置(面向業(yè)務(wù))標簽配置(面向特征)特征配置(面向消費者)數(shù)據(jù)探針數(shù)據(jù)爬取 文件傳輸 數(shù)據(jù)庫導(dǎo)入導(dǎo)出 數(shù)據(jù)同步數(shù)據(jù)拉通規(guī)則配置(面向數(shù)據(jù))潛在客戶預(yù)測競品API運營支持數(shù)據(jù)應(yīng)用數(shù)據(jù)服務(wù)大數(shù)據(jù)應(yīng)用本身采集的數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)交換爬取第三方標簽DP標簽庫百度百科前端展現(xiàn)宏觀畫像基于業(yè)務(wù)場景微觀畫像營銷領(lǐng)域投放人群特征營銷人
20、群特征傳播人群特征.人口屬性營銷特征微信營銷DSP投放用戶體驗用戶流失預(yù)警微博營銷營銷效果評估內(nèi)容推薦活動效果評估消費者數(shù)據(jù)拉通和用戶臉譜項目 - 應(yīng)用架構(gòu)營銷 用戶經(jīng)營服務(wù)購買產(chǎn)品配置管理數(shù)據(jù)流用戶歸一化、數(shù)據(jù)清洗、標注化、結(jié)構(gòu)化離線處理短期用戶標簽增量用戶建模 增量業(yè)務(wù)建模實時計算引擎即時標簽預(yù)測增量數(shù)據(jù)挖掘用戶標簽 用戶長期特征用戶建模 全量數(shù)據(jù)挖掘 全量業(yè)務(wù)建模批量計算引擎 長文本分析群體特征挖掘用戶分群即時群體特征挖掘即時用戶拓撲動態(tài)上網(wǎng)特征實時處理潛在需求社交圖譜移動應(yīng)用人群分發(fā) 數(shù)據(jù)分發(fā)用戶經(jīng)營領(lǐng)域花粉特征群細分影響力用戶發(fā)現(xiàn)內(nèi)容特征傾向.購物偏好當(dāng)前需求投放效果評估服務(wù)領(lǐng)域滿意度人群特征投訴/咨詢特征主動服務(wù)群特征媒介決策購買購買價格特征活動購買特征官網(wǎng)場景特征興趣/愛好內(nèi)容偏好建議領(lǐng)袖發(fā)現(xiàn)用戶動態(tài)關(guān)注產(chǎn)品領(lǐng)域用戶需求特征APP應(yīng)用特征競品人群特征熱點關(guān)注產(chǎn)品情感HBASEDataBridgePage 31Scaleout BlockScaleout Object分布式存儲應(yīng)用適配, Programmable接口通用服務(wù)器網(wǎng)絡(luò)(交換機,路由器)存儲節(jié)點分布式處理和分析實時處理和內(nèi)存計算流處理內(nèi)存數(shù)據(jù)庫批處理(Hadoop)Hive,Pig,MashoutHcatalogMapReduce分布式數(shù)據(jù)庫(MPPDB)SQLQue
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年華東師大版八年級地理下冊月考試卷
- 2025年人教A版九年級歷史上冊月考試卷含答案
- 2025年湘師大新版八年級歷史下冊階段測試試卷含答案
- 2025年新世紀版選擇性必修3歷史上冊月考試卷
- 2025年浙教版九年級地理上冊月考試卷
- 2025年蘇教版選修6歷史下冊月考試卷
- 2025年滬科版選擇性必修3歷史下冊階段測試試卷
- 共享中國知到智慧樹章節(jié)測試課后答案2024年秋上海工程技術(shù)大學(xué)
- 二零二五年度出租車公司駕駛員勞動合同競業(yè)禁止合同4篇
- 二零二五寵物領(lǐng)養(yǎng)合同范本:寵物福利與責(zé)任4篇
- 無人化農(nóng)場項目可行性研究報告
- 《如何存款最合算》課件
- 社區(qū)團支部工作計劃
- 拖欠工程款上訪信范文
- 2024屆上海市金山區(qū)高三下學(xué)期二模英語試題(原卷版)
- 學(xué)生春節(jié)安全教育
- 《wifi協(xié)議文庫》課件
- 《好東西》:女作者電影的話語建構(gòu)與烏托邦想象
- 教培行業(yè)研究系列(七):出國考培的再研究供需變化的新趨勢
- GB/T 44895-2024市場和社會調(diào)查調(diào)查問卷編制指南
- 道醫(yī)館可行性報告
評論
0/150
提交評論