智慧園博園大數(shù)據(jù)集成平臺設(shè)計方案(完整版)_第1頁
智慧園博園大數(shù)據(jù)集成平臺設(shè)計方案(完整版)_第2頁
智慧園博園大數(shù)據(jù)集成平臺設(shè)計方案(完整版)_第3頁
智慧園博園大數(shù)據(jù)集成平臺設(shè)計方案(完整版)_第4頁
智慧園博園大數(shù)據(jù)集成平臺設(shè)計方案(完整版)_第5頁
已閱讀5頁,還剩31頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

智慧園博園大數(shù)據(jù)集成平臺設(shè)計方案目錄TOC\o"1-5"\h\z\o"CurrentDocument"第1章 大數(shù)據(jù)集成平臺設(shè)計方案 4\o"CurrentDocument"大數(shù)據(jù)集成平臺概述 4\o"CurrentDocument"建設(shè)背景 4\o"CurrentDocument"大數(shù)據(jù)云平臺現(xiàn)狀 4\o"CurrentDocument"平臺指導(dǎo)思想 6\o"CurrentDocument"平臺設(shè)計的指導(dǎo)思想 6\o"CurrentDocument"平臺選擇的指導(dǎo)思想 7\o"CurrentDocument"平臺應(yīng)用的指導(dǎo)思想 7\o"CurrentDocument"總體解決方案 7\o"CurrentDocument"總平臺旅游大數(shù)據(jù)的存儲解決方案 9\o"CurrentDocument"總平臺旅游大數(shù)據(jù)的計算解決方案 10\o"CurrentDocument"總平臺旅游大數(shù)據(jù)的文件傳輸解決方案 12\o"CurrentDocument"平臺總體設(shè)計 13\o"CurrentDocument"Hadoop云平臺的總設(shè)計原則 13\o"CurrentDocument"Hadoop云平臺架構(gòu) 14\o"CurrentDocument"平臺的基礎(chǔ)架構(gòu)設(shè)計 15\o"CurrentDocument"高用性設(shè)計 18\o"CurrentDocument"業(yè)務(wù)分析平臺 19\o"CurrentDocument"數(shù)據(jù)管理平臺 21\o"CurrentDocument"數(shù)據(jù)訪問平臺 24\o"CurrentDocument"數(shù)據(jù)管制和集成平臺 28\o"CurrentDocument"運(yùn)營平臺 30\o"CurrentDocument"平臺功能 31\o"CurrentDocument"總體要求 31\o"CurrentDocument"平臺業(yè)務(wù)功能 31\o"CurrentDocument"旅游企業(yè)的基礎(chǔ)信息分析統(tǒng)計 32\o"CurrentDocument"旅游從業(yè)人員統(tǒng)計 32\o"CurrentDocument"綜合經(jīng)營收入統(tǒng)計 32\o"CurrentDocument"綜合游客接待情況統(tǒng)計 32\o"CurrentDocument"景區(qū)流量統(tǒng)計 32\o"CurrentDocument"飯店出租率統(tǒng)計 33\o"CurrentDocument"自駕游車輛統(tǒng)計 33\o"CurrentDocument"節(jié)慶期間專項(xiàng)統(tǒng)計 33\o"CurrentDocument"客源地統(tǒng)計 33\o"CurrentDocument"1.5.12游客行為監(jiān)測統(tǒng)計 33\o"CurrentDocument"1.5.13旅游景區(qū)峰值預(yù)警 34第1章大數(shù)據(jù)集成平臺設(shè)計方案1.1大數(shù)據(jù)集成平臺概述1.1.1建設(shè)背景旅游大數(shù)據(jù)的產(chǎn)生:眾所周知,隨著信息社會的快速發(fā)展,信息量以爆發(fā)式的速度增長。這些數(shù)據(jù)的特征表現(xiàn)為數(shù)據(jù)量大,一般為TB級或PB級甚至更大。數(shù)據(jù)類型多,可以是結(jié)構(gòu)化的表單、半結(jié)構(gòu)化的文本、視頻、圖像、語音、及非結(jié)構(gòu)話的文件。而全國旅游數(shù)據(jù)也是異常巨大,形成了旅游大數(shù)據(jù),而面對龐大而復(fù)雜的信息體系,我們把整個大數(shù)據(jù)分成了兩個層次,第一個層次是基礎(chǔ)數(shù)據(jù),包括所有的景區(qū)信息、地圖、POI、景區(qū)周邊環(huán)境信息等等。第二個層次就是應(yīng)用和交易數(shù)據(jù).以游客所產(chǎn)生的數(shù)據(jù)為主。目前的大數(shù)據(jù)應(yīng)用主要是從第二個層次做延伸,也僅僅體現(xiàn)在在線旅游中,包括做得比較好的旅游數(shù)據(jù)預(yù)測系統(tǒng)與螞蜂窩游客點(diǎn)評數(shù)據(jù)等等,它們大都從監(jiān)管和營銷的角度岀發(fā)。但是我認(rèn)為目前市場上沒有一種產(chǎn)品能真正滿足游客的游中體驗(yàn),而其實(shí)游客才是真正實(shí)現(xiàn)智彗園博的核心價值。而且從游客體驗(yàn)的吃、住、行、游、購、娛六大要素來看,中國人的旅游方式是以景區(qū)為原點(diǎn)延伸的,景區(qū)基礎(chǔ)數(shù)據(jù)的應(yīng)用應(yīng)該是游客體驗(yàn)中最重要的一環(huán),但是目前所有的導(dǎo)航服務(wù)系統(tǒng)都是針對陸路交通的,景區(qū)內(nèi)基礎(chǔ)信息是一個盲點(diǎn),更談不上基于此基礎(chǔ)數(shù)據(jù)的景區(qū)內(nèi)導(dǎo)航、語音播報、LBS定點(diǎn)等產(chǎn)品的研發(fā)了。旅游大數(shù)據(jù)的挑戰(zhàn):如何對這些數(shù)據(jù)進(jìn)行高效存儲,如何對這些數(shù)據(jù)進(jìn)行分析和處理,以獲取更多有價值的信息。旅游大數(shù)據(jù)集成平臺應(yīng)運(yùn)而生。因此,通過整合智彗園博平臺相關(guān)數(shù)據(jù),并結(jié)合旅游管理和目的地促銷活動中產(chǎn)生的所有數(shù)據(jù)形成智彗園博大數(shù)據(jù)集成平臺。通過對數(shù)據(jù)篩選、分析,提供如旅游行業(yè)發(fā)展動態(tài)、服務(wù)模式、旅游者偏好等的數(shù)據(jù)分析報告,為智彗園博決策提供數(shù)據(jù)支揮。1.1.2大數(shù)據(jù)云平臺現(xiàn)狀目前,隨著云計算的高速發(fā)展,Hadoop及Hadoop的生態(tài)圈逐漸壯大,但真正商用且成熟的Hadoop云平臺架構(gòu)卻非常少。本方案結(jié)合國內(nèi)的大數(shù)據(jù)應(yīng)用巨頭百度、阿里巴巴、騰訊,即“BAT”的Hadoop云平臺同時,也結(jié)合并學(xué)習(xí)國外的大數(shù)據(jù)巨頭Hadoop應(yīng)用發(fā)布商Cloudera,Hortonworks,MapR,即"CHM"的Hadoop商用云平臺,利用ApacheHadoop開源的力量,推出一套穩(wěn)定、商用、高效、成熟、開源、易開發(fā),易擴(kuò)展的大規(guī)模hadoop云平臺 HDP(HadoopDataPlatform),以滿足全國的旅游數(shù)據(jù)的采集、存儲、分析和發(fā)掘和應(yīng)用。分析層語炯OLAP引擎城訪問層NoSQLSQL/GBase.MonetDB!/HBase,Cassandra,MongoDB緩存/Redis.Memcached .內(nèi)存計算

/spark+shark姻倉庫/HNe數(shù)據(jù)挖掘

/R,Mahout結(jié)構(gòu)化數(shù)據(jù)1MDG:

DrillImpala分布式計算框架/YARN流計算

/Storm文件系統(tǒng)/*ph,HDFS非的化數(shù)據(jù)實(shí)時流

數(shù)據(jù)1.2平臺指導(dǎo)思想建設(shè)穩(wěn)定、商用、成熟、高效、節(jié)能統(tǒng)一的大數(shù)據(jù)Hadoop云平臺。不僅滿足大數(shù)據(jù)的大規(guī)模的采集、存儲、分析計算和應(yīng)用,也為其它平臺和系統(tǒng)提供性能需求、系統(tǒng)穩(wěn)定性、服務(wù)滿意率高技術(shù)支揮和大數(shù)據(jù)支揮。性能需求指網(wǎng)站性能需求,主要指作業(yè)響應(yīng)時間方面的要求,作業(yè)響應(yīng)時間指完成目標(biāo)系統(tǒng)中的交互或批量處理所需的響應(yīng)時間。網(wǎng)站響應(yīng)時間較短,具有良好的用戶體驗(yàn)。這對大數(shù)據(jù)的實(shí)時性、準(zhǔn)確性和有用性提出很高的要求,這需要我們設(shè)計并使用Hadoop的大數(shù)據(jù)實(shí)時處理的系統(tǒng)架構(gòu),充分利用storm、spark等技術(shù)。系統(tǒng)穩(wěn)定性主要包括系統(tǒng)運(yùn)營完好、系統(tǒng)故障處理及時率兩個指標(biāo)。系統(tǒng)運(yùn)營完好,有優(yōu)異的災(zāi)備機(jī)制,具有保障系統(tǒng)運(yùn)營的優(yōu)異管理機(jī)制。系統(tǒng)故障處理及時率是系統(tǒng)發(fā)生故障時處理的效率。具有良好的系統(tǒng)故障應(yīng)急機(jī)制,能夠快速及時的處理系統(tǒng)故障。這對Hadoop平臺的高可靠性提出高的要求,這需要設(shè)計Hadoop云架構(gòu)時,考慮HA的優(yōu)化和設(shè)計。服務(wù)滿意率主要考核供應(yīng)商在服務(wù)期限內(nèi)服務(wù)內(nèi)外部客戶的滿意度。包括投訴接通率、報告及時性兩個方面。投訴接通率是公共服務(wù)可信的重要保障。投訴接通率是投訴接通次數(shù)(包括電話、網(wǎng)站響應(yīng))/投訴總次數(shù)。報告及時性是對智彗園博要求的相關(guān)服務(wù)的響應(yīng)時間,計算方法為報告按時提交次數(shù)/報告總次數(shù)。這需要投訴方面的大數(shù)據(jù)有快速的分析和處理.需要設(shè)計Hadoop云架構(gòu)中的storm、hbase、hive的應(yīng)用和優(yōu)化。下面主要從平臺的設(shè)計、選擇和應(yīng)用來進(jìn)行思想指導(dǎo)。1.2.1平臺設(shè)計的指導(dǎo)思想因?yàn)榇髷?shù)據(jù)是由分布存儲在集群節(jié)點(diǎn)中多個單節(jié)點(diǎn)的磁盤空間中,能被進(jìn)行分布式處理的數(shù)據(jù)構(gòu)成的一個數(shù)據(jù)總體。大數(shù)據(jù)的規(guī)模可以隨點(diǎn)節(jié)點(diǎn)數(shù)量的不斷增加而不斷擴(kuò)大。旅游大數(shù)據(jù)集成平臺的設(shè)計目標(biāo):?可以存儲海量數(shù)據(jù)?可以進(jìn)行高速處理?可以快速開發(fā)出并行服務(wù)?可以運(yùn)行在廉價機(jī)器搭建的集群上所以,建議采用選擇Hadoop。因?yàn)镠adoop是一個能夠分布式存儲大數(shù)據(jù),并且能對大數(shù)據(jù)進(jìn)行分布式處理的軟件框架。主要由HDFS和MapReduce組成。它主要有以下幾個優(yōu)點(diǎn):高可乘性:Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。高擴(kuò)展性:Hadoop是在可用的計算機(jī)集簇間分配數(shù)據(jù)并完成計算任務(wù)的,這些集簇可以方便地擴(kuò)展到數(shù)以千計的節(jié)點(diǎn)中。高效性:Hadoop能在各節(jié)點(diǎn)之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點(diǎn)的動態(tài)平衡,因?yàn)槠涮幚硭俣确浅??。高容錯性:Hadoop能夠保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配匚低成本:Hadoop可以運(yùn)行在廉價服務(wù)器上管理海量數(shù)據(jù),降低了成本。由Apache基金會所開發(fā),純Java編寫的開源系統(tǒng)。1.2.2平臺選擇的指導(dǎo)思想為什么選擇HDP?HDP是企業(yè)級的Hadoop,其核心是提供線性擴(kuò)展存儲并跨廣范圍訪問方法(從批量到實(shí)時、搜索和流媒體)計算。它在管制、集成、安全性和運(yùn)營上具有一套完善的功能。1.2.3平臺應(yīng)用的指導(dǎo)思想智彗園博是旅游業(yè)發(fā)展到現(xiàn)階段岀現(xiàn)的一種旅游新形態(tài),是旅游業(yè)與科技創(chuàng)新融合發(fā)展的典范,是旅游業(yè)未來發(fā)展的趨勢。智彗園博發(fā)展的直接受益者將是旅游者,它將使旅游者享受到更多的智彗園博服務(wù)。比如游客通過手機(jī)、IPAD等工具,到網(wǎng)上查詢觀光信息、網(wǎng)上訂票,還可以訂制私人旅游線路,合理安排個人日程,最大化地利用旅游時間。3總體解決方案總體的解決方案是采用成熟、商用、穩(wěn)定的Hadoop云平臺一HDP,核心技術(shù)主要是Hadoop與其生態(tài)系統(tǒng)的整個云技術(shù)家族。本平臺架構(gòu)包括數(shù)據(jù)訪問、數(shù)據(jù)管制與集成和數(shù)據(jù)監(jiān)控模塊,平臺提供了豐富的大數(shù)據(jù)接口,為智彗園博各大平臺提供大數(shù)據(jù)的支揮,比如:旅游公共信息發(fā)布及資訊平臺,中國旅游產(chǎn)業(yè)運(yùn)行監(jiān)管平臺,全國各景區(qū)門票預(yù)約與客流預(yù)警平臺,多語種的旅游形象推廣平臺等。詳細(xì)如下如所示:;xlbJl..wefsY的朋斛秋■*MX.JWU..NvsartHsCtiiit3c(fBiisikvunutiSftfTIlEm 血於—一^E21?ILOIjLZJ*LH3jlFLiiFLjSianttAxKTm.*:!?eSS£RAmMri/ition.堿卄DtUPrtrtceionAnte?Wii?Im分?/?xia嚴(yán)化wwaj:SQUAPI分?/?xia嚴(yán)化wwaj:SQUAPI智彗園博數(shù)據(jù)最重要的是數(shù)據(jù)分析,通過HDP,可以得到如下的分析:數(shù)據(jù)及分析可視化和數(shù)據(jù)探索.?面◎用戶的基于web的分析和可視化?熟悉的矣似電子表桔的畀面?左義和直理長期運(yùn)行的數(shù)抿收宴作業(yè)數(shù)據(jù)分析結(jié)果快速形成圖表:任何協(xié)議內(nèi)部/外部核心系統(tǒng)可靠的文件傳輸I具安全性任訶協(xié)議任何協(xié)議內(nèi)部/外部核心系統(tǒng)可靠的文件傳輸I具安全性任訶協(xié)議旅游大數(shù)據(jù)分析平臺需要從各個景點(diǎn)的系統(tǒng)傳輸大量的非結(jié)構(gòu)化數(shù)據(jù)文件,我們的文件傳輸解決方案是:景區(qū)大數(shù)據(jù)分析平臺景區(qū)管理及可視性1.3.1總平臺旅游大數(shù)據(jù)的存儲解決方案旅游大數(shù)據(jù)不斷增長造成單機(jī)系統(tǒng)性能不斷下降,即使不斷提升硬件配置也難以跟上數(shù)據(jù)的增長速度。然而,當(dāng)今主流的計算機(jī)硬件比較便宜而且可以擴(kuò)展.現(xiàn)在購置八臺8內(nèi)核、128GB內(nèi)存的機(jī)器比購置一臺64內(nèi)核、TB級別內(nèi)存的服務(wù)器劃算得多,而且還可以增加或減少機(jī)器來應(yīng)對將來的變化。因此選擇Hadoop云平臺的大數(shù)據(jù)存儲方案。存儲方案核心技術(shù)其存儲的核心技術(shù)解決方案是:?高性能分布式存儲系統(tǒng):

HBASE(數(shù)據(jù)庫的首選技術(shù))-高度容錯性分布式文件系統(tǒng):HDFS(文件存儲首選技術(shù))方案核心技術(shù)介紹HDFS:HadoopDistributedFileSystem,簡稱HDFS,是一個分布式文件系統(tǒng).HDFS有著高容錯性(fault-tolerant)的特點(diǎn),并且設(shè)計用來部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(highthroughput)來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(largedataset)的應(yīng)用程序。HBASE:HBase-HadoopDatabase,是一個高可乘性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),利用HBase技術(shù)可在廉價PCServer上搭建起大規(guī)模結(jié)構(gòu)化存儲集群。方案設(shè)計圖卄……Pig析)Hive(如分析)平臺管理層洪1E分忻啟編程摸里層數(shù)據(jù)存儲層文件存儲層1數(shù)據(jù)集成屋JavaNIO傳輸HDFS(文陸儲)」ad3卄……Pig析)Hive(如分析)平臺管理層洪1E分忻啟編程摸里層數(shù)據(jù)存儲層文件存儲層1數(shù)據(jù)集成屋JavaNIO傳輸HDFS(文陸儲)」ad3①M(fèi)oozMapKeduce/Yarn

(編惶模型)HCatalogHbaseRedis(元數(shù)據(jù)管理)(數(shù)據(jù)存儲〕(數(shù)據(jù)鈿Samza/storm(編程模型)*療1.3.2總平臺旅游大數(shù)據(jù)的計算解決方案其分析的核心技術(shù)解決方案是:高性能并行計算引擎高性能并行計算引擎:MapReduce2.0(離線)、Spark(內(nèi)存)、Storm(實(shí)時)、Tez(底層)MapReduce2.0的介紹MapReduce2.0或者M(jìn)Rv2具有與MRvl相同的編程模型,唯一不同的是運(yùn)行時環(huán)境。MRv2是在MRvl基礎(chǔ)上經(jīng)加工之后,運(yùn)行于資源管理框架YARN之上的MRvl,它不再由JobTracker和TaskTracker組成,而是變?yōu)橐粋€作業(yè)控制進(jìn)程ApplicationMaster,且ApplicationMaster僅負(fù)責(zé)一個作業(yè)的管理至于資源的管理.則由YARN完成。簡而言之,MRvl是一個獨(dú)立的離線計算框架,而MRv2則是運(yùn)行于YARN之上的MRvl。Spark的介紹Spark基于mapreduce算法實(shí)現(xiàn)的分布式計算,擁有Hadoop、MapReduce所具有的優(yōu)點(diǎn);但不同于MapReduce的是Job中間輸出和結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的map.reduce的算法。Stonn的介紹Storm是一個免費(fèi)開源、分布式、高容錯的實(shí)時計算系統(tǒng)。Storm令持續(xù)不斷的流計算變得容易,彌補(bǔ)了Hadoop批處理所不能滿足的實(shí)時要求。Storm經(jīng)常用于在實(shí)時分析、在線機(jī)器學(xué)習(xí)、持續(xù)計算、分布式遠(yuǎn)程調(diào)用和ETL等領(lǐng)域。Storm的部署管理非常簡單.而且,在同類的流式計算工具,Storm的性能也是非常出眾的。Tez的介紹Tez是基于HadoopYarn之上的DAG(有向無環(huán)圖,DirectedAcyclicGraph)計算框架。它把Map/Reduce過程拆分成若干個子過程,同時可以把多個Map/Reduce任務(wù)組合成—個較大的DAG任務(wù),減少了Map/Reduce之間的文件存儲。同時合理組合其子過程,也可以減少任務(wù)的運(yùn)行時間。方案設(shè)計圖總的來說,各核心技術(shù)各有所長,比如,MapReduce:是一種離線計算框架,將一個算法抽象成Map和Reduce兩個階段進(jìn)行處理,非常適合數(shù)據(jù)密集型計算。而Spark則是一種內(nèi)存計算框架,它將數(shù)據(jù)盡可能放到內(nèi)存中以提高迭代應(yīng)用和交互式應(yīng)用的計算效率。Storm:MapReduce也不適合進(jìn)行流式計算、實(shí)時分析,比如廣告點(diǎn)擊計算等,而Storm則更擅長這種計算、它在實(shí)時性要遠(yuǎn)遠(yuǎn)好于MapReduce計算框架。Te乙運(yùn)行在YARN之上支持DAG作業(yè)的計算框架,并且更底層,對pig,hive等的支持比較高。

半臺管球焙±s應(yīng)用IfPig(施分析)Hive(數(shù)IE分析)IE(監(jiān)即)

ueqEV(曲歿肝風(fēng)隠血片)

gej^ooz半臺管球焙±s應(yīng)用IfPig(施分析)Hive(數(shù)IE分析)IE(監(jiān)即)

ueqEV(曲歿肝風(fēng)隠血片)

gej^oozHCatalog(兀如筲坤)Hbase(數(shù)鵝存儲Redis(數(shù)話存儲)Samza/storm(編悝樓型)?■■■■4F■■■?■■■■■■■.■■■■■■■■豬I?樓理底HDFS(文件存儲)Ii91B?y2J5JavaNKM5輸1.3.3總平臺旅游大數(shù)據(jù)的文件傳輸解決方案旅游大數(shù)據(jù)平臺收集的非機(jī)構(gòu)化數(shù)據(jù)來自不同的景區(qū),通過廣域網(wǎng)遠(yuǎn)距離行傳輸。而且非機(jī)構(gòu)化數(shù)據(jù)一般較大,例如音頻,視頻,圖片等,文件大小500M以上,甚至幾G幾十Go如果通過FTP工具傳輸,面臨傳輸速度低,出錯概率大等困難.從而造成數(shù)據(jù)到應(yīng)用的延誤。而且FTP不能提供詳盡、易讀的傳輸日志信息,故障診斷和修復(fù)的時間會大大增加。文件傳輸解決方案“數(shù)據(jù)通"(FastFileTransfer:FFT)提供文件網(wǎng)關(guān),核心傳輸工具,安全認(rèn)證,傳輸監(jiān)控等功能,為園博園提供一個統(tǒng)一,安全,高效的傳輸平臺。方案功能介紹FFT的核心傳輸工具采用一種全新的技術(shù),克服了傳統(tǒng)數(shù)據(jù)傳輸軟件,例如FTP,HTTP以及WindowsCIFS中的固有瓶頸,實(shí)現(xiàn)了在各種共拿和私有網(wǎng)絡(luò)環(huán)境中傳輸速度的最大化。這種技術(shù)可以獲得完美的傳輸效率,不為網(wǎng)絡(luò)延遲和丟包所限制。并且用戶拿有對傳輸速度以及不同傳輸流之間帶寬共享的無以倫比的控制。不管網(wǎng)絡(luò)距離和動態(tài)性能如何,即便是在最困難的網(wǎng)絡(luò)條件下(例如衛(wèi)星,無線和洲際遠(yuǎn)程鏈接),文件傳輸時間仍然可以得到保障。FFT具有內(nèi)置的完整安全性功能,包括連接節(jié)點(diǎn)安全驗(yàn)證,傳輸中數(shù)據(jù)加密以及數(shù)據(jù)完整性驗(yàn)證。FFT具有出色的帶寬控制功能,提供了有保障的傳輸時間,充分利用了可用帶寬,同時讓其他網(wǎng)絡(luò)流量可公平使用帶寬。FFT擁有靈活開放的架構(gòu),支持在所有主要的操作系統(tǒng)直接的跨平臺傳輸,提供開放的可擴(kuò)展的軟件開發(fā)包,API接口,能夠方便的將“數(shù)據(jù)通”的技術(shù)和產(chǎn)品無縫集成到現(xiàn)有的應(yīng)用程序和工作流程管理平臺中。FFT提供了一個統(tǒng)一的監(jiān)控管理平臺,方便用戶監(jiān)控當(dāng)前各個“數(shù)據(jù)通"節(jié)點(diǎn)的健康狀態(tài),管理傳輸節(jié)點(diǎn)的用戶和服務(wù)器配置,Console還可以實(shí)時管理各節(jié)點(diǎn)的傳輸,同時可對各個節(jié)點(diǎn)進(jìn)行傳輸統(tǒng)計。

133.2傳輸架構(gòu)設(shè)計各地方景點(diǎn)都會用FFTP2PServer將各地數(shù)據(jù)上傳到旅游大數(shù)據(jù)平臺,F(xiàn)FTConsole監(jiān)控所FFT服務(wù)器的運(yùn)行。此外還可以考慮HA架構(gòu)保證服務(wù)的不間斷性。"FEnierprise y旅游大I"FEnierprise y旅游大I越據(jù)平臺FPTConsole—>1.4平臺總體設(shè)計1.4.1Hadoop云平臺的總設(shè)計原則Hadoop云平臺作為大數(shù)據(jù)的分布式的計算平臺,必須具備分布式系統(tǒng)設(shè)計的重要且必須的設(shè)計原則,本平臺嚴(yán)格根據(jù)以下分布式系統(tǒng)的設(shè)計原則進(jìn)行設(shè)計:HighReliability高可靠性HighScalabilty高可擴(kuò)展性HighRobustness高魯棒性HighAvailabity高可用性高可靠性硬件錯誤是常態(tài)而不是異常。HDFS可能由成百上千的服務(wù)器所構(gòu)成,每個服務(wù)器上存儲著文件系統(tǒng)的部分?jǐn)?shù)據(jù)。我們面對的現(xiàn)實(shí)是構(gòu)成系統(tǒng)的組件數(shù)目是巨大的,而且任一組件都有可能失效,這意味著總是有一部分HDFS的組件是不工作的。因此錯誤檢測和快速、自動的恢復(fù)是HDFS最核心的架構(gòu)目標(biāo)。高可擴(kuò)展性運(yùn)行在HDFS上的應(yīng)用具有很大的數(shù)據(jù)集。HDFS上的一個典型文件大小一般都在G字節(jié)至T字節(jié)。因此,HDFS被調(diào)節(jié)以支持大文件存儲,它應(yīng)該能提供整體上高的數(shù)據(jù)傳輸帶寬,能在一個集群里擴(kuò)展到數(shù)百個節(jié)點(diǎn)。一個單一的HDFS實(shí)例應(yīng)該能支揮數(shù)以千萬計的文件。141.3高魯棒性引入Federation的最主要原因是簡單,其簡單性是與真正的分布式Namenode相比而言的。Federation能夠快速的解決了大部分單NamenodeHDFS的問題°Federation是簡單魯棒的設(shè)計,由于聯(lián)盟中各個Namenode之間是相互獨(dú)立的。大部分改變是在DatanodexConfig和Tools,而Namenode本身的改動非常少,這樣Namenode原先的魯棒性不會受到影響。比分布式的Namenode簡單,雖然這種實(shí)現(xiàn)的擴(kuò)展性比起真正的分布式的Namenode要小些,但是可以迅速滿足需求。另外一個原因是Federation良好的向后兼容性,已有的單Namenode的部署配置不需要任何改變就可以繼續(xù)工作。因此Federation(聯(lián)盟)是未來可選的方案之一。在Federation架構(gòu)中可以無縫的支持目前單Namenode架構(gòu)中的配置。141.4高可用性hadoop2.0的HA機(jī)制有兩個namenode,—個是activenamenode,狀態(tài)是active;另外一個是standbynamenode,狀態(tài)是standby。兩者的狀態(tài)是可以切換的,但不能同時兩個都是active狀態(tài),最多只有1個是active狀態(tài)。只有activenamenode提供對外的服務(wù),standbynamenode是不對外服務(wù)的。activenamenode和standbynamenode之間通過NFS或者JN(journalnode,QJM方式)來同步數(shù)據(jù)。1.4.2Hadoop云平臺架構(gòu)竝工儲、空期F現(xiàn)砂FS

NFSF網(wǎng)“曲SOL竝工儲、空期F現(xiàn)砂FS

NFSF網(wǎng)“曲SOLJ^a5c..I^SOL8$fi#st.以【5)二訂-S?:汕)B>;n^■3]lPjProwiK31」lFLYARN.孵斷絲Autk^fcasfeft.MiOfrz^n.Ariif&

陽Proiedoin

蘇;?釧

ti=f;m

犢應(yīng);Ch帥二:,字;HDFSH血cp時武対錢1.4.3平臺的基礎(chǔ)架構(gòu)設(shè)計云計算基礎(chǔ)架構(gòu)為了快速構(gòu)建以上各種平臺以滿足業(yè)務(wù)功能的建設(shè),運(yùn)營和擴(kuò)張,更好的支揮智彗園博業(yè)務(wù)的經(jīng)營,需要高等級基礎(chǔ)架構(gòu)平臺進(jìn)行支揮。根據(jù)旅游行業(yè)的特點(diǎn),我們建議采用云化的基礎(chǔ)架構(gòu)進(jìn)行支揮。同時,采用雙活/多活架構(gòu)來滿足業(yè)務(wù)連續(xù)性和客戶體驗(yàn)的要求。旅游產(chǎn)業(yè)自身是綜合性服務(wù)產(chǎn)業(yè),同時旅游產(chǎn)業(yè)與其他產(chǎn)業(yè)的正在不斷的深度融合,這就要求要求智彗園博的基礎(chǔ)架構(gòu)平臺要能與未來城市與社會服務(wù)的對接能力要能夠支撐未來570年的發(fā)展需求,根據(jù)最佳實(shí)踐,按需建設(shè)的業(yè)務(wù)需要云化的基礎(chǔ)架構(gòu)。旅游行業(yè)具有季節(jié)性、周期性,作為行業(yè)平臺,需要按需擴(kuò)展的計算能力進(jìn)行支揮,這就必須采用先進(jìn)的云化建設(shè)模式來滿足業(yè)務(wù)高峰期的處理能力。旅游行業(yè)的客戶體驗(yàn)具有跨地域特點(diǎn),同時考慮途體驗(yàn)和地域體驗(yàn),需要平臺能夠?yàn)檎麄€過程提供一致的漫游體驗(yàn)。因此,需要考慮在全國進(jìn)行業(yè)務(wù)能力的建設(shè),初期計劃使用雙活的數(shù)據(jù)中心設(shè)計來滿足南北大區(qū)客戶的需求。同時,我們也應(yīng)充分考慮未來旅游業(yè)務(wù)模式的不斷創(chuàng)新的必然性。核心基礎(chǔ)架構(gòu)整體設(shè)計智彗園博基礎(chǔ)架構(gòu)平臺的整體架構(gòu)設(shè)計:

*智意旅遊運(yùn)疔中心-*5■——InternetJ— _ 丄在初期建設(shè)中,采用南■北雙活的數(shù)據(jù)中心結(jié)構(gòu)來滿足整個中國的業(yè)務(wù)需求:*智意旅遊運(yùn)疔中心-*5■——InternetJ— _ 丄在初期建設(shè)中,采用南■北雙活的數(shù)據(jù)中心結(jié)構(gòu)來滿足整個中國的業(yè)務(wù)需求:*詢?集中監(jiān)控模塊將各數(shù)據(jù)中心的運(yùn)行狀態(tài)進(jìn)行匯總并實(shí)現(xiàn)部分自動化操作-負(fù)載均衡模塊將交易、瀏覽請求發(fā)送至正確的處理節(jié)點(diǎn)并將結(jié)果送回客戶端?數(shù)據(jù)復(fù)制模塊在數(shù)據(jù)中心間維持?jǐn)?shù)據(jù)的一致性

?數(shù)據(jù)中心間軟硬件、網(wǎng)絡(luò)配置一致.同時通過軟件分發(fā)機(jī)制及工具維持版本管理? 跨中心的變更管理、問題管理流程和工具支持技術(shù)構(gòu)架模式上,采用以POD為建設(shè)單位的標(biāo)準(zhǔn)化建設(shè)機(jī)制:數(shù)據(jù)中心站點(diǎn)內(nèi)的部署結(jié)構(gòu)多活數(shù)據(jù)中心的整體網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn):DMZ區(qū)DMZ區(qū)在數(shù)據(jù)中心的內(nèi)部,根據(jù)業(yè)務(wù)要求,需要劃分如下邏輯區(qū)域:?測試區(qū)?核心生產(chǎn)區(qū)域?DMZ區(qū)域?管理區(qū)域?存儲區(qū)域合理的邏輯分區(qū)保證了業(yè)務(wù)的有序開展數(shù)據(jù)中心外的部署結(jié)構(gòu)CDN內(nèi)容加速網(wǎng)絡(luò)的建設(shè)也是保證海量客戶體驗(yàn)的基礎(chǔ),擬在初期建設(shè)階段完成后,在后續(xù)階段完成國內(nèi)CDN節(jié)點(diǎn)的部署。CDN節(jié)點(diǎn)CDN節(jié)點(diǎn)CDN節(jié)點(diǎn)0KPIDNSCDN節(jié)點(diǎn)CDN節(jié)點(diǎn)CDN節(jié)點(diǎn)0KPIDNSQ3CP1WAhICP2Web!CP2DNSi9^K9^CDN服務(wù)以多媒體視頻為例:推流服務(wù)器第二次罡鉉第一次定位取昌素引文件1rlTrsntiS?Ci~1推流服務(wù)器第二次罡鉉第一次定位取昌素引文件1rlTrsntiS?Ci~111請康傳備案引文沖II1111111,?.站 n?itaterie[文件IfnawcoaBIi111111—1111Li>2te^xiKnxMFAP定位索引文件1.4.4高用性設(shè)計HDFS的HA功能通過配置Active/Standby兩個NameNodes實(shí)現(xiàn)在集群中對NameNode的熱備來解決單點(diǎn)故障問題,HDFSHA的解決方案可謂百花齊放,LinuxHA,VMwareFT,sharedNAS+NFS,BookKeeper,QJM/QuorumJournalManager,BackupNode等等。目前普遍采用的是sharedNAS+NFS,因?yàn)楹唵我子?,但是需要提供一個HA的共享存儲設(shè)備。而社區(qū)版已經(jīng)把基于QJM/QuorumJournalManager的方案merge到trunk了。高可擴(kuò)展性是來自于hadoop的存儲方案HDFS,現(xiàn)在急需大規(guī)模的部署和應(yīng)用的商用方案。在大規(guī)模部署中,熟練使用cM和Ambari是必須且首要的選擇。而在CM與Ambari中只有Ambari是Apache的頂級開源項(xiàng)目,所以選擇Ambari來管理并設(shè)計。?UE?UE4和?mt? ?? * ?i口?2/20y.戲各rMtaiQonO-.xna■■■0W? W■■■■0”忖03岀2"eurrtr£35-irrii922Ahr■Ua? ??nfrr.iM*mW?r?WWm忤釧屮evWW0.20ms■ BA"IifW?4c22.0hr業(yè)務(wù)分析平臺作為業(yè)務(wù)分析和決策支持的手段分為四種:標(biāo)準(zhǔn)報表、主題分析、在線分析、數(shù)據(jù)挖掘。1、 標(biāo)準(zhǔn)報表標(biāo)準(zhǔn)報表是決策支持平臺的核心功能,可以綜合日常醫(yī)療衛(wèi)生報表序列。2、 主題分析主題是在較高層次上將組織信息系統(tǒng)中的數(shù)據(jù)進(jìn)行綜合、歸類和分析利用的一個抽象概念,每一個主題基本對應(yīng)一個宏觀的分析領(lǐng)域。在邏輯意義上,它是對應(yīng)組織中某一宏觀分析領(lǐng)域所涉及的分析對象。面向主題的數(shù)據(jù)組織方式,就是在較高層次上對分析對象數(shù)據(jù)的一個完整并且一致的描述,能刻畫各個分析對象所涉及的園博園各項(xiàng)數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。所謂較高層次是相對面向應(yīng)用的數(shù)據(jù)組織方式而言的,是指按照主題進(jìn)行數(shù)據(jù)組織的方式具有更高的數(shù)據(jù)抽象級別。與傳統(tǒng)數(shù)據(jù)庫面向應(yīng)用進(jìn)行數(shù)據(jù)組織的特點(diǎn)相對應(yīng),數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題進(jìn)行組織的。3、 聯(lián)機(jī)分析聯(lián)機(jī)分析處理(OLAP)是使分析人員、管理人員或執(zhí)行人員能夠從多角度對信息進(jìn)行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。OLAP的目標(biāo)是滿足決策支持或者滿足在多維環(huán)境下特定的查詢和報表需求,它的技術(shù)核心是“維''這個概念。"維'■是人們觀察客觀世界的角度,是一種高層次的類型劃分?!熬S”一般包含著層次關(guān)系,這種層次關(guān)系有時會相當(dāng)復(fù)雜。通過把一個實(shí)體的多項(xiàng)重要的屬性定義為多個維,使用戶能對不同維度上的數(shù)據(jù)進(jìn)行比較。因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。OLAP的基本多維分析操作有鉆取、切片和切塊、以及旋轉(zhuǎn)等。鉆取是改變維的層次,變換分析的粒度。它包括向上鉆取和向下鉆取。向上鉆取是在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù),或者減少維數(shù);而向下鉆取則相反,它從匯總數(shù)據(jù)深入到細(xì)節(jié)數(shù)據(jù)進(jìn)行觀察或增加新維。切片和切塊是在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個,則是切片;如果有三個,則是切塊。旋轉(zhuǎn)是變換維的方向,即在表格中重新安排維的放置(例如行列互換)oOLAP有多種實(shí)現(xiàn)方法,根據(jù)存儲數(shù)據(jù)的方式不同可以分為關(guān)系OLAP(ROLAP)、多維OLAP(MOLAP)、混合OLAP(HOLAP)oROLAP表示基于關(guān)系數(shù)據(jù)庫的OLAP實(shí)現(xiàn)。以關(guān)系數(shù)據(jù)庫為核心,以關(guān)系型結(jié)構(gòu)進(jìn)行多維數(shù)據(jù)的表示和存儲。ROLAP將多維數(shù)據(jù)庫的多維結(jié)構(gòu)劃分為兩類表:一類是事實(shí)表,用來存儲數(shù)據(jù)和維關(guān)鍵宇;另—類是維表,即對每個維至少使用一個表來存放維的層次、成員類別等維的描述信息。維表和事實(shí)表通過主關(guān)鍵字和外關(guān)鍵宇聯(lián)系在一起,形成了“星型模式S對于層次復(fù)雜的維,為避免冗余數(shù)據(jù)占用過大的存儲空間,可以使用多個表來描述,這種星型模式的擴(kuò)展稱為雪花模式"。MOLAP表示基于多維數(shù)據(jù)組織的OLAP實(shí)現(xiàn)(MultidimensionalOLAP)o以多維數(shù)據(jù)組織方式為核心,也就是說.MOLAP使用多維數(shù)組存儲數(shù)據(jù)。多維數(shù)據(jù)在存儲中將形成''立方塊(Cube)"的結(jié)構(gòu),在MOLAP中對”立方塊”的”旋轉(zhuǎn)“、”切塊”、”切片”是產(chǎn)生多維數(shù)據(jù)報表的主要技術(shù)。HOLAP表示基于混合數(shù)據(jù)組織的OLAP實(shí)現(xiàn)(HybridOLAP)。如低層是關(guān)系型的,高層是多維矩陣型的。這種方式具有更好的靈活性。4、數(shù)據(jù)挖掘數(shù)據(jù)挖掘是根據(jù)園博園的既定業(yè)務(wù)目標(biāo)和存在的問題,對大量的業(yè)務(wù)數(shù)據(jù)進(jìn)行探索,揭示隱藏其中的規(guī)律,并將其模型化,指導(dǎo)并應(yīng)用于實(shí)際的園博園經(jīng)營中「數(shù)據(jù)挖掘與OLAP分析、預(yù)定義報表和即席查詢等有很大的區(qū)別。后三者通常是用戶對所關(guān)心的業(yè)務(wù)指標(biāo),按照已知的角度進(jìn)行分析;而前者則是在業(yè)務(wù)問題和目標(biāo)明確,但考察的角度不清楚時,對數(shù)據(jù)進(jìn)行探索,揭示隱藏其中的規(guī)律性,進(jìn)而將其模型化。不同的實(shí)際問題所采用的數(shù)據(jù)挖掘方法有所不同,有的問題甚至需要結(jié)合多種方法共同進(jìn)行解決。數(shù)據(jù)挖掘的方法一般分為預(yù)測型和描述型。具體而言,本系統(tǒng)要求數(shù)據(jù)挖掘應(yīng)用能支持以下各類方法:預(yù)測型(Predictive)方法通常包含以下幾種:?分類(Class辻ication)/決策樹算法(DecisionTree)?回歸分析(Regression)?時間序列分析(TimeSeries)描述型(Descriptive)方法通常包含以下幾種:?關(guān)聯(lián)分析(AssociationAnalysis)?序列關(guān)聯(lián)分析(SequentialAnalysis)?聚類分析(Clustering)1.4.6數(shù)據(jù)管理平臺主要的組件是HDFS和YARN。HDFS的介紹Hadoop分布式文件系統(tǒng)(HDFS)是運(yùn)行在通用硬件上的分布式文件系統(tǒng)。HDFS提供了一個高度容錯性和高吞吐量的海量數(shù)據(jù)存儲解決方案。HDFS已經(jīng)在各種大型在線服務(wù)和大型存儲系統(tǒng)中得到廣泛應(yīng)用,已經(jīng)成為海量數(shù)據(jù)存儲的事實(shí)標(biāo)準(zhǔn)。隨著信息系統(tǒng)的快速發(fā)展,海量的信息需要可靠存儲的同時,還能被大量的使用者快速地訪問。傳統(tǒng)的存儲方案已經(jīng)從構(gòu)架上越來越難以適應(yīng)近幾年來的信息系統(tǒng)業(yè)務(wù)的飛速發(fā)展,成為了業(yè)務(wù)發(fā)展的瓶頸和障礙。HDFS通過一個高效的分布式算法,將數(shù)據(jù)的訪問和存儲分布在大量服務(wù)器之中,在可乘地多備份存儲的同時還能將訪問分布在集群中的各個服務(wù)器之上,是傳統(tǒng)存儲構(gòu)架的—個顛覆性的發(fā)展。HDFS可以提供以下特性:?可自我修復(fù)的分布式文件存儲系統(tǒng)?高可擴(kuò)展性,無需停機(jī)動態(tài)擴(kuò)容?高可靠性,數(shù)據(jù)自動檢測和復(fù)制?高吞吐量訪問,消除訪問瓶頸?使用低成本存儲和服務(wù)器構(gòu)建YARN的介紹YARN是下一代MapReduce,即MRv2,是在第一代MapReduce基礎(chǔ)上演變而來的,主要是為了解決原始Hadoop擴(kuò)展性較差,不支持多計算框架而提出的。它完全不同于HadoopMapReduce,所有代碼全部重寫而成。整個平臺由ResourceManager(master,功能是資源分配)和NodeManager組成(slave,功能是節(jié)點(diǎn)管理)。較于HadoopMapReduce,其最大特點(diǎn)是將JobTracker拆分成ResourceManager和ApplicationMaster,其中ResourceManager是全局的資源管理器,僅負(fù)責(zé)資源分配(由于ResourceManager功能簡單,所以不會嚴(yán)重制約系統(tǒng)的擴(kuò)展性),而ApplicationMaster對應(yīng)一個具體的application(如Hadoopjob,SparkJob等),主要負(fù)責(zé)application的資源申請,啟動各個任務(wù)和運(yùn)行狀態(tài)監(jiān)控(沒有調(diào)度功能)。所以YARN,作為資源統(tǒng)一管理和調(diào)度平臺,具有以下的特點(diǎn)?支持多種計算框架資源統(tǒng)一管理和調(diào)度平臺應(yīng)該提供一個全局的資源管理器。所有接入的框架要先向該全局資源管理器申請資源,申請成功之后,再由框架自身的調(diào)度器決定資源交由哪個任務(wù)使用,也就是說,整個大的系統(tǒng)是個雙層調(diào)度器,第一層是統(tǒng)一管理和調(diào)度平臺提供的,另外一層是框架自身的調(diào)度器。資源統(tǒng)一管理和調(diào)度平臺應(yīng)該提供資源隔離。不同的框架中的不同任務(wù)往往需要的資源(內(nèi)存,CPU,網(wǎng)絡(luò)10等)不同,它們運(yùn)行在同一個集群中,會相互干擾,為此應(yīng)該提供一種資源隔離機(jī)制避免任務(wù)之間由資源爭用導(dǎo)致效率下降。?擴(kuò)展性好現(xiàn)有的分布式計算框架都會將系統(tǒng)擴(kuò)展性作為一個非常重要的設(shè)計目標(biāo),比如Hadoop,好的擴(kuò)展性意味著系統(tǒng)能夠隨著業(yè)務(wù)的擴(kuò)展線性擴(kuò)展。資源統(tǒng)一管理和調(diào)度平臺融入多種計算框架后,不應(yīng)該破壞這種特性,也就是說,統(tǒng)一管理和調(diào)度平臺不應(yīng)該成為制約框架進(jìn)行水平擴(kuò)展。?容錯性同擴(kuò)展性類似,容錯性也是當(dāng)前分布式計算框架的一個重要設(shè)計目標(biāo),統(tǒng)一管理和調(diào)度平臺在保持原有框架的容錯特性基礎(chǔ)上,自己本身也應(yīng)具有良好的容錯性。?高資源利用率如果采用靜態(tài)資源分配,也就是每個計算框架分配一個集群,往往由于作業(yè)自身的特點(diǎn)或者作業(yè)提交頻率等原因,集群利用率很低。當(dāng)將各種框架部署到同一個大的集群中,進(jìn)行統(tǒng)一管理和調(diào)度后,由于各種作業(yè)交錯且作業(yè)提交頻率大幅度升高,則為資源利用率的提升增加了機(jī)會。非結(jié)構(gòu)化大數(shù)據(jù)管理及內(nèi)容分析平臺非結(jié)構(gòu)化大數(shù)據(jù)管理及分析平臺由以下幾個主要功能模塊組成:統(tǒng)一的非結(jié)構(gòu)化數(shù)據(jù)管理模塊,內(nèi)容分析模塊,報表/BI的連接及數(shù)據(jù)導(dǎo)出模塊。外部的非結(jié)構(gòu)化數(shù)據(jù),包括文檔,圖片,音頻,視頻等形式的非結(jié)構(gòu)化數(shù)據(jù),通過上傳,保存,歸檔等功能,保存在非結(jié)構(gòu)化統(tǒng)一的內(nèi)容管理平臺中,內(nèi)容管理由傳統(tǒng)的數(shù)據(jù)庫和HBase作為適用于不同類型業(yè)務(wù)的索引信息及元數(shù)據(jù)管理。小文件(主要包括文檔,圖片等)保存在傳統(tǒng)的存儲設(shè)備,比較大的文件,則保存在HDFS的分布式文件存儲中。存儲的管理.由內(nèi)容管理模塊中的存儲設(shè)備管理和存儲策略管理功能實(shí)現(xiàn)自動化。在傳統(tǒng)存儲中的小文件,由于生命周期等觸發(fā)條件,可以由內(nèi)容管理模塊中的內(nèi)容歸檔系統(tǒng),打包保存到HDFS中。非結(jié)構(gòu)化內(nèi)容管理模塊景點(diǎn)非結(jié)構(gòu)化數(shù)據(jù)的快速管理。分別針對各個景點(diǎn)的資料,可以對接收景點(diǎn)大數(shù)據(jù)信息的進(jìn)行模版化的快速創(chuàng)建。通過模版創(chuàng)建的分類管理,可以針對不同爭點(diǎn),旅游局不同業(yè)務(wù)部門,快速建立對應(yīng)的團(tuán)隊(duì)管理空間。

帶有索引信息的非結(jié)構(gòu)化數(shù)據(jù)的管理。保存非結(jié)構(gòu)化數(shù)據(jù)的時候,保留適當(dāng)?shù)脑獢?shù)據(jù)索引信息,方便信息的快速查詢。針對視頻資料的管理,除了在原始文件的管理基礎(chǔ)上,還利用大數(shù)據(jù)平臺,進(jìn)行各種編碼的轉(zhuǎn)換,適應(yīng)在不同的終端上,景點(diǎn)的宣傳播放。內(nèi)容管理平臺內(nèi)置的詳細(xì)的安全權(quán)限管理,達(dá)到不同景點(diǎn),不同的部門間權(quán)限可控。ex所制修改廉性査送目錄厘INK性||■醱??O////□//??口統(tǒng)一的內(nèi)容管理平臺具備不同存儲設(shè)備的管理功能。如下,針對傳統(tǒng)的存儲,和HDFS的分布式存儲,可以通過存儲策略直接進(jìn)行管理。StorageAreaFkedContentDevweFileSystemRDBMSji7HDFS *jStorageAreaFkedContentDevweFileSystemRDBMSji7HDFS *jExternalStorageDevices內(nèi)容分析功能大數(shù)據(jù)內(nèi)容分析功能模塊,主要區(qū)分文本內(nèi)容和音視頻內(nèi)容兩類。針對文本內(nèi)容,可以通過針對外部網(wǎng)站的爬蟲,和內(nèi)部非結(jié)構(gòu)化統(tǒng)一管理平臺爬蟲,進(jìn)行數(shù)據(jù)的統(tǒng)一爬取,同時進(jìn)行統(tǒng)一的分析。分析的結(jié)果,不但可以直接通過分析界面進(jìn)行展示,更可以導(dǎo)出到報表系統(tǒng)中,結(jié)合數(shù)據(jù)倉庫的結(jié)構(gòu)化數(shù)據(jù),進(jìn)行統(tǒng)一的報表和業(yè)務(wù)價值挖掘:內(nèi)容分析可以從時間序列的維度進(jìn)行總結(jié),如下圖:在不同的時間段,同樣的內(nèi)容是不一樣的。例如通過分析各個旅游景點(diǎn)照片網(wǎng)上的發(fā)帖量,旅游攻略的閱讀量等信息,通過以下的圖片,可以直觀的得到哪些月份會是游客高峰。還可以根據(jù)相應(yīng)的參數(shù),制定一些數(shù)據(jù)共識,對數(shù)據(jù)分析結(jié)果進(jìn)行數(shù)學(xué)偏差的糾正。對各緯度信息的趨勢進(jìn)行評估。通過自動識別的地理位置信息,進(jìn)行分析。熱點(diǎn)抽取,可以根據(jù)某個景點(diǎn)的所有非結(jié)構(gòu)化數(shù)據(jù),進(jìn)行大數(shù)據(jù)分析,得到景點(diǎn)的各種環(huán)境信息。通過各種大數(shù)據(jù)的集中,可以分析某個景點(diǎn)的游客的消費(fèi)喜好。在景點(diǎn)的門票銷售,促銷方案,就可以在這些網(wǎng)站上進(jìn)行推廣。1.4.7數(shù)據(jù)訪問平臺主要的組件是Hive|Tez|Pig|Storm|Spark|HBase|Accumulo|SolrHive的介紹Hive是一種建立在Hadoop之上的數(shù)據(jù)倉庫架構(gòu)。它提供了:?—套方便的實(shí)施數(shù)據(jù)抽?。‥TL)的工具。?—種讓用戶對數(shù)據(jù)描述其結(jié)構(gòu)的機(jī)制。?支持用戶對存儲在Hadoop中的海量數(shù)據(jù)進(jìn)行查詢和分析的能力。Hive的基本特點(diǎn)是它采用HDFS進(jìn)行數(shù)據(jù)存儲并利用Map/Reduce框架進(jìn)行數(shù)據(jù)操作。所以從本質(zhì)上來說,Hive就是個編譯器,它把用戶的操作(查詢或者ETL)變換成Map/Reduce任務(wù),利用Map/Reduce框架執(zhí)行這些任務(wù)以對HDFS上的海量數(shù)據(jù)進(jìn)行處理。Hive被設(shè)計成一種批處理系統(tǒng)。它利用Map/Reduce框架來處理數(shù)據(jù)。因此,它在Map/Reduce任務(wù)提交和調(diào)度上有比較高的開銷。即使對于小數(shù)據(jù)集(幾百兆)來說,延遲也是分鐘級的。但其最大的優(yōu)點(diǎn)是延遲相對于數(shù)據(jù)集大小是線性增加的。Hive定義了一種簡單的類SQL查詢語言HiveQL,讓熟悉SQL的用戶可以非常容易的進(jìn)行查詢。與此同時,HiveQL也允許熟悉Map/Reduce框架的程序員在查詢中插入自定義的mapper和reducer腳本以擴(kuò)展Hive內(nèi)嵌的功能,完成更復(fù)雜的分析。Tez的介紹Tez是Apache最新開源的支持DAG作業(yè)的計算框架,它直接源于MapReduce框架,核心思想是將Map和Reduce兩個操作進(jìn)一步拆分,即Map被拆分成Input、ProcessorsSort、Merge和0utput,Reduce被拆分成Input、ShufflesSort、Merge、Processor和Output等,這樣,這些分解后的元操作可以任竟靈活組合,產(chǎn)生新的操作,這些操作經(jīng)過一些控制程序組裝后,可形成一個大的DAG作業(yè)。總結(jié)起來,Tez有以下特點(diǎn)?Apache二級開源項(xiàng)目(源代碼今天發(fā)布的)?運(yùn)行在YARN之上?適用于DAG(有向圖)應(yīng)用(同Impala、Dremel和Drill—樣,可用于替換Hive/Pig等)Pig的介紹Pig的介紹Pig是一個基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺,它提供的SQL-LIKE語言叫PigLatin,該語言的編譯器會把類SQL的數(shù)據(jù)分析請求轉(zhuǎn)換為一系列經(jīng)過優(yōu)化處理的MapReduce運(yùn)算。Pig為復(fù)雜的海量數(shù)據(jù)并行計算提供了一個簡單的操作和編程接口。Pig自己實(shí)現(xiàn)的一套框架對輸入、輸出的人機(jī)交互部分的實(shí)現(xiàn),就是PigLatinoZebra是Pig與HDFS/Hadoop的中間層、Zebra是MapReduce作業(yè)編寫的客戶端,Zerbra用結(jié)構(gòu)化的語言實(shí)現(xiàn)了對hadoop物理存儲元數(shù)據(jù)的管理也是對Hadoop的數(shù)據(jù)抽象層,在Zebra中有2個核心的類TableStore(寫)/TableLoad(讀)對Hadoop上的數(shù)據(jù)進(jìn)行操作。Pig中的Streaming主要分為4個組件:l.PigLatin2.邏輯層(LogicalLayer)3.物理層(PhysicalLayer)4.Strearning具體實(shí)現(xiàn)(Implementation),Streaming會創(chuàng)建一個Map/Reduce作業(yè),并把它發(fā)送給合適的集群,同時監(jiān)視這個作業(yè)的在集群環(huán)境中的整個執(zhí)行過程。MapReduce在每臺機(jī)器上進(jìn)行分布式計算的框架(算法)°HDFS最終存儲數(shù)據(jù)的部分。Stonn的介紹Storm是一個開源的分布式實(shí)時計算系統(tǒng),可以簡單、可靠的處理大量的數(shù)據(jù)流。Storm有很多使用場景:如實(shí)時分析,在線機(jī)器學(xué)習(xí),持續(xù)計算,分布式RPC,ETL等等。Storm支持水平擴(kuò)展,具有高容錯性,保證每個消息都會得到處理,而且處理速度很快(在一個小集群中,每個結(jié)點(diǎn)每秒可以處理數(shù)以百萬計的消息)oStorm的部署和運(yùn)維都很便捷,而且更為重要的是可以使用任意編程語言來開發(fā)應(yīng)用。Storm有如下特點(diǎn):?編程模型簡單在大數(shù)據(jù)處理方面相信大家對hadoop已經(jīng)耳熟能詳,基于GoogleMap/Reduce來實(shí)現(xiàn)的Hadoop為開發(fā)者提供了map.reduce原語,使并行批處理程序變得非常地簡單和優(yōu)美。同樣,Storm也為大數(shù)據(jù)的實(shí)時計算提供了一些簡單優(yōu)美的原語,這大大降低了開發(fā)并行實(shí)時處理的任務(wù)的復(fù)雜性,幫助你快速、高效的開發(fā)應(yīng)用。?可擴(kuò)展在Storm集群中真正運(yùn)行topology的主要有三個實(shí)體:工作進(jìn)程、線程和任務(wù)。Storm集群中的每臺機(jī)器上都可以運(yùn)行多個工作進(jìn)程,每個工作進(jìn)程又可創(chuàng)建多個線程,每個線程可以執(zhí)行多個任務(wù),任務(wù)是真正進(jìn)行數(shù)據(jù)處理的實(shí)體,我們開發(fā)的spout、bolt就是作為一個或者多個任務(wù)的方式執(zhí)行的。因此,計算任務(wù)在多個線程、進(jìn)程和服務(wù)器之間并行進(jìn)行,Spark的介紹支持靈活的水平擴(kuò)展。?高可乘性Storm可以保證spout發(fā)出的每條消息都能被“完全處理:這也是直接區(qū)別于其他實(shí)時系統(tǒng)的地方,如S4。請注意,spout發(fā)出的消息后續(xù)可能會觸發(fā)產(chǎn)生成千上萬條消息,可以形象的理解為—棵消息樹,其中spout發(fā)出的消息為樹根,Storm會跟蹤這棵消息樹的處理情況,只有當(dāng)這棵消息樹中的所有消息都被處理了,Storm才會認(rèn)為spout發(fā)出的這個消息已經(jīng)被“完全處理”。如果這棵消息樹中的任何一個消息處理失敗了,或者整棵消息樹在限定的時間內(nèi)沒有°完全處理”,那么spout發(fā)出的消息就會重發(fā)??紤]到盡可能減少對內(nèi)存的消耗,Storm并不會跟蹤消息樹中的每個消息,而是采用了一些特殊的策略,它把消息樹當(dāng)作一個整體來跟蹤,對消息樹中所有消息的唯一id進(jìn)行異或計算,通過是否為零來判定spout發(fā)岀的消息是否被“完全處理:這極大的節(jié)約了內(nèi)存和簡化了判定邏輯,后面會對這種機(jī)制進(jìn)行詳細(xì)介紹。這種模式,每發(fā)送一個消息,都會同步發(fā)送一個ack/fail,對于網(wǎng)絡(luò)的帶寬會有一定的消耗,如果對于可靠性要求不高,可通過使用不同的emit接口關(guān)閉該模式。上面所說的,Storm保證了每個消息至少被處理一次,但是對于有些計算場合,會嚴(yán)格要求每個消息只被處理一次,幸而Storm的070引入了事務(wù)性拓?fù)洌鉀Q了這個問題,后面會有詳述。?高容錯性如果在消息處理過程中岀了一些異常,Storm會重新安排這個出問題的處理單元。Storm保證一個處理單元永遠(yuǎn)運(yùn)行(除非你顯式殺掉這個處理單元)。當(dāng)然,如果處理單元中存儲了中間狀態(tài),那么當(dāng)處理單元重新被Storm啟動的時候,需要應(yīng)用自己處理中間狀態(tài)的恢復(fù)。?支持多種編程語言除了用java實(shí)現(xiàn)spout和bolt,你還可以使用任何你熟悉的編程語言來完成這項(xiàng)工作,這一切得益于Storm所謂的多語言協(xié)議。多語言協(xié)議是Storm內(nèi)部的一種特殊協(xié)議,允許spout或者bolt使用標(biāo)準(zhǔn)輸入和標(biāo)準(zhǔn)輸出來進(jìn)行消息傳遞,傳遞的消息為單行文本或者是json編碼的多行。Storm支持多語言編程主要是通過ShellBolt.ShellSpout和ShellProcess這些類來實(shí)現(xiàn)的,這些類都實(shí)現(xiàn)了IBolt和ISpout接口,以及讓shell通過java的ProcessBuilder類來執(zhí)行腳本或者程序的協(xié)議。可以看到,采用這種方式,每個tuple在處理的時候都需要進(jìn)行json的編解碼,因此在吞吐量上會有較大影響。?支持本地模式Storm有一種“本地模式",也就是在進(jìn)程中模擬一個Storm集群的所有功能,以本地模式運(yùn)行topology跟在集群上運(yùn)行topology類似,這對于我們開發(fā)和測試來說非常有用。?高效用ZeroMQ作為底層消息隊(duì)列,保證消息能快速被處理Spark是一個基于內(nèi)存計算的開源集群計算系統(tǒng),目的是更快速的進(jìn)行數(shù)據(jù)分析。Spark由加州伯克利大學(xué)AMP實(shí)驗(yàn)室Matei為主的小團(tuán)隊(duì)使用Scala開發(fā)開發(fā),其核心部分的代碼只有63個Scala文件,非常輕量級。Spark提供了與Hadoop相似的開源集群計算環(huán)境,但基于內(nèi)存和迭代優(yōu)化的設(shè)計,Spark在某些工作負(fù)載表現(xiàn)更優(yōu)秀。在2014上半年,Spark開源生態(tài)系統(tǒng)得到了大幅增長,已成為大數(shù)據(jù)領(lǐng)域最活躍的開源項(xiàng)目之一,當(dāng)下已活躍在HortonworkSxIBM、Cloudera、MapR和Pivotal等眾多知名大數(shù)據(jù)公司。那么Spark究竟以什么吸引了如此多的關(guān)注,這里我們看向Dzone上的6個總結(jié)。1?輕量級快速處理。著眼大數(shù)據(jù)處理,速度往往被置于第一位,我們經(jīng)常尋找能盡快處理我們數(shù)據(jù)的工具。Spark允許Hadoop集群中的應(yīng)用程序在內(nèi)存中以100倍的速度運(yùn)行,即使在磁盤上運(yùn)行也能快10倍。Spark通過減少磁盤10來達(dá)到性能提升,它們將中間處理數(shù)據(jù)全部放到了內(nèi)存中。Spark使用了RDD(ResilientDistributedDataset)的理念,這允許它可以透明的內(nèi)存中存儲數(shù)據(jù),只在需要時才持久化到磁盤。這種做法大大的減少了數(shù)據(jù)處理過程中磁盤的讀寫,大幅度的降低了所需時間。2?易于使用,Spark支持多語言。Spark允許Java、Scala及Python,這允許開發(fā)者在自己熟悉的語言環(huán)境下進(jìn)行工作。它自帶了80多個高等級操作符,允許在shell中進(jìn)行交互式查詢。3?支持復(fù)雜查詢。在簡單的“map”及-reduce”操作之外,Spark還支持SQL查詢、流式查詢及復(fù)雜查詢,比如開箱即用的機(jī)器學(xué)習(xí)機(jī)圖算法。同時,用戶可以在同一個工作流中無縫的搭配這些能力。4?實(shí)時的流處理,對比MapReduce只能處理離線數(shù)據(jù),Spark支持實(shí)時的流計算。Spark依賴SparkStreaming對數(shù)據(jù)進(jìn)行實(shí)時的處理,當(dāng)然在YARN之后Hadoop也可以借助其他的工具進(jìn)行流式計算。對于SparkStreaming,Cloudera的評價是:簡單:輕量級且具備功能強(qiáng)大的API,SparksStreaming允許你快速開發(fā)流應(yīng)用程序°容錯:不像其他的流解決方案,比如Storm,無需額外的代碼和配置,SparkStreaming就可以做大量的恢復(fù)和交付工作。集成:為流處理和批處理重用了同樣的代碼,甚至可以將流數(shù)據(jù)保存到歷史數(shù)據(jù)中。5.可以與Hadoop和已存Hadoop數(shù)據(jù)整合。Spark可以獨(dú)立的運(yùn)行,除了可以運(yùn)行在當(dāng)下的YARN集群管理之外,它還可以讀取已有的任何Hadoop數(shù)據(jù)。這是個非常大的優(yōu)勢,它可以運(yùn)行在任何Hadoop數(shù)據(jù)源上,比如HBase、HDFS等。這個特性讓用戶可以輕易遷移已有Hadoop應(yīng)甩如果合適的話。6?活躍和無限壯大的社區(qū)。Spark起源于2009年,當(dāng)下已有超過50個機(jī)構(gòu)250個工程師貢獻(xiàn)過代碼,和去年六月相比,代碼行數(shù)幾乎擴(kuò)大三倍,這是個令人艷羨的増長。Hbase的介紹HBase是一個構(gòu)建在HDFS上的分布式列存儲系統(tǒng);是基于GoogleBigTable模型開發(fā)的,典型的key/value系統(tǒng);是ApacheHadoop生態(tài)系統(tǒng)中的重要一員,主要用于海量結(jié)構(gòu)化數(shù)據(jù)存儲;從邏輯上講,HBase將數(shù)據(jù)按照表、行和列進(jìn)行存儲。與hadoop一樣,Hbase目標(biāo)主要依免橫向擴(kuò)展,通過不斷增加廉價的商用服務(wù)器,來增加計算和存儲能力。Hbase表的特點(diǎn)?大:一個表可以有數(shù)十億行,上百萬列;?無模式:每行都有一個可排序的主鍵和任意多的列,列可以根據(jù)需要動態(tài)的増加,同一張表中不同的行可以有截然不同的列;?面向列:面向列(族)的存儲和權(quán)限控制,列(族)獨(dú)立檢索;?稀疏:空(null)列并不占用存儲空間,表可以設(shè)計的非常稀疏;?數(shù)據(jù)多版本:每個單元中的數(shù)據(jù)可以有多個版本,默認(rèn)情況下版本號自動分配,是單元格插入時的時間戳;?數(shù)據(jù)類型單一:Hbase中的數(shù)據(jù)都是字符串,沒有類型。Accumulo的介紹ApacheAccumulo是一個可靠的、可伸縮的、高性能的排序分布式的Key-Value存儲解決方案,基于單元訪問控制以及可定制的服務(wù)器端處理。使用GoogleBigTable設(shè)計思路,基于ApacheHadoop、Zookeeper和Thrift構(gòu)建。Solr的介紹Solr是一個擁有象WebService—樣接口的獨(dú)立運(yùn)行的搜索服務(wù)器。你將能夠通過HTTP協(xié)議以XML格式將文檔放入捜索服務(wù)器(這個過程叫做索引),你能夠通過HTTP協(xié)議的GET來查詢捜索服務(wù)器并且得到XML格式的結(jié)果。Solr的特性包括:?高級的全文捜索功能?專為高通量的網(wǎng)絡(luò)流量進(jìn)行的優(yōu)化?基于開放接口(XML和HTTP)的標(biāo)準(zhǔn)?綜合的HTML管理界面?可伸縮性-能夠有效地復(fù)制到另外一個Solr搜索服務(wù)器?使用XML配置達(dá)到靈活性和適配性?可擴(kuò)展的插件體系1.4.8數(shù)據(jù)管制和集成平臺Falcon的介紹Falcon的介紹Falcon提供了一個用于治理和編排Hadoop內(nèi)部和周邊數(shù)據(jù)流的數(shù)據(jù)處理框架。該框架為獲取和處理數(shù)據(jù)集、復(fù)制與保留數(shù)據(jù)集、重新定向位于非Hadoop擴(kuò)展中的數(shù)據(jù)集、維護(hù)審核跟蹤與沿襲提供了關(guān)鍵性的管控框架。Sqoop的介紹Sqoop是一個用來將Hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具,可以將一個關(guān)系型數(shù)據(jù)庫(例如:MySQL,Oracle,Postgres等)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫中。Oozie的介紹Oozie是一個基于工作流引華的開源框架,是由Cloudera公司貢獻(xiàn)給Apache的,它能夠提供對HadoopMapReduce和PigJobs的任務(wù)調(diào)度與協(xié)調(diào)。Oozie需要部署到JavaServlet容器中運(yùn)行。Oozie工作流定義,同JBossjBPM提供的jPDL—樣,也提供了類似的流程定義語言hPDL,通過XML文件格式來實(shí)現(xiàn)流程的定義。對于工作流系統(tǒng),一般都會有很多不同功能的節(jié)點(diǎn),比如分支、并發(fā)、匯合等等,Oozie也有類似的一些概念。Oozie定義了控制流節(jié)點(diǎn)(ControlFlowNodes)和動作節(jié)點(diǎn)(ActionNodes),其中控制流節(jié)點(diǎn)定義了流程的開始和結(jié)束,以及控制流程的執(zhí)行路徑(ExecutionPath),如decision、fork、join等;而動作節(jié)點(diǎn)包括Hadoopmap-reducerHadoop文件系統(tǒng)、Pig、SSH、HTTP、eMail和Oozie子流程。Flume的介紹Flume是Cloudera公司的一款高性能、高可能的分布式日志收集系統(tǒng)。支持在系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,F(xiàn)lume提供對數(shù)據(jù)進(jìn)行簡單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力。具有以下特性:(1)可靠性當(dāng)節(jié)點(diǎn)出現(xiàn)故障時,日志能夠被傳送到其他節(jié)點(diǎn)上而不會丟失。Flume提供了三種級別的可靠性保障,從強(qiáng)到弱依次分別為:end-to-end(收到數(shù)據(jù)agent首先將event寫到磁盤上,當(dāng)數(shù)據(jù)傳送成功后,再刪除;如果數(shù)據(jù)發(fā)送失敗,可以重新發(fā)送°),Storeonfailure(這也是scnbe采用的策略,當(dāng)數(shù)據(jù)接收方crash時,將數(shù)據(jù)寫到本地,待恢復(fù)后,繼續(xù)發(fā)送),Besteffort(數(shù)據(jù)發(fā)送到接收方后,不會進(jìn)行確認(rèn))。⑵可擴(kuò)展性Flume采用了三層架構(gòu),分別為agent,collector和storage,每一層均可以水平擴(kuò)展。其中,所有agent和collector由master統(tǒng)一管理這使得系統(tǒng)容易監(jiān)控和維護(hù),且master允許有多個(使用ZooKeeper進(jìn)行管理和負(fù)載均衡),這就避免了單點(diǎn)故障問題??晒芾硇运衋gent和colletor由master統(tǒng)一管理,這使得系統(tǒng)便于維護(hù)。多master情況,F(xiàn)lume利用ZooKeeper和gossip,保證動態(tài)配置數(shù)據(jù)的一致性。用戶可以在master上查看各個數(shù)據(jù)源或者數(shù)據(jù)流執(zhí)行情況,且可以對各個數(shù)據(jù)源配置和動態(tài)加載。Flume提供了web和shellscriptcommand兩種形式對數(shù)據(jù)流進(jìn)行管理。功能可擴(kuò)展性用戶可以根據(jù)需要添加自己的agent,collector或者storage。此夕卜,F(xiàn)lume自帶了很多組件,包括各種agent(file,syslog等),collector和storage(file,HDFS等)1.4.9運(yùn)營平臺運(yùn)營平臺主要的組件是Ambari和ZookeeperAmbari的介紹ApacheAmbari是一種基于Web的工具,支持ApacheHadoop集群的供應(yīng)、管理和監(jiān)控oAmbari目前已支持大多數(shù)Hadoop組件,包括HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等。ApacheAmbari支持HDFS、MapReduce^Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。也是5個頂級hadoop管理工具之一。Ambari主要取得了以下成績:通過一步一步的安裝向?qū)Ш喕思汗?yīng)。預(yù)先配置好關(guān)鍵的運(yùn)維指標(biāo)(metrics),可以直接查看HadoopCore(HDFS和MapReduce)及相關(guān)項(xiàng)目(如HBase、Hive和HCatalog)是否健康。支持作業(yè)與任務(wù)執(zhí)行的可視化與分析,能夠更好地查看依賴和性能。通過一個完整的RESTfulAPI把監(jiān)控信息暴露出來,集成了現(xiàn)有的運(yùn)維工具。用戶界面非常直觀,用戶可以輕松有效地查看信息并控制集群。Ambari使用Ganglia收集度量指標(biāo),用Nagios支持系統(tǒng)報警,當(dāng)需要引起管理員的關(guān)注時(比如,節(jié)點(diǎn)停機(jī)或磁盤剩余空間不足等問題),系統(tǒng)將向其發(fā)送郵件。此外,Ambari能夠安裝安全的(基于Kerberos)Hadoop集群,以此實(shí)現(xiàn)了對Hadoop安全的支持,提供了基于角色的用戶認(rèn)證、授權(quán)和審計功能,并為用戶管理集成了LDAP和ActiveDirectory

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論