版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、CONFIDENTIALL省交通廳大數(shù)據(jù)平臺(tái)規(guī)劃議題1 我們對(duì)交通大數(shù)據(jù)平臺(tái)的理解 建設(shè)思路12 應(yīng)用規(guī)劃與部署4 總體規(guī)劃3CONFIDENTIALCONFIDENTIAL智慧交通 - 大數(shù)據(jù)方案優(yōu)勢(shì)方案優(yōu)勢(shì)實(shí)時(shí)監(jiān)測(cè)、智能監(jiān)控交通信息,輕松處理海量數(shù)據(jù)應(yīng)用負(fù)載適應(yīng)性強(qiáng),廣泛兼容,易于擴(kuò)展交通信息智能處理,及時(shí)發(fā)布動(dòng)態(tài)數(shù)據(jù)整合與共享高可用性、高穩(wěn)定性客戶價(jià)值客戶價(jià)值海量數(shù)據(jù)處理和實(shí)時(shí)分析全網(wǎng)、全天候覆蓋動(dòng)態(tài)監(jiān)控、智能導(dǎo)航交通擁堵偵測(cè)與預(yù)警跨地區(qū)信息共享、資源整合顯著降低軟硬件購(gòu)置成本Hadoop家族大數(shù)據(jù)服務(wù)交通數(shù)據(jù)源CONFIDENTIAL浮動(dòng)車計(jì)算分析CONFIDENTIAL出租汽車客流分
2、析議題7 我們對(duì)交通大數(shù)據(jù)平臺(tái)的理解 建設(shè)思路12 應(yīng)用規(guī)劃與部署4 總體規(guī)劃38CONFIDENTIAL文件存儲(chǔ)分析搜索挖掘數(shù)據(jù)高鐵交換實(shí)時(shí)數(shù)據(jù)庫監(jiān)控open-falcon 以Hadoop為核心,融合其他技術(shù)平臺(tái)系統(tǒng),實(shí)現(xiàn)超融合一棧式企業(yè)級(jí)數(shù)據(jù)分析解決方案。數(shù)據(jù)存儲(chǔ),數(shù)據(jù)分析,可視化,運(yùn)維監(jiān)控,機(jī)器學(xué)習(xí),人工智能。全面的一棧式解決方案。實(shí)現(xiàn)平臺(tái)級(jí)融合,所有平臺(tái)一統(tǒng)底層數(shù)據(jù)交互格式,統(tǒng)一元數(shù)據(jù)管理,數(shù)據(jù)治理。全面擁抱開源技術(shù)棧。展現(xiàn)9CONFIDENTIAL大數(shù)據(jù)平臺(tái)具備的關(guān)鍵能力基礎(chǔ)的大數(shù)據(jù)平臺(tái)能力:具備管理大數(shù)據(jù)平臺(tái)主機(jī)集群的能力,能夠按照需要,動(dòng)態(tài)分配資源,具備多租戶管理能力,數(shù)據(jù)安全管
3、理能力;同時(shí)具備處理海量數(shù)據(jù)的能力,可以根據(jù)需要,對(duì)不同業(yè)務(wù)部門不同的應(yīng)用,開放不同的數(shù)據(jù)。能力一能力一大數(shù)據(jù)采集:大數(shù)據(jù)平臺(tái)容納百億級(jí)數(shù)據(jù)量,能夠從內(nèi)部和外部的各種數(shù)據(jù)源中獲取數(shù)據(jù)能力二能力二大數(shù)據(jù)計(jì)算分析:海量數(shù)據(jù)實(shí)時(shí)和離線分析計(jì)算,秒級(jí)響應(yīng)。能力三能力三10CONFIDENTIAL關(guān)鍵能力一:基礎(chǔ)大數(shù)據(jù)平臺(tái)管理能力大數(shù)據(jù)總體架構(gòu)(數(shù)據(jù)銀行+數(shù)據(jù)高鐵)通過 八大類接口實(shí)現(xiàn)大數(shù)據(jù)平臺(tái)存儲(chǔ)能力和計(jì)算能力的開放。查詢開發(fā)框架訪問服務(wù)(DataBank UI)JDBC/ODBC接口數(shù)據(jù)服務(wù)(DataBank API)實(shí)時(shí)數(shù)據(jù)數(shù)據(jù)庫搜索引擎認(rèn)證管理安全/管理權(quán)限管理審計(jì)管理圖形化安裝部署工具商業(yè)支持
4、報(bào)警結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)庫API流傳感器半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)日志網(wǎng)頁圖片二進(jìn)制視頻音頻管理API(安裝/監(jiān)控/配置)文檔HADOOP-HDFS/YARN/ZOOKEEPER (POWER/EC)數(shù)據(jù)訪問REST-API接口HBASE數(shù)據(jù)倉(cāng)庫交互分析數(shù)據(jù)挖掘工作流數(shù)據(jù)挖掘Spark-SQLkylinphoenixopentsdbSolrelasticsearchMLlibSpark-RRedisHIVESPARKSTORMKAFKAcrate文檔解析拼音提示數(shù)據(jù)同步搜索統(tǒng)計(jì)實(shí)時(shí)接入實(shí)時(shí)展現(xiàn)統(tǒng)計(jì)分析實(shí)時(shí)預(yù)警ETL工作流權(quán)限控制增強(qiáng)函數(shù)工作流深度學(xué)習(xí)可視化訪問工具開發(fā)框架管理工具交互工具展現(xiàn)工具sqo
5、opkettleJAVAwebservicekafkaflumeNIFI結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)12CONFIDENTIAL關(guān)鍵能力二:大數(shù)據(jù)采集數(shù)據(jù)來源 數(shù)據(jù)存儲(chǔ)實(shí)時(shí)地理信息校驗(yàn)數(shù)據(jù)拍照數(shù)據(jù)基礎(chǔ)數(shù)據(jù)定期更新緯表分布式消息隊(duì)列Kafkasqoop/kettle/webservice/ftp/JAVA API/nifi/restapi數(shù)據(jù)接入文本數(shù)據(jù)數(shù)據(jù)庫爬蟲數(shù)據(jù)網(wǎng)絡(luò)數(shù)據(jù)接口其它flume大數(shù)據(jù) Cluster大數(shù)據(jù)集群大數(shù)據(jù)集群13CONFIDENTIAL關(guān)鍵能力三:大數(shù)據(jù)分析數(shù)據(jù)來源 數(shù)據(jù)存儲(chǔ)實(shí)時(shí)地理信息校驗(yàn)數(shù)據(jù)拍照數(shù)據(jù)基礎(chǔ)數(shù)據(jù)文件其他redis消息GPS用戶指標(biāo)數(shù)據(jù)適配轉(zhuǎn)換分布式
6、預(yù)處理消息解析消息過濾數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)落地消息中間件Storm流處理集群消息解析策略匹配數(shù)據(jù)清單指標(biāo)匯總定期更新緯表分布式緩存定義數(shù)據(jù)關(guān)系數(shù)據(jù)規(guī)則數(shù)據(jù)實(shí)時(shí)數(shù)據(jù)外掛處理程序數(shù)據(jù)處理實(shí)時(shí)計(jì)算應(yīng)用層統(tǒng)一接觸平臺(tái)/地理位置信息電子大屏汽車型號(hào)用戶特征F5代理tomcat1tomcat2tomcat3準(zhǔn)時(shí)實(shí)時(shí)接口用戶位置用戶軌跡疲勞駕駛駕駛速度文本數(shù)據(jù)數(shù)據(jù)庫爬蟲數(shù)據(jù)網(wǎng)絡(luò)數(shù)據(jù)接口其它sqoop/kettle/webservice/ftp/rdbms/JAVA API數(shù)據(jù)接入大數(shù)據(jù)集群可視化Echarts議題14 我們對(duì)運(yùn)營(yíng)商大數(shù)據(jù)平臺(tái)的理解 建設(shè)思路12 應(yīng)用規(guī)劃與部署4 總體規(guī)劃3目錄15123架構(gòu)規(guī)劃數(shù)據(jù)
7、接入規(guī)劃硬件與網(wǎng)絡(luò)規(guī)劃16CONFIDENTIAL技術(shù)架構(gòu)路線的選型存在 “開源”與“混搭”兩種策略可結(jié)合各省情況進(jìn)行選擇策略一策略二開源模式(Hadoop)堅(jiān)持開源技術(shù),自主掌握核心技術(shù)混搭模式(Hadoop+MPP+傳統(tǒng)數(shù)據(jù)倉(cāng)庫)按場(chǎng)景選型,混搭架構(gòu)技術(shù)特征1技術(shù)特征2技術(shù)特征3技術(shù)特征XHadoopMysqlDB2/OracleMPP應(yīng)用場(chǎng)景1應(yīng)用場(chǎng)景2應(yīng)用場(chǎng)景N特點(diǎn):1,免費(fèi)使用,擁有自主的知識(shí)產(chǎn)權(quán),需要自建運(yùn)維團(tuán)隊(duì),有一定風(fēng)險(xiǎn);現(xiàn)有人員需要技術(shù)轉(zhuǎn)型,存在技術(shù)門檻2,符合互聯(lián)網(wǎng)精神,匯集眾人智慧,正在逐步完善3,Hadoop目前對(duì)于多維度數(shù)據(jù)自助分析、集市等應(yīng)用場(chǎng)景下的表現(xiàn)遜于MPP4
8、,Hadoop適合大規(guī)模集群使用特點(diǎn):1,需購(gòu)買閉源的商業(yè)軟件/運(yùn)維服務(wù);2,需要根據(jù)不同應(yīng)用場(chǎng)景搭配組合,形成優(yōu)勢(shì)互補(bǔ);3,應(yīng)用場(chǎng)景并不是一成不變且異構(gòu)集群將造成額外的數(shù)據(jù)冗余和數(shù)據(jù)同步,可能成為系統(tǒng)瓶頸4,MPP在大規(guī)模集群(超過100個(gè)節(jié)點(diǎn))下的可用性還有待驗(yàn)證適用:自主掌握核心技術(shù)適用:對(duì)海量數(shù)據(jù)的特定分析較多17CONFIDENTIAL大數(shù)據(jù)平臺(tái)體系架構(gòu)(Level 1)18CONFIDENTIAL借鑒互聯(lián)網(wǎng)架構(gòu),引入成熟開源框架,基于x86平臺(tái)構(gòu)建分布式計(jì)算與存儲(chǔ)平臺(tái),在保障系統(tǒng)可靠性(High-Availability)和可水平擴(kuò)展(Scale-Out)基礎(chǔ)上,同時(shí)大幅降低系統(tǒng)總
9、擁有成本(TCO)。技術(shù)選型及亮點(diǎn)1. 采用Kafka消息隊(duì)列框架,實(shí)現(xiàn)地理位置數(shù)據(jù)采集與解析,30s;2. 采用近似實(shí)時(shí)的flume框架對(duì)接Kafka、實(shí)現(xiàn)位置信息實(shí)時(shí)采集入庫Hadoop集群,周期性存儲(chǔ)數(shù)據(jù)。3. 在1個(gè)集群上承載批處理和流處理,基于hadoop資源管理可最大效率利用資源,實(shí)現(xiàn)消峰填谷,實(shí)現(xiàn)異構(gòu)集群架構(gòu)。4. 在Hadoop基礎(chǔ)上,引入Spark、Storm計(jì)算框架,通過Hive,mllib ,storm實(shí)現(xiàn)海量數(shù)據(jù)實(shí)時(shí)計(jì)算和歷史數(shù)據(jù)的統(tǒng)計(jì)分析;引入Redis內(nèi)存數(shù)據(jù)庫,結(jié)合Storm,實(shí)現(xiàn)基于LBS的實(shí)時(shí)動(dòng)態(tài)感知用戶地理位置以及用戶統(tǒng)計(jì)行為數(shù)據(jù),深度挖掘用戶價(jià)值。5. 提
10、供Open API(JDBC/ODBC/RestAPI),制定計(jì)算與存儲(chǔ)資源共享與開放標(biāo)準(zhǔn),結(jié)合豐富架構(gòu)和運(yùn)維經(jīng)驗(yàn),基于Open API構(gòu)建OCI API,為后續(xù)數(shù)據(jù)資產(chǎn)運(yùn)營(yíng)奠定基礎(chǔ)。6,基于echarts的開源框架展現(xiàn)。7,支持彈性擴(kuò)展架構(gòu),可有效保護(hù)現(xiàn)有投資;同時(shí),積極的引入nosql數(shù)據(jù)庫hbase,利用分布式數(shù)據(jù)庫優(yōu)勢(shì)實(shí)現(xiàn)數(shù)據(jù)快速訪問,為未來技術(shù)替換縮減投資奠定基礎(chǔ)。技術(shù)架構(gòu)設(shè)計(jì)(流計(jì)算場(chǎng)景,需求驅(qū)動(dòng))19CONFIDENTIAL技術(shù)架構(gòu)關(guān)鍵問題解決方案數(shù)據(jù)整合關(guān)鍵技術(shù)說明1、功能: 通過大數(shù)據(jù)計(jì)算高效計(jì)算、數(shù)據(jù)挖掘、復(fù)雜事件處理、用戶行為識(shí)別4大功能模塊滿足各類業(yè)務(wù)場(chǎng)景 批量數(shù)據(jù)運(yùn)算
11、以及實(shí)時(shí)計(jì)算的需求2、技術(shù) 1)開源技術(shù) 全面采用開源技術(shù)節(jié)省成本。依賴于開源社區(qū)保障系統(tǒng)安全,社區(qū)的高速發(fā)展針對(duì)現(xiàn) 場(chǎng)應(yīng)用可以快速更新補(bǔ)丁,并且可以根據(jù)業(yè)務(wù)場(chǎng)景的需要有針對(duì)性的選擇相應(yīng)技術(shù) 2)內(nèi)存計(jì)算 引入SPARK實(shí)現(xiàn)基于內(nèi)存的計(jì)算,通過靈活的scala語言實(shí)現(xiàn)小數(shù)據(jù)集的秒級(jí)查詢,并于Hadoop完美結(jié)合 3) 統(tǒng)一框架 以hadoop技術(shù)為核心,基于統(tǒng)一資源調(diào)度框架Yarn,集成批處理( hadoop )、內(nèi)存計(jì)算(spark)、實(shí)時(shí)計(jì)算(storm),機(jī)器學(xué)習(xí)(mllib),數(shù)據(jù)倉(cāng)庫(SQL on Hadoop),集群監(jiān)控運(yùn)維,數(shù)據(jù)可視化為一體,簡(jiǎn)化系統(tǒng)架構(gòu)實(shí)現(xiàn)資源的統(tǒng)一管理。實(shí)現(xiàn)真
12、正的一棧式大數(shù)據(jù)解決方案。數(shù)據(jù)多樣性、高效、高吞吐量、低延遲且支持高可靠性、水平擴(kuò)展,彈性擴(kuò)容Hadoop如何做到數(shù)據(jù)容災(zāi)20hadoop把文件拆成不同的小塊,一個(gè)塊多個(gè)副本,分別部署在不同的機(jī)器上,而只使用其中的一個(gè)塊。datanode定期向管理中心發(fā)心跳以確??捎茫偃缫慌_(tái)機(jī)器壞了,或硬盤壞了,調(diào)度中心會(huì)直接調(diào)用其中的一個(gè)副本塊,同時(shí)快速隨機(jī)選一臺(tái)可用的機(jī)器復(fù)制副本。因?yàn)樽呔钟蚓W(wǎng)帶寬,可以靈活設(shè)置恢復(fù)時(shí)間,性能幾乎不受任何影響21CONFIDENTIAL基于Hadoop框架的開放與共享 共享和開放的目的是為了充分利用平臺(tái)的存儲(chǔ)與計(jì)算資源,通過開放的API接口調(diào)用,實(shí)現(xiàn)不同平臺(tái)的數(shù)據(jù)交互,滿
13、足不同業(yè)務(wù)的需求。對(duì)共享于開放帶來的任務(wù)管理復(fù)雜、多租戶資源爭(zhēng)用以及安全問題,分別通過任務(wù)統(tǒng)一管理、調(diào)度,對(duì)象管理和用戶配合管理以及用戶認(rèn)證和用戶權(quán)限管理來解決平臺(tái)(共享、開放)Zookeeper統(tǒng)一管理注銷接口統(tǒng)一封裝用戶(組)操作權(quán)限封裝LADP、Sentry封裝作業(yè)管理配額管理監(jiān)控管理對(duì)象管理用戶權(quán)限管理用戶認(rèn)證接口類別關(guān)鍵技術(shù)要求技術(shù)架構(gòu)應(yīng)對(duì)作業(yè)管理對(duì)作業(yè)進(jìn)行統(tǒng)一操作管理采用Zookeeper技術(shù),實(shí)現(xiàn)批處理平臺(tái)作業(yè)的統(tǒng)一注冊(cè)和注銷,并通過Zookeeper實(shí)現(xiàn)作業(yè)的提交執(zhí)行和狀態(tài)監(jiān)控對(duì)象管理可針對(duì)HDFS文件、MR任務(wù)、Hive數(shù)據(jù)表和Hbase數(shù)據(jù)表等對(duì)象進(jìn)行操作通過對(duì)HDFS文件
14、、MR任務(wù)、Hive數(shù)據(jù)表和Hbase數(shù)據(jù)表等對(duì)象原生態(tài)接口接口的統(tǒng)一封裝,實(shí)現(xiàn)相關(guān)對(duì)象的對(duì)外操作開放用戶權(quán)限管理支持用戶、用戶組創(chuàng)建,并能為用戶和用戶組分析針對(duì)操作對(duì)象的各類權(quán)限提供創(chuàng)建、注銷用戶/用戶組、加入、剔重、查詢用戶/用戶組;HDFS文件、MR任務(wù)、Hive數(shù)據(jù)表、Hbase數(shù)據(jù)表授權(quán)和權(quán)限查詢等對(duì)外服務(wù)接口,以此支撐大數(shù)據(jù)平臺(tái)的用戶統(tǒng)一權(quán)限管理。用戶認(rèn)證支持通過用戶名和密碼進(jìn)行用戶認(rèn)證提供LADP對(duì)外用戶認(rèn)證接口,平臺(tái)通信采用Kerberos認(rèn)證,同時(shí)結(jié)合Hadoop開源組件Sentry,實(shí)現(xiàn)操作對(duì)象的細(xì)粒度基于角色的安全控制。配額支持對(duì)用戶/用戶組的存儲(chǔ)資源分析和計(jì)算資源分配引
15、入Yarn技術(shù)框架,對(duì)存儲(chǔ)資源和計(jì)算資源的一調(diào)配,按用戶(組)實(shí)現(xiàn)資源隔離,實(shí)現(xiàn)多任務(wù)高效地運(yùn)行在一個(gè)的集群上監(jiān)控支持針對(duì)設(shè)備、平臺(tái)、作業(yè)和對(duì)象的全面監(jiān)控通過Agent方式實(shí)時(shí)采集監(jiān)控指標(biāo)信息,同時(shí)開放插件注冊(cè)API,支持自定義監(jiān)控指標(biāo)目錄22123架構(gòu)規(guī)劃數(shù)據(jù)接入規(guī)劃硬件與網(wǎng)絡(luò)規(guī)劃23CONFIDENTIAL內(nèi)部數(shù)據(jù)接入思路用戶移動(dòng)軌跡識(shí)別涉及數(shù)據(jù)數(shù)據(jù)域用戶資料庫GPS電子警察抓拍現(xiàn)狀了解建議近期工作重點(diǎn)汽車進(jìn)入敏感區(qū)域識(shí)別涉及數(shù)據(jù)數(shù)據(jù)類型: 敏感區(qū)域資料,用戶信息庫采集周期:按日采集按日數(shù)據(jù)庫抽??;?已提供數(shù)據(jù):文件形式數(shù)據(jù)(目前)待已接入: GPS位置信息采集周期: 30s從價(jià)值和用途方
16、面考慮數(shù)據(jù)接入,現(xiàn)階段最有價(jià)值的數(shù)據(jù)為用戶資料數(shù)據(jù),其次是GPS變更數(shù)據(jù)后期根據(jù)業(yè)務(wù)場(chǎng)景需要,逐步接入其它系統(tǒng)數(shù)據(jù)。階段一: GPS數(shù)據(jù)接入階段二: 用戶資料庫數(shù)據(jù)接入階段一:GPS數(shù)據(jù)接入;階段二: 敏感區(qū)域數(shù)據(jù);階段三:用戶資料庫數(shù)據(jù);暫無。24CONFIDENTIAL外部數(shù)據(jù)接入思路互聯(lián)網(wǎng)資源涉及數(shù)據(jù)數(shù)據(jù)域互聯(lián)網(wǎng)數(shù)據(jù)合作平臺(tái)現(xiàn)狀了解建議近期工作重點(diǎn)第三方合作涉及數(shù)據(jù)階段一:運(yùn)營(yíng)商數(shù)據(jù)階段二:整合數(shù)據(jù)、客戶分析報(bào)告、渠道拓展、用戶特征,用戶移動(dòng)軌跡等。數(shù)據(jù)未接入從價(jià)值和用途方面考慮數(shù)據(jù)采集,現(xiàn)階段最有價(jià)值的數(shù)據(jù)為用戶汽車資料庫數(shù)據(jù),建議優(yōu)先接入能完善用戶標(biāo)簽體庫。階段一:汽車資料庫數(shù)據(jù);階
17、段二:用戶資料庫數(shù)據(jù)未接入:汽車標(biāo)簽庫數(shù)據(jù);采集周期:定期采集;后期根據(jù)業(yè)務(wù)場(chǎng)景需要,逐步接入。目錄25123架構(gòu)規(guī)劃數(shù)據(jù)接入規(guī)劃硬件與網(wǎng)絡(luò)規(guī)劃26CONFIDENTIAL主機(jī)配置原則1.估算建設(shè)規(guī)模2.梳理各種輸入4.確定主機(jī)數(shù)據(jù)數(shù)據(jù)量計(jì)算:根據(jù)卡口數(shù)據(jù),GPS信息等、接入數(shù)據(jù)源及數(shù)據(jù)量,估算系統(tǒng)建設(shè)規(guī)模(各種數(shù)據(jù)的日吞吐量和峰值吞吐量)梳理接口數(shù)據(jù)源與產(chǎn)品模塊的對(duì)應(yīng)關(guān)系:根據(jù)產(chǎn)品模塊功能劃分,梳理數(shù)據(jù)流轉(zhuǎn)過程,確定各產(chǎn)品模塊的輸入數(shù)據(jù)量大?。òㄈ胀掏铝亢头逯低掏铝浚?. 推算處理能力推算單主機(jī)處理能力:根據(jù)各卡口和實(shí)驗(yàn)室實(shí)測(cè)和各監(jiān)控終端的處理能力,以及各監(jiān)控終端對(duì)相關(guān)硬件的側(cè)重點(diǎn)(內(nèi)存數(shù)
18、據(jù)側(cè)重內(nèi)存空間;流處理平臺(tái)側(cè)重CPU和網(wǎng)絡(luò)帶寬、批處理平臺(tái)側(cè)重CPU、內(nèi)存、硬盤空間、磁盤IO讀寫速度和網(wǎng)絡(luò)帶寬等)推算出設(shè)備的處理能力;根據(jù)單設(shè)備處理能力計(jì)算:根據(jù)單設(shè)備處理能力和峰值數(shù)據(jù)量計(jì)算所需設(shè)備的數(shù)量;根據(jù)存儲(chǔ)空間需求計(jì)算:根據(jù)產(chǎn)品模塊存儲(chǔ)空間需求和存儲(chǔ)位置需求(內(nèi)存/硬盤)計(jì)算所需設(shè)備數(shù)量;集群共用:同一網(wǎng)絡(luò)內(nèi)且平臺(tái)類型相同,采用集群共用的方式(如批處理和內(nèi)容分類服務(wù)同屬于內(nèi)網(wǎng)且同基于Hadoop平臺(tái)實(shí)現(xiàn)),在滿足數(shù)據(jù)處理時(shí)效的前提下,通過YARN框架的RM進(jìn)行管理;相同配置共用:不建議在同一集群中使用配置不同的機(jī)器,雖然集群可以工作但性能會(huì)出現(xiàn)“短板效應(yīng)”,實(shí)施、維護(hù)及管理難度均
19、會(huì)提升,如磁盤空間不一樣,會(huì)造成數(shù)據(jù)傾斜,嚴(yán)重影響性能。根據(jù)處理能力、存儲(chǔ)空間和是否共用集群確定硬件配置,同時(shí)考慮備用主機(jī)需求。27CONFIDENTIAL網(wǎng)絡(luò)配置原則1.估算建設(shè)規(guī)模2.計(jì)算帶寬需求數(shù)據(jù)量計(jì)算:根據(jù)卡扣數(shù)據(jù),GPS信息等、接入數(shù)據(jù)源及數(shù)據(jù)量,估算系統(tǒng)建設(shè)規(guī)模(各接口的日吞吐量和峰值吞吐量)計(jì)算各產(chǎn)品模塊的輸入、輸出帶寬需求:根據(jù)各監(jiān)控終端模塊功能劃分,梳理數(shù)據(jù)流轉(zhuǎn)過程,確定輸入、輸出帶寬需求(主要考慮峰值情況)3.結(jié)合平臺(tái)特點(diǎn)流計(jì)算與批處理共用集群需要重點(diǎn)保證低延遲和高吞吐:流計(jì)算平臺(tái)的特點(diǎn)是必須滿足數(shù)據(jù)處理的時(shí)效性,因此重點(diǎn)是保障低延遲;批處理平臺(tái)的特點(diǎn)是必須滿足對(duì)大容量、
20、多樣性數(shù)據(jù)的處理和存儲(chǔ),因此重點(diǎn)是保障高吞吐;28CONFIDENTIAL基于HDFS彈性存儲(chǔ)系統(tǒng)10G 萬兆以太網(wǎng)千兆 以太網(wǎng)管理節(jié)點(diǎn)管理節(jié)點(diǎn)數(shù)據(jù)接入節(jié)點(diǎn)IO節(jié)點(diǎn)存儲(chǔ)120TB 磁盤5計(jì)算節(jié)點(diǎn)HadoopDB ServerFCSAN Switch已有系統(tǒng)新建大數(shù)據(jù)系統(tǒng)DB Storage外部用戶內(nèi)部用戶總體方案構(gòu)成總體方案構(gòu)成大數(shù)據(jù)集群大數(shù)據(jù)集群大數(shù)據(jù)管理平臺(tái)大數(shù)據(jù)管理平臺(tái)總體方案概述 Hadoop計(jì)算集群基礎(chǔ)架構(gòu)POWER8服務(wù)器,5個(gè)計(jì)算節(jié)點(diǎn)彈性存儲(chǔ),總的存儲(chǔ)空間約120TB;基于萬兆 的計(jì)算網(wǎng)絡(luò); Hadoop計(jì)算集群管理平臺(tái)基于大數(shù)據(jù)的高性能計(jì)算集群管理平臺(tái),新建大數(shù)據(jù)集群環(huán)境進(jìn)行高
21、效率的統(tǒng)一管理; 大容量數(shù)據(jù)存儲(chǔ)平臺(tái)新建的數(shù)據(jù)庫存儲(chǔ)平臺(tái)120TB2930管理節(jié)點(diǎn)接口節(jié)點(diǎn)計(jì)算存儲(chǔ)節(jié)點(diǎn)1計(jì)算存儲(chǔ)節(jié)點(diǎn)2計(jì)算存儲(chǔ)節(jié)點(diǎn)3計(jì)算存儲(chǔ)節(jié)點(diǎn)4計(jì)算存儲(chǔ)節(jié)點(diǎn)5千兆業(yè)務(wù)網(wǎng)萬兆業(yè)務(wù)網(wǎng)管理備份節(jié)點(diǎn)Hadoop集群硬件系統(tǒng)拓?fù)?1CONFIDENTIAL基于預(yù)期業(yè)務(wù)參數(shù),計(jì)算數(shù)據(jù)量級(jí)存儲(chǔ)周期數(shù)據(jù)增量/年數(shù)據(jù)格式總存儲(chǔ)HDFS總存儲(chǔ)Total linux os主機(jī)數(shù)量N3年3Tgz33.75T27TN*2*500G3*Datanode+2*Naemnode=510年3Tgz140.625T112.5TN*2*500G5*Datanode+2*Namenode=720年3Tgz281.25T225TN*
22、2*500G11*Datanode+2*Namenode=13舉例:計(jì)算公式,存儲(chǔ)10年,每天1T數(shù)據(jù)增量: HDFS總存儲(chǔ)=3T*3*10+(3T*3*10*25%) ;HDFS總存儲(chǔ)=112.5T Datanode數(shù)n=112.5T/12*2T=5臺(tái);2臺(tái)Namenode,1臺(tái)客戶機(jī),總共5+2+1=8臺(tái)注意: 為了保證集群的穩(wěn)定性,最低要求3臺(tái)datanode;這里僅僅針對(duì)GPS一種數(shù)據(jù)源評(píng)估。CONFIDENTIAL小規(guī)模硬件推薦:410個(gè)節(jié)點(diǎn). 中等規(guī)模硬件配置推薦:20+個(gè)節(jié)點(diǎn). 大規(guī)模硬件配置推薦: 100節(jié)點(diǎn)以上. 處理器CPU1顆 8核心 P8處理器 (3.8GHz)(3.8
23、GHz)2顆8核心P8處理器(3.8GHz)2顆8核心P8處理器(3.8GHz)內(nèi)存64G或者以上內(nèi)存,DDR3L,RRECC128G或者以上內(nèi)存,DDR3L,RRECC256G或者以上內(nèi)存,DDR3L,RRECC系統(tǒng)盤2*500G SSD2*500G SSD2*500G SSD磁盤接口SAS 6GB/sSAS 6GB/sSAS 6GB/s磁盤12個(gè)2T或者6T 7200RPM SATA硬硬盤12個(gè)4T或者6T 7200RPM SATA硬硬盤12個(gè)6T 7200RPM個(gè) SATA硬硬盤Raid 卡卡1G緩存支持RAID0,1,51G緩存支持RAID0,1,51G緩存支持RAID0,1,5網(wǎng)絡(luò)1
24、0Gb以太網(wǎng)和千兆以太網(wǎng)10Gb以太網(wǎng)和千兆以太網(wǎng)10Gb以太網(wǎng)和千兆以太網(wǎng)電源1+1冗余電源冗余電源1+1冗余電源冗余電源1+1冗余電源冗余電源大數(shù)據(jù)平臺(tái)硬件配置估算及建議33CONFIDENTIALXXX交通廳大數(shù)據(jù)平臺(tái)硬件配置建議硬件配置清單所屬模塊平臺(tái)類型單節(jié)點(diǎn)配置設(shè)備數(shù)量(臺(tái))備注CPU內(nèi)存系統(tǒng)盤數(shù)據(jù)盤 數(shù)據(jù)交換網(wǎng)卡數(shù)據(jù)采集與解析KafkaP8 1*8C 256GB 2*500G 12*2TB1塊萬兆網(wǎng)卡1塊千兆網(wǎng)卡使用Hadoop平臺(tái)機(jī)器Hadoop平臺(tái)HadoopdatanodeP8 1*8C 128GB 2*500G 12*2TB1塊萬兆網(wǎng)卡1塊千兆網(wǎng)卡3Hadoop平臺(tái)Hadoop namenodeP8 1*8C 256GB 2*500G6*2TB1塊萬兆網(wǎng)卡1塊千兆網(wǎng)卡2客戶機(jī)應(yīng)用程序P8 1*8C 64GB 2*500G2*2TB 1塊萬兆網(wǎng)卡1CONFIDENTIAL存儲(chǔ)規(guī)劃議題35 我們對(duì)交通大數(shù)據(jù)平臺(tái)的理解 建設(shè)思路12 應(yīng)用規(guī)劃與部署4 總體規(guī)劃3大數(shù)據(jù)平臺(tái)應(yīng)用大數(shù)據(jù)平臺(tái)應(yīng)用場(chǎng)景場(chǎng)景實(shí)時(shí)判定車的位置是否在敏感區(qū),敏感區(qū)來自業(yè)務(wù)系統(tǒng)設(shè)置,是指定設(shè)施的GPS每
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 不銹鋼的基礎(chǔ)知識(shí)王文華
- (2024)柑桔果渣綜合利用建設(shè)項(xiàng)目可行性研究報(bào)告(一)
- 2022-2023學(xué)年天津市河北區(qū)高二(上)期末語文試卷
- 2023年高收縮腈綸項(xiàng)目融資計(jì)劃書
- 烹飪?cè)现R(shí)習(xí)題庫(含參考答案)
- 《養(yǎng)生與防治》課件
- 養(yǎng)老院老人生活照料標(biāo)準(zhǔn)制度
- 養(yǎng)老院老人健康飲食營(yíng)養(yǎng)師表彰制度
- 人教版教學(xué)課件免疫調(diào)節(jié)(上課)
- 《石油和油品》課件
- 中層管理干部領(lǐng)導(dǎo)力提升課件
- 夏季高溫施工安全教育交底
- 肘關(guān)節(jié)的解剖課件
- 臺(tái)兒莊戰(zhàn)役解析課件
- 《二氧化碳的性質(zhì)》說課課件(全國(guó)優(yōu)質(zhì)課獲獎(jiǎng)案例)
- 2022年《馬克思主義基本原理》考試題庫(500題)
- 工程簽證單(模板)
- 城市軌道交通運(yùn)營(yíng)管理復(fù)習(xí)題及參考答案
- 部編版語文六年級(jí)上冊(cè)作文總復(fù)習(xí)課件
- 初中英語賓語從句新課件
- 光纖光纜(實(shí)驗(yàn)報(bào)告)
評(píng)論
0/150
提交評(píng)論