




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
英特爾大數(shù)據(jù)平臺(tái)最佳實(shí)踐英特爾大數(shù)據(jù)平臺(tái)最佳實(shí)踐1提綱大數(shù)據(jù)帶來(lái)的挑戰(zhàn)大數(shù)據(jù)案例介紹Intel大數(shù)據(jù)平臺(tái)2提綱大數(shù)據(jù)帶來(lái)的挑戰(zhàn)2BigBigData云計(jì)算技術(shù)是處理大數(shù)據(jù)的有效手段大數(shù)據(jù)和云是兩個(gè)不同的概念,但兩者之間有很多交集。支撐大數(shù)據(jù)以及云計(jì)算的底層原則是一樣的,即規(guī)模化、自動(dòng)化、資源配置、自愈性,因此實(shí)際上大數(shù)據(jù)和云之間存在很多合力的地方。大數(shù)據(jù)應(yīng)用是在云上跑的、非常典型的應(yīng)用?!髷?shù)據(jù)處理離不開(kāi)云BigBigData云計(jì)算技術(shù)是處理大數(shù)據(jù)的有效手段大數(shù)據(jù)3大數(shù)據(jù)時(shí)代-數(shù)據(jù)爆發(fā)性增長(zhǎng)4IDC預(yù)測(cè)全球的數(shù)據(jù)使用量到2020年會(huì)增長(zhǎng)44倍,達(dá)到35.2ZB(1ZB=10億TB)*Source:McKinseyGlobalInstituteAnalysisSGCrossAssetResearch,PwC寬帶、移動(dòng)網(wǎng)絡(luò)普及和提速移動(dòng)網(wǎng)絡(luò)和各種智能終端視頻(醫(yī)療影像、地理信息、監(jiān)控錄像等)統(tǒng)計(jì)、分析、預(yù)測(cè)、實(shí)時(shí)處理傳感器、RFID閱讀器、導(dǎo)航終端等非傳統(tǒng)IT設(shè)備社交網(wǎng)絡(luò)(Facebook,Twitter,微博等)大數(shù)據(jù)時(shí)代-數(shù)據(jù)爆發(fā)性增長(zhǎng)4IDC預(yù)測(cè)全球的數(shù)據(jù)使用量到20大數(shù)據(jù)處理速度要求越來(lái)越高Source:IDCDigitalUniverseStudy,sponsoredbyEMC,May2010大數(shù)據(jù)與海量數(shù)據(jù)的一個(gè)重要區(qū)別,在于不但數(shù)據(jù)尺寸大,而且對(duì)數(shù)據(jù)處理的響應(yīng)速度有有著更高的要求傳統(tǒng)的以周,天,小時(shí)為單位的運(yùn)算處理周期,下降到以分鐘,秒為單位大數(shù)據(jù)高價(jià)值的重要體現(xiàn)-處理速度ValueHighutilityDiminishingutilityArchivalvalueTimeHighLowNegative大數(shù)據(jù)處理速度要求越來(lái)越高Source:IDCDigit5數(shù)據(jù)的多樣性Source:IDCDigitalUniverseStudy,sponsoredbyEMC,May2010數(shù)據(jù)形式的多樣:結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)間有很強(qiáng)的因果關(guān)系半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)間因果關(guān)系較弱非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)間無(wú)因果關(guān)系數(shù)據(jù)來(lái)源的多樣性:不同的應(yīng)用系統(tǒng)各種設(shè)備互聯(lián)網(wǎng)其它Flatfile數(shù)據(jù)的多樣性Source:IDCDigitalUniv6創(chuàng)造顯著業(yè)務(wù)價(jià)值(VALUE)?Copyright2011EMCCorporation.Allrightsreserved.大數(shù)據(jù)分析顯著的業(yè)務(wù)價(jià)值
3V特性驅(qū)動(dòng)下創(chuàng)建
挖掘數(shù)據(jù)資產(chǎn)價(jià)值,通過(guò)數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù),變成本中心為利潤(rùn)中心創(chuàng)造顯著業(yè)務(wù)價(jià)值(VALUE)?Copyright2017智慧城市-典型的大數(shù)據(jù)應(yīng)用集合2022/12/98智慧城市-典型的大數(shù)據(jù)應(yīng)用集合2022/12/888大數(shù)據(jù)處理導(dǎo)致的平臺(tái)瓶頸RequiredScalabilityRapidAdoptionBigMathBigData“Moore’sLaw”Scalability數(shù)據(jù)處理需求與傳統(tǒng)平臺(tái)硬件擴(kuò)展的差距不斷擴(kuò)大IndustryProgress大數(shù)據(jù)處理需要的擴(kuò)展能力大數(shù)據(jù)處理導(dǎo)致的平臺(tái)瓶頸RequiredScalabili9大數(shù)據(jù)分析不同于傳統(tǒng)BI分析
結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)規(guī)模一般為T(mén)B規(guī)模集中式,為了分析進(jìn)行大量數(shù)據(jù)移動(dòng),數(shù)據(jù)向計(jì)算靠近批處理為主結(jié)構(gòu)化/非結(jié)構(gòu)化混合分析的能力數(shù)據(jù)規(guī)模從數(shù)十TB到PB級(jí)別分布式,計(jì)算向數(shù)據(jù)靠近支持流式分析事務(wù)關(guān)系型數(shù)據(jù)庫(kù)批處理數(shù)據(jù)倉(cāng)庫(kù)分析集群化非結(jié)構(gòu)化流式多種數(shù)據(jù)源分析(MapReduce)組織傳統(tǒng)BI分析大數(shù)據(jù)分析Examples:TelcoGovtFinanceWeb大數(shù)據(jù)分析不同于傳統(tǒng)BI分析
結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化/非結(jié)構(gòu)化混合10分布式數(shù)據(jù)平臺(tái)與傳統(tǒng)數(shù)據(jù)平臺(tái)融合RawDataHadoopCluster(HundredsofTB’stoPB’s)ExistingDataWarehouse(HundredsofTB’s)ApplicationsandTools(Modelingon100’sofTBstoPB’s)StructuredDataSemi-StructuredDataBI/StatToolsHistorical/Archival/EventLevelAggregated/EnrichedSummary/InteractiveETLDataEnrichmentDirectQueryDirectqueryDirectModeling分布式數(shù)據(jù)平臺(tái)與傳統(tǒng)數(shù)據(jù)平臺(tái)融合RawDataHadoop提綱大數(shù)據(jù)帶來(lái)的挑戰(zhàn)大數(shù)據(jù)案例介紹Intel大數(shù)據(jù)平臺(tái)12提綱大數(shù)據(jù)帶來(lái)的挑戰(zhàn)12聯(lián)通3G詳單查詢-問(wèn)題來(lái)源(1/2)隨著移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)的發(fā)展,上網(wǎng)記錄查詢成為用戶投訴的焦點(diǎn)問(wèn)題來(lái)源目前,中國(guó)聯(lián)通省分公司3G客戶數(shù)據(jù)流量問(wèn)題爭(zhēng)議占3G業(yè)務(wù)投訴達(dá)7-10%,且近幾個(gè)月呈上升趨勢(shì),個(gè)別省分比例高達(dá)20%一些用戶對(duì)3G業(yè)務(wù)流量產(chǎn)生及計(jì)費(fèi)方式不了解,主觀認(rèn)為自己未使用或使用較少數(shù)據(jù)流量,要求運(yùn)營(yíng)商提供上網(wǎng)記錄,而現(xiàn)有系統(tǒng)不具備此功能,從而導(dǎo)致投訴升級(jí)。3G流量費(fèi)爭(zhēng)議占總咨詢投訴量比率聯(lián)通3G詳單查詢-問(wèn)題來(lái)源(1/2)隨著移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)的發(fā)展13上網(wǎng)記錄查詢對(duì)中國(guó)聯(lián)通的業(yè)務(wù)發(fā)展產(chǎn)生了較大的影響影響對(duì)用戶而言:“…要是能查到流量是和誰(shuí)發(fā)生的就好了,如果是手機(jī)的問(wèn)題,我也才知道今后怎么防范,現(xiàn)在連防范誰(shuí)都不知道,誰(shuí)知道下次還會(huì)不會(huì)發(fā)生類(lèi)似問(wèn)題?”對(duì)運(yùn)營(yíng)商而言:根據(jù)中國(guó)聯(lián)通客戶服務(wù)部門(mén)提供的數(shù)據(jù),目前移動(dòng)業(yè)務(wù)每萬(wàn)元收入,因無(wú)法提供上網(wǎng)詳單造成的退費(fèi)和賠付約60.1元;如果問(wèn)題得不到根本解決,將會(huì)影響運(yùn)營(yíng)商按流量計(jì)費(fèi)的資費(fèi)模式,對(duì)運(yùn)營(yíng)商3G業(yè)務(wù)的開(kāi)展將產(chǎn)生較大影響用戶上網(wǎng)記錄數(shù)是個(gè)海量數(shù)據(jù),不僅投資巨大,傳統(tǒng)的電信業(yè)解決方案根本無(wú)法提供該服務(wù)案例某iPhone合約計(jì)劃用戶,在凌晨零點(diǎn)到4點(diǎn)之間手機(jī)產(chǎn)生巨額流量費(fèi)在其得知因受計(jì)量設(shè)備限制無(wú)法向其提供數(shù)據(jù)流量去向后,竟上升到司法訴訟層面聯(lián)通3G詳單查詢-問(wèn)題來(lái)源(2/2)上網(wǎng)記錄查詢對(duì)中國(guó)聯(lián)通的業(yè)務(wù)發(fā)展產(chǎn)生了較大的影響影響對(duì)用戶而14移動(dòng)用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)建設(shè)上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)意義重大查詢?yōu)榭蛻舴?wù)人員提供客戶上網(wǎng)記錄快速查詢服務(wù),解決流量投訴問(wèn)題為用戶提供準(zhǔn)實(shí)時(shí)的異常大流量上網(wǎng)記錄自助查詢服務(wù)分析對(duì)數(shù)據(jù)流量進(jìn)行統(tǒng)計(jì)終端分析:iPhone、iPad、其他智能手機(jī)分布,新終端推廣效果分析熱門(mén)流量、熱門(mén)網(wǎng)站(業(yè)務(wù))網(wǎng)絡(luò)分析:2G/3G基站流量分析,網(wǎng)絡(luò)優(yōu)化數(shù)據(jù)挖掘根據(jù)流量分布,分析用戶群特征提供套餐設(shè)計(jì)參考,優(yōu)化用戶體驗(yàn)通過(guò)感知業(yè)務(wù)態(tài)勢(shì),制定市場(chǎng)策略,指導(dǎo)業(yè)務(wù)產(chǎn)品開(kāi)發(fā),為市場(chǎng)營(yíng)銷(xiāo)提供豐富的數(shù)據(jù)支持移動(dòng)用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)建設(shè)上網(wǎng)記錄集中查詢與15移動(dòng)互聯(lián)網(wǎng)處于快速發(fā)展期:每6個(gè)月,流量翻一番移動(dòng)互聯(lián)網(wǎng)用戶快速增加,智能終端迅速普及、戶均流量顯著增長(zhǎng),上網(wǎng)記錄數(shù)據(jù)將進(jìn)一步猛增難點(diǎn)分析上網(wǎng)記錄是海量數(shù)據(jù)用戶每月的上網(wǎng)記錄約幾萬(wàn)至數(shù)十萬(wàn)在Gn(SGSN與GGSN之間)接口上部署采集設(shè)備來(lái)生成用戶上網(wǎng)記錄用戶手機(jī)訪問(wèn)一次網(wǎng)頁(yè),約會(huì)產(chǎn)生數(shù)十條,甚至數(shù)百條請(qǐng)求,意味著產(chǎn)生數(shù)十條和數(shù)百條上網(wǎng)記錄訪問(wèn)手機(jī)新浪網(wǎng)首頁(yè),約產(chǎn)生20條記錄訪問(wèn)新浪iPad首頁(yè),約產(chǎn)生40條記錄在iPad中看一條新浪新聞,產(chǎn)生超過(guò)180條記錄訪問(wèn)淘寶觸摸屏版,約產(chǎn)生60條記錄大量的DNS查詢、推送服務(wù)記錄(如蘋(píng)果通知服務(wù))等以中國(guó)聯(lián)通某省分公司為例,日均上網(wǎng)記錄數(shù)近10億條,每月數(shù)據(jù)量近9TB,31個(gè)省份數(shù)據(jù)量12T/day移動(dòng)互聯(lián)網(wǎng)處于快速發(fā)展期:每6個(gè)月,流量翻一番移動(dòng)互聯(lián)網(wǎng)用戶16難點(diǎn)分析采用關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行上網(wǎng)記錄的存儲(chǔ)已不可行采用何種方式進(jìn)行存儲(chǔ)和檢索是一個(gè)問(wèn)題存儲(chǔ):如此大的數(shù)據(jù)量已經(jīng)超越了當(dāng)前關(guān)系型數(shù)據(jù)庫(kù)可管理的容量上限查詢:關(guān)系型數(shù)據(jù)庫(kù)上對(duì)大規(guī)模數(shù)據(jù)進(jìn)行操作會(huì)造成系統(tǒng)性能?chē)?yán)重下降當(dāng)數(shù)據(jù)集和索引變大時(shí),傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)如Oracle、Sybase,在對(duì)大規(guī)模數(shù)據(jù)進(jìn)行操作會(huì)造成系統(tǒng)性能?chē)?yán)重下降,因?yàn)樵谔幚頂?shù)據(jù)時(shí)SQL請(qǐng)求會(huì)占用大量的CPU周期,并且會(huì)導(dǎo)致大量的磁盤(pán)讀寫(xiě),性能會(huì)變得讓人無(wú)法忍受成本小型機(jī)+高端存儲(chǔ)+關(guān)系數(shù)據(jù)庫(kù)成本導(dǎo)致擴(kuò)展困難難點(diǎn)分析采用關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行上網(wǎng)記錄的存儲(chǔ)已不可行采用何種方17移動(dòng)用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)系統(tǒng)構(gòu)成系統(tǒng)采用全國(guó)集中的一級(jí)架構(gòu)方案進(jìn)行建設(shè),主要包含數(shù)據(jù)采集子系統(tǒng)、數(shù)據(jù)入庫(kù)子系統(tǒng)、數(shù)據(jù)存儲(chǔ)子系統(tǒng)、數(shù)據(jù)查詢與分析子系統(tǒng)基本技術(shù)采用Hadoop/HBase作為上網(wǎng)記錄存儲(chǔ)方案采用MapReduce/Hive作用統(tǒng)計(jì)分析和數(shù)據(jù)挖掘工具關(guān)鍵性能指標(biāo)解決方案數(shù)據(jù)查詢上網(wǎng)記錄查詢速度:不高于1秒(不含用戶訪問(wèn)查詢頁(yè)面的時(shí)間)支持并發(fā)查詢數(shù)目:1000請(qǐng)求/秒數(shù)據(jù)存儲(chǔ)上網(wǎng)記錄入庫(kù)時(shí)間:一般小于30分鐘,實(shí)際約10分鐘具備存儲(chǔ)全國(guó)移動(dòng)用戶不小于6個(gè)月的原始上網(wǎng)記錄能力歷史5個(gè)月+當(dāng)前月統(tǒng)計(jì)分析的中間報(bào)表數(shù)據(jù)保存不小于5年全國(guó)集中的一級(jí)架構(gòu),電信行業(yè)首次將Hadoop/HBase引入到商用電信服務(wù)系統(tǒng)建設(shè)中移動(dòng)用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)系統(tǒng)系統(tǒng)采用全國(guó)集中的18系統(tǒng)部署19系統(tǒng)部署兩路x86服務(wù)器(基于Intel?XeonE5600系列處理器)NameNode節(jié)點(diǎn):3臺(tái)DataNode(數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)):178臺(tái)Zookeeper節(jié)點(diǎn):7臺(tái)集群監(jiān)控節(jié)點(diǎn):1臺(tái)入庫(kù)服務(wù)節(jié)點(diǎn):24臺(tái)Web查詢應(yīng)用服務(wù)節(jié)點(diǎn):20臺(tái)網(wǎng)絡(luò)交換設(shè)備機(jī)框間通過(guò)萬(wàn)兆交換機(jī)連接,以完成快速的數(shù)據(jù)交換Intel?Hadoop發(fā)行版滿足高性能的數(shù)據(jù)導(dǎo)入和快速查詢。穩(wěn)定、易于部署和管理的企業(yè)級(jí)方案。系統(tǒng)部署19系統(tǒng)部署兩路x86服務(wù)器(基于Intel?Xe19移動(dòng)用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)20移動(dòng)用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)2020某市智能交通應(yīng)用舉例視頻云計(jì)算/云服務(wù)視頻云服務(wù)中心可以實(shí)時(shí)掌控任一車(chē)輛的行駛,運(yùn)行軌跡、分析車(chē)輛是否違章視頻云服務(wù)中心對(duì)海量的交通信息進(jìn)行比對(duì)、分析和預(yù)測(cè),為車(chē)輛布控、分析擁堵?tīng)顟B(tài),出行最優(yōu)路徑規(guī)劃、交通管理服務(wù)智能交通系統(tǒng)實(shí)時(shí)監(jiān)控城市的交通狀態(tài),將各個(gè)路口的車(chē)輛實(shí)時(shí)抓拍、傳輸?shù)揭曨l云服務(wù)中心某市智能交通應(yīng)用舉例視頻云計(jì)算/云服務(wù)視頻云服務(wù)中心可以實(shí)時(shí)21面臨的挑戰(zhàn)年過(guò)車(chē)信息數(shù)據(jù)量達(dá)數(shù)百億級(jí)記錄規(guī)模市局和區(qū)縣的數(shù)據(jù)中心兩級(jí)架構(gòu),分布式存儲(chǔ),集中管理。支持多條件組合快速查詢:卡口名稱(chēng)、車(chē)道名稱(chēng)、車(chē)輛類(lèi)型、車(chē)牌類(lèi)型、車(chē)牌號(hào)碼、車(chē)身顏色、車(chē)牌顏色、車(chē)速范圍、車(chē)長(zhǎng)范圍、號(hào)牌段范圍、時(shí)間范圍。支持海量過(guò)車(chē)信息的模糊匹配檢索。支持各種統(tǒng)計(jì)分析、數(shù)據(jù)挖掘:車(chē)輛違章率統(tǒng)計(jì)、過(guò)車(chē)識(shí)別率統(tǒng)計(jì)、套牌分析、關(guān)聯(lián)性分析、黑名單等過(guò)車(chē)記錄單個(gè)區(qū)數(shù)據(jù)中心全市數(shù)據(jù)總和每秒鐘~6MB/s1200條記錄/s120MB/s24000條記錄/秒每小時(shí)~20GB/hour432萬(wàn)條/小時(shí)~400GB/hour8640萬(wàn)條/小時(shí)每天~480GB/day1億條/天~9.6TB/day20億條/天每月~14.4TB/month30億條/月~288TB/month600億條/月三個(gè)月~43.2TB/3months90億條/三個(gè)月~0.8PB/3months1800億條/三個(gè)月違章車(chē)輛圖片數(shù)據(jù)單個(gè)區(qū)數(shù)據(jù)中心全市數(shù)據(jù)總和每小時(shí)~1.8GB/h36GB/h每天~43.2GB/day~864GB/day每月~1.2TB/month~24TB/month三個(gè)月~3.6TB/3months~72TB/3months面臨的挑戰(zhàn)年過(guò)車(chē)信息數(shù)據(jù)量達(dá)數(shù)百億級(jí)記錄規(guī)模過(guò)車(chē)記錄單個(gè)區(qū)數(shù)22基于英特爾Hadoop技術(shù)方案解決了海量過(guò)車(chē)信息(結(jié)構(gòu)文本+圖片)存儲(chǔ)問(wèn)題。解決了分布式數(shù)據(jù)查詢問(wèn)題。系統(tǒng)提供了易于使用的API,方便進(jìn)行二次開(kāi)發(fā)。系統(tǒng)做了較多優(yōu)化,性能很好的滿足了項(xiàng)目的實(shí)時(shí)性要求。系統(tǒng)的穩(wěn)定性好。智能交通應(yīng)用技術(shù)架構(gòu)圖基于英特爾Hadoop技術(shù)方案解決了海量過(guò)車(chē)信息(結(jié)構(gòu)文本+23某市智慧交通信息系統(tǒng)架構(gòu)某市智慧交通信息系統(tǒng)架構(gòu)24基于海量數(shù)據(jù)進(jìn)行車(chē)輛軌跡分析實(shí)時(shí)路況信息區(qū)域號(hào)牌管理碰撞分析。。。。。。。。。?;诤A繑?shù)據(jù)進(jìn)行車(chē)輛軌跡分析實(shí)時(shí)路況信息區(qū)域號(hào)牌管理碰撞分析25某市智慧醫(yī)療某市智慧醫(yī)療26提綱大數(shù)據(jù)帶來(lái)的挑戰(zhàn)大數(shù)據(jù)案例介紹Intel大數(shù)據(jù)平臺(tái)27提綱大數(shù)據(jù)帶來(lái)的挑戰(zhàn)27提供高效的計(jì)算芯片、存儲(chǔ)、I/O、網(wǎng)絡(luò)技術(shù),加速大數(shù)據(jù)價(jià)值挖掘與提高決策反應(yīng)基于x86平臺(tái),提供最優(yōu)的軟件和工具,推動(dòng)大數(shù)據(jù)應(yīng)用的部署和創(chuàng)新促進(jìn)大數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè),與廣泛的合作伙伴合作,與中國(guó)共成長(zhǎng)
企業(yè)大數(shù)據(jù)平臺(tái)構(gòu)建中英特爾的角色投資大數(shù)據(jù)解決方案的研究和服務(wù)提供高效的計(jì)算芯片、存儲(chǔ)、I/O、網(wǎng)絡(luò)技術(shù),加速大數(shù)據(jù)價(jià)值挖28什么是Hadoop?開(kāi)源Apache項(xiàng)目,靈感來(lái)源于Google的MapReduce白皮書(shū)和Google文件系(GFS),Yahoo完成了絕大部分初始設(shè)計(jì)和開(kāi)發(fā)Hadoop核心組件包括:-分布式文件系統(tǒng)-Map/Reduce–分布式計(jì)算用Java編寫(xiě)運(yùn)行平臺(tái):Linux,MacOS/X,Solaris普通的X86硬件平臺(tái)ShuffleMapReduce什么是Hadoop?開(kāi)源Apache項(xiàng)目,靈感來(lái)源于GooHadoop與“大數(shù)據(jù)”Hadoop是致力于“大數(shù)據(jù)”處理的最重要平臺(tái)之一能夠輕松擴(kuò)展到PB級(jí)別的數(shù)據(jù)存儲(chǔ),處理規(guī)模帶有容錯(cuò)功能的并行處理架構(gòu)基于普通的X86平臺(tái)硬件架構(gòu),硬件成本低廉用內(nèi)置格式存儲(chǔ)/處理數(shù)據(jù)基于開(kāi)源項(xiàng)目,擁有當(dāng)量的代碼來(lái)源,并且傳統(tǒng)廠商也日益重視對(duì)其的支持,它已經(jīng)成為重要的并行處理架構(gòu)標(biāo)準(zhǔn)之一Hadoop與“大數(shù)據(jù)”Hadoop是致力于“大數(shù)據(jù)”處理30越來(lái)越多的企業(yè)接納Hadoop2007200820092010TheDatagraphBlogSource:HadoopSummitPresentations越來(lái)越多的企業(yè)接納Hadoop20072008200920Intel提供企業(yè)級(jí)的Hadoop產(chǎn)品IntelHadoop經(jīng)過(guò)測(cè)試和驗(yàn)證的穩(wěn)定版本,在生產(chǎn)環(huán)境成功部署運(yùn)營(yíng)包括了Intel針對(duì)現(xiàn)有客戶在實(shí)際使用中出現(xiàn)問(wèn)題的解決方法以及改進(jìn)和優(yōu)化基于Intel在云計(jì)算研發(fā)上的經(jīng)驗(yàn)積累,提供專(zhuān)業(yè)的咨詢服務(wù),幫助構(gòu)建高可擴(kuò)展高性能的分布式系統(tǒng)結(jié)合Intel的硬件部門(mén),提供全面的軟硬件解決方案為Intel硬件平臺(tái)進(jìn)行優(yōu)化,提供更高性能。ComplexMPPSystems(<50TB,real-timeanalytics)ApacheHadoop(Petabytes,batchanalytics)Intel提供企業(yè)級(jí)的Hadoop產(chǎn)品IntelHado32優(yōu)化的大數(shù)據(jù)處理軟件棧穩(wěn)定的企業(yè)級(jí)hadoop發(fā)行版利用硬件新技術(shù)進(jìn)行優(yōu)化HBase改進(jìn)和創(chuàng)新,為Hadoop提供實(shí)時(shí)數(shù)據(jù)處理能力針對(duì)行業(yè)的功能增強(qiáng),應(yīng)對(duì)不同行業(yè)的大數(shù)據(jù)挑戰(zhàn)Hive0.9.0數(shù)據(jù)倉(cāng)庫(kù)Sqoop1.4.1關(guān)系數(shù)據(jù)ETL工具Flume1.1.0日志收集工具Intel
HadoopManager2.0安裝、部署、配置、監(jiān)控、告警和訪問(wèn)控制Zookeeper3.3.5分布式協(xié)作服務(wù)Pig0.9.2數(shù)據(jù)流處理語(yǔ)言Mahout0.6數(shù)據(jù)挖掘HBase0.90.6實(shí)時(shí)、分布式、高維數(shù)據(jù)庫(kù)Map/Reduce1.0.3分布式計(jì)算框架HDFS1.0.3分布式文件系統(tǒng)33英特爾企業(yè)級(jí)Hadoop堆棧優(yōu)化的大數(shù)據(jù)處理軟件棧穩(wěn)定的企業(yè)級(jí)hadoop發(fā)行版利用硬件英特爾企業(yè)級(jí)Hadoop數(shù)據(jù)平臺(tái)特點(diǎn)2022/12/934更高性能基于Hadoop底層的大量?jī)?yōu)化算法,使應(yīng)用效率更高、計(jì)算存儲(chǔ)分布更均衡系統(tǒng)安裝程序計(jì)算得出的參數(shù)配置,適合大多數(shù)應(yīng)用情況與硬件技術(shù)相結(jié)合,提高平臺(tái)性能穩(wěn)定運(yùn)行全面測(cè)試的企業(yè)級(jí)發(fā)行版,保證長(zhǎng)期穩(wěn)定運(yùn)行集成最新開(kāi)源的和自行開(kāi)發(fā)的補(bǔ)丁,用戶可以及時(shí)修正漏洞保證各個(gè)部件之間的一致性,使應(yīng)用順滑運(yùn)行易于管理提供獨(dú)有的基于瀏覽器的集群安裝和管理界面,解決開(kāi)源版本管理困難的問(wèn)題提供網(wǎng)頁(yè)、郵件和短信方式的系統(tǒng)異常報(bào)警功能增強(qiáng)提供跨數(shù)據(jù)中心的HBase數(shù)據(jù)庫(kù)虛擬大表功能實(shí)現(xiàn)HBase數(shù)據(jù)庫(kù)復(fù)制和備份功能其他針對(duì)企業(yè)用戶需要的增強(qiáng)功能英特爾企業(yè)級(jí)Hadoop數(shù)據(jù)平臺(tái)特點(diǎn)2022/12/834更34英特爾Hadoop與開(kāi)源Hadoop比較英特爾產(chǎn)品增強(qiáng)開(kāi)源系統(tǒng)原始實(shí)現(xiàn)針對(duì)HDFS數(shù)據(jù)節(jié)點(diǎn)的讀寫(xiě)選取提供高級(jí)均衡算法,提高系統(tǒng)擴(kuò)展性,適合不同配置服務(wù)器組成的集群簡(jiǎn)單均衡算法,容易在慢速服務(wù)器或熱點(diǎn)服務(wù)器上產(chǎn)生讀寫(xiě)瓶頸,最慢服務(wù)器成為系統(tǒng)性能瓶頸根據(jù)讀請(qǐng)求并發(fā)程度動(dòng)態(tài)增加熱點(diǎn)數(shù)據(jù)的復(fù)制倍數(shù),提高M(jìn)ap/Reduce任務(wù)擴(kuò)展性無(wú)法自動(dòng)擴(kuò)充倍數(shù)功能,在集中讀取時(shí)擴(kuò)展性不強(qiáng),存在性能瓶頸為HDFS的NameNode提供雙機(jī)熱備方案,提高可靠性NameNode是系統(tǒng)的單點(diǎn)破損點(diǎn),一旦失效系統(tǒng)將無(wú)法讀寫(xiě)實(shí)現(xiàn)跨區(qū)域數(shù)據(jù)中心的HBase超級(jí)大表,用戶應(yīng)用可實(shí)現(xiàn)位置透明的數(shù)據(jù)讀寫(xiě)訪問(wèn)和全局匯總統(tǒng)計(jì)無(wú)此功能,無(wú)法進(jìn)行跨數(shù)據(jù)中心部署可將HBase表復(fù)制到異地集群,并提供單向、雙向復(fù)制功能,實(shí)現(xiàn)異地容災(zāi)沒(méi)有成熟的復(fù)制方案在HBase中,根據(jù)數(shù)據(jù)局部性、服務(wù)器Region數(shù)、表的Region數(shù)來(lái)實(shí)現(xiàn)負(fù)載均衡,適合多用戶共享集群創(chuàng)建多張大表的應(yīng)用只根據(jù)Region數(shù)量進(jìn)行負(fù)載均衡,容易產(chǎn)生系統(tǒng)不均衡基于HBase的分布式聚合函數(shù),比傳統(tǒng)方式提高10倍以上效率無(wú)成熟方案實(shí)現(xiàn)對(duì)HBase的不同表或不同列族的復(fù)制份數(shù)精細(xì)控制無(wú)此功能HBase的MajorCompaction精細(xì)控制簡(jiǎn)單算法,容易產(chǎn)生合并風(fēng)暴英特爾Hadoop與開(kāi)源Hadoop比較英特爾產(chǎn)品增強(qiáng)開(kāi)源系35Intel對(duì)hadoop的性能優(yōu)化2022/12/936為企業(yè)級(jí)應(yīng)用而優(yōu)化:優(yōu)化后的HBase與開(kāi)源版本的性能差異性能數(shù)據(jù)在8臺(tái)服務(wù)器組成的小規(guī)模集群上測(cè)試得到服務(wù)器配置:E5-26808核CPU,64GB內(nèi)存,8塊7200rpmSATA硬盤(pán),千兆以太網(wǎng)query/sinsertion/s基于HBase數(shù)據(jù)庫(kù)平均每秒每服務(wù)器插入10000條記錄(雙路,32GB)(每條記錄大約1KB)數(shù)據(jù)查詢:平均每秒每服務(wù)器大于400次查詢,查詢時(shí)延小于1秒(在不同壓力下0.05秒~0.8秒)每次查詢返回一個(gè)用戶一個(gè)月的移動(dòng)詳細(xì)記錄Intel對(duì)hadoop的性能優(yōu)化2022/12/836為企36異步復(fù)制異步復(fù)制跨數(shù)據(jù)中心大表
2022/12/937全局虛擬大表大表數(shù)據(jù)分區(qū)存放在物理分中心多個(gè)分中心位于不同地理位置分中心之間由網(wǎng)絡(luò)互連接入任何分中心可訪問(wèn)全局?jǐn)?shù)據(jù)高可用性適合本地高速寫(xiě)入分布式聚合計(jì)算,避免大數(shù)據(jù)傳輸虛擬大表異步復(fù)制分中心A分中心B分中心C異步復(fù)制異步復(fù)制跨數(shù)據(jù)中心大表
2022/12/837全局372022/12/938直觀集群管理工具簡(jiǎn)化管理2022/12/838直觀集群管理工具簡(jiǎn)化管理38專(zhuān)為Hadoop優(yōu)化的硬件I/O:非標(biāo)準(zhǔn)主板設(shè)計(jì)支持最大I/O電源:高效(80+白金)熱插拔冷冗余電源能效:雙CPU分散型設(shè)計(jì)降低散熱功耗內(nèi)存:最大容量適應(yīng)BigData需求網(wǎng)絡(luò):新一代Intel四網(wǎng)絡(luò)口千兆以太網(wǎng)存儲(chǔ):支持多種硬盤(pán)數(shù)量模式,支持最大存儲(chǔ)容量,適應(yīng)BigData需求新一代英特爾?服務(wù)器主板產(chǎn)品
S2600GZ“GrizzlyPass”新一代英特爾?服務(wù)器系統(tǒng)產(chǎn)品
R2000“BigHornPeak”電源:高效冗余電源高密度:4-Node-in-2U,適用于計(jì)算密集型節(jié)點(diǎn),
高效空間利用,降低TCO靈活:3種主板SKU
提供不同計(jì)算能力新一代英特爾?服務(wù)器主板產(chǎn)品S2600JF“JeffersonPass”
S2600WP“WashingtonPass”新一代英特爾?服務(wù)器系統(tǒng)產(chǎn)品
H2000“BobcatPeak”RAS:?jiǎn)喂?jié)點(diǎn)獨(dú)立散熱內(nèi)存:按需選擇不同內(nèi)存插槽數(shù)量網(wǎng)絡(luò):FDR/QDRInfiniBand高速互聯(lián)I/O:3至4個(gè)PCIE
Gen3x16I/O易維護(hù)性:服務(wù)器節(jié)點(diǎn)熱插拔3214專(zhuān)為Hadoop優(yōu)化的硬件I/O:非標(biāo)準(zhǔn)主板設(shè)計(jì)支持最大I/39
容量型大數(shù)據(jù)設(shè)備設(shè)計(jì)參考SpecificationDetail單一機(jī)架設(shè)備可支持20節(jié)點(diǎn)服務(wù)器Pernode:CPU:
2xIntel(R)Xeon(R)CPU8-coreE5-26502.00GHz(Upto40CPUsintotalforonerack)Memory:Maximum384GB(Upto7,680GBforonerack)Storage:Maximum36TB,12x3T3.5’’SATAharddisks(Upto720TBforonerack)/24x1T2.5’’SATAharddisks(Upto480TBforonerack)ConnectionEthernet:4x1GbEthernetPortsInfiniband:2xQDR(40Gb/s)/FDR(56Gb/s)ports(withadd-onmodule)Administration:1xsharedordedicatedIPMIv2.0EthernetportRemoteKVM(Keyboard,Video,Mouse)SupportIntel(R)IntelligentPowerNodeManagerPowersupply:2xredundant750WFormfactor:16.7”Wx16.5”L(or424mmx419mm)2
24-portQDRInfiniBandswitch24xInfiniBandQDRports148-port1GbEEthernetswitch48x1GbEportsPackagingandaccessories42UrackpackagingInfiniBandcables:QSFP/QSFP+Ethernetcables:RJ45
容量型大數(shù)據(jù)設(shè)備設(shè)計(jì)參考SpecificationDet40Intel提供企業(yè)級(jí)支持保障24X7X365GlobalSupport(Phone,Email,Web,onsite)“Follow-the-sun”P(pán)atchescommittedtoopensourceEmergencyHotFixesOnlineKnowledgeBaseIntelBetaProgramDeveloperCommunityDeveloperForumsDeveloperandAdminTrainingOnlineTutorials,Videos,DocumentationIntel提供企業(yè)級(jí)支持保障24X7X365Global41Lustre分布式文件系統(tǒng)簡(jiǎn)介L(zhǎng)ustre分布式文件系統(tǒng)簡(jiǎn)介42Lustre系統(tǒng)架構(gòu)Lustre系統(tǒng)架構(gòu)43IntelLustre分布式文件系統(tǒng)特點(diǎn)IntelLustre分布式文件系統(tǒng)特點(diǎn)44IntelLustre具有良好的可管理性IntelLustre具有良好的可管理性45謝Q&A謝Q&A46英特爾大數(shù)據(jù)平臺(tái)最佳實(shí)踐英特爾大數(shù)據(jù)平臺(tái)最佳實(shí)踐47提綱大數(shù)據(jù)帶來(lái)的挑戰(zhàn)大數(shù)據(jù)案例介紹Intel大數(shù)據(jù)平臺(tái)48提綱大數(shù)據(jù)帶來(lái)的挑戰(zhàn)2BigBigData云計(jì)算技術(shù)是處理大數(shù)據(jù)的有效手段大數(shù)據(jù)和云是兩個(gè)不同的概念,但兩者之間有很多交集。支撐大數(shù)據(jù)以及云計(jì)算的底層原則是一樣的,即規(guī)?;⒆詣?dòng)化、資源配置、自愈性,因此實(shí)際上大數(shù)據(jù)和云之間存在很多合力的地方。大數(shù)據(jù)應(yīng)用是在云上跑的、非常典型的應(yīng)用?!髷?shù)據(jù)處理離不開(kāi)云BigBigData云計(jì)算技術(shù)是處理大數(shù)據(jù)的有效手段大數(shù)據(jù)49大數(shù)據(jù)時(shí)代-數(shù)據(jù)爆發(fā)性增長(zhǎng)50IDC預(yù)測(cè)全球的數(shù)據(jù)使用量到2020年會(huì)增長(zhǎng)44倍,達(dá)到35.2ZB(1ZB=10億TB)*Source:McKinseyGlobalInstituteAnalysisSGCrossAssetResearch,PwC寬帶、移動(dòng)網(wǎng)絡(luò)普及和提速移動(dòng)網(wǎng)絡(luò)和各種智能終端視頻(醫(yī)療影像、地理信息、監(jiān)控錄像等)統(tǒng)計(jì)、分析、預(yù)測(cè)、實(shí)時(shí)處理傳感器、RFID閱讀器、導(dǎo)航終端等非傳統(tǒng)IT設(shè)備社交網(wǎng)絡(luò)(Facebook,Twitter,微博等)大數(shù)據(jù)時(shí)代-數(shù)據(jù)爆發(fā)性增長(zhǎng)4IDC預(yù)測(cè)全球的數(shù)據(jù)使用量到20大數(shù)據(jù)處理速度要求越來(lái)越高Source:IDCDigitalUniverseStudy,sponsoredbyEMC,May2010大數(shù)據(jù)與海量數(shù)據(jù)的一個(gè)重要區(qū)別,在于不但數(shù)據(jù)尺寸大,而且對(duì)數(shù)據(jù)處理的響應(yīng)速度有有著更高的要求傳統(tǒng)的以周,天,小時(shí)為單位的運(yùn)算處理周期,下降到以分鐘,秒為單位大數(shù)據(jù)高價(jià)值的重要體現(xiàn)-處理速度ValueHighutilityDiminishingutilityArchivalvalueTimeHighLowNegative大數(shù)據(jù)處理速度要求越來(lái)越高Source:IDCDigit51數(shù)據(jù)的多樣性Source:IDCDigitalUniverseStudy,sponsoredbyEMC,May2010數(shù)據(jù)形式的多樣:結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)間有很強(qiáng)的因果關(guān)系半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)間因果關(guān)系較弱非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)間無(wú)因果關(guān)系數(shù)據(jù)來(lái)源的多樣性:不同的應(yīng)用系統(tǒng)各種設(shè)備互聯(lián)網(wǎng)其它Flatfile數(shù)據(jù)的多樣性Source:IDCDigitalUniv52創(chuàng)造顯著業(yè)務(wù)價(jià)值(VALUE)?Copyright2011EMCCorporation.Allrightsreserved.大數(shù)據(jù)分析顯著的業(yè)務(wù)價(jià)值
3V特性驅(qū)動(dòng)下創(chuàng)建
挖掘數(shù)據(jù)資產(chǎn)價(jià)值,通過(guò)數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù),變成本中心為利潤(rùn)中心創(chuàng)造顯著業(yè)務(wù)價(jià)值(VALUE)?Copyright20153智慧城市-典型的大數(shù)據(jù)應(yīng)用集合2022/12/954智慧城市-典型的大數(shù)據(jù)應(yīng)用集合2022/12/8854大數(shù)據(jù)處理導(dǎo)致的平臺(tái)瓶頸RequiredScalabilityRapidAdoptionBigMathBigData“Moore’sLaw”Scalability數(shù)據(jù)處理需求與傳統(tǒng)平臺(tái)硬件擴(kuò)展的差距不斷擴(kuò)大IndustryProgress大數(shù)據(jù)處理需要的擴(kuò)展能力大數(shù)據(jù)處理導(dǎo)致的平臺(tái)瓶頸RequiredScalabili55大數(shù)據(jù)分析不同于傳統(tǒng)BI分析
結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)規(guī)模一般為T(mén)B規(guī)模集中式,為了分析進(jìn)行大量數(shù)據(jù)移動(dòng),數(shù)據(jù)向計(jì)算靠近批處理為主結(jié)構(gòu)化/非結(jié)構(gòu)化混合分析的能力數(shù)據(jù)規(guī)模從數(shù)十TB到PB級(jí)別分布式,計(jì)算向數(shù)據(jù)靠近支持流式分析事務(wù)關(guān)系型數(shù)據(jù)庫(kù)批處理數(shù)據(jù)倉(cāng)庫(kù)分析集群化非結(jié)構(gòu)化流式多種數(shù)據(jù)源分析(MapReduce)組織傳統(tǒng)BI分析大數(shù)據(jù)分析Examples:TelcoGovtFinanceWeb大數(shù)據(jù)分析不同于傳統(tǒng)BI分析
結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化/非結(jié)構(gòu)化混合56分布式數(shù)據(jù)平臺(tái)與傳統(tǒng)數(shù)據(jù)平臺(tái)融合RawDataHadoopCluster(HundredsofTB’stoPB’s)ExistingDataWarehouse(HundredsofTB’s)ApplicationsandTools(Modelingon100’sofTBstoPB’s)StructuredDataSemi-StructuredDataBI/StatToolsHistorical/Archival/EventLevelAggregated/EnrichedSummary/InteractiveETLDataEnrichmentDirectQueryDirectqueryDirectModeling分布式數(shù)據(jù)平臺(tái)與傳統(tǒng)數(shù)據(jù)平臺(tái)融合RawDataHadoop提綱大數(shù)據(jù)帶來(lái)的挑戰(zhàn)大數(shù)據(jù)案例介紹Intel大數(shù)據(jù)平臺(tái)58提綱大數(shù)據(jù)帶來(lái)的挑戰(zhàn)12聯(lián)通3G詳單查詢-問(wèn)題來(lái)源(1/2)隨著移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)的發(fā)展,上網(wǎng)記錄查詢成為用戶投訴的焦點(diǎn)問(wèn)題來(lái)源目前,中國(guó)聯(lián)通省分公司3G客戶數(shù)據(jù)流量問(wèn)題爭(zhēng)議占3G業(yè)務(wù)投訴達(dá)7-10%,且近幾個(gè)月呈上升趨勢(shì),個(gè)別省分比例高達(dá)20%一些用戶對(duì)3G業(yè)務(wù)流量產(chǎn)生及計(jì)費(fèi)方式不了解,主觀認(rèn)為自己未使用或使用較少數(shù)據(jù)流量,要求運(yùn)營(yíng)商提供上網(wǎng)記錄,而現(xiàn)有系統(tǒng)不具備此功能,從而導(dǎo)致投訴升級(jí)。3G流量費(fèi)爭(zhēng)議占總咨詢投訴量比率聯(lián)通3G詳單查詢-問(wèn)題來(lái)源(1/2)隨著移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)的發(fā)展59上網(wǎng)記錄查詢對(duì)中國(guó)聯(lián)通的業(yè)務(wù)發(fā)展產(chǎn)生了較大的影響影響對(duì)用戶而言:“…要是能查到流量是和誰(shuí)發(fā)生的就好了,如果是手機(jī)的問(wèn)題,我也才知道今后怎么防范,現(xiàn)在連防范誰(shuí)都不知道,誰(shuí)知道下次還會(huì)不會(huì)發(fā)生類(lèi)似問(wèn)題?”對(duì)運(yùn)營(yíng)商而言:根據(jù)中國(guó)聯(lián)通客戶服務(wù)部門(mén)提供的數(shù)據(jù),目前移動(dòng)業(yè)務(wù)每萬(wàn)元收入,因無(wú)法提供上網(wǎng)詳單造成的退費(fèi)和賠付約60.1元;如果問(wèn)題得不到根本解決,將會(huì)影響運(yùn)營(yíng)商按流量計(jì)費(fèi)的資費(fèi)模式,對(duì)運(yùn)營(yíng)商3G業(yè)務(wù)的開(kāi)展將產(chǎn)生較大影響用戶上網(wǎng)記錄數(shù)是個(gè)海量數(shù)據(jù),不僅投資巨大,傳統(tǒng)的電信業(yè)解決方案根本無(wú)法提供該服務(wù)案例某iPhone合約計(jì)劃用戶,在凌晨零點(diǎn)到4點(diǎn)之間手機(jī)產(chǎn)生巨額流量費(fèi)在其得知因受計(jì)量設(shè)備限制無(wú)法向其提供數(shù)據(jù)流量去向后,竟上升到司法訴訟層面聯(lián)通3G詳單查詢-問(wèn)題來(lái)源(2/2)上網(wǎng)記錄查詢對(duì)中國(guó)聯(lián)通的業(yè)務(wù)發(fā)展產(chǎn)生了較大的影響影響對(duì)用戶而60移動(dòng)用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)建設(shè)上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)意義重大查詢?yōu)榭蛻舴?wù)人員提供客戶上網(wǎng)記錄快速查詢服務(wù),解決流量投訴問(wèn)題為用戶提供準(zhǔn)實(shí)時(shí)的異常大流量上網(wǎng)記錄自助查詢服務(wù)分析對(duì)數(shù)據(jù)流量進(jìn)行統(tǒng)計(jì)終端分析:iPhone、iPad、其他智能手機(jī)分布,新終端推廣效果分析熱門(mén)流量、熱門(mén)網(wǎng)站(業(yè)務(wù))網(wǎng)絡(luò)分析:2G/3G基站流量分析,網(wǎng)絡(luò)優(yōu)化數(shù)據(jù)挖掘根據(jù)流量分布,分析用戶群特征提供套餐設(shè)計(jì)參考,優(yōu)化用戶體驗(yàn)通過(guò)感知業(yè)務(wù)態(tài)勢(shì),制定市場(chǎng)策略,指導(dǎo)業(yè)務(wù)產(chǎn)品開(kāi)發(fā),為市場(chǎng)營(yíng)銷(xiāo)提供豐富的數(shù)據(jù)支持移動(dòng)用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)建設(shè)上網(wǎng)記錄集中查詢與61移動(dòng)互聯(lián)網(wǎng)處于快速發(fā)展期:每6個(gè)月,流量翻一番移動(dòng)互聯(lián)網(wǎng)用戶快速增加,智能終端迅速普及、戶均流量顯著增長(zhǎng),上網(wǎng)記錄數(shù)據(jù)將進(jìn)一步猛增難點(diǎn)分析上網(wǎng)記錄是海量數(shù)據(jù)用戶每月的上網(wǎng)記錄約幾萬(wàn)至數(shù)十萬(wàn)在Gn(SGSN與GGSN之間)接口上部署采集設(shè)備來(lái)生成用戶上網(wǎng)記錄用戶手機(jī)訪問(wèn)一次網(wǎng)頁(yè),約會(huì)產(chǎn)生數(shù)十條,甚至數(shù)百條請(qǐng)求,意味著產(chǎn)生數(shù)十條和數(shù)百條上網(wǎng)記錄訪問(wèn)手機(jī)新浪網(wǎng)首頁(yè),約產(chǎn)生20條記錄訪問(wèn)新浪iPad首頁(yè),約產(chǎn)生40條記錄在iPad中看一條新浪新聞,產(chǎn)生超過(guò)180條記錄訪問(wèn)淘寶觸摸屏版,約產(chǎn)生60條記錄大量的DNS查詢、推送服務(wù)記錄(如蘋(píng)果通知服務(wù))等以中國(guó)聯(lián)通某省分公司為例,日均上網(wǎng)記錄數(shù)近10億條,每月數(shù)據(jù)量近9TB,31個(gè)省份數(shù)據(jù)量12T/day移動(dòng)互聯(lián)網(wǎng)處于快速發(fā)展期:每6個(gè)月,流量翻一番移動(dòng)互聯(lián)網(wǎng)用戶62難點(diǎn)分析采用關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行上網(wǎng)記錄的存儲(chǔ)已不可行采用何種方式進(jìn)行存儲(chǔ)和檢索是一個(gè)問(wèn)題存儲(chǔ):如此大的數(shù)據(jù)量已經(jīng)超越了當(dāng)前關(guān)系型數(shù)據(jù)庫(kù)可管理的容量上限查詢:關(guān)系型數(shù)據(jù)庫(kù)上對(duì)大規(guī)模數(shù)據(jù)進(jìn)行操作會(huì)造成系統(tǒng)性能?chē)?yán)重下降當(dāng)數(shù)據(jù)集和索引變大時(shí),傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)如Oracle、Sybase,在對(duì)大規(guī)模數(shù)據(jù)進(jìn)行操作會(huì)造成系統(tǒng)性能?chē)?yán)重下降,因?yàn)樵谔幚頂?shù)據(jù)時(shí)SQL請(qǐng)求會(huì)占用大量的CPU周期,并且會(huì)導(dǎo)致大量的磁盤(pán)讀寫(xiě),性能會(huì)變得讓人無(wú)法忍受成本小型機(jī)+高端存儲(chǔ)+關(guān)系數(shù)據(jù)庫(kù)成本導(dǎo)致擴(kuò)展困難難點(diǎn)分析采用關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行上網(wǎng)記錄的存儲(chǔ)已不可行采用何種方63移動(dòng)用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)系統(tǒng)構(gòu)成系統(tǒng)采用全國(guó)集中的一級(jí)架構(gòu)方案進(jìn)行建設(shè),主要包含數(shù)據(jù)采集子系統(tǒng)、數(shù)據(jù)入庫(kù)子系統(tǒng)、數(shù)據(jù)存儲(chǔ)子系統(tǒng)、數(shù)據(jù)查詢與分析子系統(tǒng)基本技術(shù)采用Hadoop/HBase作為上網(wǎng)記錄存儲(chǔ)方案采用MapReduce/Hive作用統(tǒng)計(jì)分析和數(shù)據(jù)挖掘工具關(guān)鍵性能指標(biāo)解決方案數(shù)據(jù)查詢上網(wǎng)記錄查詢速度:不高于1秒(不含用戶訪問(wèn)查詢頁(yè)面的時(shí)間)支持并發(fā)查詢數(shù)目:1000請(qǐng)求/秒數(shù)據(jù)存儲(chǔ)上網(wǎng)記錄入庫(kù)時(shí)間:一般小于30分鐘,實(shí)際約10分鐘具備存儲(chǔ)全國(guó)移動(dòng)用戶不小于6個(gè)月的原始上網(wǎng)記錄能力歷史5個(gè)月+當(dāng)前月統(tǒng)計(jì)分析的中間報(bào)表數(shù)據(jù)保存不小于5年全國(guó)集中的一級(jí)架構(gòu),電信行業(yè)首次將Hadoop/HBase引入到商用電信服務(wù)系統(tǒng)建設(shè)中移動(dòng)用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)系統(tǒng)系統(tǒng)采用全國(guó)集中的64系統(tǒng)部署65系統(tǒng)部署兩路x86服務(wù)器(基于Intel?XeonE5600系列處理器)NameNode節(jié)點(diǎn):3臺(tái)DataNode(數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)):178臺(tái)Zookeeper節(jié)點(diǎn):7臺(tái)集群監(jiān)控節(jié)點(diǎn):1臺(tái)入庫(kù)服務(wù)節(jié)點(diǎn):24臺(tái)Web查詢應(yīng)用服務(wù)節(jié)點(diǎn):20臺(tái)網(wǎng)絡(luò)交換設(shè)備機(jī)框間通過(guò)萬(wàn)兆交換機(jī)連接,以完成快速的數(shù)據(jù)交換Intel?Hadoop發(fā)行版滿足高性能的數(shù)據(jù)導(dǎo)入和快速查詢。穩(wěn)定、易于部署和管理的企業(yè)級(jí)方案。系統(tǒng)部署19系統(tǒng)部署兩路x86服務(wù)器(基于Intel?Xe65移動(dòng)用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)66移動(dòng)用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)2066某市智能交通應(yīng)用舉例視頻云計(jì)算/云服務(wù)視頻云服務(wù)中心可以實(shí)時(shí)掌控任一車(chē)輛的行駛,運(yùn)行軌跡、分析車(chē)輛是否違章視頻云服務(wù)中心對(duì)海量的交通信息進(jìn)行比對(duì)、分析和預(yù)測(cè),為車(chē)輛布控、分析擁堵?tīng)顟B(tài),出行最優(yōu)路徑規(guī)劃、交通管理服務(wù)智能交通系統(tǒng)實(shí)時(shí)監(jiān)控城市的交通狀態(tài),將各個(gè)路口的車(chē)輛實(shí)時(shí)抓拍、傳輸?shù)揭曨l云服務(wù)中心某市智能交通應(yīng)用舉例視頻云計(jì)算/云服務(wù)視頻云服務(wù)中心可以實(shí)時(shí)67面臨的挑戰(zhàn)年過(guò)車(chē)信息數(shù)據(jù)量達(dá)數(shù)百億級(jí)記錄規(guī)模市局和區(qū)縣的數(shù)據(jù)中心兩級(jí)架構(gòu),分布式存儲(chǔ),集中管理。支持多條件組合快速查詢:卡口名稱(chēng)、車(chē)道名稱(chēng)、車(chē)輛類(lèi)型、車(chē)牌類(lèi)型、車(chē)牌號(hào)碼、車(chē)身顏色、車(chē)牌顏色、車(chē)速范圍、車(chē)長(zhǎng)范圍、號(hào)牌段范圍、時(shí)間范圍。支持海量過(guò)車(chē)信息的模糊匹配檢索。支持各種統(tǒng)計(jì)分析、數(shù)據(jù)挖掘:車(chē)輛違章率統(tǒng)計(jì)、過(guò)車(chē)識(shí)別率統(tǒng)計(jì)、套牌分析、關(guān)聯(lián)性分析、黑名單等過(guò)車(chē)記錄單個(gè)區(qū)數(shù)據(jù)中心全市數(shù)據(jù)總和每秒鐘~6MB/s1200條記錄/s120MB/s24000條記錄/秒每小時(shí)~20GB/hour432萬(wàn)條/小時(shí)~400GB/hour8640萬(wàn)條/小時(shí)每天~480GB/day1億條/天~9.6TB/day20億條/天每月~14.4TB/month30億條/月~288TB/month600億條/月三個(gè)月~43.2TB/3months90億條/三個(gè)月~0.8PB/3months1800億條/三個(gè)月違章車(chē)輛圖片數(shù)據(jù)單個(gè)區(qū)數(shù)據(jù)中心全市數(shù)據(jù)總和每小時(shí)~1.8GB/h36GB/h每天~43.2GB/day~864GB/day每月~1.2TB/month~24TB/month三個(gè)月~3.6TB/3months~72TB/3months面臨的挑戰(zhàn)年過(guò)車(chē)信息數(shù)據(jù)量達(dá)數(shù)百億級(jí)記錄規(guī)模過(guò)車(chē)記錄單個(gè)區(qū)數(shù)68基于英特爾Hadoop技術(shù)方案解決了海量過(guò)車(chē)信息(結(jié)構(gòu)文本+圖片)存儲(chǔ)問(wèn)題。解決了分布式數(shù)據(jù)查詢問(wèn)題。系統(tǒng)提供了易于使用的API,方便進(jìn)行二次開(kāi)發(fā)。系統(tǒng)做了較多優(yōu)化,性能很好的滿足了項(xiàng)目的實(shí)時(shí)性要求。系統(tǒng)的穩(wěn)定性好。智能交通應(yīng)用技術(shù)架構(gòu)圖基于英特爾Hadoop技術(shù)方案解決了海量過(guò)車(chē)信息(結(jié)構(gòu)文本+69某市智慧交通信息系統(tǒng)架構(gòu)某市智慧交通信息系統(tǒng)架構(gòu)70基于海量數(shù)據(jù)進(jìn)行車(chē)輛軌跡分析實(shí)時(shí)路況信息區(qū)域號(hào)牌管理碰撞分析。。。。。。。。。?;诤A繑?shù)據(jù)進(jìn)行車(chē)輛軌跡分析實(shí)時(shí)路況信息區(qū)域號(hào)牌管理碰撞分析71某市智慧醫(yī)療某市智慧醫(yī)療72提綱大數(shù)據(jù)帶來(lái)的挑戰(zhàn)大數(shù)據(jù)案例介紹Intel大數(shù)據(jù)平臺(tái)73提綱大數(shù)據(jù)帶來(lái)的挑戰(zhàn)27提供高效的計(jì)算芯片、存儲(chǔ)、I/O、網(wǎng)絡(luò)技術(shù),加速大數(shù)據(jù)價(jià)值挖掘與提高決策反應(yīng)基于x86平臺(tái),提供最優(yōu)的軟件和工具,推動(dòng)大數(shù)據(jù)應(yīng)用的部署和創(chuàng)新促進(jìn)大數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè),與廣泛的合作伙伴合作,與中國(guó)共成長(zhǎng)
企業(yè)大數(shù)據(jù)平臺(tái)構(gòu)建中英特爾的角色投資大數(shù)據(jù)解決方案的研究和服務(wù)提供高效的計(jì)算芯片、存儲(chǔ)、I/O、網(wǎng)絡(luò)技術(shù),加速大數(shù)據(jù)價(jià)值挖74什么是Hadoop?開(kāi)源Apache項(xiàng)目,靈感來(lái)源于Google的MapReduce白皮書(shū)和Google文件系(GFS),Yahoo完成了絕大部分初始設(shè)計(jì)和開(kāi)發(fā)Hadoop核心組件包括:-分布式文件系統(tǒng)-Map/Reduce–分布式計(jì)算用Java編寫(xiě)運(yùn)行平臺(tái):Linux,MacOS/X,Solaris普通的X86硬件平臺(tái)ShuffleMapReduce什么是Hadoop?開(kāi)源Apache項(xiàng)目,靈感來(lái)源于GooHadoop與“大數(shù)據(jù)”Hadoop是致力于“大數(shù)據(jù)”處理的最重要平臺(tái)之一能夠輕松擴(kuò)展到PB級(jí)別的數(shù)據(jù)存儲(chǔ),處理規(guī)模帶有容錯(cuò)功能的并行處理架構(gòu)基于普通的X86平臺(tái)硬件架構(gòu),硬件成本低廉用內(nèi)置格式存儲(chǔ)/處理數(shù)據(jù)基于開(kāi)源項(xiàng)目,擁有當(dāng)量的代碼來(lái)源,并且傳統(tǒng)廠商也日益重視對(duì)其的支持,它已經(jīng)成為重要的并行處理架構(gòu)標(biāo)準(zhǔn)之一Hadoop與“大數(shù)據(jù)”Hadoop是致力于“大數(shù)據(jù)”處理76越來(lái)越多的企業(yè)接納Hadoop2007200820092010TheDatagraphBlogSource:HadoopSummitPresentations越來(lái)越多的企業(yè)接納Hadoop20072008200920Intel提供企業(yè)級(jí)的Hadoop產(chǎn)品IntelHadoop經(jīng)過(guò)測(cè)試和驗(yàn)證的穩(wěn)定版本,在生產(chǎn)環(huán)境成功部署運(yùn)營(yíng)包括了Intel針對(duì)現(xiàn)有客戶在實(shí)際使用中出現(xiàn)問(wèn)題的解決方法以及改進(jìn)和優(yōu)化基于Intel在云計(jì)算研發(fā)上的經(jīng)驗(yàn)積累,提供專(zhuān)業(yè)的咨詢服務(wù),幫助構(gòu)建高可擴(kuò)展高性能的分布式系統(tǒng)結(jié)合Intel的硬件部門(mén),提供全面的軟硬件解決方案為Intel硬件平臺(tái)進(jìn)行優(yōu)化,提供更高性能。ComplexMPPSystems(<50TB,real-timeanalytics)ApacheHadoop(Petabytes,batchanalytics)Intel提供企業(yè)級(jí)的Hadoop產(chǎn)品IntelHado78優(yōu)化的大數(shù)據(jù)處理軟件棧穩(wěn)定的企業(yè)級(jí)hadoop發(fā)行版利用硬件新技術(shù)進(jìn)行優(yōu)化HBase改進(jìn)和創(chuàng)新,為Hadoop提供實(shí)時(shí)數(shù)據(jù)處理能力針對(duì)行業(yè)的功能增強(qiáng),應(yīng)對(duì)不同行業(yè)的大數(shù)據(jù)挑戰(zhàn)Hive0.9.0數(shù)據(jù)倉(cāng)庫(kù)Sqoop1.4.1關(guān)系數(shù)據(jù)ETL工具Flume1.1.0日志收集工具Intel
HadoopManager2.0安裝、部署、配置、監(jiān)控、告警和訪問(wèn)控制Zookeeper3.3.5分布式協(xié)作服務(wù)Pig0.9.2數(shù)據(jù)流處理語(yǔ)言Mahout0.6數(shù)據(jù)挖掘HBase0.90.6實(shí)時(shí)、分布式、高維數(shù)據(jù)庫(kù)Map/Reduce1.0.3分布式計(jì)算框架HDFS1.0.3分布式文件系統(tǒng)79英特爾企業(yè)級(jí)Hadoop堆棧優(yōu)化的大數(shù)據(jù)處理軟件棧穩(wěn)定的企業(yè)級(jí)hadoop發(fā)行版利用硬件英特爾企業(yè)級(jí)Hadoop數(shù)據(jù)平臺(tái)特點(diǎn)2022/12/980更高性能基于Hadoop底層的大量?jī)?yōu)化算法,使應(yīng)用效率更高、計(jì)算存儲(chǔ)分布更均衡系統(tǒng)安裝程序計(jì)算得出的參數(shù)配置,適合大多數(shù)應(yīng)用情況與硬件技術(shù)相結(jié)合,提高平臺(tái)性能穩(wěn)定運(yùn)行全面測(cè)試的企業(yè)級(jí)發(fā)行版,保證長(zhǎng)期穩(wěn)定運(yùn)行集成最新開(kāi)源的和自行開(kāi)發(fā)的補(bǔ)丁,用戶可以及時(shí)修正漏洞保證各個(gè)部件之間的一致性,使應(yīng)用順滑運(yùn)行易于管理提供獨(dú)有的基于瀏覽器的集群安裝和管理界面,解決開(kāi)源版本管理困難的問(wèn)題提供網(wǎng)頁(yè)、郵件和短信方式的系統(tǒng)異常報(bào)警功能增強(qiáng)提供跨數(shù)據(jù)中心的HBase數(shù)據(jù)庫(kù)虛擬大表功能實(shí)現(xiàn)HBase數(shù)據(jù)庫(kù)復(fù)制和備份功能其他針對(duì)企業(yè)用戶需要的增強(qiáng)功能英特爾企業(yè)級(jí)Hadoop數(shù)據(jù)平臺(tái)特點(diǎn)2022/12/834更80英特爾Hadoop與開(kāi)源Hadoop比較英特爾產(chǎn)品增強(qiáng)開(kāi)源系統(tǒng)原始實(shí)現(xiàn)針對(duì)HDFS數(shù)據(jù)節(jié)點(diǎn)的讀寫(xiě)選取提供高級(jí)均衡算法,提高系統(tǒng)擴(kuò)展性,適合不同配置服務(wù)器組成的集群簡(jiǎn)單均衡算法,容易在慢速服務(wù)器或熱點(diǎn)服務(wù)器上產(chǎn)生讀寫(xiě)瓶頸,最慢服務(wù)器成為系統(tǒng)性能瓶頸根據(jù)讀請(qǐng)求并發(fā)程度動(dòng)態(tài)增加熱點(diǎn)數(shù)據(jù)的復(fù)制倍數(shù),提高M(jìn)ap/Reduce任務(wù)擴(kuò)展性無(wú)法自動(dòng)擴(kuò)充倍數(shù)功能,在集中讀取時(shí)擴(kuò)展性不強(qiáng),存在性能瓶頸為HDFS的NameNode提供雙機(jī)熱備方案,提高可靠性NameNode是系統(tǒng)的單點(diǎn)破損點(diǎn),一旦失效系統(tǒng)將無(wú)法讀寫(xiě)實(shí)現(xiàn)跨區(qū)域數(shù)據(jù)中心的HBase超級(jí)大表,用戶應(yīng)用可實(shí)現(xiàn)位置透明的數(shù)據(jù)讀寫(xiě)訪問(wèn)和全局匯總統(tǒng)計(jì)無(wú)此功能,無(wú)法進(jìn)行跨數(shù)據(jù)中心部署可將HBase表復(fù)制到異地集群,并提供單向、雙向復(fù)制功能,實(shí)現(xiàn)異地容災(zāi)沒(méi)有成熟的復(fù)制方案在HBase中,根據(jù)數(shù)據(jù)局部性、服務(wù)器Region數(shù)、表的Region數(shù)來(lái)實(shí)現(xiàn)負(fù)載均衡,適合多用戶共享集群創(chuàng)建多張大表的應(yīng)用只根據(jù)Region數(shù)量進(jìn)行負(fù)載均衡,容易產(chǎn)生系統(tǒng)不均衡基于HBase的分布式聚合函數(shù),比傳統(tǒng)方式提高10倍以上效率無(wú)成熟方案實(shí)現(xiàn)對(duì)HBase的不同表或不同列族的復(fù)制份數(shù)精細(xì)控制無(wú)此功能HBase的MajorCompaction精細(xì)控制簡(jiǎn)單算法,容易產(chǎn)生合并風(fēng)暴英特爾Hadoop與開(kāi)源Hadoop比較英特爾產(chǎn)品增強(qiáng)開(kāi)源系81Intel對(duì)hadoop的性能優(yōu)化2022/12/982為企業(yè)級(jí)應(yīng)用而優(yōu)化:優(yōu)化后的HBase與開(kāi)源版本的性能差異性能數(shù)據(jù)在8臺(tái)服務(wù)器組成的小規(guī)模集群上測(cè)試得到服務(wù)器配置:E5-26808核CPU,64GB內(nèi)存,8塊7200rpmSATA硬盤(pán),千兆以太網(wǎng)query/sinsertion/s基于HBase數(shù)據(jù)庫(kù)平均每秒每服務(wù)器插入10000條記錄(雙路,32GB)(每條記錄大約1KB)數(shù)據(jù)查詢:平均每秒每服務(wù)器大于400次查詢,查詢時(shí)延小于1秒(在不同壓力下0.05秒~0.8秒)每次查詢返回一個(gè)用戶一個(gè)月的移動(dòng)詳細(xì)記錄Intel對(duì)hadoop的性能優(yōu)化2022/12/836為企82異步復(fù)制異步復(fù)制跨數(shù)據(jù)中心大表
2022/12/983全局虛擬大表大表數(shù)據(jù)分區(qū)存放在物理分中心多個(gè)分中心位于不同地理位置分中心
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 倉(cāng)庫(kù)大門(mén)轉(zhuǎn)讓合同范本
- etc押金合同范本
- 出租工地合同范本
- 別墅臨街出售合同范本
- 與安踏合作合同范本
- 供應(yīng)提成合同范本
- 醫(yī)用設(shè)備購(gòu)銷(xiāo)合同范本
- 上門(mén)醫(yī)療服務(wù)合同范例
- 中標(biāo)方轉(zhuǎn)讓合同范本
- 美發(fā)合租合同范本
- app 購(gòu)買(mǎi)合同范例
- 高二上學(xué)期物理(理科)期末試題(含答案)
- 2024年房地產(chǎn)經(jīng)紀(jì)人《房地產(chǎn)經(jīng)紀(jì)專(zhuān)業(yè)基礎(chǔ)》考前沖刺必會(huì)試題庫(kù)300題(含詳解)
- 礦山生態(tài)修復(fù)工程不穩(wěn)定斜坡治理工程設(shè)計(jì)
- 躲避球運(yùn)動(dòng)用球項(xiàng)目評(píng)價(jià)分析報(bào)告
- 風(fēng)機(jī)盤(pán)管更換施工方案
- 河道整治與生態(tài)修復(fù)工程監(jiān)理規(guī)劃
- 2024年度委托創(chuàng)作合同:原創(chuàng)美術(shù)作品設(shè)計(jì)與委托制作3篇
- 建設(shè)工程招標(biāo)代理合同(GF-2005-0215)(標(biāo)準(zhǔn)版)
- 剪映專(zhuān)業(yè)版教學(xué)課件
- 公司新建電源及大用戶并網(wǎng)管理辦法
評(píng)論
0/150
提交評(píng)論