




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
Hadoop存儲能力詳細方案Hadoop采用HDFS作為其底層文件存儲方式。HDFS是分布式文件系統(tǒng),適合于存儲大數(shù)據(jù)文件,通過將大數(shù)據(jù)文件切分成多個小數(shù)據(jù)文件,并且分散存放在多臺DataNode效勞器,同時提供數(shù)據(jù)冗余機制保證數(shù)據(jù)平安。本次Hadoop存儲節(jié)點為:300臺DataNode效勞節(jié)點。存儲數(shù)據(jù)平安及分配機制:采用3備份機制保證數(shù)據(jù)平安,同時為系統(tǒng)保存10%的臨時數(shù)據(jù)交換空間,當數(shù)據(jù)量超過集群總容量的90%時,建議增加節(jié)點。存儲總容量:300臺數(shù)據(jù)節(jié)點,每個節(jié)點36T的磁盤容量,除去10%的臨時數(shù)據(jù)交換空間,同時HDFS中一份數(shù)據(jù)存放著3份備份;最終存儲容量公式如下可用存儲容量=節(jié)點數(shù)*單節(jié)點磁盤容量*〔1-臨時數(shù)據(jù)交換空間比例〕÷HDFS文件備份數(shù)量;即:可用存儲容量=300×36×〔1-10%〕÷3=3240T;目錄規(guī)劃:針對不同的數(shù)據(jù)用途和支撐方式進行存儲容量劃分,存放在HDFS中的數(shù)據(jù)分為接口層,處理層,共享層。接口層主要為原始數(shù)據(jù),處理層為存放在HDFS中數(shù)據(jù)經Hive映射之后數(shù)據(jù),共享層為經數(shù)據(jù)深度沉淀之后存放在HBase中。接口層:總容量*50%處理層:總容量*30%共享層:總容量*20%Storm存儲能力詳細方案Storm流數(shù)據(jù)處理采用linux文件系統(tǒng)作為其存儲,數(shù)據(jù)盤采用raid5保證數(shù)據(jù)平安。存儲總容量為:30臺效勞器,每臺36T,采用Raid5磁盤陣列之后,數(shù)據(jù)容量為原來的75%,并建議預留10%的空間;最終可用存儲計算公式如下:可用存儲容量=節(jié)點數(shù)*單節(jié)點磁盤容量*Raid5后的磁盤容量比例*〔1-臨時數(shù)據(jù)交換空間比例〕;即:可用存儲容量=30×36×75%×〔1-10%〕=729T;Redis存儲能力詳細方案Redis包含平臺Redis內存數(shù)據(jù)庫和前置Redis內存數(shù)據(jù)庫,平臺Redis內存數(shù)據(jù)庫集群用于存放Storm處理后數(shù)據(jù),對外提供低延遲數(shù)據(jù)效勞;前置Redis內存數(shù)據(jù)庫存放應用級數(shù)據(jù)對外提供效勞。平臺Redis內存數(shù)據(jù)庫集群:集群通過一臺路由效勞器根據(jù)一套算法將表的Key值打算后分散存放到7個RedisMaster效勞器中,同時每一個Master節(jié)點對應一個Slave節(jié)點保證數(shù)據(jù)平安,通過路由效勞器實現(xiàn)高可用。存儲容量為:14臺數(shù)據(jù)效勞器,7個Master節(jié)點,對應7個Slave節(jié)點,每一節(jié)點內存為512G,為保證KV查詢的高效性,建議預留30%的空間;最終可用存儲計算公式如下:可用存儲容量=節(jié)點數(shù)÷熱備*單節(jié)點內存容量*〔1-預留空間比例〕;即:可用存儲容量=14÷2×512×〔1-30%〕=2508.8G;前置Redis內存數(shù)據(jù)庫:前置Redis內存數(shù)據(jù)庫中,數(shù)據(jù)表分別分別存放在不同的節(jié)點,同時內存中數(shù)據(jù)定期備份到本地和遠程磁盤,通過該方式在保證了數(shù)據(jù)平安的同時針對多租戶的場景實現(xiàn)了資源隔離。存儲容量為:前置數(shù)據(jù)效勞器,每一節(jié)點內存為512G,為保證KV查詢的高效性,建議預留30%的空間,最終可用存儲計算公式如下:可用存儲容量=節(jié)點數(shù)÷熱備*單節(jié)點內存容量*〔1-預留空間比例〕;即:可用存儲容量=4×512×〔1-30%〕=1433.6;Mysql存儲能力詳細方案Mysql關系型數(shù)據(jù)庫存儲放深度匯總模型數(shù)據(jù),支撐能力封裝組件,為上層應用提供數(shù)據(jù)效勞器;其中支撐業(yè)務數(shù)據(jù)節(jié)點數(shù)為8臺,管控數(shù)據(jù)節(jié)點數(shù)為2臺。業(yè)務數(shù)據(jù)MySql數(shù)據(jù)庫:Mysql效勞器的數(shù)據(jù)存儲將采用Raid5磁盤陣列劃分,以滿足數(shù)據(jù)平安及高可用性。效勞器存儲容量:8臺MySql效勞器,每臺24T,采用Raid5磁盤陣列,存儲量變?yōu)樵瓉淼?5%;最終可用存儲計算公式如下:可用存儲容量=節(jié)點數(shù)*單節(jié)點存儲容量*Raid5后的磁盤容量比例;即:可用存儲容量=8×24×75%單位/T管控數(shù)據(jù)MySql數(shù)據(jù)庫:Mysql效勞器的數(shù)據(jù)存儲將采用Raid5磁盤陣列劃分,以滿足數(shù)據(jù)平安及高可用性。效勞器存儲容量:2臺MySql效勞器,每臺24T,采用Raid5磁盤陣列,存儲量變?yōu)樵瓉淼?5%;最終可用存儲計算公式如下:可用存儲容量=節(jié)點數(shù)*單節(jié)點存儲容量*Raid5后的磁盤容量比例;即:可用存儲容量=2×24×75%單位/T大數(shù)據(jù)處理實現(xiàn)大數(shù)據(jù)的處理是使用Hadoop2.x體系進行處理。將ETL清洗后數(shù)據(jù)放入HDFS中進行存儲,依靠HDFS的數(shù)據(jù)底層存儲上部署MapReduce引擎,MapReduce通過把對數(shù)據(jù)集的大規(guī)模操作分發(fā)給網絡上的每個節(jié)點實現(xiàn)可靠性;Hive是建立在Hadoop上的數(shù)據(jù)倉庫根底構架。Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結構化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。
Pig是一個高級過程語言,適合于使用Hadoop和MapReduce平臺來查詢大型半結構化數(shù)據(jù)集。通過允許對分布式數(shù)據(jù)集進行類似SQL的查詢,簡化Hadoop的使用。HBase是一個分布式的、面向列的開源數(shù)據(jù)庫,是一個適合于非結構化數(shù)據(jù)存儲的列存數(shù)據(jù)庫。數(shù)據(jù)效勞〔DataService〕大數(shù)據(jù)能力產品及應用平臺既要保證內部數(shù)據(jù)產品的平安性,還要滿足外部平臺的靈巧使用,為了實現(xiàn)以上目標,在平臺架構中引入統(tǒng)一的數(shù)據(jù)效勞,實現(xiàn)對效勞能力的統(tǒng)一管理和支撐,提供數(shù)據(jù)效勞的封裝能力,形成統(tǒng)一、標準化的跨平臺、跨應用的數(shù)據(jù)效勞接口,可對內〔外〕部平臺提供數(shù)據(jù)效勞。通過效勞封裝實現(xiàn)平臺效勞能力的開放,形成如下的效勞支撐能力:統(tǒng)一外部效勞開發(fā)標準和程序調用能力平臺通過對自身數(shù)據(jù)進行程序化封裝,實現(xiàn)并對外提供標準化的SDK開發(fā)軟件包,供外部平臺和其他應用開發(fā)人員進行調用與接入。優(yōu)點:此類方式具備靈巧、簡便,并且易于管理,數(shù)據(jù)平安可靠的優(yōu)點缺點:此類效勞需要開發(fā)實現(xiàn),過程較復雜適用于:RTB中DSP數(shù)據(jù)響應、精準移動營銷等業(yè)務開放特定應用的數(shù)據(jù)查詢訪問能力平臺通過開放一定的數(shù)據(jù)訪問權限和接口,提供應某些合作伙伴的特定應用進行有限的一定范圍內的數(shù)據(jù)訪問與查詢接口。優(yōu)點:實現(xiàn)方便,快速支撐缺點:數(shù)據(jù)平安級別不高適用于:數(shù)據(jù)咨詢報告等產品業(yè)務開放應用級的程序封裝接入能力平臺通過對于平臺數(shù)據(jù)進行某些主題級的組織和加工后,形成統(tǒng)一的應用支撐界面,按照模塊功能授權模式為合作伙伴和外部客戶提供平臺的數(shù)據(jù)產品和效勞價值。優(yōu)點:效勞系統(tǒng)化,用戶感知度高,數(shù)據(jù)價值顯現(xiàn)化缺點:實現(xiàn)難度較大,流程復雜適用于:選址分析、可視化應用等對外產品業(yè)務對外提供挖掘需求的統(tǒng)一響應與接入效勞能力平臺提供基于根底設施和數(shù)據(jù)平臺的統(tǒng)一能力封裝,為合作伙伴和外部客戶的數(shù)據(jù)挖掘請求提供平臺級支持和功能級響應。優(yōu)點:實現(xiàn)資源運營效勞化,對外效勞深入支撐缺點:實現(xiàn)難度高,需求及響應模式復雜,平臺風險級別較高適用于:平臺資源能力的封裝產品提供直接的數(shù)據(jù)文件導出效勞模式能力平臺針對某些對外業(yè)務效勞的特定需求,提供將平臺分析結果數(shù)據(jù)進行直接文件導出,直接提供應合作伙伴或外部客戶,便于其自行封裝與使用。優(yōu)點:實現(xiàn)簡單,方案不便于管理缺點:管理不便,標準程度差,數(shù)據(jù)平安級別低適用于:二次放號等數(shù)據(jù)產品業(yè)務模式部署前置節(jié)點對外提供數(shù)據(jù)查詢效勞能力平臺需滿足特定區(qū)域的高速數(shù)據(jù)查詢要求,所以需在查詢發(fā)起地部署查詢前置節(jié)點,查詢前置節(jié)點實現(xiàn)的功能包括:定期推送標簽數(shù)據(jù)給數(shù)據(jù)效勞、記錄效勞使用清單,并推送回總部平臺、RTB查詢請求及返回。優(yōu)點:數(shù)據(jù)響應效率高,效勞方式靈巧缺點:部署實現(xiàn)難度大,系統(tǒng)投入較大適用于:RTB等互聯(lián)網數(shù)據(jù)產品業(yè)務模式分布式ETL〔DistributedETL〕能力平臺所需的的根底數(shù)據(jù)來源于集團大數(shù)據(jù)會聚平臺、外部互聯(lián)網以及未來第三方合作伙伴,一是數(shù)據(jù)量巨大,二是數(shù)據(jù)類型復雜多樣。能力平臺首先要解決的是大量結構化和非結構化數(shù)據(jù)的快速抽取、轉換、加載工作。為了實現(xiàn)上述目標,引入分布式ETL,實現(xiàn)計算分布式及抽取、加載分布式,可以快速清洗來源于多個系統(tǒng)的同構、異構多種數(shù)據(jù),數(shù)據(jù)的導入、轉換、加載完全可視化,實現(xiàn)快速開發(fā)部署能力,有效降低操作門檻,提升工作效率。分布式ETL對于能力平臺的構建提供了如下的能力支撐:支撐能力平臺的分布式運行和多類計算任務的統(tǒng)一管控分布式ETL對平臺所構建的分布式環(huán)境是必不可缺的支撐根底,對于各個集群上的分布式處理任務提供統(tǒng)一的管理,并對計算運行過程進行實時監(jiān)控和異常預警,實現(xiàn)平臺計算任務的統(tǒng)一工作臺管理支撐。提供底層數(shù)據(jù)處理技術的統(tǒng)一封裝與能力支撐分布式ETL提供了一套可視化的通用的數(shù)據(jù)處理組件,通過流程化的運算邏輯定義、封裝和調度管理,為開發(fā)實現(xiàn)提供了一套高效易用的數(shù)據(jù)處理支撐框架,降低了技術人員對于底層技術的掌握門檻,便于支撐面向業(yè)務應用的快速效勞與響應。數(shù)據(jù)容量估算本期工程各類數(shù)據(jù)規(guī)模如下表所示,總計原始用戶數(shù)據(jù)容量約為6588TB。數(shù)據(jù)分類數(shù)據(jù)類型數(shù)據(jù)內容要求數(shù)據(jù)容量〔單周期原始數(shù)據(jù)量,TB〕數(shù)據(jù)容量〔15年底系統(tǒng)保存數(shù)據(jù)需求,TB〕備注當前15年底接口/整合層模型應用層小計網絡數(shù)據(jù)移動DPI、移動AAA數(shù)據(jù)內容詳見?中國電信移動分組域數(shù)據(jù)信息采集設備技術要求〔發(fā)布版本)?294614264141840移動DPI清單率設為50%設備配置推算Hadoop分布式集群建議采用本地存儲方式〔數(shù)據(jù)存儲在各PC效勞器本地磁盤上〕,對照可參考案例,對于常規(guī)數(shù)據(jù)分析,Hadoop平臺數(shù)據(jù)處理平臺節(jié)點需求數(shù)主要由數(shù)據(jù)處理量需要的存儲節(jié)點數(shù)量,同時考慮計算節(jié)點能力需求。詳細計算過程如下表所示:存儲能力測算系統(tǒng)數(shù)據(jù)容量6558TB壓縮比0.5備份數(shù)3空間冗余1.20所需存儲容量=系統(tǒng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人事代理服務合同主要條款
- 大數(shù)據(jù)分析項目服務采購合同
- 智能家電產品研發(fā)與生產合同
- 半包裝修項目合同書
- 戰(zhàn)略咨詢服務合同協(xié)議書
- 仔豬買賣合同及注意事項
- 26《好的故事》教學設計-2024-2025學年語文六年級上冊統(tǒng)編版
- 沈陽理工大學《醫(yī)學倫理學理論》2023-2024學年第二學期期末試卷
- 陜西服裝工程學院《建筑生態(tài)環(huán)境》2023-2024學年第二學期期末試卷
- 中學聯(lián)盟浙江省平陽縣昆陽鎮(zhèn)第二中學歷史與社會七年級上(人教版)第2單元第1課第2子目《海洋對人類的影響》教學設計
- 2024年鞍山職業(yè)技術學院單招職業(yè)傾向性測試題庫(500題)含答案解析
- 政企業(yè)務部門培訓
- 2024年高考歷史:全3冊核心知識梳理和大事年表
- 蘇教版三年級下冊數(shù)學全冊作業(yè)設計
- 4.《昆蟲備忘錄》 課件
- 非標設備方案
- 教師如何進行跨學科教學
- 數(shù)學-山東省濟寧市2023屆高三第一次模擬考試
- 生理學全套課件
- 盤口暗語及盤口數(shù)字語言
- 《新疆大學版學術期刊目錄》(人文社科)
評論
0/150
提交評論