浪潮云海大數據解決方案_第1頁
浪潮云海大數據解決方案_第2頁
浪潮云海大數據解決方案_第3頁
浪潮云海大數據解決方案_第4頁
浪潮云海大數據解決方案_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、精選優(yōu)質文檔-傾情為你奉上浪潮云海大數據一體機解決方案高端服務器研發(fā)部高端容錯計算機產品部2013.1目錄一 產品簡介為應對大數據時代的到來,浪潮集團適時推出浪潮云海大數據一體機,重點面向行業(yè)大數據應用,是一體化數據處理的解決方案。采用新型技術體系架構,整合軟硬件系統,涵蓋數據存儲、數據處理、數據呈現等全環(huán)節(jié)。浪潮云海大數據一體機是公安、金融、電信、交通、醫(yī)療、企業(yè)等各個行業(yè)用戶的大數據解決方案理想之選。1.1 浪潮云海大數據一體機總體架構1.2 系列化產品SDA-1:l 滿配:CPU:480Core;內存:12TB;存儲容量: 144TB;網絡:1Gbps、10Gbps或者40Gbpsl 支

2、持線性擴展l 適合數據處理應用:模式計算,商業(yè)智能,醫(yī)療數據挖掘等。計算能力、I/O能力、存儲能力均衡。SDA-2:l 滿配: CPU:288Core;內存:6912GB;存儲容量: 540TB;網絡: 1Gbps、 10Gbps或者40Gbpsl 支持線性擴展l 適合處理密集型的重載應用: 視頻處理,圖片處理分析,圖像渲染,在線交易等。可重構加速器件或眾核處理器,硬件加速。二 關鍵模塊介紹HDFS分布式存儲解決數據如何存儲的問題,Map/Reduce解決數據如何處理問題,HBase解決實時數據庫問題,Hive解決基于SQL的數據分析和挖掘。2.1 Hadoop分布式文件系統:使用低成本存儲和

3、服務器構建 存放PB級別的海量數據 高可擴展性,實際生產環(huán)境擴展至4000個節(jié)點 高可靠性和容錯性,數據自動復制 ,可自我修復 高帶寬,高并發(fā)訪問 2.2 Hadoop MapReduce計算框架:為離線數據分析而設計,基本上是個利用數據并行性進行分布運算而后匯總結果的計算框架。通用的計算框架,松耦合,非常利于線性擴展。與HDFS一起使用,具有容錯特性,數據本地化處理,通過移動計算,而非移動數據來實現高效數據處理。分析問題能夠被并行化,且輸入數據集可以被切分 一個Map函數,在第一階段計算<Key,Value>對 一個Reduce函數,在第二階段用于匯總Map函數的結果 2.3 H

4、Base 分布式數據庫HBase是一個分布式的、按列存儲的、多維表結構的實時數據庫, 為高速在線數據服務而設計 NoSQL 面向列、可壓縮,有效降低磁盤I/O,提高利用率。 多維表,四個維度,其中三個維度可變,適合描述復雜嵌套關系。 靈活的表結構,可動態(tài)改變和增加(包括行、列和時間戳)。 支持單行的ACID事務處理 分布式系統 高性能,支持高速并發(fā)寫入和高并發(fā)查詢; 可擴展,數據自動切分和分布,可動態(tài)擴容,無需停機; 高可用性,建立在HDFS分布式文件系統之上。 2.4 Hive數據倉庫Hive是一個建立在hadoop之上的數據倉庫,用于查詢和分析結構化海量數據 采用HDFS進行數據存儲 采用

5、Map/Reduce進行數據操作 基本特點: 提供類似于SQL的查詢語言 高擴展性(scale-out),動態(tài)擴容無須停機 針對海量數據的高性能查詢和分析系統 提供靈活的擴展性 復雜數據類型,擴展函數和腳本等 三 浪潮云海大數據一體機解決方案優(yōu)勢3.1 高性能l 專用的大數據存儲服務器:針對大數據的應用特點,浪潮憑借在服務器及存儲方面的領先優(yōu)勢,自主開發(fā)了大數據存儲服務器,具備高密度、大容量存儲特性。l 胖節(jié)點加速方案:胖節(jié)點擁有英特爾至強平臺的最強性能、最大內存、最高RAS特性保障。l 閃存加速技術:將閃存盤放在整個計算緩存里面做高速緩存,針對不同應用類型,實現全局的算法,降低冗余率,使整個

6、平臺的計算節(jié)點、存儲節(jié)點大大提高運行效率。l 高速通信網絡:通信網絡選用性能領先的萬兆網絡或者IB網絡,實現一體機內部的高速互聯,消除網絡瓶頸。l 軟件性能優(yōu)化ü IO瓶頸易于解決 ü 可以發(fā)揮大規(guī)模并行運算優(yōu)勢 ü 支持大規(guī)模并行裝載,裝載前無需數據格式化,節(jié)點越多裝載速度越快 ü 優(yōu)化系統任務調度策略,對任務實現實時監(jiān)控,ü 動態(tài)調整任務執(zhí)行資源,減少慢任務數量,提高整體性能 3.2 高可靠性l 服務器本身冗余特性:節(jié)點的硬盤、風扇、電源等關鍵部件都是冗余設計,保障了節(jié)點本身的可靠性。l 鏈路冗余:網絡可實現物理冗余設計,避免單點故障對系統

7、的影響。l 采用Reed-Solomon算法,優(yōu)化分布式散列數據布局,滿足文件高并發(fā)和高帶寬雙重需求同時平衡數據冗余度。采用兩副本加編碼的方式相對三副本最大可實現30%空間節(jié)省 。l 智能失敗任務識別:自動將任務轉移到備份數據節(jié)點執(zhí)行,單個節(jié)點的故障不影響整個任務的執(zhí)行,有效應對計算單元失效。3.3 高性價比l Hadoop的誕生本身就是為了在低成本的通用硬件集群上運行分布式計算框架。l 浪潮云海大數據一體機具備優(yōu)異的線性可擴展,滿足了未來業(yè)務量增長的需求,有效保護了現有投資,降低總體CTO。3.4 易管理l 本地管理平臺:每套大數據一體機中都配有本地管理平臺,使系統管理人員方便集中控管一體機

8、。l 遠程集中管理平臺:HDFS配置界面HBase配置界面監(jiān)控管理界面3.5 專業(yè)化服務l 實施服務:云海大數據一體機會在出廠前進行產品預裝及嚴格的可靠性測試,保障產品的品質。產品實施實現客戶現場的一體化交付,真正做到插電即用,極大地降低了客戶利用大數據的門檻。l 售后服務:浪潮建立了以山東濟南客戶服務總部為中心、其他各省、直轄市設立服務分中心的覆蓋全國的完備售后體系,所有客服工程師都是原廠經驗豐富的服務工程師。浪潮已經連續(xù)九年獲得售后服務滿意度金獎。四 競爭性分析4.1 跟傳統關系型數據庫對比分析機型浪潮云海大數據一體機Oracle Exadata一體機類型新型的Hadoop解決方案傳統關系

9、型數據庫(RDBMS)適用場景 數據規(guī)模10TBEB規(guī)模 結構化,半結構化,非結構化混合存儲和處理 海量數據的ETL和數據挖掘分析應用 海量數據的高并發(fā)隨機訪問 數據規(guī)模TB以下 結構化數據的存儲和處理 聯機交易應用 GB級別的數據分析和ETL架構 無共享MPP架構 單一實例 Share-all架構可用性 默認三份數據冗余,用戶可依據需求進行調整 備用元數據節(jié)點,故障后自動切換 數據損失后,可以在剩余機器上自愈 故障節(jié)點作業(yè)可以轉移到其它節(jié)點 無需第三方支持,HBase提供基于日志的容災解決方案 大部分產品依賴RAID技術進行數據冗余 大部分產品不具備數據自愈能力,需要數據備份 節(jié)點故障后,S

10、QL任務中斷,不能自動轉移 部分主流商業(yè)數據庫,無需第三方支持提供基于日志的容災解決方案性能 IO瓶頸易于解決 可以發(fā)揮大規(guī)模并行運算優(yōu)勢 支持大規(guī)模并行裝載,節(jié)點越多裝載速度越快 IO瓶頸難以解決 難以發(fā)揮大規(guī)模并行運算優(yōu)勢 裝載性能有限,數據需要格式化可擴展性 存儲能力,性能,并發(fā)訪問,既可縱向擴展硬件得到提升,也可橫向增加節(jié)點進行線性擴展 國內外均有大量數百,上千節(jié)點的部署案例 海量數據環(huán)境中,可聯機改變數據結構 存儲能力,性能,并發(fā)訪問能力主要通過硬件縱向擴展提升,難以進行線性擴展 Share-all集群架構規(guī)模難以突破40節(jié)點 海量數據環(huán)境下,改變數據結構代價大,且影響業(yè)務訪問接口

11、標準文件訪問接口(FTP,NFS等) 部分兼容SQL92(ODBC/JDBC) Native JAVA訪問接口 Rest訪問接口 Thrift訪問接口 完整的SQL訪問接口(ODBC/JDBC,專有客戶端等) 豐富的開發(fā),集成,管理工具其它 低廉的軟硬件成本,完全開放架構 無字符集選擇問題 支持基本權限管理和透明數據加密解密 以開源文檔為基礎,提供新增特性接口和使用說明 高昂的軟硬件成本 需要事先確定字符集 部分產品支持完善權限管理和透明數據加密解密 完整的文檔4.2 跟開源Hadoop對比分析浪潮云海大數據一體機直接使用開源Hadoop新型的Hadoop解決方案開源Hadoop 一體化交付方

12、案型產品,經過系統優(yōu)化,實現了軟件、硬件的最優(yōu)性能 全面測試的企業(yè)級發(fā)行版,保證長期穩(wěn)定運行,集成最新開源的和自行開發(fā)的補丁,用戶可以及時修正漏洞保證各個部件之間的一致性,使應用順滑運行 無相關經驗,單純地進行硬件和軟件環(huán)境的搭建 針對HDFS數據節(jié)點的讀寫選取提供高級均衡算法,提高系統擴展性,適合不同配置服務器組成的集群 簡單均衡算法,容易在慢速服務器或熱點服務器上產生讀寫瓶頸,最慢服務器成為系統性能瓶頸 根據讀請求并發(fā)程度動態(tài)增加熱點數據的復制倍數,提高Map/Reduce任務擴展性 無法自動擴充倍數功能,在集中讀取時擴展性不強,存在性能瓶頸 為HDFS的NameNode提供雙機熱備方案,

13、提高可靠性 主NameNode節(jié)點失效時,自動切換到備用NameNode NameNode是系統的單點破損點,一旦失效系統將無法讀寫 實現跨區(qū)域數據中心的HBase超級大表,用戶應用可實現位置透明的數據讀寫訪問和全局匯總統計 允許跨多個物理數據中心建立分布式大表,突破單一數據中心由于空間和供電限制無法建立超大集群的限制 無此功能,無法進行跨數據中心部署 可將HBase表復制到異地集群,并提供單向、雙向復制功能,實現異地容災 沒有成熟的復制方案 在HBase中,根據數據局部性、服務器Region數、表的Region數來實現負載均衡,適合多用戶共享集群創(chuàng)建多張大表的應用 只根據Region數量進行

14、負載均衡,容易產生系統不均衡 基于HBase的分布式聚合函數,比傳統方式提高10倍以上效率 無成熟方案 提供獨有的基于瀏覽器的集群安裝和管理界面,解決開源版本管理困難的問題,提供網頁、郵件方式的系統異常報警 無圖形化管理界面 完善的售后服務體系 無售后服務五 成功案例5.1 某城市智能交通系統項目背景l(fā) 年過車信息數據量達數百億級記錄規(guī)模l 市局和區(qū)縣的數據中心兩級架構,分布式存儲,集中管理。 l 支持多條件組合快速查詢:卡口名稱、車道名稱、車輛類型、車牌類型、車牌號碼、車身顏色、車牌顏色、車速范圍、車長范圍、號牌段范圍、時間范圍。 l 支持海量過車信息的模糊匹配檢索。l 支持各種統計分析、數

15、據挖掘:車輛違章率統計、過車識別率統計、套牌分析、關聯性分析、黑名單等系統需求l 數據量(過車記錄+違章圖片+數據冗余+異地容災): 6PBl 數據采集終端: 12000個,寫入性能 >24000記錄/秒l 用戶數: >1000過車記錄單個區(qū)數據中心全市數據總和每秒鐘 6MB/s1200 條記錄/s120MB/s24000條記錄/秒每小時20GB/hour432萬條/小時400GB/hour8640萬條/小時每天480GB/day1億條/天9.6TB/day20億條/天每月14.4TB/month30億條/月288TB/month600億條/月三個月43.2TB/3months90

16、億條/三個月0.8PB/3months1800億條/三個月違章車輛圖片數據單個區(qū)數據中心全市數據總和每小時 1.8GB/h36GB/h每天43.2GB/day864GB/day每月1.2TB/month24TB/month三個月3.6TB/3months72TB/3months難點分析傳統數據庫方案潛在問題:l 初始投入和后期維護,擴展成本巨大 l 人為分庫,靈活性差。l 混合數據類型支持 l 規(guī)模僅能支持單個區(qū)域中心l 應用可靠性差,難以保證業(yè)務連續(xù)性l 代碼復雜l 系統可維護性浪潮云海大數據一體機解決方案拓撲圖智能交通應用技術方案規(guī)模、指標、特點l 該方案使用SDA-1、SDA-2,共計5

17、80節(jié)點l 集群性能:寫入條記錄/秒,20000主鍵查詢/秒l 系統特點:ü 解決了海量過車信息(結構文本+圖片)存儲問題ü 解決了分布式數據查詢問題,應用系統可以接入任何一個本地數據中心,并訪問全庫數據ü 系統提供了易于使用的API,方便進行二次開發(fā)ü 系統做了較多優(yōu)化,性能很好的滿足了項目的實時性要求ü 系統穩(wěn)定性強,建立在X86服務器平臺,自動進行數據遷移和數據恢復5.2 某省級運營商清帳單查詢系統原有方案:小型機+存儲+Oraclel 成本高、擴展性差ü 服務器采用P595的兩個分區(qū)(48CPU),部署不同的地市,互為主備;存

18、儲使用2臺DS8300,RAID5方式,有效容量54TBü 數據量大,增長迅速,但數據庫的擴容工程施工風險高l 數據風險高ü 災難恢復依賴磁帶,業(yè)務中斷時間長l 效率低ü 關系數據庫處理困難,查詢慢(超過15秒)ü 關系數據庫入庫慢,常有清單文件積壓,不能實時入庫,從而不能實時查詢新清賬單中心方案l 底層為浪潮提供的大數據解決方案平臺,上層由應用開發(fā)商開發(fā)業(yè)務程序,對入庫和查詢進行業(yè)務處理。l 這種架構有效的屏蔽了底層的功能,對上層來說,只需要調研相關接口即可。數據的分發(fā)、復制、任務調度、容錯都是由系統軟件來控制。大規(guī)模的PC具備強大的處理能力和網絡帶寬,同時具備線性的橫向擴展能力。3份冗余的數據保證對硬件的容錯和讀處理的支持。l 存儲使用69臺PC機身硬盤作分布式存儲DataNode,每臺PC配置6TB磁盤容量,按每份數據

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論