大數(shù)據(jù)中心方案架構(gòu)建設(shè)方案_第1頁
大數(shù)據(jù)中心方案架構(gòu)建設(shè)方案_第2頁
大數(shù)據(jù)中心方案架構(gòu)建設(shè)方案_第3頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、大數(shù)據(jù)中心方案架構(gòu) 建設(shè)方案3.1數(shù)據(jù)中心架構(gòu)設(shè)計云計算數(shù)據(jù)中心通過運行在單獨的服務(wù)器上的云操作 系統(tǒng)對服務(wù)器、存儲、網(wǎng)絡(luò)等資源進行虛擬化管理,提供可 以自定義的虛擬機,在虛擬機上安裝Hadoop 、hbase 等Nosql分布式數(shù)據(jù)庫集群,對現(xiàn)有的數(shù)據(jù)ETL采集、清洗、轉(zhuǎn)換、匯總進來,使用海量數(shù)據(jù)分布存儲技術(shù),用spark、storm 等大數(shù)據(jù)處理軟件對 hbase中的數(shù)據(jù)進行分析處理, 挖掘數(shù)據(jù)價值。還可以在虛擬機上運行業(yè)務(wù)應(yīng)用系統(tǒng),提供 負載均衡和冗余備份,達到系統(tǒng)的穩(wěn)定、高可用和方便的擴 展性。通過安裝SSR等安全軟件和安全服務(wù)器,可以保證提升 操作系統(tǒng)的安全級別,從而達到國家等級保護

2、的三級要求, 為客戶構(gòu)建真正的安全長城。云計算數(shù)據(jù)中心可以自動管理和動態(tài)分配、部署、配置、 重新配置以及回收資源,也可以自動安裝軟件和應(yīng)用,具有 良好的彈性和靈活性,管理、使用方便。云中心可以向用戶 提供虛擬基礎(chǔ)架構(gòu)。用戶可以自己定義虛擬基礎(chǔ)架構(gòu)的構(gòu) 成,如服務(wù)器配置、數(shù)量,存儲類型和大小等等。用戶通過 自服務(wù)界面提交請求,每個請求的生命周期由平臺維護。服務(wù)器虛擬化系統(tǒng)基于服務(wù)器,存儲和網(wǎng)絡(luò)設(shè)備構(gòu)建資 源池,在資源池上通過資源的管理、調(diào)度和鏡像管理實現(xiàn)系 統(tǒng)的各種高級功能,例如計算層面的系統(tǒng)負載均衡和虛擬機 高可用,存儲層面的鏡像復(fù)制和冗余。系統(tǒng)支持以主機或者 虛擬群集為單位管理資源,虛擬群集

3、為一組共享存儲資源的 物理主機。云中心既是一個企業(yè)云,也可以對外提供服務(wù),擴展成公有云。學(xué)校還可以使用別的公有云如阿里云,形成混合云物理 基礎(chǔ)架構(gòu)云業(yè)券' 婦停請?zhí)摂M化董諄池云中心包括 iaas、paas、saas 三層服務(wù):1) . SaaS :提供給客戶的服務(wù)是運營商運行在云計算基 礎(chǔ)設(shè)施上的應(yīng)用程序,用戶可以在各種設(shè)備上通過客戶端界 面訪問,如瀏覽器。消費者不需要管理或控制任何云計算基 礎(chǔ)設(shè)施,包括網(wǎng)絡(luò)、服務(wù)器、操作系統(tǒng)、存儲等等;2) . PaaS :提供給消費者的服務(wù)是把客戶采用提供的開發(fā)語言和工具(例如 Java , python, .Net 等)開發(fā)的或收 購的應(yīng)用程序部

4、署到供應(yīng)商的云計算基礎(chǔ)設(shè)施上去??蛻舨?需要管理或控制底層的云基礎(chǔ)設(shè)施,包括網(wǎng)絡(luò)、服務(wù)器、操 作系統(tǒng)、存儲等,但客戶能控制部署的應(yīng)用程序,也可能控 制運行應(yīng)用程序的托管環(huán)境配置;可以使用docker容器完成應(yīng)用系統(tǒng)的部署和管理。3). IaaS :提供給消費者的服務(wù)是對所有計算基礎(chǔ)設(shè)施 的利用,包括處理 CPU、內(nèi)存、存儲、網(wǎng)絡(luò)和其它基本的計 算資源,用戶能夠部署和運行任意軟件,包括操作系統(tǒng)和應(yīng) 用程序。消費者不管理或控制任何云計算基礎(chǔ)設(shè)施,但能控 制操作系統(tǒng)的選擇、存儲空間、部署的應(yīng)用,也有可能獲得 有限制的網(wǎng)絡(luò)組件(例如路由器、,防火墻,、負載均衡器 等)的控制。云中心采用 xen、kvm

5、、VMware 進行虛擬化,LXC 提供Linux容器,支持docker應(yīng)用容器。km BHBBIBilBl ess一.服務(wù)器采用浪潮整機柜服務(wù)器SmartRack ,面向海量數(shù)據(jù)的存儲和處理,適合云資源池如虛擬化、分布式存儲, 大數(shù)據(jù)處理如 Hadoop 集群等應(yīng)用,目前在國內(nèi)服務(wù)器中 占主導(dǎo)地位,特點如下:定位多種應(yīng)用,支持各類服務(wù)器節(jié)點。針對不同業(yè)務(wù)對存儲、計算、10吞吐量、功耗的不同要 求,設(shè)計開發(fā)出不同種類的服務(wù)器節(jié)點,包括:1U全寬雙路12盤位綜合型節(jié)點、1U全寬單路18盤位冷存儲節(jié)點、 1U半寬雙路計算型節(jié)點,滿足不同需求。整機柜集中供電、集中散熱,相比其他架構(gòu)服務(wù)器,運行功耗降

6、低10%以上。整機柜由一組電源模塊集中供電,最大輸出功率高達22.5kw,直接支持交流或高壓直流供電,各節(jié)點通過銅排從電源模塊取電,結(jié)合電源負載動態(tài)調(diào)整技術(shù),電源轉(zhuǎn)換效 率高達94%以上。機柜背部風(fēng)扇墻集中散熱,根據(jù)節(jié)點數(shù)量靈活調(diào)節(jié)風(fēng)扇墻高度,采用140mm 大尺寸風(fēng)扇,相同功耗下可提供更大 散熱量。領(lǐng)先的架構(gòu)設(shè)計,保障系統(tǒng)高可靠運行。服務(wù)器節(jié)點中無獨立的電源和風(fēng)扇,有效降低單點故障。根據(jù)整機柜實際負載情況,電源可實現(xiàn)N+N/N+2/N+1多種冗余方式。風(fēng)扇可根據(jù)溫度狀況自動調(diào)節(jié)轉(zhuǎn)速,支持2+1冗余。對整機柜節(jié)點、電源、風(fēng)扇進行集中監(jiān)控管理。實現(xiàn)管理中心 RMC 對整個機柜各模塊的統(tǒng)一監(jiān)控和管

7、 理,節(jié)點、電源、風(fēng)扇的健康狀況、溫度、配置信息一目了 然,還可進行批量開關(guān)機、重啟,功耗控制,風(fēng)扇轉(zhuǎn)速自動 /手動調(diào)節(jié)等功能,搭配專為 Smart Rack設(shè)計的可視化管 理軟件,輕松實現(xiàn)簡易化智能管理。簡易維護,無需繁瑣拆裝。獨有節(jié)點前維護設(shè)計、各模組免工具熱插拔設(shè)計、優(yōu)化 的線纜走線設(shè)計,使得系統(tǒng)運維難度大大降低。風(fēng)扇等易損 部件全部裸露在外,更加方便更換維護。二.云操作系統(tǒng)建議采用浪潮云海云數(shù)據(jù)中心操作系統(tǒng)V3.0,此系統(tǒng)秉承開放化、模塊化、標準化的設(shè)計理念,基于虛擬化技術(shù),實現(xiàn)了數(shù)據(jù)中心資源融合、資源管理及服務(wù)交付,簡化了云 數(shù)據(jù)中心運維,提高了云數(shù)據(jù)中心服務(wù)水平。云海云數(shù)據(jù)中心操作

8、系統(tǒng)有以下特點:自主可控、安全可靠的云數(shù)據(jù)中心操作系統(tǒng):浪潮自主研發(fā)的國產(chǎn)云數(shù)據(jù)中心操作系統(tǒng),力口強了 WEB安全、虛擬化安全、數(shù)據(jù)安全、訪問控制、安全審計等方面 的安全控制,可幫助用戶構(gòu)建安全可控的云數(shù)據(jù)中心。異構(gòu)資源管理:云海OS支持對數(shù)據(jù)中心各類異構(gòu)硬件設(shè)備及軟件資源的統(tǒng)一管理;支持對 VMWare vSphere、InspuriVirtual等異構(gòu)虛擬化資源池的集中管理,已部署的虛擬化 環(huán)境可被云海OS無縫接管;精細的軟硬件資源監(jiān)控:云海OS支持對數(shù)據(jù)中心主流廠商的服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲設(shè)備等物理資源,操作系統(tǒng)、數(shù)據(jù)庫、WEB應(yīng)用等軟件資源,VMWare vSphere 、Inspur

9、 iVirtual 等虛擬 化環(huán)境的精細監(jiān)控,提供界面、郵件、短信等多種告警方式, 通過詳盡清晰的報表分析數(shù)據(jù),幫助數(shù)據(jù)中心的運維人員隨 時掌握數(shù)據(jù)中心的各類資源的運行狀況,降低運維管理復(fù)雜 度,提高運維效率??焖俚姆?wù)交付:云海OS支持通過虛擬機模板、應(yīng)用服務(wù)模板的方式, 實現(xiàn)業(yè)務(wù)的快速交付,業(yè)務(wù)上線時間由原來的幾周、幾天, 縮短為幾分鐘,大大提高數(shù)據(jù)中心的服務(wù)水平。資源使用按量計費:實時的資源使用情況統(tǒng)計,讓用戶精確掌控自身資源 和費用使用情況,幫助 IT部門實現(xiàn)由成本中心向價值中心 的角色轉(zhuǎn)變。資源按需服務(wù):云海OS可實現(xiàn)將基礎(chǔ)架構(gòu)作為服務(wù)交付,用戶可通過 自助服務(wù)門戶在線申請及訪問自己

10、的虛擬數(shù)據(jù)中心、應(yīng)用服 務(wù)、虛擬機等資源,實現(xiàn)資源的按需申請、便捷獲取、自助 使用??啥ㄖ频臉I(yè)務(wù)流程:云海OS支持用戶創(chuàng)建與原工作流程吻合的資源申請 的審批流程,實現(xiàn)業(yè)務(wù)流程的個性化、可定制化。靈活的服務(wù)交付方式:云海OS既支持從下到上的資源申請與審批,也支持從上到下的資源創(chuàng)建與分配的服務(wù)交付方式,可滿足不同客戶 對資源獲取方式的不同需要。多租戶私有云:云海OS可創(chuàng)建多個組織,一個組織可代表某業(yè)務(wù)部 門、分部或子公司。每個組織都有各自獨立的虛擬數(shù)據(jù)中心、 用戶及獨有的目錄,可將組織資源分配給本組織的用戶,每 個組織如同擁有自己的數(shù)據(jù)中心。利用基于權(quán)限的用戶控制 機制和基于虛擬交換機的網(wǎng)絡(luò)隔離技

11、術(shù),實現(xiàn)多租戶環(huán)境下 的安全性和可靠性,以此構(gòu)建安全的多租戶私有云。靈活可控的權(quán)限管理:云海OS支持用戶自定義角色類型, 不同的權(quán)限可自由 組合,實現(xiàn)靈活可控的系統(tǒng)權(quán)限管理。服務(wù)全生命周期管理:云海OS涵蓋服務(wù)提供所需的各個環(huán)節(jié),包括服務(wù)的申請審批;服務(wù)的交付和回收;服務(wù)的使用統(tǒng)計和計費;服務(wù) 的運行監(jiān)控服務(wù)移動性:通過vApp圭寸裝多個虛擬機服務(wù)和相關(guān)的網(wǎng)絡(luò)連接策 略,遵循 OVF等開放式標準,實現(xiàn)同一個云環(huán)境的終端用 戶彼此之間可以輕松共享服務(wù),而不同的云環(huán)境的用戶可以 輕松的在云之間遷移服務(wù)。3.2大數(shù)據(jù)處理設(shè)計通過在虛擬機上安裝 Hadoop2.6 、base1.0 等Nosql 數(shù)據(jù)

12、庫集群,用sqoop1.3 把現(xiàn)有的數(shù)據(jù)匯總進來,要對現(xiàn) 有數(shù)據(jù)做個總的分析,對字段統(tǒng)一定義規(guī)劃,制定轉(zhuǎn)換策略, 做到正確性、唯一性、可用性,去除重復(fù)字段,通過ETL抽取、清洗數(shù)據(jù),把數(shù)據(jù)導(dǎo)入hbase,這樣就可以消除信息孤島,用spark、storm 等大數(shù)據(jù)處理軟件對hbase中的數(shù)據(jù)進行分析處理,挖掘數(shù)據(jù)價值。云中心通過調(diào)度系統(tǒng)自動采集、加工、存儲數(shù)據(jù),為應(yīng)用系統(tǒng)提供支持:應(yīng)用模式nr3UUnix/Unux/Windows大數(shù)據(jù)包'K® iff /C/S 應(yīng)用管理應(yīng)用/見戶 U >科AC笈丄蠶I(窗皿)一Gan»gEiaSqoop基礎(chǔ) 環(huán)境在云中心的平臺

13、上,開發(fā)招生、創(chuàng)業(yè)、就業(yè)、數(shù)據(jù)實驗室等應(yīng)用系統(tǒng),通過元數(shù)據(jù)庫管理所有的數(shù)據(jù)數(shù)據(jù)經(jīng)過采 集、加工后進入hbase,消除信息孤島,統(tǒng)一管理使用:66個人卿sts都螢ist書業(yè)詛也辛磚件:Z'工作:孫步住|«rt手甫T _- 7=-二二Td二:=-I' r.RJk Slll*TBiE.F=»石-;i. ZT一 .hadoop2 架構(gòu)體系下圖是hadoop2的架構(gòu)圖05er pBjgsAmbarLAw 口 cassandEOONe池 ookeepBr1etc-HBaseNorne亠 at-onaj DatE&ase05曾YARN FrameworksPIGS

14、criptHCatalogMetadata ServicesMapReduceDistributed ProcessingYARNHiveQueryesource Sched訕門g and NeyotiaboilHDFSDistributed Storage1. HDFS文件系統(tǒng),Hadoop 實現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distributed File System),簡稱 HDFS。HDFS有高容錯性的特點,并且設(shè)計用來部署在低廉的(low-cost )硬件上;而且它提供高吞吐量(high throughput)來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data

15、 set )的應(yīng)用程序。HDFS放寬了( relax) POSIX的要求,可以以流的形式訪問 (streaming access ) 文件系統(tǒng)中的數(shù)據(jù)。2、 YARN是一套資源統(tǒng)一管理和調(diào)度平臺,可管理各種 計算框架,包括 MapReduce ,Spark,MPI等。包括 以 下內(nèi)容:ResourceManager ( RM ):整個系統(tǒng)只有一個 RM,它就只管調(diào)度方面的事情,并且為集群應(yīng)用而優(yōu)化,因而具有很好的性能。RM的一個核心是它的 Scheduler 。調(diào)度包含兩個過程,一要搜集各節(jié)點的情況;二要根據(jù)某種 調(diào)度策略,分配合適的節(jié)點。搜集節(jié)點情況是基于一個資源 容器(resource c

16、ontainer) 的概念,該容器包括 cpu,disk,network 等(目前只用至U cpu)NodeManager (NM ) : NM 是每個節(jié)點一個實例, 管理每個節(jié)點,它觸發(fā)應(yīng)用容器(application container ), 監(jiān)控節(jié)點的資源(cpu/disk 等),并向RM報告資源的情 況。ApplicationMaster (AM ) : AM 是每個應(yīng)用一個實 例,它是一個特定的框架接口庫,一方面與RM 中的Scheduler協(xié)商得至I resource container ,另一方面與NM 一起執(zhí)行和監(jiān)控各子任務(wù)部件,從系統(tǒng)的角度,AM本身也一種container

17、(下圖中將它與 container 畫得一樣)。Container :從邏輯上,container 可認為是資源的分配 容器,它包括hostname , cpu , memory 等屬性。AM 發(fā) 送 ResourceRequest 給 RM,然后 RM 分配合適的 Container 給AM , AM再將此Container 提交給它所在 節(jié)點的NM , NM 采用此資源容器運行任務(wù)。實際上, Container是一種使用資源的“授權(quán)”,AM得到此授權(quán)后, 在NM的管理下,可以運行任何進程(包括非Java應(yīng)用,這一點與1.0不同)。二、Hive是基于Hadoop 的一個數(shù)據(jù)倉庫工具,處理 能

18、力強而且成本低廉主要特點:存儲方式是將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表。 提供類SQL語言,實現(xiàn)完整的SQL查詢功能??梢詫?SQL 語句轉(zhuǎn)換為 MapReduce任務(wù)運行,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。三、HBaseHBase是一個分布式的、面向列的開源數(shù)據(jù)庫,它不同 于一般的關(guān)系數(shù)據(jù)庫,是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù) 據(jù)庫。另一個不同的是 HBase基于列的而 不是基于行的模 式。HBase使用和BigTable 非常相同的數(shù)據(jù)模型。用戶 存儲數(shù)據(jù)行在一個表里。一個數(shù)據(jù)行擁有一個可選擇的鍵和 任意數(shù)量的列,一個或多個列組成一個ColumnFamily ,一個Fmaily下的列位于一個 H

19、File中,易于緩存數(shù)據(jù)。表 是疏松的存儲的,因此用戶可以給行定義各種不同的列。在 HBase中數(shù)據(jù)按主鍵排序,同時表按主鍵劃分為多個 HRegion ,如下圖所示(HBase數(shù)據(jù)表結(jié)構(gòu)圖):Column familyrowkeycontents:anchorIan guaoe:+ 4 pmkmirhiff 卄(i2imt血:ws i卯.fW " H ' I e 11 tit A I > <P 1 i* bgacfior-so. co. t r itso. ffifff HRow KevCoiumnFjmilysi CQiunnnFaml#rtL / *sorte

20、dk9yttn kcytaiZlP如“;何 MJF*ey2-v&tL t2 key8Wt f2 ktyS vati. M ket 8 vafZ NColumnFamllyzCoIumnKey. Columnvalue(Timestamp)四. Sqoop 是一款開源的工具,主要用于在 HADOOP(Hive)與傳統(tǒng)的數(shù)據(jù)庫(mysql、oracle)間進行數(shù)據(jù)的傳遞,可以將一個關(guān)系型數(shù)據(jù)庫(例如: MySQL ,Oracle ,Postgres 等)中的數(shù)據(jù)導(dǎo)進到 Hadoop 的HDFS中,也可以將 HDFS的數(shù)據(jù)導(dǎo)進到關(guān)系型數(shù)據(jù)庫 中。五. spark架構(gòu)體系StreamingSp

21、arkrSparkMap Reduce 1RDDFPWe sosYARNShark(Hive on Spark)Bagel(Pregel on Spark)本地運行樓式I運行摸式HDFS Amazon S3j Hypertable HBasej etcJ.匕Spark與Hadoop 的對比 Spark的中間數(shù)據(jù)放到內(nèi)存中,對于迭代運算效率更高。Spark更適合于迭代運算比較多的ML和DM運算,因為在Spark里面,有 RDD的抽象概念。 Spark 比 Hadoop 更通用。Spark提供的數(shù)據(jù)集操作類型有很多種,不像Hadoop 只提供了 Map 和Reduce 兩種操作。比如 map,fi

22、lter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy 等 多種操作類型,Spark把這些操作稱為Transformations 。 同時還提供 Count, collect, reduce, lookup, save等多種actions 操作。Spark 的mllib 支持機器學(xué)習(xí)。這些多種多樣的數(shù)據(jù)集操作類型,給給開發(fā)上層應(yīng) 用的用戶提供了方便。各個處理節(jié)點之間的通信模型不再像 Hadoop 那樣就是唯一的 Data Shuffle一種模式。用戶可以命名,

23、物化,控制中間結(jié)果的存儲、分區(qū)等??梢哉f編程 模型比Hadoop 更靈活。不過由于RDD的特性,Spark不適用那種異步細粒 度更新狀態(tài)的應(yīng)用,例如web服務(wù)的存儲或者是增量的web爬蟲和索引。就是對于那種增量修改的應(yīng)用模型不適 合。容錯性。在分布式數(shù)據(jù)集計算時通過checkpoint來實現(xiàn)容錯,而 checkpoint有兩種方式,一個是 checkpoint data ,一個是logging the updates 。用戶可以控制采用哪種方式 來實現(xiàn)容錯??捎眯?。Spark 通過提供豐富的 Scala, Java , Python API及交互式Shell來提高可用性。Spark與Hadoop 的結(jié)合 Spark可以直接對HDFS進行數(shù)據(jù)的讀寫,同樣 支持 Spark on YARN 。 Spark 可以與 MapReduce 運行 于同集群中,共享存儲資源與計算,數(shù)據(jù)倉庫Shark實現(xiàn)上 借用Hive,幾乎與Hive完全兼容。Spark的適用場景 Spark是基于內(nèi)存的迭代計算框架,適用于需要 多次操作特定數(shù)據(jù)集的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論