云數(shù)據(jù)采集中心及大數(shù)據(jù)計算平臺建設方案_第1頁
云數(shù)據(jù)采集中心及大數(shù)據(jù)計算平臺建設方案_第2頁
云數(shù)據(jù)采集中心及大數(shù)據(jù)計算平臺建設方案_第3頁
云數(shù)據(jù)采集中心及大數(shù)據(jù)計算平臺建設方案_第4頁
云數(shù)據(jù)采集中心及大數(shù)據(jù)計算平臺建設方案_第5頁
已閱讀5頁,還剩122頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

cc云數(shù)據(jù)采集中心及大數(shù)據(jù)計算平臺

建設方案

成都中藍信息技術有限責任企業(yè)

目錄

1引言......................................................................5

1.1項目背景..............................................................5

1.2項目目口勺..............................................................5

1.3建設原則..............................................................6

1.4參照規(guī)范..............................................................7

1.5名詞解釋..............................................................9

2云數(shù)據(jù)采集中心..........................................................10

2.1需求概述............................................................10

2.2總體設計............................................................13

2.3關鍵技術及功能.......................................................18

分布式文獻存儲技術...................................................18

分布式并行計算技術...................................................27

分布式數(shù)據(jù)庫技術.....................................................31

負載均衡..............................................................34

數(shù)據(jù)采集..............................................................39

開放平臺.............................................................45

2.4布署方案.............................................................48

2.5實行計劃.............................................................50

3大數(shù)據(jù)計算平臺..........................................................52

3.1需求概述.............................................................52

3.2總體設計.............................................................52

3.3應用建設.............................................................57

收視率記錄............................................................57

智能推薦..............................................................60

拍立購................................................................63

3.4布署方案.............................................................69

3.5實行計劃.............................................................72

4性能及成本分析..........................................................73

4.1運行商網(wǎng)絡性能分析...................................................73

4.2服務器網(wǎng)卡性能分析..................................................73

4.2服務器內存性能分析..................................................73

4.3服務器硬盤性能分析..................................................74

4.4服務器RAID模式分析.................................................74

4.5D2B性能分析.........................................................75

4.4DMQ平臺性能分析...................................................75

5存儲空間規(guī)劃表..........................................................76

6機房選型.................................................................77

7安全設計.................................................................78

8風險分析.................................................................81

1引言

1.1項目背景

根據(jù)CC智能戰(zhàn)略口勺規(guī)劃:做強終端、云平臺建設、大數(shù)據(jù)商業(yè)模式,CC正邁

向大數(shù)據(jù)時代,目前正面向所有智能終端提供優(yōu)質日勺服務,同步通過終端傳感器或

數(shù)據(jù)采集服務可以獲取海量口勺數(shù)據(jù),并且數(shù)據(jù)量會以TB級劇增。因此CC迫切需

要建設一套高性能、高安全性、高可靠性,可擴展性的云數(shù)據(jù)采集中心,并搭建

一種數(shù)據(jù)中心支撐平臺,以滿足當今高速增長的數(shù)據(jù)存儲、管理、計算日勺需求,同

步便于未來拓展和深入口勺改造。

目前CC數(shù)據(jù)中心是重要基于CC黑電、白電、瀏覽器等產(chǎn)品終端傳感器采

集日勺海量文本、圖片數(shù)據(jù)以及顧客數(shù)據(jù),為CC后續(xù)其他數(shù)據(jù)分析挖掘項目提供

數(shù)據(jù)支撐日勺信息平臺。對應方針——終端內容服務、云服務支撐與數(shù)據(jù)挖掘、個

性化數(shù)據(jù)價值探索。

建立統(tǒng)一有效日勺云數(shù)據(jù)采集中心有助于CC大數(shù)據(jù)的管理,符合CC新的發(fā)展

戰(zhàn)略,CC黑電和白電產(chǎn)品終端傳感器采集日勺數(shù)據(jù)有顧客行為的文本數(shù)據(jù)(log)、臺標

等圖片數(shù)據(jù)以及自建的影視知識庫日勺構造化數(shù)據(jù)、電商平臺日勺海量鏡像數(shù)據(jù)。當

CC日勺顧客量和采集的數(shù)據(jù)量與日俱增日勺時候,數(shù)據(jù)中心必須能通過添加更多服務

節(jié)點來擴展性能和負載能力,保證高可擴展性和高可用性從而滿足CC業(yè)務發(fā)展的

W且

而支。

1.2項目目日勺

?搭建分布式存儲平臺(可以存儲海量非構造化數(shù)據(jù)和構造化數(shù)據(jù))、分

布式并行計算平臺等等,滿足海量數(shù)據(jù)的采集、存儲、計算的需要,平

臺必須具有高可用性,高擴展性,高可拿性規(guī)定。

?為CC背面日勺產(chǎn)品(收視率記錄,智能推薦系統(tǒng),拍立購,開放平臺等等)

日勺應用和實行打下堅實的基礎,為集團CC的大數(shù)據(jù)提供運行支撐。

?云中心初期建立至少保證可以正常運行1?2年,硬件選型,軟件開始要

考慮到此后大規(guī)模擴容口勺規(guī)定。

?技術平臺要有能力支持數(shù)據(jù)量最高WOOW終端數(shù)量的數(shù)據(jù)存儲、數(shù)據(jù)計

算、信息推薦等的能力。

1.3建設原則

基于本項目的建設規(guī)定,本項目將遵照如下建設原則:

?前瞻性和高原則整個項目要按照企業(yè)對大數(shù)據(jù)應用的需要日勺高規(guī)定和高

原則建設,參照行業(yè)標桿應用,建立滿足需求,面向未來日勺目日勺,整個

項目具有一定前瞻性。

?經(jīng)濟性和實用性整個項目以既有需求為基礎,充足考慮未來發(fā)展口勺需要來

確定系統(tǒng)日勺架構,既要減少系統(tǒng)口勺初期投入,又能滿足服務對象日勺需求,

同步系統(tǒng)設計應充足考慮對已經(jīng)有投資日勺保護,對已建立日勺數(shù)據(jù)中心、

基礎平臺、應用軟件應提供完備的整合方案。

?先進性和成熟性為了保證項目具有較長的生命周期,應充足考慮到管

理創(chuàng)新、技術發(fā)展需要,按照先進的建設理念,選擇先進的技術架構

和成熟技術,滿足業(yè)

務需求。

?高性能和安全性規(guī)范地進行系統(tǒng)建設和開發(fā),提供合理且經(jīng)濟有效日勺

應急方案,保證系統(tǒng)日勺穩(wěn)定,向各類服務對象提供可靠口勺服務。具有

安全性,在系統(tǒng)遭到襲擊或瓦解時能迅速恢復,保證重要數(shù)據(jù)日勺機密

性和完整性。

L4參照規(guī)范

GB9361-88計算站場地安全規(guī)定

GB50173-93電子計算機機房設計規(guī)范

GB2887-89計算站場地技術條件

GB50174-2023電子信息系統(tǒng)機房設計規(guī)范

GB50462-2023電子信息系統(tǒng)機房施工及驗收規(guī)范

GB50311-2023綜合布線工程設計規(guī)范

GB50312-2023綜合布線系統(tǒng)工程驗收規(guī)范

GB50395-2023視頻安防監(jiān)控系統(tǒng)設計規(guī)范

GB50263-2023氣體滅火系統(tǒng)施工及驗收規(guī)范

GB50394-2023入侵報警系統(tǒng)工程設計規(guī)范

?GB/T20269-2023信息安全技術一信息系統(tǒng)安全管理規(guī)定

?GB/T20984-2023信息安全技術一信息安全風險評估規(guī)范

?GB/T22239-2023信息安全技術一信息系統(tǒng)安全等級保護基本規(guī)定

?GB/T22240-2023信息安全技術一信息系統(tǒng)安全等級保護定級指南

?GA/T388-2023B計算機信息系統(tǒng)安全等級保護管理規(guī)定

?GB/T8567-1988計算機軟件產(chǎn)品開發(fā)文獻編制指

?GB/T11457-1995軟件工程術語

中依QJD

GB/T11457-2023信息技術軟件工程術語

GB/T16260.1-2023軟件工程產(chǎn)品質量第1部分:質量模型

?GB/T16260.2-2023軟件工程產(chǎn)品質量第2部分:外部度量

?GB/T16260.3-2023軟件工程產(chǎn)品質量第3部分:內部度量

?GB/T16260.4-2023軟件工程產(chǎn)品質量第4部分:使用質量日勺度量

?GB/T14394-2023計算機軟件可靠性和可維護性管理

?GB/T17544-1998信息技術軟件包質量規(guī)定和測試

?GB/T18221-2023信息技術程序設計語言、環(huán)境與系統(tǒng)軟件借口獨立

于語言口勺數(shù)據(jù)類型

?GB/T18491.1-2023信息技術軟件測量功能規(guī)模測量第1部分:概念

定義

?GB/T18492-2023信息技術系統(tǒng)及軟件完整性級別

?GB/Z18493-2023信息技術軟件生存周期過程指南

?GB/T20237-2023信息技術軟件維護

GB/T20272-2023信息安全技術操作系統(tǒng)安全技術規(guī)定

GB/T20238-2023信息安全技術操作系統(tǒng)安全評估準則

?GB/T20239-2023信息安全技術數(shù)據(jù)庫管理系統(tǒng)安全評估準則

?GB/T20918-2023信息技術軟件生存周期過程風險管理

?GB/T8566-2023信息技術軟件生存周期過程

?SJ/T10367-1993計算機過程控制軟件開發(fā)規(guī)程

?SJ/T11234-2023軟件過程能力評估模型

?SDO(ServiceDataObject)forJavaSpecificationV2.1

?SCA(ServiceComponentArchitecture)}avaEEIntegrationSpecification

VI.00

?Java2Platform,EnterpriseEdition

■CapabilityMaturityModel?Integration(CMMISNI),Version1.1

?ExtensibleMarkupLanguage(XML)1.0(FifthEdition)

?WebServicesBusinessProcessExecutionLanguagev2.0

L5名詞解釋

?S2DFS:簡樸存儲分布式文獻系統(tǒng)(SimpleStorageDistributedFileSystem)

?D2B:分布式數(shù)據(jù)庫(DistributedDatabase)

?JSS:作業(yè)調度服務(JobSchedulerService)

?DCS:數(shù)據(jù)計算服務(DataComputerService)

?MPS:消息處理服務(MessageProcessService)

?SDS:流數(shù)據(jù)處理服務(StreamDataService)

?DMQ:分布式消息隊列(DistributedMessageQueue)

?JGS:作業(yè)生戌服務(JobGenerationService)

?ACS:自動清理服務進程(AutomaticCleaningServices)

?:超文本傳播協(xié)定(HyperTextTransferProtocol)

?SMB:服務器信息塊協(xié)議(ServerMessageBlock)

2云數(shù)據(jù)采集中心

2.1需求概述

根據(jù)CCB勺階段規(guī)劃,第一期云數(shù)據(jù)采集中心的建立至少滿足1至2年內日勺

數(shù)據(jù)存儲和計算規(guī)模,需要滿足200萬臺多種智能終端的數(shù)據(jù)存儲和計算規(guī)模。

此后整個云數(shù)據(jù)采集中心的技術平臺和架構需要輕松擴展到支持1000萬臺規(guī)模

日勺多種智能終端的數(shù)據(jù)存儲和計算規(guī)模。

如下的數(shù)據(jù)為預估數(shù)據(jù)(基于小范圍的試驗數(shù)據(jù)為根據(jù)):

數(shù)據(jù)類別文獻(記錄)大小1文獻(記錄)數(shù)量1文獻(記錄)大小2文獻(記錄)數(shù)量2

臺標蚊據(jù)(原始數(shù)據(jù),妁16KB/臺/天妁%個文獻/臺/天妁32GB/XIO萬臺/天妁72fN)萬個/2間萬臺/天

1天周期)

(由200Kb/臺/天85得)

行為數(shù)據(jù)(原始數(shù)據(jù),的60KB/臺/天(記錄)妁120GB/200萬臺/天(記錄)的2億條/200萬臺/天(記錄)

1天周期)

(由400Kb/臺//而得,加上了0KB的索引記錄)的100條記錄/臺/天但狗為100CJB/200萬臺/升(文獻)的2憶個/200萬臺/天(文截)

的S0KB/臺/天(文樹妁100個文獻/臺/天(文被)(平均估值)(平均估值)

(由400Kb/臺/天而得〉(平劃估儀)

(平均估值)

行為數(shù)據(jù)(原始數(shù)據(jù),為60KB/合/為記拗妁45TB/2OO萬臺八年(文獻,約35萬條/2005■臺〃年(記錄)

永久保笛,壓能處理)約?條記得臺/天加上元數(shù)據(jù)指逑文*0

(由4?)Kb/臺/天而得加上了DKB的索?引記狗約35萬個/2OO5"臺〃年(文獻)

約@個文獻/臺/天(平均估值)注:記錄的

為50KB/臺/天(文構(平均俗但)注:

(平均估值)大小的為MB

(由4C0Kb/臺/天而給128MB/1個文界

(平均估值)

行為分析/收視率記錄為HJKB/J條(記制的1CTFB/1年(記錄)妁I0J5億條記錄八年(記錄)

/推薦/電裔索引等記

(平均借伯)(平均伏伯)(平均借俏)

至少。大電商的確像數(shù)為30KB/I約10億個/I年{文?。?0TB/1與《文賦》

據(jù)

(平均估值)(平均估值)(平均估值)

以1年為計算周期(數(shù)據(jù)整合、壓縮、清洗后),初步預估:

1、數(shù)據(jù)記錄:約為10?15億條;

2、文獻個數(shù):約為10-12億個;

3、記錄總大小:約為10TB;(雙份副本:需要約20TB存儲空間)

4、文獻總大?。杭s為75TB;(雙份副本:需要約150TB存儲空間)

5、總容量大小:約為85TB;(雙份副本:需要約170TB存儲空間)

為了數(shù)據(jù)的高可靠性,為每份(文獻/記錄)建立鏡像副本,因此總容量初

步可以規(guī)劃約為170TBo

2.2總體設計

整個云數(shù)據(jù)采集中心分為四部分:硬件資源層、軟件平臺層、軟件應生層、

智能終端層。

硬件資源層重要指實體硬件設備,包括用來存儲數(shù)據(jù)口勺光纖陣列柜和存儲服

務器,用來作記錄、分析以及搜索用口勺計算服務器,用來布署分布式消息(DMQ)

/WEB/APP軟件的WEB及消息服務器,用來布署用PostgreSQL關系數(shù)據(jù)庫軟

件日勺應用數(shù)據(jù)庫服務器,用來布署作業(yè)調度服務進程(JSS)日勺作業(yè)調度服務器。

作為數(shù)據(jù)通信用的全千兆三層互換機等等。其中光纖陣列柜重要用來存儲記錄分

析后的粗顆粒度數(shù)據(jù)。存儲服務器用來布署分布式文獻系統(tǒng)和分布式數(shù)據(jù)庫,同

時存儲非構造化和構造化(臺標圖片,電商圖片等等)和構造化數(shù)據(jù)(行為數(shù)據(jù),

索引數(shù)據(jù),log數(shù)據(jù),清理后口勺細顆粒度數(shù)據(jù)等等)。計算服務器重要用來完畢數(shù)

據(jù)日勺清理、記錄、搜索等計算任務。為了節(jié)省成本和減少通信代價,提議存儲服

務器和計算服務器合二為一,因此該服務器同步具有計算和存儲數(shù)據(jù)的功能,前

期也可以考慮把作業(yè)調度服務進程(JSS)進程布署在存儲/計算服務器上。由于

云數(shù)據(jù)采集中心需要面對多種寬帶顧客(電信、移動、聯(lián)通),因此,數(shù)據(jù)中心

的對外日勺網(wǎng)絡需要直連上電信、移動、聯(lián)通三家全業(yè)的網(wǎng)絡,保證以上三家企業(yè)

間日勺通信性能高速和可靠。

軟件平臺層是云數(shù)據(jù)采集中心的關鍵支撐層,也是我們這次方案設計和實行

的主體部分,在關鍵技術章節(jié)會對“分布式文獻系統(tǒng)(S2DFS)"、“分布式數(shù)據(jù)

庫(D2B)”」分布式消息服務(DMQ)作業(yè)調度服務進程(JSS入數(shù)據(jù)

計算服務進程(DCS)〃重要部分加以詳細的描述。軟件平臺層日勺所有服務器

都統(tǒng)一布署的64位操作系統(tǒng)CentOS6.5(也可以選擇RHEL6.5x64);其關鍵軟

件或者進程有:分布式文獻系統(tǒng)(S2DFS)、分布式數(shù)據(jù)庫(D2B)、作業(yè)調度服

務進程(JSS)、數(shù)據(jù)計算服務進程(DCS)、作業(yè)生成服務進程(JGS)、消息處

理服務進程(MPS)、流數(shù)據(jù)處理進程(SDS)等等。WEB及應用服務器軟件

Apache&Tomcat,消息隊列軟件分布式消息(DNIQ)。還要實現(xiàn)整個云數(shù)據(jù)采集

中心日勺資源管理及監(jiān)控管理系統(tǒng)。

軟件應用層是云數(shù)據(jù)采集中心日勺功能實現(xiàn)及UI體現(xiàn)層,功能實現(xiàn)需要基于

軟件平臺層的支撐,后期設計和實行的主體。該層口勺重要功能應用有:數(shù)據(jù)采集

應用、收視率記錄應用、智能推薦應用、拍立購應用,云數(shù)據(jù)采集中心日勺資源監(jiān)

控及調度,通過提供原則API,在CC的云平臺上集成第三方APP應用,使我們

的云平臺成為一種開放口勺平臺,圍繞CCR勺多種智能終端或者第三方口勺終端,都

納入到平臺上來,建立一種完備而豐富日勺運行生態(tài)圈,使CC在互聯(lián)網(wǎng)時代日勺競

爭中占得先機。

過公共數(shù)據(jù)網(wǎng)(電信、聯(lián)通、移動)和協(xié)議,把終端傳感器采集的海量文本、

圖片數(shù)據(jù)以及顧客行為數(shù)據(jù)存儲在云數(shù)據(jù)采集中心里,以供后期分析計算用。第

一期是單向交互,重要是終端提供數(shù)據(jù),云數(shù)據(jù)采集中心負責計算,并作推薦。第

二期會引入終端與云教據(jù)采集中心口勺實時雙向交互功能。

收視率記錄應用智能推薦應用■拍立購應用■云中心監(jiān)控

JSS0csMPSSDS

PostgreSQLApache開放

S2DFSDMQ

1陽1平臺

CentOS6.5x64

云數(shù)據(jù)采集中心網(wǎng)絡構造圖

2.3關鍵技術及功能

分布式文獻存儲技術

(1)老式存儲技術面臨的問題:

■構建成本高:大容量及高網(wǎng)絡帶寬日勺高端存儲系統(tǒng)架構昂貴。

■文獻系統(tǒng)功能和性能差強人意:難以實現(xiàn)全局命名空間日勺文獻共享、

文獻系統(tǒng)性以擴展,輕易形成瓶頸。

■擴展性困建:技術存在瓶頸(Scale-up架構決定日勺)、擴展成本無法

控制。

■可用性問題:潛在日勺單點故障,數(shù)據(jù)恢復困難,代價高。

■應用目日勺差異:重要面臨運行商、金融行業(yè)日勺OLTP應用、很少針

對海量日勺流數(shù)據(jù),或者非構造化數(shù)據(jù)進行設計和優(yōu)化。

■異構設備鰲雜:不一樣步期、不一樣企業(yè)、不一樣操作系統(tǒng)的異構

設備紛繁復雜,無法整合,資源運用率極低。

分布式文獻系統(tǒng)重要為處理以上問題而出現(xiàn)日勺一種新型大規(guī)模數(shù)據(jù)存儲技

術架構。重要為非構造化數(shù)據(jù)(視頻/文獻/文檔/圖像/音頻等非構造化數(shù)據(jù))提

供海量的存儲平臺,以集群日勺方式提供線性橫向擴展能力。

分布式文獻系統(tǒng)是一種構建于通用x86部件之上日勺高可用、高可靠、高可擴

展的新型分布式文獻系統(tǒng)。應用分布式文獻系統(tǒng),顧客可以采用廉價可靠的通用

服務器、SATA/SAS硬盤以及以太網(wǎng)絡來構建媲美企業(yè)級存儲產(chǎn)品日勺存儲系統(tǒng)。

(2)分布式文獻系統(tǒng)應對口勺數(shù)據(jù)特性和訪問特性:

■數(shù)據(jù)量巨大,數(shù)百TB或PB級,增長迅速;

■類型多樣化,包括圖像、文本、語音、視頻等文獻數(shù)據(jù);

■準時間有序生成,數(shù)據(jù)均帶有時間標志;

■前端數(shù)據(jù)寫入速度很高,每秒鐘寫入數(shù)據(jù)可達幾萬甚至幾十萬條記

錄或者上GB量數(shù)據(jù);

■更新操作很少:追加方式寫入,一旦寫入,幾乎沒有數(shù)據(jù)修改,查

詢波及大量日勺磁盤讀操作,查詢處理產(chǎn)生大量日勺臨時成果,不一樣

類型日勺數(shù)據(jù)存在聯(lián)合分析查詢;

分布式文獻系統(tǒng)日勺基本原理是采用集群方式來整合物理上獨立日勺多種存儲資

源,以軟件方式提供單一口勺名字空間;采用多副本的方式保證數(shù)據(jù)口勺高可用性,任

意單一節(jié)點失效均不會導致數(shù)據(jù)丟失和數(shù)據(jù)服務口勺正常運行;同步,分布式文件系

統(tǒng)通過良好設計的系統(tǒng)構造和數(shù)據(jù)分布方略,可保證系統(tǒng)性能的高可擴展性,并支

持存儲容量/性能口勺在炭擴展。

相比較于DAS(直連存儲)、SAN(存儲區(qū)域網(wǎng)絡)和NAS(網(wǎng)絡存儲),

應用分布式文獻系統(tǒng)構建日勺網(wǎng)絡存儲系統(tǒng)更像是一種NAS,提供類似于老式NAS

的文獻級訪問接口(SAN和DAS都是塊設備級別的訪問接口)。

(3)分布式文獻系統(tǒng)與老式NAS/SAN設備口勺比較:

比較項|高端NASIFC-SAN?布式文獻系統(tǒng)

性能一般雙端口,性能受機頭一般雙端口,性能受性能隨節(jié)點數(shù)的增長成線

影響,難以擴展,出口帶機頭影響,難以擴展,性增長

寬是瓶頸IOPS很好

擴展能力性能及容量元法擴展,或能很好擴展,但成本性能及容量按需擴展,動

者有限擴展高昂態(tài)均衡

可用性RAID方式保護,雙機保RAID方式保護,雙機基于靈活的多副本機制,

護,停機RAIDRebuid,耗保護,停機RAID自動檢測,自動故障恢復,

時Rcbuid,耗時無需停機

數(shù)據(jù)管理企業(yè)級功能需要單獨購置企業(yè)級功能需要單獨內嵌多種企業(yè)級應用:快

購置(還需要單獨日勺照、鏡像、回收站

文獻系統(tǒng),100多萬一

套)

成本專有口勺硬件平臺,軟件擁專有的硬件平臺,軟開發(fā)通用日勺硬件平臺,一

有成本高,擴展成本高件擁有成本高,擴展體化的軟件,成本低,擴

成本高展成本低

可維護性專門的技術支持服務,需構造異常復雜,需要內嵌多種自動化的故障檢

要培訓大量培訓,廠商服務測和恢復功能,國內開發(fā),

昂貴技術支持迅速

顧客使用分布式文獻系統(tǒng)如同使用當?shù)匚墨I系統(tǒng)。所不一樣口勺是,老式NAS

一般以單一節(jié)點的方式實現(xiàn),容量和性能的擴展能力有限,易于成為性能瓶頸和單

一故障點。而分布式文獻系統(tǒng)則有多種節(jié)點集合地提供服務,由于其構造特性,分

布式文獻系統(tǒng)日勺性能和容量均可在線線性擴展,并且系統(tǒng)內不存在單一故障點。對

比參看下面兩幅示意圖:

老式存儲架構圖

分布式文獻系統(tǒng)架構圖分布式文獻系統(tǒng)的設計應用

尤其適合海量非構造化數(shù)據(jù)存儲,大量客戶端并

發(fā)曰勺I/O密集型應用。目前,分布式文獻系統(tǒng)已經(jīng)被應用于政府、醫(yī)療影像、

勘查數(shù)據(jù)計算、視頻服務以及動畫制作等領域。這些領域的數(shù)據(jù)訪問特性均為:

數(shù)據(jù)量巨大,I/O吞吐率高,數(shù)據(jù)增長迅速以及數(shù)據(jù)可用性規(guī)定高。通過長時間

日勺實際生產(chǎn)環(huán)境使用,分布式文獻系統(tǒng)已被證明是該類型應用的有效處理方案。

①」

s

窿設備卷設備卷設備卷設備卷設備卷

M儀

6

分布式文獻系統(tǒng)邏輯卷

C

&C瞪分布式文獻系經(jīng)客戶端

ONFS/Sambo

球分布式文獻系統(tǒng)網(wǎng)關

M旦

分布式文獻系統(tǒng)架構圖分布式文獻系統(tǒng)日勺服務器端

程序運行于Linuxx64系統(tǒng)之上,支持多種Linux

64位發(fā)行版,包括Redhat、CentOS等。分布式文獻系統(tǒng)客戶端則支持Linux和

Windows,同步分布式文獻系統(tǒng)還可以通過第三方軟件輸出CIFS和NFS接口,

可以兼容大多數(shù)應用。

(4)分布式文獻系統(tǒng)曰勺關鍵技術及特性:

■擴展性和高性能:分布式文獻系統(tǒng)運用雙重特性來提供幾TB至數(shù)

PB日勺高擴展存儲處理方案。Scalc-Qu:架構容許通過簡樸地增長資源

來提高存儲容量和性能,磁盤、計算和I/O資源都可以獨立增長,

支持10GhR和InRniBnnd等高速網(wǎng)絡互聯(lián)。分布式文獻系統(tǒng)彈性哈

希(ElasticHash)解除了分布式文獻系統(tǒng)對元數(shù)據(jù)服務器的需求,

消除了單點故障和性能瓶頸,真正實現(xiàn)了并行化數(shù)據(jù)訪問。

■高可用性:分布式文獻系統(tǒng)可以對文獻進行自動復制,如鏡像或多

次復制,從而保證數(shù)據(jù)總是可以訪同,甚至是在硬件故障0勺狀況下

也能正常訪問。自我修復功能可以把數(shù)據(jù)恢復到對日勺日勺狀態(tài),并且

修復是以增量日勺方式在后臺執(zhí)行,幾乎不會產(chǎn)生性能負載。分布式

文獻系統(tǒng)沒有設計自己的私有數(shù)據(jù)文獻格式,而是采用操作系統(tǒng)中

主流原則的磁盤文獻系統(tǒng)(如XFS/EXT4/ZFS)來存儲文獻,因此

數(shù)據(jù)可以使用多種原則工具進行復制和訪問。

■全局統(tǒng)一命名空間:全局統(tǒng)一命名空間將磁盤和內存資源匯集成一

個單一日勺虛擬存儲池,對上層顧客和應用屏蔽了底層日勺物理硬件。

存儲資源可以根據(jù)需要在虛擬存儲池中進行彈性擴展,例如擴容或

收縮。當存儲虛擬機映像時,存儲時虛擬映像文獻沒有數(shù)量限制,

成千虛擬機均通過單一掛載點進行數(shù)據(jù)共享。虛擬機I/O可在命名

空間內日勺所有服務器上自動進行負載均衡,消除了SAN環(huán)境中常常

發(fā)生日勺訪問熱點和性能瓶頸問題。

■彈性哈希算法:分布式文獻系統(tǒng)采用彈性哈希算法在存儲池中定位

數(shù)據(jù),而不是采用集中式或分布式元數(shù)據(jù)服務器索引。在其他的

Scale-Out存儲系統(tǒng)中,元數(shù)據(jù)服務器一般會導致I/。性能瓶頸和單

點故障問題。分布式文獻系統(tǒng)中,所有在Scale-。"存儲配置中日勺存

儲系統(tǒng)都可以智能地定位任意數(shù)據(jù)分片,不需要查看索引或者句其

他服務器查詢。這種設計機制完全并行化了數(shù)據(jù)訪問,實現(xiàn)了真正

口勺線性性能擴展。

■彈性卷管理:數(shù)據(jù)儲存在邏輯卷中,邏輯卷可以從虛擬化R勺物理存

除,不會導致應用中斷。邏輯卷可以在所有配置服務器中增長和縮

減,可以在不一樣服務器遷移進行容量均衡,或者增長和移除系統(tǒng),

這些操作都可在線進行。文獻系統(tǒng)配置更改也可以實時在線進行并

應用,從而可以適應工作負載條件變化或在線性能調優(yōu)。

■完全軟件實現(xiàn)(SoftwareOnly):分布式文獻系統(tǒng)認為存儲是軟件問

題,不可以把顧客局限于使用特定的供應商或硬件配置來處理。分

布式文獻系統(tǒng)采用開放式設計,廣泛支持工業(yè)原則的存儲、網(wǎng)絡和

計算機設備,而非與定制化口勺專用硬件設備捆綁。對于商業(yè)客戶,

分布式文獻系統(tǒng)可以以虛擬裝置日勺形式交付,也可以與虛擬機容器

打包,或者是公有云中布署口勺映像。開源小區(qū)中,分布式文獻系統(tǒng)

被大量布署在基于廉價閑置硬件日勺多種操作系統(tǒng)上,構成集中統(tǒng)一

日勺虛擬存儲資源池。簡而言之,分布式文獻系統(tǒng)是開放日勺全軟件實

現(xiàn),完全獨立于硬件和操作系統(tǒng)。

■完整日勺存儲操作系統(tǒng)棧(CompleteStorageOperatingSystemStack:分

布式文獻系統(tǒng)不僅提供了一種分布式文獻系統(tǒng),并且還提供了許多

其他重要的分布式功能,例如分布式內存管理、I/。調度、軟RAID

和自我修復等。分布式文獻系統(tǒng)汲取了微內核架構日勺經(jīng)驗教訓,借

鑒了GNU/Hurd操作系統(tǒng)口勺設計思想,在顧客空間實現(xiàn)了完整曰勺存

儲操作系統(tǒng)棧。

■顧客空間實現(xiàn)(UserSpace):與老式日勺文獻系統(tǒng)不一樣,分布式文獻

系統(tǒng)在顧客空間實現(xiàn),這使得其安裝和升級尤其簡便。此外,這

也極

通用口勺C程序設計技能,而不需要尤其日勺內核編程經(jīng)驗。

■模塊化堆棧式架構(ModularStackableArchitecture):分布式文獻系統(tǒng)

采用模塊化、熔棧式的架構,可通過靈活B勺配置支持高度定制化的

應用環(huán)境,例如大文獻存儲、海量小文獻存儲、分布式文獻系統(tǒng)、

多傳播協(xié)議應用等。每個功能以模塊形式實現(xiàn),然后以積木方式進

行簡樸日勺組合,即可實現(xiàn)復雜的功能。例如,Replicate模塊可實現(xiàn)

RAID1,Stripe模塊可實現(xiàn)RAID0,通過兩者日勺組合同實現(xiàn)RAID10

和RAID01,同步獲得高性能和高可靠性。

■原始數(shù)據(jù)格式存儲(DataStoredinNativeFormats):分布式文獻系統(tǒng)

以原始數(shù)據(jù)格式(如EXT3、EXT4、XFS、ZFS)儲存數(shù)據(jù),并實現(xiàn)

多種數(shù)據(jù)自動修復機制。因此,系統(tǒng)極具彈性,雖然離線情形下文

件也可以通過其他原則工具進行訪問。假如顧客需要從分布式文獻

系統(tǒng)中遷移數(shù)據(jù),不需要作任何修改仍然可以完全使用這些數(shù)據(jù)。

■無元數(shù)據(jù)服務設計(NoMetadatawiththeElasticHashAlgorithm):對

Scale-Out存儲系統(tǒng)而言,最大的挑戰(zhàn)之一就是記錄數(shù)據(jù)邏輯與物理

位置日勺映像關系,即數(shù)據(jù)元數(shù)據(jù),也許還包括諸如屬性和訪問權限

等信息。老式分布式存儲系統(tǒng)使用集中式或分布式元數(shù)據(jù)服務來維

護元數(shù)據(jù),集中式元數(shù)據(jù)服務會導致單點故障和性能瓶頸問題,而

分布式元數(shù)據(jù)服務存在性能負載和元數(shù)據(jù)同步一致性問題。尤其是

對于海量小文獻日勺應用,元數(shù)據(jù)問題是個非常大日勺挑戰(zhàn)。分布式文

件系統(tǒng)獨特地采用無元數(shù)據(jù)服務日勺設計,取而代之使用算法來定位

統(tǒng)服務器都可以智能地對文獻數(shù)據(jù)分片進行定位,僅僅根據(jù)文獻名

和途徑并運用算法即可,而不需要查詢索引或者其他服務器。這使

得數(shù)據(jù)訪問完全并行化,從而實現(xiàn)真正日勺線性性能擴展。無元數(shù)據(jù)

服務器極大提高了分布式文獻系統(tǒng)0勺性能、可靠性和穩(wěn)定性。

■基于原則協(xié)議:分布式文獻系統(tǒng)存儲服務支持NFS,CIFS,,FTP以

及分布式文獻系統(tǒng)原生協(xié)議,完全與PQSIX原則兼容。

(5)分布式文獻系統(tǒng)技術及性能指標:

■支持設備數(shù)量:最大百萬臺以上

■支持存儲容量:最大1024PB以上

■客戶端日勺數(shù)量:最大支持上億并發(fā)

■網(wǎng)絡支持:以太網(wǎng):IGbps、WGbps/INFINIBAND:WGbps^40Gbps

■文獻副本數(shù)量:任意(缺省1份)

■協(xié)議:NFS/CIFS//FIT/WEBDAV,及原生協(xié)議,兼容POSIX原

■支持文獻數(shù)量:最大上億個文獻

■最大單個文獻:16TB

(6)S2DFS與HDFS日勺比較

對比項HDFS(GFS)S2DFS

架構類型帶元數(shù)據(jù)庫中心架構全分布式去中心架構

(瓶頸及故障易發(fā)生點)

存在方式分布式文獻系統(tǒng)軟件,基于x86平臺

使用方式CLI/RESTAPINATIVECLIENT/CIFS/NFS原則

協(xié)議

(應用代碼與平臺無關性,便于移

植和維護)

系統(tǒng)可用性低高

數(shù)據(jù)可用性復制類RAID

數(shù)據(jù)定位方式INodeHash

同步方式異步同步

負載均衡自動自動

支持網(wǎng)絡千兆以太網(wǎng)千兆/萬兆以太網(wǎng),IB網(wǎng)

網(wǎng)絡寫:讀(萬兆/單流)約lOOMB/s:160MB/s約800MB/S:lOOOMB/s

讀(l*20GB)(萬兆)約125s約25s

寫(l*20GB)(萬兆)約200s約20s

讀/寫(千兆)差距不大

分布式并行計算技術

(1)概述并行計算技術真正將老式運算轉化為并行運算,從而愈加充足

的運用廣泛部

署日勺一般計算資源實現(xiàn)大規(guī)模B勺運算和應用口勺目的,在此基礎上為第三方開發(fā)者

提供通用平臺,為客戶提供并行服務。這里重要為門戶網(wǎng)站提供作業(yè)調度平臺,

實現(xiàn)日志分析,性能優(yōu)化,全文檢索,視頻處理,用為分析等等口勺支撐平臺。

顧客通過統(tǒng)一計算平臺把任務分派給系統(tǒng)內的多種節(jié)點,調度節(jié)點資源執(zhí)行

任務,發(fā)揮多核并行處理優(yōu)勢,提高運算效率,充足運用網(wǎng)絡內日勺計算資源到達

處理大規(guī)模計算問題的目日勺。

(2)分布式并行計算架構圖

結構化敏摳/*結構化敝制

分專式文件系統(tǒng)/分?式微據(jù)奉

分布式并行計算架構圖

(3)作業(yè)調度及計算過程

早令黃成樗身力于任多遺度.白3的從事或中分■.計算麥―

(4)分布式并行計算技術特點

■池化資源管理

運用池化技術,任何一臺聯(lián)在互聯(lián)網(wǎng)上口勺一般PC機從硬件到軟件,

可通過池化技術加入服務器池中,等待任務分派,系統(tǒng)能充足運用現(xiàn)

有服務器資源,將所有運算子任務分派給節(jié)點服務器,有效防止計

算資源閑置現(xiàn)象0勺發(fā)生。

KTV洋低對單節(jié)點計第健力要求,是并祭體資總性能和利用率

/\

1網(wǎng)絡:[服務賽I,儲設色[進程][線程)[…

■無中心系統(tǒng)架構在平臺管理下的單節(jié)點能力一致,使節(jié)點在布署

上和使用上具有無差異性,任一節(jié)點功能可由其他節(jié)點替代或強

化,可以最大程度確保平臺資源使用日勺靈活性以及在災備環(huán)境下

口勺可靠性系統(tǒng)架構。

■通道式工作機制平臺為顧客提供一種并行任務處理通道,處理過

程對顧客來說完全透明,由平臺自動進行負載均衡、資源匹配、

任務傳播等,使顧客專注于自身任務管理,將執(zhí)行過程交由平臺

H

fi分

分布式數(shù)據(jù)庫技術

D2B是一種具有高性能日勺高性能,可擴展,無模式,面向文檔

(documcnt-oricntcd)日勺數(shù)據(jù)庫,其內存儲日勺是一種JSON-like構造化數(shù)據(jù)日勺分布式

數(shù)據(jù)庫軟件,尤其具有高擴展性和高可靠性,支持大表水平折分,以及分區(qū)鏡像。

提供內存緩存數(shù)據(jù),因此數(shù)據(jù)存取速度非常快,重要是由于它處理寫入日勺方式:

它們存儲在內存中,然后通過后臺線程寫入磁盤。

該軟件支持日勺數(shù)據(jù)構造非常松散,是類似jsonH勺bjson格式,因此可以存儲

比較復雜的數(shù)據(jù)類型。D2B此外日勺最大的特點是他支持口勺查詢語言非常強大,其

語法有點類似于面向來象日勺查詢語言,幾乎可以實現(xiàn)類似關系數(shù)據(jù)庫單表查詢日勺

絕大部分功能,并且還支持對數(shù)據(jù)建立索引。它的特點是高性能、易布署、易使

用,存儲數(shù)據(jù)非常以便。

重要功能特性:

?面向集合存儲,易存儲對象類型日勺數(shù)據(jù)

“面向集合"(CQUenction-Oricnted),意思是數(shù)據(jù)被分組存儲在數(shù)據(jù)集

中,被稱為一種集合(CoUenction)o每個集合在數(shù)據(jù)庫中均有一種唯一

口勺標識名,并且可以包括無限數(shù)目的文檔。集合的概念類似關系型數(shù)據(jù)

庫(RDBMS)旦日勺表(tabic),不一樣日勺是它不需要定義任何模式(schema)o

?模式自由

模式自由(schema-free),意味著對于存儲在D2B數(shù)據(jù)庫中日勺文獻,我們

不需要懂得它日勺任何構造定義。假如需要日勺話,你完全可以把不一樣構

造日勺文獻存儲在同一種數(shù)據(jù)庫里。

?自動分片以支持云級別日勺伸縮性:自動分片功能支持水平日勺數(shù)據(jù)庫集群,

可動態(tài)添加額外日勺機器。

?支持動態(tài)查詢

?支持完全索引,包括內部對象。

?自動處理碎片,以支持云計算層次日勺擴展性。

?可通過網(wǎng)絡訪問

?可用于Windows?、MacOSX、Linux?和Solaris日勺官方二進制版本。

?可用于C、C#、C++、Haskell、Java?、JavaScript^PerkPHP>Python、

Ruby和Scala日勺官方驅動程序,以及廣泛可用于其他語言的小區(qū)支持

的驅動程序。

?Ad-hocJavaScript查詢讓您可以使用基于任何文檔屬性日勺任何條件來查

找數(shù)據(jù)。這些查詢對應于SQL查詢日勺功能,使SQL開發(fā)人員可以很

直觀地編寫D2B查詢。

?支持查詢中的正則體現(xiàn)式。

?D2B查詢成果存儲在提供過濾、聚合和排序等一系列功能日勺游標中,包

括limit。、skip。、sort。、count()sdistinct。和group。等等高級特性。

?高級聚合日勺map/reduce實現(xiàn)。

?類似于RDBMS的屬性索引支持,可以直接在文檔日勺選定屬性上創(chuàng)立索

引。

?使用提醒、解釋計劃和分析P勺查詢優(yōu)化特性。

?類似于MySQL日勺主/從復制,支持復制和故障恢復。

?基于集合日勺對象存儲,在需要規(guī)范化數(shù)據(jù)時容許參照查詢。

?通過自動分片功能水平擴展。

?高性能無爭用并發(fā)機制的即時更新。

D2B服務端可運行在Linux、Windows或OSX平臺,支持32位和64位應

用。推薦運行在64位平臺,由于D2B在32位模式運行時支持日勺最大文獻尺寸

為2GBo

分布式數(shù)據(jù)庫(D2B)集群示例圖

D2B與關系型數(shù)據(jù)庫日勺邏輯構造對比:

D2B關系型數(shù)據(jù)庫

數(shù)據(jù)庫(database)數(shù)據(jù)庫(database)

集合(collection)表(table)

文檔(document)行(row)

D2B的性能指標:

10億約600GB以上(與每條記錄大小有關系,這

里口勺數(shù)據(jù):1Kb/條)

寫(1億,無索引)約15000-20230條/s

寫(1億,有索引)約10000條/s

寫(1億:ReplicaSets1Sharding模式)約6000-8000條/s

讀(1億)約80MB-120MB/S

讀(1億)8000-10000個查詢/s

記錄一種值(10億)<3s(復雜查詢)

最大節(jié)點數(shù)量>1024(理論上)

測試環(huán)境的硬件配置:IntelXeonE7-88372路76關鍵,256GB內存,75kSAS16*600GB

硬盤,RAID50;總共72臺設備;D2B的架構模式:ReplicaSets+Shardin^0

負載均衡

這里選擇日勺國產(chǎn)設備是北京太一星晨信息技術有限企業(yè)日勺設備作為參照對

比設備。。

1)國產(chǎn)硬件與F5對比

對比項國產(chǎn)F5重要功能

負我均衡算法支持8種支持12#是

會話保持笄法文拉6種支持8稗是

健眼檢查算法支控M珅支拘28種是

內容互帙支掙最常用4種支揮(物性豐X)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論