版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、 云計算平臺技術(shù)方案建議書目 錄 TOC o 1-3 h z u HYPERLINK l _Toc502142580 1系統(tǒng)總體概述 PAGEREF _Toc502142580 h 4 HYPERLINK l _Toc502142581 1.1系統(tǒng)需求分析 PAGEREF _Toc502142581 h 4 HYPERLINK l _Toc502142582 1.2系統(tǒng)基本功能 PAGEREF _Toc502142582 h 4 HYPERLINK l _Toc502142583 1.3系統(tǒng)建設(shè)的主要設(shè)計思想和設(shè)計目標、設(shè)計原則 PAGEREF _Toc502142583 h 5 HYPERL
2、INK l _Toc502142584 1.4系統(tǒng)的主要技術(shù)特點 PAGEREF _Toc502142584 h 6 HYPERLINK l _Toc502142585 1.5系統(tǒng)總體構(gòu)架 PAGEREF _Toc502142585 h 7 HYPERLINK l _Toc502142586 1.6cProc云處理平臺簡介 PAGEREF _Toc502142586 h 8 HYPERLINK l _Toc502142587 1.7cStor云存儲系統(tǒng)簡介 PAGEREF _Toc502142587 h 10 HYPERLINK l _Toc502142588 1.8OpenStack簡介 P
3、AGEREF _Toc502142588 h 13 HYPERLINK l _Toc502142589 1.9系統(tǒng)設(shè)計性能 PAGEREF _Toc502142589 h 13 HYPERLINK l _Toc502142590 1.9.1數(shù)據(jù)流量處理能力 PAGEREF _Toc502142590 h 13 HYPERLINK l _Toc502142591 1.9.2數(shù)據(jù)存儲讀取能力 PAGEREF _Toc502142591 h 14 HYPERLINK l _Toc502142592 1.10系統(tǒng)功能 PAGEREF _Toc502142592 h 16 HYPERLINK l _To
4、c502142593 2系統(tǒng)設(shè)計實施與關(guān)鍵技術(shù)方法 PAGEREF _Toc502142593 h 17 HYPERLINK l _Toc502142594 2.1cProc云處理平臺 PAGEREF _Toc502142594 h 17 HYPERLINK l _Toc502142595 2.1.1數(shù)據(jù)立方(DataCube) PAGEREF _Toc502142595 h 17 HYPERLINK l _Toc502142596 2.1.2任務(wù)監(jiān)控器(JobKeeper) PAGEREF _Toc502142596 h 20 HYPERLINK l _Toc502142597 2.1.3c
5、Proc數(shù)據(jù)處理 PAGEREF _Toc502142597 h 22 HYPERLINK l _Toc502142598 2.1.4數(shù)據(jù)壓縮 PAGEREF _Toc502142598 h 24 HYPERLINK l _Toc502142599 2.1.5適應(yīng)應(yīng)用需求的混合存儲策略 PAGEREF _Toc502142599 h 25 HYPERLINK l _Toc502142600 2.1.6HBase數(shù)據(jù)存儲 PAGEREF _Toc502142600 h 26 HYPERLINK l _Toc502142601 2.1.7數(shù)據(jù)庫存儲 PAGEREF _Toc502142601 h
6、27 HYPERLINK l _Toc502142602 2.2cProc云處理平臺可靠性設(shè)計 PAGEREF _Toc502142602 h 29 HYPERLINK l _Toc502142603 2.2.1可靠性概述 PAGEREF _Toc502142603 h 30 HYPERLINK l _Toc502142604 2.2.2HDFS可靠性設(shè)計 PAGEREF _Toc502142604 h 31 HYPERLINK l _Toc502142605 2.2.3HBase可靠性設(shè)計 PAGEREF _Toc502142605 h 33 HYPERLINK l _Toc50214260
7、6 2.2.4MapReduce可靠性設(shè)計 PAGEREF _Toc502142606 h 35 HYPERLINK l _Toc502142607 2.2.5Zookeeper可靠性設(shè)計 PAGEREF _Toc502142607 h 37 HYPERLINK l _Toc502142608 2.2.6數(shù)據(jù)存儲的可靠性設(shè)計 PAGEREF _Toc502142608 h 39 HYPERLINK l _Toc502142609 2.2.7處理與存儲集群Master單點失效容錯處理 PAGEREF _Toc502142609 h 41 HYPERLINK l _Toc502142610 2.2
8、.8處理與存儲集群的負載均衡處理 PAGEREF _Toc502142610 h 47 HYPERLINK l _Toc502142611 2.3cStor云存儲系統(tǒng) PAGEREF _Toc502142611 h 50 HYPERLINK l _Toc502142612 2.3.1技術(shù)架構(gòu) PAGEREF _Toc502142612 h 50 HYPERLINK l _Toc502142613 2.3.2工作原理 PAGEREF _Toc502142613 h 52 HYPERLINK l _Toc502142614 2.3.3管理機制 PAGEREF _Toc502142614 h 53
9、HYPERLINK l _Toc502142615 2.3.4關(guān)鍵技術(shù) PAGEREF _Toc502142615 h 54 HYPERLINK l _Toc502142616 2.4OpenStack介紹 PAGEREF _Toc502142616 h 56 HYPERLINK l _Toc502142617 2.4.1OpenStack是什么 PAGEREF _Toc502142617 h 56 HYPERLINK l _Toc502142618 2.4.2云服務(wù)提供商的概念架構(gòu) PAGEREF _Toc502142618 h 58 HYPERLINK l _Toc502142619 2.
10、4.3OpenStack Compute架構(gòu) PAGEREF _Toc502142619 h 59 HYPERLINK l _Toc502142620 2.4.4OpenStack Image Service PAGEREF _Toc502142620 h 67 HYPERLINK l _Toc502142621 2.4.5OpenStack Object Storage PAGEREF _Toc502142621 h 68 HYPERLINK l _Toc502142622 2.4.6OpenStack界面圖 PAGEREF _Toc502142622 h 75 HYPERLINK l _T
11、oc502142623 2.5平臺安全 PAGEREF _Toc502142623 h 75 HYPERLINK l _Toc502142624 2.5.1云處理平臺信任保護 PAGEREF _Toc502142624 h 75 HYPERLINK l _Toc502142625 2.5.2基于多級信任保護的訪問控制 PAGEREF _Toc502142625 h 79 HYPERLINK l _Toc502142626 2.5.3云處理平臺安全審計 PAGEREF _Toc502142626 h 82 HYPERLINK l _Toc502142627 2.5.4云處理平臺安全網(wǎng)關(guān) PAGE
12、REF _Toc502142627 h 85 HYPERLINK l _Toc502142628 2.6軟硬件設(shè)施清單 PAGEREF _Toc502142628 h 88 HYPERLINK l _Toc502142629 3項目管理和實施 PAGEREF _Toc502142629 h 88 HYPERLINK l _Toc502142630 3.1項目開發(fā)周期 PAGEREF _Toc502142630 h 88 HYPERLINK l _Toc502142631 3.2項目計劃進度 PAGEREF _Toc502142631 h 89 HYPERLINK l _Toc502142632
13、 3.3項目實施 PAGEREF _Toc502142632 h 90 HYPERLINK l _Toc502142633 3.4客戶受益 PAGEREF _Toc502142633 h 90系統(tǒng)總體概述系統(tǒng)需求分析系統(tǒng)需要廣泛應(yīng)用于移動互聯(lián)網(wǎng)、金融證券、電子政務(wù)、教育科研等需要海量數(shù)據(jù)存儲和處理的領(lǐng)域。同時,能為中小企業(yè)提供基于SaaS的低成本的信息化服務(wù)、虛擬化服務(wù),降低企業(yè)信息化的門檻。云計算平臺的建設(shè)能增強蘇州市云計算與智能信息處理領(lǐng)域的自主開發(fā)能力,從而有力的推動該產(chǎn)業(yè)長期穩(wěn)定的發(fā)展,進一步提升蘇州市信息技術(shù)產(chǎn)業(yè)的競爭力和影響力;能為蘇州市中小企業(yè)提供信息化、虛擬化服務(wù)平臺,對目前企
14、業(yè)信息集成中存在的主要問題,如基礎(chǔ)數(shù)據(jù)缺失、計劃和安排生產(chǎn)的盲目性、流程不規(guī)范、現(xiàn)場采集數(shù)據(jù)困難等提供解決方案,推動蘇州信息基礎(chǔ)設(shè)施建設(shè)和中小企業(yè)信息化進程。系統(tǒng)基本功能本項目在充分研究云計算現(xiàn)有成果的基礎(chǔ)上,面向中小企業(yè)智能信息服務(wù)、新一代智能信息處理、移動互聯(lián)網(wǎng)等重點領(lǐng)域的云計算需求,開展云計算關(guān)鍵技術(shù)研究。首先研究綠色環(huán)保節(jié)能云計算中心構(gòu)建方案,基于先進的海量數(shù)據(jù)云存儲技術(shù)構(gòu)建一個高度可靠、可在線彈性伸縮、能夠支持高并發(fā)大吞吐量的快速存取訪問的云存儲系統(tǒng)平臺,用于海量的教學(xué)信息資源的存儲和共享,并為上層云計算數(shù)據(jù)處理和應(yīng)用服務(wù)提供基礎(chǔ)的數(shù)據(jù)存儲平臺;然后研究建立適合于中小企業(yè)智能信息服務(wù)
15、、移動互聯(lián)網(wǎng)應(yīng)用服務(wù)等的云計算應(yīng)用模式;最后針對云服務(wù)中的用戶數(shù)據(jù)安全與隱私保護等核心問題開展研究,形成支撐具體云服務(wù)應(yīng)用的關(guān)鍵技術(shù)體系。最終為后續(xù)具體應(yīng)用服務(wù)構(gòu)建一個安全、穩(wěn)定、可靠的基礎(chǔ)云平臺。系統(tǒng)基本功能和組成如下:海量信息智能搜索與數(shù)據(jù)挖掘技術(shù)能夠支撐Deep Web深度挖掘、自然語言處理、圖形圖像處理與理解和大規(guī)模知識庫自動構(gòu)建等需要復(fù)雜信息處理基于云計算的新型移動服務(wù)基于云計算的移動圖像搜索與挖掘系統(tǒng)和基于云計算的移動位置地理信息服務(wù)系統(tǒng),為移動互聯(lián)網(wǎng)用戶提供新穎的拍照購物搜索服務(wù)和基于位置的地理信息服務(wù)基于智能生成模型的云計算信息技術(shù)支撐服務(wù)建立動態(tài)工作流的智能生成模型,該模型能
16、依據(jù)業(yè)務(wù)類型智能生成動態(tài)工作流,并能依據(jù)過程信息反饋調(diào)整生成類型基于云計算的海量數(shù)據(jù)存儲平臺搭建高度可靠、可在線彈性伸縮、能夠支持高并發(fā)大吞吐量的快速存取訪問,用于海量的教學(xué)信息資源的存儲和共享,并為上層云計算數(shù)據(jù)處理和應(yīng)用服務(wù)提供基礎(chǔ)的數(shù)據(jù)存儲平臺企業(yè)虛擬化服、網(wǎng)站托管為企業(yè)提供資源虛擬化、資源共享等服務(wù),最大利用硬件資源,節(jié)約成本的同時,降低企業(yè)對資源的管理難度系統(tǒng)建設(shè)的主要設(shè)計思想和設(shè)計目標、設(shè)計原則設(shè)計思想:在充分研究移動互聯(lián)網(wǎng)、云計算理論的基礎(chǔ)上,研究基于云計算的移動互聯(lián)網(wǎng)應(yīng)用服務(wù),通過云計算提供的高性能計算和海量數(shù)據(jù)存儲能力,突破移動終端在計算能力和存儲空間上的限制、擴展移動應(yīng)用軟
17、件的類型、提高移動軟件的服務(wù)質(zhì)量和降低服務(wù)成本。設(shè)計目標:采用云計算、物聯(lián)網(wǎng)和信息網(wǎng)格技術(shù),構(gòu)建一個綠色環(huán)保、安全、穩(wěn)定、可靠的云基礎(chǔ)平臺;基于云計算技術(shù)實現(xiàn)Deep Web、自然語言處理、圖形圖像處理與理解和大規(guī)模知識庫自動構(gòu)建等海量信息的高效處理;建立基于云計算的企業(yè)信息化應(yīng)用軟件模式,開發(fā)出涵蓋企業(yè)產(chǎn)品全生命周期的集成應(yīng)用支撐軟件系統(tǒng)和中小企業(yè)智能信息服務(wù)平臺;建立基于云計算的移動互聯(lián)網(wǎng)軟件服務(wù)的應(yīng)用模式,實現(xiàn)基于云計算的移動圖像搜索與挖掘系統(tǒng)和基于云計算的移動位置地理信息服務(wù)系統(tǒng)。設(shè)計原則:(1)技術(shù)領(lǐng)先,性能優(yōu)異系統(tǒng)將采用國際先進的云存儲和云計算技術(shù),并在此基礎(chǔ)上提供高效的查詢和分析
18、處理、資源虛擬化服務(wù)、網(wǎng)站托管等功能。(2)數(shù)據(jù)安全可靠系統(tǒng)將采用多種容錯技術(shù)保證存儲的數(shù)據(jù)安全和故障的自動恢復(fù)。系統(tǒng)的主要技術(shù)特點海量數(shù)據(jù)存儲及處理:基于先進的海量數(shù)據(jù)云存儲技術(shù)構(gòu)建一個高度可靠、可在線彈性伸縮、能夠支持高并發(fā)大吞吐量的快速存取訪問的云存儲系統(tǒng)平臺,用于海量的教學(xué)信息資源的存儲和共享,并為上層云計算數(shù)據(jù)處理和應(yīng)用服務(wù)提供基礎(chǔ)的數(shù)據(jù)存儲平臺高效處理能力和實時性:平臺在高效率并行分布式軟件的支撐下,可以實時完成數(shù)據(jù)入庫、分析和管理工作。海量數(shù)據(jù)入庫不會出現(xiàn)數(shù)據(jù)堆積現(xiàn)象,各類分析和查詢工作基本都在秒級完成,具有前所未有的高效性。高可靠性:基于對云計算可靠性深厚的研究積累,徹底解決了
19、當(dāng)前分布式計算平臺易出現(xiàn)的單點故障問題。任何一個節(jié)點出現(xiàn)故障,系統(tǒng)將自動屏蔽,而且不會出現(xiàn)丟失數(shù)據(jù)的現(xiàn)象。可伸縮性:在不停機的情況下,增加節(jié)點,平臺的處理能力自動增加;減少節(jié)點,平臺的處理能力自動縮減。這樣,可以做到與云計算平臺的無縫對接,根據(jù)計算和存儲任務(wù)動態(tài)地申請或釋放資源,最大限度地提高資源利用率。高性價比:采用X86架構(gòu)廉價計算機構(gòu)建云計算平臺,用軟件容錯替代硬件容錯,大大節(jié)省成本。在目標性能和可靠性條件下,可比傳統(tǒng)的小型機加商用數(shù)據(jù)庫方案節(jié)省10倍左右的成本。全業(yè)務(wù)支持:采用分布式數(shù)據(jù)庫模式,絕大部分海量數(shù)據(jù)存放于分布式平臺并進行分布式處理,少量實時性要求很高的數(shù)據(jù)存放于關(guān)系數(shù)據(jù)庫中
20、,可支撐各種類型的業(yè)務(wù)。不僅支撐查詢、統(tǒng)計、分析業(yè)務(wù),還可支撐深度數(shù)據(jù)挖掘和商業(yè)智能分析業(yè)務(wù)。系統(tǒng)總體構(gòu)架構(gòu)建一個綠色環(huán)保、安全、穩(wěn)定、可靠的云基礎(chǔ)平臺;基于云計算技術(shù)實現(xiàn)Deep Web、自然語言處理、圖形圖像處理與理解和大規(guī)模知識庫自動構(gòu)建等海量信息的高效處理;建立基于云計算的企業(yè)信息化應(yīng)用軟件模式,開發(fā)出涵蓋企業(yè)產(chǎn)品全生命周期的集成應(yīng)用支撐軟件系統(tǒng)和中小企業(yè)智能信息服務(wù)平臺;建立基于云計算的移動互聯(lián)網(wǎng)軟件服務(wù)的應(yīng)用模式,實現(xiàn)基于云計算的移動圖像搜索與挖掘系統(tǒng)和基于云計算的移動位置地理信息服務(wù)系統(tǒng);圖表1 系統(tǒng)示意圖云存儲系統(tǒng)層:在普通x86服務(wù)器上搭建高性價比的云存儲系統(tǒng),提供海量數(shù)據(jù)云
21、存儲能力,具有高度可靠、可在線彈性伸縮、能夠支持高并發(fā)大吞吐量的快速存取訪問等特性,能夠支撐海量教學(xué)信息資源的存儲和共享,并為上層云處理平臺和應(yīng)用服務(wù)提供基礎(chǔ)的數(shù)據(jù)存儲平臺。云處理平臺層:云處理平臺包含公司自主研發(fā)的數(shù)據(jù)立方(DataCube)和任務(wù)監(jiān)控器(JobKeeper),數(shù)據(jù)立方提供所有數(shù)據(jù)的管理能力,而JobKeeper管理所有的請求任務(wù),通過其具有的負載均衡能力,讓所有處理幾點并發(fā)的處理請求,采用智能搜索技術(shù)、數(shù)據(jù)挖掘技術(shù)、不確定處理技術(shù)、分布式并行處理技術(shù),為上層提供高性能處理服務(wù)。虛擬化管理層:通過開源系統(tǒng)OpenStack,管理用戶、證書、鏡像等,可以將硬件資源虛擬化成多個節(jié)
22、點機器,用戶可以租用自己的虛擬服務(wù),互不干擾,而且任意節(jié)點宕機,不會影響整個虛擬化管理系統(tǒng)的運行,還能支持網(wǎng)站托管等功能。應(yīng)用層:通過云處理平臺可以為應(yīng)用層提供Deep Web深度挖掘、自然語言處理、圖形圖像處理與理解、大規(guī)模知識庫自動構(gòu)建、拍照購物搜索服務(wù) 、基于位置的地理信息服務(wù) 、移動圖像搜索與挖掘系統(tǒng)等服務(wù) ;其中所有的數(shù)據(jù)都存儲在云存儲系統(tǒng)上,而通過OpenStack虛擬化管理系統(tǒng)可以為用戶企業(yè)提供資源虛擬化服務(wù) 。cProc云處理平臺簡介云存儲層包括公司自主研發(fā)的云儲存系統(tǒng)cStor和apache開源云儲存系統(tǒng)HDFS;而在數(shù)據(jù)管理層中,包含數(shù)據(jù)立方、Hbase;數(shù)據(jù)處理層包含Jo
23、bKeeper和MapReduce;最后的監(jiān)控協(xié)調(diào)層則包括zookeeper和Chukwa來實現(xiàn)對整個系統(tǒng)的實時監(jiān)控和數(shù)據(jù)管理。下圖為cProc云處理平臺架構(gòu):通過數(shù)據(jù)立方,可以對元數(shù)據(jù)進行數(shù)據(jù)分析、清理、分割。對結(jié)構(gòu)化數(shù)據(jù)任意關(guān)鍵字索引,形成一個多維數(shù)據(jù)模型,數(shù)據(jù)立方的命名也由此而來。數(shù)據(jù)立方是獨立于cProc云處理平臺的技術(shù)架構(gòu),用戶可以選擇性采用數(shù)據(jù)立方,也可以單獨采用Hbase、Hive等技術(shù)框架,通過數(shù)據(jù)立方或Hbase,可以將結(jié)構(gòu)化數(shù)據(jù)看成一張無限大的表,操作這張表跟操作傳統(tǒng)關(guān)系型數(shù)據(jù)庫一樣,上層應(yīng)用無需修改,完全符合用戶原來操作習(xí)慣。對于非結(jié)構(gòu)化數(shù)據(jù),cProc云處理平臺采用公司
24、自主研發(fā)的超安存算法,對這些數(shù)據(jù)塊進行分割,散亂存儲到云儲存系統(tǒng)上,然后采用分布式并行處理,對數(shù)據(jù)進行實時處理,cProc云處理平臺的處理性能隨著節(jié)點的增多而成倍數(shù)增長。cProc云處理平臺擁有以下特點:1.對任意多關(guān)鍵字實時索引2.支持類SQL復(fù)雜并行組合查詢3.分布式萬兆實時數(shù)據(jù)流秒級處理4.高可靠性,系統(tǒng)無單點,確保意外情況下,系統(tǒng)的正常運行以上特點由公司自主研發(fā)的下面幾大功能來提供保證,分別是數(shù)據(jù)立方,分布式數(shù)據(jù)處理,調(diào)度均衡器、數(shù)據(jù)傳輸接口等。數(shù)據(jù)立方對數(shù)據(jù)建立高效的索引結(jié)構(gòu)。數(shù)據(jù)立方是公司研發(fā)的高效數(shù)據(jù)結(jié)構(gòu),該結(jié)構(gòu)成功解決了海量數(shù)據(jù)的快速索引和查詢問題,使得百億條記錄級的數(shù)據(jù)能夠秒
25、級處理。分布式數(shù)據(jù)處理是公司研發(fā)的處理海量數(shù)據(jù)的處理框架,用于對大規(guī)模數(shù)據(jù)集的并行處理。處理能力可以通過增加或減少機器達到動態(tài)調(diào)整。采用先進的容錯技術(shù),確保處理任務(wù)的可靠性,即使在異常情況下,如機器宕機、斷網(wǎng)的情況下,確保處理任務(wù)的實時性和準確性。調(diào)度均衡器是公司研發(fā)的解決單點故障的一項技術(shù),用于解決系統(tǒng)內(nèi)的單點問題,確保某機器的應(yīng)用程序狀態(tài)在宕機或斷網(wǎng)時,可將狀態(tài)從異常機器轉(zhuǎn)移到其他機器上,中間無數(shù)據(jù)丟失。數(shù)據(jù)傳輸接口是公司經(jīng)過多年積累,專門針對地面數(shù)據(jù)傳輸研究出高性能可靠文件傳輸協(xié)議,采用并行流水線方式、將傳輸與存儲作聯(lián)合優(yōu)化,并支持多點中繼高效傳輸。經(jīng)過多項實地遠程傳輸試驗,結(jié)果表明該技
26、術(shù)的傳輸效率在1Gb/s光纖線路上達到了帶寬的80%左右,處于國際最高水平。幾大功能相輔相成,高效且可靠地處理海量數(shù)據(jù),確保響應(yīng)迅速,傳輸速度快,處理結(jié)果準確。cStor云存儲系統(tǒng)簡介cStor云存儲系統(tǒng)是公司自主研發(fā)的、具有自主知識產(chǎn)權(quán)的高科技產(chǎn)品,是國內(nèi)最早實現(xiàn)并保持領(lǐng)先的云存儲系統(tǒng),整套系統(tǒng)包括軟件與硬件,是一個海量的云存儲平臺。圖2 C1000系列云存儲產(chǎn)品存儲機柜與傳統(tǒng)的大規(guī)模存儲系統(tǒng)相比,cStor針對絕大多數(shù)數(shù)據(jù)密集型應(yīng)用的特點從多個方面進行了優(yōu)化,從而在一定規(guī)模下達到成本、可靠性和性能的最佳平衡。cStor憑著超低的價格、優(yōu)異的性能、高度可靠、綠色節(jié)能、無限容量、在線自動伸縮、
27、易用通用等諸多壓倒性優(yōu)勢,獲得了廣電、安防、刑偵、政務(wù)、交通、動漫等各行業(yè)用戶青睞,產(chǎn)品代理和銷售商已發(fā)展到數(shù)十家。目前,cStor云存儲系統(tǒng)已成熟應(yīng)用于安防視頻監(jiān)控、刑偵、廣電、交通、電信、醫(yī)療、政務(wù)等諸多領(lǐng)域,性能卓越,表現(xiàn)出色,從未出現(xiàn)故障,得到用戶一致稱贊。圖3部署在政務(wù)云數(shù)據(jù)中心機器下圖4為一簡單的cStor云存儲系統(tǒng)部署示意圖。圖4 cStor云存儲系統(tǒng)部署示意圖cStor云存儲系統(tǒng)采用了分布式的存儲架構(gòu),元數(shù)據(jù)服務(wù)器采用主備雙機容錯的方式管理各個存儲節(jié)點,文件分散存儲在各存儲節(jié)點上??蛻舳伺c元數(shù)據(jù)服務(wù)器間只有控制流,數(shù)據(jù)流直接在各存儲節(jié)點間交互。因此,系統(tǒng)的整體吞吐率隨著存儲的規(guī)
28、模的增大是線性增加,直到達到帶寬的飽和利用。OpenStack簡介OpenStack是一個與Amazon EC2兼容的IaaS系統(tǒng)。OpenStack包括OpenStack Compute和OpenStack Object Storage兩個部分。 OpenStack Compute又包含Web前端、計算服務(wù)、存儲服務(wù)、身份認證服務(wù)、存儲塊設(shè)備(卷)服務(wù)、網(wǎng)絡(luò)服務(wù)、任務(wù)調(diào)度等多個模塊。OpenStack Compute的不同模塊之間不共享任何信息,通過消息傳遞進行通訊。因此,不同的模塊可以運行在不同的服務(wù)器上,也可以運行在同一臺服務(wù)器上。 OpenStack Object Store可以利用通
29、用服務(wù)器搭建可擴展的海量數(shù)據(jù)倉庫,并且通過冗余來保證數(shù)據(jù)的安全性。同一份數(shù)據(jù)的在多臺服務(wù)器上都有副本,將出現(xiàn)故障的服務(wù)器從集群中撤除不會影響數(shù)據(jù)的完整性,加入新的服務(wù)器后系統(tǒng)會自動地在新的服務(wù)器上為相應(yīng)的文件創(chuàng)建新的副本。從功能上講,OpenStack Object Store同時具備Eucalyptus中的Walrus服務(wù)和彈性塊設(shè)備(SC)服務(wù)。不過OpenStack Object Store不是一個文件系統(tǒng),不能夠保證數(shù)據(jù)的實時性。從這個方面來考慮,OpenStack Object Store更適合用于存儲需要長期保存的靜態(tài)數(shù)據(jù),例如操作系統(tǒng)映像文件和多媒體數(shù)據(jù)。 OpenStack通過
30、Agent的方式來管理計算資源。在每一個計算節(jié)點上,都需要運行nova-network服務(wù)和nova-compute服務(wù)。這些服務(wù)啟動之后,就可以通過消息隊列來與云控制器進行交互。系統(tǒng)設(shè)計性能數(shù)據(jù)流量處理能力以下是各部分處理能力統(tǒng)計: 數(shù)據(jù)存儲查詢系統(tǒng)器配置: 8核CPU2,主頻2GHz以上,內(nèi)存32G,硬盤82T SATA處理能力:折合數(shù)據(jù)入庫流量 80Mb/s 應(yīng)用分析系統(tǒng)器配置: 8核CPU2,主頻2GHz以上,內(nèi)存32G,硬盤82T SATA處理能力:折合處理并發(fā)訪問量1000次/s 數(shù)據(jù)存儲讀取能力原始數(shù)據(jù)存儲采用云存儲平臺,分布式文件系統(tǒng)存儲系統(tǒng)。性能指標:存儲量指標單系統(tǒng)應(yīng)支持P
31、B級存儲容量。吞吐量指標Infiniband網(wǎng)絡(luò)上文件讀、寫性能:(1)寫文件性能1個客戶端寫250G文件,文件平均寫性能為932MB/s,峰值為1.9GB/秒。(2)讀文件性能1個客戶端讀250G文件,文件平均讀性能為852MB/s,讀文件峰值為1.2GB/s上述性能測試數(shù)據(jù)是1個客戶端、8個存儲節(jié)點的測試結(jié)果,由于本次測試受測試資源影響,沒能完全測出Infiniband最優(yōu)性能。但在8個存儲節(jié)點上,文件寫性能達到932MB/s,寫峰值為1.9GB/s,讀性能達到852MB/s,讀峰值為1.2GB/s。吞吐量是指在沒有幀丟失的情況下,設(shè)備能夠接受的最大速率。吞吐量根據(jù)應(yīng)用系統(tǒng)讀寫方式和應(yīng)用系
32、統(tǒng)讀取存儲內(nèi)容大小分成四個指標。分布式文件存儲系統(tǒng)按照32個節(jié)點并發(fā)500個用戶計算,單節(jié)點8塊2T大小的硬盤情況下,每個節(jié)點指標具體內(nèi)容如下表所示:表8分布式文件存儲系統(tǒng)吞吐量指標編號讀寫方式存儲內(nèi)容大小總吞吐量指標(MBps)平均吞吐量指標(MBps)1100%讀250GB24000482100%寫250GB20000403100%讀100KB23000464100%寫100KB1900038圖表 分布式文件存儲系統(tǒng)吞吐量指標系統(tǒng)響應(yīng)時間指標千兆網(wǎng)絡(luò)環(huán)境下,局域網(wǎng)客戶端從分布式文件存儲系統(tǒng)中讀取4096字節(jié)存儲內(nèi)容的響應(yīng)時間應(yīng)不高于20ms。系統(tǒng)功能數(shù)據(jù)存儲:通過云存儲平臺存儲海量數(shù)據(jù),教
33、學(xué)信息資源存儲和共享智能信息處理:基于云計算框架研究海量信息的智能搜索、數(shù)據(jù)挖掘、不確定性處理等技術(shù),將云計算中的分布式并行計算技術(shù)應(yīng)用到Deep Web深度挖掘、自然語言處理、圖形圖像處理與理解和大規(guī)模知識庫自動構(gòu)建等需要復(fù)雜信息處理領(lǐng)域,采用云計算并行計算模型,大大提升信息處理的性能中小企業(yè)智能信息服務(wù)平臺:以工作流為特征的企業(yè)信息化應(yīng)用軟件系統(tǒng)平臺、面向企業(yè)的智能信息處理和企業(yè)信息化項目云構(gòu)建等開展研究,建成針對中小企業(yè)的智能信息服務(wù)平臺。資源虛擬化:在搭建的云存儲平臺上,采用虛擬化管理軟件,為中小企業(yè)提供資源虛擬化、資源共享等服務(wù),最大利用硬件資源,節(jié)約成本的同時,降低企業(yè)對資源的管理
34、難度。移動服務(wù)技術(shù):研發(fā)基于云計算的移動圖像搜索與挖掘系統(tǒng)和基于云計算的移動位置地理信息服務(wù)系統(tǒng),為移動互聯(lián)網(wǎng)用戶提供新穎的拍照購物搜索服務(wù)和基于位置的地理信息服務(wù)系統(tǒng)設(shè)計實施與關(guān)鍵技術(shù)方法cProc云處理平臺數(shù)據(jù)處理是對數(shù)據(jù)的采集、存儲、檢索、加工、變換和傳輸。數(shù)據(jù)是對事實、概念或指令的一種表達形式,可由人工或自動化裝置進行處理。數(shù)據(jù)的形式可以是數(shù)字、文字、圖形或聲音等。數(shù)據(jù)經(jīng)過解釋并賦予一定的意義之后,便成為信息。數(shù)據(jù)處理的基本目的是從大量的、可能是雜亂無章的、難以理解的數(shù)據(jù)中抽取并推導(dǎo)出對于某些特定的人們來說是有價值、有意義的數(shù)據(jù)。數(shù)據(jù)處理是系統(tǒng)工程和自動控制的基本環(huán)節(jié)。數(shù)據(jù)處理貫穿于社
35、會生產(chǎn)和社會生活的各個領(lǐng)域。數(shù)據(jù)處理技術(shù)的發(fā)展及其應(yīng)用的廣度和深度,極大地影響著人類社會發(fā)展的進程。數(shù)據(jù)立方(DataCube)我們以B+樹的結(jié)構(gòu)建立了字段的索引,每個B+樹結(jié)構(gòu)的字段索引相當(dāng)于一個數(shù)據(jù)平面,這樣一個全局數(shù)據(jù)表與其多個重要字段的索引就組成了一個類似于立方體的數(shù)據(jù)組織結(jié)構(gòu),我們稱之為“數(shù)據(jù)立方(DataCube)”。如下圖所示: 數(shù)據(jù)立方(DataCube)是一種用于數(shù)據(jù)分析與索引的技術(shù)架構(gòu)。它是針對大數(shù)據(jù)(big data)的處理利器,可以對元數(shù)據(jù)進行任意多關(guān)鍵字實時索引。通過數(shù)據(jù)立方對元數(shù)據(jù)進行分析之后,可以大大加快數(shù)據(jù)的查詢和檢索效率。數(shù)據(jù)立方的原理:由一個或多個管理節(jié)點,
36、一個或多個處理及存儲節(jié)點(數(shù)據(jù)節(jié)點)組成,系統(tǒng)在數(shù)據(jù)建立與查詢時,分布式建立與應(yīng)用數(shù)據(jù)立方索引結(jié)構(gòu),在數(shù)據(jù)建立及存儲時,對規(guī)范化的數(shù)據(jù)設(shè)定1個或多個關(guān)鍵字字段,將不同的關(guān)鍵字字段分別建立索引,每張不同的索引生成一張獨立的B+樹結(jié)構(gòu),多個B+樹結(jié)構(gòu)垛疊在一起,與全局數(shù)據(jù)表形成一個完整的數(shù)據(jù)立方結(jié)構(gòu)。利用數(shù)據(jù)立方存儲索引結(jié)構(gòu),可方便快捷的在海量數(shù)據(jù)云處理系統(tǒng)中準確檢索定位數(shù)據(jù)。B+樹的插入僅在葉結(jié)點上進行。 每插入一個(關(guān)鍵碼-指針)索引項后都要判斷結(jié)點中的子樹棵數(shù)是否超出范圍。當(dāng)插入后結(jié)點中的子樹棵數(shù)大于 m 時, 需要將葉結(jié)點分裂為兩個結(jié)點。它們的雙親結(jié)點中應(yīng)同時包含這兩個結(jié)點的最大關(guān)鍵碼和結(jié)
37、點地址。此后, 問題歸于在非葉結(jié)點中的插入了。在非葉結(jié)點中關(guān)鍵碼的插入與葉結(jié)點的插入類似, 非葉結(jié)點中的子樹棵數(shù)的上限為m, 超出這個范圍也要進行結(jié)點分裂。在做根結(jié)點分裂時, 因為沒有雙親結(jié)點, 就必須創(chuàng)建新的雙親結(jié)點, 作為樹的新根。這樣樹的高度就增加一層了。當(dāng)有新的記錄到來時,我們要將新的數(shù)據(jù)記錄對應(yīng)的一條索引記錄插入到所有的字段索引中,這時要采取一定的寫入策略。當(dāng)新的記錄積累到n1條或經(jīng)過一定時間t1時,對于存儲在MemCache中的字段索引,可以將這些數(shù)據(jù)記錄對應(yīng)的索引記錄一次性批量寫入;當(dāng)新的記錄積累到n2條或經(jīng)過一定時間t2時,可以將這些數(shù)據(jù)記錄對應(yīng)的索引記錄一次性批量寫入HDFS
38、(固態(tài)磁盤)上的索引文件。對B+樹的查找類似于二分查找,對于m階,葉子節(jié)點中記錄個數(shù)為n的B+樹來說,其查找的時間復(fù)雜度為O(log m+(n+1)/2)。因此對于值匹配和范圍查找來說,有很快的速度。此外,由于對值按照大小順序進行了指針鏈接,因此m階B+樹還可以進行對值進行順序查找。 我們對重要字段建立索引,存儲在HDFS(固態(tài)磁盤)上。將最近常用的字段索引加載到MemCache中,同時刪除最不常用的字段索引以節(jié)省空間。詳細來說,對于每次查詢,系統(tǒng)統(tǒng)計每個字段索引被調(diào)用的次數(shù),對于被調(diào)用次數(shù)最多的那些字段索引就被加載到MemCache中,而在MemCache中被調(diào)用次數(shù)最少的某些字段將被刪除。
39、數(shù)據(jù)立方是凌駕于數(shù)據(jù)存儲層和數(shù)據(jù)庫系統(tǒng)之上的,通過數(shù)據(jù)立方解析后,可以大大增加數(shù)據(jù)查詢和檢索等業(yè)務(wù),可以讓系統(tǒng)平臺具備數(shù)據(jù)實時入庫、實時查詢、查詢結(jié)果實時傳輸?shù)葍?yōu)勢。任務(wù)監(jiān)控器(JobKeeper)JobKeeper調(diào)度平臺是建立于虛擬化資源層之上,統(tǒng)一調(diào)度,統(tǒng)一配置的管理平臺,用于對集群中任務(wù)實時的處理調(diào)度,實時結(jié)果集的反饋,集群的負載均衡,失敗調(diào)度,集中管理,集中配置的平臺。用來保證整個集群的超低人員干預(yù)。同時,提供完善的集群伸縮機制為整個服務(wù)提供更高的可靠性。JobKeeper云調(diào)度技術(shù)架構(gòu)圖 應(yīng)用層是一組用于管理和結(jié)果反饋的顯示組件。用于顯示任務(wù)的處理情況以及集群中機器的活動情況,同時
40、其也是一個上層應(yīng)用和底層服務(wù)的對接平臺。是整個系統(tǒng)面向用戶和開發(fā)人員的基礎(chǔ)承載。 業(yè)務(wù)層是對于應(yīng)用層的相關(guān)功能的業(yè)務(wù)化,數(shù)字化處理,用于將應(yīng)用層的需求任務(wù)進行規(guī)則化劃分,形成統(tǒng)一的處理化模式。 數(shù)據(jù)處理層是獨立的數(shù)據(jù)處理程序,是對不同需求數(shù)據(jù)的統(tǒng)一處理方案,他的運行與監(jiān)控的工作將由JobKeeper調(diào)度平臺進行統(tǒng)一的配置管理。 存儲層是用來存儲數(shù)據(jù)存儲層的處理結(jié)果集或者其他中間結(jié)果集的單元。 虛擬化資源層是將實體的機器進行虛擬化,形成更大范圍的服務(wù)集群。 JobKeeper調(diào)度平臺是由一組管理節(jié)點(Master Node)和一組處理節(jié)點(Task Node)組成,管理節(jié)點組是一組基于Webse
41、rver的RPC(RPC采用客戶機/服務(wù)器 HYPERLINK /view/37878.htm t _blank 模式。請求程序就是一個客戶機,而服務(wù)提供程序就是一個服務(wù)器。首先,客戶機調(diào)用進程發(fā)送一個有進程參數(shù)的調(diào)用信息到服務(wù)進程,然后等待應(yīng)答信息。在服務(wù)器端,進程保持睡眠狀態(tài)直到調(diào)用信息的到達為止。當(dāng)一個調(diào)用信息到達,服務(wù)器獲得進程參數(shù),計算結(jié)果,發(fā)送答復(fù)信息,然后等待下一個調(diào)用信息,最后, HYPERLINK /view/930.htm t _blank 客戶端調(diào)用進程接收答復(fù)信息,獲得進程結(jié)果,然后調(diào)用執(zhí)行繼續(xù)進行。)服務(wù)器,負責(zé)對處理節(jié)點的系統(tǒng)信息以及任務(wù)處理信息進行實時的跟蹤和保存
42、,對應(yīng)的信息鏡像存儲在基于cStor或者NFS服務(wù)的存儲系統(tǒng)上,保證每個管理節(jié)點中的鏡像信息的實時同步。同時架設(shè)在管理節(jié)點上的ZooKeeper服務(wù)(ZooKeeper是一個分布式的,開放源碼的 HYPERLINK /view/553502.htm t _blank 分布式應(yīng)用程序協(xié)調(diào)服務(wù),包含一個簡單的原語集。分布式應(yīng)用可以使用它來實現(xiàn)諸如:統(tǒng)一命名服務(wù)、配置管理、分布式鎖服務(wù)、集群管理等功能。)用于對整個管理節(jié)點組進行統(tǒng)一的配置化管理。處理節(jié)點組通過RPC的遠程調(diào)用獲取各自節(jié)點的任務(wù)處理目標,并實時的和處理節(jié)點上的任務(wù)處理目標進行對比,控制程序的執(zhí)行和結(jié)束。(注:這里的程序,可以是任何語言
43、任何形式的獨立程序,但是必須提供執(zhí)行腳本,和運行參數(shù)選項)處理節(jié)點組會在一個設(shè)定的心跳間隔內(nèi)主動的和管理節(jié)點組聯(lián)系一次,報告節(jié)點存活狀態(tài)。如果在若干個心跳間隔后管理節(jié)點組仍然沒有獲取到處理節(jié)點心跳報告,那么該處理節(jié)點將會被踢出處理節(jié)點組,同時該節(jié)點處理的所有處理任務(wù)也會被重新調(diào)度。隨著集群處理數(shù)據(jù)量的不斷增大,處理節(jié)點組提供了簡單高效的自動化部署方案,當(dāng)新機器加入處理集群后,會主動的與管理節(jié)點組同步心跳信息,從同一配置服務(wù)器ZooKeeper上獲取相關(guān)配置信息,通過WebServer服務(wù)獲取任務(wù)列表,開始執(zhí)行數(shù)據(jù)處理工作。 JobKeeper調(diào)度平臺提供了一套基于Web的管理化界面,可以實時的
44、觀察各個處理節(jié)點的任務(wù)運行狀態(tài),以及任務(wù)列表的分配情況,機器的負載情況等。用戶在管理系統(tǒng)界面上可以完成所有的工作,如新任務(wù)的添加,任務(wù)的手動調(diào)度以及集群日志的查看與分析等。 任務(wù)處理節(jié)點和管理節(jié)點之間維護一個心跳時間,實時向管理節(jié)點匯報任務(wù)處理信息,同時,任務(wù)處理節(jié)點在每個心跳時間內(nèi)向管理節(jié)點獲取該處理的任務(wù)列表,并和本機正在處理的任務(wù)列表進行比對,完成相關(guān)的任務(wù)調(diào)度工作。若一個處理節(jié)點在多個心跳時間范圍內(nèi)仍然沒有主動的和管理節(jié)點相互聯(lián)系,那么管理節(jié)點將會根據(jù)各機器的負載情況,將失去心跳連接的處理節(jié)點上的任務(wù)進行任務(wù)的重新分配和執(zhí)行。cProc數(shù)據(jù)處理cProc云處理是公司研發(fā)的處理海量數(shù)據(jù)的
45、處理框架,特點是實時性高。主從式的管理節(jié)點監(jiān)控著所有處理節(jié)點(slave),并接受任務(wù),分配子任務(wù),監(jiān)控任務(wù)以及處理各類異常情況。處理節(jié)點(slave),接受子任務(wù),監(jiān)控子任務(wù),向主節(jié)點匯報任務(wù)。結(jié)構(gòu)如下圖所示:cProc云處理是cProc云處理平臺分布式的核心。該架構(gòu)內(nèi)部避免了大多數(shù)分布式系統(tǒng)內(nèi)部存在的單點問題。里面的兩個管理員節(jié)點(主節(jié)點和備節(jié)點)對整個集群進行著管理,通過先進的調(diào)度監(jiān)控器解決了管理節(jié)點的單點問題和數(shù)據(jù)同步問題,確保在主節(jié)點異常情況下,主從節(jié)點的切換不丟失管理數(shù)據(jù)。cProc云處理內(nèi)部采用高效的數(shù)據(jù)結(jié)構(gòu)cProcJob,維護每個任務(wù)以及子任務(wù)的狀態(tài),并嚴格按照任務(wù)狀態(tài)轉(zhuǎn)移表
46、進行任務(wù)狀態(tài)切換。在cProc分布式數(shù)據(jù)處理的過程中,系統(tǒng)采用以下三個原則:1.數(shù)據(jù)盡可能的本地性原則在任務(wù)提交后, 管理節(jié)點根據(jù)數(shù)據(jù)所在位置分配處理,這樣在每個處理節(jié)點上要處理的存儲介質(zhì)上的數(shù)據(jù)塊就在本地,直接操作本地文件,避免了數(shù)據(jù)的移動,極大地減少了網(wǎng)絡(luò)IO負載,縮短了處理時間。2.數(shù)據(jù)分布的平衡性原則cProc并行處理架構(gòu)能夠周期性地對存儲介質(zhì)上的數(shù)據(jù)進行維護,保持存儲節(jié)點上所存儲的數(shù)據(jù)量的平衡,減少因數(shù)據(jù)負載的不平衡而導(dǎo)致的處理負載的不平衡。3.調(diào)度任務(wù)公平的原則公平調(diào)度是一種多用戶的賦予作業(yè)(job)資源的策略,它的目的是讓所有的作業(yè)隨著時間的推移,都能獲取與權(quán)值相應(yīng)的共享資源。當(dāng)
47、單獨一個作業(yè)在運行時,它將使用整個集群。當(dāng)有其它作業(yè)被提交上來時,系統(tǒng)會將任務(wù)空閑處理單元賦給這些新的作業(yè),以使得每一個作業(yè)都大概獲取到與權(quán)值相應(yīng)的處理時間。這個特性讓短作業(yè)在合理的時間內(nèi)完成的同時又保證了長作業(yè)的服務(wù)質(zhì)量。公平調(diào)度器按資源池(pool)來組織作業(yè),默認情況下,每一個用戶擁有一個獨立的資源池。在Slave處理節(jié)點上設(shè)置有同時運行的任務(wù)個數(shù)上限,若未達到上限,則就產(chǎn)生了空閑處理單元。當(dāng)集群上出現(xiàn)空閑處理單元時,調(diào)度按兩步進行,首先空閑處理單元在作業(yè)池之間分配,其次在作業(yè)池內(nèi)的作業(yè)間分配。數(shù)據(jù)壓縮 HDFS數(shù)據(jù)壓縮與組織方法任何一種數(shù)據(jù)資源都具有生命周期,不同的時期有其存在的不同意
48、義。在數(shù)據(jù)剛生成的數(shù)日內(nèi),訪問頻率最高,帶來的使用價值也最高。隨著時間推移,訪問頻率會逐漸降低,數(shù)據(jù)的價值也隨之下降,低訪問頻率的數(shù)據(jù)量遠遠超過高訪問頻率的數(shù)據(jù)量。不同生命周期的數(shù)據(jù)是提供給不同使用對象的,這就為以最低的成本獲得最高的使用價值提供了可能。通常情況下,某段時間內(nèi)訪問量比較大的數(shù)據(jù)只有不到20%,80%的數(shù)據(jù)是不經(jīng)常被訪問的,雖然這些數(shù)據(jù)訪問量低,但這些數(shù)據(jù)仍然很重要,必須完好的保存。同時考慮到方便數(shù)據(jù)壓縮,這里采用了分級存儲策略,這樣不僅可以方便為訪問量大的數(shù)據(jù)項設(shè)置緩存,而且為數(shù)據(jù)壓縮提供了方便,顯著提高了效率。分級存儲就是以信息生命周期管理理論為依據(jù),根據(jù)數(shù)據(jù)所能提供的使用價
49、值來決定存儲成本、存儲設(shè)備。文件依據(jù)用戶需求有選擇地對某些數(shù)據(jù)進行遷移,如進行遠端備份等。數(shù)據(jù)分級存儲之所以重要,是因為它既能最大限度地滿足變化的需求,又能方便文件的組織和壓縮。數(shù)據(jù)分級存儲的優(yōu)點有減少總體存儲成本、性能優(yōu)化、改善數(shù)據(jù)可用性、數(shù)據(jù)遷移對應(yīng)用透明。借助云平臺,分級存儲滿足以下要求:數(shù)據(jù)的安全性、數(shù)據(jù)的高可用性、容量可擴展性、設(shè)備的兼容性、管理的高效性、經(jīng)濟效益性。數(shù)據(jù)將被組織成兩級,一級稱為chuck,一級稱為block。chuck被分為多個block,文件將以block的形式存儲在數(shù)據(jù)服務(wù)器上。block的優(yōu)點是方便文件壓縮和文件的傳輸,適合多種備份方式,在很大程度上提高了存儲
50、效率和可擴展性。下圖給出了基于分級存儲的數(shù)據(jù)塊級壓縮方式。圖表 SEQ 圖表 * ARABIC 31 HDFS數(shù)據(jù)壓縮與組織處理流程如下:1)將一個chunk劃分成為多個block。2)讀取一個block,對該block進行數(shù)據(jù)壓縮并寫入到臨時緩存中。3)將臨時緩存的壓縮數(shù)據(jù)拷貝到緩沖池中。4)重復(fù)2-3步直到一個chunk中的block都被壓縮拷貝完成。5)將緩沖池中的內(nèi)容按順序回寫到存儲區(qū)域。適應(yīng)應(yīng)用需求的混合存儲策略 混合存儲策略可以簡述為HDFS分布式文件系統(tǒng)用來存儲海量數(shù)據(jù),可以根據(jù)存儲的數(shù)據(jù)類型建立索引,HBase也可用來存儲海量數(shù)據(jù),其由查詢條件建立索引表, 數(shù)據(jù)庫對小型數(shù)據(jù)的存
51、儲處理。 分布式文件系統(tǒng)HDFS是一個開源云處理平臺Hadoop框架的底層實現(xiàn)部分,適合運行在通用硬件上的分布式文件系統(tǒng),具有高容錯性,能提高吞吐量的數(shù)據(jù)訪問,非常適合于大規(guī)模數(shù)據(jù)集上的應(yīng)用。MapReduce在HDFS的基礎(chǔ)上實現(xiàn)的并行框架,為用戶提供容易使用的并行編程模式,MapReduce處理包括兩個階段,Map(映射)階段和Reduce(規(guī)范)階段。首先,Map函數(shù)把一組(Key,Value)輸入,映射為一組中間結(jié)果 (Key,Value),然后通過Reduce函數(shù)把具有相同Key值的中間結(jié)果,進行合并化簡。MapReduce將處理作業(yè)分成許多小的單元,同時數(shù)據(jù)也會被HDFS分為多個B
52、lock,并且每個數(shù)據(jù)塊被復(fù)制多份,保證系統(tǒng)的可靠性,HDFS按照一定的規(guī)則將數(shù)據(jù)塊放置在集群中的不同機器上,以便MapReduce在數(shù)據(jù)宿主機器上進行處理。 HBase類似Bigtable的分布式數(shù)據(jù)庫,是一個稀疏的,長期存儲的,多維的,排序的映射表.這張表的索引是行關(guān)鍵字,列關(guān)鍵字和時間戳。所有數(shù)據(jù)庫的更新都是一個時間戳標記,每個更新都是一個新的版本,而HBase會保留一定數(shù)量的版本,這個值是可以設(shè)定的??蛻舳丝梢垣@取距離某個時間最近的版本,或者一次獲取所有版本。HBase數(shù)據(jù)存儲 HBase Hadoop Database,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),利用HB
53、ase技術(shù)可在廉價PC Server上搭建起大規(guī)模結(jié)構(gòu)化存儲集群。其目的是處理龐大的表,可以用普通的處理機處理10億行數(shù)據(jù),并且有數(shù)百萬列元素組成的數(shù)據(jù)表這張表的索引是行關(guān)鍵字。Hbase可以直接使用本地的文件系統(tǒng)和Hadoop作為數(shù)據(jù)存儲方式,不過為了提高數(shù)據(jù)的可靠性和系統(tǒng)的健壯性,發(fā)揮Hbase處理大數(shù)據(jù)量等功能,需要使用Hadoop作為文件系統(tǒng)。1、數(shù)據(jù)模式 HBase類似Bigtable的分布式數(shù)據(jù)庫,是一個稀疏的,長期存儲的,多維的,排序的映射表.這張表的索引是行關(guān)鍵字,列關(guān)鍵字和時間戳。每個值是一個不解釋的字符數(shù)組,數(shù)據(jù)都是字符串,沒類型。用戶在表格中存儲數(shù)據(jù),每一行都是一個可排序
54、的主鍵和任意多的列。由于是稀疏存儲的,所以同一張表里面的每一行數(shù)據(jù)都可以有截然不同的列。列名字的格式是:,都是由字符串組成,每一張表有一個family集合,這個集合是固定不變的,相當(dāng)于表的結(jié)構(gòu),只能通過改變表的結(jié)構(gòu)來改變。但是lable值相對于每一行來說都是可以改變的。HBase把同一個family里面的數(shù)據(jù)存儲在同一個目錄底下,而HBase的寫操作時鎖行的,每一個都是一個原子元素都可以加鎖。所有數(shù)據(jù)庫的更新都是一個時間戳標記,每個更新都是一個新的版本,而HBase會保留一定數(shù)量的版本,這個值是可以設(shè)定的??蛻舳丝梢垣@取距離某個時間最近的版本,或者一次獲取所有版本。2、 概念視圖一個表可以想象
55、成一個大的映射關(guān)系,通過主鍵,或者主鍵+時間戳,可以定位一行數(shù)據(jù),由于是稀疏數(shù)據(jù),所以某些列可以是空白的,下面就是數(shù)據(jù)的概念視圖: Row KeyTime StampColumnColumn anchorColumn mimen.wwwt9anchor:CNNt8anchor:my.look.caCNN.comt6.t5.text/htmlt3.3、物理視圖從概念視圖看每個表格是有很多行組成,但是在物理存儲上,它是按照列來保存的。Row KeyTime StampColumn contentsn.wwwt6.t5.t3.Row KeyTime StampColumn anchorn.wwwt9
56、anchor:CNNt8anchor:my.look.caCNN.comRow KeyTime StampColumn minen.wwwt6text/html在概念視圖上面有些列是空白的,這樣的列實際上并不會被存儲,當(dāng)請求這些空白的單元格的時候,會返回null值。如果在查詢的時候不提供時間戳,那么會返回距離現(xiàn)在最近的那個版本數(shù)據(jù)。因為在存儲的時候,數(shù)據(jù)會按照時間戳排序。數(shù)據(jù)庫存儲數(shù)據(jù)庫(Database)是存儲在一起的相關(guān)數(shù)據(jù)的集合,這些數(shù)據(jù)是結(jié)構(gòu)化的,無有害的或不必要的冗余,并為多種應(yīng)用服務(wù);數(shù)據(jù)的存儲獨立于使用它的程序;對數(shù)據(jù)庫插入新數(shù)據(jù),修改和檢索原有數(shù)據(jù)均能按一種公用的和可控制的方式
57、進行。當(dāng)某個系統(tǒng)中存在結(jié)構(gòu)上完全分開的若干個數(shù)據(jù)庫時,則該系統(tǒng)包含一個“數(shù)據(jù)庫集合”。數(shù)據(jù)庫中的數(shù)據(jù)有兩種性質(zhì):1、數(shù)據(jù)整體性 數(shù)據(jù)庫是一個單位或是一個應(yīng)用領(lǐng)域的通用數(shù)據(jù)處理系統(tǒng)。數(shù)據(jù)庫中的數(shù)據(jù)是從全局觀點出發(fā)建立的,他按一定的數(shù)據(jù)模型進行組織、描述和存儲。其結(jié)構(gòu)基于數(shù)據(jù)間的自然聯(lián)系,從而可提供一切必要的存取路徑,且數(shù)據(jù)不再針對某一應(yīng)用,而是面向全組織,具有整體的結(jié)構(gòu)化特征。 2、數(shù)據(jù)共享性 數(shù)據(jù)庫中的數(shù)據(jù)是為眾多用戶所共享其信息而建立的,已經(jīng)擺脫了具體程序的限制和制約。不同的用戶可以按各自的用法使用數(shù)據(jù)庫中的數(shù)據(jù);多個用戶可以同時共享數(shù)據(jù)庫中的數(shù)據(jù)資源,即不同的用戶可以同時存取數(shù)據(jù)庫中的同一
58、個數(shù)據(jù)。數(shù)據(jù)共享性不僅滿足了各用戶對信息內(nèi)容的要求,同時也滿足了各用戶之間信息通信的要求。數(shù)據(jù)庫的基本結(jié)構(gòu)分為三層: 1.物理數(shù)據(jù)層它是數(shù)據(jù)庫的最內(nèi)層,是物理存貯設(shè)備上實際存儲的數(shù)據(jù)的集合。這些數(shù)據(jù)是原始數(shù)據(jù),是用戶加工的對象,由內(nèi)部模式描述的指令操作處理的位串、字符和字組成。 2.概念數(shù)據(jù)層它是數(shù)據(jù)庫的中間一層,是數(shù)據(jù)庫的整體邏輯表示。指出了每個數(shù)據(jù)的邏輯定義及數(shù)據(jù)間的邏輯聯(lián)系,是存貯記錄的集合。它所涉及的是數(shù)據(jù)庫所有對象的邏輯關(guān)系,而不是它們的物理情況,是數(shù)據(jù)庫管理員概念下的數(shù)據(jù)庫。 3.邏輯數(shù)據(jù)層它是用戶所看到和使用的數(shù)據(jù)庫,表示了一個或一些特定用戶使用的數(shù)據(jù)集合,即邏輯記錄的集合。 數(shù)
59、據(jù)庫不同層次之間的聯(lián)系是通過映射進行轉(zhuǎn)換的。主要特點: (1)實現(xiàn)數(shù)據(jù)共享。 數(shù)據(jù)共享包含所有用戶可同時存取數(shù)據(jù)庫中的數(shù)據(jù),也包括用戶可以用各種方式通過接口使用數(shù)據(jù)庫,并提供數(shù)據(jù)共享。 (2)減少數(shù)據(jù)的冗余度。 同文件系統(tǒng)相比,由于數(shù)據(jù)庫實現(xiàn)了數(shù)據(jù)共享,從而避免了用戶各自建立應(yīng)用文件。減少了大量重復(fù)數(shù)據(jù),減少了數(shù)據(jù)冗余,維護了數(shù)據(jù)的一致性。 (3)數(shù)據(jù)的獨立性。 數(shù)據(jù)的獨立性包括數(shù)據(jù)庫中數(shù)據(jù)庫的邏輯結(jié)構(gòu)和應(yīng)用程序相互獨立,也包括數(shù)據(jù)物理結(jié)構(gòu)的變化不影響數(shù)據(jù)的邏輯結(jié)構(gòu)。 (4)數(shù)據(jù)實現(xiàn)集中控制。 文件管理方式中,數(shù)據(jù)處于一種分散的狀態(tài),不同的用戶或同一用戶在不同處理中其文件之間毫無關(guān)系。利用數(shù)據(jù)
60、庫可對數(shù)據(jù)進行集中控制和管理,并通過數(shù)據(jù)模型表示各種數(shù)據(jù)的組織以及數(shù)據(jù)間的聯(lián)系。 (5)數(shù)據(jù)一致性和可維護性,以確保數(shù)據(jù)的安全性和可靠性。 主要包括:安全性控制:以防止數(shù)據(jù)丟失、錯誤更新和越權(quán)使用;完整性控制:保證數(shù)據(jù)的正確性、有效性和相容性;并發(fā)控制:使在同一時間周期內(nèi),允許對數(shù)據(jù)實現(xiàn)多路存取,又能防止用戶之間的不正常交互作用;故障的發(fā)現(xiàn)和恢復(fù):由數(shù)據(jù)庫管理系統(tǒng)提供一套方法,可及時發(fā)現(xiàn)故障和修復(fù)故障,從而防止數(shù)據(jù)被破壞 (6)故障恢復(fù)。 由數(shù)據(jù)庫管理系統(tǒng)提供一套方法,可及時發(fā)現(xiàn)故障和修復(fù)故障,從而防止數(shù)據(jù)被破壞。數(shù)據(jù)庫系統(tǒng)能盡快恢復(fù)數(shù)據(jù)庫系統(tǒng)運行時出現(xiàn)的故障,可能是物理上或是邏輯上的錯誤。比
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度工程建設(shè)項目協(xié)議范本
- 2024年商用經(jīng)營權(quán)租賃協(xié)議
- 7.5相對論時空觀與牛頓力學(xué)的局限性(含答案)-2022-2023學(xué)年高一物理同步精講義(人教2019必修第二冊 )
- 2024年國際貨物運輸銷售協(xié)議模板
- 兒童撫養(yǎng)權(quán)轉(zhuǎn)移協(xié)議模板2024年
- 2024年無房產(chǎn)證私房買賣協(xié)議范本
- 2024年度個人汽車租賃協(xié)議范本
- 2024年酒吧業(yè)主權(quán)益轉(zhuǎn)讓協(xié)議
- BF2024年二手房銷售協(xié)議模板
- 2024年度龍湖房地產(chǎn)開發(fā)建設(shè)協(xié)議
- 北京市商業(yè)地產(chǎn)市場細分研究
- 2023-2024學(xué)年重慶市大足區(qū)八年級(上)期末數(shù)學(xué)試卷(含解析)
- 肺結(jié)節(jié)科普知識宣講
- 網(wǎng)絡(luò)直播營銷
- 2024年節(jié)能減排培訓(xùn)資料
- 2024傳染病預(yù)防ppt課件完整版
- 2024年華融實業(yè)投資管理有限公司招聘筆試參考題庫含答案解析
- 2024年1月普通高等學(xué)校招生全國統(tǒng)一考試適應(yīng)性測試(九省聯(lián)考)歷史試題(適用地區(qū):貴州)含解析
- 《寬容待人 正確交往》班會課件
- HSK五級必過考前輔導(dǎo)課件
- 小兒胃腸功能紊亂護理查房課件
評論
0/150
提交評論