版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
科研大數(shù)據(jù)平臺(tái)項(xiàng)目技術(shù)建議書(shū) 第26頁(yè)目錄TOC\o"1-4"\h\z\u1.概述 11.1.項(xiàng)目背景 11.2.需求分析 11.3.方案簡(jiǎn)述 11.4.方案價(jià)值 22.設(shè)計(jì)方案 42.1.設(shè)計(jì)原則 42.2.系統(tǒng)架構(gòu) 52.3.分布式數(shù)據(jù)庫(kù)系統(tǒng) 52.3.1.MPP+ShareNothing架構(gòu) 52.3.2.核心組件 62.3.3.高可用 62.3.4.高性能在線擴(kuò)展 72.3.5.高性能數(shù)據(jù)加載 82.3.6.OLAP函數(shù) 92.4.Hadoop集群 92.4.1.Hadoop企業(yè)版 92.4.2.HIVE分布式內(nèi)存分析引擎 102.4.3.HBASE分布式實(shí)時(shí)在線數(shù)據(jù)處理引擎 102.4.4.Stream流處理引擎 112.5.服務(wù)器虛擬化 112.5.1.設(shè)計(jì)理念 122.5.2.系統(tǒng)結(jié)構(gòu) 132.5.3.服務(wù)器虛擬化系統(tǒng)組成 142.6.云管理平臺(tái) 152.6.1.浪潮云海OS架構(gòu)圖 152.6.2.浪潮云海OS實(shí)現(xiàn)的功能 152.7.爬蟲(chóng)軟件 182.7.1.建設(shè)網(wǎng)絡(luò)爬蟲(chóng)私有云 182.7.2.高效的分布式、協(xié)同化數(shù)據(jù)采集模式 202.7.3.爬蟲(chóng)路線規(guī)劃能力 212.7.4.爬蟲(chóng)調(diào)度和負(fù)荷規(guī)劃能力 212.7.5.極致的開(kāi)放兼容平臺(tái) 22.為什么需要開(kāi)放的可集成的網(wǎng)頁(yè)抓取軟件 22.集搜客網(wǎng)絡(luò)爬蟲(chóng)的開(kāi)放接口 223.方案優(yōu)勢(shì) 233.1.浪潮MPP數(shù)據(jù)庫(kù)優(yōu)勢(shì) 233.1.1.高性能 233.1.2.高性?xún)r(jià)比 233.1.3.高易用性 233.2.浪潮Hadoop優(yōu)勢(shì) 233.3.浪潮云計(jì)算優(yōu)勢(shì) 233.3.1.運(yùn)營(yíng)效率提升 233.3.2.服務(wù)水平提高 243.3.3.實(shí)現(xiàn)數(shù)據(jù)中心的綠色節(jié)能 243.3.4.分工細(xì)化使得終端用戶(hù)只需專(zhuān)注自身業(yè)務(wù) 243.3.5.降低總體擁有成本(TCO) 243.3.6.可靠性提高 253.3.7.性能強(qiáng)大 253.3.8.擴(kuò)展性好 253.3.9.可管理性 254.推薦配置 26概述項(xiàng)目背景通過(guò)本項(xiàng)目的實(shí)施與建設(shè),在以服務(wù)科研工作為主導(dǎo)的原則下,基于高性能大數(shù)據(jù)軟硬件設(shè)施,構(gòu)建多樣化、專(zhuān)業(yè)化、柔性化的科研數(shù)據(jù)服務(wù)應(yīng)用平臺(tái)。利用大數(shù)據(jù)技術(shù),滿(mǎn)足不同層級(jí)用戶(hù)的需求,達(dá)到改善我校的科學(xué)研究環(huán)境與學(xué)科建設(shè)、提升我校的科研管理水平、提升我校針對(duì)物流行業(yè)的科研服務(wù)能力等目標(biāo)。本項(xiàng)目分階段實(shí)施,初期重點(diǎn)在于建立一個(gè)能滿(mǎn)足業(yè)務(wù)需求的基于大數(shù)據(jù)的計(jì)算、存儲(chǔ)以及通訊的硬件環(huán)境平臺(tái)和數(shù)據(jù)管理架構(gòu)。需求分析要構(gòu)建多樣化、專(zhuān)業(yè)化、柔性化的科研數(shù)據(jù)服務(wù)應(yīng)用平臺(tái),現(xiàn)有架構(gòu)很難承擔(dān)日益增長(zhǎng)的數(shù)據(jù)分析需求。迫切需要尋求一種全新的系統(tǒng)架構(gòu)幫助我校滿(mǎn)足日常業(yè)務(wù)及數(shù)據(jù)分析。并有效利用數(shù)據(jù)的價(jià)值,提高系統(tǒng)安全、系統(tǒng)高可用等。需求分析如下: 尋求新的系統(tǒng)架構(gòu),從物理架構(gòu)、數(shù)據(jù)架構(gòu)、業(yè)務(wù)模型架構(gòu)及應(yīng)用架構(gòu)等幾方面滿(mǎn)足業(yè)務(wù)需求。 從全局及用戶(hù)長(zhǎng)遠(yuǎn)利益考慮,規(guī)劃先進(jìn)的大數(shù)據(jù)平臺(tái)底層架構(gòu),滿(mǎn)足大數(shù)據(jù)時(shí)代的業(yè)務(wù)需求。 保護(hù)用戶(hù)現(xiàn)有資源,考慮系統(tǒng)現(xiàn)狀以及現(xiàn)有資源利用等,在系統(tǒng)建設(shè)中,充分考慮現(xiàn)有資源利舊。 系統(tǒng)多平臺(tái)整合,建設(shè)統(tǒng)一的底層平臺(tái),提高系統(tǒng)安全等保級(jí)別,規(guī)避系統(tǒng)單點(diǎn)風(fēng)險(xiǎn)。方案簡(jiǎn)述根據(jù)對(duì)背景及需求的分析,為了幫助我校能夠更好地在大數(shù)據(jù)時(shí)代支撐大規(guī)模數(shù)據(jù)的應(yīng)用,分別從物理架構(gòu)及數(shù)據(jù)架構(gòu)建設(shè)科研大數(shù)據(jù)平臺(tái)系統(tǒng)。 物理架構(gòu):采用虛擬化技術(shù),為客戶(hù)打造IaaS底層系統(tǒng)架構(gòu)。 數(shù)據(jù)架構(gòu):采用與客戶(hù)習(xí)慣使用的SQL這種更易于理解的、交互性更好的訪問(wèn)接口,架構(gòu)需要以MPP數(shù)據(jù)庫(kù)及計(jì)算框架為核心,將MPP運(yùn)算調(diào)度引擎完全融入非關(guān)系型運(yùn)算調(diào)度框架,實(shí)現(xiàn)可以同時(shí)調(diào)度關(guān)系運(yùn)算和非關(guān)系運(yùn)算的調(diào)度引擎,構(gòu)建統(tǒng)一的結(jié)構(gòu)化信息提取和數(shù)據(jù)類(lèi)型轉(zhuǎn)換框架,將非結(jié)構(gòu)化數(shù)據(jù)映射為關(guān)系模型,實(shí)現(xiàn)面向關(guān)系模型的全數(shù)據(jù)統(tǒng)一視圖,從而平滑的實(shí)現(xiàn)MPP數(shù)據(jù)庫(kù)和Hadoop的統(tǒng)一調(diào)度和處理,為新型的基礎(chǔ)軟件平臺(tái)和上層應(yīng)用提供數(shù)據(jù)服務(wù)。方案價(jià)值彈性擴(kuò)展采用虛擬化技術(shù)做為底層資源抽象技術(shù),為科研大數(shù)據(jù)平臺(tái)動(dòng)態(tài)提供基礎(chǔ)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源,同時(shí)運(yùn)用云平臺(tái)計(jì)算技術(shù)為云數(shù)據(jù)中心提供統(tǒng)一的管理和運(yùn)維平臺(tái),實(shí)現(xiàn)資源彈性服務(wù)、流轉(zhuǎn)和管理。動(dòng)態(tài)資源分配云計(jì)算被認(rèn)為是分布式處理、并行處理以及網(wǎng)絡(luò)計(jì)算的進(jìn)一步發(fā)展,其使用虛擬機(jī)力度方式,根據(jù)應(yīng)用的動(dòng)態(tài)對(duì)資源進(jìn)行增刪。快速響應(yīng)以并行計(jì)算為核心,按需調(diào)度計(jì)算任務(wù)分配和計(jì)算資源,并提供從數(shù)據(jù)導(dǎo)入整合處理、計(jì)算模型設(shè)定到計(jì)算結(jié)果輸出、多形式展現(xiàn)、應(yīng)用API等完整的數(shù)據(jù)處理服務(wù)。高可用采用分布式存儲(chǔ)系統(tǒng),數(shù)據(jù)互備,快速備份和恢復(fù)。支持各種數(shù)據(jù)處理、計(jì)算模型,滿(mǎn)足不同領(lǐng)域、不同特點(diǎn)的計(jì)算需求。多副本容錯(cuò),數(shù)據(jù)安全無(wú)憂。數(shù)據(jù)分析構(gòu)建大數(shù)據(jù)存儲(chǔ)應(yīng)用平臺(tái),圍繞大數(shù)據(jù)應(yīng)用構(gòu)建大數(shù)據(jù)處理基礎(chǔ)軟件平臺(tái)的關(guān)鍵問(wèn)題是如何解決結(jié)構(gòu)化和非結(jié)構(gòu)化不同類(lèi)型的數(shù)據(jù)融合,以及實(shí)現(xiàn)不同類(lèi)型數(shù)據(jù)處理模式的整合。單一的MPP數(shù)據(jù)庫(kù)或Hadoop產(chǎn)品已經(jīng)很難滿(mǎn)足研究所對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)融合的業(yè)務(wù)需求。應(yīng)用云云計(jì)算并不是一個(gè)突兀全新的理念,云計(jì)算的快速發(fā)展,是需求驅(qū)動(dòng)、技術(shù)進(jìn)步和商業(yè)模式轉(zhuǎn)變共同發(fā)展和促進(jìn)的結(jié)果。隨著我校大規(guī)模計(jì)算和海量數(shù)據(jù)存儲(chǔ)需求的出現(xiàn),使得科研大數(shù)據(jù)平臺(tái)對(duì)IT基礎(chǔ)設(shè)施的需求也隨之增長(zhǎng)。云計(jì)算技術(shù)的應(yīng)用能夠給我校在節(jié)約投資、節(jié)省空間、簡(jiǎn)化管理、數(shù)據(jù)高度共享和系統(tǒng)高度可靠等方面提供幫助。因此,本方案的核心價(jià)值在于將這兩種方式的界限在實(shí)際應(yīng)用部署中打破,形成以全數(shù)據(jù)處理為核心,垂直整合操作系統(tǒng)、MPP數(shù)據(jù)庫(kù)、Hadoop、統(tǒng)一數(shù)據(jù)服務(wù)的基礎(chǔ)軟件平臺(tái)解決方案。設(shè)計(jì)方案設(shè)計(jì)原則為保證科研大數(shù)據(jù)平臺(tái)項(xiàng)目建設(shè)的成功,在技術(shù)方案中我們主要遵循了以下幾個(gè)原則: 先進(jìn)性與成熟技術(shù)的集合:在設(shè)備選型設(shè)計(jì)中,我們要考慮采用當(dāng)今業(yè)界的主流技術(shù),同時(shí)要選用在眾多關(guān)鍵領(lǐng)域中已經(jīng)得到充分驗(yàn)證的產(chǎn)品,以保證系統(tǒng)的更高的可靠性和可用性; 高效的可管理性:對(duì)于日益復(fù)雜的IT系統(tǒng)架構(gòu),對(duì)系統(tǒng)的管理要求越來(lái)越重,浪潮所推薦的解決方案整體的設(shè)計(jì)思想是利于以后的管理; 性能價(jià)格比:保證充分滿(mǎn)足用戶(hù)的性能的同時(shí),考慮最優(yōu)的性?xún)r(jià)比;堅(jiān)持系統(tǒng)建設(shè)投資經(jīng)濟(jì)合理性的原則; 高可靠性:全冗余設(shè)計(jì),避免任何的單點(diǎn)故障,以保證系統(tǒng)的可靠性,同時(shí)便于維護(hù),減少計(jì)劃內(nèi)停機(jī)次數(shù); 高安全性:保證系統(tǒng)數(shù)據(jù)的安全,做到重要數(shù)據(jù)冗余存儲(chǔ),提供備份、容災(zāi)及應(yīng)急設(shè)計(jì); 平滑擴(kuò)展性:基于統(tǒng)一標(biāo)準(zhǔn)設(shè)計(jì)的硬件平臺(tái)架構(gòu),具有平滑擴(kuò)展的能力,可在未來(lái)方便的根據(jù)客戶(hù)需求增添新的硬件; 開(kāi)放性與標(biāo)準(zhǔn)化:采用標(biāo)準(zhǔn)的技術(shù)以保證與其他廠家的產(chǎn)品相兼容; 產(chǎn)品利用率:考慮現(xiàn)有設(shè)備的使用情況,提高產(chǎn)品的利用率。降低總體擁有成本、提升服務(wù)水平、管理系統(tǒng)風(fēng)險(xiǎn)是整個(gè)硬件平臺(tái)方案的設(shè)計(jì)戰(zhàn)略思想。本次設(shè)計(jì)滿(mǎn)足當(dāng)前階段應(yīng)用需求的同時(shí),具備升級(jí)擴(kuò)容能力,繼續(xù)滿(mǎn)足下一階段的應(yīng)用需求。系統(tǒng)架構(gòu)分布式數(shù)據(jù)庫(kù)系統(tǒng)MPP+ShareNothing架構(gòu)分布式數(shù)據(jù)庫(kù)采用完全并行的MPP+ShareNothing的分布式扁平架構(gòu),這種架構(gòu)中的每一個(gè)節(jié)點(diǎn)(Node)都是獨(dú)立的、自給的、節(jié)點(diǎn)之間對(duì)等,而且整個(gè)系統(tǒng)中不存在單點(diǎn)瓶頸,具有非常強(qiáng)的擴(kuò)展性。核心組件分布式數(shù)據(jù)庫(kù)產(chǎn)品總共包含三大核心組件,即GCluster、GCware和GNode。GCWare用于各節(jié)點(diǎn)GCluster和GNode實(shí)例間共享信息,GCluster負(fù)責(zé)集群調(diào)度,每個(gè)GNode就是最基本的存儲(chǔ)和計(jì)算單元。GCluster:GCluster負(fù)責(zé)SQL的解析、SQL優(yōu)化、分布式執(zhí)行計(jì)劃生成、執(zhí)行調(diào)度。GCWare:GCWare用于各節(jié)點(diǎn)GCluster和GNode實(shí)例間共享信息(包括集群結(jié)構(gòu),節(jié)點(diǎn)狀態(tài),節(jié)點(diǎn)資源狀態(tài)等信息),以及控制多副本數(shù)據(jù)操作時(shí),提供可操作節(jié)點(diǎn),并在多副本操作中,控制各節(jié)點(diǎn)數(shù)據(jù)一致性狀態(tài)。GCWare對(duì)于集群的管理工作是以節(jié)點(diǎn)為基本單位的。GNode:GNode是GCluster中最基本的存儲(chǔ)和計(jì)算單元。GNode是由GCWare管理的一個(gè)8a實(shí)例,每個(gè)GCluster節(jié)點(diǎn)上有一個(gè)GNode實(shí)例運(yùn)行。GNode負(fù)責(zé)集群數(shù)據(jù)在節(jié)點(diǎn)上的實(shí)際存儲(chǔ),并從GCluster接收和執(zhí)行經(jīng)分解的SQL執(zhí)行計(jì)劃,執(zhí)行結(jié)果返回給GCluster。數(shù)據(jù)加載時(shí),GNode直接從集群加載服務(wù)接收數(shù)據(jù),寫(xiě)入本地存儲(chǔ)空間。高可用分布式數(shù)據(jù)庫(kù)通過(guò)SafeGroup組內(nèi)冗余機(jī)制來(lái)保證集群的高可用特性: 每個(gè)SafeGroup可提供1個(gè)或2個(gè)副本數(shù)據(jù)冗余; SafeGroup內(nèi)數(shù)據(jù)副本自動(dòng)同步; 復(fù)制引擎自動(dòng)管理數(shù)據(jù)同步; 采用扁平架構(gòu),每一個(gè)節(jié)點(diǎn)都可以充當(dāng)主控節(jié)點(diǎn),避免了Master節(jié)點(diǎn)產(chǎn)生的瓶頸以及當(dāng)Master與Stand-by宕機(jī)產(chǎn)生的整個(gè)集群不可用。高性能在線擴(kuò)展分布式數(shù)據(jù)庫(kù)具備在線擴(kuò)展技術(shù):通過(guò)SafeGroup動(dòng)態(tài)擴(kuò)展集群節(jié)點(diǎn),實(shí)際可擴(kuò)展到64×3(192)個(gè)節(jié)點(diǎn);每個(gè)節(jié)點(diǎn)可以處理100TB有效數(shù)據(jù),同時(shí)提供計(jì)算和存儲(chǔ)能力;GCware負(fù)責(zé)新節(jié)點(diǎn)的數(shù)據(jù)同步。因?yàn)槔顺狈植际綌?shù)據(jù)庫(kù)采用高性能單節(jié)點(diǎn)的MPP扁平架構(gòu),因此進(jìn)行集群擴(kuò)展時(shí),可以保證平滑擴(kuò)展和性能的線性增長(zhǎng)特性。高性能數(shù)據(jù)加載數(shù)據(jù)加載功能作為浪潮分布式數(shù)據(jù)庫(kù)的一部分而存在,目的是將用戶(hù)從其他數(shù)據(jù)源得到的原始數(shù)據(jù)文件,按照某種加載規(guī)則分發(fā)至集群節(jié)點(diǎn),集群各節(jié)點(diǎn)接收數(shù)據(jù)入庫(kù)保存到本地磁盤(pán)。分布式數(shù)據(jù)庫(kù)支持?jǐn)?shù)據(jù)高效并行加載,數(shù)據(jù)加載速度隨節(jié)點(diǎn)的擴(kuò)展而呈現(xiàn)線性增加。集群加載采用C/S架構(gòu),包括數(shù)據(jù)分發(fā)服務(wù)器和數(shù)據(jù)分發(fā)客戶(hù)端兩個(gè)應(yīng)用程序。數(shù)據(jù)分發(fā)服務(wù)器接收到客戶(hù)端的數(shù)據(jù)加載請(qǐng)求后,服務(wù)器端負(fù)責(zé)原始數(shù)據(jù)文件切分和數(shù)據(jù)文件的下發(fā);各節(jié)點(diǎn)調(diào)用本地的集群加載服務(wù)接收數(shù)據(jù)入庫(kù)并保存到本地磁盤(pán)。OLAP函數(shù)分布式數(shù)據(jù)庫(kù)提供OLAP函數(shù),用于支持復(fù)雜的分析操作,側(cè)重對(duì)決策人員和高層管理人員的決策支持。可根據(jù)分析人員的要求,快速靈活地進(jìn)行大數(shù)據(jù)量的復(fù)雜查詢(xún)處理,以便他們準(zhǔn)確掌握企業(yè)的經(jīng)營(yíng)狀況,了解被服務(wù)對(duì)象的需求,制定正確的方案。Hadoop集群Hadoop技術(shù)給客戶(hù)提供穩(wěn)定的、可靠的、易用的大數(shù)據(jù)設(shè)計(jì)架構(gòu),其組件包括::Hadoop企業(yè)版,HIVE分布式內(nèi)存分析引擎,HBASE分布式實(shí)時(shí)在線數(shù)據(jù)處理引擎和Stream流處理引擎。其特點(diǎn)如下:Hadoop企業(yè)版Hadoop企業(yè)版具有高模塊化和松耦合的五層架構(gòu),針對(duì)不同的應(yīng)用領(lǐng)域通過(guò)組件之間的靈活組合與高效協(xié)作來(lái)提供定制化的支撐。 數(shù)據(jù)存儲(chǔ)層:基于HDFS2.2的大數(shù)據(jù)存儲(chǔ)和在線服務(wù)體系,支持ErasureCode,在副本數(shù)降低至1.5倍的情況下,提高了可靠性,可同時(shí)容忍四個(gè)數(shù)據(jù)塊丟失,支持可靠存儲(chǔ)TB級(jí)到數(shù)十PB級(jí)的數(shù)據(jù)量。 資源管理層:缺省采用下一代資源管理框架YARN進(jìn)行資源的分配和調(diào)度,支持同時(shí)運(yùn)行多個(gè)計(jì)算框架。 計(jì)算引擎層:采用Map/Reduce2完成大部分離線批處理計(jì)算任務(wù)。 數(shù)據(jù)分析與挖掘?qū)樱褐С蛛x線批量SQL統(tǒng)計(jì),支持R語(yǔ)言以及機(jī)器學(xué)習(xí)算法庫(kù)Mahout。 數(shù)據(jù)集成層:Sqoop支持從DB到Hadoop的數(shù)據(jù)遷移,F(xiàn)lume支持從日志系統(tǒng)采集數(shù)據(jù)。HIVE分布式內(nèi)存分析引擎HIVE內(nèi)存分析引擎提供大數(shù)據(jù)的交互式SQL統(tǒng)計(jì)和R語(yǔ)言挖掘能力。它具有以下一些特點(diǎn): 高性能:HIVE支持將二維數(shù)據(jù)表緩存入獨(dú)立的分布式內(nèi)存(或SSD)中,建立列式存儲(chǔ)、分區(qū)/分塊和索引,采用改進(jìn)后的ApacheSpark作為執(zhí)行引擎,SQL執(zhí)行性能比ApacheHadoop/Hive快10~100倍左右。 更強(qiáng)的SQL支持:HIVE同時(shí)兼容OraclePL/SQL和HiveQL語(yǔ)法,自動(dòng)識(shí)別不同語(yǔ)法,支持存儲(chǔ)過(guò)程和函數(shù),支持常用Oracle擴(kuò)展函數(shù)。完整的SQL支持幫助用戶(hù)平滑地從原有關(guān)系數(shù)據(jù)庫(kù)遷移到大數(shù)據(jù)平臺(tái)。 更強(qiáng)的統(tǒng)計(jì)分析能力:用戶(hù)可以通過(guò)RStudio或者R命令行訪問(wèn)存儲(chǔ)在分布式內(nèi)存中的數(shù)據(jù),R語(yǔ)言中數(shù)千個(gè)統(tǒng)計(jì)算法可以和浪潮HIVE提供的分布式并行數(shù)據(jù)挖掘算法交替混合使用,為各行業(yè)進(jìn)行大數(shù)據(jù)挖掘提供了易用而強(qiáng)大的分析工具。 支持廣泛的BI和報(bào)表工具:HIVE可以和常用的BI工具對(duì)接,包括Tableau,SAPBusinessObjects,OracleOBIEE等,用戶(hù)無(wú)需編程就可以方便地為大數(shù)據(jù)創(chuàng)建美麗的報(bào)表,通過(guò)浪潮HIVE提供的高速大數(shù)據(jù)統(tǒng)計(jì)分析能力提高決策效率; 高擴(kuò)展能力:Inceptor可以隨著集群規(guī)模的擴(kuò)展,線性擴(kuò)展處理能力,可以支持從GB到數(shù)百TB的數(shù)據(jù)處理。HBASE分布式實(shí)時(shí)在線數(shù)據(jù)處理引擎HBASE實(shí)時(shí)在線數(shù)據(jù)處理引擎以ApacheHBase為基礎(chǔ),是企業(yè)建立高并發(fā)的在線業(yè)務(wù)系統(tǒng)的最佳選擇。它有以下特點(diǎn): 多種數(shù)據(jù)類(lèi)型支持:HBASE支持從GB到數(shù)十PB數(shù)據(jù)的處理,支持廣泛的數(shù)據(jù)類(lèi)型,包括對(duì)結(jié)構(gòu)化記錄、半結(jié)構(gòu)化文本、圖數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)(圖片、音頻、二進(jìn)制文檔等)的存儲(chǔ)、搜索、統(tǒng)計(jì)和分析。 高速數(shù)據(jù)處理能力:HBASE支持高速的數(shù)據(jù)檢索、搜索和統(tǒng)計(jì);根據(jù)索引進(jìn)行檢索的延時(shí)在數(shù)毫秒到數(shù)百毫秒量級(jí);支持上億的并發(fā)用戶(hù)同時(shí)進(jìn)行數(shù)據(jù)插入、修改、查詢(xún)和檢索;支持對(duì)文本建立增量全文索引并且支持秒級(jí)的全文關(guān)鍵字搜索。 高效OLAP和批量統(tǒng)計(jì):HBASE為HIVE引擎提供高效數(shù)據(jù)掃描接口,通過(guò)HIVE的擴(kuò)展SQL語(yǔ)法,充分利用浪潮HBASE的內(nèi)部數(shù)據(jù)結(jié)構(gòu)以及全局/輔助索引進(jìn)行SQL執(zhí)行加速,可以滿(mǎn)足高速的OLAP數(shù)據(jù)分析應(yīng)用需求;同時(shí)也支持高速的SQL離線批處理,性能接近于存儲(chǔ)在HDFS上的相同數(shù)據(jù)的統(tǒng)計(jì)。 高效圖計(jì)算:HBASE提供構(gòu)造圖形的API,幫助用戶(hù)構(gòu)造由上億頂點(diǎn)組成的復(fù)雜大圖,同時(shí)提供專(zhuān)有的高效圖算法,包括關(guān)聯(lián)網(wǎng)絡(luò)的高速分析。Stream流處理引擎Stream實(shí)時(shí)流處理引擎以SparkStreaming為基礎(chǔ)。SparkStreaming提供了強(qiáng)大的流計(jì)算(Streaming)表達(dá)能力,支持DAG(有向無(wú)環(huán)圖)計(jì)算模型;而Hadoop類(lèi)的批處理系統(tǒng)只能通過(guò)外圍組件連接多個(gè)批次的作業(yè)完成復(fù)雜多階段作業(yè)處理,系統(tǒng)復(fù)雜而低效。Streaming中的復(fù)雜應(yīng)用邏輯以DAG形式的服務(wù)常駐在集群內(nèi)存中,生產(chǎn)系統(tǒng)的消息通過(guò)實(shí)時(shí)消息隊(duì)列進(jìn)入計(jì)算集群,在集群內(nèi)以Pipeline方式被依次處理,完成ETL、特征提取、策略檢查、分析告警等復(fù)雜服務(wù)計(jì)算,最終輸出到HBase等存儲(chǔ)集群、告警頁(yè)面、實(shí)時(shí)展示頁(yè)面等。系統(tǒng)具備強(qiáng)擴(kuò)展性、強(qiáng)容錯(cuò)、低延遲、高吞吐等特點(diǎn),成熟應(yīng)用于傳感器網(wǎng)絡(luò)數(shù)據(jù)處理、服務(wù)監(jiān)控、反作弊、實(shí)時(shí)報(bào)表系統(tǒng)等業(yè)務(wù)。Streaming支持Kafka,Flume等常見(jiàn)消息隊(duì)列或采集工具。服務(wù)器虛擬化設(shè)計(jì)理念浪潮云海?服務(wù)器虛擬化系統(tǒng)是浪潮云計(jì)算解決方案的核心基礎(chǔ),主要負(fù)責(zé)完成底層物理資源的虛擬融合、按需分配與高效管理,可以顯著提高資源交付的敏捷性和靈活性,提升資源的使用效率,為上層業(yè)務(wù)提供不間斷地資源保障與可伸縮的資源供給。浪潮云海?服務(wù)器虛擬化系統(tǒng)為計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)提供了完整的虛擬化解決方案,支持資源的靈活分配、動(dòng)態(tài)組合、在線調(diào)整與智能調(diào)度,并以虛擬機(jī)或虛擬集群的形式將最終資源呈現(xiàn)給用戶(hù)。該系統(tǒng)既可以單獨(dú)使用,也可以配合浪潮云計(jì)算管理平臺(tái)來(lái)構(gòu)建更大范圍的云數(shù)據(jù)中心或者IaaS系統(tǒng),同時(shí)本系統(tǒng)還提供了開(kāi)放接口,支持二次開(kāi)發(fā),方便與其他管理平臺(tái)整合。在設(shè)計(jì)理念上,整個(gè)系統(tǒng)遵循了以下幾個(gè)原則: 命令查詢(xún)職責(zé)分離(CQRS)CQRS原則基于一個(gè)簡(jiǎn)單的事實(shí):資源(對(duì)象)的行為只有兩種,即命令(Command)和查詢(xún)(Query)。命令可以改變資源的狀態(tài),而查詢(xún)不會(huì)?;谶@一原則,系統(tǒng)可以分為兩個(gè)部分,命令部分和查詢(xún)部分,并采用不同的技術(shù)加以實(shí)現(xiàn)和優(yōu)化,簡(jiǎn)化整個(gè)系統(tǒng)的設(shè)計(jì),提升整個(gè)系統(tǒng)的性能和可維護(hù)性。 獨(dú)立的認(rèn)證服務(wù)服務(wù)器虛擬化是一個(gè)復(fù)雜的軟件系統(tǒng),由多個(gè)不同功能的模塊組合而成,安全認(rèn)證是每個(gè)模塊必須的邏輯。獨(dú)立的認(rèn)證服務(wù)從系統(tǒng)層面劃分出來(lái)一個(gè)切面,實(shí)現(xiàn)集中式的認(rèn)證管理,其他模塊只需與認(rèn)證服務(wù)交互,將復(fù)雜的認(rèn)證過(guò)程交由認(rèn)證服務(wù)處理,這一過(guò)程對(duì)模塊而言是透明的。獨(dú)立的認(rèn)證服務(wù)對(duì)于實(shí)現(xiàn)SSO和系統(tǒng)集成具有重要的意義。 獨(dú)立的監(jiān)控服務(wù)系統(tǒng)狀態(tài)是進(jìn)行決策的數(shù)據(jù)基礎(chǔ),這些數(shù)據(jù)多數(shù)是由監(jiān)控服務(wù)提供的,監(jiān)控服務(wù)幾乎存在于任何大型的軟件系統(tǒng)之中。浪潮服務(wù)器虛擬化系統(tǒng)將監(jiān)控服務(wù)剝離出來(lái),以易復(fù)用、易擴(kuò)展、輕量級(jí)為目標(biāo)獨(dú)立發(fā)展,使其可以在不同的系統(tǒng)中提供監(jiān)控服務(wù)。監(jiān)控服務(wù)為服務(wù)器虛擬化系統(tǒng)監(jiān)控資源狀態(tài)提供了極高的靈活性和擴(kuò)展性,大大縮短了系統(tǒng)故障的排查時(shí)間。 業(yè)務(wù)數(shù)據(jù)與監(jiān)控?cái)?shù)據(jù)分離業(yè)務(wù)數(shù)據(jù)與監(jiān)控?cái)?shù)據(jù)的分離,主要體現(xiàn)在存儲(chǔ)、UI顯示以及持久化三個(gè)方面。從存儲(chǔ)方面來(lái)說(shuō),業(yè)務(wù)數(shù)據(jù)和監(jiān)控?cái)?shù)據(jù)的分離主要體現(xiàn)在存儲(chǔ)方式,前者存到關(guān)系數(shù)據(jù)庫(kù),后者存到NOSQL數(shù)據(jù)庫(kù)。從UI顯示來(lái)說(shuō),UI顯示的主要是業(yè)務(wù)數(shù)據(jù),通過(guò)查詢(xún)關(guān)系數(shù)據(jù)庫(kù)獲取,而對(duì)于監(jiān)控?cái)?shù)據(jù),則通過(guò)查詢(xún)NOSQL數(shù)據(jù)庫(kù)中獲取告警信息。從持久化方面的講,業(yè)務(wù)數(shù)據(jù)具有關(guān)系性強(qiáng)和邏輯緊密,體現(xiàn)用戶(hù)的業(yè)務(wù)需求,需要較高的可靠性和穩(wěn)定性,因此需要持久化到關(guān)系型數(shù)據(jù)庫(kù)中較為合適,這樣既保證了業(yè)務(wù)關(guān)系又確保了數(shù)據(jù)的穩(wěn)定性;而監(jiān)控?cái)?shù)據(jù)強(qiáng)調(diào)實(shí)時(shí)性,體現(xiàn)被監(jiān)控對(duì)象的當(dāng)前狀況,數(shù)據(jù)關(guān)系性不強(qiáng),結(jié)構(gòu)單一,而且不需要進(jìn)行持久化,因此使用易擴(kuò)展、可用性高的內(nèi)存型數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)這類(lèi)數(shù)據(jù)比較合適,以最大程度保證數(shù)據(jù)的實(shí)時(shí)性。 資源操作與資源狀態(tài)維護(hù)分離資源操作與資源狀態(tài)維護(hù)分離主要體現(xiàn)在虛擬機(jī)的管理上,資源操作基于業(yè)務(wù)流程,而資源狀態(tài)維護(hù)基于事務(wù)的原子操作實(shí)現(xiàn),例如通過(guò)監(jiān)控?cái)?shù)據(jù)更新虛擬機(jī)狀態(tài),并維護(hù)數(shù)據(jù)的一致性。這種機(jī)制在虛擬機(jī)管理中體現(xiàn)最為明顯,主要包括狀態(tài)切換和虛擬機(jī)并發(fā)操作處理。首先,對(duì)于狀態(tài)切換失敗處理,如果當(dāng)前存在其他工作流正在處理當(dāng)前虛擬機(jī),將終止整個(gè)工作流并記錄失敗原因;否則強(qiáng)制同步業(yè)務(wù)狀態(tài),使之與監(jiān)控狀態(tài)相同,然后終止整個(gè)工作流并記錄失敗原因。其次,阻止對(duì)同一個(gè)虛擬機(jī)的并發(fā)操作,以避免上述的第一個(gè)可能分支出現(xiàn)。系統(tǒng)結(jié)構(gòu)服務(wù)器虛擬化系統(tǒng)可分為四個(gè)層次,分別為虛擬層、應(yīng)用層、展示層、運(yùn)維層,虛擬層是整個(gè)系統(tǒng)的基礎(chǔ),在虛擬層之上構(gòu)建了應(yīng)用層,實(shí)現(xiàn)高級(jí)的業(yè)務(wù)邏輯,展示層用于對(duì)外交互,為了便于系統(tǒng)運(yùn)維,專(zhuān)門(mén)劃分了運(yùn)維層,涵蓋系統(tǒng)的安裝、部署和安全管理。虛擬層直接構(gòu)建在物理硬件之上,在功能上主要是完成物理資源的池化與重新組合:基于Hypervisor實(shí)現(xiàn)計(jì)算資源的池化,基于分布式存儲(chǔ)/集中式存儲(chǔ)實(shí)現(xiàn)存儲(chǔ)資源的池化,基于虛擬交換機(jī)和虛擬路由器實(shí)現(xiàn)網(wǎng)絡(luò)資源的池化,經(jīng)由這幾種技術(shù)形成了統(tǒng)一的計(jì)算池、存儲(chǔ)池和網(wǎng)絡(luò)池,在此基礎(chǔ)之上通過(guò)按需組合構(gòu)建虛擬主機(jī)和虛擬集群對(duì)外提供服務(wù)。虛擬層同時(shí)提供了資源調(diào)度(DRS/DPM/HA)、鏡像管理和資源管理等功能,為上層實(shí)現(xiàn)高級(jí)功能提供支持。應(yīng)用層基于虛擬層構(gòu)建高級(jí)功能,通過(guò)組合虛擬層的功能模塊支撐系統(tǒng)的業(yè)務(wù)邏輯實(shí)現(xiàn),這些主要的業(yè)務(wù)邏輯包括系統(tǒng)任務(wù)管理、物理資源管理(主機(jī)、存儲(chǔ)、網(wǎng)絡(luò))、系統(tǒng)配置、虛機(jī)、模板管理以及容災(zāi)備份等,這些高級(jí)功能全部封裝在應(yīng)用層實(shí)現(xiàn)。展示層是系統(tǒng)對(duì)外的交互接口,提供WEBGUI界面和API接口兩種形式,方便系統(tǒng)集成和二次開(kāi)發(fā);在運(yùn)維層,提供資源訪問(wèn)控制、PXE安裝和在線升級(jí)等功能,簡(jiǎn)化系統(tǒng)運(yùn)維。服務(wù)器虛擬化系統(tǒng)組成上圖中計(jì)算資源和存儲(chǔ)資源均由控制中心統(tǒng)一控制與管理。服務(wù)器虛擬化系統(tǒng)包括三條通信鏈路:控制網(wǎng),用于控制中心與各計(jì)算節(jié)點(diǎn)、存儲(chǔ)節(jié)點(diǎn)及文件系統(tǒng)主控間傳輸資源信息與控制指令;數(shù)據(jù)網(wǎng),連接計(jì)算節(jié)點(diǎn)與存儲(chǔ)系統(tǒng),用于傳輸虛擬機(jī)正常所需的存儲(chǔ)數(shù)據(jù);業(yè)務(wù)網(wǎng),資源租戶(hù)及云業(yè)務(wù)用戶(hù)通過(guò)此網(wǎng)訪問(wèn)虛擬機(jī)及部署在虛擬機(jī)里的業(yè)務(wù),業(yè)務(wù)網(wǎng)通過(guò)VLAN等技術(shù)實(shí)現(xiàn)隔離。云管理平臺(tái)浪潮云海OS是浪潮自主設(shè)計(jì)的系統(tǒng)架構(gòu),自主研發(fā)的國(guó)產(chǎn)云資源管理平臺(tái),支持底層VMWarevSphere平臺(tái)及浪潮自研虛擬化產(chǎn)品iVirtual的異構(gòu)虛擬資源池,對(duì)已部署的vSphere環(huán)境無(wú)需停機(jī)即可被云海OS接管,實(shí)現(xiàn)對(duì)現(xiàn)有vSphere環(huán)境的無(wú)縫兼容,實(shí)現(xiàn)安全可控。浪潮云海OS的架構(gòu)秉承模塊化設(shè)計(jì)理念,結(jié)合浪潮對(duì)云數(shù)據(jù)中心客戶(hù)需求的理解,以超越用戶(hù)所想,提供超值的用戶(hù)體驗(yàn)而完成的系統(tǒng)設(shè)計(jì)。浪潮云海OS架構(gòu)圖浪潮云海OS實(shí)現(xiàn)的功能云資源管理(1) 資源池管理:通過(guò)添加vCenter/iVirtual將多個(gè)異構(gòu)資源池整合成一個(gè)更大的資源池,進(jìn)行統(tǒng)一管理和資源分配。資源池管理包括對(duì)資源池的擴(kuò)充和縮減,暫停使用某些資源等操作。(2) 資源池集群管理:集群是云資源的載體,是資源池分配的組成單位。通過(guò)集群管理功能實(shí)現(xiàn)為不同用戶(hù)提供不同等級(jí)的資源服務(wù),擴(kuò)充資源池容量??芍匦聦?dǎo)入資源池的新增集群,也可暫停在某些集群上新建虛擬數(shù)據(jù)中心及應(yīng)用服務(wù)。(3) 虛擬數(shù)據(jù)中心管理:虛擬數(shù)據(jù)中心(vdc)界定了組織能夠使用資源的范圍,組織管理員可將vdc資源分配給組織內(nèi)用戶(hù)。虛擬數(shù)據(jù)中心管理包括創(chuàng)建、導(dǎo)入,暫停使用、重新啟用等操作。(4) 虛擬網(wǎng)絡(luò)管理:虛擬網(wǎng)絡(luò)允許組織及組織用戶(hù)像定義物理網(wǎng)絡(luò)一樣定義組織自己內(nèi)部的網(wǎng)絡(luò),以及與組織外網(wǎng)絡(luò)的連接方式,包括直連、NAT等,組織內(nèi)部網(wǎng)絡(luò)的地址分配、VLAN劃分等。(5) 應(yīng)用服務(wù)管理:應(yīng)用服務(wù)(vApp)是指提供某種服務(wù)的一個(gè)或多個(gè)通過(guò)特定網(wǎng)絡(luò)連接在一起的虛擬機(jī)集合??赏ㄟ^(guò)服務(wù)模板、新建虛擬機(jī)2種方式創(chuàng)建應(yīng)用服務(wù)。操作包括開(kāi)啟、關(guān)閉、重啟、刪除、復(fù)制、更改所有者、導(dǎo)出為模板等操作。(6) 虛擬機(jī)管理:?jiǎn)为?dú)對(duì)組成vApp的虛擬機(jī)操作。功能包括虛擬機(jī)控制臺(tái)、開(kāi)啟、關(guān)閉、重啟、掛起、恢復(fù)、刪除、快照、復(fù)制、移動(dòng)至其他應(yīng)用服務(wù)中、導(dǎo)出為模板等操作。(7)模板/鏡像管理:通過(guò)FTP方式將應(yīng)用服務(wù)模板或操作系統(tǒng)安裝鏡像上傳至組織存儲(chǔ)空間下,用于部署應(yīng)用服務(wù)和安裝操作系統(tǒng),也可將服務(wù)模板和鏡像文件共享給其他組織使用。業(yè)務(wù)管理(1) 業(yè)務(wù)審批:審批系統(tǒng)用戶(hù)提交的虛擬數(shù)據(jù)中心(vdc)、虛擬網(wǎng)絡(luò)、虛擬應(yīng)用(vApp)申請(qǐng)。(2) 業(yè)務(wù)流程管理:審批流程引擎實(shí)現(xiàn)虛擬數(shù)據(jù)中心、虛擬網(wǎng)絡(luò)、虛擬應(yīng)用服務(wù)審批流程的自定義。(3) 審批歷史查詢(xún):查詢(xún)每個(gè)訂單的詳細(xì)信息,包括訂單內(nèi)容,審批流程上的各節(jié)點(diǎn)的審批情況,包括審批人、審批時(shí)間和是否通過(guò)等。計(jì)費(fèi)管理(1) 計(jì)費(fèi)設(shè)置:設(shè)置用戶(hù)帳戶(hù)余額的提醒周期及提醒方式(郵件、短信);定義資源單價(jià)(元/資源度量單位/小時(shí))。(2) 計(jì)費(fèi)等級(jí):資源按一定標(biāo)準(zhǔn)分為不同的等級(jí),各等級(jí)的資源計(jì)費(fèi)系數(shù)不同,組織分為不同的等級(jí),不同等級(jí)的組織計(jì)費(fèi)系數(shù)也不同;系統(tǒng)可自行設(shè)置資源等級(jí)、組織等級(jí)對(duì)應(yīng)的折扣率,從而為不同的用戶(hù)提供不同的等級(jí)的服務(wù)。(3) 組織賬戶(hù)充值:為組織賬戶(hù)充值,并可查詢(xún)充值歷史。(4) 查詢(xún)組織賬戶(hù)余額:查詢(xún)各組織的帳戶(hù)余額。(5)查詢(xún)組織賬單:查詢(xún)組織每月的消費(fèi)金額及費(fèi)用明細(xì)。管理監(jiān)控(1) 監(jiān)控視圖:顯示服務(wù)器、網(wǎng)絡(luò)設(shè)備、數(shù)據(jù)庫(kù)、操作系統(tǒng)、web服務(wù)、虛擬化資源組及組內(nèi)各節(jié)點(diǎn)的狀態(tài)統(tǒng)計(jì)信息。(2) 資源管理:開(kāi)啟、關(guān)閉、重啟服務(wù)器組內(nèi)所有機(jī)器或某些服務(wù)器;配置服務(wù)器BMC信息;獲取并顯示網(wǎng)絡(luò)設(shè)備、數(shù)據(jù)庫(kù)、web服務(wù)、操作系統(tǒng)、虛擬化資源的相關(guān)狀態(tài)參數(shù)信息。(3) 節(jié)能管理:節(jié)能管理在不影響正常業(yè)務(wù)的情況下,通過(guò)降低服務(wù)器CPU頻率來(lái)降低服務(wù)器組或服務(wù)器的能耗。功能包括節(jié)能策略制定及服務(wù)器組或服務(wù)器的能耗曲線顯示。(4) 告警分析:分時(shí)段顯示服務(wù)器、網(wǎng)絡(luò)設(shè)備、數(shù)據(jù)庫(kù)、操作系統(tǒng)、web服務(wù)、虛擬化資源等的各監(jiān)測(cè)器返回的異常告警信息。(5) 報(bào)表中心:圖表顯示服務(wù)器、網(wǎng)絡(luò)設(shè)備、數(shù)據(jù)庫(kù)、操作系統(tǒng)、web服務(wù)、虛擬化資源等的資源狀態(tài)統(tǒng)計(jì)、各監(jiān)測(cè)項(xiàng)狀態(tài)。(6) 系統(tǒng)配置:監(jiān)控管理功能模塊的基礎(chǔ)性配置。如添加資源(服務(wù)器、網(wǎng)絡(luò)設(shè)備、操作系統(tǒng)、web服務(wù)、數(shù)據(jù)庫(kù)、虛擬化資源、),為資源選擇添加監(jiān)測(cè)項(xiàng),通知時(shí)間表設(shè)置,告警通知聯(lián)系人設(shè)置,備份與恢復(fù)當(dāng)前的監(jiān)控管理配置信息。系統(tǒng)管理(1) 組織管理:組織是用戶(hù)的集合,是虛擬數(shù)據(jù)中心(VDC)及vApp的所有者,也是資源使用費(fèi)用的承擔(dān)者。組織管理功能包括添加組織、編輯、啟用、禁用、刪除等操作。(2) 用戶(hù)管理:系統(tǒng)管理員管理各組織的組織管理員,各組織管理員管理其組織內(nèi)部的組織用戶(hù)。用戶(hù)管理操作包括:添加、刪除、修改基礎(chǔ)信息、重置密碼、啟用、禁用等操作。(3) 角色管理:角色是系統(tǒng)操作的集合,界定了相同角色的用戶(hù)擁有的操作權(quán)限范圍。角色管理包括:添加、編輯、刪除等操作。(4)日志查詢(xún):根據(jù)時(shí)間、組織、用戶(hù)、操作對(duì)象等條件查詢(xún)相關(guān)聯(lián)的操作記錄。(5) 系統(tǒng)設(shè)置:配置系統(tǒng)發(fā)送提醒、告警類(lèi)信息的郵件、短信信息。導(dǎo)出、刪除日志,設(shè)置日志停留時(shí)長(zhǎng)。(6) 序列號(hào)管理:系統(tǒng)序列號(hào)分為正式序列號(hào)和試用期序列號(hào),序列號(hào)到期后,系統(tǒng)將無(wú)法使用,需重新注冊(cè)。(7) LDAP管理:云管理平臺(tái)可與用戶(hù)現(xiàn)有的LDAP系統(tǒng)集成,實(shí)現(xiàn)基于LDAP的身份驗(yàn)證訪問(wèn)機(jī)制,LDAP的用戶(hù)可作為云平臺(tái)的用戶(hù)來(lái)管理或使用云資源。云管理平臺(tái)為客戶(hù)帶來(lái)的收益使用浪潮云海?云數(shù)據(jù)中心操作系統(tǒng),客戶(hù)可以獲得以下收益: 節(jié)約軟件采購(gòu)及服務(wù)成本浪潮提供云數(shù)據(jù)中心整體解決方案,減少項(xiàng)目集成費(fèi)用。全國(guó)產(chǎn)的云管理平臺(tái),相對(duì)于國(guó)外產(chǎn)品價(jià)格相對(duì)較低,相對(duì)于基于開(kāi)源的云管理平臺(tái),浪潮云海云數(shù)據(jù)中心管理平臺(tái)更加安全、穩(wěn)定。 管理運(yùn)營(yíng)效率提升云數(shù)據(jù)中心管理平臺(tái)集成虛擬化管理及服務(wù)器、網(wǎng)絡(luò)設(shè)備等硬件設(shè)備和操作系統(tǒng)、web服務(wù)、數(shù)據(jù)庫(kù)等中間件的監(jiān)控與管理功能,幾乎涵蓋了數(shù)據(jù)中心所有的可管理對(duì)象范疇,一套系統(tǒng)即可運(yùn)營(yíng)整個(gè)云數(shù)據(jù)中心。云數(shù)據(jù)中心管理平臺(tái)能夠?qū)崿F(xiàn)對(duì)多虛擬化平臺(tái)的統(tǒng)一管理。通過(guò)將多虛擬化平臺(tái)集中到統(tǒng)一管理門(mén)戶(hù),形成一個(gè)大的資源池,有效解決異構(gòu)資源池管理問(wèn)題。 服務(wù)水平提高浪潮云海云數(shù)據(jù)中心管理平臺(tái)實(shí)現(xiàn)基礎(chǔ)設(shè)施資源的服務(wù)化(IaaS),以應(yīng)用服務(wù)形式對(duì)外提供服務(wù),利用服務(wù)模板可實(shí)現(xiàn)業(yè)務(wù)的快速部署,顯著縮短應(yīng)用系統(tǒng)上線時(shí)間,幫助客戶(hù)快速實(shí)現(xiàn)自身價(jià)值。爬蟲(chóng)軟件建設(shè)網(wǎng)絡(luò)爬蟲(chóng)私有云GooSeeker網(wǎng)絡(luò)爬蟲(chóng)軟件由兩部分組成:網(wǎng)絡(luò)爬蟲(chóng)云服務(wù)器、網(wǎng)絡(luò)爬蟲(chóng)執(zhí)行單元。高效的分布式、協(xié)同化數(shù)據(jù)采集模式集搜客GooSeeker用戶(hù)無(wú)論分布在哪里,都可以享受集搜客網(wǎng)絡(luò)爬蟲(chóng)的服務(wù),在線版用戶(hù)可以創(chuàng)立一個(gè)工作組,邀請(qǐng)其他在線版用戶(hù)加入工作組,為相同的采集目的協(xié)同完成數(shù)據(jù)采集任務(wù)。企業(yè)版將這個(gè)能力完全開(kāi)放,可以完全控制和管理分布式和協(xié)同化數(shù)據(jù)采集模式。在企業(yè)內(nèi)部可以劃分成多個(gè)工作組工作組可以用后臺(tái)管理程序隨時(shí)根據(jù)工作目標(biāo)直接創(chuàng)建工作組大小不受限制工作組的劃分和管理完全受控GooSeeker網(wǎng)絡(luò)爬蟲(chóng)可以由服務(wù)器統(tǒng)一調(diào)度,企業(yè)版可以用定制開(kāi)發(fā)的更周密的負(fù)荷分擔(dān)算法控制每個(gè)網(wǎng)絡(luò)爬蟲(chóng)的運(yùn)行,而且根據(jù)網(wǎng)絡(luò)爬蟲(chóng)的運(yùn)行狀態(tài)合理調(diào)配工作量,對(duì)于失敗的網(wǎng)絡(luò)爬蟲(chóng)可以及時(shí)予以隔離,甚至在其他網(wǎng)管系統(tǒng)的輔助下,監(jiān)控網(wǎng)絡(luò)爬蟲(chóng)計(jì)算機(jī)各個(gè)層面的運(yùn)行狀況。爬蟲(chóng)路線規(guī)劃能力集搜客GooSeeker網(wǎng)絡(luò)爬蟲(chóng)沿著線索擴(kuò)展爬行范圍,而且不限廣度和深度。免費(fèi)在線版用戶(hù)在MS謀數(shù)臺(tái)的爬蟲(chóng)路線工作臺(tái)上規(guī)劃爬蟲(chóng)路線,主要能力就是:從抓取到的網(wǎng)址上建立下一級(jí)線索,這是深度方向,同時(shí)抓取到的下級(jí)線索不只一個(gè),那么就是在廣度方向進(jìn)行擴(kuò)展??傊?,網(wǎng)絡(luò)爬蟲(chóng)抓取網(wǎng)頁(yè)數(shù)據(jù)的時(shí)候,把一些網(wǎng)址作為廣度或者深度方向擴(kuò)展的線索。免費(fèi)在線版只能在定義抓取規(guī)則的時(shí)候規(guī)劃爬蟲(chóng)路線;而企業(yè)版可以有更多規(guī)劃爬蟲(chóng)路線的選擇。在抓取結(jié)果清洗和入庫(kù)的時(shí)候在深度和廣度方向生成線索,這是企業(yè)版常用的方式,此時(shí),企業(yè)版GooSeeker具有最大的靈活性和控制力,比如,可以用入庫(kù)腳本程序任意控制爬蟲(chóng)路線的生成,可以替換URL中的參數(shù),可以根據(jù)URL地址規(guī)律批量生成網(wǎng)址,可以在一批網(wǎng)址中根據(jù)一定規(guī)則進(jìn)行篩選等等。最大的靈活性在于爬蟲(chóng)路線的生成時(shí)間。當(dāng)網(wǎng)頁(yè)抓取用于探索性研究的時(shí)候,可以根據(jù)需要隨時(shí)延伸爬蟲(chóng)深度和廣度范圍,不必在第一次數(shù)據(jù)清洗過(guò)程就把所有線索都生成好了,其實(shí)那時(shí)可能還不知道是否有必要做爬行范圍延展。而且也容易實(shí)現(xiàn)同一個(gè)網(wǎng)址用于多個(gè)抓取主題,分別為不同的研究目的服務(wù)。爬蟲(chóng)調(diào)度和負(fù)荷規(guī)劃能力集搜客GooSeeker網(wǎng)絡(luò)爬蟲(chóng)是一款高性能網(wǎng)絡(luò)爬蟲(chóng)軟件,多臺(tái)計(jì)算機(jī)可為同一目標(biāo)協(xié)同工作,同一臺(tái)計(jì)算機(jī)上能運(yùn)行多個(gè)線程并行抓取網(wǎng)頁(yè)。那么就需要規(guī)劃每個(gè)網(wǎng)絡(luò)爬蟲(chóng)線程的工作內(nèi)容和工作負(fù)荷,以及啟動(dòng)和停止時(shí)間等等。免費(fèi)在線版GooSeeker網(wǎng)絡(luò)爬蟲(chóng)主要依賴(lài)周期性網(wǎng)頁(yè)抓取調(diào)度文件crontab.xml管理網(wǎng)絡(luò)爬蟲(chóng),比如,一臺(tái)計(jì)算機(jī)上啟動(dòng)多少個(gè)線程,每個(gè)線程在什么時(shí)間啟動(dòng),每一批包含多少網(wǎng)頁(yè),抓取什么主題,按照什么順序等等。crontab.xml文件是預(yù)先生成好的,比如,使用crontab.xml生成器。預(yù)先生成的缺點(diǎn)是調(diào)度爬蟲(chóng)不夠靈活,如果爬幾十個(gè)網(wǎng)站,這個(gè)缺點(diǎn)并不顯著,如果要爬幾百上千個(gè)網(wǎng)站,要把所有的網(wǎng)站目標(biāo)都編制到crontab文件,將是十分繁瑣的。企業(yè)版GooSeeker網(wǎng)絡(luò)爬蟲(chóng)可以接受服務(wù)器下發(fā)的任務(wù)安排,也就是crontab文件中的每個(gè)step都可以通過(guò)云服務(wù)器下發(fā)下來(lái),那么在云服務(wù)器上可以實(shí)現(xiàn)一個(gè)復(fù)雜的調(diào)度和負(fù)荷規(guī)劃程序,配以爬蟲(chóng)管理程序,能夠細(xì)致地為每個(gè)爬蟲(chóng)安排合適的抓取任務(wù)。極致的開(kāi)放兼容平臺(tái)為什么需要開(kāi)放的可集成的網(wǎng)頁(yè)抓取軟件如果網(wǎng)絡(luò)爬蟲(chóng)只是大型IT系統(tǒng)的一個(gè)模塊,集搜客GooSeeker網(wǎng)絡(luò)爬蟲(chóng)能否無(wú)縫地集成到各種IT系統(tǒng)中?此類(lèi)IT系統(tǒng)對(duì)網(wǎng)絡(luò)爬蟲(chóng)的需求主要包括:IT系統(tǒng)可以控制網(wǎng)絡(luò)爬蟲(chóng)的爬行范圍IT系統(tǒng)可以控制網(wǎng)絡(luò)爬蟲(chóng)什么時(shí)候啟動(dòng),每次抓取的批次大小等IT系統(tǒng)需要及時(shí)獲得爬取結(jié)果,由IT系統(tǒng)負(fù)責(zé)內(nèi)容管理、數(shù)據(jù)挖掘等信息處理過(guò)程IT系統(tǒng)能夠監(jiān)控爬蟲(chóng)的成功率,可及時(shí)修正失敗狀態(tài),比如,重新啟動(dòng)抓取失敗的線索集搜客網(wǎng)絡(luò)爬蟲(chóng)的開(kāi)放接口顯然,一個(gè)封閉的網(wǎng)絡(luò)爬蟲(chóng)軟件不能滿(mǎn)足上述需求,而集搜客網(wǎng)絡(luò)爬蟲(chóng)提供標(biāo)準(zhǔn)的開(kāi)放的API接口,也可以直接從數(shù)據(jù)庫(kù)層面進(jìn)行對(duì)接,完美解決無(wú)縫集成問(wèn)題。方案優(yōu)勢(shì)浪潮MPP數(shù)據(jù)庫(kù)優(yōu)勢(shì)高性能 列存儲(chǔ)技術(shù)在大大減少I(mǎi)/O的同時(shí),能顯著提高查詢(xún)性能; 智能索引大幅提高查詢(xún)性能; 高速的數(shù)據(jù)加載性能; 高效的并行SQL執(zhí)行計(jì)劃。高性?xún)r(jià)比采用多種壓縮技術(shù),減少存儲(chǔ)數(shù)據(jù)所需的空間,可以將所用空間減少1~20倍,并相應(yīng)地提高了I/O性能;采用高壓縮技術(shù),能顯著減少存儲(chǔ)開(kāi)銷(xiāo),從而幫助客戶(hù)減少了數(shù)據(jù)庫(kù)整體投入成本。高易用性易于實(shí)施和管理,只需要傳統(tǒng)數(shù)據(jù)庫(kù)1/10的管理成本,與主要商業(yè)智能工具兼容,如Cognos、SAPBO、BIEE、SAS、SPSS。浪潮Hadoop優(yōu)勢(shì) 支持高性能交互式數(shù)據(jù)分析,無(wú)需等待,實(shí)時(shí)生成統(tǒng)計(jì)結(jié)果。性能比開(kāi)源Hadoop產(chǎn)品快10到100倍; 提供PL/SQL以及R語(yǔ)言,支持更強(qiáng)的統(tǒng)計(jì)分析能力,應(yīng)用遷移非常方便; 支持廣泛的BI和報(bào)表工具,無(wú)需編程,方便應(yīng)用遷移。浪潮云計(jì)算優(yōu)勢(shì)方案中虛擬化軟件采用浪潮云海IncloudSphere,國(guó)產(chǎn)自主研發(fā),并具備當(dāng)下最主流先進(jìn)的虛擬化功能。云管理平臺(tái)部分采用浪潮云海IncloudManager,全自主知識(shí)產(chǎn)權(quán),突破了云數(shù)據(jù)中心資源管理、調(diào)度、多資源池融合等多項(xiàng)核心技術(shù),實(shí)現(xiàn)了真正的安全可控。運(yùn)營(yíng)效率提升通過(guò)云海實(shí)現(xiàn)系統(tǒng)的搭建與部署,大大提高運(yùn)營(yíng)效率。其工作效率的提升不是以百分之多少來(lái)衡量的,而是幾倍甚至數(shù)十倍的提升。傳統(tǒng)的一個(gè)操作系統(tǒng)的準(zhǔn)備物理環(huán)境可能需要幾個(gè)小時(shí)甚至幾天,而虛擬化的環(huán)境只需要十幾分鐘。事實(shí)上,只需要人工的幾個(gè)鼠標(biāo)點(diǎn)擊。其余的時(shí)間都是系統(tǒng)自動(dòng)工作而不需要人工的干預(yù)。最快的時(shí)候,搭建一個(gè)數(shù)百操作系統(tǒng)的應(yīng)用人工也只需要配置十幾分鐘。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 福建師范大學(xué)《多媒體信息編輯》2023-2024學(xué)年第一學(xué)期期末試卷
- 河北省承德市隆化縣第二中學(xué)2023-2024學(xué)年九年級(jí)上學(xué)期期中考試道德與法治試題
- 運(yùn)動(dòng)會(huì)開(kāi)幕式主持詞
- 部分非常規(guī)作業(yè)許可證(樣表)易燃易爆介質(zhì)臨時(shí)接管線
- 畢業(yè)典禮活動(dòng)小結(jié)
- 2024屆云南省鹽津縣第三中學(xué)高三沖刺模擬考試(5月)數(shù)學(xué)試題
- 2024屆四川省成都市經(jīng)開(kāi)區(qū)實(shí)驗(yàn)中學(xué)高考數(shù)學(xué)試題5月沖刺題
- 水循環(huán)課件新人教版
- 2024年宿遷道路旅客運(yùn)輸駕駛員從業(yè)資格模擬試題
- 2024年陜西客運(yùn)資格證考試題
- 浙教版七年級(jí)上冊(cè)科學(xué)12科學(xué)測(cè)量綜合練習(xí)(答案)
- 廣東省東莞市2024-2025學(xué)年三年級(jí)上學(xué)期期中測(cè)試數(shù)學(xué)試卷
- 【課件】海水的性質(zhì)課件高中地理人教版(2019)必修一
- 五年級(jí)上冊(cè)數(shù)學(xué)課件-5.3 小數(shù)除以整數(shù)丨蘇教版 (共15張PPT)
- 工程師評(píng)審——專(zhuān)業(yè)技術(shù)人員(聘任期滿(mǎn))考核登記表 范例
- 英語(yǔ)專(zhuān)業(yè)四級(jí)聽(tīng)寫(xiě)120篇
- 給學(xué)生一片藍(lán)天——以人為本,培養(yǎng)學(xué)生的綜合素養(yǎng)
- 合作框架協(xié)議》事宜的法律意見(jiàn)書(shū)
- 低壓電工作業(yè)培訓(xùn)課件
- 公共基礎(chǔ)知識(shí)(公文)真題1000題含答案(最新整理)
- (完整版)排水溝施工技術(shù)交底
評(píng)論
0/150
提交評(píng)論