基于國產(chǎn)軟硬件的行業(yè)大數(shù)據(jù)體系架構(gòu)研究_第1頁
基于國產(chǎn)軟硬件的行業(yè)大數(shù)據(jù)體系架構(gòu)研究_第2頁
基于國產(chǎn)軟硬件的行業(yè)大數(shù)據(jù)體系架構(gòu)研究_第3頁
基于國產(chǎn)軟硬件的行業(yè)大數(shù)據(jù)體系架構(gòu)研究_第4頁
基于國產(chǎn)軟硬件的行業(yè)大數(shù)據(jù)體系架構(gòu)研究_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、    基于國產(chǎn)軟硬件的行業(yè)大數(shù)據(jù)體系架構(gòu)研究    孫業(yè)志+何有鈞【摘 要】面對當(dāng)前云計算和大數(shù)據(jù)的浪潮,面向行業(yè)應(yīng)用的大數(shù)據(jù)系統(tǒng)技術(shù)發(fā)展日趨明顯,浪潮作為國產(chǎn)軟硬件核心信息裝備和整體解決方案提供商,在為行業(yè)客戶的云計算和大數(shù)據(jù)系統(tǒng)應(yīng)用方面形成了豐富的技術(shù)積累。本文從行業(yè)大數(shù)據(jù)的應(yīng)用需求出發(fā),基于行業(yè)大數(shù)據(jù)對安全和技術(shù)自主可控的要求,設(shè)計了行業(yè)大數(shù)據(jù)的硬件基礎(chǔ)架構(gòu)、軟件基礎(chǔ)架構(gòu)和安全體系。相關(guān)的技術(shù)成果已經(jīng)在多個行業(yè)得到應(yīng)用,并能滿足行業(yè)對大數(shù)據(jù)管理和分析的需求,項目成果具有應(yīng)用推廣價值?!娟P(guān)鍵詞】大數(shù)據(jù) 體系架構(gòu) 國產(chǎn)化 自主可控1 前言在全球已經(jīng)全

2、面進入信息時代的今天,數(shù)據(jù)已經(jīng)成為與水、石油、天然氣同等重要的國家戰(zhàn)略資源。idc報告指出,截止2011年底,全球的數(shù)據(jù)量已達到了1.8萬億gb,未來十年還將增長50倍,迅速積累的海量數(shù)據(jù)蘊含著重大的商業(yè)價值和社會價值。作為云計算領(lǐng)域的重要延伸,大數(shù)據(jù)在行業(yè)內(nèi)的熱度在不斷升溫。2012年我國大數(shù)據(jù)市場規(guī)模為4.5億元,同比增長40.6%。idc預(yù)計,全球大數(shù)據(jù)2016年將達238億美元,中國市場規(guī)模未來5年將增長近7倍。大數(shù)據(jù)技術(shù)最近幾年在迅速發(fā)展,國內(nèi)外的廠商和組織已經(jīng)推出了多種大數(shù)據(jù)解決方案。在金融領(lǐng)域,已經(jīng)利用大數(shù)據(jù)技術(shù)解決詐騙檢驗、it風(fēng)險管理和自助服務(wù)等問題,未來大數(shù)據(jù)技術(shù)將會起到越

3、來越重要的作用。目前國內(nèi)外很多金融機構(gòu)如摩根大通、花旗銀行,以及風(fēng)電、太陽能發(fā)電、石化企業(yè)等制造業(yè)企業(yè)也開始采用大數(shù)據(jù)的解決方案進行設(shè)備監(jiān)控、優(yōu)化和故障預(yù)防1。由于國內(nèi)外針對商業(yè)機構(gòu)系統(tǒng)頻頻發(fā)生的安全事件,國內(nèi)各行業(yè)的信息化目前正在向基于國產(chǎn)軟硬件和自主可控方向發(fā)展,大數(shù)據(jù)也是目前國內(nèi)各行業(yè)重點關(guān)注的技術(shù)。很多廠商和企業(yè)紛紛進行技術(shù)研究、方案準(zhǔn)備和內(nèi)部測試,并逐步開始在歷史數(shù)據(jù)查詢、分析,非結(jié)構(gòu)化數(shù)據(jù)檢索等方向上開始使用2。從最近幾年的趨勢來看,安全、自主可控的大數(shù)據(jù)解決方案在大數(shù)據(jù)的行業(yè)領(lǐng)域有非常大的市場需求。國內(nèi)的很多關(guān)鍵行業(yè)應(yīng)用,如金融信息系統(tǒng)的許多關(guān)鍵設(shè)備都沒有采用國產(chǎn)產(chǎn)品,導(dǎo)致無法準(zhǔn)

4、確判斷其安全隱患,這使得我國信息化建設(shè)的安全底數(shù)不清。迫切需要國內(nèi)it企業(yè)和行業(yè)共同研發(fā)自主可控、自主知識產(chǎn)權(quán)的信息系統(tǒng)、信息環(huán)境和信息安全產(chǎn)品。針對這種狀況國家銀監(jiān)會提出了“自主可控,持續(xù)發(fā)展,科技創(chuàng)新”的三大戰(zhàn)略3,國產(chǎn)的信息化產(chǎn)品,在金融領(lǐng)域的應(yīng)用已經(jīng)開始了破冰之旅,事實也已經(jīng)開始證明,自主可控的軟硬件產(chǎn)品,在關(guān)鍵行業(yè)領(lǐng)域的應(yīng)用是可行的,但是缺乏完整的經(jīng)過驗證的整體解決方案和實際案例,無法復(fù)制和推廣。本文基于國產(chǎn)軟硬件產(chǎn)品進行自主可控的大數(shù)據(jù)體系架構(gòu)研究要打破國外技術(shù)依賴,掌握技術(shù)命脈。針對現(xiàn)有行業(yè)關(guān)鍵系統(tǒng)多數(shù)是直接引用國外成熟技術(shù),關(guān)鍵、復(fù)雜、核心的應(yīng)用系統(tǒng)大多是建立在非自主產(chǎn)品上,形

5、成了對國外的技術(shù)嚴重依賴的現(xiàn)狀,本文的研究將可以在大數(shù)據(jù)領(lǐng)域打破國外技術(shù)的壟斷,形成有競爭力的國產(chǎn)解決方案。2 主要研究內(nèi)容本文主要研究面向行業(yè)應(yīng)用、基于自主可控基礎(chǔ)軟硬件產(chǎn)品的大數(shù)據(jù)體系架構(gòu),研究內(nèi)容主要包括:2.1 行業(yè)大數(shù)據(jù)應(yīng)用的需求分析2.1.1 面向多源異構(gòu)業(yè)務(wù)數(shù)據(jù)的采集和管理需求在客戶信息為例,行業(yè)內(nèi)的集團企業(yè)經(jīng)常會面臨急需解決的數(shù)據(jù)集成問題,企業(yè)存在大分散的客戶信息資源,并由各系統(tǒng)自主采集和維護,沒有良好的共享體系,客戶信息、訂單信息等異構(gòu)的存在不同數(shù)據(jù)源中,沒有橫跨多個業(yè)務(wù)領(lǐng)域的客戶信息的統(tǒng)一管理和分發(fā)體系。因此,要求統(tǒng)一建設(shè)行業(yè)信息大數(shù)據(jù)管理系統(tǒng),是一套為所有在線業(yè)務(wù)服務(wù)的、

6、整合的行業(yè)信息大數(shù)據(jù)管理與分析系統(tǒng),并具有行業(yè)先進水平的大數(shù)據(jù)管理和分析能力,以滿足企業(yè)形成市場競爭優(yōu)勢的要求。2.1.2 針對海量異構(gòu)大數(shù)據(jù)的高性能存儲需求通過調(diào)研發(fā)現(xiàn)很多大型企業(yè)的信息系統(tǒng)已經(jīng)積累了大量的業(yè)務(wù)數(shù)據(jù),而且隨著業(yè)務(wù)拓展的需求,大數(shù)據(jù)分析的數(shù)據(jù)源已經(jīng)不僅局限于企業(yè)內(nèi)部,如對客戶流失分析或者產(chǎn)品銷售趨勢預(yù)測,就還需要互聯(lián)網(wǎng)社交網(wǎng)絡(luò)或者電商消費信息等。這些多源、異構(gòu)、海量的數(shù)據(jù)對于大數(shù)據(jù)平臺的存儲提出了極高的要求。以某大型企業(yè)集團的客戶和生產(chǎn)經(jīng)營信息為例,數(shù)據(jù)規(guī)模已經(jīng)達到上百tb容量,且相關(guān)數(shù)據(jù)量,特別是生產(chǎn)線的傳感器數(shù)據(jù)和用戶行為等數(shù)據(jù)還在持續(xù)大幅增長。2.1.3 多樣性大數(shù)據(jù)分析

7、和處理需求大數(shù)據(jù)分析系統(tǒng)不但集成了多個系統(tǒng)的數(shù)據(jù)源,未來大數(shù)據(jù)分析應(yīng)用系統(tǒng)也會被多個部門,多個業(yè)務(wù)中使用,而且不同的部門和不同業(yè)務(wù)對大數(shù)據(jù)分析處理 的響應(yīng)時間、數(shù)據(jù)量、結(jié)果準(zhǔn)確程度以及具體的分析算法都會有很大差異。因此需要完整的對這些分析和處理需求進行分析,以便于設(shè)計滿足當(dāng)前和潛在需求的大數(shù)據(jù)分析處理架構(gòu)。2.1.4 行業(yè)大數(shù)據(jù)的安全監(jiān)控和隱私保護需求面向行業(yè)和企業(yè)的大數(shù)據(jù)平臺都將集成來自于不同數(shù)據(jù)源的數(shù)據(jù),其中有很多數(shù)據(jù)會涉及商業(yè)秘密和個人隱私等安全問題,所以這些數(shù)據(jù)在大數(shù)據(jù)平臺中應(yīng)該被合理的授權(quán)使用,并有完善的安全監(jiān)控和隱私保護措施,以避免引起數(shù)據(jù)泄密或者隱私糾紛。2.1.5 行業(yè)大數(shù)據(jù)平

8、臺的業(yè)務(wù)應(yīng)用和可視化展現(xiàn)的需求大數(shù)據(jù)分析的結(jié)果是更好的支持業(yè)務(wù)推廣和運營決策,所以企業(yè)大數(shù)據(jù)分析還是要和現(xiàn)有的業(yè)務(wù)應(yīng)用緊密結(jié)合,并且以簡單友好的操作,以及可視化的方式直觀的展現(xiàn)分析結(jié)果,這樣才能被各部門和各級別的人員使用好大數(shù)據(jù)系統(tǒng)。2.2 基于自主可控服務(wù)器的大數(shù)據(jù)基礎(chǔ)架構(gòu)研究通過行業(yè)大數(shù)據(jù)需求和數(shù)據(jù)現(xiàn)狀的調(diào)研和測算,大數(shù)據(jù)基礎(chǔ)平臺如采用傳統(tǒng)的集中數(shù)據(jù)庫oracle+小型機+集中式存儲環(huán)境,將無法滿足大數(shù)據(jù)在存儲和分析處理方面的需求,而且采用國外進口設(shè)備為主的方式也無法保證系統(tǒng)數(shù)據(jù)的安全和自主可控,國外小型機和存儲的硬件成本過高,投入產(chǎn)出比低。因此本文研究對比了主流的大數(shù)據(jù)硬件方案,提出基于

9、國產(chǎn)主機的行業(yè)大數(shù)據(jù)基礎(chǔ)平臺,包括分布式hadoop大數(shù)據(jù)存儲和處理集群、分布式海量數(shù)據(jù)采集集群和應(yīng)用與可視化展現(xiàn)服務(wù)器集群架構(gòu)研究,形成滿足行業(yè)大數(shù)據(jù)應(yīng)用的基礎(chǔ)硬件平臺技術(shù)方案。 系統(tǒng)的網(wǎng)絡(luò)部署架構(gòu)如圖1所示。2.3 自主可控的大數(shù)據(jù)分析基礎(chǔ)軟件平臺研究通過項目前期技術(shù)研究和分析,傳統(tǒng)數(shù)據(jù)倉庫模式進行行大數(shù)據(jù)分析在軟件平臺方面是不能滿足性能、容量和成本方面的需求的。為此,本文在對大數(shù)據(jù)軟件平臺進行充分對比研究,重點研究了國內(nèi)面向行業(yè)的大數(shù)據(jù)平臺的軟件基礎(chǔ)架構(gòu),包括操作系統(tǒng)、分布式文件系統(tǒng)、列式數(shù)據(jù)庫、批處理框架、內(nèi)存計算引擎、資源調(diào)度、安全管控等方面的研究。形成了滿足行業(yè)大數(shù)據(jù)應(yīng)用的基礎(chǔ)軟件

10、平臺技術(shù)方案。本文研究和評估了基于國產(chǎn)操作系統(tǒng)和基于開源自主可控的大數(shù)據(jù)平臺基礎(chǔ)軟件架構(gòu),操作系統(tǒng)層面可以支持國產(chǎn)linux和unix操作系統(tǒng)。大數(shù)據(jù)基礎(chǔ)軟件架構(gòu)采用了大量的組件實現(xiàn)大數(shù)據(jù)的存儲、計算、分析和管理功能,如圖2所示。在大數(shù)據(jù)軟件架構(gòu)中設(shè)計通過分布式etl工具各業(yè)務(wù)系統(tǒng)完成數(shù)據(jù)采集,支持結(jié)構(gòu)化數(shù)據(jù)以及非/半結(jié)構(gòu)化數(shù)據(jù),即數(shù)據(jù)庫數(shù)據(jù)、文件、日志等類型,采集數(shù)據(jù)包括全量歷史數(shù)據(jù)遷移以及增量數(shù)據(jù)同步。未來保證數(shù)據(jù)質(zhì)量和數(shù)據(jù)溯源,采集過程中需要對數(shù)據(jù)質(zhì)量分析、治理。架構(gòu)中設(shè)計了數(shù)據(jù)分層存儲的解決方案,對于需要進行持久化存儲的數(shù)據(jù)(離線保存3年以上)和非結(jié)構(gòu)化數(shù)據(jù),可直接在hdfs中存放,以

11、數(shù)據(jù)倉庫orc表形式存儲;需要挖掘或檢索管理的數(shù)據(jù)放入hbase列式數(shù)據(jù)庫中,中并支持與傳統(tǒng)數(shù)據(jù)庫互導(dǎo),系統(tǒng)會自動完成多個數(shù)據(jù)副本的拷貝,從而實現(xiàn)冗余備份;對于需要快速實時交互式分析的的數(shù)據(jù)以cube的形式存儲在ssd或內(nèi)存中,可以提供快速交互式分析能力。架構(gòu)中還包括了數(shù)據(jù)分析功能和組件,對需要進行數(shù)據(jù)關(guān)聯(lián)分析和數(shù)據(jù)挖掘等涉及大數(shù)據(jù)量的統(tǒng)計和查詢需求的應(yīng)用,可選用mahout,r等數(shù)據(jù)分析和數(shù)據(jù)挖掘工具。架構(gòu)中的數(shù)據(jù)服務(wù)設(shè)計包括數(shù)據(jù)集市所提供的業(yè)務(wù)/部門級服務(wù),數(shù)據(jù)cube及交互式報表、數(shù)據(jù)質(zhì)量分析報告、數(shù)據(jù)流程監(jiān)控及告警、api數(shù)據(jù)調(diào)用和數(shù)據(jù)能力開放等服務(wù)。對于實時性要求較高的數(shù)據(jù)(如kaf

12、ka采集的數(shù)據(jù))放在spark stream中提供實時服務(wù)。架構(gòu)中還設(shè)計了數(shù)據(jù)管理模塊負責(zé)進行數(shù)據(jù)查看,流程管理,用戶權(quán)限角色分配等功能。2.4 大數(shù)據(jù)安全體系研究研究太平洋保險大數(shù)據(jù)管理和安全體系,對大數(shù)據(jù)類型進行安全等級分類,形成大數(shù)據(jù)管理策略和技術(shù)規(guī)范。由于大數(shù)據(jù)時代的數(shù)據(jù)財富化導(dǎo)致了大量的信息泄露事件,而這些泄露事件中,來自內(nèi)部和外部的威脅都存在,而且內(nèi)部的威脅更大。所以在本地數(shù)據(jù)安全策略的構(gòu)建上需要加入對于內(nèi)部管理的監(jiān)控、監(jiān)管手段,用數(shù)據(jù)技術(shù)+資產(chǎn)管理的模式來避免由于人為原因造成的數(shù)據(jù)流失,信息泄露。對于外部的的威脅通過防火墻、入侵檢測、數(shù)據(jù)加密等手段,確保大數(shù)據(jù)平臺具有“進不來、拿

13、不走、看不懂”的安全能力。本文設(shè)計的大數(shù)據(jù)體系架構(gòu)基于最新的大數(shù)據(jù)、以及數(shù)據(jù)安全技術(shù),初步研究了適合企業(yè)的大數(shù)據(jù)資產(chǎn)管理體系,并設(shè)計高性能、高效率、安全可靠的大數(shù)據(jù)安全技術(shù)體系,實現(xiàn)大數(shù)據(jù)資產(chǎn)的有效管控、增值和安全控制。3 成果特點本項目研究形成的行業(yè)大數(shù)據(jù)體系架構(gòu)采用自主研發(fā)和生產(chǎn)的服務(wù)器,并部署國產(chǎn)操作系統(tǒng)和自主知識產(chǎn)權(quán)的大數(shù)據(jù)平臺軟件。經(jīng)過全局性的優(yōu)化,性能、可用性、效率等關(guān)鍵技術(shù)指標(biāo)方面有了大幅提升。在系統(tǒng)設(shè)計上采用硬件加速技術(shù),會設(shè)計專門的fpga模塊固化特定算法,并集成多級緩存,數(shù)據(jù)排序性能預(yù)計可以提高50%以上;系統(tǒng)任務(wù)調(diào)度策略是影響系統(tǒng)響應(yīng)及時性的重要技術(shù),本項目將開發(fā)動態(tài)調(diào)整

14、任務(wù)執(zhí)行模塊,有效減少慢任務(wù)數(shù)量,任務(wù)執(zhí)行時間平均縮短16%。副本數(shù)量和存儲效率是難以調(diào)和的矛盾,在大數(shù)據(jù)平臺軟件中將引入reed-solomon算法,優(yōu)化分布式散列數(shù)據(jù)布局,滿足文件高并發(fā)和高帶寬雙重需求同時平衡數(shù)據(jù)冗余度,并設(shè)計兩副本加編碼的方式對大數(shù)據(jù)存儲進行管理,相對三副本最大可節(jié)省30%空間。4 應(yīng)用效果和研究價值相對于市場上的國內(nèi)外競爭對手的產(chǎn)品,基于國產(chǎn)軟硬件的大數(shù)據(jù)體系架構(gòu)應(yīng)用了諸多浪潮自主研發(fā)的安全技術(shù),包括自主研發(fā)發(fā)明專利達50多項、軟件著作權(quán)2項,ras特性超過20項,而模塊化的安全體系設(shè)計和操作系統(tǒng)安全增強系統(tǒng),確保了產(chǎn)品符合國家信息安全等級保護第三級認證標(biāo)準(zhǔn)。同時,快

15、速故障定位、高可用元數(shù)據(jù)備份和管理、高可用系統(tǒng)恢復(fù)等多項系統(tǒng)管理技術(shù),以及內(nèi)存糾錯、內(nèi)存鏡像和高冗余設(shè)計,也確保了產(chǎn)品無單點故障,運行穩(wěn)定可靠;其次,體系架構(gòu)的需求分析由浪潮和多個代表性行業(yè)客戶共同完成,充分考慮了我國行業(yè)大數(shù)據(jù)應(yīng)用的現(xiàn)狀和常見問題,覆蓋了大數(shù)據(jù)分析的分布式數(shù)據(jù)存儲、分布式計算、批處理、內(nèi)存 計算等技術(shù),能完全滿足各行業(yè)的企業(yè)大數(shù)據(jù)分析對數(shù)據(jù)集成、數(shù)據(jù)存儲、數(shù)據(jù)處理和分析等多方面的需求。相對于項目體系架構(gòu)設(shè)計和產(chǎn)品研發(fā)的關(guān)鍵技術(shù):支持國產(chǎn)操作系統(tǒng)軟件和國產(chǎn)化硬件、分布式數(shù)據(jù)存儲、大數(shù)據(jù)批處理分析、大數(shù)據(jù)內(nèi)存計算、大數(shù)據(jù)分析流處理等幾項技術(shù)進行對比,國內(nèi)現(xiàn)有的產(chǎn)品中沒有一個可以全部覆蓋,特別是國產(chǎn)軟硬件支持、信息系統(tǒng)和信息環(huán)境安全可靠是本產(chǎn)品的突出優(yōu)勢。本項目研發(fā)的產(chǎn)品將為行業(yè)客戶提供覆蓋大數(shù)據(jù)平臺建設(shè)、管理、維護全過程的一攬子解決方案。可在自主可控、安全可靠的基礎(chǔ)上為用戶降低建設(shè)和管理成本,提升金融企業(yè)對大數(shù)據(jù)的利用,降低系統(tǒng)信息安全風(fēng)險。采用國產(chǎn)及自主可控的軟硬件產(chǎn)品,相比于國外產(chǎn)品,用戶成本可顯著降低。項目成果已經(jīng)在電

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論