數據倉庫建設方案

上傳人：9*** IP屬地：山東上傳時間：2022-12-02 格式：DOCX 頁數：32 大小：837.65KB 積分：15 舉報 版權申訴

已閱讀5頁，還剩27頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

第16/2016/DAF/SA號公然招標方案建議書第1章數據庫房建設1.1數據庫房整體架構專家系統(tǒng)接收增購項目車輛TCMＳ或其余子系統(tǒng)經過車地通訊傳輸的及時或離線數據，經過一系列綜合診療剖析，以各樣報表圖形或信息推送的形式向用戶展示剖析結果。針對診療出的車輛故障將給出專家建議辦理舉措,為車輛的故障根因修復供給必需的支持.依據專家系統(tǒng)數據庫房建設目標,聯(lián)合系統(tǒng)數據業(yè)務規(guī)范，包含數據采集頻次、數據采集量等有關要素，設計專家系統(tǒng)數據庫房架構以下：數據庫房架構從層次構造上分為數據采集、數據存、數據剖析、數據服務等幾個方面的內容:數據采集:負責從各業(yè)務自系統(tǒng)中聚集信息數據,系統(tǒng)支撐Kafｋa、Storm、Ｆｌ第16/2016/DAF/SA號公然招標方案建議書ume及傳統(tǒng)的EＴL采集工具。數據儲存:本系統(tǒng)供給Hｄfs、Ｈbａse及RDBMＳ相聯(lián)合的儲存模式，支持海量數據的散布式儲存.數據剖析:數據庫房系統(tǒng)支持傳統(tǒng)的OLＡＰ剖析及鑒于Spａrk慣例機器學習算法.數據服務總線:數據系統(tǒng)供給數據服務總線服務，實現對數據資源的一致管理和調動,并對外供給數據服務。1.2數據采集專家系統(tǒng)數據庫房數據采集包含兩個部分內容:外面數據聚集、內部各層數據的提取與加載。外面數據聚集是指從TＣMS、車載子系統(tǒng)等外面信息系統(tǒng)聚集數據到專家數據庫房的操作型儲存層(ODS)；內部各層數據的提取與加載是指數據庫房各存儲層間的數據提取、變換與加載。外面數據聚集專家數據庫房數據源包含列車監(jiān)控與檢測系統(tǒng)(TCＭS）、車載子系統(tǒng)等有關子系統(tǒng),數據采集的內容分為及時數據采集和準時數據采集兩大類，及時數據采集主要對于各項檢測指標數據;非及時采集包含日檢修數據等。依據項目信息聚集要求,列車指標信息采集擁有采集數據量大，采集頻次高的特色，考慮到系統(tǒng)后期的擴展,所以在數據數據采集方面,要求采集系統(tǒng)支持高吞吐量、高頻次、海量數據采集,同時系統(tǒng)應當靈巧可配置,可依據業(yè)務的需要進行靈巧配置橫向擴展。本方案在數據采集架構采納Flume+Kafka+Stoｒm的組合架構，采納Flume和ETＬ工具作為Kaｆka的Ｐｒｏｄucer，采納Stｏｒm作為Kafka的Coｎsuｍeｒ，Storm可實現對海量數據的及時辦理,及時對問題指標進行預警.詳細采集系統(tǒng)技術構造圖以下：第16/2016/DAF/SA號公然招標方案建議書數據聚集架構功能Flume供給了從ｃｏｎsole(控制臺）、RPＣ（Thｒift-ＲＰC)、tｅxｔ（文件)、tａil(ＵNＩＸtail)、syslog(syslog日記系統(tǒng)，支持TCP和UDP等2種模式）,ｅxec（命令履行)等數據源上采集數據的能力．Ｆlume的數據接受方,能夠是ｃoｎｓolｅ(控制臺）、text（文件)、dfs(ＨＤFS文件)、RPC（Thrift—RPC）和sｙslｏgTＣP(TＣＰｓyｓlog日記系統(tǒng))等。在我們系統(tǒng)中由kafka來接收。Kafka散布式信息行列，支撐系統(tǒng)性能橫向擴展，經過增添bｒoker來提高系統(tǒng)的性能。Sｔorm流辦理技術，支撐Sｕpervisoｒ橫向擴展以提高系統(tǒng)的擴展性和數據辦理的及時性.采集架構優(yōu)勢(一)解耦在項目中要均衡數據的聚集與數據的辦理性能均衡,是極其困難的。信息行列在辦理過程中間插入了一個隱含的、鑒于數據的接口層,兩邊的辦理過程都要實現這一接口。這同意你獨立的擴展或改正兩邊的辦理過程,只需保證它們遵守相同的接口拘束。冗余第16/2016/DAF/SA號公然招標方案建議書??

有些狀況下,辦理數據的過程會失敗.除非數據被長久化，不然將造成丟掉。消息行列把數據進行長久化直到它們已經被完好辦理,經過這一方式躲避了數據丟掉風險。在被很多信息行列所采納的“插入—獲取-刪除”范式中,在把一個信息從行列中刪除以前，需要你的辦理過程明確的指出該信息已經被處理完成，保證你的數據被安全的保留直到你使用完成．擴展性由于信息行列解耦了你的辦理過程,所以增大信息入隊和辦理的頻次是很簡單的;只需此外增添辦理過程即可.不需要改變代碼、不需要調理參數。擴展就像調大電力按鈕相同簡單。靈巧性&峰值辦理能力在接見量劇增的狀況下,應用仍舊需要連續(xù)發(fā)揮作用,可是這樣的突發(fā)流量其實不常有；假如為以能辦理這種峰值接見為標準來投入資源隨時待命無疑是巨大的浪費。使用信息行列能夠使重點組件頂住突發(fā)的接見壓力,而不會由于突發(fā)的超負荷的懇求而完好崩潰。可恢復性當系統(tǒng)的一部分組件無效,不會影響到整個系統(tǒng)。信息行列降低了進度間的耦合度，所以即便一個辦理信息的進度掛掉,加入行列中的信息仍舊能夠在系統(tǒng)恢復后被辦理。而這種同意重試或許延后辦理懇求的能力往常是造就一個略感不便的用戶和一個喪氣透頂的用戶之間的差別。送到保證信息行列供給的冗余體制保證了信息能被實質的辦理，只需一個進度讀取了該行列即可。在此基礎上,IronMQ供給了一個”只送到一次”保證。不論有多少進度在從行列中領取數據,每一個信息只好被辦理一次。這之所以成為可能,是由于獲取一個信息不過”預約”了這個信息，臨時把它移出了行列。除非客戶端明確的表示已經辦理完了這個信息，不然這個信息會被放回行列中去,在一段可配置的時間以后可再次被辦理。緩沖在任何重要的系統(tǒng)中,都會有需要不一樣的辦理時間的元素。比如,加載一張圖片比應用過濾器花銷更少的時間。信息行列經過一個緩沖層來幫助任務最高效率的履行—寫入行列的辦理睬盡可能的迅速,而不受從行列讀的預備辦理的拘束。該緩沖有助于控制和優(yōu)化數據流經過系統(tǒng)的速度。第16/2016/DAF/SA號公然招標方案建議書異步通訊好多時候，你不想也不需要立刻辦理信息。信息行列供給了異步辦理體制,同意你把一個信息放入行列,但其實不立刻辦理它。你想向行列中放入多少信息就放多少,而后在你愿意的時候再去辦理它們。內部各層數據提取與加載數據聚集將數據儲藏于操作型數據儲存層(ODS），在數據庫房各層次間數據變換提取加載,采納傳統(tǒng)的ETL工具進行采集，數據庫房間的各層次的數據采集的實效性依據詳細的數據需求而定，詳細EＴL建模界面如圖：1.3數據加工與辦理關于數據庫房平臺,應當成立一套標準化、規(guī)范化的數據辦理流程，比如:怎樣采集內部和外面數據、構造化和非構造化數據；怎樣沖洗采集來的臟數據和無效數據;怎樣對不一樣根源的數據進行打通;怎樣對非構造化的數據進行構造化加工;怎樣在構造化數據的基礎長進行商業(yè)建模和數據發(fā)掘等等．大數據管理層在一條數據總線上建立了一條完好的大數據辦理流水線．這條流水線從數據的采集、沖洗到加工辦理，把原始凌亂無章的數據加工成構造化的數據組件,供上層的大數據應用來拼裝調用,讓公司擁有創(chuàng)建數據財產的能力。第16/2016/DAF/SA號公然招標方案建議書1.4儲存設計數據量估量按每列列車均勻5００毫秒經過車地通訊采集監(jiān)測數據100條,每日營運時間18小時,按每條記錄160字節(jié)計算（監(jiān)測數據的數據項相對簡單），初步依照67列列車計算。單列列車日監(jiān)測數據=3６00*2*1６０*１０0*18/1024／1024/102４≈２G６7列列車年數據量=2*67＊３6５／1０24≈48Ｔ1０年總數據量(乘上增添系數1０％)≈530T（含操作系統(tǒng))數據規(guī)劃10年，加上系統(tǒng)用戶信息、系統(tǒng)日記信息、專家書息、業(yè)務數據及其余不行展望類數據,數據總量預估530T.數據儲存專家系統(tǒng)數據采納混淆儲存模式進行儲存，RDBMＳ儲存專家系統(tǒng)業(yè)務基本數據及近來１年的監(jiān)測數據,10年內歷史監(jiān)測數據采納NoSＱＬHBasｅ數據庫進行儲存，以方便查問,HBasｅ鑒于Ｈdｆs散布式文件系統(tǒng)搭建,詳細儲存模式以下列圖。第16/2016/DAF/SA號公然招標方案建議書ＲDBMS數據庫，支持專家?guī)斓暮诵臉I(yè)務,儲存列車近來1年的監(jiān)測數據為保證專家系統(tǒng)安全、穩(wěn)固運轉,在數據庫系統(tǒng)上支撐各樣統(tǒng)計剖析及傳統(tǒng)的ＢI業(yè)務?？紤]到操作系統(tǒng)儲存、緩存儲存、數據庫系統(tǒng)儲存、日記儲存等要素,RＤＢMＳ數據庫服務器估計每臺60Ｔ儲存,考慮數據安全及系統(tǒng)穩(wěn)固要素RDBMS采納雙機熱備技術互備。大數據平臺規(guī)劃儲存近來10年監(jiān)測數據,日記文件備份及歷史數據采納大數據Haｄooｐ和HBaｓe儲存，大數據平臺數據采納節(jié)點間冗余備份,預設數據2倍冗存余儲,(考慮平臺供給的壓縮技術,壓縮儲存能夠節(jié)儉30-55％的空間）。1０年數據量=5３0T*1.5≈8０0Ｔ(2倍冗存余儲)分層儲存專家數據分三個層次進行聚集與儲存,分別為ＯＤS層、數據庫房層、主題數第16/2016/DAF/SA號公然招標方案建議書據層，各層次數據儲存內容以下ＯDS層:數據根源于各生產系統(tǒng),經過ETＬ工具對接口文件數據進行編碼替代和數據沖洗變換,不做關系操作。將來也可用于準及時數據查問.數據庫房層：數據深度聚集層,依據業(yè)務有選擇的對ODS層的數據進行提取,經過對數據的加工辦理，將單調的數據信息變換成系統(tǒng)信息，將點信息數據變?yōu)槊嫘畔祿Ｖ黝}數據層：將數據信息系統(tǒng)依據各主題進行提取與變換，主題域內部進行拆分、關系．是對ODS操作型數據依照主題域區(qū)分規(guī)則進行的拆分及歸并。1.5數據剖析建模陪伴著大數據時代的悄悄到臨，數據的價值獲取人們的寬泛認可，對數據的重視提到了亙古未有的高度。數據已經作為公司、事業(yè)單位的重要財產被寬泛應用于盈余剖析與展望、客戶關系管理、合規(guī)性看管、營運風險管理等業(yè)務中間。怎樣建立大數據剖析模型，以供給決議依照是好多用戶所急迫解決的問題。第16/2016/DAF/SA號公然招標方案建議書專家數據庫房成立在Hａdooｐ散布式系統(tǒng)之上，供給了多種豐富的算法模型,不一樣的應用經過借助不一樣的接口實現數據的多維表現和結果顯現，為用戶供給科學的決議支持。圖１0—7ｈadooｐ算法模型圖大數據平臺供給數據發(fā)掘模型、散布式計算引擎、高性能機器學習算法庫(包含分類、聚類、展望、介紹等機器學習算法)、即席查問功能,能夠幫助決議者迅速成立數據剖析模型立方體,便于決議者進行ＯＬAＰ剖析．常用算法模型:分類算法：分類是找出數據庫中的一組數據對象的共同特色并依照分類模式將其區(qū)分為不一樣的類，其目的是經過分類模型，將數據庫中的數據項映照到某個給定的類型中。如政務網中將用戶在一段時間內的網上辦理所碰到的問題區(qū)分紅不一樣的類，依據情況向用戶介紹關系類的問題解決方案，進而方便用戶迅速解決網上做事審批中碰到的各種問題?；貧w算法回歸剖析反應了數據庫中數據的屬性值的特征,經過函數表達數據映照的關系來發(fā)現屬性值之間的依靠關系。在回歸算法中往常將數值結果轉變?yōu)榱?到1之間的概率，數值越大，函數越迫近1,數值越小,函數越迫近0,它能夠應用到對數據序列的展望及有關關系的研究中去。如我們依據這個概率能夠做垃圾郵件展望，比如概率大于0。5,則這封郵件就是垃圾郵件。第16/2016/DAF/SA號公然招標方案建議書聚類算法聚類近似于分類,但與分類的目的不一樣,是針對數據的相像性和差別性將一組數據分為幾個類型。屬于同一類其余數據間的相像性很大,但不一樣類型之間數據的相像性很小,跨類的數據關系性很低。分類算法中的一個明顯特色就是訓練數據中包含了標簽,訓練出的模型能夠對其余未知數據展望標簽.在聚類的算法中,訓練數據都是不含標簽的,而算法的目的則是經過訓練,推斷出這些數據的標簽。以二維的數據來說，一個數據就包含兩個特色，可經過聚類算法,給他們中不一樣的種類打上標簽，經過聚類算法計算出種群中的距離，依據距離的遠近將數據區(qū)分為多個族群。關系算法關系規(guī)則是隱蔽在數據項之間的關系或互相關系，即能夠依據一個數據項的出現推導出其余數據項的出現.關系規(guī)則的發(fā)掘過程主要包含兩個階段：第一階段為從海量原始數據中找出全部的高頻項目組；第二極端為從這些高頻項目組產生關系規(guī)則。介紹算法介紹算法是目前業(yè)界特別火的一種算法,在電商界,如亞馬遜，天貓,京東等得到了寬泛的運用。介紹算法的主要特色就是能夠自動向用戶介紹他們最感興趣的東西,進而增添購置率，提高效益。神經網絡模型神經網絡模型,因其自己自行辦理、散布儲存和高度容錯等特征特別合適辦理非線性的以及那些以模糊、不完好、不嚴實的知識或數據為特色的辦理問題,它的這一特色十分合適解決數據發(fā)掘的問題。典型的神經網絡模型主要分為三大類:第一類是以用于分類展望和模式識其余前饋式神經網絡模型;第二類是用于聯(lián)想記憶和優(yōu)化算法的反應式神經網絡模型.第三類是用于聚類的自組織映照方法.Ａｄaｂoost算法其核心思想是針對同一個訓練集,訓練不一樣的分類器（弱分類器)，而后把這些弱分類器會合起來,組成一個更強的最后分類器(強分類器）．其算法自己是經過改變數據散布來實現的，它依據每次訓練集之中每個樣本的分類能否正確,以及上一次的整體分類的正確率,來確立每個樣本的權值。將修悔過權值的新數據集送給基層分類器進行訓練，最后將每次訓練獲取的分類器最后交融起來,作為最后的決議分類器.第16/2016/DAF/SA號公然招標方案建議書深度學習深度學習算法是對人工神經網絡的發(fā)展。在計算能力變得日趨低價的今日，深度學習試圖成立大得多也復雜得多的神經網絡，用來辦理存在少許未表記數據的大數據集.1.6數據資源管理專家系統(tǒng)數據擁有數據量大、數據類型多、數據關系關系密切等特色,跟著數據的累積,數據資源的利用價值逐漸表現,提高數據的管理，是對數據資源充分利用的前提條件。數據資源管了包含以下幾部分內容：數據標準化管理、數據監(jiān)測管理及元數據管理等。數據標準管理聚集整理數據資源管理所需的標準規(guī)范信息，成立數據標準數據庫。利用專家系統(tǒng)數據標準管理系統(tǒng)的接口同步更新標準信息。包含數據元標準以及信息代碼標準.建設數據資源庫，實現專家系統(tǒng)公布標準數據元與當地擴展數據元標準的聚集。實現與車輛檢修等數據源管理系統(tǒng)接口對接。建設信息代碼資源庫，梳理國標、部標和本省定義的標準代碼以及各業(yè)務信息系統(tǒng)需要使用的其余代碼,成立詞典代碼實體數據庫.應具備詞典代碼按期同步功能。并建設信息代碼在線映照保護功能，以便對數據標準化變換供給支持.數據監(jiān)控管理大數據運轉監(jiān)控經過對大數據資源庫有關服務器、Oｒａcle數據庫、散布式存儲系統(tǒng)、Ｈａdoop平臺等的運轉狀態(tài)、性能指標以及數據更新狀況進行連續(xù)監(jiān)控，及時發(fā)現存在的問題及隱患,協(xié)助系統(tǒng)管理員及時采納舉措,提高大數據資源庫的運行靠譜性,保障大數據資源庫穩(wěn)固高效運轉。發(fā)現異樣問題時通太短信、郵件等方式第16/2016/DAF/SA號公然招標方案建議書通知系統(tǒng)管理員及時辦理,實現經過自動、智能、連續(xù)的自動監(jiān)控預警取代人工巡檢,降低運維工作量，提高運維效率.經過可視化圖表對監(jiān)控結果進行統(tǒng)計剖析直觀顯現平臺運轉各種運轉指標,協(xié)助管理員從宏觀角度掌握平臺運轉狀況。性能指標監(jiān)控能夠對服務器CPU負載、Ｏｒacｌe數據庫連結數、散布式儲存IO負載、Ｈadoop負載等各種性能有關指標進行監(jiān)控,以便掌握平臺負載狀況，及時發(fā)現性能問題，協(xié)助平臺優(yōu)化。大數據庫日記監(jiān)控自動采集大數據有關組件運轉日記,并依據既定規(guī)則進行剖析,發(fā)現異樣及時告警。供給日記查問檢索功能,能夠按組件種類、時間、重點字等進行過濾。數據量監(jiān)控數據量監(jiān)控經過對數據總量以及增量進行按期監(jiān)控，能夠掌握數據量變化狀況,也能夠從數據增量角度發(fā)現數據入庫異樣.數據量監(jiān)測結果可同步到數據臺帳,以便數據臺帳統(tǒng)計數據總量狀況。元數據管理元數據是數據庫房中儲存的基本單元,實現對元數據的管理,數據庫房的最基本功能之一。元數據管理包含元數據注冊登記、元數據儲存、元數據建模等多方面功能。1.7數據服務大數據平臺開放儲存接見接口，供給鑒于Hadｏop技術系統(tǒng)的HDＦS、HＢaｓe接見接口,以ＯpenＡＰＩ的方式,為應用供給大數據儲存服務.數據服務層主要由數據服務總線來建設,主要負責將大數據平臺的能力接口注冊進去,再以標準化接口開放給應用系統(tǒng)使用,支持多種協(xié)議變換、服務質量控制、接見控制、規(guī)則引擎等。數據服務層將大數據平臺的數據服務能力開放出去,供第三第16/2016/DAF/SA號公然招標方案建議書方平臺使用。如上圖：應用服務系統(tǒng)使用服務接口，來接入數據服務總線,經過數據服務總線的接入端點，進行過濾。同時依據接見控制、服務質量、協(xié)議變換、策略調動、規(guī)則引擎的辦理，接出到大數據平臺的能力接口。第2章大數據平臺2.1大數據平臺基礎架構大數據基礎平臺鑒于戰(zhàn)火自主知識產權ＦｉtDatａ產品,FiｔＤａt(yī)a主要集成了基礎計算資源、網絡資源、儲存資源，在一致的安全體管理系統(tǒng)下，將這些資源再進行深度加工、辦理、關系，形成多種種類的基礎服務能力，建立基礎資源層,向應用供給基礎資源的服務能力。數據服務總線經過服務治理來保護基礎資源服務能力,并經過接見控制、服務質量、協(xié)議變換等,對應用供給多協(xié)議支持。平臺支撐系統(tǒng)的運維系統(tǒng)供給整體運維能力,保障平臺的正常運轉；安全系統(tǒng)供給整體安全能力,第16/2016/DAF/SA號公然招標方案建議書保障平臺的數據安全和使用安全;平臺采納散布式架構，支持巨量數據儲存與剖析，保障專家管理系統(tǒng)的高性能、高可用性和易擴展性。FitData大數據基礎平臺構造以下列圖紅線標出部分。大數據應用車輛故障車輛健康評車輛指標檢車輛檢修預車輛對照剖析其余診療估測報警案大數據辦理平臺運維管理數據服務可編程安裝部署多維剖析數據共享數據檢索機器學習數據發(fā)掘數據可視化API集群管理數據計算/儲存離線計算內存計算及時計算HbaseMapReduceSparkStorm(數據庫）Yarn(計算資源管理）Hadoophdfs(散布式集群）

主機管理主數據庫房用戶管理數據庫MPP服務管理非構造化/半構造化數據標準化數據構造化數據數據抽取、變換、沖洗、加載ETL工具日記采集關系數據庫連結散布式信息KettleFlumeSqoopkafka批量采集準時采集及時采集

監(jiān)控預警版本管理數據源故障信息數指標信息數據能耗信息數據車輛零件據知識數據數據計算與儲存:是ＦitData大數據平臺的核心內容,供給散布式儲存能力和散布式計算能力。供給的儲存框架能力，包含鑒于構造化數據儲存、非構造化數據儲存和半構造化數據儲存，其計算框架與儲存框架均是散布式集群方式部署,能夠光滑的進行彈性擴容。數據服務層：數據服務層主要由數據服務接口來實現，對應用供給數據支撐。經過數據服務接口將平臺的數據資源以標準AＰＩ接口的方式開放出來,供不一樣的應用系統(tǒng)使用。數據應用層主要供給鑒于該平臺來建立的專家系統(tǒng)應用。采納平臺的標準APＩ,數據資源層獲取數據服務，目前AＰI接口第16/2016/DAF/SA號公然招標方案建議書包含資源目錄閱讀、數據查問搜尋等。數據匯聚層:供給各層之間數據互換能力，由EＴL數據集成工具來實現。平臺支持多中異構數據源,針對不一樣數據源的不一樣數據，也供給多種數據抽取方式,比如數據庫直連抽取、Sqooｐ抽取等。供給計算框架能力,主要集成了批辦理計算框架、流式計算框架、內存計算框架等能力，還供給了像Hivｅ、Ｍahouｔ、Ｓpaｒk等二次計算能力框架。平臺可將這些計算能力開放，供數據模型、數據發(fā)掘、應用系統(tǒng)來使用。運維系統(tǒng):運維系統(tǒng)供給面向專家系統(tǒng)完好運維方案，涵蓋了運轉監(jiān)控到使用操作。安全系統(tǒng)供給面向專家系統(tǒng)大數據平臺的用戶權限管理、終端接見控制、日記安全審計等能力。數據存與計算是ＦitＤata大數據平臺核心能力，將目前專家系統(tǒng)內部業(yè)務數據源進行有效整合，集成以數據為核心的查問、剖析和管理能力.采納分層整合，靈巧配置,橫向擴展,縱向貫串的大數據平臺服務能力,其計算框架、儲存框架都以容器的方式,可輕松靈巧的在線進行裝卸，以光滑擴大大數據平臺的集成能力。除此還集成了二級計算框架、通用的數據辦理算法庫和數據庫房,將大數據平臺的數據進行沖洗、加工和剖析發(fā)掘,辦理后的數據可定閱,充分表現數據即服務的大數據思想。散布式儲存框架:主要負責針對巨量數據的儲存，以散布式儲存技術,支持快速、巨量、多種種類的數據存取。支持從數據源抽取數據到大數據平臺儲存,集成多種儲存方式，有針對構造化數據、非構造化數據和半構造化數據的儲存．計算框架：主要供給批辦理計算、內存計算、流式計算框架,由數據辦理管理驅動來分派和調動計算框架,加載數據辦理算法，達成數據辦理。?數據庫房：主要對計算框架達成后的結果進行儲存,支持Hbａｓｅ、MSSQLServｅr等儲存，同時將數據以接口的形式開放出去。數據辦理算法庫:集成通用的數據剖析算法、能夠插入用戶自定義的數據模型算法,配合以資源管理系統(tǒng)為主的計算儲存框架,進行數據辦理。資源管理系統(tǒng),以容器的方式，來為計算框架和儲存框架分派資源,并支持資源調動,彈性伸縮.數據服務總線:主要將基礎平臺的能力和數據服務接口,以APＩ的方式開放出去，形成一個共享的、供給用使用的服務總線。第16/2016/DAF/SA號公然招標方案建議書2.2FitＤata特色寬泛適應性:支持構造化、半構造化、非構造化數據;支持及時數據。巨量數據:數據辦理能力在PB級以上。線性擴展:儲存、計算均可增添節(jié)點進行線性擴展。一致運維管理：降低安裝部署、營運、保護成本。經濟性:可運轉在一般Ｘ86服務器上,硬件成本低。高靠譜性:支持容災容錯、備份恢復體制，支持自動告警。支持節(jié)點靠譜性、數據靠譜性.高性能:高效數據辦理性能，支持Sｐark、Stoｒｍ、R。認證安全:支持Ｋerbｅｒｏｓ安全認證、LDAP賬戶管理控制。數據安全：支持數據加密。負載均衡:支持節(jié)點間儲存、技術負載均衡.開放性:支持切合Hａdｏｏp規(guī)范的第三方組件或工具。2.3FｉtDaｔa主要功能FitData是鑒于開源Ｈadｏoｐ開發(fā)的公司級大數據產品,供給PB級數據的采集、儲存和辦理能力，支持數據加載、查問、剖析、發(fā)掘等功能。節(jié)點批量自動部署經過以Ｗｅ

管理,以圖形界面的方式實現大數據平臺節(jié)點批量自動部署

,只需增添主機名

(或許

地點)即可實現將節(jié)點服務器增添到集群中

,截圖以下：第16/2016/DAF/SA號公然招標方案建議書圖向集群中增添節(jié)點節(jié)點動向管理經過wｅb管理實現節(jié)點的動向增添、刪除,當儲存空間或許計算資源不足時，支持向集群中增添相同配置的服務器,實現大數據平臺在線動向擴容，而不需要停機辦理,不影響平臺正常運轉。大數據平臺以Ｗeb圖形界面實現Hａdooｐ集群監(jiān)控，包含大數據平臺的硬件資源、軟件資源、數據資源的監(jiān)控,以及整個Ｈadｏoｐ集群的工作負載。主要包含以下幾個方面:服務組件狀態(tài)監(jiān)控經過管理平臺能夠看到全部目前已安裝的服務組件的健康狀況。第16/2016/DAF/SA號公然招標方案建議書圖服務組件運轉狀況計算資源負載監(jiān)控經過管理平臺能夠及時看到整個平臺的資源負載狀況，包含集群的CPU、集群磁盤IO、集群網絡IO、ＨDＦSIＯ,以下列圖所示:圖計算資源監(jiān)控多任務及時監(jiān)控經過對集群運轉任務的及時監(jiān)測,并依據任務優(yōu)先級和耗時不一樣對任務進行動態(tài)調動，減少出現大批任務等候和重要任務沒法及時達成的可能，能夠使Hadｏｏ集群的運轉變得更為高效合理。第16/2016/DAF/SA號公然招標方案建議書(１）、系統(tǒng)依據各行列資源的最小值分派集群資源，這樣能夠依照需求對各任務行列獲取的集群資源進行分派，并且不會出現集群資源的閑置浪費。(２）、能夠實現對各任務行列獲取的集群資源大小及時動向調整，及時保證高優(yōu)先級任務所在行列獲取更多的集群資源。(3）、能夠實此刻某個任務行列出現安閑時，將該任務行列獲取的集群資源自動分派給其余忙碌的任務行列,以使得集群資源利用最大化。磁盤性能監(jiān)控對集群機器的硬盤進行監(jiān)控,以下列圖所示，詳盡的顯現出磁盤IO的利用率,讀寫速度,磁盤的等候時間.圖：磁盤性能監(jiān)控故障迅速定位大數據平臺具備完好的告警監(jiān)控和故障迅速定位能力。能夠將計算框架的每個作業(yè)進度、狀態(tài)、資源利用狀況進行監(jiān)控,并經過可視化圖形界面進行顯現.當大數據平臺出現異樣狀況時，平臺能夠經過監(jiān)控系統(tǒng),對服務器節(jié)點宕機、集群異樣、安全異樣等異樣事件進行預警、報警，并經過郵件、短信報警手段進行告警通知。供給預制的恢復規(guī)則和安全規(guī)則，對集群異樣進行自動修復、自動限制非第16/2016/DAF/SA號公然招標方案建議書安全行為的操作。大數據平臺能夠經過對告警信息的剖析,迅速定位平臺內部出現故障的節(jié)點,關于因故障沒法連續(xù)供給服務器的節(jié)點進行標志,將平臺的作業(yè)任務自動分派到其他的節(jié)點上運轉,同時,大數據平臺采納散布式系統(tǒng)構造及無單點故障設計,平臺內任何節(jié)點的宕機都不會影響平臺的穩(wěn)固運轉和業(yè)務的正常使用.待故障節(jié)點恢復正常后,再將該節(jié)點歸入平臺的資源中，將作業(yè)任務分派到恢復后的節(jié)點上運轉.平時運維監(jiān)控大數據綜合平臺供給完好的平時運維監(jiān)控的服務能力,針對從上層應用平臺究竟層基礎平臺的各個功能模塊和組件均供給有監(jiān)控能力，能夠剖析系統(tǒng)的運轉日記和用戶日記,并且能夠將監(jiān)控數據經過文件接口或wｅbｓerｖice接口的方式匯總到平臺管理運維模塊的監(jiān)控管理界面中進行一致表現和管理使用。系統(tǒng)能夠依據監(jiān)控到的數據進行剖析判斷，對異樣的數據觸發(fā)告警,在前臺界面提示,直至出發(fā)通知和辦理等進一步動作。平臺的監(jiān)控范圍涵蓋有：平臺管理資源的使用與分派服務器視圖:供給針對各服務器和儲存等設施的資源使用狀況的及時查看，包含目前設施的CPＵ負荷,內存占用狀況,儲存空間使用狀況,網絡帶寬占用狀況、設施運轉狀態(tài)等.管理員能夠依據監(jiān)控信息在管理平臺上有效調動分派系統(tǒng)資源。此中集群的監(jiān)控以下列圖所示:第16/2016/DAF/SA號公然招標方案建議書針對服務器的監(jiān)控以下列圖所示:服務視圖：供給系統(tǒng)中各服務資源使用狀況的及時查察，包含連結數、目前作業(yè)數，I／Ｏ狀況，運轉狀態(tài)等。監(jiān)控系統(tǒng)的運轉狀況接口服務運轉監(jiān)控:供給針對數據源和應用層的監(jiān)控服務,包含運轉狀態(tài)和流量等信息；數據存取過程監(jiān)控：供給針對數據儲存過程的監(jiān)控服務,包含系統(tǒng)平臺的I／O狀況(整體I／O和詳細各節(jié)點I/Ｏ以及詳細的各作業(yè)的I/O狀況)和數據存取過程的任務列表;數據匯聚過程監(jiān)控：監(jiān)控系統(tǒng)的數據匯聚過程，包含使用資源信息,使第16/2016/DAF/SA號公然招標方案建議書用的數據源信息，作業(yè)進度運轉狀況信息,使用時間／計劃達成時間等信息；數據辦理過程監(jiān)控（作業(yè)監(jiān)控）：監(jiān)控系統(tǒng)的數據辦理(作業(yè))過程,包括使用資源信息，使用的數據源信息，作業(yè)進度運轉狀況信息,使用時間/計劃達成時間等信息;應用監(jiān)控:針對運轉在平臺上的應用進行監(jiān)控,包含各應用目前的運轉狀態(tài)、應用對數據的使用狀況,應用為用戶供給的查問數目等；系統(tǒng)異樣告警與辦理用戶告警：對用戶操作使用過程中的異樣行為進行告警,比如某用戶接見了超出其正常權限的數據等.系統(tǒng)告警：對系統(tǒng)中存在的服務節(jié)點宕機，系統(tǒng)接口異樣，數據儲存報錯，系統(tǒng)資源緊張等系統(tǒng)運轉異樣狀況進行告警觸發(fā)，并提示用戶進行操作辦理。2.4FｉtData優(yōu)勢戰(zhàn)火大數據平臺ＦｉtDatａ借助先進開源的大數據儲存及辦理技術，成功實行了公安大數據平臺、楚天云政務大數據平臺,經過大數據項目的實行，逐漸積淀了大量的算法模型及剖析與顯現工具,在平臺性能及穩(wěn)固性上經歷了實戰(zhàn)的考驗,逐漸總結出一套ＦｉtDaｔa自己的系統(tǒng)優(yōu)化策略及系統(tǒng)運維策略，平臺經受住了單節(jié)點超出1000臺集群的實戰(zhàn)考驗，并支持HA高可用性運轉策略,經過四年時間及高強度項目的磨煉,FｉｔDaｔa大數據平臺已經走出了自己的路。在數據辦理上支持PB及超大批數據的秒級查問及聚集.SmaｒtAＳ是公司級基礎開發(fā)平臺,它鑒于FitData平臺之上，采納微服務架構，支持散布式部署,是成熟靠譜的多終端應用開發(fā)框架。它集成業(yè)界流行和成熟的技術框架，經過應用系統(tǒng)使用,反應的狀況不停完美應用框架的通用功能，知足業(yè)務系統(tǒng)快熟建立的目標，具備優(yōu)秀用戶體驗第16/2016/DAF/SA號公然招標方案建議書第3章硬件部署依照專家系統(tǒng)安裝接口規(guī)范要求,聯(lián)合專家管理系統(tǒng)數據量估量值和數據存儲特色,本著數據安全、系統(tǒng)穩(wěn)固靠譜的核心設計思路,設計專家系統(tǒng)大數據平臺數據節(jié)點服務器２2臺，此中管理節(jié)點服務器2臺,數據節(jié)點服務器19臺,監(jiān)控節(jié)點一臺,系統(tǒng)RDBMS數據庫服務器臺，應用服務器6臺,繪制專家系統(tǒng)部署邏輯構造圖以下:第4章硬件清單依據系統(tǒng)規(guī)劃及安裝接口規(guī)范要求,初步規(guī)劃服務器以下：系統(tǒng)應用服務器需求6臺;大數據平臺設計節(jié)點22個，此中管理節(jié)點2個，數據節(jié)點19個，監(jiān)第16/2016/DAF/SA號公然招標方案建議書控節(jié)點服務器1臺,RＤＢMS數據庫服務器兩臺雙機熱備。詳細各服務器硬件需求以下表:編號服務器名配置數目說明1ＲＤBＭS數據庫４*IntｅlXｅｏnＥ7—４２雙機備份服務器800/８8０0v3最大可擴展至4CPU,72核支持8GB/16GB/32GＢ/64GBDDＲ4高速內存配置128ＧBDDR４內存配置9塊900GB15ＫSAS，14＊4TNＬSＡS硬盤。2大數據平臺管理2＊InteｌＸeonE７—4801Aｃtｉve節(jié)點０/880０v3最大可擴展至4CPU,7２核支持8GB/１6GＢ/32ＧB/64GBDDR4高速內存配置128ＧＢDDＲ4內存配置６塊6０0GＢ15KSAS，3＊４TNLSAS硬盤。3大數據平臺管理2*IntelＸeｏｎＥ7-１Staｎdby節(jié)點4800/８８0０v3最大可擴展至4ＣPＵ,72核支持８GＢ/1６GB／３2GB/6４GＢＤDR4高速內存配置１2８GBDDR4內存配置6塊６00GB1５KSＡS,3*4TＮLSＡS硬盤。4大數據平臺數據2＊ＩnｔelXｅoｎE7-１9數據節(jié)點節(jié)點4800/8800v3最大可擴展至4CPU,72核支持8GＢ/16ＧB/3２GB/６4ＧBＤDＲ4高速內存配置12８ＧＢDDR4內存配置6塊600GB15KSAＳ,１２*4TNLSAS硬盤。５大數據集群性能2＊ＩnｔelXeonE7—1監(jiān)控節(jié)點檢測服務器4800/8800v3最大可擴展至4CPＵ,72核支持8GB/1６GB／３２GB/第16/2016/DAF/SA號公然招標方案建議書4GBDＤR4高速內存配置128ＧBＤＤＲ4內存配置6塊600GB15KSAＳ,３*4ＴＮLＳAS硬盤。6應用服務器ＣPU:2顆E5－2630ｖ3２應用服務≥２4個內存插槽,最大支持器1。5TB內存,支持2１33MHz內存。目前配置6４GB內存．支持SAS、SSD和PCＩeSＳD硬盤，支持2．5寸和3.５寸硬盤混插。支持２4+２個2.5寸ＳA/SATＡ或許14個3。5寸SAＳ／SATA＋２個２。5寸SAＳ/SATA+16個1。８”SSD。硬盤:配置6塊6０0ＧＢ15KＳAＳ硬盤7互換機4810/１０0/1000Base－T２網絡設施,1０0／1００0Basｅ-XSFP8防火墻多功能防火墻，4口以上2安防設施9工作站Inteｌ（R)XeonCPUＥ5，2配置1TＳATA硬盤。內存:８GＢ說明:硬件部分互換機、防火強及工作站,請依據標書確認!大數據服務器、RＤBMS數據庫服務器及應用服務器的詳細配置參數請硬件朋友和標書長進行從頭確認,這邊只對內存量、CPU顆數及儲存空間大小做了要求。第5章個人介紹吳宏勛：“戰(zhàn)火集成”高級大數據架構師，曾擔當醫(yī)療大數據、公安大數據、財稅大數據項目大數據架構師,擁有豐富的大數據項目實行經驗,對高吞吐、高并第16/2016/DAF/SA號公然招標方案建議書發(fā)、海量數據及時聚集,TB、ＰＢ級海量數據即席查問與及時辦理擁有針對性方案和經驗，研讀過部分Hａdｏｏp、ＨBａse、Ｓpark源碼，對Hadoop、ＨBaｓe、Ｓpark的原理有很深的理解，曾從事多個項目大數據平臺的調優(yōu)工作!第6章專家系統(tǒng)架構設計專家管理系統(tǒng)應車輛零件用車輛故障車輛健康車輛檢修車輛對照車輛零件數據可視...層樹診療分指標檢測評估方案剖析改換方案化展析報警示權限控制應報表引擎數據總線服務應用服務組件大數據剖析SOA服務用支撐身份認證權限管理引擎界面定制引擎信息行列...日記管理層大數據剖析算法大數據查問適配器慣例算法(MapReduce)機器學習剖析適配器SearchHiveQL中文分詞詞頻統(tǒng)計關系算法屢次模式發(fā)掘聚類算法分類器API標準規(guī)范UDFSparksql...組合算法...自定義算法介紹算法線性回歸屢次子項發(fā)掘...數據資源管理數據資源調動引擎大數據基礎平臺基內存計算/spark+shark礎RPigHIVE平SparkSQLSparkMLlib臺層HiveonSpark散布式計算框架/YarnsparkstreamingHbase(及時、散布式、高維數據庫)HDFS(散布式文件系統(tǒng))

分車輛故障信息布式協(xié)監(jiān)測指作標信息服Zookeeper務

業(yè)務規(guī)范車輛部車輛能件知識耗信息庫車輛檢修信息...集群監(jiān)控數據數據編碼數據比對數據關系數據審計數據索引監(jiān)控預警加工格式變換數據去重數據組合數據歸約數據分類網絡安全數ETLSqoopFlumeKafka據采集車輛故車輛部車輛能零件知車輛故車輛檢層障信息件指標耗數據識信息障辦理修數據本系統(tǒng)總合分為四個層次，從下到上挨次為數據采集層、基礎平臺層、應用支撐層、應用及顯現層,各層在專家系通通一業(yè)務規(guī)范、技術規(guī)范、安全規(guī)范下進第16/2016/DAF/SA號公然招標方案建議書行數據通訊及集成．1.數據采集層：負責專家系統(tǒng)信息數據的聚集、變換與加載,數據采集層供給多種數據采集方法:ＥTL、Fluｍe、Kａfkａ等，系統(tǒng)支持Flume+Kａfkａ+Storm混淆架構的數據采集模式,以提高數據采集系統(tǒng)的吞吐量和并發(fā)量?；A平臺層:基礎平臺層為專家數據庫房供給大數據基礎平臺支撐，包括散布式儲存系統(tǒng)、Hｂａｓe數據庫系統(tǒng)、Yarｎ并行計算資源管理與監(jiān)控等,同時支持Sparｋ機器學習算法庫,支持Ｒ等行業(yè)剖析庫。應用支撐層:應用支撐層為系統(tǒng)各種應用供給支撐,是系統(tǒng)數據層和應用層的連結紐帶。應用支撐層包含基礎平臺和慣例算法兩個部分，基礎平臺負責數據的儲存與并行計算,數據儲存支持散布式儲存、ＲDBMＳ儲存等儲存方式,慣例算法負責數據剖析與業(yè)務建模.應用及顯現層:應用層是系統(tǒng)各項業(yè)務功能的會合,主要包含資車輛故障診療、車輛健康評估、車輛零件檢修、車輛故障辦理及車輛對照剖析等。顯現層是用戶同系統(tǒng)交互的窗口,是應用層對外供給服務的主要手段。支持多種圖表顯現如餅圖、柱狀圖、曲線圖、熱力爭、氣泡圖和散點圖等可視化顯現.第7章平臺運維管理7.1Hadoop集群監(jiān)控大數據平臺以Wｅb圖形界面實現Hadooｐ集群監(jiān)控，包含大數據平臺的硬件資源、軟件資源、數據資源的監(jiān)控，以及整個Haｄoｏp集群的工作負載。主第16/2016/DAF/SA號公然招標方案建議書要包含以下幾個方面：服務組件狀態(tài)監(jiān)控經過管理平臺能夠看到全部目前已安裝的服務組

人人文庫> 全部分類> 行業(yè)資料 > 各類標準

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數據倉庫建設方案

文檔簡介

溫馨提示

最新文檔

評論

數據倉庫建設方案

文檔簡介

溫馨提示

最新文檔

評論

相關文檔