數(shù)據(jù)倉庫建設專項方案_第1頁
數(shù)據(jù)倉庫建設專項方案_第2頁
數(shù)據(jù)倉庫建設專項方案_第3頁
數(shù)據(jù)倉庫建設專項方案_第4頁
數(shù)據(jù)倉庫建設專項方案_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)倉庫建設數(shù)據(jù)倉庫總體架構教授系統(tǒng)接收增購項目車輛TCMS或其它子系統(tǒng)經過車地通信傳輸實時或離線數(shù)據(jù),經過一系列綜合診療分析,以多種報表圖形或信息推送形式向用戶展示分析結果。針對診療出車輛故障將給出教授提議處理方法,為車輛故障根因修復提供必需支持。依據(jù)教授系統(tǒng)數(shù)據(jù)倉庫建設目標,結合系統(tǒng)數(shù)據(jù)業(yè)務規(guī)范,包含數(shù)據(jù)采集頻率、數(shù)據(jù)采集量等相關原因,設計教授系統(tǒng)數(shù)據(jù)倉庫架構以下:數(shù)據(jù)倉庫架構從層次結構上分為數(shù)據(jù)采集、數(shù)據(jù)存、數(shù)據(jù)分析、數(shù)據(jù)服務等多個方面內容:數(shù)據(jù)采集:負責從各業(yè)務自系統(tǒng)中聚集信息數(shù)據(jù),系統(tǒng)支撐Kafka、Storm、Flume及傳統(tǒng)ETL采集工具。數(shù)據(jù)存放:本系統(tǒng)提供Hdfs、Hbase及RDBMS相結合存放模式,支持海量數(shù)據(jù)分布式存放。數(shù)據(jù)分析:數(shù)據(jù)倉庫體系支持傳統(tǒng)OLAP分析及基于Spark常規(guī)機器學習算法。數(shù)據(jù)服務總線:數(shù)據(jù)系統(tǒng)提供數(shù)據(jù)服務總線服務,實現(xiàn)對數(shù)據(jù)資源統(tǒng)一管理和調度,并對外提供數(shù)據(jù)服務。數(shù)據(jù)采集教授系統(tǒng)數(shù)據(jù)倉庫數(shù)據(jù)采集包含兩個部分內容:外部數(shù)據(jù)聚集、內部各層數(shù)據(jù)提取和加載。外部數(shù)據(jù)聚集是指從TCMS、車載子系統(tǒng)等外部信息系統(tǒng)聚集數(shù)據(jù)到教授數(shù)據(jù)倉庫操作型存放層(ODS);內部各層數(shù)據(jù)提取和加載是指數(shù)據(jù)倉庫各存放層間數(shù)據(jù)提取、轉換和加載。外部數(shù)據(jù)聚集教授數(shù)據(jù)倉庫數(shù)據(jù)源包含列車監(jiān)控和檢測系統(tǒng)(TCMS)、車載子系統(tǒng)等相關子系統(tǒng),數(shù)據(jù)采集內容分為實時數(shù)據(jù)采集和定時數(shù)據(jù)采集兩大類,實時數(shù)據(jù)采集關鍵對于各項檢測指標數(shù)據(jù);非實時采集包含日檢修數(shù)據(jù)等。依據(jù)項目信息聚集要求,列車指標信息采集含有采集數(shù)據(jù)量大,采集頻率高特點,考慮到系統(tǒng)后期擴展,所以在數(shù)據(jù)數(shù)據(jù)采集方面,要求采集體系支持高吞吐量、高頻率、海量數(shù)據(jù)采集,同時系統(tǒng)應該靈活可配置,可依據(jù)業(yè)務需要進行靈活配置橫向擴展。本方案在數(shù)據(jù)采集架構采取Flume+Kafka+Storm組合架構,采取Flume和ETL工具作為KafkaProducer,采取Storm作為KafkaConsumer,Storm可實現(xiàn)對海量數(shù)據(jù)實時處理,立即對問題指標進行預警。具體采集系統(tǒng)技術結構圖以下:數(shù)據(jù)聚集架構功效Flume提供了從console(控制臺)、RPC(Thrift-RPC)、text(文件)、tail(UNIXtail)、syslog(syslog日志系統(tǒng),支持TCP和UDP等2種模式),exec(命令實施)等數(shù)據(jù)源上搜集數(shù)據(jù)能力。Flume數(shù)據(jù)接收方,能夠是console(控制臺)、text(文件)、dfs(HDFS文件)、RPC(Thrift-RPC)和syslogTCP(TCPsyslog日志系統(tǒng))等。在我們系統(tǒng)中由kafka來接收。Kafka分布式消息隊列,支撐系統(tǒng)性能橫向擴展,經過增加broker來提升系統(tǒng)性能。Storm流處理技術,支撐Supervisor橫向擴展以提升系統(tǒng)擴展性和數(shù)據(jù)處理實時性。采集架構優(yōu)勢解耦在項目中要平衡數(shù)據(jù)聚集和數(shù)據(jù)處理性能平衡,是極其困難。消息隊列在處理過程中間插入了一個隱含、基于數(shù)據(jù)接口層,兩邊處理過程全部要實現(xiàn)這一接口。這許可你獨立擴展或修改兩邊處理過程,只要確保它們遵守一樣接口約束。冗余有些情況下,處理數(shù)據(jù)過程會失敗。除非數(shù)據(jù)被持久化,不然將造成丟失。消息隊列把數(shù)據(jù)進行持久化直到它們已經被完全處理,經過這一方法規(guī)避了數(shù)據(jù)丟失風險。在被很多消息隊列所采取“插入-獲取-刪除”范式中,在把一個消息從隊列中刪除之前,需要你處理過程明確指出該消息已經被處理完成,確保你數(shù)據(jù)被安全保留直到你使用完成。擴展性因為消息隊列解耦了你處理過程,所以增大消息入隊和處理頻率是很輕易;只要另外增加處理過程即可。不需要改變代碼、不需要調整參數(shù)。擴展就像調大電力按鈕一樣簡單。靈活性&峰值處理能力在訪問量劇增情況下,應用仍然需要繼續(xù)發(fā)揮作用,不過這么突發(fā)流量并不常見;假如為以能處理這類峰值訪問為標準來投入資源隨時待命無疑是巨大浪費。使用消息隊列能夠使關鍵組件頂住突發(fā)訪問壓力,而不會因為突發(fā)超負荷請求而完全瓦解。可恢復性當體系一部分組件失效,不會影響到整個系統(tǒng)。消息隊列降低了進程間耦合度,所以即使一個處理消息進程掛掉,加入隊列中消息仍然能夠在系統(tǒng)恢復后被處理。而這種許可重試或延后處理請求能力通常是造就一個略感不便用戶和一個沮喪透頂用戶之間區(qū)分。送達確保消息隊列提供冗余機制確保了消息能被實際處理,只要一個進程讀取了該隊列即可。在此基礎上,IronMQ提供了一個”只送達一次”確保。不管有多少進程在從隊列中領取數(shù)據(jù),每一個消息只能被處理一次。這之所以成為可能,是因為獲取一個消息只是”預定”了這個消息,臨時把它移出了隊列。除非用戶端明確表示已經處理完了這個消息,不然這個消息會被放回隊列中去,在一段可配置時間以后可再次被處理。緩沖在任何關鍵系統(tǒng)中,全部會有需要不一樣處理時間元素。比如,加載一張圖片比應用過濾器花費更少時間。消息隊列經過一個緩沖層來幫助任務最高效率實施—寫入隊列處理會盡可能快速,而不受從隊列讀預備處理約束。該緩沖有利于控制和優(yōu)化數(shù)據(jù)流經過系統(tǒng)速度。異步通信很多時候,你不想也不需要立即處理消息。消息隊列提供了異步處理機制,許可你把一個消息放入隊列,但并不立即處理它。你想向隊列中放入多少消息就放多少,然后在你愿意時候再去處理它們。內部各層數(shù)據(jù)提取和加載數(shù)據(jù)聚集將數(shù)據(jù)儲存于操作型數(shù)據(jù)存放層(ODS),在數(shù)據(jù)倉庫各層次間數(shù)據(jù)轉換提取加載,采取傳統(tǒng)ETL工具進行采集,數(shù)據(jù)倉庫間各層次數(shù)據(jù)采集實效性依據(jù)具體數(shù)據(jù)需求而定,具體ETL建模界面圖:數(shù)據(jù)加工和處理對于數(shù)據(jù)倉庫平臺,應該建立一套標準化、規(guī)范化數(shù)據(jù)處理步驟,比如:怎樣采集內部和外部數(shù)據(jù)、結構化和非結構化數(shù)據(jù);怎樣清洗采集來臟數(shù)據(jù)和無效數(shù)據(jù);怎樣對不一樣起源數(shù)據(jù)進行打通;怎樣對非結構化數(shù)據(jù)進行結構化加工;怎樣在結構化數(shù)據(jù)基礎上進行商業(yè)建模和數(shù)據(jù)挖掘等等。大數(shù)據(jù)管理層在一條數(shù)據(jù)總線上構建了一條完整大數(shù)據(jù)處理流水線。這條流水線從數(shù)據(jù)采集、清洗到加工處理,把原始雜亂無章數(shù)據(jù)加工成結構化數(shù)據(jù)組件,供上層大數(shù)據(jù)應用來拼裝調用,讓企業(yè)擁有發(fā)明數(shù)據(jù)資產能力。存放設計數(shù)據(jù)量估算按每列列車平均500毫秒經過車地通信采集監(jiān)測數(shù)據(jù)100條,天天運行時間18小時,按每條統(tǒng)計160字節(jié)計算(監(jiān)測數(shù)據(jù)數(shù)據(jù)項相對簡單),初步根據(jù)67列列車計算。單列列車日監(jiān)測數(shù)據(jù)=3600*2*160*100*18/1024/1024/1024≈2G67列列車年數(shù)據(jù)量=2*67*365/1024≈48T總數(shù)據(jù)量(乘上增加系數(shù)10%)≈530T(含操作系統(tǒng))數(shù)據(jù)計劃,加上系統(tǒng)用戶信息、系統(tǒng)日志信息、教授信息、業(yè)務數(shù)據(jù)及其它不可估計類數(shù)據(jù),數(shù)據(jù)總量預估530T。數(shù)據(jù)存放教授系統(tǒng)數(shù)據(jù)采取混合存放模式進行存放,RDBMS存放教授系統(tǒng)業(yè)務基礎數(shù)據(jù)及最近1年監(jiān)測數(shù)據(jù),內歷史監(jiān)測數(shù)據(jù)采取NoSQLHBase數(shù)據(jù)庫進行存放,以方便查詢,HBase基于Hdfs分布式文件系統(tǒng)搭建,具體存放模式以下圖。RDBMS數(shù)據(jù)庫,支持教授庫關鍵業(yè)務,存放列車最近1年監(jiān)測數(shù)據(jù)為確保教授系統(tǒng)安全、穩(wěn)定運行,在數(shù)據(jù)庫系統(tǒng)上支撐多種統(tǒng)計分析及傳統(tǒng)BI業(yè)務。考慮到操作系統(tǒng)存放、緩存存放、數(shù)據(jù)庫系統(tǒng)存放、日志存放等原因,RDBMS數(shù)據(jù)庫服務器估計每臺60T存放,考慮數(shù)據(jù)安全及系統(tǒng)穩(wěn)定原因RDBMS采取雙機熱備技術互備。大數(shù)據(jù)平臺計劃存放最近監(jiān)測數(shù)據(jù),日志文件備份及歷史數(shù)據(jù)采取大數(shù)據(jù)Hadoop和HBase存放,大數(shù)據(jù)平臺數(shù)據(jù)采取節(jié)點間冗余備份,預設數(shù)據(jù)2倍冗余存放,(考慮平臺提供壓縮技術,壓縮存放能夠節(jié)省30-55%空間)。數(shù)據(jù)量=530T*1.5≈800T(2倍冗余存放)分層存放教授數(shù)據(jù)分三個層次進行聚集和存放,分別為ODS層、數(shù)據(jù)倉庫層、專題數(shù)據(jù)層,各層次數(shù)據(jù)存放內容以下ODS層:數(shù)據(jù)起源于各生產系統(tǒng),經過ETL工具對接口文件數(shù)據(jù)進行編碼替換和數(shù)據(jù)清洗轉換,不做關聯(lián)操作。未來也可用于準實時數(shù)據(jù)查詢。數(shù)據(jù)倉庫層:數(shù)據(jù)深度聚集層,依據(jù)業(yè)務有選擇對ODS層數(shù)據(jù)進行提取,經過對數(shù)據(jù)加工處理,將單一數(shù)據(jù)信息轉換成體系信息,將點信息數(shù)據(jù)變成面信息數(shù)據(jù)。專題數(shù)據(jù)層:將數(shù)據(jù)信息體系依據(jù)各專題進行提取和轉換,專題域內部進行拆分、關聯(lián)。是對ODS操作型數(shù)據(jù)根據(jù)專題域劃分規(guī)則進行拆分及合并。數(shù)據(jù)分析建模伴伴隨大數(shù)據(jù)時代悄然來臨,數(shù)據(jù)價值得到大家廣泛認同,對數(shù)據(jù)重視提到了前所未有高度。數(shù)據(jù)已經作為企業(yè)、機關關鍵資產被廣泛應用于盈利分析和估計、用戶關系管理、合規(guī)性監(jiān)管、運行風險管理等業(yè)務當中。怎樣建立大數(shù)據(jù)分析模型,以提供決議依據(jù)是很多用戶所迫切處理問題。教授數(shù)據(jù)倉庫建立在Hadoop分布式系統(tǒng)之上,提供了多個豐富算法模型,不一樣應用經過借助不一樣接口實現(xiàn)數(shù)據(jù)多維展現(xiàn)和結果展示,為用戶提供科學決議支持。圖10-7hadoop算法模型圖大數(shù)據(jù)平臺提供數(shù)據(jù)挖掘模型、分布式計算引擎、高性能機器學習算法庫(包含分類、聚類、估計、推薦等機器學習算法)、即席查詢功效,能夠幫助決議者快速建立數(shù)據(jù)分析模型立方體,便于決議者進行OLAP分析。常見算法模型:分類算法:分類是找出數(shù)據(jù)庫中一組數(shù)據(jù)對象共同特點并根據(jù)分類模式將其劃分為不一樣類,其目標是經過分類模型,將數(shù)據(jù)庫中數(shù)據(jù)項映射到某個給定類別中。如政務網中將用戶在一段時間內網上辦理所碰到問題劃分成不一樣類,依據(jù)情況向用戶推薦關聯(lián)類問題處理方案,從而方便用戶快速處理網上辦事審批中碰到各類問題?;貧w算法回歸分析反應了數(shù)據(jù)庫中數(shù)據(jù)屬性值特征,經過函數(shù)表示數(shù)據(jù)映射關系來發(fā)覺屬性值之間依靠關系。在回歸算法中通常將數(shù)值結果轉化為了0到1之間概率,數(shù)值越大,函數(shù)越迫近1,數(shù)值越小,函數(shù)越迫近0,它能夠應用到對數(shù)據(jù)序列估計及相關關系研究中去。如我們依據(jù)這個概率能夠做垃圾郵件估計,比如概率大于0.5,則這封郵件就是垃圾郵件。聚類算法聚類類似于分類,但和分類目標不一樣,是針對數(shù)據(jù)相同性和差異性將一組數(shù)據(jù)分為多個類別。屬于同一類別數(shù)據(jù)間相同性很大,但不一樣類別之間數(shù)據(jù)相同性很小,跨類數(shù)據(jù)關聯(lián)性很低。分類算法中一個顯著特征就是訓練數(shù)據(jù)中包含了標簽,訓練出模型能夠對其它未知數(shù)據(jù)估計標簽。在聚類算法中,訓練數(shù)據(jù)全部是不含標簽,而算法目標則是經過訓練,推測出這些數(shù)據(jù)標簽。以二維數(shù)據(jù)來說,一個數(shù)據(jù)就包含兩個特征,可經過聚類算法,給她們中不一樣種類打上標簽,經過聚類算法計算出種群中距離,依據(jù)距離遠近將數(shù)據(jù)劃分為多個族群。關聯(lián)算法關聯(lián)規(guī)則是隱藏在數(shù)據(jù)項之間關聯(lián)或相互關系,即能夠依據(jù)一個數(shù)據(jù)項出現(xiàn)推導出其它數(shù)據(jù)項出現(xiàn)。關聯(lián)規(guī)則挖掘過程關鍵包含兩個階段:第一階段為從海量原始數(shù)據(jù)中找出全部高頻項目組;第二極端為從這些高頻項目組產生關聯(lián)規(guī)則。推薦算法推薦算法是現(xiàn)在業(yè)界很火一個算法,在電商界,如亞馬遜,天貓,京東等得到了廣泛利用。推薦算法關鍵特征就是能夠自動向用戶推薦她們最感愛好東西,從而增加購置率,提升效益。神經網絡模型神經網絡模型,因其本身自行處理、分布存放和高度容錯等特征很適合處理非線性和那些以模糊、不完整、不嚴密知識或數(shù)據(jù)為特征處理問題,它這一特點十分適合處理數(shù)據(jù)挖掘問題。經典神經網絡模型關鍵分為三大類:第一類是以用于分類估計和模式識別前饋式神經網絡模型;第二類是用于聯(lián)想記憶和優(yōu)化算法反饋式神經網絡模型。第三類是用于聚類自組織映射方法。Adaboost算法其關鍵思想是針對同一個訓練集,訓練不一樣分類器(弱分類器),然后把這些弱分類器集合起來,組成一個更強最終分類器(強分類器)。其算法本身是經過改變數(shù)據(jù)分布來實現(xiàn),它依據(jù)每次訓練集之中每個樣本分類是否正確,和上次總體分類正確率,來確定每個樣本權值。將修改過權值新數(shù)據(jù)集送給下層分類器進行訓練,最終將每次訓練得到分類器最終融合起來,作為最終決議分類器。深度學習深度學習算法是對人工神經網絡發(fā)展。在計算能力變得日益廉價今天,深度學習試圖建立大得多也復雜得多神經網絡,用來處理存在少許未標識數(shù)據(jù)大數(shù)據(jù)集。數(shù)據(jù)資源管理教授系統(tǒng)數(shù)據(jù)含有數(shù)據(jù)量大、數(shù)據(jù)類別多、數(shù)據(jù)關聯(lián)關系緊密等特點,伴隨數(shù)據(jù)積累,數(shù)據(jù)資源利用價值逐步表現(xiàn),提升數(shù)據(jù)管理,是對數(shù)據(jù)資源充足利用前提條件。數(shù)據(jù)資源管了包含以下幾部分內容:數(shù)據(jù)標準化管理、數(shù)據(jù)監(jiān)測管理及元數(shù)據(jù)管理等。數(shù)據(jù)標準管理聚集整理數(shù)據(jù)資源管理所需標準規(guī)范信息,建立數(shù)據(jù)標準數(shù)據(jù)庫。利用教授系統(tǒng)數(shù)據(jù)標準管理系統(tǒng)接口同時更新標準信息。包含數(shù)據(jù)元標準和信息代碼標準。建設數(shù)據(jù)資源庫,實現(xiàn)教授系統(tǒng)公布標準數(shù)據(jù)元和當?shù)財U展數(shù)據(jù)元標準聚集。實現(xiàn)和車輛檢修等數(shù)據(jù)源管理系統(tǒng)接口對接。建設信息代碼資源庫,梳理國家標準、部標和本省定義標準代碼和各業(yè)務信息系統(tǒng)需要使用其它代碼,建立字典代碼實體數(shù)據(jù)庫。應含有字典代碼定時同時功效。并建設信息代碼在線映射維護功效,方便對數(shù)據(jù)標準化轉換提供支持。數(shù)據(jù)監(jiān)控管理大數(shù)據(jù)運行監(jiān)控經過對大數(shù)據(jù)資源庫相關服務器、Oracle數(shù)據(jù)庫、分布式存放系統(tǒng)、Hadoop平臺等運行狀態(tài)、性能指標和數(shù)據(jù)更新情況進行連續(xù)監(jiān)控,立即發(fā)覺存在問題及隱患,輔助系統(tǒng)管理員立即采取方法,提升大數(shù)據(jù)資源庫運行可靠性,保障大數(shù)據(jù)資源庫穩(wěn)定高效運行。發(fā)覺異常問題時經過短信、郵件等方法通知系統(tǒng)管理員立即處理,實現(xiàn)經過自動、智能、連續(xù)自動監(jiān)控預警替換人工巡檢,降低運維工作量,提升運維效率。經過可視化圖表對監(jiān)控結果進行統(tǒng)計分析直觀展現(xiàn)平臺運行各類運行指標,輔助管理員從宏觀角度掌握平臺運行情況。性能指標監(jiān)控能夠對服務器CPU負載、Oracle數(shù)據(jù)庫連接數(shù)、分布式存放IO負載、Hadoop負載等各類性能相關指標進行監(jiān)控,方便掌握平臺負載情況,立即發(fā)覺性能問題,輔助平臺優(yōu)化。大數(shù)據(jù)庫日志監(jiān)控自動采集大數(shù)據(jù)相關組件運行日志,并依據(jù)既定規(guī)則進行分析,發(fā)覺異常立即告警。提供日志查詢檢索功效,能夠按組件類型、時間、關鍵字等進行過濾。數(shù)據(jù)量監(jiān)控數(shù)據(jù)量監(jiān)控經過對數(shù)據(jù)總量和增量進行定時監(jiān)控,能夠掌握數(shù)據(jù)量改變情況,也能夠從數(shù)據(jù)增量角度發(fā)覺數(shù)據(jù)入庫異常。數(shù)據(jù)量監(jiān)測結果可同時到數(shù)據(jù)臺帳,方便數(shù)據(jù)臺帳統(tǒng)計數(shù)據(jù)總量情況。元數(shù)據(jù)管理元數(shù)據(jù)是數(shù)據(jù)倉庫中存放基礎單元,實現(xiàn)對元數(shù)據(jù)管理,數(shù)據(jù)倉庫最基礎功效之一。元數(shù)據(jù)管理包含元數(shù)據(jù)注冊登記、元數(shù)據(jù)存放、元數(shù)據(jù)建模等多方面功效。數(shù)據(jù)服務大數(shù)據(jù)平臺開放存放訪問接口,提供基于Hadoop技術體系HDFS、HBase訪問接口,以OpenAPI方法,為應用提供大數(shù)據(jù)存放服務。數(shù)據(jù)服務層關鍵由數(shù)據(jù)服務總線來建設,關鍵負責將大數(shù)據(jù)平臺能力接口注冊進去,再以標準化接口開放給應用系統(tǒng)使用,支持多個協(xié)議轉換、服務質量控制、訪問控制、規(guī)則引擎等。數(shù)據(jù)服務層將大數(shù)據(jù)平臺數(shù)據(jù)服務能力開放出去,供第三方平臺使用。如上圖:應用服務系統(tǒng)使用服務接口,來接入數(shù)據(jù)服務總線,經過數(shù)據(jù)服務總線接入端點,進行過濾。同時依據(jù)訪問控制、服務質量、協(xié)議轉換、策略調度、規(guī)則引擎處理,接出到大數(shù)據(jù)平臺能力接口。大數(shù)據(jù)平臺大數(shù)據(jù)平臺基礎架構大數(shù)據(jù)基礎平臺基于烽火自主知識產權FitData產品,F(xiàn)itData關鍵集成了基礎計算資源、網絡資源、存放資源,在統(tǒng)一安全體管理體系下,將這些資源再進行深度加工、處理、關聯(lián),形成多個類型基礎服務能力,構建基礎資源層,向應用提供基礎資源服務能力。數(shù)據(jù)服務總線經過服務治理來維護基礎資源服務能力,并經過訪問控制、服務質量、協(xié)議轉換等,對應用提供多協(xié)議支持。平臺支撐體系運維體系提供整體運維能力,保障平臺正常運行;安全體系提供整體安全能力,保障平臺數(shù)據(jù)安全和使用安全;平臺采取分布式架構,支持巨量數(shù)據(jù)存放和分析,保障教授管理系統(tǒng)高性能、高可用性和易擴展性。FitData大數(shù)據(jù)基礎平臺結構以下圖紅線標出部分。數(shù)據(jù)計算和存放:是FitData大數(shù)據(jù)平臺關鍵內容,提供分布式存放能力和分布式計算能力。提供存放框架能力,包含基于結構化數(shù)據(jù)存放、非結構化數(shù)據(jù)存放和半結構化數(shù)據(jù)存放,其計算框架和存放框架均是分布式集群方法布署,能夠平滑進行彈性擴容。數(shù)據(jù)服務層:數(shù)據(jù)服務層關鍵由數(shù)據(jù)服務接口來實現(xiàn),對應用提供數(shù)據(jù)支撐。經過數(shù)據(jù)服務接口將平臺數(shù)據(jù)資源以標準API接口方法開放出來,供不一樣應用系統(tǒng)使用。數(shù)據(jù)應用層關鍵提供基于該平臺來構建教授系統(tǒng)應用。采取平臺標準API,數(shù)據(jù)資源層獲取數(shù)據(jù)服務,現(xiàn)在API接口包含資源目錄瀏覽、數(shù)據(jù)查詢搜索等。數(shù)據(jù)匯聚層:提供各層之間數(shù)據(jù)交換能力,由ETL數(shù)據(jù)集成工具來實現(xiàn)。平臺支持多中異構數(shù)據(jù)源,針對不一樣數(shù)據(jù)源不一樣數(shù)據(jù),也提供多個數(shù)據(jù)抽取方法,比如數(shù)據(jù)庫直連抽取、Sqoop抽取等。提供計算框架能力,關鍵集成了批處理計算框架、流式計算框架、內存計算框架等能力,還提供了像Hive、Mahout、Spark等二次計算能力框架。平臺可將這些計算能力開放,供數(shù)據(jù)模型、數(shù)據(jù)挖掘、應用系統(tǒng)來使用。運維體系:運維體系提供面向教授系統(tǒng)完整運維方案,涵蓋了運行監(jiān)控到使用操作。安全體系提供面向教授系統(tǒng)大數(shù)據(jù)平臺用戶權限管理、終端訪問控制、日志安全審計等能力。數(shù)據(jù)存和計算是FitData大數(shù)據(jù)平臺關鍵能力,將現(xiàn)在教授系統(tǒng)內部業(yè)務數(shù)據(jù)源進行有效整合,集成以數(shù)據(jù)為關鍵查詢、分析和管理能力。采取分層整合,靈活配置,橫向擴展,縱向貫穿大數(shù)據(jù)平臺服務能力,其計算框架、存放框架全部以容器方法,可輕松靈活在線進行裝卸,以平滑擴充大數(shù)據(jù)平臺集成能力。除此還集成了二級計算框架、通用數(shù)據(jù)處理算法庫和數(shù)據(jù)倉庫,將大數(shù)據(jù)平臺數(shù)據(jù)進行清洗、加工和分析挖掘,處理后數(shù)據(jù)可訂閱,充足表現(xiàn)數(shù)據(jù)即服務大數(shù)據(jù)思想。?分布式存放框架:關鍵負責針對巨量數(shù)據(jù)存放,以分布式存放技術,支持快速、巨量、多個類型數(shù)據(jù)存取。支持從數(shù)據(jù)源抽取數(shù)據(jù)到大數(shù)據(jù)平臺存放,集成多個存放方法,有針對結構化數(shù)據(jù)、非結構化數(shù)據(jù)和半結構化數(shù)據(jù)存放。?計算框架:關鍵提供批處理計算、內存計算、流式計算框架,由數(shù)據(jù)處理管理驅動來分配和調度計算框架,加載數(shù)據(jù)處理算法,完成數(shù)據(jù)處理。?數(shù)據(jù)倉庫:關鍵對計算框架完成后結果進行存放,支持Hbase、MSSQLServer等存放,同時將數(shù)據(jù)以接口形式開放出去。?數(shù)據(jù)處理算法庫:集成通用數(shù)據(jù)分析算法、能夠插入用戶自定義數(shù)據(jù)模型算法,配合以資源管理系統(tǒng)為主計算存放框架,進行數(shù)據(jù)處理。?資源管理系統(tǒng),以容器方法,來為計算框架和存放框架分配資源,并支持資源調度,彈性伸縮。?數(shù)據(jù)服務總線:關鍵將基礎平臺能力和數(shù)據(jù)服務接口,以API方法開放出去,形成一個共享、供給用使用服務總線。FitData特點廣泛適應性:支持結構化、半結構化、非結構化數(shù)據(jù);支持實時數(shù)據(jù)。巨量數(shù)據(jù):數(shù)據(jù)處理能力在PB級以上。線性擴展:存放、計算均可增加節(jié)點進行線性擴展。統(tǒng)一運維管理:降低安裝布署、運行、維護成本。經濟性:可運行在一般X86服務器上,硬件成本低。高可靠性:支持容災容錯、備份恢復機制,支持自動告警。支持節(jié)點可靠性、數(shù)據(jù)可靠性。高性能:高效數(shù)據(jù)處理性能,支持Spark、Storm、R。認證安全:支持Kerberos安全認證、LDAP賬戶管理控制。數(shù)據(jù)安全:支持數(shù)據(jù)加密。負載均衡:支持節(jié)點間存放、技術負載均衡。開放性:支持符合Hadoop規(guī)范第三方組件或工具。FitData關鍵功效FitData是基于開源Hadoop開發(fā)企業(yè)級大數(shù)據(jù)產品,提供PB級數(shù)據(jù)采集、存放和處理能力,支持數(shù)據(jù)加載、查詢、分析、挖掘等功效。節(jié)點批量自動布署經過以Web管理,以圖形界面方法實現(xiàn)大數(shù)據(jù)平臺節(jié)點批量自動布署,只需添加主機名(或IP地址)即可實現(xiàn)將節(jié)點服務器添加到集群中,截圖以下:圖向集群中添加節(jié)點節(jié)點動態(tài)管理經過web管理實現(xiàn)節(jié)點動態(tài)添加、刪除,當存放空間或計算資源不足時,支持向集群中添加相同配置服務器,實現(xiàn)大數(shù)據(jù)平臺在線動態(tài)擴容,而不需要停機處理,不影響平臺正常運行。大數(shù)據(jù)平臺以Web圖形界面實現(xiàn)Hadoop集群監(jiān)控,包含大數(shù)據(jù)平臺硬件資源、軟件資源、數(shù)據(jù)資源監(jiān)控,和整個Hadoop集群工作負載。關鍵包含以下多個方面:服務組件狀態(tài)監(jiān)控經過管理平臺能夠看到全部現(xiàn)在已安裝服務組件健康情況。圖服務組件運行情況計算資源負載監(jiān)控經過管理平臺能夠實時看到整個平臺資源負載情況,包含集群CPU、集群磁盤IO、集群網絡IO、HDFSIO,以下圖所表示:圖計算資源監(jiān)控多任務實時監(jiān)控經過對集群運行任務實時監(jiān)測,并依據(jù)任務優(yōu)先級和耗時不一樣對任務進行動態(tài)調度,降低出現(xiàn)大量任務等候和關鍵任務無法立即完成可能,能夠使Hadoop集群運行變得愈加高效合理。(1)、系統(tǒng)依據(jù)各隊列資源最小值分配集群資源,這么能夠根據(jù)需求對各任務隊列獲取集群資源進行分配,而且不會出現(xiàn)集群資源閑置浪費。(2)、能夠實現(xiàn)對各任務隊列獲取集群資源大小實時動態(tài)調整,立即確保高優(yōu)先級任務所在隊列取得更多集群資源。(3)、能夠實現(xiàn)在某個任務隊列出現(xiàn)空閑時,將該任務隊列獲取集群資源自動分配給其它繁忙任務隊列,以使得集群資源利用最大化。磁盤性能監(jiān)控對集群機器硬盤進行監(jiān)控,以下圖所表示,具體展示出磁盤IO利用率,讀寫速度,磁盤等候時間。圖:磁盤性能監(jiān)控故障快速定位大數(shù)據(jù)平臺含有完整告警監(jiān)控和故障快速定位能力。能夠將計算框架每個作業(yè)進度、狀態(tài)、資源利用情況進行監(jiān)控,并經過可視化圖形界面進行展示。當大數(shù)據(jù)平臺出現(xiàn)異常情況時,平臺能夠經過監(jiān)控系統(tǒng),對服務器節(jié)點宕機、集群異常、安全異常等異常事件進行預警、報警,并經過郵件、短信報警手段進行告警通知。提供預制恢復規(guī)則和安全規(guī)則,對集群異常進行自動修復、自動限制非安全行為操作。大數(shù)據(jù)平臺能夠經過對告警信息分析,快速定位平臺內部出現(xiàn)故障節(jié)點,對于因故障無法繼續(xù)提供服務器節(jié)點進行標識,將平臺作業(yè)任務自動分配到其它節(jié)點上運行,同時,大數(shù)據(jù)平臺采取分布式體系結構及無單點故障設計,平臺內任何節(jié)點宕機全部不會影響平臺穩(wěn)定運行和業(yè)務正常使用。待故障節(jié)點恢復正常后,再將該節(jié)點納入平臺資源中,將作業(yè)任務分配到恢復后節(jié)點上運行。日常運維監(jiān)控大數(shù)據(jù)綜合平臺提供完整日常運維監(jiān)控服務能力,針對從上層應用平臺到底層基礎平臺各個功效模塊和組件均提供有監(jiān)控能力,能夠分析系統(tǒng)運行日志和用戶日志,而且能夠將監(jiān)控數(shù)據(jù)經過文件接口或webservice接口方法匯總到平臺管理運維模塊監(jiān)控管理界面中進行統(tǒng)一展現(xiàn)和管理使用。系統(tǒng)能夠依據(jù)監(jiān)控到數(shù)據(jù)進行分析判定,對異常數(shù)據(jù)觸發(fā)告警,在前臺界面提醒,直至出發(fā)通知和處理等深入動作。平臺監(jiān)控范圍涵蓋有:平臺管理資源使用和分配服務器視圖:提供針對各服務器和存放等設備資源使用情況實時查看,包含目前設備CPU負荷,內存占用情況,存放空間使用情況,網絡帶寬占用情況、設備運行狀態(tài)等。管理員能夠依據(jù)監(jiān)控信息在管理平臺上有效調度分配系統(tǒng)資源。其中集群監(jiān)控以下圖所表示:針對服務器監(jiān)控以下圖所表示:服務視圖:提供系統(tǒng)中各服務資源使用情況實時查看,包含連接數(shù)、目前作業(yè)數(shù),I/O情況,運行狀態(tài)等。監(jiān)控系統(tǒng)運行情況接口服務運行監(jiān)控:提供針對數(shù)據(jù)源和應用層監(jiān)控服務,包含運行狀態(tài)和流量等信息;數(shù)據(jù)存取過程監(jiān)控:提供針對數(shù)據(jù)存放過程監(jiān)控服務,包含系統(tǒng)平臺I/O情況(整體I/O和具體各節(jié)點I/O和具體各作業(yè)I/O情況)和數(shù)據(jù)存取過程任務列表;數(shù)據(jù)匯聚過程監(jiān)控:監(jiān)控系統(tǒng)數(shù)據(jù)匯聚過程,包含使用資源信息,使用數(shù)據(jù)源信息,作業(yè)進程運行情況信息,使用時間/計劃完成時間等信息;數(shù)據(jù)處理過程監(jiān)控(作業(yè)監(jiān)控):監(jiān)控系統(tǒng)數(shù)據(jù)處理(作業(yè))過程,包含使用資源信息,使用數(shù)據(jù)源信息,作業(yè)進程運行情況信息,使用時間/計劃完成時間等信息;應用監(jiān)控:針對運行在平臺上應用進行監(jiān)控,包含各應用目前運行狀態(tài)、應用對數(shù)據(jù)使用情況,應用為用戶提供查詢數(shù)量等;系統(tǒng)異常告警和處理用戶告警:對用戶操作使用過程中異常行為進行告警,比如某用戶訪問了超出其正常權限數(shù)據(jù)等。系統(tǒng)告警:對系統(tǒng)中存在服務節(jié)點宕機,系統(tǒng)接口異常,數(shù)據(jù)存放報錯,系統(tǒng)資源擔心等系統(tǒng)運行異常情況進行告警觸發(fā),并提醒用戶進行操作處理。FitData優(yōu)勢烽火大數(shù)據(jù)平臺FitData借助優(yōu)異開源大數(shù)據(jù)存放及處理技術,成功實施了公安大數(shù)據(jù)平臺、楚天云政務大數(shù)據(jù)平臺,經過大數(shù)據(jù)項目標實施,逐步沉淀了大量算法模型及分析和展示工具,在平臺性能及穩(wěn)定性上經歷了實戰(zhàn)考驗,逐步總結出一套FitData自己系統(tǒng)優(yōu)化策略及系統(tǒng)運維策略,平臺經受住了單節(jié)點超出1000臺集群實戰(zhàn)考驗,并支持HA高可用性運行策略,經過四年時間及高強度項目標錘煉,F(xiàn)itData大數(shù)據(jù)平臺已經走出了自己路。在數(shù)據(jù)處理上支持PB及超大量數(shù)據(jù)秒級查詢及聚集。SmartAS是企業(yè)級基礎開發(fā)平臺,它基于FitData平臺之上,采取微服務架構,支持分布式布署,是成熟可靠多終端應用開發(fā)框架。它集成業(yè)界流行和成熟技術框架,經過應用系統(tǒng)使用,反饋情況不停完善應用框架通用功效,滿足業(yè)務系統(tǒng)快熟構建目標,含有良好用戶體驗硬件布署根據(jù)教授系統(tǒng)安裝接口規(guī)范要求,結合教授管理系統(tǒng)數(shù)據(jù)量估算值和數(shù)據(jù)存放特點,本著數(shù)據(jù)安全、系統(tǒng)穩(wěn)定可靠關鍵設計思緒,設計教授系統(tǒng)大數(shù)據(jù)平臺數(shù)據(jù)節(jié)點服務器22臺,其中管理節(jié)點服務器2臺,數(shù)據(jù)節(jié)點服務器19臺,監(jiān)控節(jié)點一臺,系統(tǒng)RDBMS數(shù)據(jù)庫服務器臺,應用服務器6臺,繪制教授系統(tǒng)布署邏輯結構圖以下:硬件清單依據(jù)系統(tǒng)計劃及安裝接口規(guī)范要求,初步計劃服務器以下:系統(tǒng)應用服務器需求6臺;大數(shù)據(jù)平臺設計節(jié)點22個,其中管理節(jié)點2個,數(shù)據(jù)節(jié)點19個,監(jiān)控節(jié)點服務器1臺,RDBMS數(shù)據(jù)庫服務器兩臺雙機熱備。具體各服務器硬件需求以下表:編號服務器名配置數(shù)量說明1RDBMS數(shù)據(jù)庫服務器4*IntelXeonE7-4800/8800v3最大可擴展至4CPU,72核支持8GB/16GB/32GB/64GBDDR4高速內存配置128GBDDR4內存配置9塊900GB15KSAS,14*4TNLSAS硬盤。2雙機備份2大數(shù)據(jù)平臺管理節(jié)點2*IntelXeonE7-4800/8800v3最大可擴展至4CPU,72核支持8GB/16GB/32GB/64GBDDR4高速內存配置128GBDDR4內存配置6塊600GB15KSAS,3*4TNLSAS硬盤。1Active3大數(shù)據(jù)平臺管理節(jié)點2*IntelXeonE7-4800/8800v3最大可擴展至4CPU,72核支持8GB/16GB/32GB/64GBDDR4高速內存配置128GBDDR4內存配置6塊600GB15KSAS,3*4TNLSAS硬盤。1Standby4大數(shù)據(jù)平臺數(shù)據(jù)節(jié)點2*IntelXeonE7-4800/8800v3最大可擴展至4CPU,72核支持8GB/16GB/32GB/64GBDDR4高速內存配置128GBDDR4內存配置6塊600GB15KSAS,12*4TNLSAS硬盤。19數(shù)據(jù)節(jié)點5大數(shù)據(jù)集群性能檢測服務器2*IntelXeonE7-4800/8800v3最大可擴展至4CPU,72核支持8GB/16GB/32GB/64GBDDR4高速內存配置128GBDDR4內存配置6塊600GB15KSAS,3*4TNLSAS硬盤。1監(jiān)控節(jié)點6應用服務器CPU:2顆E5-2630v3≥24個內存插槽,最大支持1.5TB內存,支持2133MHz內存。目前配置64GB內存。支持SAS、SSD和PCIeSSD硬盤,支持2.5寸和3.5寸硬盤混插。支持24+2個2.5寸SAS/SATA或14個3.5寸SAS/SATA+2個2.5寸SAS/SATA+16個1.8"SSD。硬盤:配置6塊600GB15KSAS硬盤2應用服務器7交換機4810/100/1000Base-TX,4100/1000Base-XSFP2網絡設備8防火墻多功效防火墻,4口以上2安防設備9工作站Intel(R)XeonCPUE5,配置1TSATA硬盤。內存:8GB2說明:硬件部分交換機、防火強及工作站,請依據(jù)標書確定!大數(shù)據(jù)服務器、RDBMS數(shù)據(jù)庫服務器及應用服務器具體配置參數(shù)請硬件好友和標書上進行重新確定,這邊只對內存量、CPU顆數(shù)及存放空間大小做了要求。個人介紹吳宏勛:“烽火集成”高級大數(shù)據(jù)架構師,曾擔任醫(yī)療大數(shù)據(jù)、公安大數(shù)據(jù)、財稅大數(shù)據(jù)項目大數(shù)據(jù)架構師,含有豐富大數(shù)據(jù)項目實施經驗,對高吞吐、高并發(fā)、海量數(shù)據(jù)實時聚集,TB、PB級海量數(shù)據(jù)即席查詢和實時處理含有針對性方案和經驗,研讀過部分Hadoop、HBase、Spark源碼,對Hadoop、HBase、Spark原理有很深了解,曾從事多個項目大數(shù)據(jù)平臺調優(yōu)工作!教授系統(tǒng)架構設計本系統(tǒng)總共分為四個層次,從下到上依次為數(shù)據(jù)采集層、基礎平臺層、應用支撐層、應用及展示層,各層在教授系統(tǒng)統(tǒng)一業(yè)務規(guī)范、技術規(guī)范、安全規(guī)范下進行數(shù)據(jù)通信及集成。數(shù)據(jù)采集層:負責教授系統(tǒng)信息數(shù)據(jù)聚集、轉換和加載,數(shù)據(jù)采集層提供多個數(shù)據(jù)采集方法:ETL、Flume、Kafka等,系統(tǒng)支持Flume+Kafka+Storm混合架構數(shù)據(jù)采集模式,以提升數(shù)據(jù)采集系統(tǒng)吞吐量和并發(fā)量?;A平臺層:基礎平臺層為教授數(shù)據(jù)倉庫提供大數(shù)據(jù)基礎平臺支撐,包含分布式存放系統(tǒng)、Hbase數(shù)據(jù)庫系統(tǒng)、Yarn并行計算資源管理和監(jiān)控等,同時支持Spark機器學習算法庫,支持R等行業(yè)分析庫。應用支撐層:應用支撐層為系統(tǒng)各類應用提供支撐,是系統(tǒng)數(shù)據(jù)層和應用層連接紐帶。應用支撐層包含基礎平臺和常規(guī)算法兩個部分,基礎平臺負責數(shù)據(jù)存放和并行計算,數(shù)據(jù)存放支持分布式存放、RDBMS存放等存放方法,常規(guī)算法負責數(shù)據(jù)分析和業(yè)務建模。應用及展示層:應用層是系統(tǒng)各項業(yè)務功效集合,關鍵包含資車輛故障診療、車輛健康評定、車輛部件檢修、車輛故障處理及車輛對比分析等。展示層是用戶同系統(tǒng)交互窗口,是應用層對外提供服務關鍵手段。支持多個圖表展示如餅圖、柱狀圖、曲線圖、熱力圖、氣泡圖和散點圖等可視化展示。平臺運維管理Hadoop集群監(jiān)控大數(shù)據(jù)平臺以Web圖形界面實現(xiàn)Hadoop集群監(jiān)控,包含大數(shù)據(jù)平臺硬件資源、軟件資源、數(shù)據(jù)資源監(jiān)控,和整個Hadoop集群工作負載。關鍵包含以下多個方面:服務組件狀態(tài)監(jiān)控經過管理平臺能夠看到全部現(xiàn)在已安裝服務組件健康情況,綠色圈表示運行狀態(tài)健康。圖:服務組件運行情況存放

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論