中位物聯網大數據平臺總體設計V1.0_第1頁
中位物聯網大數據平臺總體設計V1.0_第2頁
中位物聯網大數據平臺總體設計V1.0_第3頁
中位物聯網大數據平臺總體設計V1.0_第4頁
中位物聯網大數據平臺總體設計V1.0_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、物聯網大數據平臺總體設計V0.2目錄 TOC o 1-5 h z 弓I言3 HYPERLINK l bookmark49 o Current Document 文檔目的3 HYPERLINK l bookmark58 o Current Document 文檔范圍3 HYPERLINK l bookmark62 o Current Document 預期的讀者及閱讀建議3 HYPERLINK l bookmark68 o Current Document 術語3項目概述4 HYPERLINK l bookmark80 o Current Document 項目背景4 HYPERLINK l b

2、ookmark87 o Current Document 設計目標4 HYPERLINK l bookmark91 o Current Document 技術規(guī)劃路線建議 4 HYPERLINK l bookmark95 o Current Document 大數據軟硬平臺/網絡架構規(guī)劃建議 5 HYPERLINK l bookmark98 o Current Document 大數據應用集成點規(guī)劃建議 5 HYPERLINK l bookmark102 o Current Document 大數據團隊建設規(guī)劃建議 5 HYPERLINK l bookmark106 o Current Doc

3、ument 大數據系統(tǒng)實施指導建議方案 5 HYPERLINK l bookmark110 o Current Document 數據平臺總體架構規(guī)劃5 HYPERLINK l bookmark114 o Current Document 數據平臺愿景5 HYPERLINK l bookmark137 o Current Document 數據處理流程8 HYPERLINK l bookmark140 o Current Document 主要功能8 HYPERLINK l bookmark147 o Current Document 設計原則9 HYPERLINK l bookmark155

4、 o Current Document 平臺建設路線9 HYPERLINK l bookmark159 o Current Document 數據平臺軟件架構設計 10 HYPERLINK l bookmark163 o Current Document 數據平臺結構圖10 HYPERLINK l bookmark170 o Current Document 數據采集系統(tǒng)11 HYPERLINK l bookmark185 o Current Document 數據存儲系統(tǒng)11 HYPERLINK l bookmark193 o Current Document 離線計算系統(tǒng)12 HYPERL

5、INK l bookmark208 o Current Document 海量數據庫系統(tǒng) 12 HYPERLINK l bookmark223 o Current Document 管理系統(tǒng)13 HYPERLINK l bookmark240 o Current Document 應用平臺架構設計14 HYPERLINK l bookmark244 o Current Document 應用平臺架構圖14 HYPERLINK l bookmark247 o Current Document 平臺安全15 HYPERLINK l bookmark251 o Current Document 平臺

6、監(jiān)控15部署架構15 HYPERLINK l bookmark258 o Current Document 平臺運維15 HYPERLINK l bookmark270 o Current Document 團隊建設16運維工程師16 HYPERLINK l bookmark275 o Current Document 應用開發(fā)工程師16 HYPERLINK l bookmark278 o Current Document 通信協議開發(fā)工程師16基于Hadoop的開發(fā)工程師16 HYPERLINK l bookmark283 o Current Document 數據開發(fā)工程師16數據挖掘工程

7、師17文檔目的本文檔是關于xx公司物聯網大平臺的總體架構設計方案。本文包括以下內容:平臺總體架構設計;五大子系統(tǒng)設計;應用平臺設計平臺部署架構設計;平臺運維及團隊建設;文檔范圍本文檔僅限于北京xx科技公司內部人員和直接協助北京xx科技進行大平臺建設的相關人員閱讀。預期的讀者及閱讀建議本文檔的預期讀者:北京xx科技的大平臺項目相關人員;直接協助北京xx科技進行大平臺建設的相關外部人員;術語Hadoop: Apache的分布式框架。HDFS : Hadoop的分布式文件系統(tǒng)。NameNode : Hadoop HDFS元數據主節(jié)點服務器。負責保持DataNode文件存儲元數據信息。JobTrack

8、er : Hadoop 的 Map/Reduce 調度器,負責與 TackTracker 通信分配計算任務并跟蹤任務進度。DataNode: Hadoop數據節(jié)點,負責存儲數據。TaskTracker: Hadoop調度程序,負責Map,Reduce任務的具體啟動和執(zhí)行。Kafka :消息隊列。Netty : NOI 框架。2.目概述2.目概述項目背景隨著業(yè)務的增加,數據采集存儲備份能力嚴重不足數據處理分析能力無法滿足業(yè)務的需要公司業(yè)務創(chuàng)新轉型的需要設計目標xx的大數據平臺主要是為車輛、人員、物聯網提供終端接入、數據分析,并為行業(yè)應用提供數據接口。平臺建成后,初期可接入百萬級的終端,可承載多種

9、業(yè)務及應用。隨著業(yè)務增長,平臺可以動態(tài)擴容,最終可實現千萬級、億級終端的接入及數據分析處理能力。本文檔針對xx的大數據平臺應用需求,結合數據的特點,提出未來公司整體的系統(tǒng)架構,以充分滿足公司在3到5年內的業(yè)務增長和數據增長需求。并且在企業(yè)總體系統(tǒng)架構的基礎上,提出系統(tǒng)的軟硬件的具體選型方案,以及提供大數據平臺整體規(guī)劃,分步實施和推廣的建議;提供大數據平臺產品整合、集成、系統(tǒng)優(yōu)化、穩(wěn)定性等建議方案。技術規(guī)劃路線建議對xx大數據平臺系統(tǒng)進行總體規(guī)劃,與現有的交通部數據中心以及各個業(yè)務系統(tǒng)進行對接,以適應未來3到5年內公司業(yè)務發(fā)展的要求。3.1.2.大數據軟硬平臺/網絡架構規(guī)劃建議從需求的數據量、計

10、算量、應用的場景、功能、性能等因素來配置軟硬件平臺的建議;提出具體的系統(tǒng)總體架構和軟硬件部署結構建議;大數據應用集成點規(guī)劃建議Hadoop數據集成、應用集成、運維管理設計建議;大數據團隊建設規(guī)劃建議對xx技術團隊的人員需求和配置情況以及所需要掌握的技能提出建議;大數據系統(tǒng)實施指導建議方案提供大數據平臺整體規(guī)劃,分步實施和推廣的建議;提供大數據產品整合、集成、平臺化的建議系統(tǒng)優(yōu)化、穩(wěn)定性等建議方案。數據平臺總體架構規(guī)劃3.1.數據平臺愿景詬濘.史拶分析應用雄攔分學年開詬濘.史拶分析應用雄攔分學年開析平臺借平臺理平舍如上圖所示,xx的大數據平臺最終建成后,應該是一個完備的數據服務平臺,包括數據平臺

11、、應用平臺、數據產品以及內部運行支撐應用環(huán)境,該平臺上的用戶既包括外部用戶,也包括企業(yè)內部用戶,既有最終用戶,也有應用開發(fā)人員以及數據分析和數據開發(fā)人員。數據服務平臺組成 數據平臺:是數據的集散地。數據平臺的主要目標是存儲和處理海量數據,該平臺除了匯聚xx所有的業(yè)務數據和用戶數據之外,還有合作機構的相關數據,其核心功能包括數據采集、同步與集成、海量數據存儲、海量數據處理框架、海量數據倉庫等。該平臺的用戶主要有數據分析用戶和數據開發(fā)用戶,這兩類用戶在數據平臺上進行數據分析及數據集成、建模與挖掘。 應用平臺:應用開發(fā)人員開發(fā)基于數據平臺的車輛監(jiān)控、人員監(jiān)控、物品監(jiān)控等應用并部署在應用平臺,供最終用

12、戶訪問。該平臺的建設目標是處理海量 請求,其核心功能包括應用服務器、分布式緩存、分布式消息隊列、分布式文件系統(tǒng)、分布式數據庫以及分布式簡單存儲等。內部運行支撐應用環(huán)境:該環(huán)境主要供企業(yè)內部用戶將使用,包括商業(yè)智能、運營支撐、系統(tǒng)運維、分析應用等。該數據產品由大數據平臺開發(fā)人員進行研發(fā)。數據產品:當該平臺穩(wěn)定運行一段時間之后,企業(yè)根據業(yè)務發(fā)展的需要,可以開發(fā)專門的數據產品,對外提供數據服務,供最終用戶使用。該數據產品由大數據平臺開發(fā)人員進行研發(fā)。數據服務平臺的用戶劃分應用開發(fā)用戶:xx內部的技術研發(fā)人員,主要結合具體業(yè)務,開發(fā)基于數據平臺的應用,并部署到應用平臺;數據分析用戶:xx內部的技術研發(fā)

13、人員,主要基于數據平臺中的海量數據,進行業(yè)務數據分析,指導生產運營;數據開發(fā)用戶:xx內部的技術研發(fā)人員,主要基于數據平臺中的海量數據,進行數據建模、集成和挖掘,在指導生產運營的同時,挖掘新的利潤增長點;內部數據產品用戶:包括各條業(yè)務線上的各類業(yè)務人員如客服等。外部用戶:合作機構如運營商、銀行、商戶,終端用戶、企業(yè)用戶等。位置信息數據源數據平臺可以從第三方平臺交通部數據中心、運營商或定位中端車機、sim卡等采集位置、狀態(tài)等信息。無論是企業(yè)內部用戶,還是企業(yè)外部用戶,無論是技術研發(fā)人員還是業(yè)務人員,他們既是平臺數據的生產者,同時也是平臺數據的消費者。集存儲、計算、分析于一體的大數據平臺,涵蓋了

14、xx業(yè)務數據的全生命周期管理,既符合現在行業(yè)大數據企業(yè)發(fā)展的趨勢,也最終體現了 xx企業(yè)的最終最內涵的價值。3. 2.數據處理流程xx大數據平臺的數據處理流程如上上圖所示。對各類終端產生的結構化和非結構化數據源首先通過數據采集平臺進行數據采集,然后進入海量存儲計算處理平臺,生成各種多維數據,供應用服務平臺調用,支持最終的用戶訪問。3.主要功能結合xx的當前業(yè)務發(fā)展現狀,目前xx的大數據平臺重點解決三類典型需求:業(yè)務數據歸集、備份與可靠存儲離線數據分析挖掘實時查詢統(tǒng)計分析針對這三類需求,大數據平臺在數據采集和運營管理的輔助下,分別提供存儲系統(tǒng)、離線計算系統(tǒng)和海量數據庫系統(tǒng),分別滿足上述三類需求。

15、下面首先介紹平臺的軟件架構設計。設計原則采用基于Hadoop的開源技術路線整合公司的終端數據、員工、客戶、計算、存儲等所有資源于一體平臺涵蓋公司數據生產、存儲、挖掘、分析、服務等全生命周期管理結合業(yè)務線,分析挖掘和業(yè)務支持等應用自主研發(fā)平臺建設路線項目分階段完成。1期:開發(fā)數據采集系統(tǒng),從第三方平臺及終端采集位置信息,實現2種終端的接入。開發(fā)應用平臺,提供接口給客戶端訪問數據。2期:實現多種終端的接入,并完善應用接口。3期:開放存儲系統(tǒng)和簡單的MapReduce功能給其他用戶使用,數據庫方面單表的簡單查詢或帶條件查詢,內部使用實時采集組件。4期:開放Hive這樣的類SQL計算給外部門,內部開始

16、引入Mahout進行數據挖掘,數據庫方面改進查詢語言,支持更多的SQL語法,實時采集可以交給其他部門任意部署客戶端,支持常見的異構數據源5期:計算平臺成熟,完全成為各部門共同參與開發(fā)業(yè)務的平臺,數據庫具備大部分SQL查詢語法,實時采集系統(tǒng)穩(wěn)定高效運行。數據平臺軟件架構設計4.1.數據平臺結構圖離線計算系統(tǒng)采集系統(tǒng)DfltaStorage lociETLWcrkFlovtfManage lioolDataM ade IDesrnTedQueryAnaF/sis laolCollectedClient平臺監(jiān)控濡問控制DataExchsn 配10Mahout數據挖掘pk語言端譯日志處理作業(yè)調度Map

17、ReduceApache Zoo keep er離線計算系統(tǒng)采集系統(tǒng)DfltaStorage lociETLWcrkFlovtfManage lioolDataM ade IDesrnTedQueryAnaF/sis laolCollectedClient平臺監(jiān)控濡問控制DataExchsn 配10Mahout數據挖掘pk語言端譯日志處理作業(yè)調度MapReduceApache Zoo keep er用戶管理如所上圖所示,大數據平臺由五個子系統(tǒng)組成,分別為:存儲系統(tǒng)、離線計算系統(tǒng)、海量數據庫系統(tǒng)、采集系統(tǒng)和管理系統(tǒng)。這五個子系統(tǒng)之間有如下關聯關系:管理系統(tǒng)為整個平臺的輔助系統(tǒng),為其它系統(tǒng)的正常運

18、行提供相關的輔助功能;采集系統(tǒng)負責平臺的數據采集工作,這些數據的產生來自各業(yè)務生產系統(tǒng)及第三方平臺或終端;存儲系統(tǒng)、離線計算系統(tǒng)和海量數據庫系統(tǒng)共用一套底層文件系統(tǒng),保證了這三個主要系統(tǒng)的數據集成與有效共享;離線計算系統(tǒng)和海量數據庫系統(tǒng)還可以根據各自的負載,可以動態(tài)分配相應的計算能力。從錯誤味找到引用源??梢钥闯觯杉到y(tǒng)和管理系統(tǒng)之外,包括底層存儲環(huán)境在內的所有系統(tǒng)都是采用開源軟件搭建,而這些軟件都是經過相關行業(yè)的技術公司先驗是成熟可靠可行的。采用開源軟件,在平臺可以達到低成本建設的效果的同時,相應開源社區(qū)的持續(xù)演進,也為平臺后續(xù)的運行升級提供了持續(xù)的技術支持和版本穩(wěn)定保證。4. 2.數據

19、采集系統(tǒng)功能負責接入第三方服務平臺和終端設備。負責采集、清洗和導入公司各業(yè)務線上的所有的結構化業(yè)務數據和非結構化數據。要解決的問題目前,公司需要和交通部的數據中心對接,接收終端的位置數據。同時也要接入大量的終端。而且,未來業(yè)務生產線的系統(tǒng)日志信息由于也需要保存下來,并進行分析挖掘。采集系統(tǒng)可以將業(yè)務生產線的所有業(yè)務數據和日志數據采集到采用低成本的開源可線性擴展的存儲環(huán)境,達到了數據低成本安全可靠存儲,并支持進一步的數據分析和挖掘。搭建方法使用優(yōu)秀的Netty框架,與第三方應用和終端通信,采集數據。針對各種終端采用的不同通信協議,開發(fā)相應的協議解析模塊,將位置和指令信息解析為結構化數據,保存到H

20、DFS中。采用業(yè)界成熟的Flume開源包將駐留在生產環(huán)境共享存儲上的非結構化的日志數據以增量可靠的方式采集到HDFS中,采用Sqoop開源包從備庫中將業(yè)務結構化數據增量采集到HDFS中。4. 3.數據存儲系統(tǒng)功能為公司內部各業(yè)務部門提供低成本安全可靠可擴展的一攬子存儲解決方案,做為業(yè)務數據的備庫、支持離線計算和實施處理系統(tǒng)的數據導入與導出等。要解決的問題存儲系統(tǒng)利用開源Apache HDFS平臺所提供的低成本、安全、可靠、可線性擴展的平臺優(yōu)勢,可以解決公司的業(yè)務數據歸集、備份與低成本可靠存儲。4. 4.離線計算系統(tǒng)功能為公司各業(yè)務部門的技術人員和業(yè)務人員提供海量數據的分析、建模、集成和挖掘計算

21、環(huán)境。要解決的問題搭建公司數據離線計算環(huán)境,安排專業(yè)的運維團隊,用低成本、計算共享、專業(yè)團隊支撐的方式建設起來的可線性擴展的離線計算環(huán)境。搭建方法在Hadoop HDFS之上,用MapReduce進行分布式計算,用Hive為用戶提供友好的計算客戶端,用Mathout解決機器學習數據挖掘問題。4. 5.海量數據庫系統(tǒng)功能為公司內部人員、產業(yè)鏈上下游合作伙伴、終端用戶提供高并發(fā)、實時可擴展的數據分析查詢統(tǒng)計環(huán)境。要解決的問題搭建實時查詢統(tǒng)計分析處理系統(tǒng),在專業(yè)開發(fā)和運維團隊的支持下,提供一個公司目前緊缺的專業(yè)的分布式海量數據實時處理環(huán)境。該環(huán)境對內可以支撐公司相關業(yè)務的商業(yè)智能、業(yè)務支撐等應用,提

22、升業(yè)務能力,開展新的業(yè)務,對外可以支持公司上下游產業(yè)鏈的相關合作伙伴、相關的企業(yè)用戶的在線查詢請求,改善用戶體驗,提升服務質量,增強客戶的黏性,擴大用戶范圍,增加業(yè)務營收。搭建方法在Apache HDFS基礎上,通過HBase的海量存儲能力和快速的查詢功能,對外提供Web和RESTfull API兩種用戶接口,為相關的用戶和應用提供高并發(fā)、高吞吐量的基于海量數據的實時查詢統(tǒng)計分析處理系統(tǒng)。6.管理系統(tǒng)功能提供整個平臺的共性功能,包括用戶管理、訪問控制、平臺監(jiān)控、平臺升級、性能隔離和作業(yè)調度等輔助功能組件,為平臺的持續(xù)可靠運營提供外圍支撐環(huán)境。要解決的問題每一個好的生產系統(tǒng),都有一個可靠的運行輔助支撐環(huán)境。管理系統(tǒng)為整個大數據平臺的穩(wěn)定安全持久運

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論