XX市旅游大數據平臺解決方案(智慧旅游)_第1頁
XX市旅游大數據平臺解決方案(智慧旅游)_第2頁
XX市旅游大數據平臺解決方案(智慧旅游)_第3頁
XX市旅游大數據平臺解決方案(智慧旅游)_第4頁
XX市旅游大數據平臺解決方案(智慧旅游)_第5頁
已閱讀5頁,還剩91頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

11XX 市旅游大數據平臺解決方案XX 有限責任公司XX市旅游大數據平臺解決方案目錄旅游大數據平臺項目概述 6建設背景 6旅游大數據帶了的新的挑戰(zhàn) 61.2.1數據挖掘搜集復雜61.2.2經驗與數據的結合61.2.3分析與優(yōu)化的結合71.2.4數據開放與隱私的權衡 7建設目標 7建設原則 7旅游大數據平臺優(yōu)勢 9旅游大數據平臺需求分析 11大數據在業(yè)務需求分析 11省旅游局和5a景區(qū)的應用 11旅行社和OTA的應用 11大數據有助于精確旅游行業(yè)市場定位 11大數據成為旅游行業(yè)市場營銷的利器 12大數據支撐旅游行業(yè)收益管理 12大數據創(chuàng)新旅游行業(yè)需求開發(fā) 13旅游輿情監(jiān)測服務: 132.2總體建設需求 14旅游大數據平臺總體規(guī)劃設計 15第1頁市旅游大數據平臺解決方案XX市旅游大數據平臺解決方案XX第頁PAGE7第頁PAGE7整體建設思想 15整體系統結構 15計算資源和存儲資源配置估算 18旅游大數據平臺資源層規(guī)劃設計 19旅游大數據平臺基礎架構體系 19設計原則 19系統總體架構 20虛擬化拓撲的結構 23旅游大數據平臺虛擬化組件 244.2.1遷移 244.2.2高可靠性(HA) 244.2.3容錯 25動態(tài)資源分配 25分布式電源管理 26分布式集群存儲平臺 27方案拓撲圖 27方案描述 27系統軟件 28旅游大數據平臺系統管理支撐系統 28產品定位 29云應用 29產品架構 30產品體系31產品功能32集群存儲系統 33集群存儲系統的特點 33系統功能及特點 36海量數據高效管理 36數據讀寫性能 36數據全局共享 37數據安全性38系統可擴展性 38與現有環(huán)境無縫兼容 39系統的整體擁有成本 39使用分布式提高投資回報率 40降低管理及運行成本——簡易存儲 40提高用戶應用的生產力 41基于大數據的旅游數據管理與分析系統 42大數據平臺介紹 43平臺功能框架 43分布式存儲功能 43分布式計算功能 44NoSQL功能 44數據倉庫功能 4.1.6分式協調功能 4.1.7旅工作數據流管理功能 4.1.8維管理功能 46旅游中心分析系統架構 4.2.1非式數據的分類存儲 4.2.2對格式化數據的全文檢索合多線索加權檢索 4.2.3完的旅游中心分析報表系統 4.2.3.1國內旅游形勢分析 48按照全國地域分析各地方旅游 48按照全國人文風情數據技術分析民俗旅游的趨向; 48用戶可以定制所關心的數據統計圖 4.2.3.2數據分類存儲與自動化數據引擎 4.2.4旅數據存儲管理分析系統架構 4.2.4.1數據按照旅游分類存儲 50.2.4.2數據按照信息分類趨勢分析 50大數據統一平臺 50.3.1采集 5.3.2數據接入 5.3.3規(guī)則過濾 5.3.4數據存儲 5.3.5計算引擎 5.3.5.1 功能 5.3.5.2組成 5.3.5.3 基本算子集5.3.6 業(yè)務處理5.3.7業(yè)務管理 5.3.8用權限管理 5.3.9 業(yè)務管理58旅游大數據平臺安全層規(guī)劃設計 6.1大數據平臺安全建設需求 6.2旅游大數據平臺安全建設思路 6.3旅游大數據平臺安全系統總體設計 6.4旅游大數據平臺安全防護詳細設計 6.4.1平終端接入安全設計 6.4.2主機層安全 6.4.3 服務器負載均衡6.4.4虛機VM之間訪問安全 6.5旅游大數據平臺層安全 6.6數據層安全 74旅游大數據平臺備份設計 75邏輯架構75方案實現設計 75旅游大數據平臺項目概述建設背景隨著大數據的應用熱潮,在旅游行業(yè)也得到了業(yè)界的高度重視,大數據更加貼近消費者、深刻理解需求、高效分析信息并作出預判。如今的數據已經成為一種重要的戰(zhàn)略資產,極富開采價值。并在未來的商業(yè)競爭中占據會占得先機。1、提高服務質量利用旅游行業(yè)數據庫進行分析,建立縱向和橫向的緯度進行分析建模,依托行業(yè)數據分析推演,可以有效的知道旅游政府部門和景區(qū)的公共服務體系建設,真正提高旅游公共服務滿意度2、改善經營管理通過對大量數據的挖掘和分析,有效指導旅游局和景區(qū)企業(yè)的管理工作。根據游客的特征和偏好,提供有力的旅游產品和服務,利用大數據進行產業(yè)運行狀況分析,有效的運行監(jiān)測,對產業(yè)實施有效的管理,是推動旅游產業(yè)建設的必要手段3、改變營銷策略通過大數據可以了解用戶畫像數據、掌握游客的行為和偏好,真正的實現"投其所好",以實現推廣資源效率和效果最大化。旅游大數據帶了的新的挑戰(zhàn)數據挖掘搜集復雜大數據收集必須要明確業(yè)務所需,再對自已有價值的數據進行收集整合,才能合理收集運用大數據。市旅游大數據平臺解決方案XX市旅游大數據平臺解決方案XX第頁PAGE9第頁PAGE9經驗與數據的結合有了數據還要做判斷,把這種雜亂無章整理成我們能實際能應用的。通過我們以往的經驗,再與數據結合,從而分析確定目標客戶。分析與優(yōu)化的結合分析的目的是優(yōu)化,還要做決策上的改變和調整。優(yōu)化則是會玩數據,科學的做好統計并加以分析,。數據開放與隱私的權衡隨著公眾對于隱私泄露擔憂的加劇,政府也必將出臺相應的管理法案,對企業(yè)的數據挖據和分享行為進行規(guī)范,這也將是必然的。建設目標依托大數據云計算技術,為旅游轉型升級提供了絕好的契機。對旅游平臺業(yè)務數據管理、數據分析、數據采集、數據分類、產業(yè)規(guī)范,實行統一規(guī)劃和建設。所有資源整合后在邏輯上以單一整體的形式呈現,并可按需進行動態(tài)擴展和配置。按照分階段可升級的標準要求,為多級單位提供應用支撐基礎平臺服務和數據存儲、備份、交換等服務,實現基礎軟硬件資源的統一管理、按需分配、綜合利用,增強數據中心的可管理性,提高應用的兼容性和可用性,加速業(yè)務系統的部署,提升硬件資源的利用率;建設原則結合本項目的實際應用和發(fā)展要求,在進行旅游大數據平臺方案設計過程中,應始終堅持以下原則:可擴展性原則為了保證不斷增長的旅游市場需求,系統必須具有靈活的結構并留有合理的擴充余地,以便根據需要進行適當的變動和擴充;主要平臺系統應采用開放的結構,符合旅游標準,適應技術的發(fā)展和變化。我們把主要精力放在滿足現有旅游需求和對未來的系統擴展的支持性上,展。合理性原則在一定的資金條件下,以適當的投入,建立性能價格比高的、先進的、完善的旅游系統。所有軟硬件的選型和配置要堅持性能價格比最優(yōu)原則。在滿足系統性能、功能以及考慮到在可預見的未來不失去先進性的條件下,盡量取得整個系統的投入合理性,以構成一個性能價格比優(yōu)化的應用系統。系統架構的設計應盡可能地運用虛擬化、云計算等新技術,以符合未來的技術發(fā)展方向。這種設計方法可以最大化地利用投資,并在利用率、管理、能源等各方面提高用戶投資的效率,降低總體擁有成本,減少浪費的發(fā)生。結合新技術的運用,也可以讓各應用系統更好地融入未來整體IT建設規(guī)劃中,避免發(fā)生推到重建的現象,從而減少旅游信息建設上的投入??煽啃栽瓌t系統要具有高可靠性及強大的容錯能力。該系統必須保證7×24全天候不間斷地工作,核心設備比如數據庫服務器和存儲設備具有全容錯結構,并具有熱插拔功能,可帶電修復有關故障而不影響整個系統的工作,設計應保持一定數量的冗余以保證整體系統的高可靠性和高可用性。即便是在系統建設初期也要著重考慮系統可用性、可靠性問題,防止出現系統停頓等問題造成信息系統的中斷服務。通過結合云計算等新技術,可以更好地提高系統的可靠性和可用性。可管理性原則選擇基于開放的技術,采用標準化、規(guī)范化設計;同時采用先進的設備,易于日后擴展,便于向更新技術的升級與銜接,實現系統較長的生命力;保證后期在系統上進行有效的開發(fā)和使用,并為今后的發(fā)展提供一個良好的環(huán)境;在設計、組建中心機房系統時,采用先進的、標準的設備;在選購服務器、存儲和連接設市旅游大數據平臺解決方案XX市旅游大數據平臺解決方案XX第PAGE11第PAGE11備時,確保系統部件間的嚴密配合和無縫聯接,并獲得良好的售后服務和技術支持;整個系統建成后按照整理一套完整的文檔資料,以便提高整個系統的可管理性與可維護性。安全性原則嚴格按照關于信息安全的規(guī)定和要求,規(guī)劃和部署中心機房的業(yè)務系統和備份系統;采用安全服務器、備份還原系統、來防止內外部的網絡安全威協和數據丟失竊取威脅等;所有軟硬件采用國產、自主研發(fā)的產品,從根本上保障系統的安全性。旅游大數據平臺優(yōu)勢通過建立旅游大數據平臺,通過服務的方式交付對物理硬件的需求,代替?zhèn)鹘y硬件設備跟隨著應有系統的增加而增加的模式,對現有應用系統進行整合,實現IT服務的快速交付,節(jié)能響應國家號召,提升業(yè)務系統安全。海量數據高效管理隨著地理信息處理業(yè)務的增多,數據中心存儲大量的數據,這就需要存儲系統能夠容納海量的數據。同時,存儲系統里面的文件數量也會快速增長,當文件數量增長到數千萬以上時,文件的檢索查找等操作將會給文件系統帶來巨大的壓力,特別是一個目錄下面存放的文件超過一定數量甚至會造成文件查找效率急劇下降。采用的分布式存儲系統單卷可支持300PB以上的存儲空間,高效的管理上千億個文件,單目錄可以高效支持千萬級的文件數量。分布式存儲系統擁有高效的多元數據服務器集群技術和高效的海量文件檢索技術,在存放上千億文件的同時保持極高的文件檢索效率。統能夠在單個目錄下高效管理上千萬個文件的存儲系統,在單目錄下存放上千萬數量文件時,仍然能夠提供每秒數萬的文件檢索效率。合理利用硬件資源,減少運行消耗旅游大數據平臺可將服務器物理資源轉換成池化的可動態(tài)分配的計算單元,從旅游大數據平臺具體需求出發(fā),在資源池中劃分出適合具體業(yè)務需要的服務計算單元,不再受限于物理上的界限,從而提高資源的利用率,簡化系統管理,讓信息化建設對旅游的變化更具適應力,從而構建出信息系統平臺的基礎。旅游大數據平臺建成后,可減少物理服務器數量至原有數量的一半以上,機房空間占用面積大大減少,機房相應配套設施建設也可能夠相應減少,在實際工作中預計可節(jié)省能源達到70%以上,響應國家節(jié)能減排的要求。完善應急安全機制旅游大數據平臺可以自動監(jiān)控資源池中計算單元和應用單元的可用性,檢測物理服務器故障,如果檢測到故障,可重新在資源池中其他物理服務器上重新啟動相關業(yè)務,整個過程無需人工干預。通過云安全平臺,可快速部署網絡安全應用防火墻、IPS、WEB應用防火墻等。提供便捷的管理運維方式??梢酝ㄟ^一個統一的管理平臺,來進行對平臺中運行的各項功能設立不同權限的管理賬號,根據工作需要設置不同的管理權限,并可通過其管理日志追溯操作過程。市旅游大數據平臺解決方案XX市旅游大數據平臺解決方案XX第頁PAGE16第頁PAGE16旅游大數據平臺需求分析2.1.1 大數據在業(yè)務需求分析省旅游局和5a景區(qū)的應用旅游大數據發(fā)展帶動了旅游產業(yè)的全面升級,通過大數據深挖游客的心理研究分析和旅游產品體驗,一切以游客的需求為關注點,通過數據分析反映旅游客源地域、哪些產品是消費者關注的,關注些什么,從中提取新的深刻見解,為旅游目的地品牌的提升、營銷推廣和輿情監(jiān)測等提供可視化的數據服務旅行社和OTA的應用通過大數據的分析,準確的掌握到旅游客源來自哪些地區(qū),可以了解游客喜歡什么樣的產品,從而開發(fā)迎合市場需求的產品線路,大數據有助于精確旅游行業(yè)市場定位大數據應用,其真正的核心在于挖掘數據中蘊藏的情報價值,那么,對于旅游行業(yè)來說,如何來借助大數據為旅游行業(yè)中的創(chuàng)新性應用,以下幾個方面來概述:旅游品牌市場定位個性化:一個成功的品牌離不開精準的市場定位,能夠使品牌快速成長,而基于市場數據分析和調研是進行品牌定位的第一步。在旅游行業(yè)中充分挖局品牌價值,需要架構大數據戰(zhàn)略,拓寬旅游行業(yè)調研數據的廣度和深度,從數據中了解旅游行業(yè)市場構成、細分市場特征、消費者需求和競爭者狀況等眾多因素,在科學系統的信息數據收集、管理、分析的基礎上,提出更好的解決問題的方案和建議,保證旅游品牌市場定位獨具個性化。項目評估和可行性分析:旅游局和企業(yè)想開拓某一區(qū)域旅游行業(yè)市場,首先要進行項目評估和可行性分析,才能最終決定開拓這塊市場的必要性。如果適合,那么這個區(qū)域人口是多少?游客水平怎么樣?客戶的消費習慣是什么?市場對旅游品牌和旅游產品的認知度怎么樣?當前的市場情況是怎么樣的?游客的消費喜好是什么等等。構建滿足市場需求的旅游產品:通過項目評估報告,收集海量信息構成了旅游行業(yè)市場調研的大數據,對這些大數據的分析就是市場定位過程。只有定位準確才能構建出滿足市場需求的旅游產品,使旅游品牌在競爭中立于不敗之地。大數據成為旅游行業(yè)市場營銷的利器信息總量暴漲,隱藏的是旅游行業(yè)的市場需求、競爭情報每天在Facebook、Twitter、微博、微信、論壇、新聞評論、電商平臺等等上分享各種文本、照片、視頻、音頻、數據等信息高達的幾百億甚至幾千億條,這些信息涵蓋著、商家信息、個人信息、行業(yè)資訊、產品使用體驗、瀏覽記錄、成交記錄等海量的動態(tài)信息。這些數據通過聚類,可以形成行業(yè)大數據,其背后隱藏的是行業(yè)的市場需求、競爭情報,閃現著巨大的財富價值。從兩個方面來闡述旅游行業(yè)市場營銷工作中的重中之重。一是數據獲取及分析:通過獲取數據統計和分析,來充分了解市場信息,掌握競爭者的動態(tài),知曉產品在競爭群中所處的市場地位,來達到“知彼知己,百戰(zhàn)不殆”的目的;二是數據積累及挖掘:企業(yè)通過積累和挖掘旅游行業(yè)消費者檔案數據,有助于分析游客的消費行為和價值趣向,便于更好地引導潛在目標游客,以及讓游客得到更好的旅游體驗。以旅游行業(yè)在對顧客的消費行為和趣向分析方面為例,收集和整理游客的消費行為方面的信息數據,如:游客的以往購買旅游產品的花費、選擇的產品渠道、旅游產品的類型和偏好、游客對旅游目的地的品牌印象等。收集到了這些數據,建立游客大數據庫,便可通過統計和分析來掌握消費者的消費行為、興趣偏好和產品的市場口碑現狀,再根據這些總結出來的行為、興趣愛好和產品口碑現狀,制定有針對性的營銷方案和營銷戰(zhàn)略,投消費者所好,那么其帶來的營銷效應是可想而知的。大數據支撐旅游行業(yè)收益管理要達到收益管理的目標,需求預測、細分市場和敏感度分析是此項工作的三個重要環(huán)節(jié),而這三個的環(huán)節(jié)推進的基礎就是大數據。需求預測:是通過對建構的大數據統計與分析,采取科學的預測推演方法,通過建立數學模型,了解旅游行業(yè)潛在的市場需求,未來一段時間每個細分市場的產品銷售量和產品價格走勢等,在不同的市場波動周期以合適的產品和價格投放市場,獲得潛在的收益。細分市場:為企業(yè)預測銷售量和實行差別定價提供了條件,其科學性體現在通過旅游行業(yè)市場需求預測來制定和更新價格,最大化各個細分市場的收益。敏感度分析:是通過需求價格彈性分析技術,對不同細分市場的價格進行優(yōu)化,最大限度地挖掘市場潛在的收入。大數據創(chuàng)新旅游行業(yè)需求開發(fā)互聯網交互性大數據蘊藏巨大的價值:隨著論壇、博客、微博、微信、電商平臺、點評網等媒介在PC 端和移動端的創(chuàng)新和發(fā)展,公眾分享信息變得更加便捷自由,而公眾分享信息的主動性促使了“網絡評論”這一新型輿論形式的發(fā)展。成千上億的網絡評論形成了交互大數據,其中蘊藏了巨大的旅游行業(yè)需求開發(fā)價值。對互聯網評論數據的搜集和分析,能有效提高市場競爭力和收益能力,也是大數據價值所在:消費者對旅游服務及產品簡單表揚與評批演變得更加的客觀真實,游客的評價內容也更趨于專業(yè)化和理性化,發(fā)布的渠道也更加廣泛。作為旅游局和企業(yè),如果能對網上旅游行業(yè)的評論數據進行收集,建立網評大數據庫,然后再利用分詞、聚類、情感分析了解消費者的消費行為、價值趣向、評論中體現的新消費需求和旅游品質中存在問題,以此來改進和創(chuàng)新產品,制訂合理的價格及提高服務質量,都會有效地提高市場競爭力和收益能力。旅游輿情監(jiān)測服務:輿情監(jiān)測:基于全球領先的互聯網采集監(jiān)控技術而研發(fā),具有發(fā)現快,信息全,分析準的優(yōu)勢。可讓用戶眼觀六路耳聽八方,在第一時間發(fā)現負面輿情,第一時間全面了解民意民情動態(tài),平臺及時反映最新輿情信息自動收集呈現口碑監(jiān)測:論壇、微博、博客、新聞評論作是目前網民在網絡上發(fā)表個人意見,由于網民的數量龐大,發(fā)表信息沒有門檻,相關信息傳播速度極快,其形成的輿論力量正深刻改變著網民的思想形態(tài)和社會面貌。2.2總體建設需求建立一個統一的超過300TB大數據平臺;建立統一的旅游大數據平臺系統,可以快速管理、擴展、配置期貨公司內部的各種業(yè)務服務和數據存儲服務,并能夠提供相應服務冗余性;建立基于云平臺的大數據存儲管理與分析系統,可以管理旅游平臺時實數據,并能根據數據情況和IP數據報文情況進行綜合分析;建立基于云平臺的大數據旅游管理與分析系統,可以方便的把市的旅游信息數據分析匯總,進行問題篩選評估,制定規(guī)范的旅游制度;通過建立統一的旅游大數據平臺運維管理系統,可以快速提高技術人員對所有IT資源的管理應用能力,保障公司實際的設備資源、網絡資源能夠得到充分的使用,同時也能夠提高公司能效節(jié)約的能力。旅游大數據平臺總體規(guī)劃設計整體建設思想旅游大數據平臺將利用云計算相關技術,結合綠色數據中心建設的目標和需求,以戰(zhàn)略支持型信息化建設為導向,以支持保障信息化業(yè)務發(fā)展為建設思路,構造一個功能齊全、設備先進、運行高效、使用靈活、維護方便、易于擴展、投資省、高安全可靠的全局性基于旅游大數據資源中心。整體系統結構本次旅游大數據平臺解決方案將針對計算服務整體架構中的云計算服務區(qū),通過對底層服務器硬件及存儲資源實現虛擬化聚合部署,配合以云計算管理平臺,實現云計算中基礎架構即服務(IaaS)部分,同時該IaaS平臺也為旅游信息發(fā)布平臺、大數據分析平臺、web發(fā)布平臺等(Paas)層提供更高層次的云計算服務,通過Paas層平臺提供數據匯集管理、數據處理、數據服務、數據應用功能(Saas層),戶提供服務,總體邏輯架構如下:市旅游大數據平臺解決方案XX市旅游大數據平臺解決方案XX第頁PAGE第頁PAGE18旅游管理部門旅游景點旅行社其他用戶旅游管理部門旅游景點旅行社其他用戶統一管理統一門戶系統門戶統一管理門戶應用功能區(qū)數據匯集管理數據處理數據服務數據應用業(yè)務運營資源發(fā)放日志管理運維管理監(jiān)控管理資源池存儲資源池(含容災備份)虛擬機資源池虛擬機管理集群存儲管理旅游大數據平臺基礎架構:提供了一個功能完整的、標準開放的方便集成的IaaS服務層。這層提供的動態(tài)基礎架構是整個旅游大數據平臺的核心支撐層,其最核心的部分包括采用了國產服務器、國產存儲存儲系統和虛擬化軟件構建的云計算服務基礎架構。該基礎架構具備良好的性能、可用性和可靠性。通過部署虛擬化軟件、服務器、存儲設備、網絡設備,內部搭建虛擬化環(huán)境,通過虛擬化技術構建新一代的數據中心,形成統一的云計算旅游信息系統平臺。在數據中心,這些資源根據需要進行動態(tài)擴展和配置,各單位最終信息系統業(yè)務按需使用資源。通過虛擬化技術,增強數據中心的可管理性,提高應用的兼容性和可用性,加速應用的部署,提升硬件資源的利用率,降低能源消耗。旅游大數據平臺層:通過大數據分析平臺、辦公OA系統、財務管理系統、svn管理系統、web等功能。旅游大數據平臺服務門戶:為用戶提供統一的服務門戶,用以支撐整個旅游大數據平臺的日常運營。包括用戶登錄、服務加載、下載、審批、疊加顯示、拼接請市旅游大數據平臺解決方案XX市旅游大數據平臺解決方案XX第頁PAGE22第頁PAGE22求等功能。旅游大數據平臺服務數據安全保護:通過部署云安全平臺,可以幫助用戶建立起一個既能充分利用云計算優(yōu)勢,同時又不犧牲安全性、控制力和遵從性的環(huán)境,其為虛擬數據中心和云計算環(huán)境提供了支持虛擬化的保護,使用戶可以加強應用程序和數據安全,提高可見性和控制力,以及加快整個旅游大數據平臺的遵從性舉措。旅游大數據平臺服務運維管理體系:為整個旅游大數據平臺搭建一套長期運維管理的體系,為旅游大數據平臺的長期有效運行提供保障。云計算運維管理體系包括組織管理模式、制度規(guī)范體系、技術支撐體系等多個層面的內容,采用云計算技術手段和云計算管理制度結合的方式保障整個政務云平臺的平穩(wěn)運行。圖3-3 數據中心組件邏輯架構3.3計算資源和存儲資源配置估算3.3計算資源和存儲資源是云中心的兩大類核心資源。對計算資源和存儲資源的合理估算和配置,是建設先進、高效云平臺的必要條件。以下給出我們根據旅游大數據平臺現有業(yè)務應用和數據資源所作出的云中心計算資源、存儲資源、基礎網絡和安全設施的初步估算。經詳細調研計算資源需要cpu計算單元320核內存5120G存儲空間300TB。擬新增10臺高性能服務器,供云計算、云存儲使用,新增2臺高性能服務器器供云安全平臺使用。旅游大數據平臺資源層規(guī)劃設計旅游大數據平臺基礎架構體系設計原則方案設計遵循以下幾個原則:先進性、標準性、實用性、可擴展性、兼容性、易用性、安全性、可靠性和前瞻性:據存儲等技術。符合最新的技術發(fā)展潮流,且各系統設計切實可行、并容易實現。具體包括:遵循標準的整體協議框架、提供標準接口、使用標準的數據傳輸協議等。的實際需要。方便地實現系統的平滑擴展和升級。便,操作簡單,管理方便。應用以及管理上全面的保障系統的安全??煽啃韵到y設計注重可靠性,能夠長期穩(wěn)定工作,保證7*24小時不間斷地穩(wěn)定可靠運行,適應工作環(huán)境能力強,故障率低,維護維修方便。前瞻性系統設計具有前瞻性,整個系統的硬件配置,應符合長遠的規(guī)劃和設計,保證3年內系統的需要。通過需求分析我們可以得知,本次項目建設項目的設計目標是構造一個功能齊全、設備先進、運行高效、使用靈活、維護方便、易于擴展、投資省、高安全可靠的信息系統。云計算技術的出現卻給我們一最佳的選擇,隨著數據信息的增長,技術也需要隨之變化。這些變化常常實施在運行關鍵業(yè)務應用的復雜系統內。通常會對共享硬件和軟件資源有越來越多的需求,虛擬環(huán)境下有效的管理和控制了這種需求。虛擬化是通過對IT硬件資源整合、優(yōu)化、共享的成熟高新技術,是實現云計算最基礎的支撐技術。它可以有效增加組織的靈活性和效率,同時又可以降低其成本。虛擬化技術以其系統的先進性、高可用性、系統的靈活擴展能力、開放性以及高可管理性等可完全滿足當前和未來幾年內云數據平臺信息系統的發(fā)展需求。4.1.2 系統總體架構通過部署虛擬化軟件、服務器、存儲設備、網絡設備,內部搭建虛擬化環(huán)境,通過虛擬化技術構建新一代的數據中心,形成統一的旅游大數據信息系統平臺。在數據中心,所有資源整合后在邏輯上以單一整體的形式呈現,這些資源根據需要進行動態(tài)擴展和配置,各單位最終信息系統業(yè)務按需使用資源。通過虛擬化技術,增強數據中心的可管理性,提高應用的兼容性和可用性,加速應用的部署,提升硬件資源的利用率,降低能源消耗。虛擬化是云計算的基礎,在數據中心,通過虛擬化技術將物理服務器進行虛擬化,具體為CPU虛擬化、內存虛擬化、設備I/O虛擬化等,實現在單一物理服務器上運行多個虛擬服務器(虛擬機),把應用程序對底層的系統和硬件的依賴抽象出來,從而解除應用與市旅游大數據平臺解決方案XX市旅游大數據平臺解決方案XX第頁PAGE24第頁PAGE24操作系統和硬件的耦合關系,使得物理設備的差異性與兼容性與上層應用透明,不同的虛擬機之間相互隔離、互不影響,可以運行不同的操作系統,并提供不同的應用服務。什么是服務器虛擬化服務器虛擬化將硬件、操作系統和應用程序一同裝入一個可遷移的虛擬機檔案文件中如圖所示:圖3-4服務器虛擬化在單臺服務器虛擬化基礎上,通過虛擬化管理中心(vCenter)將多臺服務器、存儲硬件基礎資源進行整合,構建硬件(CPU、內存、I/O)資源池,實現數據中心整體硬件資源的按需分配。虛擬化結構如圖所示:圖3-5服務器虛擬化結構將服務器物理資源抽象成邏輯資源,讓一臺服務器變成幾臺甚至上百臺相互隔離的虛擬服務器,或者讓幾臺服務器變成一臺服務器來用,我們不再受限于物理上的界限,而是讓CPU、內存、磁盤、I/O簡化系統管理,實現服務器整合,讓IT對業(yè)務的變化更具適應力,從而構建出數據中心系統平臺的基礎。市旅游大數據平臺解決方案XX市旅游大數據平臺解決方案XX第頁PAGE26第頁PAGE264.1.3虛擬化拓撲的結構圖3-6 虛擬化拓撲結針對上面的拓撲圖,詳細說明如下:整體架構可以分為三層,最底層為存儲網絡層,中間層為虛擬化系統,最上層為虛擬服務器層;其中,下面的兩層為資源提供方,最上層為資源用戶;而中間層的虛擬化系統又起到了資源分配調度的作用。部署虛擬化系統之后的整體架構和傳統架構下是沒很大區(qū)別的,利用共享存儲實現數據集中和共享,結合管理中心實現應用系統的統一管理;虛擬化集群的形成,直接為應用系統提供了高可用和負載均衡的功能。旅游大數據平臺虛擬化組件遷移使運行中的虛擬機從一臺物理服務器實時遷移到另一臺物理服務器,同時保持業(yè)務的連續(xù)運行。實現了零停機時間和連續(xù)可用的服務,并能全面保證事務的完整性。是用于創(chuàng)建動態(tài)、自動化、自我優(yōu)化的數據中心的關鍵促成技術。圖3-7擬機遷移高可靠性(HA)自動監(jiān)控物理服務器的可用性??蓹z測物理服務器故障,如果檢測到故障,可重新在資源池中其他物理服務器上啟動虛擬機,整個過程無需人工干預。該功能組件比傳統的雙機冷備更具有自動啟動的優(yōu)勢。圖3-8高可靠性(HA)市旅游大數據平臺解決方案XX市旅游大數據平臺解決方案XX第頁PAGE第頁PAGE36容錯功能相當于雙機熱備,但是比傳統的雙機熱備更具有優(yōu)勢,它可以時刻在兩個不同的物理服務器上保持兩個相同的鏡像,其中一臺出現故障時,不影響業(yè)務的運行,同時自動在另一臺物理服務器上建立以特相同的鏡像,物理服務器不受硬件型號配置的限制。

圖3-9容錯跨資源池不間斷地監(jiān)控利用率,并在多臺虛擬機之間智能地分配可用資源,使資源優(yōu)先用于最重要的應用程序,以便讓資源與業(yè)務目標相協調。自動、不間斷地優(yōu)化硬件利用率,以響應不斷變化的情況。為業(yè)務部門提供專用的虛擬基礎結構,同時讓IT部門能夠集中、全面地控制硬件。圖4-1動態(tài)資源分配(DRS)4.2.5 分布式電源管理可用管理系統中,為了在虛擬化環(huán)境中能達到節(jié)能減排放的作用,設置了DPM的功能。這是一個高級電源管理功能它可以提供當虛擬化環(huán)境中不需要那么大的運算資源的的時候同過統一管理平臺功能管理模塊相結合??梢允菍崿F當我們的業(yè)務系統在不需要云平臺提供那么大的計算能力的時候,為了節(jié)能減排放.通過自動調度將某些服務器上的虛擬機通過在線遷移的方式自動遷移到平臺中的其它物理服務器中運行,將空閑服務器進行下電。當業(yè)務重新增長后,需要平臺提供大規(guī)模計算的時候,會重新啟動該服務器加入到平臺中,為虛擬服務器提供運算支持。圖4-2 分布式電源管理分布式集群存儲平臺方案拓撲圖

圖4-3分布式集群存儲架構圖分布式存儲系統主要由云平臺下的應用服務器集群、智能存儲服務器集群、元數據服務器集群三大部分組成,配置存儲服務器10臺,元數據服務器2臺。等。應用服務器上需要安裝分布式的應用服務器模塊高效的訪問存儲。智能存儲服務器集群:由萬兆存儲服務器組成。存儲用戶的實際數據,是整個分布式存儲系統的存儲資源提供者。當應用服務器進行數據訪問時,存儲服務器集群提供實際的數據IO服務。數據IO壓力能夠非常均衡的分布在存儲服務器集群之間。元數據服務器集群:由萬兆元數據存儲服務器組成。管理文件系統的元數據(包括文件目錄樹組織、屬性維護、文件操作日志記錄、授權訪問等),管理整個存儲系統的命名空間,對外提供單一的系統映像,并負責整個存儲集群的管理監(jiān)控。元數據服務器協調指揮應用服務器和存儲服務器之間的活動,并且元數據服務器集群能夠均衡的負擔整個分布式集群存儲系統的相關元數據訪問負載。市旅游大數據平臺解決方案XX市旅游大數據平臺解決方案XX第頁PAGE38第頁PAGE38本期項目配置10臺存儲服務器2提供高性能共享存儲系統;計算節(jié)點均通過以太網交換機與存儲系統能共享存儲系統連接。工作機通過以太網與存儲系統相連。計算節(jié)點均安裝集群系統客戶端,可根據權限以本地盤符的方式訪問文件級統一命名空間,對存儲系統進行并發(fā)訪問,而且所有計算節(jié)點均通過光纖直接共享存儲系統中數據,充分發(fā)揮光纖高帶寬,低延遲的特點,提高了效率。系統具有良好的可靠性和冗余措施,元數據服務器成對配置,當其中1臺發(fā)生故障后,另1臺會自動接替系統服務,最大程度保證業(yè)務時效性。隨著規(guī)模、容量的不斷增加可以通過在線添加擴展柜的方式,擴展系統的容量、 IO寬和負載能力。4.3.3 系統軟件旅游大數據平臺系統管理支撐系統旅游大數據平臺系統支撐系統是數據中心的核心系統,在此系統上可以快速配置和部署各種營運支持系統(OA辦公系統、財務系統、CRM客戶關系系統、交易支撐系統、大數據交易數據管理系統與分析系統、大數據情報數據管理系統與分析系統)等;云系統面向旅游大數據平臺,如大型企業(yè)私有數據中心、公有云平臺、行業(yè)云服務平臺等,提供從底層資源,到上層應用和數據管理的一體化管理平臺,支持云基礎架構以及各類物理資源、虛擬資源的管理,為網絡應用提供安全、可靠的運行支撐環(huán)境,并面向大數據應用提供多源異構大數據的存儲與處理。產品定位管資源:快速地構建起跨地域的云平臺基礎架構,對其中的物理資源和虛擬資源進行靈活的管理,對用戶的IT需求實現快速的交付,并且支持資源彈性動態(tài)擴展。管應用:支撐業(yè)務應用的開發(fā)、測試、部署和維護等整個生命周期過程,并全方位監(jiān)控應用的運行情況,及時對應用資源進行彈性伸縮,確保最大的應用穩(wěn)定性和可靠性。管數據:對結構化、非結構化、半結構化數據提供統一存儲,并且為應用提供相應的接口,并可以進行大數據分析和可視化展現。支撐大數據應用開發(fā)。用軟件:支持軟件服務化接入,實現軟件服務的上線、訂購、開通、使用、下線等全生命周期管理。云應用希望以云計算的模式對本單位的信息化平臺進行管理和運營的金融、期貨等行業(yè)望對數據中心進行云化并提供彈性云主機服務的服務商需要快速完成開發(fā)、測試和部署運行,簡化應用開發(fā)和發(fā)布流程的軟件企業(yè)致力于行業(yè)軟件開發(fā),并希望搭建行業(yè) SaaS云服務平臺的軟件服務提供商需要采集、存儲、處理來自物聯網、互聯網的大數據并進行分析的企事業(yè)單位市旅游大數據平臺解決方案XX市旅游大數據平臺解決方案XX第頁PAGE第頁PAGE40產品架構物理資源層。物理資源層包括支撐云系統自身運行和提供服務所需的物理基礎設施,云系統可對分布在旅游大數據平臺的各類物理資源進行統一集中管理與運維,提供數據中心、物理資源兩級資源管理,支持多數據中心管理。基礎架構層?;A架構層是云系統的核心技術支撐層,由一個虛擬化管理平臺、三大管理組件和四大核心引擎組成。該層的核心支撐是虛擬化管理平臺,基于虛擬化管理平臺,將支撐資源、數據和應用管理的核心技術封裝為資源管理、大數據管理和運行平臺管理三大管理組件,并將云管理平臺的共性支撐技術封裝為調度、服務、數據、監(jiān)控四大引擎服務,為上層服務和應用提供基礎支撐。服務層。服務層是云系統提供服務的核心支撐層,除資源、數據、應用三大核心服務組件外,服務層還兼容第三方服務。服務層還為支撐服務開發(fā)與管理提供了服務目錄、服務封裝、服務集成和服務質量組件,通過通用接口規(guī)范對外提供服務。應用層。應用層主要為應用開發(fā)與自動化部署提供技術支撐,包括開發(fā)、測試、生產環(huán)境的流程化定制與自動化部署,對應用運行環(huán)境的監(jiān)控,對應用所需資源的彈性伸縮調度。通過應用層的技術支撐,用戶可基于云系統平臺快速開發(fā)并部署應用,同時可直接發(fā)布到云系統云平臺提供云應用。門戶層。門戶層包括兩部分:用戶自服務門戶和運營管理門戶,用戶自服務門戶集成了用戶所需的虛擬數據中心管理運維以及應用部署等功能;運營管理門戶則集成了云平臺運營所需的資源管理、服務管理以及計量計費等功能。平臺管理體系。平臺管理體系包括三部分:運維管理體系、安全體系和標準規(guī)范體系。運維管理體系針對云系統的資源管理架構規(guī)范了各種監(jiān)控、報警、日志等日常運維管理機制;安全體系針對云系統提供的資源、數據和應用服務提供了一系列安全管理機制;標準規(guī)范體系則對云系統的資源管理、數據管理、服務管理提供了一系列開發(fā)與管理的技術規(guī)范和操作規(guī)程。市旅游大數據平臺解決方案XX市旅游大數據平臺解決方案XX第頁PAGE44第頁PAGE44產品體系云系統是一套由多個軟件構成的軟件套裝,有多個軟件或者模塊組成。云系統采用分布式部署方式,各個軟件或模塊之間采用松耦合的架構進行交互,易于擴展,易于根據用戶需求進行定制和實施。產品架構圖如下圖所示。核心架構平臺。采用業(yè)內先進的云計算技術構建的自主可控的虛擬化、資源調度以及服務管理平臺,支持KVM、Xen、VMware等主流虛擬化技術。運維管理系統。平臺運維管理員使用該系統,對計算、存儲、網絡等各類云資源以及整個平臺的基礎架構進行管理,支持資源的全方位監(jiān)控和應用集群的彈性伸縮。運營管理系統。平臺運營管理員使用該系統,對平臺服務進行發(fā)布、計費、受理等運營管理,對所有平臺租戶及其訂單進行管理。服務管理系統。基于平臺基礎服務,形成整個平臺的服務目錄,并可按照一定的策略對服務進行組裝和編排。另外對服務的使用情況進行計量;提供開放接口,支持服務集成。自服務系統。云平臺租戶使用該系統,申請云主機、云硬盤等各類虛擬資源,部署、運行并監(jiān)控業(yè)務系統。云安全保障。身份認證、訪問控制、容災等,另外還包括從物理層、虛擬層到服務層、應用層的安全保障體系。產品功能融合管理的云基礎架構將多地傳統數據中心快速整合并虛擬化,兼容各種異構的x86服務器、各種品牌的存儲設備及網絡設備。按需交付、彈性擴展的IaaS服務云主機:Windows、Linux全系列虛擬機,并可根據用戶需求進行定制。云硬盤:各種規(guī)格的云硬盤的快速掛載和使用。私有網絡:構建獨立的虛擬路由器、虛擬交換機和子網,良好的網絡隔離。負載均衡:構建負載均衡集群,某節(jié)點宕機不影響業(yè)務系統運行。云集群:彈性應用集群,自定義彈性策略,根據集群負載自動伸縮。數據備份:支持主機備份、硬盤備份、異地災備等多種備份方式。無需配置、一鍵即用的PaaS服務云數據庫:快速創(chuàng)建MySQL、SQLServer、MangoDB數據庫URL并訪問使用,無需安裝配置。運行時:快速創(chuàng)建Tomcat、IIS、Apache等主流運行時服務?;ヂ摶ネ?、數據的大數據服務大數據存儲:對象存儲,企業(yè)級非結構化數據存儲服務,打造專屬私有“云盤”;物聯數據存儲,來自傳感器的海量半結構數據存儲服務。大數據分析:定制數據挖掘算法和模型,支持海量數據的分析、挖掘和可視化展現。數據整合共享:無障礙獲取業(yè)務系統數據,實現數據共享和交換,打通“信息孤島”。信息資源中心:抽取、清洗、轉換業(yè)務系統數據,建立企業(yè)級信息資源中心,形成信息資源目錄,開放數據規(guī)范接口,支持新應用開發(fā)。一處安裝、多租戶共用的SaaS服務SaaS管理服務平臺:構建SaaS用,打造一站式辦公門戶。SaaS服務化改造和標準化接入:將傳統BS應用進行服務化改造為多租戶模式,按照統一接口規(guī)范集成至SaaS服務平臺,全面支持SaaS服務運營。全方位、多方式的監(jiān)控預警服務監(jiān)控預警:對物理資源、虛擬資源以及應用的全方位監(jiān)控和多方式預警,可自定義資源監(jiān)控指標,100多種指標任意組合集群存儲系統集群存儲系統的特點(1)數據負載能力現有的諸多存儲方案一般都不具備存儲容量動態(tài)擴展的能力,而且經過動態(tài)擴展之后如果沒有數據動態(tài)負載均衡的功能,即使存儲系統的容量增長,性能不會隨之增長。負載均衡模塊是專門針對存儲擴展性需求較高的應用環(huán)境而提供。當存儲系統按需在線動態(tài)擴展容量之后,管理員可以選擇在合適的時間啟動或者停止負載均衡軟件,該功能將數據在存儲服務器之間遷移,直到數據分布較為均衡停止。通過負載均衡模塊的數據遷移工作,分布式集群存儲系統的性能能夠隨著容量的增長而線性增長。圖3-2圖4-4自動均衡數據分布示意圖(2)靈活冗余能力靈活冗余模塊是一種高效的數據保護方式,通過將冗余數據同時存放到不同的存儲服務器上來對數據進行保護,不但消除了單點故障,還能夠提高數據并發(fā)訪問性能。冗余數據存放在不同的服務器上防止數據丟失和存儲服務中斷。而且用戶可以將不同的數據設置不同的冗余數據等級,當冗余等級越高,數據就能夠在極端惡劣的情況保證數據的完整性和服務的連續(xù)性。(3)故障自動恢復能力故障自動恢復模塊內置有一整套完整的故障恢復流程,能夠自動探測集群存儲系統內各類可能出現的故障,如磁盤損壞、系統宕機、網絡中斷等。該軟件一旦發(fā)現了軟硬件故障就會立刻啟動相應的故障處理恢復流程對數據進行相應的恢復保護,確保數據的完整性,并且整個恢復過程完全不影響業(yè)務連續(xù)運行。而且由于故障自動恢復軟件能夠提供的是整個集群全局的數據恢復,充分的利用了集群內的空閑資源進行相應的處理,能夠高出RAID據恢復速度確保數據完整性,為業(yè)務長期穩(wěn)定運行打下基礎。市旅游大數據平臺解決方案XX市旅游大數據平臺解決方案XX第頁PAGE第頁PAGE45圖圖4-5硬件故障恢復示意圖(4)大目錄支持能力傳統的存儲方案都存在著文件數量、單目錄下文件數量等諸多限制,并且當存儲系統內文件數量到達一定數量時,文件的檢索效率就會急劇下降,從而影響了業(yè)務的運行效率。圖4-6集群存數文件市旅游大數據平臺解決方案XX市旅游大數據平臺解決方案XX第頁PAGE48第頁PAGE48集群系統大目錄支持軟件打破了存儲系統在面向海量小文件時的種種限制,提供了幾乎無限的單目錄文件數量支持、高效的文件檢索效率支持,幫助企業(yè)解決海量小文件存儲帶來的煩惱。系統功能及特點海量數據高效管理隨著資料處理業(yè)務的增多,存儲系統中將積累大量的數據,這就需要存儲系統能夠容納海量的數據。同時,存儲系統里面的文件數量也會快速增長,當文件數量增長到數千萬以上時,文件的檢索查找等操作將會給文件系統帶來巨大的壓力,特別是一個目錄下面存放的文件超過一定數量甚至會造成文件查找效率急劇下降。分布式集群存儲系統單卷可支持300PB以上的存儲空間,高效的管理上千億個文件,單目錄可以高效支持千萬級的文件數量。分布式集群存儲系統擁有高效的多元數據服務器集群技術和高效的海量文件檢索技術,在存放上千億文件的同時保持極高的文件檢索效率。分布式集群存儲系統能夠在單個目錄下高效管理上千萬個文件的存儲系統,在單目錄下存放上千萬數量文件時,仍然能夠提供每秒數萬的文件檢索效率。單目錄下高達千萬級的文件,單一文件系統文件數量支持超過千億(實際案例:260文件);單個共享文件系統支持上百PB級(4500TB、1024應用節(jié)點支持實際案例);不停機在線擴展系統容量;數據讀寫性能分布式集群存儲系統通過多臺存儲服務器提供同時數據存取服務的方法以滿足大量應用服務器的并發(fā)訪問需求。在應用服務器端,當應用程序往存儲系統上寫文件時,文件將會被根據一定大小進行分片存放到多臺存儲服務器上;在應用程序讀文件時,則并發(fā)的從多個服務器上讀取數據。由于大量的數據IO請求都被分散到多臺存儲服務器上,使得所有的存儲服務器上的磁盤性能和網絡帶寬都可以同時得到充分的利用,這樣分布式集群存儲系統的聚合帶寬由多臺的存儲服務器上的IO帶寬相加而成,從而克服了NAS的單一出口點所造成性能瓶頸,可以滿足多臺應用節(jié)點并發(fā)訪問的帶寬需求。通過實現多存儲服務器的并發(fā)數據訪問支持,消除了傳統存儲方案中常見的負載不均導致的熱點數據問題。分布式通過數據在存儲服務器集群中的條帶化分布實現高效、全面的負載均衡功能,充分利用硬件和網絡的性能,發(fā)揮出最高IO吞吐量。提供高達數百GB/s的IO帶寬和上百萬的單套存儲系統支撐數千個應用節(jié)點并發(fā)訪問數據;不停機在線擴展IO帶寬;系統故障自動恢復和負載均衡,保證性能隨規(guī)模線性增長;數據全局共享分布式大規(guī)模集群存儲系統采用文件系統全局命名空間,所有計算節(jié)點都可看到一致文件系統視圖。數據的全局共享可以加強各計算節(jié)點之間的協作,提高了作業(yè)的運行效率。而且數據的統一管理也方便用戶數據的統一管理,并簡化應用系統的開發(fā)。

圖4-7多用戶訪問示意圖基于數據安全性方面的考慮,用戶可以通過分布式配置工具設置數據相應的安全等級,選擇將數據和校驗數據分別存放在不同的存儲服務器上。分布式存儲系統可以同時使用多條高速數據通道,可消除網絡層的單點故障,進一步提高系統的高可用性。在這樣的情況下,即使出現存儲服務器宕機、網絡中斷、磁盤損壞時,仍然能夠保障數據完整性和數據服務的持續(xù)運系統將會立刻發(fā)現該異常并自發(fā)的啟動數據恢復流程,利用存放于其它存儲服務器中該部分數據的校驗數據重新生成一份以保證數據仍有一定的冗余度。由于分布式的數據恢復是基于真實丟失的數據,并且數據恢復是通過整個存儲集群同時并發(fā)進行,所以相對于傳統的RAID具備更快的數據重建速度,這也能夠有效提升數據的安全性。通過將數據和校驗數據存放在不同存儲服務器的方法可以對一系列的軟硬件故障(網絡、主機、磁盤等)進行自動的隔離,消除了存儲系統的任何單點故障,而且也無需配置任何復雜的配置。用數據全局冗余技術取代Raid,提供了史無前例的可靠性;可根據不同數據定制的數據安全性保證;系統自動探測故障并恢復,實現最高的業(yè)務連續(xù)性保證;系統可擴展性需中斷應用的運行。用戶可以通過分布式的配置工具動態(tài)添加存儲服務器以擴大系統的容量和規(guī)模,而且隨著存儲服務器數據的增多,整套系統的聚合帶寬也會線性的增長,完全可以滿足業(yè)務不斷發(fā)展所產生的容量和性能需求。而工業(yè)標準的通用硬件良好的兼容性和可獲得性方便了整套存儲系統將來的使用和擴展,分布式支持在1小時內部署上百TB的存儲系統,無縫的在線增加存儲容量。市旅游大數據平臺解決方案XX市旅游大數據平臺解決方案XX第頁PAGE第頁PAGE54圖4-8傳統與分布式擴展對比與現有環(huán)境無縫兼容環(huán)境,如使用通用的以太網絡作為數據傳輸通道可以確保充分利用現有的環(huán)境,并且可以無需對環(huán)境做出任何修改。另外分布式能夠直接支持Linux、Windows、Mac等常用的操作系統之間進行數據共享,無需對操作系統做任何修改,所以能夠無縫的接入到企業(yè)現有的軟硬件環(huán)境。系統的整體擁有成本分布式大規(guī)模集群存儲系統能夠極大的降低構建和運維成本,主要有以下幾點:極大地提高了數據可用性:通過分布式內置的高可用和故障自動恢復功能等卓越的功能,無需任何第三方軟件,極大減少了系統由于維護或備份恢復所需的大量時間,從而徹底提高了企業(yè)的生產效率。數據的充分共享:數據可以被前端的各種類型的主機共享,無需在Linux和Windows、Mac系統之間進行數據遷移。這允許一個數據拷貝被所有人員與進程共享,大大減少了對不同環(huán)境下相同的數據的多種形式的管理費用。存儲的運維成本:由于分布式采用了通用、企業(yè)級的硬件構建,具有極高的性價比和兼容性。管理員可以輕易的掌握分布式的運維管理,使得培訓支出上的費用大大減少。使用分布式提高投資回報率真正的按需購買分布式存儲系統的動態(tài)可擴展技術,使得用戶可以按需擴展存儲容量,無需一次性投入大量成本來構建存儲系統,有效降低了用戶投資的風險。內置的高可用架構在傳統的NAS和SAN系統中,高可用意味著價格高昂的軟件和冗余硬件。高存儲空間利用率分布式存儲系統將所有的存儲設備聚合成單一的存儲池,提供給所有的前端應用服務器集群共享訪問,克服了使用傳統的DAS和SAN時所出現的存儲設備利用率不均衡的情況。安全應用隔離分布式存儲系統可以將不同的應用在邏輯上進行隔離,不同應用之間的存儲內容相互獨立,有效降低人為因素造成的數據損壞,大幅度提升了存儲內容的安全性和數據的完整性。降低管理及運行成本——簡易存儲更低的存儲架構規(guī)劃成本分布式存儲系統可與用戶的現有應用環(huán)境無縫連接,便捷地加入到用戶的應用環(huán)境中,并即時對外提供存儲服務。無需像傳統存儲系統一樣對大量復雜的硬件設備進行長期的分析、規(guī)劃和配置,大大節(jié)約了前期的規(guī)劃成本,極大提高了存儲系統部署的效率??焖俚陌惭b及配置用戶可在極短時間內為分布式存儲系統部署上百TB存儲空間和上千臺應用服務器。無需像SAN那樣對光纖交換機、光纖適配器等大量的專用硬件進行配置,極大簡化了配置流程。簡易管理分布式存儲系統簡單靈活的管理模塊極大降低了管理員對系統管理的參與程度,減化了管理員操作出錯風險,有效降低了系統的管理成本。減少培訓費用分布式存儲系統采用圖形化管理工具,極大簡化了對系統使用的復雜度,減短了對管理員的培訓時間。提高用戶應用的生產力提高應用服務器之間的協作效率分布式存儲系統對外提供單一的系統映像,所有的應用服務器都看到相同的文件視圖。集中的數據共享存儲,方便用戶各業(yè)務部門之間進行數據協同處理,極大提高了用戶的整體生產效率。圖4-9應用協作對比圖快速的數據交付市旅游大數據平臺解決方案XX市旅游大數據平臺解決方案XX第頁PAGE58第頁PAGE58分布式存儲系統提供的數據讀寫加速技術極大縮短了對應用程序的響應時間,每秒高達幾十萬個的文件檢索速度輕易的滿足互聯網等文件密集型應用的需求。快速的故障恢復分布式存儲系統高效的自動數據恢復技術,使得故障恢復時間是通用RAID之一,恢復過程不影響相應業(yè)務的運行,保證業(yè)務的連續(xù)性。基于大數據的旅游數據管理與分析系統大數據經濟情報綜合分析平臺和大數據交易數據管理與分析系統分別是兩款大數據平臺軟件產品,都是集成海量數據的采集、過濾、轉換、存儲、檢索、查詢、統計、分析、可視化與安全管理等全生命周期管理的綜合系統,但對數的關注點和管理方式有很大的不同。系統不僅提供了常用的數據采集,檢索,分析功能,而且還提供了基本的檢索,分析功能單元,可以根據各種行業(yè)應用和最終用戶的需求,進行不同的組合,適應用戶的不同業(yè)務場景,完成大規(guī)模行業(yè)數據的挖掘分析和應用對接。作為大數據分析平臺,系統具有如下特點:軟硬件國產自主可控多源異構數據接入數據關聯融合、統一訪問大規(guī)模、高性能、可擴展高可靠、高可用大數據平臺介紹平臺功能框架大數據平臺必須是一個開放的體系,相關軟件系統和硬件設備應是業(yè)界主流產品,遵循國家標準、行業(yè)標準,保證平臺、設備、管理系統能夠隨時無障礙地進行更新和移植。大數據管理平臺還應遵循統一的標準規(guī)范,充分考慮與外部系統(務系統等)的接口。

4A及其它網管系統、業(yè)支撐數據挖掘、數據實時存儲和訪問、ETL計算平臺這三類業(yè)務應用。分布式存儲功能基于XX布式KV存數據庫,以及面向用戶業(yè)務的各類工具軟件和庫支持?;诜植际酱鎯ζ脚_,用戶可以以非常低的時間代價構建大規(guī)模企業(yè)大數據一體化解決方案。文檔數據庫圖片音視頻郵件消息關系型數據關系型數據非關系型數據流式數據多維數據Hbase

HDFS

DB DSQLGraphDB龍威集群存儲(申威國產平臺)圖4-1存儲組件的結構圖圖是存儲組件的結構圖,主要包括如下功能組件:分布式集群存儲:基于對象的高性能分布式文件存儲系統。DFS:分布式文件系統。HBase:分布式Key-Value數據庫。DSQL:分布式關系數據庫。GraphDB:并行圖數據庫。DB:傳統數據庫。集群存儲系統基于自主可控的XX硬件平臺,采用帶外分布式架構,隔離元數據信息與數據信息,降低二者之間的性能干擾,采用對象存儲技術將文件切片分布式存儲在存儲服務器集群上,充分利用所有存儲服務器硬件性能,并且同時對客戶端提供訪問服務,形成高效聚合帶寬,增加業(yè)務讀寫效率。Hadoop分布式文件系統HDFS(HadoopDistributedFileSystem)能提供高吞吐量的數據訪問,適合大規(guī)模數據集方面的應用。通過聚合數十上百臺,甚至數千臺服務器本地文件系統的吞吐能力,HDFS提供同時對超大數據文件的訪問能力。分布式計算功能MapReduce是一種簡化并行計算的編程模型,名字源于該模型中的兩項核心操作:Map和Reduce。Map將一個任務分解成為多個任務,Reduce來,得出最終的分析結果。MapReduce適合于半結構化數據或非結構化數據的挖掘和分析。NoSQL功能HBase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,其設計目標是用來解決關系型數據庫在處理海量數據時的局限性。HBase使用場景有如下幾個特點:海量數據(TB或PB級別以上);需要很高的吞吐量;需要在海量數據中實現高效的隨機讀??;需要很好的伸縮能力;能夠同時處理結構化和非結構化的數據;不需要完全擁有傳統關系型數據庫所具備的ACID特性。UnitedHadoopHBase支持地理容災、二級索引等高級特性,滿足極高可靠性和開發(fā)易用性要求。HBase詢、詳單查詢等業(yè)務。數據倉庫功能Hive是一個建立在Hadoop上的數據倉庫框架,提供類似SQL的HQL語言操作結構化數據,其基本原理是將HQL語言自動轉換成MapReduce任務,從而完成對Hadoop儲的海量數據進行查詢和分析。Hive主要特點如下:通過HQL語言非常容易的完成數據提取、轉換和加載(通過HQL完成海量結構化數據分析;靈活的數據存儲格式,支持 JSON,CSV,TEXTFILE,RCFILE,SEQUENCEFIL等E存儲格式,并支持自定義擴展;Hive的主要應用于海量數據的離線分析(如日志分析,集群狀態(tài)分析)、大規(guī)模的數據挖掘(區(qū)域展示)等場景下。為保證Hive服務的高可用性、用戶數據的安全及訪問服務的可控制,UnitedHadoop的Hive具有如下特性:基于kerberos技術的安全認證機制;數據文件加密機制;雙機熱備;完善的權限管理。Hive適合于結構化數據或半結構化數據的挖掘和分析。分布式協調功能ZooKeeper是一個分布式、高可用性的協調服務。在Hadoop系統中主要提供兩個功能:一個功能是幫助系統避免單點故障,建立可靠的應用程序,另一個功能是提供分布式協作服務和維護配置信息。ZooKeeper主要特點:順序一致性:按照客戶端發(fā)送請求的順序更新數據。原子性:更新要么成功,要么失敗,不會出現部分更新。單一性:無論客戶端連接哪個server,都會看到同一個視圖??煽啃裕阂坏祿鲁晒?,將一直保持,直到新的更新。及時性:客戶端會在一個確定的時間內得到最新的數據。旅游工作數據流管理功能Oozie是一個用來管理Hadoopjob任務的工作流引擎,Oozie流程基于有向無環(huán)圖(DirectedAcyclicalGraph)來定義和描述,支持多種工作流模式及流程定時觸發(fā)機制。易擴展、易維護、可靠性高,與Hadoop生態(tài)系統各組件緊密結合。Oozie主要特點:支持分發(fā)、聚合、選擇等工作流流程模式;與Hadoop生態(tài)系統各組第頁PAGE59第頁PAGE59XX市旅游大數據平臺解決方案件緊密結合;流程變量支持參數化;支持流程定時觸發(fā);提供了HA機制;自帶一個WebConsole,提供了流程查看、流程監(jiān)控、日志查看等功能。維護管理功能提供的維護管理功能是Hadoop平臺的維護管理系統,是Hadoop系統操作和維護的統一入口,提供操作的定義和流程引導,并對于系統中的各項資源運行情況和操作進行監(jiān)控記錄,為系統的日常維護提供依據;運維管理包括升級向導、日常向導、日志收集與分析、告警、監(jiān)控、安裝向導、配置管理、審計管理、用戶管理等。備份和容災、用戶和應用接入安全、集群組件HA和數據私密性。集群管理系統負責整個系統的管理,包括北向接口、南向接口和本地管理GUI北向接口包括OM類的Syslog、SNMP,以及安全管理對接接口LDAP。本地管理GUI界面提供系統中各類軟硬件的圖形化維護入口,包括日常維護,以及安裝、升級和擴容向導等。旅游中心分析系統架構系統管理設備管理軟件管理報表統計設備管理軟件管理報表統計自定義業(yè)務模型授權流程業(yè)務定義授權流程業(yè)務定義日志審計報表統計檢索消息中心用戶權限業(yè)務管理數據庫WEB服務器基本算子分類聚類圖形算子文件提取信令提取內容分析信令提取內容分析數據匯聚協議還原重點業(yè)務數據海量普通數據基礎數據分布式文件分布式數據庫采集 存儲、分析圖4-2旅游中心分析系統架構圖

業(yè)務管理如上圖所示,作為一款綜合分析平臺,平臺可以分為四個大的子系統。包括:采集子系統、存儲分析子系統、業(yè)務管理子系統、系統管理子系統。市旅游大數據平臺解決方案XX市旅游大數據平臺解決方案XX第頁PAGE62第頁PAGE62存儲分析子系統又自下而上可以分三層,情報來源方式、數據類型存儲方式、關聯分析模型算法以及業(yè)務跟蹤與各種類型報表。非格式數據的分類存儲系統采用分布式文件、分布式數據庫、分布式集群計算等多種分布式技術作為構建系統的基礎平臺,使得整個系統平臺具有了高擴展、高容錯、高性能、高可用的能力。采集子系統提供多種接口,支持對不同數據源的采集,支持對多種數據類型的提取信息,同時對采集的數據進行分析提取,對數據內容進行匹配過濾,將各種類型的數據分門別類的存儲到存儲分析子系統中,供后者分析使用。子系統提供對多種文檔類型的導入功能,包括word,ppt,execl,pdf,rtf,txt等多種文件類型;以及各種視頻、圖片格式的支持。對格式化數據的全文檢索合多線索加權檢索業(yè)務管理子系統管理客戶的大數據分析業(yè)務,系統提供用戶權限、業(yè)務管理、數據全文檢索、業(yè)務定義等功能模塊,滿足客戶業(yè)務分析的管理需求,通過全文檢索和加權檢索,可以把不同的旅游內容針對一個時間、事件進行關聯起來,并形成事件發(fā)展趨勢的分析圖表,用來提供領導層對旅游項目的決策和分析。4-3旅游中心數據分析統計圖完善的旅游中心分析報表系統系統運維子系統管理整個系統的設定運行,實現系統的高可用性,高擴展性。存儲分析子系統是整個系統的核心部分。實現海量數據的存儲、檢索、分析等功能。實現對目標數據、圖像信息、聲音信息、視頻等各種文件類型的海量存儲,實現對這些類型的文件的關鍵字快速檢索結果,并形成各種形式的業(yè)務報表系統。國內旅游形勢分析事件、非物質旅游、民俗旅游數據,分析每個地區(qū)的旅游發(fā)展趨勢;按照全國地域分析各地方旅游根據旅游名稱可以方便把各個地方旅游趨勢圖、經濟熱點分布圖分析出來;按照全國人文風情數據技術分析民俗旅游的趨向;根據各個旅游部門每天的公開的信息數據,可以分析各種活動的趨勢圖(技術分析)用戶可以定制所關心的數據統計圖根據存在的數據和定義的算法,用戶可以定義自己關心的數據統計圖;數據分類存儲與自動化數據引擎據的統一可靠的存儲管理,對外提供統一的分布式調用接口,提供文件、數據庫、索引等多種存儲形式?;舅惴K層:提供大數據分析的各種基本算法模塊,支持多種計算模型的分布式計算框架,為上層業(yè)務系統提供專業(yè)的計算處理庫。業(yè)務處理層:基于底層提供的算法模塊和基礎數據,完成各種業(yè)務分析處理,同時支持對基本算法的組合定義,實現客戶自定義的業(yè)務處理任務。數據總線是系統運行的一個重要基礎架構,整個系統中,包括子系統之間,子系統內部均采用數據總線技術,實現子系統之間和子系統內部的數據和消息傳遞。數據總線支持數據和消息的緩存、中轉、分發(fā)、調度等。數據總線是計算與存儲的樞紐,同時是內外數據交換的通道,完成數據在組件間及層次間中轉、緩沖及調度。產品特點:各種異構數據接入海量數據存儲,高可用,高擴展提供各種基本算法,可以組合業(yè)務模型基于權限管理業(yè)務,控制用戶訪問業(yè)務和數據.2.4 旅游數據存儲管理分析系統架構旅游大數據平臺通過運行在單獨的服務器上的云操作系統對服務器、存儲、網絡等資源進行虛擬化管理,提供可以自定義的虛擬機,在虛擬機上安裝 Hadoop、hbase等分布式數據庫集群,對現有的數據ETL采集、清洗、轉換、匯總進來,使用海量數據分布存儲技術,用spark、storm等大數據處理軟件對hbase中的數據進行分析處理,挖掘數據價值。還可以在虛擬機上運行業(yè)務應用系統,提供負載均衡和冗余備份,達到系統的穩(wěn)定、高可用和方便的擴展性。主要用來儲存旅游數據的格式化數據系統,通過把大量的格式化旅游數據,通過數據采集量、采集時間段、采集算法、采集方式、采集內容、采集性質、采集IP址等關注的內容,用來分析中國民俗旅游、非物質旅游等他們的趨勢;市旅游大數據平臺解決方案XX市旅游大數據平臺解決方案XX第頁PAGE第頁PAGE64圖4-4旅游中心數據交互傳輸圖如上圖所示;從用戶訪問到數據信息交互、應用、傳輸、分析、存儲、身份驗證;這些機制大大的提高了數據的應用和安全;用戶層到應用層再從數據庫中調取查詢信息,大數據分析并進行統計再反饋給查詢者,統一的身份認證層以及分析決策層面分布規(guī)律多節(jié)點集成方便用戶訪問。

(移動端pc端)、應用層和數據數據按照旅游分類存儲系統根據各種民俗、人文領域的特性,分類存儲各種數據和其關聯的其他信息數據;數據按照信息分類趨勢分析根據活動數據的大數據分析,系統能夠快速的分析出每種旅游領域的走勢圖,并根據技術分析,可以預測未來的發(fā)展趨向。.3大數據統一平臺分布式數據總線是分析系統的數據通路,其基于分布式內存實現,可實現高速的數據交換、緩沖及轉換、遷移等。各子系統之間和子系統內部的各個組件之間通過分布式數據總線互聯,實現數據在組件間的交換及同步;外部數據源接入內部存儲組件前也要先經過數據總線進行緩沖、交換等預處理操作;此外為支持一體機對異構數據的關聯融合,提供對異構數據的關聯加載,并可利用數據總線的高速緩沖區(qū)進行多集合數據的join統一格式轉換等處市旅游大數據平臺解決方案XX市旅游大數據平臺解決方案XX第頁PAGE72第頁PAGE72理;此外數據總線還可完成對異構存儲組件內數據聯合的功能,可支持上層一次操作對異構數據集的聯合查詢。數據總線處于數據傳輸的關鍵路徑上,因而對數據傳輸流起到控制作用,可完成對數據的分發(fā)和調度。同時還可根據上層存儲訪問的不同需求自動將數據分發(fā)到相應的存儲組件,同時做到對上層透明。提供如下關鍵特性:各組件間數據融合、緩存、交換提供異構數據接入、分發(fā)及數據關聯操作的內存融合數據流高速路由/分發(fā)基于配置策略的數據分發(fā)MQ/Buf/Mcache同時提供分布式消息隊列(MessageQueue分布式內存管理提供邏輯統一視圖,同時支持高可靠基于流池的動態(tài)均載基于流粒度的均載策略,保證流內一致性可定制分發(fā)策略動態(tài)可定制、基于數據特點、類型及標簽的分發(fā)策略內存互備/硬盤同步支持節(jié)點間內存互備以及內存與硬盤的持久化動態(tài)擴展支持Broker節(jié)點的動態(tài)在線添加數據采集數據采集子系統的主要功能包括:實現多源數據的快速匯入、解析,分析,過濾等功能。提供便捷的數據交換API,支持多種方式接入數據。多樣化的協同代理,支持多種常用的數據獲取形式,并能根據需求快速增加新類型協同代理。支持多種常見的文檔數據格式導入:包括圖像數據、矢量實錄、目標數據、聲音數據、視頻數據等。數據采集子系統分為多源數據接入模塊、數據總線模塊、分析過濾模塊三部分。系統入口通過多個協同代理agent對接不同數據源,并在對數據進行格式統一轉換,封裝后以統一的格式發(fā)送到數據總線中。分析過濾模塊通過統一數據獲取接口從數據總線中訂閱數據。數據接入數據預處理模塊主要功能包括:實現多業(yè)務數據的分布式抽取,數據過濾,數據轉換,數據加載等 ETL操作對海量實時數據的規(guī)范化處理;數據接入模塊提供對多種接入數據的處理。對海量流式數據可提供過濾、識別、檢測、業(yè)務識別等預處理操作,同時可與后續(xù)流處理引擎對接;對web抓取數據可提供URL查重、實體抽取、數據格式封裝、數據清洗等預處理功能,處理完的數據進入數據總線,由分析模塊分析提取數據中的信息,為數據入庫做好準備。規(guī)則過濾據。模塊完成以下功能:任務輪詢模塊負責輪詢任務并加載規(guī)則。如果任務符合重建條件,則加載所有任務的規(guī)則,并出發(fā)規(guī)則重建。規(guī)則解析解析規(guī)則內容。規(guī)則過濾獲取實時流文檔,并通過規(guī)則熱切換獲取最新的多模匹配狀態(tài)機。規(guī)則重建模塊根據任務輪詢獲取的任務列表,建立多模匹配狀態(tài)機。任務輪詢不斷查詢數據庫以獲取更新的任務列表,實時過濾輪詢定期輪詢任務數據庫,查時過濾模塊。規(guī)則重建主要是將任務輪詢獲取的所有有效任務進行規(guī)則解析,提取關鍵詞,構建多模匹配狀態(tài)機。則,對文檔進行實時過濾。數據存儲數據存儲層提供企業(yè)級大數據平臺軟件一體化解決方案;并支持儲層不僅提供統一、穩(wěn)定、高效的存儲子系統,還整合了先進的分布式集群資源管理和進程調度方案、高性能數據總線技術、全并行架構分布式關系數據庫、分布式KV存數據庫,以及面向上層業(yè)務的各類工具軟件和庫支持。數據存儲層采用了存儲服務器集群和元數據服務器集群通過千兆以太網絡/萬兆以太網絡構建,具備極高的擴展性和可靠性。消除集群內的單點故障,避免因為故障而導致服務中斷或者數據丟失等影響,并且打破了傳統存儲系統架構上的限制。分布式列數據庫可支持大于幾十個節(jié)點,PB存儲規(guī)模的scale-out;性能上其針對具體大數據應用場景進行深度定制和調優(yōu),尤其對于高吞吐率入庫和實時檢索場景;功能上除了支持標準的K-V訪問接口之外,還可較好的兼容SQL標準及JDBC接口,可以很好的與既有數據分析業(yè)務對接。尤其在索引性能優(yōu)化及對后綴和全文索引的支持上都有顯著優(yōu)勢。在應用場景方面,分布式列數據庫常被用作全量基礎數據的組織和存儲(包括結構化及半結構化數據),同時提供對此全量數據的實時查詢;可兼容傳統數據倉庫OLAP場景,對復雜SQL分析可提供近實時的分析性能。從而可同時支持對大數據的實時查詢和復雜離線分析。計算引擎功能計算引擎是大數據綜合分析平臺中進行數據處理分析的基礎。其主要包括分布式計算框架及數據分析算子兩大部分。統一計算引擎系統滿足如下功能需求:提供支持大數據分析的計算框架,包括MapReduce、內存計算等并行計算框架,具備靈活定制型、彈性擴展等特性。提供面向大規(guī)模異構數據源的抽取功能和異構數據源統一組織模型,具備異構數據的融合能力?;诜植际接嬎憧蚣艿臋C器學習與數據挖掘、文本檢索、數值分析、地理位置計算、檢索統計等通用算子集;對海量實時數據的統計特征的快速提?。ㄈ鏼ax,min,average,sum等)。組成圖4-6:計算引擎結構圖如上圖所示,計算引擎分兩個層次:分布式計算框架和其上的各種基本計算模型。分布式計算框架提供對主流計算框架的支持以及編程接口,包括MapReduce存計算框架等,分布式計算框架負責管理整個系統中的計算資源和數據資源,合理調度各個計算節(jié)點上的計算任務。計算框架提供一下功能:計算資源管理。計算任務跟蹤。計算任務容錯處理計算結果匯聚計算節(jié)點負載監(jiān)控.3.5.3 基本算子集基本算子集提供了數據分析中所需要的通用和基本的算

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論