流數(shù)據(jù)處理技術(shù)在資源監(jiān)測(cè)網(wǎng)中的應(yīng)用_第1頁(yè)
流數(shù)據(jù)處理技術(shù)在資源監(jiān)測(cè)網(wǎng)中的應(yīng)用_第2頁(yè)
流數(shù)據(jù)處理技術(shù)在資源監(jiān)測(cè)網(wǎng)中的應(yīng)用_第3頁(yè)
流數(shù)據(jù)處理技術(shù)在資源監(jiān)測(cè)網(wǎng)中的應(yīng)用_第4頁(yè)
流數(shù)據(jù)處理技術(shù)在資源監(jiān)測(cè)網(wǎng)中的應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩50頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

流數(shù)據(jù)處理技術(shù)在資源監(jiān)測(cè)網(wǎng)中的應(yīng)用摘要隨著大數(shù)據(jù)時(shí)代的到來(lái),網(wǎng)絡(luò)流量急劇增加,對(duì)于網(wǎng)絡(luò)資源監(jiān)測(cè)技術(shù)的實(shí)時(shí)性提出了新的標(biāo)準(zhǔn):在數(shù)據(jù)規(guī)模大且連續(xù)到達(dá)的情況下能及時(shí)響應(yīng)用戶的請(qǐng)求。傳統(tǒng)的網(wǎng)絡(luò)資源監(jiān)測(cè)中采用先存儲(chǔ)后分析的數(shù)據(jù)處理方式,資源消耗大且處理時(shí)間長(zhǎng),在面對(duì)大量、高速數(shù)據(jù)時(shí),不能滿足當(dāng)前應(yīng)用對(duì)處理能力和響應(yīng)時(shí)間的要求。流數(shù)據(jù)處理技術(shù)這種能直接在內(nèi)存中對(duì)大量的動(dòng)態(tài)數(shù)據(jù)進(jìn)行持續(xù)處理的技術(shù)能極大的縮短處理時(shí)間,很好的應(yīng)對(duì)這種大量、動(dòng)態(tài)數(shù)據(jù)對(duì)于實(shí)時(shí)性的要求,近些年來(lái)由于其廣泛的應(yīng)用前景得到了眾多研究和關(guān)注。本文首先分析了流數(shù)據(jù)目前的理論研究和技術(shù)現(xiàn)狀,結(jié)合海洋監(jiān)測(cè)的應(yīng)用背景,構(gòu)建了一個(gè)資源監(jiān)測(cè)網(wǎng)的整體框架,引入分布式流數(shù)據(jù)管理系統(tǒng)作為數(shù)據(jù)處理引擎以保證處理性能和響應(yīng)速度。此外,本文針對(duì)流數(shù)據(jù)處理引擎應(yīng)用在資源監(jiān)測(cè)網(wǎng)中產(chǎn)生的關(guān)鍵問(wèn)題進(jìn)行研究:數(shù)據(jù)流入引擎前的數(shù)據(jù)異構(gòu)問(wèn)題、引擎處理過(guò)程中的過(guò)載問(wèn)題、流出引擎后的流數(shù)據(jù)需持久化問(wèn)題。對(duì)于流數(shù)據(jù)異構(gòu)問(wèn)題,本文參考現(xiàn)有異構(gòu)數(shù)據(jù)轉(zhuǎn)換思路,結(jié)合流數(shù)據(jù)處理技術(shù),建立多種適配器來(lái)將多源異構(gòu)數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一標(biāo)準(zhǔn)的格式,使得轉(zhuǎn)換后的結(jié)果能夠被流數(shù)據(jù)管理系統(tǒng)識(shí)別。對(duì)流速波動(dòng)引起的過(guò)載問(wèn)題,本文將負(fù)載均衡與降載技術(shù)結(jié)合起來(lái),在保障系統(tǒng)的穩(wěn)定運(yùn)行同時(shí)降低了由于直接降載帶來(lái)的數(shù)據(jù)損失。對(duì)于流數(shù)據(jù)需持久化的問(wèn)題,本文提出了二次存儲(chǔ)的方式,首次存儲(chǔ)通過(guò)批處理的方式將動(dòng)態(tài)流數(shù)據(jù)持久化為數(shù)據(jù)庫(kù)中的靜態(tài)數(shù)據(jù);二次存儲(chǔ)采用一種基于時(shí)間多粒度的存儲(chǔ)策略對(duì)于久遠(yuǎn)歷史數(shù)據(jù)進(jìn)行壓縮,降低數(shù)據(jù)庫(kù)的存儲(chǔ)壓力。本文的研究立足實(shí)際項(xiàng)目,應(yīng)用流數(shù)據(jù)處理技術(shù)來(lái)保證資源監(jiān)測(cè)網(wǎng)的實(shí)時(shí)性、穩(wěn)定性,并給出一個(gè)具有普適性的解決方案。關(guān)鍵詞:資源監(jiān)測(cè)網(wǎng);流數(shù)據(jù)管理系統(tǒng);負(fù)載管理;降載

ABSTRACTWiththearriveoftheageofbigdata,asharpincreaseinnetworktrafficproposesanewstandardfornetworkreal-timemonitoringtechnologythatwhendataarrivesinlarge-scalecontinuously,thesystemshouldresponsetouserrequeststimely.Whenthedatafromnetworkcomes,thetraditionalnetworkmonitoringtechnologysaveitindatabaseandthenextracteditfromthedatabaseforprocessing.Thismethodconsumessomanysystemresourcesandneedsuchalongtimeforanalysis,thatitcannotmeetthecurrentapplication’srequirementofprocessingpowerandreal-time.Streamdataprocessingtechnologycancontinuouslyprocessalotofdynamicdatainmemorydirectlywhichgreatlyreducetheprocessingtime.Therefore,itcanmeetthereal-timerequirementofthedynamicdatainlargescale.Inrecentyears,streamdataprocessingtechnologyhasarousednumerousstudiesandconcernduetoitswiderangeofapplications.Inthisthesis,weanalyzescurrentresearchandtechnologytheoryofdatastream,buildtheoverallframeworkofaresourcesmonitoringnetwork,whichadoptsdistributeddatastreammanagementsystemasthedataprocessingenginetoensuretheprocessingperformanceandresponsivenessofsystem.Inaddition,westudythekeyissuesfromtheapplicationofstreamdataprocessingengineinresourcesmonitoringnetwork:heterogeneousdatastream,datastreamoverload,streamdatapersistence.Abouttheproblemofheterogeneousdatastream,thisthesisreferstotheexistingheterogeneousdataconversionideasandcombinesitwithstreamdataprocessingtechnologytocreateavarietyofadapterswhichcanconvertmultipleheterogeneousdatasourcesintoaunifiedstandardformat,sothattheconvertedstreamdatacanbeidentifiedbydatastreammanagementsystem.Abouttheproblemofoverloadcausedbyflowratefluctuations,thethesiscombineloadbalancingandloadsheddingtechnologytoensurethestableoperationofsystemwhilereducingthelossofdataduetothedirectloadsheddingcaused.Aboutdatastreampersistenceproblem,thisthesisproposesamethodoftwicestorage,inthefirststorage,dynamicstreamdataisstoredintothedatabasebybatchprocessing;inthesecondarystorage,historydataiscompressedbyatime-basedmulti-granularitystoragestrategywhichcanreducestoragepressureofthedatabase.Thestudyofthisthesis,basedonanactualproject,appliesstreamingdataprocessingtechniquestoensurereal-timeandstabilityofresourcesmonitoringnetworkwhichproposesageneralsolutionandhasthereferencevalueKeywords:ResourcesMonitoringNetwork;DSMS;LoadManagement;Load-shedding目錄摘要 [31],在在這種降載策略里對(duì)每個(gè)查詢?cè)O(shè)置對(duì)應(yīng)的QoS參數(shù),以此來(lái)判斷是否需要降載,在確定需要降載后,通過(guò)降載載路標(biāo)(LSRM)確定卸載計(jì)劃,向查詢網(wǎng)絡(luò)中插入卸載操作符即將在算子完成卸載,理想的情況下丟棄的是那些對(duì)查詢結(jié)果QoS影響最小的元組。文獻(xiàn)將控制理論應(yīng)用在卸載控制中,在這個(gè)降載方案通過(guò)引入分布式模糊邏輯控制,將每個(gè)查詢操作符作為監(jiān)控對(duì)象,周期性監(jiān)測(cè)輸出結(jié)果的錯(cuò)失率,將錯(cuò)失率超過(guò)最大容忍值時(shí)進(jìn)行降載,這是處理具有高度動(dòng)態(tài)性數(shù)據(jù)的一種有效方法。這種將控制理論引入DSMS自適應(yīng)處理的方法是一種新的嘗試,但也存在有待改進(jìn)的地方。上述降載策略主要適用于集中式DSMS,并不能很好的解決DDSMS中的過(guò)載現(xiàn)象。文獻(xiàn)REF_Ref388266468\r\h[32]針對(duì)分布式數(shù)據(jù)流查詢處理中的降載技術(shù)提出了新的觀點(diǎn),討論了一種綜合考慮所有節(jié)點(diǎn)資源約束以及節(jié)點(diǎn)間負(fù)載依賴性的降載策略,但沒(méi)有考慮網(wǎng)絡(luò)帶寬限制。2.4異構(gòu)數(shù)據(jù)轉(zhuǎn)換技術(shù)在資源監(jiān)測(cè)網(wǎng)中,通常處理需要不同數(shù)據(jù)源獲得的監(jiān)測(cè)數(shù)據(jù),這些監(jiān)測(cè)數(shù)據(jù)由于被監(jiān)測(cè)的資源不同,在定義和格式上有較大差異甚至完全不同.以海洋觀測(cè)網(wǎng)為例,它需要監(jiān)測(cè)光學(xué)、電學(xué)、傳感器這三大平臺(tái)下數(shù)十種設(shè)備的運(yùn)行情況,這些設(shè)備尤其是不同平臺(tái)下的設(shè)備之間由于設(shè)備本身特性的關(guān)系,產(chǎn)生的監(jiān)測(cè)數(shù)據(jù)完全不同。譬如,電學(xué)平臺(tái)下的接駁盒需要監(jiān)測(cè)輸入電壓、漏水情況,光學(xué)平臺(tái)下的光學(xué)可能要監(jiān)測(cè)折射率、光功率,傳感器平臺(tái)下可能要監(jiān)測(cè)葉綠素傳感器、等等。這些數(shù)據(jù)之間基本沒(méi)有什么共同之處,因此,在集成處理這些流數(shù)據(jù)時(shí),會(huì)面臨諸如無(wú)法統(tǒng)一處理、處理效率低下等問(wèn)題。對(duì)于流數(shù)據(jù)管理系統(tǒng)而言,在集成處理各種異構(gòu)的流數(shù)據(jù)源時(shí),所遇到的最大的問(wèn)題是數(shù)據(jù)的格式以及類型的匹配問(wèn)題,所以在數(shù)據(jù)流如流數(shù)據(jù)管理系統(tǒng)時(shí)需要將各種數(shù)據(jù)源產(chǎn)生的數(shù)據(jù)通過(guò)一定的算法和技術(shù)轉(zhuǎn)換為流數(shù)據(jù)管理系統(tǒng)能夠識(shí)別的數(shù)據(jù)格式和類型。目前,解決異構(gòu)數(shù)據(jù)的數(shù)據(jù)類型、格式等方面的差異性問(wèn)題通常采用的是異構(gòu)數(shù)據(jù)轉(zhuǎn)換技術(shù)。常用的數(shù)據(jù)類型轉(zhuǎn)換方法有如下幾種:數(shù)據(jù)庫(kù)廠商提供的工具目前,數(shù)據(jù)庫(kù)都提供了中間件來(lái)應(yīng)用程序與本地或異地的同構(gòu)或異構(gòu)數(shù)據(jù)源的數(shù)據(jù)交換,但這些工具作用范圍有限,使用范圍往往僅限于自己的DBMS訪問(wèn)異構(gòu)數(shù)據(jù)庫(kù),通用性較差?;贓AI的數(shù)據(jù)交換工具實(shí)現(xiàn)數(shù)據(jù)交換和整合在源數(shù)據(jù)庫(kù)與目標(biāo)庫(kù)之間編寫數(shù)據(jù)交換程序,數(shù)據(jù)交換工具通常具備這樣的功能:支持多種類型數(shù)據(jù)源的抽?。豪缈梢詮臄?shù)據(jù)庫(kù)、XML、外部文件、調(diào)用webservice等方式抽取數(shù)據(jù):支持特定數(shù)據(jù)轉(zhuǎn)換規(guī)則:支持多種數(shù)據(jù)加載方式。XML技術(shù)XML(ExtensibleMarkupLanguage)即可擴(kuò)展標(biāo)記語(yǔ)言,它與HTML一樣,都是SGML(StandardGeneralizedMarkupLanguage)。XML是一種簡(jiǎn)單的數(shù)據(jù)存儲(chǔ)語(yǔ)言,具有純文本格式、結(jié)構(gòu)化描述等特點(diǎn),簡(jiǎn)單易用。因此XML易于在任何應(yīng)用程序中讀寫數(shù)據(jù),這使XML很快成為數(shù)據(jù)交換的一種公共語(yǔ)言。本文采用XML作為數(shù)據(jù)集成的標(biāo)準(zhǔn),通過(guò)實(shí)現(xiàn)各種轉(zhuǎn)換組件將各類數(shù)據(jù)源進(jìn)行格式和數(shù)據(jù)類型的轉(zhuǎn)換后再讓它們進(jìn)入流數(shù)據(jù)管理系統(tǒng),為基于流數(shù)據(jù)處理的各種功能提供了基石。2.5本章小結(jié)本章首先對(duì)流技術(shù)進(jìn)行概述,介紹了流數(shù)據(jù)的基本概念和模型,并將流數(shù)據(jù)的處理模型與傳統(tǒng)數(shù)據(jù)處理模型進(jìn)行對(duì)比,指出兩者具有本質(zhì)上的區(qū)別。然后對(duì)現(xiàn)有流數(shù)據(jù)管理系統(tǒng),流數(shù)據(jù)負(fù)載管理技術(shù),異構(gòu)數(shù)據(jù)轉(zhuǎn)換技術(shù)這三方面的技術(shù)現(xiàn)狀進(jìn)行較全面的分析,為下一章的研究工作奠定了理論基礎(chǔ)。海底觀測(cè)網(wǎng)中流數(shù)據(jù)處理問(wèn)題海底觀測(cè)網(wǎng)背景需求海洋監(jiān)測(cè)發(fā)布技術(shù)是海洋科學(xué)領(lǐng)域重要組成部分,在維護(hù)海洋權(quán)益、開(kāi)發(fā)海洋資源、預(yù)警海洋災(zāi)害、保護(hù)海洋環(huán)境、加強(qiáng)國(guó)防建設(shè)、謀求新的發(fā)展空間等方面都有著重大意義。海洋監(jiān)測(cè)技術(shù)發(fā)展水平也是衡量一個(gè)海洋強(qiáng)國(guó)的重要標(biāo)志,因此我國(guó)政府非常注重對(duì)海洋監(jiān)測(cè)技術(shù)的扶持,并將其列為國(guó)家863計(jì)劃的一個(gè)主題,在“九五”、“十五”期間持續(xù)加大對(duì)海洋監(jiān)測(cè)技術(shù)研究的投入力度,旨在加強(qiáng)海洋監(jiān)測(cè)高技術(shù)研究,提高對(duì)海洋環(huán)境的監(jiān)測(cè)和保護(hù)能力,并支持海洋資源開(kāi)發(fā)和海上國(guó)際建設(shè)。本論文的研究依托于863計(jì)劃海底觀測(cè)網(wǎng)試驗(yàn)系統(tǒng)項(xiàng)目的課題任務(wù)“觀測(cè)網(wǎng)絡(luò)故障診斷與遠(yuǎn)程維護(hù)系統(tǒng)(2012AA09A410)”,簡(jiǎn)稱海底觀測(cè)網(wǎng)故障診斷平臺(tái),它接入光學(xué)、電學(xué)、傳感器三大平臺(tái)下物理設(shè)備采集的監(jiān)測(cè)數(shù)據(jù)來(lái)監(jiān)測(cè)設(shè)備的運(yùn)行情況,并在此基礎(chǔ)上進(jìn)行故障診斷。海底觀測(cè)網(wǎng)故障診斷平臺(tái)設(shè)備數(shù)量大、種類多,且主要儀器與設(shè)備均工作于海底環(huán)境,通過(guò)光電纜與海岸基站進(jìn)行電力和通信連接。由于海底工作環(huán)境復(fù)雜,傳輸光電鏈路長(zhǎng),外力致?lián)p因素多,海底觀測(cè)網(wǎng)的故障模式和機(jī)理非常復(fù)雜,海底傳感、探測(cè)儀器及其他海底設(shè)備相對(duì)陸地更容易出現(xiàn)運(yùn)行故障,而且儀器與設(shè)備運(yùn)行維護(hù)難度大、成本高,故障修復(fù)困難,維修成本極為昂貴。針對(duì)該種情況,需要對(duì)海底觀測(cè)網(wǎng)絡(luò)水下個(gè)環(huán)節(jié)進(jìn)行監(jiān)測(cè)和故障診斷,監(jiān)視海底設(shè)備儀器運(yùn)行狀態(tài),防止異常運(yùn)行狀態(tài)持續(xù)而導(dǎo)致嚴(yán)重故障發(fā)生,在故障不可避免地發(fā)生時(shí),進(jìn)行一系列保護(hù)響應(yīng)機(jī)制,及時(shí)將故障情況通知相關(guān)人員來(lái)及時(shí)排除故障。從應(yīng)用背景來(lái)看,海洋監(jiān)測(cè)面積較大、范圍較廣,監(jiān)測(cè)數(shù)據(jù)具有快速、無(wú)限、連續(xù)、速率不斷變化、實(shí)時(shí)的特點(diǎn),是典型的流數(shù)據(jù)。從數(shù)據(jù)內(nèi)容來(lái)看,它具有多源多格式、時(shí)間跨度大的特點(diǎn),而基于互聯(lián)網(wǎng)或局域網(wǎng)對(duì)這些數(shù)據(jù)的訪問(wèn)又有速度、效率、可用性等方面的要求。綜上,該系統(tǒng)具有以下特點(diǎn):第一,數(shù)據(jù)規(guī)模大,且持續(xù)不斷增長(zhǎng);第二,數(shù)據(jù)具有顯著的大時(shí)間跨度、多源、多類型、海量、異構(gòu)特性;第三,系統(tǒng)的實(shí)時(shí)性和自適應(yīng)性求高。3.2海底觀測(cè)網(wǎng)功能概述由背景需求可知,本文中海洋監(jiān)測(cè)與故障診斷系統(tǒng)需要建立一套完整的設(shè)備監(jiān)控和故障診斷系統(tǒng)。該系統(tǒng)將接入光學(xué)監(jiān)測(cè)平臺(tái)、電學(xué)監(jiān)測(cè)平臺(tái)和傳感器監(jiān)測(cè)平臺(tái),通過(guò)數(shù)據(jù)的實(shí)時(shí)采集和處理分析,對(duì)海底觀測(cè)網(wǎng)試驗(yàn)系統(tǒng)的海底光電纜、主次接駁盒、各類水下傳感設(shè)備及岸站供電情況進(jìn)行全面監(jiān)測(cè),具備對(duì)水下設(shè)備運(yùn)行狀態(tài)、光電信號(hào)采集設(shè)備進(jìn)行故障檢測(cè)與診斷、異常信息告警、典型故障定位等功能,為提升海底觀測(cè)網(wǎng)絡(luò)的長(zhǎng)期可靠性提供支撐。系統(tǒng)主要功能有設(shè)備狀態(tài)展示、故障展示、故障決策與分析、數(shù)據(jù)回溯與分析。3.2.1設(shè)備狀態(tài)展示展示光學(xué)子系統(tǒng)、電學(xué)子系統(tǒng)及其它各種傳感器的基本位置信息和運(yùn)行狀態(tài)。具體功能點(diǎn)如下:展示光纜、岸基設(shè)備、主接駁盒、次接駁盒、各設(shè)備的物理拓?fù)湫畔⒓盎驹O(shè)備信息;能夠新增、修改或刪除設(shè)備,對(duì)設(shè)備的基本信息和位置信息進(jìn)行修改;顯示設(shè)備的最新?tīng)顟B(tài),設(shè)備共有四種狀態(tài):在線、正常、故障、離線。3.2.2故障展示展示設(shè)備的故障信息,根據(jù)故障類型(正常、一般故障和系統(tǒng)故障)對(duì)設(shè)備進(jìn)行不同顏色的故障標(biāo)識(shí)。具體功能點(diǎn)如下:在拓?fù)鋱D上能夠?qū)收显敿?xì)信息進(jìn)行查看,能夠檢索歷史故障信息;顯示設(shè)備的最新故障信息。3.2.3故障決策根據(jù)光學(xué)、電學(xué)和傳感器三大平臺(tái)提供的監(jiān)測(cè)指標(biāo)、分析規(guī)則和閾值對(duì)各設(shè)備的故障檢測(cè)規(guī)則進(jìn)行配置。具體功能點(diǎn)如下:針對(duì)不同的監(jiān)測(cè)設(shè)備,能夠增加或修改故障檢測(cè)規(guī)則,以方便后期進(jìn)行檢測(cè)設(shè)備的擴(kuò)展;配置故障處理策略,能夠?qū)⒐收闲畔⒁噪娮余]件和短信的方式發(fā)送給相應(yīng)的值班人員,實(shí)現(xiàn)無(wú)人值守功能。3.2.4數(shù)據(jù)回溯與分析回溯某段時(shí)間的歷史數(shù)據(jù),基于狀態(tài)監(jiān)測(cè)數(shù)據(jù)和故障數(shù)據(jù),實(shí)現(xiàn)歷史信息統(tǒng)計(jì)和數(shù)據(jù)分析功能。具體功能點(diǎn)如下:能夠以餅狀圖、柱狀圖、折線圖等多種方式對(duì)設(shè)備統(tǒng)計(jì)信息、歷史告警信息進(jìn)行展示,用戶可選擇的統(tǒng)計(jì)項(xiàng)目前考慮有:時(shí)間、設(shè)備、故障級(jí)別、電學(xué)設(shè)備(過(guò)壓、過(guò)流、溫度、漏水、接地等);根據(jù)特定統(tǒng)計(jì)分析算法,能夠?qū)Ω鞣N故障數(shù)據(jù)進(jìn)行分析和科學(xué)研究。3.3關(guān)鍵問(wèn)題分析3.3.1流數(shù)據(jù)多源異構(gòu)問(wèn)題海底觀測(cè)網(wǎng)故障診斷平臺(tái)需要監(jiān)測(cè)采集的物理設(shè)備關(guān)系如圖3-1所示,監(jiān)測(cè)數(shù)據(jù)來(lái)源包括三大平臺(tái),共分為五大類:岸基監(jiān)測(cè)站、岸基供電、主接駁盒、次接駁盒、傳感器。其中,光學(xué)平臺(tái)下的設(shè)備包括岸基監(jiān)測(cè)站,監(jiān)測(cè)光纖的工作狀態(tài)。電學(xué)平臺(tái)下的監(jiān)測(cè)設(shè)備包括:岸基供電站、主接駁盒和次接駁盒。圖3-1物理監(jiān)測(cè)設(shè)備關(guān)系圖由圖3-1可知監(jiān)測(cè)設(shè)備種類繁多,提供的數(shù)據(jù)類型和格式也相差較大。以電學(xué)平臺(tái)下的數(shù)據(jù)為例,具體的內(nèi)容見(jiàn)下REF_Ref386810095\h表31:表3SEQ表\*ARABIC\s11電學(xué)監(jiān)測(cè)數(shù)據(jù)內(nèi)容被監(jiān)測(cè)設(shè)備監(jiān)測(cè)模塊觀測(cè)量岸基供電站自動(dòng)轉(zhuǎn)換系統(tǒng)狀態(tài)UPS系統(tǒng)工作狀態(tài)、單個(gè)電池電壓、電池狀態(tài)、輸出電壓、輸出電流、輸出功率、輸出視在功率、輸出電壓負(fù)載、溫度主電源柜工作狀態(tài)、電壓、電流副電源柜工作狀態(tài)、電壓、電流主接駁盒整體工作狀態(tài)電源腔輸出電壓、輸出電流、4路溫度檢測(cè)控制腔輸入電壓、輸入電流、濕度、2路漏水檢測(cè)、4路溫度檢測(cè)下接次級(jí)接駁盒1是否使用、輸出電壓、輸出電流、接地電阻下接次級(jí)接駁盒2是否使用、輸出電壓、輸出電流、接地電阻下接次級(jí)接駁盒3是否使用、輸出電壓、輸出電流、接地電阻下接次級(jí)接駁盒4是否使用、輸出電壓、輸出電流、接地電阻次接駁盒整體是否使用電壓轉(zhuǎn)換腔濕度、2路漏水檢測(cè)、4路溫度檢測(cè)控制腔輸入電壓、輸入電流、濕度、2路漏水檢測(cè)、4路溫度檢測(cè)負(fù)載1(地球物理平臺(tái))是否使用、輸出電壓、輸出電流、接地電阻負(fù)載(傳感器平臺(tái))2是否使用、輸出電壓、輸出電流、接地電阻負(fù)載(傳感器平臺(tái))3是否使用、輸出電壓、輸出電流、接地電阻負(fù)載(傳感器平臺(tái))4是否使用、輸出電壓、輸出電流、接地電阻由REF_Ref386810677\h表31電學(xué)監(jiān)測(cè)數(shù)據(jù)內(nèi)容可知同一平臺(tái)下不同設(shè)備提供的監(jiān)測(cè)數(shù)據(jù)格式就有一定的差別,不同平臺(tái)之間的數(shù)據(jù)差異更明顯,不但數(shù)據(jù)結(jié)構(gòu)不一樣,連編碼都不同。總之,光學(xué)、電學(xué)、傳感器三大平臺(tái)由于其物理設(shè)備的差異性導(dǎo)致其下采集數(shù)據(jù)在編碼、內(nèi)容、格式上都有較大差異,這樣在流入系統(tǒng)時(shí)無(wú)法統(tǒng)一處理,增加系統(tǒng)的復(fù)雜度,降低通用性。因此在這些格式各異的數(shù)據(jù)流入流數(shù)據(jù)引擎之前,需要對(duì)它們進(jìn)行預(yù)處理。預(yù)處理時(shí)考慮通過(guò)適配器按照配置文件中定義的格式,將外界應(yīng)用領(lǐng)域中的各種數(shù)據(jù)源轉(zhuǎn)換成流數(shù)據(jù)管理系統(tǒng)能夠識(shí)別的流(Stream)。如果系統(tǒng)需要增加新的采集數(shù)據(jù)種類只需要增加對(duì)應(yīng)的輸入適配器和配置文件,其他地方無(wú)需改動(dòng)。由于數(shù)據(jù)源種類繁多,訪問(wèn)數(shù)據(jù)源的方法也多種多樣,因此,不可能構(gòu)建一個(gè)通用的適配器來(lái)處理任何類型的數(shù)據(jù)源,目前的解決方法只能是根據(jù)特定的數(shù)據(jù)源設(shè)計(jì)相應(yīng)的適配器。另外,從整個(gè)系統(tǒng)的層面來(lái)看,流數(shù)據(jù)管理系統(tǒng)的處理效率和實(shí)時(shí)性是非常重要的。如果流數(shù)據(jù)處理引擎無(wú)法實(shí)時(shí)處理完各個(gè)數(shù)據(jù)源不斷到來(lái)的數(shù)據(jù),那么就只能堆積到各個(gè)適配器的緩沖區(qū)隊(duì)列中,隨著時(shí)間的推移和流數(shù)據(jù)速率變化的無(wú)常,這種趨勢(shì)變得更為嚴(yán)重,致使整個(gè)系統(tǒng)資源的耗盡以及系統(tǒng)癱瘓。因此,在流數(shù)據(jù)處理研究中,很多研究者提出了有關(guān)流數(shù)據(jù)負(fù)載管理的一些技術(shù)能夠較好的解決了此問(wèn)題。3.3.2流數(shù)據(jù)需持久化問(wèn)題流數(shù)據(jù)經(jīng)過(guò)流數(shù)據(jù)處理引擎處理過(guò)后無(wú)法再次被讀取,若想追溯歷史數(shù)據(jù)此時(shí)會(huì)用傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)數(shù)據(jù)。一般來(lái)說(shuō),關(guān)系數(shù)據(jù)庫(kù)僅存儲(chǔ)用戶感興趣且重要的樣本數(shù)據(jù)或者統(tǒng)計(jì)數(shù)據(jù),這使得數(shù)據(jù)所占用的存儲(chǔ)空間明顯減小。雖然大型關(guān)系型數(shù)據(jù)庫(kù)能夠存儲(chǔ)和管理海量數(shù)據(jù),但是這種靜態(tài)數(shù)據(jù)規(guī)模的增長(zhǎng)遠(yuǎn)遠(yuǎn)不能夠與動(dòng)態(tài)數(shù)據(jù)規(guī)模的增長(zhǎng)相比擬,且隨著時(shí)間的延續(xù)累積的數(shù)據(jù)將呈爆炸式的增長(zhǎng),因此同樣需要耗費(fèi)海量的存儲(chǔ)空間。暫時(shí)只考慮電學(xué)平臺(tái)中某個(gè)次接駁盒來(lái)進(jìn)行數(shù)據(jù)規(guī)模估計(jì),原始監(jiān)測(cè)數(shù)據(jù)到達(dá)速率為每秒一條。一天下來(lái)累計(jì)的數(shù)據(jù)量為:30條/m*60m*24H=43200條/天。一個(gè)月累計(jì)的數(shù)據(jù)量為1296000條。這才僅僅是三個(gè)平臺(tái)下一個(gè)被監(jiān)控資源的數(shù)據(jù)量,若是所有的流數(shù)據(jù)累計(jì)起來(lái)數(shù)據(jù)規(guī)模在日積月累之下會(huì)達(dá)到怎樣的程度,可想而知。由于本文中存在對(duì)歷史數(shù)據(jù)回溯的需求,如何有效的存儲(chǔ)流數(shù)據(jù),盡可能的減少數(shù)據(jù)庫(kù)資源的開(kāi)銷成為本文中值得研究的一個(gè)問(wèn)題。從REF_Ref386906310\h圖32中可以看出,流數(shù)據(jù)的應(yīng)用中,數(shù)據(jù)具有很強(qiáng)的時(shí)效性,隨著時(shí)間的延續(xù),離當(dāng)前時(shí)間越遠(yuǎn)的數(shù)據(jù),用戶的興趣度越低,而且對(duì)于遠(yuǎn)期的歷史數(shù)據(jù)或近期的歷史數(shù)據(jù),用戶大部分只關(guān)心統(tǒng)計(jì)信息。因此,本文充分考慮了數(shù)據(jù)的時(shí)效性,并根據(jù)數(shù)據(jù)的時(shí)效性,以時(shí)間粒度為單位。對(duì)不同時(shí)間粒度的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析并存儲(chǔ)相應(yīng)的統(tǒng)計(jì)結(jié)果,目的是為了進(jìn)一步降低存儲(chǔ)空間。圖32數(shù)據(jù)時(shí)效性按照時(shí)間粒度選取值的大小可以將其分為粗時(shí)間粒度和細(xì)時(shí)間粒度。對(duì)于不同的應(yīng)用,時(shí)間粒度的劃分沒(méi)有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)。比如常見(jiàn)的劃分按秒、分鐘、小時(shí)、天、周、月、季度、年為單位。如圖3-2所示,根據(jù)用戶的興趣度,將產(chǎn)生的流數(shù)據(jù)劃分為當(dāng)前流數(shù)據(jù)、近期歷史數(shù)據(jù)和遠(yuǎn)期歷史數(shù)據(jù)。例如,在網(wǎng)絡(luò)流量監(jiān)控應(yīng)用中,用戶關(guān)心近期某天的流量變化情況時(shí)需要查詢?cè)敿?xì)的記錄;然而對(duì)于上一個(gè)季度、上一年或更遠(yuǎn)時(shí)間的數(shù)據(jù),用戶僅僅只需要這個(gè)時(shí)間段內(nèi)的平均流量、總流量等統(tǒng)計(jì)信息。在本系統(tǒng)中用戶會(huì)關(guān)心近期某天的監(jiān)測(cè)數(shù)據(jù)具體數(shù)值,但是對(duì)于上一季度、上一年或者更遠(yuǎn)時(shí)間的數(shù)據(jù),用戶只需要這段時(shí)間內(nèi)監(jiān)測(cè)數(shù)值的分布規(guī)律。由下表3-2可知,將原始數(shù)據(jù)轉(zhuǎn)化成統(tǒng)計(jì)數(shù)據(jù)之后,不同粒度下數(shù)據(jù)規(guī)??梢詨嚎s的程度。表3SEQ表\*ARABIC\s12壓縮程度表累計(jì)時(shí)間時(shí)間粒度記錄數(shù)范圍1H2s1800—4320012H20s4320—432001D30s28800—432002D60s21600—432005D200s12960—4320010D10m14400—4320020D30m14400—345601M1h10800—259203.3.3流數(shù)據(jù)過(guò)載問(wèn)題對(duì)于流數(shù)據(jù)管理系統(tǒng)來(lái)說(shuō),由于流數(shù)據(jù)本身具有速率多變且無(wú)法預(yù)知的特點(diǎn),如果數(shù)據(jù)輸入在短時(shí)間內(nèi)急劇增加達(dá)到一個(gè)高峰,就可能導(dǎo)致系統(tǒng)處理性能下降,處理時(shí)延增大,影響輸出結(jié)果的實(shí)時(shí)性,如果負(fù)載一直持續(xù)下去甚至?xí)谋MCPU、內(nèi)存等資源導(dǎo)致系統(tǒng)崩潰。本文中采用的是分布式流數(shù)據(jù)管理系統(tǒng),當(dāng)負(fù)載過(guò)高時(shí),首先將它作為一個(gè)分布式環(huán)境下的過(guò)載問(wèn)題,可以采用負(fù)載均衡技術(shù)將高負(fù)載節(jié)點(diǎn)的算子向低負(fù)載節(jié)點(diǎn)遷移,從而達(dá)到降低部分節(jié)點(diǎn)的負(fù)載的目的;此外還可以把它當(dāng)作流數(shù)據(jù)處理中的過(guò)載問(wèn)題可以采用降載技術(shù)來(lái)降低整個(gè)系統(tǒng)的負(fù)載。負(fù)載均衡技術(shù)主要是通過(guò)節(jié)點(diǎn)之間的算子調(diào)度來(lái)實(shí)現(xiàn),由于查詢算子在節(jié)點(diǎn)間的遷移會(huì)帶來(lái)較大的副作用,需要一定的時(shí)間和資源消耗,但是可以保證所有的數(shù)據(jù)都能得到處理。當(dāng)系統(tǒng)中所有的節(jié)點(diǎn)均過(guò)載時(shí),不存在進(jìn)行算子遷移的空間,此時(shí)負(fù)載均衡失效。降載技術(shù)降低負(fù)載的原理是按一定的比率拋棄尚未處理的數(shù)據(jù),調(diào)節(jié)速度快效果明顯,但是損失部分?jǐn)?shù)據(jù),對(duì)數(shù)據(jù)的準(zhǔn)確性造成負(fù)面影響。綜上所述,考慮可以將兩者結(jié)合起來(lái)可以形成一個(gè)完整的在分布式負(fù)載管理模型,能夠?qū)煞N負(fù)載管理技術(shù)的優(yōu)點(diǎn)結(jié)合起來(lái)。負(fù)載模型的設(shè)計(jì)與實(shí)現(xiàn)降載第四章中進(jìn)行詳細(xì)介紹。3.4本章小結(jié)本章首先介紹了海洋資源監(jiān)測(cè)網(wǎng)的研究背景,基于海底光電纜、主次接駁盒、各類水下傳感設(shè)備及岸站供電情況進(jìn)行全面監(jiān)測(cè)這一基本需求,描述了系統(tǒng)的功能模塊,并就應(yīng)用背景分析其數(shù)據(jù)特點(diǎn)和對(duì)系統(tǒng)的要求。由于監(jiān)控設(shè)備種硬件不同,決定了采集的數(shù)據(jù)格式、編碼都有所不同,因此海洋監(jiān)測(cè)流數(shù)據(jù)具有的多源、異構(gòu)特性。由于數(shù)據(jù)具有爆發(fā)性不穩(wěn)定性的特點(diǎn),因此在短時(shí)間內(nèi)輸入數(shù)據(jù)急劇增大時(shí),系統(tǒng)會(huì)面臨過(guò)載問(wèn)題。由于存在對(duì)歷史數(shù)據(jù)進(jìn)行分析的潛在需求,系統(tǒng)需要具備歷史信息回溯的能力,因此需要將流數(shù)據(jù)持久化至數(shù)據(jù)庫(kù)中。綜合以上分析,本章提出了有待解決的三個(gè)關(guān)鍵問(wèn)題是:流數(shù)據(jù)異構(gòu)、流數(shù)據(jù)過(guò)載、流數(shù)據(jù)需持久化,在詳細(xì)分析了三個(gè)問(wèn)題后,給出了基本的解決思路,在下一章中將給出具體的解決方案。4.海底觀測(cè)網(wǎng)架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)4.1海底觀測(cè)網(wǎng)總體結(jié)構(gòu)設(shè)計(jì)4.1.1設(shè)計(jì)目標(biāo)資源觀測(cè)網(wǎng)的整體架構(gòu)設(shè)計(jì)的目標(biāo)是,以流數(shù)據(jù)管理系統(tǒng)為核心,向下通過(guò)數(shù)據(jù)轉(zhuǎn)換方法解決數(shù)據(jù)多源異構(gòu)的問(wèn)題使得流數(shù)據(jù)管理系統(tǒng)能統(tǒng)一處理源自各地的數(shù)據(jù);向上流數(shù)據(jù)管理系統(tǒng)能給用戶提供實(shí)時(shí)的查詢結(jié)果,為系統(tǒng)提供決策支持;同級(jí)將流出的流數(shù)據(jù)持久化到數(shù)據(jù)庫(kù)中,作為歷史數(shù)據(jù)回溯來(lái)源。4.1.2系統(tǒng)分層結(jié)構(gòu)設(shè)計(jì)本海底觀測(cè)網(wǎng)故障診斷平臺(tái)從總體結(jié)構(gòu)來(lái)看從頂向下一共分為四層:應(yīng)用層、流數(shù)據(jù)處理層、數(shù)據(jù)預(yù)處理層、數(shù)據(jù)采集層。這四層中最核心的是流數(shù)據(jù)處理層與數(shù)據(jù)預(yù)處理層。系統(tǒng)整體結(jié)構(gòu)見(jiàn)REF_Ref386635000\h圖41系統(tǒng)整體架構(gòu)圖。圖4SEQ圖\*ARABIC\s11系統(tǒng)整體架構(gòu)圖下面對(duì)系統(tǒng)分層結(jié)構(gòu)做下簡(jiǎn)要介紹,系統(tǒng)一共分為四層:應(yīng)用層應(yīng)用層主要為具體各種實(shí)際功能,狀態(tài)監(jiān)控、故障策略、數(shù)據(jù)回溯等各種實(shí)時(shí)監(jiān)控與分析應(yīng)用提供豐富的交互式接口,根據(jù)用戶的需求提供包括獲取數(shù)據(jù)、注冊(cè)連續(xù)查詢、獲取流數(shù)據(jù)處理層的數(shù)據(jù)處理服務(wù)等。流數(shù)據(jù)處理層流數(shù)據(jù)處理層本文采用分布式流數(shù)據(jù)管理系統(tǒng)作為數(shù)據(jù)處理引擎,并采用一定的降載側(cè)路使得系統(tǒng)具有良好的自適應(yīng)性,它是整個(gè)系統(tǒng)的核心。向上,它為應(yīng)用層提供處理好的信息服務(wù);向下,接入預(yù)處理層,獲取應(yīng)用層所需的各種基礎(chǔ)數(shù)據(jù)。此外,對(duì)于流出數(shù)據(jù)處理引擎的數(shù)據(jù)不是直接丟棄,而是持久化到關(guān)系數(shù)據(jù)庫(kù)中作為歷史數(shù)據(jù)參考。設(shè)計(jì)良好,高效地的流數(shù)據(jù)管理系統(tǒng)至關(guān)重要,因?yàn)榱鲾?shù)據(jù)管理系統(tǒng)是整個(gè)系統(tǒng)的數(shù)據(jù)處理引擎,它的延遲、響應(yīng)時(shí)間、性能以及支持的各種處理操作直接影響到各種應(yīng)用的實(shí)時(shí)性以及服務(wù)質(zhì)量。數(shù)據(jù)預(yù)處理層數(shù)據(jù)預(yù)處理層的主要功能是對(duì)多源異構(gòu)的數(shù)據(jù)進(jìn)行預(yù)處理,將不同數(shù)據(jù)源的數(shù)據(jù)由對(duì)應(yīng)適配器處理成統(tǒng)一格式,便于流入流數(shù)據(jù)引擎之后的處理。數(shù)據(jù)采集層此層通過(guò)網(wǎng)絡(luò)傳輸接入三大平臺(tái)下分布在各處的設(shè)備采集的監(jiān)測(cè)數(shù)據(jù),為數(shù)據(jù)預(yù)處理層準(zhǔn)備數(shù)據(jù)。下文首先介紹流數(shù)據(jù)處理層與數(shù)據(jù)預(yù)處理層主要功能和結(jié)構(gòu),然后給出流數(shù)據(jù)異構(gòu)、流數(shù)據(jù)過(guò)載、流數(shù)據(jù)需持久化這三個(gè)關(guān)鍵問(wèn)題的解決方案,對(duì)于應(yīng)用層和數(shù)據(jù)采集層不在此贅述。4.2數(shù)據(jù)預(yù)處理層數(shù)據(jù)預(yù)處理層由適配器管理模塊和多種適配器構(gòu)成的,主要功能是解決流數(shù)據(jù)多源異構(gòu)問(wèn)題,其結(jié)構(gòu)如圖42所示。監(jiān)測(cè)數(shù)據(jù)流入預(yù)處理層后,適配器管理模塊根據(jù)數(shù)據(jù)類型指派對(duì)應(yīng)的適配器進(jìn)行轉(zhuǎn)換,轉(zhuǎn)換后的數(shù)據(jù)具有統(tǒng)一的編碼方式和類似的結(jié)構(gòu),能被流數(shù)據(jù)處理引擎識(shí)別。具體的數(shù)據(jù)轉(zhuǎn)換過(guò)程見(jiàn)4.4小節(jié)。圖42數(shù)據(jù)預(yù)處理層結(jié)構(gòu)圖4.3流數(shù)據(jù)處理層流數(shù)據(jù)處理層是整個(gè)系統(tǒng)的核心,本層主要分為流數(shù)據(jù)管理系統(tǒng)與流數(shù)據(jù)存儲(chǔ)模塊兩部分。流數(shù)據(jù)管理系統(tǒng)通過(guò)用戶注冊(cè)的連續(xù)查詢從這些流中實(shí)時(shí)獲取有用的信息和知識(shí),最后將查詢得到的結(jié)果輸出給相關(guān)應(yīng)用和模塊。流數(shù)據(jù)存儲(chǔ)模塊考慮到數(shù)據(jù)回溯的需求將處理完畢的流數(shù)據(jù)存儲(chǔ)到關(guān)系數(shù)據(jù)庫(kù)中,并通過(guò)基于時(shí)間粒度并采用以統(tǒng)計(jì)值信息替代原有詳細(xì)信息的這種二次存儲(chǔ)方式進(jìn)一步降低數(shù)據(jù)庫(kù)的存儲(chǔ)壓力。在流數(shù)據(jù)管理系統(tǒng)中最關(guān)鍵的部分是基于響應(yīng)時(shí)間的降載機(jī)制。由于應(yīng)用背景中存在爆發(fā)性數(shù)據(jù)的情況且應(yīng)用對(duì)系統(tǒng)的實(shí)時(shí)性有一定要求,系統(tǒng)必須能自適應(yīng)的應(yīng)對(duì)過(guò)載的情況,在系統(tǒng)正常運(yùn)轉(zhuǎn)的情況下盡可能的保證響應(yīng)時(shí)間?;陧憫?yīng)時(shí)間的降載機(jī)制是為了應(yīng)對(duì)本文需求而提出的最適合的降載方式。可以看出流數(shù)據(jù)處理層扮演者引擎的角色,它連續(xù)不斷的獲取數(shù)據(jù)并連續(xù)不斷的抽取有用信息給用戶,故本文將流數(shù)據(jù)管理系統(tǒng)稱之為流數(shù)據(jù)處理引擎。流數(shù)據(jù)存儲(chǔ)模塊主要實(shí)現(xiàn)流數(shù)據(jù)的首次存儲(chǔ)及二次存儲(chǔ)。首次存儲(chǔ)將流出引擎的數(shù)據(jù)緩沖到一個(gè)工作緩沖隊(duì)列中,當(dāng)隊(duì)列達(dá)到一定長(zhǎng)度時(shí)通過(guò)批處理的方式一次性把數(shù)據(jù)插入到關(guān)系數(shù)據(jù)庫(kù)中。二次存儲(chǔ)將時(shí)間久遠(yuǎn)的歷史數(shù)據(jù)根據(jù)不同時(shí)間粒度得出其統(tǒng)計(jì)值,并且不斷用粗粒度的數(shù)據(jù)代替細(xì)粒度的數(shù)據(jù),從而達(dá)到節(jié)省存儲(chǔ)空間的效果。4.3.1流數(shù)據(jù)處理引擎本文中采用第二章中介紹的Borealis這個(gè)開(kāi)源框架作為流數(shù)據(jù)處理引擎,在它的基礎(chǔ)之上加入了負(fù)載管理模塊來(lái)應(yīng)對(duì)降載問(wèn)題,負(fù)載管理模塊的設(shè)計(jì)和實(shí)現(xiàn)見(jiàn)4.5這一節(jié)。4.3.2流數(shù)據(jù)存儲(chǔ)模塊為了日后進(jìn)一步對(duì)數(shù)據(jù)的分析和挖掘,本文存儲(chǔ)模塊聯(lián)合傳統(tǒng)的數(shù)據(jù)庫(kù)實(shí)現(xiàn)對(duì)于流數(shù)據(jù)的存儲(chǔ)。存儲(chǔ)方式分為首次存儲(chǔ)和二次存儲(chǔ)。數(shù)據(jù)存儲(chǔ)模塊將流數(shù)據(jù)處理引擎流出的數(shù)據(jù)通過(guò)批處理的方式存儲(chǔ)到關(guān)系數(shù)據(jù)庫(kù)中,此為首次存儲(chǔ)。對(duì)于關(guān)系數(shù)據(jù)庫(kù)中的靜態(tài)數(shù)據(jù),通過(guò)一定的計(jì)算方式不斷用粗粒度的數(shù)據(jù)代替細(xì)粒度數(shù)據(jù)從而壓縮存儲(chǔ)空間,此為二次存儲(chǔ)。存儲(chǔ)模塊的具體實(shí)現(xiàn)方式見(jiàn)4.6小節(jié)。4.4流數(shù)據(jù)異構(gòu)問(wèn)題解決方案流數(shù)據(jù)異構(gòu)問(wèn)題的解決方案是通過(guò)適配器對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換,在預(yù)處理層中,每一類資源有一個(gè)XML配置文件,該配置文件指明了相應(yīng)的資產(chǎn)對(duì)象資源采集數(shù)據(jù)的信息。由于不同平臺(tái)資源的上報(bào)數(shù)據(jù)協(xié)議不一致,上傳的數(shù)據(jù)類型會(huì)有變化,相應(yīng)的配置信息也會(huì)有所區(qū)別。不同的資源采集數(shù)據(jù)需要不同的適配器及相應(yīng)配置文件,適配器通過(guò)讀取配置文件里的信息,將源數(shù)據(jù)轉(zhuǎn)化成具有相似格式的數(shù)據(jù),再傳遞給流數(shù)據(jù)處理層。4.4.1配置文件配置文件ConfigXml采用xml的格式作為載體,里面定義了資源類型、采集時(shí)間、信息版本等通用信息。此外針對(duì)不同的資源類型配置文件中還定義了資源特有信息,下面以電學(xué)平臺(tái)下的岸基電源為例來(lái)描述一下配置文件的具體內(nèi)容。將配置文件分為兩部分來(lái)介紹。配置文件第一部分如圖4-3所示,主要定義了數(shù)據(jù)源的基本信息,數(shù)據(jù)類型、接收地址、接收端口等等。<?xmlversion="1.0"encoding="UTF-8"?><DetailTaskOrigTaskID="1"> <ObjectInfo> <TaskTypeID>1</TaskTypeID><?xmlversion="1.0"encoding="UTF-8"?><DetailTaskOrigTaskID="1"> <ObjectInfo> <TaskTypeID>1</TaskTypeID>//任務(wù)類型,表明是哪類平臺(tái)數(shù)據(jù) <DistrictID></DistrictID> <SystemID></SystemID> </ObjectInfo> <TaskInfo> <DataRecieveID>1</DataRecieveID> <LocalHost>14</LocalHost> <SensorIDname="ShorePower">10001</SensorID>//具體數(shù)據(jù)類型 <SensorIDname="MainJunction">10000</SensorID> <SensorIDname="InferiorJunction">10003</SensorID> <SensorIDname="ShorePowerBoundary">10004</SensorID> <SensorIDname="MainJunctionBoundary">10005</SensorID> <SensorIDname="InferiorJunctionBoundary">10006</SensorID> </TaskInfo>配置文件第二部分如圖4-4所示,定義了被監(jiān)測(cè)資源的詳細(xì)信息,如輸入電壓(RealOutputV)、輸出電流(RealOutputV)、工作狀態(tài)(WorkingState)等等。<ObjectScanInfo><ObjectScanInfo><ObjectInfoTypetype="ShorePoewer"> <MessageBody> <Headoffset="0"size="1"type="A"></Head> <Modeloffset="1"size="1"type="A"></Model> <Timeoffset='2'size="14"type="A"></Time> <ShorePowerIDoffset="16"size="6"type="A"></ShorePowerID> <RealOutputVunits="KV"offset="22"size="3"type="A"></RealOutputV> <RealOutputIunits="A"offset="25"size="3"type="A"></RealOutputI> <DischargePowerunits="KW"offset="28"ze="3"type="A"></DischargePower> <Reservedoffset="31"size="2"type="A"></Reserved> <FaultFlagoffset="33"size="1"type="A"></FaultFlag> <PowerStateFlagoffset="34"size="1"type="A"></PowerStateFlag> <WorkingStateoffset="35"size="1"type="A"></WorkingState> <InputVunits="V"offset="36"size="3"type="A"></InputV> <InputIunits="A"offset="39"size="3"type="A"></InputI> <OutputVunits="V"offset="42"size="3"type="A"></OutputV> <OutputIunits="A"offset="45"size="3"type="A"></OutputI> <BatteryToUPSunits="V"offset="48"size="3"type="A"></BatteryToUPS> <CheckSuoffset="51"size="2"type="A"></CheckSum> <EndFlagoffset="53"size="2"type="A"></EndFlag> </MessageBody> </ObjectInfoType><ObjectScanInfo>圖44岸基電源配置文件第二部分4.4.2工作流程適配器工作的原理是讀取配置文件中得信息,按照其定義的模式解析源數(shù)據(jù)并重新組裝。為了提高效率,實(shí)際應(yīng)用中將配置文件的信息在系統(tǒng)啟動(dòng)時(shí)調(diào)入內(nèi)存常駐,適配器直接從內(nèi)存而不是文件中讀取配置信息。工作流程如下圖4-5所示:圖45適配器工作流程適配器在處理異構(gòu)數(shù)據(jù)的基本算法如下:輸入:各種異構(gòu)數(shù)據(jù)流數(shù)據(jù):統(tǒng)一格式的數(shù)據(jù)流算法處理過(guò)程:連接輸入流讀取數(shù)據(jù)源中一條元組適配器獲得配置信息通過(guò)配置信息里定義的輸入流的模式來(lái)解析該元組各個(gè)字段,重新組裝該元組寫入到流中斷開(kāi)連接4.5流數(shù)據(jù)過(guò)載問(wèn)題解決方案4.5.1負(fù)載管理模塊設(shè)計(jì)對(duì)于海底觀測(cè)網(wǎng)故障診斷平臺(tái)來(lái)說(shuō),準(zhǔn)確性和實(shí)時(shí)性是最重要的兩個(gè)性能指標(biāo)。在現(xiàn)實(shí)情況下,由于系統(tǒng)資源的有限,而數(shù)據(jù)的速率不可知,為了保證系統(tǒng)的自適應(yīng)性以及提供實(shí)時(shí)服務(wù)的質(zhì)量,系統(tǒng)過(guò)載的情況下需要采取一定措施來(lái)保證系統(tǒng)能繼續(xù)穩(wěn)定運(yùn)行。本文中通過(guò)一個(gè)負(fù)載管理模塊來(lái)解決系統(tǒng)過(guò)載問(wèn)題。本文提出的負(fù)載管理模塊是以中心節(jié)點(diǎn)為基礎(chǔ)的,負(fù)載管理模塊的結(jié)構(gòu)如下圖4-6所示。圖46負(fù)載管理模塊結(jié)構(gòu)中心節(jié)點(diǎn)的負(fù)載管理器是整個(gè)負(fù)載管理系統(tǒng)的核心,負(fù)責(zé)一切負(fù)載管理的決策,包括負(fù)載平衡、降載措施等。負(fù)載管理器通過(guò)負(fù)載監(jiān)測(cè)模塊收集其他處理節(jié)點(diǎn)的負(fù)載信息,并根據(jù)設(shè)置好的策略做出決策,然后通知處理節(jié)點(diǎn)執(zhí)行。負(fù)載信息由處理節(jié)點(diǎn)的狀態(tài)統(tǒng)計(jì)模塊通過(guò)網(wǎng)絡(luò)發(fā)送而來(lái)。處理節(jié)點(diǎn)的降載管理和負(fù)載平衡是負(fù)載管理的最終執(zhí)行模塊,他們接收中心節(jié)點(diǎn)發(fā)送過(guò)來(lái)的決策信息,然后對(duì)本地查詢處理器中運(yùn)行的查詢網(wǎng)絡(luò)做出調(diào)整:如果是負(fù)載平衡,則需要去活一些算子,或激活一些算子;如果是降載措施,則在某些算子前插入一些過(guò)濾器。負(fù)載監(jiān)測(cè)模塊我們將處理節(jié)點(diǎn)中的狀態(tài)統(tǒng)計(jì)和中心節(jié)點(diǎn)的負(fù)載監(jiān)測(cè)統(tǒng)一稱為負(fù)載監(jiān)測(cè)模塊。狀態(tài)統(tǒng)計(jì)模塊監(jiān)測(cè)單位時(shí)間內(nèi)節(jié)點(diǎn)每條輸入數(shù)據(jù)流的數(shù)據(jù)輸入量,計(jì)算每個(gè)查詢算子的負(fù)載以及該節(jié)點(diǎn)運(yùn)行的本地查詢網(wǎng)絡(luò)片段的負(fù)載;統(tǒng)計(jì)每個(gè)算子流入和流出的數(shù)據(jù)量,計(jì)算其選擇度;并周期性的將統(tǒng)計(jì)信息發(fā)送到中心節(jié)點(diǎn)。中心節(jié)點(diǎn)的負(fù)載監(jiān)測(cè)模塊負(fù)責(zé)收集所有處理節(jié)點(diǎn)發(fā)送過(guò)來(lái)的負(fù)載信息,并將該信息整理映射為系統(tǒng)需要的數(shù)據(jù),為負(fù)載決策做準(zhǔn)備。具體而言,該模塊需要提供如下功能:(1)單位時(shí)間內(nèi)輸入數(shù)據(jù)量(即數(shù)據(jù)流速率)監(jiān)測(cè);(2)查詢算子負(fù)載監(jiān)測(cè),本地連續(xù)查詢網(wǎng)絡(luò)片段負(fù)載監(jiān)測(cè);(3)算子選擇度統(tǒng)計(jì);(4)處理節(jié)點(diǎn)負(fù)載信息收集;(5)信息整理映射。中心節(jié)點(diǎn)的負(fù)載監(jiān)測(cè)模塊中還存有一些系統(tǒng)元數(shù)據(jù),這些元數(shù)據(jù)指明了分布式系統(tǒng)的資源信息,包括其每個(gè)節(jié)點(diǎn)的可用CPU資源以及可用網(wǎng)絡(luò)帶寬等。負(fù)載管理器通過(guò)這些元數(shù)據(jù)和監(jiān)測(cè)的負(fù)載信息來(lái)衡量網(wǎng)絡(luò)是否出現(xiàn)負(fù)載不平衡、是否過(guò)載。負(fù)載管理器負(fù)載管理器是負(fù)載管理系統(tǒng)的核心,把收集到的負(fù)載信息用一些負(fù)載模型進(jìn)行抽象,根據(jù)指定的策略做出負(fù)載決策。負(fù)載信息由負(fù)載監(jiān)測(cè)模塊進(jìn)行抽象映射后,送到管理中心。管理中心根據(jù)負(fù)載信息和元數(shù)據(jù)決定何時(shí)需要對(duì)系統(tǒng)負(fù)載做出調(diào)整。做出決定后,調(diào)用模型管理中的相關(guān)負(fù)載模型(如負(fù)載平衡模型、降載模型,具體見(jiàn)后文)進(jìn)行計(jì)算,然后把模型計(jì)算得到的結(jié)果轉(zhuǎn)化為對(duì)查詢網(wǎng)絡(luò)的調(diào)整,把相關(guān)信息發(fā)送到處理節(jié)點(diǎn)執(zhí)行決策,對(duì)整個(gè)系統(tǒng)的負(fù)載做出調(diào)整。負(fù)載平衡模塊負(fù)載平衡模塊主要用于執(zhí)行中心節(jié)點(diǎn)發(fā)送過(guò)來(lái)的平衡決策,他對(duì)本地查詢處理器中的查詢網(wǎng)絡(luò)做出調(diào)整,激活或去活某些算子,并把算子的輸入輸出數(shù)據(jù)流向做出一些調(diào)整。這些信息都由中心節(jié)點(diǎn)發(fā)送過(guò)來(lái),負(fù)載平衡模塊主要負(fù)責(zé)實(shí)現(xiàn)。這實(shí)質(zhì)上是利用了查詢網(wǎng)絡(luò)的模塊化設(shè)計(jì)對(duì)外提供的一些接口。負(fù)載平衡將負(fù)載在節(jié)點(diǎn)間均衡分配,目的是為了提高系統(tǒng)資源的利用率,增強(qiáng)系統(tǒng)的處理性能。具體而言,該模塊需要提供如下功能:(1)去活/激活某些算子;(2)調(diào)整算子數(shù)據(jù)流向。降載模塊降載管理模塊的主要任務(wù)是在本地查詢網(wǎng)絡(luò)中放置、停止一些過(guò)濾器,并負(fù)責(zé)對(duì)這些過(guò)濾器的管理。過(guò)濾器是對(duì)降載措施的一個(gè)抽象描述,他指出了什么時(shí)候,在查詢網(wǎng)絡(luò)的什么地方,通過(guò)某種策略丟棄多少元組才可以使系統(tǒng)負(fù)載處于正常狀態(tài)。具體而言,該模塊需要提供如下功能:(1)管理過(guò)濾器;(2)放置/停止過(guò)濾器,調(diào)整過(guò)濾器的過(guò)濾度。4.5.2負(fù)載管理模型的工作機(jī)制在本文設(shè)計(jì)的負(fù)載管理模型中,處理節(jié)點(diǎn)上的狀態(tài)統(tǒng)計(jì)模塊監(jiān)測(cè)節(jié)點(diǎn)的負(fù)載情況以及算子相關(guān)信息,并周期性的將統(tǒng)計(jì)信息發(fā)送到中心節(jié)點(diǎn),中心節(jié)點(diǎn)在接收統(tǒng)計(jì)信息后由負(fù)載管理器按照一定的處理模型判斷系統(tǒng)是否過(guò)載,如果過(guò)載需執(zhí)行負(fù)載均衡還是執(zhí)行降載。本文通過(guò)一個(gè)節(jié)點(diǎn)的CPU使用率來(lái)衡量它的負(fù)載程度,設(shè)定一個(gè)高負(fù)載閾值HL一個(gè)低負(fù)載閾值LL,如果一個(gè)節(jié)點(diǎn)的CPU使用率超過(guò)HL則將它劃入高負(fù)載區(qū),CPU使用率低于LL則將它劃入低負(fù)載區(qū),CPU使用率在這兩者之間則劃入中負(fù)載區(qū)。設(shè)系統(tǒng)中高負(fù)載區(qū)的節(jié)點(diǎn)總數(shù)為NH,低負(fù)載區(qū)的節(jié)點(diǎn)總數(shù)為NL,基于這個(gè)前提,中心節(jié)點(diǎn)通過(guò)圖4-7所示處理流程來(lái)判定采用哪種處理模型調(diào)整負(fù)載。圖47中心節(jié)點(diǎn)處理流程由圖4-7可知,只有當(dāng)系統(tǒng)中所有的節(jié)點(diǎn)均過(guò)載時(shí)才會(huì)采用降載方法,這樣能避免在還有可用資源時(shí)進(jìn)行降載帶來(lái)的損失。4.5.3負(fù)載均衡中心節(jié)點(diǎn)判定采用負(fù)載均衡模型后會(huì)將決策信息發(fā)往處理節(jié)點(diǎn),負(fù)載由高節(jié)點(diǎn)向低節(jié)點(diǎn)遷移。假定選中的一對(duì)節(jié)點(diǎn)為N1、N2,其負(fù)載值為L(zhǎng)1、L2,則需要轉(zhuǎn)移的負(fù)載為ΔL=(L1―L2)/2??梢?jiàn),算子選擇是一個(gè)NP問(wèn)題,本文采用貪婪算法求其近似最優(yōu)解:每次從N1中選出Value值最高的算子進(jìn)行遷移。由于被選中的兩個(gè)節(jié)點(diǎn)計(jì)算能力可能不相同,CPU主頻存在差異,ΔL對(duì)兩個(gè)節(jié)點(diǎn)的意義是不相同的。因此算子遷移以總負(fù)載不超過(guò)任一節(jié)點(diǎn)的ΔL為條件。4.5.4降載降載前必須解決三個(gè)問(wèn)題,降載時(shí)機(jī),降載位置和降載量,由前文已知降載時(shí)機(jī)是系統(tǒng)中所有節(jié)點(diǎn)均過(guò)載的情況,此時(shí)還有降載位置和降載量這兩個(gè)問(wèn)題需要解決,降載位置和降載量選擇的標(biāo)準(zhǔn)都是既能滿足降載的需要又要求元組的損失率最小,都是尋求最優(yōu)解的問(wèn)題。本文采用一種分布式降載策略,將降載問(wèn)題轉(zhuǎn)化成一個(gè)線性規(guī)劃問(wèn)題,約束條件每個(gè)節(jié)點(diǎn)的CPU負(fù)載程度均不超過(guò)最大承受能力,目標(biāo)函數(shù)是整個(gè)系統(tǒng)的吞吐率最大。通過(guò)對(duì)這個(gè)線性規(guī)劃問(wèn)題求解可以得到降載率和降載位置,此時(shí)技能滿足降載的要求又使得數(shù)據(jù)錯(cuò)失率最小。由于本文的應(yīng)用環(huán)境為海底觀測(cè)網(wǎng)故障診斷平臺(tái),用戶對(duì)于故障數(shù)據(jù)的關(guān)注度遠(yuǎn)遠(yuǎn)大于狀態(tài)數(shù)據(jù),考慮到這個(gè)特殊因素,在建立降載問(wèn)題模型的時(shí)候考慮給予故障數(shù)據(jù)更高的權(quán)值,此時(shí)降載模型里的目標(biāo)函數(shù)是整個(gè)系統(tǒng)的帶權(quán)吞吐率最大。這種降載方式可以將系統(tǒng)資源向更為重要的故障數(shù)據(jù)傾斜,在進(jìn)行降載時(shí)優(yōu)先對(duì)丟棄重要性較低的狀態(tài)數(shù)據(jù),可以減小重要數(shù)據(jù)的錯(cuò)失率。4.6流數(shù)據(jù)持久化解決方案數(shù)據(jù)存儲(chǔ)模塊將流數(shù)據(jù)處理引擎流出的數(shù)據(jù)通過(guò)一定的方式存儲(chǔ)到關(guān)系數(shù)據(jù)庫(kù)中,此為首次存儲(chǔ)。對(duì)于關(guān)系數(shù)據(jù)庫(kù)中的靜態(tài)數(shù)據(jù),通過(guò)一定的計(jì)算方式不斷用粗粒度的數(shù)據(jù)代替細(xì)粒度的數(shù)據(jù)從而壓縮存儲(chǔ)空間,此為二次存儲(chǔ),下面詳細(xì)介紹一下兩種存儲(chǔ)方式實(shí)現(xiàn)的機(jī)制。4.6.1首次存儲(chǔ)首次存儲(chǔ)的工作的基本思路是:一、數(shù)據(jù)流出流數(shù)據(jù)處理引擎后,通過(guò)數(shù)據(jù)處理算法(即采樣算法),根據(jù)不同粒度將符合某種條件的部分?jǐn)?shù)據(jù)緩沖到一個(gè)工作緩沖隊(duì)列中;二、當(dāng)工作緩沖隊(duì)列達(dá)到一定長(zhǎng)度時(shí),通過(guò)批處理方式一次性把數(shù)據(jù)插入到關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)中。采樣算法采用等距無(wú)偏采樣算法,為了使采樣比較靈活,設(shè)定一個(gè)采樣系數(shù)F,采樣距離distance為1/F。根據(jù)系統(tǒng)的負(fù)載程度,可以調(diào)整采樣系數(shù)F來(lái)適應(yīng)系統(tǒng)的負(fù)載。具體的采樣算法此處不再贅述。經(jīng)過(guò)采樣之后的數(shù)據(jù)流出流數(shù)據(jù)引擎時(shí),需要將數(shù)據(jù)記錄插入關(guān)系數(shù)據(jù)庫(kù)中。若采用一條一條插入數(shù)據(jù)庫(kù)的方式,不僅會(huì)造成數(shù)據(jù)庫(kù)性能下降而且消耗的時(shí)間巨大。實(shí)測(cè)表明,將一百條數(shù)據(jù)依次插入數(shù)據(jù)庫(kù)消耗的時(shí)間是通過(guò)批處理的方式消耗的時(shí)間的百倍。此外,流數(shù)據(jù)的到達(dá)速率和處理速度遠(yuǎn)大于數(shù)據(jù)記錄插入關(guān)系數(shù)據(jù)庫(kù)的速度。因此本文中運(yùn)用批處理方式,將經(jīng)過(guò)等距無(wú)偏采樣算法后流出流數(shù)據(jù)引擎的歷史數(shù)據(jù)暫時(shí)存儲(chǔ)在常駐于內(nèi)存的工作緩沖隊(duì)列中。當(dāng)工作緩沖隊(duì)列里的數(shù)據(jù)達(dá)到一定長(zhǎng)度時(shí),一次性地將緩沖在隊(duì)列中的數(shù)據(jù)以關(guān)系數(shù)據(jù)庫(kù)所允許的最大插入速度插入到關(guān)系數(shù)據(jù)庫(kù)中。4.6.2二次存儲(chǔ)數(shù)據(jù)量龐大的流數(shù)據(jù)經(jīng)過(guò)首次存儲(chǔ),使得僅存儲(chǔ)數(shù)據(jù)集樣本數(shù)據(jù)的關(guān)系數(shù)據(jù)庫(kù)的存儲(chǔ)空間壓力明顯減小。但是這種方法降低的存儲(chǔ)空間還是無(wú)法和動(dòng)態(tài)數(shù)據(jù)規(guī)模的增長(zhǎng)相比,且隨著時(shí)間的延續(xù),采樣后的數(shù)據(jù)也將呈現(xiàn)爆炸式增長(zhǎng),因此對(duì)于流數(shù)據(jù)的存儲(chǔ),關(guān)系數(shù)據(jù)庫(kù)的存儲(chǔ)能力還是有所不足,需要進(jìn)一步使用方法來(lái)降低數(shù)據(jù)庫(kù)的存儲(chǔ)壓力。基于時(shí)間粒度的二次存儲(chǔ)方法,其目的正是為了繼續(xù)減輕關(guān)系數(shù)據(jù)庫(kù)的存儲(chǔ)壓力。時(shí)間粒度的選取沒(méi)有一個(gè)固定的標(biāo)準(zhǔn),隨著應(yīng)用的不同時(shí)間粒度的選取也不同,本文中時(shí)間粒度的選取由細(xì)到粗分別是:小時(shí)、天、月、季度、年。在流數(shù)據(jù)應(yīng)用中,用戶或應(yīng)用程序?qū)α鲾?shù)據(jù)的興趣度由產(chǎn)生數(shù)據(jù)的時(shí)間戳決定,近期歷史數(shù)據(jù)的訪問(wèn)頻率總是遠(yuǎn)大于時(shí)間久遠(yuǎn)的歷史數(shù)據(jù)。對(duì)近期產(chǎn)生的歷史數(shù)據(jù)更關(guān)心其數(shù)據(jù)的詳細(xì)信息,相反,對(duì)于較久遠(yuǎn)的歷史數(shù)據(jù)一般會(huì)忽略其詳細(xì)信息而僅關(guān)心數(shù)據(jù)的某些統(tǒng)計(jì)值或者數(shù)據(jù)挖掘的結(jié)果。例如,在海洋監(jiān)測(cè)網(wǎng)中,用戶會(huì)關(guān)心近期某天岸基監(jiān)測(cè)站的輸入電壓、輸入電流、漏水監(jiān)測(cè)的變化情況和詳細(xì)記錄;然而,對(duì)于1年前或時(shí)間更為久遠(yuǎn)的數(shù)據(jù),用戶僅僅會(huì)關(guān)心輸入電壓在一定范圍內(nèi)分布的統(tǒng)計(jì)值。在這種情況下,數(shù)據(jù)庫(kù)僅需提供統(tǒng)計(jì)值信息,如果還通過(guò)存儲(chǔ)的原始記錄信息來(lái)計(jì)算不僅耗時(shí)過(guò)長(zhǎng)也會(huì)占據(jù)過(guò)多的存儲(chǔ)空間,造成嚴(yán)重的浪費(fèi)。常見(jiàn)的求統(tǒng)計(jì)值函數(shù)包括SUM、COUNT、MAX、MIN、AVERAGE。下面給出了聚集函數(shù)accumulate(x,y)的定義:QUOTEaccumulate(x,y)x=x+ysum或二次存儲(chǔ)的具體處理流程如下:輸入:時(shí)間粒度為n的數(shù)據(jù)記錄輸出:時(shí)間粒度為n+1的數(shù)據(jù)記錄If(到達(dá)n+1級(jí)數(shù)據(jù)更新點(diǎn)){對(duì)時(shí)間粒度為n級(jí)的數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行聚集查詢;將查詢結(jié)果存儲(chǔ)到n+l級(jí)的數(shù)據(jù)庫(kù)中;刪除時(shí)間粒度為n級(jí)數(shù)據(jù)庫(kù)中的經(jīng)過(guò)聚集查詢過(guò)的數(shù)據(jù)}以上處理流程關(guān)鍵的一點(diǎn)是,該處理算法執(zhí)行時(shí)間、各個(gè)時(shí)間粒度的數(shù)據(jù)保留時(shí)間及更新周期的問(wèn)題,本文中,數(shù)據(jù)更新周期為小時(shí),詳細(xì)歷史數(shù)據(jù)保存期為過(guò)去半年,每到月底清理一下數(shù)據(jù),條件的允許的話會(huì)將數(shù)據(jù)轉(zhuǎn)儲(chǔ)到備份數(shù)據(jù)庫(kù)中。4.7本章小結(jié)本章首先介紹了應(yīng)用系統(tǒng)的總體設(shè)計(jì)與分層結(jié)構(gòu),并詳細(xì)介紹了數(shù)據(jù)預(yù)處理層和流數(shù)據(jù)處理層。把流數(shù)據(jù)管理系統(tǒng)作為核心的基礎(chǔ)之上,本章針對(duì)流數(shù)據(jù)異構(gòu)、流數(shù)據(jù)過(guò)載、流數(shù)據(jù)需持久化三個(gè)關(guān)鍵問(wèn)題給出具體的解決方案,形成了一個(gè)適用于資源監(jiān)測(cè)網(wǎng)的總體實(shí)現(xiàn)方案。對(duì)于通過(guò)負(fù)載管理實(shí)現(xiàn)系統(tǒng)自適應(yīng)性這一重要內(nèi)容進(jìn)行了詳細(xì)介紹,對(duì)負(fù)載管理模塊的工作流程,降載策略制定的理由和工作原理給出了具體說(shuō)明。5.實(shí)驗(yàn)與分析5.1實(shí)驗(yàn)環(huán)境準(zhǔn)備本文在實(shí)驗(yàn)室局域網(wǎng)內(nèi)進(jìn)行試驗(yàn),采用一臺(tái)PC機(jī)作為中心節(jié)點(diǎn),三臺(tái)PC機(jī)作為處理節(jié)點(diǎn)來(lái)部署海底觀測(cè)網(wǎng)故障診斷平臺(tái)。通過(guò)分布在三臺(tái)電腦上電學(xué)平臺(tái)模擬程序、光學(xué)平臺(tái)模擬程序、傳感器模擬程序不斷向系統(tǒng)發(fā)送仿真數(shù)據(jù)。所有仿真數(shù)據(jù)均由仿真程序模擬現(xiàn)實(shí)采集數(shù)據(jù)生成。實(shí)驗(yàn)結(jié)果具有一定參考性。選取實(shí)驗(yàn)數(shù)據(jù)的標(biāo)準(zhǔn)是盡量模擬真實(shí)數(shù)據(jù),因此采用光學(xué)、電學(xué)、傳感器發(fā)送數(shù)據(jù)的模擬程序來(lái)模擬真實(shí)數(shù)據(jù)。5.2測(cè)試平臺(tái)與實(shí)驗(yàn)數(shù)據(jù)集5.2.1測(cè)試平臺(tái)本文參與測(cè)試PC的軟硬件環(huán)境如下:硬件環(huán)境:Cpu:IntelPentiumD2.2GHz;內(nèi)存:3GB;硬盤:160GBytes,7200rpm;操作系統(tǒng):MicrosoftWindows7運(yùn)行環(huán)境:實(shí)驗(yàn)系統(tǒng)以分布式的方式部署在局域網(wǎng)內(nèi),以一臺(tái)PC機(jī)作為中心節(jié)點(diǎn),光學(xué)、電學(xué)、傳感器三個(gè)數(shù)據(jù)發(fā)送模擬程序分別分布在三臺(tái)機(jī)器上,以設(shè)定的速度向?qū)嶒?yàn)系統(tǒng)發(fā)送采集數(shù)據(jù)。5.2.2實(shí)驗(yàn)數(shù)據(jù)集本文中通過(guò)三個(gè)仿真程序模擬三類流數(shù)據(jù),以電學(xué)仿真數(shù)據(jù)為例,其格式如所示,從左到右依次是工作狀態(tài)、濕度、漏水檢測(cè)1等屬性。以電學(xué)平臺(tái)下次接駁盒為例,具體數(shù)據(jù)格式格式如REF_Ref386564520\h圖51數(shù)據(jù)集部分截圖所示。圖5SEQ圖\*ARABIC\s11數(shù)據(jù)集部分截圖5.3實(shí)驗(yàn)結(jié)果分析在本實(shí)驗(yàn)系統(tǒng)中,系統(tǒng)的性能主要兩個(gè)因素影響:流數(shù)據(jù)速率和查詢計(jì)劃數(shù)量。由于查詢計(jì)劃是固定的因此本文的測(cè)試計(jì)劃主要圍繞流數(shù)據(jù)流速進(jìn)行,在流數(shù)據(jù)速率不同的情況下對(duì)觀察系統(tǒng)延時(shí)、CPU占用率、以及數(shù)據(jù)錯(cuò)失率,從而對(duì)系統(tǒng)的實(shí)時(shí)性、穩(wěn)定性、準(zhǔn)確性進(jìn)行評(píng)價(jià)。5.3.1實(shí)時(shí)性測(cè)試實(shí)際運(yùn)行環(huán)境中數(shù)據(jù)平均流速在50條/s左右,讓測(cè)試數(shù)據(jù)流速分布在100條/s到500條/s。在不同流速下觀察監(jiān)測(cè)系統(tǒng)的延時(shí),觀察它能否在高速流下維持穩(wěn)定工作。圖5-2系統(tǒng)理延時(shí)變化由上圖5-2可知,系統(tǒng)剛啟動(dòng)時(shí)延遲較大,隨著運(yùn)行的推移逐漸平穩(wěn),造成最初較大延時(shí)的原因時(shí)系統(tǒng)正在分配資源會(huì)消耗部分時(shí)間。系統(tǒng)可以在較高流速下維持穩(wěn)定工作。5.3.2穩(wěn)定性測(cè)試本實(shí)驗(yàn)中設(shè)定初始流速為50條/s,運(yùn)行一段時(shí)間后將流速提升至1000條/s,對(duì)比加入負(fù)載管理模塊前后的某一節(jié)點(diǎn)的CPU使用率,來(lái)驗(yàn)證負(fù)載管理模塊能否有效工作。圖5-3加入負(fù)載管理模塊前后CPU占用率對(duì)比由圖5-3可知,在未添加負(fù)載管理模塊前,系統(tǒng)在波峰流速到達(dá)時(shí)CPU資源很快被耗盡,無(wú)法正常工作;在添加負(fù)載管理模塊后,當(dāng)流速波峰到達(dá)時(shí),系統(tǒng)能維持穩(wěn)定工作。因此,負(fù)載管理模塊能有效應(yīng)對(duì)流速波峰導(dǎo)致的過(guò)載問(wèn)題。5.3.3準(zhǔn)確性測(cè)試本實(shí)驗(yàn)中設(shè)定初始流速為50條/s,運(yùn)行一段時(shí)間后將流速提升至500條/s,設(shè)定故障數(shù)據(jù)/狀態(tài)數(shù)據(jù)權(quán)值比分別為2、5、10,觀察在流速飆升至500條/s時(shí),故障數(shù)據(jù)和狀態(tài)數(shù)據(jù)的錯(cuò)失率并進(jìn)行對(duì)比。

表5-SEQ表\*ARABIC\s11不同權(quán)值比下錯(cuò)失率對(duì)比故障數(shù)據(jù)/狀態(tài)數(shù)據(jù)權(quán)值比2510平均數(shù)據(jù)錯(cuò)失率故障數(shù)據(jù)錯(cuò)失率0.0500狀態(tài)數(shù)據(jù)錯(cuò)失率0.230.305.4本章小結(jié)本章從實(shí)時(shí)性、穩(wěn)定性、準(zhǔn)確性三個(gè)方面進(jìn)行了測(cè)試,驗(yàn)證了本文解決方案的可行性。實(shí)驗(yàn)二和實(shí)驗(yàn)三驗(yàn)證了本文負(fù)載管理工作的有效性,證明它能在保證重要數(shù)據(jù)盡可能準(zhǔn)確的情況下更快的調(diào)整系統(tǒng)負(fù)載,使系統(tǒng)進(jìn)入穩(wěn)定狀態(tài)。6.總結(jié)及展望6.1論文工作總結(jié)流數(shù)據(jù)這種新型數(shù)據(jù)由于其本身的連續(xù)、無(wú)界、可變等特征對(duì)傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)提出了嚴(yán)峻挑戰(zhàn)。近些年來(lái),流數(shù)據(jù)處理技術(shù)已經(jīng)成為研究熱點(diǎn)。本文結(jié)合海底觀測(cè)網(wǎng)的研究背景,引入分布式流數(shù)據(jù)管理系統(tǒng)作為數(shù)據(jù)處理引擎,構(gòu)建了一個(gè)資源監(jiān)測(cè)網(wǎng)的整體架構(gòu),對(duì)流數(shù)據(jù)處理與應(yīng)用背景結(jié)合產(chǎn)生的流數(shù)據(jù)異構(gòu)、流數(shù)據(jù)降載、流數(shù)據(jù)需持久化這三個(gè)應(yīng)用問(wèn)題進(jìn)行分析和研究。針對(duì)流數(shù)據(jù)過(guò)載這個(gè)核心問(wèn)題,設(shè)計(jì)了一個(gè)負(fù)載管理模型結(jié)合負(fù)載均衡和降載技術(shù)來(lái)解決過(guò)載問(wèn)題,保證系統(tǒng)在在流速峰值到達(dá)時(shí)能繼續(xù)穩(wěn)定工作同時(shí)降低了直接降載對(duì)數(shù)據(jù)準(zhǔn)確性帶來(lái)的負(fù)面影響。針對(duì)流數(shù)據(jù)多源異構(gòu)的問(wèn)題,提出了通過(guò)適配器結(jié)合配置文件進(jìn)行轉(zhuǎn)換的方法,解決了對(duì)于分布在各地的異構(gòu)源數(shù)據(jù)統(tǒng)一處理的問(wèn)題。針對(duì)流數(shù)據(jù)需持久化問(wèn)題,本文采用兩次存儲(chǔ)的方法,首次存儲(chǔ)時(shí)通過(guò)批處理的方式將流數(shù)據(jù)持久化后到數(shù)據(jù)庫(kù)中,第二次存儲(chǔ)采取基于時(shí)間多粒度存儲(chǔ)的策略,極大的降低了歷史數(shù)據(jù)占用的存儲(chǔ)空間,同時(shí)相對(duì)完整的保持了數(shù)據(jù)的有效性。在降低存儲(chǔ)開(kāi)銷的同時(shí),還能對(duì)引擎處理后的數(shù)據(jù)進(jìn)行更大時(shí)間粒度的統(tǒng)計(jì)分析。6.2下一步工作本文對(duì)流數(shù)據(jù)處理方法在資源監(jiān)測(cè)網(wǎng)中的應(yīng)用做了一些研究,針對(duì)一些問(wèn)題提出了自己的解決思路和方法。由于時(shí)間和精力的有限,本文的研究還需要進(jìn)一步的完善,下一步的工作主要集中在以下幾個(gè)方面:降載策略的優(yōu)化。本文中降載策略在拋棄數(shù)據(jù)時(shí)采取隨機(jī)方法,雖然通過(guò)賦予重要數(shù)據(jù)更高的權(quán)值可以避免在降載時(shí)丟棄重要數(shù)據(jù),但只有重要數(shù)據(jù)和非重要數(shù)據(jù)權(quán)值相差很大時(shí)才具有理想效果,有一定的局限性。因此下一步研究基于語(yǔ)義的降載方法,進(jìn)一步降低降載對(duì)于數(shù)據(jù)準(zhǔn)確性帶來(lái)的負(fù)面影響。建立更加有效、通用的服務(wù)質(zhì)量控制機(jī)制。研究對(duì)各類數(shù)據(jù)流應(yīng)用進(jìn)行標(biāo)準(zhǔn)化監(jiān)測(cè),采用統(tǒng)一的模型衡量系統(tǒng)負(fù)載并做出管理決策的通用方法。參考文獻(xiàn)BabcockB,BabuS,DatarM,etal.Modelsandissuesindatastreamsystems:Proceedingsofthetwenty-firstACMSIGMOD-SIGACT-SIGARTsymposiumonPrinciplesofdatabasesystems,Madison,Wisconsin,2002[C].ACM.CranorC,JohnsonT,SpataschekO,etal.Gigascope:astreamdatabasefornetworkapplications:Proceedingsofthe2003ACMSIGMODinternationalconferenceonManagementofdata,SanDiego,California,2003[C].ACM.CarneyD,U,Ur,etal.Monitoringstreams:anewclassofdatamanagementapplications:Proceedingsofthe28thinternationalconferenceonVeryLargeDataBases,HongKong,China,2002[C].VLDBEndowment.D.J.Abadi,Y.Anmad,M.Balazinska,etal.TheDesignoftheBorealisStreamArasuA,BabcockB,BabuS,etal.STREAM:thestanfordstreamdatamanager(demonstrationdescription):Proceedingsofthe2003ACMSIGMODinternationalconferenceonManagementofdata,SanDiego,California,2003[C].ACM.ChandrasekaranS,CooperO,DeshpandeA,etal.TelegraphCQ:continuousdataflowprocessing:Proceedingsofthe2003ACMSIGMODinternationalconferenceonManagementofdata,2003[C].ACM.AbadiDJ,CarneyD,?etintemelU,etal.Aurora:anewmodelandarchitecturefordatastreammanagement[J].TheVLDBJournal—TheInternationalJournalonVeryLargeDataBases,2003,12(2):120-139. ChenJ,DeWittDJ,TianF,etal.NiagaraCQ:Ascalablecontinuousquerysystemforinternetdatabases:ACMSIGMODRecord,2000[C].ACM.ZhuY,ShashaD.Statstream:Statisticalmonitoringofthousandsofdatastreamsinrealtime:Proceedingsofthe28thinternationalconferenceonVeryLargeDataBases,2002[C].VLDBEndowment.S.Zdonik,M.Stonebraker,M.Cherniack,etal.TheAuroraandMedusaProjects,IEEEDataEngineeringBulletin,March2003,26(1):3~10.DaiB,HuangJ,YehM,etal.Clusteringondemandformultipledatastreams:DataMining,2004.ICDM'04.FourthIEEEInternationalConferenceon,2004[C].IEEE.MouratidisK,BakirasS,PapadiasD.Continuousmonitoringoftop-kqueriesoverslidingwindows:Proceedingsofthe2006ACMSIGMODinternationalconferenceonManagementofdata,2006[C].ACM.GuhaS,MishraN,MotwaniR,etal.Clusteringdatastreams:Foundationsofcomputerscience,2000.proceedings.41stannualsymposiumon,2000[C].IEEE.HultenG,SpencerL,DomingosP.Miningtime-changingdatastreams:ProceedingsoftheseventhACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining,2001[C].ACM.DomingosP,HultenG.Mininghigh-speeddatastreams:ProceedingsofthesixthACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining,2000[C].ACM.ZhouA,CaiZ,WeiL,etal.M-kernelmerging:Towardsdensityestimationoverdatastreams:DatabaseSystemsforAdvancedApplications,2003.(DASFAA2003).Proceedings.EighthInternationalConferenceon,2003[C].IEEE.CaiYD,ClutterD,PapeG,etal.MAIDS:Miningalarmingincidentsfromdatastreams:Proceedingsofthe2004ACMSIGMODinternationalconferenceonManagementofdata,2004[C].ACM.BifetA,HolmesG,KirkbyR,etal.Moa:Massiveonlineanalysis[J].TheJournalofMachineLearningResearch,2010,11:1601-1604.LinW,YangS,HongT.Memory-AwareMiningofIndirectAssociationsOverDataStreams[M]//UDENL,WANGLSL,HONGT,etal.The3rdInternationalWorkshoponIntelligentDataAnalysisandManagement.SpringerNetherlands,2013:15-25.李巖,王惠文,葉明.數(shù)據(jù)流分析與技術(shù)研究[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(15):8-11.ProcessingEng

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論