流數(shù)據(jù)處理技術(shù)在資源監(jiān)測(cè)網(wǎng)中的應(yīng)用

上傳人：r*** IP屬地：湖北上傳時(shí)間：2024-10-26 格式：DOCX 頁(yè)數(shù)：55 大小：357.66KB 積分：20 舉報(bào) 版權(quán)申訴

流數(shù)據(jù)處理技術(shù)在資源監(jiān)測(cè)網(wǎng)中的應(yīng)用_第2頁(yè)

流數(shù)據(jù)處理技術(shù)在資源監(jiān)測(cè)網(wǎng)中的應(yīng)用_第3頁(yè)

流數(shù)據(jù)處理技術(shù)在資源監(jiān)測(cè)網(wǎng)中的應(yīng)用_第4頁(yè)

流數(shù)據(jù)處理技術(shù)在資源監(jiān)測(cè)網(wǎng)中的應(yīng)用_第5頁(yè)

已閱讀5頁(yè)，還剩50頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

流數(shù)據(jù)處理技術(shù)在資源監(jiān)測(cè)網(wǎng)中的應(yīng)用摘要隨著大數(shù)據(jù)時(shí)代的到來(lái)，網(wǎng)絡(luò)流量急劇增加，對(duì)于網(wǎng)絡(luò)資源監(jiān)測(cè)技術(shù)的實(shí)時(shí)性提出了新的標(biāo)準(zhǔn)：在數(shù)據(jù)規(guī)模大且連續(xù)到達(dá)的情況下能及時(shí)響應(yīng)用戶的請(qǐng)求。傳統(tǒng)的網(wǎng)絡(luò)資源監(jiān)測(cè)中采用先存儲(chǔ)后分析的數(shù)據(jù)處理方式，資源消耗大且處理時(shí)間長(zhǎng)，在面對(duì)大量、高速數(shù)據(jù)時(shí)，不能滿足當(dāng)前應(yīng)用對(duì)處理能力和響應(yīng)時(shí)間的要求。流數(shù)據(jù)處理技術(shù)這種能直接在內(nèi)存中對(duì)大量的動(dòng)態(tài)數(shù)據(jù)進(jìn)行持續(xù)處理的技術(shù)能極大的縮短處理時(shí)間，很好的應(yīng)對(duì)這種大量、動(dòng)態(tài)數(shù)據(jù)對(duì)于實(shí)時(shí)性的要求，近些年來(lái)由于其廣泛的應(yīng)用前景得到了眾多研究和關(guān)注。本文首先分析了流數(shù)據(jù)目前的理論研究和技術(shù)現(xiàn)狀，結(jié)合海洋監(jiān)測(cè)的應(yīng)用背景，構(gòu)建了一個(gè)資源監(jiān)測(cè)網(wǎng)的整體框架，引入分布式流數(shù)據(jù)管理系統(tǒng)作為數(shù)據(jù)處理引擎以保證處理性能和響應(yīng)速度。此外，本文針對(duì)流數(shù)據(jù)處理引擎應(yīng)用在資源監(jiān)測(cè)網(wǎng)中產(chǎn)生的關(guān)鍵問(wèn)題進(jìn)行研究：數(shù)據(jù)流入引擎前的數(shù)據(jù)異構(gòu)問(wèn)題、引擎處理過(guò)程中的過(guò)載問(wèn)題、流出引擎后的流數(shù)據(jù)需持久化問(wèn)題。對(duì)于流數(shù)據(jù)異構(gòu)問(wèn)題，本文參考現(xiàn)有異構(gòu)數(shù)據(jù)轉(zhuǎn)換思路，結(jié)合流數(shù)據(jù)處理技術(shù)，建立多種適配器來(lái)將多源異構(gòu)數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一標(biāo)準(zhǔn)的格式，使得轉(zhuǎn)換后的結(jié)果能夠被流數(shù)據(jù)管理系統(tǒng)識(shí)別。對(duì)流速波動(dòng)引起的過(guò)載問(wèn)題，本文將負(fù)載均衡與降載技術(shù)結(jié)合起來(lái)，在保障系統(tǒng)的穩(wěn)定運(yùn)行同時(shí)降低了由于直接降載帶來(lái)的數(shù)據(jù)損失。對(duì)于流數(shù)據(jù)需持久化的問(wèn)題，本文提出了二次存儲(chǔ)的方式，首次存儲(chǔ)通過(guò)批處理的方式將動(dòng)態(tài)流數(shù)據(jù)持久化為數(shù)據(jù)庫(kù)中的靜態(tài)數(shù)據(jù)；二次存儲(chǔ)采用一種基于時(shí)間多粒度的存儲(chǔ)策略對(duì)于久遠(yuǎn)歷史數(shù)據(jù)進(jìn)行壓縮，降低數(shù)據(jù)庫(kù)的存儲(chǔ)壓力。本文的研究立足實(shí)際項(xiàng)目，應(yīng)用流數(shù)據(jù)處理技術(shù)來(lái)保證資源監(jiān)測(cè)網(wǎng)的實(shí)時(shí)性、穩(wěn)定性，并給出一個(gè)具有普適性的解決方案。關(guān)鍵詞：資源監(jiān)測(cè)網(wǎng)；流數(shù)據(jù)管理系統(tǒng)；負(fù)載管理；降載

ABSTRACTWiththearriveoftheageofbigdata，asharpincreaseinnetworktrafficproposesanewstandardfornetworkreal-timemonitoringtechnologythatwhendataarrivesinlarge-scalecontinuously,thesystemshouldresponsetouserrequeststimely.Whenthedatafromnetworkcomes，thetraditionalnetworkmonitoringtechnologysaveitindatabaseandthenextracteditfromthedatabaseforprocessing.Thismethodconsumessomanysystemresourcesandneedsuchalongtimeforanalysis,thatitcannotmeetthecurrentapplication’srequirementofprocessingpowerandreal-time.Streamdataprocessingtechnologycancontinuouslyprocessalotofdynamicdatainmemorydirectlywhichgreatlyreducetheprocessingtime.Therefore,itcanmeetthereal-timerequirementofthedynamicdatainlargescale.Inrecentyears,streamdataprocessingtechnologyhasarousednumerousstudiesandconcernduetoitswiderangeofapplications.Inthisthesis,weanalyzescurrentresearchandtechnologytheoryofdatastream,buildtheoverallframeworkofaresourcesmonitoringnetwork,whichadoptsdistributeddatastreammanagementsystemasthedataprocessingenginetoensuretheprocessingperformanceandresponsivenessofsystem.Inaddition,westudythekeyissuesfromtheapplicationofstreamdataprocessingengineinresourcesmonitoringnetwork:heterogeneousdatastream,datastreamoverload,streamdatapersistence.Abouttheproblemofheterogeneousdatastream,thisthesisreferstotheexistingheterogeneousdataconversionideasandcombinesitwithstreamdataprocessingtechnologytocreateavarietyofadapterswhichcanconvertmultipleheterogeneousdatasourcesintoaunifiedstandardformat,sothattheconvertedstreamdatacanbeidentifiedbydatastreammanagementsystem.Abouttheproblemofoverloadcausedbyflowratefluctuations,thethesiscombineloadbalancingandloadsheddingtechnologytoensurethestableoperationofsystemwhilereducingthelossofdataduetothedirectloadsheddingcaused.Aboutdatastreampersistenceproblem,thisthesisproposesamethodoftwicestorage,inthefirststorage,dynamicstreamdataisstoredintothedatabasebybatchprocessing;inthesecondarystorage,historydataiscompressedbyatime-basedmulti-granularitystoragestrategywhichcanreducestoragepressureofthedatabase.Thestudyofthisthesis,basedonanactualproject,appliesstreamingdataprocessingtechniquestoensurereal-timeandstabilityofresourcesmonitoringnetworkwhichproposesageneralsolutionandhasthereferencevalueKeywords:ResourcesMonitoringNetwork;DSMS;LoadManagement;Load-shedding目錄摘要 [31]，在在這種降載策略里對(duì)每個(gè)查詢?cè)O(shè)置對(duì)應(yīng)的QoS參數(shù)，以此來(lái)判斷是否需要降載，在確定需要降載后，通過(guò)降載載路標(biāo)(LSRM)確定卸載計(jì)劃，向查詢網(wǎng)絡(luò)中插入卸載操作符即將在算子完成卸載，理想的情況下丟棄的是那些對(duì)查詢結(jié)果QoS影響最小的元組。文獻(xiàn)將控制理論應(yīng)用在卸載控制中，在這個(gè)降載方案通過(guò)引入分布式模糊邏輯控制，將每個(gè)查詢操作符作為監(jiān)控對(duì)象，周期性監(jiān)測(cè)輸出結(jié)果的錯(cuò)失率，將錯(cuò)失率超過(guò)最大容忍值時(shí)進(jìn)行降載，這是處理具有高度動(dòng)態(tài)性數(shù)據(jù)的一種有效方法。這種將控制理論引入DSMS自適應(yīng)處理的方法是一種新的嘗試，但也存在有待改進(jìn)的地方。上述降載策略主要適用于集中式DSMS，并不能很好的解決DDSMS中的過(guò)載現(xiàn)象。文獻(xiàn)REF_Ref388266468\r\h[32]針對(duì)分布式數(shù)據(jù)流查詢處理中的降載技術(shù)提出了新的觀點(diǎn)，討論了一種綜合考慮所有節(jié)點(diǎn)資源約束以及節(jié)點(diǎn)間負(fù)載依賴性的降載策略，但沒(méi)有考慮網(wǎng)絡(luò)帶寬限制。2.4異構(gòu)數(shù)據(jù)轉(zhuǎn)換技術(shù)在資源監(jiān)測(cè)網(wǎng)中，通常處理需要不同數(shù)據(jù)源獲得的監(jiān)測(cè)數(shù)據(jù)，這些監(jiān)測(cè)數(shù)據(jù)由于被監(jiān)測(cè)的資源不同，在定義和格式上有較大差異甚至完全不同.以海洋觀測(cè)網(wǎng)為例，它需要監(jiān)測(cè)光學(xué)、電學(xué)、傳感器這三大平臺(tái)下數(shù)十種設(shè)備的運(yùn)行情況，這些設(shè)備尤其是不同平臺(tái)下的設(shè)備之間由于設(shè)備本身特性的關(guān)系，產(chǎn)生的監(jiān)測(cè)數(shù)據(jù)完全不同。譬如，電學(xué)平臺(tái)下的接駁盒需要監(jiān)測(cè)輸入電壓、漏水情況，光學(xué)平臺(tái)下的光學(xué)可能要監(jiān)測(cè)折射率、光功率，傳感器平臺(tái)下可能要監(jiān)測(cè)葉綠素傳感器、等等。這些數(shù)據(jù)之間基本沒(méi)有什么共同之處，因此，在集成處理這些流數(shù)據(jù)時(shí)，會(huì)面臨諸如無(wú)法統(tǒng)一處理、處理效率低下等問(wèn)題。對(duì)于流數(shù)據(jù)管理系統(tǒng)而言，在集成處理各種異構(gòu)的流數(shù)據(jù)源時(shí)，所遇到的最大的問(wèn)題是數(shù)據(jù)的格式以及類型的匹配問(wèn)題，所以在數(shù)據(jù)流如流數(shù)據(jù)管理系統(tǒng)時(shí)需要將各種數(shù)據(jù)源產(chǎn)生的數(shù)據(jù)通過(guò)一定的算法和技術(shù)轉(zhuǎn)換為流數(shù)據(jù)管理系統(tǒng)能夠識(shí)別的數(shù)據(jù)格式和類型。目前，解決異構(gòu)數(shù)據(jù)的數(shù)據(jù)類型、格式等方面的差異性問(wèn)題通常采用的是異構(gòu)數(shù)據(jù)轉(zhuǎn)換技術(shù)。常用的數(shù)據(jù)類型轉(zhuǎn)換方法有如下幾種：數(shù)據(jù)庫(kù)廠商提供的工具目前，數(shù)據(jù)庫(kù)都提供了中間件來(lái)應(yīng)用程序與本地或異地的同構(gòu)或異構(gòu)數(shù)據(jù)源的數(shù)據(jù)交換，但這些工具作用范圍有限，使用范圍往往僅限于自己的DBMS訪問(wèn)異構(gòu)數(shù)據(jù)庫(kù)，通用性較差?；贓AI的數(shù)據(jù)交換工具實(shí)現(xiàn)數(shù)據(jù)交換和整合在源數(shù)據(jù)庫(kù)與目標(biāo)庫(kù)之間編寫數(shù)據(jù)交換程序，數(shù)據(jù)交換工具通常具備這樣的功能:支持多種類型數(shù)據(jù)源的抽?。豪缈梢詮臄?shù)據(jù)庫(kù)、XML、外部文件、調(diào)用webservice等方式抽取數(shù)據(jù)：支持特定數(shù)據(jù)轉(zhuǎn)換規(guī)則：支持多種數(shù)據(jù)加載方式。XML技術(shù)XML(ExtensibleMarkupLanguage)即可擴(kuò)展標(biāo)記語(yǔ)言，它與HTML一樣，都是SGML(StandardGeneralizedMarkupLanguage)。XML是一種簡(jiǎn)單的數(shù)據(jù)存儲(chǔ)語(yǔ)言，具有純文本格式、結(jié)構(gòu)化描述等特點(diǎn)，簡(jiǎn)單易用。因此XML易于在任何應(yīng)用程序中讀寫數(shù)據(jù)，這使XML很快成為數(shù)據(jù)交換的一種公共語(yǔ)言。本文采用XML作為數(shù)據(jù)集成的標(biāo)準(zhǔn)，通過(guò)實(shí)現(xiàn)各種轉(zhuǎn)換組件將各類數(shù)據(jù)源進(jìn)行格式和數(shù)據(jù)類型的轉(zhuǎn)換后再讓它們進(jìn)入流數(shù)據(jù)管理系統(tǒng)，為基于流數(shù)據(jù)處理的各種功能提供了基石。2.5本章小結(jié)本章首先對(duì)流技術(shù)進(jìn)行概述，介紹了流數(shù)據(jù)的基本概念和模型，并將流數(shù)據(jù)的處理模型與傳統(tǒng)數(shù)據(jù)處理模型進(jìn)行對(duì)比，指出兩者具有本質(zhì)上的區(qū)別。然后對(duì)現(xiàn)有流數(shù)據(jù)管理系統(tǒng)，流數(shù)據(jù)負(fù)載管理技術(shù)，異構(gòu)數(shù)據(jù)轉(zhuǎn)換技術(shù)這三方面的技術(shù)現(xiàn)狀進(jìn)行較全面的分析，為下一章的研究工作奠定了理論基礎(chǔ)。海底觀測(cè)網(wǎng)中流數(shù)據(jù)處理問(wèn)題海底觀測(cè)網(wǎng)背景需求海洋監(jiān)測(cè)發(fā)布技術(shù)是海洋科學(xué)領(lǐng)域重要組成部分，在維護(hù)海洋權(quán)益、開(kāi)發(fā)海洋資源、預(yù)警海洋災(zāi)害、保護(hù)海洋環(huán)境、加強(qiáng)國(guó)防建設(shè)、謀求新的發(fā)展空間等方面都有著重大意義。海洋監(jiān)測(cè)技術(shù)發(fā)展水平也是衡量一個(gè)海洋強(qiáng)國(guó)的重要標(biāo)志，因此我國(guó)政府非常注重對(duì)海洋監(jiān)測(cè)技術(shù)的扶持，并將其列為國(guó)家863計(jì)劃的一個(gè)主題，在“九五”、“十五”期間持續(xù)加大對(duì)海洋監(jiān)測(cè)技術(shù)研究的投入力度，旨在加強(qiáng)海洋監(jiān)測(cè)高技術(shù)研究，提高對(duì)海洋環(huán)境的監(jiān)測(cè)和保護(hù)能力，并支持海洋資源開(kāi)發(fā)和海上國(guó)際建設(shè)。本論文的研究依托于863計(jì)劃海底觀測(cè)網(wǎng)試驗(yàn)系統(tǒng)項(xiàng)目的課題任務(wù)“觀測(cè)網(wǎng)絡(luò)故障診斷與遠(yuǎn)程維護(hù)系統(tǒng)（2012AA09A410）”，簡(jiǎn)稱海底觀測(cè)網(wǎng)故障診斷平臺(tái)，它接入光學(xué)、電學(xué)、傳感器三大平臺(tái)下物理設(shè)備采集的監(jiān)測(cè)數(shù)據(jù)來(lái)監(jiān)測(cè)設(shè)備的運(yùn)行情況，并在此基礎(chǔ)上進(jìn)行故障診斷。海底觀測(cè)網(wǎng)故障診斷平臺(tái)設(shè)備數(shù)量大、種類多，且主要儀器與設(shè)備均工作于海底環(huán)境，通過(guò)光電纜與海岸基站進(jìn)行電力和通信連接。由于海底工作環(huán)境復(fù)雜，傳輸光電鏈路長(zhǎng)，外力致?lián)p因素多，海底觀測(cè)網(wǎng)的故障模式和機(jī)理非常復(fù)雜，海底傳感、探測(cè)儀器及其他海底設(shè)備相對(duì)陸地更容易出現(xiàn)運(yùn)行故障，而且儀器與設(shè)備運(yùn)行維護(hù)難度大、成本高，故障修復(fù)困難，維修成本極為昂貴。針對(duì)該種情況，需要對(duì)海底觀測(cè)網(wǎng)絡(luò)水下個(gè)環(huán)節(jié)進(jìn)行監(jiān)測(cè)和故障診斷，監(jiān)視海底設(shè)備儀器運(yùn)行狀態(tài)，防止異常運(yùn)行狀態(tài)持續(xù)而導(dǎo)致嚴(yán)重故障發(fā)生，在故障不可避免地發(fā)生時(shí)，進(jìn)行一系列保護(hù)響應(yīng)機(jī)制，及時(shí)將故障情況通知相關(guān)人員來(lái)及時(shí)排除故障。從應(yīng)用背景來(lái)看，海洋監(jiān)測(cè)面積較大、范圍較廣，監(jiān)測(cè)數(shù)據(jù)具有快速、無(wú)限、連續(xù)、速率不斷變化、實(shí)時(shí)的特點(diǎn)，是典型的流數(shù)據(jù)。從數(shù)據(jù)內(nèi)容來(lái)看，它具有多源多格式、時(shí)間跨度大的特點(diǎn)，而基于互聯(lián)網(wǎng)或局域網(wǎng)對(duì)這些數(shù)據(jù)的訪問(wèn)又有速度、效率、可用性等方面的要求。綜上，該系統(tǒng)具有以下特點(diǎn)：第一，數(shù)據(jù)規(guī)模大，且持續(xù)不斷增長(zhǎng)；第二，數(shù)據(jù)具有顯著的大時(shí)間跨度、多源、多類型、海量、異構(gòu)特性；第三，系統(tǒng)的實(shí)時(shí)性和自適應(yīng)性求高。3.2海底觀測(cè)網(wǎng)功能概述由背景需求可知，本文中海洋監(jiān)測(cè)與故障診斷系統(tǒng)需要建立一套完整的設(shè)備監(jiān)控和故障診斷系統(tǒng)。該系統(tǒng)將接入光學(xué)監(jiān)測(cè)平臺(tái)、電學(xué)監(jiān)測(cè)平臺(tái)和傳感器監(jiān)測(cè)平臺(tái)，通過(guò)數(shù)據(jù)的實(shí)時(shí)采集和處理分析，對(duì)海底觀測(cè)網(wǎng)試驗(yàn)系統(tǒng)的海底光電纜、主次接駁盒、各類水下傳感設(shè)備及岸站供電情況進(jìn)行全面監(jiān)測(cè)，具備對(duì)水下設(shè)備運(yùn)行狀態(tài)、光電信號(hào)采集設(shè)備進(jìn)行故障檢測(cè)與診斷、異常信息告警、典型故障定位等功能，為提升海底觀測(cè)網(wǎng)絡(luò)的長(zhǎng)期可靠性提供支撐。系統(tǒng)主要功能有設(shè)備狀態(tài)展示、故障展示、故障決策與分析、數(shù)據(jù)回溯與分析。3.2.1設(shè)備狀態(tài)展示展示光學(xué)子系統(tǒng)、電學(xué)子系統(tǒng)及其它各種傳感器的基本位置信息和運(yùn)行狀態(tài)。具體功能點(diǎn)如下：展示光纜、岸基設(shè)備、主接駁盒、次接駁盒、各設(shè)備的物理拓?fù)湫畔⒓盎驹O(shè)備信息；能夠新增、修改或刪除設(shè)備，對(duì)設(shè)備的基本信息和位置信息進(jìn)行修改；顯示設(shè)備的最新?tīng)顟B(tài)，設(shè)備共有四種狀態(tài)：在線、正常、故障、離線。3.2.2故障展示展示設(shè)備的故障信息，根據(jù)故障類型（正常、一般故障和系統(tǒng)故障）對(duì)設(shè)備進(jìn)行不同顏色的故障標(biāo)識(shí)。具體功能點(diǎn)如下：在拓?fù)鋱D上能夠?qū)收显敿?xì)信息進(jìn)行查看，能夠檢索歷史故障信息；顯示設(shè)備的最新故障信息。3.2.3故障決策根據(jù)光學(xué)、電學(xué)和傳感器三大平臺(tái)提供的監(jiān)測(cè)指標(biāo)、分析規(guī)則和閾值對(duì)各設(shè)備的故障檢測(cè)規(guī)則進(jìn)行配置。具體功能點(diǎn)如下：針對(duì)不同的監(jiān)測(cè)設(shè)備，能夠增加或修改故障檢測(cè)規(guī)則，以方便后期進(jìn)行檢測(cè)設(shè)備的擴(kuò)展；配置故障處理策略，能夠?qū)⒐收闲畔⒁噪娮余]件和短信的方式發(fā)送給相應(yīng)的值班人員，實(shí)現(xiàn)無(wú)人值守功能。3.2.4數(shù)據(jù)回溯與分析回溯某段時(shí)間的歷史數(shù)據(jù)，基于狀態(tài)監(jiān)測(cè)數(shù)據(jù)和故障數(shù)據(jù)，實(shí)現(xiàn)歷史信息統(tǒng)計(jì)和數(shù)據(jù)分析功能。具體功能點(diǎn)如下：能夠以餅狀圖、柱狀圖、折線圖等多種方式對(duì)設(shè)備統(tǒng)計(jì)信息、歷史告警信息進(jìn)行展示，用戶可選擇的統(tǒng)計(jì)項(xiàng)目前考慮有：時(shí)間、設(shè)備、故障級(jí)別、電學(xué)設(shè)備（過(guò)壓、過(guò)流、溫度、漏水、接地等）；根據(jù)特定統(tǒng)計(jì)分析算法，能夠?qū)Ω鞣N故障數(shù)據(jù)進(jìn)行分析和科學(xué)研究。3.3關(guān)鍵問(wèn)題分析3.3.1流數(shù)據(jù)多源異構(gòu)問(wèn)題海底觀測(cè)網(wǎng)故障診斷平臺(tái)需要監(jiān)測(cè)采集的物理設(shè)備關(guān)系如圖3-1所示，監(jiān)測(cè)數(shù)據(jù)來(lái)源包括三大平臺(tái)，共分為五大類：岸基監(jiān)測(cè)站、岸基供電、主接駁盒、次接駁盒、傳感器。其中，光學(xué)平臺(tái)下的設(shè)備包括岸基監(jiān)測(cè)站，監(jiān)測(cè)光纖的工作狀態(tài)。電學(xué)平臺(tái)下的監(jiān)測(cè)設(shè)備包括：岸基供電站、主接駁盒和次接駁盒。圖3-1物理監(jiān)測(cè)設(shè)備關(guān)系圖由圖3-1可知監(jiān)測(cè)設(shè)備種類繁多，提供的數(shù)據(jù)類型和格式也相差較大。以電學(xué)平臺(tái)下的數(shù)據(jù)為例，具體的內(nèi)容見(jiàn)下REF_Ref386810095\h表31：表3SEQ表\*ARABIC\s11電學(xué)監(jiān)測(cè)數(shù)據(jù)內(nèi)容被監(jiān)測(cè)設(shè)備監(jiān)測(cè)模塊觀測(cè)量岸基供電站自動(dòng)轉(zhuǎn)換系統(tǒng)狀態(tài)UPS系統(tǒng)工作狀態(tài)、單個(gè)電池電壓、電池狀態(tài)、輸出電壓、輸出電流、輸出功率、輸出視在功率、輸出電壓負(fù)載、溫度主電源柜工作狀態(tài)、電壓、電流副電源柜工作狀態(tài)、電壓、電流主接駁盒整體工作狀態(tài)電源腔輸出電壓、輸出電流、4路溫度檢測(cè)控制腔輸入電壓、輸入電流、濕度、2路漏水檢測(cè)、4路溫度檢測(cè)下接次級(jí)接駁盒1是否使用、輸出電壓、輸出電流、接地電阻下接次級(jí)接駁盒2是否使用、輸出電壓、輸出電流、接地電阻下接次級(jí)接駁盒3是否使用、輸出電壓、輸出電流、接地電阻下接次級(jí)接駁盒4是否使用、輸出電壓、輸出電流、接地電阻次接駁盒整體是否使用電壓轉(zhuǎn)換腔濕度、2路漏水檢測(cè)、4路溫度檢測(cè)控制腔輸入電壓、輸入電流、濕度、2路漏水檢測(cè)、4路溫度檢測(cè)負(fù)載1（地球物理平臺(tái)）是否使用、輸出電壓、輸出電流、接地電阻負(fù)載（傳感器平臺(tái)）2是否使用、輸出電壓、輸出電流、接地電阻負(fù)載（傳感器平臺(tái)）3是否使用、輸出電壓、輸出電流、接地電阻負(fù)載（傳感器平臺(tái)）4是否使用、輸出電壓、輸出電流、接地電阻由REF_Ref386810677\h表31電學(xué)監(jiān)測(cè)數(shù)據(jù)內(nèi)容可知同一平臺(tái)下不同設(shè)備提供的監(jiān)測(cè)數(shù)據(jù)格式就有一定的差別，不同平臺(tái)之間的數(shù)據(jù)差異更明顯，不但數(shù)據(jù)結(jié)構(gòu)不一樣，連編碼都不同。總之,光學(xué)、電學(xué)、傳感器三大平臺(tái)由于其物理設(shè)備的差異性導(dǎo)致其下采集數(shù)據(jù)在編碼、內(nèi)容、格式上都有較大差異，這樣在流入系統(tǒng)時(shí)無(wú)法統(tǒng)一處理，增加系統(tǒng)的復(fù)雜度，降低通用性。因此在這些格式各異的數(shù)據(jù)流入流數(shù)據(jù)引擎之前，需要對(duì)它們進(jìn)行預(yù)處理。預(yù)處理時(shí)考慮通過(guò)適配器按照配置文件中定義的格式，將外界應(yīng)用領(lǐng)域中的各種數(shù)據(jù)源轉(zhuǎn)換成流數(shù)據(jù)管理系統(tǒng)能夠識(shí)別的流(Stream)。如果系統(tǒng)需要增加新的采集數(shù)據(jù)種類只需要增加對(duì)應(yīng)的輸入適配器和配置文件，其他地方無(wú)需改動(dòng)。由于數(shù)據(jù)源種類繁多，訪問(wèn)數(shù)據(jù)源的方法也多種多樣，因此，不可能構(gòu)建一個(gè)通用的適配器來(lái)處理任何類型的數(shù)據(jù)源，目前的解決方法只能是根據(jù)特定的數(shù)據(jù)源設(shè)計(jì)相應(yīng)的適配器。另外，從整個(gè)系統(tǒng)的層面來(lái)看，流數(shù)據(jù)管理系統(tǒng)的處理效率和實(shí)時(shí)性是非常重要的。如果流數(shù)據(jù)處理引擎無(wú)法實(shí)時(shí)處理完各個(gè)數(shù)據(jù)源不斷到來(lái)的數(shù)據(jù)，那么就只能堆積到各個(gè)適配器的緩沖區(qū)隊(duì)列中，隨著時(shí)間的推移和流數(shù)據(jù)速率變化的無(wú)常，這種趨勢(shì)變得更為嚴(yán)重，致使整個(gè)系統(tǒng)資源的耗盡以及系統(tǒng)癱瘓。因此，在流數(shù)據(jù)處理研究中，很多研究者提出了有關(guān)流數(shù)據(jù)負(fù)載管理的一些技術(shù)能夠較好的解決了此問(wèn)題。3.3.2流數(shù)據(jù)需持久化問(wèn)題流數(shù)據(jù)經(jīng)過(guò)流數(shù)據(jù)處理引擎處理過(guò)后無(wú)法再次被讀取，若想追溯歷史數(shù)據(jù)此時(shí)會(huì)用傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)數(shù)據(jù)。一般來(lái)說(shuō)，關(guān)系數(shù)據(jù)庫(kù)僅存儲(chǔ)用戶感興趣且重要的樣本數(shù)據(jù)或者統(tǒng)計(jì)數(shù)據(jù)，這使得數(shù)據(jù)所占用的存儲(chǔ)空間明顯減小。雖然大型關(guān)系型數(shù)據(jù)庫(kù)能夠存儲(chǔ)和管理海量數(shù)據(jù)，但是這種靜態(tài)數(shù)據(jù)規(guī)模的增長(zhǎng)遠(yuǎn)遠(yuǎn)不能夠與動(dòng)態(tài)數(shù)據(jù)規(guī)模的增長(zhǎng)相比擬，且隨著時(shí)間的延續(xù)累積的數(shù)據(jù)將呈爆炸式的增長(zhǎng)，因此同樣需要耗費(fèi)海量的存儲(chǔ)空間。暫時(shí)只考慮電學(xué)平臺(tái)中某個(gè)次接駁盒來(lái)進(jìn)行數(shù)據(jù)規(guī)模估計(jì)，原始監(jiān)測(cè)數(shù)據(jù)到達(dá)速率為每秒一條。一天下來(lái)累計(jì)的數(shù)據(jù)量為：30條/m*60m*24H=43200條/天。一個(gè)月累計(jì)的數(shù)據(jù)量為1296000條。這才僅僅是三個(gè)平臺(tái)下一個(gè)被監(jiān)控資源的數(shù)據(jù)量，若是所有的流數(shù)據(jù)累計(jì)起來(lái)數(shù)據(jù)規(guī)模在日積月累之下會(huì)達(dá)到怎樣的程度，可想而知。由于本文中存在對(duì)歷史數(shù)據(jù)回溯的需求，如何有效的存儲(chǔ)流數(shù)據(jù)，盡可能的減少數(shù)據(jù)庫(kù)資源的開(kāi)銷成為本文中值得研究的一個(gè)問(wèn)題。從REF_Ref386906310\h圖32中可以看出，流數(shù)據(jù)的應(yīng)用中，數(shù)據(jù)具有很強(qiáng)的時(shí)效性，隨著時(shí)間的延續(xù)，離當(dāng)前時(shí)間越遠(yuǎn)的數(shù)據(jù)，用戶的興趣度越低，而且對(duì)于遠(yuǎn)期的歷史數(shù)據(jù)或近期的歷史數(shù)據(jù)，用戶大部分只關(guān)心統(tǒng)計(jì)信息。因此，本文充分考慮了數(shù)據(jù)的時(shí)效性，并根據(jù)數(shù)據(jù)的時(shí)效性，以時(shí)間粒度為單位。對(duì)不同時(shí)間粒度的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析并存儲(chǔ)相應(yīng)的統(tǒng)計(jì)結(jié)果，目的是為了進(jìn)一步降低存儲(chǔ)空間。圖32數(shù)據(jù)時(shí)效性按照時(shí)間粒度選取值的大小可以將其分為粗時(shí)間粒度和細(xì)時(shí)間粒度。對(duì)于不同的應(yīng)用，時(shí)間粒度的劃分沒(méi)有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)。比如常見(jiàn)的劃分按秒、分鐘、小時(shí)、天、周、月、季度、年為單位。如圖3-2所示，根據(jù)用戶的興趣度，將產(chǎn)生的流數(shù)據(jù)劃分為當(dāng)前流數(shù)據(jù)、近期歷史數(shù)據(jù)和遠(yuǎn)期歷史數(shù)據(jù)。例如，在網(wǎng)絡(luò)流量監(jiān)控應(yīng)用中，用戶關(guān)心近期某天的流量變化情況時(shí)需要查詢?cè)敿?xì)的記錄；然而對(duì)于上一個(gè)季度、上一年或更遠(yuǎn)時(shí)間的數(shù)據(jù)，用戶僅僅只需要這個(gè)時(shí)間段內(nèi)的平均流量、總流量等統(tǒng)計(jì)信息。在本系統(tǒng)中用戶會(huì)關(guān)心近期某天的監(jiān)測(cè)數(shù)據(jù)具體數(shù)值，但是對(duì)于上一季度、上一年或者更遠(yuǎn)時(shí)間的數(shù)據(jù)，用戶只需要這段時(shí)間內(nèi)監(jiān)測(cè)數(shù)值的分布規(guī)律。由下表3-2可知，將原始數(shù)據(jù)轉(zhuǎn)化成統(tǒng)計(jì)數(shù)據(jù)之后，不同粒度下數(shù)據(jù)規(guī)?？梢詨嚎s的程度。表3SEQ表\*ARABIC\s12壓縮程度表累計(jì)時(shí)間時(shí)間粒度記錄數(shù)范圍1H2s1800—4320012H20s4320—432001D30s28800—432002D60s21600—432005D200s12960—4320010D10m14400—4320020D30m14400—345601M1h10800—259203.3.3流數(shù)據(jù)過(guò)載問(wèn)題對(duì)于流數(shù)據(jù)管理系統(tǒng)來(lái)說(shuō)，由于流數(shù)據(jù)本身具有速率多變且無(wú)法預(yù)知的特點(diǎn)，如果數(shù)據(jù)輸入在短時(shí)間內(nèi)急劇增加達(dá)到一個(gè)高峰，就可能導(dǎo)致系統(tǒng)處理性能下降，處理時(shí)延增大，影響輸出結(jié)果的實(shí)時(shí)性，如果負(fù)載一直持續(xù)下去甚至?xí)谋MCPU、內(nèi)存等資源導(dǎo)致系統(tǒng)崩潰。本文中采用的是分布式流數(shù)據(jù)管理系統(tǒng)，當(dāng)負(fù)載過(guò)高時(shí)，首先將它作為一個(gè)分布式環(huán)境下的過(guò)載問(wèn)題，可以采用負(fù)載均衡技術(shù)將高負(fù)載節(jié)點(diǎn)的算子向低負(fù)載節(jié)點(diǎn)遷移，從而達(dá)到降低部分節(jié)點(diǎn)的負(fù)載的目的；此外還可以把它當(dāng)作流數(shù)據(jù)處理中的過(guò)載問(wèn)題可以采用降載技術(shù)來(lái)降低整個(gè)系統(tǒng)的負(fù)載。負(fù)載均衡技術(shù)主要是通過(guò)節(jié)點(diǎn)之間的算子調(diào)度來(lái)實(shí)現(xiàn)，由于查詢算子在節(jié)點(diǎn)間的遷移會(huì)帶來(lái)較大的副作用，需要一定的時(shí)間和資源消耗，但是可以保證所有的數(shù)據(jù)都能得到處理。當(dāng)系統(tǒng)中所有的節(jié)點(diǎn)均過(guò)載時(shí)，不存在進(jìn)行算子遷移的空間，此時(shí)負(fù)載均衡失效。降載技術(shù)降低負(fù)載的原理是按一定的比率拋棄尚未處理的數(shù)據(jù)，調(diào)節(jié)速度快效果明顯，但是損失部分?jǐn)?shù)據(jù)，對(duì)數(shù)據(jù)的準(zhǔn)確性造成負(fù)面影響。綜上所述，考慮可以將兩者結(jié)合起來(lái)可以形成一個(gè)完整的在分布式負(fù)載管理模型，能夠?qū)煞N負(fù)載管理技術(shù)的優(yōu)點(diǎn)結(jié)合起來(lái)。負(fù)載模型的設(shè)計(jì)與實(shí)現(xiàn)降載第四章中進(jìn)行詳細(xì)介紹。3.4本章小結(jié)本章首先介紹了海洋資源監(jiān)測(cè)網(wǎng)的研究背景，基于海底光電纜、主次接駁盒、各類水下傳感設(shè)備及岸站供電情況進(jìn)行全面監(jiān)測(cè)這一基本需求，描述了系統(tǒng)的功能模塊，并就應(yīng)用背景分析其數(shù)據(jù)特點(diǎn)和對(duì)系統(tǒng)的要求。由于監(jiān)控設(shè)備種硬件不同，決定了采集的數(shù)據(jù)格式、編碼都有所不同，因此海洋監(jiān)測(cè)流數(shù)據(jù)具有的多源、異構(gòu)特性。由于數(shù)據(jù)具有爆發(fā)性不穩(wěn)定性的特點(diǎn)，因此在短時(shí)間內(nèi)輸入數(shù)據(jù)急劇增大時(shí)，系統(tǒng)會(huì)面臨過(guò)載問(wèn)題。由于存在對(duì)歷史數(shù)據(jù)進(jìn)行分析的潛在需求，系統(tǒng)需要具備歷史信息回溯的能力，因此需要將流數(shù)據(jù)持久化至數(shù)據(jù)庫(kù)中。綜合以上分析，本章提出了有待解決的三個(gè)關(guān)鍵問(wèn)題是：流數(shù)據(jù)異構(gòu)、流數(shù)據(jù)過(guò)載、流數(shù)據(jù)需持久化，在詳細(xì)分析了三個(gè)問(wèn)題后，給出了基本的解決思路，在下一章中將給出具體的解決方案。4.海底觀測(cè)網(wǎng)架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)4.1海底觀測(cè)網(wǎng)總體結(jié)構(gòu)設(shè)計(jì)4.1.1設(shè)計(jì)目標(biāo)資源觀測(cè)網(wǎng)的整體架構(gòu)設(shè)計(jì)的目標(biāo)是，以流數(shù)據(jù)管理系統(tǒng)為核心，向下通過(guò)數(shù)據(jù)轉(zhuǎn)換方法解決數(shù)據(jù)多源異構(gòu)的問(wèn)題使得流數(shù)據(jù)管理系統(tǒng)能統(tǒng)一處理源自各地的數(shù)據(jù)；向上流數(shù)據(jù)管理系統(tǒng)能給用戶提供實(shí)時(shí)的查詢結(jié)果，為系統(tǒng)提供決策支持；同級(jí)將流出的流數(shù)據(jù)持久化到數(shù)據(jù)庫(kù)中，作為歷史數(shù)據(jù)回溯來(lái)源。4.1.2系統(tǒng)分層結(jié)構(gòu)設(shè)計(jì)本海底觀測(cè)網(wǎng)故障診斷平臺(tái)從總體結(jié)構(gòu)來(lái)看從頂向下一共分為四層：應(yīng)用層、流數(shù)據(jù)處理層、數(shù)據(jù)預(yù)處理層、數(shù)據(jù)采集層。這四層中最核心的是流數(shù)據(jù)處理層與數(shù)據(jù)預(yù)處理層。系統(tǒng)整體結(jié)構(gòu)見(jiàn)REF_Ref386635000\h圖41系統(tǒng)整體架構(gòu)圖。圖4SEQ圖\*ARABIC\s11系統(tǒng)整體架構(gòu)圖下面對(duì)系統(tǒng)分層結(jié)構(gòu)做下簡(jiǎn)要介紹，系統(tǒng)一共分為四層：應(yīng)用層應(yīng)用層主要為具體各種實(shí)際功能，狀態(tài)監(jiān)控、故障策略、數(shù)據(jù)回溯等各種實(shí)時(shí)監(jiān)控與分析應(yīng)用提供豐富的交互式接口，根據(jù)用戶的需求提供包括獲取數(shù)據(jù)、注冊(cè)連續(xù)查詢、獲取流數(shù)據(jù)處理層的數(shù)據(jù)處理服務(wù)等。流數(shù)據(jù)處理層流數(shù)據(jù)處理層本文采用分布式流數(shù)據(jù)管理系統(tǒng)作為數(shù)據(jù)處理引擎，并采用一定的降載側(cè)路使得系統(tǒng)具有良好的自適應(yīng)性，它是整個(gè)系統(tǒng)的核心。向上，它為應(yīng)用層提供處理好的信息服務(wù)；向下，接入預(yù)處理層，獲取應(yīng)用層所需的各種基礎(chǔ)數(shù)據(jù)。此外，對(duì)于流出數(shù)據(jù)處理引擎的數(shù)據(jù)不是直接丟棄，而是持久化到關(guān)系數(shù)據(jù)庫(kù)中作為歷史數(shù)據(jù)參考。設(shè)計(jì)良好，高效地的流數(shù)據(jù)管理系統(tǒng)至關(guān)重要，因?yàn)榱鲾?shù)據(jù)管理系統(tǒng)是整個(gè)系統(tǒng)的數(shù)據(jù)處理引擎，它的延遲、響應(yīng)時(shí)間、性能以及支持的各種處理操作直接影響到各種應(yīng)用的實(shí)時(shí)性以及服務(wù)質(zhì)量。數(shù)據(jù)預(yù)處理層數(shù)據(jù)預(yù)處理層的主要功能是對(duì)多源異構(gòu)的數(shù)據(jù)進(jìn)行預(yù)處理，將不同數(shù)據(jù)源的數(shù)據(jù)由對(duì)應(yīng)適配器處理成統(tǒng)一格式，便于流入流數(shù)據(jù)引擎之后的處理。數(shù)據(jù)采集層此層通過(guò)網(wǎng)絡(luò)傳輸接入三大平臺(tái)下分布在各處的設(shè)備采集的監(jiān)測(cè)數(shù)據(jù)，為數(shù)據(jù)預(yù)處理層準(zhǔn)備數(shù)據(jù)。下文首先介紹流數(shù)據(jù)處理層與數(shù)據(jù)預(yù)處理層主要功能和結(jié)構(gòu)，然后給出流數(shù)據(jù)異構(gòu)、流數(shù)據(jù)過(guò)載、流數(shù)據(jù)需持久化這三個(gè)關(guān)鍵問(wèn)題的解決方案，對(duì)于應(yīng)用層和數(shù)據(jù)采集層不在此贅述。4.2數(shù)據(jù)預(yù)處理層數(shù)據(jù)預(yù)處理層由適配器管理模塊和多種適配器構(gòu)成的，主要功能是解決流數(shù)據(jù)多源異構(gòu)問(wèn)題，其結(jié)構(gòu)如圖42所示。監(jiān)測(cè)數(shù)據(jù)流入預(yù)處理層后，適配器管理模塊根據(jù)數(shù)據(jù)類型指派對(duì)應(yīng)的適配器進(jìn)行轉(zhuǎn)換，轉(zhuǎn)換后的數(shù)據(jù)具有統(tǒng)一的編碼方式和類似的結(jié)構(gòu)，能被流數(shù)據(jù)處理引擎識(shí)別。具體的數(shù)據(jù)轉(zhuǎn)換過(guò)程見(jiàn)4.4小節(jié)。圖42數(shù)據(jù)預(yù)處理層結(jié)構(gòu)圖4.3流數(shù)據(jù)處理層流數(shù)據(jù)處理層是整個(gè)系統(tǒng)的核心，本層主要分為流數(shù)據(jù)管理系統(tǒng)與流數(shù)據(jù)存儲(chǔ)模塊兩部分。流數(shù)據(jù)管理系統(tǒng)通過(guò)用戶注冊(cè)的連續(xù)查詢從這些流中實(shí)時(shí)獲取有用的信息和知識(shí)，最后將查詢得到的結(jié)果輸出給相關(guān)應(yīng)用和模塊。流數(shù)據(jù)存儲(chǔ)模塊考慮到數(shù)據(jù)回溯的需求將處理完畢的流數(shù)據(jù)存儲(chǔ)到關(guān)系數(shù)據(jù)庫(kù)中，并通過(guò)基于時(shí)間粒度并采用以統(tǒng)計(jì)值信息替代原有詳細(xì)信息的這種二次存儲(chǔ)方式進(jìn)一步降低數(shù)據(jù)庫(kù)的存儲(chǔ)壓力。在流數(shù)據(jù)管理系統(tǒng)中最關(guān)鍵的部分是基于響應(yīng)時(shí)間的降載機(jī)制。由于應(yīng)用背景中存在爆發(fā)性數(shù)據(jù)的情況且應(yīng)用對(duì)系統(tǒng)的實(shí)時(shí)性有一定要求，系統(tǒng)必須能自適應(yīng)的應(yīng)對(duì)過(guò)載的情況，在系統(tǒng)正常運(yùn)轉(zhuǎn)的情況下盡可能的保證響應(yīng)時(shí)間?；陧憫?yīng)時(shí)間的降載機(jī)制是為了應(yīng)對(duì)本文需求而提出的最適合的降載方式。可以看出流數(shù)據(jù)處理層扮演者引擎的角色，它連續(xù)不斷的獲取數(shù)據(jù)并連續(xù)不斷的抽取有用信息給用戶，故本文將流數(shù)據(jù)管理系統(tǒng)稱之為流數(shù)據(jù)處理引擎。流數(shù)據(jù)存儲(chǔ)模塊主要實(shí)現(xiàn)流數(shù)據(jù)的首次存儲(chǔ)及二次存儲(chǔ)。首次存儲(chǔ)將流出引擎的數(shù)據(jù)緩沖到一個(gè)工作緩沖隊(duì)列中，當(dāng)隊(duì)列達(dá)到一定長(zhǎng)度時(shí)通過(guò)批處理的方式一次性把數(shù)據(jù)插入到關(guān)系數(shù)據(jù)庫(kù)中。二次存儲(chǔ)將時(shí)間久遠(yuǎn)的歷史數(shù)據(jù)根據(jù)不同時(shí)間粒度得出其統(tǒng)計(jì)值，并且不斷用粗粒度的數(shù)據(jù)代替細(xì)粒度的數(shù)據(jù)，從而達(dá)到節(jié)省存儲(chǔ)空間的效果。4.3.1流數(shù)據(jù)處理引擎本文中采用第二章中介紹的Borealis這個(gè)開(kāi)源框架作為流數(shù)據(jù)處理引擎，在它的基礎(chǔ)之上加入了負(fù)載管理模塊來(lái)應(yīng)對(duì)降載問(wèn)題，負(fù)載管理模塊的設(shè)計(jì)和實(shí)現(xiàn)見(jiàn)4.5這一節(jié)。4.3.2流數(shù)據(jù)存儲(chǔ)模塊為了日后進(jìn)一步對(duì)數(shù)據(jù)的分析和挖掘，本文存儲(chǔ)模塊聯(lián)合傳統(tǒng)的數(shù)據(jù)庫(kù)實(shí)現(xiàn)對(duì)于流數(shù)據(jù)的存儲(chǔ)。存儲(chǔ)方式分為首次存儲(chǔ)和二次存儲(chǔ)。數(shù)據(jù)存儲(chǔ)模塊將流數(shù)據(jù)處理引擎流出的數(shù)據(jù)通過(guò)批處理的方式存儲(chǔ)到關(guān)系數(shù)據(jù)庫(kù)中，此為首次存儲(chǔ)。對(duì)于關(guān)系數(shù)據(jù)庫(kù)中的靜態(tài)數(shù)據(jù)，通過(guò)一定的計(jì)算方式不斷用粗粒度的數(shù)據(jù)代替細(xì)粒度數(shù)據(jù)從而壓縮存儲(chǔ)空間，此為二次存儲(chǔ)。存儲(chǔ)模塊的具體實(shí)現(xiàn)方式見(jiàn)4.6小節(jié)。4.4流數(shù)據(jù)異構(gòu)問(wèn)題解決方案流數(shù)據(jù)異構(gòu)問(wèn)題的解決方案是通過(guò)適配器對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換，在預(yù)處理層中，每一類資源有一個(gè)XML配置文件，該配置文件指明了相應(yīng)的資產(chǎn)對(duì)象資源采集數(shù)據(jù)的信息。由于不同平臺(tái)資源的上報(bào)數(shù)據(jù)協(xié)議不一致，上傳的數(shù)據(jù)類型會(huì)有變化，相應(yīng)的配置信息也會(huì)有所區(qū)別。不同的資源采集數(shù)據(jù)需要不同的適配器及相應(yīng)配置文件，適配器通過(guò)讀取配置文件里的信息，將源數(shù)據(jù)轉(zhuǎn)化成具有相似格式的數(shù)據(jù)，再傳遞給流數(shù)據(jù)處理層。4.4.1配置文件配置文件ConfigXml采用xml的格式作為載體，里面定義了資源類型、采集時(shí)間、信息版本等通用信息。此外針對(duì)不同的資源類型配置文件中還定義了資源特有信息，下面以電學(xué)平臺(tái)下的岸基電源為例來(lái)描述一下配置文件的具體內(nèi)容。將配置文件分為兩部分來(lái)介紹。配置文件第一部分如圖4-3所示，主要定義了數(shù)據(jù)源的基本信息，數(shù)據(jù)類型、接收地址、接收端口等等。<?xmlversion="1.0"encoding="UTF-8"?><DetailTaskOrigTaskID="1"> <ObjectInfo> <TaskTypeID>1</TaskTypeID><?xmlversion="1.0"encoding="UTF-8"?><DetailTaskOrigTaskID="1"> <ObjectInfo> <TaskTypeID>1</TaskTypeID>//任務(wù)類型，表明是哪類平臺(tái)數(shù)據(jù) <DistrictID></DistrictID> <SystemID></SystemID> </ObjectInfo> <TaskInfo> <DataRecieveID>1</DataRecieveID> <LocalHost>14</LocalHost> <SensorIDname="ShorePower">10001</SensorID>//具體數(shù)據(jù)類型 <SensorIDname="MainJunction">10000</SensorID> <SensorIDname="InferiorJunction">10003</SensorID> <SensorIDname="ShorePowerBoundary">10004</SensorID> <SensorIDname="MainJunctionBoundary">10005</SensorID> <SensorIDname="InferiorJunctionBoundary">10006</SensorID> </TaskInfo>配置文件第二部分如圖4-4所示，定義了被監(jiān)測(cè)資源的詳細(xì)信息，如輸入電壓（RealOutputV）、輸出電流（RealOutputV）、工作狀態(tài)（WorkingState）等等。<ObjectScanInfo><ObjectScanInfo><ObjectInfoTypetype="ShorePoewer"> <MessageBody> <Headoffset="0"size="1"type="A"></Head> <Modeloffset="1"size="1"type="A"></Model> <Timeoffset='2'size="14"type="A"></Time> <ShorePowerIDoffset="16"size="6"type="A"></ShorePowerID> <RealOutputVunits="KV"offset="22"size="3"type="A"></RealOutputV> <RealOutputIunits="A"offset="25"size="3"type="A"></RealOutputI> <DischargePowerunits="KW"offset="28"ze="3"type="A"></DischargePower> <Reservedoffset="31"size="2"type="A"></Reserved> <FaultFlagoffset="33"size="1"type="A"></FaultFlag> <PowerStateFlagoffset="34"size="1"type="A"></PowerStateFlag> <WorkingStateoffset="35"size="1"type="A"></WorkingState> <InputVunits="V"offset="36"size="3"type="A"></InputV> <InputIunits="A"offset="39"size="3"type="A"></InputI> <OutputVunits="V"offset="42"size="3"type="A"></OutputV> <OutputIunits="A"offset="45"size="3"type="A"></OutputI> <BatteryToUPSunits="V"offset="48"size="3"type="A"></BatteryToUPS> <CheckSuoffset="51"size="2"type="A"></CheckSum> <EndFlagoffset="53"size="2"type="A"></EndFlag> </MessageBody> </ObjectInfoType><ObjectScanInfo>圖44岸基電源配置文件第二部分4.4.2工作流程適配器工作的原理是讀取配置文件中得信息，按照其定義的模式解析源數(shù)據(jù)并重新組裝。為了提高效率，實(shí)際應(yīng)用中將配置文件的信息在系統(tǒng)啟動(dòng)時(shí)調(diào)入內(nèi)存常駐，適配器直接從內(nèi)存而不是文件中讀取配置信息。工作流程如下圖4-5所示：圖45適配器工作流程適配器在處理異構(gòu)數(shù)據(jù)的基本算法如下：輸入：各種異構(gòu)數(shù)據(jù)流數(shù)據(jù)：統(tǒng)一格式的數(shù)據(jù)流算法處理過(guò)程：連接輸入流讀取數(shù)據(jù)源中一條元組適配器獲得配置信息通過(guò)配置信息里定義的輸入流的模式來(lái)解析該元組各個(gè)字段，重新組裝該元組寫入到流中斷開(kāi)連接4.5流數(shù)據(jù)過(guò)載問(wèn)題解決方案4.5.1負(fù)載管理模塊設(shè)計(jì)對(duì)于海底觀測(cè)網(wǎng)故障診斷平臺(tái)來(lái)說(shuō)，準(zhǔn)確性和實(shí)時(shí)性是最重要的兩個(gè)性能指標(biāo)。在現(xiàn)實(shí)情況下，由于系統(tǒng)資源的有限，而數(shù)據(jù)的速率不可知，為了保證系統(tǒng)的自適應(yīng)性以及提供實(shí)時(shí)服務(wù)的質(zhì)量，系統(tǒng)過(guò)載的情況下需要采取一定措施來(lái)保證系統(tǒng)能繼續(xù)穩(wěn)定運(yùn)行。本文中通過(guò)一個(gè)負(fù)載管理模塊來(lái)解決系統(tǒng)過(guò)載問(wèn)題。本文提出的負(fù)載管理模塊是以中心節(jié)點(diǎn)為基礎(chǔ)的，負(fù)載管理模塊的結(jié)構(gòu)如下圖4-6所示。圖46負(fù)載管理模塊結(jié)構(gòu)中心節(jié)點(diǎn)的負(fù)載管理器是整個(gè)負(fù)載管理系統(tǒng)的核心，負(fù)責(zé)一切負(fù)載管理的決策，包括負(fù)載平衡、降載措施等。負(fù)載管理器通過(guò)負(fù)載監(jiān)測(cè)模塊收集其他處理節(jié)點(diǎn)的負(fù)載信息，并根據(jù)設(shè)置好的策略做出決策，然后通知處理節(jié)點(diǎn)執(zhí)行。負(fù)載信息由處理節(jié)點(diǎn)的狀態(tài)統(tǒng)計(jì)模塊通過(guò)網(wǎng)絡(luò)發(fā)送而來(lái)。處理節(jié)點(diǎn)的降載管理和負(fù)載平衡是負(fù)載管理的最終執(zhí)行模塊，他們接收中心節(jié)點(diǎn)發(fā)送過(guò)來(lái)的決策信息，然后對(duì)本地查詢處理器中運(yùn)行的查詢網(wǎng)絡(luò)做出調(diào)整：如果是負(fù)載平衡，則需要去活一些算子，或激活一些算子；如果是降載措施，則在某些算子前插入一些過(guò)濾器。負(fù)載監(jiān)測(cè)模塊我們將處理節(jié)點(diǎn)中的狀態(tài)統(tǒng)計(jì)和中心節(jié)點(diǎn)的負(fù)載監(jiān)測(cè)統(tǒng)一稱為負(fù)載監(jiān)測(cè)模塊。狀態(tài)統(tǒng)計(jì)模塊監(jiān)測(cè)單位時(shí)間內(nèi)節(jié)點(diǎn)每條輸入數(shù)據(jù)流的數(shù)據(jù)輸入量，計(jì)算每個(gè)查詢算子的負(fù)載以及該節(jié)點(diǎn)運(yùn)行的本地查詢網(wǎng)絡(luò)片段的負(fù)載；統(tǒng)計(jì)每個(gè)算子流入和流出的數(shù)據(jù)量，計(jì)算其選擇度；并周期性的將統(tǒng)計(jì)信息發(fā)送到中心節(jié)點(diǎn)。中心節(jié)點(diǎn)的負(fù)載監(jiān)測(cè)模塊負(fù)責(zé)收集所有處理節(jié)點(diǎn)發(fā)送過(guò)來(lái)的負(fù)載信息，并將該信息整理映射為系統(tǒng)需要的數(shù)據(jù)，為負(fù)載決策做準(zhǔn)備。具體而言，該模塊需要提供如下功能：（1）單位時(shí)間內(nèi)輸入數(shù)據(jù)量（即數(shù)據(jù)流速率）監(jiān)測(cè)；（2）查詢算子負(fù)載監(jiān)測(cè)，本地連續(xù)查詢網(wǎng)絡(luò)片段負(fù)載監(jiān)測(cè)；（3）算子選擇度統(tǒng)計(jì)；（4）處理節(jié)點(diǎn)負(fù)載信息收集；（5）信息整理映射。中心節(jié)點(diǎn)的負(fù)載監(jiān)測(cè)模塊中還存有一些系統(tǒng)元數(shù)據(jù)，這些元數(shù)據(jù)指明了分布式系統(tǒng)的資源信息，包括其每個(gè)節(jié)點(diǎn)的可用CPU資源以及可用網(wǎng)絡(luò)帶寬等。負(fù)載管理器通過(guò)這些元數(shù)據(jù)和監(jiān)測(cè)的負(fù)載信息來(lái)衡量網(wǎng)絡(luò)是否出現(xiàn)負(fù)載不平衡、是否過(guò)載。負(fù)載管理器負(fù)載管理器是負(fù)載管理系統(tǒng)的核心，把收集到的負(fù)載信息用一些負(fù)載模型進(jìn)行抽象，根據(jù)指定的策略做出負(fù)載決策。負(fù)載信息由負(fù)載監(jiān)測(cè)模塊進(jìn)行抽象映射后，送到管理中心。管理中心根據(jù)負(fù)載信息和元數(shù)據(jù)決定何時(shí)需要對(duì)系統(tǒng)負(fù)載做出調(diào)整。做出決定后，調(diào)用模型管理中的相關(guān)負(fù)載模型（如負(fù)載平衡模型、降載模型，具體見(jiàn)后文）進(jìn)行計(jì)算，然后把模型計(jì)算得到的結(jié)果轉(zhuǎn)化為對(duì)查詢網(wǎng)絡(luò)的調(diào)整，把相關(guān)信息發(fā)送到處理節(jié)點(diǎn)執(zhí)行決策，對(duì)整個(gè)系統(tǒng)的負(fù)載做出調(diào)整。負(fù)載平衡模塊負(fù)載平衡模塊主要用于執(zhí)行中心節(jié)點(diǎn)發(fā)送過(guò)來(lái)的平衡決策，他對(duì)本地查詢處理器中的查詢網(wǎng)絡(luò)做出調(diào)整，激活或去活某些算子，并把算子的輸入輸出數(shù)據(jù)流向做出一些調(diào)整。這些信息都由中心節(jié)點(diǎn)發(fā)送過(guò)來(lái)，負(fù)載平衡模塊主要負(fù)責(zé)實(shí)現(xiàn)。這實(shí)質(zhì)上是利用了查詢網(wǎng)絡(luò)的模塊化設(shè)計(jì)對(duì)外提供的一些接口。負(fù)載平衡將負(fù)載在節(jié)點(diǎn)間均衡分配，目的是為了提高系統(tǒng)資源的利用率，增強(qiáng)系統(tǒng)的處理性能。具體而言，該模塊需要提供如下功能：（1）去活/激活某些算子；（2）調(diào)整算子數(shù)據(jù)流向。降載模塊降載管理模塊的主要任務(wù)是在本地查詢網(wǎng)絡(luò)中放置、停止一些過(guò)濾器，并負(fù)責(zé)對(duì)這些過(guò)濾器的管理。過(guò)濾器是對(duì)降載措施的一個(gè)抽象描述，他指出了什么時(shí)候，在查詢網(wǎng)絡(luò)的什么地方，通過(guò)某種策略丟棄多少元組才可以使系統(tǒng)負(fù)載處于正常狀態(tài)。具體而言，該模塊需要提供如下功能：（1）管理過(guò)濾器；（2）放置/停止過(guò)濾器，調(diào)整過(guò)濾器的過(guò)濾度。4.5.2負(fù)載管理模型的工作機(jī)制在本文設(shè)計(jì)的負(fù)載管理模型中，處理節(jié)點(diǎn)上的狀態(tài)統(tǒng)計(jì)模塊監(jiān)測(cè)節(jié)點(diǎn)的負(fù)載情況以及算子相關(guān)信息，并周期性的將統(tǒng)計(jì)信息發(fā)送到中心節(jié)點(diǎn)，中心節(jié)點(diǎn)在接收統(tǒng)計(jì)信息后由負(fù)載管理器按照一定的處理模型判斷系統(tǒng)是否過(guò)載，如果過(guò)載需執(zhí)行負(fù)載均衡還是執(zhí)行降載。本文通過(guò)一個(gè)節(jié)點(diǎn)的CPU使用率來(lái)衡量它的負(fù)載程度，設(shè)定一個(gè)高負(fù)載閾值HL一個(gè)低負(fù)載閾值LL，如果一個(gè)節(jié)點(diǎn)的CPU使用率超過(guò)HL則將它劃入高負(fù)載區(qū)，CPU使用率低于LL則將它劃入低負(fù)載區(qū)，CPU使用率在這兩者之間則劃入中負(fù)載區(qū)。設(shè)系統(tǒng)中高負(fù)載區(qū)的節(jié)點(diǎn)總數(shù)為NH，低負(fù)載區(qū)的節(jié)點(diǎn)總數(shù)為NL，基于這個(gè)前提，中心節(jié)點(diǎn)通過(guò)圖4-7所示處理流程來(lái)判定采用哪種處理模型調(diào)整負(fù)載。圖47中心節(jié)點(diǎn)處理流程由圖4-7可知，只有當(dāng)系統(tǒng)中所有的節(jié)點(diǎn)均過(guò)載時(shí)才會(huì)采用降載方法，這樣能避免在還有可用資源時(shí)進(jìn)行降載帶來(lái)的損失。4.5.3負(fù)載均衡中心節(jié)點(diǎn)判定采用負(fù)載均衡模型后會(huì)將決策信息發(fā)往處理節(jié)點(diǎn)，負(fù)載由高節(jié)點(diǎn)向低節(jié)點(diǎn)遷移。假定選中的一對(duì)節(jié)點(diǎn)為N1、N2，其負(fù)載值為L(zhǎng)1、L2，則需要轉(zhuǎn)移的負(fù)載為ΔL=(L1―L2)/2?？梢?jiàn)，算子選擇是一個(gè)NP問(wèn)題，本文采用貪婪算法求其近似最優(yōu)解：每次從N1中選出Value值最高的算子進(jìn)行遷移。由于被選中的兩個(gè)節(jié)點(diǎn)計(jì)算能力可能不相同，CPU主頻存在差異，ΔL對(duì)兩個(gè)節(jié)點(diǎn)的意義是不相同的。因此算子遷移以總負(fù)載不超過(guò)任一節(jié)點(diǎn)的ΔL為條件。4.5.4降載降載前必須解決三個(gè)問(wèn)題，降載時(shí)機(jī)，降載位置和降載量，由前文已知降載時(shí)機(jī)是系統(tǒng)中所有節(jié)點(diǎn)均過(guò)載的情況，此時(shí)還有降載位置和降載量這兩個(gè)問(wèn)題需要解決，降載位置和降載量選擇的標(biāo)準(zhǔn)都是既能滿足降載的需要又要求元組的損失率最小，都是尋求最優(yōu)解的問(wèn)題。本文采用一種分布式降載策略，將降載問(wèn)題轉(zhuǎn)化成一個(gè)線性規(guī)劃問(wèn)題，約束條件每個(gè)節(jié)點(diǎn)的CPU負(fù)載程度均不超過(guò)最大承受能力，目標(biāo)函數(shù)是整個(gè)系統(tǒng)的吞吐率最大。通過(guò)對(duì)這個(gè)線性規(guī)劃問(wèn)題求解可以得到降載率和降載位置，此時(shí)技能滿足降載的要求又使得數(shù)據(jù)錯(cuò)失率最小。由于本文的應(yīng)用環(huán)境為海底觀測(cè)網(wǎng)故障診斷平臺(tái)，用戶對(duì)于故障數(shù)據(jù)的關(guān)注度遠(yuǎn)遠(yuǎn)大于狀態(tài)數(shù)據(jù)，考慮到這個(gè)特殊因素，在建立降載問(wèn)題模型的時(shí)候考慮給予故障數(shù)據(jù)更高的權(quán)值，此時(shí)降載模型里的目標(biāo)函數(shù)是整個(gè)系統(tǒng)的帶權(quán)吞吐率最大。這種降載方式可以將系統(tǒng)資源向更為重要的故障數(shù)據(jù)傾斜，在進(jìn)行降載時(shí)優(yōu)先對(duì)丟棄重要性較低的狀態(tài)數(shù)據(jù)，可以減小重要數(shù)據(jù)的錯(cuò)失率。4.6流數(shù)據(jù)持久化解決方案數(shù)據(jù)存儲(chǔ)模塊將流數(shù)據(jù)處理引擎流出的數(shù)據(jù)通過(guò)一定的方式存儲(chǔ)到關(guān)系數(shù)據(jù)庫(kù)中，此為首次存儲(chǔ)。對(duì)于關(guān)系數(shù)據(jù)庫(kù)中的靜態(tài)數(shù)據(jù)，通過(guò)一定的計(jì)算方式不斷用粗粒度的數(shù)據(jù)代替細(xì)粒度的數(shù)據(jù)從而壓縮存儲(chǔ)空間，此為二次存儲(chǔ)，下面詳細(xì)介紹一下兩種存儲(chǔ)方式實(shí)現(xiàn)的機(jī)制。4.6.1首次存儲(chǔ)首次存儲(chǔ)的工作的基本思路是：一、數(shù)據(jù)流出流數(shù)據(jù)處理引擎后，通過(guò)數(shù)據(jù)處理算法(即采樣算法)，根據(jù)不同粒度將符合某種條件的部分?jǐn)?shù)據(jù)緩沖到一個(gè)工作緩沖隊(duì)列中；二、當(dāng)工作緩沖隊(duì)列達(dá)到一定長(zhǎng)度時(shí)，通過(guò)批處理方式一次性把數(shù)據(jù)插入到關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)中。采樣算法采用等距無(wú)偏采樣算法，為了使采樣比較靈活，設(shè)定一個(gè)采樣系數(shù)F，采樣距離distance為1/F。根據(jù)系統(tǒng)的負(fù)載程度，可以調(diào)整采樣系數(shù)F來(lái)適應(yīng)系統(tǒng)的負(fù)載。具體的采樣算法此處不再贅述。經(jīng)過(guò)采樣之后的數(shù)據(jù)流出流數(shù)據(jù)引擎時(shí)，需要將數(shù)據(jù)記錄插入關(guān)系數(shù)據(jù)庫(kù)中。若采用一條一條插入數(shù)據(jù)庫(kù)的方式，不僅會(huì)造成數(shù)據(jù)庫(kù)性能下降而且消耗的時(shí)間巨大。實(shí)測(cè)表明，將一百條數(shù)據(jù)依次插入數(shù)據(jù)庫(kù)消耗的時(shí)間是通過(guò)批處理的方式消耗的時(shí)間的百倍。此外，流數(shù)據(jù)的到達(dá)速率和處理速度遠(yuǎn)大于數(shù)據(jù)記錄插入關(guān)系數(shù)據(jù)庫(kù)的速度。因此本文中運(yùn)用批處理方式，將經(jīng)過(guò)等距無(wú)偏采樣算法后流出流數(shù)據(jù)引擎的歷史數(shù)據(jù)暫時(shí)存儲(chǔ)在常駐于內(nèi)存的工作緩沖隊(duì)列中。當(dāng)工作緩沖隊(duì)列里的數(shù)據(jù)達(dá)到一定長(zhǎng)度時(shí)，一次性地將緩沖在隊(duì)列中的數(shù)據(jù)以關(guān)系數(shù)據(jù)庫(kù)所允許的最大插入速度插入到關(guān)系數(shù)據(jù)庫(kù)中。4.6.2二次存儲(chǔ)數(shù)據(jù)量龐大的流數(shù)據(jù)經(jīng)過(guò)首次存儲(chǔ)，使得僅存儲(chǔ)數(shù)據(jù)集樣本數(shù)據(jù)的關(guān)系數(shù)據(jù)庫(kù)的存儲(chǔ)空間壓力明顯減小。但是這種方法降低的存儲(chǔ)空間還是無(wú)法和動(dòng)態(tài)數(shù)據(jù)規(guī)模的增長(zhǎng)相比，且隨著時(shí)間的延續(xù)，采樣后的數(shù)據(jù)也將呈現(xiàn)爆炸式增長(zhǎng)，因此對(duì)于流數(shù)據(jù)的存儲(chǔ)，關(guān)系數(shù)據(jù)庫(kù)的存儲(chǔ)能力還是有所不足，需要進(jìn)一步使用方法來(lái)降低數(shù)據(jù)庫(kù)的存儲(chǔ)壓力。基于時(shí)間粒度的二次存儲(chǔ)方法，其目的正是為了繼續(xù)減輕關(guān)系數(shù)據(jù)庫(kù)的存儲(chǔ)壓力。時(shí)間粒度的選取沒(méi)有一個(gè)固定的標(biāo)準(zhǔn)，隨著應(yīng)用的不同時(shí)間粒度的選取也不同，本文中時(shí)間粒度的選取由細(xì)到粗分別是：小時(shí)、天、月、季度、年。在流數(shù)據(jù)應(yīng)用中，用戶或應(yīng)用程序?qū)α鲾?shù)據(jù)的興趣度由產(chǎn)生數(shù)據(jù)的時(shí)間戳決定，近期歷史數(shù)據(jù)的訪問(wèn)頻率總是遠(yuǎn)大于時(shí)間久遠(yuǎn)的歷史數(shù)據(jù)。對(duì)近期產(chǎn)生的歷史數(shù)據(jù)更關(guān)心其數(shù)據(jù)的詳細(xì)信息，相反，對(duì)于較久遠(yuǎn)的歷史數(shù)據(jù)一般會(huì)忽略其詳細(xì)信息而僅關(guān)心數(shù)據(jù)的某些統(tǒng)計(jì)值或者數(shù)據(jù)挖掘的結(jié)果。例如，在海洋監(jiān)測(cè)網(wǎng)中，用戶會(huì)關(guān)心近期某天岸基監(jiān)測(cè)站的輸入電壓、輸入電流、漏水監(jiān)測(cè)的變化情況和詳細(xì)記錄；然而，對(duì)于1年前或時(shí)間更為久遠(yuǎn)的數(shù)據(jù)，用戶僅僅會(huì)關(guān)心輸入電壓在一定范圍內(nèi)分布的統(tǒng)計(jì)值。在這種情況下，數(shù)據(jù)庫(kù)僅需提供統(tǒng)計(jì)值信息，如果還通過(guò)存儲(chǔ)的原始記錄信息來(lái)計(jì)算不僅耗時(shí)過(guò)長(zhǎng)也會(huì)占據(jù)過(guò)多的存儲(chǔ)空間，造成嚴(yán)重的浪費(fèi)。常見(jiàn)的求統(tǒng)計(jì)值函數(shù)包括SUM、COUNT、MAX、MIN、AVERAGE。下面給出了聚集函數(shù)accumulate(x，y)的定義：QUOTEaccumulate(x，y)x=x+ysum或二次存儲(chǔ)的具體處理流程如下：輸入：時(shí)間粒度為n的數(shù)據(jù)記錄輸出：時(shí)間粒度為n+1的數(shù)據(jù)記錄If(到達(dá)n+1級(jí)數(shù)據(jù)更新點(diǎn)){對(duì)時(shí)間粒度為n級(jí)的數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行聚集查詢；將查詢結(jié)果存儲(chǔ)到n+l級(jí)的數(shù)據(jù)庫(kù)中；刪除時(shí)間粒度為n級(jí)數(shù)據(jù)庫(kù)中的經(jīng)過(guò)聚集查詢過(guò)的數(shù)據(jù)}以上處理流程關(guān)鍵的一點(diǎn)是，該處理算法執(zhí)行時(shí)間、各個(gè)時(shí)間粒度的數(shù)據(jù)保留時(shí)間及更新周期的問(wèn)題，本文中，數(shù)據(jù)更新周期為小時(shí)，詳細(xì)歷史數(shù)據(jù)保存期為過(guò)去半年，每到月底清理一下數(shù)據(jù)，條件的允許的話會(huì)將數(shù)據(jù)轉(zhuǎn)儲(chǔ)到備份數(shù)據(jù)庫(kù)中。4.7本章小結(jié)本章首先介紹了應(yīng)用系統(tǒng)的總體設(shè)計(jì)與分層結(jié)構(gòu)，并詳細(xì)介紹了數(shù)據(jù)預(yù)處理層和流數(shù)據(jù)處理層。把流數(shù)據(jù)管理系統(tǒng)作為核心的基礎(chǔ)之上，本章針對(duì)流數(shù)據(jù)異構(gòu)、流數(shù)據(jù)過(guò)載、流數(shù)據(jù)需持久化三個(gè)關(guān)鍵問(wèn)題給出具體的解決方案，形成了一個(gè)適用于資源監(jiān)測(cè)網(wǎng)的總體實(shí)現(xiàn)方案。對(duì)于通過(guò)負(fù)載管理實(shí)現(xiàn)系統(tǒng)自適應(yīng)性這一重要內(nèi)容進(jìn)行了詳細(xì)介紹，對(duì)負(fù)載管理模塊的工作流程，降載策略制定的理由和工作原理給出了具體說(shuō)明。5.實(shí)驗(yàn)與分析5.1實(shí)驗(yàn)環(huán)境準(zhǔn)備本文在實(shí)驗(yàn)室局域網(wǎng)內(nèi)進(jìn)行試驗(yàn)，采用一臺(tái)PC機(jī)作為中心節(jié)點(diǎn)，三臺(tái)PC機(jī)作為處理節(jié)點(diǎn)來(lái)部署海底觀測(cè)網(wǎng)故障診斷平臺(tái)。通過(guò)分布在三臺(tái)電腦上電學(xué)平臺(tái)模擬程序、光學(xué)平臺(tái)模擬程序、傳感器模擬程序不斷向系統(tǒng)發(fā)送仿真數(shù)據(jù)。所有仿真數(shù)據(jù)均由仿真程序模擬現(xiàn)實(shí)采集數(shù)據(jù)生成。實(shí)驗(yàn)結(jié)果具有一定參考性。選取實(shí)驗(yàn)數(shù)據(jù)的標(biāo)準(zhǔn)是盡量模擬真實(shí)數(shù)據(jù)，因此采用光學(xué)、電學(xué)、傳感器發(fā)送數(shù)據(jù)的模擬程序來(lái)模擬真實(shí)數(shù)據(jù)。5.2測(cè)試平臺(tái)與實(shí)驗(yàn)數(shù)據(jù)集5.2.1測(cè)試平臺(tái)本文參與測(cè)試PC的軟硬件環(huán)境如下：硬件環(huán)境：Cpu：IntelPentiumD2.2GHz；內(nèi)存：3GB；硬盤：160GBytes，7200rpm；操作系統(tǒng)：MicrosoftWindows7運(yùn)行環(huán)境：實(shí)驗(yàn)系統(tǒng)以分布式的方式部署在局域網(wǎng)內(nèi)，以一臺(tái)PC機(jī)作為中心節(jié)點(diǎn)，光學(xué)、電學(xué)、傳感器三個(gè)數(shù)據(jù)發(fā)送模擬程序分別分布在三臺(tái)機(jī)器上，以設(shè)定的速度向?qū)嶒?yàn)系統(tǒng)發(fā)送采集數(shù)據(jù)。5.2.2實(shí)驗(yàn)數(shù)據(jù)集本文中通過(guò)三個(gè)仿真程序模擬三類流數(shù)據(jù)，以電學(xué)仿真數(shù)據(jù)為例，其格式如所示，從左到右依次是工作狀態(tài)、濕度、漏水檢測(cè)1等屬性。以電學(xué)平臺(tái)下次接駁盒為例，具體數(shù)據(jù)格式格式如REF_Ref386564520\h圖51數(shù)據(jù)集部分截圖所示。圖5SEQ圖\*ARABIC\s11數(shù)據(jù)集部分截圖5.3實(shí)驗(yàn)結(jié)果分析在本實(shí)驗(yàn)系統(tǒng)中，系統(tǒng)的性能主要兩個(gè)因素影響：流數(shù)據(jù)速率和查詢計(jì)劃數(shù)量。由于查詢計(jì)劃是固定的因此本文的測(cè)試計(jì)劃主要圍繞流數(shù)據(jù)流速進(jìn)行，在流數(shù)據(jù)速率不同的情況下對(duì)觀察系統(tǒng)延時(shí)、CPU占用率、以及數(shù)據(jù)錯(cuò)失率，從而對(duì)系統(tǒng)的實(shí)時(shí)性、穩(wěn)定性、準(zhǔn)確性進(jìn)行評(píng)價(jià)。5.3.1實(shí)時(shí)性測(cè)試實(shí)際運(yùn)行環(huán)境中數(shù)據(jù)平均流速在50條/s左右，讓測(cè)試數(shù)據(jù)流速分布在100條/s到500條/s。在不同流速下觀察監(jiān)測(cè)系統(tǒng)的延時(shí)，觀察它能否在高速流下維持穩(wěn)定工作。圖5-2系統(tǒng)理延時(shí)變化由上圖5-2可知，系統(tǒng)剛啟動(dòng)時(shí)延遲較大，隨著運(yùn)行的推移逐漸平穩(wěn)，造成最初較大延時(shí)的原因時(shí)系統(tǒng)正在分配資源會(huì)消耗部分時(shí)間。系統(tǒng)可以在較高流速下維持穩(wěn)定工作。5.3.2穩(wěn)定性測(cè)試本實(shí)驗(yàn)中設(shè)定初始流速為50條/s，運(yùn)行一段時(shí)間后將流速提升至1000條/s，對(duì)比加入負(fù)載管理模塊前后的某一節(jié)點(diǎn)的CPU使用率，來(lái)驗(yàn)證負(fù)載管理模塊能否有效工作。圖5-3加入負(fù)載管理模塊前后CPU占用率對(duì)比由圖5-3可知，在未添加負(fù)載管理模塊前，系統(tǒng)在波峰流速到達(dá)時(shí)CPU資源很快被耗盡，無(wú)法正常工作；在添加負(fù)載管理模塊后，當(dāng)流速波峰到達(dá)時(shí)，系統(tǒng)能維持穩(wěn)定工作。因此，負(fù)載管理模塊能有效應(yīng)對(duì)流速波峰導(dǎo)致的過(guò)載問(wèn)題。5.3.3準(zhǔn)確性測(cè)試本實(shí)驗(yàn)中設(shè)定初始流速為50條/s，運(yùn)行一段時(shí)間后將流速提升至500條/s，設(shè)定故障數(shù)據(jù)/狀態(tài)數(shù)據(jù)權(quán)值比分別為2、5、10，觀察在流速飆升至500條/s時(shí)，故障數(shù)據(jù)和狀態(tài)數(shù)據(jù)的錯(cuò)失率并進(jìn)行對(duì)比。

表5-SEQ表\*ARABIC\s11不同權(quán)值比下錯(cuò)失率對(duì)比故障數(shù)據(jù)/狀態(tài)數(shù)據(jù)權(quán)值比2510平均數(shù)據(jù)錯(cuò)失率故障數(shù)據(jù)錯(cuò)失率0.0500狀態(tài)數(shù)據(jù)錯(cuò)失率0.230.305.4本章小結(jié)本章從實(shí)時(shí)性、穩(wěn)定性、準(zhǔn)確性三個(gè)方面進(jìn)行了測(cè)試，驗(yàn)證了本文解決方案的可行性。實(shí)驗(yàn)二和實(shí)驗(yàn)三驗(yàn)證了本文負(fù)載管理工作的有效性，證明它能在保證重要數(shù)據(jù)盡可能準(zhǔn)確的情況下更快的調(diào)整系統(tǒng)負(fù)載，使系統(tǒng)進(jìn)入穩(wěn)定狀態(tài)。6.總結(jié)及展望6.1論文工作總結(jié)流數(shù)據(jù)這種新型數(shù)據(jù)由于其本身的連續(xù)、無(wú)界、可變等特征對(duì)傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)提出了嚴(yán)峻挑戰(zhàn)。近些年來(lái)，流數(shù)據(jù)處理技術(shù)已經(jīng)成為研究熱點(diǎn)。本文結(jié)合海底觀測(cè)網(wǎng)的研究背景，引入分布式流數(shù)據(jù)管理系統(tǒng)作為數(shù)據(jù)處理引擎，構(gòu)建了一個(gè)資源監(jiān)測(cè)網(wǎng)的整體架構(gòu)，對(duì)流數(shù)據(jù)處理與應(yīng)用背景結(jié)合產(chǎn)生的流數(shù)據(jù)異構(gòu)、流數(shù)據(jù)降載、流數(shù)據(jù)需持久化這三個(gè)應(yīng)用問(wèn)題進(jìn)行分析和研究。針對(duì)流數(shù)據(jù)過(guò)載這個(gè)核心問(wèn)題，設(shè)計(jì)了一個(gè)負(fù)載管理模型結(jié)合負(fù)載均衡和降載技術(shù)來(lái)解決過(guò)載問(wèn)題，保證系統(tǒng)在在流速峰值到達(dá)時(shí)能繼續(xù)穩(wěn)定工作同時(shí)降低了直接降載對(duì)數(shù)據(jù)準(zhǔn)確性帶來(lái)的負(fù)面影響。針對(duì)流數(shù)據(jù)多源異構(gòu)的問(wèn)題，提出了通過(guò)適配器結(jié)合配置文件進(jìn)行轉(zhuǎn)換的方法，解決了對(duì)于分布在各地的異構(gòu)源數(shù)據(jù)統(tǒng)一處理的問(wèn)題。針對(duì)流數(shù)據(jù)需持久化問(wèn)題，本文采用兩次存儲(chǔ)的方法，首次存儲(chǔ)時(shí)通過(guò)批處理的方式將流數(shù)據(jù)持久化后到數(shù)據(jù)庫(kù)中，第二次存儲(chǔ)采取基于時(shí)間多粒度存儲(chǔ)的策略，極大的降低了歷史數(shù)據(jù)占用的存儲(chǔ)空間，同時(shí)相對(duì)完整的保持了數(shù)據(jù)的有效性。在降低存儲(chǔ)開(kāi)銷的同時(shí)，還能對(duì)引擎處理后的數(shù)據(jù)進(jìn)行更大時(shí)間粒度的統(tǒng)計(jì)分析。6.2下一步工作本文對(duì)流數(shù)據(jù)處理方法在資源監(jiān)測(cè)網(wǎng)中的應(yīng)用做了一些研究，針對(duì)一些問(wèn)題提出了自己的解決思路和方法。由于時(shí)間和精力的有限，本文的研究還需要進(jìn)一步的完善，下一步的工作主要集中在以下幾個(gè)方面：降載策略的優(yōu)化。本文中降載策略在拋棄數(shù)據(jù)時(shí)采取隨機(jī)方法，雖然通過(guò)賦予重要數(shù)據(jù)更高的權(quán)值可以避免在降載時(shí)丟棄重要數(shù)據(jù)，但只有重要數(shù)據(jù)和非重要數(shù)據(jù)權(quán)值相差很大時(shí)才具有理想效果，有一定的局限性。因此下一步研究基于語(yǔ)義的降載方法，進(jìn)一步降低降載對(duì)于數(shù)據(jù)準(zhǔn)確性帶來(lái)的負(fù)面影響。建立更加有效、通用的服務(wù)質(zhì)量控制機(jī)制。研究對(duì)各類數(shù)據(jù)流應(yīng)用進(jìn)行標(biāo)準(zhǔn)化監(jiān)測(cè)，采用統(tǒng)一的模型衡量系統(tǒng)負(fù)載并做出管理決策的通用方法。參考文獻(xiàn)BabcockB,BabuS,DatarM,etal.Modelsandissuesindatastreamsystems:Proceedingsofthetwenty-firstACMSIGMOD-SIGACT-SIGARTsymposiumonPrinciplesofdatabasesystems,Madison,Wisconsin,2002[C].ACM.CranorC,JohnsonT,SpataschekO,etal.Gigascope:astreamdatabasefornetworkapplications:Proceedingsofthe2003ACMSIGMODinternationalconferenceonManagementofdata,SanDiego,California,2003[C].ACM.CarneyD,U,Ur,etal.Monitoringstreams:anewclassofdatamanagementapplications:Proceedingsofthe28thinternationalconferenceonVeryLargeDataBases,HongKong,China,2002[C].VLDBEndowment.D.J.Abadi,Y.Anmad,M.Balazinska,etal.TheDesignoftheBorealisStreamArasuA,BabcockB,BabuS,etal.STREAM:thestanfordstreamdatamanager(demonstrationdescription):Proceedingsofthe2003ACMSIGMODinternationalconferenceonManagementofdata,SanDiego,California,2003[C].ACM.ChandrasekaranS,CooperO,DeshpandeA,etal.TelegraphCQ:continuousdataflowprocessing:Proceedingsofthe2003ACMSIGMODinternationalconferenceonManagementofdata,2003[C].ACM.AbadiDJ,CarneyD,?etintemelU,etal.Aurora:anewmodelandarchitecturefordatastreammanagement[J].TheVLDBJournal—TheInternationalJournalonVeryLargeDataBases,2003,12(2):120-139. ChenJ,DeWittDJ,TianF,etal.NiagaraCQ:Ascalablecontinuousquerysystemforinternetdatabases:ACMSIGMODRecord,2000[C].ACM.ZhuY,ShashaD.Statstream:Statisticalmonitoringofthousandsofdatastreamsinrealtime:Proceedingsofthe28thinternationalconferenceonVeryLargeDataBases,2002[C].VLDBEndowment.S.Zdonik,M.Stonebraker,M.Cherniack,etal.TheAuroraandMedusaProjects,IEEEDataEngineeringBulletin,March2003,26(1):3~10.DaiB,HuangJ,YehM,etal.Clusteringondemandformultipledatastreams:DataMining,2004.ICDM'04.FourthIEEEInternationalConferenceon,2004[C].IEEE.MouratidisK,BakirasS,PapadiasD.Continuousmonitoringoftop-kqueriesoverslidingwindows:Proceedingsofthe2006ACMSIGMODinternationalconferenceonManagementofdata,2006[C].ACM.GuhaS,MishraN,MotwaniR,etal.Clusteringdatastreams:Foundationsofcomputerscience,2000.proceedings.41stannualsymposiumon,2000[C].IEEE.HultenG,SpencerL,DomingosP.Miningtime-changingdatastreams:ProceedingsoftheseventhACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining,2001[C].ACM.DomingosP,HultenG.Mininghigh-speeddatastreams:ProceedingsofthesixthACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining,2000[C].ACM.ZhouA,CaiZ,WeiL,etal.M-kernelmerging:Towardsdensityestimationoverdatastreams:DatabaseSystemsforAdvancedApplications,2003.(DASFAA2003).Proceedings.EighthInternationalConferenceon,2003[C].IEEE.CaiYD,ClutterD,PapeG,etal.MAIDS:Miningalarmingincidentsfromdatastreams:Proceedingsofthe2004ACMSIGMODinternationalconferenceonManagementofdata,2004[C].ACM.BifetA,HolmesG,KirkbyR,etal.Moa:Massiveonlineanalysis[J].TheJournalofMachineLearningResearch,2010,11:1601-1604.LinW,YangS,HongT.Memory-AwareMiningofIndirectAssociationsOverDataStreams[M]//UDENL,WANGLSL,HONGT,etal.The3rdInternationalWorkshoponIntelligentDataAnalysisandManagement.SpringerNetherlands,2013:15-25.李巖,王惠文,葉明.數(shù)據(jù)流分析與技術(shù)研究[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(15):8-11.ProcessingEng

人人文庫(kù)> 全部分類> 應(yīng)用文書 > 研究報(bào)告

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

流數(shù)據(jù)處理技術(shù)在資源監(jiān)測(cè)網(wǎng)中的應(yīng)用

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

流數(shù)據(jù)處理技術(shù)在資源監(jiān)測(cè)網(wǎng)中的應(yīng)用

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔