數(shù)據(jù)網(wǎng)格環(huán)境下的元數(shù)據(jù)分發(fā)技術(shù)研究碩士學(xué)位論文_第1頁
數(shù)據(jù)網(wǎng)格環(huán)境下的元數(shù)據(jù)分發(fā)技術(shù)研究碩士學(xué)位論文_第2頁
數(shù)據(jù)網(wǎng)格環(huán)境下的元數(shù)據(jù)分發(fā)技術(shù)研究碩士學(xué)位論文_第3頁
數(shù)據(jù)網(wǎng)格環(huán)境下的元數(shù)據(jù)分發(fā)技術(shù)研究碩士學(xué)位論文_第4頁
數(shù)據(jù)網(wǎng)格環(huán)境下的元數(shù)據(jù)分發(fā)技術(shù)研究碩士學(xué)位論文_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、碩士學(xué)位論文數(shù)據(jù)網(wǎng)格環(huán)境下的元數(shù)據(jù)分發(fā)技術(shù)研究a dissertation submitted to huazhong university of science andtechnology for the degree of master of engineeringthe research on metadata dissemination technology for data gridcandidate: zuo jinhu major: computer software and theorysupervisor: prof. lu yanshenghuazhong universi

2、ty of science and technologywuhan 430074, p.r.c.january, 2007獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是我個人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除文中已經(jīng)標(biāo)明引用的內(nèi)容外,本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫過的研究成果。對本文的研究做出貢獻(xiàn)的個人和集體,均已在文中以明確方式標(biāo)明。本人完全意識到本聲明的法律結(jié)果由本人承擔(dān)。 學(xué)位論文作者簽名: 日期: 年 月 日學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查

3、閱和借閱。本人授權(quán)華中科技大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。保密,在_年解密后適用本授權(quán)書。本論文屬于不保密。(請?jiān)谝陨戏娇騼?nèi)打“”)學(xué)位論文作者簽名: 指導(dǎo)教師簽名:日期:年 月 日 日期:年 月 摘 要伴隨著internet網(wǎng)絡(luò)規(guī)模的飛速增長,在計(jì)算密集型和數(shù)據(jù)密集型應(yīng)用領(lǐng)域,傳統(tǒng)的分布式計(jì)算和并行處理技術(shù)已不能滿足高性能分布式處理和分布式海量存儲管理的需求,于是網(wǎng)格技術(shù)應(yīng)運(yùn)而生。數(shù)據(jù)網(wǎng)格(data grid)的概念來自于網(wǎng)格,它是網(wǎng)格技術(shù)在數(shù)據(jù)管理方面的應(yīng)用和實(shí)現(xiàn)。數(shù)據(jù)網(wǎng)格環(huán)境下的數(shù)據(jù)訪問過程依賴于資源發(fā)現(xiàn)

4、,而資源發(fā)現(xiàn)即為發(fā)現(xiàn)對數(shù)據(jù)資源進(jìn)行描述的元數(shù)據(jù),網(wǎng)格環(huán)境下網(wǎng)絡(luò)資源頻繁變化,相應(yīng)的元數(shù)據(jù)變化也很頻繁,而如何能更加快捷有效地獲得所需要的元數(shù)據(jù),就需要各個節(jié)點(diǎn)能夠?qū)⒏髯缘脑獢?shù)據(jù)快捷有效地分發(fā)到網(wǎng)絡(luò)中的其他相關(guān)節(jié)點(diǎn),這取決于元數(shù)據(jù)分發(fā)策略的實(shí)施?,F(xiàn)有的元數(shù)據(jù)分發(fā)策略基本可以分為兩類:被動分發(fā)和主動分發(fā)。主動元數(shù)據(jù)分發(fā)具有很高的準(zhǔn)確性,但是卻會占用很多網(wǎng)絡(luò)資源;被動元數(shù)據(jù)分發(fā)具有低代價(jià)性,但是卻很難保證元數(shù)據(jù)的準(zhǔn)確性。輪值會議元數(shù)據(jù)分發(fā)(rotating meeting metadata dissemination, rmmd)以輪值會議召開的方式來進(jìn)行元數(shù)據(jù)的分發(fā),并采用了hla(high le

5、vel architecture)數(shù)據(jù)分發(fā)管理中采用的數(shù)據(jù)過濾機(jī)制,它兼具了主動元數(shù)據(jù)分發(fā)的準(zhǔn)確性和被動元數(shù)據(jù)分發(fā)的低代價(jià)性,能快捷有效的完成元數(shù)據(jù)在整個網(wǎng)格中的分發(fā),讓整個網(wǎng)格的元數(shù)據(jù)在較短的時間內(nèi)、用較小的代價(jià)得到較好的配置。通過模擬仿真實(shí)驗(yàn)將rmmd策略與主動元數(shù)據(jù)分發(fā)策略、被動元數(shù)據(jù)分發(fā)策略進(jìn)行比較,實(shí)驗(yàn)結(jié)果顯示rmmd策略可以有效的分發(fā)整個網(wǎng)格中的元數(shù)據(jù),提高分發(fā)的準(zhǔn)確性,并保證分發(fā)的低代價(jià)性。關(guān)鍵詞: 數(shù)據(jù)網(wǎng)格,元數(shù)據(jù)分發(fā),輪值會議abstractwith the rapid growth of internet network scale, the traditional dis

6、tributed computation and parallel processing technology hasnt met the need of this high-powered distributed computation and distributed management for large memory in the domain of computation-dense and data-dense application. as a result, grid technology came into being. data grid of is the grid te

7、chnology application and realization in data management.the process of data accessing in the data grid depends on resource discovery which finds out the metadata that describes source. for the resource in grid frequently changes, the corresponding metadata changes a lot, too. to get the requisite me

8、tadata quickly and effectively requires that every node could disseminate its data to other corresponding nodes quickly and effectively, and this lies on the implement of metadata dissemination strategy which is classified as passive and active. active metadata dissemination (actmd) has great veraci

9、ty but it occupies too much network resource. passive metadata dissemination (pasmd) has low cost but it hardly ensures the veracity of metadata. rotating meeting metadata dissemination (rmmd) disseminate metadata in the way of rotating meeting convocation, and adopts the data filtration mechanism i

10、n hla data distribution management .the rmmd which has both the benefits of veracity of actmd and low cost of pasmd can disseminate metadata in the whole grid quickly and effectively, and make the metadata in the whole grid get better collocation with lower cost in a shorter time. compared rmmd with

11、 pasmd and actmd through simulation experiment, the results show the rmmd strategy could disseminate the metadata in the whole grid effectively, increase the veracity and ensure the low cost of dissemination.keywords:data grid,metadata dissemination,rotating meeting目 錄摘 要iabstractii1 緒論1.1研究背景(1)1.2

12、國內(nèi)外研究概括(2)1.3本課題研究的目標(biāo)和意義(5)1.4本文組織結(jié)構(gòu)(6)2 數(shù)據(jù)網(wǎng)格中的元數(shù)據(jù)分發(fā)技術(shù)2.1數(shù)據(jù)網(wǎng)格核心問題(7)2.2元數(shù)據(jù)的提出(7)2.3傳統(tǒng)數(shù)據(jù)分發(fā)技術(shù)(11)2.4數(shù)據(jù)網(wǎng)格中傳統(tǒng)元數(shù)據(jù)分發(fā)技術(shù)(13)2.5小結(jié)(15)3輪值會議元數(shù)據(jù)分發(fā)機(jī)制3.1背景介紹(16)3.2輪值會議元數(shù)據(jù)分發(fā)的原理(18)3.3輪值會議元數(shù)據(jù)分發(fā)的協(xié)議(19)3.4小結(jié)(28)4原型系統(tǒng)開發(fā)與仿真實(shí)驗(yàn)分析4.1rmmd原型系統(tǒng)開發(fā)(29)4.2實(shí)驗(yàn)環(huán)境opnet(30)4.3仿真模型(34)4.4仿真算法(37)4.5實(shí)驗(yàn)與性能分析(40)4.6小結(jié)(43)5總結(jié)與展望5.1本文工作

13、總結(jié)(44)5.2展望(45)致 謝(46)參考文獻(xiàn)(47) 1 緒論1.1 研究背景伴隨著internet網(wǎng)絡(luò)規(guī)模的飛速增長,計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)和分布式技術(shù)得到了高速發(fā)展和廣泛應(yīng)用,許多科學(xué)計(jì)算領(lǐng)域,特別是計(jì)算密集型和數(shù)據(jù)密集型應(yīng)用領(lǐng)域,對廣域網(wǎng)環(huán)境下海量數(shù)字信息分析處理和協(xié)同計(jì)算能力的要求也越來越高1。這類應(yīng)用需要將分布在不同地理區(qū)域的高性能計(jì)算能力、超大規(guī)模數(shù)據(jù)集合和各種資源整合在一起,為分布在不同地理區(qū)域的用戶提供服務(wù)。傳統(tǒng)的分布式計(jì)算和并行處理技術(shù)已不能滿足這種高性能分布式處理和分布式海量存儲管理的需求,于是網(wǎng)格2,3技術(shù)應(yīng)運(yùn)而生。網(wǎng)格技術(shù)可以把分布在各地的計(jì)算機(jī)連接起來,實(shí)現(xiàn)計(jì)算資源、

14、存儲資源、數(shù)據(jù)資源、信息資源、知識資源、專家資源的全面共享,感覺如同個人使用一臺超級計(jì)算機(jī)一樣。這種虛擬資源可以使相關(guān)人員迅速獲得所需的數(shù)據(jù)訪問和處理能力,幫助其進(jìn)行計(jì)算密集型的研究和數(shù)據(jù)分析、解決復(fù)雜的業(yè)務(wù)問題。這樣,網(wǎng)格就可以幫助用戶突破今天技術(shù)基礎(chǔ)設(shè)施的限制。對于傳統(tǒng)網(wǎng)絡(luò)環(huán)境,網(wǎng)格具有動態(tài)可變、異構(gòu)、多域等特性。網(wǎng)格計(jì)算作為新一代的分布式計(jì)算框架,與傳統(tǒng)分布式系統(tǒng)的主要區(qū)別在于在沒有集中控制的情況下,通過對計(jì)算資源進(jìn)行大規(guī)模的共享,滿足應(yīng)用程序?qū)Ω咝阅苡?jì)算的要求4,并且這種對計(jì)算資源的大規(guī)模共享是動態(tài)的、柔性的、安全的和協(xié)作的。目前,在國內(nèi)外網(wǎng)格也引起了極大的關(guān)注,如美國argonne國

15、家實(shí)驗(yàn)室研發(fā)的globus系統(tǒng)5,6、歐洲數(shù)據(jù)網(wǎng)格datagrid7、美國能源部的科學(xué)計(jì)算網(wǎng)格doe science grid、中科院計(jì)算所的織女星網(wǎng)格vega grid8等等。數(shù)據(jù)網(wǎng)格(data grid)源于網(wǎng)格,它是網(wǎng)格技術(shù)在數(shù)據(jù)管理方面的應(yīng)用和實(shí)現(xiàn)。它將地理上分布、異構(gòu)的多種數(shù)據(jù)資源,通過高速互連網(wǎng)絡(luò)連接并集成起來,屏蔽底層異構(gòu)的物理資源,形成單一的邏輯視圖,實(shí)現(xiàn)資源共享和協(xié)同工作,為用戶提供虛擬的數(shù)據(jù)訪問、數(shù)據(jù)存儲、數(shù)據(jù)管理和處理環(huán)境。其中,良好地表示、存儲、訪問和使用大量資源信息是數(shù)據(jù)網(wǎng)格運(yùn)行的基本前提。在數(shù)據(jù)網(wǎng)格計(jì)算中,資源是分布的,資源及其提供者也是分布的。為了對網(wǎng)絡(luò)資源進(jìn)行有

16、效的管理和檢索,使目前有序和無序狀態(tài)并存的網(wǎng)絡(luò)資源能夠像傳統(tǒng)資源(如館藏資源)一樣有序化,從而使它們得到更好的利用,人們一直都在作著多方面的努力。從早期的archie和gopher系統(tǒng),到近期的搜索引擎和主題指南,都是這方面努力的成果。歷年實(shí)踐表明,增加關(guān)于資源的額外信息或元數(shù)據(jù)(metadata)是更好地組織資源的基礎(chǔ),它能夠提高相關(guān)資源被檢索和存取的可能性,提供對主題領(lǐng)域更清晰的全面認(rèn)識,并提高用戶區(qū)別相似資源的能力。正因?yàn)槿绱?,元?shù)據(jù)逐漸受到普遍的重視9。元數(shù)據(jù)(metadata),簡言之就是“關(guān)于數(shù)據(jù)的數(shù)據(jù)”,是對數(shù)據(jù)進(jìn)行組織和處理的基礎(chǔ)。數(shù)據(jù)網(wǎng)格環(huán)境下的數(shù)據(jù)訪問過程依賴于資源發(fā)現(xiàn),而

17、資源發(fā)現(xiàn)即為發(fā)現(xiàn)對數(shù)據(jù)資源進(jìn)行描述的元數(shù)據(jù)。同時數(shù)據(jù)網(wǎng)格環(huán)境中網(wǎng)絡(luò)資源頻繁變化,一方面,結(jié)點(diǎn)可以動態(tài)的加入、離開系統(tǒng),另一方面,各個節(jié)點(diǎn)中的資源也是不斷變化的,相應(yīng)的元數(shù)據(jù)變化也很頻繁,而如何能更加快捷有效地獲得所需要的元數(shù)據(jù),就需要各個節(jié)點(diǎn)能夠?qū)⒏髯缘脑獢?shù)據(jù)快捷有效地分發(fā)到網(wǎng)絡(luò)中的其他相關(guān)節(jié)點(diǎn),這取決于元數(shù)據(jù)分發(fā)策略的實(shí)施,也是本文集中探討的問題。1.2 國內(nèi)外研究概括1.2.1 globus中的元數(shù)據(jù)目錄服務(wù)globus系統(tǒng)是目前比較具有影響力的一個網(wǎng)格項(xiàng)目,提供網(wǎng)格環(huán)境下的中間件服務(wù),如mds、gridftp等。系統(tǒng)使用標(biāo)準(zhǔn)的協(xié)議實(shí)現(xiàn)了文件數(shù)據(jù)的移動、遠(yuǎn)程訪問gass及數(shù)據(jù)的高速傳輸gr

18、idftp機(jī)制,在此基礎(chǔ)上完成數(shù)據(jù)復(fù)制、元數(shù)據(jù)目錄的管理mds(metadata and directory service)和復(fù)制的選擇工作,為數(shù)據(jù)網(wǎng)格系統(tǒng)提供了一個較好的底層系統(tǒng)開發(fā)平臺10。其中,mds在網(wǎng)格環(huán)境中提供資源信息服務(wù)11。mds主要負(fù)責(zé)對網(wǎng)格環(huán)境中信息的發(fā)現(xiàn)、注冊、查詢、修改等工作,提供對網(wǎng)格計(jì)算環(huán)境的一個真實(shí)、實(shí)時的動態(tài)反映。該服務(wù)是建立在輕權(quán)目錄訪問協(xié)議ldap(lightweight directory access protocol)12基礎(chǔ)上的,處理網(wǎng)格計(jì)算環(huán)境中的各種資源(包括數(shù)據(jù)資源、計(jì)算資源等)、服務(wù)和其他主體(entity)的描述,是網(wǎng)格計(jì)算環(huán)境中的信息服

19、務(wù)中心。它采用兩層結(jié)構(gòu)13:1) 網(wǎng)格資源信息服務(wù)器(grid resource information server, gris):以一種目錄的結(jié)構(gòu)登記具體的資源信息。2) 網(wǎng)格索引信息服務(wù)器(grid index information server, giis):記錄有g(shù)ris的地址,并能提供gris信息緩沖。1.2.2 griddaen中的元信息服務(wù)griddaen是國內(nèi)最早實(shí)現(xiàn)的通用數(shù)據(jù)網(wǎng)格原型系統(tǒng),是中國國家網(wǎng)格(china national grid, 簡稱cngrid)研究的一部分。cngrid是國家“十五”863計(jì)劃“高性能計(jì)算機(jī)及其核心軟件”重大專向支持建設(shè)的網(wǎng)格示范平臺,

20、通過資源共享、協(xié)同工作和服務(wù)機(jī)制,有效支持科學(xué)研究、資源環(huán)境、先進(jìn)制造和信息服務(wù)等領(lǐng)域的應(yīng)用,以技術(shù)創(chuàng)新推動國家信息化建設(shè)及相關(guān)產(chǎn)業(yè)的發(fā)展。griddaen主要目標(biāo)是統(tǒng)一管理和訪問分布異構(gòu)環(huán)境下的海量存儲和數(shù)據(jù)資源,為用戶提供一體化虛擬數(shù)據(jù)空間和統(tǒng)一邏輯視圖,支持對分布數(shù)據(jù)集的統(tǒng)一無縫訪問,實(shí)現(xiàn)虛擬數(shù)據(jù)集和跨管理域的聯(lián)邦數(shù)據(jù)服務(wù)。系統(tǒng)具有可擴(kuò)展性、安全性、動態(tài)可配置、高性能、高可用性等特點(diǎn)14。griddaen主要由客戶機(jī)、數(shù)據(jù)訪問、元信息服務(wù)mdis(metadata information service)和底層異構(gòu)資源四部分組成。其中,數(shù)據(jù)訪問子系統(tǒng)包括請求優(yōu)化管理調(diào)度與drb(data

21、 request broker)服務(wù)器,元信息服務(wù)子系統(tǒng)包括高層元信息服務(wù)與局部信息服務(wù)。drb服務(wù)為用戶提供數(shù)據(jù)訪問、存儲和管理的功能。mdis是一個層次式分布服務(wù)結(jié)構(gòu),由局部元信息服務(wù)器和中央全局元信息服務(wù)器組成。各個局部元數(shù)據(jù)服務(wù)器負(fù)責(zé)所對應(yīng)本地的資源和數(shù)據(jù)元信息服務(wù),提供元信息服務(wù)的訪問。中央服務(wù)器建立各個局部元信息的索引和數(shù)據(jù)緩沖,為drb實(shí)現(xiàn)統(tǒng)一的訪問接口和全局?jǐn)?shù)據(jù)視圖提供元信息支持。mdis和drb是相互獨(dú)立設(shè)計(jì)和實(shí)現(xiàn)的,通過系統(tǒng)的部署和配置建立服務(wù)關(guān)系。圖1.1為元信息服務(wù)邏輯結(jié)構(gòu)圖。中央全局元信息服務(wù)器處于系統(tǒng)的中央位置,管理著分布各處的局部元信息服務(wù)。局部元信息服務(wù)則分散在

22、系統(tǒng)中的不同位置,受到中央節(jié)點(diǎn)的管理和監(jiān)控。局部元信息服務(wù)一般位于某臺元信息服務(wù)節(jié)點(diǎn)機(jī)器上,通過配置為某個或者某幾個drb域提供元信息服務(wù)。這種兩層式設(shè)計(jì)可以提高系統(tǒng)的可擴(kuò)展性,方便系統(tǒng)管理,并減少了集中式設(shè)計(jì)帶來的性能瓶頸和單點(diǎn)失效問題。中心節(jié)點(diǎn)局部site a局部局部site csite bsite x圖1.1 元信息服務(wù)邏輯結(jié)構(gòu)圖1.2.3 傳統(tǒng)網(wǎng)格中元數(shù)據(jù)分發(fā)技術(shù)現(xiàn)有的元數(shù)據(jù)分發(fā)方式基本可以分為兩類:被動分發(fā)和主動分發(fā)。對于被動分發(fā)而言,除非有請求到達(dá),節(jié)點(diǎn)不會發(fā)布自己擁有資源的元數(shù)據(jù);主動分發(fā)與之相反,當(dāng)節(jié)點(diǎn)加入網(wǎng)絡(luò)或者節(jié)點(diǎn)數(shù)據(jù)發(fā)生一定變化的時候,節(jié)點(diǎn)會立即發(fā)布自己的元數(shù)據(jù)。顯然,被

23、動分發(fā)的網(wǎng)絡(luò)資源的消耗甚小,但同時對于網(wǎng)絡(luò)資源頻繁變化的環(huán)境,元數(shù)據(jù)中存在很多錯誤,其他節(jié)點(diǎn)數(shù)據(jù)的準(zhǔn)確性無法得到滿足。而主動分發(fā)可以在最大可能上保證元數(shù)據(jù)的準(zhǔn)確性,從而可以增加節(jié)點(diǎn)數(shù)據(jù)的有效性,但由于分發(fā)數(shù)據(jù)過多,對網(wǎng)絡(luò)資源的使用也是最多的。對于主動分發(fā)而言,根據(jù)對元數(shù)據(jù)分發(fā)處理的不同,即分發(fā)給什么樣的節(jié)點(diǎn)以及怎么樣轉(zhuǎn)發(fā)別的節(jié)點(diǎn)發(fā)來的元數(shù)據(jù),可以將主動分發(fā)策略分為以下幾種15,16。1. 泛洪式 在該算法中,元數(shù)據(jù)分發(fā)采用最簡單的泛洪的方式。也就是說:當(dāng)自身產(chǎn)生更新消息后,也向網(wǎng)格中的所有節(jié)點(diǎn)發(fā)送消息。2. 鄰居式在該算法中,所采用的策略是:設(shè)定一個半徑范圍(該半徑可以用節(jié)點(diǎn)跳轉(zhuǎn)數(shù)來衡量)發(fā)送

24、消息時,只向處于該半徑范圍之內(nèi)的所有節(jié)點(diǎn)發(fā)送消息。 3. 水流式 在這種方法中,采用的其實(shí)是一種特殊節(jié)點(diǎn)法,根據(jù)某種方式來確定出某些特殊節(jié)點(diǎn)?,F(xiàn)在比較流行的是網(wǎng)格勢能來區(qū)分節(jié)點(diǎn)的處理能力。網(wǎng)格上的一個節(jié)點(diǎn)的網(wǎng)格勢能可以被認(rèn)為是可以被分派給某個節(jié)點(diǎn)上的應(yīng)用程序的處理能力。該處理能力依賴于鄰近出現(xiàn)的機(jī)器以及他們之間互連的網(wǎng)絡(luò)。同時還有一個相對網(wǎng)格勢能:節(jié)點(diǎn)相對于某個遠(yuǎn)程節(jié)點(diǎn)的勢能。如果節(jié)點(diǎn)的自身網(wǎng)格勢能小于相對于某遠(yuǎn)程節(jié)點(diǎn)的勢能,就把由該遠(yuǎn)程節(jié)點(diǎn)發(fā)出的消息進(jìn)行轉(zhuǎn)發(fā),否則不轉(zhuǎn)發(fā)。而對于自身產(chǎn)生的更新消息,如果周圍節(jié)點(diǎn)相對勢能的平均值小于該節(jié)點(diǎn)的自身的勢能,則該節(jié)點(diǎn)可以向周圍的所有節(jié)點(diǎn)進(jìn)行消息發(fā)送;否

25、則不能進(jìn)行消息發(fā)送。這種方式的主要特點(diǎn)是:消息從勢能高的節(jié)點(diǎn)流向勢能低的節(jié)點(diǎn)。這類似于水流的形式,故稱為水流式。 4. 質(zhì)點(diǎn)式 本算法依然采用了網(wǎng)格勢能的概念。不同的是:即使相對勢能比自身勢能要低,節(jié)點(diǎn)也并不一定可以發(fā)送消息。在該算法中,引用了概率論的知識,即節(jié)點(diǎn)隨機(jī)選取周圍部分的節(jié)點(diǎn)進(jìn)行消息發(fā)送。這種行為有點(diǎn)類似于質(zhì)點(diǎn)的活動方式,故而稱為質(zhì)點(diǎn)式。1.3 本課題研究的目標(biāo)和意義 元數(shù)據(jù)被動分發(fā)對網(wǎng)絡(luò)資源的消耗甚小,具有低代價(jià)性,但同時對于網(wǎng)絡(luò)資源頻繁變化的環(huán)境,元數(shù)據(jù)中存在很多錯誤,其他節(jié)點(diǎn)數(shù)據(jù)的準(zhǔn)確性無法得到滿足。而元數(shù)據(jù)主動分發(fā)可以在最大可能上保證元數(shù)據(jù)的準(zhǔn)確性,從而可以增加節(jié)點(diǎn)數(shù)據(jù)的有效

26、性,但由于分發(fā)數(shù)據(jù)過多,對網(wǎng)絡(luò)資源的使用也是最多的。如何能設(shè)計(jì)出一種分發(fā)策略,將這兩種分發(fā)技術(shù)的優(yōu)點(diǎn)結(jié)合起來,這將是本文的工作核心。本文通過對傳統(tǒng)數(shù)據(jù)分發(fā)技術(shù),特別式網(wǎng)格中的元數(shù)據(jù)分發(fā)技術(shù)的研究,提出了一種新的元數(shù)據(jù)分發(fā)機(jī)制,并設(shè)計(jì)實(shí)現(xiàn)了這種分發(fā)策略,通過仿真實(shí)驗(yàn)的對比驗(yàn)證,實(shí)驗(yàn)結(jié)果表明這種分發(fā)策略確實(shí)綜合了主動分發(fā)的準(zhǔn)確性以及被動分發(fā)的低代價(jià)性。1.4 本文組織結(jié)構(gòu)本文以數(shù)據(jù)網(wǎng)格為研究背景,介紹了傳統(tǒng)的元數(shù)據(jù)分發(fā)技術(shù),在此基礎(chǔ)上提出了一種新的元數(shù)據(jù)分發(fā)框機(jī)制,并通過仿真實(shí)驗(yàn)與傳統(tǒng)的分發(fā)技術(shù)進(jìn)行了分析對比。本文各章的內(nèi)容安排如下:第一章為緒論,介紹了本課題的研究背景,然后介紹了國內(nèi)外的研究現(xiàn)狀

27、。第二章為數(shù)據(jù)網(wǎng)格中的元數(shù)據(jù)分發(fā)技術(shù),介紹了數(shù)據(jù)網(wǎng)格中的核心問題,并對元數(shù)據(jù)的概念、網(wǎng)格中元數(shù)據(jù)的分類、元數(shù)據(jù)常有的標(biāo)準(zhǔn)化問題以及元數(shù)據(jù)分發(fā)方式做了詳細(xì)的分析和介紹,最后詳細(xì)介紹了傳統(tǒng)的數(shù)據(jù)分發(fā)技術(shù)以及數(shù)據(jù)網(wǎng)格中的傳統(tǒng)元數(shù)據(jù)分發(fā)技術(shù)。第三章為輪值會議元數(shù)據(jù)分發(fā)機(jī)制,首先介紹了設(shè)計(jì)此分發(fā)機(jī)制的背景知識,隨后提出了一種新的元數(shù)據(jù)分發(fā)機(jī)制,最后對對這種分發(fā)機(jī)制進(jìn)行了設(shè)計(jì)和實(shí)現(xiàn)。第四章為仿真實(shí)驗(yàn)與性能分析,首先介紹了rmmd的原型系統(tǒng)開發(fā),之后分析了opnet仿真工具,隨后詳細(xì)介紹了仿真模型及實(shí)驗(yàn)算法,最后給出仿真實(shí)驗(yàn)結(jié)果。第五章為總結(jié)與展望,最后為致謝與參考文獻(xiàn)。2 數(shù)據(jù)網(wǎng)格中的元數(shù)據(jù)分發(fā)技術(shù)2.1

28、 數(shù)據(jù)網(wǎng)格核心問題數(shù)據(jù)網(wǎng)格在網(wǎng)格基本功能的基礎(chǔ)上擴(kuò)充數(shù)據(jù)管理功能,提供與信息有關(guān)的各種服務(wù),其最核心的關(guān)鍵技術(shù)是元數(shù)據(jù)管理和存儲資源代理。良好地表示、存儲、訪問和使用大量資源信息是數(shù)據(jù)網(wǎng)格運(yùn)行的基本前提。在數(shù)據(jù)網(wǎng)格計(jì)算中,資源是分布的,資源及其提供者也是分布的,這些資源包括數(shù)據(jù)、計(jì)算機(jī)、設(shè)備、網(wǎng)絡(luò)、外設(shè)、軟件、服務(wù)、代碼、人員等17。元數(shù)據(jù)管理服務(wù)命名、描述、收集、組織和管理數(shù)據(jù)網(wǎng)格中的資源信息,這些信息就是用于描述資源、方法、數(shù)據(jù)集和用戶的元數(shù)據(jù)。為了實(shí)現(xiàn)命名的透明性,網(wǎng)格需要有效管理數(shù)量繁多的名字和屬性,以及它們之間的關(guān)系;為了實(shí)現(xiàn)定位的透明性,網(wǎng)格需要有效管理數(shù)據(jù)集的定位信息;為了實(shí)現(xiàn)協(xié)

29、議的透明性,網(wǎng)格需要有效管理數(shù)據(jù)資源的有關(guān)信息。實(shí)際上,這些信息就是用于描述資源、方法、數(shù)據(jù)集和用戶的元數(shù)據(jù),概括地說,元數(shù)據(jù)目錄為用戶身份認(rèn)證、數(shù)據(jù)定位、訪問控制、數(shù)據(jù)復(fù)制等提供支持18。2.2 元數(shù)據(jù)的提出2.2.1 mds元數(shù)據(jù)概念元數(shù)據(jù)的概念起源于計(jì)算機(jī)科學(xué),早在20世紀(jì)60年代,為了有效描述數(shù)據(jù)集,jack mayers就定義了metadata一詞的概念,其中文譯名有多種,元數(shù)據(jù)是其當(dāng)前在中國大陸比較通用的譯名。元數(shù)據(jù)最常見的寬泛定義“關(guān)于數(shù)據(jù)的數(shù)據(jù)”已經(jīng)得到了普遍認(rèn)可,但由于這一定義過于簡單抽象,對它的認(rèn)可只是表明在元數(shù)據(jù)的本質(zhì)方面人們達(dá)成的共識。事實(shí)上,人們對元數(shù)據(jù)的理解和認(rèn)識還

30、存在不少差異,迄今尚未形成一個真正統(tǒng)一的元數(shù)據(jù)定義19。較寬泛的元數(shù)據(jù)定義:元數(shù)據(jù)是描述一個具體的資源對象,并能對這個對象進(jìn)行定位、管理,且有助于它的發(fā)現(xiàn)與獲取的數(shù)據(jù)。這是一個比較籠統(tǒng)的概念,它包括多個詞匯:元數(shù)據(jù)標(biāo)準(zhǔn)、元數(shù)據(jù)項(xiàng)、元數(shù)據(jù)記錄等,可以認(rèn)為是這些概念的統(tǒng)稱。元數(shù)據(jù)的產(chǎn)生對管理龐大的信息數(shù)據(jù)起著不可忽視的作用。元數(shù)據(jù)的應(yīng)用領(lǐng)域廣泛,作用也各不相同,但總體來看,它們都具有一些共同的基本功能20。1. 描述功能元數(shù)據(jù)的基本功能就是對信息資源進(jìn)行描述,供用戶讀取以便了解自己所獲信息是否是所需要的。因此可以節(jié)約用戶的時間和精力,也可減少網(wǎng)絡(luò)中信息交換的浪費(fèi)。2. 檢索功能元數(shù)據(jù)是提供檢索的基

31、礎(chǔ)。元數(shù)據(jù)將信息對象中的重要信息抽出,加以組織,賦予語意,建立關(guān)系,使得檢索結(jié)果更加準(zhǔn)確。因此利用元數(shù)據(jù)進(jìn)行簡單、復(fù)雜或綜合的信息查詢,可以提高查詢效率。3. 定位功能元數(shù)據(jù)包含有信息資源的位置信息,由此便可確定資源的位置所在,促進(jìn)網(wǎng)絡(luò)中信息對象的發(fā)現(xiàn)和檢索。4. 選擇功能根據(jù)元數(shù)據(jù)提供的描述信息,結(jié)合使用環(huán)境,用戶便可對信息對象做取舍決定,選擇適合用戶使用的資源。5. 評估功能元數(shù)據(jù)提供信息對象的各類基本屬性,使用戶在無需瀏覽信息對象本身的情況下就能對信息對象具備基本的了解和認(rèn)識,參照有關(guān)標(biāo)準(zhǔn),即可對其進(jìn)行價(jià)值評估,作為使用的參考。2.2.2 元數(shù)據(jù)的分類元數(shù)據(jù)的應(yīng)用領(lǐng)域不同,對元數(shù)據(jù)就會有

32、各自不同的分類方法21。在網(wǎng)格數(shù)據(jù)管理環(huán)境下,一般將描述數(shù)據(jù)對象的元數(shù)據(jù)分為五種類型22,如圖2.1所示。最底層的物理元數(shù)據(jù)包括描述物理存儲系統(tǒng)數(shù)據(jù)對象的元數(shù)據(jù)和副本定位元數(shù)據(jù),其中物理存儲系統(tǒng)包括文件系統(tǒng)和數(shù)據(jù)庫管理系統(tǒng)。副本定位元數(shù)據(jù)提供將邏輯名與一個或多個副本物理定位信息相映射的服務(wù)。 用戶元數(shù)據(jù)user metadata虛擬組織元數(shù)據(jù)virtual organization metadata特定域元數(shù)據(jù)domain-specific metadata無關(guān)域元數(shù)據(jù)domain-independent metadata物理元數(shù)據(jù)physical metadata圖2.1 元數(shù)據(jù)的五種類型無

33、關(guān)域元數(shù)據(jù)描述一般元數(shù)據(jù)屬性,這些元數(shù)據(jù)屬性無論在應(yīng)用域還是在虛擬組織中都會涉及和描述,如對邏輯名字,數(shù)據(jù)對象的創(chuàng)建者和維護(hù)者,授權(quán)和審查信息,共享池或視圖中的數(shù)據(jù)對象集等信息的描述。特定域元數(shù)據(jù)包括指定的某應(yīng)用域、虛擬組織或某特定用戶所用的數(shù)據(jù)對象集的元數(shù)據(jù)描述。特定域元數(shù)據(jù)的屬性通常為某些應(yīng)用團(tuán)體所開發(fā)的元數(shù)據(jù)實(shí)體。例如,物理學(xué)家或地震學(xué)家都共享一些通用的學(xué)術(shù)術(shù)語和量度,這些特性可用于描述一些共享的數(shù)據(jù)集和表示可使用的元數(shù)據(jù)屬性通用集。虛擬組織元數(shù)據(jù)描述的是某個特定虛擬組織所使用的數(shù)據(jù)集內(nèi)容。虛擬組織包括多個科學(xué)或企業(yè)機(jī)構(gòu),他們可能定義了一些特定的元數(shù)據(jù)屬性集來描述傳統(tǒng)的特征數(shù)據(jù)集。用戶元

34、數(shù)據(jù)用于對單個用戶所使用的數(shù)據(jù)集進(jìn)行描述。這些元數(shù)據(jù)可能是互相關(guān)聯(lián)的數(shù)據(jù)集屬性,如對某些數(shù)據(jù)對象或共享池里的數(shù)據(jù)進(jìn)行描述。元數(shù)據(jù)及其提供的服務(wù)在數(shù)據(jù)網(wǎng)格中對數(shù)據(jù)集的發(fā)布、發(fā)現(xiàn)和存取都起著極其重要的角色。2.2.3 元數(shù)據(jù)標(biāo)準(zhǔn)化問題90年代元數(shù)據(jù)模式(metadata schema)大量涌現(xiàn),不僅出現(xiàn)了很多針對不同資源的元數(shù)據(jù)模式,同時由于缺乏規(guī)范和一致性約束,針對同一資源類型也出現(xiàn)了多種描述。另外元數(shù)據(jù)應(yīng)用的廣泛性,參與制定元數(shù)據(jù)模式的團(tuán)體眾多等原因,都是造成元數(shù)據(jù)模式大量出現(xiàn)的原因23。元數(shù)據(jù)模式的眾多,尤其是同一種資源有多種元數(shù)據(jù)模式的出現(xiàn),不可避免地導(dǎo)致了數(shù)據(jù)共享問題的產(chǎn)生。唯一能夠在不

35、同數(shù)據(jù)管理軟件間交換元數(shù)據(jù)的途徑是制定統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)。元數(shù)據(jù)標(biāo)準(zhǔn)能夠使數(shù)據(jù)生產(chǎn)者和用戶一起著手處理有關(guān)元數(shù)據(jù)交換、共享和管理的問題。因此元數(shù)據(jù)的規(guī)范化和標(biāo)準(zhǔn)化問題也就逐漸提上了日程。元數(shù)據(jù)標(biāo)準(zhǔn)的研制與實(shí)施已引起各國廣泛重視,許多國家不但已經(jīng)完成標(biāo)準(zhǔn)的制定,開發(fā)了多種操作工具軟件,建成大量的元數(shù)據(jù)庫,并已投入使用,而且多次召開國際學(xué)術(shù)討論會,對元數(shù)據(jù)的理論、實(shí)施、應(yīng)用及標(biāo)準(zhǔn)化的有關(guān)問題進(jìn)行討論。元數(shù)據(jù)標(biāo)準(zhǔn)是描述某類資源的具體對象時所有規(guī)則的集合。不同類型的資源可能會有不同的元數(shù)據(jù)標(biāo)準(zhǔn)。一般而言,元數(shù)據(jù)標(biāo)準(zhǔn)包括三個方面的內(nèi)容:內(nèi)容結(jié)構(gòu)、語義結(jié)構(gòu)和語法結(jié)構(gòu)。(1) 內(nèi)容結(jié)構(gòu)是對元數(shù)據(jù)標(biāo)準(zhǔn)中的構(gòu)成元

36、素及其定義標(biāo)準(zhǔn)進(jìn)行描述。(2) 語義結(jié)構(gòu)是定義元數(shù)據(jù)標(biāo)準(zhǔn)中元素的具體語義描述方法,尤其是定義描述時所采用的公用標(biāo)準(zhǔn)、最佳實(shí)踐或自定義的語義描述要求(instructions)。其中主要涉及到兩方面的內(nèi)容:語義定義規(guī)則和語義定義方法。(3) 語法結(jié)構(gòu)負(fù)責(zé)定義元數(shù)據(jù)標(biāo)準(zhǔn)的結(jié)構(gòu)以及如何描述這種結(jié)構(gòu),即元數(shù)據(jù)在計(jì)算機(jī)應(yīng)用系統(tǒng)中的表示方法和相應(yīng)的描述規(guī)則,這些稱為元數(shù)據(jù)的描述語言和語法結(jié)構(gòu)。目前,通常采用的是xml和rdf兩種方式24。2.2.4 元數(shù)據(jù)分發(fā)方式分類現(xiàn)有的元數(shù)據(jù)分發(fā)方式基本可以分為兩類:被動分發(fā)和主動分發(fā)。對于被動分發(fā)而言,除非有請求到達(dá),節(jié)點(diǎn)不會發(fā)布自己擁有資源的元數(shù)據(jù);主動分發(fā)與之相

37、反,當(dāng)節(jié)點(diǎn)加入網(wǎng)絡(luò)或者節(jié)點(diǎn)數(shù)據(jù)發(fā)生一定變化的時候,節(jié)點(diǎn)會立即發(fā)布自己的元數(shù)據(jù)。顯然,被動分發(fā)的網(wǎng)絡(luò)資源的消耗甚小,但同時對于網(wǎng)絡(luò)資源頻繁變化的環(huán)境,元數(shù)據(jù)中存在很多錯誤,其他節(jié)點(diǎn)數(shù)據(jù)的準(zhǔn)確性無法得到滿足。而主動分發(fā)可以在最大可能上保證元數(shù)據(jù)的準(zhǔn)確性,從而可以增加節(jié)點(diǎn)數(shù)據(jù)的有效性,但由于分發(fā)數(shù)據(jù)過多,對網(wǎng)絡(luò)資源的使用也是最多的。2.3 傳統(tǒng)數(shù)據(jù)分發(fā)技術(shù)2.3.1 hla中的數(shù)據(jù)分發(fā)技術(shù)高層體系結(jié)構(gòu)hla(high level architecture)25是新一代分布式交互仿真標(biāo)準(zhǔn),它的一個重要特征就是將仿真應(yīng)用與底層的通信和基本功能相分離,由運(yùn)行支撐系統(tǒng)rti(runtime infrastr

38、ucture)26,27提供的服務(wù)來實(shí)現(xiàn)底層的通信和基本功能,聯(lián)邦成員不必涉及底層的網(wǎng)絡(luò)編程。在它的框架中,每個描述一定功能的子模塊或仿真過程都被稱為是hla的一個聯(lián)邦成員,每個聯(lián)邦成員包含若干個對象。目前rti提供聯(lián)邦管理、聲明管理、對象管理、所有權(quán)管理、時間管理和數(shù)據(jù)分發(fā)管理六大類服務(wù)以及一些必要的支持服務(wù),其中數(shù)據(jù)分發(fā)管理ddm(data distribution management)是一類關(guān)鍵的服務(wù),其主要目的是為了盡可能地減少聯(lián)邦成員收到不需要的數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)流量,以有效地使用系統(tǒng)的通信帶寬和處理機(jī)的計(jì)算能力來滿足系統(tǒng)的可擴(kuò)縮性,這種機(jī)制即為一種數(shù)據(jù)過濾機(jī)制。通過數(shù)據(jù)過濾機(jī)制,使仿

39、真實(shí)體只與感興趣集內(nèi)的實(shí)體交互,它的目的主要有兩個:一是盡可能減少不相關(guān)數(shù)據(jù)的產(chǎn)生,以減少網(wǎng)絡(luò)帶寬的占用;二是降低仿真結(jié)點(diǎn)接收冗余數(shù)據(jù)時引起的處理開銷。在hla中,支持?jǐn)?shù)據(jù)過濾的基本概念是區(qū)域(region)。對象實(shí)例利用區(qū)域描述向外部發(fā)送數(shù)據(jù)以及從外部接收數(shù)據(jù)的需求信息。對象實(shí)例通過更新區(qū)域(update region)和訂購區(qū)域(subscribe region)描述向外發(fā)送數(shù)據(jù)和接收外部數(shù)據(jù)的約束條件。數(shù)據(jù)分發(fā)管理進(jìn)行數(shù)據(jù)過濾的主要實(shí)現(xiàn)策略是各聯(lián)邦成員在擇徑空間中分別表達(dá)各自感興趣的更新區(qū)和訂購區(qū),通過更新區(qū)和訂購區(qū)的比較,當(dāng)存在共同的興趣區(qū)時(即更新區(qū)和訂購區(qū)出現(xiàn)重疊時),ddm將更新

40、聯(lián)邦成員更新的數(shù)據(jù)信息傳遞到訂購區(qū)與其更新區(qū)相重疊的訂購聯(lián)邦成員處。圖2.2即為一個數(shù)據(jù)分發(fā)管理的基本實(shí)現(xiàn)流程。ddm中采用的數(shù)據(jù)分發(fā)算法一般采用基于網(wǎng)格的過濾方法,此方法是一種傳統(tǒng)的多播組分配方法。在該方法中,路由空間被分成一個由固定大小的網(wǎng)格單元構(gòu)成的陣列,每一個網(wǎng)格單元對應(yīng)一個多播組。當(dāng)聯(lián)邦成員的定購區(qū)域與網(wǎng)格單元交迭時,就將聯(lián)邦成員加入到該網(wǎng)格單元對應(yīng)的多播組中。當(dāng)聯(lián)邦成員希望發(fā)送數(shù)據(jù)更新時,更新僅被發(fā)送到與該聯(lián)邦成員更新區(qū)域交迭的網(wǎng)格單元所對應(yīng)的多播組。對應(yīng)于交迭單元的多播組負(fù)責(zé)將數(shù)據(jù)更新傳送到多個定購聯(lián)邦成員。圖2.2 hla中數(shù)據(jù)分發(fā)管理的基本實(shí)現(xiàn)流程2.3.2 cdn中的數(shù)據(jù)分

41、發(fā)技術(shù)cdn(content delivery network),即內(nèi)容分發(fā)網(wǎng)絡(luò)技術(shù)。cdn的基本思路就是通過在internet網(wǎng)絡(luò)結(jié)構(gòu)中增加一個完善、全面的中間層,利用緩存、復(fù)制、負(fù)載平衡和dns重定向等技術(shù),實(shí)時處理網(wǎng)絡(luò)流量和各節(jié)點(diǎn)的負(fù)載狀況,將用戶的請求導(dǎo)向最近的服務(wù)節(jié)點(diǎn)上,用戶就近取得所需的內(nèi)容,從而解決網(wǎng)絡(luò)擁塞、提高上網(wǎng)訪問的總體性能。cdn網(wǎng)絡(luò)中客戶的內(nèi)容請求通過全局內(nèi)容路由到達(dá)某個內(nèi)容交換機(jī),由交換機(jī)將請求的內(nèi)容分發(fā)到距用戶最近的網(wǎng)絡(luò)邊緣節(jié)點(diǎn),即內(nèi)容緩存服務(wù)器上,同時也將客戶的請求重定向到邊緣節(jié)點(diǎn),改善用戶的訪問效果。cdn的主要技術(shù)有內(nèi)容路由、內(nèi)容分發(fā)等28,29,30。內(nèi)容路

42、由技術(shù)的作用是將用戶請求導(dǎo)向整個cdn網(wǎng)絡(luò)中的最佳節(jié)點(diǎn)。最佳節(jié)點(diǎn)的選擇可以運(yùn)用多種評估策略來實(shí)現(xiàn),例如用戶與服務(wù)器距離最近、服務(wù)器負(fù)載最輕等。這是cdn的核心,它決定了整個cdn的效率和性能。內(nèi)容路由技術(shù)可以通過多種方法實(shí)現(xiàn),包括dns、應(yīng)用層重定向、傳輸層重定向等。內(nèi)容分發(fā)技術(shù)指將內(nèi)容從源到復(fù)制緩存到cdn邊緣服務(wù)器的過程。從實(shí)現(xiàn)上來看,有兩種主流的分發(fā)技術(shù):push和pull。push是一種主動分發(fā)的技術(shù)。通常,push由內(nèi)容管理系統(tǒng)發(fā)起,將內(nèi)容從源或中心媒體資源庫分發(fā)到各邊緣的cache 節(jié)點(diǎn)。對于push分發(fā)需要考慮的主要問題是分發(fā)策略,即在什么時候分發(fā)什么內(nèi)容,可以根據(jù)用戶訪問的統(tǒng)計(jì)

43、信息,以及預(yù)定義的內(nèi)容分發(fā)規(guī)則來確定。pull是一種被動的分發(fā)技術(shù),pull分發(fā)通常由用戶請求驅(qū)動。當(dāng)用戶請求的內(nèi)容在本地的邊緣cache上不存在時,cache啟動pull方法從內(nèi)容源或者其他cdn節(jié)點(diǎn)實(shí)時獲取內(nèi)容。在pull方式下,內(nèi)容的分發(fā)是按需的。2.4 數(shù)據(jù)網(wǎng)格中傳統(tǒng)元數(shù)據(jù)分發(fā)技術(shù)2.2.4節(jié)的介紹可知,傳統(tǒng)元數(shù)據(jù)分發(fā)技術(shù)可以分為兩大類:主動分發(fā)和被動分發(fā),由于被動分發(fā)較為簡單,基本上不會涉及到分發(fā)算法研究,目前的研究基本上集中于主動分發(fā)上。對于主動分發(fā)而言,根據(jù)對元數(shù)據(jù)分發(fā)處理的不同,即分發(fā)給什么樣的節(jié)點(diǎn)以及怎么樣轉(zhuǎn)發(fā)別的節(jié)點(diǎn)發(fā)來的元數(shù)據(jù),傳統(tǒng)主動分發(fā)策略也可以進(jìn)行劃分,下面將逐一進(jìn)

44、行介紹15,16。2.4.1 泛洪式(flooding)在該算法中,元數(shù)據(jù)分發(fā)采用最簡單的泛洪方式。在這種算法中,假定每個節(jié)點(diǎn)都了解整個網(wǎng)格中所有節(jié)點(diǎn)的信息,這樣當(dāng)節(jié)點(diǎn)自身產(chǎn)生更新消息后,它會向網(wǎng)格中的所有節(jié)點(diǎn)發(fā)送消息。很顯然,當(dāng)網(wǎng)格規(guī)模較大時,由于網(wǎng)格中節(jié)點(diǎn)較多,這種分發(fā)方式的效率低下,且會產(chǎn)生極大的網(wǎng)絡(luò)流量,這中風(fēng)暴式的分發(fā)也必然會對網(wǎng)絡(luò)穩(wěn)定運(yùn)行提出極大的挑戰(zhàn),因此這種分發(fā)只可能在極少數(shù)特殊的情況下采用。2.4.2 鄰居式(neighborhood) 為了減少泛洪式元數(shù)據(jù)分發(fā)過程中產(chǎn)生的極大網(wǎng)絡(luò)流量,鄰居式分發(fā)算法得以提出,在該算法中,每個網(wǎng)格節(jié)點(diǎn)具有一個鄰居半徑屬性r,即此節(jié)點(diǎn)了解半徑為

45、r范圍內(nèi)的節(jié)點(diǎn),這樣在節(jié)點(diǎn)產(chǎn)生了更新消息時,它就會在消息中設(shè)置ttl值為r,約定只有在ttl值大于0的情況下,消息才能進(jìn)行轉(zhuǎn)發(fā),這樣收到更新消息的鄰居節(jié)點(diǎn)就會判斷ttl是否大于0,如果大于0就會將其減1后向自己的鄰居節(jié)點(diǎn)進(jìn)行轉(zhuǎn)發(fā),否則不進(jìn)行轉(zhuǎn)發(fā)。這樣只有在距節(jié)點(diǎn)邏輯跳數(shù)不大于r范圍中的節(jié)點(diǎn)才能收到消息,這種分發(fā)方式較之泛洪式分發(fā)方式可以明顯的減少對網(wǎng)絡(luò)帶寬的占用。但是這種分發(fā)方式所產(chǎn)生的網(wǎng)絡(luò)流量也是非常大的,分發(fā)效率也不高。2.4.3 水流式(fluid)在這種方法中,為了進(jìn)一步降低分發(fā)的網(wǎng)絡(luò)流量以提高元數(shù)據(jù)分發(fā)的效率,引入了現(xiàn)在比較流行的是網(wǎng)格勢能(grid potential,gp)來區(qū)分

46、節(jié)點(diǎn)的處理能力。網(wǎng)格上的一個節(jié)點(diǎn)的網(wǎng)格勢能可以被認(rèn)為是可以被分派給某個節(jié)點(diǎn)上的應(yīng)用程序的處理能力。該處理能力依賴于鄰近出現(xiàn)的機(jī)器以及他們之間互連的網(wǎng)絡(luò)。同時還有一個相對網(wǎng)格勢能:節(jié)點(diǎn)相對于某個遠(yuǎn)程節(jié)點(diǎn)的勢能。如果節(jié)點(diǎn)的自身網(wǎng)格勢能小于相對于某遠(yuǎn)程節(jié)點(diǎn)的勢能,就把由該遠(yuǎn)程節(jié)點(diǎn)發(fā)出的消息進(jìn)行轉(zhuǎn)發(fā),否則不轉(zhuǎn)發(fā)。而對于自身產(chǎn)生的更新消息,如果周圍節(jié)點(diǎn)相對勢能的平均值小于該節(jié)點(diǎn)的自身的勢能,則該節(jié)點(diǎn)可以向周圍的所有節(jié)點(diǎn)進(jìn)行消息發(fā)送;否則不能進(jìn)行消息發(fā)送。這種方式的主要特點(diǎn)是:消息從勢能高的節(jié)點(diǎn)流向勢能低的節(jié)點(diǎn)。這類似于水流的形式,故而稱為水流式。文獻(xiàn)15,16給出了網(wǎng)格勢能的計(jì)算方法:即選定一段特定的基

47、準(zhǔn)代碼,這樣以各網(wǎng)絡(luò)節(jié)點(diǎn)執(zhí)行這段基準(zhǔn)代碼的效率來確定各節(jié)點(diǎn)的網(wǎng)格勢能,為了測試一個節(jié)點(diǎn)的網(wǎng)絡(luò)勢能,需選取一個標(biāo)準(zhǔn)節(jié)點(diǎn)作為比照,設(shè)c為這段基準(zhǔn)代碼的工作量,為標(biāo)準(zhǔn)節(jié)點(diǎn)執(zhí)行基準(zhǔn)代碼所需的時間,為測試節(jié)點(diǎn)的負(fù)載量(以節(jié)點(diǎn)平均工作量隊(duì)列長度作為衡量指標(biāo)),為測試節(jié)點(diǎn)的工作速度,則測試節(jié)點(diǎn)執(zhí)行基準(zhǔn)代碼的時間的計(jì)算公式為: (2.1)設(shè)為測試節(jié)點(diǎn)的網(wǎng)格勢能,則根據(jù)定義,其計(jì)算公式為: (2.2)根據(jù)公式(2.1)及(2.2),可得網(wǎng)格勢能的推算公式為: (2.3)另外,節(jié)點(diǎn)相對網(wǎng)格勢能的計(jì)算過程與上述類似,在此不再詳述。2.4.4 質(zhì)點(diǎn)式(particle)為了進(jìn)一步降低分發(fā)的網(wǎng)絡(luò)流量以提高元數(shù)據(jù)分發(fā)的效

48、率,本算法在引入網(wǎng)格勢能的同時又對分發(fā)的目標(biāo)進(jìn)行概率處理。它與水流式的不同處在于:即使相對勢能比自身勢能要低,節(jié)點(diǎn)也并不一定可以發(fā)送消息。在該算法中,引用了概率論的知識。設(shè)某個節(jié)點(diǎn)(勢能為)向遠(yuǎn)程節(jié)點(diǎn)(相對勢能為)發(fā)送消息的可能性為:,其中k是一個常數(shù),這樣節(jié)點(diǎn)對周圍n1個節(jié)點(diǎn)所能發(fā)送消息的節(jié)點(diǎn)數(shù)為:,節(jié)點(diǎn)會對n1個鄰居節(jié)點(diǎn)中隨機(jī)的選取個節(jié)點(diǎn)進(jìn)行消息發(fā)送。這種行為有點(diǎn)類似于質(zhì)點(diǎn)的活動方式,故而稱為質(zhì)點(diǎn)式。2.5 小結(jié)本章首先分析數(shù)據(jù)網(wǎng)格中的一些核心問題,隨后對元數(shù)據(jù)的概念、網(wǎng)格中元數(shù)據(jù)的分類、元數(shù)據(jù)常有的標(biāo)準(zhǔn)化問題以及元數(shù)據(jù)分發(fā)方式做了詳細(xì)的分析和介紹,最后詳細(xì)介紹了傳統(tǒng)的數(shù)據(jù)分發(fā)技術(shù)以及數(shù)據(jù)

49、網(wǎng)格中的傳統(tǒng)元數(shù)據(jù)分發(fā)技術(shù)。對上述關(guān)鍵技術(shù)的充分研究,為第三章提出的一種新的元數(shù)據(jù)分發(fā)機(jī)制的設(shè)計(jì)和實(shí)現(xiàn)提供了相應(yīng)的基礎(chǔ)和依據(jù)。3 輪值會議元數(shù)據(jù)分發(fā)機(jī)制3.1 背景介紹3.1.1 網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)數(shù)據(jù)網(wǎng)格可以認(rèn)為是由一條高速鏈路將一系列的異構(gòu)用戶連接起來的虛擬網(wǎng)絡(luò),在實(shí)際網(wǎng)格應(yīng)用中,整個網(wǎng)格系統(tǒng)會根據(jù)其自身需求和目的的不同劃分為多個虛擬組織的形式。虛擬組織為所有參與者提供可用資源,獲取同一規(guī)范,并在資源可以被使用的條件下使用資源等功能31,32,每個虛擬組織管理的服務(wù)可理解為地理位置分布、邏輯位置相鄰、屬性相似的服務(wù)集合。如圖3.1所示,實(shí)際的數(shù)據(jù)網(wǎng)格系統(tǒng)可以分為上下兩層,下層為集中控制層,上層為

50、純p2p層(非結(jié)構(gòu)化)。這樣下層中的網(wǎng)格用戶就會被劃分到不同的虛擬組織域中,并且每個虛擬組織域中都有一個元數(shù)據(jù)服務(wù)器,這樣每個域內(nèi)是屬于集中控制的;同時所有的元數(shù)據(jù)服務(wù)器之間是純對等的,即構(gòu)成非結(jié)構(gòu)化的p2p。圖3.1 數(shù)據(jù)網(wǎng)格拓?fù)浞謱舆@樣實(shí)際上就將數(shù)據(jù)網(wǎng)格中的用戶劃分為兩類:管理節(jié)點(diǎn)以及普通節(jié)點(diǎn),其中普通節(jié)點(diǎn)負(fù)責(zé)提供資源,同時也會請求資源;而管理節(jié)點(diǎn)即為一個元數(shù)據(jù)服務(wù)器,響應(yīng)所轄域中普通節(jié)點(diǎn)的資源請求,同時還會與其他的管理節(jié)點(diǎn)進(jìn)行交互。一個管理節(jié)點(diǎn)負(fù)責(zé)管理多個普通節(jié)點(diǎn),它會收集所轄域中的所有普通節(jié)點(diǎn)的元數(shù)據(jù)信息以及它們所請求的元數(shù)據(jù)信息,并進(jìn)行匯總,同時通過一定的控制策略來與其他的管理節(jié)點(diǎn)進(jìn)

51、行交互,以獲取各自所需的元數(shù)據(jù)信息,最后將得到的元數(shù)據(jù)信息分發(fā)給所轄區(qū)的普通節(jié)點(diǎn)。由此可知,元數(shù)據(jù)分發(fā)的關(guān)鍵技術(shù)就落到了如何在管理節(jié)點(diǎn)間進(jìn)行元數(shù)據(jù)分發(fā)的問題上,這也是本章研究的重點(diǎn)。3.1.2 小世界網(wǎng)絡(luò)小世界(small-world) 33,34,35的概念來自于60年代末milgram在哈佛完成的一個著名實(shí)驗(yàn):他在信封上寫上他在美國波士頓的一個朋友的地址,然后在在英國隨機(jī)選擇了若干人,要求他們把信通過中間人轉(zhuǎn)交給他的朋友,注意每次都要把信轉(zhuǎn)交給他認(rèn)為最有可能找到收信人的熟人,下一個轉(zhuǎn)發(fā)者再按照同樣的方法將信轉(zhuǎn)發(fā)。經(jīng)過統(tǒng)計(jì)分析,milgram發(fā)現(xiàn)在任何兩個陌生人之間,只需要平均通過6個熟人就

52、能聯(lián)系在一起,這種特征被稱為“6度分離”。milgram的實(shí)驗(yàn)表明:社會中任意挑選的兩個人之間,總存在一條由中間的熟人組成的短鏈把他們連接在一起,而他們也總能找到這條短鏈,這個結(jié)論用物理學(xué)的術(shù)語來說就是“小世界效應(yīng)”。watts和strogatz進(jìn)一步指出小世界現(xiàn)象不僅存在于人類社會,它同樣存在于現(xiàn)實(shí)世界的許多自然和人工的網(wǎng)絡(luò)。符合small-world這一特性的網(wǎng)絡(luò)各個節(jié)點(diǎn)的連接度比較均勻,即基本上每個節(jié)點(diǎn)的聯(lián)結(jié)數(shù)都近似相等,同時任意兩個節(jié)點(diǎn)之間建立連接的長度都很小。研究表明目前流行的gnutella網(wǎng)絡(luò)也呈現(xiàn)small-world特性。3.1.3 zipf定律zipf定律是由美國學(xué)者g.k

53、.zipf于上世紀(jì)40年代提出的詞頻分布定律:如果統(tǒng)計(jì)一篇較長文章中每個詞出現(xiàn)的頻率,按照高頻詞在前,低頻詞在后的遞減順序排列,并用自然數(shù)把這些詞編上等級序號,頻率最高的詞為1,頻率次高為2,以此類推。若用f表示頻率,r表示序號,則有,c為常數(shù)。zipf定律也被稱為80-20法則,即80%的訪問只會針對20%的數(shù)據(jù)。人們通過對現(xiàn)實(shí)web系統(tǒng)中通信流量的分析,發(fā)現(xiàn)用戶對web對象的訪問模式服從zipf定律分布或者zipf-like定律分布36。zipf-like定律分布中:概率表示訪問頻度,則排列第個對象的訪問概率為: (3.1)其中,為zipf-like定律分布參數(shù),n為所有數(shù)據(jù)的個數(shù)。通常。

54、3.2 輪值會議元數(shù)據(jù)分發(fā)的原理2.2.4節(jié)介紹了目前兩種元數(shù)據(jù)分發(fā)方式的優(yōu)缺點(diǎn),為了綜合這兩種分發(fā)方式的優(yōu)點(diǎn),即主動元數(shù)據(jù)分發(fā)(active metadata dissemination, actmd)的準(zhǔn)確性和被動元數(shù)據(jù)分發(fā)(passive metadata dissemination, pasmd)的低代價(jià)性,再結(jié)合國內(nèi)外關(guān)于分發(fā)技術(shù)的相關(guān)研究成果,提出了一種新的元數(shù)據(jù)分發(fā)機(jī)制輪值會議元數(shù)據(jù)分發(fā)(rotating meeting metadata dissemination, rmmd)。3.2.1 輪值會議元數(shù)據(jù)分發(fā)的主要思想rmmd主要思想如下:采用輪值會議主持的方法,每個管理節(jié)點(diǎn)會

55、周期性地被系統(tǒng)觸發(fā)并短暫的成為中央服務(wù)器,成為中央服務(wù)器的管理節(jié)點(diǎn)(“主持人”)會召開會議,并召集“代表”(相鄰一定“距離”的管理節(jié)點(diǎn))來參加會議,在會議進(jìn)行中,每個“代表”會向“主持人”提交自己的元數(shù)據(jù)更新信息(包括自己更新的元數(shù)據(jù)以及部分擁有的元數(shù)據(jù))、元數(shù)據(jù)定購信息,“主持人”會將這些信息收集起來,并進(jìn)行匯總,從而得到一個全局元數(shù)據(jù)更新視圖和一個全局元數(shù)據(jù)定購視圖,這樣“主持人”就會將結(jié)合全局元數(shù)據(jù)更新視圖將自己的元數(shù)據(jù)進(jìn)行更新,同時判斷自己更新后的元數(shù)據(jù)信息是否能滿足所有元數(shù)據(jù)的定購需求。如果完全滿足這些需求,則“主持人”就會按照每個“代表”的定購信息將其所需的元數(shù)據(jù)發(fā)送過去,并宣告會

56、議的結(jié)束;如果不能滿足所有的元數(shù)據(jù)的定購需求,“主持人”會收集無法滿足的元數(shù)據(jù),對這些元數(shù)據(jù)進(jìn)行歸類統(tǒng)計(jì),得到一個全局元數(shù)據(jù)“重定購”視圖,最后按照自己的元數(shù)據(jù)將滿足每個“代表”定購信息的元數(shù)據(jù)發(fā)送過去,同時將全局元數(shù)據(jù)“重定購”視圖中的一部分發(fā)送過去,再宣告會議結(jié)束,這樣定購信息沒有完全滿足的“代表”只好參加下次會議去獲取想要的元數(shù)據(jù)信息。一旦會議結(jié)束,參加會議的“主持人”和“代表”將不再存在關(guān)聯(lián),并且下一次會議將在一段時間后由系統(tǒng)指派另一個節(jié)點(diǎn)進(jìn)行組織。3.2.2 輪值會議元數(shù)據(jù)分發(fā)的特點(diǎn)rmmd綜合了主動分發(fā)的準(zhǔn)確性和被動分發(fā)的低代價(jià)性,并采用了hla數(shù)據(jù)分發(fā)管理中采用的數(shù)據(jù)過濾機(jī)制,它

57、具有如下的幾個特點(diǎn)。第一,rmmd通過系統(tǒng)輪轉(zhuǎn)觸發(fā)機(jī)制可以在無結(jié)構(gòu)化的純p2p網(wǎng)絡(luò)中引入局部集中控制機(jī)制,這樣就能使元數(shù)據(jù)分發(fā)在局部范圍內(nèi)得到很好的實(shí)施,并且任何節(jié)點(diǎn)都有機(jī)會成為會議主持人并召集會議,只要能保證輪轉(zhuǎn)機(jī)制的合理、公平、高效的展開,就能保證整個網(wǎng)絡(luò)中的元數(shù)據(jù)得到較高效率的分發(fā),至于怎樣保證輪轉(zhuǎn)機(jī)制的實(shí)施將會在下一節(jié)的rmmd的具體設(shè)計(jì)及實(shí)現(xiàn)中闡述。第二,每一個被觸發(fā)的節(jié)點(diǎn)就是一個局部范圍內(nèi)的服務(wù)器,一方面它可以讓自己的元數(shù)據(jù)得到很好的更新,另一方面它又可以將自己的元數(shù)據(jù)分發(fā)給其他參加會議的節(jié)點(diǎn),至于會議范圍的確定以及分發(fā)怎樣的元數(shù)據(jù)給會議參加節(jié)點(diǎn),這些都會在下一節(jié)的rmmd的具體設(shè)計(jì)及實(shí)現(xiàn)中闡述。第三,輪值會議的開展可以保證整個網(wǎng)絡(luò)中的元數(shù)據(jù)在較低的成本代價(jià)下得到準(zhǔn)確的配置,同時通過輪值會議可以讓與會的節(jié)點(diǎn)對一定范圍內(nèi)的節(jié)點(diǎn)有更好的了解,而在傳統(tǒng)的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論