版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、碩士學位論文數(shù)據(jù)網(wǎng)格環(huán)境下的元數(shù)據(jù)分發(fā)技術研究a dissertation submitted to huazhong university of science andtechnology for the degree of master of engineeringthe research on metadata dissemination technology for data gridcandidate: zuo jinhu major: computer software and theorysupervisor: prof. lu yanshenghuazhong universi
2、ty of science and technologywuhan 430074, p.r.c.january, 2007獨創(chuàng)性聲明本人聲明所呈交的學位論文是我個人在導師指導下進行的研究工作及取得的研究成果。盡我所知,除文中已經(jīng)標明引用的內容外,本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫過的研究成果。對本文的研究做出貢獻的個人和集體,均已在文中以明確方式標明。本人完全意識到本聲明的法律結果由本人承擔。 學位論文作者簽名: 日期: 年 月 日學位論文版權使用授權書本學位論文作者完全了解學校有關保留、使用學位論文的規(guī)定,即:學校有權保留并向國家有關部門或機構送交論文的復印件和電子版,允許論文被查
3、閱和借閱。本人授權華中科技大學可以將本學位論文的全部或部分內容編入有關數(shù)據(jù)庫進行檢索,可以采用影印、縮印或掃描等復制手段保存和匯編本學位論文。保密,在_年解密后適用本授權書。本論文屬于不保密。(請在以上方框內打“”)學位論文作者簽名: 指導教師簽名:日期:年 月 日 日期:年 月 摘 要伴隨著internet網(wǎng)絡規(guī)模的飛速增長,在計算密集型和數(shù)據(jù)密集型應用領域,傳統(tǒng)的分布式計算和并行處理技術已不能滿足高性能分布式處理和分布式海量存儲管理的需求,于是網(wǎng)格技術應運而生。數(shù)據(jù)網(wǎng)格(data grid)的概念來自于網(wǎng)格,它是網(wǎng)格技術在數(shù)據(jù)管理方面的應用和實現(xiàn)。數(shù)據(jù)網(wǎng)格環(huán)境下的數(shù)據(jù)訪問過程依賴于資源發(fā)現(xiàn)
4、,而資源發(fā)現(xiàn)即為發(fā)現(xiàn)對數(shù)據(jù)資源進行描述的元數(shù)據(jù),網(wǎng)格環(huán)境下網(wǎng)絡資源頻繁變化,相應的元數(shù)據(jù)變化也很頻繁,而如何能更加快捷有效地獲得所需要的元數(shù)據(jù),就需要各個節(jié)點能夠將各自的元數(shù)據(jù)快捷有效地分發(fā)到網(wǎng)絡中的其他相關節(jié)點,這取決于元數(shù)據(jù)分發(fā)策略的實施。現(xiàn)有的元數(shù)據(jù)分發(fā)策略基本可以分為兩類:被動分發(fā)和主動分發(fā)。主動元數(shù)據(jù)分發(fā)具有很高的準確性,但是卻會占用很多網(wǎng)絡資源;被動元數(shù)據(jù)分發(fā)具有低代價性,但是卻很難保證元數(shù)據(jù)的準確性。輪值會議元數(shù)據(jù)分發(fā)(rotating meeting metadata dissemination, rmmd)以輪值會議召開的方式來進行元數(shù)據(jù)的分發(fā),并采用了hla(high le
5、vel architecture)數(shù)據(jù)分發(fā)管理中采用的數(shù)據(jù)過濾機制,它兼具了主動元數(shù)據(jù)分發(fā)的準確性和被動元數(shù)據(jù)分發(fā)的低代價性,能快捷有效的完成元數(shù)據(jù)在整個網(wǎng)格中的分發(fā),讓整個網(wǎng)格的元數(shù)據(jù)在較短的時間內、用較小的代價得到較好的配置。通過模擬仿真實驗將rmmd策略與主動元數(shù)據(jù)分發(fā)策略、被動元數(shù)據(jù)分發(fā)策略進行比較,實驗結果顯示rmmd策略可以有效的分發(fā)整個網(wǎng)格中的元數(shù)據(jù),提高分發(fā)的準確性,并保證分發(fā)的低代價性。關鍵詞: 數(shù)據(jù)網(wǎng)格,元數(shù)據(jù)分發(fā),輪值會議abstractwith the rapid growth of internet network scale, the traditional dis
6、tributed computation and parallel processing technology hasnt met the need of this high-powered distributed computation and distributed management for large memory in the domain of computation-dense and data-dense application. as a result, grid technology came into being. data grid of is the grid te
7、chnology application and realization in data management.the process of data accessing in the data grid depends on resource discovery which finds out the metadata that describes source. for the resource in grid frequently changes, the corresponding metadata changes a lot, too. to get the requisite me
8、tadata quickly and effectively requires that every node could disseminate its data to other corresponding nodes quickly and effectively, and this lies on the implement of metadata dissemination strategy which is classified as passive and active. active metadata dissemination (actmd) has great veraci
9、ty but it occupies too much network resource. passive metadata dissemination (pasmd) has low cost but it hardly ensures the veracity of metadata. rotating meeting metadata dissemination (rmmd) disseminate metadata in the way of rotating meeting convocation, and adopts the data filtration mechanism i
10、n hla data distribution management .the rmmd which has both the benefits of veracity of actmd and low cost of pasmd can disseminate metadata in the whole grid quickly and effectively, and make the metadata in the whole grid get better collocation with lower cost in a shorter time. compared rmmd with
11、 pasmd and actmd through simulation experiment, the results show the rmmd strategy could disseminate the metadata in the whole grid effectively, increase the veracity and ensure the low cost of dissemination.keywords:data grid,metadata dissemination,rotating meeting目 錄摘 要iabstractii1 緒論1.1研究背景(1)1.2
12、國內外研究概括(2)1.3本課題研究的目標和意義(5)1.4本文組織結構(6)2 數(shù)據(jù)網(wǎng)格中的元數(shù)據(jù)分發(fā)技術2.1數(shù)據(jù)網(wǎng)格核心問題(7)2.2元數(shù)據(jù)的提出(7)2.3傳統(tǒng)數(shù)據(jù)分發(fā)技術(11)2.4數(shù)據(jù)網(wǎng)格中傳統(tǒng)元數(shù)據(jù)分發(fā)技術(13)2.5小結(15)3輪值會議元數(shù)據(jù)分發(fā)機制3.1背景介紹(16)3.2輪值會議元數(shù)據(jù)分發(fā)的原理(18)3.3輪值會議元數(shù)據(jù)分發(fā)的協(xié)議(19)3.4小結(28)4原型系統(tǒng)開發(fā)與仿真實驗分析4.1rmmd原型系統(tǒng)開發(fā)(29)4.2實驗環(huán)境opnet(30)4.3仿真模型(34)4.4仿真算法(37)4.5實驗與性能分析(40)4.6小結(43)5總結與展望5.1本文工作
13、總結(44)5.2展望(45)致 謝(46)參考文獻(47) 1 緒論1.1 研究背景伴隨著internet網(wǎng)絡規(guī)模的飛速增長,計算機網(wǎng)絡技術和分布式技術得到了高速發(fā)展和廣泛應用,許多科學計算領域,特別是計算密集型和數(shù)據(jù)密集型應用領域,對廣域網(wǎng)環(huán)境下海量數(shù)字信息分析處理和協(xié)同計算能力的要求也越來越高1。這類應用需要將分布在不同地理區(qū)域的高性能計算能力、超大規(guī)模數(shù)據(jù)集合和各種資源整合在一起,為分布在不同地理區(qū)域的用戶提供服務。傳統(tǒng)的分布式計算和并行處理技術已不能滿足這種高性能分布式處理和分布式海量存儲管理的需求,于是網(wǎng)格2,3技術應運而生。網(wǎng)格技術可以把分布在各地的計算機連接起來,實現(xiàn)計算資源、
14、存儲資源、數(shù)據(jù)資源、信息資源、知識資源、專家資源的全面共享,感覺如同個人使用一臺超級計算機一樣。這種虛擬資源可以使相關人員迅速獲得所需的數(shù)據(jù)訪問和處理能力,幫助其進行計算密集型的研究和數(shù)據(jù)分析、解決復雜的業(yè)務問題。這樣,網(wǎng)格就可以幫助用戶突破今天技術基礎設施的限制。對于傳統(tǒng)網(wǎng)絡環(huán)境,網(wǎng)格具有動態(tài)可變、異構、多域等特性。網(wǎng)格計算作為新一代的分布式計算框架,與傳統(tǒng)分布式系統(tǒng)的主要區(qū)別在于在沒有集中控制的情況下,通過對計算資源進行大規(guī)模的共享,滿足應用程序對高性能計算的要求4,并且這種對計算資源的大規(guī)模共享是動態(tài)的、柔性的、安全的和協(xié)作的。目前,在國內外網(wǎng)格也引起了極大的關注,如美國argonne國
15、家實驗室研發(fā)的globus系統(tǒng)5,6、歐洲數(shù)據(jù)網(wǎng)格datagrid7、美國能源部的科學計算網(wǎng)格doe science grid、中科院計算所的織女星網(wǎng)格vega grid8等等。數(shù)據(jù)網(wǎng)格(data grid)源于網(wǎng)格,它是網(wǎng)格技術在數(shù)據(jù)管理方面的應用和實現(xiàn)。它將地理上分布、異構的多種數(shù)據(jù)資源,通過高速互連網(wǎng)絡連接并集成起來,屏蔽底層異構的物理資源,形成單一的邏輯視圖,實現(xiàn)資源共享和協(xié)同工作,為用戶提供虛擬的數(shù)據(jù)訪問、數(shù)據(jù)存儲、數(shù)據(jù)管理和處理環(huán)境。其中,良好地表示、存儲、訪問和使用大量資源信息是數(shù)據(jù)網(wǎng)格運行的基本前提。在數(shù)據(jù)網(wǎng)格計算中,資源是分布的,資源及其提供者也是分布的。為了對網(wǎng)絡資源進行有
16、效的管理和檢索,使目前有序和無序狀態(tài)并存的網(wǎng)絡資源能夠像傳統(tǒng)資源(如館藏資源)一樣有序化,從而使它們得到更好的利用,人們一直都在作著多方面的努力。從早期的archie和gopher系統(tǒng),到近期的搜索引擎和主題指南,都是這方面努力的成果。歷年實踐表明,增加關于資源的額外信息或元數(shù)據(jù)(metadata)是更好地組織資源的基礎,它能夠提高相關資源被檢索和存取的可能性,提供對主題領域更清晰的全面認識,并提高用戶區(qū)別相似資源的能力。正因為如此,元數(shù)據(jù)逐漸受到普遍的重視9。元數(shù)據(jù)(metadata),簡言之就是“關于數(shù)據(jù)的數(shù)據(jù)”,是對數(shù)據(jù)進行組織和處理的基礎。數(shù)據(jù)網(wǎng)格環(huán)境下的數(shù)據(jù)訪問過程依賴于資源發(fā)現(xiàn),而
17、資源發(fā)現(xiàn)即為發(fā)現(xiàn)對數(shù)據(jù)資源進行描述的元數(shù)據(jù)。同時數(shù)據(jù)網(wǎng)格環(huán)境中網(wǎng)絡資源頻繁變化,一方面,結點可以動態(tài)的加入、離開系統(tǒng),另一方面,各個節(jié)點中的資源也是不斷變化的,相應的元數(shù)據(jù)變化也很頻繁,而如何能更加快捷有效地獲得所需要的元數(shù)據(jù),就需要各個節(jié)點能夠將各自的元數(shù)據(jù)快捷有效地分發(fā)到網(wǎng)絡中的其他相關節(jié)點,這取決于元數(shù)據(jù)分發(fā)策略的實施,也是本文集中探討的問題。1.2 國內外研究概括1.2.1 globus中的元數(shù)據(jù)目錄服務globus系統(tǒng)是目前比較具有影響力的一個網(wǎng)格項目,提供網(wǎng)格環(huán)境下的中間件服務,如mds、gridftp等。系統(tǒng)使用標準的協(xié)議實現(xiàn)了文件數(shù)據(jù)的移動、遠程訪問gass及數(shù)據(jù)的高速傳輸gr
18、idftp機制,在此基礎上完成數(shù)據(jù)復制、元數(shù)據(jù)目錄的管理mds(metadata and directory service)和復制的選擇工作,為數(shù)據(jù)網(wǎng)格系統(tǒng)提供了一個較好的底層系統(tǒng)開發(fā)平臺10。其中,mds在網(wǎng)格環(huán)境中提供資源信息服務11。mds主要負責對網(wǎng)格環(huán)境中信息的發(fā)現(xiàn)、注冊、查詢、修改等工作,提供對網(wǎng)格計算環(huán)境的一個真實、實時的動態(tài)反映。該服務是建立在輕權目錄訪問協(xié)議ldap(lightweight directory access protocol)12基礎上的,處理網(wǎng)格計算環(huán)境中的各種資源(包括數(shù)據(jù)資源、計算資源等)、服務和其他主體(entity)的描述,是網(wǎng)格計算環(huán)境中的信息服
19、務中心。它采用兩層結構13:1) 網(wǎng)格資源信息服務器(grid resource information server, gris):以一種目錄的結構登記具體的資源信息。2) 網(wǎng)格索引信息服務器(grid index information server, giis):記錄有gris的地址,并能提供gris信息緩沖。1.2.2 griddaen中的元信息服務griddaen是國內最早實現(xiàn)的通用數(shù)據(jù)網(wǎng)格原型系統(tǒng),是中國國家網(wǎng)格(china national grid, 簡稱cngrid)研究的一部分。cngrid是國家“十五”863計劃“高性能計算機及其核心軟件”重大專向支持建設的網(wǎng)格示范平臺,
20、通過資源共享、協(xié)同工作和服務機制,有效支持科學研究、資源環(huán)境、先進制造和信息服務等領域的應用,以技術創(chuàng)新推動國家信息化建設及相關產業(yè)的發(fā)展。griddaen主要目標是統(tǒng)一管理和訪問分布異構環(huán)境下的海量存儲和數(shù)據(jù)資源,為用戶提供一體化虛擬數(shù)據(jù)空間和統(tǒng)一邏輯視圖,支持對分布數(shù)據(jù)集的統(tǒng)一無縫訪問,實現(xiàn)虛擬數(shù)據(jù)集和跨管理域的聯(lián)邦數(shù)據(jù)服務。系統(tǒng)具有可擴展性、安全性、動態(tài)可配置、高性能、高可用性等特點14。griddaen主要由客戶機、數(shù)據(jù)訪問、元信息服務mdis(metadata information service)和底層異構資源四部分組成。其中,數(shù)據(jù)訪問子系統(tǒng)包括請求優(yōu)化管理調度與drb(data
21、 request broker)服務器,元信息服務子系統(tǒng)包括高層元信息服務與局部信息服務。drb服務為用戶提供數(shù)據(jù)訪問、存儲和管理的功能。mdis是一個層次式分布服務結構,由局部元信息服務器和中央全局元信息服務器組成。各個局部元數(shù)據(jù)服務器負責所對應本地的資源和數(shù)據(jù)元信息服務,提供元信息服務的訪問。中央服務器建立各個局部元信息的索引和數(shù)據(jù)緩沖,為drb實現(xiàn)統(tǒng)一的訪問接口和全局數(shù)據(jù)視圖提供元信息支持。mdis和drb是相互獨立設計和實現(xiàn)的,通過系統(tǒng)的部署和配置建立服務關系。圖1.1為元信息服務邏輯結構圖。中央全局元信息服務器處于系統(tǒng)的中央位置,管理著分布各處的局部元信息服務。局部元信息服務則分散在
22、系統(tǒng)中的不同位置,受到中央節(jié)點的管理和監(jiān)控。局部元信息服務一般位于某臺元信息服務節(jié)點機器上,通過配置為某個或者某幾個drb域提供元信息服務。這種兩層式設計可以提高系統(tǒng)的可擴展性,方便系統(tǒng)管理,并減少了集中式設計帶來的性能瓶頸和單點失效問題。中心節(jié)點局部site a局部局部site csite bsite x圖1.1 元信息服務邏輯結構圖1.2.3 傳統(tǒng)網(wǎng)格中元數(shù)據(jù)分發(fā)技術現(xiàn)有的元數(shù)據(jù)分發(fā)方式基本可以分為兩類:被動分發(fā)和主動分發(fā)。對于被動分發(fā)而言,除非有請求到達,節(jié)點不會發(fā)布自己擁有資源的元數(shù)據(jù);主動分發(fā)與之相反,當節(jié)點加入網(wǎng)絡或者節(jié)點數(shù)據(jù)發(fā)生一定變化的時候,節(jié)點會立即發(fā)布自己的元數(shù)據(jù)。顯然,被
23、動分發(fā)的網(wǎng)絡資源的消耗甚小,但同時對于網(wǎng)絡資源頻繁變化的環(huán)境,元數(shù)據(jù)中存在很多錯誤,其他節(jié)點數(shù)據(jù)的準確性無法得到滿足。而主動分發(fā)可以在最大可能上保證元數(shù)據(jù)的準確性,從而可以增加節(jié)點數(shù)據(jù)的有效性,但由于分發(fā)數(shù)據(jù)過多,對網(wǎng)絡資源的使用也是最多的。對于主動分發(fā)而言,根據(jù)對元數(shù)據(jù)分發(fā)處理的不同,即分發(fā)給什么樣的節(jié)點以及怎么樣轉發(fā)別的節(jié)點發(fā)來的元數(shù)據(jù),可以將主動分發(fā)策略分為以下幾種15,16。1. 泛洪式 在該算法中,元數(shù)據(jù)分發(fā)采用最簡單的泛洪的方式。也就是說:當自身產生更新消息后,也向網(wǎng)格中的所有節(jié)點發(fā)送消息。2. 鄰居式在該算法中,所采用的策略是:設定一個半徑范圍(該半徑可以用節(jié)點跳轉數(shù)來衡量)發(fā)送
24、消息時,只向處于該半徑范圍之內的所有節(jié)點發(fā)送消息。 3. 水流式 在這種方法中,采用的其實是一種特殊節(jié)點法,根據(jù)某種方式來確定出某些特殊節(jié)點?,F(xiàn)在比較流行的是網(wǎng)格勢能來區(qū)分節(jié)點的處理能力。網(wǎng)格上的一個節(jié)點的網(wǎng)格勢能可以被認為是可以被分派給某個節(jié)點上的應用程序的處理能力。該處理能力依賴于鄰近出現(xiàn)的機器以及他們之間互連的網(wǎng)絡。同時還有一個相對網(wǎng)格勢能:節(jié)點相對于某個遠程節(jié)點的勢能。如果節(jié)點的自身網(wǎng)格勢能小于相對于某遠程節(jié)點的勢能,就把由該遠程節(jié)點發(fā)出的消息進行轉發(fā),否則不轉發(fā)。而對于自身產生的更新消息,如果周圍節(jié)點相對勢能的平均值小于該節(jié)點的自身的勢能,則該節(jié)點可以向周圍的所有節(jié)點進行消息發(fā)送;否
25、則不能進行消息發(fā)送。這種方式的主要特點是:消息從勢能高的節(jié)點流向勢能低的節(jié)點。這類似于水流的形式,故稱為水流式。 4. 質點式 本算法依然采用了網(wǎng)格勢能的概念。不同的是:即使相對勢能比自身勢能要低,節(jié)點也并不一定可以發(fā)送消息。在該算法中,引用了概率論的知識,即節(jié)點隨機選取周圍部分的節(jié)點進行消息發(fā)送。這種行為有點類似于質點的活動方式,故而稱為質點式。1.3 本課題研究的目標和意義 元數(shù)據(jù)被動分發(fā)對網(wǎng)絡資源的消耗甚小,具有低代價性,但同時對于網(wǎng)絡資源頻繁變化的環(huán)境,元數(shù)據(jù)中存在很多錯誤,其他節(jié)點數(shù)據(jù)的準確性無法得到滿足。而元數(shù)據(jù)主動分發(fā)可以在最大可能上保證元數(shù)據(jù)的準確性,從而可以增加節(jié)點數(shù)據(jù)的有效
26、性,但由于分發(fā)數(shù)據(jù)過多,對網(wǎng)絡資源的使用也是最多的。如何能設計出一種分發(fā)策略,將這兩種分發(fā)技術的優(yōu)點結合起來,這將是本文的工作核心。本文通過對傳統(tǒng)數(shù)據(jù)分發(fā)技術,特別式網(wǎng)格中的元數(shù)據(jù)分發(fā)技術的研究,提出了一種新的元數(shù)據(jù)分發(fā)機制,并設計實現(xiàn)了這種分發(fā)策略,通過仿真實驗的對比驗證,實驗結果表明這種分發(fā)策略確實綜合了主動分發(fā)的準確性以及被動分發(fā)的低代價性。1.4 本文組織結構本文以數(shù)據(jù)網(wǎng)格為研究背景,介紹了傳統(tǒng)的元數(shù)據(jù)分發(fā)技術,在此基礎上提出了一種新的元數(shù)據(jù)分發(fā)框機制,并通過仿真實驗與傳統(tǒng)的分發(fā)技術進行了分析對比。本文各章的內容安排如下:第一章為緒論,介紹了本課題的研究背景,然后介紹了國內外的研究現(xiàn)狀
27、。第二章為數(shù)據(jù)網(wǎng)格中的元數(shù)據(jù)分發(fā)技術,介紹了數(shù)據(jù)網(wǎng)格中的核心問題,并對元數(shù)據(jù)的概念、網(wǎng)格中元數(shù)據(jù)的分類、元數(shù)據(jù)常有的標準化問題以及元數(shù)據(jù)分發(fā)方式做了詳細的分析和介紹,最后詳細介紹了傳統(tǒng)的數(shù)據(jù)分發(fā)技術以及數(shù)據(jù)網(wǎng)格中的傳統(tǒng)元數(shù)據(jù)分發(fā)技術。第三章為輪值會議元數(shù)據(jù)分發(fā)機制,首先介紹了設計此分發(fā)機制的背景知識,隨后提出了一種新的元數(shù)據(jù)分發(fā)機制,最后對對這種分發(fā)機制進行了設計和實現(xiàn)。第四章為仿真實驗與性能分析,首先介紹了rmmd的原型系統(tǒng)開發(fā),之后分析了opnet仿真工具,隨后詳細介紹了仿真模型及實驗算法,最后給出仿真實驗結果。第五章為總結與展望,最后為致謝與參考文獻。2 數(shù)據(jù)網(wǎng)格中的元數(shù)據(jù)分發(fā)技術2.1
28、 數(shù)據(jù)網(wǎng)格核心問題數(shù)據(jù)網(wǎng)格在網(wǎng)格基本功能的基礎上擴充數(shù)據(jù)管理功能,提供與信息有關的各種服務,其最核心的關鍵技術是元數(shù)據(jù)管理和存儲資源代理。良好地表示、存儲、訪問和使用大量資源信息是數(shù)據(jù)網(wǎng)格運行的基本前提。在數(shù)據(jù)網(wǎng)格計算中,資源是分布的,資源及其提供者也是分布的,這些資源包括數(shù)據(jù)、計算機、設備、網(wǎng)絡、外設、軟件、服務、代碼、人員等17。元數(shù)據(jù)管理服務命名、描述、收集、組織和管理數(shù)據(jù)網(wǎng)格中的資源信息,這些信息就是用于描述資源、方法、數(shù)據(jù)集和用戶的元數(shù)據(jù)。為了實現(xiàn)命名的透明性,網(wǎng)格需要有效管理數(shù)量繁多的名字和屬性,以及它們之間的關系;為了實現(xiàn)定位的透明性,網(wǎng)格需要有效管理數(shù)據(jù)集的定位信息;為了實現(xiàn)協(xié)
29、議的透明性,網(wǎng)格需要有效管理數(shù)據(jù)資源的有關信息。實際上,這些信息就是用于描述資源、方法、數(shù)據(jù)集和用戶的元數(shù)據(jù),概括地說,元數(shù)據(jù)目錄為用戶身份認證、數(shù)據(jù)定位、訪問控制、數(shù)據(jù)復制等提供支持18。2.2 元數(shù)據(jù)的提出2.2.1 mds元數(shù)據(jù)概念元數(shù)據(jù)的概念起源于計算機科學,早在20世紀60年代,為了有效描述數(shù)據(jù)集,jack mayers就定義了metadata一詞的概念,其中文譯名有多種,元數(shù)據(jù)是其當前在中國大陸比較通用的譯名。元數(shù)據(jù)最常見的寬泛定義“關于數(shù)據(jù)的數(shù)據(jù)”已經(jīng)得到了普遍認可,但由于這一定義過于簡單抽象,對它的認可只是表明在元數(shù)據(jù)的本質方面人們達成的共識。事實上,人們對元數(shù)據(jù)的理解和認識還
30、存在不少差異,迄今尚未形成一個真正統(tǒng)一的元數(shù)據(jù)定義19。較寬泛的元數(shù)據(jù)定義:元數(shù)據(jù)是描述一個具體的資源對象,并能對這個對象進行定位、管理,且有助于它的發(fā)現(xiàn)與獲取的數(shù)據(jù)。這是一個比較籠統(tǒng)的概念,它包括多個詞匯:元數(shù)據(jù)標準、元數(shù)據(jù)項、元數(shù)據(jù)記錄等,可以認為是這些概念的統(tǒng)稱。元數(shù)據(jù)的產生對管理龐大的信息數(shù)據(jù)起著不可忽視的作用。元數(shù)據(jù)的應用領域廣泛,作用也各不相同,但總體來看,它們都具有一些共同的基本功能20。1. 描述功能元數(shù)據(jù)的基本功能就是對信息資源進行描述,供用戶讀取以便了解自己所獲信息是否是所需要的。因此可以節(jié)約用戶的時間和精力,也可減少網(wǎng)絡中信息交換的浪費。2. 檢索功能元數(shù)據(jù)是提供檢索的基
31、礎。元數(shù)據(jù)將信息對象中的重要信息抽出,加以組織,賦予語意,建立關系,使得檢索結果更加準確。因此利用元數(shù)據(jù)進行簡單、復雜或綜合的信息查詢,可以提高查詢效率。3. 定位功能元數(shù)據(jù)包含有信息資源的位置信息,由此便可確定資源的位置所在,促進網(wǎng)絡中信息對象的發(fā)現(xiàn)和檢索。4. 選擇功能根據(jù)元數(shù)據(jù)提供的描述信息,結合使用環(huán)境,用戶便可對信息對象做取舍決定,選擇適合用戶使用的資源。5. 評估功能元數(shù)據(jù)提供信息對象的各類基本屬性,使用戶在無需瀏覽信息對象本身的情況下就能對信息對象具備基本的了解和認識,參照有關標準,即可對其進行價值評估,作為使用的參考。2.2.2 元數(shù)據(jù)的分類元數(shù)據(jù)的應用領域不同,對元數(shù)據(jù)就會有
32、各自不同的分類方法21。在網(wǎng)格數(shù)據(jù)管理環(huán)境下,一般將描述數(shù)據(jù)對象的元數(shù)據(jù)分為五種類型22,如圖2.1所示。最底層的物理元數(shù)據(jù)包括描述物理存儲系統(tǒng)數(shù)據(jù)對象的元數(shù)據(jù)和副本定位元數(shù)據(jù),其中物理存儲系統(tǒng)包括文件系統(tǒng)和數(shù)據(jù)庫管理系統(tǒng)。副本定位元數(shù)據(jù)提供將邏輯名與一個或多個副本物理定位信息相映射的服務。 用戶元數(shù)據(jù)user metadata虛擬組織元數(shù)據(jù)virtual organization metadata特定域元數(shù)據(jù)domain-specific metadata無關域元數(shù)據(jù)domain-independent metadata物理元數(shù)據(jù)physical metadata圖2.1 元數(shù)據(jù)的五種類型無
33、關域元數(shù)據(jù)描述一般元數(shù)據(jù)屬性,這些元數(shù)據(jù)屬性無論在應用域還是在虛擬組織中都會涉及和描述,如對邏輯名字,數(shù)據(jù)對象的創(chuàng)建者和維護者,授權和審查信息,共享池或視圖中的數(shù)據(jù)對象集等信息的描述。特定域元數(shù)據(jù)包括指定的某應用域、虛擬組織或某特定用戶所用的數(shù)據(jù)對象集的元數(shù)據(jù)描述。特定域元數(shù)據(jù)的屬性通常為某些應用團體所開發(fā)的元數(shù)據(jù)實體。例如,物理學家或地震學家都共享一些通用的學術術語和量度,這些特性可用于描述一些共享的數(shù)據(jù)集和表示可使用的元數(shù)據(jù)屬性通用集。虛擬組織元數(shù)據(jù)描述的是某個特定虛擬組織所使用的數(shù)據(jù)集內容。虛擬組織包括多個科學或企業(yè)機構,他們可能定義了一些特定的元數(shù)據(jù)屬性集來描述傳統(tǒng)的特征數(shù)據(jù)集。用戶元
34、數(shù)據(jù)用于對單個用戶所使用的數(shù)據(jù)集進行描述。這些元數(shù)據(jù)可能是互相關聯(lián)的數(shù)據(jù)集屬性,如對某些數(shù)據(jù)對象或共享池里的數(shù)據(jù)進行描述。元數(shù)據(jù)及其提供的服務在數(shù)據(jù)網(wǎng)格中對數(shù)據(jù)集的發(fā)布、發(fā)現(xiàn)和存取都起著極其重要的角色。2.2.3 元數(shù)據(jù)標準化問題90年代元數(shù)據(jù)模式(metadata schema)大量涌現(xiàn),不僅出現(xiàn)了很多針對不同資源的元數(shù)據(jù)模式,同時由于缺乏規(guī)范和一致性約束,針對同一資源類型也出現(xiàn)了多種描述。另外元數(shù)據(jù)應用的廣泛性,參與制定元數(shù)據(jù)模式的團體眾多等原因,都是造成元數(shù)據(jù)模式大量出現(xiàn)的原因23。元數(shù)據(jù)模式的眾多,尤其是同一種資源有多種元數(shù)據(jù)模式的出現(xiàn),不可避免地導致了數(shù)據(jù)共享問題的產生。唯一能夠在不
35、同數(shù)據(jù)管理軟件間交換元數(shù)據(jù)的途徑是制定統(tǒng)一的元數(shù)據(jù)標準。元數(shù)據(jù)標準能夠使數(shù)據(jù)生產者和用戶一起著手處理有關元數(shù)據(jù)交換、共享和管理的問題。因此元數(shù)據(jù)的規(guī)范化和標準化問題也就逐漸提上了日程。元數(shù)據(jù)標準的研制與實施已引起各國廣泛重視,許多國家不但已經(jīng)完成標準的制定,開發(fā)了多種操作工具軟件,建成大量的元數(shù)據(jù)庫,并已投入使用,而且多次召開國際學術討論會,對元數(shù)據(jù)的理論、實施、應用及標準化的有關問題進行討論。元數(shù)據(jù)標準是描述某類資源的具體對象時所有規(guī)則的集合。不同類型的資源可能會有不同的元數(shù)據(jù)標準。一般而言,元數(shù)據(jù)標準包括三個方面的內容:內容結構、語義結構和語法結構。(1) 內容結構是對元數(shù)據(jù)標準中的構成元
36、素及其定義標準進行描述。(2) 語義結構是定義元數(shù)據(jù)標準中元素的具體語義描述方法,尤其是定義描述時所采用的公用標準、最佳實踐或自定義的語義描述要求(instructions)。其中主要涉及到兩方面的內容:語義定義規(guī)則和語義定義方法。(3) 語法結構負責定義元數(shù)據(jù)標準的結構以及如何描述這種結構,即元數(shù)據(jù)在計算機應用系統(tǒng)中的表示方法和相應的描述規(guī)則,這些稱為元數(shù)據(jù)的描述語言和語法結構。目前,通常采用的是xml和rdf兩種方式24。2.2.4 元數(shù)據(jù)分發(fā)方式分類現(xiàn)有的元數(shù)據(jù)分發(fā)方式基本可以分為兩類:被動分發(fā)和主動分發(fā)。對于被動分發(fā)而言,除非有請求到達,節(jié)點不會發(fā)布自己擁有資源的元數(shù)據(jù);主動分發(fā)與之相
37、反,當節(jié)點加入網(wǎng)絡或者節(jié)點數(shù)據(jù)發(fā)生一定變化的時候,節(jié)點會立即發(fā)布自己的元數(shù)據(jù)。顯然,被動分發(fā)的網(wǎng)絡資源的消耗甚小,但同時對于網(wǎng)絡資源頻繁變化的環(huán)境,元數(shù)據(jù)中存在很多錯誤,其他節(jié)點數(shù)據(jù)的準確性無法得到滿足。而主動分發(fā)可以在最大可能上保證元數(shù)據(jù)的準確性,從而可以增加節(jié)點數(shù)據(jù)的有效性,但由于分發(fā)數(shù)據(jù)過多,對網(wǎng)絡資源的使用也是最多的。2.3 傳統(tǒng)數(shù)據(jù)分發(fā)技術2.3.1 hla中的數(shù)據(jù)分發(fā)技術高層體系結構hla(high level architecture)25是新一代分布式交互仿真標準,它的一個重要特征就是將仿真應用與底層的通信和基本功能相分離,由運行支撐系統(tǒng)rti(runtime infrastr
38、ucture)26,27提供的服務來實現(xiàn)底層的通信和基本功能,聯(lián)邦成員不必涉及底層的網(wǎng)絡編程。在它的框架中,每個描述一定功能的子模塊或仿真過程都被稱為是hla的一個聯(lián)邦成員,每個聯(lián)邦成員包含若干個對象。目前rti提供聯(lián)邦管理、聲明管理、對象管理、所有權管理、時間管理和數(shù)據(jù)分發(fā)管理六大類服務以及一些必要的支持服務,其中數(shù)據(jù)分發(fā)管理ddm(data distribution management)是一類關鍵的服務,其主要目的是為了盡可能地減少聯(lián)邦成員收到不需要的數(shù)據(jù)和網(wǎng)絡數(shù)據(jù)流量,以有效地使用系統(tǒng)的通信帶寬和處理機的計算能力來滿足系統(tǒng)的可擴縮性,這種機制即為一種數(shù)據(jù)過濾機制。通過數(shù)據(jù)過濾機制,使仿
39、真實體只與感興趣集內的實體交互,它的目的主要有兩個:一是盡可能減少不相關數(shù)據(jù)的產生,以減少網(wǎng)絡帶寬的占用;二是降低仿真結點接收冗余數(shù)據(jù)時引起的處理開銷。在hla中,支持數(shù)據(jù)過濾的基本概念是區(qū)域(region)。對象實例利用區(qū)域描述向外部發(fā)送數(shù)據(jù)以及從外部接收數(shù)據(jù)的需求信息。對象實例通過更新區(qū)域(update region)和訂購區(qū)域(subscribe region)描述向外發(fā)送數(shù)據(jù)和接收外部數(shù)據(jù)的約束條件。數(shù)據(jù)分發(fā)管理進行數(shù)據(jù)過濾的主要實現(xiàn)策略是各聯(lián)邦成員在擇徑空間中分別表達各自感興趣的更新區(qū)和訂購區(qū),通過更新區(qū)和訂購區(qū)的比較,當存在共同的興趣區(qū)時(即更新區(qū)和訂購區(qū)出現(xiàn)重疊時),ddm將更新
40、聯(lián)邦成員更新的數(shù)據(jù)信息傳遞到訂購區(qū)與其更新區(qū)相重疊的訂購聯(lián)邦成員處。圖2.2即為一個數(shù)據(jù)分發(fā)管理的基本實現(xiàn)流程。ddm中采用的數(shù)據(jù)分發(fā)算法一般采用基于網(wǎng)格的過濾方法,此方法是一種傳統(tǒng)的多播組分配方法。在該方法中,路由空間被分成一個由固定大小的網(wǎng)格單元構成的陣列,每一個網(wǎng)格單元對應一個多播組。當聯(lián)邦成員的定購區(qū)域與網(wǎng)格單元交迭時,就將聯(lián)邦成員加入到該網(wǎng)格單元對應的多播組中。當聯(lián)邦成員希望發(fā)送數(shù)據(jù)更新時,更新僅被發(fā)送到與該聯(lián)邦成員更新區(qū)域交迭的網(wǎng)格單元所對應的多播組。對應于交迭單元的多播組負責將數(shù)據(jù)更新傳送到多個定購聯(lián)邦成員。圖2.2 hla中數(shù)據(jù)分發(fā)管理的基本實現(xiàn)流程2.3.2 cdn中的數(shù)據(jù)分
41、發(fā)技術cdn(content delivery network),即內容分發(fā)網(wǎng)絡技術。cdn的基本思路就是通過在internet網(wǎng)絡結構中增加一個完善、全面的中間層,利用緩存、復制、負載平衡和dns重定向等技術,實時處理網(wǎng)絡流量和各節(jié)點的負載狀況,將用戶的請求導向最近的服務節(jié)點上,用戶就近取得所需的內容,從而解決網(wǎng)絡擁塞、提高上網(wǎng)訪問的總體性能。cdn網(wǎng)絡中客戶的內容請求通過全局內容路由到達某個內容交換機,由交換機將請求的內容分發(fā)到距用戶最近的網(wǎng)絡邊緣節(jié)點,即內容緩存服務器上,同時也將客戶的請求重定向到邊緣節(jié)點,改善用戶的訪問效果。cdn的主要技術有內容路由、內容分發(fā)等28,29,30。內容路
42、由技術的作用是將用戶請求導向整個cdn網(wǎng)絡中的最佳節(jié)點。最佳節(jié)點的選擇可以運用多種評估策略來實現(xiàn),例如用戶與服務器距離最近、服務器負載最輕等。這是cdn的核心,它決定了整個cdn的效率和性能。內容路由技術可以通過多種方法實現(xiàn),包括dns、應用層重定向、傳輸層重定向等。內容分發(fā)技術指將內容從源到復制緩存到cdn邊緣服務器的過程。從實現(xiàn)上來看,有兩種主流的分發(fā)技術:push和pull。push是一種主動分發(fā)的技術。通常,push由內容管理系統(tǒng)發(fā)起,將內容從源或中心媒體資源庫分發(fā)到各邊緣的cache 節(jié)點。對于push分發(fā)需要考慮的主要問題是分發(fā)策略,即在什么時候分發(fā)什么內容,可以根據(jù)用戶訪問的統(tǒng)計
43、信息,以及預定義的內容分發(fā)規(guī)則來確定。pull是一種被動的分發(fā)技術,pull分發(fā)通常由用戶請求驅動。當用戶請求的內容在本地的邊緣cache上不存在時,cache啟動pull方法從內容源或者其他cdn節(jié)點實時獲取內容。在pull方式下,內容的分發(fā)是按需的。2.4 數(shù)據(jù)網(wǎng)格中傳統(tǒng)元數(shù)據(jù)分發(fā)技術2.2.4節(jié)的介紹可知,傳統(tǒng)元數(shù)據(jù)分發(fā)技術可以分為兩大類:主動分發(fā)和被動分發(fā),由于被動分發(fā)較為簡單,基本上不會涉及到分發(fā)算法研究,目前的研究基本上集中于主動分發(fā)上。對于主動分發(fā)而言,根據(jù)對元數(shù)據(jù)分發(fā)處理的不同,即分發(fā)給什么樣的節(jié)點以及怎么樣轉發(fā)別的節(jié)點發(fā)來的元數(shù)據(jù),傳統(tǒng)主動分發(fā)策略也可以進行劃分,下面將逐一進
44、行介紹15,16。2.4.1 泛洪式(flooding)在該算法中,元數(shù)據(jù)分發(fā)采用最簡單的泛洪方式。在這種算法中,假定每個節(jié)點都了解整個網(wǎng)格中所有節(jié)點的信息,這樣當節(jié)點自身產生更新消息后,它會向網(wǎng)格中的所有節(jié)點發(fā)送消息。很顯然,當網(wǎng)格規(guī)模較大時,由于網(wǎng)格中節(jié)點較多,這種分發(fā)方式的效率低下,且會產生極大的網(wǎng)絡流量,這中風暴式的分發(fā)也必然會對網(wǎng)絡穩(wěn)定運行提出極大的挑戰(zhàn),因此這種分發(fā)只可能在極少數(shù)特殊的情況下采用。2.4.2 鄰居式(neighborhood) 為了減少泛洪式元數(shù)據(jù)分發(fā)過程中產生的極大網(wǎng)絡流量,鄰居式分發(fā)算法得以提出,在該算法中,每個網(wǎng)格節(jié)點具有一個鄰居半徑屬性r,即此節(jié)點了解半徑為
45、r范圍內的節(jié)點,這樣在節(jié)點產生了更新消息時,它就會在消息中設置ttl值為r,約定只有在ttl值大于0的情況下,消息才能進行轉發(fā),這樣收到更新消息的鄰居節(jié)點就會判斷ttl是否大于0,如果大于0就會將其減1后向自己的鄰居節(jié)點進行轉發(fā),否則不進行轉發(fā)。這樣只有在距節(jié)點邏輯跳數(shù)不大于r范圍中的節(jié)點才能收到消息,這種分發(fā)方式較之泛洪式分發(fā)方式可以明顯的減少對網(wǎng)絡帶寬的占用。但是這種分發(fā)方式所產生的網(wǎng)絡流量也是非常大的,分發(fā)效率也不高。2.4.3 水流式(fluid)在這種方法中,為了進一步降低分發(fā)的網(wǎng)絡流量以提高元數(shù)據(jù)分發(fā)的效率,引入了現(xiàn)在比較流行的是網(wǎng)格勢能(grid potential,gp)來區(qū)分
46、節(jié)點的處理能力。網(wǎng)格上的一個節(jié)點的網(wǎng)格勢能可以被認為是可以被分派給某個節(jié)點上的應用程序的處理能力。該處理能力依賴于鄰近出現(xiàn)的機器以及他們之間互連的網(wǎng)絡。同時還有一個相對網(wǎng)格勢能:節(jié)點相對于某個遠程節(jié)點的勢能。如果節(jié)點的自身網(wǎng)格勢能小于相對于某遠程節(jié)點的勢能,就把由該遠程節(jié)點發(fā)出的消息進行轉發(fā),否則不轉發(fā)。而對于自身產生的更新消息,如果周圍節(jié)點相對勢能的平均值小于該節(jié)點的自身的勢能,則該節(jié)點可以向周圍的所有節(jié)點進行消息發(fā)送;否則不能進行消息發(fā)送。這種方式的主要特點是:消息從勢能高的節(jié)點流向勢能低的節(jié)點。這類似于水流的形式,故而稱為水流式。文獻15,16給出了網(wǎng)格勢能的計算方法:即選定一段特定的基
47、準代碼,這樣以各網(wǎng)絡節(jié)點執(zhí)行這段基準代碼的效率來確定各節(jié)點的網(wǎng)格勢能,為了測試一個節(jié)點的網(wǎng)絡勢能,需選取一個標準節(jié)點作為比照,設c為這段基準代碼的工作量,為標準節(jié)點執(zhí)行基準代碼所需的時間,為測試節(jié)點的負載量(以節(jié)點平均工作量隊列長度作為衡量指標),為測試節(jié)點的工作速度,則測試節(jié)點執(zhí)行基準代碼的時間的計算公式為: (2.1)設為測試節(jié)點的網(wǎng)格勢能,則根據(jù)定義,其計算公式為: (2.2)根據(jù)公式(2.1)及(2.2),可得網(wǎng)格勢能的推算公式為: (2.3)另外,節(jié)點相對網(wǎng)格勢能的計算過程與上述類似,在此不再詳述。2.4.4 質點式(particle)為了進一步降低分發(fā)的網(wǎng)絡流量以提高元數(shù)據(jù)分發(fā)的效
48、率,本算法在引入網(wǎng)格勢能的同時又對分發(fā)的目標進行概率處理。它與水流式的不同處在于:即使相對勢能比自身勢能要低,節(jié)點也并不一定可以發(fā)送消息。在該算法中,引用了概率論的知識。設某個節(jié)點(勢能為)向遠程節(jié)點(相對勢能為)發(fā)送消息的可能性為:,其中k是一個常數(shù),這樣節(jié)點對周圍n1個節(jié)點所能發(fā)送消息的節(jié)點數(shù)為:,節(jié)點會對n1個鄰居節(jié)點中隨機的選取個節(jié)點進行消息發(fā)送。這種行為有點類似于質點的活動方式,故而稱為質點式。2.5 小結本章首先分析數(shù)據(jù)網(wǎng)格中的一些核心問題,隨后對元數(shù)據(jù)的概念、網(wǎng)格中元數(shù)據(jù)的分類、元數(shù)據(jù)常有的標準化問題以及元數(shù)據(jù)分發(fā)方式做了詳細的分析和介紹,最后詳細介紹了傳統(tǒng)的數(shù)據(jù)分發(fā)技術以及數(shù)據(jù)
49、網(wǎng)格中的傳統(tǒng)元數(shù)據(jù)分發(fā)技術。對上述關鍵技術的充分研究,為第三章提出的一種新的元數(shù)據(jù)分發(fā)機制的設計和實現(xiàn)提供了相應的基礎和依據(jù)。3 輪值會議元數(shù)據(jù)分發(fā)機制3.1 背景介紹3.1.1 網(wǎng)絡拓撲結構數(shù)據(jù)網(wǎng)格可以認為是由一條高速鏈路將一系列的異構用戶連接起來的虛擬網(wǎng)絡,在實際網(wǎng)格應用中,整個網(wǎng)格系統(tǒng)會根據(jù)其自身需求和目的的不同劃分為多個虛擬組織的形式。虛擬組織為所有參與者提供可用資源,獲取同一規(guī)范,并在資源可以被使用的條件下使用資源等功能31,32,每個虛擬組織管理的服務可理解為地理位置分布、邏輯位置相鄰、屬性相似的服務集合。如圖3.1所示,實際的數(shù)據(jù)網(wǎng)格系統(tǒng)可以分為上下兩層,下層為集中控制層,上層為
50、純p2p層(非結構化)。這樣下層中的網(wǎng)格用戶就會被劃分到不同的虛擬組織域中,并且每個虛擬組織域中都有一個元數(shù)據(jù)服務器,這樣每個域內是屬于集中控制的;同時所有的元數(shù)據(jù)服務器之間是純對等的,即構成非結構化的p2p。圖3.1 數(shù)據(jù)網(wǎng)格拓撲分層這樣實際上就將數(shù)據(jù)網(wǎng)格中的用戶劃分為兩類:管理節(jié)點以及普通節(jié)點,其中普通節(jié)點負責提供資源,同時也會請求資源;而管理節(jié)點即為一個元數(shù)據(jù)服務器,響應所轄域中普通節(jié)點的資源請求,同時還會與其他的管理節(jié)點進行交互。一個管理節(jié)點負責管理多個普通節(jié)點,它會收集所轄域中的所有普通節(jié)點的元數(shù)據(jù)信息以及它們所請求的元數(shù)據(jù)信息,并進行匯總,同時通過一定的控制策略來與其他的管理節(jié)點進
51、行交互,以獲取各自所需的元數(shù)據(jù)信息,最后將得到的元數(shù)據(jù)信息分發(fā)給所轄區(qū)的普通節(jié)點。由此可知,元數(shù)據(jù)分發(fā)的關鍵技術就落到了如何在管理節(jié)點間進行元數(shù)據(jù)分發(fā)的問題上,這也是本章研究的重點。3.1.2 小世界網(wǎng)絡小世界(small-world) 33,34,35的概念來自于60年代末milgram在哈佛完成的一個著名實驗:他在信封上寫上他在美國波士頓的一個朋友的地址,然后在在英國隨機選擇了若干人,要求他們把信通過中間人轉交給他的朋友,注意每次都要把信轉交給他認為最有可能找到收信人的熟人,下一個轉發(fā)者再按照同樣的方法將信轉發(fā)。經(jīng)過統(tǒng)計分析,milgram發(fā)現(xiàn)在任何兩個陌生人之間,只需要平均通過6個熟人就
52、能聯(lián)系在一起,這種特征被稱為“6度分離”。milgram的實驗表明:社會中任意挑選的兩個人之間,總存在一條由中間的熟人組成的短鏈把他們連接在一起,而他們也總能找到這條短鏈,這個結論用物理學的術語來說就是“小世界效應”。watts和strogatz進一步指出小世界現(xiàn)象不僅存在于人類社會,它同樣存在于現(xiàn)實世界的許多自然和人工的網(wǎng)絡。符合small-world這一特性的網(wǎng)絡各個節(jié)點的連接度比較均勻,即基本上每個節(jié)點的聯(lián)結數(shù)都近似相等,同時任意兩個節(jié)點之間建立連接的長度都很小。研究表明目前流行的gnutella網(wǎng)絡也呈現(xiàn)small-world特性。3.1.3 zipf定律zipf定律是由美國學者g.k
53、.zipf于上世紀40年代提出的詞頻分布定律:如果統(tǒng)計一篇較長文章中每個詞出現(xiàn)的頻率,按照高頻詞在前,低頻詞在后的遞減順序排列,并用自然數(shù)把這些詞編上等級序號,頻率最高的詞為1,頻率次高為2,以此類推。若用f表示頻率,r表示序號,則有,c為常數(shù)。zipf定律也被稱為80-20法則,即80%的訪問只會針對20%的數(shù)據(jù)。人們通過對現(xiàn)實web系統(tǒng)中通信流量的分析,發(fā)現(xiàn)用戶對web對象的訪問模式服從zipf定律分布或者zipf-like定律分布36。zipf-like定律分布中:概率表示訪問頻度,則排列第個對象的訪問概率為: (3.1)其中,為zipf-like定律分布參數(shù),n為所有數(shù)據(jù)的個數(shù)。通常。
54、3.2 輪值會議元數(shù)據(jù)分發(fā)的原理2.2.4節(jié)介紹了目前兩種元數(shù)據(jù)分發(fā)方式的優(yōu)缺點,為了綜合這兩種分發(fā)方式的優(yōu)點,即主動元數(shù)據(jù)分發(fā)(active metadata dissemination, actmd)的準確性和被動元數(shù)據(jù)分發(fā)(passive metadata dissemination, pasmd)的低代價性,再結合國內外關于分發(fā)技術的相關研究成果,提出了一種新的元數(shù)據(jù)分發(fā)機制輪值會議元數(shù)據(jù)分發(fā)(rotating meeting metadata dissemination, rmmd)。3.2.1 輪值會議元數(shù)據(jù)分發(fā)的主要思想rmmd主要思想如下:采用輪值會議主持的方法,每個管理節(jié)點會
55、周期性地被系統(tǒng)觸發(fā)并短暫的成為中央服務器,成為中央服務器的管理節(jié)點(“主持人”)會召開會議,并召集“代表”(相鄰一定“距離”的管理節(jié)點)來參加會議,在會議進行中,每個“代表”會向“主持人”提交自己的元數(shù)據(jù)更新信息(包括自己更新的元數(shù)據(jù)以及部分擁有的元數(shù)據(jù))、元數(shù)據(jù)定購信息,“主持人”會將這些信息收集起來,并進行匯總,從而得到一個全局元數(shù)據(jù)更新視圖和一個全局元數(shù)據(jù)定購視圖,這樣“主持人”就會將結合全局元數(shù)據(jù)更新視圖將自己的元數(shù)據(jù)進行更新,同時判斷自己更新后的元數(shù)據(jù)信息是否能滿足所有元數(shù)據(jù)的定購需求。如果完全滿足這些需求,則“主持人”就會按照每個“代表”的定購信息將其所需的元數(shù)據(jù)發(fā)送過去,并宣告會
56、議的結束;如果不能滿足所有的元數(shù)據(jù)的定購需求,“主持人”會收集無法滿足的元數(shù)據(jù),對這些元數(shù)據(jù)進行歸類統(tǒng)計,得到一個全局元數(shù)據(jù)“重定購”視圖,最后按照自己的元數(shù)據(jù)將滿足每個“代表”定購信息的元數(shù)據(jù)發(fā)送過去,同時將全局元數(shù)據(jù)“重定購”視圖中的一部分發(fā)送過去,再宣告會議結束,這樣定購信息沒有完全滿足的“代表”只好參加下次會議去獲取想要的元數(shù)據(jù)信息。一旦會議結束,參加會議的“主持人”和“代表”將不再存在關聯(lián),并且下一次會議將在一段時間后由系統(tǒng)指派另一個節(jié)點進行組織。3.2.2 輪值會議元數(shù)據(jù)分發(fā)的特點rmmd綜合了主動分發(fā)的準確性和被動分發(fā)的低代價性,并采用了hla數(shù)據(jù)分發(fā)管理中采用的數(shù)據(jù)過濾機制,它
57、具有如下的幾個特點。第一,rmmd通過系統(tǒng)輪轉觸發(fā)機制可以在無結構化的純p2p網(wǎng)絡中引入局部集中控制機制,這樣就能使元數(shù)據(jù)分發(fā)在局部范圍內得到很好的實施,并且任何節(jié)點都有機會成為會議主持人并召集會議,只要能保證輪轉機制的合理、公平、高效的展開,就能保證整個網(wǎng)絡中的元數(shù)據(jù)得到較高效率的分發(fā),至于怎樣保證輪轉機制的實施將會在下一節(jié)的rmmd的具體設計及實現(xiàn)中闡述。第二,每一個被觸發(fā)的節(jié)點就是一個局部范圍內的服務器,一方面它可以讓自己的元數(shù)據(jù)得到很好的更新,另一方面它又可以將自己的元數(shù)據(jù)分發(fā)給其他參加會議的節(jié)點,至于會議范圍的確定以及分發(fā)怎樣的元數(shù)據(jù)給會議參加節(jié)點,這些都會在下一節(jié)的rmmd的具體設計及實現(xiàn)中闡述。第三,輪值會議的開展可以保證整個網(wǎng)絡中的元數(shù)據(jù)在較低的成本代價下得到準確的配置,同時通過輪值會議可以讓與會的節(jié)點對一定范圍內的節(jié)點有更好的了解,而在傳統(tǒng)的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工業(yè)用深水井挖掘施工合同3篇
- 工業(yè)樓房轉租租賃合同3篇
- 安裝伸縮縫施工合同3篇
- 改過自新的學生決心3篇
- 改進合同協(xié)議共筑美好未來3篇
- 錄音授權合同范本
- 體育館樓頂廣告字施工合同
- 乳制品品控員聘用合同協(xié)議
- 學校防火門安裝合同定案
- 瀝青路面鋪設耐久性能合同
- 2024年中國遠洋海運集團招聘筆試參考題庫附帶答案詳解
- 2024年內蒙古交通集團有限公司招聘筆試參考題庫附帶答案詳解
- 交貨不及時原因分析報告
- 2024年貴州能源集團電力投資有限公司招聘筆試參考題庫附帶答案詳解
- 射頻技術與微波技術研究
- 蒸鍍機操作手冊
- 2024年心腦血管藥物項目營銷策劃方案
- 沙糖桔互聯(lián)網(wǎng)創(chuàng)業(yè)計劃書
- 書法知識之章法布局
- 少數(shù)民族傈僳族民俗文化科普介紹圖文課件
- 英語謎語100個及答案簡單
評論
0/150
提交評論