基于P2P技術(shù)下的信息檢索研究new

上傳人：x*** IP屬地：江西上傳時(shí)間：2020-12-18 格式：DOC 頁(yè)數(shù)：6 大小：53KB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩1頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于P2P技術(shù)下的信息檢索研究基于P2P技術(shù)下的信息檢索研究摘要：21世紀(jì)是信息化的世紀(jì)。社會(huì)信息化程度越高,人們對(duì)信息的依賴(lài)性就越大。信息是一切思想、事實(shí)的富有想象力的表征,它們以各種形式進(jìn)行記錄和傳播。信息檢索是涵蓋了文獻(xiàn)檢索、情報(bào)檢索和知識(shí)檢索的新興技術(shù)。也正是在新科技環(huán)境下，P2P技術(shù)發(fā)展勢(shì)頭強(qiáng)勁，在給萬(wàn)千網(wǎng)民帶來(lái)便利的同時(shí)，正促使互連網(wǎng)的運(yùn)營(yíng)方式發(fā)生靜悄悄的演變，形成新的格局。P2P信息檢索將會(huì)是通往未來(lái)格局的關(guān)鍵技術(shù)。正如以Google為首的Web信息搜索引擎對(duì)人們沖浪方式帶來(lái)深刻變化一樣，P2P信息檢索也將會(huì)給未來(lái)的互聯(lián)網(wǎng)帶來(lái)一場(chǎng)革命。本文從基于P2P搜索的發(fā)展動(dòng)機(jī)和原理入手，概

2、述了當(dāng)前主流的P2P搜索的研究熱點(diǎn)和未來(lái)幾年的發(fā)展趨勢(shì)，以及我們圍繞P2P信息檢索所作的研究工作。關(guān)鍵詞：對(duì)等網(wǎng)絡(luò)P2P;信息檢索;向量空間模型; 潛在語(yǔ)義索引1、P2P技術(shù)概述對(duì)等網(wǎng)絡(luò)(peer to peer，P2P)技術(shù)并不是一種新興的技術(shù)，20世紀(jì)70年代中期，源于局域網(wǎng)的文件共享，P2P技術(shù)就開(kāi)始流行起來(lái)了。目前大家所關(guān)注的P2P技術(shù)，是原有技術(shù)的新應(yīng)用模式。下面對(duì)P2P技術(shù)進(jìn)行簡(jiǎn)單的介紹。1.1 P2P定義P2P是Peer-to-Peer（對(duì)等網(wǎng)絡(luò)，對(duì)等計(jì)算）的簡(jiǎn)稱(chēng)，中文譯名為對(duì)等互聯(lián)或者點(diǎn)對(duì)點(diǎn)技術(shù)。在P2P網(wǎng)絡(luò)中各個(gè)節(jié)點(diǎn)被稱(chēng)為peer（對(duì)等體）。P2P是一種網(wǎng)絡(luò)模型，在這種網(wǎng)絡(luò)中

3、所有的節(jié)點(diǎn)是對(duì)等的(稱(chēng)為對(duì)等點(diǎn))，各節(jié)點(diǎn)無(wú)主從之分，各節(jié)點(diǎn)具有相同的責(zé)任與能力并協(xié)同完成任務(wù)。對(duì)等點(diǎn)之間通過(guò)直接互連共享信息資源、處理器資源、存儲(chǔ)資源甚至高速緩存資源等，無(wú)需依賴(lài)集中式服務(wù)器或資源就可完成。業(yè)界對(duì)于P2P的定義有多種，典型的是Intel公司和IBM公司對(duì)P2P的定義。Intel將P2P定義為“通過(guò)系統(tǒng)間的直接交換達(dá)成計(jì)算機(jī)資源與信息共享系統(tǒng)”，這些資源與服務(wù)包括信息交換、處理器時(shí)鐘、緩存和磁盤(pán)空間等。IBM將P2P定義為：“P2P系統(tǒng)由若干互聯(lián)協(xié)作的計(jì)算機(jī)構(gòu)成，且至少具有如下特性：系統(tǒng)儲(chǔ)存于邊緣化（非中央式服務(wù)器）設(shè)備的主動(dòng)協(xié)作，每個(gè)成員直接從其他成員而不是從服務(wù)器的參與中受益

4、；系統(tǒng)中的成員同時(shí)扮演服務(wù)器與客戶(hù)端的角色；系統(tǒng)應(yīng)用的用戶(hù)能夠意識(shí)到彼此的存在，構(gòu)成一個(gè)虛擬的或?qū)嶋H的群體”?？傊?，P2P技術(shù)就是在不同用戶(hù)之間，不通過(guò)中繼設(shè)備直接交換數(shù)據(jù)和服務(wù)的技術(shù)。P2P網(wǎng)絡(luò)中任意節(jié)點(diǎn)既可以作為服務(wù)器為其它節(jié)點(diǎn)提供數(shù)據(jù)和服務(wù)，又可以作為客戶(hù)機(jī)享用其它節(jié)點(diǎn)提供的數(shù)據(jù)和服務(wù)。隨著P2P的飛速發(fā)展，因特網(wǎng)的存儲(chǔ)模式將由目前的“內(nèi)容位于中心”模式轉(zhuǎn)變?yōu)椤皟?nèi)容位于邊緣”模式。1.2 P2P技術(shù)特點(diǎn)P2P以其獨(dú)特的技術(shù)特點(diǎn)，成為當(dāng)今文件共享的理想平臺(tái)。P2P的技術(shù)特點(diǎn)主要體現(xiàn)在以下幾個(gè)方面:(l)分散化:網(wǎng)絡(luò)中的資源和服務(wù)分散在所有節(jié)點(diǎn)上，通過(guò)各個(gè)節(jié)點(diǎn)間的合作，直接在節(jié)點(diǎn)之間完成內(nèi)容

5、的傳輸和服務(wù)的實(shí)現(xiàn)，避免了中心存儲(chǔ)和內(nèi)容交換可能存在的瓶頸。(2)可擴(kuò)展性:在P2P網(wǎng)絡(luò)中，節(jié)點(diǎn)在獲取資源的同時(shí)也為其它節(jié)點(diǎn)提供服務(wù)。(3)健壯性:P2P有很強(qiáng)的自適應(yīng)性，天生具有耐攻擊、高容錯(cuò)的優(yōu)點(diǎn)。(4)高性能/價(jià)格比:隨著硬件技術(shù)的發(fā)展，個(gè)人計(jì)算機(jī)的計(jì)算和存儲(chǔ)能力以及網(wǎng)絡(luò)帶寬等性能依照摩爾定理高速增長(zhǎng)。采用P2P架構(gòu)可以有效地利用互聯(lián)網(wǎng)中散布的大量普通結(jié)點(diǎn)，將內(nèi)容交換、計(jì)算任務(wù)或存儲(chǔ)資料分布到所有結(jié)點(diǎn)上。2、信息檢索概述2.1、信息檢索的含義對(duì)于信息檢索，主要存在時(shí)間性通訊、信息處理和文獻(xiàn)查找三種角度的認(rèn)識(shí)：莫爾斯在1950年發(fā)表了把信息檢索看作是時(shí)間性的通訊一文，不僅首次提出了信息檢索

6、這個(gè)概念，并認(rèn)為“信息檢索是一種時(shí)間性的通訊形式”。換言之，通過(guò)信息檢索得到了一些文獻(xiàn)，從而使得著者與讀者（信息檢索的用戶(hù)）之間建立起了一種通訊。按照這種通訊角度的認(rèn)識(shí)，莫爾斯強(qiáng)調(diào)了在通訊雙方中，信息發(fā)送者必須盡可能發(fā)送一切信息，是時(shí)間性通訊的被動(dòng)一方；而信息接受者是主動(dòng)活躍的一方，正是接受者才決定什么時(shí)候接受以及接受什么信息。因此，信息檢索的問(wèn)題就在于，如何把一個(gè)可能的用戶(hù)指向所儲(chǔ)存的信息。這種認(rèn)識(shí)突出了用戶(hù)需求的重要性，對(duì)于如何做好信息檢索服務(wù)工作，至今依然具有很強(qiáng)的理論和實(shí)踐意義。從信息處理的角度來(lái)看，信息檢索的基本問(wèn)題，是如何處理信息和信息的結(jié)構(gòu)。這種認(rèn)識(shí)偏重于信息管理。認(rèn)為信息不僅限

7、于文獻(xiàn)的范圍，圖像、聲音、數(shù)據(jù)等也都能反映信息，并把信息檢索視為計(jì)算機(jī)科學(xué)與技術(shù)的一個(gè)分支。把信息檢索看作是一種信息處理的認(rèn)識(shí)，強(qiáng)調(diào)了如何構(gòu)造以及利用什么形式來(lái)構(gòu)造信息結(jié)構(gòu)的問(wèn)題。在當(dāng)今因特網(wǎng)迅速發(fā)展，網(wǎng)絡(luò)信息浩如煙海的情況下，這種認(rèn)識(shí)對(duì)于信息檢索工具的設(shè)計(jì)和組建，具有指導(dǎo)意義。從文獻(xiàn)查找角度來(lái)看，信息檢索，簡(jiǎn)言之，就是查找出含有用戶(hù)所需信息的文獻(xiàn)的過(guò)程。在信息檢索領(lǐng)域，這是一種傳統(tǒng)的主流觀點(diǎn)，支持者眾多。例如，英國(guó)著名學(xué)者維克利（BCVickery）認(rèn)為，“信息檢索是從匯集的文獻(xiàn)中選出特定用戶(hù)在特定時(shí)間所需信息的操作過(guò)程”；美國(guó)著名情報(bào)學(xué)家蘭卡斯特（FWLancaster）認(rèn)為，“信息檢索是

8、查找某一文獻(xiàn)庫(kù)的過(guò)程，以便找那些某一主題的文獻(xiàn)”。關(guān)于這種認(rèn)識(shí)，蘭卡斯特的經(jīng)典表述是“信息檢索系統(tǒng)并不檢索信息”。因?yàn)樾畔⑹菬o(wú)形的，必須依附于文獻(xiàn)而存在。雖然信息檢索的最終結(jié)果是滿(mǎn)足用戶(hù)的信息需求，但檢索的直接對(duì)象還是文獻(xiàn)，當(dāng)用戶(hù)閱讀文獻(xiàn)并理解其內(nèi)容時(shí)，用戶(hù)的信息需求才被滿(mǎn)足。2. 2、信息檢索的基本原理信息檢索的原理是“相符性比較”和“匹配運(yùn)算”。即首先必須對(duì)廣泛、大量、分散、無(wú)序的信息進(jìn)行搜集、記錄、組織、存儲(chǔ),以建成各種檢索系統(tǒng)(如手工檢索工具、計(jì)算機(jī)檢索的數(shù)據(jù)庫(kù)與搜索引擎) 。用戶(hù)根據(jù)檢索課題的需要,將需求轉(zhuǎn)變?yōu)橄到y(tǒng)所能識(shí)別的檢索式,再與檢索系統(tǒng)中表征信息資源特征的標(biāo)識(shí)進(jìn)行逐一的相符性

9、匹配與比較,兩者完全一致或部分一致時(shí)即為命中信息1 。其中存儲(chǔ)是為了檢索,而檢索又必須先進(jìn)行存儲(chǔ)?！跋喾员容^”即指由信息特征構(gòu)成的信息標(biāo)識(shí)與由檢索提問(wèn)構(gòu)成的檢索式所進(jìn)行的相關(guān)性比較。完全一致的信息即為相同信息,而在某種程度上和檢索要求相匹配的信息為相關(guān)信息。2.3、信息檢索模型信息檢索模型是判斷文本是否與查詢(xún)相關(guān)和對(duì)相關(guān)文本進(jìn)行排序的數(shù)學(xué)模型。根據(jù)相關(guān)度判別方法的不同，發(fā)展出了不同的信息檢索模型，傳統(tǒng)的信息檢索模型大體可以分為三類(lèi)：布爾檢索模型、向量空間模型、概率模型。2.3.1布爾檢索模型布爾（Boolean）模型是最典型的一種集合模型，是信息檢索系統(tǒng)提供的基本功能，在傳統(tǒng)的信息檢索中有著

10、廣泛的應(yīng)用。標(biāo)準(zhǔn)布爾邏輯模型是二元邏輯。在布爾模型中，首先要針對(duì)文本定義一系列的二元特征變量，這些特征變量一般是從文本中提取出來(lái)的文本索引關(guān)鍵詞，有時(shí)也包括一些更為復(fù)雜的特征變量，如數(shù)據(jù)、短語(yǔ)、私人簽名和手工加入的描述詞等。其次，使用這些特征變量的集合來(lái)表示文本Di=（di1，di2，din），其中，n是特征項(xiàng)的個(gè)數(shù)；dik為T(mén)rue或False，如果特征項(xiàng)k在文本Di內(nèi)容中出現(xiàn)，就賦予True值，反之置為False。在布爾模型中，用戶(hù)可以根據(jù)檢索關(guān)鍵詞在文本中的布爾邏輯關(guān)系，用“”（AND）、“”（OR）、“”（NOT）等邏輯運(yùn)算符將多個(gè)關(guān)鍵詞連接成為一個(gè)邏輯表達(dá)式來(lái)遞交查詢(xún)。匹配函數(shù)由布爾

11、邏輯的基本法則確定，通過(guò)對(duì)文本表達(dá)式與用戶(hù)查詢(xún)表達(dá)式的邏輯比較進(jìn)行檢索，所檢索出的文本或者與查詢(xún)相關(guān)，或者與查詢(xún)無(wú)關(guān)3。2.3.2向量空間模型向量空間模型（Vector Space Model，VSM）克服了使用布爾模型中二元權(quán)值的缺點(diǎn)，采用非二元權(quán)值來(lái)表示特征項(xiàng)在文本和用戶(hù)查詢(xún)中的權(quán)重，提出了允許部分匹配的模型結(jié)構(gòu)。文本之間或者文本用戶(hù)查詢(xún)之間的（內(nèi)容）相關(guān)程度（Degree of Relevance）通常用它們之間的相似度來(lái)度量。當(dāng)文本和查詢(xún)均被表示為向量空間模型時(shí)，可以借助于向量之間的某種距離來(lái)表示二者之間的相似度，常用向量之間的內(nèi)積進(jìn)行計(jì)算，相似度越大，說(shuō)明兩個(gè)文本或文本和用戶(hù)查詢(xún)之間

12、相關(guān)度越大。因此，可以根據(jù)相似度進(jìn)行排序4。62.3.3概率模型概率模型（Probabilistic Model）是為了解決檢索中存在的一些不確定性而發(fā)展起來(lái)的，以數(shù)學(xué)理論中的概率論為原理的一種檢索模型。在此模型中，文本和用戶(hù)查詢(xún)的表示與布爾模型相同。同時(shí)，根據(jù)用戶(hù)反饋，將文本分成相關(guān)的和無(wú)關(guān)的兩類(lèi)，然后根據(jù)每個(gè)特征變量（詞）在相關(guān)文本集合和無(wú)關(guān)文本集合的分布情況來(lái)計(jì)算它們的相關(guān)概率，并將它表示成幾率。概率模型的優(yōu)勢(shì)在于有很多形式，采用嚴(yán)格的數(shù)學(xué)理論為依據(jù)，能夠按照相關(guān)度概率來(lái)對(duì)檢索結(jié)果進(jìn)行排序。它的檢索效率要明顯優(yōu)于布爾模型5。2.4信息檢索技術(shù)廣義地講，信息檢索包含信息儲(chǔ)存和信息查找兩個(gè)過(guò)

13、程。信息儲(chǔ)存是對(duì)文獻(xiàn)進(jìn)行收集、標(biāo)引及著錄，并加以有序化編排，編制信息檢索工具的過(guò)程；信息查找是從大量的信息中查找出用戶(hù)所需的特定信息的過(guò)程。實(shí)施檢索的主要方法就是利用各種檢索工具。狹義地講，信息檢索僅僅是指信息查找，即從信息集合中找出所需信息的過(guò)程。2.4.1信息檢索技術(shù)的發(fā)展（1）手工信息檢索手工信息檢索發(fā)展于19世紀(jì)末。專(zhuān)業(yè)化的信息檢索產(chǎn)生于參考咨詢(xún)工作。1876年召開(kāi)的美國(guó)圖書(shū)館協(xié)會(huì)第一屆大會(huì)上提出了正規(guī)的參考咨詢(xún)工作概念。這個(gè)階段的信息檢索手段是書(shū)本式和卡片式，包括檢索型和資料型的工具書(shū)等。至今這些檢索工具雖然有的還在發(fā)揮作用，如書(shū)本式檢索工具，但隨著電子資源的普及，其作用已逐漸削弱6

14、。（2）機(jī)械信息檢索機(jī)械信息檢索的發(fā)展期是20世紀(jì)4050年代，生命周期很短暫，是手工檢索向計(jì)算機(jī)信息檢索的過(guò)渡階段。這一階段的主要檢索手段包括穿孔卡片和縮微制品檢索。（3）計(jì)算機(jī)信息檢索計(jì)算機(jī)信息檢索起源于20世紀(jì)50年代初。1954年美國(guó)海軍兵器中心圖書(shū)館利用IBM701機(jī)開(kāi)發(fā)計(jì)算機(jī)信息檢索系統(tǒng)，它標(biāo)志著計(jì)算機(jī)信息檢索階段的開(kāi)始。計(jì)算機(jī)信息檢索可分為四個(gè)發(fā)展階段：脫機(jī)檢索、聯(lián)機(jī)檢索、光盤(pán)檢索、網(wǎng)絡(luò)檢索。網(wǎng)絡(luò)信息檢索是由網(wǎng)絡(luò)站點(diǎn)、網(wǎng)頁(yè)瀏覽器和搜索引擎以及網(wǎng)絡(luò)支撐組成的檢索系統(tǒng)，其中的核心部分不是眾多站點(diǎn)，而是網(wǎng)絡(luò)瀏覽器和具有收集、檢索功能的搜索引擎。網(wǎng)絡(luò)信息檢索開(kāi)始于20世紀(jì)90年代初。19

15、91年思維機(jī)等公司、明尼蘇達(dá)大學(xué)、歐洲高能粒子協(xié)會(huì)分別推出了因特網(wǎng)上的檢索工具WAIS、GOPHER和WWW。目前，網(wǎng)絡(luò)瀏覽器WWW因其集文本、圖像、聲音等多媒體信息于一體的巨大優(yōu)點(diǎn)，已占信息服務(wù)的主導(dǎo)地位，基于Web的搜索引擎已成為最重要的信息檢索工具。著名的、且經(jīng)典的有Yahoo等搜索引擎，Google是目前世界上最大的搜索引擎。2.4.2信息檢索方法根據(jù)David Lewis和Karen Spark Jones的觀點(diǎn)，目前的知識(shí)管理結(jié)構(gòu)中，信息檢索可以分為以下三個(gè)領(lǐng)域7：數(shù)據(jù)檢索（Data retrieval）、全文檢索（Text retrieval）和知識(shí)檢索（Knowledge re

16、trieval）。（1）數(shù)據(jù)檢索主要針對(duì)結(jié)構(gòu)化信息系統(tǒng)，查詢(xún)要求和數(shù)據(jù)都遵循一定的格式，具有一定的結(jié)構(gòu)，往往對(duì)應(yīng)系統(tǒng)設(shè)計(jì)者建立的一系列屬性的值。數(shù)據(jù)檢索允許對(duì)特定的字段檢索，例如：檢索技術(shù)=“本體”。比較有代表性的是各種商業(yè)數(shù)據(jù)庫(kù)8。數(shù)據(jù)檢索依賴(lài)于編碼的質(zhì)量，檢索花費(fèi)大，檢出的信息相對(duì)準(zhǔn)確，但容易漏檢相關(guān)的數(shù)據(jù)，并且數(shù)據(jù)檢索的性能取決于所使用的字段標(biāo)識(shí)方法和用戶(hù)對(duì)這種方法的理解，具有很大的局限性。數(shù)據(jù)檢索支持語(yǔ)義匹配的能力也較差9當(dāng)然這里數(shù)據(jù)所指的范圍比傳統(tǒng)分類(lèi)法中的要廣，它既包括文字信息、數(shù)值信息，也包括事實(shí)檢索的對(duì)象10。（2）全文檢索全文檢索把用戶(hù)的查詢(xún)請(qǐng)求以關(guān)鍵詞的形式與全文中的每一個(gè)

17、詞進(jìn)行比較，而不考慮查詢(xún)請(qǐng)求與文檔語(yǔ)義上的匹配。這種檢索方式主要基于詞頻分析技術(shù)。比較有代表性的是Google和百度。這種方式因?yàn)橹皇轻槍?duì)文本的匹配，檢出信息量大、毋需人工干預(yù)，缺點(diǎn)是返回信息過(guò)多，有很多無(wú)關(guān)信息，用戶(hù)面對(duì)一大堆8結(jié)果往往無(wú)所適從，必須從結(jié)果中進(jìn)行篩選。（3）知識(shí)檢索知識(shí)檢索是指在知識(shí)組織的基礎(chǔ)上，從知識(shí)庫(kù)中檢索出知識(shí)的過(guò)程，是一種基于知識(shí)組織體系，能夠?qū)崿F(xiàn)知識(shí)關(guān)聯(lián)和概念語(yǔ)義檢索的智能化的檢索方式。知識(shí)檢索具有兩個(gè)顯著特征，一是基于某種具有語(yǔ)義模型的知識(shí)組織體系，知識(shí)組織體系是實(shí)現(xiàn)知識(shí)檢索的前提與基礎(chǔ)，知識(shí)檢索則是基于知識(shí)組織體系的結(jié)果；二是對(duì)資源對(duì)象進(jìn)行基于元數(shù)據(jù)的語(yǔ)義標(biāo)注，

18、元數(shù)據(jù)是知識(shí)組織系統(tǒng)的語(yǔ)義基礎(chǔ)，只有經(jīng)過(guò)元數(shù)據(jù)描述與標(biāo)注的資源才具有長(zhǎng)期利用的價(jià)值。以知識(shí)組織體系為基礎(chǔ)，并以此對(duì)資源進(jìn)行語(yǔ)義標(biāo)注，才能實(shí)現(xiàn)知識(shí)檢索11。知識(shí)檢索模型集成各類(lèi)知識(shí)對(duì)象和信息對(duì)象，融合各種智能與非智能理論、方法與技術(shù)，實(shí)現(xiàn)知識(shí)檢索，例如基于知識(shí)結(jié)構(gòu)的檢索、基于知識(shí)內(nèi)容的檢索、基于專(zhuān)家啟發(fā)式的知識(shí)檢索、基于知識(shí)導(dǎo)航的智能瀏覽檢索和分布式多維檢索12。知識(shí)檢索的呈現(xiàn)結(jié)果應(yīng)該是以可視化形式展現(xiàn)知識(shí)層次的網(wǎng)狀結(jié)構(gòu)，便于用戶(hù)循著知識(shí)網(wǎng)絡(luò)方便地獲取知識(shí)。3、 P2P信息搜索技術(shù)P2P以其獨(dú)特的技術(shù)特點(diǎn)成為近幾年來(lái)的研究熱點(diǎn)，研究界提出的P2P信息檢索的理念，把P2P與信息檢索相集成，充分發(fā)掘

19、各自的優(yōu)點(diǎn)并相互克服對(duì)方的不足，依據(jù)P2P技術(shù)開(kāi)發(fā)出的強(qiáng)大搜索工具可以彌補(bǔ)傳統(tǒng)搜索引擎無(wú)力深度搜索的不足。3.1 P2P信息檢索的特點(diǎn)P2P信息檢索通過(guò)分布式存儲(chǔ)和處理能力為大范圍的Web文件搜索提供可能，目前基于傳統(tǒng)的搜索技術(shù)最出色的全文搜索Google只能搜索到20%-30%的網(wǎng)絡(luò)資源，而一個(gè)設(shè)計(jì)良好的P2P搜索將遠(yuǎn)超過(guò)這一數(shù)字。另外，傳統(tǒng)式的搜索引擎對(duì)于數(shù)據(jù)的更新緩慢不能滿(mǎn)足用戶(hù)實(shí)時(shí)性要求。受網(wǎng)絡(luò)爬蟲(chóng)采集信息能力的限制，傳統(tǒng)的搜索引擎很難進(jìn)行深度采集深層次的網(wǎng)頁(yè)信息。P2P系統(tǒng)具有自組織性、對(duì)稱(chēng)性、可擴(kuò)展性以及分布控制等優(yōu)良特性,隨著Gagster , Gnutella 和Free ne

20、t 等P2P 系統(tǒng)的廣泛應(yīng)用,該系統(tǒng)被認(rèn)為是未來(lái)分布式計(jì)算的關(guān)鍵技術(shù),可以應(yīng)用于數(shù)據(jù)共享、CPU 周期共享、及時(shí)信息傳輸以及協(xié)同工作組件等方面,同時(shí)在搜索引擎、數(shù)據(jù)流管理、語(yǔ)義網(wǎng)、協(xié)作信息過(guò)濾等領(lǐng)域具有廣闊的應(yīng)用前景.。對(duì)P2P的研究主要集中在搜索、存儲(chǔ)、安全和應(yīng)用4 個(gè)方面,而搜索是P2P 技術(shù)的核心,目的在于以一種有效的手段快速地響應(yīng)用戶(hù)的資源搜索請(qǐng)求,同時(shí)盡量減少網(wǎng)絡(luò)的流量,以保證系統(tǒng)的可擴(kuò)展性和容錯(cuò)性。3.2 P2P 檢索的主要方法P2P 搜索大致可以分成3 種類(lèi)型: 非結(jié)構(gòu)化P2P 網(wǎng)絡(luò)的搜索技術(shù)、結(jié)構(gòu)化的P2P 網(wǎng)絡(luò)的搜索技術(shù)以及針對(duì)這2 種類(lèi)型的改進(jìn)技術(shù). 目前出現(xiàn)的P2P 系統(tǒng)

21、具備足夠的語(yǔ)義,能夠處理復(fù)雜查詢(xún),可以稱(chēng)為新一代的P2P 檢索技術(shù).3.3 P2P 檢索關(guān)鍵技術(shù)P2P 查詢(xún)的關(guān)鍵技術(shù)包含比較廣泛,核心技術(shù)包括索引構(gòu)造技術(shù)、路由策略及查詢(xún)優(yōu)化等,下面將分別對(duì)它們進(jìn)行介紹.3.3. 1 索引構(gòu)造技術(shù)索引構(gòu)造技術(shù)直接影響P2P 系統(tǒng)的路由策略以及系統(tǒng)的查詢(xún)效率,因此,構(gòu)造具有豐富語(yǔ)義和高效的索引對(duì)于P2P 系統(tǒng)是非常關(guān)鍵的. 一般索引構(gòu)造技術(shù)分成基于模式的索引和實(shí)例索引. 模式索引為PDMS 所特有,考慮了語(yǔ)義異構(gòu)問(wèn)題. 文獻(xiàn)16 中描述的基于RDF 的P2P 體系結(jié)構(gòu)Edutel2la 就是一個(gè)基于模式的P2P 網(wǎng)絡(luò),它包含了使用RDF 描述的模式索引. 實(shí)例

22、索引包括: 通過(guò)散列將原始數(shù)據(jù)標(biāo)識(shí)符映射到ID 集合,再將ID 集合映射到負(fù)責(zé)該ID 的peer ,可以具有多種拓?fù)湫螒B(tài)的散列索引; 把數(shù)據(jù)庫(kù)中B + 樹(shù)思想在P2P 環(huán)境下進(jìn)行擴(kuò)展產(chǎn)生的樹(shù)形索引(例如P2Tree20 和P2Ring21 ) . 實(shí)例索引有多種分布方法:本地分布、集中式分布和分布式分布. 本地索引中各peer 只維持對(duì)自己的數(shù)據(jù)的引用,而不管其他節(jié)點(diǎn)上的數(shù)據(jù)的信息;集中式索引需單個(gè)服務(wù)器上保存許多peer 上數(shù)據(jù)的引用,索引是集中的,但數(shù)據(jù)是分布的;分布式索引指向目標(biāo)的指針存放在多個(gè)peer上,可有效分散查詢(xún)負(fù)載和索引的存儲(chǔ)負(fù)載,具有更強(qiáng)的健壯性和可擴(kuò)展性, 大多數(shù)DHT 索

23、引,P2Tree和P2Ring都是分布式索引.3.3. 2 查詢(xún)優(yōu)化由于P2P 網(wǎng)絡(luò)動(dòng)態(tài)的特性,不能假定具備數(shù)據(jù)分布的全局視圖,也不能在這些網(wǎng)絡(luò)中采用靜態(tài)的拓?fù)浜筒樵?xún)計(jì)劃,使得提交的查詢(xún)不太可能在整個(gè)查詢(xún)處理過(guò)程中都保持原來(lái)的性質(zhì). 為此,對(duì)查詢(xún)進(jìn)行優(yōu)化變得非常重要. 這樣可以加快查詢(xún)執(zhí)行的效率,同時(shí)減少網(wǎng)絡(luò)流量. Piazza 認(rèn)為冗余是造成查詢(xún)的執(zhí)行時(shí)間和響應(yīng)時(shí)間較長(zhǎng)的原因,從而提出了修剪冗余子表達(dá)式、預(yù)計(jì)算語(yǔ)義路徑等優(yōu)化措施. PIER 采用由應(yīng)用程序設(shè)計(jì)者自己進(jìn)行優(yōu)化的方法. 文獻(xiàn) 12 中提出了一種基于直方圖的分層top2k 查詢(xún)算法. 該算法體現(xiàn)了查詢(xún)優(yōu)化的思想:首先,采用層次化的

24、方法實(shí)現(xiàn)分布式的top2k 查詢(xún),將結(jié)果的合并和排序分散到P2P 網(wǎng)絡(luò)中的各個(gè)節(jié)點(diǎn)上,充分利用了網(wǎng)絡(luò)中的資源; 其次,根據(jù)節(jié)點(diǎn)返回的結(jié)果為節(jié)點(diǎn)構(gòu)建直方圖,利用直方圖估計(jì)節(jié)點(diǎn)可能的分?jǐn)?shù)上限對(duì)節(jié)點(diǎn)進(jìn)行選擇,以提高查詢(xún)效率.4 結(jié)束語(yǔ)本文中對(duì)P2P 檢索技術(shù)進(jìn)行較全面的分析、討論,主要包括各個(gè)時(shí)期的P2P 搜索算法,同時(shí)也包括與P2P 搜索技術(shù)有關(guān)的體系結(jié)構(gòu)、路由策略、索引構(gòu)造方法等問(wèn)題. P2P 中高可擴(kuò)展性的構(gòu)造和維護(hù)方法、P2P 網(wǎng)絡(luò)語(yǔ)義異構(gòu)中的模式繼承(schema inheritance) 以及語(yǔ)義傳播( semantic gossip2ing) 等問(wèn)題將是進(jìn)一步研究的對(duì)象.參考文獻(xiàn):1

25、Tang Chunqiang , Xu Zhichen , Dwarkadas S. Peer2to2peer information retrieval using self2organizing semantic overlaynetworks C Proceedings of ACM SIGCOMM. Ger2manyKarlsruhe : s. n. ,2003 :175 - 186.2 Shen H T, Shu Y F , Yu B. Efficient semantic2based con2tent search in P2P networkJ . IEEE Trans. on

26、Knowledgeand Data Engineering , 2004 , 17 (7) : 813 - 826.3 Tang Chunqiang ,Xu Zhichen , Dwarkadas S. On ScalingLatent Semantic Indexing for Large Peer2to2Peer SystemsC SIGIR04. South Yorkshire Sheffield : s. n. ,2004 :112 - 121.4 傅向華,馮博琴. 主題驅(qū)動(dòng)的P2P 分布式信息搜索機(jī)制研究J . 小型微型計(jì)算機(jī)系統(tǒng),2006 ,27 (4) :609 -_5 徐光明,

27、沈云付. 基于語(yǔ)義網(wǎng)的節(jié)點(diǎn)關(guān)聯(lián)的P2P 搜索J . 計(jì)算機(jī)工程與設(shè)計(jì), 2006 , 27 (6) :979 - 981.6 Bawa M, Manku G,Raghavan P. SETS: Search enhancedby topic segmentation C Proceedings of The 26th An2nual International ACM SIGIR Conference. Canada Toronto : s. n. ,2003 :306 - 313.7 Sripanidkulchai K, Maggs B , Zhang H. Efficient conten

28、tlocation using interest2based locality in peer2to2peer systemsC Proceedings of INFOCOM03 Conference. S. l. : s. n. ,2003.8 周晉,路海明,李衍達(dá). 用Small2World 設(shè)計(jì)無(wú)組織P2P系統(tǒng)的路由算法J . 軟件學(xué)報(bào),2004 ,15 (6) : 915 -923.9 凌波,陸志國(guó),黃維維,等. PeerIS:基于Peer2to2Peer 的信息檢索系統(tǒng)J . 軟件學(xué)報(bào), 2004 , 15 (9) : 1375 -1384. 10 Tsoumakos D , Rou

29、ssopoulos N. Adaptive probabilisticsearch (APS) for peer2to2peer networks R . Maryland :University of Maryland , 2003.11 馮國(guó)富,毛鶯池,陸桑璐,等. PeerRank :一種無(wú)結(jié)構(gòu)P2P 資源發(fā)現(xiàn)策略J . 軟件學(xué)報(bào), 2006 ,17 (5) :1098- 1106.12 何盈捷,王珊,杜小勇. 純Peer to Peer 環(huán)境下有效的Top2k 查詢(xún)J . 軟件學(xué)報(bào),2005 :16 (4) :540 - 552.13 李治軍,廖明宏. 基于信任的P2P 真實(shí)性查詢(xún)及副

30、本管理算法J . 軟件學(xué)報(bào),2006 ,17 (4) :939 - 948.14 Ng W S , Ooi B C , Tan KL , et al. Peerdb : A p2p2basedsystemfor distributed data sharing C Proc. of the 19thICDE. Bangalore : IEEE Computer Society Press , 2003 :633 - 644.15 Halevy A Y, Ives Z G, Mork P , et al. Piazza : Data man2agement infrastructure for semantic web applications C Proceedings of the Twelfth International World Wide WebConference.New York :ACM Press ,2003 :556 - 56

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于P2P技術(shù)下的信息檢索研究new

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于P2P技術(shù)下的信息檢索研究new

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔