搜索引擎的群體個性化研究_第1頁
搜索引擎的群體個性化研究_第2頁
搜索引擎的群體個性化研究_第3頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

搜索引擎的群體個性化研究

關(guān)鍵詞:個性化信息采集;個性化查詢;搜索引擎;群體個性化1.引言近年來,隨著網(wǎng)絡(luò)的流行和互聯(lián)網(wǎng)信息的爆炸性增長,整個網(wǎng)絡(luò)正在堆積成一個前所未有的超級大型數(shù)據(jù)庫。傳統(tǒng)的搜索引擎由于其通用性,越來越不能滿足不同背景、不同目的和不同時期用戶的個性化需求。傳統(tǒng)搜索引擎,只要使用相同的關(guān)鍵詞檢索,返回的結(jié)果必然是相同的,它并不考慮不同用戶的特殊需要和信息偏好,所有用戶都面對著同樣的信息空間。而且在傳統(tǒng)的搜索引擎中,隨便的關(guān)鍵字搜索都會有成千上萬條的返回信息,其中不乏大量的過期和損壞的信息和鏈接,用戶要從這些信息中找到需要和有用的信息,又是一個巨大的工程。用戶急需一個可以理解用戶的個性化需求,并根據(jù)用戶個性化需求快速準(zhǔn)確的提供用戶真正感興趣的信息的個性化搜索引擎。如今,搜索技術(shù)遭遇的最大挑戰(zhàn),是如何根據(jù)每個用戶的細(xì)微差別,為他們提供最妥帖的搜索內(nèi)容,而這項新技術(shù),將為搜索引擎使用方式注入全新的內(nèi)涵[1]。本文在個性化研究的基礎(chǔ)上,通過進(jìn)一步擴(kuò)展用戶需求和優(yōu)化搜索過程,提出了一種更為詳細(xì)客觀的群體個性化的信息搜索服務(wù)。2.個性化搜索引擎?zhèn)€性化搜索引擎是指按照特定用戶的個性化需求,為其提供人性化的互聯(lián)網(wǎng)搜索服務(wù)。具體來說,首先應(yīng)該獲取用戶的個性化信息,通過對個性化信息的組織和分析得到用戶的個性化模式,然后將用戶的個性化模式附加到用戶的搜索過程中,側(cè)重獲取符合用戶個性化需求的網(wǎng)絡(luò)信息,最后對搜索到的信息進(jìn)行組織排列,為每個用戶提供符合其個性化要求的搜索結(jié)果。2.1個性化搜索引擎的體系架構(gòu)個性化搜索引擎針對傳統(tǒng)搜索引擎在用戶個性化方面的不足,通過加入個性化模塊,獲取用戶的個性化信息,為用戶提供符合其興趣習(xí)慣的搜索結(jié)果。[2]其體系架構(gòu)主要由通用搜索引擎、查詢接口、個性化客戶端三部分組成。通用搜索引擎部分與傳統(tǒng)搜索引擎的功能與結(jié)構(gòu)一樣,主要由網(wǎng)絡(luò)爬蟲、索引器、索引數(shù)據(jù)庫、檢索器等模塊組成,負(fù)責(zé)網(wǎng)絡(luò)信息資源的搜索、連接、傳輸和分析,并根據(jù)其中的超鏈接繼續(xù)處理其它資源,將分析結(jié)果存入索引庫,供檢索使用。查詢接口是用戶能看到的部分,通過它為用戶提供友好的搜索引擎輸入、輸出界面。個性化客戶端是個性化搜索引擎最為關(guān)鍵的部分,也是區(qū)別于傳統(tǒng)搜索引擎的主要特征。一般包括個性化信息庫模塊、查詢優(yōu)化器、中英文詞典以及機(jī)器的智能學(xué)習(xí)模塊等,其中還包括個性化信息庫的更新與維護(hù)模塊。在用戶的使用過程中,機(jī)器可以通過用戶的瀏覽行為自主學(xué)習(xí),動態(tài)更新用戶的個性化信息庫,并在用戶搜索過程中,通過查詢優(yōu)化器連接個性化信息庫和中英文詞典自動對用戶的搜索進(jìn)行優(yōu)化,從而達(dá)到提高查詢質(zhì)量的目的。2.2個性化信息采集系統(tǒng)個性化搜索引擎與傳統(tǒng)搜索引擎的主要區(qū)別就在于,個性化搜索引擎可以通過用戶的個性化信息,為不同的用戶提供符合其興趣和習(xí)慣的人性化搜索結(jié)果。每個用戶都有他的個性,只有充分理解用戶的個性化需求,才能為用戶提供更好、讓用戶更滿意的個性化的服務(wù)。所以如何收集用戶的個性化信息,建立一個健全的、動態(tài)的用戶個性化信息庫,是實現(xiàn)個性化搜索引擎的關(guān)鍵。個性化信息采集模型,根據(jù)這個模型我們可以建立一個個性化信息采集系統(tǒng)來收集用戶的個性化信息,系統(tǒng)可以通過與用戶交互和檢測用戶的行為習(xí)慣,建立和完善一個健全的用戶個性化信息庫。每個用戶都會有其相關(guān)的個性化信息,個性化信息采集有兩種方式。用戶可以直接將個人興趣或者感興趣的關(guān)鍵詞提交給個性化的信息采集模塊,這種稱為顯式收集。用戶也可以對搜索引擎的返回結(jié)果進(jìn)行選擇,選擇的結(jié)果提交給個性化信息采集模塊,系統(tǒng)通過分析用戶已訪問過的站點信息、用戶對鏈接的選擇和用戶在網(wǎng)頁上停留的時間等,也可以獲得用戶的興趣反饋,這種稱為隱式收集。2.3目前個性化搜索引擎的不足現(xiàn)在的搜索引擎還不能提供令人滿意的個性化服務(wù)。造成這種現(xiàn)象的主要原因如下:首先,用戶的需求難以得到有效的表達(dá)。這主要有兩個方面的因素:一方面由于用戶的文化水平和表達(dá)能力上的差異,往往不能通過關(guān)鍵詞有效的表達(dá)自己的需求信息,而過長而累贅的搜索請求更加得不到需要的搜索結(jié)果。另一方面,由于不同用戶在思維方式和表達(dá)方式上的差異,搜索引擎沒有用戶相關(guān)的個性化信息,也不具備智能的糾正和聯(lián)想功能,系統(tǒng)往往無法正確理解用戶的搜索請求。由于用戶與搜索引擎系統(tǒng)在“交流”上的這些障礙,使得用戶的需求無法準(zhǔn)確的表達(dá),用戶的表達(dá)也無法被搜索引擎準(zhǔn)確的理解和執(zhí)行,從而導(dǎo)致搜索引擎效率和準(zhǔn)確率的低下。其次,檢索結(jié)果的準(zhǔn)確率和檢索速度之間存在矛盾。在搜索引擎處理海量數(shù)據(jù)時,傳統(tǒng)的個性化技術(shù)常常會產(chǎn)生嚴(yán)重的性能問題,這是由于之前主要適用于傳統(tǒng)小型商務(wù)網(wǎng)站中的個性化算法和技術(shù)往往缺乏良好的縮放性,而且某些語義分析功能,在處理時間和空間的上的耗費很大,在商用搜索引擎上難以普及。3.群體個性化搜索引擎3.1群體個性化搜索引擎概述由于顯式收集和隱式收集都存在一定的局限性,個性化研究的基礎(chǔ)上,根據(jù)每個用戶的細(xì)微差別,為他們提供最妥帖的搜索內(nèi)容,這就提出了群體個性化的概念。群體個性化搜索引擎就是將所有的搜索引擎用戶根據(jù)其用戶特征和網(wǎng)絡(luò)行為特征劃分為若干的個性化群體,然后根據(jù)不同的用戶群體的群體個性制定不同的個性化搜索計劃,為其提供相應(yīng)的個性化、人性化的服務(wù)。當(dāng)有新用戶加入時,只要根據(jù)其提供的個性化信息,將其歸類到各個個性化群體中,就可以為其提供相應(yīng)群體的個性化服務(wù)。3.2群體個性化搜索引擎的體系結(jié)構(gòu)群體個性化搜索引擎是將用戶劃分為若干群體,然后為每個群體提供專門的搜索引擎,來實現(xiàn)個性化服務(wù)的目的,其實現(xiàn)方式類似于前面介紹的多元搜索引擎。多元搜索引擎中,主搜索引擎之下包含眾多的專業(yè)搜索子引擎,分別處理各個領(lǐng)域的搜索請求。當(dāng)用戶發(fā)出搜索請求時,主搜索引擎結(jié)合用戶的個性化信息對搜索請求進(jìn)行分解,然后將分解后的搜索請求分別提交給相關(guān)的專業(yè)搜索子引擎。與多元搜索引擎類似的,群體個性化搜索引擎也是包含眾多針對各個用戶群體的個性化搜索引擎。當(dāng)用戶使用群體個性化搜索引擎之前,群體個性化搜索引擎會根據(jù)收集的用戶個性化信息,將用戶劃分到相應(yīng)的個性化群體中;當(dāng)用戶發(fā)出搜索請求時,群體個性化搜索引擎會根據(jù)用戶所屬的個性化群體,將搜索請求進(jìn)行分析和優(yōu)化,然后提交給相應(yīng)的個性化搜索引擎。群體個性化搜索引擎也分為客戶端與服務(wù)器端兩部分??蛻舳酥饕ㄓ脩舻娜后w個性化信息庫和優(yōu)化模塊。用戶群體個性化信息庫主要負(fù)責(zé)收集用戶的個性化信息,并根據(jù)用戶的個性化信息對用戶進(jìn)行分類,將其歸入相應(yīng)的個性化群體;而優(yōu)化模塊主要負(fù)責(zé)根據(jù)用戶所屬群體的個性化信息,對用戶的搜索請求進(jìn)行分析和優(yōu)化,提交給群體個性化搜索引擎,并且對搜索引擎返回的搜索結(jié)果進(jìn)行優(yōu)化,返回給用戶。而服務(wù)器端也是主要包括兩部分,群體個性化搜索引擎分析器和眾多的個性化搜索引擎。群體個性化搜索引擎分析器主要負(fù)責(zé)對客戶端傳過來的搜索請求進(jìn)行分析歸類,并分別提交給相應(yīng)的個性化搜索引擎,然后對各個搜索引擎返回的結(jié)果匯總返回給客戶端;而眾多的個性化搜索引擎則是根據(jù)群體個性化搜索引擎分析器傳過來的搜索請求對web信息進(jìn)行搜索,并將搜索結(jié)果返回給群體個性化搜索引擎分析器。3.3搜索引擎的精準(zhǔn)度分析群體個性化搜索引擎的理論依據(jù)是現(xiàn)實世界“人以類聚,物以群分”的原則,它根據(jù)搜索引擎用戶群體的共性和差異,將整個用戶群體劃分為若干的個性化用戶群,然后以個性化群個性化群體的劃分是影響群體個性化搜索引擎搜索質(zhì)量(也就是查全率和查準(zhǔn)率)的關(guān)鍵性因素,個性化群體劃分的越多越詳細(xì),群體個性化搜索的服務(wù)質(zhì)量就越好。我們可以想象,當(dāng)用戶只劃分為一個群體時,群體個性化搜索引擎就成了傳統(tǒng)的搜索引擎;當(dāng)用戶群體劃分到極致的時候,就成了將每個用戶個體作為一個群體。就像世界上沒有兩片完全相同的葉子,世界上也沒有兩個人的行為和思維模式是完全相同的,群體個性化搜索引擎的理想狀態(tài)是為每個個性化搜索引擎的用戶量身定制一個專屬的個性化搜索引擎。顯然對于群體個性化搜索引擎來說,個性化用戶群體的劃分越詳細(xì)、個性化用戶群體越多,其服務(wù)質(zhì)量就越好;但同時的,個性化群體劃分的越詳細(xì)、個性化群體的數(shù)量越多,需要制作的個性化搜索引擎的數(shù)量也越龐大,相應(yīng)的制作難度和制作成本也越高。4群體個性化搜索引擎服務(wù)質(zhì)量與制作成本間的關(guān)系個性化群體的劃分越詳細(xì)、個性化群體數(shù)量越多,群體個性化搜索引擎的服務(wù)質(zhì)量也就越好,但隨著個性化群體數(shù)量的進(jìn)一步增多,群體個性化搜索引擎的服務(wù)質(zhì)量的增長呈現(xiàn)越來越緩慢的趨勢;而隨著個性化群體數(shù)量的增多,群體個性化搜索引擎制作成本基本上呈線性增長趨勢。顯然這其中有一個最優(yōu)點,即服務(wù)質(zhì)量與制作成本的交點,當(dāng)個性化群體的數(shù)量達(dá)到這個點時,與服務(wù)質(zhì)量相對應(yīng)的制作成本的價值達(dá)到最大化。總的來說,當(dāng)群體個性化搜索引擎?zhèn)€性化群體的劃分粗略而籠統(tǒng)時,群體個性化搜索引擎相對于傳統(tǒng)搜索引擎并沒有太多的優(yōu)勢,一旦個性化群體的劃分細(xì)致到一定程度時,群體個性化搜索引擎就會體現(xiàn)出極大的優(yōu)勢來。群體個性化搜索引擎的個性化群體劃分的越詳細(xì),其服務(wù)就越好,但是當(dāng)個性化用戶群體的劃分細(xì)致到一定程度是時候,這樣一件看似簡單是事情也會變成一件極為龐大的工程,其相應(yīng)的制作成本也是極其可觀的。所以在制作群體個性化搜索引擎的時候,把握好制作成本與服務(wù)質(zhì)量之間的關(guān)系是很重要的。4.總結(jié)群體個性化搜索引擎是基于一種理想狀態(tài)下個性化搜索引擎的普遍和推廣,理想狀態(tài)下的個性化搜索引擎是為每一位搜索引擎的用戶提供一個量身訂造的個性化搜索引擎,而群體個性化搜索引擎是將用戶個體的概念放大為具有相同個性化特征的用戶群體,轉(zhuǎn)而為個性化用戶群體提供適合其群體個性化的個性化搜索引擎。這種觀念的轉(zhuǎn)變是對傳統(tǒng)個性化搜索引擎概念的一種突破,它使得理想狀態(tài)下的個性化搜索引擎在一定程度上得以實現(xiàn)。[1]李曉明,閆洪飛,王繼明.搜索引擎--原理、技術(shù)與系統(tǒng)[M].北京:科學(xué)出版社,2005.[2]李樹青,韓忠愿.個性化搜索引擎原理與技術(shù)[M].北京:科學(xué)出版社,2008.[3]蔣萍,崔志明.智能搜索引擎中用戶興趣分析模型與研究[J].微電子學(xué)與計算機(jī),2004,21(11):24-26.[4]曹元大,賀海軍.全文檢索字索引技術(shù)的研究與實現(xiàn)[J].計算機(jī)工程,2002,28(6):260一262.ResearchofthesearchengineinpersonalizationofgroupsWenYiDepartmentofComputerScienceandTechnology,WuhanUniversityofTechnology,Wuhan,Hubei,PRC,(430070)AbstractWebinformationisgrowingmassofInternetinformationonhowtofindtheinformationtheyneedtobecomeimpededdevelopmentoftheInternetamajorchallenge.Whiletraditionalsearchengineshavegreatlyimprovedtheappearanceofnetworkinformationretrievalspeed.Acertainextent,solvedthisproblem,butstillcannotmeetpeople'sinformationservicethegrowingdemandforpersonalization.Atthesametime,inthispayattentiontopersonalityandpeople-orientedera,personalizedanduser-friendlysearchengine,becametheneedsofthetimes.Inthispaper,atraditionalsearchengineintheuserinterface,personalizationofthedefects,theuseofpersonalizedinformationacquisitionsystemtocollectandextracttheuser'spersonalizedinformation,throughtheexpansio

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論