專業(yè)搜索引擎的排序算法研究

上傳人：簡(jiǎn)*** IP屬地：河北上傳時(shí)間：2021-05-20 格式：DOCX 頁(yè)數(shù)：52 大?。?.95MB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩47頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、南京師范大學(xué)碩士學(xué)位論文專業(yè)搜索引擎的排序算法研究姓名：徐金雷申請(qǐng)學(xué)位級(jí)別：碩士專業(yè)：教育技術(shù)學(xué)指導(dǎo)教師：楊曉江20070508摘要搜索引擎是一項(xiàng)嶄新而深?yuàn)W的技術(shù)，包括分詞、文檔分類、特征提取、索引、存儲(chǔ)、檢索和排序等一系列技術(shù)環(huán)節(jié)。在這些環(huán)節(jié)中，排序是和用戶最相關(guān)的一個(gè)關(guān)鍵環(huán)節(jié)，當(dāng)用戶輸入關(guān)鍵詞檢索時(shí)，如果搜索引擎已經(jīng)將用戶希望的網(wǎng)頁(yè)檢索出來(lái)了，但是卻將這些網(wǎng)頁(yè)捧在若干頁(yè)后，則用戶幾乎不可能瀏覽到該網(wǎng)頁(yè)，這樣大大降低了用戶的滿意度。本文主要研究了搜索引擎的排序問(wèn)題。本文首先通過(guò)文獻(xiàn)調(diào)研，研究通用搜索引擎排序的一般方法，如詞頻和位置加權(quán)算法、DirectHit算法、Alexa的網(wǎng)站排名算法、G

2、oogle的排序算法等，從這些方法中借鑒出通用搜索引擎排序的重要因素，分析了這些因素的求解方法，通過(guò)實(shí)驗(yàn)對(duì)可能的因素進(jìn)行了求解。此外，鑒于基礎(chǔ)教育搜索引擎是一個(gè)專業(yè)的搜索引擎，筆者研究發(fā)現(xiàn)：使用專業(yè)搜索引擎的用戶有特定的專業(yè)背景，對(duì)排序的期望值更高，希望檢索山的頁(yè)面都是很相關(guān)的。通搜索引擎對(duì)某個(gè)關(guān)鍵詞檢索出的頁(yè)面是分布于多個(gè)主題的，不符合用戶的需求。筆者提出了主題相關(guān)度因素，對(duì)每個(gè)頁(yè)面計(jì)算和主題相關(guān)韻程度，再與通用搜索引擎排序的若干因素合理整合，使專業(yè)搜索引擎的排序更加符合用戶的需要。本文在基礎(chǔ)教育搜索引擎上進(jìn)行了排序?qū)嶒?yàn)，實(shí)驗(yàn)證明，這種排序策略是合理可行的。本文在研究排序的同時(shí)，對(duì)搜索引擎的

3、用戶評(píng)價(jià)進(jìn)行了大量的調(diào)研，對(duì)幾大搜索引擎的性能、檢索方式、檢索結(jié)果和用戶負(fù)擔(dān)等方面進(jìn)行了比較研究。以期對(duì)我們的項(xiàng)目研究有所借鑒。關(guān)鍵詞：專業(yè)搜索引擎，排序算法，主題相關(guān)度，基礎(chǔ)教育，用戶評(píng)價(jià)IllAbstractSearchengineitselfisanewandesoterictechnique，includingsometechnical aspects like segmentation，document classify， feature extraction，indexing，storage，retrieval and rankingIn these areas， ranking

4、is most relevant to usersWhen users input a keyword，if search engine locates the web pages users wanted to bottom pages，it is almost impossible for the user to browse through the website，thus greatly reducing the users sati8factionThis paper is mainly on the search engine ranking problemWe first stu

5、dy the literature，and research on the common ranking algorithms of universal search engines， such as the word frequency and location algorithm,Direct Hit algorithm，Alexa website ranking algorithm，Googles ranking algorithmWe research on the important factors of the ranking of search engineThrough exp

6、eriments we work out some possible factorsMoreover，basic education search engine is a specific searchengineThe users of specific search engines have specific backgrounds， hoping the retrieved pages are relatedIn universal search enginea keyword search on the web page is located in a variety of topic

7、sWe put topic relativity factor and calculate itWe combine this factor with universal search engineIt can help the ranking of professional search engine meet usersneedThe experiments show that this ranking strategy is reasonable and feasibleBased on the research of ranking at the same time，we do lot

8、s of research on the usersevaluation of search engineAnd comparative study on several major search engines such as the performance，retrieving means，and search results，hoping to promote our research proj ectsKeywords：Specific Search Engine，Ranking Algorithm，Topic Relativity， Basic Education，Users Eva

9、lua七ion學(xué)位論文獨(dú)創(chuàng)性聲明本人鄭重聲明：1、堅(jiān)持以“求實(shí)、創(chuàng)新”的科學(xué)精神從事研究工作。2、本論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作和取得的研究成果。3、本論文中除引文外，所有實(shí)驗(yàn)、數(shù)據(jù)和有關(guān)材料均是真實(shí)的。4、本論文中除引文和致謝的內(nèi)容外，不包含其他人或其它機(jī)構(gòu)已經(jīng)發(fā)表或撰寫(xiě)過(guò)的研究成果。5、其他同志對(duì)木研究所做的貢獻(xiàn)均已在論文中作了聲明并表示了謝意。作者簽名：日期：至臣i!：墨學(xué)位論文使用授權(quán)聲明本人完全了解南京師范大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定，學(xué)校有權(quán)保留學(xué)位論文并向國(guó)家主管部門(mén)或其指定機(jī)構(gòu)送交論文的電子版和紙質(zhì)版：有權(quán)將學(xué)位論文用于非贏利目的的少量復(fù)制并允許論文進(jìn)入學(xué)校圖書(shū)館

10、被查閱；有權(quán)將學(xué)位論文的內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索；有權(quán)將學(xué)位論文的標(biāo)題和摘要匯編出版。保密的學(xué)位論文在解密后適用本規(guī)定。作者簽名：日期：芝1歪2：!業(yè)：第1章前言11專業(yè)搜索引擎排序算法的研究背景111搜索引擎的發(fā)展1、搜索引擎的誕生與發(fā)展搜索引擎1作為網(wǎng)絡(luò)信息搜尋的工具，它以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息，對(duì)信息進(jìn)行理解、提取、組織和處理。并為用戶提供檢索服務(wù)。所有搜索引擎的祖先2，是1990年由Montreal的McGillulliveBity學(xué)生AlEmtage、PeterDeutsch、BillWheelan發(fā)明的Archie(ArchieFAQ)。當(dāng)時(shí)WoddWideWeb還朱

11、出現(xiàn)。Archie是第一個(gè)自動(dòng)索引互聯(lián)網(wǎng)上匿名FrP網(wǎng)站文件的程序，但它還不是真正的搜索引擎。Archie是一個(gè)可搜索的FTP文件名列表，用戶必須輸入精確的文件名搜索，然后Arehie會(huì)a告訴_|IJ戶哪一個(gè)FTP地址可以下載該文件由于專門(mén)用于檢索信息的Robot程序像蜘蛛(spider)-樣在網(wǎng)絡(luò)間爬來(lái)爬去，因此，搜索引擎的Robot程序被稱為spider(Spider FAQ)程序。tH=界上第一個(gè)Spider樣序，是MIT Matthew Gray的World砸de Web Wanderer，川丁追蹤互聯(lián)網(wǎng)發(fā)展規(guī)模。剛開(kāi)始它只用來(lái)統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量，后來(lái)則發(fā)展為也能夠捕獲網(wǎng)址(UR

12、L)。1993年2月，6個(gè)Stanford(斯坦福)大學(xué)生的想法是分析字詞關(guān)系，以對(duì)互聯(lián)網(wǎng)上的大量信息作更有效的檢索。這就是Excite。后來(lái)曾以概念搜索聞名，2002年5月，被Infospace收購(gòu)的Exdte停止自己的搜索引擎，改用元搜索引擎Dogpile。1994年4月，Stanford兩名博士生，美籍華AJenyYang(楊致遠(yuǎn))llDavid Filo共同創(chuàng)辦了Yahoo。隨著訪問(wèn)量和收錄鏈接數(shù)的增長(zhǎng)，YahooI|錄開(kāi)始支持簡(jiǎn)單的數(shù)據(jù)庫(kù)搜索。因?yàn)閅ahoo的數(shù)據(jù)是手工輸入的，所以不能真正被歸為搜索引擎，事實(shí)上只是一個(gè)可搜索的目錄。搜索效率明顯提高。(Yahoo以后陸續(xù)使用Altav

13、ista、lnktomi、G009le提供搜索引擎服務(wù))Info-ek(SteveKitschAnnounFreeDemosOfthelnfoseekSearchEngine)是另一個(gè)重要的搜索引擎，雖然公司聲稱1994年1月已創(chuàng)立，但直到年底它的搜索引擎才與公眾見(jiàn)面。起初，Infoseek只是一個(gè)不起眼的搜索引擎，它沿襲Yahoo,釋lLycos的概念，并沒(méi)有什么獨(dú)特的革新。但是它的發(fā)展史和后來(lái)受到的眾口稱贊證明，起初第一個(gè)登臺(tái)并不總是很重要Infoseek友善的片j戶界面、大量附加服務(wù)(such asUPStracking，News，adirectory,andthelike)使它聲望日隆

14、。而1995年12月與Netscape的戰(zhàn)略性協(xié)議，使它成為個(gè)強(qiáng)勢(shì)搜索引擎：當(dāng)用戶點(diǎn)i蕾Netscape瀏覽器上的搜索按鈕時(shí)，彈出lnfoseek的搜索服務(wù)，而此前由Yahoo提供該服務(wù)31995年，一種新的搜索引擎形式出現(xiàn)了元搜索引擎(AMeta SearchEngineRoundup)。用戶只需提交一次搜索請(qǐng)求，由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個(gè)預(yù)先選定的獨(dú)立搜索引擎，并將從各獨(dú)立搜索引擎返回的所有查洵結(jié)果，集中起來(lái)處理后再返同給用戶。DEC的AlmVism(2001年夏季起部分網(wǎng)友需通過(guò)p_xy訪問(wèn)，無(wú)p-roxy可tLJqbseach單選altavista搜索，只能顯示第一頁(yè)搜索結(jié)果

15、)是一個(gè)遲到者，1995年12月才登場(chǎng)亮相(AltaVistaPublic Beta Press Release)。但是，大量的創(chuàng)新功能使它迅速劍達(dá)當(dāng)時(shí)搜索引擎的頂峰。林瑞宜陳榕虎搜索引擎新研究情報(bào)探索2005年5月2http：www,foshanwcomscoseose07htm3 Infoseek后來(lái)曾以相關(guān)性聞名，2001年2月，Infoseek停止了自己的搜索引輦，開(kāi)始改用Overture的搜索結(jié)果AJtavista最突出的優(yōu)勢(shì)是它的速度。而A】tavism的另一些新功能，則永遠(yuǎn)改變了搜索引擎的定義AltaVmta是第一個(gè)支持自然語(yǔ)言搜索的搜索引擎，AltaVista是第一個(gè)實(shí)現(xiàn)高級(jí)搜

16、索語(yǔ)法的搜索引擎(如AND，OR,NOT等)用戶可以用Al蝴sta搜索Newsgroups(新聞組)的內(nèi)容并從互聯(lián)網(wǎng)上獲得文章，還可以搜索圖片名稱中的文字、搜索Titles、搜索Java applets，搜索ActiveXobjects。AltaVmta也聲稱是第一個(gè)支持用戶自己向網(wǎng)頁(yè)索引庫(kù)提交或刪除URL的搜索引擎。并能在244,時(shí)內(nèi)上線AltaVista最有趣的新功能之一，是搜索有鏈接指向某個(gè)URL的所有網(wǎng)站。1998年lO月之前，Google只是Smfd大學(xué)的一個(gè)小項(xiàng)目BackRub。1995年博士生LarryPage開(kāi)始學(xué)習(xí)搜索引擎設(shè)計(jì)，于1997年9月15日注冊(cè)Tgooglee,on

17、l的域名，1997年底，在SemeyBrin幣lSeott Hassan、Alan Sterberg的共同參與下，BachRub開(kāi)始提供Demo。1999年2月，Google完成了從Alpha版到Beta舨的蛻變。ch酒e公司則把1998年9上J27EI認(rèn)作自己的生日。Google在Pagerank、動(dòng)態(tài)摘要、網(wǎng)頁(yè)快照、DailyRcfiesh、多文檔格式支持、地圖股票詞典尋人等集成搜索、多語(yǔ)言支持、用戶界面等功能上的革新，像Altavista-樣，再一次永遠(yuǎn)改變了搜索引擎的定義。2、中文搜索引擎的發(fā)展七人天網(wǎng)是國(guó)家“九五”重點(diǎn)科技攻關(guān)項(xiàng)目“中文編碼和分布式中英文信息發(fā)現(xiàn)”的研究成果，由北人計(jì)

18、算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)研究室開(kāi)發(fā)，于1997年lO月29E1正式在CERNET上提供服務(wù)。2000年初成立天網(wǎng)搜索引擎新課題組，由國(guó)家973重點(diǎn)基礎(chǔ)研究發(fā)展規(guī)劃項(xiàng)目基金資助開(kāi)發(fā)，收錄網(wǎng)頁(yè)約6000萬(wàn)，利塒教育網(wǎng)優(yōu)勢(shì)，有強(qiáng)人的FTP搜索功能。2000年1月，超鏈分析專利發(fā)明人、前hfoscek資深工程師李彥宏與好友徐勇(加州伯克利分校博士)在北京中關(guān)村創(chuàng)立了百度(Baidu)公司。2001年8月發(fā)布BaiduCorn搜索引擎Beta版(此前Baidu只為其它門(mén)戶網(wǎng)站如搜狐新浪Tom等提供搜索引擎)，2001年10月22日正式發(fā)布Baidu搜索引擎。Baidu雖然只提供中文搜索，但目前收錄中文網(wǎng)頁(yè)

19、超過(guò)9000萬(wàn)，可能是最大的的中文數(shù)據(jù)庫(kù)。Baidu搜索引擎的其它特色包括：網(wǎng)頁(yè)快照、網(wǎng)頁(yè)預(yù)覽預(yù)覽全部網(wǎng)頁(yè)、相關(guān)搜索詞、錯(cuò)別字糾正提示、新聞搜索，Hash搜索、信息快遞搜索。2002年3月閃電計(jì)劃(Blitzen Project)開(kāi)始后，技術(shù)升級(jí)明顯加快112搜索引擎的技術(shù)架構(gòu)搜索引擎的原理，可以看做三步：從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)一建立索引數(shù)據(jù)庫(kù)一在索引數(shù)據(jù)庫(kù)中搜索排序。從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)國(guó)l則能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的Spider系統(tǒng)程序，自動(dòng)訪問(wèn)互聯(lián)網(wǎng)，并沿著任何網(wǎng)頁(yè)中的所有URL爬劍其它網(wǎng)頁(yè)，重復(fù)這過(guò)程，并把爬過(guò)的所有網(wǎng)頁(yè)收集回來(lái)。建立索引數(shù)據(jù)庫(kù)由分折索引系統(tǒng)程序?qū)κ占貋?lái)的網(wǎng)頁(yè)進(jìn)行分析，提

20、取相關(guān)網(wǎng)頁(yè)信息(包括網(wǎng)頁(yè)所在URL、編碼類型、頁(yè)面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁(yè)的鏈接關(guān)系等)，根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算，得到每一個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面內(nèi)容中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性)，然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。在索引數(shù)據(jù)庫(kù)中搜索排序一當(dāng)用戶輸入關(guān)鍵詞搜索后，由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。因?yàn)樗邢嚓P(guān)網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)度早己算好，所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序。相關(guān)度越高，排名越靠前。最后，由頁(yè)面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁(yè)面內(nèi)容摘要等內(nèi)容組織起來(lái)返回給用戶。113基礎(chǔ)教育搜索引擎的應(yīng)運(yùn)而生及系

21、統(tǒng)架構(gòu)自從面向2l世紀(jì)教育振興行動(dòng)計(jì)劃首次明確將“教育信息化”確定為教育發(fā)展的2重要主題并將教育資源建設(shè)定為重點(diǎn)，各企業(yè)、學(xué)校、部門(mén)紛紛投入大量的人力、物力建設(shè)教育資源。到今天分布在全國(guó)各地服務(wù)器的基礎(chǔ)教育資源是無(wú)法統(tǒng)計(jì)的，而且它每天都像滾雪球一樣在不斷的增長(zhǎng)2001年6月教育部頒布基礎(chǔ)教育課程改革綱要(試行)，提出了基礎(chǔ)教育課程改革的具體目標(biāo)，其中之一是培養(yǎng)學(xué)生搜集和處理信息的能力、獲取新知識(shí)的能力、分析和解決問(wèn)題的能力以及交流與合作的能力。基礎(chǔ)教育專業(yè)搜索引擎(以下簡(jiǎn)稱BERSE)作為基礎(chǔ)教育領(lǐng)域的專業(yè)搜索引擎的誕生也就不足為怪了，它的誕生是基礎(chǔ)教育資源建設(shè)和基礎(chǔ)教育改革發(fā)展的必然結(jié)果，也

22、是廣大從事基礎(chǔ)教育研究工作、教學(xué)工作人員離不開(kāi)的工具，對(duì)學(xué)生來(lái)說(shuō)也是培養(yǎng)他們r(jià)r技能的平臺(tái)之一。圖卜1基礎(chǔ)教育搜索引擎的系統(tǒng)架構(gòu)圖BERSE系統(tǒng)的結(jié)構(gòu)如圖1-1所示，本系統(tǒng)主要包括控制器、網(wǎng)絡(luò)蜘蛛、資源分類器、索引器，商業(yè)服務(wù)、檢索器和相關(guān)數(shù)據(jù)庫(kù)等主要模塊。這些模塊是互相聯(lián)系的，它fJ的功能劃分并不是完全獨(dú)立的，相互間存在著內(nèi)在聯(lián)系。它們的主要功能描述如下：控制器：控制系統(tǒng)良好運(yùn)行的各項(xiàng)參數(shù)，如服務(wù)器分配、數(shù)據(jù)調(diào)度、負(fù)載平衡等。網(wǎng)絡(luò)蜘蛛：它是一個(gè)Web Crawler，它負(fù)責(zé)不問(wèn)斷地從互聯(lián)網(wǎng)上搜集、更新基礎(chǔ)教育資源并存儲(chǔ)劍文檔下載庫(kù)中。分類器、索引器：對(duì)網(wǎng)絡(luò)蜘蛛搜集劍的資源進(jìn)行處理分類，并建立

23、索引存儲(chǔ)到索引數(shù)據(jù)庫(kù)中商業(yè)服務(wù)；為基礎(chǔ)教育資源開(kāi)發(fā)商提供產(chǎn)品推介平臺(tái)，同時(shí)也是本系統(tǒng)實(shí)現(xiàn)其商業(yè)利潤(rùn)的一個(gè)模塊。檢索器：為本系統(tǒng)的用戶提供基礎(chǔ)教育資源搜索、導(dǎo)航服務(wù)。114捧序在搜索引擎中的作用和地位當(dāng)前互聯(lián)網(wǎng)已經(jīng)達(dá)到數(shù)十億網(wǎng)頁(yè)的規(guī)模，并且正在以海量的速度增氏，由于其規(guī)模如此3之龐大，用戶在查詢資料的時(shí)候，經(jīng)常面對(duì)搜索引擎返回的成千上萬(wàn)的網(wǎng)頁(yè)鏈接，而用戶點(diǎn)擊這些鏈接后發(fā)現(xiàn)如下問(wèn)題：1)某些網(wǎng)頁(yè)的確包含用戶輸入的搜索詞，可是內(nèi)容卻并非是相關(guān)的；2)某些網(wǎng)頁(yè)早已更新，用戶查詢的主題甚至已不存在；3)某些網(wǎng)頁(yè)的信息已十分陳舊失去意義；4)某些網(wǎng)頁(yè)確有用戶所需要的資料，但是質(zhì)量不高，或朱達(dá)到用戶所期望的

24、層次。為使所點(diǎn)擊的最初若干鏈接能滿足需要，因此搜索引擎應(yīng)盡可能在不遺漏相關(guān)網(wǎng)頁(yè)的基礎(chǔ)上，將最恰當(dāng)?shù)淖羁尚诺木W(wǎng)頁(yè)鏈接放在返回結(jié)果的最前面。因此，搜索引擎的排序算法，成為搜索引擎最核心和關(guān)鍵的技術(shù)之一，也是現(xiàn)今網(wǎng)絡(luò)服務(wù)研究的熱點(diǎn)之一從用戶角度來(lái)說(shuō)，如果搜索引擎的排序結(jié)果不合理，那么他也不愿意使用該搜索引擎。一個(gè)搜索引擎的排序直接決定用戶使用的滿意度。襄11中國(guó)搜索引擎用戶不滿意因素及比倒不滿意因素所占比飼搜索結(jié)果重復(fù)50*搜索結(jié)果排序欠佳43搜索結(jié)果太雜亂37搜索結(jié)果不合時(shí)宜36廣告太多35根據(jù)某搜索引擎2000年4月的近50萬(wàn)的_Hj戶點(diǎn)擊情況的查詢?nèi)侦鞯囊豁?xiàng)統(tǒng)計(jì)表12用戶在前5頁(yè)的翻頁(yè)統(tǒng)計(jì)

25、頁(yè)號(hào)l2345百分比47薯121l冀714510317可見(jiàn)，用戶絕大部分的瀏覽集中在前幾頁(yè)，往后的頁(yè)面被用戶瀏覽到的幾率越米越小，有的頁(yè)面幾乎不被用戶瀏覽到。115專業(yè)搜索引擎捧序的研究現(xiàn)狀國(guó)內(nèi)該方面的研究比較少，主要集中在對(duì)某些著名搜索引擎的研究上，如對(duì)Google的研究。發(fā)表的論文數(shù)量并不多，并且大部分是介智性的，實(shí)刖性不強(qiáng)。但是近幾年國(guó)內(nèi)搜索引擎的發(fā)展速度加快，有代表性的是百度和天網(wǎng)，其中百度關(guān)于排序的研究成果沒(méi)有公開(kāi)發(fā)表，天網(wǎng)的最新專著搜索引擎一技術(shù)、原理與系統(tǒng)公開(kāi)了其捧序的部分信息國(guó)外這方面的研究成果相對(duì)要多，具有代表性的是對(duì)Google捧序算法的研究，其中尤以對(duì)PageRank及其

26、HITS相關(guān)研究居多。比較成熟的算法有：1)詞頻和位置加權(quán)排序算法2)Direct Hit算法3)Alexa的網(wǎng)站排名算法4)Google的排序算法5)開(kāi)源搜索引擎如lucene的排序思想搜索引擎排序算法作為商業(yè)機(jī)密不作公開(kāi)，因?yàn)橐坏┕_(kāi)，則必有一些網(wǎng)站會(huì)針對(duì)其中的一些因素，在自己的網(wǎng)站上進(jìn)行加強(qiáng)，從而獲得較高的捧名，打亂互聯(lián)網(wǎng)的公平競(jìng)爭(zhēng)原則所以，一般的研究主要是基于某些搜索引擎搜索現(xiàn)狀的推理和猜測(cè)。近些年，一個(gè)新興的高級(jí)技術(shù)行業(yè)SEO(搜索引擎優(yōu)化)發(fā)展很快，SEO主要為企業(yè)4網(wǎng)站提供服務(wù)，目的是通過(guò)一些網(wǎng)絡(luò)技術(shù)手段使企業(yè)網(wǎng)站提高在Alexa或Google等搜索引擎中的捧名，提升用戶點(diǎn)擊的幾

27、率，獲得更多的商機(jī)。通過(guò)SEO手段提高排名要繳納一定的費(fèi)用。一般捧名越前繳費(fèi)越多然而SEO獲得捧名的手段有時(shí)候是不合法不公平的，所以一些大的搜索引擎如Alexa和Google等，對(duì)這類通過(guò)不正當(dāng)手段獲得高排名的網(wǎng)站會(huì)不定期進(jìn)行檢查，采取嚴(yán)厲的懲罰措施甚至封殺。SEO和搜索引擎之間一直不問(wèn)斷地進(jìn)行斗爭(zhēng)116專業(yè)搜索引擎捧序的面臨的主要問(wèn)題1、從用戶角度在通用搜索引擎中，為了使用戶能比較快捷地得到想要的資源，排序環(huán)節(jié)起到了很重要的作用。Google之所以能成為全球搜索第一品牌，其優(yōu)秀的排序結(jié)果是決定性因素之一在中國(guó)搜索引擎明戶所不滿意的因素調(diào)查如下：1)搜索結(jié)果的重復(fù)502)排序結(jié)果欠佳433)搜

28、索結(jié)果太雜亂374)搜索結(jié)果不合時(shí)宜365)廣告過(guò)多35用戶對(duì)排序的結(jié)果不滿意占了很大的比重。剛戶認(rèn)為，排序在前的網(wǎng)站往往不是最新的；前面的網(wǎng)頁(yè)內(nèi)容不是自己最需要的，很多是對(duì)白己沒(méi)有剛的信息；有時(shí)候?yàn)榱苏业揭粋€(gè)有用的網(wǎng)頁(yè)需要往后翻好幾頁(yè)等。2、從Web資源本身就我們的項(xiàng)目基礎(chǔ)教育資源搜索引擎來(lái)說(shuō)，在開(kāi)放的網(wǎng)絡(luò)教育資源環(huán)境中，利剛搜索引擎查找所需的Web資源，往往不能很容易的得到所需的資源，這是因?yàn)椋?)教育資源的文檔生存周期比較長(zhǎng)，更新比較慢；2)教育領(lǐng)域?qū)W科較多，很多學(xué)科之間存在交義現(xiàn)象；3)數(shù)據(jù)量大，即便最符合用戶意圖的頁(yè)面已經(jīng)被檢索出來(lái)了，但是很難捧到最前面。在基礎(chǔ)教育資源搜索引擎系統(tǒng)的

29、背景下，對(duì)排序有特定的要求：基礎(chǔ)教育資源搜索引擎是一個(gè)專業(yè)搜索引擎，通用搜索引擎的排序策略在一定程度上不能滿足其需要。通用搜索引擎的排序主要考慮詞頻和網(wǎng)頁(yè)權(quán)威性等。而B(niǎo)ERSE不能僅僅沿用通用搜索引擎的排序思想，必須設(shè)計(jì)符合自身專業(yè)搜索引擎的排序策略。這是在文本分類基礎(chǔ)之上的又一次資源提煉?，F(xiàn)有待檢索的文檔資源都是經(jīng)過(guò)文檔分類程序處理的，絕大部分資源是符合基礎(chǔ)教育特性的。但是總有少數(shù)和基礎(chǔ)教育的聯(lián)系不緊密，排序程序在呈現(xiàn)排序結(jié)果時(shí)盡量將這些文檔排后。117專業(yè)搜索引擎捧序研究的意義筆者參與開(kāi)發(fā)的基礎(chǔ)教育資源搜索引擎是一個(gè)典型的專業(yè)搜索引擎，組織索引了大量的網(wǎng)絡(luò)教育資源，是基礎(chǔ)教育領(lǐng)域的信息查詢

30、工具之一。面向的用戶是從事基礎(chǔ)教育的老師、教研工作者、家長(zhǎng)和中小學(xué)學(xué)生，這些用戶使用該搜索引擎的目的性很強(qiáng)。如果該搜索引擎不能將非常重要的資源檢索出來(lái)并排到前面，將極大地影響該搜索引擎的用戶滿意度。因此，如何設(shè)計(jì)基礎(chǔ)資源的搜索引擎的排序就顯得尤為重要。在通用搜索引擎中鍵入檢索詞，得到的輸出結(jié)果是多方面的，包含多個(gè)主題和領(lǐng)域。雖然眾多網(wǎng)絡(luò)用戶的需求是多方面的，但是對(duì)某個(gè)具體身份的_H戶而言，他很可能需要特定的輸出結(jié)果，通用搜索引擎的排序結(jié)果往往不能滿足特定用戶對(duì)特定專題的需求。以下分別從5三個(gè)例子來(lái)看：飼一：一個(gè)中學(xué)語(yǔ)文老師想查找一些魯迅的文章，輸入關(guān)鍵詞“魯迅”進(jìn)行檢索，他想要的是關(guān)于魯迅的一

31、些生平或者作品，但是檢索結(jié)果如圖1-2圖12。魯迅”在百度中的檢索結(jié)果首頁(yè)從檢索結(jié)果可以看出，用戶在首頁(yè)就很難直接找到跟魯迅相關(guān)的作品，如“魯迅美術(shù)學(xué)院”，該頁(yè)最下端還有“魯迅教育集團(tuán)”等不相關(guān)的信息。例二：物理老師檢索“杠桿”，希望能找劍和物理教學(xué)相關(guān)的輔助材料。百度中的檢索結(jié)果如圖l-3。6圖1-3“杠桿”在百度中的檢索結(jié)果首頁(yè)百度首頁(yè)上的前幾項(xiàng)中僅有兩項(xiàng)和物理教學(xué)有相關(guān)，大部分是無(wú)關(guān)的。如果這個(gè)物理老師想要更多的資源，他則需往后翻頁(yè)去瀏覽尋找。例三：一個(gè)語(yǔ)文老師想介紹一些和泰山相關(guān)的知識(shí)，但是檢索結(jié)果如圖14。圖1-4“泰山”在百度中的檢索結(jié)果首頁(yè)7對(duì)這個(gè)語(yǔ)文老師來(lái)說(shuō)，其中只有兩個(gè)網(wǎng)址是

32、有用的，而其他的網(wǎng)址則沒(méi)有什么參考價(jià)值，要想獲得更多的資源，還得往后翻頁(yè)?？傊械乃阉饕婺軡M足相當(dāng)一部分用戶的搜索需求，但是如果用戶是特定的某個(gè)領(lǐng)域的，有專一主題的需求時(shí)，排序的結(jié)果就不能滿足這些用戶了。所以，本文就專業(yè)搜索引擎的排序作研究，有很大的現(xiàn)實(shí)意義。12本文的主要工作121研究思路本文研究的思路首先是研究現(xiàn)今各大成功的通_fl搜索引擎的排序策略，從中分析影響搜索引擎排序的因素。然后對(duì)專業(yè)搜索引擎的特殊性作分析，得出專業(yè)搜索引擎不同于通_lJ搜索引擎的總體原則，最后在通用搜索引擎排序研究的基礎(chǔ)之上，創(chuàng)造適合專業(yè)搜索引擎排序的因素，并整合成合理的算法。通過(guò)實(shí)驗(yàn)不斷的調(diào)整算法使攤序更加

33、有效。122研究主要內(nèi)容本文著重研究對(duì)排序影響重要的若干因素并適當(dāng)求解，設(shè)計(jì)排序算法，就基礎(chǔ)教育搜索引擎項(xiàng)目實(shí)例進(jìn)行排序?qū)嶒?yàn)，在實(shí)驗(yàn)的過(guò)程中對(duì)算法進(jìn)行調(diào)整。提煉算法使之符合一般意義的專業(yè)搜索引擎。123研究的成果和創(chuàng)新本文對(duì)各大搜索引擎的排序算法作了研究，在此基礎(chǔ)上，分析和歸納了適合通用搜索引擎排序的重要因素，并對(duì)其中的若干因素作出求解。本文詳細(xì)分析了專業(yè)搜索引擎捧序的特殊要求，提出了專業(yè)搜索引擎排序的原則。設(shè)計(jì)了適合基礎(chǔ)教育搜索引擎捧序的算法，并通過(guò)一系列實(shí)驗(yàn)證明算法的合理和可行。同時(shí)不斷地改進(jìn)。由基礎(chǔ)教育搜索引擎的排序算法提煉升華，本文提出了適合一般專業(yè)搜索引擎的捧序算法，具有推廣的意義。

34、8第2章信息檢索中的排序21傳統(tǒng)信息檢索的相關(guān)捧序技術(shù)給定幕個(gè)文檔集合D，大小為M；設(shè)兩篇文檔“、“2D，一個(gè)查詢q，用什么標(biāo)準(zhǔn)來(lái)衡量“1與“2相比，誰(shuí)和q更相關(guān)呢?”這方面最經(jīng)典的、最有影響力的工作是Gerald Sahon等在30多年前提出的“向量空間模型”(vector space model，VSM)。該模型做了如下假設(shè)：文檔d和查詢q的相關(guān)性可以由它們所包含的共有詞匯情況來(lái)描述。這樣，文檔d和查詢q就都被簡(jiǎn)化成詞匯的集合(多重集)。不失一般性，令為一個(gè)詞典，1為詞項(xiàng)，N為它的規(guī)模，則d=(礦，毋，咿)q=(fP，哆，彬)4其中，mt、珥O=l，2，)表示相應(yīng)詞項(xiàng)山現(xiàn)的次數(shù)，即詞頻TF

35、如果次數(shù)為0，則表示該詞項(xiàng)在文檔或查詢中沒(méi)有出現(xiàn)。在通常的應(yīng)_HJ系統(tǒng)中，人們直接用佩、珥來(lái)表示d采l q。d和q的相關(guān)度評(píng)價(jià)就以這兩個(gè)向量的某種“相近程度”為基礎(chǔ)。1)詞項(xiàng)在文檔和查詢中出現(xiàn)的次數(shù)(詞頻)是一個(gè)基本量，我們稱為“詞頻”，規(guī)格化表示：d=(，馴姚2轟查詢q也有同樣的表示，這里wt也稱為詞頻，這種方式用詞頻來(lái)表示該詞項(xiàng)在文檔和查詢中的權(quán)重。2)若一個(gè)詞項(xiàng)在很多文檔中出現(xiàn)，盡管它可能在某個(gè)文檔內(nèi)部出現(xiàn)的頻率較高，但是對(duì)于不同文檔的區(qū)分能力就不會(huì)很強(qiáng)，因此它的權(quán)重應(yīng)該相對(duì)小些，這就引出了該詞的文檔頻率DF的概念用島表示詞項(xiàng)在文檔集合D中涉及的文檔個(gè)數(shù)，M表示集合D的大小，則文檔頻率為

36、DF()=魯我們需要一個(gè)和DF成反比的量，稱之為倒置文檔頻率IDF，常用的一種定義是F：lg(|rM-)。這樣結(jié)合詞頻，就有了經(jīng)典的7FF權(quán)重的設(shè)計(jì)：12弼嘲2瓦mI xlg(爭(zhēng)給定某種權(quán)重的定量設(shè)計(jì)，求文檔和查詢的相關(guān)性就變成了求d和q向量的某種距離，最常用的是余弦(cos)距離：毗護(hù)鬻這些理論，源于傳統(tǒng)信息檢索領(lǐng)域，針對(duì)的是普通的文本。搜索引擎一原理、技術(shù)與實(shí)現(xiàn)李曉明p176表10-3補(bǔ)償因子定義表922通用搜索引擎的排序算法和策略本文通過(guò)大量的中外文獻(xiàn)調(diào)研，歸納了現(xiàn)今通用搜索引擎的排序算法，主要有以下幾種：221詞頻和位置加權(quán)捧序算法詞頻位置加權(quán)排序算法是一種只從關(guān)鍵詞出現(xiàn)的相對(duì)密度進(jìn)行

37、排序的方法。在計(jì)算關(guān)鍵詞的相對(duì)密度時(shí)應(yīng)該考慮：關(guān)鍵詞出現(xiàn)的位置、出現(xiàn)的次數(shù)、文檔的躍度。其中關(guān)鍵詞出現(xiàn)的位置應(yīng)該考慮這樣幾個(gè)位置：標(biāo)題(Title)、元標(biāo)記(META)、關(guān)鍵詞(Keyword)、鏈接文本(AnchorText)。在本算法中，詞對(duì)文檔的相關(guān)性與詞在該文檔中的權(quán)值成正比下表是不同關(guān)鍵字在不同位置的權(quán)重值分布。表2關(guān)鍵詞和詞頻位置關(guān)系的權(quán)值裹關(guān)鍵詞位置權(quán)值關(guān)鍵詞位置權(quán)值外部鏈接文字10每句開(kāi)頭15標(biāo)題10加粗或斜體1域名7文本用法lH1，H2號(hào)字體5Title屬性l每段句首5A1t屬性05路徑或文件名4Meta描述0，5關(guān)鍵詞堆積Mcta關(guān)鍵詞0054(keywords)該算法的優(yōu)

38、點(diǎn)在于簡(jiǎn)單、易實(shí)現(xiàn)，它的不足之處在于：該算法比較適J【l=I于結(jié)構(gòu)化文檔數(shù)據(jù)，如期刊數(shù)據(jù)等，對(duì)自由的互聯(lián)網(wǎng)來(lái)說(shuō)，很難保證文檔的結(jié)構(gòu)和文檔的質(zhì)量。222DirectHit算法Direct Hit是Ask Jeeves公司的一種注重信息質(zhì)量和用戶行為反饋的排序算法，它的基本思想是：用戶輸入檢索詞條t后，如果用戶在瀏覽搜索引擎提供的n條結(jié)果記錄中第i條記錄(RUL)時(shí)，停留了較長(zhǎng)時(shí)問(wèn)，則說(shuō)明記錄i與關(guān)鍵詞t具有較高的相關(guān)度；如果用戶停留時(shí)間較短，用戶很快返回結(jié)果記錄瀏覽第j條記錄，說(shuō)明記錄i與關(guān)鍵詞t相關(guān)度較小由此可見(jiàn)，同一個(gè)詞在不同的時(shí)間進(jìn)行檢索，得到的結(jié)果集排序可能不同，BPDirect Hit

39、捧序是一種依賴用戶搜索行為的動(dòng)態(tài)排序。在該排序算法中，網(wǎng)頁(yè)排序結(jié)果由兩部分決定；URL被點(diǎn)擊次數(shù)和被瀏覽的時(shí)間長(zhǎng)度。該算法的優(yōu)點(diǎn)是：首先它利用了用戶的反饋信息進(jìn)行排序，在一定程度上滿足了“J【f=l戶保障原則”；其次，該算法在排序時(shí)考慮了信息的質(zhì)量。而該算法的不足之處在于：一是用戶行為比較隨意，很難保證捧序結(jié)果的準(zhǔn)確性；二是在多頁(yè)的檢索結(jié)果中，大部分用戶只瀏覽前幾頁(yè)的結(jié)果，因此對(duì)于一些排名較示或者新登錄的網(wǎng)站很難有機(jī)會(huì)獲得點(diǎn)擊，從而一直無(wú)法提高自己的排名。323Alexa的網(wǎng)站捧名算法Alexa是以發(fā)布世界網(wǎng)站排名而引人注目的一個(gè)網(wǎng)站。在URL數(shù)量上，Alexa位居世界四大名搜索引擎第一位，已

40、經(jīng)超過(guò)了350億。101，Alexa的世界網(wǎng)站排名1)綜合排名，也可以叫做絕對(duì)排名，即特定的一個(gè)網(wǎng)站在所有350多億網(wǎng)站中的名次Alexa每三個(gè)月公布一次新的網(wǎng)站綜合排名此排名的依據(jù)是用戶鏈接數(shù)(Users Reach)和頁(yè)面瀏覽數(shù)(Page Views)三個(gè)月累積的幾何平均值。2)分類捧名，一是按主題分類，比如新聞，娛樂(lè)，購(gòu)物等，Mexa給出某個(gè)特定網(wǎng)站在同一類網(wǎng)站中的名次。Alexa將其收集到的網(wǎng)站共分了16個(gè)大類，每個(gè)類下又分為多個(gè)主題。二是按語(yǔ)言分類，比如英文網(wǎng)站、中文網(wǎng)站、法文網(wǎng)站、德文網(wǎng)站等，給出特定站點(diǎn)在所有此類語(yǔ)言網(wǎng)站中的名次。Mexa提供了21種不同語(yǔ)言網(wǎng)站的分類排名。其中中

41、文網(wǎng)站還細(xì)分成簡(jiǎn)體中文和繁體中文兩種。對(duì)于中文網(wǎng)站的排名只發(fā)布捧在前100名的網(wǎng)站名單。2、Alexa對(duì)網(wǎng)站排名的前提條件1)Mexa的網(wǎng)站排名是按照每個(gè)特定網(wǎng)站的被訪問(wèn)量進(jìn)行排名的。訪問(wèn)量越大，排名越靠前。2)訪問(wèn)量是針對(duì)定義在域上的網(wǎng)站進(jìn)行統(tǒng)計(jì)的如：sinaccn，newssinatoman和techsinatOmcn將被視作同一網(wǎng)站進(jìn)行計(jì)數(shù)，因?yàn)樗鼈兺瑢儆趕ins COilcn這個(gè)域。3)提供同樣內(nèi)容的網(wǎng)站將被視為同一網(wǎng)站計(jì)算。比如說(shuō)，傳播研究網(wǎng)使用wt mediaresearchc091Cll$1http：vnwmediaresearchca兩個(gè)域名發(fā)布同樣的內(nèi)容，那么將被作為同一個(gè)網(wǎng)

42、站來(lái)計(jì)算。4)納入統(tǒng)計(jì)的訪問(wèn)量?jī)H來(lái)自使用AlexaI具欄(AlexaToolbar)的用戶。也就是說(shuō)，只有用戶下載了Alexa工具欄，并將其嵌入自己的瀏覽器。這樣，該用戶訪問(wèn)某個(gè)網(wǎng)站的話，訪問(wèn)的記錄才能算作被訪問(wèn)網(wǎng)站的訪問(wèn)量。據(jù)Alexa統(tǒng)計(jì)，現(xiàn)在使用該工具欄的用戶達(dá)數(shù)百萬(wàn)。5)AlexaI具欄僅在windows操作系統(tǒng)下，Internet Exploer瀏覽器中管用，使用其它操作系統(tǒng)或者瀏覽器的訪問(wèn)將不能被計(jì)數(shù)。6)遇到有安全保護(hù)或加密的站點(diǎn)(如使用https協(xié)議)，Alexa工具欄將自動(dòng)關(guān)閉，因此那些安全系數(shù)高的網(wǎng)站，Alexa將不能對(duì)其進(jìn)行搜索和統(tǒng)計(jì)捧名3、Alexa對(duì)網(wǎng)站訪問(wèn)量算法1)

43、某個(gè)特定網(wǎng)站被捧名時(shí)，依據(jù)的訪問(wèn)量數(shù)據(jù)是基于該網(wǎng)站3個(gè)月訪問(wèn)量記錄的累積。也就是說(shuō)Alexa每三個(gè)月發(fā)布一次排名結(jié)果，即通常說(shuō)的名次。它的計(jì)算主要取決于用戶鏈接數(shù)(Users Reach)和頁(yè)面瀏覽數(shù)(Page Views)Alexa系統(tǒng)每天對(duì)每個(gè)網(wǎng)站的用戶鏈接數(shù)和頁(yè)面瀏覽數(shù)進(jìn)行統(tǒng)計(jì)，通過(guò)這兩個(gè)量的三個(gè)月累積值的幾何平均得出當(dāng)前名次變動(dòng)是指與前三個(gè)月的比較2)用戶鏈接數(shù)(Users Reach)指通過(guò)Internet訪問(wèn)某個(gè)特定網(wǎng)站的人數(shù)。用訪問(wèn)某個(gè)特定網(wǎng)站的人數(shù)占所有Internet塒戶數(shù)的比例來(lái)表示。即：用戶鏈接數(shù)=(訪問(wèn)人數(shù)全部Alexa用戶數(shù))10096 Alexa以每百萬(wàn)人作為計(jì)數(shù)單

44、位。以雅虎(Yahoo)為例，如果它的用戶鏈接數(shù)為28的話，就是說(shuō)，隨意抽取一百萬(wàn)的Iaternet用戶，其中有280，000人訪問(wèn)Yahoo3)頁(yè)面瀏覽數(shù)(PageViews)是指用戶訪問(wèn)了某個(gè)特定網(wǎng)站的多少個(gè)頁(yè)面。是所有訪問(wèn)該網(wǎng)站的朋戶瀏覽的頁(yè)面數(shù)之和。每個(gè)用戶瀏覽的頁(yè)面數(shù)取平均值，是所有訪問(wèn)該網(wǎng)站的用戶每天每人瀏覽的獨(dú)立頁(yè)面數(shù)的平均。同一人、同一天、對(duì)同一頁(yè)面的多次瀏覽只記一次。4、影響Alexa網(wǎng)站排名的其它因素1)受使用Alexa工具欄用戶的語(yǔ)言、地域、文化等各方面的影響。因此英文網(wǎng)站相對(duì)于其它語(yǔ)言的網(wǎng)站，訪問(wèn)量數(shù)據(jù)更容易被充分地統(tǒng)計(jì)。2)由于某種需要，用戶可能過(guò)多的訪問(wèn)alexaC

45、Om，amazoIL coarchiveorgY-個(gè)網(wǎng)站，所以這幾個(gè)網(wǎng)站的訪問(wèn)量可能被過(guò)高的統(tǒng)計(jì)。3)很容易受網(wǎng)站對(duì)自己宣傳的程度、打廣告的多少、別的網(wǎng)站為其建立鏈接的多少的影響224Google的捧序算法Google是全世界被使用的最多的通用搜索引擎。與其它搜索引擎比較，除高性能和易用以外，一個(gè)決定性的因素是其優(yōu)秀的搜索結(jié)果。Google搜索結(jié)果的質(zhì)量在很大程度上受益于PageRanl【_個(gè)精密的排序網(wǎng)頁(yè)文件等級(jí)的方式。PageRank的思想源于學(xué)術(shù)引文機(jī)制：當(dāng)從網(wǎng)頁(yè)A鏈接到網(wǎng)頁(yè)B時(shí)，就認(rèn)為網(wǎng)頁(yè)A投了網(wǎng)頁(yè)B一票，增加了網(wǎng)頁(yè)B的重要性，最后根據(jù)網(wǎng)頁(yè)B的得票數(shù)評(píng)定其重要性計(jì)算公式為：衛(wèi)PR(A)

46、=0一d)+d芝：PR(p,)c(B)ftl其中：PR(A)：頁(yè)面A的網(wǎng)頁(yè)級(jí)別PR(pI)：頁(yè)面n的網(wǎng)頁(yè)級(jí)別C(B)：頁(yè)面B鏈出的鏈接數(shù)量d：阻尼系數(shù)，取值在0-I之間，一般取085N：互聯(lián)網(wǎng)上所有網(wǎng)頁(yè)的數(shù)量Google采用一種近似的迭代的方法計(jì)算網(wǎng)頁(yè)的網(wǎng)頁(yè)級(jí)別，即給每個(gè)網(wǎng)頁(yè)一個(gè)初始值，然后利用上面的公式，進(jìn)行有限次迭代運(yùn)算得到網(wǎng)頁(yè)的級(jí)別值。在迭代的過(guò)程中，每個(gè)網(wǎng)頁(yè)的網(wǎng)頁(yè)級(jí)別和收斂于整個(gè)網(wǎng)絡(luò)的頁(yè)面數(shù)。每個(gè)頁(yè)面的平均網(wǎng)頁(yè)級(jí)別是l，實(shí)際上的值在(1-d)和(心J+(1-d)之間。PageRank只是Google用來(lái)排序的一個(gè)重要因素，Google還運(yùn)用了很多其他因素來(lái)排序，這里就不展開(kāi)了PageR

47、ank是由Google的創(chuàng)始人Larry Page希lSergey Brin在斯坦福大學(xué)開(kāi)發(fā)出的一套用于網(wǎng)頁(yè)評(píng)級(jí)的系統(tǒng)組織管理工具，PageRank利用了互聯(lián)網(wǎng)獨(dú)特的民主特性及其巨大的鏈接結(jié)構(gòu)，在浩翰的鏈接資源中，Google提取出上億個(gè)超級(jí)鏈接進(jìn)行分析，制作出一個(gè)巨人的網(wǎng)絡(luò)地圖(Map)。依據(jù)此地圖，PageRan技術(shù)能夠快速地計(jì)算出網(wǎng)頁(yè)的級(jí)別(Rank)，從而進(jìn)行捧序輸出。它的基本思想主要是來(lái)自傳統(tǒng)文獻(xiàn)計(jì)量學(xué)中的文獻(xiàn)引文分析，即一篇文獻(xiàn)的質(zhì)量和重要性可以通過(guò)其它文獻(xiàn)對(duì)其引川的數(shù)量來(lái)衡量，也就是說(shuō)，一篇文獻(xiàn)被其它文獻(xiàn)引心越多，則文獻(xiàn)質(zhì)量就越高。在這樣一個(gè)假設(shè)基礎(chǔ)之上，一個(gè)網(wǎng)頁(yè)的質(zhì)量和重要性也

48、可以通過(guò)其它網(wǎng)頁(yè)對(duì)其超文本鏈接的數(shù)量來(lái)衡量。具體來(lái)說(shuō)，假如網(wǎng)頁(yè)A有一個(gè)指向網(wǎng)頁(yè)B的鏈接，Google就認(rèn)為“網(wǎng)頁(yè)A投了網(wǎng)頁(yè)B一票”。Google根據(jù)網(wǎng)頁(yè)被鏈接的數(shù)量來(lái)評(píng)定其重要性。如果說(shuō)，最后指向A的網(wǎng)頁(yè)數(shù)為100，而指向B的網(wǎng)頁(yè)數(shù)只有l(wèi)O，則說(shuō)明網(wǎng)頁(yè)A比網(wǎng)頁(yè)B更加重要。另外，在實(shí)際計(jì)算網(wǎng)頁(yè)的PageRank值時(shí)，除了考慮網(wǎng)頁(yè)得票數(shù)(即鏈接)的純數(shù)量之外，Google還考慮到網(wǎng)頁(yè)A的所有鏈入網(wǎng)頁(yè)(鏈接到某網(wǎng)頁(yè)的其它網(wǎng)頁(yè)稱為該網(wǎng)頁(yè)的鏈入網(wǎng)頁(yè))對(duì)它的推薦能力(即由于它們對(duì)網(wǎng)頁(yè)A的鏈接，使人們認(rèn)為網(wǎng)頁(yè)A的重要程度)希I推薦程度(即它們認(rèn)為網(wǎng)頁(yè)A的重要程度)。一個(gè)網(wǎng)頁(yè)本身的PageRank值越高，則它

49、對(duì)其鏈出網(wǎng)頁(yè)(從某個(gè)網(wǎng)頁(yè)鏈出的網(wǎng)頁(yè)稱為該網(wǎng)頁(yè)的鏈出網(wǎng)頁(yè))的推薦能力就越大；一個(gè)網(wǎng)頁(yè)的鏈出網(wǎng)頁(yè)越少，那么它對(duì)其中一個(gè)鏈出網(wǎng)頁(yè)的推薦程度就越高。據(jù)此，Google計(jì)算出每個(gè)網(wǎng)頁(yè)的重要性綜合指標(biāo)，即網(wǎng)頁(yè)級(jí)別。重要的、高質(zhì)量的網(wǎng)頁(yè)可獲得較高的網(wǎng)頁(yè)級(jí)別，從而在搜索結(jié)果中可獲較高的排位。(當(dāng)然，如果與查詢項(xiàng)目不匹配，再重要的網(wǎng)頁(yè)也毫無(wú)意義。Google采用完善的超文12本匹配分析技術(shù)，實(shí)現(xiàn)為用戶查找既重要又準(zhǔn)確的網(wǎng)頁(yè))假設(shè)網(wǎng)頁(yè)A有網(wǎng)頁(yè)T1，T2，Tn的鏈接指向它，我們可以用以下公式來(lái)簡(jiǎn)要表達(dá)Google關(guān)于網(wǎng)頁(yè)P(yáng)ageRank值的計(jì)算：PR(A)=(1一d)十d(PR(T1)C(T1)十十PR(Tn)c(

50、Tn)其中，PR(A)是指網(wǎng)頁(yè)A的PageRank值；T1，T2，Tn是網(wǎng)頁(yè)A的鏈入網(wǎng)頁(yè)：PIc(Ti)是指網(wǎng)頁(yè)Ti的PageRank值(i=1。2n)；C(Ti)是指網(wǎng)頁(yè)Ti的鏈出網(wǎng)頁(yè)的數(shù)量(i=l，2，n)，即指向其它網(wǎng)頁(yè)的數(shù)量；d是權(quán)重因子，取0d1，通常取085，本文實(shí)驗(yàn)取的值就是085；PR(Tn)c(Tn)為鏈接指向網(wǎng)頁(yè)的網(wǎng)頁(yè)Tn投與網(wǎng)頁(yè)的網(wǎng)頁(yè)級(jí)別值，亦稱MiniPageRank。可以看出，某一網(wǎng)頁(yè)A的PageRank為其它網(wǎng)頁(yè)Tn(鏈接指向網(wǎng)頁(yè)A的網(wǎng)頁(yè))的PageRank除去Tn網(wǎng)頁(yè)外向鏈接的數(shù)量后的總和，其主要取決于三個(gè)因素：(1)該網(wǎng)頁(yè)的鏈入數(shù)量；(2)該網(wǎng)頁(yè)的鏈入網(wǎng)頁(yè)本身的

51、PageRank值；(3)該網(wǎng)頁(yè)的鏈入網(wǎng)頁(yè)本身的鏈出數(shù)量。根據(jù)以上公式，一個(gè)網(wǎng)頁(yè)的鏈入數(shù)量越多、這些鏈入網(wǎng)頁(yè)的PageRank值越高，這些鏈入網(wǎng)頁(yè)本身的鏈山數(shù)量越少，則該網(wǎng)頁(yè)的PageRank值越高。假定有如下一個(gè)較簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu)圖(如下圖所示)，則幽中每個(gè)頁(yè)面的PageRank值計(jì)算如下：圍2-；四個(gè)頁(yè)面的鏈接關(guān)系初始時(shí)每個(gè)網(wǎng)頁(yè)都設(shè)置其Page Rank為1PR(A)=0115(base)+011275(from C)=012775PR(B)=0115(base)+010425(from A)=011925PR(O=0115(base)+010425(from A)+011275(from

52、B)+011275(from D)=014475PR(D)=0115(base)+010425(from Page A)=011925 經(jīng)過(guò)143次遞歸計(jì)算后得到如下值：PR(A)=114131522515PR(B)=015503931379PR(C)=114860614724PR(D)=015503931379在網(wǎng)頁(yè)的PageRank值計(jì)算過(guò)程中，Google首先給每一個(gè)網(wǎng)頁(yè)賦一個(gè)初始PageRank值，然后根據(jù)PageRank算法進(jìn)行遞歸計(jì)算，直至相鄰兩次計(jì)算的差值相差小于某一個(gè)值(1010)就可以收斂了。PageRank技術(shù)根據(jù)網(wǎng)頁(yè)之間的鏈接結(jié)構(gòu)對(duì)網(wǎng)頁(yè)的重要性進(jìn)行客觀的評(píng)價(jià)，并將網(wǎng)頁(yè)的PageRank值應(yīng)用于檢索結(jié)果的排序，網(wǎng)頁(yè)Rank值越高，表明其越重要，排序也越前。這樣，在很大程度上避免和減少了人為因素，做到客觀地將最恰當(dāng)?shù)臋z索結(jié)果展現(xiàn)給州戶。消除了網(wǎng)站等級(jí)、論資排輩等觀念，使真正有信息資源價(jià)值的任何小網(wǎng)站的網(wǎng)頁(yè)，在被檢索時(shí)，和13名網(wǎng)站的網(wǎng)頁(yè)占有同等的地位，使搜索用戶不會(huì)被虛假捧名靠前的網(wǎng)站所阻隔，保證了網(wǎng)民們有價(jià)值的信息暢通無(wú)阻。225SALSA算法在保留PageRank隨機(jī)漫游和HITS中HUB值和SALSA權(quán)威值思想的同時(shí)，SALSA算法考慮了用戶后退瀏覽網(wǎng)頁(yè)的情況，取消了BUB值和權(quán)威值的互相加強(qiáng)關(guān)系。226HILTS算法(

人人文庫(kù)> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

專業(yè)搜索引擎的排序算法研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

專業(yè)搜索引擎的排序算法研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔