校園內(nèi)網(wǎng)搜索引擎構(gòu)建的必要性分析_第1頁(yè)
校園內(nèi)網(wǎng)搜索引擎構(gòu)建的必要性分析_第2頁(yè)
校園內(nèi)網(wǎng)搜索引擎構(gòu)建的必要性分析_第3頁(yè)
校園內(nèi)網(wǎng)搜索引擎構(gòu)建的必要性分析_第4頁(yè)
校園內(nèi)網(wǎng)搜索引擎構(gòu)建的必要性分析_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、校園內(nèi)網(wǎng)搜索引擎構(gòu)建的必要性分析摘要:分析了當(dāng)前通用搜索引擎的原理和體系結(jié)構(gòu),研究了通用搜索引擎在應(yīng)用于校園網(wǎng)信息檢索時(shí)無(wú)法完整準(zhǔn)確的不足之處以及校園網(wǎng)Web信息的特點(diǎn),總結(jié)了校園網(wǎng)搜索引擎應(yīng)該具有特性以及建設(shè)的必要性。關(guān)鍵詞:校園內(nèi)網(wǎng)搜索搜索引擎隨著我校的不斷發(fā)展,學(xué)校越來(lái)越重視數(shù)字化校園的建設(shè),并迅速步入了信息化高速發(fā)展的階段。隨著學(xué)校校園網(wǎng)的不斷完善,這就要求給廣大師生提供一個(gè)良好的信息化教學(xué)、科研和管理平臺(tái)。目前,校園網(wǎng)資源正變得日益豐富,如何更全面、更準(zhǔn)確地獲取最新、最有效的信息已經(jīng)成為我們把握機(jī)遇、迎接挑戰(zhàn)和獲取成功的重要條件。通用搜索引擎如百度、谷歌(google)雖然都提供了大

2、學(xué)搜索的服務(wù)來(lái)實(shí)現(xiàn)對(duì)部分高校校園網(wǎng)范圍內(nèi)的網(wǎng)頁(yè)搜索,但是其存在一些問(wèn)題,如更新周期過(guò)長(zhǎng),對(duì)校園內(nèi)網(wǎng)信息無(wú)能為力等,因此,設(shè)計(jì)高校信息資源的專業(yè)搜索引擎,對(duì)于高校信息資源的共享以及提高信息資源的利用率就顯得非常有必要。1通用搜索引擎的體系結(jié)構(gòu)及現(xiàn)狀分析在互聯(lián)網(wǎng)發(fā)展初期,網(wǎng)站相對(duì)較少,信息查找比較容易。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展,普通網(wǎng)絡(luò)用戶想找到所需的資料簡(jiǎn)直如同大海撈針,這時(shí)為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應(yīng)運(yùn)而生了。1.1搜索引擎的體系結(jié)構(gòu)搜索引擎技術(shù)是由信息檢索IR(InformationRetrieval)技術(shù)發(fā)展而來(lái),是IR技術(shù)在Web上的擴(kuò)展,信息檢索技術(shù)研究信息的表示、存儲(chǔ)、

3、組織和查詢?,F(xiàn)代意義上的全文搜索引擎是指以一定的策略搜集互聯(lián)網(wǎng)上的信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。它具備三大特點(diǎn):事先下載信息,對(duì)信息進(jìn)行事先組織,實(shí)時(shí)進(jìn)行檢索。搜索引擎也是信息檢索(InformationRetrieval)這門(mén)學(xué)科的典型應(yīng)用。搜索引擎主要由搜索器、索引器、檢索器和用戶接口四部分組成,其體系結(jié)構(gòu)如圖1所示1。1.2通用搜索引擎的發(fā)展現(xiàn)狀目前按照信息搜集方法和工作方式的不同,搜索引擎系統(tǒng)分為三大類2。目錄式搜索引擎:以人工方式進(jìn)行主體歸納和分類,由人工形成信息摘要,并將信息歸類于事先確定的分類目錄中。信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù),用

4、戶可將查詢限定在某一目錄范圍下進(jìn)行。該類搜索引擎因?yàn)榧尤肓巳说闹悄埽孕畔?zhǔn)確、導(dǎo)航質(zhì)量高,缺點(diǎn)是需要人工介入、信息不全面、信息更新不及時(shí)。這類搜索引擎的代表是:早期的YahooMagellan等。機(jī)器人搜索引擎:是面向網(wǎng)頁(yè)的全文檢索服務(wù)。由一個(gè)稱為爬蟲(chóng)(spider)的機(jī)器程序以深度優(yōu)先(或廣度優(yōu)先)策略自動(dòng)地在Internet中搜集信息,將搜集到的信息存入數(shù)據(jù)庫(kù)并由索引器為其建立索引,由檢索器根據(jù)用戶的查詢請(qǐng)求檢索索引庫(kù),將相對(duì)應(yīng)的查詢結(jié)果返回給用戶。該類搜索引擎的優(yōu)點(diǎn)是不需人工干預(yù)、信息量大、更新及時(shí),缺點(diǎn)是返回信息過(guò)多,有很多無(wú)關(guān)信息,用戶必須從結(jié)果中進(jìn)行篩選。這類搜索引擎的代表是G

5、oogle、Baidu等。元搜索引擎:元搜索引擎不對(duì)Web進(jìn)行遍歷分析,也沒(méi)有自己的數(shù)據(jù),而是將用戶的查詢請(qǐng)求同時(shí)向多個(gè)搜索引擎遞交,然后將各搜索引擎返回的結(jié)果進(jìn)行合并、去重,重新排序統(tǒng)一處理后,返回給用戶。這類搜索引擎的優(yōu)點(diǎn)是能夠在短時(shí)間內(nèi)提供相對(duì)全面和準(zhǔn)確的信息,缺點(diǎn)是不能夠充分使用所使用搜索引擎的功能,用戶需要做更多的篩選。這類索引擎的代表是MetaCrawler、InfoMarket等。2校園內(nèi)網(wǎng)搜索引擎構(gòu)建的必要性分析校園網(wǎng)可以看作以學(xué)校為單位的內(nèi)聯(lián)網(wǎng)(intranet),它與互聯(lián)網(wǎng)(internet)是同質(zhì)的。但是由于應(yīng)用環(huán)境、網(wǎng)站構(gòu)建以及鏈接結(jié)構(gòu)方面的不同,對(duì)搜索引擎來(lái)說(shuō),校園網(wǎng)

6、與公用互聯(lián)網(wǎng)有著多方面的區(qū)別。對(duì)于校園網(wǎng)的搜索引擎而言,其目標(biāo)是關(guān)注校園網(wǎng)信息的所有用戶,校園網(wǎng)搜索引擎的目的是盡可能的收集本校園網(wǎng)的信息,區(qū)別與通用的搜索引擎要搜索整個(gè)互聯(lián)網(wǎng)的目的,校園網(wǎng)搜索引擎需要做到對(duì)信息收集的小而全”而且校園網(wǎng)搜索引擎應(yīng)該做到易于開(kāi)發(fā),部署簡(jiǎn)單,實(shí)現(xiàn)成本低。在功能需求上,無(wú)論是在校的師生還是想了解校園信息的其他人員可以通過(guò)校園網(wǎng)www服務(wù)器進(jìn)行信息的檢索,從而迅速的通過(guò)網(wǎng)絡(luò)得到校內(nèi)各部門(mén)提供的各種信息。2.1校園網(wǎng)Web信息的特點(diǎn)隨著校園網(wǎng)建設(shè)的迅速發(fā)展、信息化管理時(shí)代的到來(lái)以及共享網(wǎng)絡(luò)信息資源的快速增長(zhǎng),校園網(wǎng)內(nèi)的信息正在以驚人的速度增加著。截止目前,我校網(wǎng)絡(luò)中心存

7、儲(chǔ)的信息量至少在200G左右,這還不包括分散在各個(gè)校區(qū)各個(gè)學(xué)院的信息量。雖然校園網(wǎng)有如此之多的好處,但是,網(wǎng)上資源分布在校園網(wǎng)的各個(gè)角落里,用戶無(wú)法及時(shí)準(zhǔn)確的找到自己需要的信息,這使得校園網(wǎng)上的資源被孤立了起來(lái),全校師生在茫茫網(wǎng)海中迅速定位有價(jià)值的信息變得比較困難。構(gòu)建校園內(nèi)網(wǎng)搜索引擎的必要性分析。通用搜索引擎信息量大,信息更新緩慢,采用竟價(jià)排名機(jī)制。對(duì)于校園內(nèi)網(wǎng)的某些信息無(wú)法檢索。隨著學(xué)校的不斷發(fā)展,學(xué)校越來(lái)越重視信息化建設(shè),校園網(wǎng)信息量的急速增長(zhǎng),也使得全校師生迅速獲取到有價(jià)值的信息越來(lái)越困難。2.2校園網(wǎng)搜索引擎的特性網(wǎng)站集中校園網(wǎng)網(wǎng)站一般集中在一個(gè)或幾個(gè)IP地址段內(nèi),網(wǎng)站之間的鏈接稀疏

8、,由于分別由不同機(jī)構(gòu)和個(gè)人進(jìn)行維護(hù)和管理,有些網(wǎng)站很難從其它網(wǎng)站的鏈接到達(dá);網(wǎng)站的重要性與網(wǎng)站規(guī)模不成正比,例如新聞和論壇類網(wǎng)站的網(wǎng)頁(yè)數(shù)量多并且鏈接較密,而教學(xué)和管理部門(mén)的網(wǎng)站則相反。信息二義性少校園網(wǎng)網(wǎng)站中的信息,基本上是描述本學(xué)校的內(nèi)容,對(duì)于某些特殊的詞語(yǔ),不像在互聯(lián)網(wǎng)上,有其自己的語(yǔ)境,不會(huì)出現(xiàn)二義性。異構(gòu)文本格式的網(wǎng)頁(yè)比例高互聯(lián)網(wǎng)上常見(jiàn)的網(wǎng)頁(yè)通常有靜態(tài)網(wǎng)頁(yè)(文件后綴為htm、html、shtml等)、動(dòng)態(tài)網(wǎng)頁(yè)(文件后綴為aspjsp、php等)以及各種文檔(文件后綴為doc、pdf、ppt等)。把doc、pdf、ppt等類型的文件稱為異構(gòu)文本。校園網(wǎng)中通常包含圖書(shū)館、論文等各種學(xué)術(shù)資源

9、,這些信息通常都是以異構(gòu)文本的形式發(fā)布的,這是校園網(wǎng)資源的顯著特點(diǎn)。用戶查詢習(xí)慣互聯(lián)網(wǎng)上的查詢往往沒(méi)有特別明確的預(yù)期,對(duì)同一個(gè)查詢?cè)~,有幾十或成百上千個(gè)相關(guān)的返回結(jié)果。搜索引擎可以通過(guò)鏈接分析等技術(shù)把重要”的網(wǎng)頁(yè)排在靠前位置,得到令用戶滿意的查詢結(jié)果。校園網(wǎng)用戶通常具有明確的查詢預(yù)期,例如某個(gè)專業(yè)的專業(yè)介紹、某個(gè)院系的詳細(xì)資料等。正確的搜索結(jié)果通常沒(méi)有明顯的特點(diǎn),通常不是被眾多鏈接指向的重要”網(wǎng)頁(yè)。因此在排序算法中需要更多考慮相關(guān)度的分析和比較。3結(jié)語(yǔ)目前的搜索引擎服務(wù)對(duì)象一般定位于所有的Internet用戶,雖然通用性好,但檢索出的信息量龐大,且沒(méi)有搜索空間限定,不太適用于特定的服務(wù)領(lǐng)域。如果直接將傳統(tǒng)的互聯(lián)網(wǎng)搜索算法應(yīng)用到校園網(wǎng)當(dāng)中難以得到令用戶滿意的搜索性能。因而,為用戶提供一種搜索領(lǐng)域只限制在本校園網(wǎng)中,為校園網(wǎng)用戶服務(wù)的小型化專業(yè)化的搜索引擎

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論