![網(wǎng)絡(luò)信息檢索的工具._第1頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-1/26/e6e340a5-618b-4548-b78f-42061b06f496/e6e340a5-618b-4548-b78f-42061b06f4961.gif)
![網(wǎng)絡(luò)信息檢索的工具._第2頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-1/26/e6e340a5-618b-4548-b78f-42061b06f496/e6e340a5-618b-4548-b78f-42061b06f4962.gif)
![網(wǎng)絡(luò)信息檢索的工具._第3頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-1/26/e6e340a5-618b-4548-b78f-42061b06f496/e6e340a5-618b-4548-b78f-42061b06f4963.gif)
![網(wǎng)絡(luò)信息檢索的工具._第4頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-1/26/e6e340a5-618b-4548-b78f-42061b06f496/e6e340a5-618b-4548-b78f-42061b06f4964.gif)
下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、網(wǎng)絡(luò)信息檢索的工具摘要搜索引擎是人們使用In ternet信息資源的重要工 具。本文對(duì)目前的中文搜索引擎進(jìn)行了簡(jiǎn)要的分析,指出了其存在的缺陷和發(fā)展的 方向。關(guān)鍵詞信息檢索中文搜索引擎 存在的問(wèn)題 發(fā)展方向隨著In ternet信息資源的迅速增長(zhǎng),如何在浩瀚的信息海洋中準(zhǔn)確、方便、快速地找到 自己所需的信息,成了迫切需要解決的問(wèn)題,從1995年開(kāi)始出現(xiàn)的信息檢索工具搜索引擎很好地解決了這一問(wèn)題。然而各種搜索引擎,特別是尚處于發(fā)展初期 的中文搜索引擎還存在著很多的缺陷有待改進(jìn),本文旨在分析目前中文搜索引擎存 在的主要問(wèn)題,并為解決此類問(wèn)題提出一些建議和方法。一、搜索引擎的概念和及類型搜索引擎又稱檢
2、索引擎,是指運(yùn)行在In ternet上,以信息資源為對(duì)象,以信息檢索的方式為用戶提供所需數(shù)據(jù)的服務(wù)系統(tǒng),主要包括信息存取、信息 管理和信息檢索三大部分。目前,中文搜索引擎主要有三種類型:分類目錄式搜索引擎、全文搜索引擎和元搜索引擎。1分類目錄式搜索引擎。分類目錄式搜索引擎是以人工或半人工方式收集信息,建立數(shù)據(jù)庫(kù),由編輯人員在訪問(wèn)了某 個(gè)web站點(diǎn)后,對(duì)該站點(diǎn)進(jìn)行描述,并根據(jù)站點(diǎn)的內(nèi)容和性質(zhì)將其歸為一個(gè)預(yù)先 分好的類別。由于目錄式搜索引擎的信息分類和信息搜集有人的參與,其搜索的準(zhǔn) 確度較高,導(dǎo)航質(zhì)量也不錯(cuò)。但因其人工的介入,維護(hù)量大,信息量少,信息更新 不及時(shí)都使得人們利用它的程度有限。國(guó)內(nèi)著名
3、的新浪、搜狐、中文雅虎都屬于這 種類型。2.全文搜索引擎。這是一種目前運(yùn)用較廣泛的搜索引擎。國(guó)內(nèi)以百度,google天網(wǎng)為代表。它是使用自動(dòng)采集軟件 Robot,搜集和發(fā)現(xiàn)信息,并下 載到本地文檔庫(kù),再對(duì)文檔內(nèi)容進(jìn)行自動(dòng)分析并建立索引。對(duì)于用戶提出的檢索要 求,通過(guò)檢索模塊檢索索引,找出匹配文檔返回給用戶。全文搜索引擎具有龐大的全文索引數(shù)據(jù)庫(kù)。其優(yōu)點(diǎn)是信息量大,范圍廣,較適用于檢索難以查找的信 息或一些較模糊的主題。缺點(diǎn)是缺乏清晰的層次結(jié)構(gòu),檢索結(jié)果重復(fù)較多,需要用 戶自己進(jìn)行篩選。3元搜索引擎。元搜索引擎是一種調(diào)用其他搜索引擎的引擎。它是通過(guò)一個(gè)統(tǒng)一的用戶界面,幫助用戶在多個(gè)搜索引擎中選擇和
4、利用合適的 搜索引擎來(lái)實(shí)現(xiàn)檢索。中文元搜索引擎開(kāi)發(fā)較少,較成熟的則更少,萬(wàn)緯搜索是目 前有一定影響的中文元搜索引擎。其他的典型代表有infospace, dogpile,vivisimo等。二、現(xiàn)階段中文搜索引擎存在的主要問(wèn)題2查全率不高。查全率是指檢索出的相關(guān)信息量與存儲(chǔ)在檢索系統(tǒng)中的全部相關(guān)信息量的百分比, 是判斷檢索系統(tǒng)質(zhì)量的度量之一。國(guó)內(nèi)絕大多數(shù)的網(wǎng)站組織的信息大多都是通過(guò)瀏覽方式獲得內(nèi)容。即使是經(jīng)過(guò)精心組織、編排非常合理的網(wǎng)站,也會(huì)有 70%80%的網(wǎng)頁(yè)不能被搜索引擎檢索到。中文目錄式搜索引擎因需人工介入、維 護(hù)量大,在這方面表現(xiàn)較明顯。3查準(zhǔn)率較低。查準(zhǔn)率更是判斷檢索系統(tǒng)質(zhì)量的重要
5、尺度。是指系統(tǒng)所檢索到的真正與查詢內(nèi)容相關(guān)的文檔占檢索出的所有文檔 數(shù)的百分比。造成查準(zhǔn)率低的原因是,部分搜索引擎的分類體系與科學(xué)知識(shí)體系之間缺乏內(nèi)在聯(lián)系;類目之間邏輯關(guān)系模糊,導(dǎo)致檢索路徑與搜索引擎類目錯(cuò) 位;信息加工深度不夠;檢索功能單一;檢索詞的專指性較差;大部分的檢索結(jié)果 是題錄式而非全文式,其內(nèi)容簡(jiǎn)單等等。機(jī)器人搜索引擎的分類和索引缺乏人工的 參與,其查準(zhǔn)率不如目錄式搜索引擎,且檢索結(jié)果中還含有大量的重復(fù)、虛假的信 息。4專業(yè)性的搜索引擎發(fā)展遲緩。專業(yè)性的搜索引擎是為專門收錄某一行業(yè),某一主題的信息而建立,能夠提供專題信息查詢服務(wù)的搜索引擎。目前中文搜 索引擎大多是綜合性的,能同時(shí)收
6、錄各行業(yè)、各學(xué)科的多種信息,但在反映某一行 業(yè)或某一專題的信息方面很難做到全面、精確,不能給用戶提供特定的信息服務(wù)。 這就使得專業(yè)人員,特別是某一領(lǐng)域的學(xué)者、專家不愿意利用中文搜索引擎去查詢 資料。5檢索功能方面存在缺陷。一是檢索中符合布爾邏輯運(yùn)算符的搜索引擎極為有限;二是關(guān)鍵詞檢索輸出的結(jié)果相關(guān)度排序方式雜亂,不能根據(jù)用戶需要來(lái) 選擇信息輸出的方式;三是多數(shù)的搜索引擎是面向主題搜索不是面向用戶搜索,不 能重復(fù)利用用戶檢索過(guò)的成果,更不能對(duì)特定的用戶進(jìn)行定題跟蹤服務(wù);四是檢索 網(wǎng)站的主頁(yè)不規(guī)范,有些太簡(jiǎn),有些又太繁,而且廣告內(nèi)容太多,無(wú)法進(jìn)行有效檢 索。三、中文搜索引擎的發(fā)展方向1提高查全率。
7、首先是需要開(kāi)發(fā)分布式的系統(tǒng)。這種系統(tǒng)可以把各個(gè)接點(diǎn)當(dāng)作是新的信息資源,擴(kuò)大數(shù)據(jù)庫(kù)的規(guī)模,正 在興起的元搜索引擎屬于這種系統(tǒng),它在接受了用戶的查詢命令后,可同時(shí)用多個(gè) 搜索引擎進(jìn)行查詢;二是把專業(yè)數(shù)據(jù)庫(kù)資源納入自己的檢索范圍。除了Web信息資源外,網(wǎng)上還有大量的非 Web信息資源,如聯(lián)機(jī)檢索系統(tǒng)、光盤檢索系統(tǒng)、專 業(yè)數(shù)據(jù)庫(kù)系統(tǒng)。如中文搜索引擎能把這些 Web和非Web資源結(jié)合起來(lái)使用,即使有的只能查到題錄、文摘等內(nèi)容,也大大擴(kuò)展了檢索范圍,能為用戶提供較全面的 檢索需求02提高查準(zhǔn)率。需解決以下幾個(gè)難關(guān):首先需提高搜索引擎的信息過(guò)濾功能。在對(duì)網(wǎng)絡(luò)信息進(jìn)行集中的搜集之后,搜索引擎還需對(duì)這些信息進(jìn)行
8、鑒別和過(guò) 濾,即剔除大量的無(wú)用信息,而把有效的信息提煉出來(lái)并加以聚集;第二則是需對(duì) 專家過(guò)濾后的信息進(jìn)行一定的檢索標(biāo)引,并給予相關(guān)的標(biāo)識(shí)符號(hào),如關(guān)鍵詞、分類 號(hào)、主題詞等各種標(biāo)識(shí),其關(guān)鍵是利用智能檢索技術(shù),提高準(zhǔn)確性;把檢索的結(jié)果 存儲(chǔ)在相應(yīng)的數(shù)據(jù)庫(kù)中,并由 URL與In ternet建立鏈接供用戶使用;還需注意信 息定期更新,以保證信息的新穎性和鏈接的可靠性。3.建立垂直化專業(yè)領(lǐng)域的搜索引擎。網(wǎng)絡(luò)用戶所從事的職業(yè)千差萬(wàn)別,不同的用戶對(duì)信息搜索往往有不同的 要求。綜合性的搜索引擎收錄的范圍太廣、太大無(wú)法滿足某一特定的需求。垂直化 專業(yè)搜索引擎則可解決這一難題。它只面向某一特定的領(lǐng)域,專注于自己
9、的特長(zhǎng)和 核心技術(shù),能保證對(duì)該領(lǐng)域的信息的收錄齊全與更新迅速。在提供專業(yè)信息方面有 著大型綜合搜索引擎無(wú)法比擬的優(yōu)勢(shì),所采用的技術(shù)都是些較成熟的技術(shù)。 中文垂直化專業(yè)搜索引擎的發(fā)展已取得了一定的成功,如新浪的新聞搜索,博客搜 索、雅虎的個(gè)性化旅行路線搜索、百度的 MP3搜索、Google的學(xué)術(shù)搜索,航班搜 索等都為用戶提供了較好的搜索功能,為今后的繼續(xù)發(fā)展奠定了基礎(chǔ)。4.搜索引擎的智能化發(fā)展。智能搜索引擎是未來(lái)搜索引擎的發(fā)展趨勢(shì)。可以通過(guò)自然語(yǔ)言 與用戶交互,最大限度地了解用戶的需求。智能檢索一是表現(xiàn)在搜索引擎技術(shù)的智 能化,研究重點(diǎn)放在自然語(yǔ)言處理技術(shù)和人工智能技術(shù)的研究上;另一表現(xiàn)是體現(xiàn)
10、在搜索引擎面向檢索者的智能化,它致力于通過(guò)分析檢索者的檢索和瀏覽行為來(lái)學(xué) 習(xí)檢索者的需求,禾U用搜索引擎現(xiàn)有的服務(wù)有選擇地為檢索者提供個(gè)性化的服務(wù)。 5.加強(qiáng)搜索引擎的檢索功能。強(qiáng)化全文檢索功能。利用Robot實(shí)現(xiàn)對(duì)站點(diǎn)頁(yè)面文字內(nèi)容的全面檢索技術(shù)。比起目錄檢索,全文檢索提供了全新的檢索功能,可以直接 根據(jù)文獻(xiàn)資料的內(nèi)容進(jìn)行檢索,支持多角度、多側(cè)面地綜合利用信息資源,全面、 準(zhǔn)確、快速是衡量全文檢索系統(tǒng)的關(guān)鍵指標(biāo);同時(shí)改善用戶檢索界面,設(shè)計(jì)簡(jiǎn)潔、 明白的界面引導(dǎo)用戶進(jìn)入檢索狀態(tài)6.完善元搜索引擎。元搜索引擎彌補(bǔ)了獨(dú)立 搜索引擎不全的特點(diǎn),提高了檢索的全面性?,F(xiàn)開(kāi)發(fā)出的中文元搜索引擎的數(shù)目很少,還有諸多缺陷,需在各方面進(jìn)一步改進(jìn)。元搜索引擎要對(duì)各獨(dú)立的信息特色進(jìn)行較細(xì)致的調(diào)查,以確定自己要收錄的范圍;在對(duì)目標(biāo)搜索引擎的組織中突出獨(dú)立搜索引擎的檢索特色,并設(shè)計(jì)各搜索
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 山西工學(xué)院《有氧教學(xué)與訓(xùn)練(三)》2023-2024學(xué)年第二學(xué)期期末試卷
- 福建農(nóng)林大學(xué)金山學(xué)院《急診醫(yī)學(xué)概論》2023-2024學(xué)年第二學(xué)期期末試卷
- 榆林學(xué)院《建筑設(shè)計(jì)(四)》2023-2024學(xué)年第二學(xué)期期末試卷
- 吉林工程技術(shù)師范學(xué)院《智慧檢驗(yàn)醫(yī)學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 青海農(nóng)牧科技職業(yè)學(xué)院《飼料添加劑》2023-2024學(xué)年第二學(xué)期期末試卷
- 甘肅工業(yè)職業(yè)技術(shù)學(xué)院《電子商務(wù)基礎(chǔ)與應(yīng)用》2023-2024學(xué)年第二學(xué)期期末試卷
- 福州軟件職業(yè)技術(shù)學(xué)院《半導(dǎo)體物理》2023-2024學(xué)年第二學(xué)期期末試卷
- 洗衣店裝修保修合同樣本
- 橡膠制品居間合同范例
- 2025年度起重機(jī)械安裝拆除安全風(fēng)險(xiǎn)評(píng)估與管理合同
- 中國(guó)氫內(nèi)燃機(jī)行業(yè)發(fā)展環(huán)境、市場(chǎng)運(yùn)行格局及前景研究報(bào)告-智研咨詢(2024版)
- 開(kāi)學(xué)季初三沖刺中考開(kāi)學(xué)第一課為夢(mèng)想加油課件
- 《自然保護(hù)區(qū)劃分》課件
- 2025年普通卷釘項(xiàng)目可行性研究報(bào)告
- 2025年建筑施工春節(jié)節(jié)后復(fù)工復(fù)產(chǎn)工作專項(xiàng)方案
- 學(xué)校食堂餐廳管理者食堂安全考試題附答案
- 《商用車預(yù)見(jiàn)性巡航系統(tǒng)技術(shù)規(guī)范》
- 玻璃電動(dòng)平移門施工方案
- 春季安全開(kāi)學(xué)第一課
- 陜鼓集團(tuán)招聘筆試題目
- 長(zhǎng)鑫存儲(chǔ)校招在線測(cè)評(píng)題庫(kù)
評(píng)論
0/150
提交評(píng)論