




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第四章Internet信息檢索
1
網(wǎng)絡(luò)信息檢索的一般方法
2網(wǎng)絡(luò)信息檢索工具
3相關(guān)網(wǎng)絡(luò)信息檢索技術(shù)
4搜索引擎及其原理1網(wǎng)絡(luò)信息檢索的一般方法1.1瀏覽
1.2通過網(wǎng)絡(luò)資源指南來查找信息
1.3利用搜索引擎進行信息檢索
1.1瀏覽
(1)偶然發(fā)現(xiàn)。這是在因特網(wǎng)上發(fā)現(xiàn)、檢索信息的原始方法。即在日常的網(wǎng)絡(luò)閱讀、漫游過程中,意外發(fā)現(xiàn)一些有用信息。這種方式的目的性不是很強,其不可預(yù)見性、偶然性使檢索過程具有某種探索寶藏的意味,也許會充滿樂趣,但也可能一無所獲。(2)順“鏈”而行。指用戶在閱讀超文本文檔時,利用文檔中的鏈接從一網(wǎng)頁轉(zhuǎn)向另一相關(guān)網(wǎng)頁。有些類似于傳統(tǒng)文獻檢索中的“追溯檢索”,即根據(jù)文獻后所附的參考文獻目錄去追溯相關(guān)文獻,一輪一輪地不斷擴大檢索范圍。這種方式可以在很短的時間內(nèi)獲得大量相關(guān)信息,但也有可能在“順鏈而行”中偏離了檢索目標,或迷失于網(wǎng)絡(luò)信息空間中,而且找到合適的檢索起點也并不容易。1.2通過網(wǎng)絡(luò)資源指南來查找信息為了對因特網(wǎng)這個無序的信息世界加以組織、管理,使大量有價值的信息納入一個有序的組織體系,專業(yè)人員做了許多努力和開發(fā),比如基于專業(yè)人員對網(wǎng)絡(luò)信息資源的產(chǎn)生、傳遞與利用機制的廣泛了解和對網(wǎng)絡(luò)信息資源分布狀況的熟悉,以及對各種網(wǎng)絡(luò)信息資源的采集、組織、評價、過濾、控制、檢索等手段的全面把握而開發(fā)可供瀏覽和檢索的網(wǎng)絡(luò)資源主題指南。1.3利用搜索引擎進行信息檢索這是一種較為常規(guī)的、普遍的網(wǎng)絡(luò)信息檢索方式。搜索引擎是提供給用戶進行關(guān)鍵詞、詞組或自然語言檢索的工具。用戶提出檢索要求,搜索引擎代替用戶在數(shù)據(jù)庫中進行檢索,并將檢索結(jié)果提供給用戶。它一般支持布爾檢索、詞組檢索、截詞檢索、字段檢索等功能。2網(wǎng)絡(luò)信息檢索工具
網(wǎng)絡(luò)信息檢索工具是指在因特網(wǎng)上提供信息檢索服務(wù)的計算機系統(tǒng),其檢索的對象是存在于因特網(wǎng)信息空間中各種類型的網(wǎng)絡(luò)信息資源。近來較為流行的Web檢索工具如Yahoo、百度、Google等。網(wǎng)絡(luò)信息檢索工具一般是由自動索引程序、數(shù)據(jù)庫和檢索代理軟件組成的。自動索引程序現(xiàn)在大多數(shù)網(wǎng)絡(luò)檢索工具都是采用一種稱為Robot(又稱為:Spider,Worms,Wanders等)的網(wǎng)絡(luò)自動跟蹤索引程序。它實際上是一個在網(wǎng)絡(luò)上檢索文件且自動跟蹤該文件的超文本結(jié)構(gòu)并循環(huán)檢索被參照的所有文件的軟件。不同的自動索引軟件所采用的標引、搜索策略不同,自動索引軟件搜尋、標引網(wǎng)頁的方式對信息檢索的質(zhì)量有直接影響。數(shù)據(jù)庫自動索引程序?qū)⒉杉蜆艘男畔R集成數(shù)據(jù)庫,作為該網(wǎng)絡(luò)檢索工具提供檢索服務(wù)的基礎(chǔ)。不同網(wǎng)絡(luò)檢索工具的數(shù)據(jù)庫收錄范圍不一樣,有的收錄Web及圖像、有的收錄WEB、FTP、Flash、新聞組等資源類型。不同網(wǎng)絡(luò)檢索工具的標引方式也不同,有的索引軟件標引主頁全文,有些則只標引主頁的地址、標題、責任者、特定的段落和關(guān)鍵詞。檢索代理軟件當用戶提出查詢要求時,由檢索軟件負責代理用戶在數(shù)據(jù)庫中進行檢索。不同網(wǎng)絡(luò)檢索工具所采用的檢索機制、算法有所不同,布爾邏輯檢索是較普遍采用的一種機制。即按照檢索項間的邏輯關(guān)系使用布爾邏輯符AND,OR,NOT等來組合檢索項,形成檢索式來提交查詢。除了布爾檢索外,許多網(wǎng)絡(luò)檢索工具還提供了一些其他的檢索機制如:截詞檢索、概念檢索、模糊檢索、詞組檢索、字段檢索、位置檢索等。3相關(guān)網(wǎng)絡(luò)信息檢索技術(shù)涉及到網(wǎng)絡(luò)信息檢索的技術(shù)概念比較多,在這里介紹一些應(yīng)用比較廣的概念。分類檢索、關(guān)鍵詞檢索、布爾邏輯檢索、詞組檢索、加/減號檢索、截詞檢索、字段檢索、自然語言檢索、位置檢索、多語種檢索、區(qū)分大小寫的檢索、過濾檢索、多媒體檢索。分類檢索分類檢索多用于目錄搜索引擎。用戶無需輸入任何文字,只要根據(jù)目錄搜索引擎提供的主題分類目錄,層層點擊進入,便會查找到用戶所需的網(wǎng)絡(luò)信息資源。關(guān)鍵詞檢索用戶只需在搜索引擎的提問框中輸入合適的提問關(guān)鍵詞,按回車鍵之后,搜索引擎便會將與該提問關(guān)鍵詞匹配的結(jié)果反饋于你。大多數(shù)的搜索引擎是以模糊檢索原理實現(xiàn)關(guān)鍵詞檢索功能。布爾邏輯檢索布爾邏輯檢索一般指“與”、“或”、“非”三種運算:邏輯“與”的布爾運算符為“AND”、“and”,有時也可用“&”符號表示。(交集)邏輯“或”的布爾運算符為“OR”、“or”,有時也可用“|”符號表示。(并集)邏輯“非”的布爾運算符為“NOT”、“not”,有時也可用“!”符號表示。(差集)詞組檢索詞組檢索也稱為短語檢索,或字符串檢索。它是將一個詞組或短語用雙引號“”括起作為一個獨立運算單元,進行嚴格匹配,以提高檢索準確度的一種方法。加/減號檢索加/減號檢索是搜索引擎支持的常規(guī)功能,即在檢索詞前置“+”/“-”號,其作用相當于布爾邏輯“與”/“非”運算。截詞檢索在搜索引擎中,截詞檢索多為前方一致檢索。截詞符多采用通配符“*”,可以用它代表多個字符。因此,截詞檢索有時也稱為通配符檢索。舉例:wom*n,可代表woman、women等。字段檢索字段檢索是一種用于限定提問關(guān)鍵詞在數(shù)據(jù)庫記錄中出現(xiàn)的區(qū)域,控制檢索結(jié)果的相關(guān)性,提高檢索效果的檢索方法,多以字段限定方式實現(xiàn)。搜索引擎常用的字段有:Title/t、Subject、Text、host(主機)、URL/u、domain(域名)、link(鏈接)等。自然語言檢索自然語言檢索就是一種直接采用自然語言中的字、詞甚至整個句子作為提問式進行檢索的方法。位置檢索位置檢索是指允許指定兩個單詞之間的詞序和詞距的檢索。詞序指單詞之間前后順序,詞距指二個單詞之間間隔單詞數(shù)。其操作符多為“near/n”,n為數(shù)值,意為檢索單詞間距最大不超過幾個單詞。舉例:informationnear/5retrieval多語種檢索即提供多語種的檢索環(huán)境供檢索者選擇,系統(tǒng)按指定的語種進行檢索并輸出檢索結(jié)果。目前,有的搜索引擎提供多達30個自然語種的檢索選擇。此功能尤其適合于不同國家的檢索者檢索不同語種的網(wǎng)絡(luò)資源。區(qū)分大小寫的檢索它主要是針對檢索詞中含有人名、地名等專有名詞的。在區(qū)分大小寫的情況下,大寫檢索詞能被當作專有名詞看待。而在不區(qū)分大小寫的情況下,則無法區(qū)分該檢索詞是指專有名詞還是普通詞,從而在一定程度上會影響檢索結(jié)果的準確性。過濾檢索在檢索中自動將一些網(wǎng)站信息過濾去掉,比如一些內(nèi)容不健康的黃色網(wǎng)站信息,影響國家安全的政治反動網(wǎng)站信息等,這種檢索服務(wù)技術(shù)可以避免未成年人上網(wǎng)時受到不健康影響。多媒體檢索多媒體檢索包括基于描述的多媒體檢索和基于內(nèi)容的多媒體檢索?;诿枋龅亩嗝襟w檢索就是用一個關(guān)鍵詞來描述所要查找的圖片或是音樂,比如可以用“劉德華”這個詞來查找他的寫真圖片,也可以在MP3搜索引擎中查找他的相關(guān)音樂?;趦?nèi)容的多媒體檢索就是用一些視覺特征來查找多媒體信息,這些視覺特征包括顏色、形狀、紋理等。(有待實現(xiàn),涉及采集設(shè)備、算法等)4搜索引擎及其原理搜索引擎(searchengine)是指根據(jù)一定的策略、運用特定的計算機程序搜集互聯(lián)網(wǎng)上的信息,在對信息進行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)?!練v史】
互聯(lián)網(wǎng)發(fā)展早期,以雅虎為代表的網(wǎng)站分類目錄查詢非常流行。網(wǎng)站分類目錄由人工整理維護,精選互聯(lián)網(wǎng)上的優(yōu)秀網(wǎng)站,并簡要描述,分類放置到不同目錄下。用戶查詢時,通過一層層的點擊來查找自己想找的網(wǎng)站。有人把這種基于目錄的檢索服務(wù)網(wǎng)站稱為搜索引擎,但從嚴格意義上講,它并不是搜索引擎。從用戶角度看,搜索引擎提供一個包含搜索框的頁面,在搜索框輸入詞語,通過瀏覽器提交給搜索引擎后,搜索引擎就會返回跟用戶輸入的內(nèi)容相關(guān)的信息列表?!窘M成】搜索引擎一般由四個部分組成:①搜索器:其功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息;②索引器:其功能是理解搜索器所搜索到的信息,從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表;③檢索器:其功能是根據(jù)用戶的查詢在索引庫中快速檢索文檔,進行相關(guān)度評價,對將要輸出的結(jié)果排序,并能按用戶的查詢需求合理反饋信息;④用戶接口:其作用是接納用戶查詢、顯示查詢結(jié)果、提供個性化查詢項?!局阉饕婢W(wǎng)址】1、百度http:///
2、維基百科http://
3、雅虎http:///
4、Googlehttp:///
5、網(wǎng)易有道http:///
6、北京大學(xué)天網(wǎng)中英文搜索引擎http:///
7、搜狐http:///dir/
8、新浪網(wǎng)http:///
9、TOM搜索引擎http:///
10、21CN.COM/
11、搜一下http://
12、飛客BT搜索引擎http:///
13、Souyohttp:///
14、雅虎易搜http:///
15、麥布搜索引擎http:///
16、中華搜索http:///
17、酷億
18、搜搜http:///
19、易搜查http://
20、北京搜索http:///
21、比比貓http:///
【工作原理】
1、抓取網(wǎng)頁
每個獨立的搜索引擎都有自己的網(wǎng)頁抓取程序(spider)。Spider順著網(wǎng)頁中的超鏈接,連續(xù)地抓取網(wǎng)頁。被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁。
2、處理
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版境外投資協(xié)議書
- 機電工程施工總承包資質(zhì)標準二零二五年
- 物業(yè)委托管理協(xié)議
- 2025年日用織物制品項目建議書
- 供電外包勞務(wù)合同樣本
- 青島版小學(xué)二年級上冊數(shù)學(xué)教學(xué)計劃
- 平面的投影-教案
- 企業(yè)門頭制作合同樣本
- 中圖版地理必修二第二章學(xué)教案
- 淘寶客服聘用合同
- 《數(shù)據(jù)排序-冒泡排序法》
- 《旅館建筑設(shè)計規(guī)范 JGJ62-2014》正式版
- 2022-2023學(xué)年江蘇省南京市高二下學(xué)期期中聯(lián)考數(shù)學(xué)試題【含答案】
- 腦梗死臨床路徑
- 中醫(yī)診斷學(xué)教材
- 穩(wěn)固結(jié)構(gòu)的探析-說課課件
- 加油站安全生產(chǎn)風險點告知卡
- GB/T 31117-2014船用輔鍋爐安全技術(shù)要求
- 2022年4月自考金融法試題及答案含評分標準
- 學(xué)校膳食管理委員會組織及工作職責
- 小麥雜交育種課件
評論
0/150
提交評論