第七章 Interent網絡信息檢索_第1頁
第七章 Interent網絡信息檢索_第2頁
第七章 Interent網絡信息檢索_第3頁
第七章 Interent網絡信息檢索_第4頁
第七章 Interent網絡信息檢索_第5頁
已閱讀5頁,還剩44頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第七章第七章 InternetInternet網絡信息資源檢索網絡信息資源檢索 中國民航大學圖書館中國民航大學圖書館 1網絡信息資源 概括而言,網絡信息資源具有如下特點特點:l 來源的廣泛性和信息的跨時空性l 形式和種類的多樣化l 不斷增長的巨大信息量l 信息的新穎性和及時性l 信息的共享性l 信息的隨機性和不穩(wěn)定性l 內容的自由化l 信息的雜亂無章 2搜索引擎 2.1 概述 搜索引擎是一種能夠通過Internet接受用戶的查詢指令,并向用戶提供符合查詢要求的信息資源網址的系統(tǒng)。所以,搜索引擎也可以成為Internet上具有檢索功能的網頁。 搜索引擎由網上機器人(Spider或Robot)自動

2、在網頁上按某種策略進行遠程數據的搜索與獲取,并生成本地索引。Spider或Robot是一種軟件,它沿著WWW文件的連接在網上漫游,記錄URL、文件的簡明摘要、關鍵字或索引,形成一個很大的數據庫,這種數據庫包括標題、摘要、關鍵詞和URL、文件的大小、語種以及詞出現的頻率。 搜索引擎的信息組織與標引缺乏控制,并不真正搜索互聯網,它搜索的實際上是預先整理好的網頁索引數據庫。搜索引擎不能真正理解網頁上的內容,它只能機械的匹配網頁上的文字。因此信息查詢的命中率、查準率差強人意,往往是輸入一個檢索式,得到一大堆網頁地址,且其中大部分是冗余信息。2.2 搜索引擎的主要任務(1)信息搜集 各搜索引擎利用網絡搜

3、索軟件,訪問網絡中公開區(qū)域的每一個站點并記錄其網址,將它們帶回搜索引擎,從而創(chuàng)建出一個詳盡的網絡目。由于網絡文檔的不斷變化,機器人也不斷的把以前已經分類組織的目錄更新。(2)信息處理 將“網頁搜索軟件”帶回的信息進行分類整理,建立搜索引擎數據庫,并定時更新數據庫內容。在進行信息分類整理階段,不同的搜索引擎會在搜索結果的數量和質量上產生明顯的差異。有的搜索引擎把“網頁搜索軟件”發(fā)往每一個站點,記錄下每一頁的所有文本內容,并收入到數據庫中從而形成全文搜索引擎;而另一些搜索引擎之記錄網頁的地址、篇名、特點的段落和重要的詞。所以有的搜索引擎數據庫很大,有的則較小。(3)信息查詢 每個搜索引擎都向用戶提

4、供良好的信息查詢界面,一般包括分類目錄和關鍵詞兩種信息查詢途徑。 分類目錄查詢分類目錄查詢 以資源結構為線索,將網上的信息資源按內容進行層次分類,使用戶能依線性結構逐類檢索信息。 關鍵詞查詢關鍵詞查詢 利用建立的網絡資源索引數據庫向網上用戶提供查詢“引擎”。需要把欲查找的關鍵詞或短語輸入查詢框中,并按“Search”按鈕,搜索引擎就會根據輸入的提問,在索引數據庫中查找相應的詞語,并進行必要的邏輯運算,最后給出查詢的命中結果(均為超文本鏈接形式)。通過搜索引擎提供的鏈接,可訪問到相關信息。2.3 搜索引擎分類 搜索引擎根據工作方式,主要可以分為三種:機器人搜索引擎、目錄索引類搜索引擎和元搜索引擎

5、。l全文搜索引擎全文搜索引擎 如谷歌、百度、Alta Vista等,它們都是通過互聯網上提取的各個網站的信息(以網頁文字為主)而建立的數據庫中,檢索與用戶查詢條件匹配的相關記錄,然后按一定的排列順序將結果返回給用戶。全文搜索引擎是名副其實的搜索引擎。l目錄索引 目錄索引雖然有搜索功能,但在嚴格意義上講,并不是真正的搜索引擎,僅僅是按目錄分類的網站鏈接表而已。用戶完全可以不用任何關鍵詞查詢,僅依靠分類目錄也可找到需要的信息。目錄索引中最具代表性的是雅虎,其他的還有Open Directory Project、About、搜狐、新浪等。l元搜索引擎 元搜索引擎,也稱集搜索引擎,是在同一的用戶查詢界

6、面與信息反饋的形式下,共享多個搜索引擎的資源庫為用戶提供信息服務的系統(tǒng)。元搜索引擎是對搜索引擎進行搜索的搜索引擎。 元搜索引擎與一般搜索引擎的最大不同在于它沒有自己的資源庫和機器人,僅充當一個中間代理的角色,接受用戶的查詢請求,將請求翻譯成相應搜索引擎的查詢語法。在向各個搜索引擎發(fā)送查詢請求并獲得反饋之后,首先進行綜合相關度排序,然后將整理抽取之后的查詢結果返回給用戶。 元搜索引擎查全率高、搜索范圍更多更大,查準率高,Dogpile、Vivisimo、搜星等都是元搜索引擎。2.4搜索引擎的檢索功能(1)布爾邏輯檢索: 常用的布爾邏輯包括邏輯“與”、邏輯“或”、邏輯“非”,算符分別為:and、o

7、r、not。幾乎所有的搜索引擎都具有布爾邏輯功能。(2)詞語檢索 在檢索詞的前后加雙引號(“”)限定檢索結果中的詞語必須以同樣的順序出現,且相鄰。(3)截詞檢索 如:檢索式“comput*”可以檢索出: computer、computing、computerization(4)限定詞檢索(+,-) +:放在檢索詞前,表示在檢索結果中必須包含該詞。 -:放在檢索詞前,表示在檢索結果中必須不包含該詞。 大多數系統(tǒng)都具有該項功能。 2.5 常用搜索引擎(1)百度() 百度于1999年底成立于美國硅谷,它的創(chuàng)建者是李彥宏與徐勇。前者是資深信息檢索技術專家、超鏈分析專利的唯一持有人,后者在硅谷有多年的商

8、界成功經驗。 百度是目前全球最大的中文信息檢索與傳遞技術供應商。中國所有提供搜索引擎的門戶網站中,超過80%以上都由百度提供搜索引擎技術支持,現有客戶包括新浪、騰訊、263、21cn、上海熱線、廣州視窗、新華網、北方時空、西部時空、重慶熱線等。其搜索范圍涵蓋了中國大陸、香港、臺灣、澳門、新加坡等華語地區(qū)以及北美、歐洲的部分站點。一般功能:l檢索: 直接輸入檢索詞,按回車鍵(Enter)或“百度一下”按鈕即可。l邏輯運算: 邏輯“與”:空格即可 邏輯“或”: 用“ | ”表示,“|”前后必須同時有空格 邏輯“非”:用“ -”表示,“ -”前必須有空格l詞語檢索: 使用雙引號(“”),可進行精確搜

9、索,不區(qū)分大小寫l查詢某一類文檔: “關鍵詞 filetype:文檔類型” 如:“基因 filetype:ppt” 其他類型:doc、xls、pdf等l對搜索的網站進行限制: “site:”、“intitle:”、“l(fā)ink:”等 l百度國學: 定位:針對中國傳統(tǒng)文化方面的專業(yè)搜索 內容:提供上起先秦,下至清末歷代文化典籍的檢索和閱讀特殊功能:(2)Google谷歌(www.google.hk) 兩位斯坦福大學的博士生 Larry Page 和 Sergey Brin 在 1998 年創(chuàng)立了 Google,這個詞也代表他們想征服網上無窮無盡資料的雄心。 Google提供了便捷的網上信息查詢方法

10、,通過對 30 多億網頁進行整理,可為世界各地的用戶提供適需的搜索結果,搜索時間通常不到半秒。目前,Google 每天需要提供 2 億次查詢服務。 Google 1998年9月發(fā)布測試版,1999年投入商業(yè)運營,是目前全球最大的搜索引擎之一。 一般功能一般功能: 直接輸入檢索詞,按回車鍵(Enter)或“Google搜索”按鈕即可。l邏輯運算: 邏輯“與”:空格即可 邏輯“或”:大寫“OR”表示 邏輯“非”:用“-”表示,“-”前必須有空格l詞語檢索: 常用雙引號(“”)進行專業(yè)詞語的檢索,不區(qū)分大小寫l特殊功能: 查詢某一類文檔:“關鍵詞 filetype:文檔類型” 如:“教育技術 fil

11、etype:ppt” “祝福 filetype:swf” 常用查詢類型包括:Microsoft Excel(xls) Microsoft Word(doc) Adobe Portable Document Format(pdf)教育技術 filetype:pptl對搜索的網站進行限制: “site:”表示檢索結果局限于某個具體網站或某個域名。 如:搜索中國教育科研網站()上所有包含 “教育家”的網頁 檢索提問為:“教育家 site: ”Google Scholar: 專門面向學術資源的免費搜索工具l推出時間:2006年l網址:http:/l搜索結果:中文學術文獻領域的論文、圖書、預印本、摘要、

12、技術報告等。l信息來源: 合作伙伴(IEEE、Nature、OCLC等);互聯網 L.C.Spears 2004Google其它特色示例1美元=?人民幣檢索出可能最符合要求的網站 與與 的區(qū)別:的區(qū)別:執(zhí)行 的檢索結果界面執(zhí)行 后的檢索結果界面(3)百google度() 國內搜索用戶的首選調查:(4)雅虎(http:/) Yahoo!是美國大型的信息檢索服務公司之一,它是美國斯坦福大學電機工程系的兩位博士生大衛(wèi)費羅和楊致遠于1994年創(chuàng)立的。它是全球第一家提供互聯網導航服務的網站,也是目前最流行和通用的網絡信息搜索引擎之一。 雅虎提供分類目錄瀏覽檢索和關鍵詞檢索兩種網絡信息資源檢索方式。(5)

13、AskJeeves(http:/) 該引擎是AskJeeves公司提供的一個互聯網絡信息資源檢索系統(tǒng)。 該公司1996年創(chuàng)立,1998年至1999年以自然語言搜索引擎開始聞名。 AskJeeves檢索式可以是一個問話、一個短語或者是一個單詞,它都能為用戶提供理想的信息,即使用戶拼寫有誤,系統(tǒng)也可以自動更正。 使用AskJeeves檢索時應注意:一次只提一個問題;單詞之間用空格隔開;利用同義詞提高檢索質量;用多個檢索詞以限定檢索信息的類別與范圍。(6)其他搜索引擎門戶網站搜索引擎 http:/ http:/ http:/ 熱門主題搜索: 新聞搜索網新聞搜索網: 新浪、網易、搜狐、Tom、新華網、人 民網、中國政府網、CCTV、中國新聞網 常用常用MP3MP3搜索引擎搜索引擎:搜刮網(sogua)、百度(baidu)、音樂極限網(chinamp3)、MP(英文網站)學術信息搜索引擎(http:/) 搜索網頁以及大量同行評議期刊論文、預印本、報告、科學數據、發(fā)明專利等文獻信息3搜索引擎的使用注意事項:3.1 了解搜索引擎的檢索功能: l布爾邏輯檢索(and、or、not)l詞語檢索(“”)l截詞檢索 “”l限定詞檢索(+,-)l特殊文檔搜索: filetype:ppt、pdf、doc、excel等3.2 了解構造檢索策略的步驟: l分析信息需求,明確檢索要求l選擇合適的檢索系統(tǒng)l確定檢

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論