網(wǎng)絡信息檢索(00001)課件_第1頁
網(wǎng)絡信息檢索(00001)課件_第2頁
網(wǎng)絡信息檢索(00001)課件_第3頁
網(wǎng)絡信息檢索(00001)課件_第4頁
網(wǎng)絡信息檢索(00001)課件_第5頁
已閱讀5頁,還剩52頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

網(wǎng)絡信息檢索一、Internet的基本概念TCP/IP協(xié)議:TCP/IP是由美國國防部高級計劃局資助的Internet技術和方法,也稱為傳輸控制/網(wǎng)間協(xié)議,是一個標準協(xié)議集合,專門適用于廣域網(wǎng)(WAN)。WWW:WWW的含義是“環(huán)球網(wǎng)”,是超文本方式的信息查詢工具。WWW基于HTTP協(xié)議,用HTML語言將多媒體信息組織成超文本,并通過這種方式將全世界Internet上的不同地點的相關信息有機結合起來。HTTP超文本傳輸協(xié)議HTTP是基于TCP/IP之上的協(xié)議,是用于分布式協(xié)作超媒體信息系統(tǒng)的快速實用協(xié)議。它不僅需要保證正確傳送超文本文檔,還必須能夠確定傳送文檔中的某一部分,以及哪部分內容首先顯示。URL(統(tǒng)一資源定位器)URL可以將世界上所有的聯(lián)機信息資源組織成有序結構。它的格式有三部分組成:第一部分是協(xié)議(或稱服務方式),大部分Internet文檔用http,其他常用的協(xié)議有、gopher、telnet等;第二部分是存有該資源的主機IP地址;第三部分是主機資源的具體地址。IP地址和域名Internet上的眾多計算機和信息資源必須通過名字和地址來進行識別。接入Internet的計算機或節(jié)點被賦予一個惟一的數(shù)字作為地址,稱為IP地址,用小數(shù)點隔開的四組數(shù)字組成。IP地址通常由Internet服務機構從Internet網(wǎng)絡信息中心注冊申請(例如:中央財經大學圖書館的IP地址為01)。IP是網(wǎng)絡中的重要資源,有多少個IP地址就意味著有多少臺計算機能夠連入Internet。由于IP地址由四組數(shù)字構成,不易記憶,所以Internet采用域名系統(tǒng)(DNS),作為表示Internet上特定主機的助記名稱。Internet中每臺計算機的域名結構為:主機名、機構名、網(wǎng)絡名、最高層域名。域名是由有規(guī)律的英文單詞組成的,非常便于記憶,而且還可以根據(jù)域名組成的規(guī)律,猜測某一個站點的域名。常見的標準域名結構為:主機名、機構名、網(wǎng)絡名、最高層域名。在Internet的域名系統(tǒng)中最高層域名有三種:二、網(wǎng)絡信息資源的特點(1)信息量大,傳播廣泛(2)信息層次多,品種多樣(3)自由發(fā)布,交流直接(4)信息傳播速度快,變化頻繁(5)檢索方便,價廉實惠

1、優(yōu)點:2、缺點:(1)信息龐雜,分散無序(2)質量不一,缺乏管理(3)重復建設,缺乏宏觀調控(4)網(wǎng)絡通路不暢三、搜索引擎網(wǎng)絡搜索引擎的歷史最早可以追溯到1991年,盡管搜索引擎發(fā)展時間并不長,但其觀念卻是深入人心的。《第22次中國互聯(lián)網(wǎng)發(fā)展狀況統(tǒng)計報告》顯示,在中國2.53億網(wǎng)民中,搜索引擎的使用率為69.2%,達1.75億。目前為中國第五大網(wǎng)絡應用技術。從數(shù)據(jù)中不難看出,網(wǎng)絡搜索引擎所發(fā)揮的作用是非常大的。搜索引擎概述截至2010年6月底,搜索引擎在網(wǎng)民中的使用率為76.3%,用戶規(guī)模達到3.2億人,與2009年6月相比,年增長8589萬人,年增長率36.6%。

——《2010年中國搜索引擎用戶行為研究報告》

搜索引擎概述全球搜索引擎用戶使用搜索品牌

Google全球市場份額為68%,高居榜首。雅虎第二,市場份額為7%,百度第三,市場份額為6.5%,微軟第四,市場份額為3%,其它依次為eBay、NHN、Yandex、Facebook、Ask和阿里巴巴。另:中國是全球第二大搜索市場,所占份額達到了10%。很多搜索引擎網(wǎng)站會從國際網(wǎng)站自動跳轉成國內網(wǎng)址,如google自動跳轉成cn

全球搜索引擎排名:1Google62%2雅虎12.8%3百度5.2%4微軟2.9%5NHN2.4%(韓國搜索引擎)6eBay2.2%7時代華納1.6%8A1.1%9Yandex0.9%(俄羅斯搜索引擎)10阿里巴巴0.8%搜索引擎概述百度首選用戶使用搜索功能分析工作原理搜索引擎是互聯(lián)網(wǎng)上的分布式搜索系統(tǒng),它在傳統(tǒng)數(shù)據(jù)庫檢索技術基礎上,增加了自動收集和更新數(shù)據(jù)庫信息的功能,并采用人工智能方法對檢索結果進行區(qū)分和排序。主要由信息采集器、查詢表和檢索接口三大模塊組成。搜索引擎系統(tǒng)的分類1.全文搜索引擎通過從互聯(lián)網(wǎng)上提取各個網(wǎng)站的信息(以網(wǎng)頁文字為主)而建立的數(shù)據(jù)庫,檢索器與用戶查詢條件匹配的相關記錄,并將查詢結果返回給用戶。服務方式是面向網(wǎng)頁的全文檢索服務,是真正意義上的搜索引擎。該類搜索引擎的優(yōu)點是信息量大、更新及時、毋需人工干預,缺點是返回信息過多,有很多無關信息,用戶必須從結果中進行篩選。21AltaVista

是功能全面的搜索引擎,曾經名噪一時,但現(xiàn)在其地位已被Google取代。即便如此,它仍被認為是功能最完善,搜索精度較高的全文搜索引擎之一。截止2002年6月,AltaVista宣稱其數(shù)據(jù)庫已存有11億個Web文件,并且經過升級,其搜索精度已達業(yè)界領先水平。AltaVista提供常規(guī)搜索、高級搜索和主題搜索,主題包括圖象(Images)、MP3/Audio&Video等。主頁顯示LookSmart的索引目錄并提供LookSmart注冊。高級搜索提供用戶以日期、語種、布爾邏輯和近似條件搜索。常規(guī)及高級搜索均允許針對Title、URL或特定的域名進行檢索。用戶還可以在定制的搜索條件(包括Title、URL、Host、Links(如anchor、applet、image和text)等)輸入框中填入文字,以此為條件進行搜索。22允許以25種不同的語言進行搜索,并提供英、法、德、意、葡萄牙、西班牙語雙向翻譯。其他特色服務包括重大新聞(發(fā)生于6小時至14天之間),新聞組及購物查詢。搜索規(guī)則:進行精確匹配查詢時可使用“”號,但多數(shù)時候即使不用“”號,AltaVista也默認以精確匹配方式查詢;不支持自動斷詞查詢,但允許使用通配符“*”。區(qū)分字母大小寫。當以大寫字母查詢時,默認為精確匹配,即查詢結果不包括小寫的關鍵詞;而以小寫字母查詢時,則同時查找大寫和小寫。2.目錄式搜索引擎以人工方式或半自動方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站,提供目錄瀏覽服務和直接檢索服務。該類搜索引擎因為加入了人的智能,所以信息準確,導航質量高,缺點是需要人工介入、維護量大、信息量少、信息更新不及時。嚴格意義上算不上真正的搜索引擎。主頁3.元搜索引擎也稱集成搜索引擎。是對搜索引擎進行搜索的搜索引擎。它可以沒有自己的資源庫和機器人,僅充當一個中間代理的角色,接受用戶的查詢請求,將請求翻譯成相應搜索引擎的查詢語法。在向各個搜索引擎發(fā)送查詢請求并獲得反饋后,進行綜合相關度排序,然后把整理后的查詢結果發(fā)送給用戶。Dogpile共收集了26個搜索引擎,包括WEB檢索、新聞組檢索、FTP檢索、新聞檢索、股市檢索、黃頁檢索、白頁檢索、地圖檢索、天氣檢索等。

Google的簡要介紹Google的創(chuàng)立

Google是由2位斯坦福大學的博士生LarryPage和SergeyBrin在1998年創(chuàng)立的。LarryPageSergeyBrinGoogle的簡要介紹Google的釋義

Google是由英文單詞“googol”變化而來。Google的特點作為目前世界上最大的搜索引擎,Google支持多達132種語言,包括簡體中文和繁體中文;

Google提供了最便捷的網(wǎng)上信息查詢方法。通過對20多億網(wǎng)頁進行整理,Google可為世界各地的用戶提供適需的搜索結果,而且搜索時間通常不到半秒,現(xiàn)在每天需要提供1.5億次查詢服務。

Google不支持“詞干法”和“通配符”,但可使用布爾邏輯檢索.邏輯與:用空格或and或AND邏輯或:用大寫的“OR”表示邏輯非:用“-”,減號之前須留一個空格Google()“手氣不錯”自動將您帶到Google推薦的網(wǎng)頁。對大小寫不敏感專用詞語上加上雙引號“網(wǎng)頁快照”從服務器里直接取出緩存的網(wǎng)頁。檢索結果按“重要性”排序Google的語法結構使用Google所提供的特殊的語法結構,能夠幫助用戶縮小檢索范圍,更有效地找到所需要的內容。在一般情況下,Google將整個網(wǎng)頁進行收錄和索引,通過專門的語法結構,可以讓用戶搜索網(wǎng)頁的某些特定部分或者特定信息。Google的語法結構:檢索特定類型的文件,即搜索后綴或者文件的擴展名。在我們尋找特定格式的內容的時候,這項語法是必不可少的。例如,僅搜索關于經濟的pdf文件,結果如下:Google的語法結構Intitle:將搜索范圍限制在網(wǎng)頁的標題內。即檢索詞僅匹配(在網(wǎng)頁標題中)字詞出現(xiàn)在檢索結果的網(wǎng)頁的鏈接內和打開網(wǎng)頁后瀏覽器的標題欄內。Google的語法結構Inurl:將搜索結果限制在URL或者網(wǎng)站頁面上,他可以查詢網(wǎng)站的子目錄。一般通過這個語法,我們可以查找某些特定的內容頁,如幫助頁,也可以查找特定的文件,如音樂或者視頻文件。Google的語法結構Intext:只在網(wǎng)頁的正文中檢索關鍵詞,即忽略超鏈接文本、URL以及題目等。Google的語法結構Inanchor:在頁面的鏈接錨點進行搜索,即在一個鏈接的描述文本內進行檢索。Google的語法結構Link:檢索所有鏈接到某個特定URL的頁面列表。例如,搜索所有鏈向新浪的鏈接,其結果如下:Google的語法結構Site:將檢索局限在特定網(wǎng)站或者網(wǎng)域內,即將搜索限制在某個特定站點或者頂級域名內。Google的語法結構Info:檢索有關特定網(wǎng)頁的信息,獲得關于該URL更多信息的頁面列表,包括指向該網(wǎng)頁的網(wǎng)頁快照、類似網(wǎng)頁、鏈接到該URL的所有網(wǎng)頁的列表、該URL相關的頁面列表以及含有該URL的頁面。例如,搜索關于新浪的信息,其結果如下:Google的語法結構Daterange:查找在一定的日期或者一定的日期范圍內,Google索引的網(wǎng)頁(該語法只關注被Google收錄的時間,而不關注網(wǎng)頁創(chuàng)建的時間)Related:檢索與某特定網(wǎng)頁類似的網(wǎng)頁。這在搜尋相關內容或者具有類似功能的網(wǎng)頁的時候,非常有幫助。

百度()“-”減除無關資料A|B代表AorB。相關檢索:為您提供"其它用戶搜索過的相關搜索詞"作參考百度快照、同一網(wǎng)址的更多結果新聞搜索、MP3搜索、圖片搜索、Flash搜索百度搜索引擎百度():百度搜索引擎是目前最有影響的中文網(wǎng)絡信息檢索系統(tǒng)。它的檢索詞可以是中文、英文、數(shù)字,或中英文數(shù)字的混合體。百度提供邏輯與、或、非檢索,多個關鍵詞之間必須留一個空格,系統(tǒng)默認為邏輯“與”檢索,其他同Google的檢索方法。百度的字段限定檢索同Google邏輯與:空格或“*”邏輯或:大寫的“+”或“|”邏輯非:用“-”表示,減號之前須有一空格Baidu搜索引擎百度是中國互聯(lián)網(wǎng)用戶最常用的搜索引擎,每天完成上億次搜索;也是全球最大的中文搜索引擎,可查詢數(shù)十億中文網(wǎng)頁。主要內容1、搜索內容2、高級搜索語法3、常用搜索技巧搜索內容高級搜索語法把搜索范圍限定在特定站點中——site有時候,您如果知道某個站點中有自己需要找的東西,就可以把搜索范圍限定在這個站點中,提高查詢效率。使用的方式,是在查詢內容的后面,加上“site:站點域名”。高級搜索語法把搜索范圍限定在網(wǎng)頁標題中——intitle把搜索范圍限定在url鏈接中——inurl精確匹配——雙引號去除含有特定關鍵詞的網(wǎng)頁——減號書名號有兩層特殊功能,一是書名號會出現(xiàn)在搜索結果中;二是被書名號擴起來的內容,不會被拆分。書名號在某些情況下特別有效果。Baidu常用搜索技巧選擇適當?shù)牟樵冊~準確的表述

百度會嚴格按照您提交的查詢詞去搜索,因此,查詢詞表述準確是獲得良好搜索結果的必要前提。一類常見的表述不準確情況是,腦袋里想著一回事,搜索框里輸入的是另一回事。一種不準確的表述就是在查詢中出現(xiàn)錯別字查詢詞的主題關聯(lián)與簡練目前的搜索引擎并不能很好的處理自然語言。因此,在提交搜索請求時,您最好把自己的想法,提煉成簡單的,而且與希望找到的信息內容主題關聯(lián)的查詢詞。還是用實際例子說明。某三年級小學生,想查一些關于時間的名人名言,他的查詢詞是“小學三年級關于時間的名人名言”。最好的查詢詞,應該是“時間名言”。Baidu常用搜索技巧軟件下載日常工作和娛樂需要用到大量的軟件,很多軟件屬于共享或者自由性質,可以在網(wǎng)上免費下載到。

1.直接找下載頁面這是最直接的方式。軟件名稱,加上“下載”這個特征詞,通??梢院芸煺业较螺d點。例:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論