網(wǎng)絡(luò)信息檢索檢索原理和搜索引擎_第1頁
網(wǎng)絡(luò)信息檢索檢索原理和搜索引擎_第2頁
網(wǎng)絡(luò)信息檢索檢索原理和搜索引擎_第3頁
網(wǎng)絡(luò)信息檢索檢索原理和搜索引擎_第4頁
網(wǎng)絡(luò)信息檢索檢索原理和搜索引擎_第5頁
已閱讀5頁,還剩109頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1第二章檢索原理和搜索引擎2本章內(nèi)容搜索引擎原理和概況2門戶網(wǎng)站和看不見的網(wǎng)站6網(wǎng)絡(luò)信息檢索原理31網(wǎng)頁搜索引擎簡介33網(wǎng)頁搜索引擎使用方法34P2P搜索引擎使用方法353第一節(jié)

信息檢索原理:

關(guān)鍵詞匹配原那么41、從“圖靈實驗〞說起大家都知道,計算機開展史上有一個重要人物圖靈,他在上世紀50年代曾經(jīng)提出了一個假想的實驗,認為計算機可以具有人類的思維能力,被稱為“圖靈實驗〞。他并且預(yù)言,在20世紀末,具有人工智能的計算機將會出現(xiàn)。但時至今日,仍未有任何一臺計算機能通過“圖靈實驗〞。52、計算機檢索的微妙:關(guān)鍵詞匹配計算機既然如此“無能〞,連三歲小孩的智能都不具有,那么為什么人們要在網(wǎng)上查找信息,卻總要通過計算機幫助呢?計算機檢索的微妙在哪里呢?原來,計算機實現(xiàn)檢索的微妙,就在于它能把你輸入的檢索詞,與它后臺數(shù)據(jù)庫中存儲的文件關(guān)鍵詞進行比對,如果能夠匹配,就認為這條信息是你需要的,立刻輸出給你。6廣義的信息檢索:是指將信息按一定的方式組織和存儲起來,并根據(jù)用戶的需要找出相關(guān)信息的過程。

狹義的信息檢索:一個匹配(Match)過程

即用戶使用檢索語言對自己的信息需求予以描述,并在一定的信息資源系統(tǒng)中進行描述匹配的過程。3、什么是信息檢索?7存儲檢索原始文獻加工整理數(shù)據(jù)庫提問檢索輸出“愛因斯坦論文〞“論文〞“愛因斯坦〞“論文〞“愛因斯坦〞84、信息檢索原理檢索提問式信息的選擇與收集信息特征標識語言檢索工具匹配檢索結(jié)果信息源用戶信息需求檢索提問數(shù)據(jù)庫9What?

Where?

How?5、信息檢索的要領(lǐng)106、信息檢索類型依信息存儲和檢索的方式手工檢索〔ManualRetrieval〕也叫傳統(tǒng)信息檢索,是利用各種印刷型檢索工具來查找文獻的一種方法。計算機檢索〔Camputer-basedRetrieval〕也叫現(xiàn)代信息檢索,是指利用計算機和網(wǎng)絡(luò)來處理和查找文獻信息的檢索方式。117、主要計算機檢索系統(tǒng)類型檢索系統(tǒng)由一定的檢索設(shè)備〔計算機〕和經(jīng)過加工整理并存儲在相應(yīng)載體上的信息集合及其他設(shè)備共同構(gòu)成的具有存儲和檢索功能的信息效勞系統(tǒng)。聯(lián)機檢索(onlinesearch)脫機檢索〔offlinesearch〕光盤檢索〔CDsearch〕網(wǎng)絡(luò)檢索〔Internet/Websearch〕全球數(shù)字圖書館系統(tǒng)〔digitalglobalsystem〕128、“關(guān)鍵詞原那么〞是信息檢索的根本原那么四次文獻三大系列中文網(wǎng)站兩類搜索引擎Keyword原那么13第二節(jié)

搜索引擎的原理和開展概況141、網(wǎng)絡(luò)信息資源種類WWW信息資源:web網(wǎng)頁FTP信息資源:遠程計算機上的文件夾Blog信息資源:博客、播客等等信息資源Telenet信息資源:直接調(diào)用遠程主機BBS、新聞組信息資源:相當于論壇信息P2P信息資源:私人計算機上的信息資源數(shù)據(jù)庫和收費網(wǎng)站:如三大庫三大館152、網(wǎng)絡(luò)信息資源的特點信息量大、傳播廣泛信息類型多樣、內(nèi)容豐富信息時效性強、變化頻繁信息分散無序、但關(guān)聯(lián)程度高信息缺乏管理、良莠不齊所以在網(wǎng)絡(luò)信息檢索中,我們常常要借助于搜索引擎來幫助我們“大海里撈針〞。16搜索引擎SearchEngine3、搜索引擎的概念174、搜索引擎的開展歷史18搜索引擎開展歷史元搜索引擎1995Yahoo!1994Gopher1993Archie1990第二代搜索目錄搜索Google1996Baidu1999……第三代搜索網(wǎng)頁搜索19搜索引擎的起源——Archie所有搜索引擎的祖先,是1990年由蒙特利爾的McGillUniversity三名學(xué)生創(chuàng)造的Archie(ArchieFAQ)。AlanEmtage等想到了開發(fā)一個可以用文件名查找文件的系統(tǒng),于是便有了Archie。Archie是第一個自動索引互聯(lián)網(wǎng)上匿名FTP網(wǎng)站文件的程序,但它還不是真正的搜索引擎。Archie是一個可搜索的FTP文件名列表,用戶必須輸入精確的文件名搜索,然后Archie會告訴用戶哪一個FTP地址可以下載該文件。20由于Archie深受歡送,受其啟發(fā),NevadaSystemComputingServices大學(xué)于1993年開發(fā)了一個Gopher〔GopherFAQ〕搜索工具Veronica〔VeronicaFAQ〕。Jughead是后來另一個Gopher搜索工具?,F(xiàn)在這個工具主要用在國外大型圖書館的信息檢索上。早期的另一個搜索工具Gopher211994年4月,斯坦福大學(xué)的兩名博士生,美籍華人楊致遠和DavidFilo共同創(chuàng)辦了Yahoo〕。隨著訪問量和收錄鏈接數(shù)的增長,Yahoo目錄開始支持簡單的數(shù)據(jù)庫搜索。因為Yahoo!的數(shù)據(jù)是手工輸入的,所以不能真正被歸為搜索引擎,事實上只是一個可搜索的目錄。Yahoo!中收錄的網(wǎng)站,因為都附有簡介信息,所以搜索效率明顯提高。Yahoo!幾乎成為20世紀90年代的因特網(wǎng)的代名詞。第二代搜索:目錄式搜索Yahoo!221995年,一種新的搜索引擎形式出現(xiàn)了——元搜索引擎〔MetaSearchEngine〕。用戶只需提交一次搜索請求,由元搜索引擎負責(zé)轉(zhuǎn)換處理后提交給多個預(yù)先選定的獨立搜索引擎,并將從各獨立搜索引擎返回的所有查詢結(jié)果,集中起來處理后再返回給用戶。第一個元搜索引擎,是Washington大學(xué)碩士生EricSelberg和OrenEtzioni的Metacrawler。元搜索引擎概念上好聽,但搜索效果始終不理想,所以沒有哪個元搜索引擎有過強勢地位。好聽不好用的元搜索引擎23第三代搜索:網(wǎng)頁搜索它們都屬于網(wǎng)頁自動搜索引擎,有的還帶有智能分析或FTP、P2P搜索功能245、搜索引擎的工作原理2526搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實際上是預(yù)先整理好的網(wǎng)頁索引數(shù)據(jù)庫。搜索引擎至少由三局部組成:爬行器〔即機器人、蜘蛛等搜索程序〕索引生成器〔即網(wǎng)頁索引數(shù)據(jù)庫〕查詢檢索器〔即用戶檢索界面〕隨著搜索引擎的開展,許多搜索引擎在此根底上增加特色功能。如百度增加了監(jiān)控程序。27搜索引擎的工作原理就像超市索引生成器〔網(wǎng)頁數(shù)據(jù)庫〕爬行器〔蜘蛛〕查詢檢索器〔用戶查詢〕因特網(wǎng)28利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的Spider系統(tǒng)程序,自動訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有URL爬到其它網(wǎng)頁,重復(fù)這過程,并把爬過的所有網(wǎng)頁收集回來。

第一步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁因特網(wǎng)29第二步:建立索引數(shù)據(jù)庫由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進行分析,提取相關(guān)網(wǎng)頁信息〔包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時間、大小、與其它網(wǎng)頁的鏈接關(guān)系等〕,根據(jù)一定的相關(guān)度算法進行大量復(fù)雜計算,得到每一個網(wǎng)頁針對頁面內(nèi)容中及超鏈中每一個關(guān)鍵詞的相關(guān)度〔或重要性〕,然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。30搜索引擎的Spider一般要定期重新訪問所有網(wǎng)頁〔各搜索引擎的周期不同,可能是幾天、幾周或幾月,也可能對不同重要性的網(wǎng)頁有不同的更新頻率〕,更新網(wǎng)頁索引數(shù)據(jù)庫,以反映出網(wǎng)頁內(nèi)容的更新情況,增加新的網(wǎng)頁信息,去除死鏈接,并根據(jù)網(wǎng)頁內(nèi)容和鏈接關(guān)系的變化重新排序。這樣,網(wǎng)頁的具體內(nèi)容和變化情況就會反映到用戶查詢的結(jié)果中。31第三步:檢索界面的建立當用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。因為所有相關(guān)網(wǎng)頁針對該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。

最后,由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。32每個搜索引擎都必須向用戶提供一個良好的信息查詢界面,一般包括分類目錄及關(guān)鍵詞兩種信息查詢途徑。333435第三節(jié)

兩類搜索引擎及

網(wǎng)頁搜索引擎36兩類搜索引擎的代表2以FTP和P2P資源搜索為主的搜索引擎1以網(wǎng)頁搜索為主的搜索引擎百度、Google、Yahoo等迅雷、天網(wǎng)Maze等37第一類搜索引擎:

網(wǎng)頁搜索引擎

以谷歌和百度為代表381、Google搜索引擎

39Google簡介:LarryPage,創(chuàng)始人之一,主管產(chǎn)品的總裁。密西根安娜堡大學(xué)的榮譽畢業(yè)生,擁有理工科學(xué)士學(xué)位。他還因其出色的領(lǐng)導(dǎo)才能獲得過多項榮譽,以獎勵他對工學(xué)院的奉獻。他曾擔任密西根大學(xué)EtaKappaNu榮譽學(xué)會的會長。目前他暫時從斯坦福大學(xué)計算機研究所博士班休學(xué),其指導(dǎo)教授是TerryWinograd博士。Google就是由Page在斯坦福大學(xué)發(fā)起的研究工程轉(zhuǎn)變而來的。40Google簡介:41注意用“〞與*功能4243谷歌其他功能442、百度(baidu)全球最大中文搜索引擎。提供網(wǎng)頁快照、網(wǎng)頁預(yù)覽/預(yù)覽全部網(wǎng)頁、相關(guān)搜索詞、錯別字糾正提示、新聞搜索、Flash搜索、信息快遞搜索、百度搜霸、搜索援助中心。地址::///45://46一、概況百度〔Baidu,Inc〕于1999年底成立于美國硅谷,2000年,落戶中國。2001年8月,發(fā)布Baidu搜索引擎Beta版,從后臺效勞轉(zhuǎn)向獨立提供搜索效勞,并且在中國首創(chuàng)了競價排名商業(yè)模式。2001年10月22日正式發(fā)布Baidu搜索引擎。2005年8月5日,百度在美國納斯達克上市。李彥宏47“百度〞二字取自辛棄疾的?青玉案?“眾里尋她千百度〞。現(xiàn)在百度已成為世界上最大的中文搜索引擎。用戶能夠訪問超過6億的中文網(wǎng)頁,5000多萬張圖片、500多萬首中文mp3及各種格式的音樂。4849?北京正望咨詢50百度VSGoogle51目標信息一定含有的關(guān)鍵字:用雙引號連起來目標信息不能含有的關(guān)鍵字:用“-〞去掉目標信息可能含有的關(guān)鍵字:用“OR〞或空格連起來重要提示52關(guān)于搜索的一些思想不是互聯(lián)網(wǎng)上所有的信息都能被搜索引擎搜集。動手前多動腦。不要盲目信任搜索得到的信息。不要期望一次搜索解決問題?;ヂ?lián)網(wǎng)上并沒有所有的東西!53附加資料Baidu幫助中心Google幫助中心搜索引擎列表GoogleTutorial中文搜索引擎指南網(wǎng)54文獻檢索課程作業(yè)3

下載PPT模板

Powerpoint是目前應(yīng)用最廣泛的多媒體制作工具。如果能找到一套適合自己需要的漂亮的PPT模板,那么制作各類演示課件就會事半功倍。

本作業(yè)要求你從網(wǎng)上找到至少三套適合做課堂教學(xué)和畢業(yè)論文匯報將沿用的PPT模版,要求每套模版至少要有30張以上的不同版面設(shè)計幻燈片,如本幻燈片所示。55作業(yè)提示

請使用各種搜索引擎,輸入適宜的檢索詞后尋找,將你認為滿意的模版發(fā)送到局域網(wǎng)效勞器上。56文獻檢索課程作業(yè)4

尋找蒙娜麗莎5758【操作步驟提示】1、翻開IE瀏覽器,在地址欄中輸入百度或Google搜索引擎的網(wǎng)址2、在搜索引擎對話框中反復(fù)輸入不同的檢索詞,搜索給定的目標文獻網(wǎng)頁。3、點擊IE瀏覽器文件菜單上的“另存為…〞命令,將該頁面下載到你的作業(yè)文件夾中保存。4、此作業(yè)全部完成后,將作業(yè)文件夾中保存的全部文件,通過局域網(wǎng)作業(yè)提交系統(tǒng),傳輸?shù)綄嶒炇倚谄髦?,作為評分依據(jù)。59第五節(jié)

P2P搜索引擎

使用方法60第二類搜索引擎:

FTP或P2P搜索引擎

以迅雷和天網(wǎng)為代表61什么是FTP資源FTP是在Internet網(wǎng)上使用最廣泛的一種效勞,使用FTP幾乎可以傳送任何類型的文件:如文本文件、二進制的可執(zhí)行程序、科學(xué)論文、圖像文件、壓縮文件、聲音文件等。因此有大量有價值的信息資源存儲在Internet網(wǎng)上的FTP效勞器上,獲取這些資源也是信息檢索的一項內(nèi)容。62FTP的工作原理FTP(FileTransferProtocol)是TCP/IP協(xié)議的一種,它是在Internet網(wǎng)上使用最廣泛的一種效勞,它可被用來在兩臺位于Internet網(wǎng)上的計算機之間傳輸文件,它是一種實時的聯(lián)機效勞,使用時,用戶應(yīng)首先登錄到對方的主機上,登錄成功后,可以進行文件搜索和文件傳送的操作,如列文件目錄,改變當前目錄,設(shè)置傳送參數(shù)等。63什么是P2PP2P在IT界最初的含義是Peer-to-peer〔點對點〕?,F(xiàn)在P2P已經(jīng)被更廣泛的理解為Point-to-Point,PC-to-PC等等。

簡單來說,P2P就是指數(shù)據(jù)的傳輸不再通過效勞器,而是網(wǎng)絡(luò)用戶之間直接傳遞數(shù)據(jù)。64舉一個簡單的例子,在QQ出現(xiàn)之前,人們上網(wǎng)聊天大多通過聊天室,信息的傳遞方式是:用戶A-聊天室效勞器-用戶B。這些不是P2P的方式。

在QQ時代,用戶與效勞器的交互僅用來完成登陸、維持在線狀態(tài)等等,信息用戶之間的信息傳遞不需要效勞器參與,信息傳遞方式為:用戶A-用戶B。這就是典型的P2P應(yīng)用。

不過,當信息的接收方不在線時,信息會通過效勞器中轉(zhuǎn),這就又變成了上面提到的C/S模式65第二類搜索引擎從FTP和P2P的工作方式可以看出,它們都不是傳統(tǒng)意義上的www網(wǎng)站,而是直接在兩臺計算機之間進行的遠程通信和文件傳輸。所以象百度和谷歌這類搜索引擎對這兩種信息資源的搜索往往不能奏效。這就需要有新的類型的搜索引擎誕生。其中有代表性的是迅雷和天網(wǎng)搜索引擎。66一、迅雷在線搜索引擎6768迅雷在線搜索引擎69作業(yè)4迅雷在線搜索70二、天網(wǎng)搜索引擎7172天網(wǎng)中文搜索引擎北大天網(wǎng)由北大計算機系網(wǎng)絡(luò)與分布式系統(tǒng)研究室開發(fā),于1997年10月29日正式在中國教育和科研網(wǎng)CERNET上提供效勞。收錄網(wǎng)頁約6000萬,主要搜索CERNET上的信息,有強大的FTP搜索功能。737475北京天網(wǎng)時代科技〔/〕的前身是北大天網(wǎng)〔/〕,北大天網(wǎng)是中國第一家為互聯(lián)網(wǎng)用戶提供效勞的搜索引擎。2003年7月,北京天網(wǎng)時代科技完全收購了北大天網(wǎng),開展搜索相關(guān)業(yè)務(wù)。76天網(wǎng)資源:Web、FTP、Maze等77天網(wǎng)FTP資源78“天網(wǎng)妹子〞7980作業(yè)5

天網(wǎng)Maze大學(xué)課程在線搜索它的下載方式類似BT下載方式,瀏覽方式類似FTP瀏覽方式,下載速度快,支持斷點續(xù)傳。特別是它的主要用戶都是教育網(wǎng)上的用戶,所以在校園網(wǎng)上下載速度極快。

本作業(yè)要求從天網(wǎng)大學(xué)課程在線上下載一部指定的視頻教程。這也將是本課程期末考試的必考題目之一,請用心掌握下述操作技巧。81用天網(wǎng)妹子搜索到的大學(xué)課程在線82大學(xué)課程在線工程理念來源于如下一些理想中的場景:

場景一:新疆石河子大學(xué)計算機系講授?計算機體系結(jié)構(gòu)?的張老師對他的學(xué)生說:關(guān)于“指令流水線局部〞的內(nèi)容請大家點播“大學(xué)課程在線〞上北京大學(xué)李老師相關(guān)的視頻,我們的答疑時間是本周星期四。83場景二:西北大學(xué)的王老師的?文科計算機根底?課程剛剛被評選為教育部優(yōu)秀課程,全國高校的學(xué)生和老師很快就能在“大學(xué)課程在線〞上看到王老師的風(fēng)采。84場景三:未名湖邊,博雅塔下,一位北大的學(xué)生翻開自己的筆記本電腦,開始在“大學(xué)課程在線〞上聆聽周老師關(guān)于離散數(shù)學(xué)中的組合計數(shù)定理局部的內(nèi)容,這已經(jīng)是他第三次學(xué)習(xí)這局部內(nèi)容了。85場景四:東北大學(xué)的學(xué)生們在自己學(xué)校的機房里翻開“大學(xué)課程在線〞,開始觀看前一天到訪清華大學(xué)的諾貝爾獎獲得者的精彩演講。

場景五:五十年后,我突然想看看國學(xué)大師在北大講壇上的音容笑貌,于是我翻開了“大學(xué)課程在線〞。86場景六:一個沒有讀過大學(xué)的人,卻對中國高校里面的名師如數(shù)家珍,因為他在閑暇時候觀看了“大學(xué)課程在線〞的所有課程并認真地閱讀了老師們指定的參考書。這成了他事業(yè)成功的堅實根底。87三、其他P2P搜索引擎BT電驢電騾……8889第六節(jié)

門戶網(wǎng)站和“看不見的〞網(wǎng)站90一、門戶網(wǎng)站的概念中國有三大網(wǎng)站被稱為“門戶網(wǎng)站〞〔新浪、搜狐和網(wǎng)易〕。之所以他們被稱為中國最大的三大門戶網(wǎng)站,除了因為它們有搜索引擎以外,還因為它們安排了多種多樣的信息效勞,使得人們能自覺自愿地登陸這些網(wǎng)站開始“網(wǎng)上沖浪〞,恰似因特網(wǎng)的大門一樣。91一、搜狐網(wǎng)站及其搜索引擎

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論