第三章+檢索原理和搜索引擎.ppt_第1頁
第三章+檢索原理和搜索引擎.ppt_第2頁
第三章+檢索原理和搜索引擎.ppt_第3頁
第三章+檢索原理和搜索引擎.ppt_第4頁
第三章+檢索原理和搜索引擎.ppt_第5頁
已閱讀5頁,還剩123頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第三章:檢索原則和搜索引擎,本章內(nèi)容,網(wǎng)絡(luò)信息檢索第三章,第三章,第一節(jié):關(guān)鍵詞匹配原則,第一節(jié)。從“圖靈實(shí)驗(yàn)”開始,眾所周知,在計(jì)算機(jī)發(fā)展史上有一個重要的人物叫圖靈,他在20世紀(jì)50年代曾提出一個假設(shè)性實(shí)驗(yàn),認(rèn)為計(jì)算機(jī)可以具有人類的思維能力,這就是“圖靈實(shí)驗(yàn)”。他還預(yù)言,在20世紀(jì)末,具有人工智能的計(jì)算機(jī)將會出現(xiàn)。但是到目前為止,沒有一臺計(jì)算機(jī)能通過圖靈實(shí)驗(yàn)。網(wǎng)絡(luò)信息檢索第3、5、2章,計(jì)算機(jī)檢索的奧秘:關(guān)鍵詞匹配,既然計(jì)算機(jī)是如此“無能”,以至于它們甚至沒有三歲孩子的智力,為什么人們在網(wǎng)上尋找信息時(shí)總是幫助他們?計(jì)算機(jī)檢索的秘密是什么?最初,計(jì)算機(jī)檢索的秘密在于它可以將你輸入的關(guān)鍵詞與存儲

2、在其后臺數(shù)據(jù)庫中的關(guān)鍵詞進(jìn)行比較。如果它能匹配,它會認(rèn)為這個信息是你需要的,并立即輸出給你。第3、6、3章,什么是信息檢索?第3章,第7節(jié),廣義的信息檢索:它是指按照一定的方式組織和存儲信息,并根據(jù)用戶的需要找出相關(guān)信息的過程。狹義的信息檢索:匹配過程,即用戶使用檢索語言描述自己的信息需求,并在一定的信息資源系統(tǒng)中進(jìn)行描述匹配的過程。網(wǎng)絡(luò)信息檢索第3,8章,存儲,搜索,原始文獻(xiàn),處理,數(shù)據(jù)庫,詢問,搜索,輸出,“愛因斯坦論文”,“愛因斯坦”,“論文”,“愛因斯坦”,4,信息檢索原理,網(wǎng)絡(luò)信息檢索搜索工具匹配,搜索結(jié)果,信息源,用戶,信息需求,搜索問題,數(shù)據(jù)庫,5,信息檢索語言,一種特殊的人工語

3、言,用于描述文檔信息的內(nèi)部和外部特征以及文檔信息存儲和檢索過程中的搜索問題。它是文學(xué)信息和搜索者之間的橋梁。網(wǎng)絡(luò)信息檢索第3、10章,檢索語言的類型,描述文檔信息外部特征的語言,描述文檔信息內(nèi)容特征的語言,標(biāo)題,負(fù)責(zé)人,序號,出版項(xiàng)目,分類,主題方法,標(biāo)題詞匯單位詞匯描述關(guān)鍵字方法,檢索語言的類型,6,信息檢索的類型,網(wǎng)絡(luò)信息檢索第3、12章,通過信息存儲和檢索的方式進(jìn)行的人工檢索(基于計(jì)算機(jī)的人工檢索,也稱為現(xiàn)代信息檢索,是指使用計(jì)算機(jī)和網(wǎng)絡(luò)來處理和查找文檔信息的檢索方法。根據(jù)檢索內(nèi)容,數(shù)據(jù)檢索:檢索對象是各種數(shù)據(jù)、公式或圖表,檢索結(jié)果是一定的相關(guān)數(shù)據(jù)。事實(shí)檢索:檢索對象是各種已有事實(shí)的相關(guān)

4、材料,檢索結(jié)果是事實(shí)結(jié)論。文獻(xiàn)檢索:檢索對象是原始文獻(xiàn),檢索結(jié)果是相關(guān)原始文獻(xiàn)的線索。第3、13、7章,計(jì)算機(jī)檢索系統(tǒng)的主要類型。檢索系統(tǒng)是一個具有存儲和檢索功能的信息服務(wù)系統(tǒng),由一定的檢索設(shè)備(計(jì)算機(jī))、處理并存儲在相應(yīng)載體上的信息集和其他設(shè)備組成。在線搜索,離線搜索,光盤搜索,互聯(lián)網(wǎng)/網(wǎng)絡(luò)搜索,網(wǎng)絡(luò)信息檢索第3,14,1章。概念檢索。檢索標(biāo)識符是一個特定的檢索詞或短語,每個檢索詞表達(dá)一個概念。在特定檢索中,檢索詞與檢索工具或檢索系統(tǒng)中的文檔特征標(biāo)識符進(jìn)行比較。如果它們相同,那么該記錄就是一個熱門文檔。,8。信息檢索技術(shù)。布爾邏輯運(yùn)算符匹配檢索,布爾邏輯匹配運(yùn)算:它使用布爾代數(shù)中的邏輯與、邏

5、輯或、邏輯非運(yùn)算符將檢索查詢轉(zhuǎn)換成邏輯表達(dá)式,并限制檢索詞必須存在或不能出現(xiàn)在記錄中的條件。任何滿足布爾邏輯所規(guī)定的條件的文檔都是命中文檔。布爾邏輯運(yùn)算符,1。邏輯或2。邏輯與3。邏輯非1。邏輯或(and),由符號或或表示,其邏輯表達(dá)式為:A或B或A B,這意味著每個搜索記錄都包含搜索項(xiàng)A或B,或者同時(shí)包含搜索項(xiàng)A和B。邏輯and,由符號“and”或“*”表示,其邏輯表達(dá)式為:A * B或A和B,這意味著在進(jìn)行算命之前,搜索記錄中的文檔必須同時(shí)包含搜索項(xiàng)A和B。3。邏輯“非”,符號為“非”或“-”,其邏輯表達(dá)式為:甲非乙或A-B,這意味著只有當(dāng)搜索記錄中包含搜索詞甲,但不能包含搜索詞乙時(shí),才能

6、找到算命中的文檔,3。截取檢索:它主要使用檢索詞的詞干或不完整形式進(jìn)行檢索。?通常用作切字字符“:”和“#”。1.后置詞:用于在前面搜索一致的派生詞。例如信息?這意味著檢索系統(tǒng)中包含信息、信息技術(shù)和信息檢索的文獻(xiàn)記錄都是熱門文獻(xiàn)。2.前言剪切:用于檢索后面一致的派生詞。例如:經(jīng)濟(jì)數(shù)據(jù)庫中關(guān)于經(jīng)濟(jì)、工業(yè)經(jīng)濟(jì)、農(nóng)業(yè)經(jīng)濟(jì)等方面的文獻(xiàn)都是熱門文獻(xiàn)。3.限制條款:添加一個或多個(最多四個)?在搜索詞后,清空,并添加“?”。電腦?可以發(fā)現(xiàn):計(jì)算機(jī)、計(jì)算機(jī)、計(jì)算和關(guān)鍵詞檢索在不同的計(jì)算機(jī)檢索系統(tǒng)中有不同的規(guī)定,所以使用時(shí)請注意。為了縮小搜索范圍,可以使用字段代碼來限制搜索詞出現(xiàn)的字段,從而提高搜索速度和命中

7、率。例如:ti中的rice(即僅在標(biāo)題字段中搜索文獻(xiàn))de中的rice(僅搜索關(guān)鍵詞)ab中的rice(僅在摘要中搜索)au=Smith,J.C .(作者是Smith,J.C .的文章)py=1998(僅1998年的文章)la=Chinese(僅中文文獻(xiàn)),4。字段限制檢索,5。位置運(yùn)算符,帶:在同一字段中設(shè)置兩個要檢索的單詞或短語,但不限制位置的順序。相近:設(shè)定要檢索的兩個單詞或短語在同一語句中更接近“with”。此外,當(dāng)使用“近”運(yùn)算符時(shí),可以在運(yùn)算符后添加一個數(shù)字,以進(jìn)一步限制兩個單詞之間的接近度。例如,“near3”設(shè)置要搜索的兩個單詞或短語在同一個句子中,并且相距不超過三個單詞。6.

8、檢索技巧和方法。檢索策略計(jì)算機(jī)檢索實(shí)際上是計(jì)算機(jī)將用戶輸入的檢索策略與存儲在系統(tǒng)中的文獻(xiàn)特征標(biāo)識和邏輯組合關(guān)系進(jìn)行比較和匹配,并輸出完全匹配的文獻(xiàn)的過程。檢索策略是科學(xué)使用檢索詞和邏輯運(yùn)算符來正確構(gòu)建邏輯提問方式的原則和方法。其核心內(nèi)容在于檢索策略和檢索步驟的構(gòu)建。制定檢索策略的步驟如下:a、明確檢索問題的要求,確定被檢索文獻(xiàn)主題的范圍、類型、體裁和時(shí)間。b .選擇相關(guān)數(shù)據(jù)庫,確定待檢數(shù)據(jù)庫中的檢索方式,以制定適合所選數(shù)據(jù)庫的檢索策略。c、對檢索問題d進(jìn)行概念分析,制定檢索邏輯公式e,搜索數(shù)據(jù)庫文檔,查看相關(guān)文檔,分析檢索結(jié)果。如果需要,反饋并修改問題表,重復(fù)第5步,直到你滿意為止。一,擴(kuò)大搜

9、索范圍,擴(kuò)大*的概念。*擴(kuò)大范圍。*添加同義詞、同義詞、相關(guān)單詞和縮寫。*使用“或”、“?”* s擴(kuò)展。*刪除連字符可以擴(kuò)大搜索范圍。*在另一個數(shù)據(jù)庫或另一張光盤中繼續(xù)搜索。b,縮小搜索范圍的方法,*核心概念的局限性。*核心期刊的局限性。*語言限制。*使用布爾邏輯運(yùn)算符“and”或“not”來匹配搜索詞。*使用位置運(yùn)算符“near”和字段運(yùn)算符“in”來提高精度。*使用“索引”和同義詞庫選擇準(zhǔn)確的搜索術(shù)語以縮小搜索范圍;2.搜索技巧和方法;9.“關(guān)鍵詞原則”是信息檢索的基本原則。第三章,28、四個文檔,三個中文網(wǎng)站系列,兩種類型的搜索引擎,關(guān)鍵詞原則,第二節(jié)搜索引擎原則和WWW信息資源:網(wǎng)頁文

10、件傳輸協(xié)議信息資源:遠(yuǎn)程計(jì)算機(jī)上的文件夾博客信息資源:博客,播客等信息資源Telenet信息資源:直接呼叫遠(yuǎn)程主機(jī)BBS,新聞組信息資源:相當(dāng)于論壇信息P2P信息資源:私人計(jì)算機(jī)上的信息資源數(shù)據(jù)庫和收費(fèi)網(wǎng)站:如三個圖書館和三個大廳,網(wǎng)絡(luò)信息檢索第三章,第三十章,第二章。搜索引擎的發(fā)展歷史,網(wǎng)絡(luò)信息檢索的第3、31章,網(wǎng)絡(luò)信息檢索的第3、32章,搜索引擎的起源阿奇,所有搜索引擎的鼻祖,是由蒙特利爾麥吉爾大學(xué)的三名學(xué)生于1990年發(fā)明的。艾倫恩塔格和其他人想出了開發(fā)一個可以通過文件名找到文件的系統(tǒng)的想法,于是阿奇就出現(xiàn)了。阿奇是第一個在互聯(lián)網(wǎng)上自動索引匿名文件傳輸協(xié)議網(wǎng)站文件的程序,但它不是一個真

11、正的搜索引擎。阿奇是一個可搜索的文件傳輸協(xié)議文件名列表。用戶必須輸入準(zhǔn)確的文件名進(jìn)行搜索,然后阿奇會告訴用戶哪個文件傳輸協(xié)議地址可以下載文件。1993年,內(nèi)華達(dá)系統(tǒng)計(jì)算服務(wù)大學(xué)開發(fā)了一個Gopher (gopher FAQ)搜索工具Veronica(Veronica FAQ),因?yàn)榘⑵娣浅J軞g迎并受到它的啟發(fā)。Jughead是后來的另一個Gopher搜索工具。目前該工具主要用于大型外文圖書館的信息檢索。網(wǎng)絡(luò)信息檢索第3,34章,第二代搜索:目錄搜索雅虎!1994年4月,斯坦福大學(xué)的兩位博士生,華裔美國人楊致遠(yuǎn)和大衛(wèi)費(fèi)羅共同創(chuàng)建了雅虎。隨著訪問量和收錄鏈接數(shù)量的增加,雅虎目錄開始支持簡單的數(shù)據(jù)庫

12、搜索。因?yàn)檠呕?!的?shù)據(jù)是手動輸入的,所以它不能真正歸類為搜索引擎,事實(shí)上它只是一個可搜索的目錄。雅虎!搜索效率明顯提高,因?yàn)?。雅虎!?0世紀(jì)90年代幾乎成為互聯(lián)網(wǎng)的代名詞。網(wǎng)絡(luò)信息檢索第3章第35節(jié)元搜索引擎是1995年出現(xiàn)的一種新的搜索引擎。用戶只需提交一次搜索請求,元搜索引擎負(fù)責(zé)轉(zhuǎn)換和處理,然后提交給多個預(yù)選的獨(dú)立搜索引擎,從每個獨(dú)立搜索引擎返回的所有查詢結(jié)果在返回給用戶之前都經(jīng)過收集和處理。第一個元搜索引擎是來自華盛頓大學(xué)的研究生埃里克塞爾伯格和來自柳文歡埃齊奧尼的Metacrawler。元搜索引擎在概念上是好的,但是搜索效果一直不理想,所以沒有一個元搜索引擎有過強(qiáng)勢地位。網(wǎng)絡(luò)信息檢索

13、第3、36章,第三代搜索:網(wǎng)絡(luò)搜索,網(wǎng)絡(luò)信息檢索第3、37章,所有這些都屬于自動網(wǎng)絡(luò)搜索引擎,其中一些還具有智能分析或FTP、P2P搜索功能。5.搜索引擎的工作原理,網(wǎng)絡(luò)信息檢索第3章,第38節(jié),搜索引擎并不真正搜索互聯(lián)網(wǎng),而是實(shí)際搜索預(yù)先安排好的網(wǎng)絡(luò)索引數(shù)據(jù)庫。搜索引擎至少由三部分組成:爬蟲(即搜索程序如機(jī)器人和蜘蛛)、索引生成器(即網(wǎng)頁索引數(shù)據(jù)庫)、查詢檢索器(即用戶搜索界面)、網(wǎng)絡(luò)信息檢索第3、39章,搜索引擎的工作原理類似超市、網(wǎng)絡(luò)信息檢索第3、40章、索引生成器(網(wǎng)頁數(shù)據(jù)庫)、爬蟲(蜘蛛)、查詢檢索器(搜索引擎)。使用蜘蛛系統(tǒng)程序,該程序可以自動從互聯(lián)網(wǎng)上收集網(wǎng)頁,自動訪問互聯(lián)網(wǎng),沿

14、著任何網(wǎng)頁中的所有網(wǎng)址爬至其他網(wǎng)頁,重復(fù)該過程,并收集所有已爬行的網(wǎng)頁。第3章,第41節(jié),網(wǎng)絡(luò)信息檢索,第1步:從互聯(lián)網(wǎng)上抓取網(wǎng)頁,第2步:建立索引數(shù)據(jù)庫,通過分析索引系統(tǒng)程序?qū)κ占降木W(wǎng)頁進(jìn)行分析,提取相關(guān)的網(wǎng)頁信息(包括網(wǎng)頁所在的網(wǎng)址、編碼類型、網(wǎng)頁內(nèi)容中包含的關(guān)鍵詞、關(guān)鍵詞的位置、生成時(shí)間、大小、與其他網(wǎng)頁的鏈接關(guān)系等)。),并根據(jù)某個相關(guān)算法執(zhí)行大量復(fù)雜計(jì)算。獲得每個網(wǎng)頁對于網(wǎng)頁內(nèi)容和超鏈接中的每個關(guān)鍵詞的相關(guān)性(或重要性),然后利用相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。在網(wǎng)絡(luò)信息檢索第3章第42節(jié)中,搜索引擎蜘蛛通常會定期重新訪問所有網(wǎng)頁(每個搜索引擎的周期不同,可能是幾天、幾周或幾個月,對于

15、不同重要性的網(wǎng)頁可能有不同的更新頻率),更新網(wǎng)頁索引數(shù)據(jù)庫以反映網(wǎng)頁內(nèi)容的更新,添加新的網(wǎng)頁信息,刪除死鏈接,并根據(jù)網(wǎng)頁內(nèi)容和鏈接關(guān)系的變化對它們進(jìn)行重新排序。這樣,網(wǎng)頁的具體內(nèi)容和變化就會反映在用戶查詢的結(jié)果中。網(wǎng)絡(luò)信息檢索第3、43章,第3步:檢索界面的建立。在用戶輸入關(guān)鍵詞進(jìn)行搜索之后,搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到與關(guān)鍵詞匹配的所有相關(guān)網(wǎng)頁。因?yàn)橐呀?jīng)計(jì)算了該關(guān)鍵字的所有相關(guān)網(wǎng)頁的相關(guān)性,所以只需要根據(jù)現(xiàn)成的相關(guān)性值進(jìn)行排序,并且相關(guān)性越高,排名越高。最后,頁面生成系統(tǒng)組織搜索結(jié)果的鏈接地址和頁面的內(nèi)容摘要,并將其返回給用戶。在網(wǎng)絡(luò)信息檢索的第3、44章中,每個搜索引擎都必須為用戶提

16、供一個良好的信息查詢界面,一般包括兩種信息查詢方式:分類目錄和關(guān)鍵詞。網(wǎng)絡(luò)信息檢索第3,45章,網(wǎng)絡(luò)信息檢索第3,46章,網(wǎng)絡(luò)信息檢索第3,47章,第3節(jié)兩類搜索引擎和網(wǎng)絡(luò)搜索引擎,兩類搜索引擎的代表,網(wǎng)絡(luò)信息檢索第3,49章,百度,谷歌,雅虎,迅雷,天網(wǎng)迷宮等。第一類搜索引擎:以谷歌和百度為代表的網(wǎng)絡(luò)搜索引擎。谷歌搜索引擎誕生于斯坦福大學(xué)的一個學(xué)生宿舍,它迅速傳播到全世界的信息搜索者。谷歌目前被認(rèn)為是萬維網(wǎng)上最大的搜索引擎,它提供易于使用的免費(fèi)服務(wù),使用戶能夠訪問包含80多億個網(wǎng)站的索引。“谷歌”來自數(shù)學(xué)名詞“谷歌”,意思是1后跟100個零。谷歌國際。用這個術(shù)語來反映公司在互聯(lián)網(wǎng)上整合大量信息的雄心勃勃的目標(biāo)。地址:hk/,第3章,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論