第二講計算機檢索技術(shù)及搜索引擎應(yīng)用_第1頁
第二講計算機檢索技術(shù)及搜索引擎應(yīng)用_第2頁
第二講計算機檢索技術(shù)及搜索引擎應(yīng)用_第3頁
第二講計算機檢索技術(shù)及搜索引擎應(yīng)用_第4頁
第二講計算機檢索技術(shù)及搜索引擎應(yīng)用_第5頁
已閱讀5頁,還剩124頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第二講計算機檢索技術(shù)及搜索引擎應(yīng)用第一頁,共一百二十九頁,編輯于2023年,星期五

必須找?哪里找?如何找?第二頁,共一百二十九頁,編輯于2023年,星期五第一節(jié)計算機檢索技術(shù)計算機檢索的實質(zhì):匹配運算計算機檢索技術(shù)檢索提問檢索表達(dá)式掃描、匹配識別數(shù)據(jù)庫檢索詞的組配技術(shù)計算機檢索技術(shù)檢索表達(dá)式的構(gòu)成規(guī)則檢索詞:主題詞、關(guān)鍵詞、名稱、分類號分子式等。檢索表達(dá)式:運用各種運算符,把檢索詞連接組配。第三頁,共一百二十九頁,編輯于2023年,星期五布爾邏輯位置邏輯截詞字段限制加權(quán)計算機檢索技術(shù)其他1.11.21.31.41.61.5第四頁,共一百二十九頁,編輯于2023年,星期五1.1布爾邏輯檢索技術(shù)布爾邏輯檢索技術(shù)就是利用布爾邏輯算符進行檢索項的邏輯組配,用以表達(dá)檢索者的提問概念。布爾邏輯算符指規(guī)定檢索詞之間相互關(guān)系的運算符號,在檢索表達(dá)式中起著邏輯組配的作用復(fù)雜概念的檢索式組配檢索詞檢索詞檢索詞簡單第五頁,共一百二十九頁,編輯于2023年,星期五1.1布爾邏輯檢索技術(shù)常用的布爾邏輯運算符:

邏輯“與(AND)”邏輯“或(OR)”邏輯“非(NOT)”運算順序第六頁,共一百二十九頁,編輯于2023年,星期五1.1.1邏輯“與”運算符:AND或*用于交叉概念或限定關(guān)系的組配,實現(xiàn)檢索詞概念范圍的交集。

表達(dá)式:AandB或A*BBAnd兩側(cè)的檢索詞必須同時出現(xiàn)在檢索字段中檢出同時含有檢索詞A和檢索詞B的記錄A第七頁,共一百二十九頁,編輯于2023年,星期五1.1.1邏輯“與”作用縮小檢索范圍,提高查準(zhǔn)率。

舉例檢索“人口控制”或者“控制人口”方面的文獻信息。人口and控制返回第八頁,共一百二十九頁,編輯于2023年,星期五1.1.2邏輯“或”運算符:OR或+用于檢索詞并列關(guān)系(同義詞、近義詞)的組配,實現(xiàn)檢索詞概念范圍的并集。

表達(dá)式:AorB或A+BB在文獻記錄中只要含有檢索詞A和檢索詞B中的任何一個即算命中檢索出的記錄含有檢索詞A或者檢索詞BA第九頁,共一百二十九頁,編輯于2023年,星期五1.1.2邏輯“或”作用擴大檢索范圍,防止漏檢,提高查全率。

舉例檢索“計算機”方面的文獻信息。計算機or電腦使用的注意事項如果檢索詞涉及表達(dá)整體概念,要針對具體情況分別列出每個表達(dá)部分概念的檢索詞,否則將出現(xiàn)漏檢。返回第十頁,共一百二十九頁,編輯于2023年,星期五1.1.3邏輯“非”運算符:NOT或-一種排斥關(guān)系的組配,用來從原來的檢索范圍中排除不需要的概念。

表達(dá)式:AnotB或A-BB適用于排除含有某個指定檢索詞的記錄A檢索出的記錄含有檢索詞A,但同時不含檢索詞B第十一頁,共一百二十九頁,編輯于2023年,星期五2.1.3邏輯“非”作用縮小檢索范圍,增強檢索的準(zhǔn)確性。但使用不當(dāng),易排除有用文獻信息,從而導(dǎo)致漏檢

舉例檢索有關(guān)能源方面的文獻信息,但不包括核能。energynotnuclear使用的注意事項兩個關(guān)系緊密的檢索詞不宜用not返回第十二頁,共一百二十九頁,編輯于2023年,星期五1.1布爾邏輯檢索技術(shù)優(yōu)先級高優(yōu)先級低NOTANDOR布爾邏輯運算符的運算順序返回第十三頁,共一百二十九頁,編輯于2023年,星期五1.2位置邏輯檢索技術(shù)位置邏輯檢索利用位置邏輯算符限定檢索詞之間的位置,或指定檢索詞在記錄中某一特定位置進行檢索。位置算符又稱鄰接運算符。位置邏輯檢索的作用表達(dá)各個檢索詞之間的順序與相對位置關(guān)系。與布爾邏輯檢索的區(qū)別使用布爾邏輯檢索時,計算機只判斷參加運算的檢索詞在數(shù)據(jù)庫記錄中出現(xiàn)與否,不能確定檢索詞之間的相對位置關(guān)系。而通過與位置算符配合使用可以減少檢索誤差。第十四頁,共一百二十九頁,編輯于2023年,星期五1.2位置邏輯檢索技術(shù)Dialog系統(tǒng)中的幾種位置算符同詞位檢索(W)——(With/Word)、(nW)

(N)——(NEAR)、(nN)同字段檢索(F)——(Field)(L)——(Link)其他位置算符(S)——(Subfield)(C)——(Citation)第十五頁,共一百二十九頁,編輯于2023年,星期五1.2.1同詞位檢索允許在連接的兩個詞之間最多夾入n個其他單元詞,只強調(diào)插入單元詞個數(shù)沒限定插入單元詞的具體范圍,同時詞序不能顛倒此算符兩側(cè)的檢索詞必須按輸入時的前后順序排列,而且所連接的詞之間除可以有一個空格或一個標(biāo)點符號或一個鏈接號外不得夾有任何其他單詞或字母(W)/()(nW)舉例舉例嚴(yán)密性強嚴(yán)密性差第十六頁,共一百二十九頁,編輯于2023年,星期五1.2.1同詞位檢索允許兩個檢索詞之間最多可以插入n個單詞,且這兩個檢索詞的詞序任意此算符兩側(cè)的檢索詞必須緊密相連,所連接的詞間不允許插入任何其他單詞或字母,但詞序可以顛倒(N)(nN)舉例舉例第十七頁,共一百二十九頁,編輯于2023年,星期五(N)舉例檢索式chemistry(N)physics命中含有chemistryphysics或physicschemistry的文獻返回第十八頁,共一百二十九頁,編輯于2023年,星期五檢索式economic(2N)recovery(nN)舉例命中含有economicrecovery或recoveryoftheeconomic的文獻返回第十九頁,共一百二十九頁,編輯于2023年,星期五(W)/()舉例檢索式

American()Literature命中有關(guān)AmericanLiterature或American,Literature的文獻返回第二十頁,共一百二十九頁,編輯于2023年,星期五(nW)舉例檢索式knowledge(1W)economy命中有關(guān)knowledgeeconomy或knowledge-basedeconomy的文獻返回第二十一頁,共一百二十九頁,編輯于2023年,星期五舉例舉例2.2.2同字段檢索(L)(F)表示此算符兩側(cè)的檢索詞必須同時出現(xiàn)在同一字段內(nèi)。如:篇名字段、文摘字段、敘詞字段等,但兩詞的詞序中間插入的次數(shù)不限。表示兩個檢索詞之間存在從屬關(guān)系或限制關(guān)系。如果其中一個為一級主題詞,另一個就為二級主題詞。第二十二頁,共一百二十九頁,編輯于2023年,星期五(L)舉例檢索式control(L)stability命中標(biāo)題含有control和stability兩個檢索詞的文獻記錄。返回第二十三頁,共一百二十九頁,編輯于2023年,星期五(F)舉例檢索式economic(F)knowledge命中標(biāo)題為“theEconomicImpactofKnowledge-Based”的文獻記錄。返回原因:算符兩側(cè)的檢索詞在同一標(biāo)題字段中第二十四頁,共一百二十九頁,編輯于2023年,星期五1.2.3其他位置邏輯檢索(S)——(Subfield)

表示在此算副輛車的檢索詞必須出現(xiàn)在同一個子字段中,順序不變,中間可插入詞數(shù)不限。舉例(basicorcobolorpascal)(S)(program*orcompil*)Basic(S)program*basic(S)compil*Cobol(S)program*cobol(S)compil*Pascal(S)program*pascal(S)compil*第二十五頁,共一百二十九頁,編輯于2023年,星期五1.2.3其他位置邏輯檢索(C)——(Citation)

表示兩側(cè)的檢索詞只能出現(xiàn)在同一條記錄中,且對它們的相對位置或次序沒有任何限制,作用和布爾算符and完全相同第二十六頁,共一百二十九頁,編輯于2023年,星期五位置邏輯算符的優(yōu)先順序C(S)(N)(W)(F)1.2.4位置邏輯檢索技術(shù)嚴(yán)謹(jǐn)寬松返回第二十七頁,共一百二十九頁,編輯于2023年,星期五1.3截詞檢索技術(shù)實質(zhì)截詞檢索就是用截詞符號將檢索詞截斷,用檢索詞的片段進行匹配運算。注意在截斷時,截斷的詞干不能太短,詞干一般應(yīng)在3個字符以上,以免增加檢索時間,產(chǎn)生誤檢。第二十八頁,共一百二十九頁,編輯于2023年,星期五1.3截詞檢索技術(shù)截詞形式按截詞的字符數(shù)量

有限截斷、無限截斷按截詞的位置

右截斷、左截斷、中間截斷第二十九頁,共一百二十九頁,編輯于2023年,星期五1.3.1按截詞數(shù)量截斷有限截斷指限定截去有限個字符。截斷符號??——截斷1個字符???——截斷2個字符依此類推。舉例輸入:product??結(jié)果:含有product、products的記錄第三十頁,共一百二十九頁,編輯于2023年,星期五1.3.1按截詞數(shù)量截斷無限截斷檢索詞詞干可變化兩個以上字符時,連續(xù)使用若干個“?”或“*”代替變化字符。用法

可同時查找含有該詞干的所有文獻記錄,亦可用于年代的查找。第三十一頁,共一百二十九頁,編輯于2023年,星期五1.3.2其他截斷方式1.把截詞符號置放在一個檢索詞的中間;2.中截斷不允許有限截斷1.將截詞符號放在一個字符串左方,表示其左的有限或無限個字符不影響該字符串的檢索;2.實質(zhì):后方一致檢索1.最常用的截詞檢索技術(shù);2.放在字符串右方,表示其右有限或無限個字符不影響該字符串的檢索;3.實質(zhì):后截斷是前方一致檢索后截斷前截斷中截斷舉例舉例舉例返回第三十二頁,共一百二十九頁,編輯于2023年,星期五后截斷舉例輸入:computer*檢索結(jié)果

computeracy

computerise

computerization

computers隱含OR運算特性第三十三頁,共一百二十九頁,編輯于2023年,星期五后截斷注意事項后截斷主要使用于如下幾種情況:檢索詞的單復(fù)數(shù)的描述;如:book?同根詞的表達(dá);

如:chemi*可以檢索出chemical、

chemistry、chemist等同根詞年代的表達(dá);

如:20??(21世紀(jì)),199?(20世紀(jì)90年代)作者

如:Moyer*可以檢索出所有姓Moyer的作者返回第三十四頁,共一百二十九頁,編輯于2023年,星期五前截斷舉例輸入:*computer檢索結(jié)果

microcomputer

minicomputer返回第三十五頁,共一百二十九頁,編輯于2023年,星期五中截斷舉例輸入:

organi?ation檢索結(jié)果

organization

organisation中截斷主要使用于如下幾種情況:檢索詞的拼寫方式存在美式、英式之分;檢索詞在某個元音位置出現(xiàn)的單復(fù)數(shù)不同;

如:man與men作用

擴大檢索范圍,提高檢全率,減少檢索詞的輸入量返回第三十六頁,共一百二十九頁,編輯于2023年,星期五1.4字段限制檢索技術(shù)在檢索系統(tǒng)中,通常有一些縮小或約束檢索結(jié)果的方法,稱為限制檢索。限制檢索的方式字段限制檢索1使用限制符檢索2第三十七頁,共一百二十九頁,編輯于2023年,星期五1.4.1字段限制檢索特點及作用

使檢索出的文獻信息達(dá)到一定的專指度。將檢索詞限制在記錄的某個特定字段內(nèi)檢索,不但可以減輕機器負(fù)擔(dān),提高運算速度,還可以使檢索結(jié)果更準(zhǔn)確。用法

將需要檢索的內(nèi)容限制在相關(guān)的字段內(nèi)。

如:作者姓名作者字段

關(guān)鍵詞關(guān)鍵詞或題名字段第三十八頁,共一百二十九頁,編輯于2023年,星期五1.4.1字段限制檢索字段種類

基本字段:表達(dá)文獻內(nèi)容特征的字段

輔助字段:表達(dá)文獻外表特征的字段字段檢索形式

1.通過菜單選擇檢索字段

2.用命令的方式輸入字段限制算符篇名字段、文摘字段、敘詞字段、分類類目等作者、機構(gòu)、文獻類型、語種等返回第三十九頁,共一百二十九頁,編輯于2023年,星期五1.4.2使用限制符檢索Web檢索方式通常通過菜單選擇檢索字段,在聯(lián)機Web高級檢索中,還可以用表示語種、文獻類型、出版國家、出版年代等額字段標(biāo)識符來限制檢索范圍。在Dialog系統(tǒng)中,用專門的字符表示不同字段。第四十頁,共一百二十九頁,編輯于2023年,星期五1.4.2使用限制符檢索前綴限制字符

AU= 限查特定作者

JN= 限查特定刊名

LA= 限查特定語種

PN= 限查特定專利號

PY= 限查特定年代后綴限制符

/TI 限在題目中查

/AB 限在文摘中查

/DE 限在敘詞標(biāo)引中查

查找2004年出版的英文或法文的宏觀經(jīng)濟學(xué)方面的期刊檢索式:(macroeconomics/de,ti,ab)ANDPY=2004AND(LA=ENORFR)ANDDT=Serial舉例限制字符的使用返回第四十一頁,共一百二十九頁,編輯于2023年,星期五1.5加權(quán)檢索技術(shù)與其他檢索技術(shù)的區(qū)別基本方法1.在每個檢索詞后面給定表示重要程度的數(shù)值,稱為權(quán)值。

2.檢索時,查找這些檢索詞在數(shù)據(jù)庫記錄中是否存在

3.計算存在的檢索詞的權(quán)值總和。

4.權(quán)值之和達(dá)到或超過預(yù)先給定的闕值,即為命中其他檢索技術(shù)加權(quán)檢索技術(shù)側(cè)重點判定檢索詞或字符串在數(shù)據(jù)庫中,與別的檢索詞或字符串是什么關(guān)系判定檢索詞或字符串在滿足檢索邏輯后對文獻信息命中與否的影響程度返回第四十二頁,共一百二十九頁,編輯于2023年,星期五1.6其他輔助檢索技術(shù)1.6.1信息的瀏覽式檢索與鏈接技術(shù)1.6.2檢索結(jié)果的翻譯和多語種(或跨語種)

檢索技術(shù)1.6.3檢索結(jié)果的后處理技術(shù)第四十三頁,共一百二十九頁,編輯于2023年,星期五1.6.1信息的瀏覽式檢索與鏈接技術(shù)用戶在計算機檢索系統(tǒng)中,“瀏覽”方式的實現(xiàn)主要得益于超文本鏈接技術(shù)的成功應(yīng)用。某種信息組織結(jié)構(gòu)(或?qū)Ш綑C制)鏈接信息系統(tǒng)預(yù)定義相關(guān)或未曾預(yù)料的有用信息訪問、探尋提供第四十四頁,共一百二十九頁,編輯于2023年,星期五1.6.1信息的瀏覽式檢索與鏈接技術(shù)搜索引擎

目前,基于瀏覽式檢索的技術(shù)方法已在網(wǎng)絡(luò)搜索引擎中得到了廣泛應(yīng)用,以Yahoo為首創(chuàng)的一類網(wǎng)絡(luò)搜索引擎就是通過分類目錄導(dǎo)航機制實現(xiàn)對同絡(luò)信息的瀏覽式檢索的。此外,超文本鏈接技術(shù)在傳統(tǒng)的基于關(guān)鍵詞匹配的信息檢索系統(tǒng)中,也越來越顯現(xiàn)出重要的應(yīng)用價值。第四十五頁,共一百二十九頁,編輯于2023年,星期五1.6.1信息的瀏覽式檢索與鏈接技術(shù)參考文獻鏈接(CitedReference)相關(guān)記錄鏈接(RelatedRecords)被引次數(shù)鏈接

(TimesCited)內(nèi)鏈接第四十六頁,共一百二十九頁,編輯于2023年,星期五被引次數(shù)鏈接舉例在系統(tǒng)檢索結(jié)果列表中,該鏈接點首先給出該文獻的被引用次數(shù),單擊該鏈接點,系統(tǒng)會進一步顯示引用該篇文獻的所有其他文獻;點擊第四十七頁,共一百二十九頁,編輯于2023年,星期五參考文獻鏈接舉例該鏈接點不僅可以顯示該檢索結(jié)果文獻所使用的參考文獻數(shù)量,單擊它還可顯示這些參考文獻的具體列表;點擊第四十八頁,共一百二十九頁,編輯于2023年,星期五相關(guān)記錄鏈接通過該鏈接點可以查看在不同年份中與當(dāng)前所檢索的記錄共同引用同一篇(或多篇)參考文獻的一組文獻,即相關(guān)記錄,并按共同引用參考文獻的多少排序。

第四十九頁,共一百二十九頁,編輯于2023年,星期五1.6.1信息的瀏覽式檢索與鏈接技術(shù)外部鏈接與原始文獻的鏈接;與圖書館館藏OPAC系統(tǒng)的鏈接,了解該文獻

記錄所在期刊的館藏情況;與其他數(shù)據(jù)庫服務(wù)系統(tǒng)的鏈接。返回第五十頁,共一百二十九頁,編輯于2023年,星期五1.6.2檢索結(jié)果的翻譯和多語種

(或跨語種)檢索技術(shù)

目前檢索結(jié)果翻譯這一檢索輔助功能主要出現(xiàn)在網(wǎng)絡(luò)搜索引擎中。目前,一些大型、綜合性搜索引擎在檢索結(jié)果翻譯方面已經(jīng)展開研究,并開始提供這一服務(wù)功能。與檢索結(jié)果翻譯問題密切關(guān)聯(lián)的另一個問題是多語種(或跨語種)檢索問題。檢索結(jié)果的翻譯功能畢竟有限,更重要的應(yīng)是多語種(或跨語種)檢索功能的實現(xiàn)。鑒于自然語言理解的困難性,真正意義上的多語種檢索實現(xiàn)技術(shù)目前仍處于研究中。返回第五十一頁,共一百二十九頁,編輯于2023年,星期五1.6.3檢索結(jié)果的后處理技術(shù)排序輸出

最常用(或默認(rèn))的排序標(biāo)準(zhǔn):相關(guān)度(relevance)排序,檢索結(jié)果條目用戶檢索請求匹配結(jié)果

(按匹配程度大小從高到低排序)第五十二頁,共一百二十九頁,編輯于2023年,星期五1.6.3檢索結(jié)果的后處理技術(shù)聯(lián)機聚類

聯(lián)機聚類技術(shù)可以動態(tài)地把檢索結(jié)果集合劃分、安排到一個由聚類計算面生成的類目等級結(jié)構(gòu)中,用戶通過在這一目錄結(jié)構(gòu)中進一步瀏覽其感興趣的結(jié)果,可以節(jié)省大量的聯(lián)機時間。去重合并

存在原因:

1.國際聯(lián)機檢索系統(tǒng)的多數(shù)據(jù)庫(或跨數(shù)據(jù)庫)檢索;

2.網(wǎng)絡(luò)搜索引擎的信息檢索。

目前,獨立搜索引擎對檢索結(jié)果中的重復(fù)信息很少進行過濾處理。不過,元搜索引擎則普遍具有對來自不同引擎重復(fù)檢索結(jié)果的合并和去重功能。第五十三頁,共一百二十九頁,編輯于2023年,星期五第二節(jié)搜索引擎

2.1

搜索引擎的定義、原理、分類

2.2Google及其使用技巧

2.3其它搜索引擎第五十四頁,共一百二十九頁,編輯于2023年,星期五2.1.1搜索引擎的定義搜索引擎是一個提供信息“檢索”服務(wù)的網(wǎng)站,它使用某些程序把因特網(wǎng)上的所有信息歸類以幫助人們在茫茫網(wǎng)海中搜尋到所需要的信息。搜索引擎常常是用戶利用網(wǎng)上資源的第一途徑。第五十五頁,共一百二十九頁,編輯于2023年,星期五2.1.2搜索引擎原理從互聯(lián)網(wǎng)上抓取網(wǎng)頁→建立索引數(shù)據(jù)庫→在索引數(shù)據(jù)庫中搜索排序。大多數(shù)搜索引擎并不真正搜索互聯(lián)網(wǎng),它搜索的實際上是預(yù)先整理好的網(wǎng)頁索引數(shù)據(jù)庫。搜索引擎也不能真正理解網(wǎng)頁上的內(nèi)容,它只能機械的匹配網(wǎng)頁上的文字。第五十六頁,共一百二十九頁,編輯于2023年,星期五2.1.3搜索引擎的分類

按檢索機制劃分按檢索內(nèi)容劃分按數(shù)據(jù)來源劃分第五十七頁,共一百二十九頁,編輯于2023年,星期五(1)按檢索機制劃分

全文搜索引擎目錄式搜索引擎元搜索引擎

第五十八頁,共一百二十九頁,編輯于2023年,星期五全文搜索引擎從互聯(lián)網(wǎng)上提取的各個網(wǎng)站的信息而建立的數(shù)據(jù)庫中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶。從搜索結(jié)果來源的角度,全文搜索引擎又可細(xì)分為兩種,一種是擁有自己的檢索程序,并自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用;另一種則是租用其他引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如Lycos引擎。優(yōu)點:是查詢?nèi)?、充分,用戶能夠?qū)Ω骶W(wǎng)站的每篇文章中的每個詞進行搜索,檢索直接、方便,而且可使用布爾邏輯檢索、短語檢索等高級功能。缺點:繁多而雜亂的感覺。代表性的全文搜索引擎是Google、百度。第五十九頁,共一百二十九頁,編輯于2023年,星期五第六十頁,共一百二十九頁,編輯于2023年,星期五第六十一頁,共一百二十九頁,編輯于2023年,星期五目錄式搜索引擎通過用戶瀏覽層次類型目錄來尋找所需信息。分類一般按主題分類,并輔之以年代、地區(qū)等分類。網(wǎng)站多以此方式組織。例如:新浪>分類目錄>計算機與互聯(lián)網(wǎng)>硬件>行情報價。優(yōu)點:使用戶清晰方便地查找到某一大類信息,尤其適合那些希望了解某一范圍內(nèi)信息,并不嚴(yán)格限于查詢關(guān)鍵字的用戶。缺點:搜索范圍較全文搜索引擎要小許多,尤其是當(dāng)用戶選擇類型不當(dāng)時,可能遺漏某些重要的信息源。代表性的目錄式搜索引擎是Yahoo、搜狐、新浪網(wǎng)站第六十二頁,共一百二十九頁,編輯于2023年,星期五第六十三頁,共一百二十九頁,編輯于2023年,星期五第六十四頁,共一百二十九頁,編輯于2023年,星期五第六十五頁,共一百二十九頁,編輯于2023年,星期五第六十六頁,共一百二十九頁,編輯于2023年,星期五元搜索引擎同時在其他多個引擎上進行搜索,并將結(jié)果返回給用戶。沒有自己的數(shù)據(jù)庫,利用一個統(tǒng)一的界面,查詢其他獨立的搜索引擎。優(yōu)點:快捷,信息覆蓋面更加廣泛缺點:高級檢索功能不完善,檢索結(jié)果沒有經(jīng)過處理

著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有北斗、等。圖Dogpile界面第六十七頁,共一百二十九頁,編輯于2023年,星期五第六十八頁,共一百二十九頁,編輯于2023年,星期五第六十九頁,共一百二十九頁,編輯于2023年,星期五MetaCrawler1995年由華盛頓大學(xué)推出,1997年被InfoSpace購買。支持調(diào)用12個獨立搜索引擎,提供涵蓋近20個主題的目錄檢索服務(wù)。檢索特性非常豐富,包括常規(guī)檢索、高級檢索、定制檢索、國家或地區(qū)的資源檢索等檢索服務(wù)模式。高級檢索模式可實現(xiàn):搜索引擎的選擇調(diào)用,基于域名、地區(qū)或國家的檢索結(jié)果過濾,最長檢索時間設(shè)置,每頁可顯示的和允許每個搜索引擎返回的檢索結(jié)果數(shù)量的設(shè)定,設(shè)定檢索結(jié)果排序依據(jù)(包括相關(guān)度、域名、源搜索引擎)等。以上內(nèi)容均可作為定制檢索的個性化選項并予以保存。檢索結(jié)果中包括一個以1000為最大值的相關(guān)度指標(biāo)。

第七十頁,共一百二十九頁,編輯于2023年,星期五一款理想的元搜索引擎應(yīng)具備的特點和功能含蓋較多的搜索資源,可隨意選擇和調(diào)用源搜索引擎;具備盡可能多的可選擇功能,如資源類型(網(wǎng)站、網(wǎng)頁、新聞、軟件、FTP、MP3、圖像等)選擇、返回結(jié)果數(shù)量控制、結(jié)果時段選擇、過濾功能選擇等強大的檢索請求處理功能(如支持邏輯匹配檢索、短語檢索、自然語言檢索等)和不同搜索引擎間檢索語法規(guī)則、字符的轉(zhuǎn)換功能(如對不支持“NEAR”算符的搜索引擎,可自動實現(xiàn)由“NEAR”向“AND”算符的轉(zhuǎn)換等詳盡全面的檢索結(jié)果信息描述(如網(wǎng)頁名稱、URL、文摘、源搜索引擎、結(jié)果與用戶檢索需求的相關(guān)度等)支持多種語言檢索。

第七十一頁,共一百二十九頁,編輯于2023年,星期五(2)按檢索內(nèi)容劃分通用型專題型

第七十二頁,共一百二十九頁,編輯于2023年,星期五通用型搜索引擎通用型搜索引擎在采集標(biāo)引信息資源時不限制資源的主題范圍和數(shù)據(jù)類型,又稱為綜合型檢索工具。如:Google、百度、AltaVista、Excite、Yahoo等也有這種混合功能。右圖是Yahoo的檢索界面,既有檢索窗口,也有分類瀏覽目錄。第七十三頁,共一百二十九頁,編輯于2023年,星期五專題型檢索工具專題型檢索工具指那些專門用來檢索某一類型信息和數(shù)據(jù)的檢索工具,如查詢地圖的檢索工具“MapBlast”、查詢圖像的檢索工具“WebSEEK”等。圖G的界面第七十四頁,共一百二十九頁,編輯于2023年,星期五第七十五頁,共一百二十九頁,編輯于2023年,星期五(3)按數(shù)據(jù)來源劃分獨立搜索引擎擁有獨立的采集標(biāo)引機制和獨立的數(shù)據(jù)庫元搜索引擎

沒有自己的數(shù)據(jù)庫,它利用一個統(tǒng)一的界面,查詢其他獨立的搜索引擎

第七十六頁,共一百二十九頁,編輯于2023年,星期五2.2Google及其使用技巧由兩個斯坦福大學(xué)博士生LarryPage與SergeyBrin于1998年9月發(fā)明。約搜索30億張網(wǎng)頁,包括35個國家和地區(qū)的語言的資源。已占有全球搜索市場的80%。Google在中國的搜索市場的市場份額也已突破30%,并且增長速度迅猛,在中文搜索市場有舉足輕重的作用。第七十七頁,共一百二十九頁,編輯于2023年,星期五2.2.1Google檢索步驟

確定檢索需求構(gòu)建檢索策略點擊檢索評估檢索結(jié)果點擊瀏覽保存所需信息

第七十八頁,共一百二十九頁,編輯于2023年,星期五2.2.2Google檢索技巧

使用正確的方法

合理利用“與/或”的搜索:OR搜索中包括或不包括的詞:+、-

搜索近似詞:~搜索特定詞組:“”

列出相似頁面:類似網(wǎng)頁

利用高級檢索使用“更多”功能第七十九頁,共一百二十九頁,編輯于2023年,星期五Google高級檢索第八十頁,共一百二十九頁,編輯于2023年,星期五查找其他類型文件Google可以支持13種非HTML文件的搜索。除了PDF文檔,Google現(xiàn)在還可以搜索MicrosoftOffice(doc,ppt,xls,rtf)、ShockwaveFlash(swf)、PostScript(ps)和其它類型文檔。新的文檔類型只要與用戶的搜索相關(guān),就會自動顯示在搜索結(jié)果中。例如,如果您只想查找PDF或Flash文件,而不要一般網(wǎng)頁,只需搜索:關(guān)鍵詞filetype:pdf關(guān)鍵詞filetype:swf”第八十一頁,共一百二十九頁,編輯于2023年,星期五貨幣轉(zhuǎn)換

要使用我們的內(nèi)置貨幣轉(zhuǎn)換器,只需在Google搜索框中鍵入您需要完成的貨幣轉(zhuǎn)換,并單擊“回車”鍵或GoogleSearch按鈕即可。

【實例】

3.5USD=?GBP

10新加坡元等于多少印度盧比

8人民幣換成泰國的貨幣

30人民幣每公升=?美元每加侖

第八十二頁,共一百二十九頁,編輯于2023年,星期五第八十三頁,共一百二十九頁,編輯于2023年,星期五計算器

Google為用戶提供了一個內(nèi)置計算器。只需要在搜索字段中輸入算式,按一下回車鍵或者搜索就可以了。這個計算器可以用來做所有簡單的計算,一些復(fù)雜的科學(xué)計算,單位換算,以及提供各種物理常數(shù)。

【實例】

5+2*2

2^20

sqrt(-4)

一磅=?克

光速乘以二秒等于多少公里

第八十四頁,共一百二十九頁,編輯于2023年,星期五符號功能示例+加3+44-減13-5*乘7*8/除以12/3^的…次方8^2%模(除之后的余數(shù))8%7選組合運算X選Y表示在X個單位中選Y個有多少種選法18選4開…次方計算一個數(shù)的n次方根32開5次方sqrt平方根sqrt(9)sin,cos,etc.三角函數(shù)(括號中的數(shù)字單位為弧度)tan(45)ln以e為底的對數(shù)ln(17)log以10為底的對數(shù)log(1,000)

!階乘5!%百分之20%第八十五頁,共一百二十九頁,編輯于2023年,星期五按鏈接搜索

有一些詞后面加上冒號對Google具有特殊的含義。其中的一個詞是“l(fā)ink:”。查詢link:顯示所有指向該網(wǎng)址的網(wǎng)頁。例如,“l(fā)ink:”將找出所有指向Google主頁的網(wǎng)頁。不能將link:搜索與普通關(guān)鍵詞搜索結(jié)合使用。指定網(wǎng)域有一些詞后面加上冒號對Google有特殊的含義。其中的一個詞是“site:”。要在某個特定的域或站點中進行搜索,可以在Google搜索框中輸入“site:”。

第八十六頁,共一百二十九頁,編輯于2023年,星期五如何辨別網(wǎng)站的性質(zhì)

.edu教育學(xué)術(shù).gov官方政府單位.net網(wǎng)絡(luò)管理或服務(wù)機構(gòu).org財團法人或基金會等非官方的一般機構(gòu).int國際性組織.com代表商業(yè)企業(yè)團體與組織.中國科學(xué)研究機構(gòu)第八十七頁,共一百二十九頁,編輯于2023年,星期五天氣查詢用Google查詢中國城市地區(qū)的天氣和天氣預(yù)報,只需輸入您要查詢的城市地區(qū)名稱和一個關(guān)鍵詞(“天氣”、“氣象”、“tq”、“tianqi”、“tianqi”等,任選其一)就能在搜索結(jié)果頁面的最上方看到當(dāng)日及未來二至三天的天氣情況。當(dāng)鼠標(biāo)移動到天氣圖標(biāo)上時,還可以顯示對應(yīng)的天氣情況細(xì)節(jié)。第八十八頁,共一百二十九頁,編輯于2023年,星期五金融信息在搜索框中輸入股票和基金的名稱或代碼,可查詢最新的股票和基金信息。郵編區(qū)號用Google查詢郵政編碼或長途電話區(qū)號,您只需輸入關(guān)鍵詞(“郵編”,“yb”和“YB”任選其一;“區(qū)號”,“qh”和“QH”任選其一)和要查的城市地名或郵政編碼或電話區(qū)號即可。Google會為您提供相關(guān)的所有信息,包括所在地的省市名稱,郵政編碼及長途電話區(qū)號。第八十九頁,共一百二十九頁,編輯于2023年,星期五手機號碼用Google查詢手機電話號碼歸屬地,您只需直接輸入要查的號碼即可(不需要任何關(guān)鍵詞)。Google能自動識別以13開頭的11位數(shù)字為手機號碼而返回相關(guān)的網(wǎng)站鏈接,讓您即刻便知道答案。定義要查看字詞或詞組的定義,只需鍵入“define”,接著鍵入一個空格,然后鍵入您需要其定義的詞。如果Google在網(wǎng)絡(luò)上找到了該字詞或詞組的定義,則會檢索該信息并在搜索結(jié)果的頂部顯示它們。通過包含特殊操作符“define:”,并使該操作符與您需要其定義的字詞之間不留空格,還可獲得定義的列表。第九十頁,共一百二十九頁,編輯于2023年,星期五Google更多功能

得心“In”手:intitle/inurl/intext

人在旅“圖”:/

“學(xué)”海無涯:/schhp?hl=zh-CN“書”林漫步:/新聞“快訊”:/alerts?hl=zh-CN

熱門“榜”單:/rebang/home

關(guān)注“趨勢”:/trends?hl=zh-CN

第九十一頁,共一百二十九頁,編輯于2023年,星期五第九十二頁,共一百二十九頁,編輯于2023年,星期五第九十三頁,共一百二十九頁,編輯于2023年,星期五第九十四頁,共一百二十九頁,編輯于2023年,星期五第九十五頁,共一百二十九頁,編輯于2023年,星期五第九十六頁,共一百二十九頁,編輯于2023年,星期五第九十七頁,共一百二十九頁,編輯于2023年,星期五第九十八頁,共一百二十九頁,編輯于2023年,星期五第九十九頁,共一百二十九頁,編輯于2023年,星期五第一百頁,共一百二十九頁,編輯于2023年,星期五第一百零一頁,共一百二十九頁,編輯于2023年,星期五第一百零二頁,共一百二十九頁,編輯于2023年,星期五第一百零三頁,共一百二十九頁,編輯于2023年,星期五第一百零四頁,共一百二十九頁,編輯于2023年,星期五第一百零五頁,共一百二十九頁,編輯于2023年,星期五第一百零六頁,共一百二十九頁,編輯于2023年,星期五國外搜索引擎

AltaVistaAskJeevesExciteMetaCrawler……第一百零七頁,共一百二十九頁,編輯于2023年,星期五AltaVista(www.altavista.com)

DEC公司1995年12月推出第一百零八頁,共一百二十九頁,編輯于2023年,星期五AskJeeves(/)第一百零九頁,共一百二十九頁,編輯于2023年,星期五Excite(/

斯坦福大學(xué)1993年8月創(chuàng)建第一百一十頁,共一百二十九頁,編輯于2023年,星期五第一百一十一頁,共一百二十九頁,編輯于2023年,星期五MetaCrawler(http://www.MetaC/)第一百一十二頁,共一百二十九頁,編輯于2023年,星期五第一百一十三頁,共一百二十九頁,編輯于2023年,星期五常用的學(xué)術(shù)搜索引擎專注于科學(xué)搜索引擎與目錄,還包括一些科學(xué)雜志以及其他的工具等提供了一種通過引文鏈接檢索文獻的網(wǎng)絡(luò)學(xué)術(shù)信息搜索工具Google學(xué)術(shù)搜索提供可廣泛搜索學(xué)術(shù)文獻的簡便方法專為搜索高度相關(guān)的科學(xué)信息而設(shè)計的搜索引擎第一百一十四頁,共一百二十九頁,編輯于2023年,星期五第一百一十五頁,共一百二十九頁,編輯于2023年,星期五

Scirus由Elsevier開發(fā),是目前互聯(lián)網(wǎng)上最全面、綜合性最強的科技文獻門戶網(wǎng)站之一,Scirus引擎的信息源主要是兩部分:網(wǎng)頁和期刊。為科學(xué)家們在網(wǎng)絡(luò)上和專有數(shù)據(jù)庫中快速查找所需的信息打開了一道便捷之門,此外,還可以對網(wǎng)絡(luò)中所搜索到的結(jié)果

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論