文獻(xiàn)檢索技術(shù)課件_第1頁
文獻(xiàn)檢索技術(shù)課件_第2頁
文獻(xiàn)檢索技術(shù)課件_第3頁
文獻(xiàn)檢索技術(shù)課件_第4頁
文獻(xiàn)檢索技術(shù)課件_第5頁
已閱讀5頁,還剩33頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第3講 文獻(xiàn)檢索技術(shù)2005.7一、布爾邏輯檢索技術(shù)在檢索實(shí)際中,檢索提問涉及的概念往往不止一個(gè),而同一個(gè)概念又往往涉及多個(gè)同義詞或相關(guān)詞。為了正確地表達(dá)檢索提問,系統(tǒng)中采用布爾邏輯運(yùn)算符將不同的檢索詞組配起來,使一些具有簡(jiǎn)單概念的檢索單元通過組配成為一個(gè)具有復(fù)雜概念的檢索式,用以表達(dá)用戶的信息檢索要求。1 邏輯“與”含義:檢出的記錄必須同時(shí)含有所有的檢索詞。基本作用:一種用于交叉概念或限定關(guān)系的組配,可以縮小檢索范圍,有利于提高檢索的專指性。用and 或*表示例如:查找同時(shí)含有概念A(yù) 和概念B 的文獻(xiàn),可表 示為:“A and B”或“A*B”2 邏輯“或”含義:檢出的記錄中,至少含有兩個(gè)檢

2、索詞中的一個(gè)。基本作用:用于具有并列概念關(guān)系的組配。這種組配可以擴(kuò)大檢索范圍,提高查全率。可以避免了命中文獻(xiàn)的重復(fù)出現(xiàn)。用OR 或“+”表示例如:檢索含有檢索項(xiàng)A 或檢索項(xiàng)B 的文獻(xiàn),可表 示為:“A OR B”或“A+B”3 邏輯“非”含義:排除含有某些詞的記錄的,即檢出的記錄中只能含有NOT算符前的檢索詞,但不能同時(shí)含有其后的詞。基本作用:用于從某一檢索范圍中排除不需要的概念。這種組配可以縮小檢索范圍。用“NOT”或“-”表示,但在檢索時(shí)建議使用NOT,以避免與詞間的分隔符“-”混淆。例如:在含有概念A(yù) 的文獻(xiàn)集合中,排除同時(shí)含有 概念B 的文獻(xiàn),可表示為:“A NOT B”或 “A-B”

3、。5 注意事項(xiàng)1)有的檢索工具以符號(hào)形象地表達(dá)布爾檢索的功能,如“+”表示邏輯與,“-”表示邏輯非。有的檢索工具直接把布爾邏輯隱含在菜單中,例如,Lycos以“match all terms”表示邏輯與,以“match any term”表示邏輯或。絕大多數(shù)檢索工具的高級(jí)檢索完全用表格和文字來表達(dá)布爾關(guān)系,如,Excite以“必須包括(MUST contain)”表示邏輯與,用“一定不含”(MUST NOT contain)表示邏輯非。 有的檢索工具部分支持布爾關(guān)系,如Yahoo!尚不支持邏輯非。2)用布爾邏輯表達(dá)檢索要求,除要掌握檢索課題的相關(guān)因素外,還應(yīng)在布爾算符對(duì)檢索結(jié)果的影響方面引起注

4、意。布爾算符使用正確但卻不能達(dá)到應(yīng)有檢索效果的例子很多。OR邏輯 有些檢索詞表達(dá)的概念,存在整體與部分的關(guān)系。在檢索中,這類關(guān)系如果處理不好,就不能得到滿意的檢索效果。對(duì)此,一般原則是,如果檢索詞涉及到表達(dá)整體的概念,就要針對(duì)具體情況分別列出每一個(gè)表達(dá)部分概念的檢索詞,否則將出現(xiàn)漏檢。NOT邏輯 在檢索邏輯中使用NOT,能排除含有由NOT指定的檢索詞的文獻(xiàn),協(xié)助檢索出更準(zhǔn)確的文獻(xiàn)。但是,使用NOT必須慎重。因?yàn)椋?如果兩個(gè)關(guān)系緊密的檢索詞同在一個(gè)檢索邏輯中,對(duì)其中一個(gè)使用NOT邏輯會(huì)導(dǎo)致含另一個(gè)詞的文獻(xiàn)也被排除。示例:使用布爾邏輯運(yùn)算符表明查詢結(jié)果中必須同時(shí)包含intelligent robo

5、t和control表明查詢結(jié)果中至少包含兩個(gè)檢索詞中的任意一個(gè),intelligent robot或control表明檢索結(jié)果包含intelligent robot,但同時(shí)必須去掉和control相關(guān)的內(nèi)容Intelligent robot and control(intelligent robot*control)Intelligent robot or control(intelligent robot+control)Intelligent robot not control(intelligent robot-control)注:英文數(shù)據(jù)庫通常用字母,中文數(shù)據(jù)庫要用符號(hào)。二、位置檢索(

6、鄰近檢索)技術(shù)表明兩或多個(gè)檢索詞之間關(guān)系的符號(hào)。適用于兩個(gè)檢索詞以指定間隔距離或者指定的順序出現(xiàn)的場(chǎng)合??梢钥闯商厥夤δ艿腁ND算符。AND算符不限制兩個(gè)檢索詞的位置和出現(xiàn)順序。例如:communication AND satellite 命中的文獻(xiàn)可能有 communication satellite; satellite communication; communicaticn devices for satellites; communicaticn links without satellites; 位置算符可以改進(jìn)AND算符的這種不足,它是特殊功能的AND算符。按照兩個(gè)檢索詞出現(xiàn)的順

7、序和距離,可以有多種位置算符,而且對(duì)同一位置算符,檢索系統(tǒng)不同,規(guī)定的位置算符也不同。1)“(W)” 含義: “(W)”算符中的W含義為“With”。表示其兩側(cè)的檢索詞必須緊密相連,除開空格和標(biāo)點(diǎn)號(hào)外,不得插入其他詞或字母,兩詞的詞序不可顛倒。其簡(jiǎn)略形式為()。例如: communication (W) satellite communication () satellite 兩者相同 3)“(N)” 含義:“(N)”中的N含義為“Near”。表示其兩側(cè)的檢索詞必須緊密相連,除開空格和標(biāo)點(diǎn)符號(hào)外,不得插入其他詞或字母,兩詞的詞序可以顛倒。4)“(nN)” 含義:“(nN)”是“(N)”算符的變

8、形,不同之處為允許兩詞間插入最多為n個(gè)其他詞,包括實(shí)詞和系統(tǒng)禁用詞。例如: COTTON (2N) PROCESSING 則命中: Cotton processing; processing of cotton; processing of Egyptian cotton6)“(s)”同句檢索含義: “(s)”算符中的S含義為“Sentence”。這個(gè)算符表示其兩側(cè)的檢索詞必須在同一自然句子(子字段)中出現(xiàn),兩詞的詞序可以顛倒。放寬了詞位置檢索的要求,使表達(dá)同一概念但不滿足詞位置條件的文獻(xiàn)也可以被檢索出來,從而提高了查全率。 以上介紹的各種位置算符,按照限制程度的大小,(W)、(nW)最強(qiáng),(

9、N)、(nN)次之,(S)再次之。 當(dāng)(nN)的n 10時(shí),其作用已經(jīng)相當(dāng)于(S)。三、 截詞檢索技術(shù)含義:用截?cái)嗟脑~(詞的片段)的一個(gè)局部進(jìn)行的檢索,并認(rèn)為凡滿足這個(gè)詞局部中的所有字符(串)的文獻(xiàn),都為命中的文獻(xiàn)。檢索者將檢索詞在合適的地方截?cái)?,然后截出的片斷進(jìn)行檢索。 原因:由于西文的構(gòu)詞特性,在檢索中經(jīng)常會(huì)遇到名詞的單復(fù)數(shù)形式不一致;同一個(gè)意思的詞,英美拼法不一致;詞干加上不同性質(zhì)的前綴和后綴就可以派生出許多意義相近的詞等等。為了保證查全,就得在檢索式中加上這些具有各種變化形式的相關(guān)意義的檢索詞,這樣就會(huì)出現(xiàn)檢索式過于冗長(zhǎng),輸入檢索詞的時(shí)間太久,同時(shí)也占太多機(jī)時(shí)。截詞的方式 (1)按截?cái)?/p>

10、的字符數(shù)量來分:有限截?cái)嗪蜔o限截?cái)?有限截?cái)啵河芯唧w截去的字符數(shù)。 無限截?cái)啵翰恢该骶唧w截去的字符數(shù)。 (2)按截?cái)嗟奈恢脜^(qū)分:后截?cái)?、前截?cái)嘁约爸虚g截?cái)唷?(3)截?cái)喑J褂媒財(cái)喾?hào),各檢索系統(tǒng)所使用的截?cái)喾?hào)有所不同,常用的符號(hào)有 “?”,“”,“”以及“ *” 。以下舉例中用“?”來表示有限截?cái)啵谩?”表示無限截?cái)唷?注意:不同的數(shù)據(jù)庫所用的截詞符不一樣,使用應(yīng)先查 一下各數(shù)據(jù)庫的幫助加以確認(rèn)。(2)詞尾的無限截?cái)嘞嗤址罂赡茏兓魏巫址畷r(shí),則在其后使用一個(gè)“?”。這種方法可以查找出含有相同字符串的所有檢索詞。例如: comput? 可查出compute , computer ,c

11、omputing,computation,computerisation 等。(3)后截詞主要使用在如下4個(gè)方面詞的單復(fù)數(shù),如book?,potato?;年代,如198?(80年代),19?(20世紀(jì));作者,如用Lancaster*可檢出所有姓Lancaster的作者;同根詞,如用biolog*,可檢出biological、biologist、biology等同根詞。2 中間截詞(中間屏蔽)將提問字符串中間的字符用符號(hào)代替,主要用于英式美式不同拼法的英文單詞,或單復(fù)數(shù)不同的單詞。截詞符具有“OR”運(yùn)算符的功能,能夠擴(kuò)大檢索范圍,而且減少了輸入檢索詞的時(shí)間,節(jié)約了機(jī)時(shí)。例如:“ woman ”

12、 和“ women ” , 可用“ wom?n” 代替; “ defence ” 和“ defense ” 可用“defen?e”代替。 檢索時(shí)為防止漏檢可用中間屏蔽的檢索方法: m?n wom?n organi?ation defen?e 當(dāng)然使用中間屏蔽的方法也要注意是否可能誤檢其它詞匯的 文獻(xiàn)。3 前截?cái)啵ê蠓揭恢禄蜃蠼財(cái)啵┣敖財(cái)鄼z索常用于復(fù)合詞。例如:?computer表示minicomputer,microcomputers等。前截?cái)嗯c后截?cái)嘁部梢越M合起來使用。 例如: *chemi* 可以檢出下列詞匯 chemical、chemistry、chemist、 eletrochemic

13、al、electrochemistry、 physicochemistry、thermochemistry等。四、字段限定檢索含義:限定檢索詞在數(shù)據(jù)庫記錄中的一個(gè)或幾個(gè)字段范圍內(nèi)查找的一種檢索方法。(規(guī)定的字段范圍內(nèi)出現(xiàn)的信息方為命中信息的一種檢索方法。) 適用于在已有一定數(shù)量輸出記錄的基礎(chǔ)上,通過指定字段的方法,減少輸出篇數(shù),提高檢索結(jié)果的查準(zhǔn)率。由于字段限制采用前綴和后綴的形式,又可稱為前綴限制和后綴限制。限制檢索主要有兩種方式:字段檢索利用字段進(jìn)行限制,如題名、摘要、全文等 通常的字段限制范圍的大小順序是: 題名關(guān)鍵詞摘要全文二次檢索在前一次檢索的結(jié)果中進(jìn)行另一概念的檢索通常數(shù)據(jù)庫中可供

14、檢索的字段分為主題字段和非主題字段。主題字段:題名(Title)、敘詞(Descriptor)、標(biāo)識(shí)詞(Identifier)、文摘(Abstract)等;非主題字段:作者(Author)、文獻(xiàn)類型(Document Type)、語種(Language)、出版年份(Publication Year)等。注意:各個(gè)檢索系統(tǒng)所設(shè)立的字段是互不相同的,即使使用同一字段,也可能采用不同的字段代碼,在進(jìn)行字段檢索時(shí),應(yīng)事先參閱系統(tǒng)及有關(guān)數(shù)據(jù)庫的說明。實(shí)例: 字段限定在DIALOG聯(lián)機(jī)檢索系統(tǒng)中應(yīng)用1)基本字段限制 含義:基本字段主要是指題目、敘詞、識(shí)別詞和文摘四個(gè)字段。基本字段限制的用法是在需要指定字段

15、的檢索詞后加上后綴運(yùn)算符“/”和段碼。例如: OPTICAL/TI AND FIBER/TI 指在題目字段中含這兩個(gè)詞的記錄。 字段段碼可以多個(gè)連用,中間加“,”例如: FIB?/TI,DE 指在題目和敘詞中查找“fib”為詞干的所有記錄。2)輔助字段限制 除基本字段以外的可檢索字段都可成為輔助字段。輔助字段運(yùn)算符的用法是在需要指定字段的檢索詞(有時(shí)檢索詞須放在雙引號(hào)內(nèi))之前加上段碼和前綴運(yùn)算符“=”。例如: AU=“Robert,S” 在作者字段中含人名為Robert,S的記錄。 CS= 作者單位字段; LA=語言字段,例如LA=ENGLISH 英語字段 JN= 刊物名稱字段; PY= 年份字段 例如PY=1999字段限定符in 對(duì)某一指定數(shù)據(jù)項(xiàng)進(jìn)行檢索 如:computer in TI= 用于限定性字段的檢索 如:LA=ENGLISH通配符 * 代替任意一個(gè)或多個(gè)字符 如: comput* in AB范圍運(yùn)算=, , = 如:PY=1997; PY1996; PY=1994五、擴(kuò)檢與縮檢1)擴(kuò)檢含義:指初始設(shè)定的檢索范圍太小,命中文獻(xiàn)不多,需擴(kuò)大檢索范圍的方法。擴(kuò)檢方法: 概念的擴(kuò)大 范圍的擴(kuò)大 增加同義詞 年代的擴(kuò)大 擴(kuò)大檢索范圍,提高查全率的技術(shù)方法:(1)考慮同義詞或近義詞(使用布爾邏輯符or連接)(2)選擇較大檢索范圍的字段如摘要(3)使用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論