第二章 計算機檢索基礎(chǔ)知識_第1頁
第二章 計算機檢索基礎(chǔ)知識_第2頁
第二章 計算機檢索基礎(chǔ)知識_第3頁
第二章 計算機檢索基礎(chǔ)知識_第4頁
第二章 計算機檢索基礎(chǔ)知識_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第二章第二章 計算機檢索基礎(chǔ)知識計算機檢索基礎(chǔ)知識2.1 電子信息資源概述電子信息資源概述n一、電子信息資源一、電子信息資源 電子信息資源電子信息資源是以數(shù)字化的形式,把文字、圖形、是以數(shù)字化的形式,把文字、圖形、聲音、動畫等多種形式的信息存放在光、電、磁等聲音、動畫等多種形式的信息存放在光、電、磁等非非印刷型介質(zhì)上印刷型介質(zhì)上,以電信號、光信號的形式傳輸,并通,以電信號、光信號的形式傳輸,并通過網(wǎng)絡通信、計算機或終端等方式再現(xiàn)出來的一種信過網(wǎng)絡通信、計算機或終端等方式再現(xiàn)出來的一種信息資源。息資源。 簡單地說,電子信息資源就是簡單地說,電子信息資源就是電子化了的信息資源電子化了的信息資源,其

2、實質(zhì)是機讀型信息資源。其實質(zhì)是機讀型信息資源。n二、數(shù)字資源的發(fā)展二、數(shù)字資源的發(fā)展數(shù)量急劇增長:數(shù)量急劇增長:大多數(shù)印刷型學術(shù)期刊已經(jīng)數(shù)字化且回溯年限越來越長;同時出現(xiàn)了大量已沒有印刷本讀物的在線出版的刊物;電子圖書數(shù)字化版本也越來越多。類型豐富:類型豐富:包括電子期刊、報紙、圖書及多媒體學習資源等n三、電子信息資源的特點三、電子信息資源的特點 1.信息組織形式發(fā)生變化信息組織形式發(fā)生變化 文本、線性 超文本、超媒體的網(wǎng)狀結(jié)構(gòu) 2.數(shù)字化數(shù)字化 3.內(nèi)容豐富多樣內(nèi)容豐富多樣 既有文字、圖表等靜態(tài)信息,也有集圖、文、聲、既有文字、圖表等靜態(tài)信息,也有集圖、文、聲、像于一體的動態(tài)多媒體信息像于一

3、體的動態(tài)多媒體信息 4.數(shù)據(jù)結(jié)構(gòu)具有通用性、開放性、動態(tài)性數(shù)據(jù)結(jié)構(gòu)具有通用性、開放性、動態(tài)性 5.信息資源體積小,數(shù)量巨大信息資源體積小,數(shù)量巨大 一座擁有一座擁有百萬冊百萬冊圖書的圖書館,經(jīng)過數(shù)字化處理后,只需圖書的圖書館,經(jīng)過數(shù)字化處理后,只需3400張張光盤就可以全部存儲下來。光盤就可以全部存儲下來。 6.傳播方式的無限性傳播方式的無限性 電子信息資源不受時間、空間的限制,實現(xiàn)跨時空、跨行業(yè)電子信息資源不受時間、空間的限制,實現(xiàn)跨時空、跨行業(yè)的傳播。的傳播。 7.交互性交互性 電子信息資源不是傳統(tǒng)信息資源的復制,而是對傳統(tǒng)信息電子信息資源不是傳統(tǒng)信息資源的復制,而是對傳統(tǒng)信息資源和信息交

4、流渠道的補充。資源和信息交流渠道的補充。 四、數(shù)字圖書館的興起四、數(shù)字圖書館的興起n數(shù)字圖書館是指以數(shù)字圖書館是指以數(shù)字資源數(shù)字資源為主體館藏的圖書為主體館藏的圖書館。現(xiàn)有的館?,F(xiàn)有的實體圖書館實體圖書館在逐漸地朝在逐漸地朝數(shù)字化方向數(shù)字化方向發(fā)展發(fā)展。n特點:特點:多媒體存取、遠程網(wǎng)絡傳輸、智能化檢多媒體存取、遠程網(wǎng)絡傳輸、智能化檢索、跨庫無縫鏈接、超時空信息服務索、跨庫無縫鏈接、超時空信息服務。n目前是一個實體館藏與虛擬館藏共存現(xiàn)狀目前是一個實體館藏與虛擬館藏共存現(xiàn)狀。讀。讀者不僅需要了解圖書館的實體館藏,也要了解者不僅需要了解圖書館的實體館藏,也要了解和學會使用虛擬館藏。和學會使用虛擬館

5、藏。n虛擬館藏:虛擬館藏:圖書館訂購的或從網(wǎng)上收集和組織圖書館訂購的或從網(wǎng)上收集和組織的,通過網(wǎng)絡遠程或局域網(wǎng)方式訪問的數(shù)字資的,通過網(wǎng)絡遠程或局域網(wǎng)方式訪問的數(shù)字資源。源。 2.2 數(shù)據(jù)庫數(shù)據(jù)庫n一、一、 定義定義 數(shù)據(jù)庫是可以共享的某些具有共同存取方數(shù)據(jù)庫是可以共享的某些具有共同存取方式的相關(guān)數(shù)據(jù),以一定的組織方式的集合。式的相關(guān)數(shù)據(jù),以一定的組織方式的集合。 數(shù)據(jù)庫本質(zhì)的三個要素:數(shù)據(jù)庫本質(zhì)的三個要素:相關(guān)數(shù)據(jù)相關(guān)數(shù)據(jù)、共同共同存取方式存取方式和和一定的組織方式、共享一定的組織方式、共享。 通俗地說,數(shù)據(jù)庫是以某一特定方式組織通俗地說,數(shù)據(jù)庫是以某一特定方式組織和存放的數(shù)據(jù)的倉庫。和存放

6、的數(shù)據(jù)的倉庫。 數(shù)據(jù)庫與其他數(shù)據(jù)集合數(shù)據(jù)庫與其他數(shù)據(jù)集合的的主主要區(qū)別要區(qū)別在于數(shù)據(jù)庫中的各項在于數(shù)據(jù)庫中的各項數(shù)據(jù)可以通過同一種方式進數(shù)據(jù)可以通過同一種方式進行儲存與查找,因此同一個行儲存與查找,因此同一個數(shù)據(jù)庫中的記錄格式都是一數(shù)據(jù)庫中的記錄格式都是一樣的。樣的。二、數(shù)據(jù)庫類型二、數(shù)據(jù)庫類型 國際上通常根據(jù)數(shù)據(jù)庫信息內(nèi)容將國際上通常根據(jù)數(shù)據(jù)庫信息內(nèi)容將數(shù)據(jù)庫劃分成三大類,即數(shù)據(jù)庫劃分成三大類,即參考數(shù)據(jù)庫參考數(shù)據(jù)庫(Reference Database)、源數(shù)據(jù)庫源數(shù)據(jù)庫(Source Database)和和混合數(shù)據(jù)庫混合數(shù)據(jù)庫(Mixed Database)。 n按文獻內(nèi)容劃分:按文獻內(nèi)

7、容劃分: 索引數(shù)據(jù)庫索引數(shù)據(jù)庫 書目數(shù)據(jù)庫書目數(shù)據(jù)庫 文摘數(shù)據(jù)庫文摘數(shù)據(jù)庫 數(shù)數(shù) 參考數(shù)據(jù)庫參考數(shù)據(jù)庫 圖書目錄數(shù)據(jù)庫圖書目錄數(shù)據(jù)庫 (二次文獻二次文獻 ) 名錄數(shù)據(jù)庫名錄數(shù)據(jù)庫 指南數(shù)據(jù)庫指南數(shù)據(jù)庫 產(chǎn)品數(shù)據(jù)庫產(chǎn)品數(shù)據(jù)庫 數(shù)值數(shù)據(jù)庫數(shù)值數(shù)據(jù)庫 據(jù)據(jù) 圖像數(shù)據(jù)庫圖像數(shù)據(jù)庫 源數(shù)據(jù)庫源數(shù)據(jù)庫 術(shù)語數(shù)據(jù)庫術(shù)語數(shù)據(jù)庫 (一次文獻)(一次文獻) 文本文本- 數(shù)值數(shù)據(jù)庫數(shù)值數(shù)據(jù)庫 庫庫 全文數(shù)據(jù)庫全文數(shù)據(jù)庫 混合數(shù)據(jù)庫混合數(shù)據(jù)庫 n按文獻類型劃分按文獻類型劃分: 數(shù)數(shù) 文獻類數(shù)據(jù)庫文獻類數(shù)據(jù)庫 書目數(shù)據(jù)庫(二次文獻)書目數(shù)據(jù)庫(二次文獻) 全文數(shù)據(jù)庫(一次文獻)全文數(shù)據(jù)庫(一次文獻) 據(jù)據(jù) 數(shù)值數(shù)據(jù)庫數(shù)

8、值數(shù)據(jù)庫 庫庫 非文獻類數(shù)據(jù)庫非文獻類數(shù)據(jù)庫 圖像數(shù)據(jù)庫圖像數(shù)據(jù)庫 術(shù)語數(shù)據(jù)庫術(shù)語數(shù)據(jù)庫 n按載體形式分為按載體形式分為 : 單機版光盤數(shù)據(jù)庫單機版光盤數(shù)據(jù)庫 數(shù)數(shù) 光盤數(shù)據(jù)庫光盤數(shù)據(jù)庫 絡版光盤數(shù)據(jù)庫絡版光盤數(shù)據(jù)庫 據(jù)據(jù) 聯(lián)機數(shù)據(jù)庫聯(lián)機數(shù)據(jù)庫 庫庫 網(wǎng)絡數(shù)據(jù)庫網(wǎng)絡數(shù)據(jù)庫 鏡像站數(shù)據(jù)庫鏡像站數(shù)據(jù)庫 三、數(shù)據(jù)庫的文檔結(jié)構(gòu)三、數(shù)據(jù)庫的文檔結(jié)構(gòu)n1. 順排文檔(順排文檔(linear file):):是按記錄的編號是按記錄的編號順序排列的文檔。為主文檔。順排文檔結(jié)構(gòu)簡順序排列的文檔。為主文檔。順排文檔結(jié)構(gòu)簡單,管理方便,節(jié)省儲存空間,但檢索速度較單,管理方便,節(jié)省儲存空間,但檢索速度較慢。慢。n2.

9、 倒排文檔(倒排文檔(inverted file):是將數(shù):是將數(shù)據(jù)庫中具有某些特征的字段值和具有該據(jù)庫中具有某些特征的字段值和具有該字段值的記錄號按順序排列構(gòu)成的文檔,字段值的記錄號按順序排列構(gòu)成的文檔,也稱為索引文檔。也稱為索引文檔。n 檢索時,計算機首先根據(jù)檢索時,計算機首先根據(jù)用用戶提問戶提問在在倒排擋文件倒排擋文件中檢索,通中檢索,通過檢索得到有關(guān)提問在過檢索得到有關(guān)提問在順序文檔順序文檔中的地址(文獻的記錄號),中的地址(文獻的記錄號),再再通過通過順排文檔查到記錄順排文檔查到記錄。所以順。所以順排文檔在計算機檢索中,通常是排文檔在計算機檢索中,通常是作為資料檔,與倒排文檔并用,作

10、為資料檔,與倒排文檔并用,兩者共同組成一個完整的文檔。兩者共同組成一個完整的文檔。四、字段與記錄、文檔、數(shù)據(jù)庫四、字段與記錄、文檔、數(shù)據(jù)庫1 . 字段(字段(Fields)與)與 記錄(記錄(Record):): 數(shù)據(jù)庫的主要部分由一系列的記錄所組成,數(shù)據(jù)庫的主要部分由一系列的記錄所組成,每個記錄對應于一篇原始一次文獻。每條記錄由每個記錄對應于一篇原始一次文獻。每條記錄由不同的數(shù)據(jù)項目組成。我們將記錄中的數(shù)據(jù)項目不同的數(shù)據(jù)項目組成。我們將記錄中的數(shù)據(jù)項目稱為字段。稱為字段。n字段字段(域)(域)(Field),),是組成文獻信息是組成文獻信息記錄的記錄的基本數(shù)據(jù)單位基本數(shù)據(jù)單位。文獻信息記錄賦

11、。文獻信息記錄賦予每個字段一個標識符號。予每個字段一個標識符號。 記錄中用來描述文獻信息記錄中用來描述文獻信息內(nèi)容特征內(nèi)容特征的的字段叫字段叫“基本索引字段基本索引字段”,基本索引字,基本索引字段用段用“/”加上字段標識符來表示。基本加上字段標識符來表示?;舅饕侄沃饕ǎ核饕侄沃饕ǎ?題名字段題名字段 (Title Field) 用用“/TI”表示。該表示。該字段記錄了原始文獻的題名。一般直接引用字段記錄了原始文獻的題名。一般直接引用原題名,也有的使用編輯修改后的題名。原題名,也有的使用編輯修改后的題名。 文摘字段文摘字段 (Abstract Field) 用用“/AB”表示。表示

12、。這一字段簡要描述了原始文獻的主題內(nèi)容,這一字段簡要描述了原始文獻的主題內(nèi)容,通常由標引人員提供,也有直接采用原始文通常由標引人員提供,也有直接采用原始文獻的摘要的。獻的摘要的。 敘詞字段敘詞字段 (Descriptor Field) 用用“/DE”或或“/DF”表示,有的檢索系統(tǒng)稱為受控詞字表示,有的檢索系統(tǒng)稱為受控詞字段段(Controlled Term Field)。 自由標引詞字段自由標引詞字段 (Identifier Field) 用用“/ID”或或“/IF”表示。表示。 n3)輔助索引字段輔助索引字段(非主題性字段)(非主題性字段) 用來描述文獻外表特征的字段,稱之為輔助索引用來描

13、述文獻外表特征的字段,稱之為輔助索引字段。字段。nAN文摘號文摘號(Abstract No.) nAU著者著者(Author) nCC分類代碼分類代碼(Class Code) nCS機構(gòu)來源(作者單位)機構(gòu)來源(作者單位)(Corporate Source) nDT文獻類型文獻類型(Document Type) nLA文種文種(Language) nPY出版年出版年(Publication Year) 2 文檔(文檔(File):):是記錄及其索引等的集是記錄及其索引等的集合,是傳統(tǒng)的檢索工具在計算機檢索中的合,是傳統(tǒng)的檢索工具在計算機檢索中的同義物。如同義物。如CA及其有關(guān)索引就相當于機及其

14、有關(guān)索引就相當于機檢系統(tǒng)(如檢系統(tǒng)(如Dialog)中的一種文檔(如)中的一種文檔(如399文檔,即文檔,即CA Search) 3. 數(shù)據(jù)庫(數(shù)據(jù)庫(Database):):是文檔的集合。是文檔的集合。最小的數(shù)據(jù)庫可最小的數(shù)據(jù)庫可 由一個文檔組成,所以有時由一個文檔組成,所以有時文檔和數(shù)據(jù)庫同義。文檔和數(shù)據(jù)庫同義。五、數(shù)據(jù)庫的選擇原則五、數(shù)據(jù)庫的選擇原則 1.選擇數(shù)據(jù)庫的原則選擇數(shù)據(jù)庫的原則 選擇數(shù)據(jù)庫應考慮到選擇數(shù)據(jù)庫應考慮到內(nèi)容內(nèi)容、范圍范圍、時時效效和和費用費用等四方面因素,國際上稱之為等四方面因素,國際上稱之為“4C”則則。 1)內(nèi)容()內(nèi)容(Content) 2)范圍(范圍(Cov

15、erage) 3)時效(時效(Currency) 4)費用(費用(Cost)2.3 計算機檢索技術(shù)計算機檢索技術(shù)n計算機檢索技術(shù)計算機檢索技術(shù)是指信息檢索過程的是指信息檢索過程的原原理、方法、策略、設備條件和檢索手段理、方法、策略、設備條件和檢索手段等因素的總稱。等因素的總稱。計算機檢索技術(shù)計算機檢索技術(shù) 檢索表達式檢索表達式,是計算機檢索用來表,是計算機檢索用來表達用戶檢索提問的一種邏輯運算式。它達用戶檢索提問的一種邏輯運算式。它由檢索詞和各種布爾邏輯算符、位置算由檢索詞和各種布爾邏輯算符、位置算符、截詞符、限制符等系統(tǒng)允許使用的符、截詞符、限制符等系統(tǒng)允許使用的各種符號組合而成。各種符號組

16、合而成。1.布爾邏輯檢索布爾邏輯檢索n 利用布爾(利用布爾(Boolean)邏輯算符,也稱邏輯算符,也稱布爾算符來表示數(shù)個檢索項之間的邏輯布爾算符來表示數(shù)個檢索項之間的邏輯關(guān)系,我們將之稱為關(guān)系,我們將之稱為“組配組配”,是計算,是計算機信息檢索中最常用的一種方法。布爾機信息檢索中最常用的一種方法。布爾邏輯算符有三種,它們分別是邏輯算符有三種,它們分別是邏輯或、邏輯或、邏輯與、邏輯非。邏輯與、邏輯非。 1)邏輯或)邏輯或 n 用用“OR”或或“+”表示。用于連接表示。用于連接并列關(guān)系并列關(guān)系的檢索詞,以的檢索詞,以擴大檢索范圍擴大檢索范圍,防止漏檢,提高,防止漏檢,提高查全率查全率。n 若檢索

17、項若檢索項 A 和和 B 用用“邏輯或邏輯或”進行組配時,進行組配時,提問式則可寫成:提問式則可寫成:A OR B A OR B 或者或者 A+BA+B n 其檢索結(jié)果為:記錄中凡含有檢索項其檢索結(jié)果為:記錄中凡含有檢索項 A 或者或者 B,也就是說,單獨含有也就是說,單獨含有 A 或者單獨含有或者單獨含有B,或者同時含有或者同時含有 A、B 兩者,均為命中結(jié)果。兩者,均為命中結(jié)果。 2)邏輯與)邏輯與 n 用用“AND”或或“*”表示。用于連接表示。用于連接概念交叉和限定關(guān)系概念交叉和限定關(guān)系的檢索詞,以的檢索詞,以縮小縮小檢索范圍檢索范圍,有利于提高,有利于提高查準率查準率。n 若檢索項若

18、檢索項 A 和和 B 用用“邏輯與邏輯與”進行進行組配時,提問式則可寫成:組配時,提問式則可寫成: A AND B 或者或者 A*B n 其意義是在檢索時,記錄中必須同時其意義是在檢索時,記錄中必須同時含有檢索項含有檢索項 A 和和 B 者,方為命中記錄。者,方為命中記錄。 3)邏輯非)邏輯非 n 用用“NOT”或或“-”表示。用于連接表示。用于連接排除關(guān)系排除關(guān)系的檢索詞,即排除不需要的和的檢索詞,即排除不需要的和影響檢索結(jié)果的概念,以提高影響檢索結(jié)果的概念,以提高查準率查準率。 n 若檢索項若檢索項 A 和和 B 用用“邏輯非邏輯非”進行進行組配時,提問式也可寫成:組配時,提問式也可寫成:

19、 A NOT B 或者或者 A-Bn 其意義是在檢索時,記錄中凡含有檢其意義是在檢索時,記錄中凡含有檢索項索項 A 而不含檢索項而不含檢索項 B 者,才為命中者,才為命中記錄。記錄。 n如果一個檢索式中含有多個邏輯算符,如果一個檢索式中含有多個邏輯算符,則它們將按照最先執(zhí)行則它們將按照最先執(zhí)行“NOT”,然后執(zhí),然后執(zhí)行行“AND”,最后執(zhí)行,最后執(zhí)行“OR”的順序進行。的順序進行。n 若要改變其順序可用加括號的辦法,若要改變其順序可用加括號的辦法, 如如(A+B)*C 就先執(zhí)行就先執(zhí)行(A+B),其,其結(jié)果再結(jié)果再與與 C 進行邏輯進行邏輯“與與”運算運算。 2、詞位限制技術(shù)詞位限制技術(shù) (

20、位置檢索)(位置檢索) 1) (W)與與(nW)算符算符 n W with 的縮寫,的縮寫,(W)(若若 W=1 時,時,則可簡寫為則可簡寫為“()()”) 表示其兩側(cè)的檢索詞表示其兩側(cè)的檢索詞必須按前后順序排列,不可顛倒。必須按前后順序排列,不可顛倒。 n (nW)中的中的 n 表示兩檢索詞中間允許插入表示兩檢索詞中間允許插入的單詞數(shù)目少于或等于的單詞數(shù)目少于或等于 n 個。個。 n 例如:檢索式例如:檢索式“building(1W)construction”在命中的記在命中的記錄中除以上形式外,還可能會有錄中除以上形式外,還可能會有“building and construction”,

21、“building under construction”等形式。等形式。 2) (N)與與(nN)算符算符 n N Near 的縮寫,的縮寫,(N)表示其兩側(cè)的檢表示其兩側(cè)的檢索詞位置可以倒置,但在兩詞之間不能插入其索詞位置可以倒置,但在兩詞之間不能插入其他字符;而他字符;而(nN)中的中的 n 表示允許插入單詞的數(shù)表示允許插入單詞的數(shù)目量少于或等于目量少于或等于 n 個。個。 n (nN)算符的作用亦是用來替代檢索式中出算符的作用亦是用來替代檢索式中出現(xiàn)的禁用詞,不過兩檢索詞的詞序可以顛倒?,F(xiàn)的禁用詞,不過兩檢索詞的詞序可以顛倒。 n 例如:例如:information(1N)retrie

22、val 檢檢 索索 命命 中中 的的 文文 獻獻 記記 錄錄 中中 會會 有有 “ information retrieval ” 或或 “ retrieval of information”等形式。等形式。 3)(L)算符算符 n L Link 的縮寫,的縮寫,(L)表示其兩側(cè)的表示其兩側(cè)的檢索詞之間有主從關(guān)系,前者為主,后檢索詞之間有主從關(guān)系,前者為主,后者為副。者為副。 n 例如:例如:air pollution(L)control 命中記錄的規(guī)范詞字段中會有命中記錄的規(guī)范詞字段中會有 “AIR POLLUTION - Control” 的形式。式中的形式。式中的的AIR POLLUTI

23、ON為主標題詞,而為主標題詞,而 Control 則是副標題詞。則是副標題詞。 4 4) ( (S)S)算符算符 n S S Subfield Subfield 的縮寫,的縮寫,( (S)S)表示其兩側(cè)表示其兩側(cè)的檢索詞必須出現(xiàn)在同一子字段中,通常是指的檢索詞必須出現(xiàn)在同一子字段中,通常是指位于同一個句子或一個短語中,且詞序不受限位于同一個句子或一個短語中,且詞序不受限制。制。 n5 5) ( (F)F)算符算符 F F Field Field 的縮寫,的縮寫,( (F)F)表示其兩側(cè)的檢表示其兩側(cè)的檢索詞必須出現(xiàn)在同一字段中,字段不限,詞序索詞必須出現(xiàn)在同一字段中,字段不限,詞序亦不限。中間

24、可插任意檢索詞。亦不限。中間可插任意檢索詞。 n優(yōu)先級依優(yōu)先級依W N S F W N S F 順序順序 3、截詞技術(shù)截詞技術(shù) (截詞檢索)截詞檢索)n 截詞符截詞符“?”是加在檢索詞的詞干或不完是加在檢索詞的詞干或不完整詞形上,使詞的意義完整以便進行檢索。整詞形上,使詞的意義完整以便進行檢索。 1 1)非限制截詞)非限制截詞 n 非限制截詞就是在檢索詞的詞干后面加一非限制截詞就是在檢索詞的詞干后面加一個截詞符個截詞符“?”“?”,向系統(tǒng)表示在此位置上可,向系統(tǒng)表示在此位置上可能出現(xiàn)的字母數(shù)量不受限制,即查找詞干相能出現(xiàn)的字母數(shù)量不受限制,即查找詞干相同的所有的詞。同的所有的詞。 n 例如:例

25、如:computer? computer? ,表示允許表示允許 computer computer 詞后可帶有其他任何字母且數(shù)量不限,相當詞后可帶有其他任何字母且數(shù)量不限,相當于查找于查找computer ,computers, computerize computer ,computers, computerize 等詞。等詞。 2 2)限制截詞)限制截詞n若干個限制截詞符若干個限制截詞符“?”放在詞干上,放在詞干上,像系統(tǒng)表示在此位置上允許出現(xiàn)相應數(shù)像系統(tǒng)表示在此位置上允許出現(xiàn)相應數(shù)目的字母。目的字母。 n例如:例如:plant? ,相當于查找相當于查找 plant, plants,pla

26、nted, planter 等詞。等詞。 n截詞符截詞符“*”代表任意個字符。代表任意個字符。 3)中間屏蔽中間屏蔽 n 在一個檢索詞中間插入一個或多個屏在一個檢索詞中間插入一個或多個屏蔽符,表示該詞的屏蔽符處必須有與屏蔽符,表示該詞的屏蔽符處必須有與屏蔽符個數(shù)相同的字符存在。蔽符個數(shù)相同的字符存在。 n 例如:例如: wom?nwom?n 相當于檢索相當于檢索 woman woman 或或women women 等詞。等詞。 4、檢域限制技術(shù)檢域限制技術(shù) 1)字段域限制字段域限制 n 字段檢索可分為兩類:后綴式和前綴式。字段檢索可分為兩類:后綴式和前綴式。n 后綴限定后綴限定(/)(/) :

27、指定在描述文獻內(nèi)容特征的字段指定在描述文獻內(nèi)容特征的字段(基本字段)中進行檢索時用后綴限定形式。例(基本字段)中進行檢索時用后綴限定形式。例如如: :carbon(w)dioxide/ti,abcarbon(w)dioxide/ti,ab n 意味著該檢索式在題名意味著該檢索式在題名( (titi) )和文摘和文摘( (abab) )中進行檢中進行檢索。索。 “ “titi”和和“abab”之間被默認是邏輯之間被默認是邏輯“或或”的的關(guān)系。關(guān)系。n 前綴限定(前綴限定(= =):指定在描述文獻外表特征的字指定在描述文獻外表特征的字段,(輔助字段,非主題性字段)中進行檢索時,段,(輔助字段,非主

28、題性字段)中進行檢索時,用前綴限定。用前綴限定。n例如:例如:au=Rankin,K.M.au=Rankin,K.M. la=Englishla=English 2)時間限制符時間限制符 (:)(:) n 如果需要查找一定范圍內(nèi)的文獻,則如果需要查找一定范圍內(nèi)的文獻,則可使用范圍符。范圍符可確定分類號、可使用范圍符。范圍符可確定分類號、年限、入藏號等的范圍。年限、入藏號等的范圍。 n 例如:例如:PY=1990:1999PY=1990:1999 2.4 計算機檢索原理與檢索步驟計算機檢索原理與檢索步驟n一、計算機檢索的過程一、計算機檢索的過程 用戶用戶利用計算機設備和通訊網(wǎng)絡,利用計算機設備和

29、通訊網(wǎng)絡,與與計算機信息檢索系統(tǒng)計算機信息檢索系統(tǒng)相連接,運用系相連接,運用系統(tǒng)特定的統(tǒng)特定的指令和檢索方法指令和檢索方法,組織,組織檢索策檢索策略略,從儲存了大量記錄的數(shù)據(jù)庫中,從儲存了大量記錄的數(shù)據(jù)庫中檢索檢索出出所需信息的過程。所需信息的過程。計算機檢索流程 二、二、計算機信息檢索的步驟計算機信息檢索的步驟 1、分析課題分析課題 n1 1)研究課題的主題。)研究課題的主題。 n2 2)課題所涉及的學科范圍。)課題所涉及的學科范圍。 n3 3)課題所需信息的內(nèi)容及其內(nèi)容特征。)課題所需信息的內(nèi)容及其內(nèi)容特征。 n4 4)課題所需信息的類型)課題所需信息的類型 。n5 5)課題對查新、查準和

30、查全的指標要)課題對查新、查準和查全的指標要求。求。 2、選擇檢索系統(tǒng)及數(shù)據(jù)庫選擇檢索系統(tǒng)及數(shù)據(jù)庫 n1)內(nèi)容和時間內(nèi)容和時間 n2)手段和技術(shù)手段和技術(shù) n3)價格和可獲取性價格和可獲取性 3 3、確定檢索點、確定檢索點 (選定檢索詞)(選定檢索詞)n 檢索點是檢索的入口。每個檢索入口,都檢索點是檢索的入口。每個檢索入口,都有相應的檢索路徑,稱作有相應的檢索路徑,稱作“檢索途徑檢索途徑”。有。有反映文獻信息內(nèi)容特征的檢索點和反映文獻反映文獻信息內(nèi)容特征的檢索點和反映文獻信息外部特征的檢索點。信息外部特征的檢索點。 4、構(gòu)造檢索式構(gòu)造檢索式 (制定檢索策略)(制定檢索策略)n 檢索需要制定一種可執(zhí)行的方案,即檢檢索需要制定一種可執(zhí)行的方案,即檢索式。檢索式是檢索策略的具體表述,它索式。檢索式是檢索策略的具體表述,它能將各檢索項(其中最多的是表達主題內(nèi)能將各檢索項(其中最多的是表達主題內(nèi)容的檢索詞)之間的邏輯關(guān)系、位置關(guān)系容的檢索詞)之間的邏輯關(guān)系、位置關(guān)系等用檢索系統(tǒng)規(guī)定的各種組配符(也稱算等用檢索系統(tǒng)規(guī)定的各種組配符(也稱算符)連接起來,成為機器可識別并執(zhí)行的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論