計(jì)算機(jī)檢索基本原理_第1頁(yè)
計(jì)算機(jī)檢索基本原理_第2頁(yè)
計(jì)算機(jī)檢索基本原理_第3頁(yè)
計(jì)算機(jī)檢索基本原理_第4頁(yè)
計(jì)算機(jī)檢索基本原理_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、網(wǎng)絡(luò)資源與信息檢索本章具體內(nèi)容安排: 2.1 計(jì)算機(jī)檢索基本原理概述2.2 計(jì)算機(jī)檢索基本原理 2.3 文獻(xiàn)信息數(shù)據(jù)庫(kù)的基本概念 2.4 計(jì)算機(jī)檢索策略的構(gòu)建與調(diào)整要求:初步掌握計(jì)算機(jī)檢索的基本原理、基本類(lèi)型及其檢索策略的構(gòu)建與調(diào)整。第二講 計(jì)算機(jī)檢索基本原理2.1 計(jì)算機(jī)檢索基本原理概述計(jì)算機(jī)檢索概念 通過(guò)計(jì)算機(jī)進(jìn)行的文獻(xiàn)信息檢索稱(chēng)為計(jì)算機(jī)檢索。 隨著計(jì)算機(jī)技術(shù)、遠(yuǎn)程通訊技術(shù)和信息存儲(chǔ)技術(shù)的飛速發(fā)展,信息檢索由手工檢索過(guò)渡到了計(jì)算機(jī)信息檢索。計(jì)算機(jī)檢索的成功應(yīng)用,為我們更為及時(shí)、準(zhǔn)確、全面地繼承、利用和發(fā)展人類(lèi)的科研成果提供了先進(jìn)的手段。2.1 計(jì)算機(jī)檢索基本原理概述計(jì)算

2、機(jī)檢索發(fā)展第一個(gè)階段:脫機(jī)檢索階段(50年代至60年代) 脫機(jī)檢索(Offline Retrieval):即批處理檢索 檢索要求 檢索系統(tǒng) 檢索結(jié)果 檢索人員檢索策略成批檢索用戶(hù) 缺點(diǎn):1. 地理上的障礙(遠(yuǎn)、不便于檢索結(jié)果的獲?。?. 時(shí)間上的遲滯(定期檢索,不能及時(shí)獲?。?. 封閉式的檢索(指檢索策略一經(jīng)輸入系統(tǒng)就不能更改,更不能依據(jù)機(jī)檢應(yīng)答來(lái)修改檢索式) 2.1 計(jì)算機(jī)檢索基本原理概述第二個(gè)階段:聯(lián)機(jī)檢索階段 (Online Retrieval)(60-80年代) 終端設(shè)備 通訊網(wǎng)絡(luò) 檢索系統(tǒng)用戶(hù)> 檢索策略>人機(jī)對(duì)話(huà)> 獲取信息 三個(gè)時(shí)期:60年代開(kāi)發(fā)試驗(yàn);70年代末

3、應(yīng)用階段;80年代以后進(jìn)入信息計(jì)算機(jī)衛(wèi)星通信三維一體的新階段,即以信息文獻(xiàn)不受地區(qū)、國(guó)家限制而真正實(shí)現(xiàn)全世界資源共享為目的的國(guó)際聯(lián)機(jī)信息檢索階段。 聯(lián)機(jī)檢索階段優(yōu)缺點(diǎn)優(yōu)點(diǎn):1.速度快效率高2.檢索范圍廣泛全面3.檢索圖徑多方便靈活4.檢索內(nèi)容新實(shí)時(shí)性強(qiáng)5.檢索輔助功能完善缺點(diǎn):1.檢索的費(fèi)用高2.檢索系統(tǒng)及其文檔如數(shù)據(jù)庫(kù)收錄、標(biāo)引、特點(diǎn)較難了解熟悉3.檢索技術(shù)和技巧不宜掌握 國(guó)際著名的聯(lián)機(jī)檢索系統(tǒng)著名的國(guó)際聯(lián)機(jī)檢索系統(tǒng)有美國(guó)的DIALOG系統(tǒng)、ORBIT系統(tǒng)、BRS系統(tǒng)以及MEDLARS系統(tǒng),還有歐洲的ESA/IRS系統(tǒng)、英國(guó)的BLAESE系統(tǒng)等。 這些系統(tǒng)很快發(fā)展成為國(guó)際性情報(bào)檢索系統(tǒng),數(shù)據(jù)

4、庫(kù)種類(lèi)及其檢索存儲(chǔ)記錄都在迅速增加,如:美國(guó)的Dialog系統(tǒng),1984年就有200多個(gè)數(shù)據(jù)庫(kù),其中包括美國(guó)的醫(yī)學(xué)索引、荷蘭醫(yī)學(xué)文摘、美國(guó)生物學(xué)文摘、美國(guó)化學(xué)文摘等。 如今此聯(lián)機(jī)檢索系統(tǒng)仍然是世界上最有影響的聯(lián)機(jī)檢索系統(tǒng)。 2.1 計(jì)算機(jī)檢索基本原理概述第三階段:光盤(pán)檢索階段 1983年,出現(xiàn)了一種新的存儲(chǔ)器,CD-ROM光盤(pán)。光盤(pán)檢索具有儲(chǔ)量極大而體積微小,要求設(shè)備簡(jiǎn)單,可隨地安裝,使用方便、易于操作,檢索費(fèi)用低(不需要昂貴的聯(lián)機(jī)檢索通訊費(fèi)用),因可隨時(shí)修改檢索策略而具有很高的查全率和查準(zhǔn)率等優(yōu)點(diǎn)。 Chemical Abstracts Index光盤(pán)(1987-1991):由美國(guó)化學(xué)文摘社

5、與美國(guó)劍橋光盤(pán)公司聯(lián)合研制,收錄1987-1991年化學(xué)文摘的全部?jī)?nèi)容。 2.1 計(jì)算機(jī)檢索基本原理概述Science Citation Index(SCI)光盤(pán)(科學(xué)引文索引):由美國(guó)費(fèi)城科學(xué)情報(bào)研究所編輯出版,收錄1961年以來(lái)有關(guān)生命科學(xué)、醫(yī)學(xué)、物理、化學(xué)、農(nóng)業(yè)、工程技術(shù)、行為科學(xué)等方面的文獻(xiàn)及引文。 CAJ(中國(guó)學(xué)術(shù)期刊):是由清華大學(xué)開(kāi)發(fā)研制,分題錄、文摘、全文三個(gè)層次的數(shù)據(jù)庫(kù),其中全文數(shù)據(jù)庫(kù)是國(guó)內(nèi)最常用的全文數(shù)據(jù)庫(kù)。2.1 計(jì)算機(jī)檢索基本原理概述第四階段:網(wǎng)絡(luò)化檢索階段 進(jìn)入90年代,隨著衛(wèi)星通訊、公共數(shù)據(jù)通訊、光纜通訊技術(shù)以及信息高速公路事業(yè)在全世界的迅猛發(fā)展,計(jì)算機(jī)情報(bào)檢索走向

6、了全球大聯(lián)網(wǎng)。 網(wǎng)上資源具有信息的時(shí)效性、內(nèi)容的廣泛性、訪問(wèn)的快速性、搜索的網(wǎng)絡(luò)性和資源的動(dòng)態(tài)性五大特點(diǎn),那么要及時(shí)、準(zhǔn)確、有效地獲取與自身需求相關(guān)的實(shí)用信息,對(duì)所有網(wǎng)絡(luò)用戶(hù)都非常具有挑戰(zhàn)性。 2.1 計(jì)算機(jī)檢索基本原理概述INTERNET就是這個(gè)時(shí)期的最杰出代表。它能夠跨越時(shí)空,進(jìn)行實(shí)時(shí)信息檢索、資源共享的國(guó)際性計(jì)算機(jī)網(wǎng)絡(luò)。 INTERNET飛速的發(fā)展,已成為人們進(jìn)行全球范圍的合作、信息交流與資源共享的不可替代的通訊交流方式。 隨著計(jì)算機(jī)技術(shù)的智能化、數(shù)據(jù)庫(kù)載體的高密度化和多媒體化、通訊技術(shù)的網(wǎng)絡(luò)化,計(jì)算機(jī)情報(bào)檢索將走向辦公室化、家庭化。 2.2 計(jì)算機(jī)檢索基本原理一般地說(shuō),計(jì)算機(jī)檢索包括信

7、息的存儲(chǔ)和檢索兩個(gè)部分,即對(duì)應(yīng)數(shù)據(jù)庫(kù)的建立和查找兩個(gè)部分。信息存儲(chǔ) 就是文獻(xiàn)標(biāo)引人員對(duì)文獻(xiàn)內(nèi)容進(jìn)行主題分析,即把文獻(xiàn)包含的信息內(nèi)容分析成若干能代表文獻(xiàn)主題的概念,并用詞表、分類(lèi)表等規(guī)范化標(biāo)識(shí)的情報(bào)檢索語(yǔ)言對(duì)文獻(xiàn)主題進(jìn)行標(biāo)引、按所選數(shù)據(jù)庫(kù)結(jié)構(gòu)的索引結(jié)構(gòu)輸入到計(jì)算機(jī)進(jìn)行存儲(chǔ),同時(shí)把入選文獻(xiàn)中的其他特征標(biāo)識(shí)(標(biāo)題、著者、文摘、原文出處等)也一起輸入計(jì)算機(jī),編制成一系列索引數(shù)據(jù)庫(kù),這便是信息的存儲(chǔ)。 .1.信息的存儲(chǔ)主要包括的內(nèi)容信息采集:對(duì)廣泛且分散的信息資源進(jìn)行有針對(duì)性的采集。信息著錄:對(duì)所收集的原始信息的外表特征如題名、著者、文獻(xiàn)出處和內(nèi)容特征如分類(lèi)號(hào)、主題詞、摘要進(jìn)行描述,形成一條條款目或記錄

8、過(guò)程。信息標(biāo)引:就是根據(jù)一定的規(guī)則和程序,對(duì)文獻(xiàn)內(nèi)容進(jìn)行分析,然后賦予每篇文獻(xiàn)以一定數(shù)量的內(nèi)容標(biāo)識(shí)如分類(lèi)號(hào)、主題詞、關(guān)鍵詞作為存貯和檢索的依據(jù)。它的作用是為信息存貯與檢索這兩環(huán)節(jié)之間提供某種連接物。信息的整序:就是將采集到的無(wú)序信息進(jìn)行有序化組織的過(guò)程。2.2 計(jì)算機(jī)檢索基本原理 信息檢索 信息檢索作為信息存儲(chǔ)的逆過(guò)程,是將描述特定用戶(hù)所需信息的提問(wèn)特征與信息存儲(chǔ)的檢索標(biāo)示進(jìn)行異同的比較,從中找出與用戶(hù)提問(wèn)特征一致或基本一致的信息. 1、檢索者對(duì)檢索課題進(jìn)行主題分析、明確檢索范圍,形成能代表情報(bào)需求的若干主題概念。 2、把這些主題概念轉(zhuǎn)換成計(jì)算機(jī)信息檢索語(yǔ)言,即用數(shù)據(jù)庫(kù)檢索工具書(shū)對(duì)各概念選詞和

9、進(jìn)行邏輯組配,編制成檢索提問(wèn)式。 3、用計(jì)算機(jī)檢索系統(tǒng)功能在文獻(xiàn)資料數(shù)據(jù)庫(kù)中將信息需求主題概念和數(shù)據(jù)庫(kù)內(nèi)文獻(xiàn)主題概念標(biāo)識(shí)進(jìn)行匹配,找到命中文獻(xiàn)。 用圖表示如下:計(jì)算機(jī)檢索原理的示意圖2.3 文獻(xiàn)信息數(shù)據(jù)庫(kù)的基本概念2. 3.1數(shù)據(jù)庫(kù)的定義和類(lèi)型 一、數(shù)據(jù)庫(kù)定義:根據(jù)ISO/DIS 5127號(hào)標(biāo)準(zhǔn)(文獻(xiàn)與情報(bào)工作術(shù)語(yǔ)),數(shù)據(jù)庫(kù)(database)的定義為:“至少由一種文檔組成,并能滿(mǎn)足某一特定目的或某一特定數(shù)據(jù)處理系統(tǒng)需要的一種數(shù)據(jù)集合?!蓖ㄋ椎卣f(shuō),數(shù)據(jù)庫(kù)就是在計(jì)算機(jī)存儲(chǔ)設(shè)備上按一定方式存儲(chǔ)的相互關(guān)聯(lián)的數(shù)據(jù)集合,數(shù)據(jù)庫(kù)是計(jì)算機(jī)技術(shù)與情報(bào)檢索技術(shù)相結(jié)合的產(chǎn)物,是現(xiàn)代重要的信息資源管理工具,是情報(bào)檢

10、索系統(tǒng)的核心部分之一。數(shù)據(jù)庫(kù)的質(zhì)量直接影響情報(bào)檢索系統(tǒng)的功能和效率。2.3 文獻(xiàn)信息數(shù)據(jù)庫(kù)的基本概念二、數(shù)據(jù)庫(kù)類(lèi)型 按照國(guó)際上通用的分類(lèi)方法,常劃分為以下類(lèi)型:1.參考數(shù)據(jù)庫(kù)(reference databases):指引用戶(hù)到另一信息源以獲得原文或其他細(xì)節(jié)的一類(lèi)數(shù)據(jù)庫(kù)。包括書(shū)目數(shù)據(jù)庫(kù)和指南數(shù)據(jù)庫(kù)兩種。 (1)書(shū)目數(shù)據(jù)庫(kù)(bibliographic databases) 指存儲(chǔ)某個(gè)領(lǐng)域的二次文獻(xiàn)(如文摘、題錄、目錄等書(shū)目數(shù)據(jù))的一類(lèi)數(shù)據(jù)庫(kù)。例如,美國(guó)化學(xué)文摘數(shù)據(jù)庫(kù)CA Search,中國(guó)機(jī)械工程文摘數(shù)據(jù)庫(kù),各國(guó)生產(chǎn)發(fā)行的機(jī)讀目錄(MARC)等,即屬于此類(lèi)型。(2)指南數(shù)據(jù)庫(kù)(reference

11、 databases) 指存儲(chǔ)關(guān)于某些機(jī)構(gòu)、人物、出版物、項(xiàng)目、程序、活動(dòng)等對(duì)象的簡(jiǎn)要描述,指引用戶(hù)獲取更詳細(xì)的信息的一類(lèi)數(shù)據(jù)庫(kù)。亦稱(chēng)指示性數(shù)據(jù)庫(kù)。例如,各種機(jī)構(gòu)名錄數(shù)據(jù)庫(kù)、人物傳記數(shù)據(jù)庫(kù)、產(chǎn)品數(shù)據(jù)庫(kù)、軟件數(shù)據(jù)庫(kù)、研究開(kāi)發(fā)項(xiàng)目數(shù)據(jù)庫(kù)、基金數(shù)據(jù)庫(kù)等,均屬此類(lèi)。2.3 文獻(xiàn)信息數(shù)據(jù)庫(kù)的基本概念2.源數(shù)據(jù)庫(kù)(source databases): 提供原始資料或具體數(shù)據(jù)的數(shù)據(jù)庫(kù)。它又可分為以下幾種類(lèi)型:(1)數(shù)值數(shù)據(jù)庫(kù)(numeric databases) 指專(zhuān)門(mén)提供以數(shù)值方式表示的數(shù)據(jù)(或包括其統(tǒng)計(jì)處理表示法)的一種源數(shù)據(jù)庫(kù),如各種統(tǒng)計(jì)數(shù)據(jù)庫(kù)、財(cái)務(wù)數(shù)據(jù)庫(kù)、科學(xué)技術(shù)數(shù)據(jù)庫(kù)等。(2)文本-數(shù)值數(shù)據(jù)庫(kù)(t

12、extual-numeric databases):同時(shí)提供文本信息和數(shù)值數(shù)據(jù)的一種源數(shù)據(jù)庫(kù),如某些公司信息庫(kù)、產(chǎn)品市場(chǎng)報(bào)告數(shù)據(jù)庫(kù)、讀物數(shù)據(jù)庫(kù)和物性數(shù)據(jù)庫(kù)等。(3)全文數(shù)據(jù)庫(kù)(full-text databases) 指存儲(chǔ)文獻(xiàn)全文或其中主要部分的一種源數(shù)據(jù)庫(kù),簡(jiǎn)稱(chēng)全文庫(kù),如法律法規(guī)全文庫(kù)、期刊全文庫(kù)等。2.3 文獻(xiàn)信息數(shù)據(jù)庫(kù)的基本概念(4)術(shù)語(yǔ)數(shù)據(jù)庫(kù)(terminological bank) 指專(zhuān)門(mén)存儲(chǔ)名詞術(shù)語(yǔ)信息一種源數(shù)據(jù)庫(kù),各種電子化辭典也包括在內(nèi)。(5)圖像數(shù)據(jù)庫(kù)(graphics databases) 指用來(lái)存儲(chǔ)各種圖像或圖形信息及有關(guān)文字說(shuō)明資料的一種源數(shù)據(jù)庫(kù),主要應(yīng)用于建筑、設(shè)計(jì)

13、、廣告、產(chǎn)品目錄、圖片或照片等資料類(lèi)型的計(jì)算機(jī)存儲(chǔ)與檢索。 除了上述幾種類(lèi)型的數(shù)據(jù)庫(kù)以個(gè),還有能同時(shí)存儲(chǔ)多種不同類(lèi)型數(shù)據(jù)的數(shù)據(jù)庫(kù)混合型數(shù)據(jù)庫(kù)(mixed databases)。2.3 文獻(xiàn)信息數(shù)據(jù)庫(kù)的基本概念 數(shù)據(jù)庫(kù)的構(gòu)成 從使用觀點(diǎn)來(lái)看,數(shù)據(jù)庫(kù)主要由文檔、記錄、字段三個(gè)層次構(gòu)成。1、文檔: 若干個(gè)邏輯記錄構(gòu)成的信息集合稱(chēng)為文檔(file)。用戶(hù)選擇所需的聯(lián)機(jī)系統(tǒng)數(shù)據(jù)庫(kù)時(shí),多數(shù)數(shù)據(jù)庫(kù)以單一的文檔編號(hào)出現(xiàn)。此時(shí)文檔(file)的概念和數(shù)據(jù)庫(kù)(database)相當(dāng)。但有些數(shù)據(jù)庫(kù)因規(guī)模龐大,被分成若干個(gè)文檔。例如,在DAILOG系統(tǒng)中,CA Search數(shù)據(jù)庫(kù)被分成308號(hào)(1967-1971),

14、309號(hào)(1977-1981),311號(hào)(1982-1986)和312號(hào)(1986-)等文檔。2.3 文獻(xiàn)信息數(shù)據(jù)庫(kù)的基本概念2記錄 記錄是由若干字段組成的文獻(xiàn)單元,是計(jì)算機(jī)檢索系統(tǒng)存儲(chǔ)文獻(xiàn)款目和標(biāo)引的信息載體。 在全文數(shù)據(jù)庫(kù)中,一個(gè)記錄相當(dāng)于一篇完整的文獻(xiàn);在書(shū)目數(shù)據(jù)庫(kù)中,一個(gè)記錄相當(dāng)于一條文摘或題錄。比較典型的COMPENDEX,INSPEC,美國(guó)專(zhuān)利數(shù)據(jù)庫(kù)的記錄。2.3 文獻(xiàn)信息數(shù)據(jù)庫(kù)的基本概念3字段:是文獻(xiàn)著錄的基本單元,它是對(duì)實(shí)體的具體屬性進(jìn)行描述的結(jié)果。在書(shū)目數(shù)據(jù)庫(kù)中,記錄中含有題名、著者、出版年、主題詞、文摘等字段。 文獻(xiàn)數(shù)據(jù)庫(kù)字段分為基本字段和輔助字段兩類(lèi)?;咀侄魏洼o助字段在

15、檢索策略的構(gòu)成方法上往往有些區(qū)別。 基本字段通常是默認(rèn)的主題途徑檢索范圍,如果需要查找專(zhuān)門(mén)的基本字段或者輔助字段,通常要以某種方法予以指定。常見(jiàn)的字段名稱(chēng)和代碼(也稱(chēng)段碼)如下表所示。文獻(xiàn)數(shù)據(jù)庫(kù)中常見(jiàn)的字段和段碼2.4 計(jì)算機(jī)檢索策略的構(gòu)建與調(diào)整檢索策略 是為實(shí)現(xiàn)檢索目標(biāo)而制定的全盤(pán)計(jì)劃和方案,是對(duì)整個(gè)檢索過(guò)程的謀劃和指導(dǎo)。 也可以說(shuō),所謂檢索策略,就是在分析課題內(nèi)容實(shí)質(zhì)的基礎(chǔ)上,確定檢索系統(tǒng)、檢索途徑和檢索詞,并科學(xué)安排各詞之間的位置關(guān)系、邏輯關(guān)系和查找步驟等。 計(jì)算機(jī)檢索策略的構(gòu)建一 信息檢索技術(shù)1、布爾邏輯 規(guī)定檢索詞之間的邏輯關(guān)系的算符,稱(chēng)為布爾邏輯算符。布爾邏輯算符包括邏輯“或(OR

16、)”、邏輯“與(AND)”和邏輯“非(NOT)”。(1)、邏輯“或”(OR)運(yùn)算符 也可用“+”代替,是用來(lái)組配具有同義或同族概念的詞,如同義詞、相關(guān)詞等。其含義是,檢出的記錄中,至少含有兩個(gè)檢索詞中的一個(gè)。OR算符的基本作用是擴(kuò)大檢索范圍,增加命中文獻(xiàn)量,防止漏檢,提高檢索結(jié)果的查全率,OR運(yùn)算符還有一個(gè)去重的功能。 計(jì)算機(jī)檢索策略的構(gòu)建例如,如果以提問(wèn)式“SS PIPE TUBE”檢索EI COMPENDEX (1998)文檔,所得結(jié)果為: S1 3954 PIPE (管子) S2 4206 TUBE(管) S3 7759 PIPE OR TUBE(2)邏輯"與"(AN

17、D)運(yùn)算符 也可用"*"代替,用來(lái)組配不同檢索概念。其含義是檢出的記錄必須同時(shí)含有所有的檢索詞。AND算符的基本作用是對(duì)檢索詞加以限定,逐步縮小檢索范圍,減少命中文獻(xiàn)量,提高檢索結(jié)果的查準(zhǔn)率。在實(shí)際檢索中,不同概念組面之間以及同一組面內(nèi)的不同含義的詞之間通常使用AND算符。 計(jì)算機(jī)檢索策略的構(gòu)建例如:以提問(wèn)式“SS COMMUNICATION(通訊) AND SATELLITE(衛(wèi)星)"檢索EI COMPENDEX(1998)文檔,所得結(jié)果為: S1 25331 COMMUNICATION S2 4068 SATELLITE S3 1253 COMMUNICATI

18、ON AND SATELLITE(3)邏輯"非"(NOT)運(yùn)算符 也可用"-"代替,但在檢索時(shí)建議使用NOT,以避免與詞間的分隔符"-"混淆,NOT算符是排除含有某些詞的記錄的,即檢出的記錄中只能含有NOT算符前的檢索詞,但不能同時(shí)含有其后的詞。 計(jì)算機(jī)檢索策略的構(gòu)建NOT算符的基本作用是縮小檢索范圍,但并不一定能提高文獻(xiàn)命中的準(zhǔn)確性,往往只是起到減少文獻(xiàn)輸出量的作用。在聯(lián)機(jī)檢索中,可降低檢索費(fèi)用。例如,以"PATENT NOT GERMAN"檢索EI COMPENDEX(1998)文檔,所得結(jié)果為: S1 669

19、 PATENT (專(zhuān)利) S2 9019 GERMAN(德國(guó)) S3 638 PATENT NOT GERMAN2優(yōu)先處理算符“( )” 上述邏輯OR和AND算符的使用方法,如果歸納成一個(gè)模式,比如有A、B、C、D四個(gè)檢索詞(其中A和B,C和D分別為同義概念), 計(jì)算機(jī)檢索策略的構(gòu)建檢索提問(wèn)可以分成三組: ?S1 A OR B ?S2 C OR D ?S S1 AND S2 在實(shí)際檢索中,上例檢索提問(wèn)可改為: ? S (A OR B)AND(C OR D) 計(jì)算機(jī)輸出的檢索結(jié)果與上述三組式的提問(wèn)策略是一樣的。3位置算符 位置算符又稱(chēng)鄰接算符(adjacent operators),適用于兩個(gè)檢

20、索詞以指定間隔距離或者指定的順序出現(xiàn)的場(chǎng)合。 計(jì)算機(jī)檢索策略的構(gòu)建在AND運(yùn)算符查得的記錄中,盡管同時(shí)含有所希望的檢索詞,但AND算符并不限制兩個(gè)檢索詞的位置和出現(xiàn)順序。仍以上面輸入的“communication(通訊) AND satellite(衛(wèi)星)”這個(gè)策略為例,命中的文獻(xiàn)中可能既含有“communication satellite”,又含有“satellite communication”;也可能既含有“communication devices for satellite”,又含有“communication links without satellites”等等,顯然其中的有些記

21、錄與課題要求毫無(wú)關(guān)系。以DIALOG聯(lián)機(jī)檢索系統(tǒng)使用的位置算符為例說(shuō)明(1)“(W)” “(W)”算符中的W含為“With”。這個(gè)算符表示其兩側(cè)的檢索詞必須緊密相連,除開(kāi)空格和標(biāo)點(diǎn)符號(hào)外,不得插入其他詞或字母,兩詞的詞序不可顛倒?!埃╓)”算符還可以使用其簡(jiǎn)略形式“( )”。 例如,檢索策略為“COMMUNICATION(通訊)(W)SATELLITE(衛(wèi)星)”(或者“communication () satellite”)時(shí),系統(tǒng)將只檢索含有communication satellite詞組的記錄。以DIALOG聯(lián)機(jī)檢索系統(tǒng)使用的位置算符為例說(shuō)明(2) “(nW)” “(nW)”中的“W”的

22、含義為“Word”,它允許兩詞間插入最多為n個(gè)其他詞,例如,檢索策略為“COMMUNICATION(通訊)(2W)SATELLITE(衛(wèi)星)”時(shí),系統(tǒng)將只檢索含有communication satellite、communication though satellite、communication on the satellite詞組的記錄。(3)“(N)” “(nN)”算符的N含義為“Near”。表示其兩側(cè)的檢索詞必須緊密相連,除空格和標(biāo)點(diǎn)符號(hào)外,不得插入其他詞或字母,兩詞的詞序可以顛倒。以DIALOG聯(lián)機(jī)檢索系統(tǒng)使用的位置算符為例說(shuō)明(4)“(nN)” “(nN)”是“(N)”算符的變形,

23、不同之處為允許兩詞間插入最多為n個(gè)其他詞。例如,檢索策略為“COTTON(棉花) (2N) PROCESSING(處理)”時(shí),凡含有cotton processing ,processing of cotton 和processing of Egyptian cotton的文獻(xiàn)記錄都算命中。(5)“(F)” “(F)”算符中F的含義為“Field”。這個(gè)算符表示其兩側(cè)的檢索詞必須在同一字段(例如同在題目字段或文摘字段)中出現(xiàn),詞序不限,中間可插任意檢索詞。以DIALOG聯(lián)機(jī)檢索系統(tǒng)使用的位置算符為例說(shuō)明例如, pollution (污染)(F) control(控制)可查出control an

24、d management of industrial pollution ,檢索詞在同一題目字段中。由于(F)鄰近算符限制性差,所以在文中檢索多個(gè)敘詞字段時(shí)不宜使用。 (F)鄰近算符與AND布爾邏輯組配主要區(qū)別在于: (F)鄰近算符使兩個(gè)檢索項(xiàng)在同一字段,AND布爾邏輯組配中兩個(gè)檢索詞會(huì)發(fā)生在不同字段中。以DIALOG聯(lián)機(jī)檢索系統(tǒng)使用的位置算符為例說(shuō)明(6)“(S)” “(S)”算符中的S含義為“Sentence”。這個(gè)算符表示其兩側(cè)的檢索詞必須在同一句子(子字段)中出現(xiàn),兩詞的詞序可以顛倒。例如,“COMMUNICATION(通訊)(S)SATELLITE(衛(wèi)星)”時(shí),系統(tǒng)將檢索句子(同一子

25、字段)中含有communication satellite和satellite communication詞組的記錄。 以上介紹的各種位置算符,按照限制程度的大小,(W)、(nW)最強(qiáng),(N)、(nN)次之,(S)再次之;(F)的最弱。當(dāng)(nN)的n10時(shí),其作用已經(jīng)相當(dāng)于(S)。 計(jì)算機(jī)檢索策略的構(gòu)建4字段限制 字段限制也是調(diào)整檢索策略的一種重要的手段。多數(shù)檢索系統(tǒng)對(duì)不指定字段的檢索詞,通常在所有基本字段中進(jìn)行搜索,如果想指定在文獻(xiàn)的題目等字段中查找所希望的檢索詞,就需要使用字段限制。 字段限制適用于在已有一定數(shù)量輸出記錄的基礎(chǔ)上,通過(guò)指定字段的方法 ,減少輸出篇數(shù),提高檢索結(jié)果的查準(zhǔn)率。字

26、段限制(DIALOG聯(lián)機(jī)檢索系統(tǒng)為例)(1)基本字段限制 基本字段主要是指題目、敘詞、識(shí)別詞和文摘四個(gè)字段?;咀侄蜗拗频挠梅ㄊ窃谛枰付ǖ淖侄蔚臋z索詞后加上后綴運(yùn)算符“/”和段碼。 例如,檢索策略“OPTICAL(光學(xué))/TI AND FIBER(纖維)/TI”的含義是指定在題目字段中查找含有“optical”和“fiber”兩詞的所有記錄。 字段段碼可以多個(gè)連用,段碼之間加“,”即可。 例如“FIBER/TI,DE”的含義是指定在題目和敘詞字段是查找以“fiber”為詞的所有記錄。字段限制(DIALOG聯(lián)機(jī)檢索系統(tǒng)為例)(2)輔助字段限制 除基本字段以外的可檢索字段都可稱(chēng)為輔助字段。輔助字

27、段運(yùn)算符的用法是在需要指定字段的檢索詞(有時(shí)檢索詞須放在雙引號(hào)內(nèi))之前加上段碼和前綴運(yùn)算符“=”。例如,AU=“Robert,S.”的含義是在作者字段中查找含人名為“Robert,S.”的所有記錄。 下面是其他常用的輔助字段限制及其實(shí)例: 指定刊物名稱(chēng) JN=APPLIED PHYSICS 指定語(yǔ)言字段 LA=ENGLISH 指定年份字段 PY=1999 計(jì)算機(jī)檢索策略的構(gòu)建5截詞算符 截詞算符就是使計(jì)算機(jī)保留檢索詞中的相同詞干部分,允許檢索詞可有一定范圍的變化,這種功能可減少輸入步驟,簡(jiǎn)化檢索程序,擴(kuò)大檢索范圍,提高查全率。不同的數(shù)據(jù)庫(kù)有不同的截字符,DIALOG系統(tǒng)用“?”,ORBIT系統(tǒng)

28、用“+”,功能基本相同。 截詞有前方一致、后方一致、中間一致和中間屏蔽四種形式。前方一致,允許詞尾有所變化;后方一致,允許詞頭有所變化,中間一致,詞頭、詞尾都可變化;中間屏蔽,允許詞中間的某些字母有變化。 計(jì)算機(jī)檢索策略的構(gòu)建例如,當(dāng)使用前方一致算符時(shí),Textile?可同時(shí)查找含有Textile和Textiles的文獻(xiàn);當(dāng)使用后方一致算符時(shí),?Polymer可同時(shí)查找含有Homopolymer,Copolymer等的文獻(xiàn);當(dāng)使用中間一致算符?Wave?可同時(shí)查找含有Waves,Microwave等的文獻(xiàn);當(dāng)使用中間屏蔽算符時(shí),F(xiàn)ib?s相當(dāng)于查找含有Fibers和Fibres的文獻(xiàn)。 截詞是

29、計(jì)算機(jī)檢索中常用的方法,尤其是英語(yǔ)的單詞詞尾變化較多,為避免漏檢,經(jīng)常要使用前方一致的截詞檢索。 計(jì)算機(jī)檢索策略的構(gòu)建6范圍限制 查找范圍算符的作用主要是用戶(hù)利用輔助索引時(shí),對(duì)查找文獻(xiàn)的年限范圍進(jìn)行限制。等于:如在日期檢索項(xiàng)輸入“1990*”,則表示1990年發(fā)表的文獻(xiàn)大于:輸入“>1990*” 大于等于:“>=1990*”不等于:“<>1990*” 范圍:如在日期檢索項(xiàng)輸入“1991*:1994*”,則表示查找19911994年的文獻(xiàn)其它:短語(yǔ)檢索、自然語(yǔ)言檢索(小節(jié)) 計(jì)算機(jī)檢索策略的構(gòu)建小結(jié):信息檢索技術(shù) 1.布爾邏輯 2.優(yōu)先處理算符 3.位置算符 4.字段限制

30、 5.截詞算符 6.范圍限制 計(jì)算機(jī)檢索步驟和策略調(diào)整方法二 信息檢索步驟1.分析課題(1)一般的課題概念分析方法: 分析主要概念,找出能代表這些概念的若干個(gè)詞或詞組,對(duì)新學(xué)科、交叉學(xué)科和邊緣學(xué)科的課題,要搞清楚這些概念關(guān)系。概念分析的結(jié)果應(yīng)以概念組為單元的詞或詞組形式列出,以便下一步制訂檢索策略。 例如,“聚乙烯的合成(synthesis of polyethylene)”這個(gè)課題可劃分為兩個(gè)概念,即“聚乙烯(polyethylene)”與“合成(synthesis)”。 計(jì)算機(jī)檢索步驟和策略調(diào)整方法(2)隱含概念的分析: 課題所隱含的概念從專(zhuān)業(yè)角度作深入分析,才能提煉出能夠確切反映課題內(nèi)容

31、的檢索概念。 例如,“垃圾的處理”中的“處理”一詞隱含著“回收”“再生”等具體的處理方法,再如,課題“大型機(jī)械電子滲漏儀”,其中“電子”(electronic)一詞,在該專(zhuān)業(yè)中往往是用“傳感器”來(lái)表示,即用“sensor”、“transducer”或“l(fā)oad-cell”等來(lái)表示。類(lèi)似的,諸如“工藝”、“分析”、“應(yīng)用”,以及諸如“有機(jī)物”、“無(wú)機(jī)物”、“重金屬”、“輕金屬”、“高分子材料”等外延十分寬的概念,一般都應(yīng)轉(zhuǎn)換成具體的方法或材料、化合物來(lái)表示。 計(jì)算機(jī)檢索步驟和策略調(diào)整方法(3)核心概念的選限: 有些檢索詞中已經(jīng)含有的某些概念,在概念予以排除。例如,課題“玻璃纖維增強(qiáng)石膏制品”,從

32、字面上看,這個(gè)課題可劃為三個(gè)概念:即“玻璃纖維”、“增強(qiáng)”、“石膏制品”。但石膏制品中加入玻璃纖維,其目的就是為了增強(qiáng)石膏制品,因此可將“增強(qiáng)”這一概念排除之外。 如果有些檢索概念已經(jīng)體現(xiàn)在數(shù)據(jù)庫(kù)中,這些概念也應(yīng)該予以排除。如陶瓷文摘數(shù)據(jù)庫(kù)(Ceramic Abstracts),“陶瓷(ceramic)”這一概念一般可以排除;而COMPUTER一詞在計(jì)算機(jī)數(shù)據(jù)庫(kù)(The Computer Database)中一般也應(yīng)予以排除。 計(jì)算機(jī)檢索步驟和策略調(diào)整方法另外有一些比較泛指、檢索意義不大的概念,例如,“發(fā)展”,“趨勢(shì)”,“現(xiàn)狀”等在不是專(zhuān)門(mén)查找綜述類(lèi)文獻(xiàn)時(shí)也應(yīng)予以排除。2.選擇數(shù)據(jù)庫(kù) 不同的數(shù)

33、據(jù)庫(kù)學(xué)科范圍不同,檢索指令不同,收費(fèi)標(biāo)準(zhǔn)也不同。所以,應(yīng)在檢索之前閱讀有關(guān)數(shù)據(jù)庫(kù)的使用介紹,以便選擇數(shù)據(jù)庫(kù)時(shí)做到心中有數(shù)。在做聯(lián)機(jī)檢索時(shí),還可以通過(guò)總索引文檔(例如DIALOG系統(tǒng)的411文檔)了解與檢索課題有關(guān)的每一個(gè)文檔中的文獻(xiàn)篇數(shù),以選取文獻(xiàn)量最大的一個(gè)或數(shù)個(gè)文檔作為檢索文檔。 計(jì)算機(jī)檢索步驟和策略調(diào)整方法選擇數(shù)據(jù)庫(kù),我們一般遵循以下幾條原則:(1)按照課題的檢索要求和目的,選擇收錄文獻(xiàn)種類(lèi)、專(zhuān)業(yè)覆蓋面、年代跨度對(duì)口的數(shù)據(jù)庫(kù)。(2)當(dāng)需要查找最新文獻(xiàn)信息時(shí),選擇數(shù)據(jù)更新周期短的數(shù)據(jù)庫(kù)。(3)當(dāng)還需要獲取原文時(shí),選擇原文獲取較容易的數(shù)據(jù)庫(kù)。(4)要選好數(shù)據(jù)庫(kù),就要弄清所選數(shù)據(jù)庫(kù)的標(biāo)引特征、

34、不同檢索特點(diǎn)等。 計(jì)算機(jī)檢索步驟和策略調(diào)整方法3.制定檢索策略(1)做到情報(bào)提問(wèn)與情報(bào)需求的一致性。(2)機(jī)檢前,手檢幾篇作聯(lián)機(jī)檢索時(shí)參考。(3)選擇一個(gè)或多個(gè)與需求相適應(yīng)的數(shù)據(jù)庫(kù)和聯(lián)機(jī)檢索系統(tǒng)。(4)指出幾個(gè)主要概念組面和檢索詞,并標(biāo)明它們的邏輯關(guān)系。(5)對(duì)每一個(gè)單獨(dú)檢索組面考慮同義詞、近義詞、用OR組配成一個(gè)概念面的單獨(dú)集。(6)對(duì)上述形成的概念或由OR組配成的概念面進(jìn)行AND和NOT組配,并編成一個(gè)檢索表達(dá)式。 計(jì)算機(jī)檢索步驟和策略調(diào)整方法(7)進(jìn)入機(jī)檢系統(tǒng),輸入(6)的檢索表達(dá)式。(8)評(píng)論中間結(jié)果,如不滿(mǎn)意可考慮用備用策略來(lái)處理。(9)反復(fù)進(jìn)行檢索,直到得到滿(mǎn)意的結(jié)果,輸出、打印或拷盤(pán)4.檢索策略的調(diào)整: 檢索策略輸入檢索系統(tǒng)后,系統(tǒng)響應(yīng)的檢索結(jié)果有時(shí)不一定能滿(mǎn)足課題的要求,例如,輸出的篇數(shù)過(guò)多,或者輸出的文獻(xiàn)數(shù)量極少,有時(shí)甚至為零,這時(shí)就需要調(diào)整檢索策略。 計(jì)算機(jī)檢索步驟和策

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論