計(jì)算機(jī)檢索基本原理_第1頁
計(jì)算機(jī)檢索基本原理_第2頁
計(jì)算機(jī)檢索基本原理_第3頁
計(jì)算機(jī)檢索基本原理_第4頁
計(jì)算機(jī)檢索基本原理_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、網(wǎng)絡(luò)資源與信息檢索本章具體內(nèi)容安排: 2.1 計(jì)算機(jī)檢索基本原理概述2.2 計(jì)算機(jī)檢索基本原理 2.3 文獻(xiàn)信息數(shù)據(jù)庫的基本概念 2.4 計(jì)算機(jī)檢索策略的構(gòu)建與調(diào)整要求:初步掌握計(jì)算機(jī)檢索的基本原理、基本類型及其檢索策略的構(gòu)建與調(diào)整。第二講 計(jì)算機(jī)檢索基本原理2.1 計(jì)算機(jī)檢索基本原理概述計(jì)算機(jī)檢索概念 通過計(jì)算機(jī)進(jìn)行的文獻(xiàn)信息檢索稱為計(jì)算機(jī)檢索。 隨著計(jì)算機(jī)技術(shù)、遠(yuǎn)程通訊技術(shù)和信息存儲技術(shù)的飛速發(fā)展,信息檢索由手工檢索過渡到了計(jì)算機(jī)信息檢索。計(jì)算機(jī)檢索的成功應(yīng)用,為我們更為及時、準(zhǔn)確、全面地繼承、利用和發(fā)展人類的科研成果提供了先進(jìn)的手段。2.1 計(jì)算機(jī)檢索基本原理概述計(jì)算

2、機(jī)檢索發(fā)展第一個階段:脫機(jī)檢索階段(50年代至60年代) 脫機(jī)檢索(Offline Retrieval):即批處理檢索 檢索要求 檢索系統(tǒng) 檢索結(jié)果 檢索人員檢索策略成批檢索用戶 缺點(diǎn):1. 地理上的障礙(遠(yuǎn)、不便于檢索結(jié)果的獲?。?. 時間上的遲滯(定期檢索,不能及時獲?。?. 封閉式的檢索(指檢索策略一經(jīng)輸入系統(tǒng)就不能更改,更不能依據(jù)機(jī)檢應(yīng)答來修改檢索式) 2.1 計(jì)算機(jī)檢索基本原理概述第二個階段:聯(lián)機(jī)檢索階段 (Online Retrieval)(60-80年代) 終端設(shè)備 通訊網(wǎng)絡(luò) 檢索系統(tǒng)用戶> 檢索策略>人機(jī)對話> 獲取信息 三個時期:60年代開發(fā)試驗(yàn);70年代末

3、應(yīng)用階段;80年代以后進(jìn)入信息計(jì)算機(jī)衛(wèi)星通信三維一體的新階段,即以信息文獻(xiàn)不受地區(qū)、國家限制而真正實(shí)現(xiàn)全世界資源共享為目的的國際聯(lián)機(jī)信息檢索階段。 聯(lián)機(jī)檢索階段優(yōu)缺點(diǎn)優(yōu)點(diǎn):1.速度快效率高2.檢索范圍廣泛全面3.檢索圖徑多方便靈活4.檢索內(nèi)容新實(shí)時性強(qiáng)5.檢索輔助功能完善缺點(diǎn):1.檢索的費(fèi)用高2.檢索系統(tǒng)及其文檔如數(shù)據(jù)庫收錄、標(biāo)引、特點(diǎn)較難了解熟悉3.檢索技術(shù)和技巧不宜掌握 國際著名的聯(lián)機(jī)檢索系統(tǒng)著名的國際聯(lián)機(jī)檢索系統(tǒng)有美國的DIALOG系統(tǒng)、ORBIT系統(tǒng)、BRS系統(tǒng)以及MEDLARS系統(tǒng),還有歐洲的ESA/IRS系統(tǒng)、英國的BLAESE系統(tǒng)等。 這些系統(tǒng)很快發(fā)展成為國際性情報檢索系統(tǒng),數(shù)據(jù)

4、庫種類及其檢索存儲記錄都在迅速增加,如:美國的Dialog系統(tǒng),1984年就有200多個數(shù)據(jù)庫,其中包括美國的醫(yī)學(xué)索引、荷蘭醫(yī)學(xué)文摘、美國生物學(xué)文摘、美國化學(xué)文摘等。 如今此聯(lián)機(jī)檢索系統(tǒng)仍然是世界上最有影響的聯(lián)機(jī)檢索系統(tǒng)。 2.1 計(jì)算機(jī)檢索基本原理概述第三階段:光盤檢索階段 1983年,出現(xiàn)了一種新的存儲器,CD-ROM光盤。光盤檢索具有儲量極大而體積微小,要求設(shè)備簡單,可隨地安裝,使用方便、易于操作,檢索費(fèi)用低(不需要昂貴的聯(lián)機(jī)檢索通訊費(fèi)用),因可隨時修改檢索策略而具有很高的查全率和查準(zhǔn)率等優(yōu)點(diǎn)。 Chemical Abstracts Index光盤(1987-1991):由美國化學(xué)文摘社

5、與美國劍橋光盤公司聯(lián)合研制,收錄1987-1991年化學(xué)文摘的全部內(nèi)容。 2.1 計(jì)算機(jī)檢索基本原理概述Science Citation Index(SCI)光盤(科學(xué)引文索引):由美國費(fèi)城科學(xué)情報研究所編輯出版,收錄1961年以來有關(guān)生命科學(xué)、醫(yī)學(xué)、物理、化學(xué)、農(nóng)業(yè)、工程技術(shù)、行為科學(xué)等方面的文獻(xiàn)及引文。 CAJ(中國學(xué)術(shù)期刊):是由清華大學(xué)開發(fā)研制,分題錄、文摘、全文三個層次的數(shù)據(jù)庫,其中全文數(shù)據(jù)庫是國內(nèi)最常用的全文數(shù)據(jù)庫。2.1 計(jì)算機(jī)檢索基本原理概述第四階段:網(wǎng)絡(luò)化檢索階段 進(jìn)入90年代,隨著衛(wèi)星通訊、公共數(shù)據(jù)通訊、光纜通訊技術(shù)以及信息高速公路事業(yè)在全世界的迅猛發(fā)展,計(jì)算機(jī)情報檢索走向

6、了全球大聯(lián)網(wǎng)。 網(wǎng)上資源具有信息的時效性、內(nèi)容的廣泛性、訪問的快速性、搜索的網(wǎng)絡(luò)性和資源的動態(tài)性五大特點(diǎn),那么要及時、準(zhǔn)確、有效地獲取與自身需求相關(guān)的實(shí)用信息,對所有網(wǎng)絡(luò)用戶都非常具有挑戰(zhàn)性。 2.1 計(jì)算機(jī)檢索基本原理概述INTERNET就是這個時期的最杰出代表。它能夠跨越時空,進(jìn)行實(shí)時信息檢索、資源共享的國際性計(jì)算機(jī)網(wǎng)絡(luò)。 INTERNET飛速的發(fā)展,已成為人們進(jìn)行全球范圍的合作、信息交流與資源共享的不可替代的通訊交流方式。 隨著計(jì)算機(jī)技術(shù)的智能化、數(shù)據(jù)庫載體的高密度化和多媒體化、通訊技術(shù)的網(wǎng)絡(luò)化,計(jì)算機(jī)情報檢索將走向辦公室化、家庭化。 2.2 計(jì)算機(jī)檢索基本原理一般地說,計(jì)算機(jī)檢索包括信

7、息的存儲和檢索兩個部分,即對應(yīng)數(shù)據(jù)庫的建立和查找兩個部分。信息存儲 就是文獻(xiàn)標(biāo)引人員對文獻(xiàn)內(nèi)容進(jìn)行主題分析,即把文獻(xiàn)包含的信息內(nèi)容分析成若干能代表文獻(xiàn)主題的概念,并用詞表、分類表等規(guī)范化標(biāo)識的情報檢索語言對文獻(xiàn)主題進(jìn)行標(biāo)引、按所選數(shù)據(jù)庫結(jié)構(gòu)的索引結(jié)構(gòu)輸入到計(jì)算機(jī)進(jìn)行存儲,同時把入選文獻(xiàn)中的其他特征標(biāo)識(標(biāo)題、著者、文摘、原文出處等)也一起輸入計(jì)算機(jī),編制成一系列索引數(shù)據(jù)庫,這便是信息的存儲。 .1.信息的存儲主要包括的內(nèi)容信息采集:對廣泛且分散的信息資源進(jìn)行有針對性的采集。信息著錄:對所收集的原始信息的外表特征如題名、著者、文獻(xiàn)出處和內(nèi)容特征如分類號、主題詞、摘要進(jìn)行描述,形成一條條款目或記錄

8、過程。信息標(biāo)引:就是根據(jù)一定的規(guī)則和程序,對文獻(xiàn)內(nèi)容進(jìn)行分析,然后賦予每篇文獻(xiàn)以一定數(shù)量的內(nèi)容標(biāo)識如分類號、主題詞、關(guān)鍵詞作為存貯和檢索的依據(jù)。它的作用是為信息存貯與檢索這兩環(huán)節(jié)之間提供某種連接物。信息的整序:就是將采集到的無序信息進(jìn)行有序化組織的過程。2.2 計(jì)算機(jī)檢索基本原理 信息檢索 信息檢索作為信息存儲的逆過程,是將描述特定用戶所需信息的提問特征與信息存儲的檢索標(biāo)示進(jìn)行異同的比較,從中找出與用戶提問特征一致或基本一致的信息. 1、檢索者對檢索課題進(jìn)行主題分析、明確檢索范圍,形成能代表情報需求的若干主題概念。 2、把這些主題概念轉(zhuǎn)換成計(jì)算機(jī)信息檢索語言,即用數(shù)據(jù)庫檢索工具書對各概念選詞和

9、進(jìn)行邏輯組配,編制成檢索提問式。 3、用計(jì)算機(jī)檢索系統(tǒng)功能在文獻(xiàn)資料數(shù)據(jù)庫中將信息需求主題概念和數(shù)據(jù)庫內(nèi)文獻(xiàn)主題概念標(biāo)識進(jìn)行匹配,找到命中文獻(xiàn)。 用圖表示如下:計(jì)算機(jī)檢索原理的示意圖2.3 文獻(xiàn)信息數(shù)據(jù)庫的基本概念2. 3.1數(shù)據(jù)庫的定義和類型 一、數(shù)據(jù)庫定義:根據(jù)ISO/DIS 5127號標(biāo)準(zhǔn)(文獻(xiàn)與情報工作術(shù)語),數(shù)據(jù)庫(database)的定義為:“至少由一種文檔組成,并能滿足某一特定目的或某一特定數(shù)據(jù)處理系統(tǒng)需要的一種數(shù)據(jù)集合。”通俗地說,數(shù)據(jù)庫就是在計(jì)算機(jī)存儲設(shè)備上按一定方式存儲的相互關(guān)聯(lián)的數(shù)據(jù)集合,數(shù)據(jù)庫是計(jì)算機(jī)技術(shù)與情報檢索技術(shù)相結(jié)合的產(chǎn)物,是現(xiàn)代重要的信息資源管理工具,是情報檢

10、索系統(tǒng)的核心部分之一。數(shù)據(jù)庫的質(zhì)量直接影響情報檢索系統(tǒng)的功能和效率。2.3 文獻(xiàn)信息數(shù)據(jù)庫的基本概念二、數(shù)據(jù)庫類型 按照國際上通用的分類方法,常劃分為以下類型:1.參考數(shù)據(jù)庫(reference databases):指引用戶到另一信息源以獲得原文或其他細(xì)節(jié)的一類數(shù)據(jù)庫。包括書目數(shù)據(jù)庫和指南數(shù)據(jù)庫兩種。 (1)書目數(shù)據(jù)庫(bibliographic databases) 指存儲某個領(lǐng)域的二次文獻(xiàn)(如文摘、題錄、目錄等書目數(shù)據(jù))的一類數(shù)據(jù)庫。例如,美國化學(xué)文摘數(shù)據(jù)庫CA Search,中國機(jī)械工程文摘數(shù)據(jù)庫,各國生產(chǎn)發(fā)行的機(jī)讀目錄(MARC)等,即屬于此類型。(2)指南數(shù)據(jù)庫(reference

11、 databases) 指存儲關(guān)于某些機(jī)構(gòu)、人物、出版物、項(xiàng)目、程序、活動等對象的簡要描述,指引用戶獲取更詳細(xì)的信息的一類數(shù)據(jù)庫。亦稱指示性數(shù)據(jù)庫。例如,各種機(jī)構(gòu)名錄數(shù)據(jù)庫、人物傳記數(shù)據(jù)庫、產(chǎn)品數(shù)據(jù)庫、軟件數(shù)據(jù)庫、研究開發(fā)項(xiàng)目數(shù)據(jù)庫、基金數(shù)據(jù)庫等,均屬此類。2.3 文獻(xiàn)信息數(shù)據(jù)庫的基本概念2.源數(shù)據(jù)庫(source databases): 提供原始資料或具體數(shù)據(jù)的數(shù)據(jù)庫。它又可分為以下幾種類型:(1)數(shù)值數(shù)據(jù)庫(numeric databases) 指專門提供以數(shù)值方式表示的數(shù)據(jù)(或包括其統(tǒng)計(jì)處理表示法)的一種源數(shù)據(jù)庫,如各種統(tǒng)計(jì)數(shù)據(jù)庫、財務(wù)數(shù)據(jù)庫、科學(xué)技術(shù)數(shù)據(jù)庫等。(2)文本-數(shù)值數(shù)據(jù)庫(t

12、extual-numeric databases):同時提供文本信息和數(shù)值數(shù)據(jù)的一種源數(shù)據(jù)庫,如某些公司信息庫、產(chǎn)品市場報告數(shù)據(jù)庫、讀物數(shù)據(jù)庫和物性數(shù)據(jù)庫等。(3)全文數(shù)據(jù)庫(full-text databases) 指存儲文獻(xiàn)全文或其中主要部分的一種源數(shù)據(jù)庫,簡稱全文庫,如法律法規(guī)全文庫、期刊全文庫等。2.3 文獻(xiàn)信息數(shù)據(jù)庫的基本概念(4)術(shù)語數(shù)據(jù)庫(terminological bank) 指專門存儲名詞術(shù)語信息一種源數(shù)據(jù)庫,各種電子化辭典也包括在內(nèi)。(5)圖像數(shù)據(jù)庫(graphics databases) 指用來存儲各種圖像或圖形信息及有關(guān)文字說明資料的一種源數(shù)據(jù)庫,主要應(yīng)用于建筑、設(shè)計(jì)

13、、廣告、產(chǎn)品目錄、圖片或照片等資料類型的計(jì)算機(jī)存儲與檢索。 除了上述幾種類型的數(shù)據(jù)庫以個,還有能同時存儲多種不同類型數(shù)據(jù)的數(shù)據(jù)庫混合型數(shù)據(jù)庫(mixed databases)。2.3 文獻(xiàn)信息數(shù)據(jù)庫的基本概念 數(shù)據(jù)庫的構(gòu)成 從使用觀點(diǎn)來看,數(shù)據(jù)庫主要由文檔、記錄、字段三個層次構(gòu)成。1、文檔: 若干個邏輯記錄構(gòu)成的信息集合稱為文檔(file)。用戶選擇所需的聯(lián)機(jī)系統(tǒng)數(shù)據(jù)庫時,多數(shù)數(shù)據(jù)庫以單一的文檔編號出現(xiàn)。此時文檔(file)的概念和數(shù)據(jù)庫(database)相當(dāng)。但有些數(shù)據(jù)庫因規(guī)模龐大,被分成若干個文檔。例如,在DAILOG系統(tǒng)中,CA Search數(shù)據(jù)庫被分成308號(1967-1971),

14、309號(1977-1981),311號(1982-1986)和312號(1986-)等文檔。2.3 文獻(xiàn)信息數(shù)據(jù)庫的基本概念2記錄 記錄是由若干字段組成的文獻(xiàn)單元,是計(jì)算機(jī)檢索系統(tǒng)存儲文獻(xiàn)款目和標(biāo)引的信息載體。 在全文數(shù)據(jù)庫中,一個記錄相當(dāng)于一篇完整的文獻(xiàn);在書目數(shù)據(jù)庫中,一個記錄相當(dāng)于一條文摘或題錄。比較典型的COMPENDEX,INSPEC,美國專利數(shù)據(jù)庫的記錄。2.3 文獻(xiàn)信息數(shù)據(jù)庫的基本概念3字段:是文獻(xiàn)著錄的基本單元,它是對實(shí)體的具體屬性進(jìn)行描述的結(jié)果。在書目數(shù)據(jù)庫中,記錄中含有題名、著者、出版年、主題詞、文摘等字段。 文獻(xiàn)數(shù)據(jù)庫字段分為基本字段和輔助字段兩類?;咀侄魏洼o助字段在

15、檢索策略的構(gòu)成方法上往往有些區(qū)別。 基本字段通常是默認(rèn)的主題途徑檢索范圍,如果需要查找專門的基本字段或者輔助字段,通常要以某種方法予以指定。常見的字段名稱和代碼(也稱段碼)如下表所示。文獻(xiàn)數(shù)據(jù)庫中常見的字段和段碼2.4 計(jì)算機(jī)檢索策略的構(gòu)建與調(diào)整檢索策略 是為實(shí)現(xiàn)檢索目標(biāo)而制定的全盤計(jì)劃和方案,是對整個檢索過程的謀劃和指導(dǎo)。 也可以說,所謂檢索策略,就是在分析課題內(nèi)容實(shí)質(zhì)的基礎(chǔ)上,確定檢索系統(tǒng)、檢索途徑和檢索詞,并科學(xué)安排各詞之間的位置關(guān)系、邏輯關(guān)系和查找步驟等。 計(jì)算機(jī)檢索策略的構(gòu)建一 信息檢索技術(shù)1、布爾邏輯 規(guī)定檢索詞之間的邏輯關(guān)系的算符,稱為布爾邏輯算符。布爾邏輯算符包括邏輯“或(OR

16、)”、邏輯“與(AND)”和邏輯“非(NOT)”。(1)、邏輯“或”(OR)運(yùn)算符 也可用“+”代替,是用來組配具有同義或同族概念的詞,如同義詞、相關(guān)詞等。其含義是,檢出的記錄中,至少含有兩個檢索詞中的一個。OR算符的基本作用是擴(kuò)大檢索范圍,增加命中文獻(xiàn)量,防止漏檢,提高檢索結(jié)果的查全率,OR運(yùn)算符還有一個去重的功能。 計(jì)算機(jī)檢索策略的構(gòu)建例如,如果以提問式“SS PIPE TUBE”檢索EI COMPENDEX (1998)文檔,所得結(jié)果為: S1 3954 PIPE (管子) S2 4206 TUBE(管) S3 7759 PIPE OR TUBE(2)邏輯"與"(AN

17、D)運(yùn)算符 也可用"*"代替,用來組配不同檢索概念。其含義是檢出的記錄必須同時含有所有的檢索詞。AND算符的基本作用是對檢索詞加以限定,逐步縮小檢索范圍,減少命中文獻(xiàn)量,提高檢索結(jié)果的查準(zhǔn)率。在實(shí)際檢索中,不同概念組面之間以及同一組面內(nèi)的不同含義的詞之間通常使用AND算符。 計(jì)算機(jī)檢索策略的構(gòu)建例如:以提問式“SS COMMUNICATION(通訊) AND SATELLITE(衛(wèi)星)"檢索EI COMPENDEX(1998)文檔,所得結(jié)果為: S1 25331 COMMUNICATION S2 4068 SATELLITE S3 1253 COMMUNICATI

18、ON AND SATELLITE(3)邏輯"非"(NOT)運(yùn)算符 也可用"-"代替,但在檢索時建議使用NOT,以避免與詞間的分隔符"-"混淆,NOT算符是排除含有某些詞的記錄的,即檢出的記錄中只能含有NOT算符前的檢索詞,但不能同時含有其后的詞。 計(jì)算機(jī)檢索策略的構(gòu)建NOT算符的基本作用是縮小檢索范圍,但并不一定能提高文獻(xiàn)命中的準(zhǔn)確性,往往只是起到減少文獻(xiàn)輸出量的作用。在聯(lián)機(jī)檢索中,可降低檢索費(fèi)用。例如,以"PATENT NOT GERMAN"檢索EI COMPENDEX(1998)文檔,所得結(jié)果為: S1 669

19、 PATENT (專利) S2 9019 GERMAN(德國) S3 638 PATENT NOT GERMAN2優(yōu)先處理算符“( )” 上述邏輯OR和AND算符的使用方法,如果歸納成一個模式,比如有A、B、C、D四個檢索詞(其中A和B,C和D分別為同義概念), 計(jì)算機(jī)檢索策略的構(gòu)建檢索提問可以分成三組: ?S1 A OR B ?S2 C OR D ?S S1 AND S2 在實(shí)際檢索中,上例檢索提問可改為: ? S (A OR B)AND(C OR D) 計(jì)算機(jī)輸出的檢索結(jié)果與上述三組式的提問策略是一樣的。3位置算符 位置算符又稱鄰接算符(adjacent operators),適用于兩個檢

20、索詞以指定間隔距離或者指定的順序出現(xiàn)的場合。 計(jì)算機(jī)檢索策略的構(gòu)建在AND運(yùn)算符查得的記錄中,盡管同時含有所希望的檢索詞,但AND算符并不限制兩個檢索詞的位置和出現(xiàn)順序。仍以上面輸入的“communication(通訊) AND satellite(衛(wèi)星)”這個策略為例,命中的文獻(xiàn)中可能既含有“communication satellite”,又含有“satellite communication”;也可能既含有“communication devices for satellite”,又含有“communication links without satellites”等等,顯然其中的有些記

21、錄與課題要求毫無關(guān)系。以DIALOG聯(lián)機(jī)檢索系統(tǒng)使用的位置算符為例說明(1)“(W)” “(W)”算符中的W含為“With”。這個算符表示其兩側(cè)的檢索詞必須緊密相連,除開空格和標(biāo)點(diǎn)符號外,不得插入其他詞或字母,兩詞的詞序不可顛倒?!埃╓)”算符還可以使用其簡略形式“( )”。 例如,檢索策略為“COMMUNICATION(通訊)(W)SATELLITE(衛(wèi)星)”(或者“communication () satellite”)時,系統(tǒng)將只檢索含有communication satellite詞組的記錄。以DIALOG聯(lián)機(jī)檢索系統(tǒng)使用的位置算符為例說明(2) “(nW)” “(nW)”中的“W”的

22、含義為“Word”,它允許兩詞間插入最多為n個其他詞,例如,檢索策略為“COMMUNICATION(通訊)(2W)SATELLITE(衛(wèi)星)”時,系統(tǒng)將只檢索含有communication satellite、communication though satellite、communication on the satellite詞組的記錄。(3)“(N)” “(nN)”算符的N含義為“Near”。表示其兩側(cè)的檢索詞必須緊密相連,除空格和標(biāo)點(diǎn)符號外,不得插入其他詞或字母,兩詞的詞序可以顛倒。以DIALOG聯(lián)機(jī)檢索系統(tǒng)使用的位置算符為例說明(4)“(nN)” “(nN)”是“(N)”算符的變形,

23、不同之處為允許兩詞間插入最多為n個其他詞。例如,檢索策略為“COTTON(棉花) (2N) PROCESSING(處理)”時,凡含有cotton processing ,processing of cotton 和processing of Egyptian cotton的文獻(xiàn)記錄都算命中。(5)“(F)” “(F)”算符中F的含義為“Field”。這個算符表示其兩側(cè)的檢索詞必須在同一字段(例如同在題目字段或文摘字段)中出現(xiàn),詞序不限,中間可插任意檢索詞。以DIALOG聯(lián)機(jī)檢索系統(tǒng)使用的位置算符為例說明例如, pollution (污染)(F) control(控制)可查出control an

24、d management of industrial pollution ,檢索詞在同一題目字段中。由于(F)鄰近算符限制性差,所以在文中檢索多個敘詞字段時不宜使用。 (F)鄰近算符與AND布爾邏輯組配主要區(qū)別在于: (F)鄰近算符使兩個檢索項(xiàng)在同一字段,AND布爾邏輯組配中兩個檢索詞會發(fā)生在不同字段中。以DIALOG聯(lián)機(jī)檢索系統(tǒng)使用的位置算符為例說明(6)“(S)” “(S)”算符中的S含義為“Sentence”。這個算符表示其兩側(cè)的檢索詞必須在同一句子(子字段)中出現(xiàn),兩詞的詞序可以顛倒。例如,“COMMUNICATION(通訊)(S)SATELLITE(衛(wèi)星)”時,系統(tǒng)將檢索句子(同一子

25、字段)中含有communication satellite和satellite communication詞組的記錄。 以上介紹的各種位置算符,按照限制程度的大小,(W)、(nW)最強(qiáng),(N)、(nN)次之,(S)再次之;(F)的最弱。當(dāng)(nN)的n10時,其作用已經(jīng)相當(dāng)于(S)。 計(jì)算機(jī)檢索策略的構(gòu)建4字段限制 字段限制也是調(diào)整檢索策略的一種重要的手段。多數(shù)檢索系統(tǒng)對不指定字段的檢索詞,通常在所有基本字段中進(jìn)行搜索,如果想指定在文獻(xiàn)的題目等字段中查找所希望的檢索詞,就需要使用字段限制。 字段限制適用于在已有一定數(shù)量輸出記錄的基礎(chǔ)上,通過指定字段的方法 ,減少輸出篇數(shù),提高檢索結(jié)果的查準(zhǔn)率。字

26、段限制(DIALOG聯(lián)機(jī)檢索系統(tǒng)為例)(1)基本字段限制 基本字段主要是指題目、敘詞、識別詞和文摘四個字段?;咀侄蜗拗频挠梅ㄊ窃谛枰付ǖ淖侄蔚臋z索詞后加上后綴運(yùn)算符“/”和段碼。 例如,檢索策略“OPTICAL(光學(xué))/TI AND FIBER(纖維)/TI”的含義是指定在題目字段中查找含有“optical”和“fiber”兩詞的所有記錄。 字段段碼可以多個連用,段碼之間加“,”即可。 例如“FIBER/TI,DE”的含義是指定在題目和敘詞字段是查找以“fiber”為詞的所有記錄。字段限制(DIALOG聯(lián)機(jī)檢索系統(tǒng)為例)(2)輔助字段限制 除基本字段以外的可檢索字段都可稱為輔助字段。輔助字

27、段運(yùn)算符的用法是在需要指定字段的檢索詞(有時檢索詞須放在雙引號內(nèi))之前加上段碼和前綴運(yùn)算符“=”。例如,AU=“Robert,S.”的含義是在作者字段中查找含人名為“Robert,S.”的所有記錄。 下面是其他常用的輔助字段限制及其實(shí)例: 指定刊物名稱 JN=APPLIED PHYSICS 指定語言字段 LA=ENGLISH 指定年份字段 PY=1999 計(jì)算機(jī)檢索策略的構(gòu)建5截詞算符 截詞算符就是使計(jì)算機(jī)保留檢索詞中的相同詞干部分,允許檢索詞可有一定范圍的變化,這種功能可減少輸入步驟,簡化檢索程序,擴(kuò)大檢索范圍,提高查全率。不同的數(shù)據(jù)庫有不同的截字符,DIALOG系統(tǒng)用“?”,ORBIT系統(tǒng)

28、用“+”,功能基本相同。 截詞有前方一致、后方一致、中間一致和中間屏蔽四種形式。前方一致,允許詞尾有所變化;后方一致,允許詞頭有所變化,中間一致,詞頭、詞尾都可變化;中間屏蔽,允許詞中間的某些字母有變化。 計(jì)算機(jī)檢索策略的構(gòu)建例如,當(dāng)使用前方一致算符時,Textile?可同時查找含有Textile和Textiles的文獻(xiàn);當(dāng)使用后方一致算符時,?Polymer可同時查找含有Homopolymer,Copolymer等的文獻(xiàn);當(dāng)使用中間一致算符?Wave?可同時查找含有Waves,Microwave等的文獻(xiàn);當(dāng)使用中間屏蔽算符時,F(xiàn)ib?s相當(dāng)于查找含有Fibers和Fibres的文獻(xiàn)。 截詞是

29、計(jì)算機(jī)檢索中常用的方法,尤其是英語的單詞詞尾變化較多,為避免漏檢,經(jīng)常要使用前方一致的截詞檢索。 計(jì)算機(jī)檢索策略的構(gòu)建6范圍限制 查找范圍算符的作用主要是用戶利用輔助索引時,對查找文獻(xiàn)的年限范圍進(jìn)行限制。等于:如在日期檢索項(xiàng)輸入“1990*”,則表示1990年發(fā)表的文獻(xiàn)大于:輸入“>1990*” 大于等于:“>=1990*”不等于:“<>1990*” 范圍:如在日期檢索項(xiàng)輸入“1991*:1994*”,則表示查找19911994年的文獻(xiàn)其它:短語檢索、自然語言檢索(小節(jié)) 計(jì)算機(jī)檢索策略的構(gòu)建小結(jié):信息檢索技術(shù) 1.布爾邏輯 2.優(yōu)先處理算符 3.位置算符 4.字段限制

30、 5.截詞算符 6.范圍限制 計(jì)算機(jī)檢索步驟和策略調(diào)整方法二 信息檢索步驟1.分析課題(1)一般的課題概念分析方法: 分析主要概念,找出能代表這些概念的若干個詞或詞組,對新學(xué)科、交叉學(xué)科和邊緣學(xué)科的課題,要搞清楚這些概念關(guān)系。概念分析的結(jié)果應(yīng)以概念組為單元的詞或詞組形式列出,以便下一步制訂檢索策略。 例如,“聚乙烯的合成(synthesis of polyethylene)”這個課題可劃分為兩個概念,即“聚乙烯(polyethylene)”與“合成(synthesis)”。 計(jì)算機(jī)檢索步驟和策略調(diào)整方法(2)隱含概念的分析: 課題所隱含的概念從專業(yè)角度作深入分析,才能提煉出能夠確切反映課題內(nèi)容

31、的檢索概念。 例如,“垃圾的處理”中的“處理”一詞隱含著“回收”“再生”等具體的處理方法,再如,課題“大型機(jī)械電子滲漏儀”,其中“電子”(electronic)一詞,在該專業(yè)中往往是用“傳感器”來表示,即用“sensor”、“transducer”或“l(fā)oad-cell”等來表示。類似的,諸如“工藝”、“分析”、“應(yīng)用”,以及諸如“有機(jī)物”、“無機(jī)物”、“重金屬”、“輕金屬”、“高分子材料”等外延十分寬的概念,一般都應(yīng)轉(zhuǎn)換成具體的方法或材料、化合物來表示。 計(jì)算機(jī)檢索步驟和策略調(diào)整方法(3)核心概念的選限: 有些檢索詞中已經(jīng)含有的某些概念,在概念予以排除。例如,課題“玻璃纖維增強(qiáng)石膏制品”,從

32、字面上看,這個課題可劃為三個概念:即“玻璃纖維”、“增強(qiáng)”、“石膏制品”。但石膏制品中加入玻璃纖維,其目的就是為了增強(qiáng)石膏制品,因此可將“增強(qiáng)”這一概念排除之外。 如果有些檢索概念已經(jīng)體現(xiàn)在數(shù)據(jù)庫中,這些概念也應(yīng)該予以排除。如陶瓷文摘數(shù)據(jù)庫(Ceramic Abstracts),“陶瓷(ceramic)”這一概念一般可以排除;而COMPUTER一詞在計(jì)算機(jī)數(shù)據(jù)庫(The Computer Database)中一般也應(yīng)予以排除。 計(jì)算機(jī)檢索步驟和策略調(diào)整方法另外有一些比較泛指、檢索意義不大的概念,例如,“發(fā)展”,“趨勢”,“現(xiàn)狀”等在不是專門查找綜述類文獻(xiàn)時也應(yīng)予以排除。2.選擇數(shù)據(jù)庫 不同的數(shù)

33、據(jù)庫學(xué)科范圍不同,檢索指令不同,收費(fèi)標(biāo)準(zhǔn)也不同。所以,應(yīng)在檢索之前閱讀有關(guān)數(shù)據(jù)庫的使用介紹,以便選擇數(shù)據(jù)庫時做到心中有數(shù)。在做聯(lián)機(jī)檢索時,還可以通過總索引文檔(例如DIALOG系統(tǒng)的411文檔)了解與檢索課題有關(guān)的每一個文檔中的文獻(xiàn)篇數(shù),以選取文獻(xiàn)量最大的一個或數(shù)個文檔作為檢索文檔。 計(jì)算機(jī)檢索步驟和策略調(diào)整方法選擇數(shù)據(jù)庫,我們一般遵循以下幾條原則:(1)按照課題的檢索要求和目的,選擇收錄文獻(xiàn)種類、專業(yè)覆蓋面、年代跨度對口的數(shù)據(jù)庫。(2)當(dāng)需要查找最新文獻(xiàn)信息時,選擇數(shù)據(jù)更新周期短的數(shù)據(jù)庫。(3)當(dāng)還需要獲取原文時,選擇原文獲取較容易的數(shù)據(jù)庫。(4)要選好數(shù)據(jù)庫,就要弄清所選數(shù)據(jù)庫的標(biāo)引特征、

34、不同檢索特點(diǎn)等。 計(jì)算機(jī)檢索步驟和策略調(diào)整方法3.制定檢索策略(1)做到情報提問與情報需求的一致性。(2)機(jī)檢前,手檢幾篇作聯(lián)機(jī)檢索時參考。(3)選擇一個或多個與需求相適應(yīng)的數(shù)據(jù)庫和聯(lián)機(jī)檢索系統(tǒng)。(4)指出幾個主要概念組面和檢索詞,并標(biāo)明它們的邏輯關(guān)系。(5)對每一個單獨(dú)檢索組面考慮同義詞、近義詞、用OR組配成一個概念面的單獨(dú)集。(6)對上述形成的概念或由OR組配成的概念面進(jìn)行AND和NOT組配,并編成一個檢索表達(dá)式。 計(jì)算機(jī)檢索步驟和策略調(diào)整方法(7)進(jìn)入機(jī)檢系統(tǒng),輸入(6)的檢索表達(dá)式。(8)評論中間結(jié)果,如不滿意可考慮用備用策略來處理。(9)反復(fù)進(jìn)行檢索,直到得到滿意的結(jié)果,輸出、打印或拷盤4.檢索策略的調(diào)整: 檢索策略輸入檢索系統(tǒng)后,系統(tǒng)響應(yīng)的檢索結(jié)果有時不一定能滿足課題的要求,例如,輸出的篇數(shù)過多,或者輸出的文獻(xiàn)數(shù)量極少,有時甚至為零,這時就需要調(diào)整檢索策略。 計(jì)算機(jī)檢索步驟和策

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論