第2章 計(jì)算機(jī)信息檢索技術(shù)1_第1頁(yè)
第2章 計(jì)算機(jī)信息檢索技術(shù)1_第2頁(yè)
第2章 計(jì)算機(jī)信息檢索技術(shù)1_第3頁(yè)
第2章 計(jì)算機(jī)信息檢索技術(shù)1_第4頁(yè)
第2章 計(jì)算機(jī)信息檢索技術(shù)1_第5頁(yè)
已閱讀5頁(yè),還剩78頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第二章計(jì)算機(jī)信息檢索技術(shù)

鄭州大學(xué)信息檢索教研室2024/2/26122024/2/26第1節(jié)計(jì)算機(jī)檢索概述第2節(jié)計(jì)算機(jī)信息檢索系統(tǒng)組成第3節(jié)計(jì)算機(jī)信息檢索的分類第4節(jié)計(jì)算機(jī)信息檢索技術(shù)第5節(jié)信息檢索的方法*第6節(jié)信息檢索的策略*1計(jì)算機(jī)檢索概述1.1國(guó)內(nèi)外計(jì)算機(jī)信息檢索發(fā)展階段1975年,從國(guó)外引進(jìn)數(shù)據(jù)庫(kù)開展機(jī)檢服務(wù);1980年,建立國(guó)際聯(lián)機(jī)終端開展檢索服務(wù);20世紀(jì)80年代中后期,自建數(shù)據(jù)庫(kù);90年代初,發(fā)展光盤檢索;90年代中期,Internet網(wǎng)絡(luò)化檢索階段。32024/2/26國(guó)外計(jì)算機(jī)信息檢索發(fā)展階段(P5)脫機(jī)檢索階段(20世紀(jì)50-60年代)聯(lián)機(jī)檢索階段(20世紀(jì)60-80年代)光盤檢索階段(20世紀(jì)80年代中-90年代)網(wǎng)絡(luò)信息檢索階段(1995-)42024/2/261.2計(jì)算機(jī)信息檢索的原理計(jì)算機(jī)信息檢索的實(shí)質(zhì)就是由計(jì)算機(jī)將輸入的檢索策略與系統(tǒng)中存儲(chǔ)的文獻(xiàn)特征標(biāo)識(shí)及其邏輯組配關(guān)系進(jìn)行類比、匹配的過(guò)程,主要包括2個(gè)部分:信息存儲(chǔ)是將文獻(xiàn)、數(shù)值、事實(shí)等信息按一定的格式輸入到計(jì)算機(jī)中,構(gòu)成可供檢索的數(shù)據(jù)庫(kù)。主要包括信息的采集、著錄、標(biāo)引、整序等過(guò)程。信息檢索是將檢索提問(wèn)式按一定的要求輸入計(jì)算機(jī)中,經(jīng)計(jì)算機(jī)系統(tǒng)與已存貯在計(jì)算機(jī)中的數(shù)據(jù)庫(kù)進(jìn)行匹配運(yùn)算,然后將符合檢索提問(wèn)的數(shù)據(jù)按要求的格式輸出。52024/2/26計(jì)算機(jī)信息檢索的原理(P8-11)62024/2/26

信息存儲(chǔ)

原始信息

信息主題

數(shù)據(jù)庫(kù)記錄及信息特征標(biāo)識(shí)

信息檢索

信息需求

檢索主題

檢索提問(wèn)式及提問(wèn)標(biāo)識(shí)

計(jì)算機(jī)

檢索結(jié)果

主題分析著錄標(biāo)引類比輸出主題分析選定編制檢索語(yǔ)言(主題詞表)信息存儲(chǔ)過(guò)程信息存儲(chǔ)就是按照一定標(biāo)準(zhǔn),將收集到的原始文獻(xiàn)進(jìn)行主題概念分析,用系統(tǒng)規(guī)定的語(yǔ)言(主題詞、分類號(hào))進(jìn)行標(biāo)引,形成信息的特征標(biāo)識(shí),進(jìn)行整理與排序,構(gòu)成可供檢索的數(shù)據(jù)庫(kù),主要包括:信息的采集、著錄、標(biāo)引和整序等過(guò)程。72024/2/26信息檢索過(guò)程用戶對(duì)檢索課題加以分析,明確檢索范圍,弄清主題概念,然后用系統(tǒng)檢索語(yǔ)言來(lái)表示主題概念,形成檢索標(biāo)識(shí)及檢索策略,輸入到計(jì)算機(jī)進(jìn)行檢索。計(jì)算機(jī)按照用戶的要求將檢索策略轉(zhuǎn)換成一系列提問(wèn),在專用程序的控制下進(jìn)行邏輯運(yùn)算,選出符合要求的信息輸出。計(jì)算機(jī)檢索的過(guò)程實(shí)際上是一個(gè)比較、匹配的過(guò)程,檢索提問(wèn)只要與數(shù)據(jù)庫(kù)中的信息的特征標(biāo)識(shí)及其邏輯組配關(guān)系相一致,則屬“命中”,即找到了符合要求的信息。82024/2/261.3計(jì)算機(jī)信息檢索特點(diǎn)檢索速度快,效益高;檢索功能強(qiáng),數(shù)量大;檢索途徑多,手段靈活;檢索范圍廣;服務(wù)方式多。2計(jì)算機(jī)信息檢索系統(tǒng)組成2.1系統(tǒng)設(shè)備硬件:運(yùn)算器、控制器、存儲(chǔ)器、輸入輸出裝置等軟件:系統(tǒng)操作程序、數(shù)據(jù)庫(kù)管理程序、聯(lián)機(jī)控制程序、應(yīng)用程序等。通訊線路:電話通訊網(wǎng)、數(shù)據(jù)通訊網(wǎng)、衛(wèi)星通訊網(wǎng)等。檢索終端:信息用戶與檢索系統(tǒng)主機(jī)進(jìn)行人機(jī)對(duì)話,實(shí)現(xiàn)聯(lián)機(jī)檢索的設(shè)備。包括上網(wǎng)設(shè)備、調(diào)制解調(diào)器等。數(shù)據(jù)庫(kù):是計(jì)算機(jī)檢索的對(duì)象。是由一個(gè)或數(shù)個(gè)文檔構(gòu)成,并能夠滿足某一特定目的或某一特定數(shù)據(jù)處理系統(tǒng)需要的一種數(shù)據(jù)集合。2.2數(shù)據(jù)庫(kù)的構(gòu)成構(gòu)成數(shù)據(jù)庫(kù)的三大要素:

文檔——記錄——字段112024/2/26一定專業(yè)范圍內(nèi)的信息記錄及其索引的集合體,是計(jì)算機(jī)信息檢索系統(tǒng)的重要組成部分,是信息資源,是檢索對(duì)象。一定專業(yè)范圍內(nèi)的信息記錄及其索引的集合體,是計(jì)算機(jī)信息檢索系統(tǒng)的重要組成部分,是信息資源,是檢索對(duì)象。文檔(File)數(shù)據(jù)庫(kù)中一部分記錄的集合,文檔由若干記錄構(gòu)成。數(shù)據(jù)庫(kù)是由一個(gè)順排文檔和若干個(gè)倒排文檔所構(gòu)成

順排文檔是數(shù)據(jù)庫(kù)的主體,又稱主文檔,按每條記錄的順序號(hào)大小排列,檢索結(jié)果都來(lái)自于順排文檔。

倒排文檔是從順排檔中抽取有檢索意義的檢索標(biāo)識(shí),如主題詞、著者姓名、化學(xué)物質(zhì)名、刊名等,并按索引詞的字順排列,同時(shí)在檢索標(biāo)識(shí)后注明入藏順序號(hào),這就是常見的數(shù)據(jù)庫(kù)中的主題詞索引、著者索引、刊名索引。122024/2/26132024/2/26由若干字段組成的文獻(xiàn)單元,是數(shù)據(jù)庫(kù)中的基本文獻(xiàn)單元,每條記錄描述了原始信息的外部和內(nèi)部特征。數(shù)據(jù)庫(kù)中的一條記錄通常代表一篇文獻(xiàn)。例如:在書目型數(shù)據(jù)庫(kù)中,一條記錄相當(dāng)于一條題錄或文摘;在全文型數(shù)據(jù)庫(kù)中,一條記錄相當(dāng)于一篇完整的文獻(xiàn);在其它類型數(shù)據(jù)庫(kù)中,一條記錄則代表一個(gè)信息單元。記錄越多,數(shù)據(jù)庫(kù)的容量就越大。142024/2/26記錄(Record)152024/2/26記錄列表162024/2/26內(nèi)部特征外部特征字段(Field)字段是構(gòu)成記錄的基本單元,是對(duì)文獻(xiàn)某一方面的特征(包括外表特征和內(nèi)容特征)進(jìn)行描述的結(jié)果。

例如:題名、主題詞、分類號(hào)、文摘、作者、作者地址、出版年、來(lái)源(出處)等字段是書目數(shù)據(jù)庫(kù)中必備字段。為識(shí)別每一個(gè)字段所表達(dá)的文獻(xiàn)特征,通常每個(gè)字段都有固定的名稱和縮寫(或稱字段標(biāo)識(shí)符),如,題名字段的標(biāo)識(shí)符為TI,作者字段的標(biāo)識(shí)符為AU等。

172024/2/262.3數(shù)據(jù)庫(kù)的類型*(P3-4)參考(文獻(xiàn)書目型)數(shù)據(jù)庫(kù)全文數(shù)據(jù)庫(kù)事實(shí)數(shù)據(jù)庫(kù)數(shù)值數(shù)據(jù)庫(kù)182024/2/26參考(文獻(xiàn)書目型)數(shù)據(jù)庫(kù)是指包含各種數(shù)據(jù)、信息或知識(shí)的原始來(lái)源和屬性的數(shù)據(jù)庫(kù);是機(jī)讀的目錄、索引和文摘檢索工具,檢索結(jié)果是文獻(xiàn)的線索而非原文。存儲(chǔ)的是二次文獻(xiàn),包括文獻(xiàn)的外部特征、題錄、文摘和主題詞等。這類數(shù)據(jù)庫(kù)占用很大的比例,其代表性的數(shù)據(jù)庫(kù)有《EICompendexPlus》(工程索引)、《INSPEC》(科學(xué)文摘)和《全國(guó)報(bào)刊索引》等。圖書館提供的基于網(wǎng)絡(luò)的聯(lián)機(jī)公共檢索目錄(OPAC)系統(tǒng)192024/2/26

事實(shí)數(shù)據(jù)庫(kù)存儲(chǔ)的是用來(lái)描述人物、機(jī)構(gòu)、事物等信息的情況、過(guò)程、現(xiàn)象的事實(shí)數(shù)據(jù)。如名人錄、機(jī)構(gòu)指南、大事記、百科全書、手冊(cè)、地圖集、企事業(yè)名錄、計(jì)算機(jī)程序、音樂等,均可歸入事實(shí)數(shù)據(jù)庫(kù)。例如:中國(guó)咨詢行、國(guó)研網(wǎng)、萬(wàn)方數(shù)據(jù)(中國(guó)企業(yè)、公司及產(chǎn)品、中國(guó)科技名人、中國(guó)科研機(jī)構(gòu)等等)202024/2/26數(shù)值數(shù)據(jù)庫(kù)主要包含的是數(shù)字?jǐn)?shù)據(jù),如各種統(tǒng)計(jì)數(shù)據(jù)、科學(xué)實(shí)驗(yàn)數(shù)據(jù)、科學(xué)測(cè)量數(shù)據(jù)等。氣像數(shù)據(jù)、地質(zhì)資料、化學(xué)或物理化合物特性的文獻(xiàn)數(shù)據(jù)、人口統(tǒng)計(jì)資料、市場(chǎng)調(diào)研數(shù)據(jù)等。212024/2/26222024/2/26全文數(shù)據(jù)庫(kù)存儲(chǔ)的是原始文獻(xiàn)的全文,如雜志論文、報(bào)紙新聞、法院案例等。全文檢索可直接獲取原始資料,而不是書目檢索時(shí)的線索,提高了用戶的檢索效率。如:中國(guó)知網(wǎng)(CNKI)、萬(wàn)方數(shù)據(jù)庫(kù)、維普數(shù)據(jù)庫(kù)、《Elsevier數(shù)據(jù)庫(kù)》等等全文數(shù)據(jù)庫(kù)。3計(jì)算機(jī)信息檢索的分類1按信息資源的存儲(chǔ)形式分2按信息訪問(wèn)模式分

3.1按信息資源的存儲(chǔ)形式分*

(P7-8)(1)全文檢索。以全文數(shù)據(jù)庫(kù)存儲(chǔ)為基礎(chǔ)的檢索方式,所謂全文數(shù)據(jù)庫(kù)是將一個(gè)完整的信息源的全部?jī)?nèi)容轉(zhuǎn)化為計(jì)算機(jī)可以識(shí)別、處理的信息單元而形成的數(shù)據(jù)集合。全文檢索系統(tǒng)對(duì)全文數(shù)據(jù)庫(kù)進(jìn)行詞(字)、句、段落等深層次的編輯、加工,同時(shí)允許用戶采用自然語(yǔ)言表達(dá),借助邏輯組配、截詞、鄰詞匹配等檢索手段直接查閱文獻(xiàn)原文信息。全文檢索的應(yīng)用范圍包括:各種科技期刊、專利文獻(xiàn)、新聞報(bào)紙、年鑒、百科、手冊(cè)、圖書等全文數(shù)據(jù)庫(kù),例如:我國(guó)引進(jìn)的OCLC的firstsearch、IEL、SpringerLink、EBSCO等全文數(shù)據(jù)庫(kù)以及我國(guó)CNKI的中國(guó)期刊全文數(shù)據(jù)庫(kù)、重慶維普的中文科技期刊數(shù)據(jù)庫(kù)、超星數(shù)字圖書館、萬(wàn)方資源系統(tǒng)的數(shù)字化期刊、學(xué)位論文、會(huì)議論文等。

242024/2/26(2)二次文獻(xiàn)檢索*是針對(duì)全文檢索而言,也就是分別將文獻(xiàn)的內(nèi)部特征(主題、題名、分類等)和外部特征(作者、出處、年代、ISSN、語(yǔ)言等)作為存儲(chǔ)和檢索的匹配標(biāo)識(shí)而形成的數(shù)據(jù)集合,利用檢索系統(tǒng)的檢索結(jié)果是文獻(xiàn)信息的題錄及文摘。學(xué)科領(lǐng)域覆蓋面廣,信息量大,可以利用文獻(xiàn)線索獲取到一次文獻(xiàn)。例如:COMPENDEX、INSPEC、SCI等國(guó)外數(shù)據(jù)庫(kù);萬(wàn)方數(shù)據(jù)的學(xué)位論文、會(huì)議論文數(shù)據(jù)庫(kù)、全國(guó)報(bào)刊索引、Calis西文期刊目次數(shù)據(jù)庫(kù)等252024/2/26(3)多媒體檢索就是把文字、聲音、圖像(形)等多種信息的傳播載體通過(guò)計(jì)算機(jī)進(jìn)行數(shù)字化加工、處理而形成的一種綜合存儲(chǔ)技術(shù)。利用多媒體檢索系統(tǒng)可分別進(jìn)行視頻檢索、聲音檢索、圖像檢索。多媒體信息檢索系統(tǒng)有著廣闊的應(yīng)用前景,它將廣泛用于電子會(huì)議、遠(yuǎn)程教學(xué)、遠(yuǎn)程醫(yī)療、電子圖書館、藝術(shù)收藏和地球資源管理、天氣預(yù)報(bào)、時(shí)裝設(shè)計(jì)、智能群體決策、計(jì)算機(jī)支持協(xié)同工作、金融市場(chǎng)、軍事指揮系統(tǒng)、防汛指揮系統(tǒng)等方面。各大網(wǎng)站均可進(jìn)行多媒體信息的檢索,如:GOOGLE、百度等搜索引擎、新華社多媒體數(shù)據(jù)庫(kù)是國(guó)內(nèi)最大規(guī)模的多媒體、多文種新聞信息綜合性數(shù)據(jù)庫(kù)。262024/2/26(4)超文本檢索超文本(Hypertext)是利用計(jì)算機(jī)將多介質(zhì)信息按照一定的邏輯聯(lián)接關(guān)系加工、貯存起來(lái),構(gòu)成可任意連接的、有層次的網(wǎng)狀結(jié)構(gòu)數(shù)據(jù)庫(kù),是一種聯(lián)想式的綜合信息管理系統(tǒng)。其中的某些字、符號(hào)或短語(yǔ)、圖形和圖像起著“熱鏈路”(Hotlink)的作用,在顯示出來(lái)時(shí)其字體或顏色變化或者標(biāo)有下橫線、以區(qū)別于一般的正文。當(dāng)鼠標(biāo)器的光標(biāo)移到某個(gè)熱鏈路上,并且按了一下鼠標(biāo)鍵之后,鼠標(biāo)器光標(biāo)便沿著這條鏈路跳到該文件的另一處或另一個(gè)文件。計(jì)算機(jī)信息檢索在經(jīng)歷了傳統(tǒng)信息檢索、全文文本檢索之后,隨著多媒體技術(shù)的發(fā)展和應(yīng)用,出現(xiàn)目前這種超文本檢索方式??捎糜跈z索人物、新聞、文檔、文藝小說(shuō)、旅游景點(diǎn)、繪畫、古文物、生物等內(nèi)容廣泛的各種信息。272024/2/263.2按信息訪問(wèn)模式分(P5)根據(jù)檢索方式分:(1)脫機(jī)檢索(2)聯(lián)機(jī)檢索(3)國(guó)際聯(lián)機(jī)檢索(4)光盤檢索(5)鏡像檢索(6)網(wǎng)絡(luò)檢索282024/2/26(3)國(guó)際聯(lián)機(jī)檢索*該系統(tǒng)是70年代出現(xiàn)的一門現(xiàn)代化情報(bào)檢索手段,目前已發(fā)展到相當(dāng)高的水平,計(jì)算機(jī)聯(lián)機(jī)網(wǎng)絡(luò)和檢索終端已遍及世界所有主要國(guó)家和地區(qū)。優(yōu)點(diǎn):(1)可以實(shí)現(xiàn)資源共享;(2)檢索速度快;(3)信息資源專業(yè)化;(4)查全率和查準(zhǔn)率較高。2024/2/2632國(guó)際聯(lián)機(jī)檢索的缺點(diǎn)

檢索費(fèi)用高;對(duì)檢索系統(tǒng)及其文檔(數(shù)據(jù)庫(kù))的收錄、標(biāo)引、特點(diǎn)等問(wèn)題較難了解、熟悉;檢索技術(shù)和技巧不易掌握世界上最著名的國(guó)際聯(lián)機(jī)檢索系統(tǒng)1、DIALOG系統(tǒng)*是世界最大的國(guó)際聯(lián)機(jī)檢索系統(tǒng)1963年,原屬美國(guó)洛克希德公司,系統(tǒng)設(shè)在加洲PaloAlto市,1988年轉(zhuǎn)讓給美國(guó)Knight-Ridder公司。2000年又轉(zhuǎn)入DIALOG公司經(jīng)營(yíng)。目前,該系統(tǒng)的聯(lián)機(jī)服務(wù)網(wǎng)遍布世界70多個(gè)國(guó)家和地區(qū)的200多個(gè)城市,共設(shè)有聯(lián)機(jī)檢索終端25000余臺(tái)。系統(tǒng)中各類型數(shù)據(jù)庫(kù)數(shù)量的發(fā)展速度相當(dāng)快,擁有數(shù)據(jù)庫(kù)約900多個(gè),占全世界機(jī)存總量的60%,內(nèi)容涉及自然科學(xué)、社會(huì)科學(xué)、經(jīng)濟(jì)、商業(yè)等各個(gè)領(lǐng)域。342024/2/26DIALOG系統(tǒng)主頁(yè)(/)DIALOGWEB系統(tǒng)檢索平臺(tái)352024/2/26(4)光盤數(shù)據(jù)庫(kù)檢索光盤:80年代發(fā)展起來(lái)的激光存儲(chǔ)載體,繼紙張感光材料、磁性載體之后問(wèn)世的又一種新型的信息存儲(chǔ)介質(zhì)。能存儲(chǔ)數(shù)據(jù)、文字、圖形、圖像、聲音、動(dòng)畫等各種信息。一張普通的光盤、信息存儲(chǔ)量約為650兆。光盤的分類:按存儲(chǔ)方式分為

(1)只讀型光盤:CD-ROM(2)寫讀光盤:WORM(3)可擦寫型光盤:ERM光盤檢索的定義和特點(diǎn)定義:是一種用激光技術(shù)在特制圓盤上記錄信息的檢索方式。特點(diǎn):

(1)投資成本低;

(2)價(jià)格低;

(3)運(yùn)行速度快;

(4)檢索效果好;

(5)下載方便;

(6)安全性能高。光盤檢索的系統(tǒng)組成單機(jī)光盤檢索系統(tǒng)組成:

(1)數(shù)據(jù)庫(kù):光盤

(2)軟件:系統(tǒng)軟件和檢索軟件

(3)硬件:計(jì)算機(jī)、光盤驅(qū)動(dòng)器、顯示屏、打印機(jī)等網(wǎng)絡(luò)光盤檢索系統(tǒng)組成:

(1)光盤塔

(2)光盤組網(wǎng)軟件

(3)光盤塔服務(wù)器(5)鏡像數(shù)據(jù)庫(kù)檢索*鏡像:最原始的含義是在鏡子里看到的你自己的像,在IT界中,將“鏡像”這個(gè)詞的含義進(jìn)行了擴(kuò)展,指的是完全一樣的兩個(gè)東西。鏡像數(shù)據(jù)庫(kù):就是將光盤版、網(wǎng)絡(luò)版數(shù)據(jù)庫(kù)或主網(wǎng)站資源的數(shù)據(jù)復(fù)制到不同的地理位置(某地或本地)的鏡像服務(wù)器上,成為該服務(wù)器的鏡像數(shù)據(jù)庫(kù),并為網(wǎng)絡(luò)用戶提供檢索服務(wù)。目的是分擔(dān)訪問(wèn)流量;如,CNKI、維普、萬(wàn)方數(shù)據(jù)、超星等392024/2/26通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)可以連接世界上各種公用數(shù)據(jù)庫(kù)和商用數(shù)據(jù)庫(kù),可以幫助用戶獲取希望得到的信息。網(wǎng)絡(luò)化信息檢索系統(tǒng)的特點(diǎn)是:一般基于客戶機(jī)/服務(wù)器,客戶與服務(wù)器是同等關(guān)系,只要遵循共同協(xié)議(TCP/IP協(xié)議是目前最成功的網(wǎng)絡(luò)體系結(jié)構(gòu)和協(xié)議規(guī)范),一個(gè)服務(wù)器可被多個(gè)客戶訪問(wèn),一個(gè)客戶可訪問(wèn)多個(gè)服務(wù)器。網(wǎng)絡(luò)的用戶數(shù)量不受到限制,它是一個(gè)開放系統(tǒng)而不是封閉式系統(tǒng)網(wǎng)絡(luò)化信息檢索將在全球范圍內(nèi)實(shí)現(xiàn)信息資源共享,全球網(wǎng)絡(luò)是信息存貯與檢索進(jìn)一步發(fā)展的方向。常見檢索有:GOOGLE、百度、多媒體、咨詢行及所有的外文數(shù)據(jù)庫(kù)402024/2/26(6)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)檢索*412024/2/264計(jì)算機(jī)信息檢索技術(shù)*(P11)1.布爾邏輯檢索2.截詞檢索3.位置運(yùn)算檢索4.字段限定檢索4.1布爾邏輯檢索*(P11)布爾邏輯檢索(Booleanlogical):是用布爾邏輯算符將檢索詞、短語(yǔ)或代碼進(jìn)行邏輯組配,指定文獻(xiàn)的命中條件和組配次序,凡符合邏輯組配所規(guī)定條件的為命中文獻(xiàn),否則為非命中。布爾邏輯運(yùn)算符:在檢索過(guò)程中用于表達(dá)詞與詞之間的邏輯關(guān)系的算符。分為三種邏輯關(guān)系:邏輯與(AND)(*)、邏輯或(OR)(+)、邏輯非(NOT)(—)表示。邏輯與AANDB:檢索詞A和檢索詞B同時(shí)出現(xiàn)在一條記錄中,例如:汽車和飛機(jī)發(fā)動(dòng)機(jī)。其作用是縮小檢索范圍,提高查準(zhǔn)率。442024/2/26A=汽車發(fā)動(dòng)機(jī)B=飛機(jī)發(fā)動(dòng)機(jī)汽車與飛機(jī)發(fā)動(dòng)機(jī)ABAandB邏輯“與”運(yùn)算邏輯或(OR)AORB:記錄中出現(xiàn)檢索詞A或檢索詞B或兩詞同時(shí)出現(xiàn)在一條記錄中。其作用是擴(kuò)大檢索范圍,提高查全率452024/2/26汽車發(fā)動(dòng)機(jī)或飛機(jī)發(fā)動(dòng)機(jī)AB邏輯“或”運(yùn)算邏輯非(NOT)ANOTB:記錄必須包含檢索詞A但不能包含檢索詞B。即在含有A檢索詞的文獻(xiàn)中去除含有B檢索詞的文獻(xiàn)。其作用是縮小檢索范圍,提高查準(zhǔn)率。462024/2/26A汽車發(fā)動(dòng)機(jī)汽車、飛機(jī)發(fā)動(dòng)機(jī)飛機(jī)發(fā)動(dòng)機(jī)BAnotB邏輯“非”運(yùn)算邏輯組合式的表達(dá)它表示具有概念交叉和限定關(guān)系的一種組配。如:

高強(qiáng)度低合金鋼:highstrengthandlowalloyandsteel

生化工程設(shè)備:biochemical*engineering*equipment472024/2/26482024/2/26492024/2/26502024/2/26布爾邏輯算符的運(yùn)算次序用布爾邏輯算符組配檢索詞構(gòu)成的檢索提問(wèn)式,邏輯算符AND、OR、NOT的運(yùn)算次序,在不同的檢索系統(tǒng)中有不同的規(guī)定。在有括號(hào)的情況下,括號(hào)內(nèi)的邏輯運(yùn)算先執(zhí)行。在無(wú)括號(hào)的情況下,有下列幾種處理順序:

NOT最先執(zhí)行,AND其次執(zhí)行,OR最后執(zhí)行。AND最先執(zhí)行,NOT其次執(zhí)行,OR最后執(zhí)行。OR最先執(zhí)行,AND其次執(zhí)行,NOT最后執(zhí)行。按自然順序,AND、OR、NOT誰(shuí)在先就先執(zhí)行誰(shuí)。檢索時(shí),要事先了解檢索系統(tǒng)的規(guī)定,避免邏輯運(yùn)算次序處理不當(dāng)而造成錯(cuò)誤的檢索結(jié)果。因?yàn)?,?duì)同一個(gè)布爾邏輯提問(wèn)式,不同的運(yùn)算次序會(huì)有不同的檢索結(jié)果。512024/2/264.2截詞檢索截詞檢索:就是把檢索詞截?cái)?,取其中的一部分,在加上截詞符號(hào)一起進(jìn)行檢索。主要用于檢索詞的單復(fù)數(shù)、詞性的詞尾變化、詞根相同的一類詞,以及同一詞的拼法變異等。截詞的作用:采用截詞檢索表達(dá)式,既能防止漏檢,又能節(jié)省時(shí)間,能有效提高檢索效率。截詞符的使用:利用截詞檢索時(shí),注意截詞的部位,一定不能截的太深,否則誤檢率會(huì)很大。常用的截詞符有:“?”、“*”、“$”、“#”截詞方法無(wú)限截?cái)啵杭丛撛~根后可跟任何字符,且字符數(shù)不限;如:child*,可查到child,children,childish,childhood等所有以child開頭的單詞。如:coumput?,可檢出Compute,Computer,Computing,computable

有限截?cái)啵杭丛撛~根后至多可跟n個(gè)字符,如需要n個(gè)有限詞符截詞,請(qǐng)輸入n個(gè)?即可;如,輸入stud???表示截3個(gè)字母,可檢出帶有study、studies、studing等的文獻(xiàn)。中間截?cái)啵河址Q前后方一致,允許檢索詞中間有若干變化。如,wom?n可以檢索出:woman,women532024/2/264.3位置運(yùn)算檢索位置算符:表示其連接的兩個(gè)檢索詞之間的位置關(guān)系,不同的系統(tǒng)有不同的位置算符,以DIALOG系統(tǒng)為例:(W)與(nW)算符—with的縮寫。表示其連接的兩個(gè)檢索詞必須按序出現(xiàn),中間不允許插詞,只能有一空格或標(biāo)點(diǎn)、符號(hào)。如:high(W)class(N)與(nN)算符—near的縮寫。表示其連接的兩個(gè)檢索詞的順序可以互易,但兩詞間不允許插詞。(nN)中的n表示允許插詞量少于或等于n個(gè)。

如:internet(N)accessing

命中記錄中匹配詞可能有:internetaccessing,accessinginternet。(S)算符—Subfield的縮寫。表示其連接的兩個(gè)檢索詞必須出現(xiàn)在同一子字段中。子字段是指字段中的一部分,如一句句子,一個(gè)詞組、短語(yǔ)。字段不限,詞序不限。

如:silicon(S)sensor

命中記錄出現(xiàn)的匹配情況如:

Avacuummagneticsensor(VMS)usingasiliconfieldemittertipwasfabricatedanddemonstrated.(F)算符—Field的縮寫。表示其連接的兩個(gè)檢索詞必須出現(xiàn)在同一字段中,字段不限,詞序不限。552024/2/26

4.4字段限制針對(duì)特定年代、特定類別、特定檢索點(diǎn)等作限制,包括前綴限制符和后綴限制符562024/2/26后綴限制符例如:

/TI限在題目中查

/AB限在文摘中查

/DE限在敘詞標(biāo)引中查前綴限制符例如:

AU=限查特定作者

JN=限查特定刊名

LA=限查特定語(yǔ)種

PN=限查特定專利號(hào)

PY=限查特定年代5信息檢索的方法檢索方法是指查尋文獻(xiàn)信息的具體方法。選擇科學(xué)有效的檢索方法,對(duì)廣、快、精、準(zhǔn)地獲取文獻(xiàn)信息,提高檢索效率,是非常重要的。572024/2/26文獻(xiàn)的檢索方法主要有以下幾種類型直查法指直接從有關(guān)的一次文獻(xiàn)中獲取所需信息的檢索方法追溯法指利用引文關(guān)系獲取所需文獻(xiàn)信息的檢索方法工具法利用檢索工具或檢索系統(tǒng)獲取所需文獻(xiàn)信息的檢索方法順查法、倒查法、抽查法綜合法又稱循環(huán)法,是指將直查法、追溯法、工具法綜合運(yùn)用的檢索方法交替檢索、分段檢索、間隔檢索

582024/2/26第6節(jié)信息檢索的策略信息檢索是一項(xiàng)實(shí)踐性很強(qiáng)的活動(dòng)。俗話說(shuō):“熟能生巧”,只有在較長(zhǎng)期的檢索活動(dòng)中舍得花氣力,才能逐步掌握檢索規(guī)律,使自己成為信息的主人。文獻(xiàn)信息檢索過(guò)程,是根據(jù)課題的要求,使用一定的工具,按照可行的步驟、方法、途徑,查尋文獻(xiàn)線索或事實(shí)、數(shù)據(jù),獲取所需信息的過(guò)程。手工檢索與計(jì)算機(jī)檢索在步驟與方法上有共性,但也各有特點(diǎn)。592024/2/266.1信息檢索步驟*分析課題,確定檢索目標(biāo)選擇檢索詞,制定檢索策略選擇數(shù)據(jù)庫(kù)上機(jī)檢索及調(diào)整檢索策略輸出和分析結(jié)果602024/2/26

明確檢索的目的明確用戶是要查新、查參考資料還是查詢論文被收錄或引用情況等,以便對(duì)檢索的查準(zhǔn)、查全和時(shí)間范圍的指標(biāo)要求有一個(gè)大致的了解,從而制定出符合情況的檢索策略。

課題分析對(duì)課題內(nèi)容進(jìn)行分析,找出核心概念和隱含概念,排除無(wú)關(guān)的概念,明確概念之間相互的邏輯關(guān)系。612024/2/261、分析課題,確定檢索目標(biāo)具體可從以下幾方面著手:(1)分析主題內(nèi)容。通過(guò)主題分析,形成檢索需要的主題概念,以便確定檢索途徑。(2)分析課題所涉及的內(nèi)容及學(xué)科范圍,以便確定有關(guān)檢索標(biāo)識(shí)(分類號(hào))及選擇合適的檢索工具或檢索文檔。(3)分析課題所需信息的類型,包括文獻(xiàn)媒體、出版類型、所需文獻(xiàn)量、年代范圍、涉及語(yǔ)種、有關(guān)著者、機(jī)構(gòu)等。622024/2/26(4)確定課題對(duì)查新、查準(zhǔn)和查全的指標(biāo)要求。若要了解某學(xué)科理論、課題、工藝過(guò)程等最新進(jìn)展和動(dòng)態(tài),則要檢索最近的文獻(xiàn)信息,強(qiáng)調(diào)“新”字;若要解決研究中某具體問(wèn)題,找出技術(shù)方案,則要檢索有針對(duì)性、能解決實(shí)際問(wèn)題的文獻(xiàn)信息,強(qiáng)調(diào)“準(zhǔn)”字;若要撰寫綜述、述評(píng)或?qū)V?,要了解課題、事件的前因后果、歷史和發(fā)展,則要檢索詳盡、全面、系統(tǒng)的文獻(xiàn)信息,強(qiáng)調(diào)“全”字。632024/2/262、選擇檢索詞,制定檢索策略642024/2/26選擇檢索詞:是表達(dá)文獻(xiàn)信息需求的基本元素,是計(jì)算機(jī)檢索系統(tǒng)中有關(guān)數(shù)據(jù)庫(kù)進(jìn)行匹配的基本單元。原則一對(duì)課題進(jìn)行主題分析,掌握課題的內(nèi)容實(shí)質(zhì),檢索詞應(yīng)緊密切合課題,詞義明確、具體,表達(dá)概念清晰,不可使用過(guò)于寬泛、含義不確切的詞匯。原則二分析課題切忌局限于字面,應(yīng)著重從詞義入手,找出最能代表主題概念的若干檢索詞,以保證概念抽取準(zhǔn)確,完整表達(dá)檢索要求。652024/2/26選詞原則(1)該詞的所有拼寫形式和方法(包括同義詞,

元素和元素符號(hào)、縮寫和全稱等)(2)該詞的廣義詞、狹義詞、相關(guān)詞及多義詞等。(3)確定檢索詞和詞的截?cái)嗖课唬{(diào)整詞之間的位置關(guān)系及組配關(guān)系。(4)對(duì)于泛指的主題概念詞,應(yīng)選用其包容特性的具體內(nèi)容來(lái)表達(dá)。662024/2/26選擇檢索詞應(yīng)注意問(wèn)題方法一:切分

以詞為單位,對(duì)課題語(yǔ)句進(jìn)行拆分例:土地荒漠化的氣候特征土地荒漠化氣候特征環(huán)境監(jiān)測(cè)與評(píng)價(jià)環(huán)境監(jiān)測(cè)環(huán)境評(píng)價(jià)方法二:刪除

去除禁用詞及不具檢索意義的詞匯例:中成藥常見劑型中成藥劑型染料電化學(xué)性能的研究染料電化學(xué)性能方法三:置換

用含義明確的詞匯替換原課題用語(yǔ)例:集裝箱探測(cè)集裝箱射線輻射成像食品綠色包裝食品包裝無(wú)污染可降解方法四:增補(bǔ)

分析隱含概念,挖掘潛在的主題詞例:高層建筑優(yōu)化設(shè)計(jì)高層建筑優(yōu)化設(shè)計(jì)結(jié)構(gòu)設(shè)計(jì)垃圾處理垃圾回收再生無(wú)害化制定檢索式就是指計(jì)算機(jī)信息檢索系統(tǒng)中用來(lái)表達(dá)檢索提問(wèn)的邏輯表達(dá)式,由檢索詞和各種運(yùn)算符及系統(tǒng)規(guī)定的其它組配符構(gòu)成。合理運(yùn)用邏輯運(yùn)算符構(gòu)造檢索式。符號(hào)的使用一定要正確、符合概念邏輯,并力求簡(jiǎn)潔、優(yōu)化,還應(yīng)注意運(yùn)算符的優(yōu)先級(jí)和括號(hào)的使用。例如:纖維混凝土與既有混凝土粘結(jié)性能及施工技術(shù)

1.(纖維混凝土+新混凝土)*(既有混凝土+老混凝土)*粘結(jié)*(剪切+劈拉+抗?jié)B+抗凍+斷裂+收縮)

2.(fiberornew)(2w)old(3w)concrete??(7n)(bond?????oradherenceoradhesi??)and(shear????orsplit?????orcleavageorfractureorruptureorshrinkageorcontractionorfrostorfreez????orpermeability)712024/2/263、選擇數(shù)據(jù)庫(kù)或檢索工具根據(jù)檢索目標(biāo),確定檢索目的、涉及的學(xué)科范圍和信息類型,選擇合適的數(shù)據(jù)庫(kù)。具體選擇過(guò)程中還應(yīng)考慮數(shù)據(jù)庫(kù)的類型(參考、全文還是電子期刊)、內(nèi)容(專利、標(biāo)準(zhǔn)、會(huì)議)、收錄的數(shù)據(jù)學(xué)科范圍、數(shù)據(jù)庫(kù)的更新周期,收錄文獻(xiàn)的語(yǔ)種等因素。例如,要看全文就要選用全文數(shù)據(jù)庫(kù)或電子期刊;要查標(biāo)準(zhǔn)或?qū)@鸵x擇標(biāo)準(zhǔn)庫(kù)或?qū)@麕?kù)722024/2/264.確定檢索途徑進(jìn)行信息檢索時(shí),總是以文獻(xiàn)的某種特征作為出發(fā)點(diǎn),按一定的途徑進(jìn)行的。一般地說(shuō),文獻(xiàn)的內(nèi)容特征和外表特征都可以成為檢索的出發(fā)點(diǎn)。4.1內(nèi)部特征途徑(根據(jù)課題內(nèi)容特征查找有關(guān)文獻(xiàn)資料)與文獻(xiàn)信息主題內(nèi)容密切相關(guān)的檢索標(biāo)識(shí)稱為文獻(xiàn)信息的內(nèi)部特征。表達(dá)文獻(xiàn)信息內(nèi)容特征的檢索標(biāo)識(shí)主要有各種形式的主題詞和分類號(hào)。文獻(xiàn)內(nèi)容特征的檢索途徑包括:分類途徑、主題途徑(標(biāo)題、關(guān)鍵詞、主題詞、文摘、全文)732024/2/264.2外部特征途徑與文獻(xiàn)信息主題內(nèi)容沒有關(guān)系或關(guān)系不大的信息稱為文獻(xiàn)信息的外表特征表達(dá)文獻(xiàn)外部特征的檢索標(biāo)識(shí)有:著者、著者單位、文獻(xiàn)出處、專利號(hào)、報(bào)告號(hào)等。1)題名途徑:根據(jù)文獻(xiàn)題名來(lái)檢索文獻(xiàn)的途徑2)作者途徑:根據(jù)已知作者姓名查找文獻(xiàn)的途徑3)文獻(xiàn)出處:根據(jù)期刊名稱、年、卷、期號(hào)途徑742024/2/265、實(shí)際檢索調(diào)整檢索策略

在手工檢索條件下,通過(guò)手翻、眼看、思考作出判斷,尋找相應(yīng)的分類號(hào)、主題詞、著者姓名、代碼等,瀏覽其中著錄的文獻(xiàn),選出對(duì)口文獻(xiàn)。在計(jì)算機(jī)檢索條件下,需輸入檢索邏輯表達(dá)式,由計(jì)算機(jī)進(jìn)行查找和掃描,并打印或顯示出命中結(jié)果。聯(lián)機(jī)檢索時(shí),需要在終端呼叫通訊線路,用口令字表明自己是合法用戶,進(jìn)入檢索系統(tǒng)并開始檢索對(duì)話。在這些過(guò)程中都需要使用檢索系統(tǒng)認(rèn)可的“檢索指令”。752024/2/265、實(shí)際檢索及調(diào)整檢索策略

檢索后通過(guò)查看文獻(xiàn)檢索結(jié)果數(shù)量的多少或相關(guān)程度的高低,可以評(píng)價(jià)檢索策略的好壞。通常情況下,需要多次修改檢索策略,直到檢索結(jié)果滿意為止。在實(shí)際檢索中,當(dāng)放寬檢索以提高查全率時(shí),就會(huì)降低查準(zhǔn)率;反之,當(dāng)縮小檢索范圍以提高查準(zhǔn)率時(shí),就會(huì)降低查全率。因此要正確分析誤檢、漏檢原因,及時(shí)調(diào)整策略。762024/2/26調(diào)整檢索策略的具體方法擴(kuò)大檢索范圍的措施降低檢索詞的專指度,可從詞表或檢出文獻(xiàn)中選擇泛指詞。調(diào)節(jié)檢索式的網(wǎng)羅度,如刪除某個(gè)不重要的檢索詞。進(jìn)行族性檢索,可用分類號(hào)或用OR連接一組同義詞和近義詞。取消某些限制過(guò)嚴(yán)的限制符。772024/2/26縮小檢索范圍的措施提高檢索詞的專指度。增加AND連接,進(jìn)一步限定主題詞。把檢索詞限定在主要字段,如標(biāo)題字段、主題詞字段等??s短檢索年限,或限定某些刊物。782024/2/266、輸出和分析結(jié)果

檢索完成后,采用一定的輸出方式(套錄或打?。┖透袷捷敵鰴z索結(jié)果。各個(gè)數(shù)據(jù)庫(kù)提供了多種輸出格式,每種格式能得到的文獻(xiàn)內(nèi)容特征和外表特征都不一樣,一般情況下,文獻(xiàn)檢索中篇名、

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論