版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
信息資源檢索基礎(chǔ)知識(shí)第一頁,共九十四頁,2022年,8月28日信息資源檢索找什么?What網(wǎng)上資源分布怎么找?Where檢索原理與技巧怎么下載?How下載技巧第二頁,共九十四頁,2022年,8月28日第一節(jié)
信息資源檢索概述
信息資源檢索的概念與類型
信息資源檢索系統(tǒng)與數(shù)據(jù)庫
第三頁,共九十四頁,2022年,8月28日1、信息資源檢索的概念
從信息資源集合中找出所需信息內(nèi)容的過程。一、信息資源檢索的概念與類型
要求:高效、快速、準(zhǔn)確、正確、全面、新穎原始文獻(xiàn)加工整理數(shù)據(jù)庫提問檢索輸出存儲(chǔ)檢索第四頁,共九十四頁,2022年,8月28日
2、信息資源檢索的類型
(1)按檢索內(nèi)容劃分
文獻(xiàn)信息檢索數(shù)據(jù)信息檢索
事實(shí)信息檢索
書目信息檢索全文信息檢索從檢索系統(tǒng)存儲(chǔ)的數(shù)據(jù)中查出用戶所需數(shù)據(jù)的檢索
對(duì)特定的事件或事實(shí)的檢索
以與課題相關(guān)的一系列書目信息線索為檢索對(duì)象,如標(biāo)題、作者、摘要、來源、收藏處所等以與課題相關(guān)的論文或?qū)@f明書等的全文為檢索對(duì)象第五頁,共九十四頁,2022年,8月28日(2)按信息資源檢索技術(shù)劃分
全文文本檢索
超文本檢索
超文本的檢索是通過超文本鏈接來實(shí)現(xiàn)的,超文本鏈接起信息導(dǎo)向作用,用戶在從一個(gè)頁面轉(zhuǎn)向另一個(gè)頁面的過程中獲取自己所需要的信息。多媒體檢索
網(wǎng)絡(luò)信息檢索
是一種集合各種新型檢索技術(shù)于一體,能夠?qū)Ω鞣N類型,各種媒體的信息進(jìn)行跨時(shí)間、跨地理檢索的大系統(tǒng)。
指能夠支持兩種以上媒體的數(shù)據(jù)庫檢索
通過計(jì)算機(jī)將文件的全貌包括文字和圖形、圖像等信息轉(zhuǎn)換成計(jì)算機(jī)可讀形式,采用自然語言進(jìn)行檢索。
第六頁,共九十四頁,2022年,8月28日1、信息資源檢索系統(tǒng)的概念用于報(bào)道、存貯與查找信息的工具。(檢索工具)二、信息資源檢索系統(tǒng)與數(shù)據(jù)庫
檢索系統(tǒng)
信息標(biāo)引和存儲(chǔ)
信息的需求分析和檢索第七頁,共九十四頁,2022年,8月28日2、信息資源檢索系統(tǒng)的類型按著錄方式劃分按存儲(chǔ)介質(zhì)劃分按檢索手段劃分手工檢索系統(tǒng)、計(jì)算機(jī)檢索系統(tǒng)、穿孔卡片系統(tǒng)、縮微品檢索系統(tǒng)脫機(jī)檢索系統(tǒng)、聯(lián)機(jī)檢索系統(tǒng)、光盤檢索系統(tǒng)、網(wǎng)絡(luò)檢索系統(tǒng)目錄、題錄、文摘、參考工具、全文數(shù)據(jù)庫和搜索引擎
第八頁,共九十四頁,2022年,8月28日目錄
是對(duì)一批相關(guān)文獻(xiàn)外表特征的揭示和報(bào)道,是有序的文獻(xiàn)清單。信息檢索/劉俊熙、王立義編著.——北京:北京圖書館出版社,2002.10233頁;16厘米ISBN7-5013-1953-7I.信…II.劉…;王…III.情報(bào)檢索卡片目錄、書本目錄著錄格式
如下:第九頁,共九十四頁,2022年,8月28日電子目錄著錄格式
如下:第十頁,共九十四頁,2022年,8月28日題錄對(duì)文獻(xiàn)外表特征的描述,題錄一般以內(nèi)容上獨(dú)立的文獻(xiàn)單元,如一篇文章或書中某一部分以至整個(gè)出版物作為其著錄的基本單位。
題錄著錄格式
如下:030301007網(wǎng)絡(luò)時(shí)代的管理創(chuàng)新/高維鈁(北京郵電大學(xué)文法經(jīng)濟(jì)學(xué)院)//經(jīng)濟(jì)管理.——2002,13(6),53-55記錄號(hào)題名著者姓名著者單位原文出處第十一頁,共九十四頁,2022年,8月28日
與目錄區(qū)別著錄對(duì)象不同目錄單位出版物題錄單篇文獻(xiàn)第十二頁,共九十四頁,2022年,8月28日不僅描述文獻(xiàn)的外表特征,而且還揭示文獻(xiàn)的內(nèi)容特征,是帶有文摘內(nèi)容的、擴(kuò)展了的題錄。文摘
印刷版本文摘著錄格式如下:9807471OODB中的模式更改框架[刊,中]/郭江//計(jì)算機(jī)應(yīng)用與軟件.——1997,14(3).——23-34模式演化是面向?qū)ο笙到y(tǒng)中的一個(gè)關(guān)鍵問題。由于OODB(面向?qū)ο髷?shù)據(jù)庫系統(tǒng))的應(yīng)用……。參4文摘號(hào)題名文獻(xiàn)類型文種著者姓名原始文獻(xiàn)的出處摘要參考文獻(xiàn)數(shù)目第十三頁,共九十四頁,2022年,8月28日電子版本文摘著錄格式
如下:第十四頁,共九十四頁,2022年,8月28日著錄項(xiàng)目著者篇名出處摘要第十五頁,共九十四頁,2022年,8月28日問題:以下是不是一條文摘記錄?【文摘】詳細(xì)研究了雙螺桿中反應(yīng)擠出聚合物的動(dòng)力學(xué)模型、流動(dòng)模型和傳熱模型。通過實(shí)驗(yàn)得到了雙螺桿反應(yīng)器中聚合物的停留時(shí)間分布及平均停留時(shí)間。第十六頁,共九十四頁,2022年,8月28日參考工具能為讀者提供各種所需的具體資料的工具
全文數(shù)據(jù)庫
全文數(shù)據(jù)庫以原始文獻(xiàn)為著錄單元,信息用戶可以得到文獻(xiàn)的全文或者某個(gè)具體的章節(jié)。搜索引擎
搜索引擎是以網(wǎng)頁為著錄單元的一種網(wǎng)絡(luò)檢索工具。第十七頁,共九十四頁,2022年,8月28日3、數(shù)據(jù)庫數(shù)據(jù)庫的定義
至少由一種文檔組成,并能滿足某一特定目的或某一特定數(shù)據(jù)處理系統(tǒng)需要的一種數(shù)據(jù)集合。第十八頁,共九十四頁,2022年,8月28日數(shù)據(jù)庫的組成:數(shù)據(jù)庫由很多條文獻(xiàn)、數(shù)據(jù)記錄組成,主要有“文檔—記錄—字段”三個(gè)層次。第十九頁,共九十四頁,2022年,8月28日文檔(file)
也稱文件,在邏輯上是由大量性質(zhì)相同的記錄組成的集合,它是書目數(shù)據(jù)庫和信息檢索系統(tǒng)中數(shù)據(jù)組織的基本形式,包括順排文檔和倒排文檔。
順排文檔
數(shù)據(jù)庫的全部記錄按照記錄號(hào)的大小排列而成的信息集合第二十頁,共九十四頁,2022年,8月28日順排文檔的記錄排列示意:記錄號(hào)
主題詞
1
2
3計(jì)算機(jī)、軟件、安全
網(wǎng)絡(luò)、安全、軟件
軟件、網(wǎng)絡(luò)
第二十一頁,共九十四頁,2022年,8月28日倒排文檔
按數(shù)據(jù)庫中記錄的檢索標(biāo)識(shí)(主題、著者等)的某種順序排列起來的文檔。第二十二頁,共九十四頁,2022年,8月28日主題詞
計(jì)算機(jī)
軟件1、2、3
1
1、3記錄號(hào)
安全
2、3
網(wǎng)絡(luò)倒排文檔的記錄排列示圖:第二十三頁,共九十四頁,2022年,8月28日記錄(record)
記錄是機(jī)器可存取的基本單位,由若干個(gè)字段組成。
字段(field)
字段是記錄的基本單元,用于描述事物的某一屬性,字段與文獻(xiàn)記錄中的著錄項(xiàng)相對(duì)應(yīng)。第二十四頁,共九十四頁,2022年,8月28日數(shù)據(jù)庫的類型:按照國際上通用的分類方法,通常劃分為參考數(shù)據(jù)庫和源數(shù)據(jù)庫。#參考數(shù)據(jù)庫(ReferenceDatabase)參考數(shù)據(jù)庫是指用戶在這些數(shù)據(jù)庫中獲取信息線索后,還需要進(jìn)一步查找原文或其他資料的一類數(shù)據(jù)庫。
參考數(shù)據(jù)庫書目數(shù)據(jù)庫:存儲(chǔ)某個(gè)學(xué)科領(lǐng)域的二次信息資源的數(shù)據(jù)庫
指南數(shù)據(jù)庫:存儲(chǔ)能夠提供用戶參考、給予用戶指南的各類信息
第二十五頁,共九十四頁,2022年,8月28日#源數(shù)據(jù)庫(SourceDatabase)
在歐洲也稱作數(shù)據(jù)銀行(DataBank)。它是能夠直接為用戶提供原始資料或具體數(shù)據(jù)的一類數(shù)據(jù)庫。
源數(shù)據(jù)庫數(shù)值型數(shù)據(jù)庫
文本-數(shù)值數(shù)據(jù)庫
全文數(shù)據(jù)庫
術(shù)語數(shù)據(jù)庫
圖像數(shù)據(jù)庫
新聞數(shù)據(jù)庫
第二十六頁,共九十四頁,2022年,8月28日第二節(jié)信息資源檢索語言存儲(chǔ)檢索文獻(xiàn)信息提問檢索系統(tǒng)(數(shù)據(jù)庫)(語言)(語言)體系分類語言關(guān)鍵詞語言第二十七頁,共九十四頁,2022年,8月28日
檢索語言是信息資源存儲(chǔ)和檢索的共同語言。其實(shí)質(zhì)是從自然語言中精選出來并加以規(guī)范化的一套詞匯符號(hào),是概括信息資源內(nèi)容特征或外在特征及相互關(guān)系的概念標(biāo)識(shí)體系。
一、檢索語言的概念第二十八頁,共九十四頁,2022年,8月28日二、檢索語言的種類2、按文獻(xiàn)信息資源的特征劃分
1、按規(guī)范化程度劃分第二十九頁,共九十四頁,2022年,8月28日1、按規(guī)范化程度劃分人工語言
人為對(duì)標(biāo)引詞和檢索詞加以控制和規(guī)范,使每個(gè)檢索詞只能表達(dá)一個(gè)概念
自然語言直接從原始信息中抽取出自由詞作為檢索點(diǎn)的檢索語言
第三十頁,共九十四頁,2022年,8月28日檢索語言的類型表述文獻(xiàn)外表特征的語言表述文獻(xiàn)內(nèi)容特征的語言題名(書名、刊名、篇名)責(zé)任者(個(gè)人、機(jī)構(gòu)名稱)號(hào)碼(如專利號(hào)、標(biāo)準(zhǔn)號(hào)、報(bào)告號(hào)、ISBN號(hào)、ISSN號(hào)等)引文分類法主題法2、按文獻(xiàn)信息資源的特征劃分體系分類法組配分類法標(biāo)題詞語言單元詞語言敘詞語言關(guān)鍵詞語言第三十一頁,共九十四頁,2022年,8月28日分類語言類性質(zhì)上彼此相同的事物物以類聚,人以群分
分類語言也稱分類法,它是用分類號(hào)表達(dá)主題概念,依據(jù)知識(shí)分類將各主題概念按學(xué)科性質(zhì)進(jìn)行分類和系統(tǒng)排列成類目體系的標(biāo)引語言。第三十二頁,共九十四頁,2022年,8月28日體系分類法
直接體現(xiàn)知識(shí)分類的等級(jí)概念科學(xué)分類基礎(chǔ)
對(duì)象文獻(xiàn)內(nèi)容的學(xué)科性質(zhì)按照知識(shí)門類的邏輯次序知識(shí)類1類2類3類21類22類23………上位類同位類下位類第三十三頁,共九十四頁,2022年,8月28日自然科學(xué)社會(huì)科學(xué)哲學(xué)馬列毛鄧綜合性圖書ABC—K(9)N—X(10)Z
分成5個(gè)基本部類,基本部類是對(duì)人類全部知識(shí)作最概括的劃分。
由基本部類劃分出22個(gè)基本大類,基本大類是較為概括的大學(xué)科領(lǐng)域的劃分,用由A到Z的22個(gè)字母表示。
體系分類法中國圖書館圖書分類法簡稱中圖法第三十四頁,共九十四頁,2022年,8月28日中圖法簡表如下A馬列、毛澤東思想N自然科學(xué)總論B哲學(xué)、宗教O數(shù)理科學(xué)和化學(xué)C社會(huì)科學(xué)總論P(yáng)天文學(xué)、地球科學(xué)D政治、法律Q生物科學(xué)E軍事R醫(yī)藥、衛(wèi)生F經(jīng)濟(jì)S農(nóng)業(yè)科學(xué)G文化、科學(xué)、教育T工業(yè)技術(shù)H語言、文字U交通運(yùn)輸I文學(xué)V航空、航天J藝術(shù)X環(huán)境科學(xué)、安全科學(xué)K歷史、地理Z綜合性圖書第三十五頁,共九十四頁,2022年,8月28日C社會(huì)科學(xué)總論
C8統(tǒng)計(jì)學(xué)
C91社會(huì)學(xué)
C92人口學(xué)
C93管理學(xué)
C931
管理技術(shù)方法.1管理數(shù)學(xué).2管理的方式方法
……
C933領(lǐng)導(dǎo)學(xué)
C934
決策學(xué)
C935
管理計(jì)劃和控制
C936
管理組織學(xué)
C939
應(yīng)用管理學(xué)第三十六頁,共九十四頁,2022年,8月28日將T類展開第三十七頁,共九十四頁,2022年,8月28日T工業(yè)技術(shù)
TB一般工業(yè)技術(shù)4
工業(yè)通用技術(shù)設(shè)備48
包裝工程482
包裝設(shè)計(jì).1紙、紙板.2林材.3塑料
…….其他485
包裝類型486
包裝機(jī)械設(shè)備487
包裝技術(shù)檢測488
包裝工廠489
各類產(chǎn)品包裝第三十八頁,共九十四頁,2022年,8月28日TP自動(dòng)化技術(shù)、計(jì)算技術(shù)TP1自動(dòng)化基礎(chǔ)理論TP2自動(dòng)化技術(shù)及設(shè)備TP3計(jì)算技術(shù)、計(jì)算機(jī)…TP31計(jì)算機(jī)軟件…TP311程序設(shè)計(jì)、軟件工程TP312程序語言、算法語言TP313匯編語言TP316操作系統(tǒng)…TP316.1分時(shí)操作系統(tǒng)TP316.2實(shí)時(shí)操作系統(tǒng)TP316.3批處理…TP20一般性問題
TP21自動(dòng)化元件、部件TP23自動(dòng)化裝置與設(shè)備TP24機(jī)器人技術(shù)TP27自動(dòng)化系統(tǒng)TP29自動(dòng)化技術(shù)在各方面的應(yīng)用第三十九頁,共九十四頁,2022年,8月28日主題語言概念:
主題語言是采用表達(dá)某一事物或概念的名詞術(shù)語來標(biāo)引、存儲(chǔ)、檢索的一種檢索語言。標(biāo)題詞語言直接用規(guī)范化語詞來標(biāo)引文獻(xiàn)主題,按字順排列成詞表。主-副搭配第四十頁,共九十四頁,2022年,8月28日單元詞語言采用單元詞通過組配(字面)來表達(dá)文獻(xiàn)的主題概念。單元詞是從文獻(xiàn)中抽取的,能表達(dá)文獻(xiàn)主題的最基本、不能再分的單元詞語。敘詞語言采用敘詞通過概念組配來表達(dá)文獻(xiàn)的主題概念。敘詞是從文獻(xiàn)內(nèi)容中抽取的,能表達(dá)文獻(xiàn)內(nèi)容基本概念的并經(jīng)過規(guī)范化的名詞或術(shù)語。第四十一頁,共九十四頁,2022年,8月28日字面組配與概念組配在形式上有時(shí)相同,有時(shí)不同;而從性質(zhì)上來看兩者區(qū)別是很大的。字面組配是詞的分析與組合(拆詞);概念組配是概念的分析與綜合(拆義)。例如:
字面組配
概念組配模擬+控制-->模擬控制
模擬+控制-->模擬控制
彩虹電器彩虹+電器
彩虹牌商品+電器
第四十二頁,共九十四頁,2022年,8月28日
第一例中,無論是字面組配還是概念組配,其結(jié)果都是“模擬控制”。第二例中,根據(jù)字面組配原理,“彩虹”和“電器”組配是“彩虹、電器”,而概念組配的結(jié)果應(yīng)是“彩虹品牌”和“電器”兩個(gè)詞組配,才符合概念邏輯。第四十三頁,共九十四頁,2022年,8月28日以關(guān)鍵詞作為文獻(xiàn)內(nèi)容標(biāo)識(shí)和檢索入口的一種主題語言。關(guān)鍵詞是直接從文獻(xiàn)中抽取的,未經(jīng)規(guī)范化處理的自由詞。關(guān)鍵詞語言第四十四頁,共九十四頁,2022年,8月28日例:標(biāo)引課題“微機(jī)在企業(yè)管理中的應(yīng)用”標(biāo)題詞標(biāo)引:
企業(yè)管理----計(jì)算機(jī)應(yīng)用敘詞標(biāo)引:
企業(yè)管理、計(jì)算機(jī)應(yīng)用關(guān)鍵詞標(biāo)引:
企業(yè)管理、微機(jī)、微機(jī)應(yīng)用、計(jì)算機(jī)、計(jì)算機(jī)應(yīng)用分類標(biāo)引:C93、TP319第四十五頁,共九十四頁,2022年,8月28日其他劃分方式:按組配方式先組式語言
指在檢索前檢索詞已按固定關(guān)系組配好,并編制在詞表中
后組式語言
是指在檢索前,檢索詞在詞表中沒有被預(yù)先組配,檢索時(shí)用戶可根據(jù)不同的檢索需求對(duì)某些詞進(jìn)行任意組配第四十六頁,共九十四頁,2022年,8月28日三、主要詞表工程標(biāo)題詞表Ei敘詞表
INSPEC敘詞表
漢語主題詞表
第四十七頁,共九十四頁,2022年,8月28日第三節(jié)信息資源檢索技術(shù)檢索策略與檢索步驟
檢索方式
檢索點(diǎn)與檢索詞檢索算符檢索功能
第四十八頁,共九十四頁,2022年,8月28日一、檢索策略與檢索步驟
廣義為實(shí)現(xiàn)檢索目標(biāo)而制定的全盤計(jì)劃或方案狹義
檢索式
1、檢索策略第四十九頁,共九十四頁,2022年,8月28日2、檢索步驟
1、課題分析2、選擇檢索系統(tǒng)(數(shù)據(jù)庫)3、選擇檢索點(diǎn)和檢索詞4、制定檢索式
(由檢索點(diǎn)、檢索詞、檢索算符組成)例:AB=金融網(wǎng)絡(luò)andAU=張杰5、調(diào)整檢索策略6、獲取原文第五十頁,共九十四頁,2022年,8月28日二、檢索方式
1、瀏覽方式分類瀏覽:按學(xué)科類別瀏覽。可點(diǎn)擊“分類導(dǎo)航”或“分類表”中的任何一個(gè)類別,接著顯示所點(diǎn)擊類別的下屬子類,如此類推。字順瀏覽:按檢索詞首字母為序,提供相應(yīng)檢索字段的瀏覽。如按出版物名稱字順、著者姓名字順等。
第五十一頁,共九十四頁,2022年,8月28日2、查詢方式
初級(jí)檢索:也稱快速檢索、基本檢索。利用初級(jí)檢索系統(tǒng)能進(jìn)行快速方便的查詢,適用于不熟悉多條件組合查詢或SQL語句查詢的用戶。
高級(jí)檢索:也稱擴(kuò)展檢索。高級(jí)檢索可進(jìn)行多個(gè)條件的組合檢索,即多個(gè)字段之間有一定邏輯關(guān)系(and,or,not)的檢索。專家檢索:也稱專業(yè)檢索。檢索式中可同時(shí)使用檢索詞、邏輯算符(如AND,OR,NOT,ANDNOT)、字段標(biāo)識(shí)符、鄰近算符(如NEAR,ADJ等)、截詞符等多種算符,創(chuàng)建更復(fù)雜的檢索式。二次檢索:在結(jié)果中檢索又稱為二次檢索,當(dāng)檢索結(jié)果太多,想從中精選出一部分時(shí),可使用二次檢索。第五十二頁,共九十四頁,2022年,8月28日三、檢索點(diǎn)與檢索詞檢索點(diǎn)=檢索途徑≈關(guān)鍵詞1、檢索點(diǎn)第五十三頁,共九十四頁,2022年,8月28日
檢索點(diǎn)(accesspoint)是檢索的出發(fā)點(diǎn),以前常用“檢索途徑”(approach)這一術(shù)語。在計(jì)算機(jī)檢索中,所有類型的檢索點(diǎn)形式上都表現(xiàn)為“關(guān)鍵詞”,但在數(shù)據(jù)庫檢索中,檢索點(diǎn)和關(guān)鍵詞的含義還是有所區(qū)別的。文獻(xiàn)信息特征是多方面的,用于文獻(xiàn)檢索的檢索點(diǎn)很多,反映文獻(xiàn)信息內(nèi)容特征的有:分類檢索和主題檢索;反映文獻(xiàn)外部特征的有:作者檢索、名稱檢索和號(hào)碼檢索等。第五十四頁,共九十四頁,2022年,8月28日文獻(xiàn)內(nèi)容特征分類檢索的檢索點(diǎn)主題檢索
文獻(xiàn)外部特征作者檢索的檢索點(diǎn)名稱檢索
號(hào)碼檢索
第五十五頁,共九十四頁,2022年,8月28日分類檢索:分類檢索是從文獻(xiàn)內(nèi)容所屬的學(xué)科類別出發(fā)來檢索文獻(xiàn),它依據(jù)的是一個(gè)可參照的分類體系。主題檢索:從反映文獻(xiàn)內(nèi)容的有關(guān)主題詞出發(fā)來檢索文獻(xiàn),主題是檢索點(diǎn),它對(duì)應(yīng)文獻(xiàn)主題概念。檢索按主題詞的音或形的字順進(jìn)行,其方式如查字典、詞典。主題詞有多種類型:有規(guī)范詞和自由詞,有單元詞和多元詞,有先組結(jié)構(gòu)和后組結(jié)構(gòu)等。主題詞的合理選擇與使用對(duì)檢索結(jié)果的優(yōu)劣直接相關(guān)。第五十六頁,共九十四頁,2022年,8月28日作者檢索:是從文獻(xiàn)的作者姓名出發(fā)來檢索其文獻(xiàn)?!白髡摺睆V義上還應(yīng)包括:匯編者、編者、主辦者、譯者等,此外,還有代表機(jī)構(gòu)、單位的團(tuán)體作者,包括作者所在單位。名稱檢索:是從各種事物的名稱出發(fā)來檢索文獻(xiàn)信息,包括書名、刊名、資料名、出版物名、出版社名、會(huì)議名、物質(zhì)名稱等等,也包括人名和機(jī)構(gòu)名。檢索的對(duì)象既包括對(duì)應(yīng)的文獻(xiàn),也包括有關(guān)的信息、事項(xiàng)等。號(hào)碼檢索:包括文獻(xiàn)的編號(hào)、代碼等,它們是文獻(xiàn)信息的一些特有的外部標(biāo)識(shí),號(hào)碼檢索點(diǎn)以號(hào)碼特征來檢索文獻(xiàn)信息。號(hào)碼多種多樣,通常用數(shù)字、字母或用它們結(jié)合的形式或以分段的方式來表示其各部分的含義。如科技報(bào)告有報(bào)告號(hào)、專利文獻(xiàn)有專利號(hào)等。第五十七頁,共九十四頁,2022年,8月28日2、檢索詞
檢索詞是表達(dá)信息需求的基本單元,也是與系統(tǒng)中有關(guān)數(shù)據(jù)庫進(jìn)行匹配運(yùn)算的基本單元。檢索詞選擇得當(dāng)與否,會(huì)直接影響檢索效果。檢索詞可分為兩類,一類是表示主題概念的名詞術(shù)語(如敘詞和關(guān)鍵詞),或者是個(gè)人或機(jī)構(gòu)的名稱(如作者姓名),另一類是某些特殊的符號(hào)(如分類號(hào)、代碼等)。
第五十八頁,共九十四頁,2022年,8月28日四、檢索算符
檢索算符也稱組配符,用于連接檢索點(diǎn)和檢索詞,表達(dá)檢索詞之間的關(guān)系,與檢索點(diǎn)、檢索詞共同構(gòu)成檢索式,表達(dá)用戶的檢索需求。第五十九頁,共九十四頁,2022年,8月28日1、邏輯算符通過標(biāo)準(zhǔn)的布爾邏輯關(guān)系詞來表達(dá)檢索詞與檢索詞之間邏輯關(guān)系的檢索方法。常用的邏輯算符有三種:NOT、AND、OR用NOT、AND縮檢,用OR擴(kuò)檢。一般搜索引擎空格代表AND。例如,計(jì)算機(jī)AND農(nóng)業(yè)、計(jì)算機(jī)OR農(nóng)業(yè)、計(jì)算機(jī)NOT農(nóng)業(yè)檢索出來的文獻(xiàn)是完全不同的。第六十頁,共九十四頁,2022年,8月28日
“與”
“與”是一種用于交叉概念或限定關(guān)系的組配,如圖所示??捎肁ND或and或*表示。AB
“或”
“或”是用于概念并列關(guān)系的一種組配,如圖所示??捎肙R或or或+表示。
“非”
“非”是用于概念刪除關(guān)系的一種組配,它可從原來檢索結(jié)果中剔除一部分不需要的內(nèi)容,如圖所示??捎肗OT或not或-表示。ABAB計(jì)算機(jī)*網(wǎng)絡(luò)A–B,AnotBA+B,AorBA*B,AandB第六十一頁,共九十四頁,2022年,8月28日
例如用戶想在題名中檢索有關(guān)新聞美學(xué)的文獻(xiàn),如只輸入“新聞”或“美學(xué)”,則命中文獻(xiàn)太多,且有許多不是自己所要的。如果輸入“新聞*美學(xué)”,則檢索出題名中同時(shí)含有“新聞”和“美學(xué)”的文獻(xiàn),檢索結(jié)果大大縮小。邏輯與(AND)*縮檢第六十二頁,共九十四頁,2022年,8月28日
換一個(gè)角度看,“邏輯與”又能防止漏檢。例如,用戶輸入“新聞美學(xué)”作為檢索詞,可命中《戈公振的新聞美學(xué)實(shí)踐》這樣的文獻(xiàn),但漏檢了《新聞的美學(xué)屬性》、《新聞標(biāo)題中的美學(xué)》這些文獻(xiàn)。如果用“新聞*美學(xué)”來進(jìn)行檢索,則上述三篇文獻(xiàn)都檢中。邏輯與(AND)*縮檢第六十三頁,共九十四頁,2022年,8月28日邏輯或(OR)+擴(kuò)檢
例如某用戶想查找研究杜甫的文獻(xiàn),檢索途徑選擇題名后,輸入“杜甫”,命中540篇。但考慮到研究杜甫的文獻(xiàn)題名中未必都出現(xiàn)“杜甫”兩字,也可能會(huì)出現(xiàn)“杜詩”、“李杜”,于是改用“杜甫+杜詩+李杜”表達(dá)式,結(jié)果命中608篇。第六十四頁,共九十四頁,2022年,8月28日關(guān)于“優(yōu)先級(jí)”問題
當(dāng)布爾運(yùn)算符在一個(gè)檢索式中連續(xù)出現(xiàn)時(shí),它們的“級(jí)別”是不同的。大部分?jǐn)?shù)據(jù)庫是這樣規(guī)定的:-優(yōu)先級(jí)最高,*次之,+最低。例如要查找研究唐宋詩歌的文獻(xiàn),可以用“(唐+宋)*詩”、“唐*詩+宋*詩”,而不能用“唐+宋*詩”。“唐+宋*詩”查找的是含有“唐”的文獻(xiàn)或者同時(shí)含有“宋”和“詩”的文獻(xiàn),這樣就把涉及到的唐代、唐姓的文獻(xiàn)都找出來了。第六十五頁,共九十四頁,2022年,8月28日使用邏輯算符時(shí)應(yīng)注意的事項(xiàng):邏輯算符的優(yōu)先級(jí)為:NOT、AND、OR,可用括號(hào)來改變優(yōu)先順序。第六十六頁,共九十四頁,2022年,8月28日2、位置算符位置算符表示其連接的兩個(gè)檢索詞之間的位置關(guān)系,常用的有(W)(nW)(N)(nN)(L)(S)(F)等
第六十七頁,共九十四頁,2022年,8月28日(W)或()——with
表示算符兩側(cè)的檢索詞之間只能是空格或標(biāo)點(diǎn)符號(hào),不得有其他字母或詞,且詞序不能顛倒。(nW)——nwords
表示兩個(gè)詞之間可插入n個(gè)詞,且詞序不可顛倒。例如:double(W)digit
表示具有doubledigit和double-digit形式的文獻(xiàn)記錄為命中文獻(xiàn)。例如:Laser(1W)printer
表示具有Laserprinter和Lasercolourprinter形式的文獻(xiàn)記錄為命中文獻(xiàn)。第六十八頁,共九十四頁,2022年,8月28日
(nN)——Near
表示兩個(gè)詞之間最多可插入n個(gè)詞,詞序任意。
(N)——Near
表示在此算符兩側(cè)的檢索詞相鄰,且順序可以顛倒,但兩詞之間不可插入任何詞。例:intelligent(N)machine
可檢出intelligentmachine及machineintelligent等方面的信息。例:econom?(2N)recovery
可檢出表示“經(jīng)濟(jì)恢復(fù)”的以下詞語:economicrecovery,recoveryoftheeconomy,及recoveryfromtheeconomic第六十九頁,共九十四頁,2022年,8月28日(F)——Field
表示兩個(gè)詞必須在記錄中的同一個(gè)字段中出現(xiàn),如篇名字段、敘詞字段、文摘字段等,且詞序可變;夾在其間的其他詞數(shù)量也不限。(S)——Subfield
表示兩個(gè)詞必須在記錄中的同一個(gè)句子或同一個(gè)子字段中出現(xiàn),且詞序可變。子字段含義由數(shù)據(jù)庫定義??梢允俏恼侄沃械囊粋€(gè)句子。例:Pollution(F)control
檢中一篇標(biāo)題為“controlandmanagementofindustrialpollution”的文獻(xiàn)記錄為命中文獻(xiàn)。第七十頁,共九十四頁,2022年,8月28日
有了邏輯算符和位置算符,即可編制較為完整的檢索提問。在檢索時(shí)應(yīng)注意:
①位置算符優(yōu)先于邏輯算符②位置算符的執(zhí)行順序是按語句中位置算符的輸入秩序從左至右執(zhí)行的。如有括號(hào),則優(yōu)先執(zhí)行括號(hào)內(nèi)的位置算符。第七十一頁,共九十四頁,2022年,8月28日3、截詞符截詞是指檢索者將檢索詞在他認(rèn)為合適的地方截?cái)唷?/p>
按截詞位置:后方截詞、中間截詞、前方截詞按截?cái)嘧址麛?shù):有限截詞、無限截詞?#*.
第七十二頁,共九十四頁,2022年,8月28日后方截詞
無限截詞
有限截詞
無限截詞是在一個(gè)詞尾加一個(gè)截詞符號(hào),表示在其后可添加任意多個(gè)字符
有限截詞是在一個(gè)詞尾加有限個(gè)截詞符號(hào),n個(gè)截詞符號(hào)表示其后可添的字符數(shù)少于等于n個(gè)。第七十三頁,共九十四頁,2022年,8月28日例1:Smok?
它將對(duì)若干詞進(jìn)行檢索,包括:smoke,smoky,smoked,smoker,smokes,smokers,smoking,smokeless等等。
例2:Smok??
將對(duì)smoke,smoky,smoked,smoker,smokes等第七十四頁,共九十四頁,2022年,8月28日中間截詞
中間截詞是在一詞中間出現(xiàn)若干個(gè)截詞符號(hào),表示可插入若干個(gè)字符,只允許有限截詞。如:analy?er
它將對(duì)analyzer和analyser進(jìn)行檢索第七十五頁,共九十四頁,2022年,8月28日前方截詞
表示其左邊不管截去有限或無限個(gè)字符,只要數(shù)據(jù)庫中具有與截詞符號(hào)后面部分字符串相同的檢索詞的信息,即為命中信息。如:?computer
對(duì)minicomputer和microcomputer等進(jìn)行檢索。第七十六頁,共九十四頁,2022年,8月28日
檢索字段符(字段代碼)是對(duì)檢索詞出現(xiàn)的字段范圍(檢索點(diǎn))進(jìn)行限定,執(zhí)行時(shí),機(jī)器只對(duì)指定的字段進(jìn)行檢索,經(jīng)常應(yīng)用于檢索結(jié)果的調(diào)整。分作兩類:后綴式和前綴式。
4、檢索字段符第七十七頁,共九十四頁,2022年,8月28日如:
/TI表示Title(篇名)/AB表示Abstract(文摘)/KY表示keyword(關(guān)鍵詞)
electron/ti表示electron一詞須出現(xiàn)在篇名字段,electron/ti,ab表示electron一詞須出現(xiàn)在篇名或文摘字段。
后綴式后綴式是將字段代碼放在檢索詞之后,并用/號(hào)連接第七十八頁,共九十四頁,2022年,8月28日
前綴式是將前綴代碼放在檢索詞之前,用=號(hào)連接,常見的前綴代碼,見教材P34所示。前綴式如:查找李明發(fā)表在清華大學(xué)學(xué)報(bào)上的文獻(xiàn)
AU=李明*JN=清華大學(xué)學(xué)報(bào)第七十九頁,共九十四頁,2022年,8月28日五、檢索功能1、加權(quán)檢索加權(quán)檢索是某些檢索系統(tǒng)中提供的一種定量檢索技術(shù),判定檢索詞或字符串在滿足檢索邏輯后對(duì)文獻(xiàn)命中與否的影響程度。
2、相似檢索在檢索過程中,人們會(huì)發(fā)現(xiàn)某個(gè)結(jié)果非常符合自己需要,因此希望能進(jìn)一步檢索到與該結(jié)果類似的結(jié)果,我們稱之為相似檢索也稱相關(guān)信息反饋檢索。
第八十頁,共九十四頁,2022年,8月28日3、精確匹配和模糊檢索
不同的數(shù)據(jù)庫,檢索途徑設(shè)定的檢索規(guī)則有所不同,有的檢索途徑允許用戶用“任意一致”的方式檢索,有的只允許用“完全一致”或“前方一致”的方式檢索。第八十一頁,共九十四頁,2022年,8月28日
“完全一致”即精確匹配,要求輸入的檢索詞,與數(shù)據(jù)庫中的文獻(xiàn)標(biāo)識(shí)完全匹配,才能命中。如要查找作者“劉開揚(yáng)”的文獻(xiàn),則必須準(zhǔn)確輸入“劉開揚(yáng)”三字,如輸入“劉”或“劉開”,則不能命中。
一般在使用網(wǎng)上搜索引擎進(jìn)行檢索時(shí),可以用雙引號(hào)把輸入的檢索詞括起來,就可以達(dá)到“完全一致”的檢索效果。第八十二頁,共九十四頁,2022年,8月28日
“前方一致”屬于模糊檢索的一種。如在作者字段中輸入“劉開?”便可查到作者“劉開”、“劉開揚(yáng)”、“劉開強(qiáng)”的文章。又如以關(guān)鍵詞為檢索途徑,輸入“經(jīng)濟(jì)?”,便可查到“經(jīng)濟(jì)”、“經(jīng)濟(jì)法”、“經(jīng)濟(jì)學(xué)”、“經(jīng)濟(jì)預(yù)測”、“經(jīng)濟(jì)效益審計(jì)”等等。(注意,匹配符通常用“?”,但也有的數(shù)據(jù)庫用“*”)第八十三頁,共九十四頁,2022年,8月28日
“任意一致”是模糊檢索中的最為自由者。如用篇名作為檢索途徑,輸入“出版”,則可檢出篇名中任一處含有“出版”一詞的文獻(xiàn),如《出版系統(tǒng)探討》、《廣東出版史概述》、《商務(wù)印書館與近代教科書的出版》等。第八十四頁,共九十四頁,2022年,8月28日4、概念檢索
可借助一個(gè)同義詞表對(duì)用戶輸入的檢索詞自動(dòng)添加同一概念的詞匯集合(同義詞,近義詞,廣義詞等),有助于提高查全率,但不會(huì)降低查準(zhǔn)率。5、自然語言檢索自然語言檢索是未來網(wǎng)絡(luò)信息檢索發(fā)展趨勢。它允許用戶以自然語言語句表達(dá)檢索要求,檢索工具利用禁用詞表排除非關(guān)鍵詞,然后把剩余的詞作為關(guān)鍵詞進(jìn)行檢索。
第八十五頁,共九十四頁,2022年,8月28日6、多語種檢索
很多網(wǎng)絡(luò)檢索工具提供多語種檢索或檢索結(jié)果的翻譯功能。
7、智能檢索
智能檢索把現(xiàn)代人工智能的技術(shù)與方法引入到信息檢索系統(tǒng),使后者具有一定程度的智能特征,在更高的層次上完成檢索功能。
第八十六頁,共九十四頁,2022年,8月28日第四節(jié)檢索效果檢索效果是指信息資源檢索系統(tǒng)檢索信息資源的有效程度,反映信息資源檢索系統(tǒng)的能力。
第八十七頁,共九十四頁,2022年,8月28日1、
查全率與查準(zhǔn)率查全率
指檢索出的相關(guān)信息資源與信息資源系統(tǒng)中的相關(guān)信息資源總量之比
查準(zhǔn)率
指檢索出的相關(guān)信息資源量和檢索出的信息資源的總量之比
R=w/x*100%P=w/m*100%第八十八頁,共九十四頁,2022年,8月28日2、影響檢索效果的因素
影響查全率的因素
信息庫收錄文獻(xiàn)不全;索引詞匯缺乏控制和專指性;詞表結(jié)構(gòu)不完整;詞間關(guān)系模糊或不正確;標(biāo)引不詳;標(biāo)引前后不一致;標(biāo)引人員遺漏了原文的重要概念或用詞不當(dāng)?shù)取?/p>
影響查準(zhǔn)率的因素
索引詞不能準(zhǔn)確
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年全球及中國表面肌電測試系統(tǒng)行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 2025年全球及中國一次鋰亞硫酰氯電池行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 2025年全球及中國動(dòng)態(tài)圖像粒度粒形分析系統(tǒng)行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 2023年全球及中國無人駕駛接駁小巴行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 2025小飯店員工的勞動(dòng)合同范本
- 出境旅游合同書
- 2025辦公室裝修合同書集錦
- 房產(chǎn)股權(quán)轉(zhuǎn)讓合同
- 存量房買賣合同合同范本
- 陸路貨物運(yùn)輸合同承運(yùn)人定義年
- 2023學(xué)年度第一學(xué)期高三英語備課組工作總結(jié)
- 臨建標(biāo)準(zhǔn)化圖集新版
- 安監(jiān)人員考核細(xì)則(2篇)
- 生活老師培訓(xùn)資料課件
- 2020年新概念英語第一冊lesson97-102單元檢測
- 腹主動(dòng)脈瘤(護(hù)理業(yè)務(wù)學(xué)習(xí))
- 注射用醋酸亮丙瑞林微球
- 大學(xué)生就業(yè)指導(dǎo)PPT(第2版)全套完整教學(xué)課件
- 家具安裝工培訓(xùn)教案優(yōu)質(zhì)資料
- 湖南大一型抽水蓄能電站施工及質(zhì)量創(chuàng)優(yōu)匯報(bào)
- envi二次開發(fā)素材包-idl培訓(xùn)
評(píng)論
0/150
提交評(píng)論