第04章-信息檢索與管理方法(陳莊)_第1頁
第04章-信息檢索與管理方法(陳莊)_第2頁
第04章-信息檢索與管理方法(陳莊)_第3頁
第04章-信息檢索與管理方法(陳莊)_第4頁
第04章-信息檢索與管理方法(陳莊)_第5頁
已閱讀5頁,還剩22頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

信息檢索與管理方法《信息資源組織與管理》之第4章陳莊博士教授2024/10/31第04章信息檢索與管理方法(陳莊)ppt課件(全)內(nèi)容提要4.1信息檢索的內(nèi)涵信息檢索的定義(掌握)信息檢索的分類(掌握)信息檢索的沿革與發(fā)展趨勢(了解)信息檢索的作用(了解)4.2信息檢索的原理與流程4.2.1信息檢索的原理(了解)信息檢索的流程(掌握)4.3信息檢索的方法和技術(shù)

信息檢索方法(掌握)信息檢索技術(shù)(了解)信息檢索技術(shù)發(fā)展的新趨勢信息檢索案例分析2024/10/32第04章信息檢索與管理方法(陳莊)ppt課件(全)內(nèi)容提要4.4信息檢索的效果及其評價信息檢索效果的評價指標(biāo)(難點(diǎn),基本掌握)提高檢索效果的方法(了解)工程技術(shù)學(xué)術(shù)資源檢索實(shí)例評價(了解)作業(yè)(……)2024/10/33第04章信息檢索與管理方法(陳莊)ppt課件(全)4.1.1信息檢索的定義

信息組織是將分散的信息組織成一個有序的、有具體目標(biāo)的體系,而信息檢索則是迅速地從這個體系中搜尋滿足用戶需求的信息。

信息檢索的本質(zhì)是信息用戶的需求和信息集合的比較與選擇,即匹配(match)的過程。信息檢索“行業(yè)”案例介紹:

美國的EI、SCI;

北京超星、電子書生、萬方;

重慶的維普(聚合公司)。

信息檢索(InformationRetrieval)又稱為情報檢索,產(chǎn)生于圖書館的情報咨詢工作,是信息組織的逆過程2024/10/34第04章信息檢索與管理方法(陳莊)ppt課件(全)4.1.2信息檢索的分類(1/2)1、按檢索內(nèi)容的分類(3類)

(1)數(shù)據(jù)信息檢索數(shù)據(jù)信息檢索(DataInformationRetrieval)是將經(jīng)過收集、整理、加工的數(shù)值型數(shù)據(jù)存入檢索數(shù)據(jù)庫中,然后根據(jù)用戶需求檢索出可回答某一問題數(shù)據(jù)的過程。

(2)事實(shí)信息檢索事實(shí)信息檢索(FactInformationRetrieval)是將存儲于檢索數(shù)據(jù)庫中的關(guān)于某一事件發(fā)生的時間、地點(diǎn)、經(jīng)過等信息查找出來的檢索。

(3)文獻(xiàn)信息檢索文獻(xiàn)信息檢索(DocumentInformationRetrieval)是將存儲于檢索數(shù)據(jù)庫中的關(guān)于某一主題文獻(xiàn)的信息查找出來的檢索。檢索案例:科技成果檢索、論文文獻(xiàn)綜述;檢索工具案例:重慶聚合維普、超星、goole等.2024/10/35第04章信息檢索與管理方法(陳莊)ppt課件(全)4.1.2信息檢索的分類(2/2)2、按組織方式分類

(1)全文檢索

(FullTextRetrieval):是將存儲于檢索數(shù)據(jù)庫中整本書、整篇文章中的任意內(nèi)容查找出來的檢索。(維普、超星)

(2)超文本檢索(HyperTextRetrieval):是對每個結(jié)點(diǎn)中所存信息以及信息鏈構(gòu)成的網(wǎng)絡(luò)中信息的檢索。(goole、百度)

(3)超媒體檢索(HyperMediaRetrieval):是對存儲的文本、圖像、聲音等多種媒體信息的檢索,它是多維存儲結(jié)構(gòu)。(數(shù)字圖書館)

3、按檢索設(shè)備分類

(1)人工檢索(manualretrieval):人工檢索是人直接用手、眼、腦組織查找印刷型文獻(xiàn)的檢索。

(2)機(jī)械檢索(mechanicalretrieval):機(jī)械檢索是利用某種機(jī)械裝置來處理和查找文獻(xiàn)的檢索方式。

(3)計(jì)算機(jī)檢索(computer-basedretrieval):計(jì)算機(jī)檢索是通過計(jì)算機(jī)對已數(shù)字化的信息,按照設(shè)計(jì)好的程序進(jìn)行查找和輸出的過程。

2024/10/36第04章信息檢索與管理方法(陳莊)ppt課件(全)4.1.3信息檢索的沿革與發(fā)展趨勢

信息檢索的發(fā)展歷程可以劃分為三個不同的歷史階段。

1.手工檢索階段(1830年-20世紀(jì)70年代初期)手工檢索階段的特點(diǎn)主要表現(xiàn)為:以印刷文獻(xiàn)為主要檢索對象,以各類文摘、題錄和目錄性工具書為可利用的主要檢索工具,以圖書館的參考咨詢部門為開展信息檢索服務(wù)的中心機(jī)構(gòu)。

2.計(jì)算機(jī)化檢索階段(20世紀(jì)50年代初期-20世紀(jì)90年代初期)計(jì)算機(jī)化檢索階段的主要特點(diǎn)概括為:以各類機(jī)讀數(shù)據(jù)庫為檢索對象,各類情報所、聯(lián)機(jī)服務(wù)中心作為新興的信息服務(wù)部門而存在,信息檢索用戶逐漸由專業(yè)檢索人員向個人終端用戶轉(zhuǎn)移。

3.網(wǎng)絡(luò)化檢索階段(20世紀(jì)90年代初至今)信息檢索隨著社會信息化、網(wǎng)絡(luò)化進(jìn)程的發(fā)展,其主流平臺迅速轉(zhuǎn)移到以WWW為核心的網(wǎng)絡(luò)應(yīng)用環(huán)境中,信息檢索開始步入網(wǎng)絡(luò)化檢索時期。

2024/10/37第04章信息檢索與管理方法(陳莊)ppt課件(全)4.1.4信息檢索的作用1、較全面地掌握有關(guān)的必要信息2、提高信息利用的效率,節(jié)省時間與費(fèi)用3、提高信息素質(zhì),加快人才的培養(yǎng)。信息素質(zhì)(InformationLiteracy):是指具有信息獲得的強(qiáng)烈意識,掌握信息檢索的技術(shù)和方法,擁有信息鑒別和利用的能力。2024/10/38第04章信息檢索與管理方法(陳莊)ppt課件(全)4.2.1信息檢索的原理(1/2)文獻(xiàn)檢索過程的系統(tǒng)表述

2024/10/39第04章信息檢索與管理方法(陳莊)ppt課件(全)4.2.1信息檢索的原理(2/2)文獻(xiàn)檢索簡化流程

相關(guān)性評估層次示意圖2024/10/310第04章信息檢索與管理方法(陳莊)ppt課件(全)4.2.2信息檢索的流程(1/4)圖4.3信息檢索步驟流程圖2024/10/311第04章信息檢索與管理方法(陳莊)ppt課件(全)4.2.2信息檢索的流程(2/4)

1、明確檢索要求和檢索目標(biāo)(1)普查型需要全面收集有關(guān)某一檢索需求的文獻(xiàn)資料。這類需求具有普查、回溯的特點(diǎn),要求盡可能高的信息查全率。

(2)攻關(guān)型需要收集有關(guān)某一檢索需求的某一特定方面的文獻(xiàn)資料,其目的在于解決生產(chǎn)管理中的關(guān)鍵問題。

(3)探索型需要了解和掌握某一領(lǐng)域最新研究動向或研究成果的檢索需求。

2、選擇檢索系統(tǒng)(1)按照課題的檢索要求和目的,選擇收錄文獻(xiàn)種類多、專業(yè)覆蓋面寬、年代跨度對口的數(shù)據(jù)庫。(2)當(dāng)需要查找最新文獻(xiàn)信息時,選擇數(shù)據(jù)更新周期短的數(shù)據(jù)庫。(3)當(dāng)還需要獲取原文時,選取原文獲取較容易的數(shù)據(jù)庫。(4)在同時有多個數(shù)據(jù)庫可供選擇的情況下,應(yīng)首先選擇比較熟悉的數(shù)據(jù)庫。(5)當(dāng)幾個數(shù)據(jù)庫的內(nèi)容交叉且重復(fù)率比較高時,應(yīng)選擇檢索費(fèi)用比較低的數(shù)據(jù)庫。

2024/10/312第04章信息檢索與管理方法(陳莊)ppt課件(全)4.2.2信息檢索的流程(3/4)3、確定檢索詞檢索詞可分為以下四類:(1)表示主題的檢索詞。(2)表示作者的檢索詞。如作者姓名、機(jī)構(gòu)名等。(3)表示分類的檢索詞。如分類號等。(4)表示特殊意義的檢索詞。如ISBN號、ISSN號、引文標(biāo)引詞等。檢索詞的選擇與確定,主要遵循下列兩個原則:(1)根據(jù)檢索課題所涉及的學(xué)科專業(yè)和技術(shù)內(nèi)容選詞。(2)對檢索詞進(jìn)行處理。4、構(gòu)造檢索表達(dá)式構(gòu)造檢索表達(dá)式主要使用布爾邏輯運(yùn)算符、位置運(yùn)算符、截詞運(yùn)算符、限制符等,將檢索詞進(jìn)行組合,確定檢索詞之間的概念關(guān)系或位置關(guān)系,準(zhǔn)確地表達(dá)檢索需求的內(nèi)容,以保證和提高檢索的查全率和查準(zhǔn)率。2024/10/313第04章信息檢索與管理方法(陳莊)ppt課件(全)4.2.2信息檢索的流程(4/4)

5、實(shí)施檢索策略(1)獲取檢索信息手工檢索策略計(jì)算機(jī)檢索策略(2)索取原始信息索取原始信息的方式有:利用圖書館館藏目錄獲取原始信息;利用聯(lián)機(jī)信息系統(tǒng),用聯(lián)機(jī)傳遞、E-mail、Fax或脫機(jī)郵寄的方式獲取原始信息;利用網(wǎng)絡(luò)信息系統(tǒng),網(wǎng)上提出訂購請求,獲取原始信息;利用有關(guān)全文數(shù)據(jù)庫,打印、下載原始信息等。

6、修改檢索策略在檢索之前,反復(fù)分析、修改檢索詞,盡量減少不確定因素,正確表達(dá)檢索需求;在檢索過程中,應(yīng)充分利用“人機(jī)對話”的有利條件,隨時根據(jù)檢索過程中的信息反饋情況,調(diào)整檢索策略;在檢索之后,對檢索結(jié)果進(jìn)行分析評價,并建立文檔,為今后的檢索積累經(jīng)驗(yàn)。

2024/10/314第04章信息檢索與管理方法(陳莊)ppt課件(全)4.3.1信息檢索的方法1、常規(guī)檢索法(1)直接檢索法:直接利用檢索工具進(jìn)行信息檢索的方法。(2)間接檢索法:利用檢索工具間接檢索信息資源的方法。包含檢索課題的分析、檢索策略的制定、檢索技術(shù)的應(yīng)用等方面。(3)順查法:按年限順序查找。(4)倒查法:與順查法相反。(5)抽查法:一種利用檢索工具進(jìn)行重點(diǎn)抽查檢索的方法。2、回溯檢索法以文獻(xiàn)后面所附的參考文獻(xiàn)為線索,逐一追溯查找相關(guān)文獻(xiàn)的方法。(參考文獻(xiàn)的重要性?。?、循環(huán)檢索法交替使用回溯法和常規(guī)法來進(jìn)行文獻(xiàn)檢索的綜合檢索方法。

2024/10/315第04章信息檢索與管理方法(陳莊)ppt課件(全)4.3.2信息檢索技術(shù)(1/4)1、布爾邏輯檢索技術(shù)(1)邏輯“與”示意圖(2)邏輯“或”示意圖(3)邏輯“非”示意圖2024/10/316第04章信息檢索與管理方法(陳莊)ppt課件(全)4.3.2信息檢索技術(shù)(2/4)2、鄰近檢索技術(shù)

鄰近檢索技術(shù)也稱全文檢索、位置檢索,主要是通過檢索式中的專門符號來規(guī)定檢索詞在結(jié)果中的相對位置。1)(W)算符:表示此算符兩側(cè)的檢索詞必須按此算符前后順序相鄰排列,詞序

不可變,且兩詞之間不許有其他的詞或字母,但允許有一空格或標(biāo)點(diǎn)符號。

2)(nw)算符:表示此算符兩側(cè)的檢索詞之間允許插入最多n個詞,且詞序不可

變。

3)(n)算符:表示此算符兩側(cè)的檢索詞必須緊密相連,詞序可變,詞間不允許插入其他詞或字母,但允許有一空格或標(biāo)點(diǎn)符號。

4)(nn)算符:表示此算符兩側(cè)的檢索詞之間允許間隔最多n個詞,且兩者的順序可以顛倒。

5)(s)算符:表示兩個檢索詞須同時出現(xiàn)在文獻(xiàn)記錄的同一子字段中,兩詞的

詞序不限,兩詞間插入詞的數(shù)量不限。

6)(f)算符:表示其兩側(cè)的檢索詞必須是在文獻(xiàn)記錄的同一字段中,而它們在該字段中的相對次序和相對位置的距離不限。

2024/10/317第04章信息檢索與管理方法(陳莊)ppt課件(全)4.3.2信息檢索技術(shù)(3/4)3、截詞檢索技術(shù)定義:指在檢索式中用專門的符號(截詞符號)表示檢索詞的某一部分允許有一定的詞形變化。截詞符一般用“?”或“*”表示。截詞檢索的方式有多種:。(1)前截詞。也稱左截詞或后方一致。如由“?computer”可檢索出含有computer、minicomputer、microcomputer等的文獻(xiàn)記錄。(2)后截詞。也稱右截詞或前方一致。如由“computer?”可檢索出含有computer、computers、computerize、computerized、computerization

等的文獻(xiàn)記錄。(3)前后截詞。詞干的前后各有一個截詞符,如由“?computer?”可檢索

出含有computer、computers、computerize、computerized、minicomputer、minicomputers、microcomputer、microcomputers等的

文獻(xiàn)記錄。(4)中間截詞。也稱“通用字符檢索法”,凡前后端一致的詞,都能檢索

出,通常用在英美對某些詞的不同拼寫法。如由“defen*e”可同時檢出defence和defense。2024/10/318第04章信息檢索與管理方法(陳莊)ppt課件(全)4.3.2信息檢索技術(shù)(4/4)4、字段限定檢索技術(shù)定義:指限定檢索詞必須在數(shù)據(jù)庫記錄中規(guī)定的字段范圍內(nèi)出現(xiàn)的文獻(xiàn),方為命中文獻(xiàn)的一種檢索方法。

例如:常見的檢索字段包括:題名Title TI文摘Abstract AB作者

Author AU作者單位CorporateSourceCS刊名Journal JN敘詞Descriptor DE語種Language LA主題詞Subject SU文獻(xiàn)類型DocumentType DT如要查找作者為Daniel發(fā)表的文獻(xiàn),檢索式可表示為AU=Daniel。2024/10/319第04章信息檢索與管理方法(陳莊)ppt課件(全)4.3.3信息檢索技術(shù)發(fā)展的新趨勢1、智能檢索智能檢索利用分詞詞典、同義詞典、同音詞典來改善檢索效果,比如

用戶查詢“計(jì)算機(jī)”,與“電腦”相關(guān)的信息也能檢索出來。另外,

智能檢索還包括歧義信息和檢索處理,高效、準(zhǔn)確地反饋給用戶最需

要的信息。2、知識挖掘知識挖掘目前主要指文本挖掘技術(shù)的發(fā)展,目的是幫助人們更好地發(fā)

現(xiàn)、組織、表示信息,提取知識,滿足信息檢索的高層次需要。知識

挖掘包括自動摘要、相似性檢索和自動分類(聚類)等方面。3、異構(gòu)信息整合檢索和全息檢索異構(gòu)信息整合檢索包括:支持各種格式化文件;支持多語種信息的

檢索;支持結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一處理;

和關(guān)系數(shù)據(jù)庫檢索的無縫集成以及其他開放檢索接口的集成等?!叭z索”就是支持一切格式和方式的檢索。2024/10/320第04章信息檢索與管理方法(陳莊)ppt課件(全)4.3.4信息檢索案例分析

1、信息需求分析:屬于環(huán)境科學(xué)領(lǐng)域,所查文獻(xiàn)類型應(yīng)包括書目文摘、事實(shí)和全文性信息。

2、確定檢索詞:paperpulp,papermaking,wastewater,treatment,treat

3、擬定檢索表達(dá)式(“w”表位置算符,paperwmaking

表找papermaking

記錄

)(paperwmakingorpaperwpulp)andwastewaterand(treatmentortreat)4、進(jìn)入檢索系統(tǒng):

OCLC的主頁(http:)

5、選擇主題范疇:根據(jù)OCLC的13個主題及課題領(lǐng)域,選主題GeneralScience

6、選擇檢索數(shù)據(jù)庫:OCLCWorldCat,OCLCArticleFirst,OCLCContentsFirst,OCLCPapersFirst

7、輸入檢索表達(dá)式:輸入第3步的檢索表達(dá)式

8、提交檢索式:單擊“StartSearch”按鈕完成了提交。

9、顯示結(jié)果:系統(tǒng)將返回檢索結(jié)果:共119條記錄,以每屏10個記錄格式顯示。

10、優(yōu)化結(jié)果:返回記錄太多,所以需要對檢索式進(jìn)一步限定,用高級檢索將檢索詞進(jìn)行不同字段的組合。以WWW環(huán)境下的美國聯(lián)機(jī)圖書館中心(onlinecomputerlibrarycenter)為例,實(shí)施檢索課題“有關(guān)造紙黑液廢水的治理技術(shù)”的檢索步驟。2024/10/321第04章信息檢索與管理方法(陳莊)ppt課件(全)4.4.1信息檢索效果的評價指標(biāo)(1/3)

一、信息檢索效果的評價指標(biāo)應(yīng)包含的指標(biāo)內(nèi)容

(1)數(shù)據(jù)庫的規(guī)模和內(nèi)容:覆蓋范圍、索引組成、更新周期;

(2)索引方法:自動索引、人工索引、用戶登錄;(3)檢索功能:布爾查找、復(fù)雜布爾、相鄰和相鄰AND/OR查詢、截詞查找、字段查找、大小寫有別、概念檢索、詞語加權(quán)、詞語限定、特定字段限定、默認(rèn)值、中斷退出、重復(fù)辨別、上下文關(guān)鍵詞、查詢集操作等;(4)檢索結(jié)果:相關(guān)性排序、顯示內(nèi)容、輸出數(shù)量選擇、顯示格式選擇;(5)用戶界面:幫助界面、數(shù)據(jù)庫和檢索功能說明、查詢舉例;(6)用戶負(fù)擔(dān):用戶界面、相關(guān)文獻(xiàn)和信息過濾功能等。(7)其他:查準(zhǔn)率和響應(yīng)時間。

二、有關(guān)指標(biāo)的描述以下介紹:信息檢索查全率、信息檢索查準(zhǔn)率、信息檢索漏檢率、信息檢索誤檢率、信息檢索響應(yīng)時間2024/10/322第04章信息檢索與管理方法(陳莊)ppt課件(全)4.4.1信息檢索效果的評價指標(biāo)(2/3)1、信息檢索查全率

查全率=相對查全率=

式中,a為相關(guān)的文獻(xiàn)的命中數(shù);c相關(guān)文獻(xiàn)的遺漏數(shù)。2、信息檢索查準(zhǔn)率

查準(zhǔn)率=

相對查準(zhǔn)率=式中,b為不相關(guān)的文獻(xiàn)數(shù)(噪聲)。

2024/10/323第04章信息檢索與管理

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論