信息檢索與管理方法陳莊課件_第1頁
信息檢索與管理方法陳莊課件_第2頁
信息檢索與管理方法陳莊課件_第3頁
全文預覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

信息檢索與管理方法《信息資源組織與管理》之第4章陳莊博士教授重慶市經(jīng)委企業(yè)信息化專家組專家重慶市科委制造業(yè)信息化專家組專家重慶市軟件協(xié)會理事;2005/03/24

第4章信息檢索與管理方法4.1信息檢索的內(nèi)涵4.1.1信息檢索的定義(掌握)4.1.2信息檢索的分類(掌握)4.1.3信息檢索的作用

(了解)4.2信息檢索的原理與流程4.2.1信息檢索的原理(了解)4.2.2信息檢索的流程(掌握)4.2.3信息檢索案例

(了解)4.3信息檢索的方法和技術

4.3.1信息檢索方法

(掌握)4.3.2信息檢索技術

(了解)4.4信息檢索的效果及其評價4.4.1信息檢索效果的評價指標

(難點,基本掌握)4.4.2提高檢索效果的方法

(了解)4.4.3工程技術學術資源檢索實例評價

(了解)作業(yè)(……)4.1.1信息檢索的定義信息檢索(InformationRetrieval)又稱為情報檢索,產(chǎn)生于圖書館的情報咨詢工作,是信息組織的逆過程。信息組織是將分散的信息組織成一個有序的、有具體目標的體系,而信息檢索則是迅速地從這個體系中搜尋滿足用戶需求的信息。

信息檢索是從大量相關信息中利用人-機系統(tǒng)等各種方法加以有序識別與組織,以便及時找出用戶所需部分信息的過程

信息檢索“行業(yè)”案例介紹:

美國的EI、SCI;

北京超星、電子書生、萬方;

重慶的維普(聚合公司)。4.1.2信息檢索的分類(1/2)

1、按檢索內(nèi)容的分類(3類)

1)數(shù)據(jù)信息檢索

數(shù)據(jù)信息檢索(DataInformationRetrieval)是將經(jīng)過收集、整理、加工的數(shù)值型數(shù)據(jù)存入檢索數(shù)據(jù)庫中,然后根據(jù)用戶需求檢索出可回答某一問題數(shù)據(jù)的過程。

2)事實信息檢索

事實信息檢索(FactInformationRetrieval)是將存儲于檢索數(shù)據(jù)庫中的關于某一事件發(fā)生的時間、地點、經(jīng)過等信息查找出來的檢索。

3)文獻信息檢索

文獻信息檢索(DocumentInformationRetrieval)是將存儲于檢索數(shù)據(jù)庫中的關于某一主題文獻的信息查找出來的檢索。(最多!檢索案例:科技成果檢索、論文文獻綜述;檢索工具案例:重慶聚合維普、超星、goole等)4.1.2信息檢索的分類(2/2)2、按組織方式分類

1)全文檢索:

全文檢索(FullTextRetrieval)是將存儲于檢索數(shù)據(jù)庫中整本書、整篇文章中的任意內(nèi)容查找出來的檢索。(維普、超星)

2)超文本檢索:超文本檢索(HyperTextRetrieval)是對每個結(jié)點中所存信息以及信息鏈構(gòu)成的網(wǎng)絡中信息的檢索。(goole、百度)

3)超媒體檢索:超媒體檢索(HyperMediaRetrieval)是對存儲的文本、圖像、聲音等多種媒體信息的檢索,它是多維存儲結(jié)構(gòu)。(數(shù)字圖書館)

3、按檢索設備分類

1)人工檢索:是人直接用手、眼、腦組織、查找印刷型文獻的檢索。

2)自動檢索:又稱計算機檢索,是通過計算機對已數(shù)字化的信息,按照設計好的程序進行查找和輸出的過程。按處理方式,自動檢索又分為:脫機檢索和聯(lián)機檢索;按存儲方式,自動檢索又分為:光盤檢索和網(wǎng)絡檢索。4.1.3信息檢索的作用1、較全面地掌握有關的必要信息2、提高信息利用的效率,節(jié)省時間與費用3、提高信息素質(zhì),加快人才的培養(yǎng)。(信息素質(zhì)(InformationLiteracy):是指具有信息獲得的強烈意識,掌握信息檢索的技術和方法,擁有信息鑒別和利用的能力。)4.2.1信息檢索的原理(1/2)文獻檢索過程的系統(tǒng)表述

4.2.1信息檢索的原理(2/2)文獻檢索簡化流程

相關性評估層次示意圖4.2.2信息檢索的流程(1/2)圖4.3信息檢索步驟流程圖4.2.2信息檢索的流程(2/2)

0、明確信息需求:1)普查型:需要全面收集有關某一檢索需求的文獻資料;2)攻關型:需要收集有關某一檢索需求的某一特定方面的文獻資料,其目的在于解決生產(chǎn)管理中的關鍵問題;3)探索型:需要了解和掌握某一領域最新研究動向或研究成果的檢索需求,

1、選擇檢索系統(tǒng):DIALOG、萬方、SCI、EI、超星

2、確定檢索詞:1)是表示主題的檢索詞,如標題詞、單元詞(最基本的詞匯)、敘詞、關鍵詞(指從題目、正文或摘要中抽出的能表征信息主題的詞語);2)表示作者的檢索詞,如作者姓名、機構(gòu)名等;3)表示分類的檢索詞,如分類號等;4)表示特殊意義的檢索詞。如ISBN號、ISSN號、引文標引詞等。3、構(gòu)造檢索表達式:構(gòu)造一個既能表達檢索需求,又能為計算機識別的檢索表達式,主要使用布爾邏輯運算符、位置運算符、截詞運算符、限制符等,將檢索詞進行組合。4、實施檢索策略:擴檢、縮檢、索取原始信息。5、修改檢索策略:檢索需求差別、檢索系統(tǒng)的性能各不同,加上檢索人員水平不一,所以,構(gòu)造的檢索詞往往具有較大的局限性、隨機性和盲目性,有可能導致檢索的失敗,這就要求在檢索時不斷了解反饋信息,及時修改檢索策略。4.2.3信息檢索案例:造紙黑液廢水的治理技術

1、信息需求分析:屬于環(huán)境科學領域,所查文獻類型應包括書目文摘、事實和全文性信息。

2、確定檢索詞:paperpulp,papermaking,wastewater,treatment,treat

3、擬定檢索表達式(“w”表位置算符,

paperwmaking表找papermaking

記錄)

(paperwmakingorpaperwpulp)andwastewaterand(treatmentortreat)

4、進入檢索系統(tǒng):OCLC的主頁(http://.)

5、選擇主題范疇:根據(jù)OCLC的13個主題及課題領域,選主題GeneralScience6、選擇檢索數(shù)據(jù)庫:OCLCWorldCat,OCLCArticleFirst,OCLCContentsFirst,OCLCPapersFirst

7、輸入檢索表達式:輸入第3步的檢索表達式8、提交檢索式:單擊“StartSearch”按鈕完成了提交。

9、顯示結(jié)果:系統(tǒng)將返回檢索結(jié)果:共119條記錄,以每屏10個記錄格式顯示。

10、優(yōu)化結(jié)果:返回記錄太多,所以需要對檢索式進一步限定,用高級檢索將檢索詞進行不同字段的組合。Pulp:使…..化成紙漿(vt);變成紙漿(vi)4.3.1信息檢索方法

1、常規(guī)檢索法

1)直接檢索法:直接利用檢索工具進行信息檢索的方法。

2)間接檢索法:利用檢索工具間接檢索信息資源的方法。包含檢索課題的分析、檢索策略的制定、檢索技術的應用等方面。3)順查法:按年限順序查找。4)倒查法:與順查法相反。5)抽查法:一種利用檢索工具進行重點抽查檢索的方法。

2、回溯檢索法:以文獻后面所附的參考文獻為線索,逐一追溯查找相關文獻的方法。(參考文獻的重要性?。?、循環(huán)檢索法:交替使用回溯法和常規(guī)法來進行文獻檢索的綜合檢索方法。4.3.2信息檢索技術1、信息檢索技術的概念

信息檢索技術是應用于檢索提問與文獻表示的匹配比較的技術。2、信息檢索技術的類型

(1)準確匹配(exactmatch):要求文獻(標識)中包含的需求模式必須與檢索提問式所表達的模式完全匹配,才能作為命中文獻輸出,目前大型實用系統(tǒng)采用的布爾邏輯檢索、原文檢索和字符串檢索技術均屬于準確匹配技術。

(2)局部匹配(partialmatch):只要求文獻(標識)中包含的需求模式與檢索提問式表達的模式部分匹配,即為命中文獻輸出。它又可分為個體匹配和網(wǎng)絡匹配兩種類型。(3)其他綜合技術(聚合公司):數(shù)據(jù)庫技術、分布異構(gòu)資源導入技術、輸出技術等

4.4.1信息檢索效果的評價指標(1/3)一、信息檢索效果的評價指標應包含的指標內(nèi)容

1)數(shù)據(jù)庫的規(guī)模和內(nèi)容:覆蓋范圍、索引組成、更新周期;

2)索引方法:自動索引、人工索引、用戶登錄;

3)檢索功能:布爾查找、復雜布爾、相鄰和相鄰AND/OR查詢、截詞查找、字段查找、大小寫有別、概念檢索、詞語加權(quán)、詞語限定、特定字段限定、默認值、中斷退出、重復辨別、上下文關鍵詞、查詢集操作等;

4)檢索結(jié)果:相關性排序、顯示內(nèi)容、輸出數(shù)量選擇、顯示格式選擇;

5)用戶界面:幫助界面、數(shù)據(jù)庫和檢索功能說明、查詢舉例;

6)用戶負擔:用戶界面、相關文獻和信息過濾功能等。

7)其他:查準率和響應時間。二、有關指標的描述

以下介紹:信息檢索查全率、信息檢索查準率、信息檢索漏檢率、信息檢索誤檢率、信息檢索響應時間。

4.4.1信息檢索效果的評價指標(2/3)1、信息檢索查全率查全率=相對查全率=

式中,a為相關的文獻的命中數(shù);c相關文獻的遺漏數(shù)。

2、信息檢索查準率查準率=

相對查準率=式中,b為不相關的文獻數(shù)(噪聲)。

4.4.1信息檢索效果的評價指標(3/3)3、信息檢索漏檢率漏檢率=

4、信息檢索誤檢率誤檢率=

5、信息檢索響應時間及其他指標

傳統(tǒng)的評價指標還有:

1)收錄范圍:一個系統(tǒng)收錄的文獻是否齊全,包括專業(yè)范圍、語種、年份與文獻類型等,這是提高查全率的物質(zhì)基礎;

2)工作量:從系統(tǒng)獲得相關文獻,必需消耗的精力和工作時間;

3)可用性:按可靠性、年代與全面性的因素看檢出文獻的價值;

4)外觀:檢索結(jié)果的輸出形式。4.4.2提高檢索效果的方法(1/2)

1、提高檢索人員素質(zhì)1)提高檢索人員的知識素質(zhì)2)提高檢索人員的思想素質(zhì)2、優(yōu)選檢索工具和數(shù)據(jù)庫3、優(yōu)化檢索策略與步驟4、精選檢索詞1)不使用常用詞2)避免使用多義詞3)避免使用錯別字4)學會使用截詞5)使用大小寫字母6)盡量使用專指性強的詞

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論