第六章信息檢索_第1頁(yè)
第六章信息檢索_第2頁(yè)
第六章信息檢索_第3頁(yè)
第六章信息檢索_第4頁(yè)
第六章信息檢索_第5頁(yè)
已閱讀5頁(yè),還剩43頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第六章信息檢索

信息組織是指按照一定的規(guī)則來(lái)描述信息資源或信息對(duì)象,以便于能被需要它們的人高效地利用。信息檢索則是指為了個(gè)人或他人的需要,去發(fā)現(xiàn)適當(dāng)?shù)男畔①Y源或信息對(duì)象。信息組織和信息檢索是一對(duì)互逆過(guò)程。

6.1信息檢索的基本概念與原理6.1.1信息檢索的涵義根據(jù)特定的需求,運(yùn)用某種檢索工具,按照一定的方法,從大量文獻(xiàn)中查出所需的資料或信息的過(guò)程。滿足信息用戶的信息需求而建立的,存貯經(jīng)過(guò)加工了的信息集合,擁有特定的存貯、檢索與傳送的技術(shù)裝備,提供一定存貯與檢索方法及檢索服務(wù)功能的一種相對(duì)獨(dú)立的服務(wù)實(shí)體(包括人和檢索工作單位),統(tǒng)稱為信息檢索系統(tǒng)(InformationRetrievalSystem,簡(jiǎn)稱IRS)。信息檢索系統(tǒng)的三個(gè)基本要素:人、檢索工具(包括設(shè)備)和信息資料信息檢索系統(tǒng)的體系結(jié)構(gòu)

潛在的相關(guān)信息信息組織和檢索系統(tǒng)規(guī)范化的疑問(wèn)式信息的組織概述的存貯比較/匹配索引(描述性的、受限制的)游戲規(guī)則=主題索引規(guī)則+辭典(包括詞匯表和索引語(yǔ)言)需求概述或疑問(wèn)式信息或數(shù)據(jù)檢索流程組織流程存貯1:概述/搜索請(qǐng)求存貯2:信息的表示6.1.2信息檢索的類型與特性依檢索結(jié)果內(nèi)容

劃分依信息存儲(chǔ)與

檢索方式劃分手工檢索計(jì)算機(jī)檢索事實(shí)信息檢索文獻(xiàn)信息檢索數(shù)據(jù)信息檢索信息檢索類型手工檢索工具

主要指,如印刷版的《全國(guó)報(bào)刊索引》。計(jì)算機(jī)檢索系統(tǒng)主要指,如《中國(guó)期刊全文數(shù)據(jù)庫(kù)》數(shù)據(jù)信息和事實(shí)信息檢索是確定性的檢索,檢索結(jié)果可以直接利用。文獻(xiàn)信息檢索是一種相關(guān)性檢索,檢索結(jié)果是文獻(xiàn)信息的線索,一般通過(guò)二次信息來(lái)實(shí)現(xiàn)。

全文數(shù)據(jù)庫(kù):是一次信息和二次信息的綜合體。在檢索結(jié)果中,有直接的全文鏈接。特性:信息檢索的相關(guān)性

相關(guān)性表明用戶是否認(rèn)為一文獻(xiàn)與一提問(wèn)吻合。信息檢索的不確定性

標(biāo)引的不確定性是指不同標(biāo)引員在給同一篇信息對(duì)象進(jìn)行標(biāo)引時(shí)會(huì)選用不同的標(biāo)引詞,即標(biāo)引詞選用的不一致性。檢索詞選用的不確定性是指候選檢索詞集不止一個(gè),檢索過(guò)程具有試探性。信息檢索的邏輯性檢索語(yǔ)言、檢索策略(處理信息檢索提問(wèn)的邏輯與查找步驟的科學(xué)安排)

6.1.3信息檢索的模型布爾邏輯檢索模型

(BooleanRetrievalModel,簡(jiǎn)稱BRM)概率檢索模型

(ProbabilityRetrievalModel,簡(jiǎn)稱PRM)向量空間檢索模型

(VectorRetrievalModel,簡(jiǎn)稱VRM)模糊檢索模型

(FuzzyRetrievalModel,簡(jiǎn)稱FRM)

6.2信息檢索的職能與程序6.2.1信息檢索語(yǔ)言的職能

信息檢索語(yǔ)言是根據(jù)信息檢索需要?jiǎng)?chuàng)制的一種人工語(yǔ)言,又稱檢索語(yǔ)言、信息存貯與檢索語(yǔ)言、文獻(xiàn)工作語(yǔ)言、索引語(yǔ)言、標(biāo)引語(yǔ)言、信息檢索標(biāo)識(shí)、標(biāo)識(shí)系統(tǒng)等等。信息檢索語(yǔ)言:詞匯和語(yǔ)法信息檢索語(yǔ)言的職能:可以表示文獻(xiàn)內(nèi)容、數(shù)據(jù)或其他信息形式有專用概念表示用戶的信息提問(wèn)能夠指示計(jì)算機(jī)執(zhí)行查詢與檢索6.2.2信息檢索策略信息檢索策略是針對(duì)檢索提問(wèn)、運(yùn)用檢索方法和技術(shù)而設(shè)計(jì)的信息檢索方案,其目的是要達(dá)到一定的檢準(zhǔn)率和檢全率。常用信息檢索策略包括:分塊概念組配檢索策略、逐步組配檢索策略、對(duì)偶組配檢索策略、增長(zhǎng)組配檢索策略等。

目前在以下三方面取得進(jìn)展:(1)以檢全為目標(biāo)的檢索策略的調(diào)節(jié)與控制;(2)以檢準(zhǔn)為目標(biāo)的檢索策略的調(diào)節(jié)與控制;(3)以最小投入為目標(biāo)的檢索策略的調(diào)節(jié)與控制。

對(duì)特定系統(tǒng)、特定數(shù)據(jù)以及某一類型課題的檢索策略的研究具體表現(xiàn)在以下兩方面:(1)某一系統(tǒng)、某一數(shù)據(jù)庫(kù)檢索策略;

(2)某一類型課題檢索策略。6.2.3信息檢索效率的評(píng)價(jià)檢索效率是指全、準(zhǔn)、快、便、省(檢全率、檢準(zhǔn)率、檢索速度、檢索方便性、檢索成本與效益),最主要的是全和準(zhǔn)。在評(píng)價(jià)信息檢索效率過(guò)程中,主要通過(guò)檢全率、檢準(zhǔn)率、漏檢率和誤檢率四個(gè)評(píng)價(jià)指標(biāo)進(jìn)行評(píng)價(jià),其中重點(diǎn)是檢全率和檢準(zhǔn)率。

檢全率=檢出的相關(guān)文獻(xiàn)量/系統(tǒng)中的相關(guān)文獻(xiàn)總量檢準(zhǔn)率=檢出的相關(guān)文獻(xiàn)量/檢出的文獻(xiàn)總量漏檢率=未檢出的相關(guān)文獻(xiàn)量/系統(tǒng)中的相關(guān)文獻(xiàn)總量誤檢率=檢出的非相關(guān)文獻(xiàn)量/檢出的文獻(xiàn)總量檢全率與檢準(zhǔn)率的互逆相互曲線

1008040601008040202060檢

R檢準(zhǔn)率%P6.2.4信息檢索的程序(1)分析檢索課題,明確信息需求明確信息檢索課題所涉及的領(lǐng)域和范圍;明確所需信息的內(nèi)容及其內(nèi)容特征;明確所需信息的類型,包括文獻(xiàn)媒體、出版類型、所需文獻(xiàn)量、年代范圍、涉及的語(yǔ)種、有關(guān)著者及機(jī)構(gòu)等;明確信息檢索課題對(duì)查新、查準(zhǔn)和查全的指標(biāo)要求。

(2)選擇檢索工具,了解檢索系統(tǒng)信息檢索工具是人們?yōu)榱顺浞帧?zhǔn)確、有效地利用已有的信息資源而加工編制的用來(lái)報(bào)道、揭示、存貯和查找信息資源的卡片、表冊(cè)、計(jì)算機(jī)信息系統(tǒng)和特定出版物。

(3)確定檢索途經(jīng),選定檢索方法

每一種信息檢索方法都有自己的特點(diǎn),在實(shí)踐中可以根據(jù)信息檢索要求選擇使用或配合使用,以快速、準(zhǔn)確地完成信息檢索任務(wù),實(shí)現(xiàn)預(yù)期的目標(biāo)。

(4)實(shí)施檢索策略,瀏覽初步結(jié)果在獲取信息線索時(shí)要仔細(xì)閱讀,判斷所檢出的信息是否符合檢索的要求,不僅看篇名,還要閱讀整個(gè)著錄格式,進(jìn)行綜合分析。

(5)調(diào)整檢索策略,獲取所需信息判斷文獻(xiàn)的出版類型。根據(jù)文獻(xiàn)出處中已有的信息,判斷其出版類型。整理文獻(xiàn)出處。將文獻(xiàn)出處中有縮寫(xiě)語(yǔ)、有音譯刊名的還原成全稱或原刊名。根據(jù)出版類型在圖書(shū)館或信息機(jī)構(gòu)查找館藏目錄或聯(lián)合目錄確定館藏,原則上說(shuō)應(yīng)該按“由近及遠(yuǎn)”的順序逐步擴(kuò)大查找館藏的范圍。盡可能多渠道、多方式地獲取原始信息。6.3信息檢索的發(fā)展歷程三個(gè)階段手工信息檢索階段機(jī)械信息檢索階段計(jì)算機(jī)信息檢索階段手工信息檢索階段

信息檢索起源于參考咨詢工作,參考咨詢工作產(chǎn)生的標(biāo)志是1876年召開(kāi)的美國(guó)圖書(shū)館協(xié)會(huì)第一屆大會(huì)。1883年,波士頓公共圖書(shū)館首次設(shè)置了專職參考館員和參考閱覽室;20世紀(jì)初,多數(shù)圖書(shū)館成立了參考咨詢部門(mén),主要利用圖書(shū)館的書(shū)目工具來(lái)幫助讀者查找圖書(shū)、期刊或現(xiàn)成答案。逐漸發(fā)展到從多種文獻(xiàn)源中查找、分析、評(píng)價(jià)和重新組織信息;“索引”突破了以前的狹隘范疇,成為獨(dú)立的檢索工具;40年代進(jìn)一步包括回答事實(shí)性咨詢,編制書(shū)目、文摘,進(jìn)行專題文獻(xiàn)檢索,提供文獻(xiàn)代譯等?!靶畔z索”從此成為一項(xiàng)獨(dú)立的用戶服務(wù)工作,并逐漸從單純的經(jīng)驗(yàn)工作向?qū)I(yè)化方向發(fā)展。

機(jī)械信息檢索兩種基本類型機(jī)電信息檢索系統(tǒng)光電信息檢索系統(tǒng)

機(jī)械信息檢索并沒(méi)有發(fā)展信息檢索語(yǔ)言,只是采用單一的方法對(duì)固定的存貯形式進(jìn)行檢索,而且過(guò)分依賴于設(shè)備,檢索復(fù)雜,成本較高,檢索效率和質(zhì)量都不理想。

機(jī)械信息檢索階段

計(jì)算機(jī)信息檢索系統(tǒng)三個(gè)階段:1971年以前建立的信息檢索系統(tǒng),是傳統(tǒng)的批處理檢索方式。

1971年以后,產(chǎn)生并發(fā)展的聯(lián)機(jī)信息檢索系統(tǒng),如OCLC、Dialog在線數(shù)據(jù)庫(kù)聯(lián)機(jī)檢索系統(tǒng)。20世紀(jì)90年代以來(lái),產(chǎn)生并發(fā)展的網(wǎng)絡(luò)信息檢索階段。

信息檢索技術(shù)兩個(gè)發(fā)展方向:傳統(tǒng)信息檢索向全文文本、多媒體、多載體等新型信息檢索的發(fā)展,在深度上提高管理和組織信息的能力;信息資源的網(wǎng)絡(luò)化和分布化,面向互聯(lián)網(wǎng)中海量的信息資源,在廣度上提高管理和組織的能力。6.3信息檢索的技術(shù)與方法從檢索手段看,信息檢索分為:手工信息檢索機(jī)械信息檢索計(jì)算機(jī)信息檢索6.3.1手工信息檢索的技術(shù)與方法

(1)手工信息檢索工具手工信息檢索工具主要是各種類型的工具書(shū)工具書(shū)是根據(jù)一定的需要,比較完備地匯集某一方面的資料,并按特定的方法加以編排,專供讀者查考檢索有關(guān)知識(shí)、資料、事實(shí)的書(shū)籍。據(jù)工具書(shū)的體例和功能,可分為檢索型工具書(shū)、參考性工具書(shū)、詞語(yǔ)性工具書(shū)、表譜性工具書(shū)、圖錄性工具書(shū)和邊緣性工具書(shū)6種類型。

(2)手工信息檢索工具的排檢技術(shù)

字順排檢技術(shù):將檢索工具的內(nèi)容按字、詞的一定順序或規(guī)律,有系統(tǒng)地組織排列起來(lái)的技術(shù)。分類排檢技術(shù):將信息素材按學(xué)科或事物性質(zhì)系統(tǒng)地加以排列。主題排檢技術(shù):以規(guī)范化的自然語(yǔ)言為標(biāo)識(shí)符號(hào)來(lái)標(biāo)引信息內(nèi)容的排檢技術(shù)。時(shí)序排檢技術(shù):按時(shí)間的順序組合信息素材的技術(shù),多用于編制年表、年譜等檢索工具。如:《國(guó)內(nèi)外大事記》地序排檢技術(shù):按一定時(shí)期的行政區(qū)域來(lái)排列信息素材的技術(shù)。如:《中國(guó)名勝詞典》

(3)手工信息檢索方法順查法:時(shí)間上,遠(yuǎn)近查全率高費(fèi)時(shí)費(fèi)力倒查法:時(shí)間上,近遠(yuǎn)查準(zhǔn)率高漏檢率高抽查法:學(xué)科的興旺階段檢索效率高追溯法(引文法):

A.一次文獻(xiàn)參考文獻(xiàn)一次信息參考文獻(xiàn)……近遠(yuǎn)

B.一次文獻(xiàn)引用該一次信息的文獻(xiàn)新的一次文獻(xiàn)……實(shí)際是由“遠(yuǎn)近”越查文獻(xiàn)越新擴(kuò)大信息源效率低檢全率低漏檢率高循環(huán)法:先利用檢索工具查出一批有用文獻(xiàn),然后再利用這些文獻(xiàn)末尾所附參考文獻(xiàn)的線索進(jìn)行追溯查找。

6.3.2機(jī)械信息檢索的技術(shù)與方法

機(jī)電信息檢索系統(tǒng)

繼手檢穿孔卡片之后,出現(xiàn)了機(jī)檢穿孔卡片和選卡機(jī)。這就形成了機(jī)電信息檢索系統(tǒng)。光電信息檢索系統(tǒng)

主要是以縮微膠卷(片)檢索方式出現(xiàn)的??s微膠卷(片)的檢索方式大致可以分為兩種類型:①尋址檢索方式②編碼檢索方式6.3.3計(jì)算機(jī)信息檢索的技術(shù)與方法

(1)聯(lián)機(jī)信息檢索信息用戶利用終端設(shè)備,通過(guò)通訊網(wǎng)絡(luò)與世界各地的信息檢索系統(tǒng)聯(lián)機(jī),進(jìn)行人機(jī)對(duì)話,從檢索系統(tǒng)的數(shù)據(jù)庫(kù)中查找出用戶所需信息的全過(guò)程。優(yōu)點(diǎn):①檢索速度快;②檢索范圍廣而全面;③檢索途徑多、質(zhì)量高;④檢索內(nèi)容新、實(shí)時(shí)性強(qiáng);⑤檢索輔助功能完善、使用方便,檢索結(jié)果輸出方式靈活、實(shí)用。缺陷:①主機(jī)負(fù)擔(dān)重,一旦出現(xiàn)故障,則整個(gè)網(wǎng)絡(luò)都將癱瘓;②信息組織方式以線性為主,不夠靈活;③聯(lián)機(jī)檢索不像Internet是面向最終用戶的,操作也沒(méi)有后者方便。

聯(lián)機(jī)信息檢索系統(tǒng)的結(jié)構(gòu)

由檢索服務(wù)機(jī)構(gòu)(聯(lián)機(jī)存取中心)、國(guó)際通訊網(wǎng)絡(luò)及終端三部分構(gòu)成。終端設(shè)備用于輸入檢索程序、顯示檢索過(guò)程、控制打印檢索結(jié)果。通訊網(wǎng)絡(luò)用于實(shí)現(xiàn)遠(yuǎn)程人機(jī)對(duì)話。

檢索服務(wù)機(jī)構(gòu)(聯(lián)機(jī)存取中心)是存儲(chǔ)和檢索信息的核心。由中央計(jì)算機(jī)、數(shù)據(jù)庫(kù)檢索與管理軟件、聯(lián)機(jī)數(shù)據(jù)庫(kù)以及相應(yīng)的檢索服務(wù)體制組成。

聯(lián)機(jī)信息檢索的技術(shù)原理一個(gè)典型的計(jì)算機(jī)信息系統(tǒng),能完成數(shù)據(jù)收集、分析、加工處理、存儲(chǔ)、傳遞通信和檢索信息的全過(guò)程。聯(lián)機(jī)信息檢索的服務(wù)方式a定題信息提供(SDI)b專題回溯檢索(RS)c聯(lián)機(jī)訂購(gòu)原文d電子郵件我國(guó)聯(lián)機(jī)存取服務(wù)始于1974年,比較有影響的聯(lián)機(jī)存取系統(tǒng)有:

(1)萬(wàn)方數(shù)據(jù)資源系統(tǒng)

/(2)CNKI數(shù)據(jù)資源系統(tǒng)

(3)維普數(shù)據(jù)資訊系統(tǒng)

/(2)光盤(pán)信息檢索特點(diǎn):光盤(pán)存貯容量大、耐用檢索成本低。一次購(gòu)買(mǎi)可多次使用,節(jié)省了電訊費(fèi)和聯(lián)機(jī)系統(tǒng)使用費(fèi)。操作簡(jiǎn)單,檢索效果好。用戶按提示或幫助功能使用檢索系統(tǒng)。運(yùn)行速度快。單機(jī)檢索,不受線路影響。安全性能高。只讀光盤(pán),一般局域網(wǎng)用戶使用。如果光盤(pán)數(shù)據(jù)庫(kù)量不夠多,則信息資源就顯得有限,購(gòu)買(mǎi)大量光盤(pán)數(shù)據(jù)庫(kù),又要受到經(jīng)費(fèi)限制更新周期長(zhǎng)。一般的光盤(pán)數(shù)據(jù)庫(kù)更新要1個(gè)月或更長(zhǎng),而網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的更新周期一般是1周或更短。檢索時(shí)需不斷換盤(pán)。一個(gè)大型數(shù)據(jù)庫(kù),一般都是幾張光盤(pán),特別是全文數(shù)據(jù)庫(kù),如中國(guó)學(xué)術(shù)期刊全文光盤(pán)數(shù)據(jù)庫(kù),每年都有一百多張光盤(pán),檢索時(shí)需要不斷更換光盤(pán)。光盤(pán)信息檢索方法光盤(pán)檢索系統(tǒng)的功能和指令與聯(lián)機(jī)檢索沒(méi)有很大區(qū)別,但更方便。功能鍵:Help(幫助)、Index(索引)、History(查閱歷史)、Display(顯示)、Print(打印)、SelectDatabase(選擇數(shù)據(jù)庫(kù))、FormatWindow(格式窗)、Quit(退出)等檢索信息時(shí)可用單元詞、多元詞(短語(yǔ))、數(shù)字及布爾運(yùn)算符和位置運(yùn)算符把幾個(gè)檢索術(shù)語(yǔ)組配成一個(gè)提問(wèn)邏輯式。

用戶可以在任何時(shí)刻回顧其查找的歷史,重新使用或修改以前的任何提問(wèn)。

屏幕幫助是光盤(pán)數(shù)據(jù)庫(kù)最常用也是重要的功能之一。(3)網(wǎng)絡(luò)信息檢索網(wǎng)絡(luò)信息檢索模式

廣義:從根本上解決有效利用網(wǎng)絡(luò)信息資源問(wèn)題的關(guān)鍵

如何對(duì)網(wǎng)絡(luò)上的海量多態(tài)信息進(jìn)行組織,如何對(duì)這些信息建立索引,如何對(duì)索引及時(shí)更新;如何設(shè)計(jì)檢索算法以使檢索提問(wèn)在檢全、檢準(zhǔn)、響應(yīng)時(shí)間、檢索結(jié)果控制與顯示方面表現(xiàn)良好;如何為用戶設(shè)計(jì)一個(gè)簡(jiǎn)單易用的友好界面

狹義:在現(xiàn)實(shí)世界中有效利用網(wǎng)絡(luò)資源的核心

只是以網(wǎng)絡(luò)(如互聯(lián)網(wǎng))為媒介,利用網(wǎng)上已提供的一些信息檢索工具,探索如何使用這些工具及如何綜合各工具,使它們揚(yáng)長(zhǎng)避短,最后能實(shí)現(xiàn)對(duì)信息提問(wèn)的檢索查詢的一種方法與技術(shù)。特點(diǎn):信息豐富,檢索空間拓寬信息資源的異構(gòu)式分

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論