信息檢索第2講_第1頁
信息檢索第2講_第2頁
信息檢索第2講_第3頁
信息檢索第2講_第4頁
信息檢索第2講_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第二章第二章 信息檢索原理及方法信息檢索原理及方法第一節(jié)第一節(jié) 信息檢索概述信息檢索概述 一、信息檢索的含義一、信息檢索的含義信息檢索通常是信息用戶為處理解決各種問題而查找、識別獲取相關(guān)的事實、數(shù)據(jù)、知識的活動及過程。完整的信息檢索,還包括信息的存儲。由此可知,信息檢索的全過程應(yīng)包括兩個主要的方面: 1) 1)信息的標引和存儲過程信息的標引和存儲過程 對大量無序的信息資源進行標引處理,使之有序化,并按科學的方法存儲,組成檢索工具或檢索文檔,即檢索系統(tǒng)的組織過程組織過程。 2) 2)信息的需求分析和檢索過程信息的需求分析和檢索過程 分析用戶的信息需求,利用已組織好的檢索系統(tǒng),按照系統(tǒng)提供的方法與

2、途徑檢索有關(guān)信息,即檢索系統(tǒng)的應(yīng)用過應(yīng)用過程程。二、信息檢索的重要意義與作用二、信息檢索的重要意義與作用信息檢索的重要意義與作用主要體現(xiàn)在以下兩信息檢索的重要意義與作用主要體現(xiàn)在以下兩方面方面: : 1 1、充分利用信息資源,避免重復(fù)勞動、充分利用信息資源,避免重復(fù)勞動科學研究具有繼承和創(chuàng)造兩重性,科學研究的科學研究具有繼承和創(chuàng)造兩重性,科學研究的兩重性要求科研人員在探索未知或從事研究工作之兩重性要求科研人員在探索未知或從事研究工作之前,應(yīng)該盡可能地占有與之相關(guān)的信息,即利用信前,應(yīng)該盡可能地占有與之相關(guān)的信息,即利用信息檢索的方法,充分了解國內(nèi)外前人和他人對擬探息檢索的方法,充分了解國內(nèi)外前

3、人和他人對擬探索或研究的問題已做過哪些工作、取得了什么成就、索或研究的問題已做過哪些工作、取得了什么成就、發(fā)展動向如何等等。這樣才能做到心中有數(shù),防止發(fā)展動向如何等等。這樣才能做到心中有數(shù),防止重復(fù)研究,將有限的時間和精力用于創(chuàng)造性的研究重復(fù)研究,將有限的時間和精力用于創(chuàng)造性的研究中。中。因此,信息檢索是科學研究必不可少的前期工因此,信息檢索是科學研究必不可少的前期工作。作。 2 2、為人們更新知識、實現(xiàn)終生學習提供路、為人們更新知識、實現(xiàn)終生學習提供路徑徑在當代社會,人們需要終生學習,不斷更新知識,才能適應(yīng)社會發(fā)展的需求。 掌握信息檢索的方法與技能,是形成合理知掌握信息檢索的方法與技能,是形

4、成合理知識和更新知識的重要手段,是做到無師自通、識和更新知識的重要手段,是做到無師自通、不斷進取的主要途徑。不斷進取的主要途徑。2.1.2 2.1.2 信息檢索類型信息檢索類型事實信息檢索事實信息檢索依檢索內(nèi)容劃分依檢索內(nèi)容劃分文獻信息檢索文獻信息檢索數(shù)據(jù)信息檢索數(shù)據(jù)信息檢索信信息息檢檢索索類類型型2.1.2 2.1.2 信息檢索的類型信息檢索的類型數(shù)據(jù)檢索:數(shù)據(jù)檢索:檢索的結(jié)果是檢索的結(jié)果是數(shù)據(jù)或數(shù)值數(shù)據(jù)或數(shù)值。 如某種材料的電阻;某變壓器的如某種材料的電阻;某變壓器的參數(shù);化學分子式、數(shù)據(jù)圖表等參數(shù);化學分子式、數(shù)據(jù)圖表等。 事實檢索:檢索的結(jié)果是事實檢索:檢索的結(jié)果是事實結(jié)論事實結(jié)論。查

5、詢某一事物(事件)的性質(zhì)、定義、查詢某一事物(事件)的性質(zhì)、定義、原理以及發(fā)生的時間、地點過程等。如某原理以及發(fā)生的時間、地點過程等。如某產(chǎn)品是哪個廠家生產(chǎn),哪個牌子的最好;產(chǎn)品是哪個廠家生產(chǎn),哪個牌子的最好;第一顆人造衛(wèi)星是什么時候升空的第一顆人造衛(wèi)星是什么時候升空的。年年鑒鑒文獻檢索:檢索的結(jié)果是文獻檢索:檢索的結(jié)果是文獻資料文獻資料。查找相關(guān)文獻的內(nèi)容、出處、收藏單位查找相關(guān)文獻的內(nèi)容、出處、收藏單位等。等。如系統(tǒng)地查找數(shù)控機床相關(guān)方面的文如系統(tǒng)地查找數(shù)控機床相關(guān)方面的文獻。獻。論文論文 文獻檢索是信息檢索的核心部分。文獻檢索是信息檢索的核心部分。從性質(zhì)上說:從性質(zhì)上說:文獻檢索是一種相

6、關(guān)性檢索,檢索的結(jié)果文獻檢索是一種相關(guān)性檢索,檢索的結(jié)果是與課題相關(guān)的文獻或文獻線索,而不直是與課題相關(guān)的文獻或文獻線索,而不直接解答用戶所提出的技術(shù)問題本身;接解答用戶所提出的技術(shù)問題本身;事實檢索與數(shù)據(jù)檢索則是確定性檢索,檢事實檢索與數(shù)據(jù)檢索則是確定性檢索,檢索的結(jié)果是用戶所需的確切的數(shù)據(jù)或事實。索的結(jié)果是用戶所需的確切的數(shù)據(jù)或事實。三、信息檢索的類型與特點三、信息檢索的類型與特點根據(jù)檢索的目的和對象不同,信息檢索可以分為書目信息檢索、全文信息檢索、數(shù)據(jù)信息檢索和事實信息檢索。1 1、書目信息檢索、書目信息檢索以標題、作者、摘要、來源出處、專利以標題、作者、摘要、來源出處、專利號、收藏處所

7、等為檢索的目的和對象,檢索號、收藏處所等為檢索的目的和對象,檢索的結(jié)果是與課題相關(guān)的一系列書目信息線索的結(jié)果是與課題相關(guān)的一系列書目信息線索.書目信息檢索是一種書目信息檢索是一種相關(guān)性檢索相關(guān)性檢索。 2 2、全文信息檢索、全文信息檢索 以論文或?qū)@f明書等的全文為檢索的目的和對象,檢索的結(jié)果是與課題相關(guān)的論文或?qū)@f明書的全部文本,檢索結(jié)果也不直接解答用戶提出的技術(shù)問題本身。因此,全文信息檢索也是一種相關(guān)性檢索相關(guān)性檢索 3 3、數(shù)據(jù)信息檢索、數(shù)據(jù)信息檢索 以具有數(shù)量性質(zhì),并以數(shù)值形式表示的數(shù)據(jù)為檢索的目的和對象,檢索的結(jié)果是經(jīng)測試、評價過的各種數(shù)據(jù),可直接用于比較分析或定量分析。因此,數(shù)據(jù)

8、信息檢索是一種確定性檢索確定性檢索。 4 4、事實信息檢索、事實信息檢索 以事項為檢索的目的和對象,檢索的結(jié)果是有關(guān)某一事物的具體答案。因此,事實信息檢索是一種確定性檢索確定性檢索。 綜上所述,綜上所述,書目信息檢索書目信息檢索是從存儲有標題項、作者是從存儲有標題項、作者項、出版項或文摘項的檢索系統(tǒng)中獲取有關(guān)的信息項、出版項或文摘項的檢索系統(tǒng)中獲取有關(guān)的信息線索,如利用各種目錄、題錄和文摘檢索系統(tǒng)。線索,如利用各種目錄、題錄和文摘檢索系統(tǒng)。 全文信息檢索全文信息檢索是從存儲整篇論文、專利說明書乃至是從存儲整篇論文、專利說明書乃至整本著作的檢索系統(tǒng)中獲取全文信息,如利用各種整本著作的檢索系統(tǒng)中獲

9、取全文信息,如利用各種論文全文數(shù)據(jù)庫、專利說明書全文數(shù)據(jù)庫系統(tǒng)。論文全文數(shù)據(jù)庫、專利說明書全文數(shù)據(jù)庫系統(tǒng)。 數(shù)據(jù)信息檢索數(shù)據(jù)信息檢索是從存儲有大量數(shù)據(jù)、圖表的檢索系是從存儲有大量數(shù)據(jù)、圖表的檢索系統(tǒng)中獲取數(shù)值性信息,如利用各種手冊、年鑒、圖統(tǒng)中獲取數(shù)值性信息,如利用各種手冊、年鑒、圖譜、表譜等檢索系統(tǒng)。譜、表譜等檢索系統(tǒng)。 事實信息檢索事實信息檢索是從存儲有大量知識信息、事實信息是從存儲有大量知識信息、事實信息和數(shù)據(jù)信息的檢索系統(tǒng)中獲取某一事項的具體答案,和數(shù)據(jù)信息的檢索系統(tǒng)中獲取某一事項的具體答案,如利用各種百科全書、年鑒、名錄等檢索系統(tǒng)。如利用各種百科全書、年鑒、名錄等檢索系統(tǒng)。 2.3

10、檢索語言 檢索語言是用于描述信息系統(tǒng)中信息特征和表達用戶信息提問的一種專門語言,是信息存儲與檢索共同遵循的規(guī)則。主題語言主題語言分類語言分類語言標題詞語言標題詞語言關(guān)鍵詞語言關(guān)鍵詞語言敘詞語言敘詞語言檢檢索索語語言言第二章第二章信息檢索原理信息檢索原理 一 信息檢索基本原理: 是檢索者的檢索提問詞與存儲在檢索系統(tǒng)中的檢索標引詞進行匹配對比,取 得一致即為檢索命中,命中結(jié)果可從檢索系統(tǒng)中以各種方式輸出。檢索者可根據(jù)此線索對原文進行判斷、篩選,以獲取自己所需要的信息。 二、信息檢索效率二、信息檢索效率 信息檢索效率是研究信息檢索原理的是評價一個檢索系統(tǒng)性能優(yōu)劣的質(zhì)量標準,它始終貫穿信息檢索和信息存

11、儲的全過程。衡量檢索效率的指標有查全率、查準率、漏檢率、誤檢率、響應(yīng)時間等。目前,人們通常主要以查全率和查準率這兩個指標來衡量。 1、查全率、查全率 利用檢索系統(tǒng)進行某一課題檢索時,檢索出的相關(guān)信息量(w)與該系統(tǒng)信息庫中存儲的相關(guān)信息量(x)的比率稱為查全率(R),用公式可表示為:R=100% 2、查準率查準率 利用檢索系統(tǒng)進行某一課題檢索時,檢出的相關(guān)信息量(w)與檢出的信息總量(m)的比率稱為查準率(p),用公式可表示為: p=100% mwxwxw 如何提高查全率?選擇上位詞和相關(guān)詞;如:查找關(guān)于孫中山的文獻,先用孫中山查,再用孫文、國父查找。調(diào)節(jié)檢索式的網(wǎng)羅度,刪除不必要的組面,如a

12、nd(并且);進行族性檢索(分類檢索或用or連接相關(guān)檢索詞);截詞檢索;com*代替computer增加檢索途徑。如何提高查準率?提高專指度(用下位詞或換專指性強的自由詞) 用邏輯乘“*”(and) 或 not 相關(guān)檢索項;如查找克林頓,但不要關(guān)于萊溫斯基的信息。檢索式:克林頓 not 萊溫斯基用文獻外部特征限制輸出結(jié)果(在中文圖書中查找); 用“二次檢索”“條件檢索”排除誤檢 限制檢索字段,指定鄰接和優(yōu)先關(guān)系。 從檢索要求來說,希望查全率和查準率都同時達到100%,即系統(tǒng)中存儲的所有相關(guān)信息都被檢索出(w=x=m),這是最為理想的效果。但事實上很難達到全部檢出和全部檢準的要求,而只能達到某個

13、百分比,總會出現(xiàn)一些漏檢和誤檢。因此,在實際檢索過程中,必須同時兼顧查全和查準,不可片面追求某一方面。 三、信息檢索系統(tǒng)三、信息檢索系統(tǒng) 信息檢索系統(tǒng)是擁有一定的存儲、檢索技信息檢索系統(tǒng)是擁有一定的存儲、檢索技術(shù)設(shè)備,存儲有經(jīng)過加工的各類信息,并能為術(shù)設(shè)備,存儲有經(jīng)過加工的各類信息,并能為信息用戶檢索所需信息的服務(wù)系統(tǒng)。信息用戶檢索所需信息的服務(wù)系統(tǒng)。 因此,信息檢索系統(tǒng)具有吸收信息、加工信因此,信息檢索系統(tǒng)具有吸收信息、加工信息、存儲信息和檢索信息等功能。息、存儲信息和檢索信息等功能。 檢索系統(tǒng)是手工檢索系統(tǒng)和計算機檢索系統(tǒng)。檢索系統(tǒng)是手工檢索系統(tǒng)和計算機檢索系統(tǒng)。 1 1、手工檢索系統(tǒng)、手

14、工檢索系統(tǒng) 手工檢索系統(tǒng)又稱傳統(tǒng)檢索系統(tǒng),是用人工查找信息的檢索系統(tǒng)。其主要類型有各種書本式的目錄、題錄、文摘和各種參考工具書等。 2、計算機檢索系統(tǒng)計算機檢索系統(tǒng) 計算機檢索系統(tǒng)又稱現(xiàn)代化檢索系統(tǒng),是用計算機技術(shù)、電子技術(shù)、遠程通信技術(shù)、光盤技術(shù)、網(wǎng)絡(luò)技術(shù)等構(gòu)成的存儲和檢索信息的檢索系統(tǒng)。 按使用的設(shè)備和采用的通信手段,可分為聯(lián)機檢索系統(tǒng)、光盤檢索系統(tǒng)和網(wǎng)絡(luò)檢索系統(tǒng)。 2.4計算機信息檢索技術(shù)計算機信息檢索技術(shù) 計算機信息檢索技術(shù)是用戶信息需求和文獻計算機信息檢索技術(shù)是用戶信息需求和文獻信息集合之間的信息集合之間的匹配比較技術(shù)匹配比較技術(shù)。 由于由于信息檢索表達式信息檢索表達式是用戶需求與信

15、息集合是用戶需求與信息集合之間匹配的依據(jù),之間匹配的依據(jù), 檢索表達式是運用各種檢索表達式是運用各種邏輯運算符號邏輯運算符號、位置位置邏輯算符邏輯算符、截詞符截詞符、及其他限制符號等,把、及其他限制符號等,把檢索詞連接組配起來,確定檢索詞之間的關(guān)檢索詞連接組配起來,確定檢索詞之間的關(guān)系,準確表達檢索課題的內(nèi)容的算式。系,準確表達檢索課題的內(nèi)容的算式。2.4.1布爾邏輯檢索布爾邏輯檢索 布爾邏輯檢索是用布爾邏輯算符將檢索詞、短語或代碼布爾邏輯檢索是用布爾邏輯算符將檢索詞、短語或代碼進行邏輯組配指定文獻的命中條件和組配次序用以檢索進行邏輯組配指定文獻的命中條件和組配次序用以檢索出符合邏輯組配所規(guī)定

16、條件的記錄。是計算機檢索系統(tǒng)出符合邏輯組配所規(guī)定條件的記錄。是計算機檢索系統(tǒng)中最常用的一種檢索方法。中最常用的一種檢索方法。 布爾邏輯組配是現(xiàn)行計算機檢索的基本技術(shù),主要布爾邏輯組配是現(xiàn)行計算機檢索的基本技術(shù),主要通過通過“與與(and,*)”、“或或(or,+)”、“非非(not,-)”將檢索將檢索詞聯(lián)絡(luò)起來。詞聯(lián)絡(luò)起來。AandB邏輯與。邏輯與。A和和B都為真時,都為真時,結(jié)果才為真結(jié)果才為真,即:,即:A*B,邏輯含義用圖表示是:,邏輯含義用圖表示是:AorB邏輯或。邏輯或。A或或B中只要有一個中只要有一個為真時,結(jié)果就為真,即:為真時,結(jié)果就為真,即:A+BAnotB邏輯非。邏輯非。A

17、為真、為真、B為為假時,結(jié)果才為真,即:假時,結(jié)果才為真,即:A-B布爾邏輯運算符的運算次序布爾邏輯運算符的運算次序 括號優(yōu)先括號優(yōu)先與計算機編程中一樣與計算機編程中一樣(AORB)ANDCNOTD 不同的系統(tǒng)次序有差別不同的系統(tǒng)次序有差別,但總的來說一般次,但總的來說一般次序為:序為:NOTANDOR 例例A:查找有關(guān)信息檢索的非英文文獻查找有關(guān)信息檢索的非英文文獻信息信息information檢索檢索retrieval英文英文english(信息信息and檢索檢索)not英文英文(informationandretrieval)notenglish分析實例:分析實例:上海零售業(yè)的現(xiàn)狀與發(fā)展

18、趨勢上海零售業(yè)的現(xiàn)狀與發(fā)展趨勢上海上海 零售業(yè)零售業(yè) 現(xiàn)狀現(xiàn)狀 發(fā)展趨勢發(fā)展趨勢上海上海 and 零售業(yè)零售業(yè) and (現(xiàn)狀現(xiàn)狀 or 發(fā)展趨勢發(fā)展趨勢)2.4.2截詞檢索截詞檢索 截詞包括后截、中截、前截等。用?作為截詞截詞包括后截、中截、前截等。用?作為截詞符符(有些系統(tǒng)用有些系統(tǒng)用*),主要包括下列情形:,主要包括下列情形: 如如wom?n可以檢索出:可以檢索出:woman,women 如如coumput?可以檢索出可以檢索出Compute,Computer,Computing,computable如:如:transplant?可以檢索出:可以檢索出:transplant、transplanted、transplanter如:如:comput?可以檢索出:可以檢索出:compute;computer;computing%?*“%國慶國慶”將檢索出所有字段為將檢索出所有字段為張國慶張國慶、歐歐陽國慶陽國慶、國慶國慶等的記錄。等的記錄。如:如:“熱電材料熱電材料%”將檢索出將檢索出熱電材料梯度化熱電材料梯度化、熱電材料及其梯度化熱電材料及其梯度化等的記錄。等的記錄。 聯(lián)機檢

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論