信息檢索基礎2.PPT.ppt_第1頁
信息檢索基礎2.PPT.ppt_第2頁
信息檢索基礎2.PPT.ppt_第3頁
信息檢索基礎2.PPT.ppt_第4頁
信息檢索基礎2.PPT.ppt_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1,第二章 信息檢索基礎,2,本章要求,1.理解信息檢索的基本原理; 2.理解分類語言和主題語言; 3.掌握各種檢索途徑的利用及其區(qū)別; 4.掌握信息檢索的基本步驟; 5.理解并掌握查全率、查準率的概念與利用,3,第一節(jié) 信息檢索系統(tǒng)及檢索語言,一、信息檢索系統(tǒng) 是根據(jù)特定的信息需求而建立起來的一種有關信息搜集、加工、存儲和檢索的服務系統(tǒng)。 可分為 手工檢索系統(tǒng) 計算機檢索系統(tǒng),4,二、信息檢索的原理 是將描述特定用戶所需信息的提問特征,與信息存儲的檢索標識進行異同的比較,從中找出與提問特征一致或基本一致的信息。,本質是用戶的信息需求與存儲 在信息集合中的信息進行比較和 選擇, 即匹配的過程。

2、,5,文獻的 信息內容,主題 概念,檢索者的 信息需要,信 息 檢 索 語 言,標識,檢索 系統(tǒng),檢索 結果,主題 分析,主題 分析,標引,標引,輸入,檢索,輸出,信息 存貯,信息 檢索,主題 概念,標識,6,三、檢索語言,是檢索信息所使用的語言。是信息檢索系統(tǒng)存儲和檢索信息時共同使用的一種約定性語言,它是專門用來描述文獻的內容特征、外表特征和表達情報提問的一種人工語言。以達到信息存儲和檢索的一致性,提高檢索效率。又稱標引語言、索引語言、概念標識系統(tǒng)等。,7,我國古代第一部成型的圖書分類法是西漢劉向、劉歆父子編制的七略。 西晉,荀勖創(chuàng)立了四部分類法,即甲、乙、丙、丁四大部。 從隋唐起,圖書的四

3、部分類法已經(jīng)基本定型?;始覉D書館及秘書省、翰林院等重要典藏圖書之所,都是按照經(jīng)、史、子、集分四庫貯藏圖書的,名為四庫書。,輯略 六藝略諸子略詩賦略兵書略數(shù)術略方技略,1.分類語言,8,分類語言,是建立在科學分類的基礎上,以學科體系為基礎,將各種概念按學科性質進行分類,進行層層劃分,每次劃分,就產(chǎn)生若干類目。逐級劃分,就產(chǎn)生了不同級別的類目,這些類目層層隸屬,形成一個嚴格有序的等級體系。 常用分類號或分類詞表示。 分類檢索語言通過分類表來體現(xiàn)。一部完整的分類表,大體可由:編制說明、大綱、簡表、詳表、輔助表、索引、附錄等組成。,9,中圖法體系結構,10,C 社會科學總論,C0 社會科學理論與方法論

4、 1 社會科學現(xiàn)狀及發(fā)展 2 社會科學機構、團體、會議 3 社會科學研究方法 4 社會科學教育與普及 5 社會科學叢書、文集、連續(xù)性出版物 6 社會科學參考工具書 7 社會科學文獻檢索工具書,C 8 統(tǒng)計學 91 社會學 92 人口學 93 管理學 94 系統(tǒng)科學 95 民族學 96 人才學 97 勞動科學,11,C970 勞動科學基礎理論 C971 勞動經(jīng)濟學 C972 勞動法學 C973 勞動關系學 C974 勞動管理學 C975 職業(yè)培訓,C97 勞動科學,12,優(yōu)勢:,特點是能集中體現(xiàn)學科的系統(tǒng)性,反映事物的從屬、派生關系,便于按學科門類進行族性檢索。 將概念逐級劃分,具有等級結構,便

5、于擴大和縮小檢索范圍。 以分類號作為檢索標識,不存在文種限制。 標記簡明,適用于分類排架,也可用于組織分類檢索工具。,13,不足:,不能充分揭示信息資源中大量存在的細小專深主題。 分類表中的類目不能隨時更改,因而不能及時反映新的科學技術。 按照直線序列設置類目,對邊緣學科課題只能標引在一門學科的類目之下,檢索時可能漏檢。 大型類表一般篇幅較大,對類表管理的要求較高。,14,2. 主題語言,是用自然語言中具有高度概括性的名詞、名詞性詞組描述事物概念,用參照系統(tǒng)等表達概念之間的相互關系的一種檢索語言。 特 點:直觀性強,專指度高。 根據(jù)抽詞原則、編制方法及使用規(guī)則不同,可分為標題詞語言、元詞語言、

6、敘詞語言、關鍵詞語言。,15,(1)敘詞語言,所謂敘詞,是指從自然語言中優(yōu)選出來并經(jīng)過規(guī)范化處理的術語,又稱主題詞。 敘詞語言是采用表示單元概念的規(guī)范化詞語的組合來對信息主題或內容進行描述的標識系統(tǒng)。 特 點:專指性、直觀性、多維檢索等。 如漢語主題詞表(1980出版),16,(2)關鍵詞語言,是指從記錄信息的文獻題名、摘要和正文中提取出來的具有實際意義、能夠表達信息主題內容的、未經(jīng)規(guī)范化的自然語言。 特點: 一般不建立關鍵詞表,通常使用禁用詞表來淘汰不具有檢索意義的詞。 在標引階段只進行少量控制或不作控制,尤其適用于電子計算機處理和自動標引,能及時反映新事物概念。 在檢索階段通過對同義控制和

7、相關詞推薦等方式提供幫助。 缺點:檢索質量難以保證。,17,1. 分類檢索,根據(jù)文獻內容在學科分類體系中的位置作為文獻信息的檢索途徑,它的檢索標識是分類號,是一種族性檢索。 我國按中國圖書館分類法進行分類。如,C社會科學總論,C93管理學,C933領導學,C933.1領導體制,四、 信息檢索途徑,18,2. 關鍵詞途徑 關鍵詞:來自于文獻的標題、文摘或正文,是一種沒有規(guī)范化的自然語言。如:醫(yī)學詞匯的簡稱(乙肝、心衰),生活常用語(打擺子、拉肚子)。 特點:沒有嚴格的語法規(guī)范,個人使用的愛好不同自由詞選擇不同(非典、非典型性肺炎、SARS、嚴重急性呼吸系統(tǒng)綜合癥等) 缺點:要查出所有的有關非典的

8、文獻,需要把各種可能的用詞都列出來分別查詢。,19,3. 主題途徑 主題詞:是以自然語言為基礎,以概念組配為基本原理,并經(jīng)過規(guī)范化處理,表達主題的最小概念單元,作為信息存儲和檢索依據(jù)的一種檢索語言。 特 點: 詞義、詞類、詞形規(guī)范保證詞語與概念的唯一對應關系,具有專指性。,20,檢索舉例:冠心病的治療,自由詞,冠心病,冠狀動脈疾病,冠狀動脈粥樣硬化性心臟病,冠狀動脈心臟病,冠狀動脈疾病,主題詞,文獻,治療,治療,21,4. 著者檢索,用文獻的著者、編者、譯者的姓名或機構團體名稱編制而成的索引。 按著者姓名字順編排 書寫格式 姓前(全稱)、名后(縮寫,即用首字母) 如:Willian Henry

9、 HarrisonHarrison W H Ren Shu Min Ren SM,22,5. 機構檢索 以機構名稱為檢索詞,來查該機構學者發(fā)表的文獻。(排除同名同姓) 6. 題名檢索 按書名、刊名或文章篇名的字順進行檢索。檢索限定刊物上發(fā)表的文獻。 7. 號碼途徑 利用文獻代碼、序號編排成的號碼索引檢索文獻。如ISBN、ISSN等。 8、引文檢索 是以被引用文獻為檢索起點來查找引用文獻的過程。,2.2.1 檢索步驟,1.分析檢索課題,明確目的和要求 用戶的檢索需求大致分為3類: 新:及時獲得最新的內容,對查全沒有過高要求。 準:要解決研究中的具體問題,要求檢出的文獻有針對性,對查準要求較高。

10、全:要全面了解某一特定領域的發(fā)生、發(fā)展和現(xiàn)狀,是一種回溯性檢索,對查全有較高要求。,2.2 信息檢索步驟及檢索效果評價,24,2.選擇合適的檢索工具 根據(jù)課題的學科專業(yè)范圍、主題內容,選擇合適的數(shù)據(jù)庫。 3.選擇檢索途徑,確定檢索標識。 確定檢索途徑,根據(jù)數(shù)據(jù)庫的詞表,把主題內容轉換成檢索系統(tǒng)采用的檢索標識和檢索詞。 4.查找文獻線索。 5.瀏覽檢索結果,獲取原始文獻。,25,索取原文的方法: (1)檢索網(wǎng)上全文數(shù)據(jù)庫 (2)利用網(wǎng)上出版社、雜志 (3)利用圖書館館藏目錄(館藏聯(lián)合目錄) (4)利用“網(wǎng)上全文傳遞服務” (5)向著者索取,26,2.3.2 檢索效果評價,檢索要領是為實現(xiàn)檢索結果

11、的全和準: 因為檢索結果主要通過查全率、查準率兩個指標來進行評價。 查全率:系統(tǒng)進行檢索時,檢出的相關文獻量與系統(tǒng)文獻庫中相關文獻總量的比率。 查準率:系統(tǒng)中檢出的相關文獻量與檢出的文獻總量的比率。,27,思考:如某數(shù)據(jù)庫中共有 探討“企業(yè)管理”的相關文章1000篇,而你在這個數(shù)據(jù)庫中只檢索出900篇,而且其檢索出的結果中還有100篇是不相關的,那么你這次檢索的查全率和查準率各是多少?,查全率 80% 查準率 88.9%,2.3 信息檢索類型,1.文獻檢索 以索引、文摘或其他文獻特征為主要檢索對象,目的是運用檢索系統(tǒng)查檢出與某課題相關文獻檢索,從而獲取原始文獻。 2.數(shù)據(jù)檢索 以數(shù)據(jù)為檢索對象

12、,可直接選擇專門的數(shù)據(jù)性工具進行查檢,從而得到數(shù)值性數(shù)據(jù)、圖表、化學結構式、計算公式等。 3.事實檢索 以特定的事實為檢索對象,先選擇合適的工具,按一定標識,直接從中檢出事實性、知識性的答案,其檢索結果是描述性事實。,2.4信息檢索系統(tǒng)的類型及特點,1. 手工信息檢索 以人工方式查找和提供情報的系統(tǒng)。其特點 是人直接參與檢索過程。所使用的情報檢索工具 包括書本式目錄、文摘、索引以及各種卡片(穿 孔卡片、元詞卡片)。手工信息檢索具有操作簡 單、費用低廉、查準率高等優(yōu)點,但耗時較多效 率低。隨著計算機的普及,手工信息已逐漸被計 算機信息檢索所代替。,2. 脫機信息檢索,以批處理方式進行的脫機檢索,

13、即檢索只能在檢索系統(tǒng)所在地進行,由檢索人員定期將用戶課題匯總,批量輸入計算機,用戶不能參與檢索過程,不能即時瀏覽檢索結果,修改檢索方案,即不能人機對話。 脫機檢索所存在的幾點不足表現(xiàn)在: (1)地理上的障礙,指用戶與檢索人員距離較遠時,不便于檢索要求的表達,也不便于檢索結果的獲取。 (2)時間上的遲滯,指檢索人員定期檢索,用戶不能及時獲取所需信息。 (3)封閉式的檢索,指檢索策略一經(jīng)檢索人員輸入系統(tǒng)就不能更改,更不能依據(jù)機檢應答來修改檢索式。,3. 聯(lián)機信息檢索,建立在計算機聯(lián)機處理方式上的信息檢索,即檢索者通過檢索終端和通信線路直接查尋檢索系統(tǒng)數(shù)據(jù)庫的計算機檢索方式。用戶采用終端并通過通信線

14、路,以與檢索系統(tǒng)對話的方式直接訪問數(shù)據(jù)庫,進行存儲、檢索、打印、修改數(shù)據(jù)等處理。,4. 光盤信息檢索,光盤檢索具有儲量極大而體積微小,要求設備簡單,可隨地安裝,使用方便、易于操作,檢索費用低(不需要昂貴的聯(lián)機檢索通訊費用),因可隨時修改檢索策略而具有很高的查全率和查準率等優(yōu)點。,5. 網(wǎng)絡信息檢索,(1)交互式作業(yè)方式 (2)用戶透明度 (3)信息檢索空間的拓寬 (4)友好的用戶界面,2.5 信息檢索方法,信息檢索的效率與具體的信息檢索方法有很大的關系,運用有效的信息檢索方法能夠使用戶以最少的時間獲得最滿意的檢索結果。信息檢索方法的運用離不開各種信息檢索系統(tǒng),總的來說,檢索方法有直接瀏覽法、常

15、用法、追溯法和綜合法。,直接瀏覽法也稱直接查找法,指檢索者不依靠任何檢索工具或檢索系統(tǒng),從本專業(yè)最新核心期刊或其他文獻中直接閱讀原文或瀏覽最新目次而獲取文獻的方法。這是一種最常見的信息資源的獲取方式。因為編制檢索工具需要時間,有的半年,甚至長達一年之久,直接瀏覽可以及時獲得最新文獻。但利用這種方法查找的信息不全面、不系統(tǒng)、且局限性較大,不能作為查找文獻的主要方法。,1. 直接瀏覽法,指利用檢索系統(tǒng)來查找信息的方法,這是目前查找信息的最常用的方法,故而稱常用法。常用法包括順查法、倒查法和抽查法。,2. 常用法,指從已有的文獻信息后所列的參考文獻入手,逐一追查原文,從這些新查到的原文后面所附的參考文獻再逐一追查,不斷擴大檢索范圍的檢索方法。其優(yōu)點是:在沒有檢索工具或檢索工具不齊全的情況下,借助此種方法,也可以查到一批有關的文獻。其缺點是:原文作者引用的參考文獻是有限的,不可能列出全部有關文獻,而且有的引用文獻又與原文關系較小或較遠,參考價值不大。單獨使用這種方法,還是存在一定的局限性。,3. 追溯法,也有人稱之為分段查找法、循環(huán)法或交替法。先利用檢索工具查出一定時期內

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論