數(shù)字信息檢索的基本原理_第1頁
數(shù)字信息檢索的基本原理_第2頁
數(shù)字信息檢索的基本原理_第3頁
數(shù)字信息檢索的基本原理_第4頁
數(shù)字信息檢索的基本原理_第5頁
已閱讀5頁,還剩50頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第2章信息檢索基本原理

黃波2009年9月四川.成都第1頁,共55頁。檢索可分為文獻檢索(documentsretrieval)和信息檢索(informationretrieval)。文獻檢索是指查找或提供用戶所需要的各類型相關的印刷型資料、縮微資料、聲像資料和數(shù)據庫文獻的過程;信息檢索則是指查找所需事實、數(shù)據、圖象、理論等未知知識的過程,或者說,通過分析、綜合等信息加工后,獲取隱含在文獻中的知識的過程。第2頁,共55頁。2.1信息檢索的基本概念2.2數(shù)字信息檢索工具

2.3計算機信息檢索技術2.4信息檢索的基本步驟第3頁,共55頁。2.1信息檢索概述2.1.1信息檢索的含義與實質2.1.2信息檢索的類型和特點第4頁,共55頁。2.1.1信息檢索的含義與實質信息檢索是指從任何方式組成的信息集合中,查找特定用戶在特定時間和條件下所需信息的方法與過程。因此,完整的信息檢索應包括以下兩個方面:1.信息的標引和存儲過程2.信息的檢索過程

第5頁,共55頁。2.1.1信息檢索的含義與實質廣義地講,信息檢索包含信息儲存和信息查找兩個過程。狹義地講,信息檢索僅僅指信息查找的過程,即解決特定的信息需求和滿足信息用戶的需要。信息檢索是指從一定結構的信息儲存集合中,查找出用戶所需的特定信息的方法與過程。第6頁,共55頁。2.1.1信息檢索的含義與實質其實質將描述特定用戶所需信息的提問特征,與信息存儲的檢索標識進行異同的比較,從中找出與提問特征一致或基本一致的信息。第7頁,共55頁。文獻檢索一般查找方法文獻之間的引證和被引證關系揭示了文獻之間存在的某種內在聯(lián)系,引文法(也有稱為跟蹤法)就是利用文獻后所附的參考文獻、相關書目、推薦文章和引文注釋查找相關文獻的方法。這些材料指明了與用戶需求最密切的文獻線索,往往包含了相似的觀點、思路、方法,具有啟發(fā)意義。循著這些線索去查找,不僅利用了前人的勞動成果,省卻了很多時間和精力,而且可能在原來的基礎上有新的發(fā)現(xiàn)。第8頁,共55頁。文獻檢索一般查找方法越查越新:這種查法主要依靠專門的引文索引,如《科學引文索引》(ScienceCitationIndex)、《社會科學引文索引》(SocialSciencesCitationIndex)。越查越舊:追溯歷史。第9頁,共55頁。文獻檢索一般查找方法常規(guī)法可分為順查法、逆查法和抽查法。順查法是以課題研究的起始年代為出發(fā)點,利用選定的檢索工具如書目、索引、文摘由遠及近地逐年查找;逆查法則相反,是由近及遠地查找,起點是從最近發(fā)表的文獻開始,直到設定終止的年代或查到所需資料為止。查全率比引文法高。兩種方法適用于研究范圍廣、研究歷史較悠久、課題較大的咨詢。也可用于解答那些無法準確確定答案在什么時間范圍內的咨詢。第10頁,共55頁。文獻檢索一般查找方法抽查法是基于這樣一個規(guī)律來查文獻的,即任何一門學科的專題研究興旺時期發(fā)表的文獻量大,各種學術觀點較為集中,如果針對課題研究處于興旺時期的若干年查找,則付出較少的時間可獲得較為滿意的檢索結果。交替法就是把引文法和常規(guī)法結合起來查找文獻的方法:即先利用常規(guī)檢索工具找出一批有用文獻,然后利用這些文獻所附的引文進行追溯查找,由此獲得更多文獻。第11頁,共55頁。檢索步驟:分析問題→選擇檢索工具→從檢索工具中查找所需信息→獲取原文(查找原文數(shù)據庫除外)。分析問題的步驟是:問題的分類→分析“已知”和“欲知”信息→分析需求的主題內容→確定文獻類型和時間范圍;第12頁,共55頁。2.1.2信息檢索的類型和特點提問特征是指從欲檢索課題中選擇出能代表信息需求的概面以及涉及到的主題詞或關鍵詞等。結論:利用信息的檢索系統(tǒng),查找特指相關信息的過程。第13頁,共55頁。2.1.2信息檢索的類型和特點一般說,所有文獻的特征可分兩大類:外表特征(題名、著者、序號等);內容特征(分類、主題、關鍵詞)。所以文獻檢索的入口途徑也分成兩個方面。第14頁,共55頁。一些基本概念字段:字段是文獻著錄的基本單元,反映文獻外部特征和內容特征的每一個項目,如題名字段、著者字段、刊名字段、文摘字段、主題詞字段、關鍵詞字段等。第15頁,共55頁。一些基本概念元數(shù)據:是一種在電子資源中使用的著錄數(shù)據。與傳統(tǒng)文獻中的著錄款目性質相同,不同之處在于傳統(tǒng)文獻的著錄是相對完整的、靜止的信息內容進行處理。元數(shù)據著錄的對象,不僅包括圖書、期刊、磁帶、錄像帶、縮微品、論文、科技報告,還包括各種形式的網絡信息資源等。著錄的數(shù)據既書目信息、文摘、索引、綜述等,也包括文檔名、URL等信息源數(shù)據。第16頁,共55頁。一些基本概念記錄:是對某一實體屬性進行描述的信息單元。每個信息單元由諸如著者、標題、出版日期等若干個數(shù)據元組成。在書目數(shù)據庫中,被描述的實體是某一特定的文獻,這類記錄通常被稱作文獻記錄。第17頁,共55頁。數(shù)字信息檢索類型文獻信息檢索數(shù)據信息檢索事實信息檢索。第18頁,共55頁。數(shù)字信息檢索類型(1)文獻信息檢索文獻信息檢索(DocumentInformationRetrieval)是將存儲于數(shù)據庫中關于某一主題文獻的線索查找出來的檢索。它通常通過目錄、索引、文摘等二次文獻信息為工具,以原始文獻的出處為檢索目的,可以向用戶提供有關原文獻的信息。文獻信息檢索是利用檢索工具查出相關文獻的過程。檢索系統(tǒng)不直接解答用戶提出的問題,而是提供與之相關的文獻名稱及出處,供用戶篩選使用。例:查找2007年關于“文獻信息檢索”的所有專著。第19頁,共55頁。數(shù)字信息檢索類型(2)數(shù)據信息檢索數(shù)據信息檢索(DataInformationRetrieval)是將經過選擇、整理、鑒定的數(shù)值數(shù)據存入數(shù)據庫中,根據需要查出可回答某一問題的數(shù)據的檢索。數(shù)據信息檢索的對象是數(shù)值性數(shù)據,即具有數(shù)量性質并以數(shù)值形式表示的量化信息。這些數(shù)值型數(shù)據各種各樣,包括物理性能數(shù)據、化學物質數(shù)據、環(huán)境監(jiān)測數(shù)據、各種統(tǒng)計數(shù)據、自然資源數(shù)據、經濟和社會數(shù)據等。數(shù)據檢索不僅能查出數(shù)據,而且能提供一定的運算、推導能力。用戶可通過使用經過選擇、整理、鑒定的數(shù)值數(shù)據庫檢索獲得一些量化信息,從而為定量分析提供依據。例:2007年我國的國民生產總值是多少?第20頁,共55頁。數(shù)字信息檢索類型(3)事實信息檢索事實信息檢索(FactInformationRetrieval)是將存儲于數(shù)據庫中的關于某一事件發(fā)生的時間、地點、經過等信息查找出來的檢索。它既包含數(shù)值數(shù)據的檢索、運算、推導,也包括事實、概念等的檢索、比較、邏輯判斷。事實信息檢索的對象是已經存在的各種事實的有關資料,它是數(shù)值信息和系統(tǒng)數(shù)據信息的混合。一般先從系統(tǒng)中檢索出所需信息后,再加以邏輯推理才能給出結論。例如MIS數(shù)據庫中包含大量公司管理中有關人員、工資、銷售統(tǒng)計預測、產品規(guī)模等信息,這類信息主要是用于管理決策的。事實信息檢索比數(shù)值數(shù)據信息檢索復雜。例:美國《化學文摘》的概況第21頁,共55頁。數(shù)字信息檢索基本原理數(shù)字信息檢索基本原理,是將用戶的檢索提問詞與數(shù)據庫文獻記錄中的標引詞進行比對,當提問詞與標引詞匹配一致時,即為命中,檢索成功。由此可見,能否準確地檢索出用戶所需的信息,關鍵在于能否準確地選擇檢索詞。這里所謂的“準確”,是指用戶所選用的檢索詞必須與數(shù)據庫中標引文獻記錄所用的標引詞相一致。檢索語言就是為溝通文獻標引與文獻檢索而編制的人工語言,也是連接信息存儲和檢索兩個過程中標引人員與檢索人員雙方思路的渠道,是用于文獻標引和檢索提問的約定語言。第22頁,共55頁。檢索語言在標引和檢索過程中的作用見下圖:第23頁,共55頁。數(shù)字信息檢索基本原理分類檢索語言:用分類號來表達各種概念,以學科體系為基礎,將各種概念按學科性質進行分類和系統(tǒng)排列。《中圖法》第24頁,共55頁。數(shù)字信息檢索基本原理《中國圖書館分類法》:分五大部22大類。

A馬克思主義、列寧主義、毛澤東思想、鄧小平理論

B哲學、宗教

C社會科學總論

D-K社會科學各學科

N自然科學總論

O-X自然科學各學科

Z綜合性圖書第25頁,共55頁。數(shù)字信息檢索基本原理主題語言所使用的語詞統(tǒng)稱為主題詞,主題詞來自自然語言,多半經過規(guī)范化處理,形成主題詞表,作為標引與檢索的依據。關鍵詞語言是直接選用文獻中的自然語言作基本詞匯,并將那些能夠揭示文獻題名或主要意旨的關鍵性自然語詞作為關鍵詞進行標引的一種檢索語言。所謂關鍵詞是指那些出現(xiàn)在文獻的標題(篇名、章節(jié)名)以至摘要、正文中,對表征文獻主題內容具有實質意義的語詞,亦即對揭示和描述文獻主題內容來說是重要的、帶關鍵性的(可作為檢索“入口”的)那些詞語。第26頁,共55頁。2.1.2信息檢索的類型和特點1.書目信息檢索2.全文信息檢索3.數(shù)據信息檢索4.事實信息檢索

5.

小結第27頁,共55頁。書目信息檢索以標題、作者、原文來源、摘要及收藏地點為檢索對象,是一種相關性檢索。特點:檢索結果不直接解答課題用戶提出的技術問題,只提供與之相關的線索。一般以目錄、索引、文摘數(shù)據庫為檢索工具。

例如:查找有關“聚苯硫醚的合成與應用”方面的國內外信息有那些?

檢索工具:

中文科技期刊數(shù)據庫、萬方數(shù)據資源系統(tǒng)、EI、CAonCD等。

第28頁,共55頁。全文信息檢索以論文或專利說明書的全文為檢索對象,也屬相關性檢索的范疇。特點:是在書目信息檢索基礎上更深層次的內容檢索。例如:檢索由王華東等撰寫,發(fā)表在《高分子材料科學與工程》2003年第3期“高性能結構材料聚苯硫醚砜”一文檢索工具:中文科技期刊數(shù)據庫等第29頁,共55頁。數(shù)據信息檢索以具有數(shù)量性質并以數(shù)值形式表示的數(shù)據為檢索對象,是一種確定性檢索。檢索的結果是經過測試和評價過的各種數(shù)據,可用于比較分析和定量分析。它一般以數(shù)據大全、手冊、年鑒等為檢索工具。例如:2003年申請中國發(fā)明專利和獲得授權發(fā)明專利最多的國家有哪些?檢索工具:中國統(tǒng)計年鑒第30頁,共55頁。事實信息檢索

以事項為檢索對象,檢索結果是有關某一事物的具體答案,也是一種確定性檢索。一般利用字詞典、年鑒、百科全書、手冊等為檢索工具。第31頁,共55頁。示例:

問題:世界上是誰在什么年代、用什么方法首先合成了聚苯硫醚?

檢索工具:工程塑料手冊(材料卷)第32頁,共55頁。小結:書目信息和全文信息檢索是利用各種目錄、題錄、文摘和全文數(shù)據庫獲取有關信息的線索或全文。第33頁,共55頁。將向同學們推薦實現(xiàn)書目和全文信息檢索數(shù)據庫有:國內數(shù)據庫中文期刊數(shù)據庫:中國期刊全文數(shù)據庫萬方數(shù)據庫:中國專利數(shù)據庫:中國國家知識產權局專利數(shù)據庫:第34頁,共55頁。國外數(shù)據庫Eivillage2ISIWebofScienceCambridgeScientificAbstractsProQuestDigitalDissertationsElsevierScience美國專利文獻數(shù)據庫:加拿大專利數(shù)據庫:歐洲專利數(shù)據庫:日本專利數(shù)據庫:第35頁,共55頁。數(shù)據和事實檢索是利用各種參考工具書獲取有關的確定性數(shù)據或事實信息。例如:各種百科全書、年鑒、手冊等。第36頁,共55頁。2.2信息檢索方法

2.2.1信息需求分析

2.2.2制定檢索策略

2.2.3實施檢索策略第37頁,共55頁。2.2.1信息需求分析信息需求是人們在客觀或主觀上就課題所需信息的要求,是人們檢索信息的基本出發(fā)點,也是評價檢索效果的依據。它主要包括兩個方面:1.明確檢索的目的和要求

2.對主題進行分析第38頁,共55頁。示例課題名稱:難降解制藥廢水處理

一、檢索目的和要求:目的:科技立項要求:國內有無

1.難降解制藥廢水處理的研究報道;2.已采用的技術有哪些?第39頁,共55頁。二、主題分析第一概面:制藥第二概面:廢水處理—生物法、電化學法、化學氧化、溶劑萃取、光催化等第三概面:難降解—鹵代烴類、酚類、醇類、芳香族等

第40頁,共55頁。示例高性能聚芳硫醚(PAS)樹脂的合成本課題涉及的提問特征有兩個主要的概面第一概面聚芳硫醚涉及的主題詞或關鍵詞有:1.聚芳硫醚2.聚苯硫醚3.聚芳硫醚砜4.聚苯硫醚砜5.聚芳硫醚酮6.聚苯硫醚酮7.聚芳硫醚酰胺8.聚苯硫醚酰胺等第二概面合成涉及的主題詞或關鍵詞有:9.合成10.制備11.生產等第41頁,共55頁。2.3信息檢索技術及其應用信息檢索技術是指利用現(xiàn)代信息檢索系統(tǒng),如聯(lián)機數(shù)據庫、光盤數(shù)據庫和網絡數(shù)據庫檢索有關信息而采用的相關技術,常用的有布爾、詞位、截詞和限制技術。第42頁,共55頁。2.3.1布爾檢索常用的有:(1)邏輯與(2)邏輯或(3)邏輯非第43頁,共55頁。邏輯與1.含義:是一種具有概念交叉或概念限定關系的組配。2.算符:“*”或“AND”或“并且”等。3.特點:增強專指度,提高查準率。4.舉例:聚甲醛AND增韌,表示兩個概念應同時包含在一條記錄中。第44頁,共55頁。邏輯或1.含義:是一種具有概念相同、概念相關或概念并列關系的組配。2.算符:“

+”

或“

OR”或“或者”等。3.特點:擴大檢索范圍,提高查全率。4.舉例:廢水OR污水,表示這兩個相關概念分別在一條記錄中出現(xiàn)或同時在一條記錄中出現(xiàn)。第45頁,共55頁。邏輯非1.含義:是一種具有概念排除關系的組配。2.算符:“

-”

或“

NOT”或“不包含”等。3.特點:提高查準率,影響查全率。4.舉例:制藥廢水NOT放射廢水,表示檢索出的記錄中要排除含有“放射廢水”的記錄。第46頁,共55頁。2.3.2詞位檢索1.含義:具有限定檢索詞詞間位置關系的組配功能,可彌補布爾邏輯組配只是定性規(guī)定檢索詞的范圍,2.算符:(W)與(nW)用于Dialog聯(lián)機和光盤系統(tǒng),相鄰兩詞詞序不能顛倒;

SAME用于ISIWebofScience

系統(tǒng)中,相鄰兩詞在同一句子中,詞序任意。3.特點:達到提高檢準率的效果。4.舉例:gas(w)chromatograph;airSAMEpollution第47頁,共55頁。2.3.3截詞檢索1.含義:是指在檢索詞的合適位置進行截斷,然后使用截詞符進行處理,可節(jié)省輸入的字符,又可達到較高的查全率。較常用的是后截詞和中截詞。按所截斷的字符數(shù)分,有無限截詞和有限截詞兩種。2.算符:?、*、$等。3.特點:預防漏檢提高查全率4.舉例:building??、building?、building*、building$第48頁,共55頁。限制檢索1.含義:使用截詞檢索,僅簡化了布爾檢索中的邏輯或功能,并沒有改善布爾檢索的性質。使用詞位檢索,只能限制檢索詞之間的相對位置,不能完全確定檢索詞在數(shù)據庫中出現(xiàn)的字段位置,需要使用限制檢索縮小查找的范圍。常用的限制檢索有:字段、文獻類型、語種以及年代等限制。2.字段限制常用的符號符號:標題(TI)、文摘(AB)、作者(AU)、刊名(JN)等。3.特點:限制查找的范圍,滿足課題對查全、查準的要求。第49頁,共55頁。信息檢索方法及技術應用實例檢索課題:高層建筑結構優(yōu)化設計1.信息需求分析(1)明確檢索目的與要求

1)檢索目的:碩士學位論文開題查新

2)檢索要求:國內外關于高層建筑結構優(yōu)化設計方面的相關信息

3)確定檢索類型:屬書目及全文信息檢索(2)主題分析第一概面:高層建筑第二概面

結構設計第三概面

:優(yōu)化設計第50頁,共55頁。2.制定檢索策略

(1)選擇檢索詞根據主題分析確定的主題范圍,選擇檢索詞如下:

高層建筑tallbuilding*

高層建筑highrisebuilding*高層建筑highrisebuilding*

結構設計structuraldesign

優(yōu)化設計optimization第51頁,共55頁。2.編寫檢索提問式檢索式1高層建筑and結構設計檢索式2高層建筑and結構設計and優(yōu)化檢索式3(tallbuilding*orhighrisebuilding*orhighrisebuilding*)andstructuraldesign檢索式4building*and(tallor

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論