第二講信息檢索基礎(二)_第1頁
第二講信息檢索基礎(二)_第2頁
第二講信息檢索基礎(二)_第3頁
第二講信息檢索基礎(二)_第4頁
第二講信息檢索基礎(二)_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

信息檢索概念信息檢索類型信息檢索方法信息檢索途徑信息檢索語言文獻信息數(shù)據(jù)庫原理第二講信息資源檢索基礎知識(二)信息檢索:是指將信息(主要指文獻信息)按一定的方式組織和存儲起來,并根據(jù)用戶的需要找出相關信息的過程。

信息檢索存儲檢索存儲:是對信息進行著錄、標引、整序,編制檢索工具和建立檢索系統(tǒng)的過程。檢索:是指面向信息需求而進行高度選擇性的查找過程。一、信息檢索信息檢索過程:存儲過程:

標引員廣泛收集信息,形成檢索標識,把這些標識按一定方法組織成形成各種檢索系統(tǒng),即信息源的形成過程。檢索過程:

檢索人員分析課題,用檢索提問標識,從檢索系統(tǒng)中查獲所需的信息。信息檢索原理:用戶檢索提問標識(提問檢索詞)與存儲在檢索工具中的標引標識(標引詞)進行比較,兩者一致或信息標引標識中包含提問標識即是命中的信息。能否準確地檢索出用戶所需的信息,關鍵在于能否準確地選擇檢索詞。這里所謂的“準確”,是指用戶所選用的檢索詞必須與數(shù)據(jù)庫中標引文獻記錄所用的標引詞相一致。

信息檢索過程一個匹配(Match)過程按檢索內(nèi)容劃分數(shù)據(jù)檢索是以數(shù)據(jù)為檢索內(nèi)容的信息檢索,要求從檢索系統(tǒng)存儲的大量原始調(diào)查數(shù)據(jù)和其它統(tǒng)計數(shù)據(jù)中查出所需的數(shù)字資料。全文檢索即檢索系統(tǒng)存儲的是整篇文章或整本圖書。書目檢索是以文獻線索為檢索內(nèi)容的信息檢索。二、信息檢索類型事實檢索是以原始文獻中抽取的事物的情況為檢索對象,檢索結(jié)果是事物發(fā)生的時間、地點和情況等具體答案,也是一種確定性的檢索。例如:查找“前事不忘、后事之師”最早的出處。檢索“赤壁之戰(zhàn)發(fā)生在湖北赤壁市么?”圖像檢索即以圖形、圖像或圖文信息為檢索內(nèi)容的信息檢索。多媒體檢索是以文字、圖像、聲音等多媒體信息為檢索內(nèi)容的信息檢索。按是否使用檢索工具劃分直接檢索就是指利用一次文獻進行檢索,這是以前比較常用的一種查找方法。所花時間多和精力大,檢出文獻少。(簡單模糊檢索)間接檢索就是指利用各種檢索工具獲得文獻線索,再根據(jù)線索去查找原始文獻線索的方法。(高級檢索,限定檢索等)按信息檢索手段劃分傳統(tǒng)信息檢索就是手工信息檢索,是利用各種印刷型檢索工具來查找文獻的一種方法。一般是利用各種印刷型檢索工具?,F(xiàn)代信息檢索現(xiàn)代信息檢索即計算機信息檢索,是指利用計算機和網(wǎng)絡來處理和查找文獻信息的檢索方式。分:聯(lián)機檢索、光盤檢索、網(wǎng)絡檢索。信息檢索的方法主要有:常規(guī)法,引文法,綜合法。常規(guī)法:常規(guī)法是指直接利用檢索工具檢索文獻的方

法,主要有順查法、倒查法和抽查法。

順查法:按照時間順序,由遠及近地利用檢索系統(tǒng)進行文獻檢

索的方法,這種方法能收集到某一課題的系統(tǒng)的文獻,適用于

課題的文獻檢索。

倒查法:倒查法是由近及遠,從新到舊,逆時間的順序利用檢

索工具進行文獻檢索的方法。

抽查法:針對項目的特點,選擇有關該項目的文獻信息最可能

出現(xiàn)或最多出現(xiàn)的時間段,利用檢索工具進行重點檢索的方法。三、信息檢索方法引文法:利用文獻后所附的參考文獻進行檢索的方法,由追溯檢索法和引文索引法組成。追溯檢索法:即從文獻信息密度較大的幾種期刊的最近兩三年論文中查出一批與檢索課題有關的文獻,再以這批文獻所附的參考文獻作為線索,找到第二批相關文獻,以此類推獲得一批與主題相關的文獻,這種方法的出發(fā)點是從引用論文開始查找。引文索引法:利用引文索引,從被引論文開始查找引用它的全部論文,通過此方法可得到與來源文獻同一主題的相關文獻。專門工具:引文索引,如《科學引文索引》、《社會科學引文索引》等。綜合法:又稱循環(huán)法,就是常規(guī)法與引文法綜合運

用的方法。檢索途徑是由提取信息源的外部與內(nèi)部特征形成的,又稱檢索點或檢索入口。外部特征的檢索途徑:題名途徑:利用書刊名或文獻題名編成的索引進行信息檢索的途徑,一般多用于查找圖書,期刊,單篇文獻。著者途徑:根據(jù)已知文獻源著者直接或間接查找文獻源的途徑。號碼途徑:通過各種專用的符號代碼直接或間接查找文獻的方法,包括書號、刊號、報告號、專利號、標準號等。四、信息檢索途徑內(nèi)部特征的檢索途徑:分類途徑:用分類法組織的信息為用戶提供從科學屬

性查找的途徑就是分類途徑。

分類法:

按照信息內(nèi)容的科學屬性,運用概念劃分與歸納的方法

形成各級類,從而使信息形成一種有序化的知識體系的信息組織方法。

主題途徑:用戶根據(jù)所確定的主題詞或關鍵詞,利用主題詞表和主題索引實施檢索的途徑。

主題詞:以規(guī)范化的詞匯來表達文獻的內(nèi)容的主題。

關鍵詞:一種非規(guī)范化詞匯。檢索語言是信息存儲與檢索過程中用于描述信息特征和表達用戶信息提問的一種專門語言。是在信息儲存和信息檢索中所使用的標識語言,它既包括受控的人工語言(通過詞表或分類表進行規(guī)范過的語言),也可包括未受控的自然語言。檢索語言是根據(jù)檢索途徑來確定,使用什么樣的檢索途徑,就使用什么樣的檢索語言。注意:信息檢索存儲過程中使用的標引語言(標引詞或文獻標識),也是在信息檢索的檢索過程中使用的檢索語言(標引詞或檢索標識),標引語言和檢索語言必須一致才能準確檢索出結(jié)果。五、信息檢索語言檢索語言的類型檢索語言的類型表述文獻外表特征的語言表述文獻內(nèi)容特征的語言著者號碼題名分類主題非規(guī)范化語言(自然)規(guī)范化主題詞(人工)敘詞標題詞關鍵詞自由詞文獻外部特征檢索語言:著者檢索語言:主要針對編有著者姓名索引的檢索工具,輸入著者姓名就可以檢索到所要查詢的內(nèi)容,但要注意姓名輸入的格式變化。文獻代碼檢索語言:文獻代碼即文獻編號,例如,國際統(tǒng)一書號ISBN,國際統(tǒng)一刊號ISNN,數(shù)字文獻表引號DOI,科技報告的報告號,科技標準的標準號,專利的公開號、公告號以及專利號等,如果在文獻數(shù)據(jù)庫中建有相應的代碼字段,那么就可以建立代碼索引,用相應的代碼作為檢索詞進行檢索。題名檢索語言:即通過文獻名就可以檢索到所要查詢的內(nèi)容。文獻內(nèi)容特征檢索語言分類檢索語言按知識門類的邏輯次序?qū)⑿畔⑾到y(tǒng)地組織和劃分的語言,具體體現(xiàn)為用分類號和類名來表達信息的主題概念。通過分類表來對分類號進行控制。

例:I712.45/26達芬奇密碼

I712.45/404暮光之城.新月主要分類法《中國圖書館圖書分類法》(簡稱《中圖法》)《中國標準文獻分類法》(簡稱《標準法》)《InternationalPatentClassification》(國際專利分類法,簡稱《IPC》)

《中國圖書館圖書分類法》將圖書分為馬列、哲學、社會科學、自然科學、綜合五大類。分類標識即分類號,由字母或字母和數(shù)字組成。采用等級列舉表達從屬關系。C社會科學總論D政治、法律E軍事F經(jīng)濟G文教、科學、體育H語言J藝術I文學K歷史、地理自然科學總論NRSTO數(shù)理化P天文學、地球科學Q生物科學醫(yī)藥、衛(wèi)生農(nóng)業(yè)科學工業(yè)技術U交通運輸V航空、航天X環(huán)境科學Z綜合性圖書社會科學自然科學機械、儀表建筑科學馬列主義、毛澤東思想A馬列B哲學哲學綜合TBTDTETFTGTHTJTLTKTMTNTPTQTSTUTV一般工業(yè)技術礦業(yè)工程石油冶金工業(yè)無線電、電子學、電訊技術自動化計算化學工業(yè)輕工業(yè)、手工業(yè)金屬學武器工業(yè)動力工程原子能技術電工技術水利工程主題檢索語言主題檢索語言直接采用能反映文獻主題概念的詞語來標引文獻。目前國內(nèi)外在主題檢索語言中采用的語主要非規(guī)范化語言(關鍵詞、自由詞)、

規(guī)范化主題語言(敘詞、標題詞)等幾種。非規(guī)范化語言它是以關鍵詞作為信息內(nèi)容標識和檢索依據(jù)的主題語言。它將描述主題內(nèi)容的關鍵詞抽出,按字順排列提供檢索。一般不加或加以少量規(guī)范處理。關鍵詞:是能反映文獻主題概念的關鍵詞語,可直接從文獻記錄

的篇名、文摘或全文中,按字面拆分抽取,沒有詞表來

對選詞進行控制,是一種非受控的、不規(guī)范的詞語。自由詞:在文中自由散布的,非人工標引的,叫做文中自由詞(

freetermsintext)或簡稱自由詞。

例:動壓空氣軸承

關鍵詞:動壓軸承/空氣軸承

自由詞:動壓/空氣/軸承,或:動/壓/空/氣/軸/承規(guī)范化檢索語言

規(guī)范化詞稱作敘詞、標題詞等,就是受控詞。指從自然語言中優(yōu)選

出來的并經(jīng)過規(guī)范化處理的名詞術語。

把規(guī)范化詞按照一種便于檢索的方式編排起來,就形成主題詞表。“規(guī)范化處理”就是通過敘詞表對選詞的詞類、詞形、同義詞、

多義詞等進行處理的過程。

例如、同義詞規(guī)范類型:

同一事物的不同稱呼,

如:西紅柿與蕃茄、網(wǎng)上聊天與QQ、兒歌與童謠等。

同一事物的簡稱、全稱、音譯等,

如:日本語與日語、互聯(lián)網(wǎng)與因特網(wǎng)、中央電視臺與CCTV等。標題詞:標題詞語言采用標準化處理的名詞術語作為標識,來表達文獻所論述或涉及的事物主題,并將全部標識按字順排序。

敘詞:主要通過敘詞表來加以規(guī)范的人工受

控詞語,故又稱為

受控詞(controlledterms)。主要的敘詞表

《漢語主題詞表》(簡稱《漢表》); 《INSPECthesaurus》; 《EiEngineeringInformationThesaurus》例:欲在美國EI檢索系統(tǒng)中利用敘詞索引檢索有關電弧焊新技術的引

文文獻,可以擬檢索詞為Arcwelding,查EIThesaurus,得到

Arcwelding

USE:Electricarcwelding 說明Arcwelding不是正式檢索詞,必須按照用項(USE)的指引換用

正式敘詞Electricarcwelding作為檢索詞。非規(guī)范化語言與規(guī)范化語言的比較非規(guī)范化語言(自然語言),沒有詞表的約束和復雜規(guī)則的限

制,檢索者可以使用在文獻中出現(xiàn)的任何一個有實際意義的詞進

行檢索,所以較受控語言使用方便。規(guī)范化語言對同義詞、近義詞、一詞多義、一義多詞加以規(guī)范統(tǒng)

一,顯示多種形式的相關關系,因而,查準率和查全率較高。例:查關于大學教育系的文章。

用關鍵詞語言:原文中使用什么就抽取什么如:education

department/educationschoool/schoolofeducation,

用主題語言語言:則使用主題詞表將這一類文章統(tǒng)一規(guī)范為

schoolofeducation。檢索時,結(jié)果將包括所有關于大學教育

系的文章。數(shù)據(jù)庫的定義和類型數(shù)據(jù)庫的構(gòu)成文獻信息數(shù)據(jù)庫的檢索原理六、文獻信息數(shù)據(jù)庫原理1.數(shù)據(jù)庫原理定義至少由一種文檔(file)組成,能滿足特定目的或特定功能數(shù)據(jù)處理系統(tǒng)需要的數(shù)據(jù)集合。簡言之就是數(shù)據(jù)的集合,存儲在計算機內(nèi)的、有組織的、可共享的數(shù)據(jù)集合。數(shù)據(jù)庫類型類型:

信息內(nèi)容:文字型(大多數(shù))數(shù)值型多媒體加工深度:一次文獻:全文型(中刊網(wǎng)、Elsevier等)

二次文獻:目錄型(iPac、期刊目錄等)題錄型(SKBK等)文摘型(Compendex等)三次文獻:網(wǎng)絡在線詞典等工具書2.數(shù)據(jù)庫的結(jié)構(gòu)數(shù)據(jù)庫的構(gòu)成:

“文檔—記錄—字段”三個層次構(gòu)成

字段:是構(gòu)成記錄的基本單元,用于描述實體的某一方面屬性,在同

一個文檔中,各條記錄都具有相同性質(zhì)的字段。

與文獻內(nèi)容相關:基本字段

與文獻內(nèi)容無關:輔助字段記錄:是構(gòu)成文檔的基本單位,也是機器存取數(shù)據(jù)的基本單位,它

描述某一實體的全部屬性。

全文數(shù)據(jù)庫:一條記錄對應一篇全文

書目數(shù)據(jù)庫:一條記錄對應一條文摘或題錄

基本字段名稱:

文摘(Abstracts)

文章題目(ArticleTitle)

作者關鍵詞(AuthorKeyWords)

輔助字段名稱:

作者(Authors)

作者機構(gòu)

期刊名稱(JournalTitle)

國際標準連續(xù)出版物號(ISSN)等。

數(shù)據(jù)庫主要組成:主文檔索引文檔幫助系統(tǒng)主文檔:是數(shù)據(jù)庫數(shù)據(jù)組織的基本形式,由于該文檔內(nèi)的記錄按文

獻信息獲得的先后順序排列,故又名順排文檔。

記錄(記錄號大小排列)的集合內(nèi)容無序,無法直接檢索。順排文檔示意圖記錄號記錄4基本字段輔助字段記錄6一條記錄索引文檔:是對主文檔的再加工,它把主文檔記錄中的某些字段(

如作者、關鍵詞、分類號等字段)中的個別單元(如某一位作者,某

一條關鍵詞)及其所對應的記錄號抽出,分別按某種順序(如音序、

數(shù)序等)進行排序,然后統(tǒng)計出具有同一單元的記錄條數(shù),另行歸并

成索引文檔,又稱倒排文檔。

記錄的特征標識(作者、期刊名稱等)排序,其后列出含有此標識的

記錄號提高檢索效率。計算機檢索原理示意題名記錄輸出檢索結(jié)果

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論