計算機檢索的基本原理及過程_第1頁
計算機檢索的基本原理及過程_第2頁
計算機檢索的基本原理及過程_第3頁
計算機檢索的基本原理及過程_第4頁
計算機檢索的基本原理及過程_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

計算機檢索

的基本原理及過程

wangxin@

?文獻數據庫的概念

?文獻數據庫檢索步驟

?主題詞關鍵詞的選取

?文獻數據庫的字段檢索

?檢索效果評價

?常用檢索技術

?計算機信息檢索實例

文故數據庫基本知識

1丈故數據埠

?文故數據庫是將各個學科領域、

各種專業(yè)技術方面的丈故信息匯集

在?起,經過分門別類的組織、加

工、編排后形成的數據庫。它能夠

提供人們方便而快速地,更具針對

性地查找各種文故咨料的線索或者

全文。

文故數據庫基本知識

1.1丈故數據庫的類型

按收錄文獻的類型劃分按提供信息的詳略劃分

2、文獻數據庫檢索步驟

■確定檢索要求和目標擬定檢索對象范圍主題詞

?選擇數據庫及檢索途徑

實施檢索并顯示檢索結果用檢索技術優(yōu)化檢索結果

選擇輸出(打印、拷貝或發(fā)送至電子郵箱)

2.1選擇檢索詞

?利用主題詞表

-選取規(guī)范化的主題詞或詞組

?利用印刷版的檢索工具書

-手工試檢,根據檢出文獻的主題詞標引情

?選用自由詞

-由于詞表規(guī)模的限制,不可能對某一專業(yè)

作全面檢索時,應考慮選用自由詞,盡可

能多地選用與課題有關的同義詞,以防漏檢。

檢索詞選取時應注意的問題

冷僻詞

找出隱性概念

使用核心概念

注意同義詞近義詞詞型變化

2.2檢奈途桎

作者(文章的責任者)

篇名(或題名)

機構(如浙江工業(yè)大學)

關鍵詞(如污水處理、高層建筑)

主題詞(規(guī)范化的主題概念,如用激光不用雷射)

文摘(論文或圖書的摘要或內容提要)

引文(即參考文獻)

基金(如國家自然科學基金項目)

刊名(期刊的名稱)

全文(或者全記錄)一

2.3常用檢索技術一常用其二妗付

?邏輯算符

?位置算符

?截詞符

?常用命令

邏輯檢索概念示意

BnotA

常用算符-正科算符

?與、AND、*

-用于概念交叉和限定。起縮小檢索范圍和

提高文獻查準率的作用。

?例Solar*Energy

常用算符-逐料算符

?或、OR、+

-用于概念之間并列關系的組配。增加主題

的同義詞,

-以擴大檢索范圍,避免文獻漏檢。

?例www+internet+network

,常用算符-近輯算符

?非、NOT、-

-從原檢索范圍中剔除一部分不需要的內容。

?例Energy-Nuclear

-除核能以外的有關能源方面的文獻才被命

中。

,常用算符-住置算符

布爾算符中的邏輯“與”只要求兩個

檢索詞必須同時出現在同一篇文獻中,

而沒有限定算符兩側檢索詞之間的位置

關系,有時難免造成誤檢。

常用算符-住置算符

例如,查找“細菌對染料破壞”方面的文

獻-Hh,

檢索詞:細菌、破壞、染料

邏輯“與”組配

檢索結果:命中同時用這三個詞標引的文獻

-有“細菌對染料的破壞”方面的文獻,

-也會有“染料對細菌的破壞”方面的文獻,

?要排除后一部分的文獻,就需用位置算符限定詞

與詞之間的位置關系。

常用算符-蒞置算符

?(W)或()算符:“With”的縮寫

-詞序不許顛倒

-兩詞之間不許插詞,只許空格或連字符號

?例CD(W)ROM將命中CDROM或CD-

ROM

?solar()energy檢出solarenergy

常用算符-蒞置算符

?(nW)算符:“nwords”的縮寫

-(nW)是從(W)算符引伸出來

-檢索詞之間允許插入0—n個詞

-詞序不許顛倒

?例anticorrosion(1W)paint

可檢出anticorrosionpaint和anticorrosionofpaint

?例檢索“材料磨損”(WEAROF

MATERIALS)方面的文獻,

檢索式:WEAR(1W)MATERIALS

常用算符-蒞置算符

?(N)算符:“Near”的縮寫

-詞序可以顛倒

-兩詞之間不許插詞

?例cross(N)section

可檢出crosssection和sectioncross

常用算符-核置算符

?(nN)算符:

-(nN)是從(N)算符引伸出來

-檢索詞之間允許插入0—n個詞

-詞序可以顛倒

,常用算符-住置算符

?(F)算符:“Field”的縮寫

-算符兩側的檢索詞必須在同一字段內

-詞序及兩詞間插入的詞數不限

?彳列digital(F)computer/TI,AB

常用算符-住置算符

?(S)算符:“Sentenc鏟和“Sub-field”的

縮寫

-算符兩側的檢索詞必須在同一句子

-詞序及兩詞間插入的詞數不限

,常用算符-住置算符

上述位置算符可以混合用于同一檢索

式中,由于檢索系統(tǒng)是按從左到右的順

序處理檢索式,因此,應將限制最嚴的

算符放在最左邊。

84,

常用6二付就詞符

?非限制性截詞:“?”加在詞干或不

完整的詞上,對詞的完整意義進行檢

索。

computer?代表Computer,computers,

computerized等

?限制性截詞:analy?er命中記錄中將出

現analyzer和analyser;work???命中記

錄中將出現,work,works5worker,

workers5working

3、檢索效率

?檢索系統(tǒng)進行檢索時產生的有效結果

?它直接反映了檢索系統(tǒng)性能的好壞。

?衡量檢索效果的指標

一查全率(recallratio)

一查準率(precisionratio)

檢索出的相關文獻量

杳且全王至率R=-數-據--庫--中-的--全--部--相-關--文--獻--xlOO%

氐/、+檢索出的相關文獻量

查準率P=-4A山.-M閆一X100%

檢出的文獻總量

最理想的檢索結果是查全率和查準率都達到100%。

R—100%表示數據庫中收錄的全部相關文獻都被檢索出來

P—100%表示檢索出來的文獻全部都是相關文獻

但事實上,檢索中有許多因素使這個指標很難達到。

C.W.Cleverdon(英)進行

Granfield試驗,得出

查全率R與查準率P曲線。R

?R—P之間存在著互逆關系

?A總翥詞數量多,泛指性強,

查全率較高但查準率卻非常低

?B點

M索詞專指性較強,查準率就高

查全率因此降低

?C,D兩點

兩種極端的折衷。

查全率一般在60%——70%查全與查準率P的關系曲線

查準率一般在40%——50%

?無論怎樣調整檢索策略和改進系

統(tǒng)效率,都無法使P和R同時接近100%。

4、計算機檢索實例

課題名稱:高層建筑的抗震結構設計

?課題分析

該課題涉及的主要概念有:高層、建筑、

抗震問題和結構設計等方面。

作業(yè)

1、信息素質包括哪幾個方面?

2、信息檢索活動的功用有哪些?

3、丈故按加工深度、出版形式和載體形點分別可分成哪幾類?

4、文技檢索的工具有哪些?文故數據庫可分成哪幾種類型?請列舉

五種檢索途徑。

5、請查詢本校圖書稔的稔箴目錄,寫出5本有關“計算機應用”或

“國際貿易”的圖書的素書號并簡要說明素書號的構成。

6、什么是檢索語言,檢索語言有幾種?請詳細列舉并進行比較。

文故檢索的方法有哪些?各自的優(yōu)缺點是什么?

?8、如何提高檢索丈故的效率并查會查準丈故?

潮9、檢索詞選取時應注意的問題有哪些?

110、國際商業(yè)經濟活動中應了解的信息有哪些?(非經貿專業(yè)不做)

■11、請說明計算機檢索系統(tǒng)的基本原理及檢索過程。

12、布東正科檢素

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論