![《網(wǎng)絡(luò)信息資源開發(fā)與利用程》系列課件_第1頁](http://file4.renrendoc.com/view/437bf278f9d75ac6735e6d1efc73213c/437bf278f9d75ac6735e6d1efc73213c1.gif)
![《網(wǎng)絡(luò)信息資源開發(fā)與利用程》系列課件_第2頁](http://file4.renrendoc.com/view/437bf278f9d75ac6735e6d1efc73213c/437bf278f9d75ac6735e6d1efc73213c2.gif)
![《網(wǎng)絡(luò)信息資源開發(fā)與利用程》系列課件_第3頁](http://file4.renrendoc.com/view/437bf278f9d75ac6735e6d1efc73213c/437bf278f9d75ac6735e6d1efc73213c3.gif)
![《網(wǎng)絡(luò)信息資源開發(fā)與利用程》系列課件_第4頁](http://file4.renrendoc.com/view/437bf278f9d75ac6735e6d1efc73213c/437bf278f9d75ac6735e6d1efc73213c4.gif)
![《網(wǎng)絡(luò)信息資源開發(fā)與利用程》系列課件_第5頁](http://file4.renrendoc.com/view/437bf278f9d75ac6735e6d1efc73213c/437bf278f9d75ac6735e6d1efc73213c5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、網(wǎng)絡(luò)信息資源開發(fā)與利用 第2章 信息檢索基礎(chǔ)知識北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社北京交通大學(xué)出版社8/4/20221第1頁,共84頁。1 信息檢索的基本概念1.1 信息檢索的涵義從廣義上講,信息檢索包括兩個過程,一是信息存儲(information storage),即信息的標(biāo)引、加工和存
2、儲過程:二是信息檢索(information retrieval),即信息用戶的查找過程。從狹義上講,信息檢索僅指后一部分。信息檢索的本質(zhì)是一個匹配的過程即用戶的信息需求和信息存儲的信息集合進行比較和選擇的過程8/4/2022第2頁,共84頁。信息存儲和檢索過程的基本原理 輸出一次信息信息特征檢索語言信息特征標(biāo)識檢索結(jié)果信息需求檢索提問檢索提問標(biāo)識分析標(biāo)引標(biāo)引輸入檢索信息檢索系統(tǒng)(工具)存儲過程檢索過程分析8/4/2022第3頁,共84頁。 計算機信息檢索是對信息進行收集、分類、標(biāo)引、著錄,并加以有序化組織,將信息儲存到計算機存儲信息系統(tǒng)中,編制出一個信息檢索系統(tǒng)或信息檢索工具以及從檢索系統(tǒng)或
3、工具中檢索所需信息的過程。1.2 計算機信息檢索8/4/2022第4頁,共84頁。用戶輸入檢索需求分析轉(zhuǎn)換處理需求數(shù)據(jù)庫檢索=概念詞的相關(guān)匹配運算概念詞典控制詞表信息源篩選錄入分類、詞索引文檔預(yù)處理 計算機信息檢索的基本原理8/4/2022第5頁,共84頁。1.3 信息檢索的類型按信息檢索的內(nèi)容劃分文獻檢索 數(shù)據(jù)檢索事實檢索概念檢索按信息檢索的組織方式劃分全文本檢索多媒體檢索超文本檢索超文本檢索是對每個節(jié)點中儲存的信息以及信息鏈構(gòu)成的網(wǎng)絡(luò)信息進行的檢索。與傳統(tǒng)文本的線性順序不同,超文本檢索強調(diào)中心節(jié)點之間的語義聯(lián)結(jié)結(jié)構(gòu),靠系統(tǒng)提供的工具進行圖示穿行和節(jié)點展示,提供瀏覽式查詢,可進行跨庫檢索。
4、WWW8/4/2022第6頁,共84頁。2 檢索系統(tǒng) 檢索系統(tǒng)(retrieval system)是指根據(jù)特定的信息需求而建立起來的一種有關(guān)信息搜集、加工、存儲和檢索的程序化系統(tǒng),其主要目的是為人們提供信息服務(wù)。8/4/2022第7頁,共84頁。2.1 檢索系統(tǒng)的功能模塊信息源選擇與采集子系統(tǒng)對通常的計算機檢索系統(tǒng)來說,信息選擇與采集主要由人工完成,但對于網(wǎng)絡(luò)信息檢索系統(tǒng)來說,則主要通過網(wǎng)絡(luò)搜索機器人Robot自動進行,并且可以定期更新。標(biāo)引子系統(tǒng)標(biāo)引處理的類型:人工賦詞標(biāo)引、機器標(biāo)引、無標(biāo)引(或全標(biāo)引);標(biāo)引要求:不漏標(biāo)(全面)、不錯標(biāo)(準確)、不濫標(biāo)(簡練)。建庫子系統(tǒng)工作流程主要包括數(shù)據(jù)
5、錄入、錯誤檢查與處理、數(shù)據(jù)格式轉(zhuǎn)換、生成并定期更新各種文檔。8/4/2022第8頁,共84頁。2.1 檢索系統(tǒng)的功能模塊詞表管理子系統(tǒng)主要功能:管理維護系統(tǒng)中已有詞表的結(jié)構(gòu)、詞匯,使它與標(biāo)引、建庫、檢索等多個子系統(tǒng)相連接;支持用戶的各種詞匯查詢操作;輸出各種形式的詞匯數(shù)據(jù)或詞表產(chǎn)品等。用戶接口子系統(tǒng)一般有5種界面風(fēng)格:命令/指令語言(command language)、菜單選擇(menu selection)、表格填充(form fill-in)、直接操縱(direct manipulation)、自然語言(natural language)。 提問處理子系統(tǒng)檢索系統(tǒng)(數(shù)據(jù)庫)的核心,負責(zé)處理
6、用戶輸入的檢索詞或提問式,并將它們與數(shù)據(jù)庫中存儲的數(shù)據(jù)進行匹配運算,然后把運算結(jié)果返回給用戶。 8/4/2022第9頁,共84頁。2.2 文檔記錄字段 檢索系統(tǒng)的基本組織形式由三個層次構(gòu)成。文檔( file ):檢索系統(tǒng)至少包括一個順排文檔(sequential files)。有的還包括一個倒排文檔(inverted files)。記錄(record):文檔的基本單元,由若干字段組成的信息單元,是對某一信息實體的全部屬性進行描述的結(jié)果。字段(field):是記錄的基本單元,它是對信息實體的具體屬性進行描述的結(jié)果。 8/4/2022第10頁,共84頁。2.2 文檔記錄字段 檢索系統(tǒng)的基本組織結(jié)構(gòu)
7、關(guān)系:數(shù)據(jù)庫 database 文檔 file, archive 順排文檔 記錄Record 字段Field倒排文檔(索引index) 8/4/2022第11頁,共84頁。3 檢索語言 檢索語言(retrieval language)是文獻信息標(biāo)引和檢索提問而約定的人工語言。 檢索語言是為溝通文獻標(biāo)引與文獻檢索而編制的人工語言,也是連接信息存儲和檢索兩個過程中標(biāo)引人員與檢索人員雙方思路的渠道。 在存儲的過程中用于標(biāo)引信息稱為標(biāo)引語言; 用于編制索引就稱為索引語言; 用于信息檢索則稱為檢索語言。8/4/2022第12頁,共84頁。3.1 檢索語言的種類 分類語言(classification l
8、anguage)是用分類號表達各種概念的檢索標(biāo)識,將各種概念按學(xué)科性質(zhì)進行系統(tǒng)排列,反映科學(xué)知識分類體系的檢索語言。 主題分類語言 其特征是一個主題充當(dāng)一個類目,類目象主題詞表一樣按字順排列,而不是按邏輯順序排列。 優(yōu)點:以事物分類,能將相關(guān)的內(nèi)容全部集中在一起。對交叉學(xué)科的主題揭示非常有利。 科學(xué)分類語言 學(xué)科分類語言是以知識分類為基本,按照學(xué)科性質(zhì)及從屬、層次關(guān)系來組織資源,類目排序以字順為標(biāo)準。 優(yōu)勢:類目容量大,內(nèi)容更有針對性,學(xué)術(shù)性更強,符合科技工作者族性檢索的要求。 圖書分類語言 目前采用的主要有杜威十進分類法(DDC)、國際十進分類法(UDC)、美國國會圖書館分類法(LCC)和中
9、國圖書館圖書分類法(中圖法)8/4/2022第13頁,共84頁。主題語言(subject language)是直接以表達文獻主題的語詞作為檢索標(biāo)識,按字順編排并通過參照系統(tǒng)等方法提示詞間關(guān)系的檢索語言。代碼語言(code language)是對事物的某一方面特征用某種代碼系統(tǒng)來加以標(biāo)引和排列的檢索語言。例如,根據(jù)化合物的分子式這種代碼語言,可以構(gòu)成分子式索引系統(tǒng),允許用戶從分子式出發(fā),檢索相應(yīng)的化合物及其相關(guān)的文獻信息。自然語言是直接從原始信息中抽取出來的未經(jīng)規(guī)范化處理,用以揭示信息主題概念的檢索語言。8/4/2022第14頁,共84頁。檢索語言的類型描述內(nèi)容特征語言描述外表特征語言主題語言分
10、類語言代碼語言責(zé)任者題名其他自然語言受控語言關(guān)鍵詞語言(keyword) 標(biāo)題詞語言(heading) 單元詞語言(uniterm) 敘詞語言(descriptor)8/4/2022第15頁,共84頁。分類語言分類語言中最常見的是體系分類語言,它按照學(xué)科體系由上至下,從總體到局部,由一般到具體,從低級到高級,從簡單到復(fù)雜 的邏輯次序逐級展開。專利分類表中國科學(xué)院圖書分類法中國圖書館圖書分類法杜威十進分類法 (國外)8/4/2022第16頁,共84頁。中國圖書館圖書分類法基本部類:1、馬克思主義、列寧主義、毛澤東思想、鄧小平理論2、哲學(xué)3、社會科學(xué)4、自然科學(xué)5、綜合性圖書基本大類: (22個)
11、 A 馬列主義毛澤東思想鄧小平理論 N 自然科學(xué)總論 B 哲學(xué) O 數(shù)理化科學(xué) C 社會科學(xué)總論 P 天文學(xué)、地理 D 政治、法律 Q 生物科學(xué) E 軍事 R 醫(yī)學(xué)、衛(wèi)生 F 經(jīng)濟 S 農(nóng)業(yè)科學(xué) G 文化、科學(xué)、教育、體育 T 工業(yè)技術(shù) H 語言、文字 U 交通運輸 I 文學(xué) V 航空、航天 J 藝術(shù) X 環(huán)境科學(xué) K 歷史、地理 Z 綜合性圖書 8/4/2022第17頁,共84頁。中國圖書館圖書分類法F 經(jīng)濟F1 世界各國經(jīng)濟概況、經(jīng)濟史、經(jīng)濟地理F11 世界經(jīng)濟、國際經(jīng)濟關(guān)系F12 中國經(jīng)濟F13/17 各國經(jīng)濟F2 經(jīng)濟計劃與管理F20 國民經(jīng)濟管理F21 經(jīng)濟計劃F22 經(jīng)濟計算、經(jīng)濟
12、數(shù)學(xué)方法F23 會計F239 審計F24 勞動經(jīng)濟F25 物資經(jīng)濟8/4/2022第18頁,共84頁。F27 企業(yè)經(jīng)濟F29 城市與市政經(jīng)濟F3 農(nóng)業(yè)經(jīng)濟F4 工業(yè)經(jīng)濟F7 貿(mào)易經(jīng)濟F72 中國國內(nèi)貿(mào)易經(jīng)濟F73 世界各國國內(nèi)貿(mào)易經(jīng)濟F74 國際貿(mào)易F75 各國對外貿(mào)易F8 財政、金融F81 財政、國家財政F82 貨幣F83 金融、銀行F84 保險 8/4/2022第19頁,共84頁。中國圖書館圖書分類法 T 工業(yè)技術(shù) TB 一般工業(yè)技術(shù) TL 原子能技術(shù) TD 礦業(yè)工程 TM 電工技術(shù) TE 石油、天然氣工業(yè) TN 無線電電子學(xué)、電訊技術(shù) TF 冶金工業(yè) TP 自動化技術(shù)、計算機 TG 金屬
13、學(xué)、金屬工藝 TQ 化學(xué)工業(yè) TH 機械、儀表 TS 輕工業(yè)、手工業(yè) TJ 武器工業(yè) TU 建筑科學(xué) TK 動力工程 TV 水利工程8/4/2022第20頁,共84頁。圖書館的藏書都是按分類號排架的。分類號的排列采用由左至右逐位對比的方法進行排列,先比較字母部分,再比較數(shù)字部分。 字母部分按英文字母固有的次序排列。例: B2中國哲學(xué) B3世界哲學(xué) E27各種武裝力量 E512蘇聯(lián)軍事 TM92電氣化、電能應(yīng)用 TU201建筑設(shè)計原理 分類號中的阿拉伯?dāng)?shù)字依小數(shù)制排列。例: B021辯證唯物主義的物質(zhì)論 B022辯證唯物主義的意識論 B022.2客觀規(guī)律性與主觀能動性 D035.37交通公安管理
14、 D035.4監(jiān)察、監(jiān)督分類號的排列次序 8/4/2022第21頁,共84頁。分類號的排列次序 (續(xù)) 數(shù)字之后如還有字母,則在前部類號相同的基礎(chǔ)上,再按字母順序排列。例: TP312AL ALGOL程序語言 TP312BA BASIC程序語言 TP312CO COBOL程序語言 總論復(fù)分號“-”要排在數(shù)字“0”的前面。例: H-61,H0, H31-61,H310, 總論復(fù)分號“-”要排在組配符號“:” 的前面。例: H31,H31-62,H31:F,H31:I,H319, H319.4,H319.4-44, H319.4:B,H319.4:C,8/4/2022第22頁,共84頁。讀者實際利
15、用圖書館時,往往需要知道書刊的分類號和索書號(又稱索取號)。索書號是圖書館賦予每一種館藏圖書的號碼,是讀者查找圖書非常必要的代碼信息。它的第一部分是分類號,第二部分是書次號。索書號的兩部分之間有一個空格或一條斜線“/”。書次號或者是按照圖書作者姓名所編排的著者號碼,或者是按照圖書進入館藏時間的先后所取用的順序號碼。 不同的索書號確定排列先后順序的步驟是,先比較分類號碼;如分類號碼相同再比較著者號碼或順序號碼。分類號比較:先英文字母排,后阿拉伯?dāng)?shù)字按小數(shù)制排。分類號中“-”排在0之前,例如:先排F-43再排F0。分類號的數(shù)字排列比較采用對位比較法,字符序列以ASCII字符集為依據(jù)。比如:B11、
16、B111、B112、B12,書次號的數(shù)字排列比較采用自然順序排列方法,即1,2,3,.,9,10,11,.,99,100,101,。分類號和索書號8/4/2022第23頁,共84頁。重新排列以下索取號的順序TP3/1044 TP3-43/3060 TP311.13/1713 TP311.13/9091 TP393/4027 TP393/7732 TP393-43/4723 8/4/2022第24頁,共84頁。主題語言關(guān)鍵詞語言是直接選用文獻中的自然語言作基本詞匯,并將那些能夠揭示文獻題名或主要意旨的關(guān)鍵性自然語詞作為關(guān)鍵詞進行標(biāo)引的一種檢索語言。 例如:“國際聯(lián)機檢索概論”中的“國際聯(lián)機檢索”
17、、“國際聯(lián)機”、“聯(lián)機”、“檢索”都是能描述這篇文獻主題的關(guān)鍵詞,都可以作為檢索詞。 標(biāo)題詞語言是最早使用的一種主題語言,它以規(guī)范化的自然語義作為標(biāo)識,來表達信息涉及的主題概念,并將全部標(biāo)識按字母順序排列。 例如:一篇文章用“微型計算機”這個術(shù)語來敘述它的研究對象,另一篇文章用“微型電腦” 來敘述,第三篇文章用“微機” 來敘述,雖然都表示同一概念,這時就不能直接用“微型電腦”或“微機”來作標(biāo)題詞,這三篇文章都必須用“微型計算機”作標(biāo)題詞(實際上是“主標(biāo)題詞”,根據(jù)主題詞表決定)。8/4/2022第25頁,共84頁。主題語言單元詞語言是在標(biāo)題詞語言基礎(chǔ)上發(fā)展起來的一種規(guī)范化檢索語言。單元詞(un
18、iterm)是一種最基本的、不能再分的詞匯單位,亦稱元詞。它也是從文獻內(nèi)容中抽出,并經(jīng)過規(guī)范化處理,代表一個獨立的概念。 例如:“計算機”、“軟件”、“固相”、“相”。 敘詞語言是以自然語言為基礎(chǔ),以概念組配為基本原理,并經(jīng)過規(guī)范化處理,表達主題的最小概念單元,作為信息存儲和檢索依據(jù)的一種檢索語言。只有經(jīng)過規(guī)范化處理,滿足一詞一義一型要求的詞才能稱為敘詞(descriptor)。 例如:在敘詞語言的檢索系統(tǒng)中用“計算機”這個詞進行檢索,即使題名字段沒有“計算機”這個詞(如有同義詞“電腦”)的文章,也可以被檢索出來,不必進行同義詞替換即可查全。8/4/2022第26頁,共84頁。主題語言 主題語
19、言(標(biāo)題詞、單元詞、敘詞)的規(guī)范化處理:詞義規(guī)范:對同義詞(如計算機與電腦)、近義詞(如實驗與試驗)、學(xué)名和俗名(如發(fā)動機與馬達)、不同譯名(激光與萊塞)、簡稱與全稱(如中國與中華人民共和國)、不同寫法(如X射線與愛克斯射線)等進行選擇;對多義詞、同形異義詞進行限定說明,如杜鵑既表示一種鳥,也表示一種花,就須限定說明為,杜鵑(動物)、杜鵑(植物)。詞類規(guī)范:即確定詞類的范圍。能用作敘詞的詞類一般要求控制在具有實質(zhì)意義的名詞或動名詞的范圍之內(nèi)。詞形規(guī)范:即對詞的繁簡體、詞序、字母符號等的規(guī)定。8/4/2022第27頁,共84頁。代碼語言代碼語言是指對事物的某方面特征,用某種代碼系統(tǒng)來表示和排列事
20、物概念,從而提供檢索的檢索語言。 例如:根據(jù)化合物的分子式這種代碼語言,可以構(gòu)成分子式索引系統(tǒng),允許用用戶從分子式出發(fā),檢索相應(yīng)的化合物及其相關(guān)的信息。8/4/2022第28頁,共84頁。自然語言自然語言是直接從原始信息中抽取出來的未經(jīng)規(guī)范化處理,用以揭示信息主題概念的檢索語言。抽取出來的詞包括自由詞、關(guān)鍵詞、事物名稱、科學(xué)術(shù)語、俗名、商品型號和縮寫等,具有不用編制詞表,及時跟上事物發(fā)展,準確表達事物新概念,選詞靈活方便,專指性強,標(biāo)引和檢索速度快等優(yōu)點。 例如:如有人輸入:how to control drivers of hard disk ,檢索系統(tǒng)會自動提取檢索詞,然后進行過濾和檢索
21、。 注意:Google和專業(yè)數(shù)據(jù)庫的檢索語言區(qū)別。8/4/2022第29頁,共84頁。 4 檢索方法及檢索途徑 4.1 檢索方法查找(Searching)就是實施檢索策略、搜尋所得文獻信息的過程。以下幾種方法,無論是計算機還是手工檢索,都是常用的方法。 “拉網(wǎng)法” 在不了解查詢某一專題信息的URL地址時,可從提供信息總目的Web 頁面開始瀏覽,沿著專題鏈接層層查找,直至找到有關(guān)的內(nèi)容為止。然后用“書簽”保存這個頁面的URL,轉(zhuǎn)向另一個分支。這種方法可以迅速獲得較多的相關(guān)地址,然后進行篩選。就使用引擎而言,國外專家也建議先用鏈接頁面多、響應(yīng)時間快的引擎。8/4/2022第30頁,共84頁。 引文
22、法(跟蹤法) 文獻之間的引證和被引證關(guān)系揭示了文獻之間存在的某種內(nèi)在聯(lián)系,引文法(也有稱為跟蹤法)就是利用文獻后所附的參考文獻、相關(guān)書目、推薦文章和引文注釋查找相關(guān)文獻的方法。這些材料指明了與用戶需求最密切的文獻線索,往往包含了相似的觀點、思路、方法,具有啟發(fā)意義。8/4/2022第31頁,共84頁。 引文法又可分為兩種,一種是由遠及近地搜尋,即找到一篇有價值的論文后進一步查找該論文被哪些其它文獻引用過,以便了解后人對該論文的評論、是否有人對此作過進一步研究、實踐結(jié)果如何、最新的進展怎樣等等。由遠及近地追尋,越查資料越新,研究也就越深入,但這種查法主要依靠專門的引文索引,如 科學(xué)引文索引、社會
23、科學(xué)引文索引 。8/4/2022第32頁,共84頁。 另一種較為普遍的查法是由近及遠地追溯,這樣由一變十,由十變百地獲取更多相關(guān)文獻,直到滿足要求為止。這種方法適合于歷史研究或?qū)Ρ尘百Y料的查詢, 其缺點是越查材料越舊,追溯得到的文獻與現(xiàn)在的研究專題越來越疏遠。因此,最好是選擇綜述、評論和質(zhì)量較高的專著作為起點,它們所附的參考文獻篩選嚴格,有時還附有評論。8/4/2022第33頁,共84頁。常規(guī)法 所謂常規(guī)法就是利用常規(guī)檢索工具查找有關(guān)文獻的方法,是信息時代應(yīng)掌握的最基本的信息查找方法?,F(xiàn)在對文獻的書目控制手段已日趨完善,各種印刷版、縮微版、光盤版和網(wǎng)絡(luò)版的檢索工具層出不窮,有很大的挑選余地。用
24、戶應(yīng)根據(jù)自己的檢索知識和條件選用一種或幾種檢索工具。常規(guī)法可分為順查法、逆查法和抽查法。 8/4/2022第34頁,共84頁。排除、限定和合取法 這實際上是將信息加工的方法融入檢索中去。思維中使用排除這一概念,是指對查找對象的產(chǎn)生和存在的狀態(tài)在時間和空間上加以外在否定。把這一方法移植到檢索中,就是在時間或空間上極大地收縮檢索范圍。限定法是相對于排除法而言的,指對查找對象在時間和空間上加以內(nèi)在的肯定。排除的結(jié)果必然是限定,反之亦然。8/4/2022第35頁,共84頁。4.2 信息檢索的途徑 所謂檢索途徑就是檢索時切入信息群體的路徑。檢索途徑有兩大類,一類是用信息的外部特征,如題名、責(zé)任者、某種序
25、號、機構(gòu)名等作為檢索標(biāo)識;另一類是用能夠描述信息內(nèi)容的分類號、關(guān)鍵詞、主題詞等作為檢索標(biāo)識。在數(shù)據(jù)庫中檢索時,幾乎所有的字段都可以作為檢索的途徑。8/4/2022第36頁,共84頁。檢索語言與檢索途徑的關(guān)系 8/4/2022第37頁,共84頁。分類檢索 這種檢索是根據(jù)信息內(nèi)容的學(xué)科分類來進行的。最大的優(yōu)點能保證信息的系統(tǒng)性,而且具有較好的族性檢索功能。 分類檢索的要點:1。對待檢課題的概念及學(xué)科間的各種關(guān)系清楚;2。正確掌握相關(guān)課題的分類名稱、分類號,手工檢索中掌握工具的分類排檢。 8/4/2022第38頁,共84頁。分類檢索的步驟:1。分析待檢課題,確定其學(xué)科,并弄 清學(xué)科間的各種關(guān)系。2。
26、查出待檢課題的分類號(工具簡單時可以 省略)3。選擇適當(dāng)?shù)臋z索工具 4。進入檢索系統(tǒng)后選擇分類號途徑,并在對話框內(nèi) 輸入分類號,開始檢索。5。對比題目,閱覽相關(guān)信息,選出所需信息,并下載相關(guān)信息6。原文的索取8/4/2022第39頁,共84頁。詞匯檢索 與分類號檢索相比,詞匯檢索具有直觀、靈活、專指性和適應(yīng)性好的特點,同時檢索速度也比分類檢索快。 詞匯檢索的要點:首先是要選好檢索詞,正確理解詞間關(guān)系,檢索中還要注意詞間關(guān)系的正確表達。常用的詞匯檢索有關(guān)鍵詞檢索和主題檢索。計算機檢索時,選擇任意字段檢索時,檢索項也可以是各種詞匯。8/4/2022第40頁,共84頁。 詞匯檢索的步驟: a、 分析
27、課題,確定檢索詞及詞間關(guān)系 b、選擇適當(dāng)?shù)臋z索工具 c、選擇詞匯檢索途徑,在對話框內(nèi)輸入檢索詞 (注意詞間關(guān)系的表達) d、 根據(jù)快捷顯示,選出有用信息并下載。 e、 原文的索取8/4/2022第41頁,共84頁。責(zé)任者途徑 :姓前名后,名縮寫; 姓名中的“De”、“Von”、“Della”等前綴,與姓一起按字順排,如De Leferore, Alfred Von Kampf; 團體機構(gòu)名稱名按名稱字順排。號碼途徑:號碼包括編號(number)、代碼(code)等,特定的號碼如:技術(shù)標(biāo)準的標(biāo)準號,專利說明書的專利號,科技報告的報告號,學(xué)會的會議論文連續(xù)號,或合同號、任務(wù)號、國際標(biāo)準書號(ISB
28、N)、國際標(biāo)準刊號(ISSN),以及文獻收藏單位編的館藏號、索取號、排架號等,都可以此作為檢索點。 8/4/2022第42頁,共84頁。其他檢索途徑1、題名檢索 包括書名、刊名、篇名和其他信息的標(biāo) 題等2、機構(gòu)3、來源4、其他特殊途徑8/4/2022第43頁,共84頁。5 常用的檢索技術(shù) 檢索技術(shù)是指應(yīng)用于信息檢索過程的原理、技術(shù)、方法、策略的總稱,是檢索系統(tǒng)為了提高檢索效率,從概念相關(guān)性、位置相關(guān)性等方面對檢索提問進行組配、加權(quán)、擴展、截詞、位置、限定的比較和運算處理技術(shù)。 8/4/2022第44頁,共84頁。5.1 布爾檢索 布爾檢索(boolean retrieval)是用布爾邏輯算符將
29、檢索詞、短語或代碼進行邏輯組配的一種技術(shù),也是目前最常用的一種檢索技術(shù)。 8/4/2022第45頁,共84頁。邏輯“與”具有概念交叉或概念限定關(guān)系的組配,用“*”或“AND”算符表示。檢索詞A和檢索詞B用“與”組配,檢索式為:A AND B,或者 A * B它表示檢出同時含有A、B兩個檢索詞的記錄。 8/4/2022第46頁,共84頁。邏輯“或”邏輯“或”是一種具有概念并列關(guān)系的組配,用“+”或“OR”算符表示。檢索詞A和檢索詞B用“或”組配,檢索式為:A OR B,或者 AB它表示檢出所有含有A詞或者B詞的記錄。 8/4/2022第47頁,共84頁。邏輯“非” 邏輯“非”是一種具有概念排除關(guān)
30、系的組配,用“”或“NOT”算符表示。檢索詞A和檢索詞B用“非”組配,檢索式為:A Not B,或者 A-B它表示檢出含有A詞,但同時不含B詞的記錄。 8/4/2022第48頁,共84頁。 5.2 截詞檢索 截詞檢索(truncation retrieval)是指在檢索詞的適當(dāng)位置截斷,用截斷的詞的一個局部進行的檢索。由于檢索詞與數(shù)據(jù)庫所存儲信息字符是部分一致性匹配,所以又稱部分一致檢索。 檢索時,計算機會將所有含有相同部分標(biāo)識的記錄全部檢索出來。截詞符多采用通配符“?”、“$”、“*”等,因此,截詞檢索有時也稱為通配符(wildcard)檢索。按截斷的位置來分;按截斷的字符數(shù)量來分。8/4/
31、2022第49頁,共84頁。后截斷中截斷前截斷無限截斷如: economic? ?有限截斷截詞檢索與截詞檢索算符economiceconomicseconomicsteconomicalismeconomiceconomicseconomicst如: economic*如:wom?nwomanwomen一般僅允許有限截斷如: ?lish sul*ur sulfur sulphur 無限截斷有限截斷前后截斷如: ?computer?可檢出: computer、computers、 computerize、computerized、minicomputer、minicomputers、microc
32、omputer、microcomputers 8/4/2022第50頁,共84頁。 位置檢索是一種可以不依賴敘詞表而直接使用自由詞進行檢索的一種技術(shù),它以數(shù)據(jù)庫原始記錄中詞語的相對次序或者位置關(guān)系為對象進行組配運算。 5.3 位置檢索 8/4/2022第51頁,共84頁。(W)與(nW)算符 (W)算符是“With”的縮寫,表示此算符兩側(cè)的檢索詞必須按此前后鄰接的順序排列,順序不可顛倒,而且檢索詞之間不允許有其他的詞或字母,但允許有空格或連字符號。例如:輸入gas(W)condensate可檢索出包含gas condensate 和gas-condensate的記錄。8/4/2022第52頁,
33、共84頁。(nW)算符是“nWords”的縮寫,表示此算符兩側(cè)的檢索詞之間允許插入n個實詞或虛詞,但兩個檢索詞的次序還是不能顛倒。例如:laser(1W)printer可檢索出包含“l(fā)aser printer”、“l(fā)aser color printer”和“l(fā)aser and printer”的記錄。8/4/2022第53頁,共84頁。(N)與(nN)算符 (N)算符是“Near”的縮寫,表示此算符兩側(cè)的檢索詞彼此必須相鄰接,但兩個檢索詞的前后關(guān)系可以顛倒, 即查找兩個連在一起的單詞,但兩詞之間不能插入任何詞。例如:money(N)supply可檢索出包含money supply和supply
34、 money兩個詞組的記錄。8/4/2022第54頁,共84頁。(nN) 算符是“nNear”的縮寫,表示此算符兩邊的檢索詞之間插入詞的最多數(shù)目是 n 個,且兩個檢索詞的次序可以任意顛倒。例如:economic(2N)recovery 可以檢出包含economic recovery、recovery of the economy 、recovery from economic troubles的記錄。8/4/2022第55頁,共84頁。(S)算符 (S)算符是“Sub-field/Sentence”的縮寫,表示在此運算符兩側(cè)的檢索詞只要出現(xiàn)在記錄的同一個子字段內(nèi)(例如在文摘中的一個句子就是一個
35、子字段),此信息即被命中。要求被連接的檢索詞必須同時出現(xiàn)在記錄的同一句子(同一子字段)中,不限制它們在此子字段中的相對次序,中間插入詞的數(shù)量也不限。例如,“high(W)strength(S)steel”表示只要在同一句子中檢索出含有“high strength 和steel”形式的均為命中記錄。 8/4/2022第56頁,共84頁。(F)算符 (F) 算符是“Field”的縮寫,表示在此運算符兩側(cè)的檢索詞必須同時出現(xiàn)在文獻記錄的統(tǒng)一字段內(nèi),如出現(xiàn)在篇名字段、文摘字段、敘詞字段、自由詞字段,但兩個詞的前后順序不限,夾在兩個詞之間的詞的個數(shù)也不限。要求被連接的檢索詞出現(xiàn)在統(tǒng)一的字段中,字段類型和
36、詞序均不限。例如:environmental(F) impact/DE,TI表示這兩個詞必須同時出現(xiàn)在敘詞字段和篇名字段中。8/4/2022第57頁,共84頁。5.4 字段限定檢索 字段限定檢索(field limiting retrieval)是用于限定提問關(guān)鍵詞在數(shù)據(jù)庫記錄中出現(xiàn)的區(qū)域,控制檢索結(jié)果的相關(guān)性,是提高檢索效果的一種有效檢索方法。(字段標(biāo)識符:TI 、AU、AB、SO、PY、LA、DE、TN、ID)8/4/2022第58頁,共84頁。例如:(minicomputer/DE, TI OR personal computer/ID, TI)AND PY=2008 AND LA=En
37、glish這個檢索式所表達的檢索要求是:查找2008年出版的關(guān)于微電腦或者個人電腦的英文文獻,并要求“微電腦”一詞在命中文獻的敘詞字段、標(biāo)題字段出現(xiàn),“個人電腦”一詞在命中文獻的自由詞字段出現(xiàn)。 8/4/2022第59頁,共84頁。5.5 其他限定檢索(1)限定網(wǎng)站 【實例】 輸入“金庸 古龍 site:”搜索包含“金庸”和“古龍”的中文新浪網(wǎng)站頁面。 (2)限定網(wǎng)頁【實例】輸入“inurl:midi 滄海一聲笑”查找MIDI曲“滄海一聲笑”。 【實例】輸入“inurl ecurity windows2000 site:”查找微軟網(wǎng)站上關(guān)于windows2000的安全課題資料。8/4/2022
38、第60頁,共84頁。(3)限定文件類型filetype的用法:filetype:格式 關(guān)鍵詞 OR 關(guān)鍵詞 filetype:格式例如:服務(wù)器安全 filetype:docfiletype:doc 服務(wù)器安全 搜索包含“策劃方案”關(guān)鍵詞的Office 文件。關(guān)鍵詞:“策劃方案 filetype:doc OR filetype:ppt”。 8/4/2022第61頁,共84頁。 5.6 加權(quán)檢索 這種檢索是對檢索詞之間的關(guān)系從量上加以限制。通過判定檢索詞或字符串在檢索中對信息命中與否的影響程度,根據(jù)權(quán)值的大小依序輸出結(jié)果。 5.7 字符串檢索(詞組檢索或短語檢索) 這種檢索將字符串當(dāng)作一個獨立的運
39、算單元,進行嚴格地匹配。 5.8 概念檢索 同時對同義詞、近義詞、廣義詞、狹義詞進行檢索。 5.9 深入檢索(二次檢索) 指在檢索結(jié)果中作進一步查詢,以得到更精確的結(jié)果。 5.10 模糊檢索與精確匹配 5.11 自然語言檢索(Ask Jeeves)、實名檢索(3721) 5.12 組合檢索: 檢索項組合、檢索途徑組合、分次檢索結(jié)果組合等、8/4/2022第62頁,共84頁。6 信息檢索的基本步驟 分析檢索課題1.主題概念 2.信息類型 3.時間范圍 4.檢索目的 構(gòu)造檢索式(試驗性檢索)1.簡單提問式2.上下文提問式3.復(fù)合提問式4.結(jié)構(gòu)性提問式調(diào)整檢索策略(正式檢索)1,信息量過多時 2.信
40、息量太少時 輸出檢索結(jié)果1.文摘2.全文 選擇檢索系統(tǒng)1.學(xué)科范圍 2.系統(tǒng)類型3.系統(tǒng)功能 確定檢索詞 1.切分2.刪除3.替補4.組合5.增加用戶評價 8/4/2022第63頁,共84頁。1 分析檢索課題 例如:查找有關(guān)消防的文獻。所有的“消防”文獻?還是只需有關(guān)“消防事業(yè)”、“消防隊伍”、“消防設(shè)施”、“消防材料”、“消防器材”、“消防方案”等中某一方面的文獻?(主題分析和檢索目的)需要一般的文獻資料?還是比較專深的文獻?需要科技論文?還是專利、標(biāo)準、數(shù)據(jù)等?(信息類)需要新穎的信息?或者是與別人的研究進行先進性比較?還是系統(tǒng)的學(xué)科知識?(時間范圍)。8/4/2022第64頁,共84頁。
41、需要系統(tǒng)地掌握某學(xué)科的知識,可以選擇 圖書;需要撰寫研究項目的開題報告、論文,開 展技術(shù)攻關(guān),可以選擇研究報告、科技論 文、學(xué)位論文、會議文獻等;需要進行發(fā)明創(chuàng)造、工藝改革、新產(chǎn)品設(shè) 計、引進設(shè)備、簽訂合同,可以選擇專利 說明書、標(biāo)準文獻、產(chǎn)品資料等8/4/2022第65頁,共84頁。2 選擇檢索系統(tǒng) 學(xué)科范圍。對于交叉學(xué)科、新興學(xué)科、應(yīng)用研究、綜合研究,不應(yīng)局限于某一學(xué)科范圍,可根據(jù)情況適當(dāng)擴大檢索系統(tǒng)的學(xué)科范圍。系統(tǒng)類型。首先,在文摘、索引系統(tǒng)和全文數(shù)據(jù)庫系統(tǒng)之間選擇。其次,在專業(yè)性數(shù)據(jù)庫中去查找。第三,在不同的文獻類型系統(tǒng)中選擇。系統(tǒng)功能。一般說來,使用分類語言、主題語言的檢索系統(tǒng),要優(yōu)
42、于使用自然語言的檢索系統(tǒng),專業(yè)檢索系統(tǒng)要優(yōu)于搜索引擎。檢索途徑、檢索方式(如分類瀏覽、簡單檢索、高級檢索、專家檢索、自然語言檢索)多,收錄時間跨度長,來源語種、國別多,文本(數(shù)據(jù))質(zhì)量高,附加個性化服務(wù),檢索系統(tǒng)就更值得選擇。8/4/2022第66頁,共84頁。3 確定檢索詞 1切分切分是對課題的語句以自由詞為單位進行拆分,轉(zhuǎn)換為檢索的最小單元。自由詞切分僅適用于自然語言檢索。例1:檢索“婦女吸煙與肺癌的關(guān)系研究”相關(guān)文獻。直接切分:婦女|吸煙|與|肺癌|的|關(guān)系|研究)注意,當(dāng)詞切分后將失去原來的意思時,不應(yīng)再切分,如“中國科學(xué)院”、“電子郵件”8/4/2022第67頁,共84頁。確定檢索詞
43、2刪除刪除是對自然語言中不具有實質(zhì)性檢索意義的虛詞(如介詞、連詞、副詞等),或者使用頻率較低的詞,或者專指性太高、過分寬泛的詞,或者過分具體的限定詞、禁用詞,或者不能表達課題實質(zhì)的高頻詞,或者存在蘊含關(guān)系可以合并的詞,一律予以刪除,使自然語言轉(zhuǎn)換成為關(guān)鍵詞和主題詞的集合。8/4/2022第68頁,共84頁。例2:檢索“中國IT業(yè)的發(fā)展前景研究”方面的相關(guān)文獻。進行拆分以后,發(fā)展、前景、研究這三個自由詞具有一定的檢索意義,但是由于或者是意義過于寬泛、或者是不能表達課題實質(zhì)、或者是存在蘊含關(guān)系的原因,沒有必要全部作為檢索詞,根據(jù)需要可以保留1-2個作為檢索詞。8/4/2022第69頁,共84頁。確
44、定檢索詞3替補替補就是在進行切分、刪除后,對檢索詞進行替換和補充。“公交”應(yīng)替換為:公共交通;“綠色包裝”中的“綠色”,應(yīng)替換為:環(huán)保、無污染、可降解;“煤氣中毒”應(yīng)替換為:一氧化碳中毒;“非典”應(yīng)考慮補充:SARS、非典型肺炎、傳染性非典型肺炎、嚴重急性呼吸綜合征(severe acute respiratory syndrome);8/4/2022第70頁,共84頁。確定檢索詞4組合 概念相交組合。這個新概念是原來用以組合的兩個概念的下位概念,如曲柄連桿機構(gòu)*發(fā)動機=汽車發(fā)動機。 概念限定組合。這個新概念可用來表示這一事物的某一屬性或某一個方面。如電視機*數(shù)字化=數(shù)字電視機。 以上兩種組配
45、方式,所得到的新概念,都是原組和概念的下位概念,縮小了檢索范圍,提高了概念的專指度,達到提高檢準率的目的。 8/4/2022第71頁,共84頁。概念并列組合。具有概念并列關(guān)系的自由詞間的組配,其結(jié)果使概念檢索的范圍擴大,如環(huán)境污染+環(huán)境保護=環(huán)境污染和環(huán)境保護。概念刪除組合。是指兩個具有上下位關(guān)系的自由詞間的組合,其結(jié)果使概念檢索的范圍縮小,如信息處理-模擬信息處理=數(shù)字信息處理。8/4/2022第72頁,共84頁。確定檢索詞5增加增加“限義詞”。有兩種方法:直接增加限義詞、挖掘隱含詞、提取潛在的檢索詞;把限義詞以邏輯的方式加入,可采用邏輯“與”或邏輯“非”的方法增加限義詞。分析隱含概念。挖掘
46、潛在的主題詞還可以通過對上位詞、下位詞、同類詞關(guān)系的分析得到其它相關(guān)主題詞。如例1:“婦女吸煙與肺癌的關(guān)系研究”,切分、刪除后得:吸煙、肺癌兩個檢索詞,分析、補充上位詞可增加檢索詞:煙、癌癥、惡性腫瘤。8/4/2022第73頁,共84頁。確定檢索詞從上述實例可以看出,提取檢索詞首先是切分、刪除,其次是進行替補、組合和增加。在提取檢索詞時,若所選的數(shù)據(jù)庫具有規(guī)范化詞表時,應(yīng)優(yōu)先選用該數(shù)據(jù)庫詞表中與檢索課題相關(guān)的規(guī)范化主題詞(檢索詞)。8/4/2022第74頁,共84頁。4 構(gòu)造檢索式(試驗性檢索) 所謂的檢索提問式(query,search formulation),是信息檢索中用來表達用戶檢索提問的邏輯表達式,主要是使用各種布爾邏輯算符、位置算符、截詞符、限制算符以及系統(tǒng)規(guī)定的其他組配連接符號將檢索詞進行組配,確定檢索詞之間的概念關(guān)系或位置關(guān)系。 8/4/2022第75頁,共84頁。構(gòu)造檢索式(試驗性檢索)簡單提問式含一個檢索詞的提
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 浙教版數(shù)學(xué)七年級下冊2.1《二元一次方程》(第2課時)聽評課記錄
- 五年級分數(shù)乘法口算練習(xí)
- 湘教版數(shù)學(xué)七年級下冊2.1.2《冪的乘方與積的乘方》聽評課記錄1
- 蘇教版小學(xué)四年級上冊數(shù)學(xué)口算題
- 人教版數(shù)學(xué)九年級下冊27.3《位似》聽評課記錄(一)
- 營業(yè)場所租賃合同范本
- 核心員工高層管理人員各崗位保密協(xié)議書范本
- 辦公樓加固改造工程施工合同范本
- 合作開店合同范本
- 三人合伙合作協(xié)議書范本
- 期末 (試題) -2024-2025學(xué)年教科版(廣州)英語四年級上冊
- 解讀國有企業(yè)管理人員處分條例課件
- 湖南省長沙市一中2024-2025學(xué)年高一生物上學(xué)期期末考試試題含解析
- 碳纖維增強復(fù)合材料在海洋工程中的應(yīng)用情況
- 小孩使用手機協(xié)議書范本
- 公司市場分析管理制度
- 焊接材料制造工-國家職業(yè)標(biāo)準(2024版)
- 江西省2024年中考數(shù)學(xué)試卷(含答案)
- 榆神礦區(qū)郭家灘煤礦(700 萬噸-年)項目環(huán)評
- 2024年200MW-400MWh電化學(xué)儲能電站設(shè)計方案
- 余土外運施工方案
評論
0/150
提交評論