計算機(jī)信息檢索技術(shù)_第1頁
計算機(jī)信息檢索技術(shù)_第2頁
計算機(jī)信息檢索技術(shù)_第3頁
計算機(jī)信息檢索技術(shù)_第4頁
計算機(jī)信息檢索技術(shù)_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

計算機(jī)信息檢索技術(shù)1信息檢索的基本概念1.1信息檢索的涵義從廣義上講,信息檢索包括兩個過程,一是信息存儲(informationstorage),即信息的標(biāo)引、加工和存儲過程:二是信息檢索(informationretrieval),即信息用戶的查找過程。從狹義上講,信息檢索僅指后一部分。信息檢索的本質(zhì)是一個匹配的過程即用戶的信息需求和信息存儲的信息集合進(jìn)行比較和選擇的過程第2頁,共63頁,2024年2月25日,星期天信息存儲和檢索過程的基本原理

輸出一次信息信息特征檢索語言信息特征標(biāo)識檢索結(jié)果信息需求檢索提問檢索提問標(biāo)識分析標(biāo)引標(biāo)引輸入檢索信息檢索系統(tǒng)(工具)存儲過程檢索過程分析第3頁,共63頁,2024年2月25日,星期天

計算機(jī)信息檢索是對信息進(jìn)行收集、分類、標(biāo)引、著錄,并加以有序化組織,將信息儲存到計算機(jī)存儲信息系統(tǒng)中,編制出一個信息檢索系統(tǒng)或信息檢索工具的過程。1.2計算機(jī)信息檢索第4頁,共63頁,2024年2月25日,星期天用戶輸入檢索需求分析轉(zhuǎn)換處理需求數(shù)據(jù)庫檢索=概念詞的相關(guān)匹配運算概念詞典控制詞表信息源篩選錄入分類、詞索引文檔預(yù)處理

計算機(jī)信息檢索的基本原理第5頁,共63頁,2024年2月25日,星期天1.3信息檢索的類型按信息檢索的內(nèi)容劃分文獻(xiàn)檢索數(shù)據(jù)檢索事實檢索概念檢索按信息檢索的組織方式劃分全文本檢索多媒體檢索超文本檢索超文本檢索是對每個節(jié)點中儲存的信息以及信息鏈構(gòu)成的網(wǎng)絡(luò)信息進(jìn)行的檢索。與傳統(tǒng)文本的線性順序不同,超文本檢索強(qiáng)調(diào)中心節(jié)點之間的語義聯(lián)結(jié)結(jié)構(gòu),靠系統(tǒng)提供的工具進(jìn)行圖示穿行和節(jié)點展示,提供瀏覽式查詢,可進(jìn)行跨庫檢索。

WWW第6頁,共63頁,2024年2月25日,星期天2檢索系統(tǒng)

檢索系統(tǒng)(retrievalsystem)是指根據(jù)特定的信息需求而建立起來的一種有關(guān)信息搜集、加工、存儲和檢索的程序化系統(tǒng),其主要目的是為人們提供信息服務(wù)。第7頁,共63頁,2024年2月25日,星期天2.1檢索系統(tǒng)的功能模塊信息源選擇與采集子系統(tǒng)——對通常的計算機(jī)檢索系統(tǒng)來說,信息選擇與采集主要由人工完成,但對于網(wǎng)絡(luò)信息檢索系統(tǒng)來說,則主要通過網(wǎng)絡(luò)搜索機(jī)器人Robot自動進(jìn)行,并且可以定期更新。標(biāo)引子系統(tǒng)——標(biāo)引處理的類型:人工賦詞標(biāo)引、機(jī)器標(biāo)引、無標(biāo)引(或全標(biāo)引);標(biāo)引要求:不漏標(biāo)(全面)、不錯標(biāo)(準(zhǔn)確)、不濫標(biāo)(簡練)。建庫子系統(tǒng)——工作流程主要包括數(shù)據(jù)錄入、錯誤檢查與處理、數(shù)據(jù)格式轉(zhuǎn)換、生成并定期更新各種文檔。第8頁,共63頁,2024年2月25日,星期天2.1檢索系統(tǒng)的功能模塊詞表管理子系統(tǒng)——主要功能:管理維護(hù)系統(tǒng)中已有詞表的結(jié)構(gòu)、詞匯,使它與標(biāo)引、建庫、檢索等多個子系統(tǒng)相連接;支持用戶的各種詞匯查詢操作;輸出各種形式的詞匯數(shù)據(jù)或詞表產(chǎn)品等。用戶接口子系統(tǒng)——一般有5種界面風(fēng)格:命令/指令語言(commandlanguage)、菜單選擇(menuselection)、表格填充(formfill-in)、直接操縱(directmanipulation)、自然語言(naturallanguage)。提問處理子系統(tǒng)——檢索系統(tǒng)(數(shù)據(jù)庫)的核心,負(fù)責(zé)處理用戶輸入的檢索詞或提問式,并將它們與數(shù)據(jù)庫中存儲的數(shù)據(jù)進(jìn)行匹配運算,然后把運算結(jié)果返回給用戶。第9頁,共63頁,2024年2月25日,星期天2.2文檔——記錄——字段

檢索系統(tǒng)的基本組織形式由三個層次構(gòu)成。文檔(file):檢索系統(tǒng)至少包括一個順排文檔(sequentialfiles)。有的還包括一個倒排文檔(invertedfiles)。記錄(record):文檔的基本單元,由若干字段組成的信息單元,是對某一信息實體的全部屬性進(jìn)行描述的結(jié)果。字段(field):是記錄的基本單元,它是對信息實體的具體屬性進(jìn)行描述的結(jié)果。

第10頁,共63頁,2024年2月25日,星期天2.2文檔——記錄——字段

檢索系統(tǒng)的基本組織結(jié)構(gòu)關(guān)系:數(shù)據(jù)庫database

文檔file,archive

順排文檔

記錄Record

字段Field

倒排文檔(索引index)

第11頁,共63頁,2024年2月25日,星期天3檢索語言

檢索語言(retrievallanguage)是文獻(xiàn)信息標(biāo)引和檢索提問而約定的人工語言。

檢索語言是為溝通文獻(xiàn)標(biāo)引與文獻(xiàn)檢索而編制的人工語言,也是連接信息存儲和檢索兩個過程中標(biāo)引人員與檢索人員雙方思路的渠道。

——在存儲的過程中用于標(biāo)引信息稱為標(biāo)引語言;

——用于編制索引就稱為索引語言;

——用于信息檢索則稱為檢索語言。第12頁,共63頁,2024年2月25日,星期天3.1檢索語言的種類

分類語言(classificationlanguage)是用分類號表達(dá)各種概念的檢索標(biāo)識,將各種概念按學(xué)科性質(zhì)進(jìn)行系統(tǒng)排列,反映科學(xué)知識分類體系的檢索語言。主題語言(subjectlanguage)是直接以表達(dá)文獻(xiàn)主題的語詞作為檢索標(biāo)識,按字順編排并通過參照系統(tǒng)等方法提示詞間關(guān)系的檢索語言。代碼語言(codelanguage)是對事物的某一方面特征用某種代碼系統(tǒng)來加以標(biāo)引和排列的檢索語言。例如,根據(jù)化合物的分子式這種代碼語言,可以構(gòu)成分子式索引系統(tǒng),允許用戶從分子式出發(fā),檢索相應(yīng)的化合物及其相關(guān)的文獻(xiàn)信息。自然語言是直接從原始信息中抽取出來的未經(jīng)規(guī)范化處理,用以揭示信息主題概念的檢索語言。第13頁,共63頁,2024年2月25日,星期天檢索語言的類型描述內(nèi)容特征語言描述外表特征語言主題語言分類語言代碼語言責(zé)任者題名其他自然語言受控語言關(guān)鍵詞語言——(keyword)標(biāo)題詞語言——(heading)單元詞語言——(uniterm)敘詞語言——(descriptor)第14頁,共63頁,2024年2月25日,星期天分類語言分類語言中最常見的是體系分類語言,它按照學(xué)科體系由上至下,從總體到局部,由一般到具體,從低級到高級,從簡單到復(fù)雜的邏輯次序逐級展開。專利分類表中國科學(xué)院圖書分類法中國圖書館圖書分類法杜威十進(jìn)分類法(國外)第15頁,共63頁,2024年2月25日,星期天中國圖書館圖書分類法基本部類:1、馬克思主義、列寧主義、毛澤東思想、鄧小平理論2、哲學(xué)3、社會科學(xué)4、自然科學(xué)5、綜合性圖書基本大類:(22個)

A馬列主義毛澤東思想鄧小平理論N自然科學(xué)總論

B哲學(xué)O數(shù)理化科學(xué)

C社會科學(xué)總論P天文學(xué)、地理

D政治、法律Q生物科學(xué)

E軍事R醫(yī)學(xué)、衛(wèi)生

F經(jīng)濟(jì)S農(nóng)業(yè)科學(xué)

G文化、科學(xué)、教育、體育T工業(yè)技術(shù)

H語言、文字U交通運輸

I文學(xué)V航空、航天

J藝術(shù)X環(huán)境科學(xué)

K歷史、地理Z綜合性圖書

第16頁,共63頁,2024年2月25日,星期天中國圖書館圖書分類法F經(jīng)濟(jì)

F1世界各國經(jīng)濟(jì)概況、經(jīng)濟(jì)史、經(jīng)濟(jì)地理

F11世界經(jīng)濟(jì)、國際經(jīng)濟(jì)關(guān)系

F12中國經(jīng)濟(jì)

F13/17各國經(jīng)濟(jì)

F2經(jīng)濟(jì)計劃與管理

F20國民經(jīng)濟(jì)管理

F21經(jīng)濟(jì)計劃

F22經(jīng)濟(jì)計算、經(jīng)濟(jì)數(shù)學(xué)方法

F23會計

F239審計

F24勞動經(jīng)濟(jì)

F25物資經(jīng)濟(jì)

第17頁,共63頁,2024年2月25日,星期天F27企業(yè)經(jīng)濟(jì)

F29城市與市政經(jīng)濟(jì)

F3農(nóng)業(yè)經(jīng)濟(jì)

F4工業(yè)經(jīng)濟(jì)

F7貿(mào)易經(jīng)濟(jì)

F72中國國內(nèi)貿(mào)易經(jīng)濟(jì)

F73世界各國國內(nèi)貿(mào)易經(jīng)濟(jì)

F74國際貿(mào)易

F75各國對外貿(mào)易

F8財政、金融

F81財政、國家財政

F82貨幣

F83金融、銀行

F84保險

第18頁,共63頁,2024年2月25日,星期天中國圖書館圖書分類法

T工業(yè)技術(shù)

TB一般工業(yè)技術(shù)TL原子能技術(shù)

TD礦業(yè)工程TM電工技術(shù)

TE石油、天然氣工業(yè)TN無線電電子學(xué)、電訊技術(shù)

TF冶金工業(yè)TP自動化技術(shù)、計算機(jī)

TG金屬學(xué)、金屬工藝TQ化學(xué)工業(yè)

TH機(jī)械、儀表TS輕工業(yè)、手工業(yè)

TJ武器工業(yè)TU建筑科學(xué)

TK動力工程TV水利工程

第19頁,共63頁,2024年2月25日,星期天圖書館的藏書都是按分類號排架的。分類號的排列采用由左至右逐位對比的方法進(jìn)行排列,先比較字母部分,再比較數(shù)字部分。

——字母部分按英文字母固有的次序排列。例:

B2中國哲學(xué)

B3世界哲學(xué)

E27各種武裝力量

E512蘇聯(lián)軍事

TM92電氣化、電能應(yīng)用

TU201建筑設(shè)計原理

——分類號中的阿拉伯?dāng)?shù)字依小數(shù)制排列。例:

B021辯證唯物主義的物質(zhì)論

B022辯證唯物主義的意識論

B022.2客觀規(guī)律性與主觀能動性

D035.37交通公安管理

D035.4監(jiān)察、監(jiān)督分類號的排列次序

第20頁,共63頁,2024年2月25日,星期天分類號的排列次序

(續(xù))

——數(shù)字之后如還有字母,則在前部類號相同的基礎(chǔ)上,再按字母順序排列。例:

TP312ALALGOL程序語言

TP312BABASIC程序語言

TP312COCOBOL程序語言

——總論復(fù)分號“-”要排在數(shù)字“0”的前面。例:

H-61,H0,…,H31-61,H310,…——總論復(fù)分號“-”要排在組配符號“:”的前面。例:

H31,H31-62,H31:F,H31:I,…,H319,H319.4,H319.4-44,H319.4:B,H319.4:C,…第21頁,共63頁,2024年2月25日,星期天讀者實際利用圖書館時,往往需要知道書刊的分類號和索書號(又稱索取號)。索書號是圖書館賦予每一種館藏圖書的號碼,是讀者查找圖書非常必要的代碼信息。它的第一部分是分類號,第二部分是書次號。索書號的兩部分之間有一個空格或一條斜線“/”。書次號或者是按照圖書作者姓名所編排的著者號碼,或者是按照圖書進(jìn)入館藏時間的先后所取用的順序號碼。

——不同的索書號確定排列先后順序的步驟是,先比較分類號碼;如分類號碼相同再比較著者號碼或順序號碼。分類號比較:先英文字母排,后阿拉伯?dāng)?shù)字按小數(shù)制排。分類號中“-”排在0之前,例如:先排F-43再排F0。分類號的數(shù)字排列比較采用對位比較法,字符序列以ASCII字符集為依據(jù)。比如:B11、B111、B112、B12,書次號的數(shù)字排列比較采用自然順序排列方法,即1,2,3,...,9,10,11,...,99,100,101,…。分類號和索書號第22頁,共63頁,2024年2月25日,星期天重新排列以下分類號的順序TP145.421/Y25TP145.42/Y74-2TP145.42/S16/(2)TP145-42/L34TP145.42/W05表示該著作第二版表示我館收藏的該作者的第二部著作第23頁,共63頁,2024年2月25日,星期天主題語言

①關(guān)鍵詞語言是直接選用文獻(xiàn)中的自然語言作基本詞匯,并將那些能夠揭示文獻(xiàn)題名或主要意旨的關(guān)鍵性自然語詞作為關(guān)鍵詞進(jìn)行標(biāo)引的一種檢索語言。例如:“國際聯(lián)機(jī)檢索概論”中的“國際聯(lián)機(jī)檢索”、“國際聯(lián)機(jī)”、“聯(lián)機(jī)”、“檢索”都是能描述這篇文獻(xiàn)主題的關(guān)鍵詞,都可以作為檢索詞。②標(biāo)題詞語言是最早使用的一種主題語言,它以規(guī)范化的自然語義作為標(biāo)識,來表達(dá)信息涉及的主題概念,并將全部標(biāo)識按字母順序排列。例如:一篇文章用“微型計算機(jī)”這個術(shù)語來敘述它的研究對象,另一篇文章用“微型電腦”來敘述,第三篇文章用“微機(jī)”來敘述,雖然都表示同一概念,這時就不能直接用“微型電腦”或“微機(jī)”來作標(biāo)題詞,這三篇文章都必須用“微型計算機(jī)”作標(biāo)題詞(實際上是“主標(biāo)題詞”,根據(jù)主題詞表決定)。第24頁,共63頁,2024年2月25日,星期天主題語言

③單元詞語言是在標(biāo)題詞語言基礎(chǔ)上發(fā)展起來的一種規(guī)范化檢索語言。單元詞(uniterm)是一種最基本的、不能再分的詞匯單位,亦稱元詞。它也是從文獻(xiàn)內(nèi)容中抽出,并經(jīng)過規(guī)范化處理,代表一個獨立的概念。例如:“計算機(jī)”、“軟件”、“固相”、“相”。④敘詞語言是以自然語言為基礎(chǔ),以概念組配為基本原理,并經(jīng)過規(guī)范化處理,表達(dá)主題的最小概念單元,作為信息存儲和檢索依據(jù)的一種檢索語言。只有經(jīng)過規(guī)范化處理,滿足一詞一義一型要求的詞才能稱為敘詞(descriptor)。例如:在敘詞語言的檢索系統(tǒng)中用“計算機(jī)”這個詞進(jìn)行檢索,即使題名字段沒有“計算機(jī)”這個詞(如有同義詞“電腦”)的文章,也可以被檢索出來,不必進(jìn)行同義詞替換即可查全。第25頁,共63頁,2024年2月25日,星期天主題語言主題語言(標(biāo)題詞、單元詞、敘詞)的規(guī)范化處理:①詞義規(guī)范:對同義詞(如計算機(jī)與電腦)、近義詞(如實驗與試驗)、學(xué)名和俗名(如發(fā)動機(jī)與馬達(dá))、不同譯名(激光與萊塞)、簡稱與全稱(如中國與中華人民共和國)、不同寫法(如X射線與愛克斯射線)等進(jìn)行選擇;對多義詞、同形異義詞進(jìn)行限定說明,如杜鵑既表示一種鳥,也表示一種花,就須限定說明為,杜鵑(動物)、杜鵑(植物)。②詞類規(guī)范:即確定詞類的范圍。能用作敘詞的詞類一般要求控制在具有實質(zhì)意義的名詞或動名詞的范圍之內(nèi)。③詞形規(guī)范:即對詞的繁簡體、詞序、字母符號等的規(guī)定。第26頁,共63頁,2024年2月25日,星期天代碼語言代碼語言是指對事物的某方面特征,用某種代碼系統(tǒng)來表示和排列事物概念,從而提供檢索的檢索語言。例如:根據(jù)化合物的分子式這種代碼語言,可以構(gòu)成分子式索引系統(tǒng),允許用用戶從分子式出發(fā),檢索相應(yīng)的化合物及其相關(guān)的信息。第27頁,共63頁,2024年2月25日,星期天自然語言自然語言是直接從原始信息中抽取出來的未經(jīng)規(guī)范化處理,用以揭示信息主題概念的檢索語言。抽取出來的詞包括自由詞、關(guān)鍵詞、事物名稱、科學(xué)術(shù)語、俗名、商品型號和縮寫等,具有不用編制詞表,及時跟上事物發(fā)展,準(zhǔn)確表達(dá)事物新概念,選詞靈活方便,專指性強(qiáng),標(biāo)引和檢索速度快等優(yōu)點。例如:如有人輸入:howtocontroldriversofharddisk,檢索系統(tǒng)會自動提取檢索詞,然后進(jìn)行過濾和檢索。注意:Google和專業(yè)數(shù)據(jù)庫的檢索語言區(qū)別。第28頁,共63頁,2024年2月25日,星期天3.2信息檢索的途徑

第29頁,共63頁,2024年2月25日,星期天

3.2信息檢索的途徑

責(zé)任者途徑:①姓前名后,名縮寫;②姓名中的“De”、“Von”、“Della”等前綴,與姓一起按字順排,如DeLeferore,AlfredVonKampf;③團(tuán)體機(jī)構(gòu)名稱名按名稱字順排。號碼途徑:號碼包括編號(number)、代碼(code)等,特定的號碼如:技術(shù)標(biāo)準(zhǔn)的標(biāo)準(zhǔn)號,專利說明書的專利號,科技報告的報告號,學(xué)會的會議論文連續(xù)號,或合同號、任務(wù)號、國際標(biāo)準(zhǔn)書號(ISBN)、國際標(biāo)準(zhǔn)刊號(ISSN),以及文獻(xiàn)收藏單位編的館藏號、索取號、排架號等,都可以此作為檢索點。第30頁,共63頁,2024年2月25日,星期天4計算機(jī)檢索技術(shù)

計算機(jī)檢索技術(shù)是指應(yīng)用于信息檢索過程的原理、技術(shù)、方法、策略的總稱,是檢索系統(tǒng)為了提高檢索效率,從概念相關(guān)性、位置相關(guān)性等方面對檢索提問進(jìn)行組配、加權(quán)、擴(kuò)展、截詞、鄰近、限定的比較和運算處理技術(shù)。第31頁,共63頁,2024年2月25日,星期天常用的計算機(jī)檢索技術(shù)布爾檢索技術(shù)1鄰近檢索技術(shù)3字段限定檢索技術(shù)4截詞檢索技術(shù)2第32頁,共63頁,2024年2月25日,星期天布爾檢索布爾檢索(booleanretrieval)是用布爾邏輯算符將檢索詞、短語或代碼進(jìn)行邏輯組配的一種技術(shù),也是目前最常用的一種檢索技術(shù)。第33頁,共63頁,2024年2月25日,星期天邏輯“與”具有概念交叉或概念限定關(guān)系的組配,用“*”或“AND”算符表示。

檢索詞A和檢索詞B用“與”組配,檢索式為:

AANDB,或者A*B它表示檢出同時含有A、B兩個檢索詞的記錄。第34頁,共63頁,2024年2月25日,星期天邏輯“或”邏輯“或”是一種具有概念并列關(guān)系的組配,用“+”或“OR”算符表示。檢索詞A和檢索詞B用“或”組配,檢索式為:

AORB,或者A+B它表示檢出所有含有A詞或者B詞的記錄。第35頁,共63頁,2024年2月25日,星期天邏輯“非”

邏輯“非”是一種具有概念排除關(guān)系的組配,用“–”或“NOT”算符表示。檢索詞A和檢索詞B用“非”組配,檢索式為:

ANotB,或者A-B它表示檢出含有A詞,但同時不含B詞的記錄。第36頁,共63頁,2024年2月25日,星期天

截詞檢索

截詞檢索(truncationretrieval)是指在檢索詞的適當(dāng)位置截斷,用截斷的詞的一個局部進(jìn)行的檢索。由于檢索詞與數(shù)據(jù)庫所存儲信息字符是部分一致性匹配,所以又稱部分一致檢索。由于西文的構(gòu)詞特性:單復(fù)數(shù)形式不一致、英美拼寫不一致、詞干+前綴、詞干+后綴。檢索時,計算機(jī)會將所有含有相同部分標(biāo)識的記錄全部檢索出來。在西文檢索系統(tǒng)中,使用截詞符處理自由詞,對提高查全率的效果非常顯著。按截斷的位置來分;按截斷的字符數(shù)量來分。截詞符多采用通配符“?”、“$”、“*”等,因此,截詞檢索有時也稱為通配符(wildcard)檢索。第37頁,共63頁,2024年2月25日,星期天后截斷中截斷前截斷無限截斷如:economic???有限截斷截詞檢索與截詞檢索算符economiceconomicseconomicsteconomicalismeconomiceconomicseconomicst如:economic*如:wom?nwomanwomen一般僅允許有限截斷如:?lish

sul*ursulfursulphur無限截斷有限截斷前后截斷如:?computer?可檢出:computer、computers、computerize、computerized、minicomputer、minicomputers、microcomputer、microcomputers

第38頁,共63頁,2024年2月25日,星期天鄰近檢索(proximityretrieval),又稱為“位置檢索”、“詞位檢索”、“全文檢索”是一種可以不依賴敘詞表而直接使用自由詞進(jìn)行檢索的一種技術(shù),它以數(shù)據(jù)庫原始記錄中詞語的相對次序或者位置關(guān)系為對象進(jìn)行組配運算。鄰近檢索

第39頁,共63頁,2024年2月25日,星期天(W)與(nW)算符

(W)算符是“With”的縮寫,表示此算符兩側(cè)的檢索詞必須按此前后鄰接的順序排列,順序不可顛倒,而且檢索詞之間不允許有其他的詞或字母,但允許有空格或連字符號。例如:輸入gas(W)condensate可檢索出包含gascondensate和gas-condensate的記錄。(nW)算符是“nWords”的縮寫,表示此算符兩側(cè)的檢索詞之間允許插入n個實詞或虛詞,但兩個檢索詞的次序還是不能顛倒。例如:laser(1W)printer可檢索出包含“l(fā)aserprinter”、“l(fā)asercolorprinter”和“l(fā)aserandprinter”的記錄。第40頁,共63頁,2024年2月25日,星期天(N)與(nN)算符

(N)算符是“Near”的縮寫,表示此算符兩側(cè)的檢索詞彼此必須相鄰接,但兩個檢索詞的前后關(guān)系可以顛倒,即查找兩個連在一起的單詞,但兩詞之間不能插入任何詞。例如:money(N)supply可檢索出包含moneysupply和supplymoney兩個詞組的記錄。(nN)

算符是“nNear”的縮寫,表示此算符兩邊的檢索詞之間插入詞的最多數(shù)目是

n

個,且兩個檢索詞的次序可以任意顛倒。例如:economic(2N)recovery可以檢出包含economicrecovery、recoveryoftheeconomy、recoveryfromeconomictroubles的記錄。第41頁,共63頁,2024年2月25日,星期天(S)算符

(S)算符是“Sub-field/Sentence”的縮寫,表示在此運算符兩側(cè)的檢索詞只要出現(xiàn)在記錄的同一個子字段內(nèi)(例如在文摘中的一個句子就是一個子字段),此信息即被命中。要求被連接的檢索詞必須同時出現(xiàn)在記錄的同一句子(同一子字段)中,不限制它們在此子字段中的相對次序,中間插入詞的數(shù)量也不限。例如,“high(W)strength(S)steel”表示只要在同一句子中檢索出含有“highstrength和steel”形式的均為命中記錄。第42頁,共63頁,2024年2月25日,星期天(F)算符

(F)

算符是“Field”的縮寫,表示在此運算符兩側(cè)的檢索詞必須同時出現(xiàn)在文獻(xiàn)記錄的統(tǒng)一字段內(nèi),如出現(xiàn)在篇名字段、文摘字段、敘詞字段、自由詞字段,但兩個詞的前后順序不限,夾在兩個詞之間的詞的個數(shù)也不限。要求被連接的檢索詞出現(xiàn)在統(tǒng)一的字段中,字段類型和詞序均不限。例如:environmental(F)impact/DE,TI表示這兩個詞必須同時出現(xiàn)在敘詞字段和篇名字段中。第43頁,共63頁,2024年2月25日,星期天字段限定檢索

使用鄰近檢索,只能限制檢索詞之間的相對位置,不能完全確定檢索詞在數(shù)據(jù)庫記錄中出現(xiàn)的字段位置,特別在使用自由詞進(jìn)行全文檢索時,需要用字段限制查找的范圍。使用截詞檢索,簡化了布爾檢索中的邏輯“或”功能,但并沒有改善布爾檢索的性質(zhì)。字段限定檢索(fieldlimitingretrieval)是用于限定提問關(guān)鍵詞在數(shù)據(jù)庫記錄中出現(xiàn)的區(qū)域,控制檢索結(jié)果的相關(guān)性,是提高檢索效果的一種有效檢索方法。第44頁,共63頁,2024年2月25日,星期天

例如:(minicomputer/DE,TIORpersonalcomputer/ID,TI)ANDPY=2008ANDLA=English這個檢索式所表達(dá)的檢索要求是:查找2008年出版的關(guān)于微電腦或者個人電腦的英文文獻(xiàn),并要求“微電腦”一詞在命中文獻(xiàn)的敘詞字段、標(biāo)題字段出現(xiàn),“個人電腦”一詞在命中文獻(xiàn)的自由詞字段出現(xiàn)。在互聯(lián)網(wǎng)搜索引擎中,限定字段也是常用的語法。例如,“filetype:”表示在某種文件類型(如doc、pdf)中查找資料。詳細(xì)的介紹請參見搜索引擎部分。第45頁,共63頁,2024年2月25日,星期天5信息檢索的基本步驟

分析檢索課題1.主題概念2.信息類型3.時間范圍4.檢索目的構(gòu)造檢索式(試驗性檢索)1.簡單提問式2.上下文提問式3.復(fù)合提問式4.結(jié)構(gòu)性提問式調(diào)整檢索策略(正式檢索)1,信息量過多時2.信息量太少時輸出檢索結(jié)果1.文摘2.全文選擇檢索系統(tǒng)1.學(xué)科范圍2.系統(tǒng)類型3.系統(tǒng)功能

確定檢索詞

1.切分2.刪除3.替補(bǔ)4.組合5.增加用戶評價

第46頁,共63頁,2024年2月25日,星期天1分析檢索課題

例如:查找有關(guān)消防的文獻(xiàn)。所有的“消防”文獻(xiàn)?還是只需有關(guān)“消防事業(yè)”、“消防隊伍”、“消防設(shè)施”、“消防材料”、“消防器材”、“消防方案”等中某一方面的文獻(xiàn)?(主題分析和檢索目的)需要一般的文獻(xiàn)資料?還是比較專深的文獻(xiàn)?需要科技論文?還是專利、標(biāo)準(zhǔn)、數(shù)據(jù)等?(信息類型)需要新穎的信息?或者是與別人的研究進(jìn)行先進(jìn)性比較?還是系統(tǒng)的學(xué)科知識?(時間范圍)——需要系統(tǒng)地掌握某學(xué)科的知識,可以選擇圖書;——需要撰寫研究項目的開題報告、論文,開展技術(shù)攻關(guān),可以選擇研究報告、科技論文、學(xué)位論文、會議文獻(xiàn)等;——需要進(jìn)行發(fā)明創(chuàng)造、工藝改革、新產(chǎn)品設(shè)計、引進(jìn)設(shè)備、簽訂合同,可以選擇專利說明書、標(biāo)準(zhǔn)文獻(xiàn)、產(chǎn)品資料等。第47頁,共63頁,2024年2月25日,星期天2選擇檢索系統(tǒng)

學(xué)科范圍。對于交叉學(xué)科、新興學(xué)科、應(yīng)用研究、綜合研究,不應(yīng)局限于某一學(xué)科范圍,可根據(jù)情況適當(dāng)擴(kuò)大檢索系統(tǒng)的學(xué)科范圍。例如,石油和礦業(yè)工程的力學(xué)計算方面的課題,也可以考慮數(shù)學(xué)、物理學(xué)、計算機(jī)信息科學(xué)、機(jī)械工程方面的數(shù)據(jù)庫。擴(kuò)大檢索系統(tǒng)的學(xué)科范圍有時會帶來意外的收獲。系統(tǒng)類型。首先,在不同的文獻(xiàn)類型系統(tǒng)中選擇。其次,要在文摘、索引系統(tǒng)和全文數(shù)據(jù)庫系統(tǒng)之間選擇。第三,在專業(yè)性數(shù)據(jù)庫中去查找。系統(tǒng)功能。一般說來,使用分類語言、主題語言的檢索系統(tǒng),要優(yōu)于使用自然語言的檢索系統(tǒng),專業(yè)檢索系統(tǒng)要優(yōu)于搜索引擎。檢索途徑、檢索方式(如分類瀏覽、簡單檢索、高級檢索、專家檢索、自然語言檢索)多,收錄時間跨度長,來源語種、國別多,文本(數(shù)據(jù))質(zhì)量高,附加個性化服務(wù),檢索系統(tǒng)就更值得選擇。第48頁,共63頁,2024年2月25日,星期天3確定檢索詞

1.切分切分是對課題的語句以自由詞為單位進(jìn)行拆分,轉(zhuǎn)換為檢索的最小單元。自由詞切分僅適用于自然語言檢索。例1:檢索“婦女吸煙與肺癌的關(guān)系研究”相關(guān)文獻(xiàn)。直接切分:婦女|吸煙|與|肺癌|的|關(guān)系|研究)注意,當(dāng)詞切分后將失去原來的意思時,不應(yīng)再切分,即必須注意保持意義的完整。如“中國科學(xué)院”、“電子郵件”不可再切分。第49頁,共63頁,2024年2月25日,星期天確定檢索詞2.刪除刪除是對自然語言中不具有實質(zhì)性檢索意義的虛詞(如介詞、連詞、副詞等),或者使用頻率較低的詞,或者專指性太高、過分寬泛的詞,或者過分具體的限定詞、禁用詞,或者不能表達(dá)課題實質(zhì)的高頻詞,或者存在蘊含關(guān)系可以合并的詞,一律予以刪除,使自然語言轉(zhuǎn)換成為關(guān)鍵詞和主題詞的集合。如上例中的“與”、“的”、“關(guān)系”、“研究”。例2:檢索“中國非常規(guī)天然氣工業(yè)的發(fā)展前景研究”方面的相關(guān)文獻(xiàn)。進(jìn)行拆分以后,工業(yè)、發(fā)展、前景、研究這四個自由詞具有一定的檢索意義,但是由于或者是意義過于寬泛、或者是不能表達(dá)課題實質(zhì)、或者是存在蘊含關(guān)系的原因,沒有必要全部作為檢索詞,根據(jù)需要可以保留1-2個作為檢索詞。第50頁,共63頁,2024年2月25日,星期天確定檢索詞3.替補(bǔ)替補(bǔ)就是在進(jìn)行切分、刪除后,對檢索詞進(jìn)行替換和補(bǔ)充。“公交”應(yīng)替換為:公共交通;“綠色包裝”中的“綠色”,應(yīng)替換為:環(huán)保、無污染、可降解;“煤氣中毒”應(yīng)替換為:一氧化碳中毒;“非典”應(yīng)考慮補(bǔ)充:SARS、非典型肺炎、傳染性非典型肺炎、嚴(yán)重急性呼吸綜合征(severeacuterespiratorysyndrome);“非常規(guī)天然氣”(nonconventionalnaturalgas)應(yīng)考慮補(bǔ)充:煤層氣、(天然氣)水合物、頁巖氣、深層氣、致密巖氣、水溶氣、沼氣,同時考慮將“氣”應(yīng)替換為:天然氣(naturalgas)、甲烷(methane)、CH4

、CH4;含硫氣田的“硫”應(yīng)考慮補(bǔ)充:sulfur、sulf*、sulfur*、sulphur、sulphur*、H2S、H2S,同時考慮將“硫”替換為:硫化氫(sulfuredhydrogen)、含硫化合物(sulfurcompound)。第51頁,共63頁,2024年2月25日,星期天確定檢索詞4.組合

①概念相交組合。這個新概念是原來用以組合的兩個概念的下位概念,如曲柄連桿機(jī)構(gòu)*發(fā)動機(jī)=汽車發(fā)動機(jī)。②概念限定組合。這個新概念可用來表示這一事物的某一屬性或某一個方面。如電視機(jī)*數(shù)字化=數(shù)字電視機(jī)。以上兩種組配方式,所得到的新概念,都是原組和概念的下位概念,縮小了檢索范圍,提高了概念的專指度,達(dá)到提高檢準(zhǔn)率的目的。③概念并列組合。具有概念并列關(guān)系的自由詞間的組配,其結(jié)果使概念檢索的范圍擴(kuò)大,如環(huán)境污染+環(huán)境保護(hù)=環(huán)境污染和環(huán)境保護(hù)。④概念刪除組合。是指兩個具有上下位關(guān)系的自由詞間的組合,其結(jié)果使概念檢索的范圍縮小,如信息處理-模擬信息處理=數(shù)字信息處理。第52頁,共63頁,2024年2月25日,星期天確定檢索詞5.增加增加“限義詞”。有兩種方法:直接增加限義詞、挖掘隱含詞、提取潛在的檢索詞;把限義詞以邏輯的方式加入,可采用邏輯“與”或邏輯“非”的方法增加限義詞。分析隱含概念。挖掘潛在的主題詞還可以通過對上位詞、下位詞、同類詞關(guān)系的分析得到其它相關(guān)主題詞。如例1:“婦女吸煙與肺癌的關(guān)系研究”,切分、刪除后得:吸煙、肺癌兩個檢索詞,分析、補(bǔ)充上位詞可增加檢索詞:煙、癌癥、惡性腫瘤。例3:檢索“一種新的天線陣方向圖綜合方法”課題。切分:一種|新|的|天線陣|方向圖|綜合|方法;刪除后得:天線陣、方向圖;根據(jù)主題詞表分析,增加上位詞可得主題詞:互耦、偶極子、輸入阻抗等。第53頁,共63頁,2024年2月25日,星期天確定檢索詞從上述四個實例可以看出,提取檢索詞首先是切分、刪除,其次是進(jìn)行替補(bǔ)、組合和增加。在提取檢索詞時,若所選的數(shù)據(jù)庫具有規(guī)范化詞表時,應(yīng)優(yōu)先選用該數(shù)據(jù)庫詞表中與檢索課題相關(guān)的規(guī)范化主題詞(檢索詞)。第54頁,共63頁,2024年2月25日,星期天4構(gòu)造檢索式(試驗性檢索)

所謂的檢索提問式(query,searchformulation),是信息檢索中用來表達(dá)用戶檢索提問的邏輯表達(dá)式,主要是使用各種布爾邏輯算符、位置算符、截詞符、限制算符以及系統(tǒng)規(guī)定的其他組配連接符號將檢索詞進(jìn)行組配,確定檢索詞之間的概念關(guān)系或位置關(guān)系。第55頁,共63頁,2024年2月25日,星期天構(gòu)造檢索式(試驗性檢索)簡單提問式——含一個檢索詞的提問式;上下文提問式——精確短語或近似精確短語的提問式,也可稱為短語提問式;復(fù)合提問式——含有布爾算符和至少2個檢索詞的提問式;結(jié)構(gòu)性提問式——含有2個以上布爾算符和至少4個檢索詞的多層結(jié)構(gòu)組合的提問式。例4:地震序列分析的工具和方法研究要完成本項檢索課題,必須使用結(jié)構(gòu)性提問式:((((sequenceanalysis)WNTI)AND((method*ORtool*ORinstrument*)WNAllfields))AND((seismic)WNAllfields))

。檢索式“WNTI”意為限在TI(標(biāo)題)字段中檢索,可提高檢索的準(zhǔn)確性和相關(guān)度。第56頁,共63頁,2024年2月25日,星期天5調(diào)整檢索策略(正式檢索)

所謂檢索策略(searchstrategy)就是為完成檢索課題,實現(xiàn)檢索目的,對檢索的全過程進(jìn)行謀劃之后所制定的全盤檢索方案。檢索策略的制定過程就是檢索提問式的不斷完善的過程,使用最初的檢索提問式是試驗性檢索,使用調(diào)整后的完善檢索策略提問式是正式檢索。第57頁,共63頁,2024年2月25日,星期天調(diào)整檢索策略(正式檢索)1.當(dāng)檢索結(jié)果信息量過多時原因:選用了多義性的檢索詞;截詞截得過短;輸入的檢索詞太少;應(yīng)該使用“與(AND)”的使用了“或(OR)”;優(yōu)先運算符“()”使用錯誤??紤]縮小檢索范圍,方法如下:(1)采用專指性強(qiáng)的主題詞(主題詞表),減少同義詞、同族相關(guān)詞等相關(guān)性不強(qiáng)的檢索詞;(2)增加限制概念,采用“AND”算符連接檢索詞或進(jìn)行二次檢索;(3)使用字段限定,把檢索詞限定在題目、主題詞等主要字段;(4)縮短檢索年限,限制檢索結(jié)果的文獻(xiàn)類型、語種及出版國;(5)使用“NOT”算符,排除無關(guān)概念;(6)調(diào)整位置算符,由松變嚴(yán);(7)改模糊檢索為精確檢索。第58頁,共63頁,2024年2月25

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論