科技文獻(xiàn)檢索原理、語言及方法_第1頁
科技文獻(xiàn)檢索原理、語言及方法_第2頁
科技文獻(xiàn)檢索原理、語言及方法_第3頁
科技文獻(xiàn)檢索原理、語言及方法_第4頁
科技文獻(xiàn)檢索原理、語言及方法_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第二講信息檢索原理、語言及方法主要內(nèi)容1信息檢索基本原理2信息檢索語言3信息檢索技術(shù)4檢索詞的確定5信息檢索步驟1信息檢索基本原理

信息檢索基本原理的核心是用戶信息需求與文獻(xiàn)信息集合的比較和選擇,是兩者匹配(match)的過程。

一方面是用戶的信息需求,一方面是組織有序的文獻(xiàn)信息集合,檢索就是從用戶特定的信息需求出發(fā),對特定的信息集合采用一定的方法、技術(shù)手段,根據(jù)一定的線索與規(guī)則從中找出(search,locate,hit)相關(guān)的信息。

匹配有其匹配標(biāo)準(zhǔn),這里涉及到兩者一致性、相關(guān)度等問題,按一定的標(biāo)準(zhǔn)篩選出符合要求的信息。復(fù)習(xí):信息檢索定義廣義的信息檢索是指將信息按一定的方式組織和存儲起來,并根據(jù)信息用戶的需要找出有關(guān)信息的過程和技術(shù)。全稱為“信息存儲與檢索”。狹義的信息檢索指廣義信息檢索過程的后半部分,即從信息集合中找出所需要的信息的過程,相當(dāng)于人們通常所說的信息查尋。

信息檢索:是信息用戶的需求和信息集合的比較與選擇,即匹配(match)的過程。用戶根據(jù)檢索需求,對一定的信息集合采用一定的技術(shù)手段,根據(jù)一定的線索與準(zhǔn)則找出相關(guān)的信息。信息檢索原理圖輸出表述外部特征內(nèi)容特征

信息檢索的實(shí)質(zhì)是尋求檢索提問與信息特征相匹配的信息。2信息檢索語言2.1檢索語言的概念檢索語言是一種用于描述文獻(xiàn)特征和表達(dá)檢索提問的約定語言,它是為溝通文獻(xiàn)標(biāo)引與檢索提問而專門編制的,也是連接信息存儲和信息檢索兩個(gè)過程中標(biāo)引人員與檢索人員雙方思路的渠道。①在信息存儲過程中,使用檢索語言描述信息的外部特征和內(nèi)容特征,從而形成文獻(xiàn)標(biāo)識;②在信息檢索過程中,使用檢索語言描述檢索提問,從而形成提問標(biāo)識;③當(dāng)提問標(biāo)識與文獻(xiàn)標(biāo)識完全匹配或部分匹配時(shí),需要的信息就被檢索出來了。2.2文獻(xiàn)的特征一篇文章、一本圖書、一份報(bào)告等一般都有以下特征:外部特征:題名、作者、作者工作單位,專利和科技報(bào)告還有專利號或報(bào)告號等,均可以展示特定文獻(xiàn)的外部特征。一般不打開書本或不翻閱文獻(xiàn)的具體內(nèi)容,僅查找在文獻(xiàn)封面或扉頁位置展示的外部特征,就可以確定一篇文獻(xiàn)。內(nèi)容特征:假如我們深入到具體的文獻(xiàn)內(nèi)容當(dāng)中,則發(fā)現(xiàn)還可用另外兩種方法來表現(xiàn)文獻(xiàn)的特征:主題詞與分類。2信息檢索語言語詞規(guī)范與否人工語言自然語言標(biāo)題詞、單元詞、敘詞關(guān)鍵詞、自由詞2信息檢索語言2.3檢索語言分類人工語言和自然語言人工語言(artificiallanguage):也稱受控語言,使用經(jīng)過規(guī)范化處理的語詞標(biāo)識(controlledterm)。人工語言的規(guī)范化處理志在解決兩個(gè)問題:一是一個(gè)概念只用一個(gè)詞(或詞組)來表達(dá),這樣就避免了多詞一義的情況;二是一個(gè)詞(或詞組)只能表達(dá)一個(gè)概念,這樣就排除了一詞多義現(xiàn)象。自然語言(naturallanguage):取語言本身的自然形態(tài),不受控,使用非規(guī)范詞(uncontrolledterm)或稱自由詞(freeterm)。自然語言極其豐富、復(fù)雜和多樣,存在著一詞多義、多詞一義及詞義交叉的現(xiàn)象。常見的有同義詞、近義詞、同型異義詞等。2.3.1分類語言分類語言是指用分類號表達(dá)各種概念,并將各種概念以學(xué)科性質(zhì)為主加以劃分和系統(tǒng)排列的檢索語言。按編制方式可分為體系分類語言和組配分類語言,目前信息檢索采用的大多為體系分類語言。《中國圖書館分類法》(中圖法)《中國科學(xué)院圖書館圖書分類法》(科圖法)《中國人民大學(xué)圖書館圖書分類法》(人大法)《國際十進(jìn)分類法》UDC《杜威十進(jìn)分類法》DDC《國際專利分類表》IPC體系分類語言體系分類語言是以科學(xué)分類為基礎(chǔ),運(yùn)用概念劃分的方法,把具有某種或某些共同屬性的事物集合劃分為一類,用概括該類事物所共有的本質(zhì)屬性的概念作為類目,并給出相應(yīng)的標(biāo)記符號作為分類號。體系分類語言集中體現(xiàn)了學(xué)科的系統(tǒng)性,反映事物的從屬、派生關(guān)系,從上到下、從總到分,逐級展開,各級類目都一一列舉,具有層壘制結(jié)構(gòu)。我國廣泛使用的《中國圖書館分類法》就是一種典型的體系分類語言,分類表則是這種語言的具體體現(xiàn)。《中國圖書館分類法》簡稱《中圖法》;將學(xué)科知識分為5個(gè)基本部類,22個(gè)大類;分類標(biāo)識即分類號,由字母和數(shù)字組成;采用等級列舉表達(dá)從屬關(guān)系?!吨袌D法》簡表A馬、列、毛、鄧?yán)碚揃哲學(xué)、宗教C社會科學(xué)總論D政治、法律E軍事F經(jīng)濟(jì)G文化、科學(xué)、教育、體育H語言、文字I文學(xué)J藝術(shù)K歷史、地理N自然科學(xué)總論O數(shù)理科學(xué)和化學(xué)P天文學(xué)、地球科學(xué)Q生物科學(xué)R醫(yī)藥、衛(wèi)生S農(nóng)業(yè)科學(xué)T工業(yè)技術(shù)U交通運(yùn)輸V航空、航天X環(huán)境科學(xué)、安全科學(xué)Z綜合性圖書F經(jīng)濟(jì)F0經(jīng)濟(jì)學(xué)F1世界各國經(jīng)濟(jì)概況、經(jīng)濟(jì)史、經(jīng)濟(jì)地理F2經(jīng)濟(jì)計(jì)劃與管理F20國民經(jīng)濟(jì)管理F21經(jīng)濟(jì)計(jì)劃F22經(jīng)濟(jì)計(jì)算、經(jīng)濟(jì)數(shù)學(xué)方法F23會計(jì)F230會計(jì)學(xué)F231會計(jì)簿記方法F232會計(jì)設(shè)備F233會計(jì)工作組織與制度F234各種會計(jì)和簿記F234.1社會會計(jì)F234.2成本會計(jì)F234.3管理會計(jì)F234.4財(cái)務(wù)會計(jì)F234.5國際會計(jì)…..F3農(nóng)業(yè)經(jīng)濟(jì)F4工業(yè)經(jīng)濟(jì)TP自動化技術(shù)、計(jì)算機(jī)技術(shù)TP1自動化基礎(chǔ)理論TP3計(jì)算技術(shù)、計(jì)算機(jī)技術(shù)TP31計(jì)算機(jī)軟件TP39計(jì)算機(jī)的應(yīng)用TP391信息處理(信息加工)TP391.1文字信息處理TP391.12漢字處理系統(tǒng)TP391.13表格處理系統(tǒng)TP391.14文字錄入技術(shù)TP391.2翻譯機(jī)TP391.3檢索機(jī)TP391.4模式識別與裝置TP392各種專用數(shù)據(jù)庫TP393計(jì)算機(jī)網(wǎng)絡(luò)主題詞語言是以語詞作為概念標(biāo)識,按字順編排的檢索語言。按主題詞性質(zhì)不同,分為:(1)標(biāo)題詞語言(2)單元詞語言(3)敘詞語言(4)關(guān)鍵詞語言2.3.2主題詞語言(1)標(biāo)題詞語言標(biāo)題詞語言是以標(biāo)題詞作為文獻(xiàn)內(nèi)容標(biāo)識和檢索依據(jù)的一種主題語言。它是最早使用的一種主題語言。標(biāo)題詞,并非僅指文獻(xiàn)“題名”中的詞,而是從文獻(xiàn)的題目、正文或摘要中抽選出來,經(jīng)過規(guī)范化處理,用以描述文獻(xiàn)內(nèi)容特征的詞和詞組。(2)單元詞語言單元詞語言是采用最小的字面單元——單元詞來標(biāo)引文獻(xiàn)內(nèi)容,通過單元詞的組配來檢索文獻(xiàn)的檢索語言。單元詞又稱元詞,是指從文獻(xiàn)中抽取出來的、能表達(dá)文獻(xiàn)主題內(nèi)容的、最基本的不可再分的詞。它一般未經(jīng)規(guī)范化,也無詞表。與標(biāo)題詞語言相比較,單元詞只是構(gòu)成標(biāo)題詞的構(gòu)件,組配是單元詞語言的突出特點(diǎn)。檢索時(shí),根據(jù)檢索課題的內(nèi)容特征,選取恰當(dāng)?shù)膯卧~進(jìn)行組配檢索。

(3)敘詞語言敘詞語言是以敘詞作為文獻(xiàn)內(nèi)容標(biāo)識和檢索依據(jù)的一種主題語言。敘詞又稱描述詞或敘述詞,是指從文獻(xiàn)中抽取出來的,以概念為基礎(chǔ),經(jīng)過優(yōu)化和規(guī)范化處理并具有概念組配和詞間語義關(guān)系顯示功能,用以表達(dá)文獻(xiàn)主題和檢索需求的名詞或術(shù)語,可以是單詞,也可以是詞組。敘詞語言——概念組配敘詞在表達(dá)復(fù)合概念時(shí),需用到概念組配

概念組配與字面組配的區(qū)別

例:香蕉蘋果:香蕉-蘋果×香蕉味食品-蘋果√概念組配的類型:概念相交(例:時(shí)鐘收音機(jī):時(shí)鐘-收音機(jī))概念并列(例:長篇?dú)v史小說:長篇小說-歷史小說)概念限定(例:刀具熱處理:刀具-熱處理)敘詞表敘詞表是準(zhǔn)確查選敘詞、提高檢索效率必不可少的檢索工具。按其選詞的學(xué)科范圍,可以分為專業(yè)性敘詞表和綜合性敘詞表。我國的《漢語主題詞表》就是一部綜合性敘詞表。我國自編的專業(yè)性敘詞表很多,諸如《冶金專業(yè)敘詞手冊》、《機(jī)械工程主題表》等。國外較著名的敘詞表有英國《科學(xué)文摘》使用的《INSPECThesaurus》、美國《工程索引》93年后使用的《EiThesaurus》等。敘詞表構(gòu)成敘詞表由一個(gè)主表和幾個(gè)副表(或輔助索引)組成。主表是一部敘詞表的主體,包括該敘詞表收錄的全部敘詞和非敘詞。每個(gè)敘詞(或非敘詞)有一條款目,敘詞和非敘詞之間、敘詞彼此之間存在著各種詞義關(guān)系,也有一套參照系統(tǒng),并用一套參照符號來顯示這些詞義關(guān)系。

敘詞表副表任何一個(gè)敘詞表除主表外,還有副表或輔助索引。通常有以下兩種:(1)范疇索引:又稱分類索引。這種索引按照敘詞所屬學(xué)科對敘詞進(jìn)行分類,便于用戶從學(xué)科分類角度查找敘詞。(2)詞族索引或詞族表:詞族是一族具有等級關(guān)系的敘詞。在族首詞下,按照等級關(guān)系把全部同族詞層層展開排列,然后,再按族首詞字順編制成詞族索引或詞族表。在詞族索引中,由族首詞可以找到其層層下屬的全部同族敘詞,然后再從其中選用切題的敘詞進(jìn)行擴(kuò)檢或縮檢。敘詞常用參照項(xiàng)及其符號詞義關(guān)系

詞類參照符號中文英文簡稱拼音縮寫縮寫原文等同關(guān)系敘詞非敘詞用代YDUSEUFUseUsedfor等級關(guān)系上位敘詞下位敘詞族首詞屬分族SFZBTNTTTBroadtermNarrowtermTopterm相互關(guān)系相關(guān)詞參CRTRelatedterm圖書館員 D圖書館工作人員 D圖書館工作者 D圖書館館員 D圖書館管理人員 D圖書館管理員 D圖書館人員 C圖書館工作 C圖書館領(lǐng)導(dǎo)圖書館工作人員Y圖書館員圖書

D多語文圖書D普通圖書D書籍

別集

●暢銷書

●叢書

●●地方叢書

●●輯佚叢書

●●自助叢書

●●族姓叢書

●單行本

●電子圖書

●多卷書

●復(fù)本書……《漢語主題詞表》示例《冶金專業(yè)敘詞表手冊》主表釋例

轉(zhuǎn)爐煉鋼(此條為敘詞款目)ConvertersteelmakingS轉(zhuǎn)爐熔煉F氧氣側(cè)吹轉(zhuǎn)爐煉鋼氧氣底吹轉(zhuǎn)爐煉鋼氧氣頂吹轉(zhuǎn)爐煉鋼Z熔煉*C氧氣熔煉熔煉能力(此條為非敘詞款目)SmeltingcapacityY生產(chǎn)能力+熔煉C熔化速率(4)關(guān)鍵詞語言關(guān)鍵詞語言是以關(guān)鍵詞作為文獻(xiàn)內(nèi)容標(biāo)識和檢索依據(jù)的一種主題語言。關(guān)鍵詞是直接從文獻(xiàn)的題目、摘要或正文中抽取出來,未經(jīng)規(guī)范化處理的自由詞匯,又稱自由詞,屬自然語言范疇。用詞的自由性是關(guān)鍵詞與標(biāo)題詞、敘詞等人工語言的最大區(qū)別之處。關(guān)鍵詞大大方便了標(biāo)引工作,提高了標(biāo)引速度,降低了標(biāo)引成本。但是由于它是一種基本上未經(jīng)過規(guī)范化處理的自然語言,因此存在著多義性、同義性、模糊性特性,檢索用詞無法一一對應(yīng),故會造成文獻(xiàn)信息的漏檢和誤檢。但是在計(jì)算機(jī)檢索功能高效運(yùn)行的條件下,人們對關(guān)鍵詞語言的缺點(diǎn)有所“忽視”,反而充分發(fā)揮出了它的簡便易用的優(yōu)點(diǎn),大量用于網(wǎng)絡(luò)環(huán)境下的信息檢索,已成為當(dāng)前互聯(lián)網(wǎng)最主要的檢索語言。關(guān)鍵詞選取的原理一般來說,一篇文獻(xiàn)都是論及某一方面的特定問題的,也就是說,與論題相關(guān)的詞出現(xiàn)的頻率較大。以前的研究表明,無論哪一種類型的文獻(xiàn),若對文獻(xiàn)中出現(xiàn)的詞進(jìn)行頻率統(tǒng)計(jì)的話,會發(fā)現(xiàn)所有的詞可分為三類:i.文獻(xiàn)中出現(xiàn)頻率最高的詞是冠詞、介詞和連詞等,即其本身沒有具體含義的詞,如a、an、the、this、that、or、and、in、on、with等;ii.絕大部分詞在文獻(xiàn)中出現(xiàn)的頻率較低;iii.在文獻(xiàn)中出現(xiàn)的頻率既不高也不低的詞,約3-20個(gè)之間,這些詞恰恰是與文獻(xiàn)的主題相關(guān)度較大的詞,我們稱之為能表達(dá)文獻(xiàn)主題的關(guān)鍵詞。3信息檢索技術(shù)查全率

查全率即從數(shù)據(jù)庫內(nèi)檢出的相關(guān)信息量與總相關(guān)信息量的比率。

查全率=檢出的相關(guān)信息數(shù)量/數(shù)據(jù)庫內(nèi)的相關(guān)信息總量×100%查準(zhǔn)率

查準(zhǔn)率即從數(shù)據(jù)庫中檢出的相關(guān)信息量與檢出的信息總量的比率。

查準(zhǔn)率=檢出的相關(guān)信息數(shù)量/檢出的信息總量×100%兩個(gè)重要的指標(biāo)常見的信息檢索技術(shù)(方法)邏輯算符位置算符禁用詞截詞符“?”基本檢索字段標(biāo)識符限定檢索邏輯算符邏輯“與”:and;*邏輯“或”:or;+邏輯“非”:not;-邏輯算符1)“與”――邏輯乘用于表達(dá)兩個(gè)或兩個(gè)以上檢索詞之間的相交關(guān)系或限定關(guān)系運(yùn)算。邏輯“與”檢索能增強(qiáng)檢索的專指性,使檢索范圍縮小。

用符號“and”或“*”表示,其邏輯表達(dá)式為:A*B或AandB(交集)例如:查找有關(guān)“英語歌曲在英語教學(xué)中的應(yīng)用”的文獻(xiàn):

英語歌曲*英語教學(xué)”或“英語歌曲AND英語教學(xué)”

邏輯算符2)“或”――邏輯和用于表達(dá)兩個(gè)或兩個(gè)以上檢索詞之間的并列關(guān)系。邏輯“或”檢索擴(kuò)大了檢索范圍,提高檢索信息的查全率。

用符號“or”或“+”表示其邏輯表達(dá)式為:AorB或A+B(并集)如邏輯式“enterpriseORcompany”或者“enterprise+company”

表示文獻(xiàn)中只要含有檢索詞中任何一個(gè)或兩個(gè)同時(shí)存在的文獻(xiàn)為命中文獻(xiàn).邏輯算符3)“非”――邏輯差用于表達(dá)兩個(gè)或兩個(gè)以上檢索詞之間排除不需要的檢索詞的運(yùn)算可以縮小檢索范圍,增強(qiáng)檢索的準(zhǔn)確性。此運(yùn)算適于排除那些含有某個(gè)指定檢索詞的記錄。用符號“not”或“-”

其邏輯表達(dá)式為:AnotB或A-B

如邏輯式“英語語法NOT構(gòu)詞法”表示檢索除構(gòu)詞法以外的、有關(guān)英語語法方面的文獻(xiàn)邏輯算符邏輯算符的運(yùn)算次序:在有括號的情況下,先執(zhí)行括號內(nèi)的運(yùn)算;有多層括號時(shí),先執(zhí)行最內(nèi)層括號中的運(yùn)算,逐層向外進(jìn)行。例如:(A+B)*C-D在沒有括號的情況下,And、Or、Not的運(yùn)算次序,在不同的系統(tǒng)中有不同的規(guī)定。位置算符詞級位置算符包括(W)、(N)算符,表示檢索詞之間的順序關(guān)系

(W):W是with的縮寫,表示兩個(gè)詞必須緊挨著,且詞序不可顛倒,(W)算符也可用空括號()代替。例:solar()energy

(nw):表示兩個(gè)詞之間可插入n個(gè)詞,且詞序不可顛倒。例:solar(3w)energy(N):N是near的縮寫,表示兩個(gè)詞之間必須緊挨著,但詞序任意。例:fiber(N)optic(nN)表示兩個(gè)詞之間最多可插入n個(gè)詞,詞序任意。例:fiber(4N)optic位置算符(S):S為subfield或sentence的縮寫,表示兩個(gè)詞必須在記錄中的同一個(gè)句子或同一個(gè)子字段中出現(xiàn),且詞序可變。子字段含義由數(shù)據(jù)庫定義。例:color(S)pigment(F):F為field的縮寫,表示兩個(gè)詞必須在記錄中的同一個(gè)字段中出現(xiàn),且詞序可變。有了邏輯算符和位置算符,即可編制較為完整的檢索提問。在檢索時(shí)應(yīng)注意:①位置算符優(yōu)先于邏輯算符②位置算符的執(zhí)行順序是按語句中位置算符的輸入順序從左至右執(zhí)行的。如有括號,則優(yōu)先執(zhí)行括號內(nèi)的位置算符。禁用詞在數(shù)據(jù)庫中,下列九個(gè)詞不能作為檢索詞使用,這些詞稱為禁用詞。禁用詞有:AN、AND、BY、FOR、FROM、OF、TO、THE、WITH截詞符截詞檢索:利用檢索詞的詞干或不完整詞形進(jìn)行查找的過程??梢云鸬綌U(kuò)大檢索范圍,提高查全率,減少檢索詞的輸入量,節(jié)省檢索時(shí)間。尤其在英文檢索系統(tǒng)中檢索時(shí),若遇到名詞的單復(fù)數(shù)形式,詞的不同拼寫法,詞的后綴變化時(shí),均可采用此方法。如:comput*截詞符常用的截詞符有:*,#,?,!,$

★注:不同的數(shù)據(jù)庫所用的截詞符不一樣,使用前應(yīng)先查一下各數(shù)據(jù)庫的幫助加以確認(rèn)截詞符截詞的方式有多種,可以分為有限截詞、無限截詞有限截詞——一個(gè)符號表示一個(gè)字母

如:wom?n可檢索出:woman,women(中間截?cái)啵o限截詞——一個(gè)符號表示任意多個(gè)字母

如:comput*可檢出:Computer,computers,computering截詞符按照截詞的位置,可分為:1)后截?cái)唷⑶胺揭恢翪omput*——computer,computers,computing……2)前截?cái)?、后方一?/p>

*computer——minicomputer,microcomputer,……3)中間截?cái)?、前后一?/p>

Fib*board——fiberboard,fibreboard基本檢索字段標(biāo)識符字段

后綴代碼Abstract文摘

…/ABDescriptors敘詞

…/DETitle題目

…/TIIdentifiers標(biāo)引的自由詞

…/IDFullDescriptors完整的敘詞(單元詞)…/DF

限定檢索相同的字段在不同的數(shù)據(jù)庫,代碼可能不同,檢索時(shí)需要參閱數(shù)據(jù)庫使用指南。

前綴代碼名稱例子AU=Author(作者)AU=MIRO,R?CS=CorporateSourceCS=HARVARDAND(機(jī)構(gòu)名稱)MEDICINECO=CompanyName(公司名稱)CO=FORDMOTOR?JN=JournalName(期刊名稱)JN=ScientiaScincaLA=Language(文種)LA=ENGLISHPY=PublicationYear(出版年代)PY=1999注:使用限定檢索時(shí)“=”后不留空格。4檢索詞的確定4.1原則a、反映信息概念的準(zhǔn)確性古代語言演變=古代語言+語言演變=古代語言+演變(X)b、反映信息內(nèi)容的全面性協(xié)同設(shè)計(jì)+協(xié)同工作Collaborativedesign+cooperativedesignCollaborativework+cooperativeworkc、注意檢索詞的多樣性軌道鐵軌微型計(jì)算機(jī)微機(jī)電腦4.2方法

a、命名法對于一個(gè)事物,人們首先要給他命名。(1)屬性命名法命名的名稱用詞往往取自能描述該事物特征或相關(guān)屬性的詞匯,由于事物具有多種特征或多種相關(guān)屬性,因此可以產(chǎn)生多種名稱。如:烏賊墨斗魚遮陽傘太陽傘(2)比喻命名法如:計(jì)算機(jī):又稱“電腦”;(3)來源命名法根據(jù)發(fā)現(xiàn)者或發(fā)明者命名,“X射線”又稱“倫琴射線”。4檢索詞的確定4.2方法b、定義法是將事物及其名稱同化到已有的概念體系中,它將事物歸入某一類屬并用其他相關(guān)詞、限制詞對其加以說明和區(qū)別。定義的方法有:(1)抽象化

“調(diào)溫設(shè)備”可抽象化為“溫度控制設(shè)備”;(2)具體化電腦微型計(jì)算機(jī)(3)反義詞

“污水處理”可稱作“水凈化”,“潔凈環(huán)境”也可稱“無塵環(huán)境”等;(4)逐字展開如“溫度計(jì)”即“溫度測量儀器”;(5)代稱詞如“二次電池”即“蓄電池”。4檢索詞的確定4.2方法c、變體法事物名稱在不同的時(shí)間或空間中可能發(fā)生變異,通過變體分析找出詞(或詞組)的各種變化形式,從而可以找出較多的同義詞和相關(guān)詞。例如:

拼寫變化meter+metre,disk+disc

分離式、合體式database+database

順序式、逆序式抗拉性不銹鋼+不銹鋼抗拉性姓、名順序英文人名檢索時(shí)應(yīng)寫順、逆兩種形式,如:Wan,lin+Lin,Wan+Wan,L.。

全稱、簡稱(或縮寫)北京大學(xué)+北大;利廢+廢物利用;

單數(shù)、復(fù)數(shù)變化等。4檢索詞的確定4.3如何從課題名中確定檢索詞

切分將課題語句分割為一個(gè)一個(gè)的詞。例如“計(jì)算機(jī)情報(bào)檢索方法”可切分為:|計(jì)算機(jī)|情報(bào)|檢索|方法|。

刪除從語句切分出來的詞中刪除那些(1)不具有檢索意義的虛詞(包括介詞、連詞、助詞、副詞等)及其他非關(guān)鍵詞;(2)過分寬泛和過分具體的不必要的限定詞,過分寬泛難以觸及問題實(shí)質(zhì),太狹義具體的限制詞則會掛一漏萬;(3)存在蘊(yùn)涵關(guān)系的可合并詞?!盎赪eb的數(shù)據(jù)庫”,經(jīng)刪除后,Web|數(shù)據(jù)庫稀土材料的研究現(xiàn)狀及發(fā)展趨勢稀土材料稀土材料釹鐵硼的研究釹鐵硼電磁波教學(xué)用的多媒體課件電磁波多媒體課件4檢索詞的確定4.3如何從課題名中確定檢索詞替換從課題語句中得來的詞也許偏于模糊、寬泛、狹窄或不可行,不能取得所希望的結(jié)果,這時(shí)可以引入更明確、更具體、更本質(zhì)、更可行的概念詞來替換原詞,或作為原詞的同義詞和相關(guān)詞一并見面所??諝庵屑?xì)菌的計(jì)算方法空氣污染的計(jì)算方法聚類即把切分、刪除、替換后所得出的單元詞按語義概念進(jìn)行同類合并,將那些可以相互等效、相互替換、相互補(bǔ)充的同(近)義詞、相關(guān)詞歸成一組。聚類的實(shí)質(zhì)是進(jìn)行組面分析,將語句和詞轉(zhuǎn)換成概念(組面)的集合。補(bǔ)充包括(1)補(bǔ)充來源詞,即找出縮略詞的來源詞組,將兩者一并作為檢索詞;(2)補(bǔ)充同義詞和相關(guān)詞(包括上位詞、下位詞和同位詞等)。模擬計(jì)算機(jī)模擬計(jì)算機(jī)+模擬系統(tǒng)*計(jì)算機(jī)liradlirad+laserradar“毫米波”:“millimeterwave”與“millimetrewave”

限定針對一詞多義導(dǎo)致誤檢的問題,需采取限定措施,即增加”限定詞“。具體方法有兩種,一是邏輯乘,一是邏輯非。線路線路*(電子+無線電+)線路線路-(道路+車輛+)4.3如何從課題名中確定檢索詞5

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論