![信息檢索原理課件_第1頁](http://file4.renrendoc.com/view/bfbd5847185f94a6aced1f0e1df9c668/bfbd5847185f94a6aced1f0e1df9c6681.gif)
![信息檢索原理課件_第2頁](http://file4.renrendoc.com/view/bfbd5847185f94a6aced1f0e1df9c668/bfbd5847185f94a6aced1f0e1df9c6682.gif)
![信息檢索原理課件_第3頁](http://file4.renrendoc.com/view/bfbd5847185f94a6aced1f0e1df9c668/bfbd5847185f94a6aced1f0e1df9c6683.gif)
![信息檢索原理課件_第4頁](http://file4.renrendoc.com/view/bfbd5847185f94a6aced1f0e1df9c668/bfbd5847185f94a6aced1f0e1df9c6684.gif)
![信息檢索原理課件_第5頁](http://file4.renrendoc.com/view/bfbd5847185f94a6aced1f0e1df9c668/bfbd5847185f94a6aced1f0e1df9c6685.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、1本章要點(diǎn): 信息檢索的五個(gè)步驟 歸納課題主題,提取檢索概念的一般方法 課題的分類號和主題詞的確定方法 漢語詞語的切分方法 課題概念的擴(kuò)展方法 文獻(xiàn)信息數(shù)據(jù)庫文檔、記錄、字段的概念 邏輯、截詞、優(yōu)先、位置算符和字段限制第章 信息檢索原理2第章 信息檢索原理2.1 信息檢索的定義和原理2.1.1 信息檢索的定義 “檢索”(Retrieval)一詞是一個(gè)外來詞,來源于英語“Information Retrieval”(信息檢索) “檢索就是查找”,這僅僅是一種狹義的解釋。從廣義的角度講,檢索包括“存貯”和“查找”兩個(gè)過程。沒有存貯就沒有查找,存貯是為了查找,但查找必須有存貯,兩者缺一不可。 31.
2、信息檢索的定義 狹義:是指根據(jù)特定課題的需要,運(yùn)用科學(xué)的方法,在大量信息(文獻(xiàn))集合中查獲所需信息(文獻(xiàn))的過程。 是指從任何信息集合中查找所需信息的活動(dòng)、過程與方法。 廣義:是指將信息按一定的方式組織和存儲(chǔ)起來,并根據(jù)信息用戶的需要找出有關(guān)信息的過程,其全稱是信息存儲(chǔ)與檢索。 廣義的信息檢索包括信息存貯和信息檢索兩個(gè)部分,兩者又往往合并稱為“信息存貯與檢索” 。4補(bǔ)充: 文獻(xiàn)檢索的含義:就是利用文獻(xiàn)信息檢索系統(tǒng),從一個(gè)特定的文獻(xiàn)集合中,查找特定用戶所需的特定時(shí)間、特定區(qū)域和特定主題的文獻(xiàn)的程序和方法。5 第章 信息檢索原理 2. 信息檢索的一般原理 信息檢索包括存儲(chǔ)和檢索兩個(gè)過程。 信息檢索
3、過程的實(shí)質(zhì)是將檢索提問標(biāo)識(shí)與存儲(chǔ)在檢索系統(tǒng)(檢索工具)中的檢索標(biāo)識(shí)(標(biāo)引標(biāo)識(shí))進(jìn)行比較,含有兩者一致或信息存儲(chǔ)的標(biāo)識(shí)包含著檢索提問標(biāo)識(shí)的信息就是檢索命中的信息。這就是信息檢索原理。 6信息處理人員檢索結(jié)果檢索 工具檢索課題用 戶原始信息信息分析、著錄和標(biāo)引課 題 分 析檢索語言(主題詞/分類號)信息檢索原理示意圖:存貯過程 檢索過程存入檢索檢出7 3.信息檢索的類型 以檢索內(nèi)容區(qū)分: 根據(jù)檢索對象不同,信息檢索可分為文獻(xiàn)檢索、事實(shí)檢索和數(shù)據(jù)檢索三種類型。 (1) 文獻(xiàn)檢索(Document Retrieval) 是以文獻(xiàn)為檢索對象的信息檢索。也就是說文獻(xiàn)檢索是以圖書、期刊、資料、數(shù)據(jù)庫中的篇章
4、或全書刊為檢索對象的一種檢索。 如:檢索有關(guān)“花卉組織培養(yǎng)技術(shù)”的文獻(xiàn)。 文獻(xiàn)檢索是一種相關(guān)性檢索,檢索結(jié)果不直接回答用戶提出的技術(shù)問題,只是提供與之相關(guān)的文獻(xiàn)信息供用戶參考。 8 (2) 事實(shí)檢索(Fact Retrieval) 是以事實(shí)為檢索對象的一種檢索,查找某一事物發(fā)生的時(shí)間、地點(diǎn)及過程。 如檢索“日本松下電器公司近年來進(jìn)行了那些新產(chǎn)品的開發(fā)研究”“IBM公司所在地、總裁是誰、下設(shè)哪些分公司、從事哪些業(yè)務(wù)”等等。 (3) 數(shù)據(jù)檢索(Date Retrieval) 是以數(shù)據(jù)為檢索對象的一種檢索,包括數(shù)值、圖表等。 查找科學(xué)技術(shù)參數(shù)、統(tǒng)計(jì)數(shù)字、財(cái)政信息數(shù)據(jù)、市場行情數(shù)據(jù)等都屬于數(shù)據(jù)檢索。
5、9 事實(shí)檢索和數(shù)據(jù)檢索都是確定性的檢索。檢索結(jié)果要直接回答用戶提出的技術(shù)問題,即直接提供用戶有關(guān)某一問題的確切的事實(shí)情況或具體的數(shù)據(jù),檢索結(jié)果一般是確定性的。 信息檢索三種類型的區(qū)別: 1.檢索對象不同 2.檢索結(jié)果不同 3.性質(zhì)不同 4.借助工具不同10第章 信息檢索原理 以檢索方式區(qū)分,信息檢索又可分為: (1) 手工檢索 手工檢索即是用人工來處理和查找所需信息的檢索方式。 (例如:利用各種文摘、索引、題錄等刊物) (2) 計(jì)算機(jī)檢索 計(jì)算機(jī)檢索是利用計(jì)算機(jī)和一定的通信設(shè)備查找所需信息的檢索方式。 (例如:利用各種文獻(xiàn)信息數(shù)據(jù)庫)11 2.1.2 檢索語言 1 檢索語言及其定義 檢索語言是
6、用來描述文獻(xiàn)的內(nèi)容特征、外表特征和表達(dá)情報(bào)提問的一種人工語言。 檢索語言主要有以代碼語言為特征的分類語言和以事物名稱術(shù)語為特征的主題語言兩大類。其中主題語言分為敘詞語言和關(guān)鍵詞語言。 文獻(xiàn)的內(nèi)容特征:是與文獻(xiàn)信息主題內(nèi)容密切相關(guān)的信息。 文獻(xiàn)的外部特征:是與文獻(xiàn)信息主題內(nèi)容沒有關(guān)系或關(guān)系不大的信息。 12檢索標(biāo)識(shí)種類反映文獻(xiàn)外部特征檢索標(biāo)識(shí)反映文獻(xiàn)內(nèi)容特征檢索標(biāo)識(shí)著者 文獻(xiàn)序號篇名出版社分類號主題詞關(guān)鍵詞單元詞標(biāo)題詞敘詞人工語言自然語言分類語言13第章 信息檢索原理 特性檢索: 從具體事物或主題出發(fā)所進(jìn)行的文獻(xiàn)檢索。廣義地說,凡是狹窄范圍內(nèi)的檢索皆可視為特性檢索。 (指某人、某事物所特有的性質(zhì)
7、:如我們講一個(gè)民族的特性。) 族性檢索: 從學(xué)科、專業(yè)出發(fā)所進(jìn)行的文獻(xiàn)檢索,是與特性檢索相對的、范圍較廣泛的檢索。 屬于體系分類法的各種檢索語言的功能,主要都是滿足族性檢索的要求。14 2.分類語言(1).分類語言的定義和特點(diǎn) 分類語言,也稱分類法或分類表。所謂分類法(具有族性檢索的特點(diǎn))就是按照文獻(xiàn)信息的內(nèi)容、形式、體裁和讀者用途等, 根據(jù)科學(xué)學(xué)科之間的邏輯歸屬關(guān)系, 采用層次型或樹杈型結(jié)構(gòu), 列舉人類所有的知識(shí)類別, 并對每一種知識(shí)門類分別標(biāo)以相對固定的分類號,從而形成的分類表。 因此,分類法通常是指一種從總到分、從一般到具體、層層劃分、逐級展開并具有某種符號代碼體系的知識(shí)體系表。 如:中
8、圖法的符號代碼體系是拼音字母加數(shù)字。15第章 信息檢索原理國內(nèi)通用分類法有: 中國圖書館圖書分類法(簡稱中圖法) 中國圖書資料分類法(簡稱資料法) 中國科學(xué)院圖書分類法(簡稱科圖法)國外通用的分類法有: 杜威十進(jìn)分類法(DDC)、 國際十進(jìn)分類法(簡稱UDC)、 美國國會(huì)圖書館圖書分類法(簡稱LCC)常見的專業(yè)分類法:物理學(xué)分類法等。16(2)中圖法和分類表:中圖法將人類知識(shí)分為馬列、哲學(xué)、社會(huì)科學(xué)、自然科學(xué)、綜合五大基本部類,22個(gè)大類。 大類類目設(shè)置情況如圖: 具體類號、類目展開情況如圖所示: 檢索標(biāo)識(shí)即分類號,由拼音字母和數(shù)字組成 采用等級列舉表達(dá)從屬關(guān)系上位類目與下位類目的關(guān)系:上位類
9、目一定包含各個(gè)下位類目,下位類目一定帶有上位類目的屬性。分類號越長,表示的學(xué)科范圍越窄。 為了清楚醒目, 通常分類號的第三位數(shù)字后,隔以“ .” ,如F279.712,TQ032.42022/9/2417C社會(huì)科學(xué)總論D政治、法律E軍事 F經(jīng)濟(jì) G文教、科學(xué)、體育 H語言、文字 J藝術(shù) I文學(xué) K歷史、地理 自然科學(xué)總論 NRSTO數(shù)理化P天文學(xué)、地球科學(xué)Q生物科學(xué) 醫(yī)藥、衛(wèi)生農(nóng)業(yè)科學(xué)工業(yè)技術(shù)U交通運(yùn)輸V航空、航天X環(huán)境科學(xué)Z綜合性圖書社會(huì)科學(xué)自然科學(xué)機(jī)械、儀表建筑科學(xué) 馬列主義、毛澤東思想A馬列B哲學(xué)哲學(xué)綜合TBTDTETFTGTHTJTLTKTMTNTPTQTSTUTV一般工業(yè)技術(shù) 礦業(yè)工
10、程石油冶金工業(yè)無線電電子學(xué)、電訊技術(shù)自動(dòng)化技術(shù)化學(xué)工業(yè)輕工業(yè)、手工業(yè)金屬學(xué)武器工業(yè)動(dòng)力工程原子能技術(shù)電工技術(shù)水利工程圖3 1 中 圖 法 展 開 圖18檢索語言分類法中圖法O 數(shù)理化 一級類目 O1 數(shù)學(xué) 二級類目 O3 力學(xué) 二級類目 O31 理論力學(xué) 三級類目 O311 運(yùn)動(dòng)學(xué) 四級類目 .1 質(zhì)點(diǎn)運(yùn)動(dòng) 五級類目 O4 物理學(xué) 二級類目19中國圖書館圖書分類法類號和類目示例 O1 數(shù)學(xué) O11 古典數(shù)學(xué) O12 初等數(shù)學(xué) O13 高等數(shù)學(xué) 總論性著作入此;專論入以下有關(guān)類,例:微積分入O172 O15 代數(shù)、數(shù)論、組合理論 151 代數(shù)方程式論、線性代數(shù) .1 代數(shù)方程式論 .2 線性代數(shù)
11、參見O241. 6 .21 矩陣論 .26 線性代數(shù)的應(yīng)用 152 群論 O3 力學(xué) O31 理論力學(xué) 20第章 信息檢索原理 分類法途徑的特點(diǎn): 它體現(xiàn)了學(xué)科的系統(tǒng)性,便于從學(xué)科或?qū)I(yè)的角度出發(fā)進(jìn)行族性檢索,但缺乏進(jìn)行多概念靈活組配的能力。21索書號又稱為排架號 反映了某種圖書在整個(gè)圖書組織中的排列次序和在書庫中的具體位置(架位)組成:分類號書次號 O651.21-44/L631 分類號:按學(xué)科分類圖書 書次號:同類書的排列 條碼號O651.21-44L631SDT0142052122 (3) 確定課題分類號的方法 分類途徑是按文獻(xiàn)信息所屬的學(xué)科類型來查找文獻(xiàn)的一種方法。 從分類途徑檢索(同
12、時(shí)它也是一種族性檢索)文獻(xiàn)的檢索步驟一般為: 分析待查課題的主題內(nèi)容,根據(jù)主題內(nèi)容在類目索引中找到相應(yīng)的類目,在分類表中提取分類號。在相應(yīng)的檢索工具中用該類號檢索所需的文獻(xiàn),再根據(jù)所需要的文摘提供的出處查找原文。 從分類途徑的檢索步驟可見,確定課題的分類號是從分類途徑檢索文獻(xiàn)的關(guān)鍵。23第章 信息檢索原理 (3) 確定課題分類號的方法 1).單概念課題確定課題分類的一般方法 所謂單概念課題是指課題涉及主題概念只有一個(gè)。例如:“函數(shù)”、“齒輪”等都屬于單概念。 方法是: a.了解分類表的體系結(jié)構(gòu),重點(diǎn)掌握大類的分布,b.在相關(guān)的大類中,由大而小,逐步查找最接近于課題要求的分類號。C.注意表中用于
13、幫助確定分類號的類目注釋和類目指引。24 2).多概念課題的一般分類方法 涉及兩個(gè)或兩個(gè)以上概念的課題即為多概念課題。如:“計(jì)算機(jī)在機(jī)械工程方面的應(yīng)用” 含“計(jì)算機(jī)”、“機(jī)械工程”兩個(gè)概念。 應(yīng)注意以下幾點(diǎn): a.并列概念課題。對于涉及同一研究對象的幾個(gè)方面或者涉及幾個(gè)并列研究對象的課題,凡是有主次者,應(yīng)取其重點(diǎn)或主要研究對象歸類。如果涉及同一研究對象的幾個(gè)方面都需檢索時(shí),應(yīng)在涉及的幾個(gè)類中同時(shí)查 找。 b.應(yīng)用性課題。研究一種理論、方法、工藝、材料、設(shè)備、產(chǎn)品等在某方面應(yīng)用或?qū)δ撤矫嬗绊懙恼n題, 應(yīng)在所應(yīng)用或受影響的類目中查找。在多方面應(yīng)用,則在該理論、方法、工藝等本身所屬的類目中查找。25
14、練習(xí)題:1.如果需要給“計(jì)算機(jī)在人口預(yù)測方面的應(yīng)用”這個(gè)課題標(biāo)引中圖法類號,應(yīng)該歸入“TP39計(jì)算機(jī)的應(yīng)用”,還是歸入“C923人口預(yù)測”?并請說明理由。2.切分課題“當(dāng)前數(shù)理統(tǒng)計(jì)模型研究”和“當(dāng)前烏魯木齊、石河子的流動(dòng)人口的流動(dòng)規(guī)律分析”的概念,并用布爾邏輯算符構(gòu)成檢索策略。3.針對課題“古代文學(xué)研究”和“古代歷史研究”,下面的布爾邏輯符的應(yīng)用是否合理?應(yīng)如何修正?1)古代文學(xué) OR 古代詩歌2)歷史 AND (中國古代歷史 OR 世界古代歷史)26第章 信息檢索原理 3).上位類分類方法 這種歸類法也是一種常用的分類方法。它適應(yīng)于欲查課題無現(xiàn)成類目或無符合要求的專指類目時(shí),可以歸入它從中分
15、化出來的上位類。這種分類方法的關(guān)鍵是確定合適的上位類號。 3 敘詞語言(1)敘詞語言的定義和特點(diǎn) 敘詞語言是以規(guī)范化科學(xué)名詞為基礎(chǔ)的一種主題法檢索語言。所謂敘詞是從自然語言中優(yōu)選出來的經(jīng)過規(guī)范化的名詞術(shù)語。27 所謂規(guī)范化,是指對自然語言中的同義詞進(jìn)行優(yōu)選,對詞的不同形式進(jìn)行歸一。 對同義詞進(jìn)行合并,即一個(gè)概念只用一個(gè)標(biāo)題詞來表達(dá),排除多詞一義的現(xiàn)象。例如:“玉米”又叫“苞米”、“苞谷”“玉蜀黍”、“玉茭”、“棒子”等, 對多義詞進(jìn)行注釋,即一個(gè)標(biāo)題詞只表達(dá)一個(gè)概念。排除一詞多義的現(xiàn)象。例如“茶”既可以表示一種樹木(植物),又可表示一種飲料. 28 敘詞語言其原理是:按主題集中文獻(xiàn);用經(jīng)過規(guī)范
16、化的語詞來組配描述文獻(xiàn)主題;用參照系統(tǒng)間接顯示主題之間的相互關(guān)系;用字順序列直接提供主題檢索途徑. 敘詞和分類語言的異同點(diǎn)。 同:都對基本的事物有正式的、規(guī)范的表達(dá)形式; 異:主題詞可以自由組配,用以表達(dá)復(fù)雜的概念。 (2)敘詞表和漢語主題詞表 敘詞語言的體現(xiàn)形式是敘詞表。國內(nèi)常用的敘詞表主要有我國許多檢索刊物使用的漢語主題詞表。 敘詞表是敘詞的匯編,它是進(jìn)行文獻(xiàn)主題標(biāo)引和主題檢索的依據(jù),一般由一個(gè)主表和若干個(gè)索引組成。 29第章 信息檢索原理漢語主題詞表的卷冊劃分如下:第一卷 社會(huì)科學(xué) 第一分冊 主表(字順表) 第二分冊 索引第二卷 自然科學(xué) 第一至第四分冊 主表(字順表) 第五分冊 詞族索
17、引 第六分冊 范疇索引 第七分冊 英漢對照索引第三卷 附表30 漢語主題詞表的主表稱字順表,所有主題詞都按漢語拼音字順排列,每一個(gè)主題詞的著錄都構(gòu)成一條款目。漢語拼音 Wei sheng su B que fa bing款目主題詞 維生素B缺乏病英文譯名 Vitamin B deficiency參照項(xiàng)(代項(xiàng)) D 糙皮病 非敘詞參照項(xiàng)(分項(xiàng)) F 維生素B1缺乏病 下位敘詞參照項(xiàng)(屬項(xiàng)) S 維生素缺乏病 上位敘詞參照項(xiàng)(族首詞) Z 營養(yǎng)缺乏病 參照項(xiàng)(參項(xiàng)) C 多發(fā)性神經(jīng)炎 相關(guān)敘詞31第章 信息檢索原理 等同關(guān)系參照項(xiàng): “用(Y)”就是從非正式主題詞指引到正式主題詞?!按―)”則是
18、從正式主題詞指引到非正式主題詞,也就是指明敘詞所代替的非敘詞。如 馬鈴薯(敘詞) D 土豆 土豆(非敘詞) Y 馬鈴薯32第章 信息檢索原理 等級關(guān)系參照項(xiàng): “屬(S)”項(xiàng)是指明該詞的上位概念是什么;“分(F)”項(xiàng)則是指明下位概念有哪些詞,如 肥料(屬概念) F 氮肥、鉀肥 氮肥(分概念) S 肥料 鉀肥(分概念) S 肥料 敘詞法的特點(diǎn): 使用的是規(guī)范化的單詞、詞組;概念組配; (3)確定課題敘詞的一般方法 分課題分析、查表選詞、試查定詞三步。33第章 信息檢索原理 4. 關(guān)鍵詞語言的定義和特點(diǎn) 所謂關(guān)鍵詞是指那些出現(xiàn)在文獻(xiàn)的標(biāo)題、摘要以及正文中,對表征文獻(xiàn)主題內(nèi)容有實(shí)質(zhì)意義的詞語。 關(guān)鍵
19、詞是一種自然語言性質(zhì)的主題語言。34第章 信息檢索原理 關(guān)鍵詞索引的原理是: 它只將出現(xiàn)在文獻(xiàn)的標(biāo)題(篇名、章節(jié)名)以至摘要、正文中,對表達(dá)文獻(xiàn)主題內(nèi)容具有實(shí)質(zhì)意義的關(guān)鍵詞排在檢索入口,同時(shí)提供文獻(xiàn)地址(即正文中文獻(xiàn)順序號)以滿足檢索者的檢索要求。 35第章 信息檢索原理 關(guān)鍵詞屬自然語言。如:“光學(xué)纖維傳感器”這個(gè)課題可分成“光學(xué)”、“纖維”、“傳感器”。 優(yōu)點(diǎn):自然性 缺點(diǎn):隨意性 關(guān)鍵詞語言的特點(diǎn):非規(guī)范化語詞的自由標(biāo)引;36第章 信息檢索原理 從課題出發(fā)確定關(guān)鍵詞的方法: 涉及: 分析提取課題主要概念和輔助概念 檢索概念的擴(kuò)展方法 漢語課題概念的切分方法37 概念分析的結(jié)果應(yīng)以概念組為
20、單元的詞或詞組形式列出,以便下一步制訂檢索策略。 實(shí)際檢索中,主要概念、輔助概念體現(xiàn)為主要檢索詞、輔助檢索詞。共同出現(xiàn)的還有禁用詞。 有些檢索詞中已經(jīng)含有的某些概念,在概念分析中應(yīng)予以排除。 例如:課題“內(nèi)彈道高溫高壓高密度的氣體狀態(tài)方程”,如果把“內(nèi)彈道”,“高溫”,“高壓”,“高密度”,“氣體”,“狀態(tài)方程”六個(gè)概念全部組配起來,會(huì)造成大量漏檢。 本課題只須采用“內(nèi)彈道”和“狀態(tài)方程”這兩個(gè)主要概念即可。 38又如:課題“蕓豆天然食用色素的提取” 這個(gè)課題有五個(gè)概念:蕓豆、天然、食用、色素、提取。 只要把“蕓豆”與“色素”這兩個(gè)概念組面進(jìn)行組配, 有關(guān)提取、制造、利用等方面的文獻(xiàn)都會(huì)檢索出
21、來。 391.如果需要給“計(jì)算機(jī)在人口預(yù)測方面的應(yīng)用”這個(gè)課題標(biāo)引中圖法類號,應(yīng)該歸入“TP39計(jì)算機(jī)的應(yīng)用”,還是歸入“C923人口預(yù)測”?并請說明理由。2.當(dāng)“磁光盤”應(yīng)用于計(jì)算機(jī)信息存儲(chǔ)時(shí),可使用中圖法類號是: A.TP333.4光存儲(chǔ)器 B.TN946錄象系統(tǒng) C.TN912.2電聲技術(shù)與設(shè)備 D.G356.4情報(bào)載體 3.“計(jì)算機(jī)在機(jī)械設(shè)計(jì)中應(yīng)用”這個(gè)課題的中圖法類號,應(yīng)使用: A.TP339計(jì)算機(jī)技術(shù)的應(yīng)用 B.TH122機(jī)械設(shè)計(jì) C.TP3 計(jì)算機(jī)技術(shù) D.TH1 機(jī)械工程401、查找農(nóng)六師草地及飼草料資源調(diào)查與利用評價(jià)的文獻(xiàn)2、酸奶油脂分離機(jī)的研制 3、天府肉鵝與霍爾多巴吉鵝的
22、飼養(yǎng)與繁育4、甜菜氣吸式鋪膜播種機(jī) 5、固體堿催化棉籽油制備生物柴油的研究6、夾持式棉花精密穴(點(diǎn))播輪7、巴州地區(qū)葡萄阿小葉蟬的研究8、滴灌專用復(fù)合液肥 41第章 信息檢索原理2.1.3 信息檢索系統(tǒng) 實(shí)現(xiàn)信息檢索的必備條件是信息檢索系統(tǒng)。 信息檢索系統(tǒng)是為滿足各式各樣的信息需求而建立的一整套文獻(xiàn)信息的收集、加工、存儲(chǔ)和檢索使用的完整系統(tǒng)。 這種系統(tǒng)可以是提供手工檢索使用的書目、索引等檢索書刊,也可以是計(jì)算機(jī)檢索使用的數(shù)據(jù)庫系統(tǒng)。421.信息檢索系統(tǒng)的類型 以報(bào)道文獻(xiàn)的內(nèi)容層次區(qū)分,信息檢索系統(tǒng)可分為目錄、題錄、文摘、全文四種類型。(1)目錄 (Bibliography) 是揭示和報(bào)道整本文
23、獻(xiàn)外表特征的檢索工具。 目錄以單位出版物(整本文獻(xiàn))為基本的著錄對象,所謂單位出版物是指以文獻(xiàn)獨(dú)自的名稱作為一個(gè)完整的出版單位的出版物,如:一種圖書、一種期刊等,都是以文獻(xiàn)獨(dú)立名稱作為文獻(xiàn)單位的名稱。 43 目錄以文獻(xiàn)的“本”、“種”或“件”為報(bào)道單位。 它是系統(tǒng)積累和提供圖書、期刊和其它單行本的名稱、收藏單位和索取號等外表特征的工具。 目錄的著錄項(xiàng)目通常包括: 出版名稱、責(zé)任者(著者或編者或譯者)出版項(xiàng)(出版者、出版地、出版時(shí)間、版次等)和稽核項(xiàng)(頁數(shù)、開本、價(jià)格)。44目錄的條目著錄格式 例1:檢索結(jié)果:數(shù)控機(jī)床及應(yīng)用/古文生編著.- 第二版(修訂版).- 北京: 電子工業(yè)出版社,2002
24、.04.- 208頁; 26cm.-中等職業(yè)學(xué)校電子信息類教材. ISBN7-5053-7272-6:18.00注明各項(xiàng):書名;責(zé)任者(編著者); 版次(版本形式);出版地;出版者;出版時(shí)間;總頁數(shù);尺寸(開本);附注;國際標(biāo)準(zhǔn)書號;價(jià)格45 目錄按類型分: 有圖書、報(bào)刊、資料目錄。 按目錄種類分: 有分類、著者、書名、刊名目錄。 按編制單位劃分: 有國家書目、出版社與書店目錄、圖書館館藏目錄、聯(lián)合目錄。如:全國新書目等46(2)題錄: 是揭示和報(bào)導(dǎo)單篇文獻(xiàn)外表特征的檢索工具。 題錄是在目錄的基礎(chǔ)上發(fā)展起來的,它與目錄的主要不同點(diǎn)在于著錄的對象不同。目錄的著錄對象是單位出版物,而題錄的著錄對象
25、是單位出版物中的單篇文獻(xiàn)。 例如:一本名為超導(dǎo)材料論文集的圖書匯集了25篇研究論文。 目錄著錄的對象是超導(dǎo)材料論文集一書,而題錄著錄的對象則是書中的25篇論文,著錄的結(jié)果是目錄1條;題錄25條。 47 再如美國著名刊物自然,目錄著錄的對象就是自然這一刊物,而題錄著錄對象則是自然這一刊物中刊載的成千上萬篇論文。 題錄是以單篇文獻(xiàn) 為著錄對象。 題錄的著錄項(xiàng)目一般包括: 題錄號、文獻(xiàn)題目、作者及工作單位、出處(如期刊名稱、出版年、卷、期、頁次)、原文文種、主題詞、文中所附圖表數(shù)及參考文獻(xiàn)數(shù)等。48題錄的條目著錄格式 : 例1檢索結(jié)果:020713110 可視化信息的建模與實(shí)現(xiàn)/ 章麗 (華東師范大
26、學(xué)計(jì)算機(jī)科學(xué)系),李強(qiáng)/ 計(jì)算機(jī)工程. -2002,28(3).-92-93,236 注明各項(xiàng):文獻(xiàn)順序號(年份+流水 號);文獻(xiàn)題名;第一責(zé)任者;第一責(zé)任者所在單位;其它責(zé)任者;刊名;出版年、卷(期)、起止頁49(3)文摘: 是以精練的語言把文獻(xiàn)信息的重要內(nèi)容、學(xué)術(shù)觀點(diǎn)、數(shù)據(jù)及結(jié)構(gòu)準(zhǔn)確地摘錄下來,并按一定的著錄規(guī)則與排列方式編排起來,供讀者查閱使用的一種檢索工具。 文摘是系統(tǒng)揭示和報(bào)道單篇文獻(xiàn)的外表特征和內(nèi)容特征的檢索工具。 文摘的著錄對象可以是期刊中的單篇文章,或一種會(huì)議錄中的某個(gè)章節(jié)或某篇論文,還可以是一件專利、標(biāo)準(zhǔn)或一份科技報(bào)告。 文摘的著錄項(xiàng)目包括了題錄的所有項(xiàng)目和對文獻(xiàn)內(nèi)容所作的摘
27、要。50文摘的條目著錄格式:例1:TG526.1 950369利用變速切削提高機(jī)床切削系統(tǒng)穩(wěn)定性 刊/ 于駿(吉林工業(yè)大學(xué))/機(jī)械工藝師.1994,15(2):7-9,34對利用變速切削技術(shù)來表6參11 (江靜波)注明各項(xiàng):分類號;順序號;文獻(xiàn)題名;文獻(xiàn)類型;責(zé)任者(責(zé)任者所在單位);刊名;出版年,卷(期),起止頁;文獻(xiàn)摘要;表格數(shù)及參考文獻(xiàn)條數(shù);文摘員51例2:47030 02080997 MPI燃料供給方式的天然氣噴流可視化研究=Visualization of Natural Gas Jet Used in MPI System. 刊,中/許伯彥(山東建筑工程學(xué)院, 濟(jì)南250014),
28、張?zhí)m/ 內(nèi)燃機(jī)學(xué)報(bào).2002,20(2).-99102 使用紋影照相法觀察定容裝置。圖10參2關(guān)鍵詞:天然氣;多點(diǎn)燃料噴射;可視化;山東省自然科學(xué)基金資助(Y2000F07) 注明各項(xiàng):學(xué)科代碼(如著錄格式為TP319,則為分類號)文獻(xiàn)順序號文獻(xiàn)中文題名=外文題名文獻(xiàn)類型,原文語種第一責(zé)任者第一責(zé)任者所在單位及地址其他責(zé)任者刊名出版年、卷(期)、起止頁文獻(xiàn)摘要原文插圖及參考文獻(xiàn)數(shù)關(guān)鍵詞資助基金種類和編號52以下文后參考文獻(xiàn)的著錄格式有哪些錯(cuò)誤:1袁慶壽 牛德林主編中國邊疆經(jīng)濟(jì)發(fā)展概 略,黑龍江人民出版社,1993年版 1 吳寶國、王龍等.北京大學(xué)學(xué)報(bào)J.2004, 40(5):7-92全國報(bào)刊
29、索引編輯部.高電化技術(shù)J.自 然科學(xué)出版社,2003【篇名】雙異構(gòu)法制備晶體甘露醇的研究【刊名】化學(xué)工程師, Chemical Engineer,2005年3期【作者】趙光輝; 王關(guān)斌; 賀東海; 李俊平 【機(jī)構(gòu)】山東福田藥業(yè)有限公司 山東禹城; 【關(guān)鍵詞】甘露醇; 山梨醇; 催化還原;異構(gòu)反應(yīng)【中英文摘要】文中研究了以葡萄糖為原料,53 (4)全文 全文系統(tǒng)的主體內(nèi)容是文獻(xiàn)的全文。檢索過程中,全文系統(tǒng)通常先提供題錄和文摘信息,同時(shí)給出全文鏈接,供讀者選擇。 (5)索引 (index)。 索引是將文獻(xiàn)信息中的一些重要的、有檢索意義的知識(shí)單元(各種事物名稱及特征),如主題詞、分類號、著者姓名、題
30、名等,根據(jù)需要一一分析摘錄出來,并注明它們所在的地址(頁碼或文獻(xiàn)號),再按一定的順序編排組織起來的一種工具。54 索引是對一組信息集合的系統(tǒng)化的指引,通常依附于目錄、題錄、文摘等紙質(zhì)型檢索工具之后,是檢索工具的輔助性工具。 一般只起指引特定信息的內(nèi)容及其存儲(chǔ)地址的作用。因此,索引并不是一種獨(dú)立存在的檢索工具類型。 一種索引通常由一系列的索引款目(條目)和參照系統(tǒng)所組成。55 1) 索引款目(條目)的構(gòu)成 一條索引款目通常有三個(gè)著錄項(xiàng):標(biāo)目(或標(biāo)識(shí)heading)、說明語和存儲(chǔ)地址。 A 標(biāo)目(也稱標(biāo)識(shí)) 標(biāo)目是索引條目所指示的信息某方面的特征,例如著者姓名、主題詞等。 標(biāo)目在索引款目中處于最明
31、顯的位置,一方面起著描述文獻(xiàn)外部特征和內(nèi)容特征的作用,另一方面決定款目在索引中的排列位置,提供檢索入口。56 例1:主題索引 冬蟲夏草 人工培養(yǎng) 蟲草菌絲 950384 說明:標(biāo)目 說明語 存儲(chǔ)地址 (順序號或文摘號) 例2:著者索引 于駿 950384 950158 于永強(qiáng) 950433 于永新 950218 說明:標(biāo)目 存儲(chǔ)地址 57 B 說明語 位于標(biāo)目后面或下面,進(jìn)一步指示所查文獻(xiàn)的特征,或解釋標(biāo)目含義的詞或詞組。標(biāo)目和說明語結(jié)合在一起,可以更具體更準(zhǔn)確的表達(dá)所描述的內(nèi)容。C 存儲(chǔ)地址 位于標(biāo)目和說明語后面,指明特定文獻(xiàn)信息在檢索工具正文(信息集合)中的地址。 在這三項(xiàng)中,標(biāo)目和存儲(chǔ)地
32、址是必須的。58不同的標(biāo)目系統(tǒng)構(gòu)成不同的索引: 標(biāo)目的形式多種多樣,用不同形式的標(biāo)目去描述文獻(xiàn)的特征并作為索引款目的標(biāo)目,就構(gòu)成不同類型的索引。 文獻(xiàn)標(biāo)識(shí)(標(biāo)目)與索引類型的對應(yīng)關(guān)系如下: (按照索引的對象可分為:)文獻(xiàn)標(biāo)識(shí)分類號主題詞篇名著者報(bào)告號索引類型分類索引主題索引篇名索引著者索引報(bào)告號索引59第章 信息檢索原理 索引的類型 索引的類型很多,按使用范圍可分為: 通用索引(著者、主題、分類、題名索引等); 專用索引(文獻(xiàn)序號索引、分子式索引等)二類。 602)、索引的參照系統(tǒng) 包括各種參照、標(biāo)目注釋等。 參照(指引檢索者從一個(gè)標(biāo)目到另一個(gè)標(biāo)目查閱的一種方法。) a “見”項(xiàng)參照(主要用于
33、控制同義詞之間的分散現(xiàn)象,它指引檢索者由非規(guī)范化的詞去查規(guī)范化的詞,起核對主題詞的作用。) 例: 引擎 見 發(fā)動(dòng)機(jī) 土豆 見 馬鈴薯 b “參見”項(xiàng)參照 61 b “參見”項(xiàng)參照(用來指示標(biāo)目之間的等級關(guān)系及相關(guān)關(guān)系。它指引檢索者由一個(gè)索引中所采用的標(biāo)目去查另一個(gè)相關(guān)的標(biāo)目,而這些相關(guān)標(biāo)目在索引中是分散排列的。使用它可起到擴(kuò)大檢索范圍的作用。) 例: 電子計(jì)算機(jī) 參見 人工智能 電線 參見 電纜 海洋學(xué) 參見 海洋生物學(xué) 海洋地質(zhì)學(xué) 海洋氣象學(xué)62 標(biāo)目注釋(是對索引標(biāo)目中的一種補(bǔ)充及附加說明,主要用于區(qū)分同形異義詞和說明標(biāo)目的準(zhǔn)確涵義) 例1 Mold(fungus)霉菌 Mold(form
34、s) 模具 疲勞(物理) 疲勞(生理) 例2: 哺乳動(dòng)物 (專指陸上品種)632文獻(xiàn)信息數(shù)據(jù)庫的定義和構(gòu)成 定義:數(shù)據(jù)庫是指至少由一種文檔(file)組成,能滿足特定目的或特定功能數(shù)據(jù)處理系統(tǒng)需要的數(shù)據(jù)集合。 類型: 根據(jù)數(shù)據(jù)庫所含信息內(nèi)容的不同,文獻(xiàn)信息數(shù)據(jù)庫可分為文字型、數(shù)值型和多媒體型三類數(shù)據(jù)庫。 按數(shù)據(jù)庫的內(nèi)容性質(zhì)分,可分為有文獻(xiàn)型數(shù)據(jù)庫和非文獻(xiàn)型數(shù)據(jù)庫。64 (1)文獻(xiàn)型數(shù)據(jù)庫: 主要指的是以文獻(xiàn)形式存貯,如一次文獻(xiàn)或二次文獻(xiàn)。可分為: a.全文數(shù)據(jù)庫: 是將文獻(xiàn)的全文存貯在數(shù)據(jù)庫中,用戶直接檢索出相關(guān)文獻(xiàn)的全文或其中某些段落。 b.書目數(shù)據(jù)庫: 存貯二次文獻(xiàn)(包括文摘、題錄、目錄、
35、索引)的數(shù)據(jù)庫叫書目數(shù)據(jù)庫,大多數(shù)文獻(xiàn)數(shù)據(jù)庫都屬于此類,檢索得到的結(jié)果是有關(guān)課題的二次文獻(xiàn)。 65 (2)非文獻(xiàn)型數(shù)據(jù)庫。又可分四類: 第一類是數(shù)據(jù)型數(shù)據(jù)庫,可直接查找有關(guān)各種數(shù)據(jù),如各種物理常數(shù)、科學(xué)實(shí)驗(yàn)數(shù)據(jù)、化學(xué)分子式及價(jià)格、產(chǎn)量、元件參量等市場行情。 第二類是事實(shí)型數(shù)據(jù)庫,庫內(nèi)記錄各種有檢索和利用價(jià)值的事實(shí),這種數(shù)據(jù)庫資料來自百科全書、人名錄、公司名錄等。 第三類是概念數(shù)據(jù)庫,庫內(nèi)存貯各種名詞術(shù)語或語言資料,一般來源于詞典等。 第四類是圖像、聲音等數(shù)據(jù)庫,庫內(nèi)存有某些圖像信息,如衛(wèi)星圖、云圖、工程設(shè)計(jì)圖等,一般為內(nèi)部使用。66第章 信息檢索原理 構(gòu)成: 從使用者觀點(diǎn) 觀察, 數(shù)據(jù)庫主要
36、由 “文檔記錄 字段” 三個(gè)層 次構(gòu)成。 文檔 記錄字段67 (1).文檔 文檔是文獻(xiàn)或數(shù)據(jù)記錄的集合。從數(shù)據(jù)庫的內(nèi)部結(jié)構(gòu)來看,文檔的概念是指數(shù)據(jù)庫內(nèi)容的組織形式。一般地說,一個(gè)數(shù)據(jù)庫至少包括一個(gè)順排文檔和一個(gè)倒排文檔。 a.順排文檔: 順排文檔是將數(shù)據(jù)庫的全部記錄按照記錄號的大小順序排列而成的文獻(xiàn)集合,它構(gòu)成了數(shù)據(jù)庫的主體內(nèi)容(是主文檔)。 按文獻(xiàn)的順序(如文摘號)排列。68數(shù)據(jù)庫順排文檔示意圖文獻(xiàn)號篇名作者主題詞語種001A篇名A作者A主題詞漢002B篇名B作者B主題詞俄003C篇名C作者C主題詞英 007K篇名K作者K主題詞漢008Q篇名Q作者Q主題詞漢009T篇名T作者T主題詞漢69
37、b、倒排文檔: 在倒排文檔中,以記錄的特征標(biāo)識(shí)作為排列依據(jù),其后列出含有此標(biāo)識(shí)的記錄號,或者說按照文獻(xiàn)的屬性列出具有同一屬性的所有記錄。 倒排文檔通常有好幾個(gè)。 主題詞索引詞典倒排文檔給出的是主題詞、含有這些詞的記錄個(gè)數(shù)以及與主題詞等對應(yīng)的記錄號。 例如,有4個(gè)詞:計(jì)算機(jī)、情報(bào)檢索、 應(yīng)用、系統(tǒng)設(shè)計(jì)。它們分別包含在文獻(xiàn)號為001、002、003的文獻(xiàn)中,其順序排列結(jié)構(gòu)如圖:70數(shù)據(jù)庫順排文檔與關(guān)鍵詞倒排檔比較示意圖文獻(xiàn)號檢索詞 001情報(bào)檢索、計(jì)算機(jī) 002計(jì)算機(jī)、應(yīng)用、情報(bào)檢索、系統(tǒng)設(shè)計(jì) 003情報(bào)檢索、系統(tǒng)設(shè)計(jì) 鍵值 記錄數(shù) 文獻(xiàn)號 計(jì)算機(jī) 2 001 002 情報(bào)檢索 3 001 002
38、 003 應(yīng)用 1 002 系統(tǒng)設(shè)計(jì) 2 002 003 構(gòu)成的倒排文檔如圖71 記錄號倒排文檔給出記錄號的地址及其索引詞在記錄中的字段和字段中的具體位置的標(biāo)識(shí)符。72(2).記錄記錄是構(gòu)成文檔的基本單元。是有關(guān)文獻(xiàn)或數(shù)據(jù)的整體描述(是對某一實(shí)體的全部屬性進(jìn)行描述的結(jié)果) 。在全文數(shù)據(jù)庫中,一個(gè)記錄相當(dāng)于一篇完整的文獻(xiàn);在書目數(shù)據(jù)庫中,一個(gè)記錄相當(dāng)于一條文摘或題錄。記錄實(shí)例:作者:趙少慶 篇名:信息技術(shù)對公共行政的影響論綱 文章出處:國家行政管理學(xué)雜志,2005,12(5):45-47 內(nèi)容摘要:社會(huì)信息化是當(dāng)代社會(huì)的一種大趨勢,它正推動(dòng)著公共行政現(xiàn)代化的進(jìn)程。信息技術(shù)的發(fā)展對諸如行政人員、行
39、政決策、行政組織、行政方法、政府管理模式等公共行政要素和過程產(chǎn)生著深遠(yuǎn)的影響。73 (3).字段 字段是記錄的基本單元。它是對實(shí)體的具體屬性進(jìn)行描述的結(jié)果。在書目數(shù)據(jù)庫中,記錄中含有題名、著者、出版年、主題詞、文摘等字段。 根據(jù)與文獻(xiàn)內(nèi)容相關(guān)與否,文獻(xiàn)數(shù)據(jù)庫的字段通常分為基本字段和輔助字段兩類。 基本字段:是與文獻(xiàn)內(nèi)容密切相關(guān)的字段輔助字段:是與文獻(xiàn)內(nèi)容基本無關(guān)的字段74文獻(xiàn)數(shù)據(jù)庫中常見的字段和段碼基 本 字 段輔 助 字 段中文段碼名稱英文段碼全稱英文段碼簡稱中文段碼名稱英文段碼全稱英文段碼簡稱題目TitleTI記錄號Document NoDN文摘AbstractAB作者 AuthorAU敘
40、詞DescriptorDE作者單位 Author AffiliationAF關(guān)鍵詞 KeywordKW期刊名稱 Serials TitleST出版年份Publishing yearPY出版國 CountryCO文獻(xiàn)性質(zhì)Treatment codeTR語種LanguageLA75字段和檢索詞 作者:趙少慶 篇名:信息技術(shù)對公共行政的影響論綱 文章出處:國家行政管理學(xué)雜志,2005,12(5):45-47 內(nèi)容摘要:社會(huì)信息化是當(dāng)代社會(huì)的一種大趨勢,它正推動(dòng)著公共行政現(xiàn)代化的進(jìn)程。信息技術(shù)的發(fā)展對諸如行政人員、行政決策、行政組織、行政方法、政府管理模式等公共行政要素和過程產(chǎn)生著深遠(yuǎn)的影響。 作者檢
41、索詞:趙少慶篇名檢索詞:信息技術(shù) 公共行政 影響中文刊名檢索詞:國家 行政 管理學(xué)文摘檢索詞:社會(huì) 信息化 公共行政 信息技術(shù) 行政人員 行政決策 行政組織 行政方法 政府管理模式 公共行政 要素 76 數(shù)據(jù)庫 / | 文檔1 文檔2 文檔3 / 順排文檔 倒排文檔(若干) / / | 記錄的集合 主題詞 作者 期刊名稱等倒排文檔 | | / 字段 特征標(biāo)識(shí)詞 記錄數(shù) / 基本字段 輔助字段77第章 信息檢索原理2.1.4 檢索效果評價(jià) 檢索效果是指檢索結(jié)果的有效程度。 衡量檢索效果的評價(jià)指標(biāo)有很多,其中最重要,也是最常用的是查全率和查準(zhǔn)率 在檢索過程中,在檢索系統(tǒng)中參加檢索的全部文獻(xiàn)可分成“
42、有關(guān)”、“無關(guān)”、和“查出”、“未查出”四個(gè)量, 這四個(gè)量又可劃分為“用戶相關(guān)”和“系統(tǒng)相關(guān)”兩類。78第章 信息檢索原理 查全率(Recall Ratio)是指檢出的相關(guān)文獻(xiàn)數(shù)與庫內(nèi)相關(guān)文獻(xiàn)總數(shù)之比。又稱“檢全率”、“命中率”。 檢出的相關(guān)文獻(xiàn)量 查全率(R)= 100% 文獻(xiàn)庫內(nèi)相關(guān)文獻(xiàn)總量 查準(zhǔn)率(Precision Ratio)是指檢出的相關(guān)文獻(xiàn)數(shù)與檢出的文獻(xiàn)總數(shù)之比。又稱“檢準(zhǔn)率”、“相關(guān)率”。 檢出的相關(guān)文獻(xiàn)量 查準(zhǔn)率(P)= 100% 檢出的文獻(xiàn)總量79R0P查全率R與查準(zhǔn)率P的關(guān)系曲線CADBC.W.Cleverdon(英)進(jìn)行Granfield試驗(yàn),得出查全率R與查準(zhǔn)率P曲線
43、。RP之間存在著互逆關(guān)系: A點(diǎn)檢索詞數(shù)量多,泛指性強(qiáng),查全率較高但查準(zhǔn)率卻非常低 B點(diǎn)檢索詞專指性較強(qiáng),查準(zhǔn)率就高查全率因此降低 C,D兩點(diǎn)兩種極端的折衷。查全率一般在5070查準(zhǔn)率一般在4050 無論怎樣調(diào)整檢索策略和改進(jìn)系統(tǒng)效率,都無法使P和R同時(shí)接近100。80第章 信息檢索原理2.2 文獻(xiàn)信息檢索的基本步驟文獻(xiàn)檢索步驟 在科技文獻(xiàn)信息的檢索過程中,根據(jù)既定的課題,系統(tǒng)地查找所需求的文獻(xiàn)信息,其主要的程序?yàn)椋?課題分析-確定檢索工具-選擇檢索途徑-閱覽二次文獻(xiàn)-獲取原始文獻(xiàn)。812.2.1.明確課題檢索目的 研究性課題有前沿探索研究性、調(diào)查研究性和面向應(yīng)用研究性三類,各有不同特點(diǎn)和信息
44、需求。2.2.2.歸納課題主題,提取和擴(kuò)展檢索概念 1.了解課題的背景知識(shí) 了解課題的背景知識(shí),是進(jìn)行課題檢索的基礎(chǔ)。課題的背景知識(shí)包括課題研究的對象及其所屬的學(xué)科和主要涉及內(nèi)容(包括研究方法、使用器材、主要研究單位和人員等)。82 第章 信息檢索原理 2.分析提取課題概念的方法 分析課題就是在課題背景知識(shí)的基礎(chǔ)上,分析出課題所涉及的主要概念和輔助概念,并找出能代表這些概念的若干個(gè)詞或詞組,進(jìn)而分析概念之間的上、下、左、右關(guān)系。 主要概念(或稱核心概念),是指課題研究的主要對象。 輔助概念(又稱普通概念),其含義是指一些沒有專業(yè)意義的概念。 對于新學(xué)科、交叉學(xué)科和邊緣學(xué)科的課題,更要搞清楚這些
45、概念關(guān)系。83 在實(shí)際檢索中,主要概念、輔助概念體現(xiàn)為主要檢索詞、輔助檢索詞。共同出現(xiàn)的還有禁用詞。 主要檢索詞是指與課題所研究的對象、方法有關(guān)的特指性事物名詞。 輔助檢索詞是指泛指性名詞,它們只在檢索結(jié)果過多需要限制時(shí)使用。 禁用詞 概念分析的結(jié)果應(yīng)以概念組為單元的詞或詞組形式列出,以便下一步制訂檢索策略。84 有些檢索詞中已經(jīng)含有的某些概念,在概念分析中應(yīng)予以排除。 例如:課題“內(nèi)彈道高溫高壓高密度的氣體狀態(tài)方程”,如果把“內(nèi)彈道”,“高溫”,“高壓”,“高密度”,“氣體”,“狀態(tài)方程”六個(gè)概念全部組配起來,會(huì)造成大量漏檢。 本課題只須采用“內(nèi)彈道”和“狀態(tài)方程”這兩個(gè)主要概念即可。 85
46、第2章 信息檢索原理又如:課題“蕓豆天然食用色素的提取” 這個(gè)課題有五個(gè)概念:蕓豆、天然、食用、色素、提取。 只要把“蕓豆”與“色素”這兩個(gè)概念組面進(jìn)行組配,有關(guān)提取、制造、利用等方面的文獻(xiàn)都會(huì)檢索出來。 如果有些檢索概念已經(jīng)體現(xiàn)在所使用的數(shù)據(jù)庫中,這些概念也應(yīng)該予以排除。 如:“計(jì)算機(jī)”一詞在計(jì)算機(jī)數(shù)據(jù)庫中一般應(yīng)予以排除。 86第章 信息檢索原理3.切分漢語詞語的方法 漢語詞語的切分是使用漢語信息數(shù)據(jù)庫過程中重要的一環(huán)。 檢索時(shí),必須對漢語表示的課題名稱進(jìn)行詞語切分,才能查出更多的文獻(xiàn)。 詞語切分的方法是去掉課題表述中的虛詞和泛指的詞語,然后按照概念單元分成不能再拆分的詞語。87第章 信息檢
47、索原理4.擴(kuò)展概念的方法 目前的計(jì)算機(jī)信息檢索系統(tǒng)多數(shù)不具備智能擴(kuò)展檢索(思考)功能,不會(huì)對所輸入檢索詞以及涉及的所有詞進(jìn)行自動(dòng)地、全面地檢索。因此,必須在概念分析的基礎(chǔ)上列出與概念有密切關(guān)系的詞語,從中作出選擇,以盡可能全地獲得相關(guān)文獻(xiàn),達(dá)到較好檢索效果。 這就是檢索概念的擴(kuò)展方法問題。 常用擴(kuò)展檢索概念的方法有:基于同一概念、基于內(nèi)容分析和基于檢索結(jié)果三種。 884.擴(kuò)展概念的方法(1).基于同一概念的檢索詞的擴(kuò)展 從不同的角度考慮,同一事物有著不同的名稱,它們都可以作為檢索詞使用。如:同一事物的學(xué)名、俗名、商品名、代號、簡稱、全稱、音譯、意譯、反義詞、單復(fù)數(shù)、不同詞性、英美語的不同形式等
48、。89(2).基于內(nèi)容分析的概念擴(kuò)展法1)上位概念擴(kuò)展法,是分析檢索對象的學(xué)科歸屬。如:英語與外語,美術(shù)與藝術(shù),上海圖書館與公共圖書館,詞法與語法、專利與知識(shí)產(chǎn)權(quán)、繼承法與民法、唐詩與古詩等。2)下位概念擴(kuò)展法,又稱概念分析的樹形展開法。如:英語外貿(mào) 應(yīng)用文 英漢科技 翻譯 書信 函電 公文 化學(xué) 機(jī)械 通信 口譯 筆譯 903) 隱含概念擴(kuò)展法 所謂隱含概念,是文獻(xiàn)或課題中,未用顯而易見的方式表達(dá),因而需要認(rèn)真進(jìn)行“由表及里、由此及彼”的深入分析才能找出的概念。 隱含概念大致有以下幾種情況: a.隱含概念是顯見概念的更確切的表述。 有些課題的實(shí)質(zhì)性內(nèi)容往往很難從課題的名稱上反映出來,課題所隱
49、含的概念和相關(guān)的內(nèi)容需要從課題所屬的專業(yè)角度作深入分析,才能提煉出能夠確切反映課題內(nèi)容的檢索概念。91 第2章 信息檢索原理 例如:課題“小麥穗分化與氣候條件關(guān)系” 其顯性主題概念詞為“小麥、穗分化、氣候”。 “穗分化”一詞中又隱含著“分蘗、分育、春化”等概念,“氣候條件”一詞也隱含著“溫度、降水、光照”等概念。 b.隱含概念是顯見概念的上位概念或下位概念。 c.隱含概念是顯見概念的衍生概念。 92第章 信息檢索原理 對于多數(shù)課題,同時(shí)使用隱含概念及其上位概念、下位概念和衍生概念,可以提高檢索的查全率。 擴(kuò)展概念時(shí),簡單地增加限制詞擴(kuò)展出來的檢索詞,并不一定能增加檢索所得。應(yīng)以不同的表達(dá)方式擴(kuò)
50、展下位詞。93第章 信息檢索原理 (3)基于檢索結(jié)果的概念擴(kuò)展法 對初步檢索結(jié)果進(jìn)行分析,往往能夠得到與課題相關(guān)的新的檢索概念,將這些概念經(jīng)過重新組合,就可以達(dá)到擴(kuò)展檢索結(jié)果的目的。94第章 信息檢索原理 2.2.3. 選擇信息檢索系統(tǒng) 1.按照功能和層次選擇信息檢索系統(tǒng) 有目錄、題錄、文摘和全文四種不同類型。 2.按照出版地區(qū)不同選擇信息檢索系統(tǒng) (1)國內(nèi)信息檢索系統(tǒng) (2)國外信息檢索系統(tǒng) 選擇數(shù)據(jù)庫應(yīng)遵循的原則:95 2.2.4 實(shí)施檢索 1 檢索途徑的選擇。檢索途徑是指通過文獻(xiàn)何種特征來進(jìn)行檢索。常見的文獻(xiàn)檢索途徑主要有反映內(nèi)容特征的分類(通過族性角度)、主題(特性角度)兩個(gè)途徑和反
51、映外表特征的著者、號碼兩個(gè)途徑。 2 檢索策略的確定。 我們在著手檢索之前,應(yīng)先制定檢索策略。所謂的檢索策略,就是在分析提問實(shí)質(zhì)的基礎(chǔ)上,提出的一個(gè)合理的檢索方案。也就是在檢索前制定的概念組配和執(zhí)行順序的方案。 在計(jì)算機(jī)檢索過程中,檢索策略具體表述為檢索式。96 檢索策略(檢索式)將各個(gè)檢索概念(一般為表達(dá)主題內(nèi)容的檢索詞)之間的邏輯關(guān)系、位置關(guān)系等用檢索系統(tǒng)規(guī)定的各種組配符也稱算符連接起來,成為機(jī)器可識(shí)別和執(zhí)行的命令形式。 如:切分課題“當(dāng)前數(shù)理統(tǒng)計(jì)模型研究 ”的概念,并用運(yùn)算符構(gòu)成檢索策略。 數(shù)理 統(tǒng)計(jì) 模型973 檢索方法的概念 一般常用的檢索方法有直接檢索法和間接檢索法兩種: 直接檢索
52、法即直接從報(bào)刊雜志中通過瀏覽的方法從中獲取所需信息的一種方法。 間接檢索法即通過檢索工具的指引進(jìn)行查找,獲取所需信息的一種方法。 98 間接檢索法采用的方法通常有下列三種: A 追溯法: 是從已有的文獻(xiàn)后面所附的參考文獻(xiàn)入手,逐一追查原文,再從這些原文后面所列的參考文獻(xiàn)逐一追查,不斷擴(kuò)大檢索的線索,從而獲得一批相關(guān)文獻(xiàn)信息的查找方法。 是利用文獻(xiàn)末尾所附的參考文獻(xiàn),由一變十、由十變百地進(jìn)行追溯查找。 此法在缺少檢索系統(tǒng)(工具)和檢索系統(tǒng)(工具)不全的情況下,可以說是一種比較好的檢索方法。99追溯法原始文獻(xiàn)100追溯法原始文獻(xiàn)所附的參考文獻(xiàn)101 B 常用法: 它是利用文摘、題錄、全文或相應(yīng)的數(shù)
53、據(jù)庫等各種檢索系統(tǒng)(工具)查找文獻(xiàn)的方法,也稱工具法。由于這種方法是目前查找文獻(xiàn)中最常用的一種方法,所以叫常用法。 常用法又分為:順查法、倒查法、抽查法 順查法: 使用檢索工具由遠(yuǎn)及近逐年地查閱。此法能保證查全率,但很費(fèi)時(shí)。 例如,某項(xiàng)科研課題“生物能源的戰(zhàn)略地位及其發(fā)展前景”按照“順查法”應(yīng)從何年查起呢?102 倒查法: 也可以叫逆查法。使用檢索工具由近及遠(yuǎn)逐年查閱,直到查得所需文獻(xiàn)為止。此法會(huì)漏檢早期的重要文獻(xiàn),而影響查全率。 如:“克隆技術(shù)的出現(xiàn)及應(yīng)用” 抽查法: C 綜合法: 交錯(cuò)使用追溯法和常用法兩種方法稱之為綜合法,也稱為循環(huán)法或交替法。 注意檢索策略的調(diào)整。用戶對每次檢索結(jié)果作出
54、判斷,并對檢索策略(檢索式)作出相應(yīng)的修改和調(diào)整,直至得到比較滿意的結(jié)果。103104 第2章 信息檢索原理 2.3 數(shù)據(jù)庫檢索策略的構(gòu)建方法 2.3.1 檢索策略中常用的運(yùn)算符 檢索策略,又稱提問邏輯,就是對多個(gè)檢索詞之間的相互關(guān)系和檢索順序做出的某種安排。 構(gòu)成檢索策略就是運(yùn)用計(jì)算機(jī)情報(bào)檢索系統(tǒng)可以接受的方法,包括布爾邏輯算符、位置邏輯算符、截詞算符、詞組算符、優(yōu)先算符和字段算符等方法,表達(dá)課題檢索要求的過程。 105 第2章 信息檢索原理1布爾邏輯算符 (1) 或(OR)運(yùn)算符 用“OR”或“+”連接檢索概念。A or B(或A+B)表示兩個(gè)概念的并列,即紀(jì)錄中凡單獨(dú)含有檢索項(xiàng)A或檢索項(xiàng)
55、B,或者同時(shí)含有、兩者均為命中記錄。 使用于具有基本相同或近似概念的同義詞、同族詞之間 106或(OR)運(yùn)算符 用于擴(kuò)展檢索范圍 S1 1834 公司 S2 2022 企業(yè) S3 3647 公司 OR 企業(yè) 檢索式;公司 OR 企業(yè) 企業(yè)公司 第2章 信息檢索原理107(2) 與(AND)運(yùn)算符 用“AND”或“*”連接檢索概念。A and B(或A*B)表示兩個(gè)概念的交叉,即記錄中必須同時(shí)含有檢索項(xiàng)A和B。 用邏輯與組構(gòu)的檢索詞越多,檢索范圍越小,專指度越強(qiáng),有助于提高查準(zhǔn)率。 在運(yùn)用是,應(yīng)把出現(xiàn)頻率低的檢索詞置于“與”左端,可使否定的答案盡早出現(xiàn),中斷檢索,節(jié)省機(jī)時(shí)。 第2章 信息檢索原理
56、108 與(AND)運(yùn)算符 用于限制檢索范圍 WTO 中國 S1 12940 WTO S2 2173 中國 S3 842 WTO AND 中國 檢索式:WTO AND 中國 WTO AND 中國 使用于需要組配不同概念的檢索詞之間 第2章 信息檢索原理109(3) 非(NOT)運(yùn)算符 用“NOT”或“”連接檢索概念。 not B(或)表示兩個(gè)概念的排除,即凡含有檢索項(xiàng)而不含檢索項(xiàng)的記錄為命中記錄。邏輯非運(yùn)算縮小了檢索范圍,提高了檢索的專指度。 邏輯非的缺點(diǎn),即取消部分,往往會(huì)把切題的文獻(xiàn)給丟掉,故運(yùn)用邏輯非運(yùn)算時(shí)要慎重。 第2章 信息檢索原理110非(NOT)運(yùn)算符 用于排除概念 S1 110
57、 專利 S2 325 德國 S3 108 專利 NOT 德國 檢索式:專利 NOT 德國 專利 NOT 德國 使用于需要從某個(gè)概念中剔除另一個(gè)概念的場合 patent German 第2章 信息檢索原理111邏輯算符AND(與)OR(或)NOT(非)檢索式或?qū)懗葾 AND B A*BA OR B A+BA NOT B A-B邏輯關(guān)系的說明數(shù)據(jù)庫中同時(shí)含有詞和詞的記錄被檢出(命中)數(shù)據(jù)庫中或含有詞或含有詞,或兩詞皆有的記錄被檢出數(shù)據(jù)庫中凡含詞而不含詞的記錄被檢出邏輯關(guān)系圖圖圖圖ABAB 第2章 信息檢索原理1122優(yōu)先算符( ) 如果歸納成一個(gè)模式,比如有 A、B、C、D四個(gè)檢索詞(其中A和B,
58、C和D分別為同義概念),檢索提問可以分成三組: ?S A OR B (集合號為S1) ?S C OR D (集合號為S2) ?S S1 AND S2 在實(shí)際檢索中,上述的三組檢索提問也可以歸并為一組。即,同一組檢索提問既含有OR算符,又含有AND算符,此時(shí)須使用優(yōu)先處理算符“( )”,將OR算符前后的詞放入括號中,計(jì)算機(jī)將優(yōu)先運(yùn)算括號內(nèi)的算符。上例檢索提問可改為: ?S (A OR B) AND (C OR D) 第2章 信息檢索原理1133位置算符 又稱鄰接算符(adjacent operators),適用于兩個(gè)檢索詞以指定間隔距離或者指定的順序出現(xiàn)的場合,比如,類似于以詞組形式表達(dá)的概念;
59、彼此相鄰的兩個(gè)或兩個(gè)以上的詞;被禁用詞或特殊符號分隔的詞以及化學(xué)分子式等。位置算符是調(diào)整檢索策略的一種重要手段。 按照兩個(gè)檢索詞出現(xiàn)的順序和距離,可以有多種位置算符,而且對同一種位置算符,檢索系統(tǒng)不同,規(guī)定的位置算符也不同。 第2章 信息檢索原理114 例如,Compendex光盤數(shù)據(jù)庫使用的位置算符有: “(N)”(表示其兩側(cè)的檢索詞必須緊密相連,除開空格和標(biāo)點(diǎn)符號外,不得插入其它詞或字母,兩詞的詞序可以顛倒) “(F)”(表示其兩側(cè)的檢索詞必須在同一字段(例如同在題目字段或文摘字段)中出現(xiàn),兩詞的詞序可以顛倒)第2章 信息檢索原理115 “(S)”(表示其兩側(cè)的檢索詞必須在同一句子中出現(xiàn),兩詞的詞序可以顛倒) (W)(表示其兩側(cè)的檢索詞必須緊密相連,除開空格和標(biāo)點(diǎn)符號外,不得插入其它詞或字母,兩詞的詞序不可以顛倒)四種。第2章 信息檢索原理116 4字段限制 字段限制也是調(diào)整檢索策略的一種重要的手段。如果想指定在題目等字段中查找所希望的檢索詞,就需要使用字段限制。字段限制適用于在已有一定數(shù)量輸出記錄的基礎(chǔ)上,通過指定字段的方法,減少輸出篇數(shù),提高檢索結(jié)果的查準(zhǔn)率的場合。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度健康養(yǎng)生產(chǎn)品銷售個(gè)人擔(dān)保合同
- 2025年度有機(jī)肥采購合同風(fēng)險(xiǎn)控制要點(diǎn)解析
- 2025年度紅木家具行業(yè)品牌戰(zhàn)略規(guī)劃合同
- 衡陽2024年湖南常寧市衛(wèi)健系統(tǒng)招聘衛(wèi)生專業(yè)技術(shù)人員99人筆試歷年參考題庫附帶答案詳解
- 蘇州江蘇蘇州工業(yè)園區(qū)新加花園幼兒園教學(xué)輔助人員招聘筆試歷年參考題庫附帶答案詳解
- 舟山浙江舟山岱山縣統(tǒng)計(jì)局招聘編外人員筆試歷年參考題庫附帶答案詳解
- 紅河云南紅河州教育體育局所屬事業(yè)單位(紅河州第一中學(xué))急需緊缺人才招聘筆試歷年參考題庫附帶答案詳解
- 江門2025年廣東江門開平市自然資源局所屬事業(yè)單位招聘工作人員筆試歷年參考題庫附帶答案詳解
- 卷繞機(jī)項(xiàng)目融資計(jì)劃書
- 無錫2024年江蘇無錫市惠山區(qū)衛(wèi)生事業(yè)單位招聘65人筆試歷年參考題庫附帶答案詳解
- 《一句頂一萬句》讀書分享
- 2024義務(wù)教育數(shù)學(xué)新課標(biāo)課程標(biāo)準(zhǔn)2022版考試真題附答案
- 110kV變電站專項(xiàng)電氣試驗(yàn)及調(diào)試方案
- 2024年廣西桂盛金融信息科技服務(wù)有限公司招聘筆試沖刺題(帶答案解析)
- 外賣星級(商家評分)計(jì)算表
- 2023三年級語文下冊 第八單元 語文園地配套教案 新人教版
- DZ∕T 0215-2020 礦產(chǎn)地質(zhì)勘查規(guī)范 煤(正式版)
- 外出檢查病人突發(fā)呼吸心跳驟停應(yīng)急預(yù)案演練
- 《火力發(fā)電廠汽水管道設(shè)計(jì)規(guī)范+DLT+5054-2016》詳細(xì)解讀
- 幕墻施工成品及半成品保護(hù)措施
- 基于單片機(jī)的交通燈控制系統(tǒng)設(shè)計(jì)畢業(yè)論文
評論
0/150
提交評論