第2章文獻(xiàn)檢索基礎(chǔ)知識(shí)._第1頁
第2章文獻(xiàn)檢索基礎(chǔ)知識(shí)._第2頁
第2章文獻(xiàn)檢索基礎(chǔ)知識(shí)._第3頁
第2章文獻(xiàn)檢索基礎(chǔ)知識(shí)._第4頁
第2章文獻(xiàn)檢索基礎(chǔ)知識(shí)._第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、專題二專題二 文獻(xiàn)檢索基礎(chǔ)知識(shí)文獻(xiàn)檢索基礎(chǔ)知識(shí)1 文獻(xiàn)檢索的基本原理一、信息檢索的含義廣義上:文獻(xiàn)檢索是指把文獻(xiàn)按一定方式組織和存儲(chǔ)起來,并針對(duì)用戶的需求找出所需文獻(xiàn)的過程。狹義上:信息檢索指用戶利用檢索工具和檢索系統(tǒng)從有序的信息源中,查詢所需信息的檢索過程。即文獻(xiàn)檢索就是文獻(xiàn)的查找過程。 廣義的信息檢索包括信息的存儲(chǔ)和檢索兩個(gè)過程。 信息的存儲(chǔ)就是將搜集到的一次信息,經(jīng)過著錄其特征(如題名、著者、主題詞、分類號(hào)等)而形成款目,并將這些款目組織起來成為二次信息的過程。 信息的檢索是針對(duì)已存儲(chǔ)好的二次信息庫進(jìn)行的,是存儲(chǔ)的逆過程。 存儲(chǔ)是為了檢索,而為了快速而有效地檢索,就必須存儲(chǔ)。 沒有存儲(chǔ)檢

2、索就無從談起。 存儲(chǔ)與檢索是相輔相成、相互依存的辯證關(guān)系。圖圖1 信息檢索原理圖信息檢索原理圖 一、按檢索內(nèi)容劃分一、按檢索內(nèi)容劃分1文獻(xiàn)檢索文獻(xiàn)檢索 文獻(xiàn)檢索文獻(xiàn)檢索(Document Retrieval)即從一個(gè)即從一個(gè)文獻(xiàn)集合中查找出專門包含所需信息內(nèi)容文獻(xiàn)集合中查找出專門包含所需信息內(nèi)容的文獻(xiàn)的文獻(xiàn),是以是以文獻(xiàn)文獻(xiàn)為檢索對(duì)象的信息檢索為檢索對(duì)象的信息檢索類型。類型。 文獻(xiàn)檢索根據(jù)所檢索內(nèi)容的不同分為文獻(xiàn)檢索根據(jù)所檢索內(nèi)容的不同分為書目書目檢索檢索和和全文檢索全文檢索。 2. 數(shù)據(jù)檢索數(shù)據(jù)檢索 數(shù)據(jù)檢索數(shù)據(jù)檢索(Data Retrieval)以特定以特定數(shù)據(jù)數(shù)據(jù)為檢為檢索對(duì)象和檢索目的

3、的信息檢索類型稱為數(shù)索對(duì)象和檢索目的的信息檢索類型稱為數(shù)據(jù)檢索。據(jù)檢索。 包括數(shù)據(jù)圖表包括數(shù)據(jù)圖表,某物質(zhì)材料成某物質(zhì)材料成分分、性能、性能、圖譜、市場(chǎng)行情圖譜、市場(chǎng)行情,物質(zhì)的物理與化學(xué)特性物質(zhì)的物理與化學(xué)特性,設(shè)備的型號(hào)與規(guī)格等設(shè)備的型號(hào)與規(guī)格等,是一種確定性檢索。是一種確定性檢索。 3事實(shí)檢索事實(shí)檢索 事實(shí)檢索事實(shí)檢索(Fact Retrieval)是獲取以事物是獲取以事物的實(shí)際情況為基礎(chǔ)而集合生成新的分析結(jié)的實(shí)際情況為基礎(chǔ)而集合生成新的分析結(jié)果的一類信息檢索果的一類信息檢索,以從文獻(xiàn)中抽取的事以從文獻(xiàn)中抽取的事項(xiàng)為檢索內(nèi)容項(xiàng)為檢索內(nèi)容,包括事物的基本概念、基包括事物的基本概念、基本情況

4、本情況,事物發(fā)生的時(shí)間、地點(diǎn)、相關(guān)事事物發(fā)生的時(shí)間、地點(diǎn)、相關(guān)事實(shí)與過程等。實(shí)與過程等。二、二、按信息檢索的方式劃分按信息檢索的方式劃分u根據(jù)信息檢索的基本原理,實(shí)現(xiàn)信息檢索的基本方式可分為傳統(tǒng)信息檢索和現(xiàn)代信息檢索。傳統(tǒng)信息檢索,簡稱“手檢”;現(xiàn)代信息檢索,簡稱“機(jī)檢”。按照檢索的操作方式,信息檢索分為手工檢索和計(jì)算機(jī)機(jī)器檢索。1.傳統(tǒng)信息檢索u傳統(tǒng)信息檢索,即手檢。手工檢索是檢索人員利用手工檢索工具手翻、眼看、大腦思維判別、索取原始文獻(xiàn)的一種方式。u優(yōu)點(diǎn)是:檢索條件簡單,成本低;在檢索過程中可以隨時(shí)獲取反饋信息,及時(shí)調(diào)整檢索策略;可對(duì)不同的檢索工具同時(shí)進(jìn)行對(duì)比,從而提高檢索質(zhì)量;可以參閱檢

5、索工具中的附圖。u缺點(diǎn)是:速度慢、效率低,檢出的文獻(xiàn)款目必須抄錄;手工檢索工具提供的檢索點(diǎn)有限,很難進(jìn)行多元檢索;難以找到涉及幾個(gè)概念組合的多主題文獻(xiàn)。2. 現(xiàn)代信息檢索u現(xiàn)代信息檢索即機(jī)檢,是檢索人員利用計(jì)算機(jī)檢索系統(tǒng)查找文獻(xiàn)的一種檢索方式。所謂計(jì)算機(jī)檢索系統(tǒng)包括數(shù)據(jù)庫技術(shù)、計(jì)算機(jī)技術(shù)和通信技術(shù)等。計(jì)算機(jī)檢索已從單機(jī)檢索、聯(lián)機(jī)檢索發(fā)展到今天的網(wǎng)絡(luò)檢索,并正向著智能化的方向發(fā)展。3 檢索語言檢索語言(一)檢(一)檢 索索 語語 言言 分分 類類外表特征語言外表特征語言內(nèi)容特征語言內(nèi)容特征語言題名題名(書名、刊名、篇名)(書名、刊名、篇名)著者著者號(hào)碼號(hào)碼(如專利號(hào)、報(bào)告號(hào)等)(如專利號(hào)、報(bào)告號(hào)

6、等)引文引文分類語言分類語言主題詞語言主題詞語言代碼語言代碼語言分子式、結(jié)構(gòu)式分子式、結(jié)構(gòu)式檢索語言檢索語言文獻(xiàn)類型文獻(xiàn)類型文獻(xiàn)出版事項(xiàng)文獻(xiàn)出版事項(xiàng)二、二、 兩種常用檢索語言兩種常用檢索語言v兩種常用的檢索語言兩種常用的檢索語言 (按檢索語言結(jié)構(gòu)原(按檢索語言結(jié)構(gòu)原理理劃分)劃分)v(1)分類語言)分類語言v(2)主題詞語言)主題詞語言體系分類語言體系分類語言組配分類語言組配分類語言混合分類語言混合分類語言標(biāo)題詞語言標(biāo)題詞語言單元詞語言單元詞語言關(guān)鍵詞語言關(guān)鍵詞語言敘敘 詞語言詞語言(一(一)分類)分類語言語言v分類語言是根據(jù)一定的觀點(diǎn),以科學(xué)分類為基礎(chǔ),分類語言是根據(jù)一定的觀點(diǎn),以科學(xué)分類為

7、基礎(chǔ),文獻(xiàn)內(nèi)容的科學(xué)性質(zhì)為對(duì)象,按照知識(shí)門類的邏文獻(xiàn)內(nèi)容的科學(xué)性質(zhì)為對(duì)象,按照知識(shí)門類的邏輯順序來組織和檢索文獻(xiàn)的一種語言工具。輯順序來組織和檢索文獻(xiàn)的一種語言工具。 按學(xué)科體系的層次,從上到下,從總到分,逐級(jí)按學(xué)科體系的層次,從上到下,從總到分,逐級(jí)展開,各級(jí)類目一一列舉。展開,各級(jí)類目一一列舉。 中 國 圖 書 館 分 類 法 簡 表基本部類將圖書分為社會(huì)科學(xué)、自然科學(xué)、綜合三大類。將圖書分為社會(huì)科學(xué)、自然科學(xué)、綜合三大類。社科社科自然科自然科學(xué)學(xué)自然科自然科學(xué)學(xué)O 數(shù)理科學(xué)和化學(xué)數(shù)理科學(xué)和化學(xué) O1 數(shù)學(xué)數(shù)學(xué) O11 古典數(shù)學(xué)古典數(shù)學(xué) O119 中國數(shù)學(xué)中國數(shù)學(xué) O12 初等數(shù)學(xué)初等數(shù)學(xué)

8、 O13 高等數(shù)學(xué)高等數(shù)學(xué) O14 數(shù)理邏輯、數(shù)學(xué)基礎(chǔ)數(shù)理邏輯、數(shù)學(xué)基礎(chǔ) O15 代數(shù)、數(shù)論、組合理論代數(shù)、數(shù)論、組合理論 O17 數(shù)學(xué)分析數(shù)學(xué)分析 O171 分析基礎(chǔ)分析基礎(chǔ) O172 微積分微積分 O172.1 微分學(xué)微分學(xué) O172.2 積分學(xué)積分學(xué) O173 無窮級(jí)數(shù)論(級(jí)數(shù)論)無窮級(jí)數(shù)論(級(jí)數(shù)論) O174 函數(shù)論函數(shù)論 O175 微分方程、積分方程微分方程、積分方程 O176 變分法變分法 O177 泛函泛函 O178 不等式及其他不等式及其他 O3力學(xué)力學(xué) O4 物理學(xué)物理學(xué) O6 化學(xué)化學(xué) O7 晶體學(xué)晶體學(xué)分類標(biāo)識(shí)即分類號(hào)由字母分類標(biāo)識(shí)即分類號(hào)由字母和數(shù)字組成和數(shù)字組成采用等

9、級(jí)列舉表達(dá)采用等級(jí)列舉表達(dá)從屬關(guān)系從屬關(guān)系上位類目一定能包含其各個(gè)下位類目,上位類目一定能包含其各個(gè)下位類目,下位類目一定帶有上位類目的屬性。下位類目一定帶有上位類目的屬性。 F2 經(jīng)濟(jì)計(jì)劃與管理經(jīng)濟(jì)計(jì)劃與管理 TQ03 化學(xué)反應(yīng)過程化學(xué)反應(yīng)過程 F27 企業(yè)經(jīng)濟(jì)企業(yè)經(jīng)濟(jì) TQ031 一般化學(xué)反應(yīng)過程一般化學(xué)反應(yīng)過程 TQ031.2 合成合成 F276 各種企業(yè)經(jīng)濟(jì)各種企業(yè)經(jīng)濟(jì) TQ031.3 分解、裂化分解、裂化 F276. 4 聯(lián)合企業(yè)經(jīng)濟(jì)聯(lián)合企業(yè)經(jīng)濟(jì) F276. 41 部門間經(jīng)濟(jì)綜合體部門間經(jīng)濟(jì)綜合體 TQ032 催化反應(yīng)過程催化反應(yīng)過程 F276. 42 科研生產(chǎn)聯(lián)合企業(yè)科研生產(chǎn)聯(lián)合企

10、業(yè) TQ033 生物化學(xué)過程生物化學(xué)過程 F276. 43 合資經(jīng)營企業(yè)合資經(jīng)營企業(yè)分類號(hào)越長,表示的學(xué)科范圍越窄。分類號(hào)越長,表示的學(xué)科范圍越窄。類、類目共同屬性的集合一類事物的概念 TG44焊接工藝 441一般方法 442熔焊 443電焊 444電弧焊 445埋弧焊(焊劑層下焊) 446氣焊 447電鉚焊 下位類同位類上位類 (二二)主題語言)主題語言 1. 主題法主題法 主題法是一種從主題法是一種從文獻(xiàn)內(nèi)容角度文獻(xiàn)內(nèi)容角度標(biāo)引和檢索標(biāo)引和檢索信息資源的方法。信息資源的方法。以主題語言來描述和表以主題語言來描述和表達(dá)信息內(nèi)容的信息處理方法稱為主題法。達(dá)信息內(nèi)容的信息處理方法稱為主題法。主題

11、語言又可分為主題語言又可分為標(biāo)題標(biāo)題語言語言、元詞、元詞語言語言、敘詞敘詞語言和語言和關(guān)鍵詞關(guān)鍵詞語言語言。2.主題檢索語言 標(biāo)題語言 標(biāo)題法是一種以標(biāo)題詞作為主題標(biāo)識(shí)來反映文獻(xiàn)信息內(nèi)容的一種主題法。 標(biāo)題詞必須統(tǒng)一和規(guī)范。美國國會(huì)標(biāo)題表 單元詞語言 單元詞法,也叫元詞法,是以元詞為主題標(biāo)識(shí),通過字面組配的方式字面組配的方式表達(dá)信息資源主題的主題法。 所謂元詞是用來標(biāo)引信息資源主題的、最基本的、字面上不可再分的語詞。 敘詞語言 敘詞,國內(nèi)亦稱主題詞,是經(jīng)過規(guī)范化處理的,以基本概念為基礎(chǔ)的表達(dá)文獻(xiàn)主題的詞和詞組。 敘詞語言就是以敘詞作為文獻(xiàn)檢索標(biāo)識(shí)和查找依據(jù)的一種檢索語言。 關(guān)鍵詞語言 關(guān)鍵詞語

12、言是直接選用文獻(xiàn)中的自然語言作基本詞匯,并將那些能夠揭示文獻(xiàn)題名或主要意旨的關(guān)鍵性自然語詞作為關(guān)鍵詞進(jìn)行標(biāo)引的一種檢索語言。 (一一)信息檢索方法的類型信息檢索方法的類型 1常用法(工具法)常用法(工具法)(1)順查法)順查法(2)倒查法)倒查法(3)抽查法)抽查法 回溯法,也稱為引文法,是利用文獻(xiàn)末尾所附的參考文獻(xiàn)或引用文獻(xiàn),由近及遠(yuǎn)(由現(xiàn)在到過去)地進(jìn)行追蹤檢索。 循環(huán)法,是綜合常用法和回溯法的檢索方法,即在檢索文獻(xiàn)信息時(shí),既利用成套的檢索工具檢索,又利用原始文獻(xiàn)后所附的參考引用文獻(xiàn)進(jìn)行回溯,分階段按周期地交替使用,也稱為分段法。 循環(huán)法的具體操作可以采用兩種方式。 (1)首先使用常用法,

13、然后使用回溯法,不斷循環(huán)交替。 (2)首先使用回溯法,然后使用常用法,不斷循環(huán)交替。(二)文獻(xiàn)檢索途徑(二)文獻(xiàn)檢索途徑u文獻(xiàn)的檢索途徑是根據(jù)文獻(xiàn)的描述內(nèi)容來確定的。u檢索路徑主要包括以文獻(xiàn)的外部特征進(jìn)行檢索的基本途徑(如文獻(xiàn)的名稱、作者、出版信息等)和以文獻(xiàn)的內(nèi)容特征進(jìn)行檢索的主流檢索途徑(即分類法和主題法)。(1)外部特征途徑u文獻(xiàn)的外部特征,是從文獻(xiàn)檢索載體的外表上標(biāo)記的可見的特征,如題名(書名、刊名、篇名)、責(zé)任者(作者、編者、譯者、專利權(quán)人、出版機(jī)構(gòu)等)、號(hào)碼(文獻(xiàn)原有序號(hào)、標(biāo)準(zhǔn)號(hào)、專利號(hào)、報(bào)告號(hào)、索書號(hào)等)。(1)外部特征途徑 文獻(xiàn)名稱途徑:書、刊、雜志、文章名 著者途徑: 代碼檢

14、索途徑u代碼檢索途徑是以某些文獻(xiàn)所具有的特指或特定的代碼為線索開展檢索的途徑。(2)內(nèi)容特征途徑u文獻(xiàn)的內(nèi)容特征,是從文獻(xiàn)所載的知識(shí)信息中隱含的、潛在的特征,如分類、主題等。u以文獻(xiàn)的內(nèi)容特征作為檢索途徑適用于檢索未知線索的文獻(xiàn)。(2)內(nèi)容特征途徑 分類途徑u分類途徑是以文獻(xiàn)所反映的內(nèi)容所屬學(xué)科的分類體系為線索開展檢索的途徑。(2)內(nèi)容特征途徑 主題途徑u主題途徑是以文獻(xiàn)所反映的主題內(nèi)容為線索開展檢索的途徑。u是把每一個(gè)文獻(xiàn)(一本書、一篇論文、一件專利等)中的能夠體現(xiàn)文獻(xiàn)主題概念、事物特征、具有實(shí)際意義的詞語抽取出來,作為檢索標(biāo)識(shí)供大家檢索,從而使得用戶可以從不同學(xué)科背景、不同檢索需求出發(fā),檢

15、索到同一主題的所有文獻(xiàn)。(3)其他檢索途徑u還有一種根據(jù)引證關(guān)系建立起來的檢索途徑,即引文途徑(見下面引文法)。u在進(jìn)行文獻(xiàn)檢索時(shí),檢索途徑的最終選擇既受課題已知條件和課題檢索深度的影響,同時(shí)更取決于檢索系統(tǒng)已經(jīng)為我們提供的各種檢索入口。要取得既完善又準(zhǔn)確的檢索結(jié)果,正確地選擇檢索途徑是很關(guān)鍵的;同時(shí),用戶所具有的數(shù)據(jù)庫知識(shí)、檢索技能以及對(duì)檢索目標(biāo)的把握情況也是非常重要的。 1.分析待查項(xiàng)目,明確主題概念 2.選擇檢索工具 3.確定檢索途徑和檢索標(biāo)識(shí) 4.查找文獻(xiàn)線索,索取原文5 信息檢索的步驟信息檢索的步驟u檢索效果指利用檢索系統(tǒng)或工具檢索信息資源的有效程度,直接反映了檢索系統(tǒng)的檢索性能及能

16、力,是評(píng)價(jià)一個(gè)檢索系統(tǒng)性能和用戶檢索策略的質(zhì)量標(biāo)準(zhǔn)。 信息檢索的基本要求就是要用最少的時(shí)間和精力,快速獲取所需的文獻(xiàn)信息,同時(shí)檢出的文獻(xiàn)要全面、準(zhǔn)確。u全面:是根據(jù)課題需要,將有關(guān)文獻(xiàn)盡可能地全面檢索出來,盡量做到系統(tǒng)、完整、無重大遺漏,也就是要提高查全率。u準(zhǔn)確:要對(duì)檢出的文獻(xiàn)進(jìn)行嚴(yán)格篩選,信息內(nèi)容要準(zhǔn)確可靠,使其符合課題需要,力求避免查出與課題無關(guān)的文獻(xiàn),也就是要提高查準(zhǔn)率。u 信息獲取后,要認(rèn)真分析、比較、概括和綜合,以保證信息的真實(shí)性、準(zhǔn)確性。u 當(dāng)檢索結(jié)果顯現(xiàn)太多和研究課題不相關(guān)的記錄、顯現(xiàn)太少和研究課題相關(guān)的記錄或沒有和課題相關(guān)記錄時(shí),必須重新思考并建立檢索命題,對(duì)檢索策略進(jìn)行優(yōu)化

17、、縮檢或擴(kuò)檢。u 然后對(duì)檢索結(jié)果進(jìn)行組織整理:檢出的資料是否與研究主題相關(guān)?是學(xué)術(shù)性文章,還是通俗性文章?是否新穎?資料是否具有權(quán)威性?是否可信?u 衡量檢索效果有兩個(gè)主要指標(biāo),即查全率和查準(zhǔn)率分別用字母R和P表示。查全率指系統(tǒng)實(shí)施檢索時(shí)檢出的與某一檢索提問相關(guān)的信息資源數(shù)與檢索系統(tǒng)中與該提問相關(guān)的實(shí)有信息資源總數(shù)之比。表示為:查全率(R)=(檢出有關(guān)信息資源量/系統(tǒng)中有關(guān)信息資源總量)100%查準(zhǔn)率也稱檢準(zhǔn)率、相關(guān)率、檢索精度,指系統(tǒng)實(shí)施檢索時(shí)檢出的與某一檢索提問相關(guān)的信息資源數(shù)與檢出的信息資源總數(shù)之比。表示為:查準(zhǔn)率(P)=(檢出有關(guān)信息資源量/檢出信息總量)100%u查準(zhǔn)率是反映檢索系統(tǒng)排除與檢索提問無關(guān)信息資源的能力。u研究表明:世界上最好的搜索引擎其查全率也只有45%,查準(zhǔn)率更低。對(duì)于一個(gè)檢索系統(tǒng)來講,查全率和查準(zhǔn)率往往不可能兩全其美:查全率高時(shí),查準(zhǔn)率低;查準(zhǔn)率高時(shí),查全率低。u查全率的局限性主要表現(xiàn)在:它是檢索出的相關(guān)信息量與檢索系統(tǒng)中的全部相關(guān)信息量之比,但系統(tǒng)中相關(guān)信息量究竟有多少一般是不確知的,只能估計(jì);另外,查全率或多或少具有“假設(shè)”的局限性,這種“假設(shè)”是指檢索出的相關(guān)信息對(duì)用戶具有同等價(jià)值,但實(shí)際并非如此,信息的相關(guān)程度在某種意義上比它的數(shù)量重要得多u查準(zhǔn)率的局限性主要表現(xiàn)在:如果檢索結(jié)果是題錄式而非全文式,由于題錄的內(nèi)容簡單,用戶很難判斷出檢索到

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論