計(jì)算機(jī)信息檢索概述課件_第1頁(yè)
計(jì)算機(jī)信息檢索概述課件_第2頁(yè)
計(jì)算機(jī)信息檢索概述課件_第3頁(yè)
計(jì)算機(jī)信息檢索概述課件_第4頁(yè)
計(jì)算機(jī)信息檢索概述課件_第5頁(yè)
已閱讀5頁(yè),還剩95頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1 計(jì)算機(jī)信息檢索理論基礎(chǔ)2 計(jì)算機(jī)信息檢索的發(fā)展歷史3 計(jì)算機(jī)檢索技術(shù)與實(shí)現(xiàn)4 計(jì)算機(jī)檢索策略與實(shí)施技巧1 計(jì)算機(jī)信息檢索理論基礎(chǔ)使用計(jì)算機(jī)檢索信息,是專(zhuān)業(yè)人員在開(kāi)展科學(xué)研究中不可或缺的一項(xiàng)基本技能。一個(gè)具有這方面能力并善于從電子信息源中獲取所需信息者,將在今后的信息社會(huì)中獲取更多的成功機(jī)會(huì) 。 1 計(jì)算機(jī)信息檢索理論基礎(chǔ) 計(jì)算機(jī)信息檢索的定義 計(jì)算機(jī)檢索系統(tǒng)的構(gòu)成 數(shù)據(jù)庫(kù)的概念計(jì)算機(jī)信息檢索的定義 所謂計(jì)算機(jī)信息檢索,就是在計(jì)算機(jī)和人的共同作用下,按照一定的方法組織和存儲(chǔ)信息,并通過(guò)人機(jī)對(duì)話從計(jì)算機(jī)存儲(chǔ)的大量數(shù)據(jù)中自動(dòng)輸出用戶所需的那部分信息的過(guò)程。 計(jì)算機(jī)檢索系統(tǒng)的構(gòu)成 硬件 軟件 數(shù)據(jù)

2、庫(kù) 系統(tǒng)中采用的各種硬件設(shè)備的總稱(chēng),包括具有一定性能的計(jì)算機(jī)主機(jī)、外圍設(shè)備以及懷數(shù)據(jù)處理或數(shù)據(jù)傳輸有關(guān)的其他設(shè)備。主機(jī),是計(jì)算機(jī)檢索系統(tǒng)的中樞。外圍設(shè)備包括外部存儲(chǔ)器,輸入輸出設(shè)備如鍵盤(pán)、光筆、鼠標(biāo)、光學(xué)字符識(shí)別裝置,顯示終端、打印機(jī)等。 系統(tǒng)中有關(guān)的程序和各種文件資料的總稱(chēng),包括系統(tǒng)軟件(如操作系統(tǒng),輸入輸出控制程序)和應(yīng)用軟件。 “一組文件的集合”,就是以一定的組織方式存貯在一起的相關(guān)數(shù)據(jù)的集合。數(shù)據(jù)庫(kù)的概念 數(shù)據(jù)庫(kù)的定義 數(shù)據(jù)庫(kù)的類(lèi)型數(shù)據(jù)庫(kù)的定義 數(shù)據(jù)庫(kù)是至少由一種文檔組成,并能滿足某一特定目的或某一特定數(shù)據(jù)處理系統(tǒng)需要的一種數(shù)據(jù)集合。通俗地說(shuō),數(shù)據(jù)庫(kù)是在計(jì)算機(jī)存儲(chǔ)設(shè)備上按一定方式存儲(chǔ),

3、并提供給確定范圍內(nèi)的各類(lèi)用戶共享的相互關(guān)聯(lián)的數(shù)據(jù)集合。數(shù)據(jù)庫(kù)是計(jì)算機(jī)技術(shù)與信息檢索技術(shù)相結(jié)合的產(chǎn)物。它既是現(xiàn)代人們從事信息資源管理的工具,同時(shí)也是計(jì)算機(jī)信息檢索的基礎(chǔ)。 數(shù)據(jù)庫(kù)的類(lèi)型 參考數(shù)據(jù)庫(kù) 源數(shù)據(jù)庫(kù) 混合數(shù)據(jù)庫(kù)參考數(shù)據(jù)庫(kù)指用戶從中獲取信息線索后,還需進(jìn)一步查找原文或其他資料的一類(lèi)數(shù)據(jù)庫(kù)。它包括書(shū)目數(shù)據(jù)庫(kù)和指南數(shù)據(jù)庫(kù)。(1)書(shū)目數(shù)據(jù)庫(kù)。它是存儲(chǔ)某個(gè)學(xué)科領(lǐng)域的二次文獻(xiàn)的數(shù)據(jù)庫(kù),有時(shí)又稱(chēng)作為二次文獻(xiàn)庫(kù)。它依照二次文獻(xiàn)的不同類(lèi)型又可分為題錄文摘數(shù)據(jù)庫(kù)、索引數(shù)據(jù)庫(kù)和圖書(shū)館書(shū)目數(shù)據(jù)庫(kù)。(2)指南數(shù)據(jù)庫(kù)。它是存儲(chǔ)有關(guān)某些機(jī)構(gòu)、人物、出版物、項(xiàng)目、程序、活動(dòng)等簡(jiǎn)要描述性信息的一類(lèi)數(shù)據(jù)庫(kù),亦稱(chēng)指示性數(shù)據(jù)庫(kù)

4、。例如,機(jī)構(gòu)名稱(chēng)數(shù)據(jù)庫(kù)、人物傳記數(shù)據(jù)庫(kù)、產(chǎn)品數(shù)據(jù)庫(kù)等都屬于這一類(lèi)數(shù)據(jù)庫(kù)。源數(shù)據(jù)庫(kù)又稱(chēng)為數(shù)據(jù)銀行。它是能夠直接為用戶提供原始資料或具體數(shù)據(jù)的一類(lèi)數(shù)據(jù)庫(kù)。 源數(shù)據(jù)庫(kù)又分為: 數(shù)值型數(shù)據(jù)庫(kù) 文本數(shù)值型數(shù)據(jù)庫(kù) 術(shù)語(yǔ)數(shù)據(jù)庫(kù) 圖像數(shù)據(jù)庫(kù) 全文數(shù)據(jù)庫(kù) 超文本數(shù)據(jù)庫(kù) 是指專(zhuān)門(mén)提供以數(shù)值方式表示的調(diào)查數(shù)據(jù)和統(tǒng)計(jì)數(shù)據(jù)的一類(lèi)數(shù)據(jù)庫(kù)。 是指能夠同時(shí)提供文本信息和數(shù)值數(shù)據(jù)的一類(lèi)數(shù)據(jù)庫(kù)。 是指專(zhuān)門(mén)存儲(chǔ)和檢索名詞術(shù)語(yǔ)、詞語(yǔ)信息等的一種源數(shù)據(jù)庫(kù)。 是指用來(lái)存儲(chǔ)和檢索各種圖像或圖形信息及有關(guān)文字說(shuō)明資料的一種源數(shù)據(jù)庫(kù)。 是指存儲(chǔ)和檢索文獻(xiàn)全文或其中主要部分的一種源數(shù)據(jù)庫(kù)。 這種數(shù)據(jù)庫(kù)存儲(chǔ)時(shí)將存儲(chǔ)內(nèi)容分割為若干獨(dú)立利用的結(jié)點(diǎn),使

5、用鏈路連接結(jié)點(diǎn)等方式進(jìn)行存取,從而構(gòu)成一個(gè)不拘泥于形式邏輯推理,不遵循某種正規(guī)模式的一種網(wǎng)絡(luò)框架結(jié)構(gòu),因而具備了類(lèi)似于數(shù)據(jù)庫(kù)又優(yōu)于一般數(shù)據(jù)庫(kù)的特點(diǎn)。 混合數(shù)據(jù)庫(kù)這類(lèi)數(shù)據(jù)庫(kù)兼有源數(shù)據(jù)庫(kù)和參考數(shù)據(jù)庫(kù)的特點(diǎn),按載體形式它又可分為以下四種類(lèi)型:磁媒體數(shù)據(jù)庫(kù)光盤(pán)數(shù)據(jù)庫(kù)多媒體數(shù)據(jù)庫(kù):是一種能夠?qū)ξ淖?、?shù)值、聲音和圖像等不同性質(zhì)的媒體進(jìn)行一體化處理和管理的新型數(shù)據(jù)庫(kù)超媒體數(shù)據(jù)庫(kù)。通過(guò)外部樹(shù)形的鏈接將多種類(lèi)型的媒體連成一個(gè)集合,該集合稱(chēng)為超媒體數(shù)據(jù)庫(kù)。2 計(jì)算機(jī)信息檢索的發(fā)展歷史 脫機(jī)批處理檢索 聯(lián)機(jī)情報(bào)檢索 國(guó)際聯(lián)機(jī)檢索 光盤(pán)檢索 網(wǎng)絡(luò)信息檢索脫機(jī)批處理檢索 1954一64。定期由專(zhuān)職檢索人員把許多用戶課題

6、匯總,批量處理提問(wèn)要求,并把結(jié)果提供給用戶。直接在計(jì)算機(jī)旁檢索,不需要遠(yuǎn)程終端設(shè)備及通信網(wǎng)絡(luò)。用戶在計(jì)算機(jī)處理成批檢索課題之后才知道檢索結(jié)果,不能直接、及時(shí)修改檢索策略,查全率和查準(zhǔn)率受到一定限制。聯(lián)機(jī)情報(bào)檢索 20世紀(jì)70年代投入商業(yè)運(yùn)營(yíng)。用戶在計(jì)算機(jī)檢索系統(tǒng)的終端上,通過(guò)通信網(wǎng)絡(luò),使用特定的指令和算符,以人機(jī)對(duì)話方式,查詢(xún)遠(yuǎn)程計(jì)算機(jī)檢索系統(tǒng)核心的數(shù)據(jù)庫(kù),從中獲取所需信息的計(jì)算機(jī)檢索系統(tǒng)。 聯(lián)機(jī)系統(tǒng)的誕生,使許多相互獨(dú)立的終端實(shí)現(xiàn)了“對(duì)話”方式的信息檢索。所謂對(duì)話方式,就是用戶利用系統(tǒng)提供的、為數(shù)不多且簡(jiǎn)單易記的檢索命令,每次輸入一條命令或由命令組成的表達(dá)式查看結(jié)果。系統(tǒng)方面則每次顯示出可能

7、的信息,幫助用戶選擇下次該用的命令或表達(dá)式,用戶通過(guò)與系統(tǒng)雙向?qū)υ挘刹粩喔淖兓蛲晟茩z索策略,直至獲得滿意的檢索結(jié)果為止。 聯(lián)機(jī)檢索系統(tǒng)由三個(gè)部分組成: 主機(jī)系統(tǒng) 通訊系統(tǒng) 終端設(shè)備主機(jī)系統(tǒng)是聯(lián)機(jī)檢索系統(tǒng)的核心,它具備處理速度快、多道程序和分時(shí)功能,內(nèi)存容量大,多樣化的輸入輸出設(shè)備。通訊系統(tǒng)是指終端設(shè)備與主機(jī)系統(tǒng)進(jìn)行通信的設(shè)備。通信線路分為兩種:專(zhuān)用的直達(dá)線路;通過(guò)撥號(hào)選擇對(duì)方的交換線路。前者是特定通信線路,后者使用電話網(wǎng)和用戶電報(bào)網(wǎng),聯(lián)機(jī)系統(tǒng)使用的通信線路就屬于后一種。終端系統(tǒng)是人與系統(tǒng)的接口設(shè)備。它能將字符、聲音以及人類(lèi)的信息表現(xiàn)形式轉(zhuǎn)換成系統(tǒng)的機(jī)器代碼。反之,將系統(tǒng)的結(jié)果還原成字符、聲音

8、等形式,傳送給終端用戶。國(guó)際聯(lián)機(jī)檢索 70年代中后期。(聯(lián)機(jī)檢索基礎(chǔ)上的擴(kuò)充到國(guó)際) 優(yōu)點(diǎn):這種方式可以邊檢索邊修改檢索策略,而且檢索速度快,多用戶可同時(shí)檢索,檢索不受地理位置限制,檢索功能多樣化,打印輸出靈活,檢索結(jié)果可進(jìn)行多種分析處理,大大方便檢索用戶和提高檢索質(zhì)量。 缺點(diǎn):注重系統(tǒng)自身工作效率的提高,如改進(jìn)算法、改進(jìn)存儲(chǔ)結(jié)構(gòu)與存取技術(shù)等;讓用戶去適應(yīng)、配合系統(tǒng),很少分析、考慮用戶對(duì)使用系統(tǒng)的要求。面向檢索專(zhuān)家或中介機(jī)構(gòu)。要求檢索者熟悉系統(tǒng)的一整套檢索指令和檢索技術(shù),用戶的提問(wèn)必須采用規(guī)范化的檢索語(yǔ)言,從而依賴(lài)于專(zhuān)業(yè)檢索人員,用戶自己完成檢索必須受過(guò)系統(tǒng)培訓(xùn)。人機(jī)交互界面不友好,且費(fèi)用較高

9、。 光盤(pán)檢索 80年代初期,其全稱(chēng)為高密度光盤(pán)(Compact Disk),主要是利用激光、計(jì)算機(jī)及光電集成等技術(shù)實(shí)現(xiàn)信息存儲(chǔ)的數(shù)字化。以光盤(pán)為介質(zhì)的光盤(pán)數(shù)據(jù)庫(kù)檢索系統(tǒng)由于信息存儲(chǔ)量大,簡(jiǎn)單易用而取勝。 優(yōu)點(diǎn):一次購(gòu)買(mǎi),無(wú)限制使用,不必考慮檢索時(shí)間,遠(yuǎn)程通信費(fèi)用等因素;存貯容量大;檢索途徑多;適用于通信不發(fā)達(dá),聯(lián)網(wǎng)較困難的地區(qū),是聯(lián)機(jī)檢索、網(wǎng)絡(luò)檢索的有效補(bǔ)充。 局限:數(shù)據(jù)更新有一定的周期,時(shí)效性、靈活性比不上聯(lián)機(jī)檢索;目前光盤(pán)數(shù)據(jù)庫(kù)容量有限,一般是按專(zhuān)業(yè)和領(lǐng)域建庫(kù),收錄范圍不夠廣泛;適用對(duì)象的局限性,因?yàn)橐淮涡再?gòu)買(mǎi)費(fèi)用高,對(duì)使用頻率不高的單位或個(gè)人來(lái)說(shuō)成本較高;設(shè)備和軟件的兼容性較差,各種光盤(pán)

10、數(shù)據(jù)庫(kù)檢索系統(tǒng)目前還難以實(shí)現(xiàn)標(biāo)準(zhǔn)化和統(tǒng)一化。 光盤(pán)檢索系統(tǒng)的構(gòu)成:計(jì)算機(jī)、CD-ROM驅(qū)動(dòng)器、檢索軟件、CD-ROM數(shù)據(jù)盤(pán)。 網(wǎng)絡(luò)信息檢索 是通過(guò)標(biāo)準(zhǔn)通信方式將世界各地的計(jì)算機(jī)網(wǎng)絡(luò)連接起來(lái),形成一個(gè)基于客戶機(jī)-服務(wù)器模式的網(wǎng)絡(luò)分布數(shù)據(jù)庫(kù)結(jié)構(gòu)。它在全球范圍內(nèi)把科技信息、商貿(mào)信息、經(jīng)濟(jì)信息、時(shí)事新聞以及日常生活信息通過(guò)互聯(lián)網(wǎng)絡(luò)合在一起,向億萬(wàn)聯(lián)網(wǎng)用戶提供廣泛的信息檢索與服務(wù)。它是信息化社會(huì)應(yīng)用最廣泛、最活躍的領(lǐng)域。 信息檢索服務(wù)的開(kāi)放性 超文本的多鏈接性 用戶界面友好且操作方便 具備良好的導(dǎo)航和編輯功能 網(wǎng)絡(luò)信息系統(tǒng)中包含信息資源、信息設(shè)備、信息通道、信息檢索軟件及信息終端等子系統(tǒng),各個(gè)子系統(tǒng)都是

11、開(kāi)放的,其信息資源面向所有用戶。 以超文本技術(shù)為基礎(chǔ)鏈結(jié)構(gòu)將不同地方的相關(guān)信息有機(jī)聯(lián)系起來(lái),使用戶可通過(guò)點(diǎn)擊文本或圖表中的超文本鏈接點(diǎn)訪問(wèn)另一個(gè)相關(guān)的文檔。 采用客戶機(jī)/服務(wù)器結(jié)構(gòu),通過(guò)交互式的圖形界面,為用戶提供友好的信息查詢(xún)要求,檢索途徑多,可保留檢索歷史。正是這一特點(diǎn),使Internet能廣泛深入學(xué)校、家庭、辦公室乃至每一個(gè)人。 網(wǎng)絡(luò)信息檢索一般都可以引導(dǎo)讀者在復(fù)雜的網(wǎng)絡(luò)信息資源中漫游而不致迷失方向,用戶可以利用導(dǎo)航機(jī)制,了解其所在網(wǎng)絡(luò)圖中的位置。網(wǎng)絡(luò)信息檢索具有良好的編輯功能,包括修改、增加、刪除節(jié)點(diǎn)和鏈的能力,此外對(duì)節(jié)點(diǎn)內(nèi)的信息也具有良好的編輯能力,可進(jìn)行多窗口編輯。 3 計(jì)算機(jī)檢索

12、技術(shù)與實(shí)現(xiàn) 布爾邏輯檢索 位置算符 截詞檢索 詞組檢索 括號(hào)檢索 字段限制檢索布爾邏輯檢索 即運(yùn)用布爾邏輯算符(Boolean operators)對(duì)檢索詞盡心邏輯組配,表達(dá)兩個(gè)概念之間的邏輯關(guān)系。 布爾邏輯算符主要有:AND OR NOT 在中文數(shù)據(jù)庫(kù)里,布爾邏輯運(yùn)算符又是用AND、OR、NOT表示,有時(shí)用 “*“、 ”“ 及 ”“ 。用運(yùn)算符號(hào):AND 或 * 連接檢索詞例查 “有關(guān)計(jì)算機(jī)在圖書(shū)館中的應(yīng)用”的文獻(xiàn), 檢索式=計(jì)算機(jī) * 圖書(shū)館 A AND B A B用運(yùn)算符號(hào) “OR” 或 “+”連接兩檢索詞例1 查“蘋(píng)果或梨”方面的文獻(xiàn) 檢索式=蘋(píng)果 + 梨它在同義詞檢索中使用,能提高查

13、全率。例2 查“計(jì)算機(jī)或機(jī)器人”方面的文獻(xiàn) 檢索式=計(jì)算機(jī) + 機(jī)器人 A OR B A B用運(yùn)算符號(hào)“NOT”或“”連接兩檢索詞 A NOT B例1 查“玉米但不是甜玉米”方面的文獻(xiàn)。 檢索式=玉米甜玉米例2 查“不是鉻合金”方面的文獻(xiàn)。 檢索式=合金鉻 A NOT B A B文獻(xiàn)記錄中詞語(yǔ)的相對(duì)次序不同,所表達(dá)的意思就可能不同。同樣在檢索式中,檢索詞的相對(duì)次序不同,表達(dá)的檢索意圖也不一樣,布爾邏輯運(yùn)算符有時(shí)難以表達(dá)某些檢索課題的確切提問(wèn)要求,用詞間位置算符來(lái)限定和組配檢索詞,可彌補(bǔ)布爾邏輯算符只是定性規(guī)定檢索詞的范圍,而沒(méi)有限定檢索詞位置關(guān)系,易造成誤檢的不足。位置算符檢索就是利用一些特定

14、的位置算符來(lái)表達(dá)檢索詞之間的位置關(guān)系,并且可以不用敘詞表而直接使用自由詞進(jìn)行檢索的方法。有的書(shū)上還把這種檢索稱(chēng)為原文檢索。這種檢索在利用TI和AB途徑檢索時(shí),對(duì)檢索質(zhì)量影響很大。常用的位置算符有:W、W/N、WITH、WITHIN、nW、PRE、N、NEAR、ADJ、nN、F、SAME功能:兩詞相鄰,按輸入時(shí)順序排列(也有數(shù)據(jù)庫(kù)允許順序顛倒)表達(dá)式:Education(W)school 或 Education WITH school檢索結(jié)果:Education school;education schools功能:兩詞相鄰,按輸入時(shí)順序排列(也有數(shù)據(jù)庫(kù)允許順序顛倒),兩詞之間允許插入0n個(gè)詞。

15、表達(dá)式:Education(1W)school檢索結(jié)果:Education school;education schools;Education and music school;功能:兩詞相鄰,按輸入順序排列表達(dá)式:Education PRE school檢索結(jié)果:Education school Education schools功能:兩詞相鄰,順序可以顛倒表達(dá)式:Education(N)school Education NEAR school檢索結(jié)果:Education school Education schools School of Education功能:兩詞相鄰,順序可以顛倒,

16、兩詞中間可以插入0n個(gè)詞表達(dá)式:Education(1N)school檢索結(jié)果:Education school school of education Education and sic school school of music and education功能:兩詞必須出現(xiàn)在同一字段中,詞序與詞量不限表達(dá)式: Education (F) school/DE檢索結(jié)果:Education 和 school必須同時(shí)出現(xiàn)在敘詞字段內(nèi)即可功能:兩詞出現(xiàn)在同一自然句中,其詞序與詞量不受限制表達(dá)式:Education SAME school檢索結(jié)果: Education 和school兩詞出現(xiàn)在同一句

17、子中即可。 截詞運(yùn)算符號(hào)有兩個(gè):“?、*” 。其在不同系統(tǒng)中表示的含義不同。 原因:在英語(yǔ)詞匯中,一個(gè)詞可能有多種形態(tài),如詞的單、復(fù)數(shù)形式的不同,英美拼寫(xiě)方法不同、詞性不同等。 有限截詞。即在檢索詞后后截幾個(gè)有限的字母,如名詞的單復(fù)數(shù),動(dòng)詞的詞尾變化等。如輸入computer?表示有0-2個(gè)字母變化,可檢出computer和computers. 輸入stud?表示截?cái)嗵幱?-3個(gè)字母變化,可檢出study,studies,studied,studing. 無(wú)限截?cái)啵涸跈z索詞后加一個(gè)“*“,表示該詞后可加任意個(gè)字符。使用無(wú)限截詞,所截詞根不能太短,否則會(huì)輸出許多無(wú)關(guān)文獻(xiàn),造成誤檢。 如:comp

18、uter *可檢出computers, computering,computered,computerization. 中間截?cái)啵涸跈z索詞中間加一個(gè)或幾個(gè)?號(hào),主要解決一些英美拼寫(xiě)不同,單復(fù)數(shù)形式的不同的詞的輸入,可簡(jiǎn)化輸入。 如:輸入wom?n可檢出woman,women截詞檢索在中文數(shù)據(jù)庫(kù)中截的是詞意,例:西北? 分別檢出了:西北農(nóng)林科技大學(xué)學(xué)報(bào)、西北園藝、西北紡織學(xué)院學(xué)報(bào)等。在外文數(shù)據(jù)庫(kù)中截的是詞的后綴,截?cái)嗯缮龅脑~匯和原來(lái)的詞義基本一致。例“金屬” metal* metal 、metals、metaled、metalist等。 利用截詞檢索時(shí),注意截詞的部位,一定不能截的太深,否則誤

19、檢率會(huì)很大。將一個(gè)詞組或短語(yǔ)用雙引號(hào)“” ”括起作為一個(gè)獨(dú)立運(yùn)算單元,進(jìn)行嚴(yán)格匹配,以提高檢索準(zhǔn)確度。 如:“Global Positioning System”, 只檢索出規(guī)定字段中包含完整詞組的記錄。 用于改變運(yùn)算的先后次序,括號(hào)內(nèi)的做優(yōu)先運(yùn)算。用“()”可以表示優(yōu)先級(jí)。如比較(GPSORGIS)ANDChina GPSORGIS ANDChina將檢索詞限定在某一字段中,檢索時(shí),計(jì)算機(jī)只對(duì)限定字段進(jìn)行運(yùn)算,以提高檢索效果。常用的檢索符號(hào)有: in、=、例:English in la 總結(jié):在一個(gè)復(fù)雜的檢索式中,不僅可以有多個(gè)運(yùn)算符,也可以使用括號(hào)來(lái)指定運(yùn)算的優(yōu)先順序、以及體現(xiàn)概念的完整性

20、。4 計(jì)算機(jī)檢索策略與事實(shí)技巧 分析檢索課題,明確檢索目的和要求 選擇數(shù)據(jù)庫(kù) 編制檢索提問(wèn)式、選擇檢索入口 上機(jī)檢索及反饋調(diào)節(jié)分析檢索課題,明確檢索目的和要求 明確檢索的要求和目的,是制定檢索策略的前提。由于各類(lèi)用戶的檢索要求和目的受其社會(huì)因素和個(gè)人因素的制約,是各不相同的。因此,在著手信息檢索之前,必須全面地了解清楚用戶的信息需求和檢索目的、檢索的學(xué)科內(nèi)容、主題范疇。根據(jù)社科信息用戶的文獻(xiàn)需求特點(diǎn),其需求不外乎以下四種類(lèi)型:了解學(xué)科發(fā)展動(dòng)態(tài)的要求了解某一研究主題的片斷性信息 了解某一研究主題的全面性信息 檢索特定的文獻(xiàn)信息 這類(lèi)信息需求的特點(diǎn)是一個(gè)“新”字,即用戶要求及時(shí)獲得學(xué)科前沿研究的最

21、新動(dòng)態(tài)、最新進(jìn)展和研究成果。針對(duì)用戶的這類(lèi)檢索要求,在選擇數(shù)據(jù)庫(kù)時(shí),除了必須考慮選擇在學(xué)科內(nèi)容方面與檢索要求相吻合的基本要求外,還應(yīng)注意考慮到信息內(nèi)容更新 周期短的因素。 這類(lèi)信息旨在借鑒他人研究成果,用以解決研究中碰到的具體問(wèn)題。這類(lèi)信息需求的量最大,其特點(diǎn)是一個(gè)“準(zhǔn)”字。即檢出的信息應(yīng)有針對(duì)性,能幫助解決具體問(wèn)題。因此,在數(shù)據(jù)庫(kù)選擇方面,除了注意內(nèi)容主題的匹配外,還應(yīng)注意原始文獻(xiàn)的易獲取性,最好選擇全文數(shù)據(jù)庫(kù)。 出于基礎(chǔ)理論研究、編寫(xiě)教材及申請(qǐng)課題的需要,用戶往往需要全面系統(tǒng)地收集某一個(gè)主題范圍內(nèi)的文獻(xiàn)資料,這類(lèi)檢索具有橫向普查、縱向追溯的特點(diǎn),并對(duì)查全率有較高的要求。因此,針對(duì)這類(lèi)檢索類(lèi)

22、型在選擇數(shù)據(jù)庫(kù)時(shí),要注意選擇存儲(chǔ)容量大,覆蓋年限長(zhǎng),具有較強(qiáng)隨機(jī)存取能力的數(shù)據(jù)庫(kù)。 用戶已經(jīng)知道文獻(xiàn)的題名、作者,而只是要求獲取原文。對(duì)這類(lèi)用戶需求只需要選擇與學(xué)科主題相吻合的數(shù)據(jù)庫(kù)。 除了需要了解清楚用戶信息檢索的要求和目的外,了解清楚 待查找文獻(xiàn)的年限、文獻(xiàn)類(lèi)型、語(yǔ)種和檢索費(fèi)用的支付能力等情況,對(duì)制定正確的檢索策略也很重要。 不同類(lèi)型的信息需求,對(duì)查全率和查準(zhǔn)率的要求不盡相同,對(duì)選擇數(shù)據(jù)庫(kù)的要求也存有差異。因此,在后續(xù)制定檢索策略時(shí),也應(yīng)區(qū)別對(duì)待。 選擇數(shù)據(jù)庫(kù) 數(shù)據(jù)庫(kù)檢索的正確與否將直接影響到檢索結(jié)果的好壞。數(shù)據(jù)庫(kù)選擇不當(dāng),就會(huì)得出完全不符合要求的結(jié)果。選庫(kù)時(shí)要遵循以下原則 : 要根據(jù)用戶

23、信息檢索的學(xué)科內(nèi)容和目的選擇數(shù)據(jù)庫(kù)。如果檢索課題涉及的內(nèi)容全面而廣泛,為了避免漏檢,應(yīng)同時(shí)選擇幾個(gè)不同的庫(kù),如需檢索的課題內(nèi)容專(zhuān)業(yè)性很強(qiáng),則可以選擇專(zhuān)業(yè)文檔進(jìn)行檢索。 在同時(shí)有幾個(gè)數(shù)據(jù)庫(kù)可供檢索的情況下,應(yīng)首先選擇比較熟悉的數(shù)據(jù)庫(kù)。這樣能既快速又準(zhǔn)確地查找到真正需要的文獻(xiàn)信息。 當(dāng)幾個(gè)數(shù)據(jù)庫(kù)的內(nèi)容交叉重復(fù)率比較高時(shí),應(yīng)選擇檢索費(fèi)用比較低廉的數(shù)據(jù)庫(kù)。 當(dāng)用戶要求檢索的文獻(xiàn)量比較大時(shí),可首先用瀏覽的方式,按主題或?qū)W科專(zhuān)業(yè)的方式查找。 編制檢索式,選擇檢索入口 利用各種算符構(gòu)造檢索式,然后選擇檢索入口即字段,如:題名、著者、主題詞、文摘、全文等。 用主題詞在主題范圍(或字段)、文摘范圍、題名范圍、全

24、文范圍檢索稱(chēng)主題途徑 用著者姓名在著者范圍檢索稱(chēng)著者途徑 用分類(lèi)號(hào)進(jìn)行分類(lèi)檢索稱(chēng)分類(lèi)途徑 用專(zhuān)利號(hào)、分子式檢索稱(chēng)其它途徑是按照學(xué)科分類(lèi)體系查找文獻(xiàn)的途徑,采用的是“分類(lèi)目錄”和“分類(lèi)索引”。按分類(lèi)進(jìn)行查找,用分類(lèi)途徑能夠把同一學(xué)科的文獻(xiàn)信息集中在一起檢索出來(lái)。其缺點(diǎn)是分類(lèi)表是事先編制好的,一些新學(xué)術(shù)論文增補(bǔ)不及時(shí),依此途徑檢索,所得文獻(xiàn)容易落后于學(xué)科發(fā)展;又由于每篇文獻(xiàn)是按學(xué)科規(guī)類(lèi)的,查出的結(jié)果涉及面寬,針對(duì)性不強(qiáng),因而還需要進(jìn)一步篩選。分類(lèi)途徑要確定的檢索點(diǎn)是分類(lèi)號(hào),根據(jù)分類(lèi)號(hào)編制檢索式。根據(jù)文獻(xiàn)的主題特征,利用各類(lèi)主題目錄和索引進(jìn)行檢索的途徑,即利用從文獻(xiàn)中抽象出來(lái)的或經(jīng)過(guò)人工規(guī)范化的,能

25、夠代表文獻(xiàn)內(nèi)容的詞來(lái)檢索。主題目錄和主題索引就是將文獻(xiàn)按表征其內(nèi)容特征的主題詞組織起來(lái)的索引系統(tǒng)。利用主題途徑檢索時(shí),只要根據(jù)所選用主題詞的字順(字母順序、音序、筆畫(huà)順序等)找到所查主題詞,就可查得相關(guān)文獻(xiàn)。主題途徑具有直觀、專(zhuān)指、方便等特點(diǎn),打破了按學(xué)科分類(lèi)的方法,時(shí)分散在各個(gè)學(xué)科領(lǐng)域里的有關(guān)課題的文獻(xiàn)集中于同一主題。 主題途徑要確定的檢索點(diǎn)是檢索詞,根據(jù)檢索詞確定檢索式。檢索詞的確定要進(jìn)一步分析課題得出。分析檢索課題,確定檢索詞 檢索詞是表達(dá)用戶信息需求和檢索課題內(nèi)容的基本元素,也是計(jì)算機(jī)檢索系統(tǒng)進(jìn)行匹配的基本單元。正確的主題分析是制定檢索策略的保證,它決定了檢索策略的質(zhì)量和檢索效果的好壞

26、。因此,務(wù)必要在分析課題的主題概念中掌握課題的內(nèi)容實(shí)質(zhì),概括出能最恰當(dāng)?shù)卮碇黝}概念的檢索詞。 使用標(biāo)準(zhǔn)化的術(shù)語(yǔ) 分析出課題內(nèi)容實(shí)質(zhì) 從相應(yīng)的規(guī)范詞表中選定所需的檢索詞 注意同義詞、近義詞 其它 盡管在不少數(shù)據(jù)庫(kù)中都允許使用關(guān)鍵詞檢索。但是,在選用關(guān)鍵詞的過(guò)程中切忌使用國(guó)際上不通行的術(shù)語(yǔ),避免使用冷僻詞和自選詞。如“第三世界”、“下崗”這樣的詞不能達(dá)到預(yù)期的效果。 尋找出隱性的主題概念。使用最吻合于檢索要求的檢索詞。分析課題的內(nèi)容實(shí)質(zhì)不僅要從課題名稱(chēng)中找出能滿足檢索課題要求的檢索詞,而且要從學(xué)科專(zhuān)業(yè)和檢索目的的角度,根據(jù)出能夠反映課題實(shí)質(zhì)內(nèi)容的主題詞。 例如,社會(huì)保險(xiǎn)包含“養(yǎng)老保險(xiǎn)”、“失業(yè)保

27、險(xiǎn)”、“醫(yī)療保險(xiǎn)”和“社會(huì)救濟(jì)”等下位概念,要根據(jù)需要選取主題詞。 由于主題詞是文獻(xiàn)標(biāo)引和檢索中必須共同遵循使用的語(yǔ)言,而且很多數(shù)據(jù)庫(kù)都有自己的主題詞表,所以在有數(shù)據(jù)庫(kù)專(zhuān)用詞表的情況下,應(yīng)優(yōu)先選用詞表中的規(guī)范詞,以便能使檢索獲得最佳的效果。 注意同義詞、近義詞在確定檢索詞時(shí),除了要考慮反映主題概念的同義詞、近義詞等相關(guān)詞以外,還要注意到被選用詞的縮寫(xiě)詞及不同拼法的詞,以便在編制檢索式時(shí)考慮到這些因素,避免漏檢有關(guān)的文獻(xiàn)。從詞表規(guī)定的專(zhuān)業(yè)范圍出發(fā),選用各學(xué)科內(nèi)具有檢索意義的基本名詞術(shù)語(yǔ)避免使用頻率低的詞多選用基本詞匯進(jìn)行組配一般不選動(dòng)詞和形容詞等內(nèi)取法:從課題字面上分解出檢索詞外概法:從題意中概

28、括出檢索詞 利用著者(個(gè)人或單位著者)目錄和著者索引進(jìn)行檢索的途徑。國(guó)外對(duì)著者途徑非常重視,許多檢索工具都把著者索引作為最基本的輔助索引。著者途徑的特點(diǎn)是:科研人員一般是各有所長(zhǎng),尤其是有些領(lǐng)域的知名學(xué)者、專(zhuān)家,他們的文章一般都代表了一定的水平和動(dòng)向,通過(guò)著者線索,可以系統(tǒng)地發(fā)現(xiàn)和掌握他們研究的進(jìn)展和他們的最新論著。一定程度上可以引導(dǎo)查找到同類(lèi)或相關(guān)文獻(xiàn)。這種途徑的檢索既快速又方便,但查得的文獻(xiàn)缺乏系統(tǒng)性和完整性。 根據(jù)文獻(xiàn)的序號(hào)特征,利用其序號(hào)索引進(jìn)行檢索的途徑。許多文獻(xiàn)具有唯一的序號(hào),如ISBN、ISSN、專(zhuān)利號(hào)等。根據(jù)這些序號(hào)可真誠(chéng)不同的序號(hào)索引。在已知序號(hào)的前提下,利用序號(hào)途徑能方便地

29、查找所需文獻(xiàn)。 分類(lèi)途徑:利用分類(lèi)名和分類(lèi)號(hào)進(jìn)行檢索。其結(jié)果是該類(lèi)目所有的文獻(xiàn)分類(lèi)途徑:利用分類(lèi)名和分類(lèi)號(hào)進(jìn)行檢索。其結(jié)果是該類(lèi)目所有的文獻(xiàn),檢索結(jié)果較全。檢索結(jié)果較全。題名(篇名)途徑:利用篇名中的字詞或篇名的一部分進(jìn)行檢索。其結(jié)題名(篇名)途徑:利用篇名中的字詞或篇名的一部分進(jìn)行檢索。其結(jié)果是所有在篇名中出現(xiàn)該字、該詞或該部分的文章,檢索結(jié)果較準(zhǔn)。果是所有在篇名中出現(xiàn)該字、該詞或該部分的文章,檢索結(jié)果較準(zhǔn)。主題詞主題詞/關(guān)鍵詞途徑:利用文章篇首標(biāo)明的與該篇文獻(xiàn)主題相關(guān)的詞進(jìn)行關(guān)鍵詞途徑:利用文章篇首標(biāo)明的與該篇文獻(xiàn)主題相關(guān)的詞進(jìn)行檢索。其結(jié)果是包含該主題詞或關(guān)鍵詞的所有文獻(xiàn),結(jié)果較準(zhǔn)。檢索

30、。其結(jié)果是包含該主題詞或關(guān)鍵詞的所有文獻(xiàn),結(jié)果較準(zhǔn)。 著者途徑:利用文獻(xiàn)作者名字進(jìn)行檢索。可查到該作者的所有文獻(xiàn)。但著者途徑:利用文獻(xiàn)作者名字進(jìn)行檢索??刹榈皆撟髡叩乃形墨I(xiàn)。但不系統(tǒng)不系統(tǒng)出處途徑:利用原文獻(xiàn)刊載處進(jìn)行檢索??刹榈侥晨d處刊登的所有文獻(xiàn)全文關(guān)鍵詞途徑:用于全文數(shù)據(jù)庫(kù)檢索。利用從文獻(xiàn)題名和正文中抽出的、表達(dá)文獻(xiàn)主題內(nèi)容的、有實(shí)際意義的詞進(jìn)行檢索。結(jié)果全,但有誤檢;全文自由詞(任意詞):用于全文數(shù)據(jù)庫(kù)檢索。利用文獻(xiàn)中的任意字或詞進(jìn)行檢索,結(jié)果全,但誤檢率高。年份途徑:利用年份進(jìn)行檢索??刹榈侥衬攴莩霭娴乃形墨I(xiàn)。一般與其他途徑合并使用。上機(jī)檢索及反饋調(diào)節(jié)在得到檢索結(jié)果后,可能會(huì)出

31、現(xiàn)一下三種讓人不太滿意的情況: 檢索結(jié)果太少 檢索結(jié)果太多 檢索結(jié)果并非我們要的內(nèi)容如果要擴(kuò)大命中文獻(xiàn)的數(shù)據(jù)(提高查全率),可使用以下方法:選擇在文摘字段中檢索;減少用“AND”或“NOT”算符聯(lián)結(jié)的概念;增加用“OR”聯(lián)結(jié)檢索詞;選用上位詞或近義詞;采用截詞檢索法要減少檢索記錄的總數(shù)(提高查準(zhǔn)率),可以: 將檢索詞的查找范圍限定在篇名、關(guān)鍵詞、或敘詞字段; 利用文獻(xiàn)的外表特征限制檢索; 增加用“AND”聯(lián)結(jié)的概念; 利用邏輯“非”進(jìn)行限制; 充分利用下位類(lèi)檢索詞; 在檢出記錄中選取新的檢索詞對(duì)結(jié)果進(jìn)行再次限制。 檢查檢索詞拼法是否正確。檢索課題 選擇數(shù)據(jù)庫(kù) 課題分析確定檢索點(diǎn)/詞制定檢索式計(jì)算機(jī)處理結(jié)果檢驗(yàn)用戶NY這是檢索過(guò)程的終結(jié),也是文獻(xiàn)檢索的最終目的。獲取原文一般有三個(gè)步驟:(1)整理文

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論