信息檢索原理與技術(shù)-圖文_第1頁
信息檢索原理與技術(shù)-圖文_第2頁
信息檢索原理與技術(shù)-圖文_第3頁
信息檢索原理與技術(shù)-圖文_第4頁
信息檢索原理與技術(shù)-圖文_第5頁
已閱讀5頁,還剩78頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 1 信息檢索的概念與類型 2 信息檢索的途徑 3 信息檢索技術(shù) 4 信息檢索方法 5 信息檢索步驟與策略第2章 信息檢索原理1 信息檢索的概念與類型1.1 信息檢索的概念1.2 信息檢索的類型1.3 信息檢索的流程廣義:信息檢索包括信息的存儲和信息的檢 索,又稱為“信息存儲與檢索” 。 狹義: “信息存儲與檢索”的后半部分,通常稱為“信息查找”或 “信息搜尋” ,是指從信息集合中找出用戶所需的有關(guān)信息的過程。1.1 信息檢索的概念手工信息檢索:通過手工方式利用檢索工具來處 理和查找文獻的過程。如:文摘、目錄、參考工具書等。 計算機檢索:又包括聯(lián)機檢索、光盤檢索和網(wǎng)絡(luò)檢索。1.2 信息檢索的類

2、型按檢索方式劃分:手工檢索和計算機檢索聯(lián)機檢索聯(lián)機檢索是指用戶利用計算機終端,通過通信線路或網(wǎng)絡(luò),在聯(lián)機中心的數(shù)據(jù)庫中獲取信息。特點:同時檢索多個數(shù)據(jù)庫、數(shù)據(jù)質(zhì)量高、檢索機與主機是主仆關(guān)系、對檢索人員要求高、而且檢索需要的費用高。 計算機檢索1.2 信息檢索的類型光盤檢索用光盤作為信息存儲介質(zhì)的數(shù)據(jù)庫。分為單機檢索和局域網(wǎng)內(nèi)的聯(lián)機光盤檢索。 計算機檢索1.2 信息檢索的類型網(wǎng)絡(luò)信息檢索用戶在自己的客戶端上,通過互聯(lián)網(wǎng)和瀏覽器界面對網(wǎng)絡(luò)信息進行檢索。特點數(shù)據(jù)庫分布式存儲,數(shù)量多,信息量大;由于超文本語傳輸協(xié)議,提供了大量相關(guān)鏈接;內(nèi)容向多媒體發(fā)展,不僅有文本,還有圖像、聲音等;數(shù)據(jù)庫更新速度快;

3、檢索功能強,索引多,易學(xué)易懂;但目前各數(shù)據(jù)庫檢索界面和檢索技巧不盡相同,給使用者造成不必要的麻煩;檢索環(huán)境寬松,檢索費用比聯(lián)機檢索低很多。(網(wǎng)絡(luò)信息檢索也包括通過網(wǎng)絡(luò)進行的數(shù)據(jù)庫檢索) 計算機檢索1.2 信息檢索的類型 按檢索對象的性質(zhì)劃分:書目檢索、數(shù)據(jù)檢索、事實檢索和全文檢索。 書目檢索:以文獻的外表特征和內(nèi)容特征檢索。如題名、著者、文獻號碼、文獻出處和收藏處等。 數(shù)據(jù)檢索:以特定數(shù)據(jù)為檢索對象和檢索目的的信息檢索類型稱為數(shù)據(jù)檢索。如:有關(guān)計算公式、數(shù)據(jù)圖表、化學(xué)分子式等。 1.2 信息檢索的類型 事實檢索:是獲取以事物的實際情況為基礎(chǔ)而集合生成新的分析結(jié)果的一類信息檢索。 全文檢索:以文

4、獻所包含的全部信息內(nèi)容為檢索對象。1.2 信息檢索的類型1.3 信息檢索的流程信息存儲過程信息檢索過程著錄標引比較匹配分析選定編制信息資源信息選擇收集信息主題數(shù)據(jù)庫記錄及信息特征標識信息用戶信息需求信息主題檢索提問式及提問標識信息檢索檢索結(jié)果評價/反饋檢索語言分析不滿意滿意輸出2 信息檢索的途徑 信息檢索途徑是由提取信息源的外部與內(nèi)部特征形成的,又稱為檢索點或者檢索入口。1.內(nèi)容特征指由分析構(gòu)成文獻信息源的信息內(nèi)容要素的特征與學(xué)科屬性形成的,主要形成分類、主題兩種。內(nèi)容特征途徑:從文獻包含的信息內(nèi)容特征來檢索信息的途徑。2.外表特征指從構(gòu)成文獻信息源的載體、符號系統(tǒng)、記錄方式三要素中提取出的特

5、征構(gòu)成。外表特征途徑:利用文獻的外表特征來檢索文獻信息的途徑。分類途徑主題途徑2.1 內(nèi)容特征途徑一種按照文獻資料所屬學(xué)科(專業(yè))類別進行檢索的途徑。檢索工具的分類表為我們提供了從分類角度進行檢索的途徑。是通過文獻資料的內(nèi)容主題進行檢索的途徑,主題途徑依據(jù)的是各種主題索引或關(guān)鍵詞索引,主題索引或關(guān)鍵詞索引按檢索詞的字順排列,檢索者只要根據(jù)課題確定了檢索詞(主題詞或關(guān)鍵詞),便可以像查字典那樣,按照字順去逐一查找,從檢索詞下的索引款目,找到所需文獻的線索。中國圖書館圖書分類法 1999年推出了第四版,共分大部類22個基本大類。22個基本大類是在5在部類的基礎(chǔ)上第一次劃分得到的,稱為一級類目,分別

6、對應(yīng)一個英文字母;從基本大類起,再連續(xù)劃分3次,得到二級、三級、四級類目。 采用漢語拼音字母和數(shù)字相結(jié)合的方式對圖書進行分類,是目前國內(nèi)各公共圖書館和高校圖書館普遍使用的圖書分類法,我館藏書也是按照該分類法進行排架。按照學(xué)科范疇及知識之間的關(guān)系列出類目,并用數(shù)字、字母符號對類目進行標識的一種語言體系,也稱分類法。目前常用的分類法有中國圖書館圖書分類法(簡稱中圖法)、 美國國會圖書館分類法、 杜威分類法、 國際專利分類表。分類途徑專利分類法國際專利分類表國際專利分類表(International Classification of Patent for Invention, 簡稱或IPC) 19

7、68年9月1日在國際范圍生效,以后每5年修訂一次。IPC按照技術(shù)主題來設(shè)立類目表。首先將與發(fā)明專利有關(guān)的全部技術(shù)領(lǐng)域劃分為八個部,部號分別用大寫英文字母A到H來表示。各部(Section)按等級形式再細分為大類(Class)、小類(Subclass)、主組(Maingroup)、分組(Subgroup),形成五級分類的結(jié)構(gòu)形式。IPC由9個分冊組成,18分冊分別對應(yīng)八個部,第9分冊是使用指南。在IPC中,八個部分別是:A:生活必需B:作業(yè)運輸C:化學(xué)與冶金D:紡織與造紙E:固定建筑物F:機械工程;G:物理H:電學(xué)分類途徑用于檢索信息的特點具有等級結(jié)構(gòu),便于擴大和縮小檢索范圍。用分類號做檢索標識

8、,不存在文種的限制。分類表中的類目不能隨時變化,不能及時反映新的學(xué)科技術(shù),邊緣交叉學(xué)科只能從學(xué)科門類進行檢索。隸屬于一個門類下,造成漏檢。例如:查找“金屬工藝”類文獻圖書期刊分類科學(xué)系統(tǒng)、族性檢索、查全率高主題詞:以規(guī)范化的詞匯來表達文獻內(nèi)容的主題的詞語。規(guī)范詞匯:同義詞“煤炭”與“煤” 近義詞“天然資源”與“自然資源” 學(xué)名和俗名“計算機”與“電腦” 多義詞“cell”(細胞、電池) 如何提取主題詞? 詞意應(yīng)該具體 意義廣泛的詞不應(yīng)作為檢索詞 技術(shù)方面的少數(shù)課題,可直接用課題名稱中包含的具有檢索意義的概念或者代碼 主題途徑關(guān)鍵詞:對表征文獻主題內(nèi)容具有實質(zhì)意義的或?qū)沂疚墨I內(nèi)容來說是重要的、

9、關(guān)鍵性的、只做少量規(guī)范化處理或不做規(guī)范化處理的自然詞語。1 例如:課題是“經(jīng)濟體制改革有關(guān)資料(1998-1999)”,如何確定檢索標識?主題詞:國企改革、所有制改革、國有資產(chǎn)管理與制度改革、金融改革、社會保障改革、勞動就業(yè)改革等。2 例如:檢索“圖書館虛擬參考咨詢服務(wù)”方面的文獻,如何提取關(guān)鍵詞? 關(guān)鍵詞:虛擬參考咨詢服務(wù)、圖書館服務(wù)、參考咨詢服務(wù)等題名途徑著者途徑文獻編號途徑其它途徑2.2 外部特征途徑是根據(jù)文獻的題名來查找文獻的途徑,它依據(jù)的是題名索引。是根據(jù)已知文獻著者來查找文獻的途徑,它依據(jù)的是著者索引,包括個人著者索引和機關(guān)團體索引。是以編號為特征,編排和檢索文獻的途徑,如專利文獻

10、的檢索可根據(jù)“專利號索引”進行檢索。有些檢索工具還附有一些特殊索引,可以通過特殊途徑找到所需文獻的線索。如專用符號代碼索引(分子式,元素符號),專用名詞術(shù)語索引(地名等)。中國現(xiàn)當代文學(xué)基礎(chǔ)譚浩強四、信息檢索發(fā)展歷程手工檢索到計算機檢索題錄文摘信息到全文信息的獲得計算機檢索經(jīng)歷了聯(lián)機檢索、光盤檢索和網(wǎng)絡(luò)檢索方式發(fā)展趨勢是異構(gòu)數(shù)據(jù)庫的統(tǒng)一平臺檢索(我們下面的講課內(nèi)容側(cè)重于計算機信息檢索)1 布爾邏輯檢索2 截詞檢索4 位置檢索常用檢索技術(shù)3 全文檢索 計算機信息檢索過程實際上是將檢索提問詞與文獻記錄標引詞進行對比匹配的過程。為了提高檢索效率,計算機檢索系統(tǒng)常采用一些運算方法,從概念相關(guān)性、位置相

11、關(guān)性等方面對檢索提問實行技術(shù)處理。檢索式(formula,profile,statement)是檢索策略的邏輯表達式,是用來表達用戶檢索提問的,由基于檢索概念產(chǎn)生的檢索詞和各種組配算符構(gòu)成。3 信息檢索技術(shù)布爾邏輯檢索邏輯“與”(用and 或*表示)邏輯“或”(用OR 或+表示)邏輯“非”(用NOT或-表示)1.布爾邏輯檢索 在檢索實踐中,檢索提問涉及的概念往往不止一個,而同一個概念又往往涉及多個同義詞或相關(guān)詞。為了正確地表達檢索提問,系統(tǒng)中采用布爾邏輯運算符將不同的檢索詞組配起來,使一些具有簡單概念的檢索單元通過組配成為一個具有復(fù)雜概念的檢索式,用以表達用戶的信息檢索要求。用and 或*表示

12、,是一種用于交叉概念或限定關(guān)系的組配,它可以縮小檢索范圍,有利于提高檢索的專指性。在網(wǎng)絡(luò)搜索引擎中習慣用空格代替。如查同時含有概念A(yù)和概念B的文獻,可表示為:“A and B”或“A*B”。檢索結(jié)果如圖所示,圖中陰影部分即為同時包含A 和B 兩個概念的命中文獻。(1)邏輯“與”A and BAB例:查找“弱勢群體”并且作者是“樓策群”的文獻,怎么表達? 弱勢群體 and 樓策群 用OR 或“+”表示,是用于具有并列概念關(guān)系的組配。這種組配可以擴大檢索范圍,提高查全率。 例如,檢索含有檢索項A 或檢索項B 的文獻,可表示為: “A OR B”或“A+B”。檢索結(jié)果是將含有檢索項A 的文獻集合與含

13、有檢索項B 的文獻集合相加,形成一個新的集合。檢索結(jié)果如圖1-5 所示,圖中陰影部分即為包含A 或B的命中文獻。圖中兩者共同的部分只計一次,故避免了命中文獻的重復(fù)出現(xiàn)。B(2)邏輯“或”AA or B查找包含計算機或者電腦的所有文章。 (3)邏輯“非”A not BAB 用“NOT”或“-”表示,是用于從某一檢索范圍中排除不需要的概念。這種組配可以縮小檢索范圍。在搜索引擎中,常用“-”號表示。 例如,在含有概念A(yù)的文獻集合中,排除同時含有概念B的文獻,可表示為:“A NOT B”或“A-B”。檢索結(jié)果如圖所示,圖中空白部分即為包含A且排除B的命中文獻。例:查找“大學(xué)生信息素養(yǎng)培養(yǎng)”并且不包括“

14、圖書館”的文獻,怎么表達? 信息素養(yǎng)培養(yǎng)-圖書館 在上述邏輯算符中,其運算優(yōu)先級順序為NOT,AND,OR,但是可以用括號改變它們之間的運算順序。例如,(A OR D) AND B,表示先執(zhí)行“A OR D”的檢索,再與B進行AND 運算。 布爾邏輯檢索檢索式的構(gòu)造注意:1. 準確反映提問的主要內(nèi)容2. 適應(yīng)檢索規(guī)則3. 符合檢索功能及限制條件的規(guī)定是一個能反映檢索課題需求,同時能為計算機識別的表達式。檢索式構(gòu)造技巧句子切分網(wǎng)絡(luò) 與 當代 社會 文化 的 關(guān)系詞匯剔除網(wǎng)絡(luò) 社會 文化概念替換水質(zhì)細菌 的計算方法水質(zhì)污染 的計算方法概念限定與補充食品+食物(近義詞補充)計算機+電腦(同義詞)地滾

15、球+保齡球線路(無線電)(概念限定)思考:1.檢索錢偉長在清華大學(xué)以外的機構(gòu)工作期間所發(fā)表的,題名中包含“流體”或者“力學(xué)”文章。檢索式:題名=流體 or 力學(xué) and (作者=錢偉長 not 機構(gòu)=清華大學(xué)) 2. 檢索錢偉長在清華大學(xué)期間,刊名為“應(yīng)用數(shù)學(xué)和力學(xué)”的期刊上發(fā)表的文章。檢索式:作者=錢偉長 and 機構(gòu)=清華大學(xué) and 來源=應(yīng)用數(shù)學(xué)和力學(xué)4 信息檢索的方法 信息檢索的方法是根據(jù)檢索課題的需要與檢索系統(tǒng)的現(xiàn)狀靈活選定的。4.1 常用法 又稱直接法,是指直接利用檢索工具(系統(tǒng))檢索文獻信息的方法,這是文獻檢索中最常用的一種方法。根據(jù)具體的檢索需要,可分為3種情況:順查法、倒查

16、法和抽查法。4.2 追溯法4.3 綜合法順查法含義:按照時間的順序,由遠及近地利用檢索系統(tǒng)進行文獻信息檢索的方法。優(yōu)點:漏檢,誤檢率低缺點:但勞動量較大。重點:能收集到某一課題的系統(tǒng)文獻,用于較大課題的文獻檢索。優(yōu)點:可以最快地獲得新資料,概括了前期的成果,反映了最新水平和動向,這種方法勞動量較小。倒查法含義:是由近及遠,從新到舊,逆著時間的順序利用檢索工具進行文獻信息檢索的方法。重點:在近期文獻,只需查到基本滿足需要時為止??捎糜谛抡n題立項前的調(diào)研缺點:容易造成漏檢。抽查法重點:適合于檢索某一領(lǐng)域研究高潮很明顯的,某一學(xué)科的發(fā)展階段很清晰的,某一事物出現(xiàn)頻率在某一階段很突出的課題。含義:抽查

17、法是針對檢索課題的特點,選擇有關(guān)該課題的文獻信息最可能出現(xiàn)或最多出現(xiàn)的時間段,利用檢索工具進行重點檢索的方法。優(yōu)點:花費較少時間能查得較多有效文獻的一種檢索方法。 含義:指不利用一般的檢索工具,而是利用已經(jīng)掌握的文獻末尾所列的參考文獻,進行逐一地追溯查找“引文”的一種最簡單的擴大情報來源的方法。 優(yōu)點:它還可以從查到的“引文”中再追溯查找“引文”,依據(jù)文獻間的引用關(guān)系,獲得越來越多的內(nèi)容相關(guān)文獻。這些內(nèi)容相關(guān)的文獻反映著某一課題的立論依據(jù)和背景,也在某種程度上反映著某課題或其中的某一觀點,某種發(fā)現(xiàn)的發(fā)展過程。 缺點:原文著者引用的參考文獻是有限的,誤檢,漏檢的可能性大。4.2 追溯法 含義:又

18、稱為循環(huán)法,它是把上述兩種方法加以綜合運用的方法。綜合法既要利用檢索工具進行常規(guī)檢索,又要利用文獻后所附參考文獻進行追朔檢索,分期分段地交替使用這兩種方法。即先利用檢索工具(系統(tǒng))檢到一批文獻,再以這些文獻末尾的參考目錄為線索進行查找,如此循環(huán)進行,直到滿足為止。因為參考文獻一般都是引用5年以內(nèi)的重要文獻,所以交替期可定為5年。 優(yōu)點:綜合法兼有常用法和追溯法的優(yōu)點,可以查得較為全面而準確的文獻,是實際中采用較多的方法,尤其適用于對那些過去年代內(nèi)文獻較少的課題。4.3 綜合法5 信息檢索的步驟與策略 信息檢索是根據(jù)即定的課題要求,利用檢索工具(或系統(tǒng)),按照一定的方法和步驟把符合需求的文獻挑選

19、出來的過程。 檢索步驟: 1)分析研究課題,明確文獻需求 2)選擇檢索工具,確定檢索方法 3)確定檢索途徑和檢索標識 4)優(yōu)化檢索提問與策略 5)分析檢索結(jié)果 6)索取原文1)分析研究課題,明確文獻需求 (1)明確檢索目的 (2)明確課題的主題或主要內(nèi)容 (3)課題涉及的學(xué)科范圍 (4)所需信息數(shù)量、語種、年代范圍、類型等具體指標。例:我們要查找關(guān)于“納米氧化鋁制備技術(shù)”方面的資料。 在著手檢索前,要明確檢索目的,了解檢索課題的內(nèi)容及性質(zhì),明確學(xué)科或?qū)I(yè)范圍等。最后分析哪些是已知檢索線索,了解和掌握有關(guān)學(xué)科的專家學(xué)者以及研究機構(gòu)等目前的有關(guān)課題,為檢索提供充分而有利的條件。經(jīng)過分析得知,納米功

20、能氧化鋁的制備技術(shù)涉及的主題概念有:納米、超細材料、氧化鋁、制備工藝。2)選擇檢索工具,確定檢索方法 通常可采用兩種方法:一是瀏覽圖書館檢索工具室內(nèi)陳列的全部檢索刊物,從中挑選確定;二是通過查閱國內(nèi)外出版的檢索工具指南,從中挑選確定。為了迅速,準確地查找文獻,還必須針對某一課題的具體情況選用適宜的檢索方法,是使用常用法,綜合法,還是使用其它方法,這些都是應(yīng)該在檢索前確定下來。 我們可選擇如下檢索工具:手工檢索工具:中國機械工程文摘中國學(xué)術(shù)期刊文摘有色金屬文摘中國化學(xué)文摘中國物理文摘 網(wǎng)絡(luò)數(shù)據(jù)庫:中國期刊全文數(shù)據(jù)庫CNKI中文科技期刊數(shù)據(jù)庫維譜資訊萬方數(shù)據(jù)資源系統(tǒng)3)確定檢索途徑和檢索標識 文獻

21、檢索可以利用文獻的內(nèi)容特征和外表特征。當我們拿到一項課題后,具體先用哪一條或哪幾條檢索途徑,這需要從課題對文獻本身的特定要求和已掌握的線索而定。 1.如系統(tǒng)查找某一課題的文獻資料,一般應(yīng)選擇內(nèi)容途徑; 2.如需了解某位科學(xué)家近期研究情況,則需從外表特征中的著者途徑查找。 檢索途徑確定之后,就要根據(jù)課題要求擬定相應(yīng)的檢索標識,當選擇內(nèi)容途徑時,有些檢索工具還要求將檢索標識與相應(yīng)的詞表或類表進行核對,以提高查準率。 例上題:由于納米氧化鋁的制備技術(shù)所涉及的技術(shù)領(lǐng)域較寬,可采用內(nèi)容途徑的主題途徑檢索,并輔以分類途徑。為達到查全的目的,可利用查出文獻的作者及文后的參考文獻做進一步的檢索,以擴大檢索范圍

22、。4)優(yōu)化檢索提問與策略檢索提問式檢索效果是質(zhì)檢結(jié)果的有效方法,它反應(yīng)了檢索系統(tǒng)的能力。衡量檢索結(jié)果的兩個主要指標是查全率和查準率,分別用R和P表示。 查全率:也稱為命中率、檢全率等。指系統(tǒng)實施檢索是撿出的與某一檢索提問相關(guān)的信息資源數(shù)與檢索系統(tǒng)中與該提問相關(guān)的實有信息資源總數(shù)之比。 查準率:也稱相關(guān)率,檢索精度等,指系統(tǒng)實施檢索時檢出的與某一檢索提問相關(guān)的信息資源數(shù)與檢出的信息資源總數(shù)之比。5)分析檢索結(jié)果不滿意滿意非目標性結(jié)果結(jié)果太多結(jié)果太少進行調(diào)整打印、存盤、獲取原文等6)查找文獻線索,索取原文。 確定檢索途徑之后,根據(jù)檢索標識,如著者姓名,分類號,主題詞等,通過有關(guān)索引進行文獻檢索。

23、方法主要有: 查找館藏單位 與收藏單位聯(lián)系 直接向著者索取 聯(lián)機定購選擇質(zhì)量較高的檢索系統(tǒng)。提高用戶使用檢索系統(tǒng)的能力:善于利用各種輔助索引。提高檢索效果的途徑提高檢索效果的途徑 (1) 提高檢索工具的質(zhì)量 對用戶而言,則要選擇適合課題的學(xué)科覆蓋范圍的、優(yōu)質(zhì)的檢索工具,包括其收錄的全面、著錄的清楚、標引的準確、完善等等。 (2) 提高用戶利用檢索工具的能力 使之具備一定的檢索語言知識,能選取正確的檢索詞,并能合理使用邏輯組配符號完整地表達文獻需求的主題;能靈活運用各種檢索方法和檢索途徑等,使檢索工具最大限度地發(fā)揮作用。比如,全面準確地表達檢索要求,合理使用文獻檢索點。根據(jù)不同檢索課題的需要,適

24、當調(diào)整對查全率和查淮率的要求。充分發(fā)揮檢索系統(tǒng)的功能。 2.信息檢索系統(tǒng)的構(gòu)成從物理構(gòu)成來講分為計算機、通信網(wǎng)絡(luò)、檢索終端和數(shù)據(jù)庫從檢索方式劃分聯(lián)機檢索、光盤檢索和網(wǎng)絡(luò)檢索 物理構(gòu)成(1)計算機檢索系統(tǒng)的核心部分,也包括硬件和軟件(2)通信網(wǎng)絡(luò)聯(lián)機檢索終端與本地或遠程計算機的橋梁(3)檢索終端用戶與檢索系統(tǒng)傳遞信息進行人機對話的裝置(4)數(shù)據(jù)庫一系列信息的集合,是檢索系統(tǒng)中的信息源 1.計算機信息檢索系統(tǒng)的概念 由存儲在一定載體上的有序化信息集合、相應(yīng)的檢索技術(shù)與設(shè)備等構(gòu)成的具有存儲和檢索功能的信息服務(wù)體系。 計算機信息檢索是利用計算機系統(tǒng)有效存儲和快速查找的能力發(fā)展起來的一種計算機應(yīng)用技術(shù)。

25、 第四節(jié) 計算機信息檢索數(shù)據(jù)庫數(shù)據(jù)庫是一系列信息記錄的集合,是檢索系統(tǒng)中的信息源。存儲于計算機的磁帶、磁盤或光盤上。數(shù)據(jù)庫分為題錄文摘數(shù)據(jù)庫和全文數(shù)據(jù)庫中文數(shù)據(jù)庫和外文數(shù)據(jù)庫綜合數(shù)據(jù)庫和專業(yè)數(shù)據(jù)庫圖書、期刊、學(xué)位論文、專利、標準等數(shù)據(jù)庫檢索系統(tǒng)的評價(1)檢索的方便性 檢索是否方便,決定著系統(tǒng)效用能否充分發(fā)揮,檢索方便性由多方面因素決定的(2)收錄全面性 覆蓋面:檢索系統(tǒng)收錄范圍所覆蓋的學(xué)科面和出版物類型及其數(shù)量 摘儲率:檢索系統(tǒng)收錄的文獻信息數(shù)量與其覆蓋面內(nèi)全部文獻信息數(shù)量的比率 指導(dǎo)數(shù):檢索系統(tǒng)在一定時間內(nèi)報道文獻信息的數(shù)量,如文摘或題錄的條數(shù)(3)檢索效率 檢全率:從檢索系統(tǒng)檢出的有關(guān)某

26、課題的文獻信息數(shù)量與檢索系統(tǒng)中實際與該課題有關(guān)的文獻信息總量之比率 檢準率:從檢索系統(tǒng)檢出的有關(guān)某課題的文獻信息數(shù)量與檢出的文獻信息總量比率查全率=(檢出相關(guān)信息資源量/系統(tǒng)相關(guān)信息資源總量)100%查準率=(檢出相關(guān)信息資源量/檢出信息總量)100% 例:在1000萬條數(shù)據(jù)中,含有“重慶市環(huán)境保護與治理”的文獻2000條,在對該檢索系統(tǒng)進行檢索時,共檢出3000條,其中與“重慶市環(huán)境保護與治理”這一主題相關(guān)文獻數(shù)位1500條,求其查全率和查準率。解答:查全率=(檢出相關(guān)信息資源量/系統(tǒng)相關(guān)信息資源總量)100% =(1500/2000)100%=75%查準率=(檢出相關(guān)信息資源量/檢出信息總

27、量)100% =(1500/3000)100%=50%研究表明:世界上最好的搜索引擎其查全率只有45%,其查準率更低。一般而言,查全率高時,查準率低;精度高時,查全率低。 查全率與查準率的局限性 查全率的局限性表現(xiàn)在:它是檢索出的相關(guān)信息量與檢索系統(tǒng)中的全部相關(guān)信息量之比,但系統(tǒng)中相關(guān)信息量究竟有多少是不確知的,只能估計。另外其假設(shè)檢索出來的信息對用戶有用,但是對于不同的用戶其信息價值是不同的。 查準率的局限性表現(xiàn)在:若檢索結(jié)果是題錄式而非全文,用戶很難判斷檢索的信息是否符合其需求。(4)報導(dǎo)及時性 報導(dǎo)及時性:指導(dǎo)新出現(xiàn)文獻信息的速度 時差:文獻信息從其發(fā)表到檢索系統(tǒng)提供給用戶的這段時間間隔

28、第五節(jié) 信息檢索語言一、檢索語言的概念和作用檢索語言是信息存儲與檢索過程中用于描述信息特征和表達用戶信息提問的一種專門語言。 檢索語言是人與計算機對話的基礎(chǔ)。檢索時的匹配運算就是通過檢索語言的匹配來實現(xiàn)的。存儲信息時,賦予信息特征標識,如題名、作者、分類號等;檢索信息時,用檢索語言表達用戶的需求。檢索舉例查找我館館藏中“英語”方面的2000年以來出版的圖書的藏書情況二、檢索語言的分類自然語言從信息內(nèi)容本身自動抽取的。如題名、著者、號碼、關(guān)鍵詞、文摘、作者所在機構(gòu)等。 題名語言是按文獻題名順逐字排檢。 著者語言是按著者姓名,按姓前名后的字順逐字排檢。 號碼語言是按文獻代碼,如專利號、標準號,報告

29、號,ISBN號等的順序排檢。人工語言根據(jù)檢索的需要由人工規(guī)定的,采用規(guī)范詞或代碼來專指某個概念或網(wǎng)羅與之相應(yīng)的概念??梢詫⑼x詞、近義詞、相關(guān)詞、多義詞及縮略詞規(guī)范在一起,由人工控制,包括分類檢索語言和主題檢索語言。1、分類語言分類語言是以號碼為基本字符,用分類號來表達各種概念,將各種概念按學(xué)科性質(zhì)進行分類和系統(tǒng)排列。按照學(xué)科范疇及知識之間的關(guān)系列出類目,并用數(shù)字、字母符號對類目進行標識的一種語言體系,也稱分類法。 分類法產(chǎn)生得最早、用得最多的是圖書分類法。 目前常用的分類法有中國圖書館圖書分類法(簡稱中圖法)、美國國會圖書館分類法、杜威分類法、國際專利分類表、中國科學(xué)院圖書館圖書分類法-簡稱科圖法、國際十進分類法-UDC。中國圖書館圖書分類法 1999年推出了第四版,共分大部類22個基本大類。22個基本大類是在5大部類的基礎(chǔ)上第一次劃分得到的,稱為一級類目,分別對應(yīng)一個英文字母。從基本大類起,再連續(xù)劃分3次,得到二級、三級、四級類目。 采用漢語拼音字母和數(shù)字相結(jié)合的方式

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論