信息檢索筆記_第1頁(yè)
信息檢索筆記_第2頁(yè)
信息檢索筆記_第3頁(yè)
信息檢索筆記_第4頁(yè)
信息檢索筆記_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第一章信息資源的概述一.傳統(tǒng)信息資源的概述1.概念與特征2.類型:(1)一類文獻(xiàn):原始文獻(xiàn)(2)二類文獻(xiàn):對(duì)一類文獻(xiàn)的加工整理,報(bào)道揭示一類文獻(xiàn),提供的是一類文獻(xiàn)的線索和地址(書目,索引,文獻(xiàn))(3)三類文獻(xiàn):來(lái)源于一類文獻(xiàn),有豐富的權(quán)威的資料,可以解決各種問(wèn)題。如:百科全書,字典,詞典,手冊(cè),年鑒,名錄二.?dāng)?shù)字信息資源1.與傳統(tǒng)信息資源相比具有的特征:(1)以多媒體為內(nèi)容特征(2)內(nèi)容復(fù)雜多樣(3)更新速度快,時(shí)效性強(qiáng)(4)利用不受時(shí)空限制(5)具備檢索系統(tǒng)(6)具備全方位的動(dòng)態(tài)的信息服務(wù)功能2.數(shù)字信息資源的類型:(1)按性質(zhì)和功能劃分:a)一次文獻(xiàn):原始文獻(xiàn)b)二次文獻(xiàn):參考數(shù)據(jù)庫(kù),搜素引擎,網(wǎng)資,導(dǎo)航等。c)三次文獻(xiàn):元搜素引擎(關(guān)于搜素引擎的搜素引擎)(2)按載體劃分:光盤,網(wǎng)絡(luò)數(shù)據(jù)庫(kù),聯(lián)機(jī)檢索系統(tǒng)(三)主要數(shù)字信息資源參考型數(shù)據(jù)庫(kù):包含各種數(shù)據(jù)信息的來(lái)源和屬性的數(shù)據(jù)庫(kù)。包括:書目數(shù)據(jù)庫(kù),索引數(shù)據(jù)庫(kù),文獻(xiàn)數(shù)據(jù)庫(kù)全文數(shù)據(jù)庫(kù):收錄有原始文獻(xiàn)全文的數(shù)據(jù)庫(kù)事實(shí)數(shù)據(jù)庫(kù);直接提供原始文獻(xiàn)的數(shù)據(jù)庫(kù),分為數(shù)值數(shù)據(jù)庫(kù),指南數(shù)據(jù)庫(kù),術(shù)語(yǔ)數(shù)據(jù)庫(kù)4.電子圖書5電子報(bào)紙6.搜索引擎分類指南7.網(wǎng)絡(luò)學(xué)術(shù)資源學(xué)科導(dǎo)航:對(duì)各類信息資源進(jìn)行篩選整理之后,按學(xué)科屬性對(duì)其進(jìn)行分類、組織。第二章信息檢索概述一.信息檢索:信息檢索就是利用一定的檢索工具,運(yùn)用一定的檢索技術(shù)和方法查找信息的過(guò)程。二.信息檢索的原理1.利用計(jì)算機(jī)進(jìn)行信息檢索的前提和基礎(chǔ)是信息的組織和貯存。沒(méi)有貯存就沒(méi)有檢索對(duì)象。2.排方法將其組織起來(lái),形成有序的具有可檢性特征的數(shù)據(jù)庫(kù)。3.計(jì)算機(jī)進(jìn)行信息檢索的原理就是指用戶和檢索人員將能夠表達(dá)其信息需求的檢索式提交給檢索系統(tǒng),檢索系統(tǒng)即自動(dòng)將檢索式與系統(tǒng)中的信息進(jìn)行匹配,凡是信息特征標(biāo)識(shí)和邏輯組配關(guān)系與用戶檢索式一致的,既未命中內(nèi)容。這種“匹配”實(shí)際上就是一種字符串的類比運(yùn)算。三.信息檢索語(yǔ)言(也即標(biāo)識(shí))1.檢索語(yǔ)言的概念與作用(1)檢索語(yǔ)言是信息存儲(chǔ)與檢索過(guò)程中用于描述信息特征和表達(dá)用戶信息提問(wèn)的一種專門語(yǔ)言。它是人與檢索系統(tǒng)對(duì)話的基礎(chǔ)。信息信息內(nèi)容抽取主題概念標(biāo)識(shí)檢索系統(tǒng)標(biāo)識(shí)存儲(chǔ)信息信息需求檢索(2)標(biāo)引即對(duì)信息內(nèi)容進(jìn)行分析,并運(yùn)用一定的語(yǔ)言和方法,根據(jù)信息內(nèi)容的學(xué)科屬性和其他特征賦予其標(biāo)識(shí),并以此作為信息組織、存儲(chǔ)、檢索依據(jù)的過(guò)程。(3)標(biāo)引過(guò)程:主題分析——標(biāo)引——標(biāo)引結(jié)果記錄狹義的對(duì)文章的標(biāo)引:從上圖可知,信息檢索語(yǔ)言的作用:對(duì)文獻(xiàn)的外部特征和內(nèi)容進(jìn)行多維描述,提供多種檢索過(guò)程,以便用戶從不同角度進(jìn)行檢索。2.檢索語(yǔ)言的類型:分類檢索語(yǔ)言人工語(yǔ)言主題檢索語(yǔ)言代碼檢索語(yǔ)言a)分類檢索語(yǔ)言:將各種概念按學(xué)科類型進(jìn)行系統(tǒng)排列,并用分類號(hào)表示。b)選取依據(jù)為出現(xiàn)頻率、標(biāo)引頻率、查找頻率。標(biāo)題詞語(yǔ)言主題檢索語(yǔ)言單元詞語(yǔ)言敘詞語(yǔ)言敘詞:經(jīng)過(guò)詞匯控制后,在信息組織中顯示文獻(xiàn)主題,在信息檢索中構(gòu)造檢索提問(wèn)式的一種檢索詞匯。它以語(yǔ)詞的概念組配而不是字面組配為特征。又稱為描述詞、敘述詞、主題詞。敘詞法就是以敘詞為標(biāo)識(shí)符號(hào),標(biāo)引和檢索信息的方法,可用復(fù)合詞來(lái)表達(dá)主題概念,檢索式是由多個(gè)敘詞組成復(fù)合邏輯的組配,形成多種組合方式。自然語(yǔ)言檢索詞:是從信息內(nèi)容中直接抽取的,主要依賴計(jì)算機(jī)自動(dòng)抽詞完成。其中標(biāo)識(shí)詞包括:關(guān)鍵詞、題名,作者,全文、引文、摘要。限制性自然語(yǔ)言:對(duì)自然語(yǔ)言進(jìn)行限制,只保留其中的重要詞。3.索引(也即標(biāo)引)檢索語(yǔ)言就是索引語(yǔ)言,索引是信息標(biāo)引的過(guò)程;索引是表明文獻(xiàn)特征的信息。(1)概念:索引就是對(duì)信息組織的過(guò)程。它包括分析信息內(nèi)容和用索引語(yǔ)言或檢索語(yǔ)言對(duì)信息內(nèi)容進(jìn)行描述。部分索引結(jié)構(gòu)舉例:索引標(biāo)目出處項(xiàng)Informationretrizeval(內(nèi)容分析檢索)p4,p10,p18音樂(lè)檢索與利用(題名索引)新華文摘李四—情報(bào)學(xué)報(bào),(585-89(1118架,189位(定位位置檢索)(2)索引的類型:a.b.按對(duì)象劃分:機(jī)構(gòu)索引、姓名索引、圖書索引、論文索引、專利索引、報(bào)刊索引按標(biāo)目所使用的提示符號(hào)劃分:語(yǔ)言檢索、代碼檢索、圖形檢索、數(shù)據(jù)檢索自動(dòng)索引:自動(dòng)索引就是指計(jì)算機(jī)在沒(méi)有人工干預(yù)的前提下,根據(jù)一定的自動(dòng)分析算法對(duì)信息內(nèi)容進(jìn)行分析與描述。索引的目的:a.b.c.通過(guò)主題詞確定文件地址分析文件的分布狀態(tài)決定文件和查詢之間的關(guān)系最終目的:進(jìn)行信息檢索自動(dòng)索引的作用:避免不一致性,節(jié)約檢索時(shí)間(這里的一致性指用戶輸入檢索系統(tǒng)的檢索式與檢索系統(tǒng)中對(duì)信息特征進(jìn)行描述的標(biāo)識(shí)詞相匹配)自動(dòng)索引的過(guò)程:a.b.c.輸入全文通過(guò)空格、標(biāo)點(diǎn)來(lái)分析分解全文,作為結(jié)果把有用和無(wú)用的詞放入詞庫(kù)把有用詞(最能表達(dá)文章主題的詞)和無(wú)用詞分開給有用詞賦予權(quán)重(相關(guān)性)d.如何把有用詞和無(wú)用詞分開,找出最能表達(dá)文章主題的標(biāo)識(shí)詞,從而有效進(jìn)行檢索:停用詞表法:停用詞:通用的表達(dá)語(yǔ)法關(guān)系、以及其他的相關(guān)詞,當(dāng)他們離開上下文后就不再具有任何的語(yǔ)停用詞表:由在信息處理過(guò)程中可以被忽視或者過(guò)濾的詞組成。停用詞的缺陷:a.b.無(wú)法識(shí)別索引詞的重要性,無(wú)法給實(shí)義詞賦予權(quán)值;無(wú)法對(duì)短語(yǔ)做出索引,過(guò)濾掉某些虛詞之后短語(yǔ)就不再具有原來(lái)的含義,或者整個(gè)短語(yǔ)都會(huì)被過(guò)濾掉,無(wú)法有效進(jìn)行檢索。原始詞頻法:一個(gè)詞在文章中出現(xiàn)的頻率越高,它越能夠表達(dá)文章的主題思想。因此,出現(xiàn)頻率越高的詞就會(huì)被留下來(lái)作為索引。反之,低頻詞就會(huì)被去除。通常在原始詞頻法中有一個(gè)底線,如果一個(gè)詞出現(xiàn)的次數(shù)超出或者等于這個(gè)底線,那么它就會(huì)被選出來(lái)作為索引詞底線發(fā)生變化,索引詞也發(fā)生變化原始詞頻法的缺陷:未考慮到文章的長(zhǎng)短,底線的設(shè)定無(wú)法適應(yīng)任何文章。標(biāo)準(zhǔn)詞頻法:詞頻一個(gè)詞在文章中出現(xiàn)的次數(shù)一篇文獻(xiàn)中包含的所有詞的數(shù)量≤≤1,f即頻率k即關(guān)鍵詞:關(guān)鍵詞在一個(gè)句子中并不是獨(dú)立的,該方法為考慮到一個(gè)詞在整個(gè)數(shù)據(jù)庫(kù)中的影響力其作為鑒別詞的鑒別力就越強(qiáng),精度就越大。反向詞頻法:的頻率,N指數(shù)據(jù)庫(kù)中包含文件的個(gè)數(shù),指數(shù)據(jù)庫(kù)中包含關(guān)鍵詞k的文件的數(shù)量。在信息檢索領(lǐng)域,log一般默認(rèn)為以2為底,此處用log是為了弱化k對(duì)權(quán)重的影響,因?yàn)橛绊憴?quán)重的因素還有其他的。反向詞頻法一種計(jì)算詞在文章中權(quán)重的方法。反向就是指詞k在數(shù)據(jù)庫(kù)中出現(xiàn)的頻率越低,鑒別能力就越。其他影響權(quán)重的因素:a.b.c.詞在文章中的位置,如:標(biāo)題、摘要、結(jié)論斜體字句子形式:提出了……,討論了……,顯示了……用and和or等連接起來(lái)的詞通常具有相同的含義。d.自動(dòng)摘要:非全文摘取,摘取關(guān)鍵句子,刪除無(wú)用的句子頻率,N指一個(gè)文件中句子的數(shù)量,K的句子的個(gè)數(shù)。通過(guò)將一個(gè)句子中所包含的各個(gè)詞的權(quán)值相加得出一個(gè)句子的權(quán)重根據(jù)各個(gè)句子權(quán)重的大小按降序?qū)⑽募兴芯渥舆M(jìn)行排序選出具有最高權(quán)重的句子將所選出的句子整理成文摘四.信息組織的結(jié)構(gòu)1.從信息檢索的視角來(lái)看,數(shù)據(jù)組織的兩個(gè)重要方面是:他所描述的概念和關(guān)系,以及它是如何支持檢索運(yùn)行的。2.數(shù)據(jù)庫(kù)的構(gòu)成:文檔——記錄——字段(1)文檔是由若干條記錄構(gòu)成的信息集合。文檔是書目數(shù)據(jù)庫(kù)和檢索系統(tǒng)中數(shù)據(jù)組織的基本形式。(2)根據(jù)數(shù)據(jù)庫(kù)的內(nèi)部形式,一個(gè)數(shù)據(jù)庫(kù)最少包含一個(gè)順排文檔和一個(gè)倒排文檔(其實(shí)是一個(gè)索引順排文檔:1)概念:按文獻(xiàn)記錄的輸入順序(文獻(xiàn)序號(hào))排列的文檔。順排文檔相當(dāng)于印刷型檢索工具的正文部分。在順排文檔中,記錄按順序一個(gè)接一個(gè)存放,一個(gè)序號(hào)代表一條記錄,存取號(hào)越大對(duì)應(yīng)的記錄就越新。由于順排文檔存取的是最完整的信息,所以通常又把它成為主文檔。這種貯存方法決定了,在對(duì)信息進(jìn)行檢索時(shí),需要對(duì)記錄按順序一一進(jìn)行掃描,存取的記錄越多,檢索的速度越慢。2)優(yōu)點(diǎn):易于存儲(chǔ)、操作和貯存3)缺點(diǎn):a.b.c.很難更新和插入一個(gè)新的記錄,需要移動(dòng)大量的數(shù)據(jù)信息。隨機(jī)存取一篇文獻(xiàn)太難。不能表達(dá)文獻(xiàn)中復(fù)雜的多層次的關(guān)系。倒排文檔1)它類似于C語(yǔ)言中的指針,指向的是地址)2)對(duì)于信息檢索而言,這就意味著每給出一個(gè)關(guān)鍵詞就能迅速找出包含關(guān)鍵詞的文件地址。3)倒排文檔要求文件地址按文件編號(hào)順序編排。4)倒排文檔是把順排文檔中的標(biāo)引詞抽出,按字母順序依次排列5)倒排文檔中的倒排是相對(duì)于順排文檔而言的。其實(shí)在計(jì)算機(jī)處理器中,倒排文檔也是按順排文檔的存取方式存取的。二者的區(qū)別在于:順排文檔是以完整的記錄作為處理和檢索單元,而倒排文檔則是以字段作為處理和檢索單元。倒排文檔相對(duì)于印刷檢索系統(tǒng)中的輔助索引。6同的字段組成一個(gè)混排文檔。倒排文檔(表一)Numberofposting(輸入輸記錄PostingoffileAddress(命中文獻(xiàn)的記錄地址1233324561001456communitydevelopment2檢索時(shí)倒排文檔對(duì)應(yīng)的順排文檔(表二)Address(在順排文檔中的地址)Rewordnumber(在順排文檔中的記12331456324561001、8725……4、5、67……community(注:該表相當(dāng)于關(guān)系型數(shù)據(jù)庫(kù)中表關(guān)鍵詞即主鍵不同的兩表的對(duì)應(yīng)關(guān)系)五.信息檢索工具1.概念:指具有檢索性、資料性功能的所有文獻(xiàn)資料、數(shù)據(jù)庫(kù)和信息檢索系統(tǒng)。檢索性:具備完備的檢索系統(tǒng),是有序建立的索引。資料性:必須具有權(quán)威性、可靠性。2.類型:()按功能劃分:線性型,資料型,綜合型線性型:提供的是信息的出處、來(lái)源和地址,如:書目,索引,文摘。資料性:有豐富的資料,如:工具書綜合型:電子版的,如:電子數(shù)據(jù)庫(kù)、大型聯(lián)機(jī)系統(tǒng)等(2)從檢索手段、方式上劃分:手工檢索工具和計(jì)算機(jī)檢索工具五.信息檢索的步驟與方法(一)步驟:1.課題分析2選擇相關(guān)檢索工具3.構(gòu)選檢索式4.調(diào)整檢索策略5.評(píng)價(jià)檢索結(jié)果(二)信息檢索的方法1.瀏覽2.簡(jiǎn)單檢索(用于信息量比較小、檢索手段缺乏的時(shí)候)3.復(fù)雜檢索(高級(jí)、專家、指南檢索)4.自然語(yǔ)言檢索5.指令檢索:又稱命令檢索,它是由檢索者自行輸入檢索指令,系統(tǒng)即按該指令進(jìn)行相應(yīng)的運(yùn)行,查出所需結(jié)果)6.二次檢索六.信息檢索方法功能技術(shù)(一)布爾檢索法布爾檢索法就是指利用布爾運(yùn)算符連接各個(gè)檢索詞,然后由計(jì)算機(jī)進(jìn)行相應(yīng)的邏輯運(yùn)算,以找出信息的方法。布爾運(yùn)算符Boolean布爾邏輯)【1】【2】【3】【4】【5】AND邏輯與——它要求用其連接的兩個(gè)檢索詞必須出現(xiàn)在檢索到的文件中OR邏輯或——它要求用其連接的兩個(gè)檢索詞必須有一個(gè)出現(xiàn)在檢索文件中NOT邏輯非——它要求用其連接的兩個(gè)檢索詞中,其后面的詞不能出現(xiàn)在檢索到的文件中復(fù)合使用布爾邏輯運(yùn)算符的優(yōu)先使用級(jí)別圓括號(hào)中的檢索式優(yōu)先執(zhí)行()>not>and>or在同意級(jí)別中按從左到右的順序進(jìn)行操作【6】規(guī)則:not(AandB)==notAornotBNot(AorB)==notAandnotB布爾邏輯的局限性:1)2)3)4)5)6)關(guān)鍵詞的重要性不能按權(quán)重體現(xiàn)出來(lái)查詢到的文件不能按查詢相關(guān)度進(jìn)行排序用戶必須嚴(yán)格遵循算法并且必須理解每個(gè)運(yùn)算的含義“非”運(yùn)算對(duì)檢索查詢結(jié)果影響很大布爾邏輯和布爾查詢并不完全相同缺乏有效反饋信息來(lái)支持用戶調(diào)整檢索、查詢(二)詞位檢索法(課本)利用位置運(yùn)算符號(hào)連接各個(gè)檢索詞,讓計(jì)算機(jī)進(jìn)行相應(yīng)的位置邏輯運(yùn)算,從而查找出所需信息的檢索方法。其中,位置連接運(yùn)算符是用于規(guī)定檢索詞在文獻(xiàn)記錄中的位置關(guān)系的符號(hào)。在實(shí)際檢索中,利用位置連接運(yùn)算符可有效提高查全率和查準(zhǔn)率常用運(yùn)算符:課本()A(not——查詢檢索詞B不能直接跟在A后的文獻(xiàn)A(not——查詢檢索詞B能在A后,但AB兩詞之間的間隔詞大于n的文獻(xiàn)A(not——查詢檢索詞B不出現(xiàn)在檢索詞A附近的文獻(xiàn)(三)字段檢索法(課本)(四)截詞檢索法(課本)(五)加權(quán)檢索所謂加權(quán)檢索即是賦予特定的檢索詞以特定的權(quán)值,以查找所需信息的方法?,F(xiàn)在常用的,用“+”表示某個(gè)檢索詞必須出現(xiàn)在檢索結(jié)果中,-表示某個(gè)檢索詞一定不出現(xiàn)在檢索結(jié)果中。在于判定檢索詞或字符串在滿足檢索邏輯后對(duì)文獻(xiàn)命中與否的影響程度。加權(quán)檢索的基本方法:1.在每個(gè)提問(wèn)檢索詞后面給定一個(gè)權(quán)值2.3.設(shè)定一個(gè)各個(gè)檢索詞權(quán)值相加后得到的閾值作為命中記錄的條件。中內(nèi)容。(六)概念檢索——與語(yǔ)義、字面有關(guān)(概念檢索是對(duì)模糊檢索的進(jìn)一步深入和明確)檢索出于這個(gè)檢索詞同屬一類概念的詞匯的結(jié)果。檢索原理:1.2.3.計(jì)算機(jī)概念描述元素都統(tǒng)一對(duì)概念意義進(jìn)行分類對(duì)所有標(biāo)識(shí)編制索引,形成相應(yīng)的倒排文檔文件索引文件,便可得到檢索結(jié)果。概念檢索包含兩個(gè)方面:同義檢索,相關(guān)概念聯(lián)想檢索(七)模糊檢索觀點(diǎn)一:系統(tǒng)允許被檢索信息和檢索提問(wèn)式之間存在差異觀點(diǎn)二:實(shí)質(zhì)上是檢索系統(tǒng)自動(dòng)進(jìn)行的同義詞檢索,同義詞又系統(tǒng)的管理界面配置。(八)區(qū)分大小寫檢索:指系統(tǒng)對(duì)用戶檢索時(shí)包含的大小寫處理方式。不同的系統(tǒng)其處理方式不同。(九)限制檢索:指在檢索時(shí),利用一些限制來(lái)縮小檢索面和檢索結(jié)果。常見(jiàn)的限定都是用文獻(xiàn)的外部特征:包括出版時(shí)間,出版語(yǔ)種,文獻(xiàn)類型,文獻(xiàn)出處。七.信息檢索的類型(一)傳統(tǒng)載體信息檢索。例如:字典、詞典(二)聯(lián)機(jī)數(shù)據(jù)庫(kù)檢索1.概念:是指用戶利用計(jì)算機(jī)終端設(shè)備通過(guò)通信線路或網(wǎng)絡(luò),在聯(lián)機(jī)檢索中心的數(shù)據(jù)庫(kù)進(jìn)行檢索并獲取信息的過(guò)程。2)數(shù)據(jù)量大(3)檢索功能強(qiáng)(2)數(shù)據(jù)跟新快(4)安全性能好(6)檢索界面單一(5)檢索費(fèi)用高3.構(gòu)成:終端設(shè)備、聯(lián)機(jī)信息檢索中心、數(shù)據(jù)通信網(wǎng)絡(luò)具體解釋見(jiàn)課本P125)(三)光盤數(shù)據(jù)庫(kù)特點(diǎn):數(shù)據(jù)含量有限,數(shù)據(jù)跟新速度慢檢索功能強(qiáng)檢索環(huán)境寬松用戶界面比較友好,較為直觀。第三章網(wǎng)絡(luò)信息檢索一.信息網(wǎng)絡(luò)檢索工具的構(gòu)成搜索器,檢索器,索引器,用戶檢索界面網(wǎng)站上的目錄或輸入恰當(dāng)?shù)年P(guān)鍵詞或短語(yǔ)的方式進(jìn)行。1.根據(jù)事先設(shè)定好的主題范圍從一個(gè)服務(wù)器爬到另一個(gè)服務(wù)器,來(lái)獲取相關(guān)信息及網(wǎng)頁(yè)。Crawlingtheweb:最常用的算法是從一組urls(統(tǒng)一資源定位器)開始查詢,然后按照廣度優(yōu)先或者深度優(yōu)先的方法從其中分析出它的urls。robots深度優(yōu)先:使用這種方法,robots首先跟蹤頁(yè)面中的第一個(gè)連接點(diǎn)并以此類推,知道其再也沒(méi)有可再往下鏈接的點(diǎn)為止,或者達(dá)到一個(gè)認(rèn)為連接的點(diǎn)為止?!?】【2】【3】【4】【5】最開始的urls應(yīng)該是很普遍的不同的crawler應(yīng)該避免多次訪問(wèn)相同的頁(yè)面用國(guó)家代碼來(lái)區(qū)分網(wǎng)站,分別用不同的robot來(lái)指向不同的網(wǎng)站提及索引的每個(gè)網(wǎng)站的日期有些搜索引擎是按照網(wǎng)頁(yè)的更新頻率去定期訪問(wèn)該網(wǎng)頁(yè)的。2.3.4.索引器檢索器:分析布爾檢索請(qǐng)求,將檢索詞和索引詞在索引庫(kù)中進(jìn)行匹配,對(duì)檢索結(jié)果進(jìn)行排序復(fù)雜界面還提供多種檢索限制以及各種信息瀏覽功能。二.網(wǎng)絡(luò)信息檢索工具的類型布爾檢索截詞檢索詞位檢索字段檢索短語(yǔ)~概念~模糊~區(qū)分大小寫~網(wǎng)路信息檢索工具的布爾檢索布爾檢索法是網(wǎng)絡(luò)中使用最廣泛的一種檢索方法。幾乎所有的檢索工具都具備,但在實(shí)現(xiàn)方式上各有不同,可以分為以下類型:1.按嚴(yán)格意義上的布爾檢索法操作,可分為3種:(1)(2)用戶必須親自在搜索框中輸入檢索詞和運(yùn)算符用戶只需在搜索框附近的菜單中點(diǎn)擊選擇使用運(yùn)算符2.3.支持部分布爾檢索功能用其他符號(hào)代替布爾運(yùn)算符與and4.與圓括號(hào)結(jié)合使用網(wǎng)絡(luò)信息檢索工具的詞位檢索法功能與notor與“缺省值”.使用near指令利用雙引號(hào)進(jìn)行短語(yǔ)檢索限定短語(yǔ)默認(rèn)檢索?將用戶輸入的兩個(gè)詞自動(dòng)視為一個(gè)詞組進(jìn)行檢索網(wǎng)絡(luò)檢索工具的截詞檢索其實(shí)現(xiàn)方式有兩種類型1.2.利用通配符,代表了詞干后可能的一切詞形單純利用詞干或菜單選項(xiàng)網(wǎng)絡(luò)檢索工具的字段檢索功能1.2.3.主題字段限定非主題字段限定其他限定四.網(wǎng)路信息檢索工具的檢索方法1.瀏覽、目錄檢索2.簡(jiǎn)單檢索3.高級(jí)檢索五.元搜索引擎1.概念:它是一種網(wǎng)絡(luò)服務(wù)器,它能將查詢請(qǐng)求同時(shí)發(fā)送給多個(gè)搜索引擎、網(wǎng)絡(luò)指南以及其他數(shù)據(jù)庫(kù),然后將答案集中整理。2結(jié)構(gòu)用戶——元搜素引擎——網(wǎng)絡(luò)——各個(gè)獨(dú)立搜索引擎4.5.優(yōu)點(diǎn)類型(1)all-in-on類型(集中羅列,單獨(dú)檢索類)特點(diǎn):檢索界面不統(tǒng)一一次只能使用一個(gè)檢索工具對(duì)各個(gè)獨(dú)立檢索工具的界面復(fù)制可能是部分的或者全面的直接用所選的檢索工具的顯示格式呈現(xiàn)給用戶(2)并行檢索,結(jié)果綜合類?即以唯一確定的檢索界面,實(shí)現(xiàn)對(duì)多個(gè)獨(dú)立型檢索工具索引庫(kù)的檢索,并將檢索結(jié)果以統(tǒng)一格式顯示的搜索引擎?特點(diǎn):統(tǒng)一的檢索界面檢索指令轉(zhuǎn)換統(tǒng)一檢索結(jié)果集的組織與轉(zhuǎn)換第四章聯(lián)機(jī)系統(tǒng)數(shù)據(jù)庫(kù)檢索一.聯(lián)機(jī)數(shù)據(jù)庫(kù)結(jié)構(gòu)課本P125-126)二.聯(lián)機(jī)系統(tǒng)的利用——檢索步驟()三.Dialog系統(tǒng)檢索1.dialog系統(tǒng)的連入方法1)2)3)專線聯(lián)入利用telnet利用www瀏覽器聯(lián)入2.檢索指令(課本——)1)2)3)4)5)6)Begincommand選擇文檔指令Selectcommand檢詞指令Typecommand打印指令Displaycommand顯示指令Currentcommand當(dāng)前指令Expendcommand擴(kuò)詞指令3.基本索引字段4.輔助索引字段5.范疇查詢Eg:SPD=20010115:20080131從2001年一月15號(hào)到2008年一月31號(hào)的記錄的集合6.數(shù)值查詢,>=,<=,>,<Eg:S:SA>=100000銷售額大于等于100000的公司縮寫:KTHOUSANDMILLIONBILLIONMBTTRILLIONPERCENT%7.聯(lián)機(jī)詞表:toviewanonlinethesauris,entertheexpendcommand8.特殊指令Sort:對(duì)最后檢索結(jié)果進(jìn)行排序Eg:sort將s1中的所有文獻(xiàn)按作者和標(biāo)題排序9.一攬子檢索:允許用戶用一個(gè)檢索式同時(shí)在多個(gè)數(shù)據(jù)庫(kù)中進(jìn)行檢索,同元搜索引擎相似Eg:begin516,531打開第516和531個(gè)文檔Beginscitechnot77打開自然類數(shù)據(jù)庫(kù)不包括第77個(gè)文檔Setdetailon使用該指令讓系統(tǒng)分別展示所檢索的每一個(gè)數(shù)據(jù)庫(kù)中所看到的文獻(xiàn)個(gè)數(shù)Removeduplicaterecord去掉重復(fù)指令Commandformat:RDSnFROM文件10.dialindexFill411,dialindexisacentralindexformostofthedialogdatabase.indialindexyoucancomparethenumberofrecordsretrievedbyyourstrategyamongagroupofdatabases.?sf——:用于顯示包含主題詞的數(shù)據(jù)個(gè)數(shù)?save——:臨時(shí)文件存儲(chǔ)指令?rankfiles把獲得的文檔按包含的文獻(xiàn)數(shù)量排序第五章綜合型信息檢索工具及其利用一.全國(guó)報(bào)刊索引數(shù)據(jù)庫(kù)二.中國(guó)人民大學(xué)書報(bào)資源中心復(fù)印報(bào)刊資料索引總匯三.Calis(chinaacademiclibraryandinformation)高等教育文獻(xiàn)資源保障系統(tǒng)四.Oclc聯(lián)機(jī)計(jì)算機(jī)圖書館中心(具體功能及使用規(guī)則見(jiàn)數(shù)據(jù)庫(kù)網(wǎng)站)五.萬(wàn)方數(shù)據(jù)資源系統(tǒng)六.Cnki工程數(shù)據(jù)庫(kù)(一)概述:中國(guó)基礎(chǔ)設(shè)施工程,chinanationalknowledgeinformation是以實(shí)現(xiàn)全社會(huì)知識(shí)信息資源共享為目的的國(guó)家信息化重點(diǎn)工程。(二)檢索工程:可以進(jìn)行

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論