檢索字段符課件_第1頁
檢索字段符課件_第2頁
檢索字段符課件_第3頁
檢索字段符課件_第4頁
檢索字段符課件_第5頁
已閱讀5頁,還剩75頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

文獻檢索(信息檢索)

第四章計算機信息檢索技術(shù)G252.7/160=2計算機信息檢索技術(shù)的概念它是指利用現(xiàn)代信息檢索系統(tǒng),如聯(lián)機數(shù)據(jù)庫、光盤數(shù)據(jù)庫和網(wǎng)絡(luò)數(shù)據(jù)庫檢索有關(guān)信息而采用的相關(guān)技術(shù)。各種信息檢索技術(shù)通過不同的檢索點、檢索詞、檢索算符等表達出來。第四章計算機信息檢索技術(shù)第一節(jié)計算機信息檢索技術(shù)的發(fā)展第二節(jié)計算機信息檢索的步驟和策略調(diào)整方法第三節(jié)檢索方式第四節(jié)檢索點、檢索詞和檢索方法第五節(jié)檢索算符第六節(jié)構(gòu)造檢索式第七節(jié)檢索功能第八節(jié)檢索效果評價

第一節(jié)計算機信息檢索技術(shù)的發(fā)展一、計算機信息檢索技術(shù)的發(fā)展歷史1.脫機批處理檢索階段(20世紀50年代中期-60年代中后期)當時,計算機硬件發(fā)展很快,但還沒有連接通信網(wǎng),也沒有遠程終端裝置,不能提供問答服務(wù)的檢索方式,只能進行現(xiàn)刊文獻的定題檢索和過期文獻的追溯檢索,同時利用計算機編輯出版檢索性刊物。所謂脫機批處理方式,是指定期由專職檢索人員把許多用戶課題匯總、批量處理提問要求并把結(jié)果提供給用戶。但缺乏與用戶的交互過程,檢索結(jié)果獲得不及時以及信息需求和檢索結(jié)果存在一定的誤差等2.聯(lián)機檢索階段(20世紀70年代)

20世紀70年代計算機分時系統(tǒng)的出現(xiàn),通信技術(shù)的改進,使得許多終端、遠距離兩地信息的技術(shù)得以推廣,計算機信息檢索技術(shù)從脫機階段進入聯(lián)機信息檢索階段。所謂聯(lián)機檢索,就是用戶使用終端設(shè)備,通過通信線路與中央計算機連接,直接與計算機對話進行檢索,結(jié)果由終端輸出。雖然聯(lián)機檢索無需委托,直接面向最終用戶,在檢索過程中是“人機對話”有很強的交互功能,而能能及進取得檢索結(jié)果,但檢索指令復(fù)雜需要依賴專業(yè)檢索人員,且檢索費用昂貴,一般用戶難以承受。許多著名的聯(lián)機檢索系統(tǒng)有:DIALOG、MEDLINE3.光盤檢索階段(20世紀80年代)光盤是20世紀80年在計算機技術(shù)、激光技術(shù)等現(xiàn)代科技成果的基礎(chǔ)上發(fā)展起來的新型電子出版物,檢索費用大大低于聯(lián)機檢索,利用光盤存儲信息方便、便于攜帶,除可以追溯檢索、定題服務(wù)外,還可用于“自建庫”和做聯(lián)機檢索預(yù)處理。但它光盤檢索得到的信息又不十分及時。4.網(wǎng)絡(luò)化聯(lián)機檢索階段(網(wǎng)絡(luò)信息檢索)(20世紀90年代至今)它使人們可以在很短的時間里查遍全球的信息資料,使人類的信息資源共享成為可能,使網(wǎng)上的信息源利用率提高,信息組織更為有序和有效。二、計算機信息檢索技術(shù)的發(fā)展趨勢1.以人工智能為代表的信息檢索自動化趨勢網(wǎng)絡(luò)信息檢索自問世以來,自動化技術(shù)就占了主導(dǎo)地位,包括自動標引、自動文摘、自動分類等信息自動化技術(shù)極大地促進了檢索效率的提高。信息檢索自動化技術(shù)的發(fā)展取決于人工智能技術(shù)的研發(fā)程度,其中的自然語言分析和處理使人工智能與信息檢索有著密切的聯(lián)系,信息檢索工具開始把人工智能更多地引入網(wǎng)絡(luò)信息的標引和檢索中,特別在自然語言理解、機器翻譯、專家系統(tǒng)等方面已取得了進展。2.多媒體信息檢索技術(shù)的發(fā)展Web出現(xiàn)以前,由于檢索工具本身的限制,信息僅限于文本檢索。以顯示多媒體為特點的Web為非文本信息檢索提供了良機。目前,包括圖像檢索、影像檢索和聲音檢索的多媒體聲像檢索成為信息檢索領(lǐng)域研究的熱點。3.多語種檢索的支持網(wǎng)絡(luò)信息檢索的多語種支持功能就顯得愈加重要,現(xiàn)在解決多語種支持的訪求有以下幾種:把檢索結(jié)果限制在某一種語言之內(nèi);使用某一種語言直接檢索,它代表了多語種檢索的主流;最后一種是自動的翻譯檢索結(jié)果。4.個性化檢索工具和專業(yè)化檢索工具通用的檢索工具具有永遠無法彌補的缺陷,即使提高了檢索工具的標引和檢索機制,收效卻不是很顯著。因此,開發(fā)個性化和專業(yè)化的檢索工具是大勢所趨。如MEDLINE,也開通了Web界面供用戶免費檢索,作為一個專業(yè)聯(lián)機檢索數(shù)據(jù)庫,其檢索功能和效果是目前網(wǎng)絡(luò)信息檢索工具所望塵莫及的。第二節(jié)計算機信息檢索的步驟和策略調(diào)整方法信息檢索一般有分析檢索課題、選擇檢索系統(tǒng)、確定檢索策略(選擇檢索點和檢索詞、制定檢索式)、調(diào)整檢索策略以及獲取原始文獻等步驟。檢索步驟如下:一、分析研究課題明確檢索要求二、選擇檢索系統(tǒng)三、選擇檢索點、檢索詞四、制定檢索式五、實施檢索六、修正或調(diào)整檢索策略七、獲取檢索結(jié)果一、分析研究課題明確檢索要求檢索課題分析作為檢索策略制定的根本出發(fā)點,要明確檢索課題所包含的概念成份及其相關(guān)關(guān)系,這是檢索效率高低或成敗的關(guān)鍵1.分析課題的主要內(nèi)容、所屬學(xué)科性質(zhì),明確研究課題所需的信息內(nèi)容,從而提出能準確反映課題核心內(nèi)容的主題概念。必要時要做輔助檢索,做到全面了解。2.確定課題的文獻類型如果屬于基礎(chǔ)理論性探討,要側(cè)重于查找期刊論、會議論文、專業(yè)著作。如果是尖端技術(shù)研發(fā),應(yīng)側(cè)重于科技報告、如屬于發(fā)明創(chuàng)造、技術(shù)革新,則應(yīng)側(cè)重于專利文獻。如為產(chǎn)品定型設(shè)計,則需利用標準文獻及產(chǎn)品樣本。明確課題對檢索深度的要求,弄清用戶是需要提供題錄、文摘還是原始文獻。3.確定檢索的所需文獻的時間范圍,所需的語種以及文獻量的多少。根據(jù)課題的起始年代和研究的高峰期確定檢索的時間范圍4.分析用戶的檢索評價要求,即對查新、查準、查全的指標要求。如要了解某學(xué)科、理論、課題、工藝過程等最新進展和動態(tài),則要檢索最近的文獻信息,強調(diào)一個“新”字;若要解決研究中具體問題,找出技術(shù)方案,則要檢索有針對性、能解決實際問題的文獻信息,強調(diào)一個“準”字;如要了解一個全過程、寫綜述、述評、寫專著、做鑒定、報成果,就需回溯大量文獻,要求檢索的全面、詳盡、系統(tǒng),則強調(diào)一個“全”字。二、選擇檢索系統(tǒng)在課題分析的基礎(chǔ)上,根據(jù)課題的特點、信息需求、檢索目的,選擇專業(yè)對口、覆蓋范圍廣、更新及時、內(nèi)容準確權(quán)威、檢索功能完備的檢索系統(tǒng)。數(shù)據(jù)庫選擇3C四原則:Content:數(shù)據(jù)庫存儲的文獻內(nèi)容,涉及學(xué)科范圍、科技含量、數(shù)據(jù)庫類型、數(shù)據(jù)來源。Coverage:數(shù)據(jù)庫的覆蓋面,涉及收錄文獻時間跨度、國家區(qū)域、機構(gòu)、文獻量等Currency:數(shù)據(jù)庫的更新頻率、周期、更新是否及時Cost:數(shù)據(jù)庫的費用,不同的數(shù)據(jù)庫的檢索方式和輸出格式的收費是不一樣的。

三、選擇檢索點、檢索詞

檢索點(檢索途徑)是檢索的出發(fā)點,用于文獻檢索的檢索點很多,反映文獻信息內(nèi)容特征的有:分類檢索和主題檢索;反映文獻外部特征的有:作者檢索、名稱檢索和號碼檢索等。

檢索詞是表達信息需求的基本單元,也是與系統(tǒng)中有關(guān)數(shù)據(jù)庫進行匹配運算的基本單元。檢索詞選擇得當與否,會直接影響檢索效果。檢索詞可分為兩類,一類是表示主題概念的名詞術(shù)語(如敘詞和關(guān)鍵詞),或者是個人或機構(gòu)的名稱(如作者姓名),另一類是某些特殊的符號(如分類號、代碼等)。

四、制定檢索式(由檢索點、檢索詞、檢索算符組成)應(yīng)明確所需檢索的概念及其相互關(guān)系,用系統(tǒng)支持的算符以及提供的各種選項,將這些詞組配起來形成檢索提問式,以充分表達信息需求。五、實施檢索完成了上述工作之后,就可以輸入檢索詞實施檢索了,或根據(jù)手工檢索工具的檢索著手檢索。注意:所輸入的檢索詞必須與檢索項(檢索途徑)相匹配的,否則就會功虧一簣。六、修正或調(diào)整檢索策略

在實際檢索過程中,常會出現(xiàn)檢索結(jié)果過少或過多的情況,這時候就需要及時修正或調(diào)整檢索策略,以完善檢索結(jié)果。擴大文獻檢索量(檢索到的文獻量過少)1.考慮使用同義詞或近義詞(用布爾邏輯或連接)2.選擇能覆蓋較大檢索范圍的檢索點,從篇名擴大到關(guān)鍵詞、摘要或全文。3.使用截詞符4.考慮使用上位詞。如飛行器是航天飛機的上位詞5.放寬檢索限定,如年限、期刊的限定范圍。6.是否有拼寫和語法錯誤縮小文獻檢索量(檢索到的文獻量過多)1.使用AND、NOT以及位置算符限制范圍2.選擇檢索范圍較小的字,如從摘要縮小到篇名進行檢索。3.使用二次檢索4.使用下位詞5.縮小檢索限定,如縮小檢索年限、期刊級別6.使用精確檢索,如對固定短語來說可用“”7.不使用過分含混或一般性的詞匯8.應(yīng)考慮使用控制詞匯9.截詞使用不能過松10.注意數(shù)據(jù)庫的隱含性概念

七、獲取檢索結(jié)果檢索結(jié)果的獲取有多種方式,包括頁面保存、下載、E-mail郵件訂購以及文獻傳遞等,用戶可以根據(jù)自身檢索條件進行選擇。1.利用全文數(shù)據(jù)庫直接獲取如“中國期刊全文數(shù)據(jù)庫”、“萬方數(shù)據(jù)資源系統(tǒng)”、“超星數(shù)字圖書館”等2.利用文獻傳遞系統(tǒng)獲取如“讀秀學(xué)術(shù)搜索”、“安徽高校資源共享系統(tǒng)”、“國家科技圖書文獻中心”“高校人文社會科學(xué)文獻中心”3.利用文摘數(shù)據(jù)庫的原文服務(wù)可以通過收錄文獻的全文鏈接,向數(shù)據(jù)庫商提出索取原文申請。第三節(jié)檢索方式一、瀏覽方式1.分類瀏覽:按學(xué)科類別瀏覽??牲c擊“分類導(dǎo)航”或“分類表”中的任何一個類別,接著顯示所點擊類別的下屬子類,如此類推。分類瀏覽的結(jié)果頁面通?!皺z索詞”的輸入框,以便進行二次檢索,縮小檢索范圍。2.字順瀏覽:按檢索詞首字母為序,提供相應(yīng)檢索字段的瀏覽。如按出版物名稱字順、著者姓名字順等。例如已知刊名,可選擇“按刊名字順瀏覽”,進入期刊訪問頁面,瀏覽或查詢論文。二、查詢方式

初級檢索:也稱快速檢索、基本檢索。利用初級檢索系統(tǒng)能進行快速方便的查詢,適用于不熟悉多條件組合查詢的用戶。高級檢索:也稱擴展檢索。高級檢索可進行多個條件的組合檢索,即多個字段之間有一定邏輯關(guān)系(and,or,not)的檢索。專家檢索:也稱專業(yè)檢索。檢索式中可同時使用檢索詞、邏輯算符(AND,OR,NOT,ANDOT)、字段標識符、鄰近算符、截詞符等多種算符,創(chuàng)建更復(fù)雜的檢索式。二次檢索:在結(jié)果中檢索又稱為二次檢索,當檢索結(jié)果太多,想從中精選出一部分時,可使用二次檢索。第四節(jié)檢索點、檢索詞和檢索方法一、檢索點檢索點(accesspoint)是檢索的出發(fā)點,以前常用“檢索途徑”(approach)這一術(shù)語。現(xiàn)在常用的名稱還有檢索項、檢索入口、檢索字段等。每種文獻均有內(nèi)容特征及其相關(guān)的外表特征,檢索點包括反映文獻信息內(nèi)容特征的分類、主題等檢索點,以及反映文獻信息外表特征的作者、題名、號碼等檢索點。常用的檢索點主要有:分類、主題、作者、團體作者、篇名、摘要、關(guān)鍵詞、全文、基金、號碼等。1.分類檢索點:分類檢索是從文獻內(nèi)容所屬的學(xué)科類別出發(fā)來檢索文獻,它依據(jù)的是一個可參照的分類體系。具體表現(xiàn)為分類表、分類目錄、分類索引、分類導(dǎo)航、分類專輯等。分類檢索點能滿足族性檢索的需求,查全率較高。2.主題檢索點:主題檢索點以課題的主題內(nèi)容為出發(fā)點,按主題詞、關(guān)鍵詞、敘詞、標題詞等來查找文獻。主題檢索點對應(yīng)文獻的主題概念,主要包括題名檢索點、關(guān)鍵詞檢索點、摘要檢索點等。以主題作為檢索點能滿足特性檢索的要求,查準率較高,適合查找比較具體的課題。

3.作者檢索:是從文獻的作者姓名出發(fā)來檢索其文獻?!白髡摺睆V義上還應(yīng)包括:匯編者、編者、主辦者、譯者等,此外,還有代表機構(gòu)、單位的團體作者,包括作者所在單位。4.名稱檢索:是從各種事物的名稱出發(fā)來檢索文獻信息,包括書名、刊名、資料名、出版物名、出版社名、會議名、物質(zhì)名稱等等,也包括人名和機構(gòu)名。書名檢索引、會議名索引、書目索引、刊名索引等者提供了從名稱進行檢索的途徑。5.號碼檢索:號碼檢索點以號碼特征來檢索文獻信息。包括文獻的編號、代碼等,它們是文獻信息的一些特有的外部標識,通常用數(shù)字、字母或用它們結(jié)合的形式或以分段的方式來表示其各部分的含義。如科技報告號、專利號、標準號、ISSN、ISBN、館藏單位的館藏號、索取號等。二、檢索詞無論專業(yè)檢索人員還是一般信息檢索用戶在進行信息檢索時,都面臨著一個問題,這就是主題分析后標引技術(shù)的運用,即正確的選詞。特別是利用國外檢索工具時顯得尤為重要。

檢索詞是表達信息需求的基本單元,也是與系統(tǒng)中有關(guān)數(shù)據(jù)庫進行匹配運算的基本單元。檢索詞選擇得當與否,會直接影響檢索效果。檢索詞可分為兩類,一類是表示主題概念的名詞術(shù)語(如敘詞和關(guān)鍵詞),或者是個人或機構(gòu)的名稱(如作者姓名),另一類是某些特殊的符號(如分類號、代碼等)。(一)選詞原則1.必須反映信息概念的準確性選定的主題詞,主要是各學(xué)科領(lǐng)域文獻中經(jīng)常出現(xiàn)、在信息檢索中有使用價值和一定的使用頻率、能作為主題匯集一定量的文獻或具有敘詞組配功能的名詞術(shù)語,并能通過概念組配可以表達文獻或用戶查詢的特定主題。比如:古代語言演變=古代語言+語言演變古代語言演變=古代語言+演變

2.反映信息內(nèi)容的全面性列舉出所有同義詞、近義詞,防止漏檢。比如:協(xié)同設(shè)計+協(xié)同工作3.注意檢索詞的多樣性比如:軌道鐵軌計算機微機電腦(三)提取檢索詞的方法提取檢索詞是計算機檢索成敗的關(guān)鍵,信息用戶的課題名稱及描述語句往往與檢索系統(tǒng)中的檢索詞有一定的差距,在信息檢索時,需要從課題的名稱及描述性的語句出發(fā),經(jīng)過切分、刪除、替換、增加等步驟,提取檢索詞。1.切分就是以詞為單位劃分句子或詞組。詞是語義切分的最小單元,也是檢索的最小單元。經(jīng)過切分后,檢索課題轉(zhuǎn)換成詞的集合,而這一組檢索詞中,往往只有一個或少數(shù)幾個詞是核心詞,就是必須使用的關(guān)鍵詞,而其他的詞都是限定這個核心詞。如:基于隱馬柯夫模式的離線漢字識別系統(tǒng)計算機操作系統(tǒng)羊毛2.刪除在用戶給的課題描述語句中,往往有不具有檢索意義的虛詞及其它關(guān)鍵詞,必須刪除不需要的詞,將語句轉(zhuǎn)換成為關(guān)鍵詞的集合。(1)刪除不具有檢索意義的虛詞及其關(guān)鍵詞如:基于Web的數(shù)據(jù)庫(2)刪除過分寬泛和過分具體的限定詞過分寬泛沒有觸及問題的實質(zhì),過分具體的限制條件則會掛一漏萬。因此,這些限定詞圴屬于不必要的限定詞,應(yīng)刪除掉。如:稀土材料的研究現(xiàn)狀及發(fā)展趨勢自動熔化極氣體保護電弧焊的可控硅電源(3)刪除存在蘊涵關(guān)系的可合并詞如果兩個詞之間存在相互蘊涵的關(guān)系,可酌情去掉其中一個而保留另一個。如:稀土材料釹(鋁)鐵硼的研究電磁波教學(xué)用的多媒體課件。3.替換用戶可能使用表達欠佳的詞來敘述檢索要求,他們給的詞也許模糊、寬泛、狹窄或不可行,這時,可以用概念替換法,引入更明確、更具體、更本質(zhì)、更可行的概念作為替換詞代替原有詞,或用同義詞和相關(guān)詞增加到原來的概念組中。如: 稀土材料的研制→釤鈷空氣中細菌的計算方法→空氣污染的計算方法4.補充還原詞組許多名詞是經(jīng)由詞組縮略而成,因此,可以采用與縮略相反的操作-補充還原,導(dǎo)出一個詞的來源詞組,并將來源詞作為原詞的同義詞,補充進行檢索式。補充同義詞或相關(guān)詞:跳擴頻→跳擴頻+跳頻+擴頻補充同一詞的不同拼寫:寬帶→帶寬補充同類詞:第四代飛機→F22、F35補充限定詞:電子科技大學(xué)→電子科技大學(xué)*成都雙語教學(xué)→雙語教學(xué)*(英漢+漢語)(四)、選擇檢索詞應(yīng)注意的事項1.當主題不熟時(1)如果對主題不熟悉,可采用關(guān)健性的文獻以確認檢索詞匯和理清概念。(2)利用控制詞匯,作為索引和檢索的工具,可以解決同義詞、類同義詞及同形異義詞的問題??衫孟到y(tǒng)所提供的索引、詞匯表,或查詢分類法、標題表等進行檢索。(3)相關(guān)詞匯,除了可利用選定的檢索詞匯進行檢索外,也可利用索引、標題表或系統(tǒng)自動提供之相關(guān)詞進行檢索,以增加檢索結(jié)果。(4)反義詞,可利用檢索詞匯的反義詞進行檢索,以獲取相關(guān)主題的文章。2.詞匯變化(1)使用英文作為檢索詞匯:宜特別注意不同詞性,單復(fù)數(shù)及英美不同寫法的變化。(2)利用相關(guān)書目找尋詞匯:在尋找檢索詞匯時,可利用手邊文獻的相關(guān)書目,再查詢更多合適的檢索詞匯。(3)同義詞,同形異義詞:若所選擇的詞匯有許多同義詞可以都納入檢索詞匯中,若為同形異義詞,則需要在檢索時多加些條件做限定,以免查出許多不相關(guān)的文獻。(4)注意停用、常用或無關(guān)緊要詞:如冠詞、介詞等;如決定、研究、趨勢等這些常用或無關(guān)緊要的詞不宜作檢索詞。3.自然語言與控制詞匯的轉(zhuǎn)換(1)可多利用自然語言與控制詞匯的轉(zhuǎn)換進行檢索,以查詢到較多的文獻。(2)注意使用的數(shù)據(jù)庫的隱含性的概念?!搬t(yī)學(xué)倫理對于醫(yī)學(xué)教育的重要性”用Medline數(shù)據(jù)庫進行檢索?!搬t(yī)學(xué)”就是隱含性的概念。4.選用單字或片語進行檢索時,盡量簡短。輸入的片語或詞組愈長,找到完全吻合的機率就愈小。5.可以利用布爾邏輯算符組合關(guān)鍵字(詞),以擴大或縮小檢索范圍。三、計算機信息檢索的方法1.常用法(工具法)直接利用書目、索引、文摘等檢索工具進行查找文獻的一種方法。包括順查法、倒查法和抽查法。順查法:根據(jù)檢索課題的起始年代,利用選定的檢索工具,按照由遠及近,從過去到現(xiàn)在的時間順序逐年查找的方法。查得文獻較系統(tǒng)全面,查全率高,但量大、費時,效率不高。倒查法:由近及遠,從現(xiàn)在到過去的逆時順序查找文獻的一種方法。適用于新課題、新理論、新技術(shù)的檢索,最新觀點但不全面系統(tǒng)。抽查法:根據(jù)檢索課題所屬學(xué)科的發(fā)展特點,選定其中學(xué)科發(fā)展興旺、發(fā)表文獻較多的時段,逐年進行查找的一種方法。針對性強,節(jié)省時間,但必須熟悉學(xué)科發(fā)展特點和階段。2.引文法(追溯法)是利用已有文獻后附的參考文獻或引用文獻作為線索,逐一追溯查找相關(guān)文獻的方法。往往在缺乏檢索工具但擁有豐富原始文獻的情況下使用。優(yōu)點是文獻系統(tǒng)性較強,但參考文獻往往有限。3.綜合法(循環(huán)法)是交替使用常用法和追溯法來進行檢索的綜合方法。在查找文獻時先用常用法,查出一批文獻,然后再選擇出與檢索課題針對性較強的文獻,利用這些文獻所附的參考文獻追溯查找,如此反復(fù),直到滿足要求為止。4.瀏覽法直接利用最新的有關(guān)書刊查找所需文獻的一種方法。優(yōu)點是及時獲得最新文獻,了解課題的學(xué)科發(fā)展的最狀況。缺點是受館藏文獻范圍的局限以及對學(xué)科資源的了解的情況。第五節(jié)、檢索算符檢索算符也稱組配符,用于連接檢索點和檢索詞,表達檢索詞之間的關(guān)系,與檢索點、檢索詞共同構(gòu)成檢索式,表達用戶的檢索需求。1.布爾邏輯算符2.位置算符3.截詞算符4.檢索字段符(字段符)

一、布爾邏輯算符通過標準的布爾邏輯關(guān)系詞來表達檢索詞與檢索詞之間邏輯關(guān)系的檢索方法。常用的邏輯算符有三種:NOT、AND、OR用NOT、AND縮檢,用OR擴檢。一般搜索引擎空格代表AND。

例如,計算機AND農(nóng)業(yè)、計算機OR農(nóng)業(yè)、計算機NOT農(nóng)業(yè)檢索出來的文獻是完全不同的。

“與”

“與”是一種用于交叉概念或限定關(guān)系的組配,如圖所示??捎肁ND或and或*表示。AB

“或”

“或”是用于概念并列關(guān)系的一種組配,如圖所示??捎肙R或or或+表示。

“非”

“非”是用于概念刪除關(guān)系的一種組配,它可從原來檢索結(jié)果中剔除一部分不需要的內(nèi)容,如圖所示??捎肗OT或not或-表示。ABAB計算機*網(wǎng)絡(luò)A–B,AnotBA+B,AorBA*B,AandB中國知網(wǎng)的高級檢索

例如:查找“有關(guān)新聞美學(xué)的文獻”。只輸入“新聞”或“美學(xué)”,則命中文獻太多,且有許多不是自己所要的。

邏輯與(AND)*縮檢如果輸入“新聞*美學(xué)”,則檢索出題名中同時含有“新聞”和“美學(xué)”的文獻,檢索結(jié)果大大縮小。如果輸入“新聞美學(xué)”作為檢索詞,可命中《戈公振的新聞美學(xué)實踐》這樣的文獻,但漏檢了《新聞的美學(xué)屬性》、《新聞標題中的美學(xué)》這些文獻。如果用“新聞*美學(xué)”來進行檢索,則上述三篇文獻都檢中。邏輯或(OR)+擴檢

例如:“查找研究杜甫的文獻”,檢索途徑選擇題名后,輸入“杜甫”,命中540篇。但考慮到研究杜甫的文獻題名中未必都出現(xiàn)“杜甫”兩字,也可能會出現(xiàn)“杜詩”、“李杜”,于是改用“杜甫+杜詩+李杜”表達式,結(jié)果命中608篇。太陽(SUNORSOLAR)二、位置算符位置算符表示其連接的兩個檢索詞之間的位置關(guān)系,常用的有(W)(nW)(N)(nN)(L)(S)(F)等

在AND運算符并不規(guī)定兩個檢索詞的位置和出現(xiàn)順序,而位置算符可彌補這一不足,使用檢索結(jié)果的查準率提高。(W)或()算符——with

表示算符兩側(cè)的檢索詞之間只能是空格或標點符號,不得有其他字母或詞,且詞序不能顛倒。(nW)算符——nwords

表示兩個詞之間可插入n個詞,且詞序不可顛倒。例如:double(W)digit(雙倍數(shù))

表示具有doubledigit和double-digit形式的文獻記錄為命中文獻。例如:Laser(1W)printer

表示具有Laserprinter和Lasercolourprinter形式的文獻記錄為命中文獻。

(nN)算符——Near

表示兩個詞之間最多可插入n個詞,包括實詞和禁用詞,詞序任意

(N)算符——Near

表示在此算符兩側(cè)的檢索詞相鄰,且順序可以顛倒,但兩詞之間不可插入任何詞。例:intelligent(N)machine

可檢出intelligentmachine及machineintelligent等方面的信息。例:econom?(2N)recovery

可檢出表示“經(jīng)濟恢復(fù)”的以下詞語:economicrecovery,recoveryoftheeconomy,及recoveryfromtheeconomic(F)算符——Field

表示兩個詞必須在記錄中的同一個字段中出現(xiàn),如篇名字段、敘詞字段、文摘字段等,且詞序可變;夾在其間的其他詞數(shù)量也不限。而AND布爾邏輯算符的兩個檢索詞可以出現(xiàn)在不同的字段。(S)——Subfield或Sentence

表示兩個詞必須在記錄中的同一個句子或同一個子字段中出現(xiàn),且詞序可變。子字段含義由數(shù)據(jù)庫定義??梢允俏恼侄沃械囊粋€句子。例:Pollution(F)control(污染控制)

檢中一篇標題為“controland

managementofindustrialpollution”的文獻記錄為命中文獻。三、截詞符截詞是指檢索者將檢索詞在他認為合適的地方截斷。

按截詞位置:后方截詞、中間截詞、前方截詞按截斷字符數(shù)量:有限截詞(?)、無限截詞(

*

)?*.

#

又叫部分一致檢索。主要用于西文數(shù)據(jù)庫的檢索。這種功能可減少輸入次數(shù),簡化檢索程序,擴大檢索范圍,從節(jié)省時間,提高查全率。后方截詞

無限截詞

有限截詞

無限截詞是在一個詞尾加一個截詞符號,表示在其后可添加任意多個字符

有限截詞是在一個詞尾加有限個截詞符號,n個截詞符號表示其后可添的字符數(shù)少于等于n個。

例1:Smok?(無限截詞)

它將對若干詞進行檢索,包括:smoke,smoky,smoked,smoker,smokes,smokers,smoking,smokeless等等。

例2:Smok??(有限截詞)

將對smoke,smoky,smoked,smoker,smokes等中間截詞

中間截詞是在一詞中間出現(xiàn)若干個截詞符號,表示可插入若干個字符,只允許有限截詞。如:analy?er(分析儀)

它將對analyzer和analyser進行檢索前方截詞

表示其左邊不管截去有限或無限個字符,只要數(shù)據(jù)庫中具有與截詞符號后面部分字符串相同的檢索詞的信息,即為命中信息。如:?computer

對minicomputer和microcomputer等進行檢索。(小型機)(微機)

字段符用于代表字段名稱。檢索字段符(字段代碼)是對檢索詞出現(xiàn)的字段范圍(檢索點)進行限定,執(zhí)行時,機器只對指定的字段進行檢索,以提高檢索效率。字段限制符通常有兩種方式:其一,下拉菜單選擇檢索字段;;其二,輸入檢索字段,又分作兩類:后綴式和前綴式。

四、字段限制符

/TI表示Title(篇名)/AB表示Abstract(文摘)/KY表示keyword(關(guān)鍵詞)

/AU表示author(著者)

/JN表示JournalName(期刊名稱)

electron/TI表示electron一詞須出現(xiàn)在篇名字段。electron/TI,AB表示electron一詞須出現(xiàn)在篇名或文摘字段。

后綴式后綴式是將字段代碼放在檢索詞之后,并用/號連接

前綴式是將前綴代碼放在檢索詞之前,用=號連接,常見的前綴代碼前綴式如:查找李明發(fā)表在清華大學(xué)學(xué)報上的文獻

AU=李明*JN=清華大學(xué)學(xué)報第六節(jié)構(gòu)造檢索式檢索式是檢索策略的具體表達,它是將各檢索單元之間的邏輯關(guān)系、位置關(guān)系等用檢索系統(tǒng)規(guī)定的各種算符連接起來,成為計算機可以識別和執(zhí)行的命令形式。一、選擇檢索字段(檢索點)同一檢索詞在不同的字段進行檢索時,得到的檢索結(jié)果不同。選擇需要限定的字段的方法有兩種:在檢索菜單中選擇需要檢索的字段檢索;也可直接在檢索輸入框中,輸入帶有字段符的檢索式。二、輸入檢索詞1、直接輸入就是在檢索框中,逐個字符地輸入單詞、詞組或已有檢索集合號組成的檢索式。2、索引中選詞大多數(shù)檢索系統(tǒng)提供從索引中取詞的功能。3、拷貝輸入指拷貝已有的檢索式中的某些檢索詞或從檢索記錄中拷貝所需檢索詞,再粘到檢索輸入框中。4、利用保存的檢索式如果對某一課題進行跟蹤檢索時,該方法尤其有用。三、組配檢索詞在選擇檢索字段,確定了檢索詞后,利用系統(tǒng)規(guī)定的檢索算符將檢索詞組配起來,才能準確地表達檢索意圖。系統(tǒng)規(guī)定的檢索算符通常包括:布爾邏輯算符、位置算符、截詞符、字段符等,各個不同的計算機檢索系統(tǒng),其檢索算符各不相同。因此在檢索前,需要熟悉各系統(tǒng)的檢索算符。在同一系統(tǒng)中,采用同樣的檢索詞,使用不同的檢索算符而制定的檢索式得到的檢索結(jié)果不同。第七節(jié)檢索功能檢索功能是檢索系統(tǒng)在檢索界面上提供給用戶的基本功能,常見的計算機檢索功能有瀏覽、索引、初級檢索、二次檢索、高級檢索、專業(yè)檢索等。1、瀏覽可以提供一個完整的“樹”等級知識體系,讓用戶能夠俯瞰知識體系的全貌,了解某一方面信息的總體情況。如CNKI提供的電子期刊瀏覽系統(tǒng),先按分類目錄,再按刊名瀏覽年份、卷期2、索引它是一個“線”性表單,按照字母順序線形排列,不分等級。如人名、出版物、分子式等

3、初級檢索又稱簡單檢索、基本檢索、快速檢索,它為用戶提供一個簡單的檢索界面,幫助非專業(yè)或初入門用戶方便提交檢索表達式。通常檢索界面上只有一個檢索框,不使用或很少使用運算符,用戶只需在選定檢索點的情況下,輸入檢索詞就可以進行檢索了。4、二次檢索在“簡單檢索”或“高級檢索”基礎(chǔ)上開展的,選用新的檢索詞,旨在進一步縮小檢索范圍進行逐次逼近的檢索,稱為二次檢索。5、高級檢索就是可以同時選擇多個不同檢索途徑,輸入不同檢索條件,執(zhí)行較復(fù)雜的檢索式,包括有多種邏輯組合關(guān)系的檢索。在顯示的頁面上的多個檢索窗口中鍵入恰當?shù)臋z索詞,一個檢索窗口對應(yīng)一個字段,有的字段設(shè)有可展開的索引詞典,提供檢索詞的選擇,有的檢索頁面上還可有某些限定(如年代、文獻類型、學(xué)科范圍等)可供選擇。如:CNKI高級檢索界面中國知網(wǎng)的高級檢索6、專業(yè)檢索專業(yè)檢索為用戶提供一個按照自己需求來組合邏輯表達式以便進行更精確檢索的功能入口。在西文數(shù)據(jù)庫中有時候稱AdvancedSearch

或ExpertSearch。如CNKI跨庫專業(yè)檢索:7、加權(quán)檢索就是某些檢索系統(tǒng)中提供的一種定量檢索技術(shù)。在每個提問詞后面給定一個數(shù)值表示其重要程度,這個數(shù)值稱為權(quán),在檢索時,計算機會自動計算檢索詞的權(quán)值總和。當權(quán)值達到給定的權(quán)值時,就是命中記錄。8、相似檢索(知網(wǎng)節(jié))在檢索過程中,人們會發(fā)現(xiàn)某個結(jié)果非常符合自己需要,因此希望能進一步檢索到與該結(jié)果類似的結(jié)果,我們稱之為相似檢索也稱相關(guān)信息反饋檢索。9、精確匹配和模糊檢索不同的數(shù)據(jù)庫,檢索途徑設(shè)定的檢索規(guī)則有所不同,有的檢索途徑允許用戶用“任意一致”的方式檢索,有的只允許用“完全一致”或“前方一致”的方式檢索。(1)“完全一致”即精確匹配,要求輸入的檢索詞,與數(shù)據(jù)庫中的文獻標識完全匹配,才能命中。如要查找作者“劉開揚”的文獻,則必須準確輸入“劉開揚”三字,如輸入“劉”或“劉開”,則不能命中。一般在使用網(wǎng)上搜索引擎進行檢索時,可以用雙引號把輸入的檢索詞括起來,就可以達到“完全一致”的檢索效果。(2)“前方一致”屬于模糊檢索的一種。如:在作者字段中輸入“劉開?”便可查到作者“劉開”、“劉開揚”、“劉開強”的文章。又如:以關(guān)鍵詞為檢索途徑,輸入“經(jīng)濟?”,便可查到“經(jīng)濟”、“經(jīng)濟法”、“經(jīng)濟學(xué)”、“經(jīng)濟預(yù)測”、“經(jīng)濟效益審計”等等。(注意,匹配符通常用“?”,但也有的數(shù)據(jù)庫用“*”)(3)“任意一致”是模糊檢索中的最為自由者。如用篇名作為檢索途徑,輸入“出版”,則可檢出篇名中任一處含有“出版”一詞的文獻,如《出版系統(tǒng)探討》、《廣東出版史概述》、《商務(wù)印書館與近代教科書的出版》等。

10、概念檢索

可借助一個同義詞表對用戶輸入的檢索詞自動添加同一概念的詞匯集合(同義詞,近義詞,廣義詞等),有助于提高查全率,但不會降低查準率11、自然語言檢索自然語言檢索是未來網(wǎng)絡(luò)信息檢索發(fā)展趨勢。它允許用戶以自然語言語句表達檢索要求,檢索工具利用禁用詞表排除非關(guān)鍵詞,然后把剩余的詞作為關(guān)鍵詞進行檢索。

第八節(jié)檢索效果評價檢索效果是指信息檢索系統(tǒng)檢索到文獻信息的有效程度和結(jié)果,直接反映了檢索系統(tǒng)的性能和本次檢索的成敗。衡量檢索效果的指標有查全率、查準率、漏檢率、誤檢率、響應(yīng)時間。人們通常主要以查全率和查準率這兩個指標來衡量。1、

查全率與查準率查全率(R)

指檢索出的相關(guān)文獻數(shù)與信息系統(tǒng)中的相關(guān)文獻總數(shù)之比

查準率

(P)指檢索出的相關(guān)文獻數(shù)和檢索出的文獻總數(shù)之比

假設(shè)在該系統(tǒng)文獻庫中共有相關(guān)文獻總量為100篇,而只檢索出來30篇,那么查全率就等于30%,漏檢率為70%。假設(shè)檢出的文獻總量為100篇,經(jīng)審查確定其中相關(guān)文獻為60篇,那么這次檢索的查準率就等于60%,誤檢率為40%。RecallratioPrecisionratio2.漏檢率和誤檢率漏檢率

漏檢相關(guān)文獻量與在檢索系統(tǒng)中相關(guān)文獻總量的比率誤檢率

指誤檢(檢出不相關(guān))文獻信息量和檢索出的文獻信息資源的總量之比

3、查全率(P)和查準率(R)的互逆關(guān)系

一次最理想的檢索是查準率和查全率均為100%。但實際上這是不可能的。實驗表明:查全率和查準率往往呈反比關(guān)系。用戶應(yīng)當根據(jù)具體信息檢索需要,合理調(diào)節(jié)查全率和查準率,才能保證檢索效果。4、影響檢索效果的因素(1)影響查全率的因素信息庫收錄文獻不全,收錄遺漏;索引詞匯缺乏控制和專指性;詞表結(jié)構(gòu)不完整;詞間關(guān)系模糊或不正確;標引不夠詳盡;標引前后不一致;標引人員遺漏了原文的重要概念或用詞不當。一般來說,檢索工具的標引深度越大,查全率就高,標引過程的網(wǎng)羅性越好,查全率也就越高。(2)影響查準率的因素

文獻分類專指度缺乏深度,不能精確地描述文獻主題;索引詞不能準確描述信息主題和檢索要求;組配規(guī)則不嚴密;選詞及詞間關(guān)系不正確;標引過于詳盡;組配錯誤;檢索時所用檢索詞(或檢索式)專指度不夠;檢索面寬于檢索要求等。

檢索效率的高低,不僅與檢索系統(tǒng)的服務(wù)性能的優(yōu)劣有關(guān),同時還與用戶的檢索技能有關(guān)。

補充知識:文獻信息的使用壽命

文獻學(xué)家

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論