計算機檢索基礎(3)_第1頁
計算機檢索基礎(3)_第2頁
計算機檢索基礎(3)_第3頁
計算機檢索基礎(3)_第4頁
計算機檢索基礎(3)_第5頁
已閱讀5頁,還剩86頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、計算機信息檢索 “信息爆炸” 文獻巨增文獻巨增 手檢手檢 機檢機檢 利用計算機對信息和數(shù)據(jù)的高速處利用計算機對信息和數(shù)據(jù)的高速處理能力來實現(xiàn)信息的存儲與檢索。理能力來實現(xiàn)信息的存儲與檢索。計算機信息檢索 用戶利用數(shù)據(jù)庫獲取所需信息的過程。 即:計算機將輸入機檢系統(tǒng)的用戶提問標識(檢索詞)與已存貯在系統(tǒng)中數(shù)據(jù)庫內(nèi)的文獻特征標識(標引詞)進行匹配比較,凡符合給定的比較原則和邏輯運算條件者即為命中文獻。計算機檢索的歷史1.脫機檢索階段(1954-1964)2.聯(lián)機檢索階段(1965-)3.網(wǎng)絡檢索(1972-)4.光盤檢索(1985-)5.最新發(fā)展脫機檢索:定期由專職檢索人員把許多用戶課題匯總,批量

2、處理提問要求,并把結果提供給用戶。直接在計算機旁檢索,不需要遠程終端設備及通信網(wǎng)絡。用戶在計算機處理成批檢索課題之后才知道檢索結果,不能直接、及時修改檢索策略,查全率和查準率受到一定限制。聯(lián)機檢索 用戶在計算機檢索系統(tǒng)的終端上,通過通信網(wǎng)絡,使用特定的指令和算符,以人機對話方式,查詢遠程計算機檢索系統(tǒng)核心的數(shù)據(jù)庫,從中獲取所需信息的計算機檢索系統(tǒng)。光盤檢索 以光盤為介質(zhì)的光盤數(shù)據(jù)庫檢索系統(tǒng)優(yōu)點:一次購買,無限制使用,不必考慮檢索時間,適用于通信不發(fā)達,聯(lián)網(wǎng)較困難的地區(qū),是聯(lián)機檢索、網(wǎng)絡檢索的有效補充。 局限:數(shù)據(jù)更新有一定的周期,時效性、靈活性比不上聯(lián)機檢索;目前光盤數(shù)據(jù)庫容量有限,一般是按專

3、業(yè)和領域建庫,收錄范圍不夠廣泛;適用對象的局限性,因為一次性購買費用高,對使用頻率不高的單位或個人來說成本較高;設備和軟件的兼容性較差,各種光盤數(shù)據(jù)庫檢索系統(tǒng)目前還難以實現(xiàn)標準化和統(tǒng)一化。網(wǎng)絡檢索 是通過標準通信方式將世界各地的計算機網(wǎng)絡連接起來,形成一個基于客戶機-服務器模式的網(wǎng)絡分布數(shù)據(jù)庫結構。它在全球范圍內(nèi)把科技信息、商貿(mào)信息、經(jīng)濟信息、時事新聞以及日常生活信息通過互聯(lián)網(wǎng)絡合在一起,向億萬聯(lián)網(wǎng)用戶提供廣泛的信息檢索與服務。它是信息化社會應用最廣泛、最活躍的領域。 全文文本、多媒體、多載體、跨平臺等新型信息檢索發(fā)展; 在深度上提高管理和組織信息的能力,如探索自動抽詞、自動索引、自動檢索、自

4、動文摘、自動分類、Web檢索智能代理、數(shù)據(jù)挖掘、自動翻譯等; 信息資源的網(wǎng)絡化存儲和分布式存儲.計算機檢索的最新發(fā)展計算機檢索特點檢索軟件類型指令型指令型通過直接輸通過直接輸入指令進行入指令進行檢索檢索菜單型菜單型通過屏幕菜通過屏幕菜單引導完成單引導完成檢索。檢索。指令檢索示例工程索引EI專家檢索“Solar energy” wn TI ANDenglish wn LA 菜單檢索示例數(shù)據(jù)庫數(shù)據(jù)庫定義數(shù)據(jù)庫定義數(shù)據(jù)庫結構數(shù)據(jù)庫結構數(shù)據(jù)庫類型數(shù)據(jù)庫類型數(shù)據(jù)庫定義相互關聯(lián)的數(shù)據(jù)在計算機外存儲器上有相互關聯(lián)的數(shù)據(jù)在計算機外存儲器上有序的集合序的集合. .數(shù)據(jù)庫結構 數(shù)據(jù)庫數(shù)據(jù)庫文檔文檔文檔文檔記錄記錄

5、記錄記錄記錄記錄記錄記錄題名字段題名字段作者字段作者字段刊名字段刊名字段地址字段地址字段題名字段題名字段刊名字段刊名字段地址字段地址字段作者字段作者字段主題詞字段主題詞字段關鍵詞字段關鍵詞字段主題詞字段主題詞字段關鍵詞字段關鍵詞字段文檔(File)數(shù)據(jù)庫中一部分記錄數(shù)據(jù)庫中一部分記錄的集合的集合 綜合性數(shù)據(jù)庫綜合性數(shù)據(jù)庫多按學科劃分文檔多按學科劃分文檔記錄(Record)數(shù)據(jù)庫的基本信息單元,每條記錄都描述了原數(shù)據(jù)庫的基本信息單元,每條記錄都描述了原始信息的各項外表特征和內(nèi)容特征。始信息的各項外表特征和內(nèi)容特征。字段(Field)組成記錄的數(shù)據(jù)項組成記錄的數(shù)據(jù)項( (檢索項檢索項) ),一個字

6、段代表一,一個字段代表一項特征。項特征。文檔記錄字段字段名稱及代碼基本字段基本字段: 文摘(文摘(AbstractsAbstracts) 題目(題目(Title )Title ) 主題詞(主題詞(DescriptorDescriptor) 輔助字段輔助字段: 作者作者 (AuthorsAuthors) 作者單位(作者單位(Corporate SourceCorporate Source) 刊名(刊名(Journal NameJournal Name) 年代(年代( Publication Year Publication Year ) 數(shù)據(jù)庫類型 文獻數(shù)據(jù)庫文獻數(shù)據(jù)庫數(shù)值數(shù)據(jù)庫數(shù)值數(shù)據(jù)庫事實數(shù)

7、據(jù)庫事實數(shù)據(jù)庫多媒體數(shù)據(jù)庫多媒體數(shù)據(jù)庫 文獻數(shù)據(jù)庫書目數(shù)據(jù)庫書目數(shù)據(jù)庫全文數(shù)據(jù)庫全文數(shù)據(jù)庫 存儲描述如目錄、題錄、文摘等書目線索的數(shù)存儲描述如目錄、題錄、文摘等書目線索的數(shù)據(jù)庫,又稱據(jù)庫,又稱二次文獻信息數(shù)據(jù)庫二次文獻信息數(shù)據(jù)庫。如各種圖書館目。如各種圖書館目錄數(shù)據(jù)庫、題錄數(shù)據(jù)庫和文摘數(shù)據(jù)庫等屬于此類,錄數(shù)據(jù)庫、題錄數(shù)據(jù)庫和文摘數(shù)據(jù)庫等屬于此類,它的作用是為用戶指出了獲取原始信息的線索。它的作用是為用戶指出了獲取原始信息的線索。如如: :館藏書目館藏書目,SCI,EI,CPCI,SCI,EI,CPCI等等書目數(shù)據(jù)庫 存儲原始信息全文存儲原始信息全文或主要部分的一種源數(shù)據(jù)庫?;蛑饕糠值囊环N源數(shù)

8、據(jù)庫。如期刊全文數(shù)據(jù)庫、專利全文數(shù)據(jù)庫、百科全書全如期刊全文數(shù)據(jù)庫、專利全文數(shù)據(jù)庫、百科全書全文數(shù)據(jù)庫,用戶使用某一詞匯或短語,便可直接檢文數(shù)據(jù)庫,用戶使用某一詞匯或短語,便可直接檢索出含有該詞匯或短語的原始信息的全文。索出含有該詞匯或短語的原始信息的全文。 如如CNKI,VIP,CNKI,VIP,萬方全文庫萬方全文庫全文數(shù)據(jù)庫 存儲以數(shù)值表示信息為主的一種數(shù)據(jù)存儲以數(shù)值表示信息為主的一種數(shù)據(jù)庫。如各種統(tǒng)計數(shù)據(jù)庫、科學技術數(shù)據(jù)庫等。庫。如各種統(tǒng)計數(shù)據(jù)庫、科學技術數(shù)據(jù)庫等。數(shù)值數(shù)據(jù)庫除了一般的檢索功能外,還具有數(shù)值數(shù)據(jù)庫除了一般的檢索功能外,還具有準確準確數(shù)據(jù)運算功能、數(shù)據(jù)分析功能、圖形處數(shù)據(jù)運

9、算功能、數(shù)據(jù)分析功能、圖形處理功能及對檢索輸出的數(shù)據(jù)進行排序和重新理功能及對檢索輸出的數(shù)據(jù)進行排序和重新組織組織等方面的功能。等方面的功能。 數(shù)值數(shù)據(jù)庫 年鑒檢索檢索2006年高等學校博士生碩士生授予學位的人數(shù) 事實數(shù)據(jù)庫存儲事實性信息。中國大百科全書網(wǎng)絡版多媒體數(shù)據(jù)庫同時存儲聲音、圖像、文字等的超文本信息同時存儲聲音、圖像、文字等的超文本信息。 檢索式及其檢索式制定 在檢索過程中用于表達詞于詞之間的邏在檢索過程中用于表達詞于詞之間的邏 輯關系的算符就稱為布爾邏輯運算符。輯關系的算符就稱為布爾邏輯運算符。 分為三種邏輯關系:分為三種邏輯關系: 邏輯與、邏輯或、邏輯非;邏輯與、邏輯或、邏輯非;

10、“ “AND”AND”、 “ “ OR”O(jiān)R”、 “ “ NOT”NOT”邏輯“與”(AND或*) 是一種概念相交和限定關系的組配是一種概念相交和限定關系的組配。例如:。例如:“A AND B”A AND B”“A“A* *B”B”,其含義:是檢出的記錄中必須同時含有,其含義:是檢出的記錄中必須同時含有“A”A”和和“B”B” 兩個檢索項。兩個檢索項。 “ “AND”AND”算符的作用是對檢索詞加以限定,逐步縮小檢索范圍,算符的作用是對檢索詞加以限定,逐步縮小檢索范圍,提高檢索結果的查準率。例如檢索提高檢索結果的查準率。例如檢索“計算機在圖書館中的應用計算機在圖書館中的應用”方面的文獻,其檢索

11、式可寫成:方面的文獻,其檢索式可寫成: “ “計算機計算機 * * 圖書館圖書館”或或 “計算機計算機 AND AND 圖書館圖書館”ABA and B邏輯邏輯“與與”運算運算C縮小檢索范圍,提高專指性。案例:滌綸長絲微孔滌綸纖維同浴同色染色技術polyester filament;microporous polyester fiber(fibre); onebath process;homochromy檢索式?邏輯邏輯“或或”(OROR或或+ +) 是用來組配具有同義或同族概念的詞是用來組配具有同義或同族概念的詞。如:檢索提問式:。如:檢索提問式: “ “A OR B”A OR B”或或“A

12、 + B”A + B”其含義:是數(shù)據(jù)庫記錄中任何一條其含義:是數(shù)據(jù)庫記錄中任何一條 記錄,只要含有記錄,只要含有“A”A”或或“B”B”中任何一個檢索詞即為命中的中任何一個檢索詞即為命中的 文獻。文獻。“OR”O(jiān)R”的作用是擴大檢索范圍,的作用是擴大檢索范圍, 增加命中文獻量,提高文獻的增加命中文獻量,提高文獻的 查全率。查全率。 如:如: “微機微機 + + 電腦電腦 + PC+ PC機機+ +計算機計算機”、 “ “微機微機 or or 電腦電腦 or PCor PC機機 or or 計算機計算機”A or B邏輯邏輯“或或”運算運算ABC擴大檢索范圍,提高查全率示例政治、經(jīng)濟、宗教與倫理

13、學的關系ACB(A OR B OR CA OR B OR C) AND DAND D(政治(政治+ +經(jīng)濟經(jīng)濟+ +宗教)宗教)* *倫理學倫理學D政治政治經(jīng)濟經(jīng)濟宗教宗教倫理學倫理學邏輯邏輯“非非”(NOTNOT或或) “NOT”“NOT”算符是排除含有某些詞的記錄算符是排除含有某些詞的記錄,其邏輯提,其邏輯提問表達式為問表達式為“A NOT B”“A NOT B”或或“A“A- -B”B”,即檢出的記錄,即檢出的記錄中只能含有中只能含有“NOT”“NOT”算符前的檢索詞算符前的檢索詞 A A,而不能同時,而不能同時含有含有“NOT”“NOT”后的檢索詞后的檢索詞 B B。“NOT”“NOT

14、”的作用是縮小檢索范圍,的作用是縮小檢索范圍,提高檢準率提高檢準率。在聯(lián)機檢索中可降低檢索費用。在聯(lián)機檢索中可降低檢索費用。例如:例如:“皮鞋皮鞋 NOT NOT 高跟鞋高跟鞋”由于由于“NOT”NOT”算符有排除掉相算符有排除掉相關文獻的可能,在實際檢索關文獻的可能,在實際檢索中應慎重使用。中應慎重使用。AB BA not BA not B邏輯邏輯“非非”運算運算示例非共產(chǎn)主義人生觀非共產(chǎn)主義人生觀 B821.2B821.2(人生觀、人生(人生觀、人生哲學中除共產(chǎn)主義人生觀外的那一部份哲學中除共產(chǎn)主義人生觀外的那一部份)A:人生觀、人生哲學B B:共產(chǎn)主義人生觀:共產(chǎn)主義人生觀A not B

15、A-B“優(yōu)先級優(yōu)先級”問題問題 當布爾運算符在一個檢索式中連續(xù)出現(xiàn)時,當布爾運算符在一個檢索式中連續(xù)出現(xiàn)時,它們的它們的“級別級別”是不同的。一般的次序是:是不同的。一般的次序是:“()()”最高最高“-”-”優(yōu)先級第二,優(yōu)先級第二,“* *”第三,第三,“+”+”最低。最低。 ()()NOTANDORNOTANDOR 如: 信息OROR情報 NOT 經(jīng)濟 (信息OROR情報)NOT 經(jīng)濟 檢索結果不同。 布爾邏輯的運算可以進行同類項的合并。布爾邏輯的運算可以進行同類項的合并。 如:如:A A* *B+AB+A* *C CA A* *(B+CB+C) 然而,在使用布爾邏輯時,必須注意然而,在使

16、用布爾邏輯時,必須注意以下幾條交換規(guī)則:以下幾條交換規(guī)則: A A* *B=BB=B* *A A A+B=B+A A+B=B+A A-BB-A A-BB-A主要的位置算符1、(W)n算符(W)或W0-With,表示所要連接的兩詞之間只能為一空格或算點符號,且算符兩側(cè)的詞序不得顛倒。什么情況下用這個算符?2、(nW)或Wn 算符 (nW)-n Words,在兩個檢索詞之間允許插入0至n 個詞,其前后兩詞的位置不能互換。如 X (1W) RAY,可同時查找 X RAY,X Y RAY; chemical w2 protection,可查到Chemical and Biological protec

17、tion和 chemical protection每個同學根據(jù)自己專業(yè)舉一例子?檢索什么樣的文獻可用W2或2W這樣的位置算符?3、(n N)或Nn-算符 n Near,表示算符兩側(cè)的檢索詞彼此鄰近,且詞序可變,n是兩個檢索詞之間允許插入的最大詞量.如cotton (2N) processing,凡含cotton processing, processing of cotton 和processing of Egyptian cotton的文獻記錄都算命中.主要的截詞算符后截斷(?或*)?表示無限截斷,如 combusti? 可檢索到含有Combustible , combustion comb

18、ustibility這些詞的文獻每個同學根據(jù)自己專業(yè)舉一例子?檢索什么樣的文獻可用(?或*)這樣的截詞算符?不同的數(shù)據(jù)庫采用的符號也不同,大部分不同的數(shù)據(jù)庫采用的符號也不同,大部分采用采用* *表示前方一致,后面表示前方一致,后面無限截斷檢索式檢索字段檢索字段=檢索詞檢索詞 運算符運算符 檢索詞檢索詞如:檢索張濤寫的關于計算機輔助設計方面的論如:檢索張濤寫的關于計算機輔助設計方面的論文文分析:作者分析:作者 張濤張濤 關鍵詞關鍵詞 計算機輔助設計計算機輔助設計檢索式檢索式作者作者=張濤張濤 and and 關鍵詞關鍵詞=(計算機輔助設計計算機輔助設計 or or CADCAD) 檢索時所用到的

19、詞稱為檢索詞檢索時所用到的詞稱為檢索詞。根據(jù)檢索需。根據(jù)檢索需求確定檢索詞。求確定檢索詞。1.選擇檢索途徑篇名、關鍵詞、主題詞等檢索時選擇檢索途徑篇名、關鍵詞、主題詞等檢索時1)選擇規(guī)范詞,如敘詞。)選擇規(guī)范詞,如敘詞。2)選擇自由詞時,要能代表本課題技術特征的、具有實)選擇自由詞時,要能代表本課題技術特征的、具有實質(zhì)意義的詞。這些詞應為專業(yè)通用詞、慣用詞和術語。質(zhì)意義的詞。這些詞應為專業(yè)通用詞、慣用詞和術語。3)避免使用低頻詞或高頻詞。)避免使用低頻詞或高頻詞。 不使用禁用詞,如不使用禁用詞,如a、and、or、not等;等; 盡量少用或不用不能表達課題實質(zhì)的高頻詞,如分析、盡量少用或不用不

20、能表達課題實質(zhì)的高頻詞,如分析、研究、應用、方法、設計等。研究、應用、方法、設計等。檢索詞4 4)同義詞盡量選全)同義詞盡量選全同一概念的幾種表達方式;同一概念的幾種表達方式;同一名詞的單、復數(shù)、動詞、動名詞、過去分詞同一名詞的單、復數(shù)、動詞、動名詞、過去分詞形式等,如生產(chǎn)有形式等,如生產(chǎn)有product, production, producing, product, production, producing, produce, productiveproduce, productive等,詞根相同時,可用截詞符解等,詞根相同時,可用截詞符解決;決;化學物質(zhì)既用名稱也用元素符號,如氮,化學

21、物質(zhì)既用名稱也用元素符號,如氮,NitrogenNitrogen和和N N;植物和動物名,其英文和拉丁名均要選用。植物和動物名,其英文和拉丁名均要選用。2. 2.選擇著者作為檢索途徑進行檢索時選擇著者作為檢索途徑進行檢索時精確檢索和模糊檢索,以精確檢索和模糊檢索,以“高潔高潔”為為例例精確檢索:高潔精確檢索:高潔模糊檢索:高潔如模糊檢索:高潔如 高潔琳等高潔琳等檢索詞選擇技巧(2 2)注意檢索詞的全稱、簡稱、俗稱和注意檢索詞的全稱、簡稱、俗稱和英文縮寫英文縮寫檢索條件限定如年份、語種、文獻類型等。如年份、語種、文獻類型等。如著者如著者 、文摘、篇名、主題詞、機構名稱、文摘、篇名、主題詞、機構名

22、稱、分類號、刊名等分類號、刊名等。檢索字段 檢索字段的確定檢索字段的確定 考慮檢索詞在哪個字段中出現(xiàn)。比如,查找賴世雄關于考慮檢索詞在哪個字段中出現(xiàn)。比如,查找賴世雄關于怎么學英語發(fā)表的論文時,則怎么學英語發(fā)表的論文時,則“賴世雄賴世雄”應在應在“作者作者”字段中出現(xiàn),字段中出現(xiàn),“英語英語”應在應在“主題詞主題詞”或或“文摘文摘”或或“篇名篇名”中出現(xiàn)。然后再確定各個檢索詞之間的邏輯關中出現(xiàn)。然后再確定各個檢索詞之間的邏輯關系。如本例中,賴世雄與英語的關系為邏輯與。系。如本例中,賴世雄與英語的關系為邏輯與。 則該例的檢索式為:則該例的檢索式為: 英語英語/ab,ti,su and /ab,t

23、i,su and 賴世雄賴世雄/au/au 輸入檢索式,限定檢索條件,執(zhí)行檢索,分析檢索結果輸入檢索式,限定檢索條件,執(zhí)行檢索,分析檢索結果。檢索符檢索符 “ ”“ ”或或 用于檢索固定短語或?qū)S忻~用于檢索固定短語或?qū)S忻~在短語或?qū)S忻~前后加雙引號,系統(tǒng)將其按在短語或?qū)S忻~前后加雙引號,系統(tǒng)將其按詞組對待,不再將其分割按單詞檢索。詞組對待,不再將其分割按單詞檢索。精確檢索或短語檢索 檢索天津工業(yè)大學的所有老師、學生在2010年被EI(工程索引)收錄的文獻,如何構造檢索式?Tianjin Polytechnic UniversityTianjin Polytech. University

24、Tianjin Polytech. Univ.Tianjin Polytechnical UniversityTianjin Polytechnic Univ.author affiliation =Tianjin Polytech* Univ*課題一:采光原理在建筑設計中的應用課題一:采光原理在建筑設計中的應用課題二:查找陳志新課題二:查找陳志新 關于關于 建筑電氣與智能化實驗室建筑電氣與智能化實驗室建設方面的文獻建設方面的文獻舉例:檢索式:采光檢索式:采光 AND AND 建筑建筑 / /題名、關鍵詞、文摘題名、關鍵詞、文摘 檢索式:(陳志新/作者 )AND (建筑 AND電氣 AND 智能 AND 實驗室/題名、關鍵詞)課題三:課題三:查找作者袁燕在查找作者袁燕在針織工業(yè)針織工業(yè)上上發(fā)表的發(fā)表的文獻文獻作者作者=袁燕袁燕 andand 刊名刊名=針織工業(yè)針織工業(yè)檢索式:檢索式:課題四: 要求檢索近10年發(fā)表的地理科學

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論