第四講信息檢索原理方法策略_第1頁
第四講信息檢索原理方法策略_第2頁
第四講信息檢索原理方法策略_第3頁
第四講信息檢索原理方法策略_第4頁
第四講信息檢索原理方法策略_第5頁
已閱讀5頁,還剩74頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第四講信息檢索原理方法策略第一頁,共七十九頁,編輯于2023年,星期一4.1信息檢索及其原理4.1.1信息檢索概述1.信息檢索定義1)國外關于信息檢索的定義(Beihang《信息檢索原理》課程)信息檢索-InformationRetrieval(IR)–

thescienceofsearchingfordocuments,forinformationwithindocumentsandformetadataaboutdocuments,aswellasthatofsearchingrelationaldatabasesandtheWorldWideWeb.-FromWikipedia–

關于對文檔、文檔中的信息、文檔的元數(shù)據的搜索,以及對關系數(shù)據庫和萬維網搜索的科學2)國內定義指為達到某一特定目的,將信息源與用戶需求連接起來,查詢、鑒別、選擇并確定相關信息的過程p159。廣義的信息檢索包括“存儲”和“檢索”兩個部分,狹義的信息檢索僅指廣義中的檢索部分。第二頁,共七十九頁,編輯于2023年,星期一4.1信息檢索及其原理4.1.1信息檢索概述2.信息檢索的作用獲取知識的途徑,學習的助手管理和決策的依據-全面、準確、及時的信息——切合實際、正確無誤決策科學研究的工具和指南信息控制的手段第三頁,共七十九頁,編輯于2023年,星期一4.1信息檢索及其原理4.1.1信息檢索概述3.信息檢索原理即檢索者的檢索提問詞與存儲在檢索系統(tǒng)中的檢索標引詞進行匹配對比、取得一致,即為檢索命中,命中結果可從檢索系統(tǒng)中以各種方式輸出。檢索者可據此線索對原文進行判斷、篩選,以獲取自己所需要的信息。廣義和狹義(p160)見信息檢索原理圖第四頁,共七十九頁,編輯于2023年,星期一4.1信息檢索及其原理4.1.1信息檢索概述信息檢索原理即檢索者的檢索提問詞與存儲在檢索系統(tǒng)中的檢索標引詞進行匹配對比、取得一致,即為檢索命中,命中結果可從檢索系統(tǒng)中以各種方式輸出。檢索者可據此線索對原文進行判斷、篩選,以獲取自己所需要的信息。

信息檢索原理圖第五頁,共七十九頁,編輯于2023年,星期一4.1信息檢索及其原理4.1.1信息檢索概述4.信息檢索途徑(p161)所謂檢索途徑就是檢索時切入信息群體的路徑。檢索途徑有兩大類,一類是用信息的外部特征,如題名、責任者、某種序號、機構名等作為檢索標識;另一類是用能夠描述信息內容的分類號、關鍵詞、主題詞等作為檢索標識。在數(shù)據庫中檢索時,幾乎所有的字段都可以作為檢索的途徑。1)分類途徑:分類語言,“分類目錄”“分類索引”,便于族性檢索2)主題途徑:主題語言

,“主題索引”

“關鍵詞索引”

“敘詞索引”

,便于特性檢索

3)著者途徑:“著者目錄”、“著者索引”4)其他途徑篇名途徑包括書名、刊名和篇名

序號途徑包括報告號、標準號、專利號、登記號等分子式途徑第六頁,共七十九頁,編輯于2023年,星期一4.1信息檢索及其原理4.1.2.信息的組織與標引1.信息組織信息組織是為了方便人們檢索獲取信息,將大量、龐雜、無序的信息進行系統(tǒng)化和有序化的過程。它包括信息的描述(外部特征),信息的標引(內容),信息的整序等過程。

2.信息標引標引是指根據一定的規(guī)則和程序對文獻內容進行分析,然后賦予每篇文獻以一定數(shù)量的內容標識(分類號、主題詞、關鍵詞等),作為存儲與檢索的依據。標引的第一步叫“概念標引”,目前自動標引正成為一種新的發(fā)展方向:其流程主要包括:自動分詞——選出標引詞——轉換。第七頁,共七十九頁,編輯于2023年,星期一4.1信息檢索及其原理4.1.3信息檢索語言1.信息檢索語言的概念又稱為標引語言、引索語言、文獻檢索語言、信息存儲與檢索語言等,它是用于描述信息系統(tǒng)中信息的內部特征和外部特征及表達信息用戶需求提問的一種專門語言。是一種把文獻的存儲與檢索聯(lián)系起來、把標引人員和檢索人員溝通起來的約定人工語言2.檢索語言的種類按是否受控劃分為人工語言和自然語言按內容性質劃分為分類語言和主題語言第八頁,共七十九頁,編輯于2023年,星期一4.1信息檢索及其原理4.1.3信息檢索語言(p163-177自學,考點)2.1分類語言用分類號和相應分類款目來表達各種概念,它以學科體系為基礎將各種概念按學科性質和邏輯層次結構進行分類和系統(tǒng)排序。按照分類方式又分為體系分類語言、組配分類語言和混合分類語言。2.2主題語言對表達信息主題內容特征的主題詞匯概念經規(guī)范化處理所形成的檢索語言。按照主題性質的不同,又分為標題詞語言、單元詞語言、敘詞語言、關鍵詞語言和引文語言。

第九頁,共七十九頁,編輯于2023年,星期一4.1信息檢索及其原理4.1.4分類檢索語言1.分類的思想文獻分類的實質是按照知識體系分類和概念邏輯方法,對文獻信息進行區(qū)分和歸類。類目是組成分類語言的基本單元,每一個類目都是一個相同事物構成的集合。根據文獻信息的內容特征和分類詞表,把相同內容的文獻信息集中起來,又把不同內容的文獻信息區(qū)別開來,以實現(xiàn)相關集中的功能。第十頁,共七十九頁,編輯于2023年,星期一4.1信息檢索及其原理4.1.4分類檢索語言2.分類語言的基本原則類目劃分的依據只有一個;上位類可按照一定的標準劃分為若干個同級的下位類,任何一個下位類都有而且只能有一個上位類;同位類之間互相排斥。3.分類語言的性能分類語言的主要特點是按學科、專業(yè)集中相關文獻信息,從知識分類的角度揭示文獻信息之間的區(qū)別和聯(lián)系,提供從學科專業(yè)領域檢索文獻信息的途徑。第十一頁,共七十九頁,編輯于2023年,星期一4.1信息檢索及其原理4.1.4分類檢索語言4.分類語言的性能分類語言的符號——利用字母或數(shù)字的號碼作為分類標識分類語言的詞語——語義表達、詞間關系、文獻信息的集散分類語言的語法——先組配式的信息檢索語言分類語言的使用——主題范圍較大的文獻(如圖書),類號的確定較為容易;對于細小、復雜主題的文獻(期刊論文),類號的選擇相對較難。第十二頁,共七十九頁,編輯于2023年,星期一4.1信息檢索及其原理4.1.4分類檢索語言5.典型的分類語言——《中國圖書館分類法》《中國圖書館分類法》(原稱《中國圖書館圖書分類法》)是我國建國后編制出版的一部具有代表性的大型綜合性分類法,是當今國內圖書館使用最廣泛的分類法體系,是用的最廣泛的分類語言。第十三頁,共七十九頁,編輯于2023年,星期一4.1信息檢索及其原理4.1.5主題語言1.構成原理利用自然語言表達文獻和提問內容的主題標識即主題詞。利用各種參照系統(tǒng)等顯示主題標識之間各種關系利用主題詞的字順序列排列與檢索文獻信息。第十四頁,共七十九頁,編輯于2023年,星期一4.1信息檢索及其原理4.1.5主題語言2.主題語言的性能符號

——直接利用自然語言的詞語主題語言的詞語

——語義表達和它在自然語言中的含義一致,詞間關系通過主題詞表不同的參照系統(tǒng)和各種注釋等來加以展示。

主題語言的語法

——有先組配式的信息檢索語言,如標題語言;也有后組配式的信息檢索語言,如敘詞語言主題語言的使用

——主題范圍復雜、細小的、研究特定對象的文獻,利用主題語言進行標引和檢索,可以充分發(fā)揮主題語言的優(yōu)勢主題詞表

——同義詞互見和對檢索標引用詞規(guī)范;上位詞、下位詞的顯示來擴檢或縮檢;通過有關聯(lián)主題詞的“參見”提高查全率第十五頁,共七十九頁,編輯于2023年,星期一4.1信息檢索及其原理4.1.5主題語言3.主題語言的種類標題語言——基本構成單元是主標題、副標題;標題表主要由主表和附表兩大部分組成。

元詞語言——是一種后組式的信息檢索語言;基本構成單元是元詞,從文獻中選出來無法再拆分的詞匯。敘詞語言——敘詞(descriptor)是指以概念為基礎、經規(guī)范化且具有組配功能并可以顯示詞間關系的動態(tài)性詞或詞組。敘詞表是敘詞語言的詞典。敘詞表通常由字順主表、范疇表、詞族表或其他附表組成。關鍵詞語言——雖然也屬主題語言的范疇,但沒有經過規(guī)范化處理,屬非受控語言(Uncontrolledterm)。類型:題內關鍵詞索引、題外關鍵詞索引、雙重關鍵詞索引。第十六頁,共七十九頁,編輯于2023年,星期一4.1信息檢索及其原理4.1.6自然語言自然語言就是我們說話或寫文章時候使用的書面語言,比較自由。自然語言檢索計算機技術迅速發(fā)展的情況下,自然語言作為檢索語言是一種必然的趨勢。第十七頁,共七十九頁,編輯于2023年,星期一一條完整的CNMARC數(shù)據包含分類和主題兩種語言主題語言分類語言分類語言主題語言第十八頁,共七十九頁,編輯于2023年,星期一4.2計算機信息檢索原理與技術4.2.1計算機信息檢索的發(fā)展概況脫機檢索階段、聯(lián)機檢索階段、光盤檢索階段、網絡化聯(lián)機檢索階段4.2.2計算機檢索原理和技術計算機信息檢索原理實質就是由計算機將輸入的檢索策略與系統(tǒng)中存儲的文獻的特征標識及其邏輯組配關系進行類比、匹配的過程。

第十九頁,共七十九頁,編輯于2023年,星期一4.2計算機信息檢索原理與技術4.2.2計算機檢索原理和技術數(shù)據庫的結構和類型數(shù)據庫定義——是至少由一種文檔組成,并能滿足某一特定目的或某一特定數(shù)據處理系統(tǒng)需要的一種數(shù)據集合。數(shù)據庫的類型參考數(shù)據庫——書目數(shù)據庫(BibliographicDatabases)、指南數(shù)據庫(ReferenceDatabases)源數(shù)據庫——數(shù)值數(shù)據庫、事實數(shù)據庫、全文數(shù)據庫、術語數(shù)據庫、圖像數(shù)據庫。第二十頁,共七十九頁,編輯于2023年,星期一4.2計算機信息檢索原理與技術4.2.2計算機檢索原理和技術數(shù)據庫的結構及全文檢索數(shù)據庫主要由文檔、記錄、字段三個層次存取號一般由6-9位數(shù)字組成基本索引字段主要包括篇名字段、文摘、敘詞、自由標引詞。輔助索引字段用來描述文獻外表特征的字段。P182頁第二十一頁,共七十九頁,編輯于2023年,星期一數(shù)據庫的結構圖數(shù)據庫是由若干個互有聯(lián)系的文檔(file)組成的,文檔是書目數(shù)據庫數(shù)據組織的基本形式,文檔里的數(shù)據被稱為記錄,一個記錄又包含若干個字段。數(shù)據庫文檔字、詞記錄字段第二十二頁,共七十九頁,編輯于2023年,星期一1.文檔數(shù)據庫是由若干個互有聯(lián)系的文檔(file)組成的,信息檢索數(shù)據庫的文檔包括主文檔、索引文檔和幫助系統(tǒng)文檔三部分。第二十三頁,共七十九頁,編輯于2023年,星期一主文檔(順排文檔)記錄按時間順序存放,記錄之間的邏輯順序與物理順序是一致的,是一種線形文檔,文檔的記錄按文獻信息獲得的先后順序排列,故又名為順排文檔。但對于所存儲數(shù)據的某一方面屬性,如作者、關鍵詞等,則是無序的,即不能按關鍵詞的字順查詢。第二十四頁,共七十九頁,編輯于2023年,星期一索引文檔(倒排文檔)

將順排文檔中各個記錄中含有主題性質的字段(如主題詞字段、標題字段、敘詞字段等)和非主題性質字段(如作者字段、機構字段、來源字段等)分別提取出來,按某種順序重新組織得到的一種文檔。

第二十五頁,共七十九頁,編輯于2023年,星期一幫助系統(tǒng)文檔凡是比較成熟的信息檢索系統(tǒng),還配有完善的在線檢索幫助,包括系統(tǒng)使用的檢索算符、組配規(guī)則、以及使用實例說明性文檔,以網頁的形式提供給在線用戶。第二十六頁,共七十九頁,編輯于2023年,星期一2.記錄記錄是數(shù)據庫中數(shù)據集合的一個單位,是組成文檔的基本數(shù)據單位。在書目數(shù)據庫中,一個記錄相當于一條題錄或文摘記錄又由字段構成,字段則是組成記錄的基本數(shù)據單位。一個記錄通常由標題字段、作者字段、來源字段、文摘字段、主題詞字段、分類號字段、語種字段等組成。第二十七頁,共七十九頁,編輯于2023年,星期一CNKI中的一條記錄題名字段作者字段文摘字段關鍵詞字段來源字段第二十八頁,共七十九頁,編輯于2023年,星期一EI

中的一條記錄

主題字段輔助字段12第二十九頁,共七十九頁,編輯于2023年,星期一3.字段字段是組成記錄的基本數(shù)據單位。字段通常有標題字段、作者字段、來源字段、文摘字段、主題詞字段、分類號字段、語種字段等。按照字段所代表記錄的性質不同,字段通常分為基本字段和輔助字段兩類?;咀侄斡蓄}名字段、文摘字段、主題詞字段等。輔助字段有作者、作者工作單位,文獻來源,出版事項等。第三十頁,共七十九頁,編輯于2023年,星期一基本字段輔助字段字段名稱字段代碼字段名稱字段代碼標題T/TI記錄號AN文摘R/AB作者A/AU敘詞DE機構S/OG標識詞ID來源SO關鍵詞K/KW出版年PY

控制詞CT國家CU

非控制詞UT語種LA

字段類型與代碼第三十一頁,共七十九頁,編輯于2023年,星期一CNKI數(shù)據庫常用的字段第三十二頁,共七十九頁,編輯于2023年,星期一4.3檢索詞的確定與選擇4.3.1相同概念的檢索詞擴展1.同義詞擴展法

即在同一概念的范圍內,從語言學角度選擇不同的名稱、不同的拼寫方法和單復數(shù)形式,不同的名稱包括學名俗名簡稱和全稱商品名稱和產品名、事物的代碼和事物學名的。例.“超聲波在污水處理中的應用”超聲波是指頻率介于20kHz—2MHz,人耳聽不到的聲波。以往超聲波只用于醫(yī)療診斷、清洗、探測等方面。目前,超聲波在飲用水,工業(yè)污水污泥處理中具有巨大的應用潛力。中文關鍵詞:超聲波、污水檢索策略1:超聲波and污水----會漏檢很多文獻檢索策略2:(超聲波or聲化學)and(污水or廢水),檢索結果較多,較全面。第三十三頁,共七十九頁,編輯于2023年,星期一4.3檢索詞的確定與選擇4.3.1相同概念的檢索詞擴展2.截詞法檢索詞詞干相同、詞義相近,但詞尾或詞中間有變化,可以采用截詞方法擴展檢索詞。第三十四頁,共七十九頁,編輯于2023年,星期一截詞法舉例:檢索“微型熱管的研究進展”這一課題,就可以使用截詞。案例分析:隨著計算機芯片中電路數(shù)目的增加,其產生熱量的散逸變得越來越困難。微型熱管作為一項很有前途的技術,可用于計算機芯片以獲得高的熱量導出率及溫度均勻化。即微型熱管成為電子芯片內部的一部分,直接將熱量從最大熱量區(qū)域中取出。微型:miniature,minitype,微型的:micro,mini,miniature熱管:heatpipe*檢索策略1:microheatpipe*orminiatureheatpipe*檢索策略2:(microormini*)andheatpipe*檢索策略3:(microormini*)and“heatpipe*”

這樣就能把以“mi”為詞根的所有詞語檢索出來,再通過邏輯算符的組配,實現(xiàn)準確檢索。第三十五頁,共七十九頁,編輯于2023年,星期一4.3檢索詞的確定與選擇4.3.1相同概念的檢索詞擴展3.主題詞表有時候用戶會使用自由詞,也就是自然語言,但數(shù)據庫標引時用的是規(guī)范詞。EI數(shù)據庫中就有詞表例:自由詞:維生素C(vitaminC);標引詞:抗壞血酸(ASCORBICACID)自由詞(直譯):supermolecular;標引詞:macromolecular例如:檢索“六行程發(fā)動機”的資料,把“六行程”作主題詞時,就不能找到相關資料,而用六沖程作為主題詞就可以找到。第三十六頁,共七十九頁,編輯于2023年,星期一4.3檢索詞的確定與選擇4.3.2檢索詞的使用要恰當1.檢索詞要使用單元詞使用概念上不可再分的詞語,如要檢索“建筑物防災與減災”這一課題,這一課題包含的基本概念,建筑物,災害,防治,減災等都是單元詞第三十七頁,共七十九頁,編輯于2023年,星期一4.3檢索詞的確定與選擇4.3.2檢索詞的使用要恰當2.概念不能太大也不能太小例1:“煤脫硫的最新工藝與技術”,若用“煤脫硫”作為主題概念,有1000多篇——概念太大。這時候就要選擇更具體的概念“微波煤脫硫”,有10多篇——概念定位恰當。第三十八頁,共七十九頁,編輯于2023年,星期一4.3檢索詞的確定與選擇4.3.2檢索詞的使用要恰當3.多主題概念的選詞以“簡”為主

例:課題“利用基因工程的手段提高植物中淀粉的含量”

檢索策略:“基因工程”

AND“植物”AND“淀粉”AND“含量”——檢索結果為零。對于本課題,只有2個主題概念最為關鍵---“基因”AND“淀粉”。4.詞語要規(guī)范化俗名“六六六”檢索,檢索結果很不理想,應該用“六氯環(huán)己烷”、“六氯化苯”、“BHC”第三十九頁,共七十九頁,編輯于2023年,星期一4.4檢索詞組配算符4.4.1布爾邏輯算符組配檢索1.邏輯與用符號“and”

“*”表示其邏輯表達式為:AandB或A*B其意義為檢索記錄中必須同時含有檢索詞A和B的文獻,才算命中文獻。AB第四十頁,共七十九頁,編輯于2023年,星期一邏輯與示例例如你想在題名中檢索有關新聞美學的文獻,如只輸入“新聞”或“美學”,則命中文獻太多,且有許多不是自己所要的。如果輸入“新聞*美學”,則檢索出題名中同時含有“新聞”和“美學”的文獻,檢索結果大大縮小。第四十一頁,共七十九頁,編輯于2023年,星期一邏輯與在CNKI中的應用第四十二頁,共七十九頁,編輯于2023年,星期一4.4檢索詞組配算符4.4.1布爾邏輯算符組配檢索2.邏輯或用符號“or”或“+”表示,其邏輯表達式為:AorB或A+B其意義為檢索記錄中凡含有檢索詞A或檢索詞B,或同時含有檢索詞A和B的,均為命中文獻。AB第四十三頁,共七十九頁,編輯于2023年,星期一4.4檢索詞組配算符4.4.1布爾邏輯算符組配檢索3.邏輯非用符號“not”或“-”表示其邏輯表達式為:AnotB或A–B其意義為:檢索記錄中含有檢索詞A,但不能含有檢索詞B的文獻,才算命中文獻。例如我需要中國旅游方面的資料,但不包括地圖,檢索式為:中國*旅游-地圖AB第四十四頁,共七十九頁,編輯于2023年,星期一4.4檢索詞組配算符4.4.2截詞符利用檢索詞的詞干或不完整的詞形進行檢索,在檢索詞的適當位置進行截斷,節(jié)省輸入的字符,達到較高的查全率。包括無限截斷和有限截斷,無限截斷又包括后方截斷和前方截斷。把截詞符放在字根的右邊,如“Comput*”則Computer、Computers、Computerise、Computerize等均為命中把截詞符放在字根的左邊,如*Computer,那么在計算機檢索時,索引詞Microcomputer均算命中。

若干個限制截詞符“?”放在詞干上,向系統(tǒng)表示在此位置上允許出現(xiàn)相應數(shù)目的字母。三個截詞符“?”代表可增加0-3個字母,例如:plant???,相當于查找plant,plants,planted,planter等詞。

第四十五頁,共七十九頁,編輯于2023年,星期一4.4檢索詞組配算符4.4.3位置算符(W)與(nW)算符表示其兩側的檢索詞必須按前后順序出現(xiàn)在記錄中,而且兩詞之間不允許插入其他字符和單詞,只允許有空格或一個標點符號。實例:sdouble(W)digit等價于sdoubledigit檢索出doubledigit和double-digit。(nW)中的n表示兩檢索詞中間允許插入的單詞數(shù)目少于或等于n個,算符兩側檢索詞的詞序不能顛倒。實例:asolar(1W)energy,檢出solarenergy,solarradiantenergy,solarelectricenergy。第四十六頁,共七十九頁,編輯于2023年,星期一位置算符(N)與(nN)算符(N)表示其兩側的檢索詞位置可以倒置,但在兩詞之間不能插入其他字符;實例:sfiber?(N)optic,檢出fiberoptic,fiberoptics,opticalfiber,opticalfibers。(nN)中的n表示允許插入單詞的數(shù)目量少于或等于n個,兩檢索詞的詞序可以顛倒。實例:sallergic(2N)reaction?檢出allergicreactions,allergicdrugreactions,allergiccross-reactions,reactionsofthoseallergic第四十七頁,共七十九頁,編輯于2023年,星期一4.4.3位置算符(X)算符與(nX)算符A(X)B,表示A和B檢索詞出現(xiàn)完全一致,并以指定的順序相鄰,且中間不允許任何其他單詞和字母;nX含義同上,就是兩詞之間字符數(shù)小于等于n。(L)算符(link)A(L)B表示A和B有主從關系,A為主,B為副。此算符對于用標題詞進行標引的文獻。(S)算符A(s)B,表A和B必須同時出現(xiàn)在記錄的同一個句子或短語中,但次序可能隨意改變,A與B之間可以有若干個其他的詞。

(F)算符A(F)B,表示A和B必須同時出現(xiàn)在記錄的同一個字段之中,但位置和次序不限,兩者之間還可以任意加詞。如Rice(F)Genetics/Ti要求Rice和Genetics必在同時出現(xiàn)在篇名之中。第四十八頁,共七十九頁,編輯于2023年,星期一4.4檢索詞組配算符4.4.4字段限制符1)后綴限定(/)electron/TI2)前綴限定(=)AU=Rankin,K.M.LA=English3)時間限制符(:)PY=1990:1999

4)限定網站site:【實例】輸入“金庸古龍site:”搜索包含“金庸”和“古龍”的中文新浪網站頁面。第四十九頁,共七十九頁,編輯于2023年,星期一4.4檢索詞組配算符4.4.4字段限制符5)限定網頁【實例】輸入“inurl:midi滄海一聲笑”查找MIDI曲“滄海一聲笑”?!緦嵗枯斎雐nurl:"plog/register.php",搜索plog注冊文件(現(xiàn)在用的很普遍的一套PHP博客程序,在其安裝說明中明確說明希望用戶安裝后刪除register.php文件)。【實例】輸入“inurlecuritywindows2000site:”查找微軟網站上關于windows2000的安全課題資料。第五十頁,共七十九頁,編輯于2023年,星期一4.4檢索詞組配算符4.4.4字段限制符6)限定標題【實例】輸入“intitle:張娜拉寫真”查找韓國張娜拉的照片集。

7)限定文件類型【實例】輸入filetype:litlit(books|ebooks),搜索網絡圖書(FILETYPE可以更換)?!緦嵗坷煤缶Y名來搜索電子書,輸入“存在與虛無chm”、“菜根譚exe”、“水煮三國chm”。

8)其他類型限定第五十一頁,共七十九頁,編輯于2023年,星期一4.4檢索詞組配算符4.4.5加權檢索根據檢索詞在需求中的重要程度給定一個權值。在檢索中,由系統(tǒng)先查找存在這些檢索詞的文獻,并計算它們的權值總和。然后,檢索者再給定一個閾值大于或等于該閾值時,才算命中。4.4.6聚類檢索主題相近、內容相關的文獻便聚在一起,而相異的則被區(qū)分開來4.4.7跨文檔檢索用一個檢索式可以同時檢索多個文檔,如CNKI的跨庫檢索第五十二頁,共七十九頁,編輯于2023年,星期一4.4.8、概念檢索同時對同義詞、近義詞、廣義詞、狹義詞進行檢索。例,輸入“土豆”,檢出結果不多,還可以再次輸入“馬鈴薯,洋芋”等同義詞,就可檢索更多結果。4.4.9、深入檢索(二次檢索)例:查找“信息檢索”,會出來很多結果,這時候需要“在結果中進一步檢索”以得到更精確的結果。4.4檢索詞組配算符第五十三頁,共七十九頁,編輯于2023年,星期一4.5信息檢索方法和步驟□分析課題□選擇檢索系統(tǒng)□確定檢索詞□構造檢索式□調整檢索策略□輸出檢索結果□獲取原始文獻第五十四頁,共七十九頁,編輯于2023年,星期一

信息檢索的基本步驟圖分析檢索課題1.主題概念2.信息類型3.時間范圍4.檢索目的構造檢索式(試驗性檢索)1.簡單提問式2.上下文提問式3.復合提問式4.結構性提問式調整檢索策略(正式檢索)1,信息量過多時2.信息量太少時輸出檢索結果1.文摘2.全文選擇檢索系統(tǒng)1.學科范圍2.系統(tǒng)類型3.系統(tǒng)功能

確定檢索詞

1.切分2.刪除3.替補4.組合5.增加用戶評價

第五十五頁,共七十九頁,編輯于2023年,星期一算符使用,檢索時使用邏輯算符,位置算符,截詞算符使用系統(tǒng)的基本檢索和高級檢索選擇相應的檢索字段:題名,著者,關鍵詞檢索相關詞:有些系統(tǒng)自動提示相關詞,可以選擇4.5信息檢索方法和步驟4.5.1檢索規(guī)則第五十六頁,共七十九頁,編輯于2023年,星期一1.檢索式的含義所謂的檢索提問式(query,searchformulation),是信息檢索中用來表達用戶檢索提問的邏輯表達式,主要是使用各種布爾邏輯算符、位置算符、截詞符、限制算符以及系統(tǒng)規(guī)定的其他組配連接符號將檢索詞進行組配,確定檢索詞之間的概念關系或位置關系。4.5信息檢索方法和步驟4.5.2檢索式的表達第五十七頁,共七十九頁,編輯于2023年,星期一2.構造檢索式要注意的用詞技巧:少用或不用對課題檢索意義不大的詞詞義泛指過大(不用)、詞義延伸過大(少用)、規(guī)范詞是可優(yōu)先考慮使用

充分利用所選主題表達的上位或下位概念縮小主題范疇明確課題的“學科歸屬”4.5.2檢索式的表達4.5信息檢索方法和步驟第五十八頁,共七十九頁,編輯于2023年,星期一3.檢索表達式構造課題:地震序列分析的工具和方法研究要完成本項檢索課題,必須使用如下的檢索式:(“sequenceanalysis”INTI)AND((method*ORtool*ORinstrument*)INAB))

AND(SeismicORearthquake)4.5.2檢索式的表達4.5信息檢索方法和步驟第五十九頁,共七十九頁,編輯于2023年,星期一課題1:建筑節(jié)能與集中供熱新技術研究(設備)constructionconservesenergy,centralheating,study;research4.5.3檢索實例4.5信息檢索方法和步驟第六十頁,共七十九頁,編輯于2023年,星期一課題2:高層建筑結構優(yōu)化設計

1.信息需求分析(1)明確檢索目的與要求

1)檢索目的:碩士學位論文開題查新

2)檢索要求:國內外關于高層建筑結構優(yōu)化設計方面的相關信息

3)確定檢索類型:屬書目及全文信息檢索(2)主題分析第一概面:高層建筑第二概面

結構設計第三概面

:優(yōu)化設計4.5.3檢索實例4.5信息檢索方法和步驟第六十一頁,共七十九頁,編輯于2023年,星期一檢索課題2:高層建筑結構優(yōu)化設計2.制定檢索策略選擇檢索詞根據主題分析確定的主題范圍,選擇檢索詞如下:

高層建筑tallbuilding*

高層建筑highrisebuilding*

高層建筑highrisebuilding*

結構設計structuraldesign

優(yōu)化設計optimization第六十二頁,共七十九頁,編輯于2023年,星期一檢索課題2:高層建筑結構優(yōu)化設計3.編寫檢索提問式檢索式1

高層建筑and結構設計

檢索式2

高層建筑and結構設計and優(yōu)化檢索式3(tallbuilding*orhighrisebuilding*orhighrisebuilding*)andstructuraldesign檢索式4

building*and(tallorhighriseorhighrise)andstructuraldesign檢索式5

building*and(tallorhighriseorhighrise)andstructuraldesignandoptimization檢索式6[building*and(tallorhighriseorhighrise)andstructuraldesignandoptimization]/AB檢索式7[building*and(tallorhighriseorhighrise)andstructuraldesignandoptimization]/TI第六十三頁,共七十九頁,編輯于2023年,星期一4.選擇檢索系統(tǒng),輸入檢索式5.查看檢索結果,優(yōu)化檢索式6.篩選檢索結果檢索課題2:高層建筑結構優(yōu)化設計第六十四頁,共七十九頁,編輯于2023年,星期一4.6原始文獻分析4.6.1課題思路的調整重新選擇檢索詞使用網絡搜索引擎4.6.2原始文獻的評價和篩選4.6.3原始文獻的閱讀與分析評價4.6.4檢索到的原始文獻觀點的歸納與總結4.6.5創(chuàng)新性觀點的形成第六十五頁,共七十九頁,編輯于2023年,星期一4.7檢索結果及全文索取4.7.1原始文獻的評價和篩選

檢索到的文獻有的存在問題,要辨證的認識所獲文獻,批判繼承4.7.2原文獲取途徑館際互借與全文傳遞聯(lián)機檢索中心,提供全文信息檢索(DIALOG)網絡環(huán)境下的圖書館區(qū)域合作:天津的高校數(shù)字圖書館聯(lián)盟,免費全文傳遞第六十六頁,共七十九頁,編輯于2023年,星期一4.8信息檢索技巧總結當我們遇到一個課題,應該從哪些方面入手?如何完成一個準確而全面的檢索?第六十七頁,共七十九頁,編輯于2023年,星期一第一步先分析課題的詞義,獲取關鍵詞1.1.分析課題查找詞語的意義,可以借助字典詞典百科全書,或者工具書手冊等,明確課題的意義和學科歸屬。1.2關鍵詞提煉4.8信息檢索技巧總結第六十八頁,共七十九頁,編輯于2023年,星期一1.2關鍵詞選擇技巧1.選定的關鍵詞應符合課題主題;并應列出常用中外文同義詞、縮寫詞,以及核心關鍵詞的上下位類詞。

2.應充分利用詞表、辭海、術語標準、詞典等工具書,以及從已檢出的文獻中,擴展檢索用詞。第六十九頁,共七十九頁,編輯于2023年,星期一1.2關鍵詞選擇技巧3.立足規(guī)范詞,兼顧自由詞4.詞的全稱、簡稱及縮寫字母5.必要時應向上下位類詞擴檢

6.注意外來詞的譯寫變化7.慎用詞組或短語第七十頁,共七十九頁,編輯于2023年,星期一第二步選擇適合課題的檢索系統(tǒng)

了解檢索工具的學科特色、收錄文獻類型、時間范圍、特色、檢索方法等第七十一頁,共七十九頁,編輯于2023年,星期一第三步調整檢索策略1.當檢索結果信息量過多時原因:選用了多義性的檢索詞;截詞截得過短;輸入的檢索詞太少;應該使用“與(AND)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論