第三章 計算機信息檢索技術(shù)_第1頁
第三章 計算機信息檢索技術(shù)_第2頁
第三章 計算機信息檢索技術(shù)_第3頁
第三章 計算機信息檢索技術(shù)_第4頁
第三章 計算機信息檢索技術(shù)_第5頁
已閱讀5頁,還剩49頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

3/12/2024

計算機信息檢索技術(shù)

武漢大學圖書館理科學科館員歐懿3/12/2024計算機信息檢索技術(shù)檢索策略的制定與檢索實施步驟檢索結(jié)果的評價與檢索策略的調(diào)整本章主要內(nèi)容3/12/2024在進行計算機檢索時,有時有一些比較復(fù)雜的課題,如:“計算機信息檢索”,既涉及計算機,又涉及信息檢索,這時候就要編制出滿足要求的計算機檢索式,它是機檢的基礎(chǔ)。布爾邏輯檢索截詞檢索位置檢索詞組檢索字段限定檢索一.計算機信息檢索技術(shù)計算機信息檢索技術(shù)3/12/2024運用布爾邏輯算符(Booleanoperators)對檢索詞進行邏輯組配,表達兩個概念之間的邏輯關(guān)系。布爾邏輯算符主要有:ANDORNOT在中文數(shù)據(jù)庫里,布爾邏輯運算符有時用AND、OR、NOT表示,有時用“*”、“+”及”-“。1.布爾邏輯檢索計算機信息檢索技術(shù)3/12/2024表示概念的相交、限定,縮小檢索范圍,提高檢準率。用運算符號:AND或*連接檢索詞ABAANDB邏輯與(邏輯乘)計算機信息檢索技術(shù)3/12/2024A=汽車發(fā)動機B=飛機發(fā)動機汽車與飛機發(fā)動機ABAandB邏輯“與”運算計算機信息檢索技術(shù)3/12/2024人類活動對群落多樣性的影響檢索概念:人類活動群落多樣性影響檢索式人類活動AND群落多樣性人類活動AND群落多樣性AND影響計算機信息檢索技術(shù)3/12/2024人類活動and群落多樣性計算機信息檢索技術(shù)3/12/2024表示概念的平行、并列,用于擴大檢索范圍,提高查全率用運算符“OR”或“+”連接兩檢索詞ABAORB邏輯或(邏輯乘)計算機信息檢索技術(shù)3/12/2024邏輯或(OR或+)乙肝病毒的研究檢索詞:乙肝乙型肝炎HBVHepatitisBvirus檢索式:乙肝OR乙型肝炎ORHBVHepatitisBvirusORHBV計算機信息檢索技術(shù)3/12/2024計算機信息檢索技術(shù)3/12/2024去掉一個主題中某一部分的主題,用于縮小檢索范圍,提高查準率;用運算符號“NOT”或“-”連接兩檢索詞例1查“玉米但不是甜玉米”方面的文獻。檢索式=玉米-甜玉米例2查“國外有關(guān)數(shù)字圖書館方面”的文獻檢索式=數(shù)字圖書館-國內(nèi)邏輯非計算機信息檢索技術(shù)3/12/2024運算順序:NOT>AND>OR可通過()來改變運算的優(yōu)先順序例:乙肝病毒受體的篩選檢索詞:HBV、HepatitisBvirus、receptor、screen檢索式:(HBVORHepatitisBvirus)ANDreceptorANDscreenAND、OR、NOT的綜合應(yīng)用計算機信息檢索技術(shù)3/12/2024計算機信息檢索技術(shù)3/12/2024在實際檢索中,常遇到詞干相同、詞義相近的檢索詞,或同一詞的單、復(fù)數(shù)形式,動、名詞形式,英美拼法等。所謂截詞檢索,是指在檢索標識中保留相同的部分,用相應(yīng)的截詞符代替可變化部分。檢索中計算機會將所有含有相同部分標識的記錄全部檢索出來。常用“?”、“*”符號表示。用截詞符號“?”、“*”或“$”加在檢索詞的前后或中間,以檢索一組概念相關(guān)或同一詞根的詞。這種檢索方式可以擴大檢索范圍,提高查全率。截詞運算符號通常有兩個:“?、*”。其在不同系統(tǒng)中表示的含義不同。2.截詞檢索計算機信息檢索技術(shù)3/12/2024按截斷的位置分:后截斷前截斷中間截斷按截詞的字符數(shù)量分:有限截詞無限截詞計算機信息檢索技術(shù)3/12/2024在檢索詞后(右方)截斷有限或無限的字母。如:librar*library、librarian、libraries……主要用于詞的單復(fù)數(shù)檢索、詞根檢索(socio*)、年代檢索(199*)后截斷計算機信息檢索技術(shù)3/12/2024將截詞符號放在檢索字符串的左方,以表示其左邊不管截去有限或無限個字符,只要數(shù)據(jù)庫中具有與截詞符后面部分字符相同的檢索詞的文獻,即為命中文獻。這種方式也稱為后方一致。如:*chemistrymicrochemistry、macrochemistry目前使用較少前截斷計算機信息檢索技術(shù)3/12/2024又稱作“通用字符法”或“內(nèi)嵌字符截斷”。在檢索詞中間加一個或幾個?號,主要解決一些英美拼寫不同,單復(fù)數(shù)形式的不同的詞的輸入,可簡化輸入。如:輸入wom?n可檢出woman,women輸入defen?e可檢出defence、defense中間截斷計算機信息檢索技術(shù)3/12/2024即在檢索詞后截去有限的字母,如名詞的單復(fù)數(shù),動詞的詞尾變化等。例如:輸入computer??表示有0-2個字母變化,可檢出computer和computers.輸入stud???表示截斷處有0-3個字母變化,可檢出study,studies,studied。有限截詞計算機信息檢索技術(shù)3/12/2024不限制被截斷的字符數(shù)量。在檢索詞后加一個“*“,表示該詞后可加任意個字符。使用無限截詞,所截詞根不能太短,否則會輸出許多無關(guān)文獻,造成誤檢。例如:educat*可檢出educator,educators,educated,educating,education如:輸入computer?表示可檢出computer和computers.如:輸入stud?表示可檢出study,studies,studied,studing.無限截詞計算機信息檢索技術(shù)3/12/2024功能:兩詞出現(xiàn)在同一自然句中,其詞序與詞量不受限制(nW)(SCI中專用)表達式:EducationSAMEschool檢索結(jié)果:Education和school兩詞出現(xiàn)在同一句子中即可。特別注意事項:不是所有的檢索系統(tǒng)都支持位置算符,不同的檢索系統(tǒng)對位置算符有不同的表示符,同一位置算符在不同檢索系統(tǒng)中指代的含義可能也不盡相同。3.位置算符SAME計算機信息檢索技術(shù)3/12/2024將一個詞組或短語用雙引號“”括起作為一個獨立運算單元,進行嚴格匹配,以提高檢索準確度。如:“GlobalPositioningSystem”,只檢索出規(guī)定字段中包含完整詞組的記錄。4.詞組檢索計算機信息檢索技術(shù)3/12/2024不加“”,命中13815條計算機信息檢索技術(shù)3/12/2024加“”,命中8125條計算機信息檢索技術(shù)3/12/2024組成數(shù)據(jù)庫的最小單位是記錄,一條完整記錄的每個著錄事項為字段。在許多檢索檢索系統(tǒng)中,為了提高查全率或者查準率,需要將檢索過程限制在特定的字段中,即字段檢索。5.字段檢索計算機信息檢索技術(shù)3/12/2024西文數(shù)據(jù)庫常用字段中文數(shù)據(jù)庫常用字段字段名稱字段代碼AbstractsAB文摘AuthorAU作者CorporateSourceCS、Organization、CompanyCS機構(gòu)名稱DescriptorDE、SubjectDE敘詞/主題詞DocumentTypeDT文獻類型Full-textFT全文ISSNISSN國際標準連續(xù)出版物號JournalNameJN、PublicationTitleJN期刊名稱KeywordKW、TopicKW關(guān)鍵詞LanguageLA語言PublicationYearPY出版年TitleTI題名計算機信息檢索技術(shù)3/12/2024數(shù)據(jù)庫位置算符截詞算符EI(工程索引)NEAR/n:表示兩詞中間可插入不超過n個單詞,詞序不限。如:SolarNEAR/2energyONEAR/n:表示兩詞中間可插入不超過n個單詞,詞序不變。如:AvalancheONEAR/0diodes,將檢出Avalanchediodes*:無限截斷。如:Optic*檢索結(jié)果中包括以optic開頭后面加任意多個字母的詞optic,optics,optical等。$:強調(diào)語義,檢索出與該詞根具有同樣語意的詞。如:$manage將檢出managers,managerial和management等詞。CSA(劍橋科學文摘)withinx:表示兩詞之間不得多于x個詞,詞序不限。如:“womenwithin8movement”。*:無限截斷。如:“patent*”,可以檢索到patent、patents、patented等;?:有限截斷。如:"wom?n",可以檢索到woman和women?!癴ib??”,可檢索到fiber和fibre。SDOL(Elsevier電子期刊全文庫)ADJ:表示兩詞相鄰,詞序不變,與短語檢索的結(jié)果相同;NEAR或NEAR(N):表示兩詞中間可插入少于或等于N個單詞,詞序不限,如果不使用(N),系統(tǒng)默認值為10。*:無限截斷。如:“patent*”,可以檢索到patent、patents、patented等;?:有限截斷。如:"wom?n",可以檢索到woman和women。“fib??”,可檢索到fiber和fibre。3/12/2024數(shù)據(jù)庫位置算符截詞算符ISIProceedings(ISI會議錄索引)SAME:同句算符,Channelsametunnel,表示channel和tunnel出現(xiàn)在同一句子中才符合檢索條件。*:無限截斷。如“patent*”,可以檢索到patent、patents、patented等;?:有限截斷。如"wom?n",可以檢索到woman和women。“fib??”可檢索到fiber和fibre。PQDD(博碩士論文數(shù)據(jù)庫)W/n:表示兩詞之間最多可插入n個單詞且詞序不限。如:Educationw/5intenet表示education和internet之間可以插入最多5個詞,并且前后位置可以顛倒;Pre/n:表示兩詞之間最多可插入n個單詞,且詞序不變。如:U.Spre/neconomicpolicy可檢出U.Saideconomicpolicy,或U.Swartimeeconomicpolicy。*:無限截斷。如:“patent*”,可以檢索到patent、patents、patented等;?:有限截斷。如:"wom?n",可以檢索到woman和women。“fib??”,可檢索到fiber和fibre。ProQuest同PQDD同PQDD計算機信息檢索技術(shù)3/12/2024檢索示例:有關(guān)“企業(yè)知識產(chǎn)權(quán)研究”檢索式檢索結(jié)果

(*表示AND,+表示OR,限定篇名字段)(2004-2006)1企業(yè)知識產(chǎn)權(quán)191篇(準確度最高漏檢大)2企業(yè)*知識產(chǎn)權(quán)404(漏檢率較高)3(企業(yè)+集團+公司)*知識產(chǎn)權(quán)466(適合綜述性文獻)4(企業(yè)+集團+公司)*(知識產(chǎn)權(quán)+專利權(quán)520(查全率查準率較高)+商標權(quán)+著作權(quán)+名稱權(quán))5(企業(yè)+集團+公司)*(知識產(chǎn)權(quán)+專利權(quán)137(縮小范圍效果最佳)+商標權(quán)+著作權(quán)+名稱權(quán))*保護3/12/2024檢索結(jié)果表明:檢索詞的選擇、邏輯算符的使用、同義詞近義詞的擴展、檢索字段的選擇等變化,對檢索結(jié)果數(shù)量的多少、檢索的查全和查準有很大影響3/12/2024分析檢索主題,明確檢索要求確定學科范疇,選擇數(shù)據(jù)庫(注意數(shù)據(jù)庫所收錄文獻的學科、文獻類型、回溯年代、語種、更新頻率等)選擇檢索字段(您所輸入的檢索詞出現(xiàn)的位置,如:篇名、作者、摘要、作者單位等)限定檢索條件(如年代、學科、文獻類型、語種等)正確應(yīng)用各種算符根據(jù)檢索結(jié)果對上面的檢索步驟進行調(diào)整二.計算機檢索程序與步驟計算機檢索程序與步驟3/12/2024分析檢索主題的中心內(nèi)容和所屬學科范圍,以便準確選擇反映文獻內(nèi)容特征的主題詞、關(guān)鍵詞和學科范疇。明確檢索需求要求,即弄清檢索目的及要解決的問題。檢索目的和要求是多種多樣的,是撰寫學位論文,還是申報科研課題,是技術(shù)革新還是成果鑒定,目的不同,檢索的策略和范圍也不同。檢索需求要求?主要反映在用戶對命中文獻的類型、語種及所需文獻的年代等方面的要求。1.分析檢索主題,明確檢索要求計算機檢索程序與步驟3/12/2024在分析檢索課題,明確檢索要求的基礎(chǔ)上,綜合考慮檢索系統(tǒng)的特點、收錄的學科范圍、各數(shù)據(jù)庫的專業(yè)范圍、主題內(nèi)容、數(shù)據(jù)來源與文獻類型、標引的深度及準確度、技術(shù)含量、數(shù)據(jù)的存貯年限、更新頻率、檢索速度、界面的友好程度以及檢索費用、使用方法等因素。在同時有幾個數(shù)據(jù)庫可供檢索的情況下,應(yīng)首先選擇比較熟悉的數(shù)據(jù)庫。當用戶要求檢索的文獻量比較大時,可首先用瀏覽的方式,按主題或?qū)W科專業(yè)的方式查找。2.確定學科范疇,選擇數(shù)據(jù)庫計算機檢索程序與步驟3/12/2024檢索詞是表達用戶信息需求和檢索課題內(nèi)容的基本元素,也是計算機檢索系統(tǒng)進行匹配的基本單元。正確的主題分析是制定檢索策略的保證,它決定了檢索策略的質(zhì)量和檢索效果的好壞。因此,務(wù)必要在分析課題的主題概念中掌握課題的內(nèi)容實質(zhì),概括出能最恰當?shù)卮碇黝}概念的檢索詞。在選擇檢索詞時應(yīng)考慮將課題內(nèi)容分解或綜合成某些概念,提煉核心概念,發(fā)掘隱含概念,排除非核心與寬泛概念,力求檢索詞能反映用戶信息需求和檢索主題內(nèi)容。。3.確定檢索詞,編制檢索式計算機檢索程序與步驟3/12/2024先選用主題詞選用常用的專業(yè)術(shù)語避免選用高頻詞或低頻詞選用同義詞、多義詞與相關(guān)詞確定檢索詞時的注意事項計算機檢索程序與步驟3/12/2024當所選的數(shù)據(jù)庫具有規(guī)范化詞表時,應(yīng)優(yōu)先選用該數(shù)據(jù)庫詞表中與檢索課題相關(guān)的規(guī)范化主題詞,從而可獲得最佳的檢索效果。例:自由詞:ComputervisionMachinevision主題詞(敘詞):Visionsystems如:海綿自由詞表述:海綿規(guī)范化主題詞表述:聚氨酯泡沫塑料優(yōu)先選用規(guī)范化主題詞和專業(yè)術(shù)語,兼顧自由詞計算機檢索程序與步驟3/12/2024在數(shù)據(jù)庫沒有專用的詞表或詞表中沒有可選的詞時,可以從一些已有的相關(guān)專業(yè)文獻中選擇常用的專業(yè)術(shù)語作為檢索詞。選用常用的專業(yè)術(shù)語計算機檢索程序與步驟3/12/2024檢索時避免使用頻率較低或?qū)V感蕴叩脑~,一般不選用動詞和形容詞;不使用禁用詞;盡量用或不用不能表達課題實質(zhì)的高頻詞,如“分析”、“研究”、“應(yīng)用”、“方法”、“發(fā)展”、“設(shè)計”等詞。必須用時,應(yīng)與能表達主要檢索特征的詞一起組配,或增加一些限制條件再用。避免使用低頻詞或高頻詞計算機檢索程序與步驟3/12/2024同一概念的幾種表達方式,如化學分析有chemicalanalysis,analyticalchemistry,chemicaldetermination,compositionmeasurement等。同一名詞的單復(fù)數(shù)、動詞、動名詞、過去分詞形式等,如生產(chǎn)有product,production,producing,produce,productive等,詞根相同時,可用截詞符解決??紤]上位概念詞與下位概念詞,如水果榨汁,不僅要選fruit,也應(yīng)選各種水果,如pear、orange、plum、peach、apple、pineapple等,反之,如某一種水果保鮮則應(yīng)參考水果保鮮。全稱和簡稱在檢索時也要考慮選用。WTO(WorldTradeOrganization)植物和動物名,其英文和拉丁名均要選用注意外來詞的譯寫變化選擇同義詞或近義詞、相關(guān)詞3/12/2024(您所輸入的檢索詞出現(xiàn)的位置,如:篇名、作者、摘要、作者單位等)利用各種算符構(gòu)造檢索式,然后選擇檢索入口即字段,如:題名、著者、主題詞、文摘、全文等。4.選擇檢索字段計算機檢索程序與步驟3/12/2024不同的檢索系統(tǒng)所提供的檢索技術(shù)也有所不同,比如默認字、詞檢索、位置算符、截詞算符、引號、限定條件等不同的表示方法。因此上機檢索之前必須對要實施檢索的數(shù)據(jù)庫的結(jié)構(gòu)、檢索方式以及檢索技術(shù)有一定的認識,使已制定的檢索策略與檢索系統(tǒng)提供的檢索方式相匹配,保證檢索策略能夠順利、正確的實施。5.利用檢索系統(tǒng)特定的指令正確實施檢索計算機檢索程序與步驟3/12/2024在得到檢索結(jié)果后,可能會出現(xiàn)一下三種讓人不太滿意的情況:.檢索結(jié)果太少,漏掉了相關(guān)文獻.檢索結(jié)果太多,很多文獻不相關(guān).檢索結(jié)果并非我們要的內(nèi)容6.通過人機對話的方式不斷調(diào)整、修改檢索策略計算機檢索程序與步驟3/12/2024檢查檢索詞拼法是否正確。放寬檢索要求,提高檢全率去掉某個方面的檢索要求;放寬檢索范圍:學科領(lǐng)域、時間、文章類型等不作限制;將題名、關(guān)鍵詞字段改為摘要,甚至全文字段;更全面地考慮檢索主題,增加選用上位詞、同義詞、近義詞及縮寫形式;如:HIVORHumanimmunodeficiencyvirus*采用截詞檢索法,可以檢索到大多數(shù)單詞單數(shù)、復(fù)數(shù)和所有格,不規(guī)則單詞除外;如:cit*可以檢索出city,cities,city’s,cities’減少用“AND”或“NOT”算符聯(lián)結(jié)的概念;增加用“OR”聯(lián)結(jié)檢索詞;檢索結(jié)果太少,是否漏掉了相關(guān)文獻?3/12/2024進一步限定檢索,提高檢準率更加準確地描述檢索需求;嚴格限定檢索范圍:學科領(lǐng)域、時間、文章類型,關(guān)鍵詞出現(xiàn)的字段等;選擇與檢索主題密切相關(guān)的詞和專業(yè)術(shù)語,如:kidneydiseaseORrenalfailure,避免使用過于寬泛的詞匯,如:influence;使用詞組檢索或位置檢索;在檢索結(jié)果的基礎(chǔ)上進行二次檢索;增加用“AND”聯(lián)結(jié)的概念;利用邏輯“非”進行限制;充分利用下位類檢索詞;使用詞組檢索或位置檢索檢索結(jié)果太多,是否很多文獻不相關(guān)?3/12/2024不同的檢索系統(tǒng)所提供的檢索技術(shù)也有所不同,比如默認字、詞檢索、位置算符、截詞算符、引號、限定條件等不同的表示方法。因此上機檢索之前必須對要實施檢索的數(shù)據(jù)庫的結(jié)構(gòu)、檢索方式以及檢索技術(shù)有一定的認識,使已制定的檢索策略與檢索系統(tǒng)提供的檢索方式相匹配,保證檢索策略能夠順利、正確的實施。5.利用檢索系統(tǒng)特定的指令正確實施檢索計算機檢索程序與步驟3/12/2024利用中國知網(wǎng)數(shù)據(jù)庫查找藥物上

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論