數(shù)據(jù)庫檢索策略_第1頁
數(shù)據(jù)庫檢索策略_第2頁
數(shù)據(jù)庫檢索策略_第3頁
數(shù)據(jù)庫檢索策略_第4頁
數(shù)據(jù)庫檢索策略_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)庫檢索策略第1頁,共29頁,2023年,2月20日,星期六1分析課題2選擇檢索詞3編制檢索式4查全與查準(zhǔn)5利用各數(shù)據(jù)庫的功能6檢索策略分析舉例第2頁,共29頁,2023年,2月20日,星期六通常要解決以下問題:課題的范圍、類型及所屬的專業(yè)領(lǐng)域課題的主要內(nèi)容和重點課題的核心概念和術(shù)語課題所需信息的時間范圍和語種課題對查全和查準(zhǔn)的傾向性首選手冊、百科全書、專著等三次文獻(xiàn)作為分析課題的手段,在此基礎(chǔ)上去查詢新的文獻(xiàn)。1分析課題第3頁,共29頁,2023年,2月20日,星期六檢索詞的全稱、簡稱、俗稱與英文縮寫檢索詞的上下位類擴(kuò)展外來詞的譯寫變化少用或不用對課題意義不大的詞深入課題尋找檢索詞外文檢索詞的多種寫法2選擇檢索詞檢索詞是概括檢索需求的簡潔詞語用于檢索的所有詞匯都是檢索詞第4頁,共29頁,2023年,2月20日,星期六以用戶提供的關(guān)鍵詞為參考,根據(jù)檢索要求復(fù)核、篩選、補(bǔ)充、精煉檢索用詞。選定的檢索詞應(yīng)符合檢索目的;確認(rèn)檢索詞是否為規(guī)范詞;并列出常用中外文同義詞、縮寫詞,以及核心詞的上下位類詞。充分利用詞表、詞典、百度、谷歌、讀秀,并從已檢出的文獻(xiàn)中,擴(kuò)展檢索用詞。

檢索詞選擇技巧第5頁,共29頁,2023年,2月20日,星期六(1)立足規(guī)范詞,兼顧自由詞膠粘劑:黏合劑、粘合劑、粘固劑、粘結(jié)劑、粘附劑、膠黏劑、膠合劑、粘接劑、粘膠劑(2)注意詞的全稱、簡稱及縮寫字母乙型病毒性肝炎(乙型肝炎、乙肝、HBV)(3)必要時應(yīng)向上下位類詞擴(kuò)檢電阻焊(點焊、縫焊、凸焊)(4)注意外來詞的譯寫變化波爾茲曼(玻耳茲曼、玻爾茲曼、波耳茲曼、波爾茨曼、Boltzmann)歐幾里德(歐幾里得、歐基里德、歐幾理德、歐氏幾何、Euclid)(5)同義詞的選擇方法利用數(shù)據(jù)庫的同義詞選擇功能、利用搜索引擎尋找同義詞從數(shù)據(jù)庫檢索結(jié)果中尋找同義詞、利用自己的專業(yè)知識利用自己平時積累的知識第6頁,共29頁,2023年,2月20日,星期六利用搜索引擎查找同義詞第7頁,共29頁,2023年,2月20日,星期六檢索詞選擇要點第8頁,共29頁,2023年,2月20日,星期六1).切分切分是對課題的語句以詞為單位進(jìn)行拆分,轉(zhuǎn)換為檢索的最小單元。

例1:檢索“婦女吸煙與肺癌的關(guān)系研究”相關(guān)文獻(xiàn)。直接切分:婦女|吸煙|與|肺癌|的|關(guān)系|研究

注意:當(dāng)詞切分后將失去原來的意思時,不應(yīng)再切分,即必須注意保持意義的完整。

如“中國科學(xué)院”、“電子郵件”不可再切分。第9頁,共29頁,2023年,2月20日,星期六2).刪除

刪除是對自然語言中不具有實質(zhì)性檢索意義的:

虛詞(如介詞、連詞、副詞等),使用頻率較低的詞,專指性太高、過分寬泛的詞過分具體的限定詞不能表達(dá)課題實質(zhì)的高頻詞(研究、發(fā)展等)存在蘊(yùn)含關(guān)系可以合并的詞(檢索詞重復(fù)或包含)第10頁,共29頁,2023年,2月20日,星期六

英語或漢語中都有許多虛詞,不能作為檢索詞。

如:漢語中“的、地、得、了”等助詞英語中的aaboutalsoandanyasatbebetweenbybothforsomesonotthiswith等介詞或冠詞等第11頁,共29頁,2023年,2月20日,星期六

例2:檢索“中國非常規(guī)天然氣工業(yè)的發(fā)展前景研究”方面的相關(guān)文獻(xiàn)。

進(jìn)行拆分以后,工業(yè)、發(fā)展、前景、研究這四個自由詞具有一定的檢索意義,但是由于或者是意義過于寬泛、或者是不能表達(dá)課題實質(zhì)、或者是存在蘊(yùn)含關(guān)系的原因,沒有必要全部作為檢索詞,根據(jù)需要可以保留1-2個作為檢索詞。

適合在“摘要”或“全文”字段使用!本課題最主要的核心詞匯是“非常規(guī)”“天然氣”!

第12頁,共29頁,2023年,2月20日,星期六3).?dāng)U展想查全應(yīng)當(dāng)將核心詞匯進(jìn)行擴(kuò)展(同義詞、近義詞、上下位詞)。

例1:檢索“婦女吸煙與肺癌的關(guān)系研究”相關(guān)文獻(xiàn)。核心詞:吸煙,肺癌擴(kuò)展:抽煙,煙,癌癥,腫瘤,惡性腫瘤

例2:檢索“人工智能技術(shù)在計算機(jī)輔助教學(xué)中的應(yīng)用與實現(xiàn)”相關(guān)文獻(xiàn)。核心詞:人工智能、計算機(jī)輔助設(shè)計擴(kuò)展:同義詞:智能模擬下位概念:模式識別、自然語言理解與生成、專家系統(tǒng)、自動程序設(shè)計、數(shù)據(jù)智能檢索,計算機(jī)輔助教學(xué)系統(tǒng)(computerAidedInstruction,CAD)

第13頁,共29頁,2023年,2月20日,星期六英文檢索詞的選擇

(請參見后續(xù)課件)第14頁,共29頁,2023年,2月20日,星期六

檢索策略是檢索前制定的檢索概念組配和執(zhí)行順序的方案,是表達(dá)用戶具體的檢索思想與檢索要求。信息檢索成功與否,檢索的查全率與查準(zhǔn)率能否實現(xiàn),都與檢索策略的關(guān)系及其密切。在計算機(jī)檢索中,檢索策略具體表現(xiàn)為檢索式。檢索式將各個檢索詞之間的邏輯關(guān)系、位置關(guān)系等用檢索系統(tǒng)規(guī)定的各種組配算符連接起來,成為計算機(jī)可識別和執(zhí)行的檢索命令形式。完整檢索式由檢索字段、檢索詞和邏輯算符構(gòu)成。

檢索式中的算符包括:布爾邏輯算符、位置算符、截詞符、限制算符、系統(tǒng)規(guī)定的其他組配連接符號3制定檢索策略,編制檢索式第15頁,共29頁,2023年,2月20日,星期六1、構(gòu)造的檢索式只是一個表達(dá)式,該表達(dá)式不一定就能在數(shù)據(jù)庫的專業(yè)檢索方式下直接復(fù)制到檢索框中檢索,要看每個數(shù)據(jù)庫的檢索式輸入要求;2、檢索詞的輸入以及邏輯算符的輸入或選擇要遵循所選擇的數(shù)據(jù)庫的邏輯運算順序,以避免輸入的經(jīng)過檢索運算后得到的結(jié)果與構(gòu)造的檢索表達(dá)式不符。3、查看每個數(shù)據(jù)庫的檢索幫助和字段代碼表。檢索式構(gòu)造注意事項(具體檢索式構(gòu)造請參見課件《字段與檢索式》)第16頁,共29頁,2023年,2月20日,星期六3.漏檢率漏檢率=1-查全率4.誤檢率誤檢率=1-查準(zhǔn)率4考慮查全與查準(zhǔn),調(diào)整檢索策略*查全與查準(zhǔn)相互制約、此消彼長*檢索原則:兼顧查全與查準(zhǔn)1.查全率2.查準(zhǔn)率第17頁,共29頁,2023年,2月20日,星期六ABCDD:檢索系統(tǒng)中所有信息的總量A:在系統(tǒng)中存在著且能滿足信息檢索需求的相關(guān)信息總量B:本次檢索輸出信息量C:本次檢索輸出的且與需求相關(guān)信息數(shù)量C=A∩B,即合理命中的信息量

查全率=C/A×100%查準(zhǔn)率=C/B×100%第18頁,共29頁,2023年,2月20日,星期六選擇較大字段:如摘要、主題、全文、任意字段等盡量多用同義詞、近義詞、反義詞、縮寫詞、上下位類詞(增加邏輯或關(guān)系)減少邏輯與關(guān)系(限制條件)采用模糊匹配功能擴(kuò)大檢索年限使用截詞符(*?$)提高查全率(擴(kuò)大檢索結(jié)果)的方法第19頁,共29頁,2023年,2月20日,星期六選擇較小字段:如篇名(題名)、題名或關(guān)鍵詞字段盡量增加核心檢索詞:從內(nèi)容中挖掘核心詞使用詞位檢索采用精確匹配/精確短語功能采用“AND”或“NOT”算符連接檢索詞或進(jìn)行二次檢索。減少同義詞、同族相關(guān)詞等相關(guān)性不強(qiáng)的檢索詞。提高查準(zhǔn)率(縮小檢索結(jié)果)的方法第20頁,共29頁,2023年,2月20日,星期六(1)未按數(shù)據(jù)庫檢索規(guī)定運算次序(將邏輯或誤填為邏輯與)高級檢索在檢索框中使用了邏輯算符初級檢索在檢索框中同時使用邏輯算符和精確匹配(2)檢索條件過于嚴(yán)格使用過多的邏輯與對字段限定太嚴(yán)(3)檢索詞不當(dāng)選用了不規(guī)范的主題詞或某些產(chǎn)品的俗稱、商品名同義詞等沒能運用全多數(shù)數(shù)據(jù)庫難以實現(xiàn)對命名較復(fù)雜化合物的檢索檢索結(jié)果很少或為零的原因及解決方法第21頁,共29頁,2023年,2月20日,星期六(4)望文生義,沒有發(fā)現(xiàn)隱含概念利用專著、綜述、網(wǎng)上資源仔細(xì)分析課題閱讀檢索到的文獻(xiàn),不斷調(diào)整檢索策略(5)確實未曾有此方面研究的報道丟掉一些次要概念,用一兩個最核心的檢索詞進(jìn)行檢索,然后人工篩選A物質(zhì)+B方法,可借鑒C物質(zhì)+B方法或A物質(zhì)+E方法,借鑒一切可以借鑒的前人文獻(xiàn)第22頁,共29頁,2023年,2月20日,星期六(1)未按數(shù)據(jù)庫檢索規(guī)定運算次序(比如邏輯或的關(guān)系的檢索詞沒有列在前面)只允許用半角符號錯用了全角(2)對課題分析不到位,檢索策略不當(dāng)主題太寬泛檢索詞太寬泛字段太寬泛縮寫引起多義性誤檢(3)該領(lǐng)域的文獻(xiàn)確實很多檢索結(jié)果太多的原因及解決方法第23頁,共29頁,2023年,2月20日,星期六5利用各數(shù)據(jù)庫的功能(1)各種限制條件

(期刊范圍/年限/學(xué)科范圍/精確/模糊/詞頻/排序方式/文獻(xiàn)類型/語種選擇等等)(2)二次檢索(3)精煉功能

(哪個數(shù)據(jù)庫有精煉功能,以及可精煉的項目)(4)分析功能

(哪個數(shù)據(jù)庫有分析功能,以及可分析的項目)(5)有無自動截詞功能(6)數(shù)據(jù)庫自帶的獨特功能第24頁,共29頁,2023年,2月20日,星期六

檢索課題“抗糖尿病藥物羅格列酮的合成”1分析課題藥物合成領(lǐng)域,重點在于該藥物的合成而非應(yīng)用2選擇檢索詞

核心詞匯為羅格列酮和合成,根據(jù)搜索引擎或數(shù)據(jù)庫初步檢索或自己的專業(yè)知識知道羅格列酮屬于噻唑烷二酮類的化合物,俗稱TZDs。

還可以從其他結(jié)構(gòu)相近的抗糖尿病藥物例如曲格列酮等列同類藥物的合成入手檢索到可以運用到羅格列酮的合成的方法;

6檢索策略分析舉例得到還可以用的檢索詞為噻唑烷二酮、TZDs、列酮。第25頁,共29頁,2023年,2月20日,星期六而且“合成”最主要的替代詞是“制備”,還可以衍生為“制造”、“生產(chǎn)”等;如果還想擴(kuò)大范圍,可將檢索主題擴(kuò)大至“抗糖尿病藥物的合成”,糖尿病其實就是因為體內(nèi)周圍組織對胰島素促進(jìn)葡萄糖的吸收、轉(zhuǎn)化、利用發(fā)生了抵抗而使血糖升高)。

得到還可以用的檢索詞為制備、制造、生產(chǎn);糖尿病、血糖、胰島素

。第26頁,共29頁,2023年,2月20日,星期六

3制定檢索策略,編制檢索式

羅格列酮*(合成+制備)(噻唑烷二酮+TZDs+列酮)*(合成+制備)(羅格列酮+噻唑烷二酮+TZDs+列酮)*(合成+制備+制造+生產(chǎn))(噻唑烷二酮+TZDs+列酮)*(合成+制備+制造+生產(chǎn))(糖尿病+血糖+胰島素)*(合成+制備+制造+生產(chǎn))

檢索式要根據(jù)自己的需求以及檢索結(jié)果不斷動態(tài)調(diào)整,兼顧查全與查準(zhǔn)最終檢索到滿意的結(jié)果第27頁,共29頁,2023年,2月20日,星期六(1)明確檢

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論