




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
文獻數(shù)據(jù)庫與計算機檢索ppt課件目前一頁\總數(shù)五十三頁\編于十六點1.文獻信息數(shù)據(jù)庫2.計算機信息檢索基礎3.檢索效果評價及其優(yōu)化目前二頁\總數(shù)五十三頁\編于十六點1.文獻信息數(shù)據(jù)庫
文獻是記錄知識的載體。數(shù)據(jù)庫是結構化的數(shù)據(jù)集合,至少由一種文檔組成并能夠滿足某種特定目的或特定數(shù)據(jù)處理系統(tǒng)需要的數(shù)據(jù)集合。當數(shù)據(jù)庫記錄的對象為文獻信息時,就稱為文獻信息數(shù)據(jù)庫。目前三頁\總數(shù)五十三頁\編于十六點文獻信息數(shù)據(jù)庫的結構一個數(shù)據(jù)庫通常由一個主文檔(MasterFile)和若干個索引文檔或稱倒排文檔(InvertedFile)
組成。文檔——是具有某種特征的全部記錄的集合。記錄——是構成文檔的基本單元,由各種反映文獻特征的字段組成。如一篇論文、一件專利、一本圖書、一個標準的相關信息都能夠成為文檔中的一條記錄。字段——是記錄的基本組成元素。一條記錄的常見字段通常包含題名字段、著者字段、主題詞字段、文獻出處字段(如刊名等)多種字段。目前四頁\總數(shù)五十三頁\編于十六點文獻數(shù)據(jù)庫中常見的字段和段碼2023/5/16目前五頁\總數(shù)五十三頁\編于十六點文獻數(shù)據(jù)庫的類型按數(shù)據(jù)庫文獻記載的詳細度可分為——書目型數(shù)據(jù)庫(二次文獻數(shù)據(jù)庫):僅提供文獻檢索,讀者根據(jù)其提供的線索查找文獻原文??梢苑譃椋侯}錄型文摘型EISCI中國科學引文索引目前六頁\總數(shù)五十三頁\編于十六點文獻數(shù)據(jù)庫的類型按數(shù)據(jù)庫文獻記載的詳細度可分為——全文數(shù)據(jù)庫:不僅提供文獻的基本信息及線索,同時還提供原始文獻本身的數(shù)據(jù)庫。主要包括全文數(shù)據(jù)庫、術語數(shù)據(jù)庫、圖像數(shù)據(jù)庫等等。如:CNKI萬方ElsevierIEL目前七頁\總數(shù)五十三頁\編于十六點文獻數(shù)據(jù)庫的類型按數(shù)據(jù)庫文獻記載的詳細度可分為——混合型數(shù)據(jù)庫:數(shù)據(jù)中的數(shù)據(jù),一部分只是提供參考數(shù)據(jù)庫中的信息(文獻的基本情況及線索);另一部分則可以提供全文數(shù)據(jù)庫中的信息(原始文獻本身)。如:EBSCO(ASP\BSP)目前八頁\總數(shù)五十三頁\編于十六點文獻數(shù)據(jù)庫的類型按文獻數(shù)據(jù)庫收錄信息的學科范圍可分為——(1)專業(yè)性文獻信息數(shù)據(jù)庫(CA)(2)綜合性文獻信息數(shù)據(jù)庫(中國期刊網)目前九頁\總數(shù)五十三頁\編于十六點文獻信息數(shù)據(jù)庫的評價標準①收錄內容范圍——系統(tǒng)準確。②揭示文獻詳略——完備詳細。③更新速度快慢——及時快速。④檢索字段多寡——途徑豐富。⑤檢索功能強弱——高效完善。⑥用戶使用方便——易學易用。⑦維護服務質量——及時到位。目前十頁\總數(shù)五十三頁\編于十六點計算機信息檢索基礎計算機信息檢索——指利用計算機及相關軟件和通信設施,對本地計算機、遠程服務器及網上信息進行檢索的過程或活動。隨著信息技術的快速發(fā)展及對各種文獻信息的數(shù)字化處理,計算機文獻信息檢索已經成為文獻信息檢索的主要手段。目前十一頁\總數(shù)五十三頁\編于十六點計算機信息檢索發(fā)展過程脫機檢索階段(50年代中期到60年代中期)聯(lián)機檢索階段(60年代中期到70年代中期)光盤數(shù)據(jù)庫檢索階段(70年代中期到80年代末)網絡化檢索階段(90初年代至今)目前十二頁\總數(shù)五十三頁\編于十六點
1)分析檢索課題,明確檢索要求(2)選擇適當檢索系統(tǒng)(數(shù)據(jù)庫)(3)確定檢索途徑及檢索詞(4)構建檢索提問式(5)上機檢索并調整檢索策略(6)輸出檢索結果(具體)計算機檢索的一般程序目前十三頁\總數(shù)五十三頁\編于十六點計算機檢索的一般程序主題分析明確檢索需求及檢索目標(1)檢索信息的學科范圍(2)檢索信息的類型(3)檢索的目的選擇檢索系統(tǒng)(數(shù)據(jù)庫等)(1)根據(jù)檢索目的確定所需數(shù)據(jù)庫的類型(2)根據(jù)信息需求的內容、專業(yè)范圍選擇數(shù)據(jù)庫(3)根據(jù)記錄來源選擇數(shù)據(jù)庫(4)根據(jù)熟悉程度選擇數(shù)據(jù)庫目前十四頁\總數(shù)五十三頁\編于十六點計算機檢索的一般程序主題概念分析(注:是課題檢索的重點和難點)檢索目的(申報課題、開題報告、學術論文、成果查新、課程論文、商業(yè)需求以及其它需求類型等)文獻類型(期刊論文、會議論文、科技報告、圖書、專利、標準、網站等)?結果形式(全文、文摘、題錄、數(shù)值、事實等)檢索年限(如2000年以來的文獻)語種(中文、外文;英文、日文)檢索結果數(shù)量(100?50?)目前十五頁\總數(shù)五十三頁\編于十六點2.計算機檢索基本技術布爾邏輯檢索技術布爾檢索技術是指利用布爾運算符連接各個檢索詞,然后由計算機進行相應邏輯運算,以檢索出所需信息的方法。常用算符及含義:AND(*)OR(+)NOT(-)目前十六頁\總數(shù)五十三頁\編于十六點布爾邏輯檢索技術AND(*)——接不相容的主題概念(或不同字段)檢索結果同時出現(xiàn)連接的詞限定,縮小范圍,提高準確率。OR(+)——?連接同義詞,同族詞,相關詞檢索結果至少含有其中一詞或同時有擴大,檢索范圍,提高查全。NOT(-)——縮小檢索范圍,起到減少文獻輸出量。目前十七頁\總數(shù)五十三頁\編于十六點布爾邏輯檢索技術優(yōu)先處理算符“()”邏輯算符OR和AND的使用方法,如果歸納成一個模式,比如有A、B、C、D四個檢索詞(其中A和B,C和D分別為同義概念),檢索提問式為:(AORB)AND(CORD)即,同一組檢索提問既含有OR算符,又含有AND算符,此時須使用優(yōu)先處理算符“()”,將OR算符前后的詞放入括號中,計算機將優(yōu)先運算括號內的算符。目前十八頁\總數(shù)五十三頁\編于十六點位置算符位置檢索可要求檢索詞以用戶所規(guī)定的相對位置出現(xiàn)。比如:以詞組形式表達的概念;彼此相鄰的兩個或兩個以上的詞;被禁用詞或特殊符號分隔的詞以及化學分子式等。位置算符是調整檢索策略的一種重要手段。
輸入:COMMUNICATIONSATELLITE系統(tǒng)認為:COMMUNICATIONANDSATELLITE結果:communicationsatellite,satellitecommunication,communicationdevicesforsatellite;communicationlinkswithoutsatellite目前十九頁\總數(shù)五十三頁\編于十六點位置算符常用的位置算符及含義:①(W)算符(WITH)表示兩個檢索詞緊挨著,詞序不能顛倒,中間不得插入其他詞、字母或代碼,但允許有空格或標點符號,也可用()表示。例:COMMUNICATION(W)SATELLITE②(nW)算符(nWORD)表示兩個檢索詞中間可插入n個詞,但它們之間的順序不可顛倒。③(N)算符(NEAR)表示兩個檢索詞必須相連,不得插入其他詞,但詞序可以顛倒。目前二十頁\總數(shù)五十三頁\編于十六點位置算符④(nN)算符(nNEAR)表示兩個檢索詞中間可以插入n個詞,且詞序可以顛倒。⑤(S)算符(SUBFIELD)表示兩個檢索詞必須出現(xiàn)在同一個子句子中,但兩詞的詞序和插入的詞數(shù)不限。句子位置算符⑥(F)算符(FIELD)表示兩個檢索詞必須同時出現(xiàn)在同一個字段內,但兩詞的詞序和中間插入的詞數(shù)不限。字段位置算符⑦(C)算符(CITATION)表示兩個檢索詞必須出現(xiàn)在同一記錄中,但兩詞的詞序和所在的字段不限。⑧(L)算符(LINK)表示兩個檢索詞之間存在從屬關系或限制關系,如果其中一個為一級主題詞,另一個就為二級主題詞。目前二十一頁\總數(shù)五十三頁\編于十六點截詞檢索技術截詞檢索是為擴大檢索范圍與增加檢索結果而采用的一種檢索技術。常件的截詞符號及含義:“*”可代表多個字符“#”代表單個的字符一個“?”或者“n?”代表0個到9個額外的字符。目前二十二頁\總數(shù)五十三頁\編于十六點加權檢索技術加權檢索是在檢索提問式中,根據(jù)每個提問詞在檢索要求中的重要程度,分別給予一定的加權數(shù)值加以區(qū)別,我們稱這個數(shù)值為權數(shù)。同時再給出檢索命中的閾值。當檢索結果達到所設定的閾值時,系統(tǒng)將顯示為命中記錄。采用加權檢索的目的在于提高檢索結果的準確程度目前二十三頁\總數(shù)五十三頁\編于十六點限制檢索技術具體形式主要有:(1)字段限制檢索(2)使用符號限制(3)進行范圍限制(4)采用限制指令目前二十四頁\總數(shù)五十三頁\編于十六點字段限制檢索基本字段限制字段限制(TI,AB,DE,ID)基本字段限制的用法是在需要指定字段(題目、敘詞、識別詞和文摘)的檢索詞后加上后綴運算符“/”和段碼。例如,檢索策略“OPTICAL/TIANDFIBER/TI”的含義是指定在題目字段中查找含有“optical”和“fiber”兩詞的所有記錄。字段段碼可以多個連用,段碼之間加“,”即可。例如,檢索策略“FIB?/TI,DE”的含義是指定在題目和敘詞字段中查找以“fib”為詞干的所有記錄。目前二十五頁\總數(shù)五十三頁\編于十六點字段限制檢索輔助字段限制輔助字段運算符的用法是在需要指定字段的檢索詞(有時檢索詞須放在雙引號內)之前加上段碼和前綴運算符“=”。例如檢索策略AU=“Robert,S.”的含義是在作者字段中查找含有“Robert,S.”的所有記錄。下面是其他常用的輔助字段限制及其實例:指定著者單位字段
CS=SHANGHAIUNIVERSITY指定刊物名稱字段JN=APPLIEDMATHEMATICS指定語言字段LA=ENGLISH
指定文獻類型字段
DT=JOURNAL目前二十六頁\總數(shù)五十三頁\編于十六點3.檢索式的調整檢索表達式輸入檢索系統(tǒng)后,輸出的檢索結果有時不一定能滿足課題的要求:檢出的篇數(shù)過多,而且不相關文獻所占比例很大檢出的文獻數(shù)量太少,有時甚至為零,需要調整檢索策略。目前二十七頁\總數(shù)五十三頁\編于十六點調整檢索策略對于輸出篇數(shù)過多的情況a.選用了多義性的檢索詞;b.截詞截得過短;c.輸入的檢索詞太少;d.應該使用“與(AND)”的使用了“或(OR)”;e.優(yōu)先運算符“()”使用錯誤。目前二十八頁\總數(shù)五十三頁\編于十六點調整檢索策略對于輸出篇數(shù)過少的情況a.檢索詞拼寫錯誤;b.遺漏重要的同義詞或隱含概念;c.檢索詞過于冷僻具體;d.沒有使用截詞算符;e.位置算符和字段算符使用的過多;f.使用過多的“AND”算符。目前二十九頁\總數(shù)五十三頁\編于十六點計算機檢索實例檢索需求查找某概念的確切含義如:什么是“blog”查找某概念的背景知識如:誰最先發(fā)現(xiàn)青霉素查找某些事物的數(shù)值及量化指標特征型知一般通過事實型、數(shù)值型數(shù)據(jù)庫和搜索引擎獲得。目前三十頁\總數(shù)五十三頁\編于十六點查找某一學科的一般知識如:關于分子生物學有哪些專著查找學科專業(yè)領域的新進展如:有關納米技術的研究綜述查找課題相關的專業(yè)文獻最常見的!文獻數(shù)據(jù)庫目前三十一頁\總數(shù)五十三頁\編于十六點電子元器件的技術特性數(shù)據(jù),可用有關的電子元器件類手冊、產品目錄、樣本或書查找;查過去某年度某種電氣電子類產品的產銷、貿易、市場概況,可用有關年鑒類資料;查國內外哪些大學招收電氣電子類研究生,可查大學類的機構名錄或校方的招生簡章資料;查“自動化”一詞的概念與含義,可用百科全書、學科術語類解釋辭典和相關手冊;查電子產品的電路圖,可用相應的電路圖集或手冊;查錢學森的主要論著和貢獻,可用名人錄;等等。目前三十二頁\總數(shù)五十三頁\編于十六點主題分析實例
直接從檢索項目中獲取相關概念例:項目“聚乙烯的合成(synthesisofpolyethylene)”主要概念:聚乙烯、合成(synthesis、polyethylene)檢索式:聚乙烯and合成Synthesisandpolyethylene目前三十三頁\總數(shù)五十三頁\編于十六點主題分析實例
排除重復無關的概念項目“河豚毒素的液相色譜分析”從項目名稱上看,其主要概念為“河豚毒素”、“液相色譜”和“分析”,但由于液相色譜本身就是一種分析方法,它隱含了“分析”這一概念主要概念:河豚毒素、液相色譜檢索式:河豚毒素and液相色譜目前三十四頁\總數(shù)五十三頁\編于十六點主題分析實例
檢索詞之間存在部分與整體關系例:1.檢索“歐洲能源”方面的文獻按照“歐洲”;同時包括許多國家。英法德意
2.國外綜述
目前三十五頁\總數(shù)五十三頁\編于十六點主題分析實例
隱性概念的處理課題:高溫下使用的不銹鋼“不銹鋼”“耐熱鋼”目前三十六頁\總數(shù)五十三頁\編于十六點主題分析實例
隱性概念的處理項目“灌溉用的橡塑多孔管”Rubber-PlasticPorousPipeForIrrigation橡塑多孔管也稱為橡塑滲灌管,其主要原料為橡膠粉(由廢舊輪胎制得)和塑料(如粉狀聚乙烯)。隱含概念:橡膠、塑料該產品主要用于農林、園藝等方面的灌溉。主要概念:橡膠、塑料、多孔管、灌溉檢索式:(橡膠or塑料or橡塑)and多孔管and灌溉目前三十七頁\總數(shù)五十三頁\編于十六點2023/5/16主題分析實例
隱性概念的處理
文昌魚的遺傳多樣性顯性主題概念:文昌魚遺傳多樣
隱含主題概念:文昌魚---頭索動物
遺傳-----基因
同義近義詞:基因-----DNA目前三十八頁\總數(shù)五十三頁\編于十六點主題分析實例
隱性概念的處理項目“唐山綜合防災的研究”由于唐山是一個城市,因此該項目實際上是“城市綜合防災的研究”。該項目針對的主要災害是地震、洪水和火災,所采用的研究手段是決策支持系統(tǒng)和專家系統(tǒng)。防災:地震、洪水、火災研究:決策支持系統(tǒng)、專家系統(tǒng)主要概念:城市、地震、洪水、火災、決策支持系統(tǒng)、專家系統(tǒng)檢索式:城市and(地震or洪水or火災)and(決策支持系統(tǒng)or專家系統(tǒng))目前三十九頁\總數(shù)五十三頁\編于十六點主題分析實例
概念間邏輯關系的處理同義詞、近義詞是或的關系上位詞即擴檢,如“教育心理學”下位詞即縮檢,如“智育心理”、“德育心理”、“美育心理”、“教學心理學”、“學習心理學”、“教師心理學”、“學生心理學”等。若多個下位詞都用來檢索,相對于一個上位詞來說,一般是擴檢。一個下位詞相對于一個上位詞來說,一般是縮檢。目前四十頁\總數(shù)五十三頁\編于十六點檢索詞的選擇
規(guī)范詞選擇檢索詞時,一般應優(yōu)先選擇主題詞作基本檢索詞,但為了檢索的專指性也選用自由詞配合檢索。如查找“人造金剛石”的文獻,很可能用“manmade(人造)”、“diamonds(金剛石)”作為檢索詞,但“人造”的實質是“人工合成”,檢索詞的范圍可放寬至:synthetic(W)diamonds合成金剛石;synthetic(W)gems合成寶石;synthetic(W)materials合成材料;synthetic(W)stones合成石;synthetic(W)crystals合成晶體;artificial(W)crystals人造晶體;diamonds金剛石。檢索策略:1+(2+3+4+5+6)*7目前四十一頁\總數(shù)五十三頁\編于十六點盡量使用代碼不少文檔有自己的各種代碼,如《世界專利索引》(WPI)文檔的國際專利分類號代碼IC,《世界工業(yè)產品市場與技術概況》文檔中的產品代碼PC和事項代碼EC,《化學文摘》(CA)中的化學物質登記號RN等。如查找“20年來CA收錄的錫酸鋇導電機理”的文獻,就應該用化學物質登記號表示,即rn=12009-18-6。其檢索式可為:rn=12009-18-6*electric??(w)conduct?
。而用如下檢索式則不能保證文獻查全:(barium(w)stannate+BaSn03)*eletrical(w)conductivity目前四十二頁\總數(shù)五十三頁\編于十六點同義詞盡量選全檢索時為保證查全率,同義詞盡量選全。同義詞選擇應主要考慮以下幾點:①同一概念的幾種表達方式,如化學分析有chemicalanalysis,analyticalchemistry,chemicaldetermination,compositionmeasurement等。②同一名詞的單、復數(shù)、動詞、動名詞、過去分詞形式等,如生產有product,production,producing,produce,productive等,詞根相同時,可用截詞符解決。目前四十三頁\總數(shù)五十三頁\編于十六點同義詞盡量選全③要考慮上位概念詞與下位概念詞,如水果榨汁,不僅要選fruit,也應選各種水果,如pear(梨)、orange(橙)、plum(李子)、peach(桃)、apple(蘋果)、pineapple(菠蘿)等,反之,如某一種水果保鮮則應參考水果保鮮。④化學物質用其名稱也要用其元素符號,如氖,Nitrogen和N。⑤植物和動物名,其英文和拉丁名均要選。
注意選用國外慣用的技術術語查閱外文文獻時,一些技術概念的英文詞若在詞表查不到,可先閱讀國外的有關文獻,再選擇正確的檢索詞目前四十四頁\總數(shù)五十三頁\編于十六點同義詞盡量選全表示研究方法、技術方法的名詞術語,如分析(化學)、針刺手法、有限元法、結構功能法、力學性能試驗等表示工藝方法、加工技術的名詞術語,如鑄造、鍛造、熱處理、焊接、釀造、取心鉆進、爆破成型、激光切割等;目前四十五頁\總數(shù)五十三頁\編于十六點激光加工技術在航空工業(yè)中的應用有關激光加工;在航空工業(yè)中的應用。第一組面:激光。從詞表中可以選取(1)laser(激光)(2)laserbean(激光束)第二組面:激光加工技術。3-6從詞表中可以選?。?)laserannealing(激光熱處理)(4)lasercutting(激光切削)(5)laserdrilling(激光鉆孔)(6)laserwelding(激光焊接)目前四十六頁\總數(shù)五十三頁\編于十六點7-10加工技術(7)Sufacealloying(表面合金化)(8)Surfacehardening(表面硬化)(9)Remelting(再溶化)(10)Radiationhardening(表面硬化)第三組面:航空工業(yè)(11)aircraft(12)aircraftindustry(13)aircraftequipment目前四十七頁\總數(shù)五十三頁\編于十六點擬定檢索式[(1+2)*(7+8+9+10)+(3+4+5+6)]*(11+12+13)注意:對于復合詞可以用位置算符,截詞符。
目前四十八頁\總數(shù)五十三頁\編于十六點檢索效果評價的指標評價檢索效果的常用指標有:查全率(Recallratio)——用R表示查準率(Precisionratio)——用P表示漏檢率(Omissionratio)——用O表示誤檢率(Fall-outratio
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- TCZSYSJLXH 002-2024 全國藝術行業(yè)職業(yè)能力水平評價團體標準
- 太原單柱式標志桿施工方案
- 吉安市防水補漏施工方案
- 浦東新區(qū)2024學年度第一學期期末教學質量檢測高三語文試卷
- 生態(tài)茶園修復工程施工方案
- 建筑工程竣工驗收檢測報告
- 右安門鋼結構施工方案
- 簡支鋼箱梁橋施工方案
- 酉陽四星級酒店施工方案
- 陶鋁吸音板施工方案
- 夾膠玻璃作業(yè)指導書
- NLP高效能溝通影響力集團李炫華
- 預應力錨索安全專項施工方案
- 站長辦公會議事規(guī)則
- 在泰居留90天移民局報到表格(TM47)
- 銅陵職業(yè)技術學院“十三五”發(fā)展規(guī)劃編制工作方案
- EDTA絡合滴定法測定銀合金中的銀
- 某屠宰場廢水處理工藝設計_畢業(yè)設計(論文)
- 江蘇省無錫市2020年中考語文真題試題(含解析)
- 癌癥患者生命質量量表FACT-G v4
- 李清照詞修辭現(xiàn)象探析畢業(yè)論文
評論
0/150
提交評論