第3章 文獻(xiàn)數(shù)據(jù)庫與計算機檢索_第1頁
第3章 文獻(xiàn)數(shù)據(jù)庫與計算機檢索_第2頁
第3章 文獻(xiàn)數(shù)據(jù)庫與計算機檢索_第3頁
第3章 文獻(xiàn)數(shù)據(jù)庫與計算機檢索_第4頁
第3章 文獻(xiàn)數(shù)據(jù)庫與計算機檢索_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

文獻(xiàn)數(shù)據(jù)庫與計算機檢索1.文獻(xiàn)信息數(shù)據(jù)庫2.計算機信息檢索基礎(chǔ)3.檢索效果評價及其優(yōu)化1.文獻(xiàn)信息數(shù)據(jù)庫

文獻(xiàn)是記錄知識的載體。數(shù)據(jù)庫是結(jié)構(gòu)化的數(shù)據(jù)集合,至少由一種文檔組成并能夠滿足某種特定目的或特定數(shù)據(jù)處理系統(tǒng)需要的數(shù)據(jù)集合。當(dāng)數(shù)據(jù)庫記錄的對象為文獻(xiàn)信息時,就稱為文獻(xiàn)信息數(shù)據(jù)庫。文獻(xiàn)信息數(shù)據(jù)庫的結(jié)構(gòu)一個數(shù)據(jù)庫通常由一個主文檔(MasterFile)和若干個索引文檔或稱倒排文檔(InvertedFile)

組成。文檔——是具有某種特征的全部記錄的集合。記錄——是構(gòu)成文檔的基本單元,由各種反映文獻(xiàn)特征的字段組成。如一篇論文、一件專利、一本圖書、一個標(biāo)準(zhǔn)的相關(guān)信息都能夠成為文檔中的一條記錄。字段——是記錄的基本組成元素。一條記錄的常見字段通常包含題名字段、著者字段、主題詞字段、文獻(xiàn)出處字段(如刊名等)多種字段。文獻(xiàn)數(shù)據(jù)庫中常見的字段和段碼2023/9/22文獻(xiàn)數(shù)據(jù)庫的類型按數(shù)據(jù)庫文獻(xiàn)記載的詳細(xì)度可分為——書目型數(shù)據(jù)庫(二次文獻(xiàn)數(shù)據(jù)庫):僅提供文獻(xiàn)檢索,讀者根據(jù)其提供的線索查找文獻(xiàn)原文??梢苑譃椋侯}錄型文摘型EISCI中國科學(xué)引文索引文獻(xiàn)數(shù)據(jù)庫的類型按數(shù)據(jù)庫文獻(xiàn)記載的詳細(xì)度可分為——全文數(shù)據(jù)庫:不僅提供文獻(xiàn)的基本信息及線索,同時還提供原始文獻(xiàn)本身的數(shù)據(jù)庫。主要包括全文數(shù)據(jù)庫、術(shù)語數(shù)據(jù)庫、圖像數(shù)據(jù)庫等等。如:CNKI萬方ElsevierIEL文獻(xiàn)數(shù)據(jù)庫的類型按數(shù)據(jù)庫文獻(xiàn)記載的詳細(xì)度可分為——混合型數(shù)據(jù)庫:數(shù)據(jù)中的數(shù)據(jù),一部分只是提供參考數(shù)據(jù)庫中的信息(文獻(xiàn)的基本情況及線索);另一部分則可以提供全文數(shù)據(jù)庫中的信息(原始文獻(xiàn)本身)。如:EBSCO(ASP\BSP)文獻(xiàn)數(shù)據(jù)庫的類型按文獻(xiàn)數(shù)據(jù)庫收錄信息的學(xué)科范圍可分為——(1)專業(yè)性文獻(xiàn)信息數(shù)據(jù)庫(CA)(2)綜合性文獻(xiàn)信息數(shù)據(jù)庫(中國期刊網(wǎng))文獻(xiàn)信息數(shù)據(jù)庫的評價標(biāo)準(zhǔn)①收錄內(nèi)容范圍——系統(tǒng)準(zhǔn)確。②揭示文獻(xiàn)詳略——完備詳細(xì)。③更新速度快慢——及時快速。④檢索字段多寡——途徑豐富。⑤檢索功能強弱——高效完善。⑥用戶使用方便——易學(xué)易用。⑦維護(hù)服務(wù)質(zhì)量——及時到位。計算機信息檢索基礎(chǔ)計算機信息檢索——指利用計算機及相關(guān)軟件和通信設(shè)施,對本地計算機、遠(yuǎn)程服務(wù)器及網(wǎng)上信息進(jìn)行檢索的過程或活動。隨著信息技術(shù)的快速發(fā)展及對各種文獻(xiàn)信息的數(shù)字化處理,計算機文獻(xiàn)信息檢索已經(jīng)成為文獻(xiàn)信息檢索的主要手段。計算機信息檢索發(fā)展過程脫機檢索階段(50年代中期到60年代中期)聯(lián)機檢索階段(60年代中期到70年代中期)光盤數(shù)據(jù)庫檢索階段(70年代中期到80年代末)網(wǎng)絡(luò)化檢索階段(90初年代至今)

1)分析檢索課題,明確檢索要求(2)選擇適當(dāng)檢索系統(tǒng)(數(shù)據(jù)庫)(3)確定檢索途徑及檢索詞(4)構(gòu)建檢索提問式(5)上機檢索并調(diào)整檢索策略(6)輸出檢索結(jié)果(具體)計算機檢索的一般程序計算機檢索的一般程序主題分析明確檢索需求及檢索目標(biāo)(1)檢索信息的學(xué)科范圍(2)檢索信息的類型(3)檢索的目的選擇檢索系統(tǒng)(數(shù)據(jù)庫等)(1)根據(jù)檢索目的確定所需數(shù)據(jù)庫的類型(2)根據(jù)信息需求的內(nèi)容、專業(yè)范圍選擇數(shù)據(jù)庫(3)根據(jù)記錄來源選擇數(shù)據(jù)庫(4)根據(jù)熟悉程度選擇數(shù)據(jù)庫計算機檢索的一般程序主題概念分析(注:是課題檢索的重點和難點)檢索目的(申報課題、開題報告、學(xué)術(shù)論文、成果查新、課程論文、商業(yè)需求以及其它需求類型等)文獻(xiàn)類型(期刊論文、會議論文、科技報告、圖書、專利、標(biāo)準(zhǔn)、網(wǎng)站等)?結(jié)果形式(全文、文摘、題錄、數(shù)值、事實等)檢索年限(如2000年以來的文獻(xiàn))語種(中文、外文;英文、日文)檢索結(jié)果數(shù)量(100?50?)2.計算機檢索基本技術(shù)布爾邏輯檢索技術(shù)布爾檢索技術(shù)是指利用布爾運算符連接各個檢索詞,然后由計算機進(jìn)行相應(yīng)邏輯運算,以檢索出所需信息的方法。常用算符及含義:AND(*)OR(+)NOT(-)布爾邏輯檢索技術(shù)AND(*)——接不相容的主題概念(或不同字段)檢索結(jié)果同時出現(xiàn)連接的詞限定,縮小范圍,提高準(zhǔn)確率。OR(+)——?連接同義詞,同族詞,相關(guān)詞檢索結(jié)果至少含有其中一詞或同時有擴大,檢索范圍,提高查全。NOT(-)——縮小檢索范圍,起到減少文獻(xiàn)輸出量。布爾邏輯檢索技術(shù)優(yōu)先處理算符“()”邏輯算符OR和AND的使用方法,如果歸納成一個模式,比如有A、B、C、D四個檢索詞(其中A和B,C和D分別為同義概念),檢索提問式為:(AORB)AND(CORD)即,同一組檢索提問既含有OR算符,又含有AND算符,此時須使用優(yōu)先處理算符“()”,將OR算符前后的詞放入括號中,計算機將優(yōu)先運算括號內(nèi)的算符。位置算符位置檢索可要求檢索詞以用戶所規(guī)定的相對位置出現(xiàn)。比如:以詞組形式表達(dá)的概念;彼此相鄰的兩個或兩個以上的詞;被禁用詞或特殊符號分隔的詞以及化學(xué)分子式等。位置算符是調(diào)整檢索策略的一種重要手段。

輸入:COMMUNICATIONSATELLITE系統(tǒng)認(rèn)為:COMMUNICATIONANDSATELLITE結(jié)果:communicationsatellite,satellitecommunication,communicationdevicesforsatellite;communicationlinkswithoutsatellite位置算符常用的位置算符及含義:①(W)算符(WITH)表示兩個檢索詞緊挨著,詞序不能顛倒,中間不得插入其他詞、字母或代碼,但允許有空格或標(biāo)點符號,也可用()表示。例:COMMUNICATION(W)SATELLITE②(nW)算符(nWORD)表示兩個檢索詞中間可插入n個詞,但它們之間的順序不可顛倒。③(N)算符(NEAR)表示兩個檢索詞必須相連,不得插入其他詞,但詞序可以顛倒。位置算符④(nN)算符(nNEAR)表示兩個檢索詞中間可以插入n個詞,且詞序可以顛倒。⑤(S)算符(SUBFIELD)表示兩個檢索詞必須出現(xiàn)在同一個子句子中,但兩詞的詞序和插入的詞數(shù)不限。句子位置算符⑥(F)算符(FIELD)表示兩個檢索詞必須同時出現(xiàn)在同一個字段內(nèi),但兩詞的詞序和中間插入的詞數(shù)不限。字段位置算符⑦(C)算符(CITATION)表示兩個檢索詞必須出現(xiàn)在同一記錄中,但兩詞的詞序和所在的字段不限。⑧(L)算符(LINK)表示兩個檢索詞之間存在從屬關(guān)系或限制關(guān)系,如果其中一個為一級主題詞,另一個就為二級主題詞。截詞檢索技術(shù)截詞檢索是為擴大檢索范圍與增加檢索結(jié)果而采用的一種檢索技術(shù)。常件的截詞符號及含義:“*”可代表多個字符“#”代表單個的字符一個“?”或者“n?”代表0個到9個額外的字符。加權(quán)檢索技術(shù)加權(quán)檢索是在檢索提問式中,根據(jù)每個提問詞在檢索要求中的重要程度,分別給予一定的加權(quán)數(shù)值加以區(qū)別,我們稱這個數(shù)值為權(quán)數(shù)。同時再給出檢索命中的閾值。當(dāng)檢索結(jié)果達(dá)到所設(shè)定的閾值時,系統(tǒng)將顯示為命中記錄。采用加權(quán)檢索的目的在于提高檢索結(jié)果的準(zhǔn)確程度限制檢索技術(shù)具體形式主要有:(1)字段限制檢索(2)使用符號限制(3)進(jìn)行范圍限制(4)采用限制指令字段限制檢索基本字段限制字段限制(TI,AB,DE,ID)基本字段限制的用法是在需要指定字段(題目、敘詞、識別詞和文摘)的檢索詞后加上后綴運算符“/”和段碼。例如,檢索策略“OPTICAL/TIANDFIBER/TI”的含義是指定在題目字段中查找含有“optical”和“fiber”兩詞的所有記錄。字段段碼可以多個連用,段碼之間加“,”即可。例如,檢索策略“FIB?/TI,DE”的含義是指定在題目和敘詞字段中查找以“fib”為詞干的所有記錄。字段限制檢索輔助字段限制輔助字段運算符的用法是在需要指定字段的檢索詞(有時檢索詞須放在雙引號內(nèi))之前加上段碼和前綴運算符“=”。例如檢索策略AU=“Robert,S.”的含義是在作者字段中查找含有“Robert,S.”的所有記錄。下面是其他常用的輔助字段限制及其實例:指定著者單位字段

CS=SHANGHAIUNIVERSITY指定刊物名稱字段JN=APPLIEDMATHEMATICS指定語言字段LA=ENGLISH

指定文獻(xiàn)類型字段

DT=JOURNAL3.檢索式的調(diào)整檢索表達(dá)式輸入檢索系統(tǒng)后,輸出的檢索結(jié)果有時不一定能滿足課題的要求:檢出的篇數(shù)過多,而且不相關(guān)文獻(xiàn)所占比例很大檢出的文獻(xiàn)數(shù)量太少,有時甚至為零,需要調(diào)整檢索策略。調(diào)整檢索策略對于輸出篇數(shù)過多的情況a.選用了多義性的檢索詞;b.截詞截得過短;c.輸入的檢索詞太少;d.應(yīng)該使用“與(AND)”的使用了“或(OR)”;e.優(yōu)先運算符“()”使用錯誤。調(diào)整檢索策略對于輸出篇數(shù)過少的情況a.檢索詞拼寫錯誤;b.遺漏重要的同義詞或隱含概念;c.檢索詞過于冷僻具體;d.沒有使用截詞算符;e.位置算符和字段算符使用的過多;f.使用過多的“AND”算符。計算機檢索實例檢索需求查找某概念的確切含義如:什么是“blog”查找某概念的背景知識如:誰最先發(fā)現(xiàn)青霉素查找某些事物的數(shù)值及量化指標(biāo)特征型知一般通過事實型、數(shù)值型數(shù)據(jù)庫和搜索引擎獲得。查找某一學(xué)科的一般知識如:關(guān)于分子生物學(xué)有哪些專著查找學(xué)科專業(yè)領(lǐng)域的新進(jìn)展如:有關(guān)納米技術(shù)的研究綜述查找課題相關(guān)的專業(yè)文獻(xiàn)最常見的!文獻(xiàn)數(shù)據(jù)庫電子元器件的技術(shù)特性數(shù)據(jù),可用有關(guān)的電子元器件類手冊、產(chǎn)品目錄、樣本或書查找;查過去某年度某種電氣電子類產(chǎn)品的產(chǎn)銷、貿(mào)易、市場概況,可用有關(guān)年鑒類資料;查國內(nèi)外哪些大學(xué)招收電氣電子類研究生,可查大學(xué)類的機構(gòu)名錄或校方的招生簡章資料;查“自動化”一詞的概念與含義,可用百科全書、學(xué)科術(shù)語類解釋辭典和相關(guān)手冊;查電子產(chǎn)品的電路圖,可用相應(yīng)的電路圖集或手冊;查錢學(xué)森的主要論著和貢獻(xiàn),可用名人錄;等等。主題分析實例

直接從檢索項目中獲取相關(guān)概念例:項目“聚乙烯的合成(synthesisofpolyethylene)”主要概念:聚乙

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論