




已閱讀5頁,還剩28頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第四章 計算機(jī)檢索基本原理,1計算機(jī)檢索系統(tǒng) 2計算機(jī)檢索的基本原理與技術(shù) 3計算機(jī)檢索策略及其調(diào)整,1計算機(jī)檢索系統(tǒng),1.1計算機(jī)檢索系統(tǒng)組成 計算機(jī)硬件,計算機(jī)軟件,數(shù)據(jù)庫 1.2數(shù)據(jù)庫 1.2.1定義:包含書目以及與文獻(xiàn)有關(guān)數(shù)據(jù)的機(jī)讀記錄的有組織的集合。機(jī)讀記錄是文獻(xiàn)的代替物,一條記錄對應(yīng)一篇文獻(xiàn),數(shù)據(jù)庫由若干條記錄組成。 1.2.2類型 1.2.3構(gòu)成,1.2.2文獻(xiàn)數(shù)據(jù)庫類型(據(jù)數(shù)據(jù)庫所含信息內(nèi)容 ),1)文獻(xiàn)數(shù)據(jù)庫:存儲文獻(xiàn)型數(shù)據(jù),如一次文獻(xiàn)或二次文 獻(xiàn) 書目數(shù)據(jù)庫(二次文獻(xiàn)數(shù)據(jù)庫):包括各種文摘、索引、 目錄。存貯某個領(lǐng)域原始文獻(xiàn)的書目。組成記錄的 字段一般有文獻(xiàn)的標(biāo)題、作者、出處、文摘、主題 詞等。 全文數(shù)據(jù)庫:存貯文獻(xiàn)全文或其中主要部分的數(shù)據(jù)庫。 能使用戶獲得最終的一次文獻(xiàn)。 2)源數(shù)據(jù)庫:存儲事實、數(shù)值、概念、圖形等非文獻(xiàn)數(shù) 據(jù)的數(shù)據(jù)庫,數(shù)值數(shù)據(jù)庫:提供以數(shù)值方式表示信息的一種源數(shù)據(jù)庫,其檢索結(jié)果可能只是單一的值或一組數(shù)據(jù)。數(shù)值數(shù)據(jù)庫能提供產(chǎn)品價格等數(shù)值信息,也可提供物質(zhì)的物理化學(xué)性質(zhì)、結(jié)構(gòu)、頻譜等數(shù)據(jù)。 事實數(shù)據(jù)庫:自原始文獻(xiàn)或社會調(diào)查中獲得并經(jīng)過處理的各種事實,如機(jī)構(gòu)、人物、產(chǎn)品、資源等數(shù)據(jù)。常見的有指南數(shù)據(jù)庫、產(chǎn)品數(shù)據(jù)庫等。 概念數(shù)據(jù)庫:庫內(nèi)存儲各種名詞術(shù)語或語言資料,如詞典數(shù)據(jù)庫、語料庫等。 多媒體數(shù)據(jù)庫:將各種類型的信息集中在CDROM上,是視頻、音頻、文字、圖像、動畫等的集合體,如一些互動性的百科全書。,1.2.3數(shù)據(jù)庫的構(gòu)成,1)記錄:是數(shù)據(jù)庫的基本單元,是對某一實體屬性進(jìn)行描述的結(jié)果。一個數(shù)據(jù)庫由若干條記錄構(gòu)成。每條記錄相當(dāng)于文摘型或題錄型檢索刊物的一條著錄款目。 文獻(xiàn)記錄格式(以Dialog系統(tǒng)中EICompendexPlus數(shù)據(jù)庫為例)如下:,AN DIALOG NO:03883137 EI Monthly NO;EIP94031231114 TI Title:LaserLight imaging for underwater use AU= Author:Caimin,F(xiàn)rank M CS= Corporate Source:Harbor Branch oceanographic lnstIncFL Pierce,F(xiàn)L,USA SO= Source:Sca Technology,V34 NO12 Dec1993P22-27 PY= Publication Year:1993 CO,SN=CODEN:SEATAD ISSN:0993-3651 LA= LanguageEnglish DT,TC=Document Type:JA(Joumal Article);Treatment code X(Experimental); AB Abstract:Conventional undersea imaging limitationsave Pointed out and several imaging systems are described,in particular the range galed imaging,fieldlimited imaging,and 3-D Structured inter ferometric illumination systems DE Description: * Imaging techniques: Laser application; engineering;Vision ID Identifiers:Laser light imaging;Underwater technology CC= EI Classification Codes;,2)字段:是文獻(xiàn)記錄的基本單元。一條記錄有若干個字段,一個字段有時還可分為幾個子字段(Subfield)。在書目數(shù)據(jù)庫中,一條記錄應(yīng)包含原始文獻(xiàn)的篇名、作者、刊名、出版時間、分類號、文摘、主題詞等字段。 數(shù)據(jù)庫的字段可分為基本字段和輔助字段: 基本字段主要是描述文獻(xiàn)內(nèi)容特征的字段,如篇名、文 摘、敘詞、自由標(biāo)引詞等字段; 輔助字段主要是描述文獻(xiàn)外表特征的字段,如著者、機(jī) 構(gòu)名稱、語種、文獻(xiàn)來源等字段。,AN:Dialog存取號(Dialog Access Number)。在一個數(shù)據(jù)庫中,每條記錄只有一個存取號,兩者一一對應(yīng)。 TI:篇名字段(Title)。 AU=:作者字段(Author)。 CS=:作者所在單位字段(Corporate Source)。 SO=:文獻(xiàn)來源字段(Source Publication)。包括期刊名稱、年,卷、 期、頁等,或包括會議事項。 PY=:出版年份(Publication Year)。 CO=:期刊代碼字段(CODEN)。 LA=:語種字段(Language),表示原文的語種。,DT:文獻(xiàn)類型字段(Document Type)。 TC=:處理碼字段(Treatment Code)表示論文的性質(zhì),A表示應(yīng)用,X表示實驗,T表示理論,等等 AB:文摘字段(Abstract)。 DE:敘詞字段(Descriptor),選自敘詞表、主題詞表中的詞。 ID:自由標(biāo)引詞字段(Identifier),非系統(tǒng)詞表中的詞,由標(biāo)引人員確定。 CC=:分類代碼字段(Classification Code)。 對于不同檢索系統(tǒng)、不同數(shù)據(jù)庫來說,其記錄格式、字段代碼、字段數(shù)目可能不完全相同。,3)文檔(File):若干條邏輯記錄構(gòu)成的信息集合。文檔 是書目數(shù)據(jù)庫和文獻(xiàn)檢索系統(tǒng)中數(shù)據(jù)組織的基本形式。 根據(jù)數(shù)據(jù)庫的內(nèi)部結(jié)構(gòu),一個數(shù)據(jù)庫至少包含一個順排文檔和一個倒排文檔。,順排文檔:是按文獻(xiàn)記錄的輸入順序(即文獻(xiàn)序號)排列的文檔。相當(dāng)于印刷型檢索工具的正文部分。 在順排文檔中,記錄按順序一個接一個地存放,一個存取號對應(yīng)一條記錄,存取號愈大,對應(yīng)的記錄就愈新。由于它存貯有記錄的最完整的信息,所以,通常又把它稱之為主文檔(Master File)。 這種存貯方式?jīng)Q定了對記錄的存取只能按順序進(jìn)行。如果在順排文檔中檢索,對每個檢索式都得按順序從頭到尾進(jìn)行掃描,存貯的記錄愈多,掃描的時間愈長,從而嚴(yán)重影響了檢索的速度。 主要供用戶輸出和打印文獻(xiàn)記錄用。,倒排文檔:把順排文檔中的標(biāo)引詞抽出,按標(biāo)引詞的字母順序依次排列而成的文檔。倒排文檔實際上相當(dāng)于印刷型檢索工具中的輔助索引。 倒排文檔與順排文檔的區(qū)別: 順排文檔以完整記錄作為處理和檢索的單元,倒排文檔以記錄中的字段作為處理和檢索的單元。,2 計算機(jī)檢索的基本原理與技術(shù),2.1檢索原理,計算機(jī)簡單查詢過程(以檢索小麥或燕麥的文獻(xiàn)為例),2.2檢索功能,布爾邏輯檢索功能 詞間位置檢索功能 截詞檢索功能 限定字段檢索功能 禁用詞 其他功能,1)Boolean Search(布爾邏輯檢索),邏輯“與”:AND ;and;*,A and B;A*B wheat and mildew,定義:用于交叉概念或限定關(guān)系的組配,即被命中的文獻(xiàn)必須同時含有檢索項A和B。 作用:可縮小檢索范圍,提高查準(zhǔn)率。 要求:運(yùn)用時,把出現(xiàn)頻率低的檢索詞置于“與”的左端,可使否定答案盡早出現(xiàn),節(jié)省機(jī)時。,1)Boolean Search(布爾邏輯檢索),邏輯“或”:OR;or;+,A or B;A+B;computer or robot,定義:表示兩個概念的并列,即被命中的文獻(xiàn)含有兩詞之一或同時包含兩詞。 作用:可擴(kuò)大檢索范圍,提高查全率。 要求:組構(gòu)檢索式時,可將估計出現(xiàn)頻率高的詞置于“或”的左面,可使選中的答案盡早出現(xiàn)。,1)Boolean Search(布爾邏輯檢索),邏輯“非”:NOT;not; -,A not B;A-B; mildew not wheat,定義:表示兩個概念的排除,即被檢索文獻(xiàn)在含有檢索詞A而不含有檢索詞B時才被命中。 作用:用于排斥關(guān)系的組配,即從原來的檢索范圍排除不需要的概念或影響檢索結(jié)果的概念,提高查準(zhǔn)率。 注意:往往會把切題的文獻(xiàn)給丟掉,運(yùn)用時要非常慎重。,2)位置檢索:,表達(dá)檢索詞之間位置關(guān)系的一種檢索 位置算符,3)截詞檢索:*;?,定義:允許檢索詞有一定范圍的變化。檢索時將截詞符置于檢索詞允許變化的部位,只要檢索詞和標(biāo)引詞的詞干相同即為命中文獻(xiàn)。 作用:減少檢索詞的輸入量,擴(kuò)大檢索范圍 ,提高檢索效率。 注意:使用截詞檢索必須慎重,一是詞干不要太短,以免檢出許多與原來檢索詞不相關(guān)的文獻(xiàn)記錄,二是英美不同拼法的詞,如變化字母數(shù)不同則不能使用中間截詞檢索,必須詳細(xì)寫出并用OR組配后輸入。,分類: 按截詞位置:前截斷;后截斷;中間截斷 按截詞方式:無限截詞;有限截詞;中間截詞,前截斷:將截詞符放在詞根前邊,后方一致,表示在詞根前方有有限個或無限個字符。 如*magnetic 能夠檢出含有magnetic、ctromagnetic、paramagnetic等詞的記錄。 后截斷:將截詞符放在詞根后邊,前方一致,表示在詞根后方有有限個或無限個字符。 如metal*,能夠檢出含有metal、metals、metaled、metalist等詞的記錄。 中間截斷:將截詞符放在詞的中間,詞的前后方一致。 如colo*r,能夠檢出含有colour、color的記錄。,無限截詞:指允許截去的字符數(shù)量不限,也稱開放式截斷。如前截斷和后截斷 有限截詞:允許截去有限個字符。如dye* ,能夠檢出含有dyer、dye、dyed、dyeing等詞的記錄。 中間截詞:如中間截斷。,4)限定字段檢索:,定義:將檢索過程限定在記錄的特定的字段中進(jìn)行。 作用:縮小或約束檢索結(jié)果 ,提高檢索效率。 檢索符號:in、 、 等。,computerTI,AB:表示在TI和AB字段中檢索computer。 AUWang fang and PY 2000:表示查找王芳于2000年以來發(fā)表的文章。,5)禁用詞(stop words):,保留詞:Near、 and、 or 、not 噪音詞(非常常見的詞): a 、are 、for、 the、with 、is、 of、about、 for、 as、 from、this等,6)其他功能:,整體檢索: 在詞組的兩端加上“ ”,如“wheat powdery mildew” 優(yōu)先級檢索:在一個復(fù)雜的邏輯提問中,使用括號(單層或多層)來指定運(yùn)算的先后順序。 (A*B+C)*(D+E)+F,3計算機(jī)檢索策略及其調(diào)整,3.1計算機(jī)檢索策略 1)最專指面優(yōu)先策略 2)最少記錄面優(yōu)先策略 3)積木型概念組面策略 4)引文珠形增長策略 5)逐次分餾策略 3.2計算機(jī)檢索策略調(diào)整 擴(kuò)檢 縮檢,1)最專指面優(yōu)先策略:指在檢索時,首先選擇最專指的概念組面進(jìn)行檢索,如果檢索命中的文獻(xiàn)相當(dāng)少,那么其他概念組面就不再加到檢索提問式中去;如果檢索命中的文獻(xiàn)較多,就把其他概念組面加到檢索提問式中,以提高查準(zhǔn)率。 2)最少記錄面優(yōu)先策略:與最專指面優(yōu)先策略類似,即先從估計檢中的文獻(xiàn)記錄數(shù)量最少的概念組面人手,如果檢中的文獻(xiàn)記錄相當(dāng)少,則不必檢索其他概念組面,反之,則將其他概念組面加到檢索提問式中去,提高檢索結(jié)果的查準(zhǔn)率。,3)積木型概念組面策略:把檢索課題分解成若干個概念組面,并分別先對這幾個概念組面進(jìn)行檢索,在每個概念組面中盡可能全地列舉同義詞、相關(guān)詞、近義詞,并用布爾算符“OR”連接成子檢索式,然后再用布爾算符“AND”把所有概念組面的子檢索式連接起來構(gòu)成一個總檢索式。,4引文珠形增長策略:從直接檢索課題中最專指的概念組面開始,以便至少檢出一篇命中文獻(xiàn)。檢索人員從這一條或數(shù)條記錄中找到新的規(guī)范詞或自由詞,補(bǔ)充到檢索式中去,然后再檢索就能重新查出更多的文獻(xiàn)。 5逐次分餾策略:先確定一個較大的、范圍較廣的初始文獻(xiàn)集,然后逐步提高檢索式的專指度,從而逐步縮小命中文獻(xiàn)集,直到得到數(shù)量適宜、用戶滿意的文獻(xiàn)集合為止。,擴(kuò)檢時,即提高查全率時,調(diào)整檢索式的主要方法有: (1) 選全同義詞并以“OR”方式與原詞連接后加入到檢索式中。 (2) 降低檢索詞的專指度,從詞表或檢出文獻(xiàn)中選一些上位詞或相關(guān)詞。 (3) 采用分類號進(jìn)行檢索。 (4)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 膳食補(bǔ)充劑企業(yè)縣域市場拓展與下沉戰(zhàn)略研究報告
- 學(xué)習(xí)用品批發(fā)企業(yè)縣域市場拓展與下沉戰(zhàn)略研究報告
- 無煙煙草企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略研究報告
- 皮毛羽絲加工企業(yè)ESG實踐與創(chuàng)新戰(zhàn)略研究報告
- 兒童皮帶批發(fā)企業(yè)ESG實踐與創(chuàng)新戰(zhàn)略研究報告
- 白蘭地酒企業(yè)縣域市場拓展與下沉戰(zhàn)略研究報告
- 辦公用軟件批發(fā)企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略研究報告
- 鑲鉆手排企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略研究報告
- 釀酒酵母企業(yè)縣域市場拓展與下沉戰(zhàn)略研究報告
- 智能熱量計行業(yè)跨境出海戰(zhàn)略研究報告
- 2025年黑龍江商業(yè)職業(yè)學(xué)院單招職業(yè)技能測試題庫及參考答案
- 2025年深圳市高三年級第一次調(diào)研考試英語(含答案)
- GB/T 20840.10-2025互感器第10部分:低功率無源電流互感器的補(bǔ)充技術(shù)要求
- 部編版小學(xué)(2024版)小學(xué)道德與法治一年級下冊《有個新目標(biāo)》-第一課時教學(xué)課件
- 課題申報參考:中外文藝交流互鑒研究
- 少年商學(xué)院《DeepSeek中小學(xué)生使用手冊》
- 2025年上半年天津中煤進(jìn)出口限公司招聘電力及新能源專業(yè)人才易考易錯模擬試題(共500題)試卷后附參考答案
- 燃?xì)夤艿拦こ淌┕そM織設(shè)計方案
- 課題申報書:“大思政”視域下大學(xué)生思政教育融入就業(yè)教育路徑研究
- 2025山東能源集團(tuán)中級人才庫選拔高頻重點(diǎn)提升(共500題)附帶答案詳解
- 《特種設(shè)備安全管理員》考試通關(guān)題庫(600題 含參考答案)
評論
0/150
提交評論