版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第三章 信息檢索原理及檢索步驟本章關(guān)鍵點(diǎn):文件信息檢索基本概念文件信息普通檢索步驟檢索概念分析、提取和擴(kuò)展檢索策略組成信息檢索原理及檢索步驟第1頁(yè)1. 信息檢索基本概念信息檢索定義文件信息內(nèi)外部特征文件信息檢索普通原理文件信息檢索類型檢索效果評(píng)價(jià)信息檢索原理及檢索步驟第2頁(yè)1.1信息檢索定義狹義:從任何信息集合中查找所需信息活動(dòng)、過(guò)程和方法。廣義:信息檢索包含信息存放。合并稱為信息存放與檢索.信息檢索原理及檢索步驟第3頁(yè)信息檢索(information retrieval) 信息檢索廣義上是指將雜亂無(wú)序信息按一定方式組織和存放起來(lái),并依據(jù)信息用戶需求找出相關(guān)信息過(guò)程和技術(shù),全稱是”信息存放與檢
2、索”(Information Storage and Retrieval).狹義信息檢索指是后一過(guò)程.信息檢索原理及檢索步驟第4頁(yè)1.2 檢索語(yǔ)言(Retrieval Language)是用來(lái)描述信息源特征和進(jìn)行檢索人工語(yǔ)言。 作用:它是溝通信息存儲(chǔ)與信息檢索兩個(gè)過(guò)程橋梁。在信息存儲(chǔ)過(guò)程中,用它來(lái)描述信息內(nèi)容和外部特征,從而形成信息標(biāo)識(shí);在檢索過(guò)程中,用它來(lái)描述檢索提問(wèn),從而形成檢索標(biāo)識(shí);當(dāng)檢索標(biāo)識(shí)與信息標(biāo)識(shí)完全匹配或部分匹配時(shí),結(jié)果即為命中文件。信息檢索原理及檢索步驟第5頁(yè) 檢索語(yǔ)言類型:按照表示文件特征劃分題名責(zé)任者代碼,如ISBN、ISSN等引文出版項(xiàng)出版年分類語(yǔ)言:分類法主題語(yǔ)言:關(guān)鍵
3、詞、敘詞等。表述文件外表特征語(yǔ)言(與文件一一對(duì)應(yīng)關(guān)系)表述文件內(nèi)容特征語(yǔ)言(與文件含糊對(duì)應(yīng)關(guān)系)檢索語(yǔ)言類型信息檢索原理及檢索步驟第6頁(yè)文件信息內(nèi)外部特征內(nèi)容特征表示文件信息主題內(nèi)容檢索標(biāo)識(shí)內(nèi)容特征 文件 含糊對(duì)應(yīng)外表特征與文件主題內(nèi)容沒(méi)相關(guān)系或關(guān)系不大信息外表特征 文件 一一對(duì)應(yīng)信息檢索原理及檢索步驟第7頁(yè)1.3 文件信息檢索普通原理存放 選擇和搜集文件 提取文件信息內(nèi)外部特征 標(biāo)引,整理,形成檢索系統(tǒng)(工具) 檢索 分析信息需求 確定檢索課題 構(gòu)建檢索提問(wèn)式 從檢索系統(tǒng)中查獲所需信息 信息檢索原理及檢索步驟第8頁(yè)文獻(xiàn)源文件選擇搜集文件特征標(biāo)識(shí)語(yǔ)言檢索系統(tǒng)數(shù)據(jù)庫(kù)檢索提問(wèn)式匹配檢索結(jié)果用戶信息
4、需求檢索課題分析標(biāo)引反 饋信息檢索原理及檢索步驟第9頁(yè)1.4文件信息檢索類型:按檢索內(nèi)容文件檢索 (相關(guān)性檢索) 檢索結(jié)果為文件原文或線索 全文檢索 書(shū)目檢索數(shù)據(jù)檢索 (確定性檢索) 檢索結(jié)果為數(shù)值、數(shù)據(jù)事實(shí)檢索 (確定性檢索) 檢索結(jié)果為事實(shí)、概念信息檢索原理及檢索步驟第10頁(yè) ,是以文件線索為檢索內(nèi)容文件檢索。即檢索系統(tǒng)中存貯是書(shū)目、索引、文摘等二次文件,檢索結(jié)果取得是與檢索課題相關(guān)一系列文件線索。書(shū)目檢索(directory) ,是以文件所含全部信息作為檢索內(nèi)容文件檢索。即檢索系統(tǒng)存貯是整篇文章或整部圖書(shū)全部?jī)?nèi)容。全文檢索(full article)信息檢索原理及檢索步驟第11頁(yè) ,又稱
5、數(shù)值檢索,是以含有數(shù)量性質(zhì),并以數(shù)值形式表示數(shù)據(jù)為檢索內(nèi)容信息檢索。即檢索系統(tǒng)中存放是大量數(shù)據(jù),包含物質(zhì)參數(shù)、電話號(hào)碼、觀察數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)等,也包含圖表、化學(xué)分子式、物質(zhì)各種特征等非數(shù)字?jǐn)?shù)據(jù)。數(shù)據(jù)檢索(data) ,是以詳細(xì)事項(xiàng)為檢索內(nèi)容信息檢索,要求從檢索系統(tǒng)存放各種原始信息資源中查出專門(mén)事實(shí)材料。如,某一人物查找,某一事件查找等事實(shí)檢索(fact)信息檢索原理及檢索步驟第12頁(yè)1.4 文件信息檢索類型:按檢索伎倆手工檢索 與檢索工具直接“對(duì)話”,依靠檢索者手翻、眼看、腦子判斷而進(jìn)行檢索。 特點(diǎn):方便靈活,判別直觀,查準(zhǔn)率高、檢索效率低,漏檢現(xiàn)象比較嚴(yán)重 計(jì)算機(jī)檢索 利用計(jì)算機(jī)和一定通信設(shè)備
6、查找文件信息檢索 特點(diǎn):速度快,效率高,查全率較高、成本高, 回溯年份有限,查準(zhǔn)率不盡如人意信息檢索原理及檢索步驟第13頁(yè)1.4 按檢索伎倆劃分傳統(tǒng)信息檢索當(dāng)代信息檢索 即手工信息檢索,是利用各種印刷型檢索工具來(lái)查找文件一個(gè)方法。 即計(jì)算機(jī)信息檢索,是指利用計(jì)算機(jī)和網(wǎng)絡(luò)來(lái)處理和查找文件信息檢索方式。信息檢索原理及檢索步驟第14頁(yè)項(xiàng)目手工檢索計(jì)算機(jī)檢索總體特征手翻、眼看、大腦判斷檢索策略、機(jī)器查詢、數(shù)據(jù)匹配檢索速度較慢很快檢索功效簡(jiǎn)單多樣、可鏈接全文、可打印結(jié)果、可進(jìn)行定題服務(wù)等。檢索方式單一靈活方便、可進(jìn)行各種組合檢索檢索路徑較少較多檢索范圍有限覆蓋多學(xué)科和各種文件類型,范圍較大檢索限制受時(shí)空
7、限制不受時(shí)空限制更新周期長(zhǎng)短對(duì)用戶要求專業(yè)知識(shí)、工具書(shū)使使用方法專業(yè)知識(shí)、計(jì)算機(jī)檢索知識(shí)檢索效果查準(zhǔn)率高查全率高,經(jīng)過(guò)邏輯組配可提升查準(zhǔn)率檢索費(fèi)用低高綜合效率低高手工檢索與計(jì)算機(jī)檢索比較信息檢索原理及檢索步驟第15頁(yè) 1.5 檢索效果評(píng)價(jià) 檢索效果(Retrieval Effectiveness)是指檢索系統(tǒng)檢索有效程度,它反應(yīng)了檢索系統(tǒng)能力。包含技術(shù)效果和經(jīng)濟(jì)效果。 克蘭弗登(Cranfield)評(píng)價(jià)系統(tǒng)性能指標(biāo): 收錄范圍 查全率 查準(zhǔn)率 響應(yīng)時(shí)間 用戶負(fù)擔(dān) 輸出形式信息檢索原理及檢索步驟第16頁(yè)查全率 是指檢出相關(guān)文件量與檢索系統(tǒng)中相關(guān)文件總量比率,是衡量信息檢索系統(tǒng)檢出相關(guān)文件能力尺度
8、。可用下式表示: 查準(zhǔn)率它是指檢出相關(guān)文件量與檢出文件總量比率,是衡量信息檢索系統(tǒng)檢出文件準(zhǔn)確度尺度。可用下式表示: 查全率和查準(zhǔn)率在一定程度上成反比關(guān)系。應(yīng)依據(jù)詳細(xì)課題要求,合理調(diào)整查全率和查準(zhǔn)率,確保檢索效果。信息檢索原理及檢索步驟第17頁(yè)ACDB9090504020604070PR查全率(R)和查準(zhǔn)率(P)關(guān)系曲線圖理論上,C和D之間即檢索最正確效果信息檢索原理及檢索步驟第18頁(yè)2 信息檢索系統(tǒng)印刷型信息檢索系統(tǒng): 目錄、題錄、文摘、索引 計(jì)算機(jī)信息檢索系統(tǒng): 文件信息數(shù)據(jù)處理和維護(hù)子系統(tǒng) 詞表和標(biāo)引子系統(tǒng) 檢索子系統(tǒng)信息檢索原理及檢索步驟第19頁(yè)信息檢索原理及檢索步驟第20頁(yè)3. 文件
9、信息普通檢索步驟分析研究課題,明確檢索要求選擇檢索工具或檢索系統(tǒng)確定檢索路徑實(shí)施檢索,統(tǒng)計(jì)和閱讀文件線索索取原始文件信息檢索原理及檢索步驟第21頁(yè)3.1 研究課題分析分清課題性質(zhì) 前沿探索性 調(diào)查研究性 面象應(yīng)用性課題背景知識(shí)獲取 利用網(wǎng)絡(luò)搜索引擎 查閱圖書(shū)館相關(guān)館藏,專著、工具書(shū) 問(wèn)詢專業(yè)人員概念(檢索詞)提取 主要檢索詞、輔助檢索詞、禁用詞 比如:關(guān)于中國(guó)唐詩(shī)韻律研究 Study on the market management in China信息檢索原理及檢索步驟第22頁(yè) 3.1 課題分析 明確文件檢索目標(biāo); 明確課題要處理實(shí)責(zé)問(wèn)題; 明確有哪些主題概念; 各主題概念之間關(guān)系; 明確課
10、題包括學(xué)科范圍; 明確課題所需文件信息語(yǔ)種、時(shí)間范圍等詳細(xì)要求。信息檢索原理及檢索步驟第23頁(yè)4 檢索工具(系統(tǒng))選擇標(biāo)準(zhǔn)根椐檢索目標(biāo)依據(jù)信息需求內(nèi)容、專業(yè)范圍依據(jù)數(shù)據(jù)庫(kù)統(tǒng)計(jì)文件起源信息檢索原理及檢索步驟第24頁(yè) 4.選擇檢索系統(tǒng)選擇檢索工具時(shí)要考慮: 專業(yè)性,即選擇與學(xué)科專業(yè)相關(guān)工具,尤其注意跨學(xué)科領(lǐng)域內(nèi)容。 權(quán)威性,盡可能選擇該學(xué)科權(quán)威性檢索工具。 了解檢索工具收錄范圍,包含時(shí)間跨度、地理范圍、文件語(yǔ)種、類型、揭示深度等。 了解檢索工具檢索方法和系統(tǒng)功效 漢字檢索系統(tǒng)可考慮CNKI、萬(wàn)方、維普數(shù)據(jù)庫(kù),外文數(shù)據(jù)庫(kù)可考慮使用Science Direct、Springer、John Wiley、
11、WOS等。信息檢索原理及檢索步驟第25頁(yè)5. 確定檢索路徑開(kāi)始查找信息入口點(diǎn)題名路徑著者路徑序號(hào)路徑主題(分類)路徑信息檢索原理及檢索步驟第26頁(yè)選擇適當(dāng)檢索路徑: 題名路徑(Title) 責(zé)任者路徑(Author) 機(jī)構(gòu)路徑(Affiliation) 序號(hào)路徑(Code) 分類路徑(Classification) 主題路徑 關(guān)鍵詞路徑 其它路徑 文件檢索及檢索式調(diào)整依據(jù)課題已知條件和課題范圍和檢索效率要求,選擇適當(dāng)檢索路徑。題名/關(guān)鍵詞/摘要/主題/全文信息檢索原理及檢索步驟第27頁(yè) 主題路徑分類檢索語(yǔ)言(分類法、分類表) 分類表,依據(jù)學(xué)科之間邏輯歸屬關(guān)系,采取樹(shù)型層次結(jié)構(gòu),列舉出人類全部知
12、識(shí)類別,并對(duì)每一知識(shí)分別標(biāo)以相對(duì)固定類號(hào)代碼形成一個(gè)類表。通常是一個(gè)從總到分、從普通到詳細(xì),層層劃分、逐層展開(kāi)并含有某種符號(hào)代碼體系知識(shí)體系表。 特點(diǎn):常落后于當(dāng)前研究現(xiàn)實(shí)狀況,分類表相對(duì)呆板學(xué)科關(guān)系使得確定前沿概念、跨學(xué)科概念或非常詳細(xì)概念分類困難。主題檢索語(yǔ)言 關(guān)鍵詞 自然語(yǔ)言性質(zhì)主題語(yǔ)言,自由詞,指從標(biāo)題、文摘或正文中抽出能表示文件主題內(nèi)容實(shí)意詞。自然性,隨意性。 主題詞(敘詞) 以正式、規(guī)范詞或詞組形式固定各種事物概念。從自然語(yǔ)言中優(yōu)選出并經(jīng)規(guī)范化處理名詞術(shù)語(yǔ)。信息檢索原理及檢索步驟第28頁(yè) 分類法就是按照文件信息內(nèi)容,依據(jù)學(xué)科之間邏輯歸屬關(guān)系,將各種概念按學(xué)科性質(zhì)進(jìn)行分類和系統(tǒng)排列語(yǔ)
13、言,反應(yīng)事物隸屬、派生關(guān)系,從總體到局部層層劃分展開(kāi),組成一個(gè)完整分類類目表。所以,分類法通常是指一個(gè)從總到分,從普通到詳細(xì)、層層劃分、逐層展開(kāi)并配以某種符號(hào)代碼體系知識(shí)體系表,是一個(gè)等級(jí)體系。詳細(xì)表示為用分類號(hào)和類名來(lái)表示信息主題概念。 5.1 分類檢索語(yǔ)言(1)信息檢索原理及檢索步驟第29頁(yè) 分類語(yǔ)言檢索優(yōu)點(diǎn):能夠檢索到某學(xué)科或?qū)I(yè)全部文件,含有較高查全率。 分類語(yǔ)言檢索缺點(diǎn):分類語(yǔ)言落后于現(xiàn)實(shí)狀況,分類表學(xué)科關(guān)系呆板使得跨學(xué)科概念等都比較困難。 需要注意是:不一樣分類法設(shè)類標(biāo)準(zhǔn)和分類代碼形式是不一樣。 中國(guó)圖書(shū)館圖書(shū)分類法 美國(guó)國(guó)會(huì)圖書(shū)館分類法 杜威十進(jìn)位分類法 IPC國(guó)際專利分類法 5
14、.1 分類檢索語(yǔ)言(2)信息檢索原理及檢索步驟第30頁(yè) 中圖法分 5個(gè)基本部類,將知識(shí)門(mén)類分為“哲學(xué)”、“社會(huì)科學(xué)”、“自然科學(xué)”三大部類。馬克思主義、列寧主義、毛澤東思想是指導(dǎo)我們思想理論基礎(chǔ),作為一個(gè)基本部類,列于首位。另外,考慮到圖書(shū)本身特點(diǎn),對(duì)于一些內(nèi)容龐雜,類無(wú)專屬,無(wú)法按某一學(xué)科內(nèi)容性質(zhì)分類圖書(shū),概括為“綜合性圖書(shū)”,作為一個(gè)基本部類,置于最終。在此基礎(chǔ)上擴(kuò)展為 22個(gè)大類。 標(biāo)識(shí)符號(hào)采取漢語(yǔ)拼音字母與阿拉伯?dāng)?shù)字相結(jié)合混合號(hào)碼制。中圖分類法(1)信息檢索原理及檢索步驟第31頁(yè) 在中圖法以及任何類似分類表中,被區(qū)分類稱為上位類, 被區(qū)分類稱為上位類,區(qū)分出來(lái)就是下位類,上下位類之間關(guān)
15、系反應(yīng)了概念外延包含與隸屬關(guān)系。處于同一上位類下同一層次下位類稱為同位類。處于同位類關(guān)系類目在概念上是排斥。 為了,反應(yīng)學(xué)科之間屬分關(guān)系,分類表類號(hào)每增加一位字母和數(shù)字就代表增加一級(jí)分類 在了解類目代表含義時(shí),下位類所包含類目含義應(yīng)該和它上位類號(hào)所包含含義結(jié)合起來(lái)。中圖分類法(2)信息檢索原理及檢索步驟第32頁(yè)信息檢索原理及檢索步驟第33頁(yè) D9 法律 90 法理論(法學(xué)) 91 法學(xué)各部門(mén) 92 中國(guó)法律 920.0 理論 (類名含義:中國(guó)法律理論) 921 國(guó)家法、憲法 923 民法 . . .信息檢索原理及檢索步驟第34頁(yè) 包括二個(gè)或二個(gè)以上概念課題屬于多概念課題,對(duì)多概念課題缺點(diǎn)分類關(guān)
16、系時(shí),應(yīng)注意以下幾點(diǎn):.并列概念課題:對(duì)于包括同一研究對(duì)象幾個(gè)方面或者包括幾個(gè)并列研究對(duì)象課題,凡是有主次關(guān)系,應(yīng)取其重點(diǎn)或主要研究對(duì)象歸類。設(shè)計(jì)統(tǒng)一研究對(duì)象幾個(gè)方面都需要檢索時(shí),應(yīng)在所包括幾個(gè)類目中同時(shí)查找。 比如:“新聞宣傳研究”,假如側(cè)重于“新聞”就取“G212 新聞財(cái)富和報(bào)道”,假如側(cè)重宣傳,則取“G223 廣播電視宣傳和群眾工作”。假如設(shè)計(jì)二個(gè)方面時(shí),“新聞”和“宣傳”都要查找。中圖分類法 (3)信息檢索原理及檢索步驟第35頁(yè) 包括二個(gè)或二個(gè)以上概念課題屬于多概念課題,對(duì)多概念課題缺點(diǎn)分類關(guān)系時(shí),應(yīng)注意以下幾點(diǎn):.應(yīng)用性課題:研究一個(gè)理論、方法等在某方面應(yīng)用或?qū)δ撤矫嬗绊懻n題,應(yīng)在所
17、應(yīng)用或受影響類目查找。比如:“計(jì)算機(jī)在人口預(yù)測(cè)方面應(yīng)用”就歸入“人口預(yù)測(cè)”.上位類分類法:這種歸類法是一個(gè)特殊分類方法。它是指欲查課題在分類表中無(wú)符合要求專指類目時(shí),能夠歸入它緊鄰上位類。中圖分類法 (4)信息檢索原理及檢索步驟第36頁(yè)主題語(yǔ)言:自然語(yǔ)言和人工語(yǔ)言自然語(yǔ)言:自然表示某一概念語(yǔ)言,沒(méi)有強(qiáng)制性要求。如在文件檢索中,關(guān)鍵詞(Key words)等用就是自然語(yǔ)言。人工語(yǔ)言:指是人為要求概念表示語(yǔ)言,通俗地說(shuō),就是某個(gè)概念你必須用要求語(yǔ)言來(lái)表示,如文件檢索中主題詞、敘詞等用就是人工語(yǔ)言。如:自行車(腳踏車、單車),西紅柿(番茄、洋柿子)、馬鈴薯(土豆)、玉米(包谷)信息檢索原理及檢索步驟
18、第37頁(yè)主題語(yǔ)言:自然語(yǔ)言(關(guān)鍵詞)(1)關(guān)鍵詞(Key words):是一個(gè)自然語(yǔ)言性質(zhì)主題語(yǔ)言。詳細(xì)說(shuō),是指從文件題目、正文或摘要中抽出能表示文件主題內(nèi)容含有實(shí)質(zhì)意義語(yǔ)詞。關(guān)鍵詞基本上不對(duì)詞語(yǔ)加以控制,含有自然性和隨意性。因?yàn)殛P(guān)鍵詞這個(gè)特點(diǎn),使得單一關(guān)鍵詞檢索輕易造成漏查。 信息檢索原理及檢索步驟第38頁(yè)主題語(yǔ)言:自然語(yǔ)言(關(guān)鍵詞)(2)確定課題關(guān)鍵詞步驟:分析課題,提取概念:對(duì)課題仔細(xì)進(jìn)行分析,分析出課題包括事物名稱、研究主要伎倆、方法、目標(biāo),最主要事物名稱應(yīng)作為首先考慮檢索概念。整理概念,擴(kuò)充同一詞匯:將分析所得概念整理歸納,對(duì)每一個(gè)概念用同義次、近義詞、縮寫(xiě)詞等給予擴(kuò)展。利用分析所得
19、詞匯試查,確定課題適用關(guān)鍵詞。信息檢索原理及檢索步驟第39頁(yè)主題語(yǔ)言:人工語(yǔ)言(主題詞、敘詞)(1)主題詞(敘詞):指從自然語(yǔ)言中優(yōu)選出來(lái)并經(jīng)過(guò)規(guī)范化處理名詞術(shù)語(yǔ)。國(guó)內(nèi)慣用有漢語(yǔ)主題詞表及個(gè)數(shù)據(jù)庫(kù)特定主題詞表。敘詞語(yǔ)言和分類語(yǔ)言不一樣是,主題詞表中全部正式主題詞能夠依據(jù)需要將它們組配起來(lái),用一表示復(fù)雜概念。信息檢索原理及檢索步驟第40頁(yè)主題語(yǔ)言:人工語(yǔ)言(主題詞、敘詞)(2)確定主題詞步驟:.課題分析:依據(jù)課題包括主要對(duì)象,研究伎倆,使用方法、條件、研究目標(biāo)、用途做深入分析,提取課題研究主要事物概念。.查表選詞:在分析出概念基礎(chǔ)上對(duì)課題做試標(biāo)引。a.用相對(duì)應(yīng)主題詞直接標(biāo)引b.對(duì)多概念主題或復(fù)合
20、主題用組配和上位等方式進(jìn)行標(biāo)引:多概念主題指主題要素由不相容邏輯關(guān)系組成課題信息檢索原理及檢索步驟第41頁(yè)主題語(yǔ)言:人工語(yǔ)言(主題詞、敘詞)(3)確定主題詞步驟:.查表選詞:在分析出概念基礎(chǔ)上對(duì)課題做試標(biāo)引。a.用相對(duì)應(yīng)主題詞直接標(biāo)引b.對(duì)多概念主題或復(fù)合主題用組配和上位等方式進(jìn)行標(biāo)引:多概念主題指主題要素由不相容邏輯關(guān)系組成課題,包含矛盾關(guān)系、反對(duì)關(guān)系,對(duì)這些多主題課題做標(biāo)引時(shí),應(yīng)分別選取主題詞。信息檢索原理及檢索步驟第42頁(yè)主題語(yǔ)言:人工語(yǔ)言(主題詞、敘詞)(4)確定主題詞步驟:.復(fù)合主題課題指主題要素之間關(guān)系是相容關(guān)系課題。復(fù)合主題所分析出主題要素之間包含同一關(guān)系(比如微機(jī)和電腦),屬種
21、關(guān)系和全方面與某首先關(guān)系(比如中國(guó)歷史和清史,經(jīng)濟(jì)運(yùn)行指標(biāo)和GDP),普通是上下位概念關(guān)系,以及交叉關(guān)系(比如中國(guó)人和學(xué)生)。各主題詞要使用適合課題專指性正式主題詞。 上位類標(biāo)引是指當(dāng)主題詞表中沒(méi)有對(duì)應(yīng)主題詞時(shí),又不能使用組配法標(biāo)引時(shí)可采取最近一級(jí)上位類詞標(biāo)引。信息檢索原理及檢索步驟第43頁(yè)主題語(yǔ)言:人工語(yǔ)言(主題詞、敘詞)(5)確定主題詞步驟:.試查定詞:使用主題詞表選擇主題詞,都必須經(jīng)過(guò)主題索引試查,由實(shí)際檢索結(jié)果來(lái)確定終究哪些詞是可用,哪些詞不可用。信息檢索原理及檢索步驟第44頁(yè) 6 查找檢索詞:各類文件信息文件類型標(biāo)識(shí)文件類型標(biāo)識(shí)主要能夠參考:信息與文件 參考文件著錄規(guī)則 (國(guó)家標(biāo)準(zhǔn)
22、)分類標(biāo)識(shí)可析出主題概念(檢索詞:關(guān)鍵詞和敘詞)信息檢索原理及檢索步驟第45頁(yè) 6 查找檢索詞:各類文件信息文件類型標(biāo)識(shí) 經(jīng)過(guò)對(duì)課題描述語(yǔ)句分析,將課題所包括 詞語(yǔ)分成主要檢索詞、輔助檢索詞和禁用詞三類。 主要檢索詞是指與課題研究對(duì)象、方法相關(guān)特指性事物名詞,輔助性檢索詞是指泛指性名詞,它們只在檢索結(jié)果過(guò)多需要限制時(shí)使用。禁用詞是指介詞、連詞等虛詞,普通不做檢索詞用。信息檢索原理及檢索步驟第46頁(yè)關(guān)鍵詞或敘詞、主題詞選詞特點(diǎn)(1)是能夠揭示主題內(nèi)容語(yǔ)詞關(guān)鍵詞應(yīng)該是表示最小概念語(yǔ)詞 虛詞(不可用):連詞、副詞、介詞、 助詞、語(yǔ)氣詞寬泛概念詞(不可用):研究、技術(shù)、 問(wèn)題、方法 信息檢索原理及檢索
23、步驟第47頁(yè)關(guān)鍵詞或敘詞、主題詞選詞特點(diǎn)(2)信息檢索原理及檢索步驟第48頁(yè)方法:切分、去除、替補(bǔ)注意:(1)準(zhǔn)確、專業(yè)。 不要將一些意義廣泛詞作為檢索詞,如研究等。 (2)全方面??紤]:a 基于概念上下位詞,如可再生能源與太陽(yáng)能。b 同一檢索詞不一樣表示方式,如白血病與血癌。 c 基于檢索結(jié)果同義詞或近義詞。 6.1 提煉檢索詞信息檢索原理及檢索步驟第49頁(yè)6.2 概念(檢索詞)擴(kuò)展(1)同一概念擴(kuò)展查詢同一事物學(xué)名和俗名: 漢語(yǔ)與漢字查詢同一事物簡(jiǎn)稱、全稱、音譯和意譯: 互聯(lián)網(wǎng)與因特網(wǎng),上海與滬,中央電視臺(tái)與CCTV;查詢統(tǒng)一事物反義詞: 廉潔與腐敗查詢不一樣詞形: art與arts;co
24、lour與color;draw與drawing信息檢索原理及檢索步驟第50頁(yè)6.2 概念(檢索詞)擴(kuò)展(2)基于內(nèi)容分析概念擴(kuò)展 上位概念擴(kuò)展法是分析檢索對(duì)象學(xué)科歸屬。 下位概念擴(kuò)展法又稱概念分析樹(shù)形展開(kāi)法。 隱含主題(顯見(jiàn)主題)擴(kuò)展法:所謂隱含主題,是文件或課題中,未用顯而易見(jiàn)表示方式: 抽象與詳細(xì)關(guān)系 不一樣角度觀察關(guān)系 概念上下位關(guān)系 專利與知識(shí)產(chǎn)權(quán);唐詩(shī)與古詩(shī) 法規(guī)要求、條例;西部云南、貴州、四川等 上海圖書(shū)館書(shū)目數(shù)據(jù)庫(kù)系統(tǒng)公共圖書(shū)館,圖書(shū)館自動(dòng)化系統(tǒng)信息檢索原理及檢索步驟第51頁(yè)6.2 概念(檢索詞)擴(kuò)展(3)基于檢索結(jié)果概念擴(kuò)展: 對(duì)初步檢索結(jié)果進(jìn)行分析,往往能夠得到與課題 相關(guān)新
25、檢索概念,將這些概念經(jīng)過(guò)重新組合,就能夠到達(dá)擴(kuò)展檢索結(jié)果目標(biāo)。 在實(shí)際檢索中,能夠依據(jù)需要,選取由上述方法得到檢索概念,從而擴(kuò)展檢索所得。信息檢索原理及檢索步驟第52頁(yè)“應(yīng)用語(yǔ)言學(xué)”課題概念擴(kuò)展示例上位擴(kuò)展概念下位擴(kuò)展概念隱含擴(kuò)展概念語(yǔ)言學(xué)語(yǔ)言學(xué)理論術(shù)語(yǔ)理論語(yǔ)言規(guī)劃翻譯理論語(yǔ)音識(shí)別語(yǔ)言合成漢字信息處理統(tǒng)計(jì)語(yǔ)言學(xué)數(shù)理語(yǔ)言學(xué)術(shù)語(yǔ)學(xué)形式語(yǔ)言學(xué)語(yǔ)言邏輯學(xué)敘詞關(guān)鍵詞信息檢索原理及檢索步驟第53頁(yè)關(guān)鍵詞外商投資管理外商 投資 管理獨(dú)資 合資 資本 股權(quán) 法規(guī) 要求 主題詞外資利用 + 管理信息檢索原理及檢索步驟第54頁(yè)6.3 選詞注意事項(xiàng)選詞要準(zhǔn)確重視概念擴(kuò)展,不遺漏表示同一概念相關(guān)詞防止選取使用頻率過(guò)高
26、詞,如技術(shù)、方法、研究等不要單獨(dú)使用多義詞,如china選詞要符合所用檢索工具(數(shù)據(jù)庫(kù))要求,如不一樣數(shù)據(jù)庫(kù)所規(guī)范主題詞有時(shí)是不相同。信息檢索原理及檢索步驟第55頁(yè)檢索策略 又稱提問(wèn)邏輯,即對(duì)多個(gè)檢索詞之間相互關(guān)系和檢索次序作出某種安排。 組成檢索策略,即構(gòu)建檢索式7. 檢索策略組成方法信息檢索原理及檢索步驟第56頁(yè) 檢索式是檢索策略邏輯表示式,是用來(lái)表示用戶檢索提問(wèn),由基于檢索概念產(chǎn)生檢索詞和各種組配算符組成。 組配算符通常有布爾邏輯算符、截詞符(通配符)、位置算符、嵌套算符(優(yōu)先算符)四種。 7.1 結(jié)構(gòu)檢索式信息檢索原理及檢索步驟第57頁(yè)布爾 邏輯算符 優(yōu)先算符 截詞算符 字段限制 詞組
27、或字符串7.2 計(jì)算機(jī)檢索算符主要包含信息檢索原理及檢索步驟第58頁(yè) 布爾邏輯組配運(yùn)算是采取布爾代數(shù)中邏輯“與”邏輯“或”、邏輯“非”等算符,將檢索提問(wèn)式轉(zhuǎn)換成邏輯表示式,限定檢索詞在統(tǒng)計(jì)中必須存在條件或不能出現(xiàn)條件。凡符合布爾邏輯所要求條件文件,即為命漢字獻(xiàn)。 布爾邏輯算符組配檢索信息檢索原理及檢索步驟第59頁(yè)布爾邏輯算符邏輯或(OR)運(yùn)算符 用來(lái)組配含有并列關(guān)系、概念相同或相近詞,如同義詞、相關(guān)詞等。 擴(kuò)大檢索范圍,提升查全率。 A+B 例:EBSCO S1 1834 enterprise S2 2022 company S3 3647 enterprise OR company AB信息
28、檢索原理及檢索步驟第60頁(yè)布爾邏輯算符邏輯與(AND)運(yùn)算符 用來(lái)組配含有相互交叉限定關(guān)系概念。 縮小檢索范圍,提升查準(zhǔn)率。 A*B 例:EBSCO S1 12940 Chinese S2 2173 literature S3 842 Chinese AND literatureAB信息檢索原理及檢索步驟第61頁(yè)布爾邏輯算符邏輯非(NOT)運(yùn)算符 用來(lái)排除含有一些詞統(tǒng)計(jì)。 縮小檢索范圍,提升查準(zhǔn)率。 有排除掉相關(guān)文件可能,慎用 A-B 例:COMPENDEX(1998) S1 110 patent S2 325 German S3 108 patent NOT German AB信息檢索原理及檢索步驟第62頁(yè)優(yōu)先算符混合使用邏輯符,其運(yùn)算次序?yàn)椋?NOT AND OR ()改變運(yùn)算次序 例: S1 A OR B S2 C OR D S3 S1 AND S2 (A OR B) AND (C OR D)信息檢索原理及檢索步驟第63頁(yè)截詞算符 指在檢索詞某個(gè)局部截?cái)?,利用一些檢索詞詞干或不完整詞形加上截詞符進(jìn)行檢索。 查找某一詞干不一樣改變形式 預(yù)防漏檢,提升查全率 常見(jiàn)有: ?、*、$、% 例:manag*,可檢出 manage manager management managing manage
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 貴州城市職業(yè)學(xué)院《英語(yǔ)教學(xué)實(shí)踐2》2023-2024學(xué)年第一學(xué)期期末試卷
- 貴州財(cái)經(jīng)大學(xué)《基礎(chǔ)護(hù)理學(xué)基本技能2》2023-2024學(xué)年第一學(xué)期期末試卷
- 貴陽(yáng)學(xué)院《現(xiàn)代生物科學(xué)導(dǎo)論C》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025海南省建筑安全員C證考試題庫(kù)
- 貴陽(yáng)人文科技學(xué)院《自然地理與人文地理學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣州珠江職業(yè)技術(shù)學(xué)院《信息管理學(xué)基礎(chǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年天津市建筑安全員B證考試題庫(kù)
- 2025海南建筑安全員C證考試(專職安全員)題庫(kù)附答案
- 廣州應(yīng)用科技學(xué)院《裝配式建筑識(shí)圖與實(shí)務(wù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025四川省建筑安全員A證考試題庫(kù)及答案
- 【可行性報(bào)告】2024年第三方檢測(cè)相關(guān)項(xiàng)目可行性研究報(bào)告
- 藏醫(yī)學(xué)專業(yè)生涯發(fā)展展示
- 信息安全保密三員培訓(xùn)
- 《陸上風(fēng)電場(chǎng)工程設(shè)計(jì)概算編制規(guī)定及費(fèi)用標(biāo)準(zhǔn)》(NB-T 31011-2019)
- 醫(yī)院重點(diǎn)崗位工作人員輪崗制度
- 第二章植物纖維
- 《論語(yǔ)》中英對(duì)照(理雅各譯)
- 新疆建設(shè)工程質(zhì)量監(jiān)督管理工作手冊(cè)
- 小紅帽故事PPT課件15
- 旅游景區(qū)組織機(jī)構(gòu)
- 漢字文化解密(華中師范大學(xué))超星爾雅學(xué)習(xí)通網(wǎng)課章節(jié)測(cè)試答案
評(píng)論
0/150
提交評(píng)論