信息檢索技術(shù)_第1頁
信息檢索技術(shù)_第2頁
信息檢索技術(shù)_第3頁
信息檢索技術(shù)_第4頁
信息檢索技術(shù)_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第一章信息檢索概述1, 什么是信息檢索?它有哪些主要類型?信息檢索指將信息按照一定的方式組織和存儲(chǔ)起來,并能根據(jù)信息用戶的需要找出其中相關(guān)信息的過程。有目的和組織化的信息存取活動(dòng),其中包括“存”和“取”兩活動(dòng)。舊分類方法:文獻(xiàn)檢索、事實(shí)檢索、數(shù)據(jù)檢索新分類方法:文本檢索、數(shù)值檢索、音/視頻檢索2, 試分析闡述信息檢索的基本原理,信息集合、需求集合、匹配與選擇,信息檢索三階段及期特點(diǎn)?答:即信息集合與需求集合的匹配與選擇。侑以檢赤的律本原理示耄圖!俏息合選擇與匹配(1)信息集合是指有關(guān)某一領(lǐng)域的, 經(jīng)采集、加工的 信息的集合。形成可供用戶訪問與檢索的對象,在某 種意義上說,它是以一種公共知識(shí)結(jié)構(gòu)

2、,它有可能彌 補(bǔ)某個(gè)特定用戶的知識(shí)結(jié)構(gòu)缺陷,即可以向用戶提供 所需要的知識(shí)或信息,或是獲取知識(shí)的線索,或者提 供某種信息區(qū)激活人腦中存儲(chǔ)的知識(shí)。(2)需求集合:用戶的信息需求是在社會(huì)實(shí)踐活動(dòng)中產(chǎn)生的。眾多用 戶不同形態(tài)的信息需求的匯集,就形成了需求集合的 存在。信息需求的產(chǎn)生與滿足,是實(shí)施信息檢索行為 的前提與基礎(chǔ),也是實(shí)施信息檢索行為的目的所在。(3)選擇與匹配:面對信息集合與需求集合, 如何在 兩者之間建立起聯(lián)系與溝通的橋梁,以便能夠從信息 集合中快速獲取用戶所需要或所缺少的信息與知識(shí) 呢?這就需要信息檢索提供一種“匹配”機(jī)制。它的 主要功能在于:能夠把需求集合與信息集合依據(jù)某種 相似性標(biāo)

3、準(zhǔn)進(jìn)行比較與判斷,進(jìn)而選擇出符合用戶需 要的信息。這里,我們要求匹配機(jī)制至少包括兩個(gè)要 素:一是匹配標(biāo)準(zhǔn),即相似性標(biāo)準(zhǔn);二是執(zhí)行匹配的 動(dòng)因。3,信息檢索主要經(jīng)歷了哪些不同的發(fā)展階段?各階段 有何特點(diǎn)?(1)手工檢索階段,主要特點(diǎn)可以概括為印刷文獻(xiàn) (圖 書、期刊、會(huì)議、專利、學(xué)位論文)為主要檢索對象; 以各類文摘、題錄、和目錄性工具書為可利用的主要 檢索工具;以圖書館的參考咨詢部門為開展信息檢索 服務(wù)的中心機(jī)構(gòu)。(2)計(jì)算機(jī)化檢索階段 (脫機(jī)批處 理檢索時(shí)期、聯(lián)機(jī)實(shí)時(shí)檢索時(shí)期、聯(lián)機(jī)網(wǎng)絡(luò)化與多元 化檢索時(shí)間),主要特點(diǎn):以各類機(jī)讀數(shù)據(jù)庫為檢索對 象;各類信息中心,聯(lián)機(jī)服務(wù)中心作為新興的信息服

4、務(wù)部門而存在;信息檢索用戶逐漸由專業(yè)檢索人員(檢 索中介)向個(gè)人終端用戶轉(zhuǎn)移和擴(kuò)散。(3)網(wǎng)絡(luò)化檢索時(shí)期,分布式存儲(chǔ)、分布式檢索、分布式處理,檢 索范圍領(lǐng)域廣,傳統(tǒng)技術(shù)與網(wǎng)絡(luò)技術(shù)的結(jié)合,用戶界 面友好度,檢索效率低。4、名詞解釋1)文本檢索:指以各種自然語言符號系統(tǒng)所表示的信 息作為主要檢索對象的信息檢索活動(dòng)。2)數(shù)值檢索:針對數(shù)值型數(shù)據(jù) 的查詢而發(fā)展起來的 一類有特色的信息檢索。3)音視頻檢索:針對各種數(shù)字化音頻與視頻信息而進(jìn) 行查詢的一類新興的信息檢索操作。4)信息存儲(chǔ)與檢索:將信息按照一定的方式組織和存 儲(chǔ)起來,并能夠根據(jù)信息用戶的需求找出其中相關(guān)信 息的過程。信息檢索是一種有目的和組織

5、化的信息存 取活動(dòng),其中包括“存”和“取”兩活動(dòng)。5)文獻(xiàn)檢索:以文獻(xiàn)(包括文獻(xiàn)、題目、或全文)為 檢索對象的一類信息查詢活動(dòng),是一種相關(guān)性檢索。6)數(shù)據(jù)檢索:以經(jīng)過選擇、整理、鑒定的各種數(shù)據(jù)信 息的性能參數(shù)作為檢索對象的一類檢索,是一種確定 性檢索。7)事實(shí)檢索:針對從文獻(xiàn)中提取出來的各種事實(shí)(或知識(shí)項(xiàng))所進(jìn)行的檢索活動(dòng),是一種確定性檢索。第二章信息源1, 如何鑒別高質(zhì)量的期刊?目前國內(nèi)外公認(rèn)的鑒別方式有 2種:核心期刊和同行 評審期刊。(1)核心期刊:指的是刊載某一學(xué)科或?qū)I(yè)有關(guān)的信 息較多,且學(xué)術(shù)水平較高,能夠反映該學(xué)科最新成果 和前沿動(dòng)態(tài),受到該專業(yè)讀者特別關(guān)注并成為檢索與 閱讀首選的

6、那些期刊。(2)同行評審期刊:它是國內(nèi)外高水平期刊對來搞評 審普遍采用的方式。具體做法是:作者將文稿寄交編 輯部并經(jīng)初審合格后,為了審查論文的學(xué)術(shù)質(zhì)量需要 將論文稿送交有關(guān)專家(即同行)進(jìn)行評審。2, 我國出版的專利文獻(xiàn)有哪些?目前我國出版的專利文獻(xiàn)主要包括專利說明書、專利公報(bào)、專利索引等。既有一次文獻(xiàn),也有二次文獻(xiàn),他們是:(1)發(fā)明專利公報(bào) 、實(shí)用新型專利公報(bào) 和 外觀設(shè)計(jì)專利公報(bào) (每周一次);(2)發(fā)明專利申請公開說明書 , 發(fā)明專利申請 審定說明書 及實(shí)用新型專利申請說明書 。(3)專利年度索引;3, 書目數(shù)據(jù)庫的特點(diǎn)是: 信息密度高,文獻(xiàn)報(bào)道范圍 廣,數(shù)據(jù)量大,連續(xù)性和積累性強(qiáng);數(shù)

7、據(jù)結(jié)構(gòu)簡單, 記錄格式較為固定, 費(fèi)用低廉;檢索途經(jīng)多,速度快; 更新周期較長。4, 全文數(shù)據(jù)庫的特點(diǎn):可直接利用;簡化數(shù)據(jù)庫標(biāo)引 和建庫工作;避免了文獻(xiàn)二次加工中的人為差錯(cuò);后 處理能力強(qiáng)。5, 名詞解釋:1)電子信息源:指以數(shù)字化形式(即二進(jìn)制碼)將文 字、圖像、聲首、動(dòng)圓等存儲(chǔ)在光、磁等存儲(chǔ)介質(zhì)上,并能通過計(jì)算機(jī)、通信設(shè)備再現(xiàn)出來的信息資源。用于信息檢索的機(jī)讀數(shù)據(jù)庫和網(wǎng)絡(luò)信息源是目前2類最重要的電子信息源。2)書目數(shù)據(jù)庫:是一種專門存儲(chǔ)二次文獻(xiàn)信息的數(shù)據(jù) 集合,亦稱二次文獻(xiàn)數(shù)據(jù)庫,通常收錄有關(guān)主題領(lǐng)域 的各中書目信息,包括文摘、題錄、目錄等,以向用 戶提供文獻(xiàn)信息,指引用戶查找、使用原文

8、獻(xiàn),包括 文摘索引數(shù)據(jù)庫和圖書館目錄數(shù)據(jù)庫。3)文摘索引數(shù)據(jù)庫 主要是簡要地通報(bào)有關(guān)領(lǐng)域某一時(shí) 期發(fā)表的文獻(xiàn),供人們查閱與檢索。4)全文數(shù)據(jù)庫:是一種源數(shù)據(jù)庫,主要存儲(chǔ)文獻(xiàn)全文 或其中的主要部分。它可以包括題名、著者、摘要、關(guān)鍵詞、正文、參考文獻(xiàn)和著作日期在內(nèi)的數(shù)據(jù)全部 收入數(shù)據(jù)庫,供用戶查詢利用。5) 網(wǎng)絡(luò)信息資源:是指以電子數(shù)據(jù)的形式將文本、圖 像、聲首、動(dòng)圓等多種形式的信息存放在光磁等非印 刷型載體的介質(zhì)中,并通過網(wǎng)絡(luò)通信、計(jì)算機(jī)或終端等方式再現(xiàn)出來的電子信息源。6)機(jī)讀數(shù)據(jù)庫:為了制作檢索工具而輸入計(jì)算機(jī)中的 文獻(xiàn),進(jìn)行組織和排序。這些有序化的數(shù)據(jù)經(jīng)過日積 月累就形成了機(jī)讀數(shù)據(jù)庫。7)

9、 圖書館書目數(shù)據(jù)庫:又稱“機(jī)讀目錄”。機(jī)讀目錄 主要報(bào)道和存儲(chǔ)特定圖書館實(shí)際收藏的各種文獻(xiàn)資料 的書目信息和存儲(chǔ)地址。既是圖書館業(yè)務(wù)部門的業(yè)務(wù) 管理工具也是一般用戶查找圖書館館藏資料的工具。8)OPAC 檢索系統(tǒng):全稱為 online public accesscatalogue system即公共聯(lián)機(jī)書目查詢系統(tǒng),是利用計(jì)算機(jī)終端來查詢基于圖書館局域內(nèi)的館藏?cái)?shù)據(jù)資源的 一種檢索方式,即通過聯(lián)機(jī)查詢?yōu)橛脩籼峁^藏文獻(xiàn)的線索。第三章信息檢索系統(tǒng)1, 一個(gè)通用信息檢索系統(tǒng)的基本結(jié)構(gòu)如何?它主要有 那些主要模塊構(gòu)成? ( 2大功能6個(gè)模塊)P412大功能:信息存儲(chǔ)、信息查詢6個(gè)模塊:信息采集、信息標(biāo)

10、引、創(chuàng)建與更新數(shù)據(jù)庫、 用戶界面、提問處理與檢索匹配、知識(shí)組織工具。以中間的虛點(diǎn)豎線為界,信息檢索處理過程被分解為 信息存儲(chǔ)和信息查詢兩個(gè)部分,其中,信息存儲(chǔ)部分 包括信息采集,信息標(biāo)引處理,創(chuàng)建與跟新數(shù)據(jù)庫及 索引文檔等多個(gè)處理模塊,這樣最終就以數(shù)據(jù)庫的形 式完成了信息的收集、加工(標(biāo)引)和存儲(chǔ)任務(wù);信 息查詢部分則通過用戶界面,提問處理,檢索匹配等 一系列功能模塊的配合,以人機(jī)對話方式完成用戶對 系統(tǒng)的訪問和信息查詢的功能;而中間的知識(shí)組織工 具模塊,則同時(shí)與信息存儲(chǔ)和信息查詢的多個(gè)模塊相 關(guān)聯(lián),以便它們之間建立一種溝通和協(xié)調(diào),進(jìn)而使全 部功能模塊相互聯(lián)系形成一個(gè)有機(jī)的整體。2, 什么是標(biāo)

11、引深度和標(biāo)引的專指度?標(biāo)引深度:又稱標(biāo)引的網(wǎng)羅度,是衡量標(biāo)引詳盡性的 指標(biāo),其含義是標(biāo)引詞對數(shù)據(jù)庫每條記錄各方面內(nèi)容 表達(dá)和識(shí)別的詳盡程度。標(biāo)引的專指度:是用于衡量標(biāo)引詞對信息記錄特定內(nèi) 容描述的精細(xì)程度。3, 什么是自動(dòng)標(biāo)引? 自動(dòng)標(biāo)引:通過利用計(jì)算機(jī)對標(biāo)引特征的出現(xiàn)頻率、出現(xiàn)位置、提問頻率等進(jìn)行統(tǒng) 計(jì),進(jìn)而采用一定的加權(quán)策略來實(shí)現(xiàn),主要分為自動(dòng) 抽詞標(biāo)識(shí)和自動(dòng)賦詞標(biāo)識(shí)。自動(dòng)抽詞標(biāo)引: 是指利用計(jì)算機(jī)直接從文獻(xiàn)的題名、文摘或正文中抽取關(guān)鍵詞 來標(biāo)識(shí)文獻(xiàn)內(nèi)容,并自動(dòng)生成關(guān)鍵詞索引文檔(或倒排文檔)。自動(dòng)賦詞標(biāo)引:讓計(jì)算機(jī)模仿標(biāo)引員的賦詞 標(biāo)引方法,通過分析文獻(xiàn)內(nèi)容,從詞表中選取與文獻(xiàn) 主題相符

12、或密切相關(guān)的詞語符號做索引詞。4, 何謂文檔?主文檔與倒排文檔。 文檔是按一定結(jié)構(gòu) 組織的若干邏輯記錄構(gòu)成的信息集合。是數(shù)據(jù)庫數(shù)據(jù) 組織的基本形式,作為一個(gè)處理單位存儲(chǔ)在介質(zhì)上; 分為主文檔(順序文檔)和倒排文檔,隨機(jī)文檔。順序文檔:是文檔在計(jì)算機(jī)存儲(chǔ)器中的一種存放形式, 文檔中的全部記錄按順序一個(gè)接一個(gè)地存放,記錄的 物理位置通常按照存取號由小到大排列,記錄之間的 邏輯順序與物理順序一致。倒排文檔:是把數(shù)據(jù)庫檢索中的一切可檢索字段或?qū)?性值(主題詞、著作名、自由詞、出版年)抽出來, 作為索引標(biāo)識(shí),按某種順序重新加以組織后得到的一 種文檔。5, 什么是精確匹配?什么是局部匹配?精確匹配:是指要

13、求結(jié)果記錄(標(biāo)識(shí))中包含的需求模式必須與提問式所表達(dá)的模式完全匹配,才能作為命中結(jié)果輸出。局部匹配:是指要求結(jié)果記錄(標(biāo)識(shí)) 中包含的需求模式與提問式所表達(dá)的模式部分匹配, 即為命中。6, 記錄:是作為一個(gè)單位來處理的有關(guān)數(shù)據(jù)的集合,是對某一實(shí)體的屬性進(jìn)行描述的結(jié)果。字段:是記錄的下級數(shù)據(jù)單位,用來描述實(shí)體的某一屬性7, 信息檢索系統(tǒng)的物理結(jié)構(gòu)有哪些優(yōu)缺點(diǎn)?1)集中式檢索系統(tǒng):是資源在空間上集中配置的系統(tǒng),單機(jī)檢索系統(tǒng)是典型的集中式系統(tǒng),它將軟件、數(shù)據(jù) 和主要外部設(shè)備集中在一套計(jì)算機(jī)系統(tǒng)之中。優(yōu)點(diǎn):信息資源集中,便于管理,資源利用率高;專業(yè)人員 相對集中,有利于發(fā)揮其作用。缺點(diǎn):維護(hù)代價(jià)大,系

14、統(tǒng)的安全性差,一旦主機(jī)出現(xiàn)故障,可能導(dǎo)致整個(gè) 系統(tǒng)的癱瘓。2)分布式檢索系統(tǒng):是指通過計(jì)算機(jī)網(wǎng)絡(luò)把分布在不同地點(diǎn)的計(jì)算機(jī)硬件、軟件、數(shù)據(jù)庫等設(shè)備和資源聯(lián) 系在一起,以服務(wù)于一個(gè)共同的系統(tǒng)目標(biāo)而實(shí)現(xiàn)的相 互通信、互操作的資源共享的系統(tǒng)。優(yōu)點(diǎn):可根據(jù)用戶應(yīng)用需求來配置資源,提高系統(tǒng)對用戶檢索需求和環(huán)境變化的應(yīng)變能力,且便于擴(kuò)展,具有較強(qiáng)的健壯 性,在網(wǎng)絡(luò)上某一節(jié)點(diǎn)的故障不會(huì)以其他節(jié)點(diǎn)系統(tǒng)的 工作。缺點(diǎn):越來越多的檢索系統(tǒng)尋求基于分布式協(xié) 作工作模式的檢索服務(wù)解決方案。第四章1, 截詞檢索主要有哪些類型?截詞檢索預(yù)防漏檢提高查全率的一種常用檢索技術(shù)。 作為一種后控制措施,目前大多數(shù)檢索都提供有截詞

15、檢索能力。截詞檢索有多種不同方式,按照截詞的位 置來分,截詞右有后截?cái)?、前截?cái)?、中截?cái)嗳N類型; 按照截?cái)嗟淖址麛?shù)量來分,可分為有限截?cái)?、無限截 斷兩種類型。例如:后截詞檢索:具有隱含的“邏輯 或”(OR)運(yùn)算特性2, 位置算符(nW)和(nN)的運(yùn)算含義分別是什么?(1) (nW)在檢索式中nw所連接的兩個(gè)檢索詞必須 在文本信息中按照前后順序緊挨著出現(xiàn),兩個(gè)檢索詞之間的相互距離不超過 n個(gè)單詞(或漢字)。(2) (nN)在檢索式中nN所連接的兩個(gè)檢索詞必須 在文本信息中緊挨著出現(xiàn),兩個(gè)檢索詞之間的相互距離不超過n個(gè)單詞(或漢字)4, 聚類檢索的基本算法思想是什么?實(shí)施過程:(1)文檔聚類(2

16、)聚類檢索,2個(gè)步驟,P71;聚類檢索的實(shí)施,首先要以系統(tǒng)中的文獻(xiàn)聚類處 理為基礎(chǔ)。而文獻(xiàn)聚類,則是指針對系統(tǒng)中的全部文 獻(xiàn)向量,使用一定的相似性(或相異性)度量指標(biāo)和 聚類方法,計(jì)算出文獻(xiàn)與文獻(xiàn)之間的相似度,并把相 似度較高的文獻(xiàn)聚集在一起, 形成一個(gè)個(gè)的文獻(xiàn)類目, 進(jìn)而生成文獻(xiàn)的聚類文檔(cluster file )。聚類檢索針 對文獻(xiàn)的聚類文檔進(jìn)行,只需在已經(jīng)確定的、與提問 向量最相關(guān)的文獻(xiàn)類目內(nèi)部進(jìn)行訪問匹配5, 目前常見的布爾檢索式的變換處理方法有哪些?有 何特點(diǎn)?常見的有逆波蘭變換法、準(zhǔn)波蘭變換法、范式變換法。 逆波蘭變換法:投入使用最早,影響最大主要的處理 思想是:先將檢索式(一

17、般為中綴表達(dá)形式)轉(zhuǎn)換成 等價(jià)的逆波蘭式(即后綴表達(dá)形式)然后將逆波蘭式翻譯成一組檢索指令。特點(diǎn):逆波蘭式的特點(diǎn)在于運(yùn)算對象順序不變,運(yùn)算符號位置反映運(yùn)算順序6目前有哪些連接輔助檢索技術(shù):鏈接技術(shù)、排序輸出、隨機(jī)聚類、去重合并。7.寫逆波蘭式1 ) A+B*C ABC*+2) (A+B)*(C+D)+E- AB+CD+*E+3) A+B*(C+D+E)+FABCDE+*+F+4) (A+B)*C+D*(E-F)-AB+C* DEF-*+第六章 信息檢索系統(tǒng)的用戶界面1 ,用戶檢索行為:指用戶為獲取所需信息,在與檢索系統(tǒng)交互過程中的一系列身體活動(dòng)和心理活動(dòng)。主要包括:檢索前提問式的構(gòu)造、重構(gòu)檢索

18、式、提問 式的長度、布爾算符的使用、短語的使用、截詞算符 及位置算符的使用、相關(guān)性反饋、檢索策略、檢索類 型、檢索問題的解決、檢索結(jié)果的評價(jià)、檢索周期、 由任務(wù)類型決定的檢索時(shí)間和檢索方式的選擇。2, 用戶友好信息檢索界面的體現(xiàn)方面是:能夠理解用 戶的查詢意圖;能夠適應(yīng)用戶的認(rèn)知和操作行為;能幫助用戶有效使用系統(tǒng);能迅速準(zhǔn)確地找到所需信息; 能夠以用戶最習(xí)慣或方便的方式向用戶提供結(jié)果信 息;無需太多的學(xué)習(xí)和訓(xùn)練。3, 用戶界面在信息檢索中有何功能:1) 幫助用戶理解和表達(dá)信息需求2) 幫助用戶構(gòu)造檢索式、擬定檢索策略3) 幫助用戶選擇有效的信息源4) 幫助用戶理解和控制檢索結(jié)果5) 幫助用戶跟

19、蹤檢索過程4, 按照人機(jī)交互方式劃分的檢索界面有哪些?1) 命令語言界面,是指以命令語言進(jìn)行人機(jī)交互的界 面。2) 表格填充與菜單選擇界面,是指通過用戶填充表格 或選擇菜單項(xiàng),與系統(tǒng)進(jìn)行交互,實(shí)施檢索過程。3) 直接操縱界面,可以替代命令式句法的方法。4) 自然語言界面,指通過自然語言實(shí)施人機(jī)交互的 形式,以自然語言交互為主要交互形式的界面即 為自然語言界面。第七章信息檢索的策略與步驟1, 用戶信息需求的層次?米扎羅在論述信息檢索的相關(guān)性問題時(shí),提出用戶的 信息需求可以分成四個(gè)層次:1) 是用戶潛在的真實(shí)的信息需求;2) 是用戶意識(shí)到或感知到的信息需求;3) 是用戶表達(dá)出的信息需求;4) 是當(dāng)

20、用戶進(jìn)入某信息檢索系統(tǒng)進(jìn)行具體的查詢操 作時(shí),把已經(jīng)用自然語言表達(dá)出的信息請求轉(zhuǎn)換成符 合檢索系統(tǒng)語法要求的提問式。2, 檢索策略:為實(shí)現(xiàn)檢索目標(biāo)而制定的全盤計(jì)劃和 方案,是對整個(gè)檢索過程的謀劃和指導(dǎo)。3, 常用計(jì)算機(jī)信息檢索策略有哪些?3個(gè):(1)積 木型(build-block)策略一查全率:把用戶的檢索請求 或檢索課題剖析成若干個(gè)不同的概念面,先分別對這幾個(gè)概念面進(jìn)行檢索,并在每個(gè)概念面中盡可能全和 多地列舉相關(guān)詞、同義詞、近義詞,并用布爾算符“OR' 連接成子檢索式,然后再用布爾算符“AND”把所有子檢索式連接起來,構(gòu)成一個(gè)總檢索式。(2) 引文珠形增長(citation pe

21、ar-growing)策略一查 準(zhǔn)率:從已知的關(guān)于檢索問題的少數(shù)幾個(gè)專指詞開始 檢索,以便至少檢出一篇命中文獻(xiàn)或一條相關(guān)信息,然后審閱這批文獻(xiàn)或信息條目,從中選出一些新的相 關(guān)檢索詞,補(bǔ)充到檢索式中去。(3) 逐次分£留(successivefractions)策略:先確定一 個(gè)相當(dāng)大的、范圍較廣的檢索初始對象集合,然后提 高檢索的專指度,得到一個(gè)較小的命中結(jié)果集合;繼 續(xù)提高檢索式的專指度,一步一步縮小命中結(jié)果集合, 知道得到數(shù)量適宜、用戶滿意的結(jié)果為止。4, 受控詞匯的選擇及優(yōu)點(diǎn):受控詞匯:是一種經(jīng)過檢索系統(tǒng)規(guī)范化處理的檢索詞 匯,它們一般取自標(biāo)題表、敘詞表、分類表等詞匯工 具。

22、優(yōu)點(diǎn):(1)容易準(zhǔn)確地選擇寬度適當(dāng)?shù)臋z索詞, 能全面理解該檢索詞所代表的概念以及和其他檢索詞 所代表的概念之間的關(guān)系,便于調(diào)節(jié)檢索范圍;(2) 使用受控檢索詞進(jìn)行檢索時(shí),檢索者的智力負(fù)擔(dān) 比較小,容易獲得較理想的檢索結(jié)果。5,如何使用擴(kuò)檢?查全率、 查準(zhǔn)率提高方法,怎么做?1) 一般來說,對于需要較高 查全率的檢索課題,可以 從擴(kuò)檢入手,檢索式的調(diào)整可以選用以下方法:(1)降低檢索詞的專指度;(2)擴(kuò)大檢索式的網(wǎng)羅度;(3) 實(shí)施族性檢索;(4)進(jìn)行截詞檢索;(5)取消某 些限制過嚴(yán)的檢索條件。2) 對于需要較高 查準(zhǔn)率的檢索課題,一般可以在一定 查全率的基礎(chǔ)上進(jìn)行 縮檢,可以使用的方法有:(

23、1)提高檢索式的專指度;(2)用AND連接一些進(jìn) 一步限定主題概念的相關(guān)檢索項(xiàng); (3)進(jìn)行字段限制 檢索,或用位置算符控制檢索詞的順序與出現(xiàn)位置;(4) 利用NOT限制,排除不相關(guān)的;(5)對檢索結(jié) 果的外部特征進(jìn)行限制;(6)進(jìn)行二次檢索或后處理 檢索結(jié)果。6, 名詞解釋1) 檢索式:計(jì)算機(jī)信息檢索中用來表示用戶檢索提 問的邏輯表達(dá)式,一般由檢索詞和各種布爾邏輯 符、位置算符、截詞符以及系統(tǒng)規(guī)定的其他組配 連接符號組成。2) 檢索詞:表達(dá)信息需求和檢索課題內(nèi)容的基本單 元,與系統(tǒng)中有關(guān)數(shù)據(jù)庫進(jìn)行匹配運(yùn)算的基本單 元,是構(gòu)造檢索式的物質(zhì)基礎(chǔ)。第八章常用信息檢索系統(tǒng)及其使用(一)1 , ISI

24、弓I文索引數(shù)據(jù)庫收錄科學(xué)期刊的標(biāo)準(zhǔn)有哪些?影響因子、即年指標(biāo)(1)影響因子:指期刊所載論文的平均被引率,等于該刊給定時(shí)期內(nèi)的總被引量與可引文獻(xiàn)量之比。具體 的算法是:該年引用該刊前兩年論文的總數(shù)除以前兩 年所發(fā)論文總數(shù)。(2)即年指標(biāo):指當(dāng)年發(fā)表的論文當(dāng)年被引的次數(shù), 是評價(jià)期刊論文被利用速度的指標(biāo)。2,何謂JCR它的主要功能是什么?JCR( Journal Citation Reports)全稱為期刊引用報(bào)告服 務(wù),是一個(gè)獨(dú)特的綜合性、多學(xué)科期刊統(tǒng)計(jì)報(bào)告,它 以期刊論文間的引證關(guān)系為基點(diǎn),以年為單位,系統(tǒng)、客觀地統(tǒng)計(jì)ISI數(shù)據(jù)庫收錄期刊當(dāng)年所載論文的數(shù)量、 論文的引用文獻(xiàn)數(shù)量、論文被引用次數(shù)

25、等原始數(shù)據(jù), 進(jìn)而計(jì)算出期刊的影響因子、即年指數(shù)、被引半衰期 等反映期刊質(zhì)量的定量指標(biāo);是科學(xué)家和圖書情報(bào)部 門選擇特定學(xué)科領(lǐng)域核心期刊的重要參考依據(jù),是期 刊學(xué)術(shù)質(zhì)量評價(jià)的重要統(tǒng)計(jì)依據(jù)。第十章,網(wǎng)絡(luò)信息的組織與檢索1, 搜索引擎的基本結(jié)構(gòu)如何?(1) 數(shù)據(jù)采集:負(fù)責(zé)按照一定的方式和要求對網(wǎng)絡(luò)上的WWW站點(diǎn)等資源進(jìn)行搜集, 并將搜集的 WWW網(wǎng) 頁信息經(jīng)過網(wǎng)絡(luò)傳輸,存儲(chǔ)到搜索引擎的搜索端數(shù)據(jù) 庫中。(2) 數(shù)據(jù)分析:負(fù)責(zé)對收集到的網(wǎng)頁信息進(jìn)行分析, 按照特定的算法,從中提取有檢索或查詢價(jià)值的內(nèi)容(網(wǎng)頁關(guān)鍵詞、網(wǎng)頁的分類類別、被其他網(wǎng)頁鏈接次 數(shù)等)。(3) 數(shù)據(jù)組織:負(fù)責(zé)形成規(guī)范的索引數(shù)據(jù)庫或

26、便于瀏 覽的層次型分類目錄結(jié)構(gòu)。(4) 數(shù)據(jù)檢索:負(fù)責(zé)幫助用戶一定的檢索方式來檢索 索引數(shù)據(jù)庫或?yàn)g覽分類目錄結(jié)構(gòu),以獲取用戶所需的 信息。(5) 信息挖掘:負(fù)責(zé)提取用戶相關(guān)信息,以利用這些信息來提高檢索服務(wù)的質(zhì)量。如根據(jù)用戶以前檢索行 為的學(xué)習(xí)統(tǒng)計(jì)及其登記的信息,可以實(shí)現(xiàn)個(gè)性化檢索。2, 網(wǎng)絡(luò)搜索程序的遍歷策略有哪些?深度優(yōu)先、 寬度 優(yōu)先(簡答)(1) IP地址搜索策略。(2) 深度優(yōu)先搜索策略:它的目的是要到達(dá)被搜索結(jié) 構(gòu)的葉節(jié)點(diǎn),在一個(gè) HTML文件中,當(dāng)一個(gè)超鏈接被 選擇后,被鏈接的 HTML文件將執(zhí)行深度優(yōu)先搜索, 即在搜索其余的超鏈接結(jié)果之前必須先完整地搜索單 獨(dú)的一條鏈。(3)

27、寬度優(yōu)先搜索策略:是當(dāng)前大多數(shù) Robert采用 的便利策略,因?yàn)樗菀讓?shí)現(xiàn),而且具備大多數(shù)所期 望的功能。(4)深度一寬度結(jié)合搜索策略。(5)啟發(fā)式搜索策略。3, 元搜索引擎的基本結(jié)構(gòu)如何?P195 它的基本原理是調(diào)用各獨(dú)立搜索引擎進(jìn)行檢索,并提 供統(tǒng)一的用戶界面和結(jié)果輸出,因此,可將其按照功 能分為三大部分:用戶接口、查詢代表和結(jié)果匯總。1)用戶接口 :是用戶瀏覽器與元搜索引擎交互的界面。 元搜索引擎采用統(tǒng)一的檢索界面,供用戶輸入查詢請 求,將檢索請求分發(fā)給各成員搜索引擎,完成查詢請 求轉(zhuǎn)換,分別生成適用于不同獨(dú)立搜索引擎的特定查 詢語言。2) 查詢代理:負(fù)責(zé)元搜索引擎和相應(yīng)的獨(dú)立搜索引 擎的交互,以獲得用戶需要的查詢結(jié)果。3) 匯總輸出

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論