




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、6.1 信息檢索技術(shù)n6.1.1 檢索模型概述n6.1.2 布爾模型n6.1.3 向量空間模型n6.1.4 概率模型n6.1.5 全文檢索n6.1.6 語義檢索6.1 信息檢索技術(shù)(續(xù))n6.1.7 超文本模型n6.1.8 多媒體檢索n6.1.9 跨語言檢索n6.1.10分布式檢索n6.1.11 P2P檢索n6.1.12 網(wǎng)格信息檢索信息檢索過程n信息檢索過程實(shí)際上涉及到三個(gè)重要的處理:n文檔集的邏輯表示n查詢的表示n相似匹配及其排序n對(duì)上述因素和檢索過程建模(抽象描述),產(chǎn)生各種不同的信息檢索模型圖6-1 信息檢索系統(tǒng)的一般模型表達(dá)式構(gòu)造表達(dá)式構(gòu)造標(biāo)引標(biāo)引信息資源信息資源信息資源信息資源替代
2、替代物物需求替代物需求替代物用戶需求用戶需求檢索結(jié)果檢索結(jié)果相關(guān)性判斷相關(guān)性判斷6.1.2 布爾模型n布爾檢索模型的理論基礎(chǔ)是布爾邏輯和集合理論6.1.2 布爾模型n布爾邏輯主要內(nèi)容:命題邏輯與謂詞邏輯n布爾邏輯是數(shù)理邏輯的基礎(chǔ)部分n利用符號(hào)來表示邏輯中的各種概念n建立了一系列的運(yùn)算法則,利用代數(shù)的方法研究邏輯問題布爾運(yùn)算n布爾邏輯運(yùn)算符:n“與(AND)”、“或(OR)”、“非(NOT)”運(yùn)算的定義 傳統(tǒng)布爾檢索模型 n文獻(xiàn)表示n將文檔表示成一個(gè)集合,集合中的每個(gè)元素都為一個(gè)二元變量,取值非“0”即“1”,表示該元素所代表的主題詞是否包含在該篇文檔之內(nèi)。若包括在文檔中,則元素取值為1,反之則
3、取0。 n給定一個(gè)文獻(xiàn)集合D,包含m篇文獻(xiàn),分別用d1,d2,d3dm表示。再給出一個(gè)標(biāo)引詞集合T,包含n個(gè)標(biāo)引詞t1,t2,tn。假定對(duì)文獻(xiàn)集D的描述完全是基于該標(biāo)引詞集合的,則文獻(xiàn)集D中任意一篇文獻(xiàn)di就可以表示為(di1,di2,din) 傳統(tǒng)布爾檢索模型 n查詢表示 n在布爾檢索系統(tǒng)中,根據(jù)用戶提出的檢索需求,選取適當(dāng)?shù)臋z索標(biāo)識(shí),與布爾運(yùn)算符“與”、“或”、“非”共同構(gòu)成與查詢相符的檢索提問式,也即相應(yīng)的布爾表達(dá)式n例如 :n1) “飛碟”n2) “飛碟”AND “美國(guó)”n3) “飛碟”AND (“中國(guó)” OR (NOT “科幻小說”)傳統(tǒng)布爾檢索模型 n查詢表示 n布爾提問式q =
4、t1 and(t2 or not t3) nq的主析取范式 (t1 and t2 and t3)or(t1 and t2 and not t3)or(t1 and not t2 and not t3) nq的簡(jiǎn)化形式qdnf (1,1,1) or (1,1,0) or (1,0,0),其中,(1,1,1)、(1,1,0)和(1,0,0)是qdnf的3個(gè)合取子項(xiàng)(合取子項(xiàng)可用符號(hào)qcc表示) 傳統(tǒng)布爾檢索模型 n匹配函數(shù)n菊池敏典算法 傳統(tǒng)布爾檢索模型 n文獻(xiàn)D1=(t1 ,t2 ,not t3)n查詢Q=t1 and t2 and not t3布爾檢索示例布爾檢索示例傳統(tǒng)布爾查詢的評(píng)價(jià) n該模
5、型結(jié)構(gòu)簡(jiǎn)單、容易實(shí)現(xiàn)和快速檢索。傳統(tǒng)布爾查詢的評(píng)價(jià) n布爾模型在檢索系統(tǒng)的開發(fā)與應(yīng)用中表現(xiàn)出的主要問題有:n(1)準(zhǔn)確匹配(exact matching)策略問題。布爾模型采用準(zhǔn)確匹配策略,對(duì)檢索過程中客觀存在的一些不確定性情形絕對(duì)排斥,認(rèn)為一篇文獻(xiàn)對(duì)于某一提問要么是“相關(guān)的”,要么是“不相關(guān)的”。這種“非此即彼”的二值判斷標(biāo)準(zhǔn)嚴(yán)重影響到檢索系統(tǒng)的性能改善,并帶來其他一些相關(guān)問題。n(2)布爾邏輯表達(dá)用戶需求的能力問題。把用戶的一個(gè)信息需求轉(zhuǎn)換成一個(gè)恰當(dāng)?shù)牟紶柋磉_(dá)式,在很多情況下并不容易實(shí)現(xiàn)。傳統(tǒng)布爾查詢的評(píng)價(jià) n為了彌補(bǔ)這些缺陷,發(fā)展了一些別的檢索模型,如向量空間、擴(kuò)展布爾、概率檢索和聚類模
6、型。6.1.3 向量空間模型n向量空間模型(Vector space model)介紹n向量空間模型(VSM)的評(píng)價(jià)向量空間模型介紹n1. 文獻(xiàn)空間n(1)文獻(xiàn)空間的概念n文獻(xiàn)集合中的任一文獻(xiàn)都可以表示為這個(gè)多維空間中的一個(gè)向量,這個(gè)空間就稱為“文獻(xiàn)空間”n在一個(gè)文獻(xiàn)空間內(nèi),用向量D1來代表某一文獻(xiàn),則該向量在這個(gè)文獻(xiàn)空間各個(gè)軸上的分量就是相應(yīng)的表述該文獻(xiàn)的各個(gè)項(xiàng)的權(quán)重n文獻(xiàn)與空間點(diǎn)n(2)標(biāo)引詞空間向量空間模型介紹T2T3T1D1=d11,d12, d13 D2= d21,d22, d23 D3= d31,d32, d33 圖圖 三維文獻(xiàn)空間三維文獻(xiàn)空間向量空間模型介紹n2. 項(xiàng)權(quán)重 n(1
7、)詞頻 n越重要的項(xiàng)分配越高的權(quán)值n可以用詞頻來作為該項(xiàng)的權(quán)重(用tf表示) n(2)文獻(xiàn)頻率 n假設(shè)存在一個(gè)文獻(xiàn)集合,其中大部分的文獻(xiàn)都包含了某一項(xiàng),則說明該項(xiàng)對(duì)某一主題的專指度較差,可能就不太重要 n在設(shè)計(jì)項(xiàng)權(quán)重時(shí),要考慮逆文獻(xiàn)頻率 (用idf表示) 向量空間模型介紹n2. 項(xiàng)權(quán)重 n(3)權(quán)重的規(guī)范化處理 n為了抵消由篇幅帶來的不同影響,經(jīng)常要對(duì)項(xiàng)權(quán)重進(jìn)行規(guī)范化處理n在各種規(guī)范化方法中,余弦規(guī)范是一種常用、有效的方法:tfidf權(quán)重/文獻(xiàn)向量的歐氏長(zhǎng)度 向量空間模型介紹n3.文獻(xiàn)向量與查詢向量的匹配 n匹配函數(shù)n利用向量的內(nèi)積運(yùn)算,得到文獻(xiàn)向量Di與查詢向量q之間的相似度 nSim(Di
8、,q)=Diqn簡(jiǎn)單n存在的一個(gè)主要的不足是它忽略了項(xiàng)之間存在一些相互聯(lián)系的事實(shí)。通常,需要引入一些特別的方法來改進(jìn)這個(gè)相似度計(jì)算公式,使得其能夠考慮到項(xiàng)的相互聯(lián)系這一重要因素相似度的計(jì)算n內(nèi)積相似度運(yùn)算n余弦相似度n“距離”相似度運(yùn)算n等等NiiDTQTiDQSim1),(22),(iiiiQTQTDTQTDQSimppttpddDDL12121|),(向量空間模型的評(píng)價(jià)v 優(yōu)點(diǎn)v 簡(jiǎn)單,功能卻非常強(qiáng)大v能將非結(jié)構(gòu)化的文獻(xiàn)表示成向量的形式,使得各種數(shù)學(xué)處理成為可能 v模型的檢索效果和布爾檢索模型比起來,要好得多 v 不足v 忽略項(xiàng)之間存在的相互聯(lián)系,必然使得檢索效果產(chǎn)生極大的偏差 v 傳統(tǒng)向
9、量處理模型不能處理布爾表達(dá)等結(jié)構(gòu)化查詢v 改進(jìn)v 廣義向量空間模型(GVSM)、潛在語義標(biāo)引(LSI)、概率向量處理模型以及基于語義分析的向量空間模型(SVSM) 6.1.4 概率模型概率模型n概率論模型主要基于概率論原理來理解和解決信息檢索問題n主要有早期的經(jīng)典概率模型(又稱為二值獨(dú)立檢索模型,英文簡(jiǎn)稱BIR)n基于貝葉斯網(wǎng)絡(luò)的推理網(wǎng)絡(luò)模型和信念網(wǎng)絡(luò)模型等nINQUERY檢索系統(tǒng)是基于概率模型的代表6.1.4 概率模型概率模型n基本思路:n給定一個(gè)用戶提問,則檢索系統(tǒng)中存在著一個(gè)與該提問相關(guān)的理想命中結(jié)果集合R(該集合只包括與查詢完全相關(guān)的文檔而不包括其他不相關(guān)的文檔)n在用戶提出檢索要求時(shí)
10、,檢索系統(tǒng)并不知道這個(gè)理想結(jié)果集合的特性n在檢索開始之時(shí)就需要對(duì)R的特性進(jìn)行某種猜測(cè)n根據(jù)初始的猜測(cè),檢索系統(tǒng)檢索到一個(gè)初步的命中結(jié)果集合n基于相關(guān)反饋的原理,需要進(jìn)行一個(gè)逐步求精的過程 6.1.4 概率模型概率模型檢索問題轉(zhuǎn)化為求條件概率問題If Prob(R|di, q) Prob(NR|di, q) then di是檢索結(jié)果,否則不是檢索結(jié)果6.1.5 全文檢索全文檢索 n直接在全文中進(jìn)行匹配檢索n獲得的也是全文信息而非文獻(xiàn)線索 n全文檢索技術(shù)以其較高的查準(zhǔn)率和查全率被廣泛應(yīng)用于網(wǎng)絡(luò)信息的檢索中 n全文檢索還提供位置檢索功能6.1.5 全文檢索全文檢索 n全文檢索模型中信息資源的邏輯表示
11、n全文索引 n目前常見的全文檢索模型主要有n倒排表、署名文件、位圖、Pat樹和Pat數(shù)組等模型n從中文語言特點(diǎn)出發(fā)提出的互關(guān)聯(lián)后繼樹模型等6.1.5 全文檢索全文檢索 n基于單漢字的全文索引n索引倒排結(jié)構(gòu) 單漢字(主鍵字)記錄號(hào)段落號(hào)位置號(hào)單漢字(主鍵字)記錄數(shù)記錄號(hào)1該記錄位置集合記錄號(hào)1該記錄位置集合 6.1.5 全文檢索全文檢索n以倒排表模型為基礎(chǔ)的全文檢索有檢索速度快,與原文無關(guān)的特點(diǎn)n其缺點(diǎn)主要包括兩個(gè)方面:n首先,空間和時(shí)間效率低;n其次,當(dāng)文本集合不斷變化時(shí),需要不斷重建全文索引n第一個(gè)問題通常采用壓縮技術(shù)和更加高效的編碼策略加以解決6.1.5 全文檢索全文檢索n全文檢索模型中的
12、查詢表示n通常采用布爾模型的查詢表示方式6.1.5 全文檢索全文檢索n全文檢索模型中的匹配方式n檢索的匹配算法一般是根據(jù)索引結(jié)構(gòu)而研制的n檢索速度取決于匹配算法,一個(gè)優(yōu)秀的全文檢索算法,在百兆級(jí)的數(shù)據(jù)庫中,檢索速度應(yīng)該在秒級(jí)水平,否則,不能算是一個(gè)好的全文檢索算法nLucene6.1.5 全文檢索全文檢索n全文檢索技術(shù)指標(biāo)n基本指標(biāo)有:查全率、查準(zhǔn)率、檢索速度、索引膨脹率等n索引的膨脹系數(shù)是指針對(duì)全文所建的索引文件大小與全文文件大小之比,其中索引文件的大小取決于索引的結(jié)構(gòu)n沒有為全文創(chuàng)建索引的全文檢索系統(tǒng),其膨脹系數(shù)為06.1.6 語義檢索語義檢索n基于關(guān)鍵詞匹配的傳統(tǒng)文本信息檢索技術(shù)對(duì)語義匹
13、配的支持能力較差,其性能取決于用戶對(duì)方法的理解,具有很大的局限性n盡管基于關(guān)鍵詞匹配的檢索技術(shù)已經(jīng)經(jīng)過多次改進(jìn),但是由于沒有添加語義處理方面的功能,檢索性能沒有得到本質(zhì)的改善,那些沒有被文字直接表述出來但隱含在文本內(nèi)容中的一些重要的信息無法被檢索n語義檢索是對(duì)檢索條件、信息組織以及檢索結(jié)果顯式賦予了一定語義成分的一種新的檢索方式n與傳統(tǒng)關(guān)鍵詞檢索相比,它更加強(qiáng)調(diào)語義,其性能明顯改善圖圖6-3 基于本體的文本信息檢基于本體的文本信息檢索系統(tǒng)的一般模型索系統(tǒng)的一般模型 實(shí)體關(guān)系標(biāo)引實(shí)體關(guān)系標(biāo)引指導(dǎo)主題標(biāo)引指導(dǎo)主題標(biāo)引指導(dǎo)查詢表達(dá)式的構(gòu)造本體指導(dǎo)查詢表達(dá)式的構(gòu)造本體表達(dá)式構(gòu)造表達(dá)式構(gòu)造主題標(biāo)引主題標(biāo)
14、引文檔文檔帶所屬領(lǐng)域標(biāo)帶所屬領(lǐng)域標(biāo)識(shí)的標(biāo)引詞序識(shí)的標(biāo)引詞序列列查詢表達(dá)式查詢表達(dá)式檢索結(jié)果檢索結(jié)果相關(guān)性判斷相關(guān)性判斷領(lǐng)域概念關(guān)系本體集領(lǐng)域概念關(guān)系本體集指導(dǎo)實(shí)體關(guān)系標(biāo)引指導(dǎo)實(shí)體關(guān)系標(biāo)引指導(dǎo)查詢本體的構(gòu)造本體指導(dǎo)查詢本體的構(gòu)造本體領(lǐng)域?qū)嶓w關(guān)系本體集領(lǐng)域?qū)嶓w關(guān)系本體集實(shí)體關(guān)系本體實(shí)體關(guān)系本體相關(guān)性匹配相關(guān)性匹配用戶需用戶需求求查詢本體查詢本體指導(dǎo)實(shí)體關(guān)系標(biāo)引指導(dǎo)實(shí)體關(guān)系標(biāo)引查詢本體構(gòu)造查詢本體構(gòu)造6.1.7 超文本模型超文本模型n所謂超文本,既是一種信息的組織形式,也是一種信息檢索技術(shù)n超文本不是單純以線性方式存儲(chǔ)文本,而是附加了一種非線性結(jié)構(gòu)來組織信息,即在文本中設(shè)置若干超級(jí)鏈接(簡(jiǎn)稱超鏈)指
15、向相關(guān)位置,以確保在順序閱讀文獻(xiàn)的同時(shí),還可以順著超級(jí)鏈接的指引“跳躍”閱讀信息n超文本組織強(qiáng)調(diào)了信息與對(duì)象之間的聯(lián)系關(guān)系,符合人們聯(lián)想式閱讀和思維習(xí)慣 6.1.7 超文本模型超文本模型n超文本技術(shù)的優(yōu)點(diǎn)n1)非線性的組織結(jié)構(gòu)n2)以信息單元為檢索對(duì)象n3)體現(xiàn)了信息層次關(guān)系n4)交互更加友好n5)信息內(nèi)容豐富多樣n6)避免了檢索語言的復(fù)雜性6.1.7 超文本模型超文本模型n超文本技術(shù)的缺陷n1)偶然發(fā)現(xiàn) n2)失控 n3)迷航6.1.8 多媒體檢索多媒體檢索 n多媒體信息的檢索主要是研究如何快速有效地獲取多媒體信息所涉及的相關(guān)技術(shù),它包括多媒體信息的壓縮、組織、檢索和展示等n由于多媒體信息與
16、文本信息的組織方式和表現(xiàn)形式完全不同,所涉及的檢索技術(shù)也存在著較大差異 6.1.8 多媒體檢索多媒體檢索 n基于文本的多媒體信息檢索方法是多媒體信息檢索最常用的方法 n基于內(nèi)容的多媒體信息檢索方法是一種新型的檢索技術(shù),它融合了圖像理解、模式識(shí)別、計(jì)算機(jī)視覺等技術(shù),直接根據(jù)描述媒體對(duì)象內(nèi)容的各種特征進(jìn)行檢索,從數(shù)據(jù)庫中查找到具有指定特征或含有特定內(nèi)容的聲音、圖像、視頻等對(duì)象 6.1.9 跨語言檢索 n跨語言信息檢索是指用戶以一種語言提問,檢出另一種語言或多種語言描述的相關(guān)信息n跨語言信息檢索的主要實(shí)現(xiàn)方法有:提問式翻譯法、文獻(xiàn)翻譯法、提問式文獻(xiàn)翻譯法、中間翻譯法、不翻譯法、提問式構(gòu)造法和音譯法等
17、方法6.1.10分布式檢索分布式檢索n分布式信息檢索主要是指在分布式的環(huán)境中,利用分布式計(jì)算和移動(dòng)代理等技術(shù)從大量的、異構(gòu)的信息資源中檢索出對(duì)用戶有用的信息的過程n這些信息資源在物理上分布于各地,在邏輯上是一個(gè)整體,在數(shù)據(jù)庫結(jié)構(gòu)上存在差異n分布式信息檢索主要有基于元搜索引擎、基于Z39.50、基于XML語言、基于Web服務(wù)等模式 6.1.11 P2P檢索檢索nP2P信息檢索的目的就是網(wǎng)絡(luò)中的任意節(jié)點(diǎn)都可以提交檢索的請(qǐng)求,然后這些檢索通過某種路由機(jī)制被路由到和檢索相關(guān)的節(jié)點(diǎn)上去,存儲(chǔ)有和該檢索相關(guān)信息的節(jié)點(diǎn)將會(huì)回應(yīng)請(qǐng)求,把本地相關(guān)的內(nèi)容以對(duì)等的形式直接傳送到請(qǐng)求節(jié)點(diǎn)上 n與傳統(tǒng)的客戶端服務(wù)器模式
18、相比,P2P模式具有明顯的優(yōu)點(diǎn):n資源利用率高;n節(jié)點(diǎn)越多網(wǎng)絡(luò)越穩(wěn)定,不存在瓶頸問題;n信息在對(duì)等節(jié)點(diǎn)間直接交換,高速及時(shí),降低中轉(zhuǎn)成本;n基于內(nèi)容的尋址方式處于一個(gè)更高的語義層6.1.12 網(wǎng)格信息檢索網(wǎng)格信息檢索n網(wǎng)格信息檢索的發(fā)展離不開傳統(tǒng)信息技術(shù)的支持,但是,必須對(duì)傳統(tǒng)信息技術(shù)進(jìn)行改進(jìn),才能使它們更好地適應(yīng)網(wǎng)格環(huán)境,為提高信息檢索系統(tǒng)的性能發(fā)揮重要的作用 圖6-5 科學(xué)數(shù)據(jù)網(wǎng)格系統(tǒng)結(jié)構(gòu)圖數(shù)據(jù)訪問服務(wù)接口數(shù)據(jù)訪問服務(wù)接口虛擬數(shù)據(jù)庫虛擬數(shù)據(jù)庫物理數(shù)據(jù)庫物理數(shù)據(jù)庫映射工具映射工具M(jìn)appingBuilderDataView基于信息檢索服務(wù)集成的信息檢索系統(tǒng) n目前已經(jīng)出現(xiàn)一些網(wǎng)格信息檢索研究
19、項(xiàng)目,其中比較有名的GridIR、GRACE、ARCO、Digital Library Grid、ChinaGrid、中國(guó)科學(xué)數(shù)據(jù)網(wǎng)格,等等n網(wǎng)格信息檢索系統(tǒng)的實(shí)現(xiàn)方式與網(wǎng)格體系結(jié)構(gòu)關(guān)系緊密,目前主要有OGSA、七層沙漏兩種網(wǎng)格體系結(jié)構(gòu)用于構(gòu)建網(wǎng)格信息檢索系統(tǒng) 6.2 信息檢索過程的優(yōu)化n6.2.1 標(biāo)引算法優(yōu)化n6.2.2 查詢表達(dá)式優(yōu)化n6.2.3 檢索結(jié)果的組織n6.2.4 檢索可視化n6.2.5 個(gè)性化信息檢索說明n對(duì)于信息資源的邏輯表示、查詢表達(dá)式而言,改善其中的一個(gè)或多個(gè)就可以在一定程度上改善信息檢索系統(tǒng)的性能n對(duì)檢索結(jié)果進(jìn)行有效排序或者重新組織,也可以改善信息檢索系統(tǒng)的性能 6.
20、2.1 標(biāo)引算法優(yōu)化n加權(quán)標(biāo)引n多種標(biāo)引方法的集成n深層語言知識(shí)的運(yùn)用n本體技術(shù)的運(yùn)用6.2.2 查詢表達(dá)式優(yōu)化n查詢表述不準(zhǔn)確的原因 n1)在很多情況下,用戶真實(shí)的信息需求并不明確,感知到的信息需求、以及表達(dá)出來的信息需求可能與自己真實(shí)的信息需求有一定的偏差;n2)在缺少上下文的情況下經(jīng)常會(huì)出現(xiàn)詞的歧義;n3)受自身的認(rèn)知水平、文化程度等方面的限制,用戶對(duì)檢索內(nèi)容所屬領(lǐng)域的主題詞或概念不熟悉,無法想到一組合適的檢索詞來表達(dá)自己的信息需求;n4)關(guān)鍵詞式Web 信息檢索系統(tǒng)提供的是全文檢索,而不是主題檢索;n5)用戶選擇的主題范圍過寬導(dǎo)致檢索結(jié)果過多,選擇的主題范圍過窄導(dǎo)致檢索結(jié)果過少,等等。
21、6.2.2 查詢表達(dá)式優(yōu)化n查詢表述的修正n查詢擴(kuò)展(query expansion)、相關(guān)反饋(relevance feedback)、查詢修正(query modification)是最主要的幾類方法,它們之間具有密切的聯(lián)系n檢索詞賦權(quán) n查詢修正包括查詢擴(kuò)展,是指用一組新的檢索詞替換原有查詢表達(dá)式中的部分檢索詞,產(chǎn)生新的查詢表達(dá)式,試圖使新的查詢表達(dá)式能夠更加準(zhǔn)確地反映用戶真實(shí)的信息需求,達(dá)到在盡量保證查全率的前提下提高查準(zhǔn)率的目的 6.2.2 查詢表達(dá)式優(yōu)化n查詢修正用詞的來源n1)詞語語義關(guān)系網(wǎng)絡(luò),例如,包含上位詞、下位詞、同義詞、反義詞等多種相關(guān)詞的信息的詞表,概念關(guān)系網(wǎng)絡(luò),領(lǐng)域本
22、體。這些詞語關(guān)系網(wǎng)絡(luò)可以用于擴(kuò)大和縮小檢索的主題范圍,可以用于解決詞語歧義的問題,也可以幫助用戶確定檢索詞;n2)系統(tǒng)從用戶反饋的相關(guān)文檔集合中抽取出來的主題詞(或者關(guān)鍵詞)、姓名等各種命名實(shí)體(named entity)這些詞語用于取代檢索表達(dá)式中的部分檢索詞,其中主題詞用于限定檢索內(nèi)容的主題范圍,各種命名實(shí)體用于限定用戶感興趣的信息片段;n3)系統(tǒng)進(jìn)行全局分析所獲得的詞語共現(xiàn)關(guān)系網(wǎng)絡(luò),包括文檔用詞詞語共現(xiàn)關(guān)系網(wǎng)絡(luò)、查詢用詞詞語共現(xiàn)關(guān)系網(wǎng)絡(luò)兩種,主要用于縮小檢索結(jié)果集合,提高檢索結(jié)果的相關(guān)度。 6.2.2 查詢表達(dá)式優(yōu)化n查詢修正方案中的信息行為因素 n1)大多數(shù)人每次檢索只提交一個(gè)提問式,
23、不會(huì)修改提問進(jìn)行連續(xù)檢索,三分之二的人只提交一個(gè)提問式,七分之六的人不用兩個(gè)以上的提問式;n2)在被測(cè)試用戶的檢索提問式中,人均輸入的檢索詞為3.34個(gè),最多的為2個(gè),其次是3個(gè)和4個(gè),但用戶提問的平均長(zhǎng)度呈穩(wěn)步增長(zhǎng)之勢(shì);n3)檢索詞分布極不對(duì)稱,出現(xiàn)頻率在100次以上的63個(gè)主題詞只占全部檢索詞的萬分之三,有一半以上的詞僅僅出現(xiàn)過一次;n4)相關(guān)反饋很少被利用,只有較少的人會(huì)修改提問或用到相關(guān)反饋;n5)大多數(shù)用戶只查看返回結(jié)果的頭十條,平均查看結(jié)果的數(shù)量是2.35 頁(每頁有十個(gè)記錄),等等。6.2.3 檢索結(jié)果的組織 n提煉輸出內(nèi)容n利用多文檔文摘技術(shù)提煉檢索結(jié)果的內(nèi)容,可以減少用戶的閱
24、讀量,提高相關(guān)性判斷的效率 n檢索結(jié)果排序n檢索結(jié)果聚類 6.4.4 檢索可視化檢索可視化n在信息檢索系統(tǒng)中合理地使用可視信息會(huì)進(jìn)一步提高信息檢索系統(tǒng)的整體性能 n1)信息資源可視化 n2)查詢可視化n查詢可視化是對(duì)查詢擴(kuò)展、翻譯的可視化展現(xiàn)n3)查詢結(jié)果可視化n查詢結(jié)果的可視化分為兩個(gè)層次:文檔集合可視化和單個(gè)文檔可視化n4)查詢反饋可視化 n5)信息檢索可視化模型 信息檢索的可視化n可視化信息檢索是把文獻(xiàn)信息、用戶提問、各類檢索模型以及利用檢索模型進(jìn)行信息檢索的過程,展示在一個(gè)可視化空間中,并向用戶提供信息檢索服務(wù)。其實(shí)質(zhì)是提供一種有效的信息反饋機(jī)制,即所謂的“所見即所得”。 可視化檢索的
25、應(yīng)用舉例如國(guó)家衛(wèi)星氣象中心設(shè)置了網(wǎng)上極軌氣象衛(wèi)星資料的可視化檢索系統(tǒng)。復(fù)旦大學(xué)圖書館在其主頁推出了一個(gè)可視化圖書查詢系統(tǒng),圖書館可視化多媒體多環(huán)境導(dǎo)讀圖書館可視化多媒體多環(huán)境導(dǎo)讀與查詢系統(tǒng)與查詢系統(tǒng)(1999年12月通過教育部級(jí)技術(shù)鑒定)形象生動(dòng),可單擊書庫某一書架的某一層的藏書,并將其放大,檢索途徑有書名、作者、排架號(hào)三種,開本與厚薄也與原書相符(由MARC的相應(yīng)字段轉(zhuǎn)化),圖形右邊反映卡片式目錄,下邊反映館藏情況。 6.2.5 個(gè)性化信息檢索個(gè)性化信息檢索n一般過程:n1)新用戶注冊(cè)n2)形成用戶興趣表n3)接收用戶查詢請(qǐng)求n4)對(duì)用戶的查詢請(qǐng)求進(jìn)行分析n5)根據(jù)查詢請(qǐng)求進(jìn)行檢索n6)分析
26、、篩選查詢結(jié)果n7)顯示查詢結(jié)果6.3 信息服務(wù)n6.3.1 信息服務(wù)過程n6.3.2 定題信息提供n6.3.3 查新服務(wù)n6.3.4 信息推送服務(wù)n6.3.5 聯(lián)機(jī)檢索服務(wù)6.3.1 信息服務(wù)過程n信息用戶主要可以通過兩種方式得到信息n第一,由信息服務(wù)部門提供信息;n第二,自助式查詢信息,即信息用戶自己通過網(wǎng)絡(luò)或聯(lián)機(jī)檢索獲取信息 6.3.1 信息服務(wù)過程n信息服務(wù)部門提供信息的服務(wù)過程信息服務(wù)部門提供信息的服務(wù)過程n用戶需求確定。這一過程要求用戶能夠明確本次查詢的目的和確切需求,分清主次目的和需求;n用戶需求表達(dá)。將本次查詢的目的和需求用文字表達(dá),并向信息服務(wù)部門提交查詢申請(qǐng)書;n用戶需求理
27、解。信息服務(wù)人員與用戶交談,理解用戶查詢目的與需求,確立查詢的關(guān)鍵詞與查詢范圍,以及對(duì)檢索結(jié)果的有關(guān)要求等;n選擇查詢數(shù)據(jù)庫或相關(guān)檢索工具。針對(duì)用戶的檢索要求,選擇對(duì)口的數(shù)據(jù)庫或相關(guān)檢索工具;n擬定檢索策略。根據(jù)所選數(shù)據(jù)庫或檢索工具的規(guī)則確定檢索詞,構(gòu)造檢索式或制定檢索步驟和執(zhí)行方案,以及檢索結(jié)果不滿足檢索需求后的修訂措施;n檢索實(shí)施。根據(jù)擬定的檢索策略執(zhí)行檢索過程;6.3.1 信息服務(wù)過程n自助式查詢信息的過程自助式查詢信息的過程n明確查詢目的n確定信息資源對(duì)應(yīng)的網(wǎng)站地址n查詢6.3.2 定題信息提供定題信息提供n定題信息提供通常被稱為SDI(Selective Dissemination
28、of Information Service)n它的主要功能是由信息服務(wù)部門定期(或成批)地向用戶提供所需最新信息的服務(wù)。6.3.2 定題信息提供定題信息提供nSDI的服務(wù)流程的服務(wù)流程nSDI是一種變被動(dòng)為主動(dòng)的信息服務(wù)手段,通常包括以下過程:n用戶提交檢索需求。檢索需求中需說明檢索目的、要求、主要檢索詞、以及檢索詞之間的關(guān)系等;n填寫檢索提問單。這一過程需要用戶與檢索人員進(jìn)行交談,并在其指導(dǎo)下填寫用戶提問單;n構(gòu)造檢索策略。有信息檢索人員根據(jù)與用戶交談的結(jié)果并根據(jù)檢索提問單的內(nèi)容設(shè)計(jì)檢索式;n檢索調(diào)試。利用已構(gòu)造好的檢索式進(jìn)行預(yù)檢索,檢索結(jié)果送達(dá)用戶征求意見。如果用戶對(duì)檢索結(jié)果不滿意,再根
29、據(jù)用戶的意見修改檢索式,直到用戶滿意為止;n歸并檢索式。將用戶滿意的檢索式歸并入用戶提問檔,等待定期檢索;n定期檢索。定期(或每當(dāng)有新信息入庫時(shí))用檢索提問檔去匹配數(shù)據(jù)庫中的最新信息,檢索結(jié)果分發(fā)用戶。6.3.3 查新服務(wù)查新服務(wù) n查新服務(wù)是指對(duì)某一研究專題或新產(chǎn)品等國(guó)內(nèi)外發(fā)展的最新成果、水平動(dòng)向、最新動(dòng)態(tài)等調(diào)查研究,撰寫調(diào)查報(bào)告,并提交有關(guān)部門或個(gè)人的信息服務(wù)工作。 6.3.3 查新服務(wù)查新服務(wù) n查新服務(wù)從接受查新請(qǐng)求到提交查新報(bào)告大致歷經(jīng)如下幾個(gè)過程:n受理查新課題。主要由項(xiàng)目委托人遞交查新申請(qǐng)書,申請(qǐng)書中需注明項(xiàng)目名稱、查新種類和查新目的,查新人員閱讀查新申請(qǐng)書后與之交談,并指導(dǎo)填寫查新委托書;n分析查新項(xiàng)目確定查新重點(diǎn)。由查新人員根據(jù)查新委托書以及交談理解,分析用戶查新特點(diǎn),擬定查新重點(diǎn),確定查新總目標(biāo);n設(shè)計(jì)查新檢索策略。檢索策略涉及到:選擇查新工具(數(shù)據(jù)庫),應(yīng)盡可能多的選擇查詢工具,以確保獲得較高的查全率;針對(duì)不同的查新工具確定檢索途徑,選擇檢索詞,設(shè)計(jì)檢索式,確保查詢結(jié)果全面、準(zhǔn)確;n檢索實(shí)施。根據(jù)擬定的檢索方案,進(jìn)行檢索操作。在實(shí)施過程中注意檢索結(jié)果的查準(zhǔn)率和查全率,如不能達(dá)到預(yù)期目標(biāo),及時(shí)更新檢索策略;n分析評(píng)價(jià)。整理查新結(jié)果,并將其
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權(quán)】 IEC 62841-2-22:2025 EXV EN Electric motor-operated hand-held tools,transportable tools and lawn and garden machinery - Safety - Part 2-22: Particular requirements for hand-
- 2025至2030中國(guó)白銀行業(yè)市場(chǎng)發(fā)展分析及發(fā)展趨勢(shì)與投資前景報(bào)告
- 2025至2030中國(guó)男式化妝品行業(yè)市場(chǎng)發(fā)展現(xiàn)狀及發(fā)展前景與投資風(fēng)險(xiǎn)報(bào)告
- 2025至2030中國(guó)甘蔗榨汁機(jī)械行業(yè)深度研究及發(fā)展前景投資評(píng)估分析
- 招聘培訓(xùn)課件素材
- 教育心理學(xué)在家庭環(huán)境中的實(shí)踐-以培養(yǎng)孩子同理心為例的探索研究
- 教育科技倫理視角下的創(chuàng)新與責(zé)任
- 企業(yè)教育培訓(xùn)的科技倫理要求及實(shí)現(xiàn)途徑
- 教育設(shè)施與節(jié)能環(huán)保的完美結(jié)合
- 智慧教室中的情緒識(shí)別與干預(yù)策略研究
- 直流屏培訓(xùn)課件
- 員工身心健康情況排查表
- 基于STC89C52的智能煙霧檢測(cè)報(bào)警系統(tǒng)論文
- GB/T 42567.1-2023工業(yè)過程測(cè)量變送器試驗(yàn)的參比條件和程序第1部分:所有類型變送器的通用程序
- 2023年成都市成華區(qū)數(shù)學(xué)六年級(jí)第二學(xué)期期末教學(xué)質(zhì)量檢測(cè)模擬試題含解析
- QC提高土工格柵加筋擋土墻施工質(zhì)量中鐵
- 說儒(上、下)-胡適文檔全文預(yù)覽
- 《協(xié)和醫(yī)院護(hù)理專家 月嫂培訓(xùn)手冊(cè)》讀書筆記思維導(dǎo)圖PPT模板下載
- 2023年《中藥學(xué)綜合知識(shí)與技能》高分通關(guān)題庫600題(附答案)
- LY/T 1846-2009森林火災(zāi)成因和森林資源損失調(diào)查方法
- GB/T 1229-2006鋼結(jié)構(gòu)用高強(qiáng)度大六角螺母
評(píng)論
0/150
提交評(píng)論