


下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、向量空間模型的信息檢索技術(shù) 摘要: 向量空間模型是一種以查詢Q和文檔集合D1,D2,Dn為處理對(duì)象的算法,通過(guò)這種算法計(jì)算出這個(gè)查詢的相似度SC(Q,Di)以及每篇文檔Di(1in)。為了能夠?qū)崿F(xiàn)對(duì)信息檢索中的文本分類(lèi)策略,采用了空間模型算法,做了實(shí)驗(yàn)文檔測(cè)試,獲得了各自的權(quán)重文檔搜索結(jié)果,得到在檢索過(guò)程中,向量空間模型根據(jù)文檔之間的相似度,計(jì)算哪個(gè)文檔最符合用戶輸入的關(guān)鍵字的結(jié)論,具有信息檢索中文本相似度根據(jù)權(quán)值大小分類(lèi)顯示的特點(diǎn)。 Abstract: Vector space model is a Q query and document co
2、llection of D1,D2,Dn., as the processing object algorithm, this algorithm to calculate the similarity of the query SC(Q,Di) and each document D(1in).In order to realize the text classification in information retrieval,the space model algorithm is adopted in this paper. The weight document search res
3、ults were obtained by means of the documentation testing in the lab,In a retrieval process,the vector space model is used according to the similarity between documents to calculate which one conforms to user S input key words.It has the characteristics of text similarity display according to the wei
4、ght classification in the information retrieva1. 關(guān)鍵詞: 空間向量模型;查詢;信息檢索;文檔相關(guān)性 Key words: space vector model;query;information retrieval;document dependence 中圖分類(lèi)號(hào):TP3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-4311(2013)13-0208-02 0 引言 向量空間模型是一種以查詢Q和文檔集合D,D,D為處理對(duì)象的算法,通過(guò)這種算法計(jì)算出這個(gè)查詢的相似度SC(Q,D)以及每篇文檔D(1in)。在文檔和查詢擁有的共同的此項(xiàng)更多的時(shí)候,那么文檔
5、和查詢就更加相關(guān)。但是,通常一個(gè)概念是能夠用很多不同的詞項(xiàng)來(lái)表達(dá)的,這是因?yàn)檎Z(yǔ)言文字具有著自身的不確定性。另外,語(yǔ)言的環(huán)境對(duì)term也有著比較大的影響,語(yǔ)言環(huán)境不同,盡管是相同的term也可能造成表達(dá)含義的不同,有的時(shí)候詞性不同,那么它表達(dá)的含義也就不一樣。而檢索算法就能夠通過(guò)一些措施來(lái)解決語(yǔ)言表達(dá)中不確定性的問(wèn)題。 下面介紹幾種常用的檢索模型: 向量空間模型:向量空間模型是能夠計(jì)算兩個(gè)向量之間的相似度的,那么如果將查詢和文檔都用詞項(xiàng)空間中的向量來(lái)表示的話,那么就可以通過(guò)這種方法計(jì)算出二者的相似度。 概率模型:每個(gè)詞項(xiàng)在文檔中出現(xiàn)的概率,需要基于文檔集中的前提下,通過(guò)詞項(xiàng)在相關(guān)文檔中出現(xiàn)的可能
6、性來(lái)計(jì)算的。要推斷文檔或者查詢問(wèn)的相關(guān)性,需要通過(guò)貝葉斯網(wǎng)絡(luò)。而在文檔中能夠做出文檔相關(guān)性推斷的那些依據(jù)正是基于文檔的證據(jù)。文檔查詢的相似度也就成為了推理的可信度。 1 空間模型的理論概念 最為接近查詢的內(nèi)容的文檔就是相關(guān)的文檔,在這個(gè)過(guò)程中,需要運(yùn)用文檔內(nèi)的詞項(xiàng)來(lái)衡量。向量空間模型的基本理念如圖1。 這個(gè)模型的主要工作有兩個(gè)方面:一方面是通過(guò)向量的構(gòu)建,來(lái)表示詞項(xiàng),這里的詞項(xiàng)來(lái)自于文檔;另一方面是通過(guò)向量的構(gòu)建,來(lái)表示查詢的詞項(xiàng)。任意文檔向量和查詢向量要是相似的話,那么就只有一種的可能,就是文檔向量和查詢向量的指向在大體上是一樣的。 2 向量空間模型的算法 2.1 計(jì)算權(quán)重 在一篇文檔中,影
7、響詞語(yǔ)的重要性的因素有兩個(gè)。 一個(gè)是term frequency(tf):也就是說(shuō)term在這個(gè)文檔中出現(xiàn)的次數(shù),這個(gè)數(shù)值越高說(shuō)明這個(gè)詞在整個(gè)文檔中越重要。 另外一個(gè)是document frequency(df):就是指的包含term的文檔的總數(shù),這個(gè)數(shù)值越大就說(shuō)明這個(gè)詞語(yǔ)越不 重要。 對(duì)于每一篇文檔向量,都有n個(gè)分量,并且對(duì)于整個(gè)文檔集中每個(gè)不同的詞項(xiàng),都包含一個(gè)詞條。向量中的每個(gè)分量為整個(gè)文檔集中計(jì)算出來(lái)的每個(gè)詞項(xiàng)的權(quán)重。在每篇文檔中,詞項(xiàng)權(quán)重基于詞項(xiàng)在整個(gè)文檔集中出現(xiàn)的頻率情況以及詞項(xiàng)在某一個(gè)特定文檔中出現(xiàn)的頻率自動(dòng)賦值。詞項(xiàng)在一篇文檔中出現(xiàn)的頻率越高,則權(quán)重越大;相反,如果詞項(xiàng)在所有文
8、檔中出現(xiàn)的頻率越高,則權(quán)重越小。 僅當(dāng)詞項(xiàng)在文檔中出現(xiàn)時(shí),文檔向量中詞項(xiàng)的權(quán)重才為非零值。對(duì)于一個(gè)包含許多小文檔的大文檔集,文檔向量可能會(huì)包含大量的零元素。 2.2 判斷term之間的關(guān)系從而得到文檔相關(guān)性 可以把文檔看成一系列詞,每個(gè)詞都有一個(gè)權(quán)重,不同的詞根據(jù)實(shí)際文檔中的權(quán)重來(lái)影響文檔相關(guān)性的打分計(jì)算。所有文檔中總的詞的權(quán)重看做一個(gè)向量。 所有搜索出的文檔向量及查詢向量放到一個(gè)N維空間中,每個(gè)詞是一維。兩個(gè)向量之間的夾角越小,相關(guān)性越大。所以計(jì)算夾角的余弦值作為相關(guān)性的打分,夾角越小,余弦值越大,打分越高,相關(guān)性越大,如圖2所示。 相關(guān)性評(píng)價(jià)公式如下: score(q,d)= 3 引入實(shí)例
9、測(cè)試 可以簡(jiǎn)單測(cè)試如下,查詢語(yǔ)句有11個(gè)Term,有4篇文檔搜索出來(lái),其中各自的權(quán)重(Term Weight)見(jiàn)表1。 SC(Q,D2)=(0.954×0.477)+(0.176)2/ ·0.825 由表1可得出結(jié)果,D2文檔的相關(guān)性最高,最先返回,其次是文檔D1,D3,最后D4。 4 結(jié)論 這篇論文對(duì)向量空間模型算法進(jìn)行了介紹。文章的語(yǔ)義是使用各種詞語(yǔ)來(lái)表達(dá)的,詞語(yǔ)是具有不確定性的,這是這個(gè)模型所依據(jù)的一個(gè)思想。主要把任意一個(gè)文檔中的詞語(yǔ)當(dāng)做一個(gè)向量的話,通過(guò)文檔與查詢之間的比較,就有可能會(huì)得出他們的相似度。目前這個(gè)模型主要應(yīng)用在信息檢索的域。 參考文獻(xiàn): 1何飛.基于向量空間模型的文檔聚類(lèi)算法研究J.湖南城市學(xué)院學(xué)報(bào),2011(5):114-116. 2唐菁.Web文本挖掘系統(tǒng)及聚類(lèi)算法的研究J.電信建設(shè),2004(2):24-28. 3邱宇紅.向量空間模型在醫(yī)學(xué)文獻(xiàn)相關(guān)性研究中的應(yīng)用 D.沈陽(yáng):中國(guó)醫(yī)科大學(xué),2006. 4張?jiān)?,趙仲孟,沈鈞毅.一種基于向量空間模型的個(gè)性化搜索引擎研究J.微電子學(xué)與
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年點(diǎn)火系統(tǒng):點(diǎn)火開(kāi)關(guān)項(xiàng)目合作計(jì)劃書(shū)
- 2025年紅外線汽車(chē)尾氣分析儀項(xiàng)目合作計(jì)劃書(shū)
- 教育技術(shù)與OER的深度融合研究
- 2025年年中國(guó)電子政務(wù)合作協(xié)議書(shū)
- 腦波技術(shù)在學(xué)習(xí)障礙診斷中的應(yīng)用前景
- 2025年廣東省深圳市龍文一對(duì)一物理高一下期末質(zhì)量檢測(cè)試題含解析
- 湖北省漢川二中2025年物理高二下期末檢測(cè)模擬試題含解析
- 商業(yè)洞察生物機(jī)制驅(qū)動(dòng)的可持續(xù)發(fā)展戰(zhàn)略
- 技術(shù)引領(lǐng)未來(lái)中醫(yī)傳承在智能教育領(lǐng)域的發(fā)展
- 2025年湖南省東安一中高一物理第二學(xué)期期末質(zhì)量檢測(cè)模擬試題含解析
- 三年級(jí)上冊(cè)萬(wàn)以內(nèi)的加減法計(jì)算題200道及答案
- 北京市《配電室安全管理規(guī)范》(DB11T 527-2021)地方標(biāo)準(zhǔn)
- 湖南省邵陽(yáng)市海誼中學(xué)2024-2025學(xué)年高一上學(xué)期分班考試化學(xué)試題(原卷版)
- 三年級(jí)數(shù)學(xué)下冊(cè)計(jì)算題大全(每日一練共23份)
- 湖南省邵陽(yáng)市海誼中學(xué)2024-2025學(xué)年高一上學(xué)期(開(kāi)學(xué))分班考試物理試題(解析版)
- 交通信號(hào)統(tǒng)一管控優(yōu)化平臺(tái)
- 個(gè)人農(nóng)村承包土地合同范本
- 光伏工程合同
- 海姆立克評(píng)分標(biāo)準(zhǔn)
- 碳匯經(jīng)濟(jì)與政策智慧樹(shù)知到期末考試答案章節(jié)答案2024年浙江農(nóng)林大學(xué)
- 支付寶商戶經(jīng)營(yíng)模式說(shuō)明模版
評(píng)論
0/150
提交評(píng)論